CN116959121B - 一种基于图像识别的3d立体拍摄的计算机智能控制系统 - Google Patents
一种基于图像识别的3d立体拍摄的计算机智能控制系统 Download PDFInfo
- Publication number
- CN116959121B CN116959121B CN202311224939.1A CN202311224939A CN116959121B CN 116959121 B CN116959121 B CN 116959121B CN 202311224939 A CN202311224939 A CN 202311224939A CN 116959121 B CN116959121 B CN 116959121B
- Authority
- CN
- China
- Prior art keywords
- image
- unit
- module
- instruction
- gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 230000003287 optical effect Effects 0.000 claims description 8
- 238000003706 image smoothing Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 abstract description 3
- 230000008859 change Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/292—Multi-camera tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B7/00—Signalling systems according to more than one of groups G08B3/00 - G08B6/00; Personal calling systems according to more than one of groups G08B3/00 - G08B6/00
- G08B7/06—Signalling systems according to more than one of groups G08B3/00 - G08B6/00; Personal calling systems according to more than one of groups G08B3/00 - G08B6/00 using electric transmission, e.g. involving audible and visible signalling through the use of sound and light sources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20216—Image averaging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像识别的3D立体拍摄的计算机智能控制系统,涉及计算机智能控制系统领域。本发明图像收集模块、图像处理模块、特征提取模块、特征处理模块、3D识别模块以及控制模块,通过获取到一个没有运动目标的背景模型,再将其与目标对应位置的像素进行求和运算取均值获得背景模型,并进行运动区域检测,其数据来源于采集的不含运动目标的背景或者指令动作结束后的背景,采用平均值的处理方式来进行相应帧图像的处理,将处理后的结果作为平均背景模型,通过获取时间特征,学习时空特征来更好的辅助网络识别用户姿势动作,使用户的姿势动作的有效空间特征不会被背景环境变化所影响,提高识别精度。
Description
技术领域
本发明涉及计算机智能控制系统领域,特别是涉及一种基于图像识别的3D立体拍摄的计算机智能控制系统。
背景技术
随着人工智能的快速发展,作为机器学习最重要的一个分支,深度学习近年来发展迅猛,在国内外都引起了广泛的关注,深度学习的相关算法在医疗、金融、艺术、无人驾驶等多个领域均取得了显著的成果,所以,就有专家把 21 世纪看作是深度学习甚至是人工智能发展最为突飞猛进的年代,特别是图像、视频处理和分类等方面,它是从现有数据中获取规则并使用规则来预测未知数据。
在公开号“CN102905076A”公开的“一种3D立体拍摄智能控制的装置、系统及其方法”,包括3D立体拍摄智能控制单元,其包括:主摄像机参数获取模块、副摄像机参数获取模块、图像识别模块、微处理器电路模块,图像识别模块获得的视差数据如果不在预设的视差范围内,图像识别模块则向微处理器电路模块发出信号,微处理器电路模块接收信号并向电动机驱动模块发出需要移动电动机的命令,电动机实现移动,以致使重新获得的视差数据在预设的视差范围内。
但是,在实际的应用过程中,智能控制系统在对用户动作进行识别时,在图像采集的环境中,不止发送指令的用户一人,有时还会有多人进入画面,造成用户动作识别困难,而且,同时还存在环境明暗光线交替,对用户轮廓的识别造成影响。
发明内容
本发明的目的在于提供一种基于图像识别的3D立体拍摄的计算机智能控制系统,解决智能控制系统在对用户动作进行识别时,在图像采集的环境中,不止发送指令的用户一人,有时还会有多人进入画面,造成用户动作识别困难,而且,同时还存在环境明暗光线交替,对用户轮廓的识别造成影响的问题:
本发明为一种基于图像识别的3D立体拍摄的计算机智能控制系统,包括图像收集模块、图像处理模块、特征提取模块、特征处理模块、3D识别模块以及控制模块;
所述图像收集模块用于收集用户各个角度的图像信息,所述图像信息包括背景以及前景,其中,所述图像收集模块包括若干个摄像头、图像采集单元以及分类单元;
所述图像处理模块用于对所述图像信息进行降噪处理,得到降噪后的图像信息;其中,所述图像信息在进行降噪处理之前,先进行图像的灰度转换以及图像的平滑处理;
其中,图像平滑处理是一个面积大小为 N×N 的窗口内,中心像素点和其他相邻像素点之间的梯度绝对值的倒数是作为其他相邻像素点灰度平均值的权重,故处于区域内部的邻点权重将大于处于区域边沿附近或区域外邻点的权重;
设点(j,k)的灰度值为P(j,k),对于它的33邻域,定义梯度倒数为:;
其中,,且不同时为0,建立归一化权重矩阵:;
设w(j,k)=0.5,其余8个系数为0.5,即:;其中,计算出了权重w。
所述特征提取模块用于对降噪后的图像信息进行特征提取;
所述特征提取模块包括:
第一计算单元,用于对图像的背景进行建模,通过获取到一个没有运动目标的背景模型,再将其与目标对应位置的像素进行求和运算取均值获得,计算公式如下:;
其中,为不同时间序列下的背景模型,/>为平均建模帧数的个数,表示当前方法包含1-A帧作为平均对象;
第一更新单元,用于对所述背景模型进行不断地更新迭代,更新公式如下:
;
所述特征处理模块用于通过平均背景建模的方式来进行运动区域检测;
所述特征处理模块包括:
第二计算单元,用于计算图像集合的平均值来作为初始背景,再计算帧与帧之间的平均值与标准差;
所述平均值为:;
所述标准差为:;
其中,,/>为/>处的像素值,t为时间,d是两帧间隔;
在获取到平均值和标准差时,第二更新单元使用下列公式对背景模型进行更新:
;
;
;
其中,,/>,/>为更新后的参数,/>为学习率,提高了网络算法的鲁棒性;
姿势提取单元,用于对用户姿势进行提取,将姿势动作转换为命令图像集合;
所述姿势提取单元包括:
第三计算单元,用于根据数据项能量以及平滑项能量计算数据项和平滑项的总能量,检测用户的完整轮廓;
;
;
其中,为空间梯度;
所述数据项能量表示公式为:;
所述平滑项能量表示公式为:
;
其中,为t时刻的空间梯度;
所述数据项和平滑项的总能量表示公式为:
;
其中,α是正则化参数,γ代表亮度恒定和灰度梯度之间的权重,式中的,/>;
所述3D识别模块,用于通过提取的特征,利用多尺度姿势动作识别框架,对姿势动作进行识别;
所述3D识别模块包括:
姿势识别单元,用于通过对RGB信息结果和光流信息结果进行求和操作得到全新的特征向量,达到姿势识别结果;
姿势分类单元,用于对识别后的用户姿势进行分类;
所述控制模块,用于根据用户姿势模型与预设的姿势模型进行匹配,对计算机进行智能控制;
其中,通过设置图像收集模块、图像处理模块、特征提取模块、特征处理模块、3D识别模块以及控制模块,通过获取到一个没有运动目标的背景模型,再将其与目标对应位置的像素进行求和运算取均值获得背景模型,并进行运动区域检测,其数据来源于采集的不含运动目标的背景或者指令动作结束后的背景,采用平均值的处理方式来进行相应帧图像的处理,将处理后的结果作为平均背景模型,通过获取时间特征,学习时空特征来更好的辅助网络识别用户姿势动作,使用户的姿势动作的有效空间特征不会被背景环境变化所影响,提高识别精度,并且建立了一种结合光流、视频输入的多尺度用户姿势动作识别框架,能够很大程度上降低复杂度,同时还可以对突出的姿势行为的运动特征有更好的识别效果,这样,其中光流数据特征的提取可以很大程度上降低复杂度,也同时去除跟相关行为无关的背景干扰信息,可以使整体的网络对用户的姿势动作更容易识别。
优选地,所述若干个摄像头分别设置在用户的身侧,所述图像采集单元用于采集所述若干个摄像头拍摄后图像信息,所述分类单元用于对若干个摄像头拍摄的图像信息进行分类;其中,所述分类单元将图像信息分为正前方、正后方、左侧、右侧、前左侧、前右侧、后左侧以及后右侧。
优选地,所述图像的灰度转换的公式如下:
;
其中,f表示人眼所观察到的一幅彩色的图像;r,g,b分别表示红色、绿色、蓝色在f彩色图像的色彩分量值;
其中,灰度转换是对图像的预处理,改善画质,使图像的显示效果更加清晰。
优选地,所述3D识别模块还包括:
训练单元,用于训练标准图像指令,将标准图像指令与指令文本匹配变为计算机指令;
第一输入单元,用于将带有标准图像指令的图像输入至训练单元;
第二输入单元,用于将指令文本输入至训练单元;
其中,将文本样本和与所述文本样本对应的标准图像指令样本输入至待训练语音转换网络模型中,进行迭代训练。
优选地,所述控制模块包括:
指令接收单元,用于接收3D识别模块处理后的指令;
指令整理单元,用于将指令接收单元接收的指令进行标记后完成定位储存;
指令输出单元,用于对指令整理单元整理后的指令,根据预设的控制指令算法进行对应的控制指令的输出;
执行单元,用于根据指令输出单元输出的指令,计算机进行相应的指令执行;
控制模块主要是根据指令使计算机执行不同的行动,指令接收单元主要是接收指令,这时,图像信息已经被处理为准确的指令信息了,输入的指令信息与预设的指令进行比对,最后,根据比对结果,使计算机实现不同的行动。
优选地,所述降噪处理使用梯度倒数加权平均法。
优选地,所述对识别后的用户姿势进行分类的公式如下:
;
其中,为第 i 个动作类别的值, C为当前用户的所有姿势动作个数;
通过 Softmax函数可以把每个输出的动作类别的值取到[0,1]这个范围内,并且所有的用户姿势类别值之和为 1。
优选地,所述控制模块还包括报警单元,所述报警单元包括:
语音报警单元,用于进行语音报警;
灯光报警单元,用于驱动灯光进行报警;
其中,报警单元的设置,能够在控制模块的工作过程中,使控制模块或者其他模块发生故障时,能够进行语音报警,灯光报警单元外接灯光模组,使灯光模组闪烁进行报警。
本发明具有以下有益效果:
本发明通过设置图像收集模块、图像处理模块、特征提取模块、特征处理模块、3D识别模块以及控制模块,通过获取到一个没有运动目标的背景模型,再将其与目标对应位置的像素进行求和运算取均值获得背景模型,并进行运动区域检测,其数据来源于采集的不含运动目标的背景或者指令动作结束后的背景,采用平均值的处理方式来进行相应帧图像的处理,将处理后的结果作为平均背景模型,通过获取时间特征,学习时空特征来更好的辅助网络识别用户姿势动作,使用户的姿势动作的有效空间特征不会被背景环境变化所影响,提高识别精度,并且建立了一种结合光流、视频输入的多尺度用户姿势动作识别框架,能够很大程度上降低复杂度,同时还可以对突出的姿势行为的运动特征有更好的识别效果,这样,其中光流数据特征的提取可以很大程度上降低复杂度,也同时去除跟相关行为无关的背景干扰信息,可以使整体的网络对用户的姿势动作更容易识别。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于图像识别的3D立体拍摄的计算机智能控制系统的系统框图;
图2为本发明一种基于图像识别的3D立体拍摄的计算机智能控制系统主要流程示意图;
图3为本发明一种基于图像识别的3D立体拍摄的计算机智能控制系统进行姿势动作识别的框架图;
图4为本发明一种基于图像识别的3D立体拍摄的计算机智能控制系统的3D识别模块框图;
图5为本发明一种基于图像识别的3D立体拍摄的计算机智能控制系统的控制模块框图;
图6为本发明一种基于图像识别的3D立体拍摄的计算机智能控制系统的报警单元框图。
实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“中”、“外”、“内”等指示方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的组件或元件必须具有特定的方位,以特定的方位构造和操作,因此不能理解为对本发明的限制。
如图1-6所示,本实施列包括图像收集模块、图像处理模块、特征提取模块、特征处理模块、3D识别模块以及控制模块;
所述图像收集模块用于收集用户各个角度的图像信息,所述图像信息包括背景以及前景,其中,所述图像收集模块包括若干个摄像头、图像采集单元以及分类单元;
所述图像处理模块用于对所述图像信息进行降噪处理,得到降噪后的图像信息;其中,所述图像信息在进行降噪处理之前,先进行图像的灰度转换以及图像的平滑处理;
其中,图像平滑处理是一个面积大小为 N×N 的窗口内,中心像素点和其他相邻像素点之间的梯度绝对值的倒数是作为其他相邻像素点灰度平均值的权重,故处于区域内部的邻点权重将大于处于区域边沿附近或区域外邻点的权重;
设点(j,k)的灰度值为P(j,k),对于它的33邻域,定义梯度倒数为:;
其中,,且不同时为0,建立归一化权重矩阵:
;
设w(j,k)=0.5,其余8个系数为0.5,即:
;
其中,计算出了权重w。
所述特征提取模块用于对降噪后的图像信息进行特征提取;
所述特征提取模块包括:
第一计算单元,用于对图像的背景进行建模,通过获取到一个没有运动目标的背景模型,再将其与目标对应位置的像素进行求和运算取均值获得,计算公式如下:
;
其中,为不同时间序列下的背景模型,/>为平均建模帧数的个数,表示当前方法包含1-A帧作为平均对象;
第一更新单元,用于对所述背景模型进行不断地更新迭代,更新公式如下:
;
所述特征处理模块用于通过平均背景建模的方式来进行运动区域检测;
所述特征处理模块包括:
第二计算单元,用于计算图像集合的平均值来作为初始背景,再计算帧与帧之间的平均值与标准差;
所述平均值为:;
所述标准差为:;
其中,,/>为/>处的像素值,t为时间,d是两帧间隔;
在获取到平均值和标准差时,使用下列公式对背景模型进行更新:
;
;
;
其中,,/>,/>为更新后的参数,/>为学习率,提高了网络算法的鲁棒性;
姿势提取单元,用于对用户姿势进行提取,将姿势动作转换为命令图像集合;
所述姿势提取单元包括:
第三计算单元,用于根据数据项能量以及平滑项能量计算数据项和平滑项的总能量,检测用户的完整轮廓;
;
;
其中,为空间梯度;
所述数据项能量表示公式为:;
所述平滑项能量表示公式为:
;
其中,为t时刻的空间梯度;
所述数据项和平滑项的总能量表示公式为:
;
其中,α是正则化参数,γ代表亮度恒定和灰度梯度之间的权重,式中的,/>;
所述3D识别模块,用于通过提取的特征,利用多尺度姿势动作识别框架,对姿势动作进行识别;
所述3D识别模块包括:
姿势识别单元,用于通过对RGB信息结果和光流信息结果进行求和操作得到全新的特征向量,达到姿势识别结果。
姿势分类单元,用于对识别后的用户姿势进行分类;
所述控制模块,用于根据用户姿势模型与预设的姿势模型进行匹配,对计算机进行智能控制;
在本实施例中,通过在原有的 2D 卷积上添加一个时间维度,这样可以使模型不仅仅只能提取图片特征,同时也可以对视频进行时序特征提取,而RepVGG网络是在原有的VGG网络的基础上进行改进,如图3所示;
其中,通过设置图像收集模块、图像处理模块、特征提取模块、特征处理模块、3D识别模块以及控制模块,通过获取到一个没有运动目标的背景模型,再将其与目标对应位置的像素进行求和运算取均值获得背景模型,并进行运动区域检测,其数据来源于采集的不含运动目标的背景或者指令动作结束后的背景,采用平均值的处理方式来进行相应帧图像的处理,将处理后的结果作为平均背景模型,通过获取时间特征,学习时空特征来更好的辅助网络识别用户姿势动作,使用户的姿势动作的有效空间特征不会被背景环境变化所影响,提高识别精度,并且建立了一种结合光流、视频输入的多尺度用户姿势动作识别框架,能够很大程度上降低复杂度,同时还可以对突出的姿势行为的运动特征有更好的识别效果,这样,其中光流数据特征的提取可以很大程度上降低复杂度,也同时去除跟相关行为无关的背景干扰信息,可以使整体的网络对用户的姿势动作更容易识别。
所述若干个摄像头分别设置在用户的身侧,所述图像采集单元用于采集所述若干个摄像头拍摄后图像信息,所述分类单元用于对若干个摄像头拍摄的图像信息进行分类;其中,所述分类单元将图像信息分为正前方、正后方、左侧、右侧、前左侧、前右侧、后左侧以及后右侧。
所述图像的灰度转换的公式如下:
;
其中,f表示人眼所观察到的一幅彩色的图像;r,g,b分别表示红色、绿色、蓝色在f彩色图像的色彩分量值;
其中,灰度转换是对图像的预处理,改善画质,使图像的显示效果更加清晰。
如图4所示,所述3D识别模块还包括:
训练单元,用于训练标准图像指令,将标准图像指令与指令文本匹配变为计算机指令;
第一输入单元,用于将带有标准图像指令的图像输入至训练单元;
第二输入单元,用于将指令文本输入至训练单元;
其中,将文本样本和与所述文本样本对应的标准图像指令样本输入至待训练语音转换网络模型中,进行迭代训练。
如图5所示,所述控制模块包括:
指令接收单元,用于接收3D识别模块处理后的指令;
指令整理单元,用于将指令接收单元接收的指令进行标记后完成定位储存;
指令输出单元,用于对指令整理单元整理后的指令,根据预设的控制指令算法进行对应的控制指令的输出;
执行单元,用于根据指令输出单元输出的指令,计算机进行相应的指令执行;
控制模块主要是根据指令使计算机执行不同的行动,指令接收单元主要是接收指令,这时,图像信息已经被处理为准确的指令信息了,输入的指令信息与预设的指令进行比对,最后,根据比对结果,使计算机实现不同的行动。
所述降噪处理使用梯度倒数加权平均法。
所述对识别后的用户姿势进行分类的公式如下:
;
其中,为第 i 个动作类别的值, C为当前用户的所有姿势动作个数;
通过 Softmax函数可以把每个输出的动作类别的值取到[0,1]这个范围内,并且所有的用户姿势类别值之和为 1。
如图6所示,所述控制模块还包括报警单元,所述报警单元包括:
语音报警单元,用于进行语音报警;
灯光报警单元,用于驱动灯光进行报警;
其中,报警单元的设置,能够在控制模块的工作过程中,使控制模块或者其他模块发生故障时,能够进行语音报警,灯光报警单元外接灯光模组,使灯光模组闪烁进行报警。
传统3D模型识别姿势动作的方法有:C3D以及RepVGG,使用本方法与这些方法进行实验,训练批次为19,实验结果如下表:
模型 | 精准率 | 错误率 | 漏检率 |
C3D | 0.52 | 0.48 | 0.55 |
RepVGG | 0.83 | 0.17 | 0.32 |
本专利方法 | 0.92 | 0.08 | 0.20 |
从以上数据对比图可看出,训练批次达到一定值后,三种模型在精确率、误检率和漏检率出现明显差别,精确率(P)分别提升了9%和40%;误检率(FDR)分别降低了9%和40%;漏检率(MDR)分别降低了12%和36%。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (8)
1.一种基于图像识别的3D立体拍摄的计算机智能控制系统,其特征在于,包括图像收集模块、图像处理模块、特征提取模块、特征处理模块、3D识别模块以及控制模块;
所述图像收集模块用于收集用户各个角度的图像信息,所述图像信息包括背景以及前景,其中,所述图像收集模块包括若干个摄像头、图像采集单元以及分类单元;
所述图像处理模块用于对所述图像信息进行降噪处理,得到降噪后的图像信息;其中,所述图像信息在进行降噪处理之前,先进行图像的灰度转换以及图像的平滑处理;
所述特征提取模块用于对降噪后的图像信息进行特征提取;
所述特征处理模块用于通过平均背景建模的方式来进行运动区域检测;
所述3D识别模块,用于通过提取的特征,利用多尺度姿势动作识别框架,对姿势动作进行识别;
所述特征提取模块包括:
第一计算单元,用于对图像的背景进行建模,通过获取到一个没有运动目标的背景模型,再将其与目标对应位置的像素进行求和运算取均值获得,计算公式如下:
其中,Ma为不同时间序列下的背景模型,A为平均建模帧数的个数,(fa+fa+...+fa-A+1)表示当前方法包含1-A帧作为平均对象;
第一更新单元,用于对所述背景模型进行不断地更新迭代,更新公式如下:
所述特征处理模块包括:
第二计算单元,用于计算图像集合的平均值来作为初始背景,再计算帧与帧之间的平均值与标准差;
所述平均值为:
所述标准差为:
其中,Ft(x,y)=|Nt(x,y)-Nt-d(x,y)|,Nt(x,y)为(x,y)处的像素值,t为时间,d是两帧间隔;
姿势提取单元,用于对用户姿势进行提取,将姿势动作转换为命令图像集合;
所述姿势提取单元包括:
第三计算单元,用于根据数据项能量以及平滑项能量计算数据项和平滑项的总能量,检测用户的完整轮廓;
L(x,y,t)=L(x+u,y+v,t+1)
其中,为空间梯度;
所述数据项能量表示公式为:
所述平滑项能量表示公式为:
其中,为t时刻的空间梯度;
所述数据项和平滑项的总能量表示公式为:
Etotal(u,v)=Epic(u,v)+αEsom(u,v);
其中,α是正则化参数,γ代表亮度恒定和灰度梯度之间的权重,式中的x=(x,y,t)T,w=(u,v,l)T。
2.根据权利要求1所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统,其特征在于:所述3D识别模块包括:
姿势识别单元,用于通过对RGB信息结果和光流信息结果进行求和操作得到全新的特征向量,达到姿势识别结果;
姿势分类单元,用于对识别后的用户姿势进行分类;
所述控制模块,用于根据用户姿势模型与预设的姿势模型进行匹配,对计算机进行智能控制。
3.根据权利要求1所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统,其特征在于:所述若干个摄像头分别设置在用户的身侧,所述图像采集单元用于采集所述若干个摄像头拍摄后图像信息,所述分类单元用于对若干个摄像头拍摄的图像信息进行分类;其中,所述分类单元将图像信息分为正前方、正后方、左侧、右侧、前左侧、前右侧、后左侧以及后右侧。
4.根据权利要求1所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统,其特征在于:所述图像的灰度转换的公式如下:
f(a,b)=(0.229×r+0.587×g+0.114×b)
其中,f表示人眼所观察到的一幅彩色的图像;r,g,b分别表示红色、绿色、蓝色在f彩色图像的色彩分量值。
5.根据权利要求1所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统,其特征在于:所述3D识别模块还包括:
训练单元,用于训练标准图像指令,将标准图像指令与指令文本匹配变为计算机指令;
第一输入单元,用于将带有标准图像指令的图像输入至训练单元;
第二输入单元,用于将指令文本输入至训练单元。
6.根据权利要求1所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统,其特征在于:所述控制模块包括:
指令接收单元,用于接收3D识别模块处理后的指令;
指令整理单元,用于将指令接收单元接收的指令进行标记后完成定位储存;
指令输出单元,用于对指令整理单元整理后的指令,根据预设的控制指令算法进行对应的控制指令的输出;
执行单元,用于根据指令输出单元输出的指令,计算机进行相应的指令执行。
7.根据权利要求2所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统,其特征在于:所述对识别后的用户姿势进行分类的公式如下:
其中,Ki为第i个动作类别的值,C为当前用户的所有姿势动作个数。
8.根据权利要求1所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统,其特征在于:所述控制模块还包括报警单元,所述报警单元包括:
语音报警单元,用于进行语音报警;
灯光报警单元,用于驱动灯光进行报警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311224939.1A CN116959121B (zh) | 2023-09-21 | 2023-09-21 | 一种基于图像识别的3d立体拍摄的计算机智能控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311224939.1A CN116959121B (zh) | 2023-09-21 | 2023-09-21 | 一种基于图像识别的3d立体拍摄的计算机智能控制系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116959121A CN116959121A (zh) | 2023-10-27 |
CN116959121B true CN116959121B (zh) | 2024-01-30 |
Family
ID=88449714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311224939.1A Active CN116959121B (zh) | 2023-09-21 | 2023-09-21 | 一种基于图像识别的3d立体拍摄的计算机智能控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959121B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544693A (zh) * | 2013-04-11 | 2014-01-29 | Tcl集团股份有限公司 | 一种前景目标的提取方法和系统 |
CN107516069A (zh) * | 2017-07-27 | 2017-12-26 | 中国船舶重工集团公司第七二四研究所 | 基于几何重构和多尺度分析的目标识别方法 |
CN111666834A (zh) * | 2020-05-20 | 2020-09-15 | 哈尔滨理工大学 | 一种基于图像识别技术的森林火灾自动监测识别系统及方法 |
CN113640768A (zh) * | 2021-08-13 | 2021-11-12 | 北京理工大学 | 一种基于小波变换的低分辨雷达目标识别方法 |
-
2023
- 2023-09-21 CN CN202311224939.1A patent/CN116959121B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544693A (zh) * | 2013-04-11 | 2014-01-29 | Tcl集团股份有限公司 | 一种前景目标的提取方法和系统 |
CN107516069A (zh) * | 2017-07-27 | 2017-12-26 | 中国船舶重工集团公司第七二四研究所 | 基于几何重构和多尺度分析的目标识别方法 |
CN111666834A (zh) * | 2020-05-20 | 2020-09-15 | 哈尔滨理工大学 | 一种基于图像识别技术的森林火灾自动监测识别系统及方法 |
CN113640768A (zh) * | 2021-08-13 | 2021-11-12 | 北京理工大学 | 一种基于小波变换的低分辨雷达目标识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116959121A (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460356B (zh) | 一种基于监控系统的人脸图像自动处理系统 | |
EP3937481A1 (en) | Image display method and device | |
CN108960245B (zh) | 轮胎模具字符的检测与识别方法、装置、设备及存储介质 | |
CN107529650B (zh) | 闭环检测方法、装置及计算机设备 | |
CN107194559B (zh) | 一种基于三维卷积神经网络的工作流识别方法 | |
KR101964397B1 (ko) | 정보처리장치 및 정보처리방법 | |
CN109711366B (zh) | 一种基于群组信息损失函数的行人重识别方法 | |
CN111274916A (zh) | 人脸识别方法和人脸识别装置 | |
CN106951870B (zh) | 主动视觉注意的监控视频显著事件智能检测预警方法 | |
CN109685045B (zh) | 一种运动目标视频跟踪方法及系统 | |
CN111989689A (zh) | 用于识别图像内目标的方法和用于执行该方法的移动装置 | |
CN110929593A (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN113449606B (zh) | 一种目标对象识别方法、装置、计算机设备及存储介质 | |
CN104036284A (zh) | 基于Adaboost算法的多尺度行人检测方法 | |
CN112418032B (zh) | 一种人体行为识别方法、装置、电子设备及存储介质 | |
CN111626090B (zh) | 一种基于深度帧差卷积神经网络的运动目标检测方法 | |
CN113569598A (zh) | 图像处理方法和图像处理装置 | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN116740384B (zh) | 洗地机的智能控制方法及系统 | |
CN113361370A (zh) | 一种基于深度学习的异常行为检测方法 | |
CN113591763A (zh) | 人脸脸型的分类识别方法、装置、存储介质及计算机设备 | |
CN115116132A (zh) | 一种物联网边缘服务环境下深度感知的人体行为分析方法 | |
KR100679645B1 (ko) | 가상의 격자형 평면을 이용한 동작 인식 방법 | |
CN116523916B (zh) | 产品表面缺陷检测方法、装置、电子设备及存储介质 | |
CN117623031A (zh) | 一种电梯无感控制系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |