CN116996771A - 一种基于多种传感器与深度强化学习的自动拍摄控制装置及控制方法 - Google Patents
一种基于多种传感器与深度强化学习的自动拍摄控制装置及控制方法 Download PDFInfo
- Publication number
- CN116996771A CN116996771A CN202310875255.1A CN202310875255A CN116996771A CN 116996771 A CN116996771 A CN 116996771A CN 202310875255 A CN202310875255 A CN 202310875255A CN 116996771 A CN116996771 A CN 116996771A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- layer
- training
- sensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000002787 reinforcement Effects 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 89
- 238000005286 illumination Methods 0.000 claims abstract description 34
- 230000009471 action Effects 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 23
- 230000000694 effects Effects 0.000 claims abstract description 19
- 230000000875 corresponding effect Effects 0.000 claims abstract description 14
- 238000013135 deep learning Methods 0.000 claims abstract description 8
- 230000001276 controlling effect Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 70
- 238000013527 convolutional neural network Methods 0.000 claims description 39
- 238000013528 artificial neural network Methods 0.000 claims description 38
- 210000002569 neuron Anatomy 0.000 claims description 32
- 125000004122 cyclic group Chemical group 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 18
- 230000033001 locomotion Effects 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000005259 measurement Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000001931 thermography Methods 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 6
- 210000003128 head Anatomy 0.000 claims description 5
- 238000013136 deep learning model Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000003331 infrared imaging Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000003287 optical effect Effects 0.000 claims description 2
- 230000035945 sensitivity Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 1
- 239000000463 material Substances 0.000 claims 1
- 230000036544 posture Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 230000007774 longterm Effects 0.000 description 4
- 230000005855 radiation Effects 0.000 description 4
- 210000000697 sensory organ Anatomy 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000003381 stabilizer Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009529 body temperature measurement Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01D—MEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
- G01D21/00—Measuring or testing not otherwise provided for
- G01D21/02—Measuring two or more variables by means not covered by a single other subclass
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/695—Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多种传感器与深度强化学习的自动拍摄控制装置及控制方法,属于控制系统技术领域,包括采集模块,中控模块,执行动作模块,电池模块;采集模块、执行动作模块均与中控模块连接,中控模块用于控制整个装置运动,用采集模块收集的数据进行训练和对比,最终发送指令到执行动作模块,执行相应的动作;通过深度学习网络,实现了对环境的感知,拍摄姿态的调整和画面的调整。在拍摄过程中对目标拍摄时通过多种传感器感知对温度,光照,距离等进行分析,通过采集这些数据,我们利用深度学习网络进行模型搭建,对数据实时分析,进行设备的前进后退,左右移动,调整机械臂的角度,俯仰的姿态调整,从而实现拍摄达到最优效果。
Description
技术领域
本发明涉及一种基于多种传感器与深度强化学习的自动拍摄控制装置及控制方法,属于控制系统技术领域。
背景技术
目前智能化发展迅速,在我们生活中随处可见,例如:智能遥控机器人、智能远程遥控摄像头、智能平衡车、无人驾驶等跟我们的生活密切相关。在当前拍摄领域,拍摄设备结合拍摄方法已经成为了一个非常重要的手段。拍摄方式和地点有很多,拍摄效果也大不相同。经调查发现,大部分人拍照时喜欢通过手机、照像机这些拍摄设备。用户对拍摄照片效果质量要求也是很多的,在不同环境下追求照片的效果也不同。拍摄时,有几个大的方向是我们需要参考的,物体,地点,主人公,背景,环境,通过这些方向,人们可以清晰明确拍摄内容。由于缺少对环境因素和拍摄手段的学习,照片的效果质量并不能满足我们的需求,甚至大部分用户在拍摄时,不知道该怎从哪方面下手。缺少了这方面的学习和规划,人们会进行反反复复的拍摄和对比,最终结果达不到心意的程度,影响人们的心情并带来一定的困扰。
目前,我们辅助拍摄也是多种多样,借助拍摄辅助器也给我们拍摄增加更多功能和拍摄方式。例如:自拍杆,三脚架,云台稳定器,延迟拍照、声控拍照等,在特殊场合下可以满足拍摄,有助我们传统方式手动拍摄带来的不足。这些辅助器,人们通过练习学习的方式,一定程度上辅助器可以方便满足特殊场景带来的困扰,但是问题也逐渐显露,从延迟拍照来说需要用户进行手势和动作配合,耗时耗力,有出现提前或者慢拍的问题。声控拍照是用户通过声音发出指令后进行拍照,用户发出指令后需要迅速调整面部表情,给拍摄增加挑战。云台稳定器使用之前需要用户进行学习和动作练习,需要一定的基础,对时间成本很高。
神经网络自从它被提出以来就一直没有停止向前发展,其理论不断得到更新,基于神经网络的各种产品也不断被设计出来,被应用在各种科学研究领域。利用神经网络和其它学科的结合去处理问题也成为人们研究解决新问题的一个方向。其中拍摄模块和神经网络的结合为拍摄技术找到了一个新的研究方向,近年来有很多机构和个人都致力于这方面的研究。神经网络在各种应用中都有着优异的表现,尤其是与模式识别理论相结合以后。无论从学术上来讲还是从经济效益上来讲,这个领域都是一个热门领域。值得我们去做出更多的深入研究,开发出更多的应用品。本发明基于多种传感器与深度强化学习的自动拍摄控制系统及装置,该系统通过多种传感器和机械臂结合深度学习模型,调整拍摄姿态,让拍摄图片达到最理想状态。
目前,人们为了从外界获取信息,必须借助于感觉器官。而单靠人们自身的感觉器官,在研究自然现象和规律以及生产活动中它们的功能就远远不够了。为适应这种情况,就需要传感器。因此可以说,传感器是人类五官的延长,又称之为电五官。新技术革命的到来,世界开始进入信息时代。在利用信息的过程中,首先要解决的就是要获取准确可靠的信息,而传感器是获取自然和生产领域中信息的主要途径与手段。
由于缺乏相关学习手段和拍摄方式带来的困扰,为此本发明提出了一种深度强化学习的自动拍摄技术控制方法及装置,该系统装置包含多个传感器和深度强化学习模型,用于实现自动化拍摄控制。无需人工干预,提高拍摄效率和准确性。采用多种传感器,可以全面地感知环境信息,提高控制的精度和鲁棒性。采用了深度强化学习算法,可以不断优化调整控制策略和图片效果,适应各种拍摄场景。
发明内容
针对现有技术的不足,本发明提供一种基于多种传感器与深度强化学习的自动拍摄控制装置及控制方法。本发明基于多种传感器与深度强化学习的自动拍摄控制系统及装置,该装置通过多种传感器获取周围事物环境,对周围环境进行实时监控,拍摄时调整拍摄的姿态和对拍摄画质有所提升。
本发明的技术方案如下:
一种基于多种传感器与深度强化学习的自动拍摄控制装置,包括采集模块,中控模块,执行动作模块,电池模块;
采集模块包括光照传感器、超声波测距传感器、红外温度传感器、红外热成像传感器、角度传感器、视觉传感器,光照传感器用于检测光照强度,测量周围光线的强度和变化,将其转换为电信号输出,超声波测距传感器用于测量距离,红外温度传感器用于测量温度,红外热成像传感器用于辅助呈现图像时检测拍摄画面时的温度,角度传感器用于测量执行动作模块中机械臂关节角度,视觉传感器包括双目摄像头,用于感知深度和距离;
中控模块用于控制整个装置运动,用采集模块收集的数据进行训练和对比,最终发送指令到执行动作模块,执行相应的动作;
执行动作模块包括移动单元、机械臂单元、拍摄单元,移动单元包括驱动电机和轮胎,用于带动装置移动,机械臂单元包括七轴机械臂,机械臂与移动单元之间设有旋转装置,机械臂可以在移动单元上旋转,机械臂用于进行向上向下、左旋右旋、俯视仰视的动作调整,拍摄单元包括摄像头,用于装置调整完后进行拍摄;
电池模块用于为装置进行供电。
优选的,所述采集模块包括以下方案之一:
Ⅰ、光照传感器用于检测光照强度,测量范围0-400klux,光谱范围400nm-700nm,测量误差在正负5%,响应时间为2s,光照传感器测量周围光线的强度和变化,将其转换为电信号输出,反映周围光照情况。
Ⅱ、超声波测距传感器用于测量距离,测量范围0-15m,响应时间20ms,准确度正负10mm,重复精度大于等于2.5mm,运行环境温度:-40℃至+80℃;为了使设备能自动避障移动就必须借助距离传感器,使其及时获取距障碍物的距离信息,测距一个作用是为了解前方,左侧,右侧,后方的环境,另一个作用是测量拍摄时,画面内容之间距离。超声波测距中,通常因温度和时间检测的误差,使得测距的精度不高,所以采用所述1.3红外温度传感器增加测距时的精度。根据超声波测距公式L=C×T,可知测距的误差是由超声波的传播速度误差和测量距离传播的时间误差引起的。式中L为测量的距离长度;C为超声波在空气中的传播速度;T为测量距离传播的时间差。
Ⅲ、红外温度传感器的测量范围-20℃-200℃,精度可达0.5%,热传感利用辐射热效应,探测器件接受辐射引起温度升高,测量空气中的温度,室温下温度等。针对不同场景进行反应不同温度数值。
Ⅳ、红外热成像传感器的测量距离90m,视角为75*110℃,测温范围-40至300℃,绝对温度误差在正负1.5℃,刷新率0.5至60Hz,工作温度-40至85℃,通过红外温度成像传感器可以帮助呈现图像时检测拍摄画面时的温度,避免轮廓不清,曝光度过高,锐度不够,照片模糊。
Ⅴ、角度传感器的测量范围:0-360度,温度漂移为正负0.02℃,分辨率为0.022度,精度为1度,长期稳定1.1度,使用温度:-40-85℃,轴转方向:顺时针,逆时针(可设置),通过角度传感器计算角度。通过角度传感器测出机械臂关节角度,进行机械臂上下俯仰调整。
Ⅵ、视觉传感器采用双目摄像头,深度视场角85.2°*58°,深度分辨率1280*720,理想适用范围0-15m,最大帧数90FPS,像素尺寸:6.0μm-6.0μm,通过双目摄像头更准确地感知深度和距离,实现更精确的景深效果。拍摄时对画面内容捕捉,精准检测画面内容是否为人物等,捕捉人物相关特征,比如鼻子高度,眼睛等,可有效提高照片质量。
优选的,所述执行动作模块包括以下方案之一:
1)、移动单元其中包括,驱动电机,轮胎,驱动电机采用四轮驱动,电机功率为400W,可以提供强大的动力。轮胎采用橡胶材质,直径为5英寸,可以在不同的地形下平稳行驶。此外峰值扭矩为120NM,可以轻松爬过坡度为10-15度的坡道。移动单元可以前进后退左右移动。
2)、机械臂单元其中包括七轴机械臂,机械臂单元采用七轴机械臂是一款丰富自由度的机械结构,具有较强的运动控制能力,自由度为7,有效负载为5kg,重量为8kg,精度为正负0.05mm,工作半径为638.5mm,关节分为J1-J7,主要关节运动范围:J1为正负180°,J2为正负130°,J3为正负180°,J4为正负145°,J5为正负180°,J6为正负128°,J7为正负360°,主要关节最大速度:J1-J2为180°每秒,J3-J7为225°每秒,机械臂主要运动方式为向上向下,左旋右旋,俯视仰视的调整。
3)、拍摄单元采用摄像头,摄像头最大像素500万,光学变焦:1倍,数码变焦:4倍,分辨率:2560×1920,最大光圈:F1.7,实际焦距:f=8.7mm,光圈范围:F1.7-F16,感光度:自动,ISO 50至ISO 50000,快门速度:1/2048秒。拍摄单元主要是设备调整完后,进行拍摄
优选的,电池模块中,电池采用3500mAh,标准充电:1050mA×260min,主要给设备装置进行供电。
优选的,中控模块:中控模块是设备的核心,它控制着整个设备的运动,它通过采集模块把采集到的数据进行训练和对比,最终发送指令到执行动作模块,执行相应的动作。中控模块采用深度学习网络模型,其主要用于对大规模的数据进行训练和预测;深度学习网络模型通常由多层组成,每层都包含多个神经元。每个神经元接收输入数据,并通过激活函数将其转换为输出。每层之间都有权重和偏差,用于控制网络中信息的流动和转换。本发明基于多种传感器与深度强化学习的自动拍摄控制系统及装置,采用卷积神经网络(CNN)和循环神经网络(RNN),采用不同神经网络训练不同的模型,处理采集模块中照片使用卷积神经网络(CNN),卷积神经网络是一种包含卷积运算且具有深度结构的前馈神经网络,卷积神经网络(CNN)包含五种类型的网络层结构:输入层,卷积层,池化层,激活函数层和全连接层;处理距离、温度、角度光照采用循环神经网络(RNN),选取长短时记忆网络(LSTM),其中LSTM也是RNN的一种,而LSTM(长短时记忆网络),因为可以通过阀门(gate,其实就是概率,共有输出、遗忘、输入三个阀门)记忆一些长期信息,所以,相比RNN,保留了更多长期信息(相应地也就保留了更多的梯度)。
一种基于多种传感器与深度强化学习的自动拍摄控制方法,包括步骤如下:
S1、前期工作,包括数据采集、数据整理、数据处理;数据采集为通过采集模块,利用所包含的传感器进行数据收集;数据整理为将采集的数据和带有标明被测对象的标签信息进行整理;数据处理为将数据归一化、去均值处理;
S2、使用卷积神经网络(CNN)主要是用来处理采集模块中的图片数据的深度学习模型,当视觉传感器和红外成像传感器捕捉到画面时,它通过多层卷积和池化操作来提取图像特征,并通过全连接层进行分类或回归任务;
S3、使用循环神经网络(RNN)通过采集模块传感器采集到的温度,光照度,距离,角度数据,将数据分为训练集和测试集,训练集中的数据已标明被测对象的标签信息,标签信息包括:光照偏大、偏暗、距离远近、角度偏大、偏低、温度高低;本系统将样本数据按照标签进行合理划分,以光照为例,过滤掉为空值的标签,剩下的均为有效数据;数据集的处理获取角度、温度、距离、光照、传感器的所有数据,然后对其归一化操作,最后划分数据集合的80%作为训练集,20%作为测试集,并预留训练集中的20%作为验证集;构建数据集后进一步的确认数据集的大小,经过数据归一化处理,并转换成数组的形式;
S4、模型应用到发明中,我们可以将这个训练好的神经网模型络嵌入到装置设备中,让其实时地感知环境,并在识别出目标后自动做出相应的动作,进行自动拍摄。
优选的,步骤S1中,数据采集,通过采集模块,利用所包含的传感器进行数据收集,具体来说,针对角度、温度、距离,光照,拍摄图片,这几个自变量,我们可以将它们作为输入数据中的一部分,组成一个多通道的图像;
数据整理,将采集的数据和带有标明被测对象的标签信息进行整理,所述标签需要通过人工的方式对数据进行注和分类,人工标注将数据分配给人员进行注。按照每种标签状态的正负样本总数,正样本为不存在标签状态的数据,负样本为存在标签状态的数据,然后再按照50%:50%的比例将正样本和负样本分开存储为numpy数组格式;正样本与负样本数量是相同的;
数据处理,先使用softmax函数将数据归一化,把所有得数据都归一到同样的范围,使的不同维度的数据具有相同的分布,再去均值,去均值这是最常见的图片数据预处理,对待训练的每一张图篇的特征,都减去全部训练集图片的特征均值,简单来说是为了把输入数据各个维度都中心化为0,这么做的目的是减小计算量,把数据从原先的标准坐标系下的一个个向量组成的矩阵,变成以这些向量的均值为原点建立的坐标系,使用python的numpy工具包,这一步可以用np.mean(X,axis=0),其中X为参数,axis=0为压缩行,对各列求均值,返回1*n矩阵;去均值可以避免数据过多偏差,影响训练效果。
优选的,步骤S2包括以下步骤,先构建CNN模型,编译模型,再训练模型,经过特征提取,最终生成序列;
构建CNN模型时,卷积层提取图像特征,池化层用于降低特征图的尺寸,全连接层用于进行分类或回归,图片采集所需要的因素有:人物,背景,环境,通过这些因素,分为训练集和测试集,训练集中的数据已标明被测对象的标签信息,标签信息包含的有:a、是否有人物的显示,如果有人物,提取人物眼睛、鼻子、嘴巴、身高、体重、年龄、轮廓等特征;b、拍摄是否是为环境,如果拍摄画面背景为环境,提取位置、距离、色彩和景物等特征;将样本数据按照标签进行合理划分,过滤掉不清楚为空的标签,剩下的均为有效数据;构建模型采用AlexNet,模型包括3个卷积层、3个池化层和2个全连接层,其中最后一个全连接层是softmax层,激活函数采用Relu,Dropout应用在全连接层;
Relu函数为:
f(x)=max(0,x) (1)
进一步优选的,所述图像特征,CNN的输入时张量形式的,包含了图像的高度、宽度、及颜色信息;图像使用RGB色彩模式,分别对应RGB三个颜色通道;在声明一第层时将形状赋值给参数,通过Conv2D和MaxPooling2D层的输出都是一个三位的张量。
进一步优选的,所述全连接层,通过所述卷积层和池化层提取特征后,搭建Dense层(等同于全连接层)实现分类,因Dense层的输入为向量(一维),但前面层的输出是3维的张量,因此再将三维张量展开到一维,之后在传入一个或多个Dense层;因数据集有多个类,所以最终Dense层需要多个输出及一个softmax激活函数:
其中Sj为第j输出值,T为输出节点个数,a为输出向量,j为输出节点的编号,k为类别值,通过Softmax函数就可以将多分类的输出值转换为范围在[0,1]和为1的概率分布。
编译模型时,主要时为模型选择损失函数loss,优化器Optimizer,衡量指标Meteics;通过编译使得训练出来的米星可以更好的的进行预测;
其中损失函数采用交叉熵损失函数:
H(p,q)=∑xp(x)logq(x) (3)
其中p表示真实标记的分布,q则为训练后的模型的预测标记分布,x为样本,交叉熵损失函数可以衡量p与q的相似性;交叉熵作为损失函数还有一个好处是函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。
优化器Optimizer采用Adam梯度下降策略更新各个神经层神经元的权重值;
mt=β1mt-1+(1-β1)gt (5)
mt和vt被初始化为0向量,那它们就会向0偏置,所以做了偏差校正,通过计算偏差校正后的mt和vt来抵消这些偏差:
梯度更新规则:
其中,gt为t时刻误差函数对各权重的导数值;wt为t时刻各神经元的权重值;wt+1为t+1更新后的各神经元权重值;优化算法最常见的两个超参数β1,β2,β1控制一阶动量,典型值为0.9,β2控制二阶动量,典型值为0.999;∈为平滑项,一般取10-8;η指代学习率;mt为t时刻有偏的第一阶动量估计;为经过校正的第一阶动量估计;vt为t时刻有偏的第二阶动量估计;/>为经过校正的第二阶动量估计;
衡量指标Meteics采用Accuracy(准确率)来衡量:
其中,TP表示正确预测正类的样本数量,TN表示正确预测为负类的样本数量,N为样本总数量;
训练模型,使用图像数据集对CNN模型进行训练,在训练过程中,通过反向传播算法不断调整模型的权重和偏置,使其能更好地拟合训练数据;在训练过程中,调整多个超参数,包括学习率、卷积核大小、卷积层数量、全连接层数量、Dropout等;通过多组实验比较,得到了较好的识别效果。在调整参数过程中,发现增加卷积层数量和Dropout能够提升模型的泛化能力,学习率的设置对结果有明显影响,需要根据具体情况进行调整。最终得到的模型在测试集上的准确率达到了80%以上,设置EPOCH训练轮数,当预测达到80%时或者达到设置轮数时停止训练,将张量图和模型权重以tensorflow固有格式保存下来;
特征提取,使用训练好的CNN模型提取图像数据的特征;多层中提取特征,根据提取到的特征包含了图像中不同尺寸,图像中人物,景物,人物特征头部面积,腿部长度,身高比值等;将这些提取到的特征表示转化为数组的形式,使用池化操作将特征映射为定长的向量或矩阵;
序列生成,接下来通过所述提取特征使用循环网络RNN对特征数据进行建模,将图像数组拼接在循环网络中,做进一步的判断,以便于调整设备姿态。
优选的,步骤S3包括以下步骤,先构建RNN模型,再训练模型,经过模型评估部署,再持续优化;
构建RNN模型,在获取处理好的数据集后,构建LSTM神经网络模型进行结果预测,LSTM包括四部分:输入门、输出门、忘记门、记忆单元,先指定输入数据维度,比如,对于采集模块采集的数据作为输入,每一步输入均为一个采样值;其次隐藏状态维度并不受输入和输出控制;通常,隐藏状态是在所有序列中都可运行的向量或矩阵。这是RNN的主要目的,它通过计算前面的步骤来计算其状态。结合当前输入来获得门控信号的,在每次传递的过程中,其会遗忘一些内容并加入当前节点的内容,故对于不同的输入,传递给下一状态的区别也比较大。最终指定输出数据维度,此值取决于预测要求,例如,对距离预测问题偏大或者偏小。构建LSTM神经网络模型时,Sequential用于初始化神经网络,它可以由多个网络层进行线性堆叠,Dense是一层全连接神经网络,activation是激活函数,dropout是选择层后连接的神经元数;以避免过拟合。本发明需要构建一个7层神经网络,其中,输入层有四个节点,隐含层1中有8个神经元,隐含层2中有9个神经元,隐含层3中有9个神经元,隐含层4中有9个神经元,隐含层5中有9个神经元,输出层中有5个神经元,隐含层1和隐含层2中的激活函数为relu函数:
f(x)=max(0,x) (11)
输出层的激活函数为softmax函数:
其中z是一个向量,zi和zj是其中的一个元素,i表示类别索引,j表示类别索引,N为输出节点的个数;
模型训练,使用训练集对循环神经网络模型进行训练;在训练过程中,模型根据输入的数据的序列进行学习,并且尝试预测下一个动作;通过反向传播算法调整模型的权重和偏差,以最小化预测误差;首先将准备好的数据集,包含输入的序列和对应目标的序列输入,在训练之前,初始化循环神经网络的权重和偏置参数;这些参数将在训练过程中进行调整,以使模型能够更好地拟合数据;通过前向传播,将输入序列逐步输入到循环神经网络中,并计算每个时间步的隐藏状态和输出;隐藏状态是循环神经网络中的记忆单元,它会储存之前时间步的信息;再使用目标序列和模型输出之间的差异来计算损失;损失函数衡量了模型的预测与真实值之间的差距;损失函数使用最常用的二进制交叉熵损失函数:
通过反向传播算法,将损失从输出层向后传播到隐藏层,并根据损失对模型的参数进行调整;再通过重复迭代,直到达到预定的轮数或准确度超过90%以上停止训练,训练过程会分为多个迭代批次,每个批次包含一组输入序列;最终设备根据计算出来的序列,执行前后左右移动,调整机械臂的上下和左旋右旋移动,调整摄像俯仰角;
模型评估部署,使用测试集评估训练好的模型的性能;使用评估指标准确率(Accuracy)来评估模型的效果,一旦模型训练和评估完成,将其部署到设备中;将模型嵌入到设备的控制系统中,确保模型能够实时接收传感器数据并生成相应的动作;
评估指标准确率(Accuracy):
其中,TP表示正确预测正类的样本数量,TN表示正确预测为负类的样本数量,N为样本总数量;
持续优化,监控机器人在执行动作时的表现,并根据需要对模型进行进一步的优化和改进,设备收集更多的训练数据、调整模型的超参数或重新训练模型。
本发明的有益效果在于:
区别于当前拍摄技术,本发明基于多种传感器与深度强化学习的自动拍摄控制系统及装置,利用传感器收集数据,通过深度学习网络,实现了对环境的感知,拍摄姿态的调整和画面的调整。在拍摄过程中对目标拍摄时通过多种传感器感知对温度,光照,距离等进行分析,通过采集这些数据,我们利用深度学习网络进行模型搭建,对数据实时分析,进行设备的前进后退,左右移动,调整机械臂的角度,俯仰的姿态调整,从而实现拍摄达到最优效果。
附图说明
图1是本发明基于多种传感器与深度强化学习的自动拍摄控制装置的结构示意图;
图2是本发明基于多种传感器与深度强化学习的自动拍摄控制装置的模块图;
图3是本发明控制系统原理图;
图4是本发明基于多种传感器与深度强化学习的拍摄部分的结构示意图;
图中标记为:1.拍摄单元,2.角度传感器,3.七轴机械臂,4.中控模块,5.超声波测距传感器,6.光照传感器,7.红外温度传感器,8.摄像头,9.视觉传感器,10.红外热成像传感器,11.旋转装置。
具体实施方式
下面通过实施例并结合附图对本发明做进一步说明,但不限于此。
实施例1:
一种基于多种传感器与深度强化学习的自动拍摄控制装置,包括采集模块,中控模块,执行动作模块,电池模块;
采集模块包括光照传感器6、超声波测距传感器5、红外温度传感器7、红外热成像传感器10、角度传感器2、视觉传感器9,光照传感器用于检测光照强度,测量周围光线的强度和变化,将其转换为电信号输出,超声波测距传感器用于测量距离,红外温度传感器用于测量温度,红外热成像传感器用于辅助呈现图像时检测拍摄画面时的温度,角度传感器用于测量执行动作模块中机械臂关节角度,视觉传感器包括双目摄像头,用于感知深度和距离;
光照传感器测量范围0-400klux,光谱范围400nm-700nm,测量误差在正负5%,响应时间为2s,光照传感器测量周围光线的强度和变化,将其转换为电信号输出,反映周围光照情况。
超声波测距传感器测量范围0-15m,响应时间20ms,准确度正负10mm,重复精度大于等于2.5mm,运行环境温度:-40℃至+80℃;为了使设备能自动避障移动就必须借助距离传感器,使其及时获取距障碍物的距离信息,测距一个作用是为了解前方,左侧,右侧,后方的环境,另一个作用是测量拍摄时,画面内容之间距离。超声波测距中,通常因温度和时间检测的误差,使得测距的精度不高,所以采用所述1.3红外温度传感器增加测距时的精度。根据超声波测距公式L=C×T,可知测距的误差是由超声波的传播速度误差和测量距离传播的时间误差引起的。式中L为测量的距离长度;C为超声波在空气中的传播速度;T为测量距离传播的时间差。
红外温度传感器的测量范围-20℃-200℃,精度可达0.5%,热传感利用辐射热效应,探测器件接受辐射引起温度升高,测量空气中的温度,室温下温度等。针对不同场景进行反应不同温度数值。
红外热成像传感器的测量距离90m,视角为75*110℃,测温范围-40至300℃,绝对温度误差在正负1.5℃,刷新率0.5至60Hz,工作温度-40至85℃,通过红外温度成像传感器可以帮助呈现图像时检测拍摄画面时的温度,避免轮廓不清,曝光度过高,锐度不够,照片模糊。
角度传感器的测量范围:0-360度,温度漂移为正负0.02℃,分辨率为0.022度,精度为1度,长期稳定1.1度,使用温度:-40-85℃,轴转方向:顺时针,逆时针(可设置),通过角度传感器计算角度。通过角度传感器测出机械臂关节角度,进行机械臂上下俯仰调整。
视觉传感器采用双目摄像头,深度视场角85.2°*58°,深度分辨率1280*720,理想适用范围0-15m,最大帧数90FPS,像素尺寸:6.0μm-6.0μm,通过双目摄像头更准确地感知深度和距离,实现更精确的景深效果。拍摄时对画面内容捕捉,精准检测画面内容是否为人物等,捕捉人物相关特征,比如鼻子高度,眼睛等,可有效提高照片质量。
中控模块4用于控制整个装置运动,用采集模块收集的数据进行训练和对比,最终发送指令到执行动作模块,执行相应的动作;中控模块采用深度学习网络模型,其主要用于对大规模的数据进行训练和预测;采用卷积神经网络(CNN)和循环神经网络(RNN),采用不同神经网络训练不同的模型,处理采集模块中照片使用卷积神经网络(CNN),卷积神经网络是一种包含卷积运算且具有深度结构的前馈神经网络,卷积神经网络(CNN)包含五种类型的网络层结构:输入层,卷积层,池化层,激活函数层和全连接层;处理距离、温度、角度光照采用循环神经网络(RNN),选取长短时记忆网络(LSTM)。
执行动作模块包括移动单元、机械臂单元、拍摄单元1,移动单元包括驱动电机和轮胎,用于带动装置移动,机械臂单元包括七轴机械臂3,机械臂与移动单元之间设有旋转装置11,机械臂可以在移动单元上旋转,机械臂用于进行向上向下、左旋右旋、俯视仰视的动作调整,拍摄单元包括摄像头8,用于装置调整完后进行拍摄,拍摄单元安装在七轴机械臂的末端,连接下方的中控模块4,中控模块4连接下方旋转装置11,采集模块、执行动作模块均与中控模块连接;
电池采用3500mAh,标准充电:1050mA×260min,主要给设备装置进行供电。
当设备需要进行拍摄时,拍摄单元1实时收集周围环境信息。七轴机械臂3上设有角度传感器2采集信息,角度传感器安装在每段机械臂中间节,用来检测机械臂的运动角度。旋转装置11上方固定七轴机械臂,当旋转装置11转动时带动机械臂转动,中控模块4连接着采集模块、执行动作模块。当采集模块收集信息后,中控模块进行分析,使设备前后移动,旋转装置左右旋转,机械臂装置上下移动调节,俯仰视角调节。直到调节到合适位置后,拍摄单元1进行拍摄,这样就达到了自动拍摄的目的。
实施例2
一种基于多种传感器与深度强化学习的自动拍摄控制方法,包括步骤如下:
S1、前期工作,包括数据采集、数据整理、数据处理;
数据采集,通过采集模块,利用所包含的传感器进行数据收集,具体来说,针对角度、温度、距离,光照,拍摄图片,这几个自变量,我们可以将它们作为输入数据中的一部分,组成一个多通道的图像;
数据整理,将采集的数据和带有标明被测对象的标签信息进行整理,所述标签需要通过人工的方式对数据进行注和分类,人工标注将数据分配给人员进行注。按照每种标签状态的正负样本总数,正样本为不存在标签状态的数据,负样本为存在标签状态的数据,然后再按照50%:50%的比例将正样本和负样本分开存储为numpy数组格式;正样本与负样本数量是相同的;
数据处理,先使用softmax函数将数据归一化,把所有得数据都归一到同样的范围,使的不同维度的数据具有相同的分布,再去均值,去均值这是最常见的图片数据预处理,对待训练的每一张图篇的特征,都减去全部训练集图片的特征均值,简单来说是为了把输入数据各个维度都中心化为0,这么做的目的是减小计算量,把数据从原先的标准坐标系下的一个个向量组成的矩阵,变成以这些向量的均值为原点建立的坐标系,使用python的numpy工具包,这一步可以用np.mean(X,axis=0),其中X为参数,axis=0为压缩行,对各列求均值,返回1*n矩阵;去均值可以避免数据过多偏差,影响训练效果。
S2、使用卷积神经网络(CNN)主要是用来处理采集模块中的图片数据的深度学习模型,当视觉传感器和红外成像传感器捕捉到画面时,它通过多层卷积和池化操作来提取图像特征,并通过全连接层进行分类或回归任务;
先构建CNN模型,编译模型,再训练模型,经过特征提取,最终生成序列;
构建CNN模型时,卷积层提取图像特征,池化层用于降低特征图的尺寸,全连接层用于进行分类或回归,图片采集所需要的因素有:人物,背景,环境,通过这些因素,分为训练集和测试集,训练集中的数据已标明被测对象的标签信息,标签信息包含的有:a、是否有人物的显示,如果有人物,提取人物眼睛、鼻子、嘴巴、身高、体重、年龄、轮廓等特征;b、拍摄是否是为环境,如果拍摄画面背景为环境,提取位置、距离、色彩和景物等特征;将样本数据按照标签进行合理划分,过滤掉不清楚为空的标签,剩下的均为有效数据;构建模型采用AlexNet,模型包括3个卷积层、3个池化层和2个全连接层,其中最后一个全连接层是softmax层,激活函数采用Relu,Dropout应用在全连接层;
Relu函数为:
f(x)=max(0,x) (1)
所述图像特征,CNN的输入时张量形式的,包含了图像的高度、宽度、及颜色信息;图像使用RGB色彩模式,分别对应RGB三个颜色通道;在声明一第层时将形状赋值给参数,通过Conv2D和MaxPooling2D层的输出都是一个三位的张量。
所述全连接层,通过所述卷积层和池化层提取特征后,搭建Dense层(等同于全连接层)实现分类,因Dense层的输入为向量(一维),但前面层的输出是3维的张量,因此再将三维张量展开到一维,之后在传入一个或多个Dense层;因数据集有多个类,所以最终Dense层需要多个输出及一个softmax激活函数:
其中Sj为第j输出值,T为输出节点个数,a为输出向量,j为输出节点的编号,k为类别值,通过Softmax函数就可以将多分类的输出值转换为范围在[0,1]和为1的概率分布。
编译模型时,主要时为模型选择损失函数loss,优化器Optimizer,衡量指标Meteics;通过编译使得训练出来的米星可以更好的的进行预测;
其中损失函数采用交叉熵损失函数:
H(p,q)=∑xp(x)logq(x) (3)
其中p表示真实标记的分布,q则为训练后的模型的预测标记分布,x为样本,交叉熵损失函数可以衡量p与q的相似性;交叉熵作为损失函数还有一个好处是函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。
优化器Optimizer采用Adam梯度下降策略更新各个神经层神经元的权重值;
mt=β1mt-1+(1-β1)gt (5)
mt和vt被初始化为0向量,那它们就会向0偏置,所以做了偏差校正,通过计算偏差校正后的mt和vt来抵消这些偏差:
梯度更新规则:
其中,gt为t时刻误差函数对各权重的导数值;wt为t时刻各神经元的权重值;wt+1为t+1更新后的各神经元权重值;优化算法最常见的两个超参数β1,β2,β1控制一阶动量,典型值为0.9,β2控制二阶动量,典型值为0.999;∈为平滑项,一般取10-8;η指代学习率;mt为t时刻有偏的第一阶动量估计;为经过校正的第一阶动量估计;vt为t时刻有偏的第二阶动量估计;/>为经过校正的第二阶动量估计;
衡量指标Meteics采用Accuracy(准确率)来衡量:
其中,TP表示正确预测正类的样本数量,TN表示正确预测为负类的样本数量,N为样本总数量;
训练模型,使用图像数据集对CNN模型进行训练,在训练过程中,通过反向传播算法不断调整模型的权重和偏置,使其能更好地拟合训练数据;在训练过程中,调整多个超参数,包括学习率、卷积核大小、卷积层数量、全连接层数量、Dropout等;通过多组实验比较,得到了较好的识别效果。在调整参数过程中,发现增加卷积层数量和Dropout能够提升模型的泛化能力,学习率的设置对结果有明显影响,需要根据具体情况进行调整。最终得到的模型在测试集上的准确率达到了80%以上,设置EPOCH训练轮数,当预测达到80%时或者达到设置轮数时停止训练,将张量图和模型权重以tensorflow固有格式保存下来;
特征提取,使用训练好的CNN模型提取图像数据的特征;多层中提取特征,根据提取到的特征包含了图像中不同尺寸,图像中人物,景物,人物特征头部面积,腿部长度,身高比值等;将这些提取到的特征表示转化为数组的形式,使用池化操作将特征映射为定长的向量或矩阵;
序列生成,接下来通过所述提取特征使用循环网络RNN对特征数据进行建模,将图像数组拼接在循环网络中,做进一步的判断,以便于调整设备姿态。
S3、使用循环神经网络(RNN)通过采集模块传感器采集到的温度,光照度,距离,角度数据,将数据分为训练集和测试集,训练集中的数据已标明被测对象的标签信息,标签信息包括:光照偏大、偏暗、距离远近、角度偏大、偏低、温度高低;本系统将样本数据按照标签进行合理划分,以光照为例,过滤掉为空值的标签,剩下的均为有效数据;数据集的处理获取角度、温度、距离、光照、传感器的所有数据,然后对其归一化操作,最后划分数据集合的80%作为训练集,20%作为测试集,并预留训练集中的20%作为验证集;构建数据集后进一步的确认数据集的大小,经过数据归一化处理,并转换成数组的形式;
具体包括以下步骤,先构建RNN模型,再训练模型,经过模型评估部署,再持续优化;
构建RNN模型,在获取处理好的数据集后,构建LSTM神经网络模型进行结果预测,LSTM包括四部分:输入门、输出门、忘记门、记忆单元,先指定输入数据维度,比如,对于采集模块采集的数据作为输入,每一步输入均为一个采样值;其次隐藏状态维度并不受输入和输出控制;通常,隐藏状态是在所有序列中都可运行的向量或矩阵。这是RNN的主要目的,它通过计算前面的步骤来计算其状态。结合当前输入来获得门控信号的,在每次传递的过程中,其会遗忘一些内容并加入当前节点的内容,故对于不同的输入,传递给下一状态的区别也比较大。最终指定输出数据维度,此值取决于预测要求,例如,对距离预测问题偏大或者偏小。构建LSTM神经网络模型时,Sequential用于初始化神经网络,它可以由多个网络层进行线性堆叠,Dense是一层全连接神经网络,activation是激活函数,dropout是选择层后连接的神经元数;以避免过拟合。本发明需要构建一个7层神经网络,其中,输入层有四个节点,隐含层1中有8个神经元,隐含层2中有9个神经元,隐含层3中有9个神经元,隐含层4中有9个神经元,隐含层5中有9个神经元,输出层中有5个神经元,隐含层1和隐含层2中的激活函数为relu函数:
f(x)=max(0,x) (11)
输出层的激活函数为softmax函数:
其中z是一个向量,zi和zj是其中的一个元素,i表示类别索引,j表示类别索引,N为输出节点的个数;
模型训练,使用训练集对循环神经网络模型进行训练;在训练过程中,模型根据输入的数据的序列进行学习,并且尝试预测下一个动作;通过反向传播算法调整模型的权重和偏差,以最小化预测误差;首先将准备好的数据集,包含输入的序列和对应目标的序列输入,在训练之前,初始化循环神经网络的权重和偏置参数;这些参数将在训练过程中进行调整,以使模型能够更好地拟合数据;通过前向传播,将输入序列逐步输入到循环神经网络中,并计算每个时间步的隐藏状态和输出;隐藏状态是循环神经网络中的记忆单元,它会储存之前时间步的信息;再使用目标序列和模型输出之间的差异来计算损失;损失函数衡量了模型的预测与真实值之间的差距;损失函数使用最常用的二进制交叉熵损失函数:
通过反向传播算法,将损失从输出层向后传播到隐藏层,并根据损失对模型的参数进行调整;再通过重复迭代,直到达到预定的轮数或准确度超过90%以上停止训练,训练过程会分为多个迭代批次,每个批次包含一组输入序列;最终设备根据计算出来的序列,执行前后左右移动,调整机械臂的上下和左旋右旋移动,调整摄像俯仰角;
模型评估部署,使用测试集评估训练好的模型的性能;使用评估指标准确率(Accuracy)来评估模型的效果,一旦模型训练和评估完成,将其部署到设备中;将模型嵌入到设备的控制系统中,确保模型能够实时接收传感器数据并生成相应的动作;
评估指标准确率(Accuracy):
其中,TP表示正确预测正类的样本数量,TN表示正确预测为负类的样本数量,N为样本总数量;
持续优化,监控机器人在执行动作时的表现,并根据需要对模型进行进一步的优化和改进,设备收集更多的训练数据、调整模型的超参数或重新训练模型。
S4、模型应用到发明中,我们可以将这个训练好的神经网模型络嵌入到装置设备中,让其实时地感知环境,并在识别出目标后自动做出相应的动作,进行自动拍摄。
Claims (10)
1.一种基于多种传感器与深度强化学习的自动拍摄控制装置,其特征在于,包括采集模块,中控模块,执行动作模块,电池模块;
采集模块包括光照传感器、超声波测距传感器、红外温度传感器、红外热成像传感器、角度传感器、视觉传感器,光照传感器用于检测光照强度,测量周围光线的强度和变化,将其转换为电信号输出,超声波测距传感器用于测量距离,红外温度传感器用于测量温度,红外热成像传感器用于辅助呈现图像时检测拍摄画面时的温度,角度传感器用于测量执行动作模块中机械臂关节角度,视觉传感器包括双目摄像头,用于感知深度和距离;
中控模块用于控制整个装置运动,用采集模块收集的数据进行训练和对比,最终发送指令到执行动作模块,执行相应的动作;
执行动作模块包括移动单元、机械臂单元、拍摄单元,移动单元包括驱动电机和轮胎,用于带动装置移动,机械臂单元包括七轴机械臂,机械臂与移动单元之间设有旋转装置,机械臂用于进行向上向下、左旋右旋、俯视仰视的动作调整,拍摄单元包括摄像头,用于装置调整完后进行拍摄;
电池模块用于为装置进行供电。
2.根据权利要求1所述的基于多种传感器与深度强化学习的自动拍摄控制装置,其特征在于,所述采集模块包括以下方案之一:
Ⅰ、光照传感器用于检测光照强度,测量范围0-400klux,光谱范围400nm-700nm,测量误差在正负5%,响应时间为2s;
Ⅱ、超声波测距传感器用于测量距离,测量范围0-15m,响应时间20ms,准确度正负10mm,重复精度大于等于2.5mm,运行环境温度:-40℃至+80℃;
Ⅲ、红外温度传感器的测量范围-20℃-200℃,精度达0.5%;
Ⅳ、红外热成像传感器的测量距离90m,视角为75*110℃,测温范围-40至300℃,绝对温度误差在正负1.5℃,刷新率0.5至60Hz,工作温度-40至85℃;
Ⅴ、角度传感器的测量范围:0-360度,温度漂移为正负0.02℃,分辨率为0.022度,精度为1度,使用温度:-40-85℃,轴转方向:顺时针,逆时针;
Ⅵ、视觉传感器采用双目摄像头,深度视场角85.2°*58°,深度分辨率1280*720,适用范围0-15m,最大帧数90FPS,像素尺寸:6.0μm-6.0μm。
3.根据权利要求1所述的基于多种传感器与深度强化学习的自动拍摄控制装置,其特征在于,所述执行动作模块包括以下方案之一:
1)、移动单元其中包括,驱动电机,轮胎,驱动电机采用四轮驱动,电机功率为400W,轮胎采用橡胶材质,直径为5英寸,峰值扭矩为120NM;
2)、机械臂单元其中包括七轴机械臂,自由度为7,有效负载为5kg,重量为8kg,精度为正负0.05mm,工作半径为638.5mm,关节分为J1-J7,关节运动范围:J1为正负180°,J2为正负130°,J3为正负180°,J4为正负145°,J5为正负180°,J6为正负128°,J7为正负360°,关节最大速度:J1-J2为180°每秒,J3-J7为225°每秒;
3)、拍摄单元采用摄像头,摄像头最大像素500万,光学变焦:1倍,数码变焦:4倍,分辨率:2560×1920,最大光圈:F1.7,实际焦距:f=8.7mm,光圈范围:F1.7-F16,感光度:自动,ISO 50至ISO 50000,快门速度:1/2048秒;
优选的,电池模块中,电池采用3500mAh,标准充电:1050mA×260min。
4.根据权利要求1所述的基于多种传感器与深度强化学习的自动拍摄控制装置,其特征在于,中控模块采用深度学习网络模型,用于对大规模的数据进行训练和预测;采用卷积神经网络和循环神经网络,处理采集模块中照片使用卷积神经网络,卷积神经网络包含五种类型的网络层结构:输入层,卷积层,池化层,激活函数层和全连接层;处理距离、温度、角度光照采用循环神经网络,选取长短时记忆网络。
5.一种利用权利要求1-4任意一项权利要求所述基于多种传感器与深度强化学习的自动拍摄控制装置的控制方法,其特征在于,包括步骤如下:
S1、前期工作,包括数据采集、数据整理、数据处理;数据采集为通过采集模块,利用所包含的传感器进行数据收集;数据整理为将采集的数据和带有标明被测对象的标签信息进行整理;数据处理为将数据归一化、去均值处理;
S2、使用卷积神经网络来处理采集模块中的图片数据的深度学习模型,当视觉传感器和红外成像传感器捕捉到画面时,它通过多层卷积和池化操作来提取图像特征,并通过全连接层进行分类或回归任务;
S3、使用循环神经网络通过采集模块传感器采集到的温度,光照度,距离,角度数据,将数据分为训练集和测试集,训练集中的数据已标明被测对象的标签信息,标签信息包括:光照偏大、偏暗、距离远近、角度偏大、偏低、温度高低;过滤掉为空值的标签,剩下的均为有效数据;最后划分数据集合的80%作为训练集,20%作为测试集,并预留训练集中的20%作为验证集;构建数据集后进一步的确认数据集的大小,经过数据归一化处理,并转换成数组的形式;
S4、模型应用到发明中,将这个训练好的神经网模型络嵌入到装置设备中,让其实时地感知环境,并在识别出目标后自动做出相应的动作,进行自动拍摄。
6.根据权利要求5所述的控制方法,其特征在于,步骤S1中,数据采集,通过采集模块,利用所包含的传感器进行数据收集,针对角度、温度、距离,光照,拍摄图片,这几个自变量,将它们作为输入数据,组成一个多通道的图像;
数据整理,将采集的数据和带有标明被测对象的标签信息进行整理,正样本为不存在标签状态的数据,负样本为存在标签状态的数据,然后再按照50%:50%的比例将正样本和负样本分开存储为numpy数组格式;
数据处理,先使用softmax函数将数据归一化,把所有得数据都归一到同样的范围,使的不同维度的数据具有相同的分布,再去均值,把输入数据各个维度都中心化为0,把数据从原先的标准坐标系下的一个个向量组成的矩阵,变成以这些向量的均值为原点建立的坐标系,使用python的numpy工具包,用np.mean(X,axis=0),其中X为参数,axis=0为压缩行,对各列求均值,返回1*n矩阵。
7.根据权利要求5所述的控制方法,其特征在于,步骤S2包括以下步骤,先构建CNN模型,编译模型,再训练模型,经过特征提取,最终生成序列;
构建CNN模型时,卷积层提取图像特征,池化层用于降低特征图的尺寸,全连接层用于进行分类或回归,图片采集所需要的因素有:人物,背景,环境,通过这些因素,分为训练集和测试集,训练集中的数据已标明被测对象的标签信息,标签信息包含的有:a、是否有人物的显示,如果有人物,提取人物眼睛、鼻子、嘴巴、身高、体重、年龄、轮廓;b、拍摄是否是为环境,如果拍摄画面背景为环境,提取位置、距离、色彩和景物;将样本数据按照标签进行合理划分,过滤掉为空的标签,剩下的均为有效数据;构建模型采用AlexNet,模型包括3个卷积层、3个池化层和2个全连接层,其中最后一个全连接层是softmax层,激活函数采用Relu,Dropout应用在全连接层;
Relu函数为:
f(x)=max(0,x) (1)
编译模型时,为模型选择损失函数loss,优化器Optimizer,衡量指标Meteics;
其中损失函数采用交叉熵损失函数:
H(p,q)=∑xp(x)logq(x) (3)
其中p表示真实标记的分布,q则为训练后的模型的预测标记分布,x为样本,交叉熵损失函数衡量p与q的相似性;
优化器Optimizer采用Adam梯度下降策略更新各个神经层神经元的权重值;
mt=β1mt-1+(1-β1)gt (5)
mt和vt被初始化为0向量,那它们就会向0偏置,所以做了偏差校正,通过计算偏差校正后的mt和vt来抵消这些偏差:
梯度更新规则:
其中,gt为t时刻误差函数对各权重的导数值;wt为t时刻各神经元的权重值;wt+1为t+1更新后的各神经元权重值;优化算法最常见的两个超参数β1,β2,β1控制一阶动量,典型值为0.9,β2控制二阶动量,典型值为0.999;∈为平滑项,一般取10-8;η指代学习率;mt为t时刻有偏的第一阶动量估计;为经过校正的第一阶动量估计;vt为t时刻有偏的第二阶动量估计;/>为经过校正的第二阶动量估计;
衡量指标Meteics采用Accuracy(准确率)来衡量:
其中,TP表示正确预测正类的样本数量,TN表示正确预测为负类的样本数量,N为样本总数量;
训练模型,使用图像数据集对CNN模型进行训练,在训练过程中,通过反向传播算法不断调整模型的权重和偏置,使其更好地拟合训练数据;在训练过程中,调整多个超参数,包括学习率、卷积核大小、卷积层数量、全连接层数量、Dropout;最终得到的模型在测试集上的准确率达到了80%以上,设置EPOCH训练轮数,当预测达到80%时或者达到设置轮数时停止训练,将张量图和模型权重以tensorflow固有格式保存下来;
特征提取,使用训练好的CNN模型提取图像数据的特征;多层中提取特征,根据提取到的特征包含了图像中不同尺寸,图像中人物,景物,人物特征头部面积,腿部长度,身高比值;将这些提取到的特征表示转化为数组的形式,使用池化操作将特征映射为定长的向量或矩阵;
序列生成,接下来通过所述提取特征使用循环网络RNN对特征数据进行建模,将图像数组拼接在循环网络中,做进一步的判断。
8.根据权利要求7所述的控制方法,其特征在于,构建CNN模型时,所述图像特征,CNN的输入时张量形式的,包含了图像的高度、宽度、及颜色信息;图像使用RGB色彩模式,分别对应RGB三个颜色通道;在声明一第层时将形状赋值给参数,通过Conv2D和MaxPooling2D层的输出都是一个三位的张量。
9.根据权利要求7所述的控制方法,其特征在于,构建CNN模型时,所述全连接层,通过所述卷积层和池化层提取特征后,搭建Dense层实现分类,因Dense层的输入为向量,但前面层的输出是3维的张量,因此再将三维张量展开到一维,之后在传入一个或多个Dense层;因数据集有多个类,所以最终Dense层需要多个输出及一个softmax激活函数:
其中Sj为第j输出值,T为输出节点个数,a为输出向量,j为输出节点的编号,k为类别值,通过Softmax函数将多分类的输出值转换为范围在[0,1]和为1的概率分布。
10.根据权利要求6所述的控制方法,其特征在于,步骤S3包括以下步骤,先构建RNN模型,再训练模型,经过模型评估部署,再持续优化;
构建RNN模型,在获取处理好的数据集后,构建LSTM神经网络模型进行结果预测,LSTM包括四部分:输入门、输出门、忘记门、记忆单元,先指定输入数据维度,对于采集模块采集的数据作为输入,每一步输入均为一个采样值;其次隐藏状态维度并不受输入和输出控制;最终指定输出数据维度,此值取决于预测要求,构建LSTM神经网络模型时,Sequential用于初始化神经网络,它由多个网络层进行线性堆叠,Dense是一层全连接神经网络,activation是激活函数,dropout是选择层后连接的神经元数;构建一个7层神经网络,其中,输入层有四个节点,隐含层1中有8个神经元,隐含层2中有9个神经元,隐含层3中有9个神经元,隐含层4中有9个神经元,隐含层5中有9个神经元,输出层中有5个神经元,隐含层1和隐含层2中的激活函数为relu函数:
f(x)=max(0,x) (11)
输出层的激活函数为softmax函数:
其中z是一个向量,zi和zj是其中的一个元素,i表示类别索引,j表示类别索引,N为输出节点的个数;
模型训练,使用训练集对循环神经网络模型进行训练;在训练过程中,模型根据输入的数据的序列进行学习,并且尝试预测下一个动作;通过反向传播算法调整模型的权重和偏差,以最小化预测误差;首先将准备好的数据集,包含输入的序列和对应目标的序列输入,在训练之前,初始化循环神经网络的权重和偏置参数;通过前向传播,将输入序列逐步输入到循环神经网络中,并计算每个时间步的隐藏状态和输出;隐藏状态是循环神经网络中的记忆单元,储存之前时间步的信息;再使用目标序列和模型输出之间的差异来计算损失;损失函数衡量了模型的预测与真实值之间的差距;损失函数使用最常用的二进制交叉熵损失函数:
通过反向传播算法,将损失从输出层向后传播到隐藏层,并根据损失对模型的参数进行调整;再通过重复迭代,直到达到预定的轮数或准确度超过90%以上停止训练,训练过程会分为多个迭代批次,每个批次包含一组输入序列;最终设备根据计算出来的序列,执行前后左右移动,调整机械臂的上下和左旋右旋移动,调整摄像俯仰角;
模型评估部署,使用测试集评估训练好的模型的性能;使用评估指标准确率(Accuracy)来评估模型的效果,一旦模型训练和评估完成,将其部署到设备中;将模型嵌入到设备的控制系统中,确保模型能够实时接收传感器数据并生成相应的动作;
评估指标准确率(Accuracy):
其中,TP表示正确预测正类的样本数量,TN表示正确预测为负类的样本数量,N为样本总数量;
持续优化,监控机器人在执行动作时的表现,并根据需要对模型进行进一步的优化和改进,设备收集更多的训练数据、调整模型的超参数或重新训练模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310875255.1A CN116996771A (zh) | 2023-07-17 | 2023-07-17 | 一种基于多种传感器与深度强化学习的自动拍摄控制装置及控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310875255.1A CN116996771A (zh) | 2023-07-17 | 2023-07-17 | 一种基于多种传感器与深度强化学习的自动拍摄控制装置及控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116996771A true CN116996771A (zh) | 2023-11-03 |
Family
ID=88520681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310875255.1A Pending CN116996771A (zh) | 2023-07-17 | 2023-07-17 | 一种基于多种传感器与深度强化学习的自动拍摄控制装置及控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116996771A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117951129A (zh) * | 2024-03-25 | 2024-04-30 | 杭州瑞成信息技术股份有限公司 | 一种智能化数据资源目录质量评估与编制系统及其方法 |
CN118075914A (zh) * | 2024-04-18 | 2024-05-24 | 雅安数字经济运营有限公司 | 一种nvr和ipc自动无线对码连接方法 |
-
2023
- 2023-07-17 CN CN202310875255.1A patent/CN116996771A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117951129A (zh) * | 2024-03-25 | 2024-04-30 | 杭州瑞成信息技术股份有限公司 | 一种智能化数据资源目录质量评估与编制系统及其方法 |
CN118075914A (zh) * | 2024-04-18 | 2024-05-24 | 雅安数字经济运营有限公司 | 一种nvr和ipc自动无线对码连接方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116996771A (zh) | 一种基于多种传感器与深度强化学习的自动拍摄控制装置及控制方法 | |
Lopez et al. | Deep single image camera calibration with radial distortion | |
CN107909061B (zh) | 一种基于不完备特征的头部姿态跟踪装置及方法 | |
CN109344882A (zh) | 基于卷积神经网络的机器人控制目标位姿识别方法 | |
Gallego et al. | Event-based camera pose tracking using a generative event model | |
CN109299643B (zh) | 一种基于大姿态对准的人脸识别方法及系统 | |
US11315264B2 (en) | Laser sensor-based map generation | |
CN110135242B (zh) | 基于低分辨率红外热成像深度感知的情绪识别装置及方法 | |
CN107909008A (zh) | 基于多通道卷积神经网络和粒子滤波的视频目标跟踪方法 | |
Passalis et al. | Deep reinforcement learning for controlling frontal person close-up shooting | |
CN108021926A (zh) | 一种基于全景环视系统的车辆刮痕检测方法及系统 | |
CN112949452B (zh) | 一种基于多任务共享网络的机器人弱光环境抓取检测方法 | |
CN110059597B (zh) | 基于深度相机的场景识别方法 | |
CN109558814A (zh) | 一种三维矫正和加权相似性度量学习的无约束人脸验证方法 | |
CN110287829A (zh) | 一种结合深度q学习和注意模型的视频人脸识别方法 | |
CN110210380A (zh) | 基于表情识别与心理学测试生成性格的分析方法 | |
CN109974853A (zh) | 基于多光谱复合的仿生视觉目标检测与跟踪方法 | |
CN107146257B (zh) | 一种自适应水质的水下相机标定装置 | |
CN110866548A (zh) | 输电线路绝缘子红外智能匹配识别与测距定位方法及系统 | |
CN115131503A (zh) | 一种虹膜三维识别的健康监测方法及其系统 | |
CN109064511B (zh) | 一种人体重心高度测量方法、装置及相关设备 | |
CN110009696A (zh) | 基于蜂群算法优化bp神经网络三目视觉标定 | |
Andersen et al. | Event-based navigation for autonomous drone racing with sparse gated recurrent network | |
Zhang | 2D Computer Vision | |
CN115471482B (zh) | 基于计算机视觉的小口径容器内壁缺陷检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |