CN117850244A

CN117850244A - 一种视觉测量控制系统及方法

Info

Publication number: CN117850244A
Application number: CN202410238443.8A
Authority: CN
Inventors: 梁境鑫; 郝健; 卢罗宗; 蒋小进
Original assignee: Haikeshong Manufacturing Intelligent Technology Qingdao Co ltd
Current assignee: Haikeshong Manufacturing Intelligent Technology Qingdao Co ltd
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-04-09
Anticipated expiration: 2044-03-04
Also published as: CN117850244B

Abstract

本发明涉及视觉测量技术领域，且公开一种视觉测量控制系统及方法，其中该系统包括：建模单元，其用于建立输入参数和输出参数之间的跟踪控制模型，输入参数包括轨道的运动速度V_t、图像采集单元的曝光时间T₁、光源延迟触发时间T₂、所采集图像在水平方向上的水平方向像素精度误差e_x及垂直方向上的垂直方向像素精度误差e_y，输出参数包括轨道的运动速度V_t、图像采集单元的曝光时间T₁和光源的频闪频率f；训练单元，其基于DDPG算法训练跟踪控制模型。本发明能够提高工件运动控制、相机拍照触发及光源控制的协调一致性，实现准确抓拍到符合设计要求的图像。

Description

一种视觉测量控制系统及方法

技术领域

本发明涉及视觉测量技术领域，具体涉及一种视觉测量控制系统及方法。

背景技术

基于图像处理的高精密视觉测量控制系统，具有非接触性、实时性、灵活性、精确性等优点。

视觉测量控制系统包括机台、光源、CCD摄像机、图像采集卡、光栅尺、光栅尺读数卡、电机、运动控制卡、PC等，首先通过控制光源以为获得好的图像质量打下良好的基础，CCD摄像机固定在轨道平台上方且用于拍摄在轨道平台上运动中的被测工件的图片，然后图片通过图像采集卡把图像采集到PC里，完成被测对象的图像采集工作，后续通过图像处理技术、空间几何运算、运动控制以及对光栅数据的采集与运算来获得被测工件的几何尺寸和对要检测的物理量的检测。整个视觉测量控制系统仅仅通过简单的鼠标操作就能实现对被测工件的高精密测量，简单、有效。

随着对工业制造技术和加工工艺的提高和改进，对检测手段、检测速度和检测精度提出了更高的要求。在工件运动过程中，如何使用相机抓拍工件，使其测量的速度和精度均提高，需要寻找一种新的检测技术解决这个难题。

在图像测量行业中，提高运动控制单元与相机同步触发拍照协调配合与光源的及时补光，以提高测量效果，一直是个难题。

发明内容

为了解决如上技术问题，本发明目的在于之一在于提供一种视觉测量控制系统，基于DDPG算法，提高工件运动控制、相机拍照触发及光源控制的协调一致性，实现准确抓拍到符合设计要求的图像，且光源控制及相机曝光时间的配合，精准打光到运动中需要测量的工件上，提高检测精度。

为了解决上述技术问题，本发明所提出如下技术方案予以解决：

一种视觉测量控制系统，包括：

运动控制单元，其用于控制轨道运动，所述轨道上载有待测工件；

图像采集单元，其位于轨道上方，用于对经过其下方的待测工件进行图像采集；

光源，其用于控制被打开时对待测工件进行补光；

建模单元，其用于建立输入参数和输出参数之间的跟踪控制模型，所述输入参数包括轨道的运动速度V_t、图像采集单元的曝光时间T₁、光源延迟触发时间T₂、所采集图像在水平方向上的水平方向像素精度误差e_x及垂直方向上的垂直方向像素精度误差e_y，所述输出参数包括轨道的运动速度V_t、图像采集单元的曝光时间T₁和光源的频闪频率f；

训练单元，其基于DDPG算法训练所述跟踪控制模型，以求解最优控制策略，所述DDPG算法中使用的奖励函数R为精准性奖励R_f、高效性奖励R_e和M之和；

其中，R_f=-w₁(e_x ²+e_y ²)+H，R_e=w₂T-P，w₁和w₂是权重参数，在e_x和e_y中至少一个减小到第一预设像素时H给予正值奖励，当e_x和e_y中至少一个大于第二预设像素时H给予惩罚，第一预设像素小于第二预设像素；

T为飞拍过程总的抓拍时间，当T达到预设时间阈值的下限值时且e_x和e_y中至少一个不超过第三预设像素时，惩罚值P为0，否则P为大于0的数值；

在T达到预设时间阈值的下限值时，M给予正值奖励，当T达到预设时间阈值的上限值时，M给予惩罚。

在本申请的一些实施例中，所述视觉测量控制系统还包括：

决策单元，其接收所述最优控制策略，并输出动作，用于控制所述轨道的运行速度、触发所述图像采集单元图像采集且调节所述光源，用于对所述跟踪控制模型进行应用验证。

在本申请的一些实施例中，在控制过程中，若e_x和e_y中至少一个大于第四预设像素、且对工件进行检测的整个检测流程时间大于预设时间时，控制终止当前回合检测流程，进入下一回合检测流程，并重新配置状态值；

且同时，在e_x和e_y中至少一个大于第四预设像素、且对工件进行检测的整个检测流程时间大于预设时间时，M给予惩罚。

在本申请的一些实施例中，所述DDPG算法的训练过程包括：

针对当前Critic网络，以实际Q值与估计Q值的平方损失为损失函数来更新当前Critic网络的参数；

针对当前Actor网络，利用梯度反向传播来更新当前Actor网络的参数；

按比例更新目标Actor网络和目标Critic网络，以更新目标Critic网络的参数和目标Actor网络的参数。

本申请还涉及一种视觉测量控制方法，包括：

建立输入参数和输出参数之间的跟踪控制模型，所述输入参数包括轨道的运动速度V_t、图像采集单元的曝光时间T₁、光源延迟触发时间T₂、所采集图像在水平方向上的水平方向像素精度误差e_x及垂直方向上的垂直方向像素精度误差e_y，所述输出参数包括轨道的运动速度V_t、图像采集单元的曝光时间T₁和光源的频闪频率f，所述轨道上载有待测工件，所述图像采集单元位于轨道上方，用于对经过其下方的待测工件进行图像采集，所述光源用于控制被打开时对待测工件进行补光；

基于DDPG算法训练所述跟踪控制模型，以求解最优控制策略；

其中，所述DDPG算法中使用的奖励函数R为精准性奖励R_f、高效性奖励R_e和M之和；

R_f=-w₁(e_x ²+e_y ²)+H，R_e=w₂T-P，w₁和w₂是权重参数，在e_x和e_y中至少一个减小到第一预设像素时H给予正值奖励，当e_x和e_y中至少一个大于第二预设像素时H给予惩罚，第一预设像素小于第二预设像素；

在本申请的一些实施例中，所述视觉测量控制方法还包括：

用于对所述跟踪控制模型进行应用验证的步骤。

在本申请的一些实施例中，所述DDPG算法的训练过程包括：

与现有技术相比，本发明的优点和有益效果是：

（1）采用DDPG算法输入参数经过奖励和惩罚之后可以自我修正输出的参数信息达到一个最优解，系统通过上一阶段的奖励函数进行下一个阶段的输入参数的调节，实现工件运动、图像采集单元和光源开启的同步性，从而使工件运动过程中图像采集单元抓拍的及时准确性提高，解决影像测量中的拖影问题，且使系统朝着拍照像素误差减少的方向进行，提高图像采集精度；

（2）根据图像采集单元的曝光时间调节光源的频闪频率，使其与图像采集单元的采集频率一致，解决，使光源发出的光精准打在工件上，提升瑕疵图像检测中的暗部的亮度，从而提高工件检测精度。

结合附图阅读本发明的具体实施方式后，本发明的其他特点和优点将变得更加清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对本发明实施例或现有技术描述中所需要使用的附图作一简要介绍，显而易见地，下面描述的附图是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明提出的视觉测量控制方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。在本发明的描述中，需要理解的是，术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。在上述实施方式的描述中，具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本身申请涉及基于运动中工件图像对工件进行检测的过程，其中需要精确采集工件图像，由于工件是由轨道输送运动的，在工件运动到靠近图像采集单元（例如，相机）位置的时候，视觉测量控制系统触发相机拍照，相机调整曝光时间、以及对应打开光源，进行相应的抓拍。

精确的检测基于精确的工件图像的采集，因此，为了协调轨道运动、相机及光源之间的协调运动，本申请采用深度强化学习的方法训练输入参数和输出参数之间的跟踪控制模型，使输入参数能够经过跟踪控制模型的奖励函数自我修正输出的参数达到一个最优解。

如下简要描述下图像抓拍检测场景。

通过振动盘将工件输送至轨道（例如，高透明玻璃转台），其次通过传感器感应来料的工件，再通过高速锁存输入口记录来料的实际位置，当转台转动到视觉检测工位时，控制器通过高速输出口触发相机拍照，然后进行图像处理运算，最后基于运算结果和预设的标准检测条件进行工件自动检测筛选，并剔除不良品。

在视觉检测工位处还设置有光源，在工件到达视觉检测工位时打开光源，及时对被测工件进行补光，提高图像采集质量。

此外，在相机上还设置有传感器（例如速度传感器、位移传感器等）等设备，能够获取到工件的当前位置信息，通过对比相机捕获到的当前时刻下工件的位置信息，可计算出水平方向上的水平向像素精度误差e_x及垂直方向上的垂直方向像素精度误差e_y。

本申请采用的强化学习方法，通过与环境交互进行试错学习，使模型自主探索得到控制系统最优决策，其基本模型框架采用Markov决策过程(Markov decision process，MDP)来描述。

本申请视觉测量控制系统包括建模单元和训练单元。

建模单元用于建立输入参数和输出参数之间的跟踪控制模型。

其中，输入参数包括轨道的运动速度V_t、图像采集单元的曝光时间T₁、光源延迟触发时间T₂、所采集图像在水平方向上的水平方向像素精度误差e_x及垂直方向上的垂直方向像素精度误差e_y。

状态空间是用来帮助系统确定做出决策后发生的情况，所选取的状态量需要全面反映当前时刻下视觉测量控制系统的所有特征值。

在系统触发拍照以及光源的延时控制中的状态量主要包括轨道的运动速度Vt、相机的曝光时间T1、光源延时触发时间T2、水平方向像素精度误差e_x及垂直方向像素精度误差e_y，则设定状态空间定义为：

S=(Vt，T1，T2，e_x，e_y)。

动作空间中包含被控制系统中所需要执行的动作指令，在触发拍照的过程中主要是通过水平方向像素精度误差e_x及垂直方向像素精度误差e_y进行跟踪，因此动作空间包括轨道的运行速度Vt、相机的曝光时间T1与光源的频闪频率f，则设定动作空间定义为：A=(Vt，T1，f)。

控制器结合上述的跟踪控制模型，将强化学习输出的参数信息转换为控制量，调节各个模块使整个系统能够协调一直，使最终系统能够捕获到的相机画面的像素精度符合规定的要求。

建立上述模型后，采用DDPG（Deep Deterministic Policy Gradient，深度确定性策略梯度）算法，求解最优控制策略。

如下，将描述下本申请中采用的DDPG算法。

DDPG算法是Actor-Critic框架和DQN（Deep Q-network，深度Q网络）算法的结合体，采用DQN中的经验回放池和双网络结构来促进神经网络能够有效学习，这里Actor不再是输出每个动作的概率，而是输出每个动作对应的值。

DDPG的网络结构由两大部分组成，即，基于策略的神经网络和基于价值的神经网络。

基于策略的神经网络包括当前Actor网络和目标Actor网络；基于价值的神经网络保留当前Critic网络和目标Critic网络。

两个Actor网络的结构相同，两个Critic网络的结构相同。

当前Actor网络负责策略参数的迭代更新，根据当前环境状态s_t选择当前动作A，并和环境交互生成下一时刻环境状态s_t+1和当前动作A对应的奖励值R。

目标Actor网络根据经验回放池(也即是缓冲区)D中采样的下一时刻环境状态s_t+1选择最优的下一动作A′。

当前Critic网络输入当前Actor网络给出的动作A和当前观测的环境状态，输出状态的价值。

目标Critic网络输入目标Actor网络给出的动作A'和当前观测的环境状态，输出状态的价值。

在训练阶段，只需要训练当前Actor网络和当前Critic网络的参数，目标Actor网络和目标Critic网络的参数是分别由当前Actor网络和当前Critic网络每隔一定的时间复制过去的。

如上所述，已设计视觉测量控制系统的状态空间S及动作空间A，还需要设计奖励函数R。

基于状态空间S、动作空间A和奖励函数R设计DDPG网络，以获取最优控制策略。

执行DDPG网络，利用最优控制策略对视觉测量控制系统进行控制。

奖励函数R的设置描述如下。

奖励函数的设置可引导智能体与环境的交互，使输出的动作决策能够接近最佳策略,在飞拍抓拍跟踪控制中，奖励函数的设计用于调整输出的参数使系统抓拍到的画面误差符合要求。

跟踪的目标在于跟踪精准性和检测高效性，因此基于这两个方面设计奖励函数。

在本申请中，奖励函数R设计为跟踪精准性奖励R_f、检测高效性奖励R_e和M之和。

针对跟踪精准性，可根据像素偏差来评价，跟踪精准性奖励R_f涉及水平方向像素精度偏差e_x和垂直方向像素精度偏差e_y。

R_f=-w₁(e_x ²+e_y ²)+H，其中w₁是权重参数，根据模型需要的准确度预设好的。

当水平方向像素精度误差e_x和垂直方向像素精度误差e_y中至少一个减小到第一预设像素时H给予正值奖励。

当水平方向像素精度误差e_x和垂直方向像素精度误差e_y中至少一个大于第二预设像素时H给予惩罚（即，给负数值），其中，第一预设像素小于第二预设像素。

在本申请中，可以认为在水平方向像素精度误差e_x和垂直方向像素精度误差e_y中至少一个减小到1/3像素以内时H给予正值奖励。

当水平方向像素精度误差e_x和垂直方向像素精度误差e_y中至少一个大于1/2像素时H给予惩罚，鼓励系统减小水平方向像素精度误差与垂直方向像素精度误差的误差总和。

针对检测高效性，可根据整个飞拍过程总的抓拍时间T来评价，检测高效性奖励R_e，涉及抓拍时间，鼓励系统的轨道运行速度快且检测效率高。

R_e=w₂T-P，其中w₂是权重参数，根据模型需要的效率预设好的。

当T达到预设时间阈值的下限值时且e_x和e_y中至少一个不超过第三预设像素时，惩罚值P为0，否则P为大于0的数值。

在本申请中，当T小于2秒且水平方向像素精度误差e_x和垂直方向像素精度误差e_y中至少一个不超过1/2像素时，惩罚值P为0。

当T大于2秒、或水平方向像素精度误差e_x和垂直方向像素精度误差e_y中至少一个超过1/2像素时，惩罚值P为大于0的数值，使系统在规定时间能完成抓拍且减少拖影问题，提高图像采集质量。

如上所述的M可以称为模型惩罚，为一个可以设置的预设值，可以根据模型需要的准确度来调整惩罚力度。

在T达到预设时间阈值的下限值时，M给予正值奖励，当T达到预设时间阈值的上限值时，M给予惩罚（即，给负数值）。

在本申请中，当T小于2秒时，M给予正值奖励，当T大于2秒时，M给予惩罚。

如上，利用奖励函数R可以更新当前Critic网络的参数，通过循环迭代最终训练出最佳当前Actor网络，相应的输出参数传导到视觉测量控制系统，执行最佳决策动作值，再进行循环反馈。

本申请采用DDPG算法输入参数经过奖励和惩罚之后可以自我修正输出的参数信息达到一个最优解，系统通过上一阶段的奖励函数进行下一个阶段的输入参数的调节，实现工件运动、图像采集单元和光源开启的同步性，从而使工件运动过程中图像采集单元抓拍的及时准确性提高，解决影像测量中的拖影问题，且使系统朝着拍照像素误差减少的方向进行，提高图像采集精度。

并且根据图像采集单元的曝光时间调节光源的频闪频率，使其与图像采集单元的采集频率一致，解决，使光源发出的光精准打在工件上，提升瑕疵图像检测中的暗部的亮度，从而提高工件检测精度。

此外，对控制过程设置终止条件，即，若水平方向像素精度误差e_x和垂直方向像素精度误差e_y中至少一个大于第四预设像素、且对工件进行检测的整个检测流程时间大于预设时间时，控制终止当前回合检测流程，进入下一回合检测流程，并重新配置状态值。

且同时在触及终止条件时，M给予惩罚，以防止水平方向像素精度误差和垂直方向像素精度误差过大。

在本申请中，例如，若水平方向像素精度误差e_x和垂直方向像素精度误差e_y中至少一个大于1/2像素、且对工件进行检测的整个检测流程时间大于3秒时，控制终止当前回合检测流程，进入下一回合检测流程，并重新配置状态值。

且同时，在水平方向像素精度误差e_x和垂直方向像素精度误差e_y中至少一个大于1/2像素、且对工件进行检测的整个检测流程时间大于3秒时，M给予惩罚。

在本申请中，DDPG算法按下列步骤执行。

（1）随机初始化当前Actor网络μ、当前Critic网络Q、目标Actor网络μ′和目标Critic网络Q′，并随机初始化经验回放池。

（2）基于状态空间S给定起始状态s_t，将该起始状态Si输入当前Actor网络μ得到起始动作a_t，

。

其中，N表示探索噪声，在训练阶段，给当前Actor网络输出的动作加入噪声，从而让智能体具备一定的探索能力。

（3）执行起始动作a_t，根据奖励函数R得到起始奖励R_t，并进入下一状态s_t+1，将状态转换序列[s_t，a_t，R_t，s_t+1]存储于经验回放池中。

（4）从经验回放池中随机抽取m次转换序列，其中t=1,2,...,m, m≥2，作为当前Actor网络μ和当前Critic网络Q的一小批训练数据。

（5）根据如下当前Critic网络Q的损失函数L（即，实际Q值和估计Q值的平方损失）来进行网络学习，以更新当前Critic网络Q，再根据梯度反向传播更新当前Actor网络μ：

。

其中，Q(s_t, a_t|θ^Q)表示将状态s_t和a_t代入当前Critic网络Q，根据得到的估计Q值，a_t是当前Actor网络μ传过来的动作，y_t为实际Q值。

以目标Q值Y_t的最大值作为实际Q值，即y_t＝max(Y_t)，其中，目标Q值Y_t是根据奖励值R、下一时刻环境状态s_t+1以及目标Actor网络μ'输出的动作μ'（s_t+1|θ_μ'）利用如下贝尔曼方程计算得到：。

其中，R为当前动作对应的奖励值，γ为折扣因子，取值范围为0~1，为可能的下一动作A'对应的期望Q值，由目标Critic网络Q'计算得到，θ^Q'为目标Critic网络Q'的参数。

当前Actor网络μ的参数则是根据梯度反向传播更新当前Actor网络μ，具体公式如下：

；

其中θ^μ为当前Actor网络μ的参数。

（6）按比例更新目标Actor网络μ'和目标Critic网络Q'。

在本实施例中，按比例更新目标Actor网络μ'和目标Critic网络Q'表示按比例更新目标Actor网络μ'的参数θ^μ'和目标Critic网络Q'的参数θ^Q'，并具体按照如下滑动平均方式进行更新。

θ^Q'← τθ^Q+(1-τ)θ^Q'

θ^μ'← τθ^μ+(1-τ)θ^μ'。

其中，τ表示更新系数，一般取的比较小，比如0.1或者0.01这样的值。

如此，可以实现采用DDPG算法对跟踪控制模型进行训练，并输出最优控制策略。

参见图1，本申请还涉及一种基于如上视觉测量控制系统的视觉测量控制方法，其具体内容可参见如上所述内容获取到，且该控制方法具有如上控制系统所具有的有益效果，在此不做赘述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视觉测量控制系统，其特征在于，包括：

光源，其用于控制被打开时对待测工件进行补光；

2.根据权利要求1所述的视觉测量控制系统，其特征在于，所述视觉测量控制系统还包括：

3.根据权利要求1所述的视觉测量控制系统，其特征在于，

在控制过程中，若e_x和e_y中至少一个大于第四预设像素、且对工件进行检测的整个检测流程时间大于预设时间时，控制终止当前回合检测流程，进入下一回合检测流程，并重新配置状态值；

4.根据权利要求1所述的视觉测量控制系统，其特征在于，所述DDPG算法的训练过程包括：

5.一种视觉测量控制方法，其特征在于，包括：

基于DDPG算法训练所述跟踪控制模型，以求解最优控制策略；

6.根据权利要求5所述的视觉测量控制方法，其特征在于，还包括：

用于对所述跟踪控制模型进行应用验证的步骤。

7.根据权利要求5所述的视觉测量控制方法，其特征在于，

8.根据权利要求5所述的视觉测量控制方法，其特征在于，所述DDPG算法的训练过程包括：