CN1168045C

CN1168045C - 结构光三维双视觉模型建模方法

Info

Publication number: CN1168045C
Application number: CNB011183020A
Authority: CN
Inventors: 张广军; 魏振忠; 李鑫; 贺俊吉
Original assignee: Beihang University
Current assignee: Beihang University; Beijing University of Aeronautics and Astronautics
Priority date: 2001-05-22
Filing date: 2001-05-22
Publication date: 2004-09-22
Anticipated expiration: 2021-05-22
Also published as: CN1387167A

Abstract

本发明涉及一种用于工业检测和视觉导引的结构光三维双视觉模型建模立法。径向基函数神经网络(RBF神经网络)由三层组成，输入层有两个节点，输出层有三个节点，隐层节点中的作用函数采用高斯核函数，利用全局坐标系下的标定点数据对双视觉神经网络进行训练。本发明基于RBF神经网络，建立了结构光三维双视觉模型，解决了BP网络中局部极小和训练速度慢的问题，较常规建模方法和BP网络法有较高的精度，同时解决了单视觉检测系统的“盲区”问题。

Description

结构光三维双视觉模型建模方法

技术领域：本发明涉及一种用于工业检测和视觉导引的结构光三维双视觉模型建模立法。

背景技术：视觉检测技术以其大量程、大视场、测量速度快、光条图像易于提取及较高精度等特点在工业环境中得到了愈来愈广泛的应用。结构光三维视觉检测广泛地应用于工件的完整性、表面平整度的测量；微电子器件(IC芯片、PC板、BGA)等的自动检测；软质、易脆零部件的检测；各种模具三维形状的检测；机器人的视觉导引等。这种系统柔性好；测量为非接触式、动态响应快，能满足大量生产“节拍”短的要求，而且整个测量过程高度自动化。

建立合理的视觉检测模型是结构光三维视觉检测过程中的重要步骤，目前视觉检测模型的建模方法主要有两种：常规建模方法和基于BP(BackPropagation)神经网络的建模方法。

(1)常规建模方法是基于摄像机针孔成像理论的方法，但针孔成像理论只是一种近似，否则在摄像机感光面上不会有任何光强。因此，视觉检测通用模型从严格意义上讲是不准确的，尤其在远光轴的情况下这种近似更为严重。

另外，视觉检测系统精密而复杂，影响系统精度的参数，除了数学模型误差外，还包括许多系统参数及摄像机内部、外部参数，如光学系统调整误差、CCD光敏元非均匀误差、视频信号转换误差等。其中一部分可以用数学模型描述，而有些则很难用模型描述。因此，采用常规方法建立起来的结构光三维视觉检测模型与实际系统所具有的数学模型仍存在一定的差异。如果忽略了这些微小的误差和干扰，将会降低系统的测量精度。目前结构光三维多视觉检测精度在0.5-1mm左右。

(2)基于BP神经网络的视觉模型建模方法：这种方法国内外都有相关的文献报道，比如Ming Cheng等人(Optical Engineering，Vol.34，No.12，1995，pp3572-3576)，邓文怡等人(华中理工大学学报，Vol.27，No.1，1999，pp78-80)均采用了该方法。但这些报道都采用常用的BP网络，而且是用于单视觉检测模型。然而，BP网络存在一些无法克服的缺点和不足，主要表现在：结构上BP网络通常使用较多的隐层，使得网络变得复杂，训练速度缓慢。实际训练上，BP网络存在局部最优问题，并且收敛速度慢、效率低，其精度往往不高，报道文献中给出的精度只有0.31-0.34mm。

发明内容：本发明的目的是建立以少的隐层、高的精度、收敛速度快的双视觉检测模型。

本发明的技术解决方案是，径向基函数神经网络(RBF神经网络)由三层组成，输入层设置两个节点，输出层设置三个节点，隐层节点中的作用函数采用高斯核函数，为

u_{j} = \exp [- \frac{{(X - C_{j})}^{T} (X - C_{j})}{{2 σ}_{j}^{2}}] j = 1,2, . . ., N_{h}

网络的输出为隐层节点输出的线性组合，即

y_{i} = Σ_{j = 1}^{N_{h}} ω_{ij} u_{j} - θ = W_{i}^{T} U, i = 1,2,3;

网络结构确定后，利用全局坐标系下采集的标定点数据对双视觉神经网络进行训练，其训练步骤为：

(1)启动训练，初始化网络结构参数，包括高斯核函数的中心值，方差σ以及隐层-输出层权值阵W。

(2)设置网络训练参数学习率μ(k)，动量项α(k)以及期望的网络总体最小训练误差e_mi ^tr。

(3)从内存中按顺序从N个训练样本中取出一组，将其中的输入训练样本(x_1i，x_2i)输入到网络的输入层。

(4)计算网络输出层三个节点的实际输出(y_o1i，y_o2i，y_o3i)，并分别计算其与网络期望输出(y_e1i，y_e2i，y_e3i)即输出训练样本的残差的平方和，累加到SUM中，即

SUM = SUM + Σ_{j = 1}^{3} {(y_{eji} - y_{oji})}^{2};

(5)按带动量项的梯度下降法来调整各个网络结构参数，具体的调整算法如下：

定义准则函数

计算准则函数J(E)对各个网络结构参数的偏导数值，J(E)/E|_E＝E(k)，并按下列公式来调整各个网络结构参数的值：

隐层-输出层连接权值矩阵W的调整式为

W (k + 1) = W (k) + μ (k) \times (- \frac{&PartialD; J}{&PartialD; W}) |_{W = W (k)} + α (k) \times [W (k) - W (k - 1)]

隐层中心值矩阵C的调整式为

C (k + 1) = C (k) + μ (k) \times (- \frac{&PartialD; J}{&PartialD; C}) |_{C = C (k)} + α (k) \times [C (k) - C (k - 1)]

隐层方差矩阵σ的调整式为

σ (k + 1) = σ (k) + μ (k) \times (- \frac{&PartialD; J}{&PartialD; σ}) |_{σ = σ (k)} + α (k) \times [σ (k) - σ (k - 1)]

(6)判断是否N组训练样本全都输入训练了一遍。如果不是，则回到(3)；如果是，则计算网络总体训练误差即均方根差

E_{RMS} = \sqrt{SUM / N};

(7)判断E_RMS是否小于期望的值。如果不是，则回到(3)，并根据观察适当调整网络训练参数学习率μ(k)和动量项α(k)；如果是，则利用当前的网络模型，使用网络测试样本集合计算网络输出层各节点输出的测试误差。测试误差的计算按下式进行：

(8)判断测试误差，如果测试误差不能满足要求，则可以减小期望的网络总体最小训练误差e_mi ^tr，返回到(3)继续训练或者返回到(1)重新开始训练；如果已经达到要求，则保存网络结构参数，结束训练。

本发明首次基于RBF神经网络，建立了结构光三维双视觉模型，不仅有效地克服了常规建模方法存在的不足，还解决了BP网络中单视觉检测系统的盲区问题，而且较大地提高了网络的收敛速度，避免了局部极小点问题，具有全局最佳逼近性能，提高了模型建模精度，由于本发明采用了带动量项的梯度下降法来训练网络，因此，建模的收敛速度快，稳定性好，训练精度高，训练方法快速易行。

说明书附图：图1为本发明的网络结构图；

图2为本发明的训练流程图；

图3为本发明所采用的双视觉标定点发生装置示意图。

具体实施方式：网络的结构为三层，输入层设置两个节点，分别代表二维图像坐标(x₁，x₂)，输出层设置三个节点，分别代表三维物坐标(y₁，y₂，y₃)。隐层节点中的作用函数采用高斯核函数(Gauss Kernel Function)，如下式所示：

u_{j} = \exp [- \frac{{(X - C_{j})}^{T} (X - C_{j})}{{2 σ}_{j}^{2}}] j = 1,2 . . ., N^{h} - - (1)

其中，u_j是第j个隐层节点的输出，X＝(x₁，x₂)^T是输入样本，即二维图像坐标，C_j是高斯函数的中心值，σ_j是方差，N_h是隐层节点数。

网络的输出为隐层节点输出的线性组合，即

y_{i} = Σ_{j = 1}^{N_{h}} ω_{ij} u_{j} - θ = W_{i}^{T} U - - i = 1,2,3 - - (2)

其中，

W_{i} = (ω_{i 1}, ω_{i 2}, . . ., ω_{i N_{h}}, - θ)

为隐层和输出层的权值阵，

U = (u_{1}, u_{2}, . . ., u_{N_{h}}, 1)^{T}

为隐层的输出向量。

双视觉RBF网络模型结构确定后，接下来就是利用全局坐标系下采集的标定点数据对双视觉RBF神经网络进行训练，以建立双视觉模型。

基于RBF神经网络双视觉模型的训练实现过程如图2所示，详细的步骤如下：

SUM = SUM + Σ_{j = 1}^{3} {(y_{eji} - y_{oji})}^{2} .

定义准则函数

其中，Y(k)代表希望输出，为网络的实际输出，E是网络所有参数组成的向量，包括隐层中心值、隐层方差和输出权值，ε(E，k)为对Y(k)的残差。

隐层-输出层连接权值矩阵W的调整式为

W (k + 1) = W (k) + μ (k) \times (- \frac{&PartialD; J}{&PartialD; W}) |_{W = W (k)} + α (k) \times [W (k) - W (k - 1)]

隐层中心值矩阵C的调整式为

C (k + 1) = C (k) + μ (k) \times (- \frac{&PartialD; J}{&PartialD; C}) |_{C = C (k)} + α (k) \times [C (k) - C (k - 1)]

隐层方差矩阵σ的调整式为

σ (k + 1) = σ (k) + μ (k) \times (- \frac{&PartialD; J}{&PartialD; σ}) |_{σ = σ (k)} + α (k) \times [σ (k) - σ (k - 1)] .

其中，k为调整的次数，μ(k)为学习率，α(k)为k时刻的遗忘因子，又称动量项或阻尼项。当前次即第k+1次的网络参数值由上一次即第k次的网络参数值获得，即第k次的参数值加上μ(k)与该参数的准则函数负梯度的乘积，再加上α(k)与第k次和第k-1次参数值残差的乘积。μ(k)的作用是用于调整网络的训练速度，μ(k)较大时，参数调整的幅度大，反之则小。α(k)的作用相当于阻尼力，当网络的训练误差迅速下降时，它使网络收敛逐渐平稳，当网络训练误差迅速增大时，它使网络发散的越来越缓慢。这样，使得网络的收敛过程不致出现过大的振荡，有利于网络的平稳收敛。

(6)判断是否N组训练样本全都输入训练了一遍。如果不是，则回到(3)；如果是，则计算网络总体训练误差即均方差

E_{RMS} = \sqrt{SUM / N} .

其中，N₁为测试样本总数，Y_xi为第i个测试样本的x坐标的期望输出，

为神经网络的x坐标的实际输出，其余类推。

(8)测试误差即为网络模型的最终精度。如果测试误差不能满足要求，则可以减小期望的网络总体最小训练误差e_mi ^tr，返回到(3)继续训练或者返回到(1)重新开始训练。如果已经达到要求，则保存网络结构参数，结束训练。

获取用于网络训练的标定点数据，包括二维图像坐标(x₁，x₂)和三维物坐标(y₁，y₂，y₃)。这一过程是由一个高精度三维双视觉标定点发生装置完成的，如图3所示。其中1、2为激光投射器。3、4为CCD摄像机，实现场景图像的获取。5为双向光电瞄准装置。6为三维移动台。7为图像采集卡。8为计算机，控制及数据处理。(该发生装置的技术内容在申请号为01115655.4专利中已公开，此处不再对其做详细陈述)对于左侧视觉检测系统，控制该装置分别在x方向和z方向以步长4mm移动，采集光平内60mm×60mm范围的标定点，标定点个数共为256个。其中的64个做测试样本，192个做训练样本。对于右侧视觉检测系统，同样控制该装置分别在x方向和z方向以步长4mm移动，采集光平内60mm×60mm范围的标定点，标定点个数共为256个。其中的64个做测试样本，192个做训练样本。

对于该基于RBF神经网络的结构光双视觉模型，利用上述获取的训练样本及测试样本，对左右两侧的视觉检测系统分别采用5.2步骤进行耐心充分的训练，最终得到了最佳结构光三维双视觉RBF神经网络模型如下：

(1)右侧视觉检测系统的最佳RBF神经网络模型的结构参数(网络测试精度为0.080mm)

采用三层RBF网络，输入节点数为2，隐层节点数为16，输出节点数为3。则各个调整参数阵的结构如下：

①隐层方差矩阵σ_16×1＝[σ₀，σ₁，…，σ₁₅]^T

②隐层中心值矩阵

C_{2 \times 16} = [\begin{matrix} C_{0,0} & C_{0,1} & \cdot \cdot \cdot & C_{0,15} \\ C_{1,0} & C_{1,1} & \cdot \cdot \cdot & C_{1,15} \end{matrix}]

③隐层---输出层权值矩阵

W_{3 \times 16} = [\begin{matrix} w_{0,0} & w_{0,1} & \cdot \cdot \cdot & w_{0,15} \\ w_{1,0} & w_{1,1} & \cdot \cdot \cdot & w_{1,15} \\ w_{2,0} & w_{2,1} & \cdot \cdot \cdot & w_{2,15} \end{matrix}]

各网络训练参数，网络结构参数初始化值以及最终训练值如下：

学习率μ的初始值0.1，终止值0.003。动量项α的初始值0.01，终止值0。隐层-输出层连接权值W的初始化区间[-0.1，0.1]，隐层方差σ的初始化区间[-1，1]，隐层中心值的初始化区间为[-1，1]。对网络训练到13500次，得到的网络各模型结构参数如下：

①隐层方差矩阵

σ_16×1＝[2.525，0.665，-0.914，2.369，-1.679，-0.160，1.987，-0.057，-0.067，1.443，-1.125-1.395，1.415，-0.592，0.629，-0.327]^T

②隐层中心值矩阵C_2×16 ③隐层---输出层权值矩阵W_3×16

C_{2 \times 16} = {[\begin{matrix} 1.962 & 2.178 \\ - 0.011 & - 1.654 \\ - 1.550 & 1.102 \\ 2.246 & - 1.988 \\ - 2.193 & 1.641 \\ - 0.281 & 0.090 \\ - 2.634 & - 1.004 \\ - 0.837 & 0.077 \\ - 0.306 & - 0.282 \\ 0.012 & 0.182 \\ 0.909 & - 1.387 \\ 0.322 & 2.042 \\ - 0.318 & - 2.684 \\ - 0.405 & 1.140 \\ - 0.047 & 1.274 \\ 0.893 & - 0.976 \end{matrix}]}^{T}

W_{3 \times 16} = {[\begin{matrix} 1.198 & - 0.855 & 1.553 \\ - 0.366 & 0.267 & 0.026 \\ 0.431 & - 0.567 & - 0.132 \\ 1.194 & 1.314 & 0.704 \\ - 2.412 & - 0.562 & - 1.217 \\ 0 & 0.073 & - 0.002 \\ 1.218 & 0.267 & - 1.934 \\ - 0.001 & 0.747 & - 0.004 \\ 0.017 & - 0.173 & 0.009 \\ 0.055 & - 0.100 & - 0.266 \\ 0.218 & 0.485 & - 0.218 \\ - 0.604 & - 0.605 & - 0.474 \\ 2.161 & 2.776 & - 0.568 \\ - 0.007 & - 0.143 & 0.009 \\ 0.076 & - 0.409 & - 0.003 \\ - 0.055 & - 0.445 & - 0.296 \end{matrix}]}^{T}

(2)左侧视觉检测系统的最佳RBF神经网络模型的结构参数(网络测试精度为0.081mm)

采用三层RBF网络，输入节点数为2，隐层节点数为20，输出节点数为3。则各个调整参数阵的结构如下：

①隐层方差矩阵σ_20×1＝[σ₀，σ₁，…，σ₁₉]^T

②隐层中心值矩阵

C_{2 \times 20} = [\begin{matrix} C_{0,0} & C_{0,1} & \cdot \cdot \cdot & C_{0,19} \\ C_{1,0} & C_{1,1} & \cdot \cdot \cdot & C_{1,19} \end{matrix}]

③隐层---输出层权值矩阵

W_{3 \times 20} = [\begin{matrix} w_{0,0} & w_{0,1} & \cdot \cdot \cdot & w_{0,19} \\ w_{1,0} & w_{1,1} & \cdot \cdot \cdot & w_{1,19} \\ w_{2,0} & w_{2,1} & \cdot \cdot \cdot & w_{2,19} \end{matrix}]

学习率μ的初始值0.1，终止值0.003。动量项α的初始值0.01，终止值0。隐层-输出层连接权值W的初始化区间[-0.1，0.1]，隐层方差σ的初始化区间[-1，1]，隐层中心值的初始化区间为[-1，1]。对网络训练到15800次，得到的网络各模型结构参数如下：

①隐层方差矩阵

σ_20×1＝[-0.493，-1.376，-2.769，-3.075，-0.370，-3.025，-0.069，-0.013，2.464，3.272，-0.251，0.207，0.575，0.011，-0.001，0.368，-0.003，0.198，0.431，0.276]^T

②隐层中心值矩阵C_2×20 ③隐层---输出层权值矩阵

C_{2 \times 20} = {[\begin{matrix} 0.047 & - 0.426 \\ 1.025 & 1.496 \\ 2.916 & 1.196 \\ - 4.594 & 1.412 \\ - 0.625 & 0.496 \\ 0.277 & 4.169 \\ - 2.371 & 0.058 \\ - 0.627 & 0.282 \\ 1.923 & - 3.334 \\ 1.298 & 3.120 \\ - 0.532 & 0.005 \\ 0.043 & - 0.047 \\ - 0.557 & - 0.420 \\ - 0.193 & 0.077 \\ - 0.699 & 0.295 \\ 0.164 & 0.009 \\ 0 & 0 \\ - 0.531 & 0.092 \\ 0.847 & 0.237 \\ 0.392 & 0.583 \end{matrix}]}^{T}

W_{3 \times 20} = {[\begin{matrix} - 0.002 & 0.309 & - 0.013 \\ - 0.004 & 1.461 & 0.125 \\ - 0.079 & - 0.116 & - 2.048 \\ - 2.646 & - 0.032 & 3.855 \\ - 0.004 & 0.334 & 0.008 \\ - 3.187 & - 1.053 & 0.068 \\ - 0.010 & - 1.007 & 0.003 \\ 0.012 & - 0.713 & 0.014 \\ 2.125 & 2.117 & - 1.756 \\ 2.653 & - 1.105 & 1.581 \\ - 0.015 & - 1.062 & 0.011 \\ 0 & 0.374 & - 0.002 \\ - 0.012 & - 0.446 & - 0.028 \\ 0.010 & - 0.602 & 0.007 \\ 0.026 & - 1.065 & 0.016 \\ - 0.002 & - 0.666 & 0.013 \\ - 0.013 & 0.1 & 0.068 \\ 0.011 & 1.016 & - 0.004 \\ 0.002 & - 0.377 & 0.024 \\ - 0.003 & - 0.474 & 0.328 \end{matrix}]}^{T}

Claims

1、一种结构光三维双视觉模型建模方法，其特征是，径向基函数神经网络由三层组成，输入层设置两个节点，输出层设置三个节点，隐层节点中的作用函数采用高斯核函数，为

u_{j} = \exp [- \frac{{(X - C_{j})}^{T} (X - C_{j})}{{2 σ}_{j}^{2}}] - - - - - - j = 1,2, . . ., N_{h}

网络的输出为隐层节点输出的线性组合，即

y_{i} = Σ_{j = 1}^{N_{h}} ω_{ij} u_{j} - θ = {W_{i}}^{T} U - - - i = 1,2,3;

网络结构确定后，利用全局坐标系下采集的标定点数据对双视觉神经网络进行训练；其训练的步骤如下：

(1)启动训练，初始化网络结构参数，包括高斯核函数的中心值，方差σ以及隐层-输出层权值阵W；

(2)设置网络训练参数学习率μ(k)，动量项α(k)以及期望的网络总体最小训练误差e_mi ^tr；

(3)从内存中按顺序从N个训练样本中取出一组，将其中的输入训练样本(x_1i，x_2i)输入到网络的输入层；

SUM = SUM + Σ_{j = 1}^{3} {(y_{eji} - y_{oji})}^{2};

定义准则函数

隐层-输出层连接权值矩阵W的调整式为

W (k + 1) = W (k) + μ (k) \times {(- \frac{&PartialD; J}{&PartialD; W}) |}_{W = W (k)} + α (k) \times [W (k) - W (k - 1)]

隐层中心值矩阵C的调整式为

C (k + 1) = C (k) + μ (k) \times {(- \frac{&PartialD; J}{&PartialD; C}) |}_{C = C (k)} + α (k) \times [C (k) - C (k - 1)]

隐层方差矩阵σ的调整式为

σ (k + 1) = σ (k) + μ (k) {\times (- \frac{&PartialD; J}{&PartialD; σ}) |}_{σ = σ (k)} + α (k) \times [σ (k) - σ (k - 1)]

(6)判断是否N组训练样本全都输入训练了一遍，如果不是，则回到(3)；如果是，则计算网络总体训练误差即均方差

E_{RMS} = \sqrt{SUM / N};

(7)判断E_RMS是否小于期望的值，如果不是，则回到(3)，并根据观察适当调整网络训练参数学习率μ(k)和动量项α(k)；如果是，则利用当前的网络模型，使用网络测试样本集合计算网络输出层各节点输出的测试误差，测试误差的计算按下式进行：