CN116311061A

CN116311061A - 一种基于图像处理的物料识别方法

Info

Publication number: CN116311061A
Application number: CN202310264771.0A
Authority: CN
Inventors: 贾彦魁; 游杰勇; 王欢欢; 高鹏; 刘建军; 吴群威; 肖玲; 林红利; 李彦斌; 程晓宁; 李帅; 王智勇; 刘航; 王明
Original assignee: Fourth Construction Co ltd Of China Construction Fifth Engineering Bureau; China Construction Fifth Engineering Bureau Co Ltd
Current assignee: Fourth Construction Co ltd Of China Construction Fifth Engineering Bureau; China Construction Fifth Engineering Bureau Co Ltd
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-06-23

Abstract

本发明涉及图像处理领域，具体涉及一种基于图像处理的物料识别方法，获取不同视角下的待识别的物料图像信息；确定其中一视角下的物料图像信息作为标准图像，将其它不同视角下所采集的物料图像信息与所述标准图像信息进行图像配准，得到图像配准结果，确定不同视角下的料图像信息的透视变换矩阵；基于透视变换矩阵，将其它不同视角下的待识别的物料图像信息变换至标准图像的视角下，并进行图像拼接，得到拼接后的图像信息。即本发明的方案能够对物料图像进行图像处理，避免图像存在畸变、不完整等质量问题。

Description

一种基于图像处理的物料识别方法

技术领域

本发明涉及建筑工程物料识别领域，具体涉及一种基于图像处理的物料识别方法。

背景技术

在建筑工程施工过程中，需要通过运输车辆将工程所需物料送入工地中，在物料达到工地后需要进行物料清点，如常见物料为钢筋，方木等物料。

针对上述物料的识别，是通过对堆放的物料直接进行图像采集，基于采集到的图像，达到物料检测的目的；但是由于建筑物料过多、物料堆放不整齐等原因，会导致在相机的图像采集过程中，部分物料的识别效果不好；如当存在边缘的建筑物料向外侧倾斜，或者部分建筑物料堆叠不整齐、相机拍摄时由于拍摄视角单一或者距离等的问题，则拍摄的图像可能存在畸变、不清晰或者不完整的质量问题，进而会导致出现部分建筑物料漏检的情况，从而使得检测结果不达标，无法准确识别物料。

发明内容

本发明的目的在于提供一种基于图像处理的物料识别方法，用于解决图像存在畸变、不清晰或者不完整的质量问题，从而导致物料漏检的问题。

本发明提供的一种基于图像处理的物料识别方法，包括以下步骤：

获取不同视角下的待识别的物料图像信息；

将不同视角下所采集建筑物料图像信息与当前相机固定位置处所采集建筑物料正视图进行图像配准，得到图像配准结果；

根据图像配准结果，得到得到将当前相机固定位置处所采集建筑物料正视图变换到不同位置下所采集建筑物料正视图对应视角所需要的透视变换矩阵；

基于透视变换矩阵，将不同视角下的待识别物料图像信息变换至同一视角下，并进行图像拼接，得到拼接后的图像信息；

获取拼接后的图像信息对应的深度信息；

基于获取的拼接后的图像信息以及深度信息，对物料进行识别。

优选地，获取不同视角下的待识别的物料图像信息具体为设置至少两台相机在不同视角下分别进行物料图像信息的拍摄。

优选地，采用sift特征点图像配准方法，得到除标准视角图像外其余任意一视角下的物料图像与当前标准视角图像的配准结果，从当前配准结果中，随机选取图像配准后的四对特征点，得到两张图像之间的透视变换矩阵，将用于与标准视角图像进行图像配准的图像，通过所得透视变换矩阵，将其变换至与当前标准视角图像属于同一空间视角下。

优选地，基于获取的拼接后的图像信息以及深度信息，对物料进行识别的具体过程为：

构建Mask R-CNN网络模型，所述Mask R-CNN网络模型包括ResNet网络对所述ResNet网络进行优化，得到优化的Mask R-CNN网络模型；对所述优化的Mask R-CNN网络模型进行训练，得到训练好的优化的Mask R-CNN网络模型；

将拼接后的图像信息以及该图像信息对应的深度信息输入训练好的优化的MaskR-CNN网络模型，进行物料的识别，得到识别结果；

其中，对所述ResNet网络进行优化的具体过程为：

获取训练数据集；将训练数据集输入所述ResNet网络进行训练，并利用损失函数进行优化，得到训练好的ResNet网络；

所述损失函数的获取过程为：

获取拼接后的物料的图像数据的灰度图像，提取任意单个物料类别的图像区域，提取所述图像区域的质心坐标点，获取灰度图像的中心坐标与质心坐标的距离值；

获取任意单个物料类别的成像质量评估值；

基于所述距离值和成像质量评估值得到调整指标；根据所述调整指标、单个物料的图像真实标签值和深度图像的真实标签值，构建损失函数。

优选地，所述损失函数为：

其中，F_j为当前物料的图像第A_j个物料类别所对应的成像质量评估值，p(K_j)为第A_j个物料类别在当前ResNet网络训练过程中物料图像上的真实标签值，q(K′_j)为第A_j个物料类别在当前ResNet网络训练过程中物料图像上的预测标签值，p(L_j)为第A_j个物料类别在当前ResNet网络训练过程中深度图像上的真实标签值，q(L′_j)为第A_j个物料类别在当前ResNet网络训练过程中深度图像上的预测标签值，H为所有类别的个数，m()为归一化函数，j为物料编号。

优选地，所述调整指标为：

F_j＝exp(-D_j)*E_j*G

其中，D_j为当前灰度图像的中心点坐标点与第A_j个物料类别的质心坐标点之间的距离值，E_j表示当前灰度图像中第A_j个物料类别的成像质量评估值，exp()为以自然数e为底数的指数函数，G为超参数。

优选地，获取任意单个物料类别的成像质量评估值的具体过程为：

获取灰度图像的信息熵；

计算各个物料类别对应的图像区域的灰度均值，获取所有物料类别的灰度均值的均值；计算第A_j个物料类别的灰度均值与所述均值的差值绝对值，得到该差值的绝对值与所述均值的比值，将所述比值与所述信息熵值的乘积，作为第A_j个物料类别的成像质量评估值。

优选地，所述Mask R-CNN网络模型还包括FPN网络、RPN神经网络以及RoI Align模型。

本发明的有益效果为：

本发明的方案通过对不同视角下的物料图像进行采集，并对获取的多个物料图像进行图像配准、图像拼接操作，能够避免获取的图像由于物料摆放不整齐的原因，而导致尽可能拍摄的图像质量存在问题，为手续的物料识别提供了重要的数据支撑。

同时，本发明的方案通过构建Mask R-CNN网络模型，对ResNet网络进行优化，即通过将图像数据和深度图像数据结合在一起构建损失函数，能够根据图像数据的成像质量，实时调整所需要依赖数据的重要性，实现对网络的优化，能够准确地进行物料识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明的一种基于图像处理的物料识别方法的步骤流程图；

图2为建筑工程中的物料图像信息。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于深度学习的物料识别方法，其具体实施方式、结构、特征及其功效，详细说明如下。

本发明针对的应用场景为建筑工程中的物料的识别，即由于作业人员需要及时掌握物料的情况，对后续的工程进度进行安排，因此需要对物料进行准确的清点和识别，从而提出了基于图像处理的物料识别方法的具体方案。

具体地，以建筑工程中的钢筋物料为例进行说明，请参阅图1，其示出了本发明的一种基于图像处理的物料识别方法的步骤流程图，该方法包括以下步骤：

获取不同视角下的待识别的物料图像信息；

确定其中一视角下的物料图像信息作为标准图像，将其它不同视角下所采集的物料图像信息与所述标准图像信息进行图像配准，得到图像配准结果，确定不同视角下的料图像信息的透视变换矩阵；

基于透视变换矩阵，将其它不同视角下的待识别的物料图像信息变换至标准图像的视角下，并进行图像拼接，得到拼接后的图像信息；

本实施例中通过多个RGB-D相机，采集当前建筑材料侧面的多视角的图像信息及对应的深度信息，通过图像拼接的方法，得到较好的建筑材料侧面图像。其中RGB-D相机中的多视角图像及对应的深度信息已经完成标定，如图2所示，为利用RGB-D相机采集到的建筑工中物料图像信息。

其中多个RGB-D相机的固定位置及相机的个数，由实施者根据具体实施场景进行调整。本实施例选择三个RGB-D相机，用于采集建筑物料侧面图像及深度信息。其中三个RGB-D相机的位置分布为在建筑物料侧面的三等分位置，高度保持一致，本实施例设置的三个RGB-D相机的高度信息为50cm，实施者可根据具体实施场景进行调整。

本实施例中在得到多个RGB-D相机对应的RGB图像后，选择最中间位置的RGB-D相机所采集图像为标准视角图像，实施者可根据具体实施场景选择其他相机所采集图像作为标准视角图像。

进而基于现有的sift特征点图像配准方法，得到除标准视角图像外其余任意一张图像与当前标准视角图像的配准结果，从当前配准结果中，随机选取图像配准后的四对特征点，得到两张图像之间的透视变换矩阵，将用于与标准视角图像进行图像配准的图像，通过所得透视变换矩阵，将其变换至与当前标准视角图像属于同一空间视角下。

进而将透视变换后用于与标准视角图像进行图像配准的图像，与当前标准视角图像进行叠加，得到该图像与当前标准视角图像的拼接结果，作为新标准视角图像。进而选取除标准视角图像外其余任意一张图像与当前标准视角图像继续进行图像拼接，直至没有剩余图像，只有一张标准视角图像，作为最终的RGB图像，其中深度图像拼接同理，本实施例不在赘述。

本实施例中的基于获取的拼接后的图像信息以及深度信息，对物料进行识别的具体过程为；

获取拼接后的图像信息以及该图像信息对应的深度信息；

构建Mask R-CNN网络模型，所述Mask R-CNN网络模型包括ResNet网络；对所述ResNet网络进行优化，得到优化的Mask R-CNN网络模型；对所述优化的Mask R-CNN网络模型进行训练，得到训练好的优化的Mask R-CNN网络模型；

将拼接后的图像信息以及该图像信息对应的深度信息输入训练好的优化的MaskR-CNN网络模型，进行物料的识别，得到识别结果。

本实施例中的网络模型采用Mask R-CNN网络模型；该网络模型包括残差网络ResNet网络、FPN网络、RPN神经网络以及RoI Align模型；其具体过程为：通过ResNet网络提取图像特征，将采集图像数据输入到ResNet网络，提取ResNet网络中的图像特征，将图像特征输入到FPN网络中，得到不同采样尺度的特征信息，并输入到RPN神经网络中，得到区域，对得到区域，进行分类回归，并添加Mask分支，完成最终的图像识别定位；其中在进行分类回归和条件的mask过程中，利用RoI Align进行像素到的对齐，保证分割精度；其中，本实施例中的FPN网络、RPN神经网络等均采用现有技术中网络，此处不再过多赘述。

上述实施例中的ResNet网络采用ResNet101网络，当然也可以采用ResNe50网络。

本实施例中，对Mask R-CNN网络模型中的ResNet101神经网络进行优化的具体过程为：

获取训练数据集；将训练数据集输入ResNet101网络进行训练，并利用损失函数进行优化，得到训练好的ResNet101网络。

其中，上述中的训练数据集，是根据采集的物料的图像数据和深度图像数据构建的，即对采集的物料的图像数据和深度图像数据进行标注，得到标注后的数据集；本实施例中，取标注完成后的数据集80％数据量用于ResNet101神经网络训练。

需要说明的是，对图像数据进行标注，对标注结果进行编码，具体地：将RGB图像中的物料进行人工标注；其中由于Mask R-CNN为实例分割网络，所以在利用ResNet101+FPN结构中的ResNet101网络进行特征图提取时，应当为用于实例分割下的特征图。

本实施例中，还包括对采集后的数据利用数据集扩充手段进行数据集扩张，比如进行旋转或者加入噪声等手段，其中本实施例中的扩充后数据集中采集数据不低于1500条，实施者可根据具体实施场景进行调整。其中本实施例中的一条采集数据是指一次数据采集过程中，所包含的一张RGB图像数据和对应的一张深度图像数据。

需要说明的是，物料的图像数据中包括多根钢筋，其中一根钢筋对应一个物料类别，也即包括多个物料类别。

因此，在ResNet101网络训练过程中，对RGB图像数据进行标注时，需要依据实例分割所用的数据标注过程进行标注，即进行像素级的标注；将RGB图像中的R，G，B三通道中，属于不同物料的像素点标注为不同物料类别A₁，A₂，A₃所对应的编号，比如1，2，3，分别对应不同的物料1(钢筋1)，物料2(钢筋2)，物料3(钢筋3)等，对不属于物料的像素点标注为0，即0表示背景。

在完成对RGB图像数据的标注后，需要对深度图像数据也进行标注，获取RGB图像种不同物料所标注像素点对应的坐标值，进而不同物料在深度数据所对应的坐标值，采用新编号进行标注。其中RGB图像和深度图像的长宽相等，所以同一个物料在RGB图像和深度图像中的位置一样，但是编号不同。即物料1在深度数据中可标注为类1，并且物料1在RGB图像数据中与对应深度数据同位置处也进行标注，但是标注编号不同。其中所有编号不能重复，在完成不同物料所对应类别的编号后，利用onehot编码方式，进行编码；进而获取训练数据集。

需要说明的是，本实施例中考虑到若直接将深度图像数据和RGB图像数据，作为ResNet网络的输入，直接进行ResNet网络的训练，则会导致部分物料检测结果准确率下降。若将图像数据与深度图像数据先进行融合，后输入到ResNet网络中，其存在当物料类别成像质量较好的情况，由于深度图像数据的介入，此时会由于钢筋表面切割不平整，反而会影响到对物料的识别，因此，本实施例中将RGB图像数据和深度图像数据分别进行标注。

上述实施例中的损失函数的获取过程为：

(1)获取物料的图像数据的灰度图像，提取任意单个物料类别的图像区域，提取所述图像区域的质心坐标点，获取灰度图像的中心坐标与质心坐标的距离值.

本实施例中的距离值的获取过程为：

获取当前ResNet网络训练过程中所输入的RGB图像数据，即当前训练集中的第i条训练数据中的RGB图像数据，利用灰度化算法，得到RGB图像数据所对应的灰度图像C_i。

其中获取当前灰度图像C_i图像的中心点坐标，并对获取第A_j个物料类别在灰度图像C_i中所占据的像素点，将第A_j个物料类别在灰度图像C_i中所占据的像素点置为1，其余像素点置为0，则可得到第A_j个物料类别的掩膜图像，对第A_j个物料类别的掩膜图像利用连通域提取算法，得到第A_j个物料类别的质心坐标点，由坐标点距离公式，计算灰度图像C_i的中心点坐标点与第A_j个物料类别的质心坐标点之间的距离值D_j，其中j为物料编号。

需要说明的是，已知依据相机成像原理，物料成像结果中越远离图像中心处的物料类别，在观测时越难以观测全貌，进而会导致对其进行特征提取的效果较差，用于实例分割检测时的精度下降。但是由于深度信息不受视角差的影响，其钢筋端面深度数据变化较小。进而对于越远离图像中心处的物料类别，在对齐进行特征提取时，可以更加的偏向深度数据。

因此，对于相机的拍摄时的视角差所引起的视野差，导致依据RGB图像进行ResNet101网络训练中的特征提取时，效果变差，应当使得ResNet101网络训练中训练结果的数据更加依赖深度图像数据。

(2)获取任意单个物料的成像质量评估值。

本实施例中，获取任意单个物料的成像质量评估值的具体过程为：

获取灰度图像的信息熵；

需要说明的是，本实施例中，还需要考虑到光照的影响，当灰度图像C_j中第A_j个物料类别的光照条件不好，则会使得第A_j个物料类别处像素点的灰度值过大，或者过小，从而使得第A_j个物料类别属于物料的纹理复杂度丢失。因此，需要计算当前灰度图像C_j中第A_j个物料类别所占像素点的纹理复杂度。而现有技术，通过信息熵的计算，表示纹理复杂度，但是由于光照过弱或者过强，并一定会使得局部所有物料信息的丢失，并且光照本身就是一个灰度渐变的过程，在通常情况下会使得通过信息熵表示纹理复杂度时不够准确。

因此，本实施例选择通过对当前不同物料所对应的光照成像质量进行评分，得到第A_j个物料类别所对应的成像质量评估值E_j，用于对神经网络训练过程中，数据依赖倾向的调整。

上述实施例中，图像的信息熵是通过灰度图像C_j的直方图分布可以得到当前灰度图像C_j总体光照评分，其中如果直方图分布呈现双峰状，或者单峰状，则表示当前总成像质量效果不佳；继而计算当前灰度图像C_j的信息熵，作为当前灰度图像C_j的成像效果，因为熵值越大，则光照模型的信息量越大，如果熵值越小，则光照模型的信息量越少，并且由于场地变化不大，所以如果信息熵变化过大时，则更多是受整体拍照效果的影响。其中信息熵为公知计算技术，所以本方案不在赘述。

在得到当前灰度图像C_j的评分后，熵值越大，表示整体光照较好，用于评价总体评分。但是在光照条件好的情况下，可认为当前钢筋至少大部分端面为正常小部分为异常，光照条件差的情况下，所有物料类别的成像质量评估值应当下降。

本实施例从整个灰度图像C_j入手，得到当前灰度图像的成像效果，进而在根据当前整个图像的成像效果，计算某个物料类别A_j成像质量评估值。

上述实施例中成像质量评估值，针对第A_j个物料类别，计算当前第A_j个物料类别对应的灰度均值，继而得到所有物料类别对应的灰度均值的均值，则其中所有物料类别对应灰度均值的均值，受到当前整个图像的影响，即信息熵越大，则表示所有物料类别对应灰度均值的均值对应的光照效果越好，即信息熵越小，则表示所有物料类别对应灰度均值的均值对应的光照效果越差。

进而计算第A_j个物料类别对应的灰度均值，与均值之间的差值绝对值。将该差值的绝对值均值相除，得到比值，其中比值与当前C_j的熵值相乘后，得到当前第A_j个物料类别在总体信息熵的调整值，作为当前第A_j个物料类别所对应光照的成像质量评估值E_j，其值越大，则表示分值越高。

需要说明的是，不选择求取单个物料类别的信息熵值作为成像质量评估值E_j，是因为钢筋断面本身比较光滑，虽然不同钢筋之间的光照不一样，但是信息熵差异不大。

(3)基于所述距离值和成像质量评估值得到调整指标；根据所述调整指标、单个物料的图像真实标签值和深度图像的真实标签值，构建损失函数。

本实施例中的调整指标为：

F_j＝exp(-D_j)*E_j*G

其中，第A_j个物料类别的物料在灰度图像C_j中的光照效果好，且视角较好，物料成像质量越高。则在对其进行ResNet101网络的结果预测时，应当更加依赖RGB三维图像数据。反之，物料成像质量越低，则在对其进行ResNet101网络的结果预测时，应当更加依赖深度图像数据。

公式中的距离值越大，表示灰度图像C_j中的第A_j个物料类别越偏离图像中心，使得对第A_j个物料类别的观测视野不好，难以观测全貌，进而会导致对其进行特征提取的效果较差，用于实例分割检测时的精度下降。但是由于深度信息不受视角差的影响，其钢筋端面深度数据变化较小。进而对于越远离图像中心处的物料类别，在对齐进行特征提取时，可以更加的偏向深度数据。反之，则应当更加的偏向RGB图像数据。所以距离值越小，则调整指标F_j的值越大，表示灰度图像C_j中第A_j个物料类别的成像质量越好，在进行ResNet101网络的结果预测时，更加能够倾向于RGB三维图像数据。所以对其进行负相关映射，得到exp(-D_j)。同时，成像质量评估值E_j的值越大，则表示当前第A_j个物料类别的物料在灰度图像C_j中的，光照效果好，在对其进行ResNet101络的结果预测时，应当更加依赖RGB三维图像数据。反之，在对其进行ResNet101网络的结果预测时，应当更加依赖深度图像数据。

本实施例中的G为一个超参数，可由实施者根据具体实施场景进行调整，本方案取G＝1。

至此，根据当前ResNet101网络训练过程中的RGB图像，得到当前ResNet101神经网络训练过程中的物料类别成像质量评估模型。

本实施例中通过评估当前物料成像质量，得到物料成像质量评估值，用于调整ResNet101神经网络模型的结果预测时的数据倾向，以使得训练完成的ResNet101神经网络模型，能够提取得到更佳的特征图。

本实施例的损失函数为：

其中，F_j为当前物料的图像第A_j个物料类别所对应的成像质量评估值，当物料类别成像质量值较大时，F_j值变大，使得在衡量神经网络学习效果时，更加依据RGB图像数据，反之，更加依据深度图像数据；p(K_j)为第A_j个物料类别在当前ResNet101网络训练过程中物料图像上的真实标签值，q(K′_j)为第A_j个物料类别在当前ResNet101网络训练过程中物料图像上的预测标签值，p(L_j)为第A_j个物料类别在当前ResNet101网络训练过程中深度图像上的真实标签值，q(L′_j)为第A_j个物料类别在当前ResNet101网络训练过程中深度图像上的预测标签值，H为所有类别的个数。

上述中的损失函数的公式中的m()是一个归一化函数，用于调整指标F_j的调整，如果不对调整指标F_j进行归一化，将调整指标F_j直接作用于两个交叉熵损失函数，会使得loss值变化过大，调整指标F_j的值在不同图像中对不同物料类别都不一样。本实施例中对调整指标F_j采用最大值最小值归一化，其中最大值最小值作用范围为前图像数据中的所有物料类别。也即ResNet101网络的训练结果更加偏向于RGB图像时，则对深度图像的偏向应当减小，并为了保证权值和为1，能够使得交叉熵损失函数的和相对稳定。其中的交叉熵损失函数能够衡量同一个随机变量中的两个不同概率分布的差异，神经网络训练中就是指真实概率分布与预测概率分布之间的差异。所以得到交叉熵的值越小，模型预测效果就越好。

需要说明的是，调整指标F_j值越大，则表示当前物料类别在灰度图像C_j中的，光照效果好，且视角较好，则在对其进行ResNet101网络模型的结果预测时，应当更加依赖RGB三维图像数据。反之，在对其进行ResNet101网络模型的结果预测时，应当更加依赖深度图像数据。即：表示能够使在计算交叉熵损失函数时，其值越大，RGB图像数据的损失函数结果越重要，其值越小，深度图像数据的损失函数结果越重要。进而使得通过ResNet101神经网络模型，能够提取更加有效的特征图。通过得到对ResNet101网络模型训练过程中，不同物料类别的成像质量评估，用于对ResNet101网络模型的结果预测的依赖数据倾向进行调整，使得在物料类别的成像质量较好的情况下，更依赖RGB图像数据，弱化深度数据的干扰，在物料类别的成像质量不好的情况下，更依赖深度图像数据，使得在RGB图像数据成像不佳时，也能够精准物料识别定位。

本实施例中，在进行ResNet101网络的训练过程中，利用当前输入的RGB图像所对应的各物料类别成像质量评估值F对预测结果所依赖数据的权重值进行调整。

需要说明的是，上述步骤中得到调整指标F_j为灰度图像C_j中一个物料类别A_j所对应的物料类别成像质量评估值。而在对灰度图像C_j对应的图像数据中具有多个A_j，也即一个A_j表示图像中所对应的一根钢筋，图像中具有多个钢筋。

至此，获取图像数据每一个物料类别的调整指标，表示在ResNet101网络的训练过程中，图像数据中所有钢筋类别的调整指标F。其中调整指标F的值越大，表示在ResNet101神经网络的训练获取预测结果过程中，应该更加偏向于RGB图像数据，反之则偏向深度数据。

如果当前物料类别成像质量评估值较高，则ResNet101网络的训练过程中，预测结果所依赖数据应当更加偏重于RGB图像数据。如果当前物料类别成像质量评估值较低，则ResNet101网络的训练过程中，预测结果所依赖数据应当更加偏重于深度图像数据。

在得到图像数据对应的loss_i后，loss_i的值越小，模型预测效果就越好，至此完成ResNet101网络模型的优化。

上述实施例中获取的当前物料类别的调整指标F较高，能够使得ResNet101网络的训练过程中，预测结果所用数据更偏重于RGB图像数据。反之，预测所用数据更偏重于深度图像数据。

进而达到在具有好的光照和视野下，深度数据不会影响RGB图像数据对物料类别分类的准确率。通过使得在不具有好的光照和视野下，让ResNet101网络更加依赖深度数据完成物料类别分类，提高物料识别准确率。

至此，根据当前ResNet101网络训练过程中的物料类别成像质量评估模型，得到优化后的ResNet101网络。

本实施例中，根据优化后的ResNet101神经网络模型，进行Mask R-CNN神经网络训练，得到优化的Mask R-CNN神经网络，进而完成Mask R-CNN神经网络训练。

具体地，在得到优化后的ResNet101网络，利用标注完成的数据集，对ResNet101网络进行训练。其中神经网络训练过程为公知技术，不在赘述。本方案在对ResNet101网络的训练过程中超参数设置的经验值分别为学习率为0.25，动量为0.8，epoch＝100：采用随机梯度下降法进行ResNet101网络的训练，至此完成ResNet101神经网络的训练。

本实施例中，将RGB图像数据和深度图像数据之间进行通道解耦，并从RGB图像数据中，提取物料类别成像质量评估模型，用于ResNet网络在不同物料类别成像效果下，对神经网络进行结果预测时，所依赖图像数据或深度数据的权重进行调整，即如果当前物料类别成像不好，则应当使得ResNet网络进行结果预测时，更加依赖深度数据，如果当前物料类别成像好，则应当使得ResNet网络进行结果预测时，更加依赖图像数据。从而构建了ResNet网络的损失函数，为后续的物料识别的准确性提供了支撑。

本实施例中，对优化的Mask R-CNN神经网络结构的训练过程如下：

获取训练集；将训练集中的RGB图像数据和深度图像数据作为Mask R-CNN神经网络结构的输入；在Mask R-CNN神经网络中利用优化后训练完成的ResNet101网络提取C1～C5特征图，并将C1～C5特征图输入到FPN神经网络中，得到p2～p6，将提取得到p2～p6输入到RPN网络中，并利用Mask R-CNN神经网络新增的MASK分支网络，进行回归学习，包围框学习和掩膜学习，进行Mask R-CNN神经网络的训练。其中，C1～C5特征图提取方法为公知技术，此处不在赘述，p2～p6的获取也为公知技术，此处不再赘述。

需要说明的是，本实施例的训练集可以与上述中的训练数据集相同，也可以是从中选取的一部分。

需要说明的是，本发明的方案只优化了Mask R-CNN神经网络中的ResNet101神经网络提取C1～C5特征图部分，其余网络不变，并且虽然对Mask R-CNN神经网络输入了图像深度数据，但是后续并不进行使用，仅用于特征图提取，后续的Mask R-CNN神经网络中的其他网络训练时，仅借助RGB图像数据。

至此，根据优化后的ResNet101网络和当前标注后的数据集，完成Mask R-CNN神经网络训练。

本发明的方案重点在于对ResNet101网络训练结果进行优化，进而通过在训练Mask R-CNN神经网络时，利用优化后的ResNet101网络提取得到当前输入图像的特征图C1～C5，进而完成当前Mask R-CNN神经网络的训练，提高了Mask R-CNN神经网络在光照环境不良条件下的物料的识别精度。

本实施例中，在物料检测区域中，通过将图像处理得到的待识别的物料的RGB图像数据和深度图像数据，输入到训练完成的优化的Mask R-CNN神经网络中，通过Mask R-CNN神经网络完成物料识别定位；根据Mask R-CNN神经网络获取当前图像中物料识别结果中属于物料的类别个数，完成最终物料计数。

本发明考虑到如果仅深度图像数据混合作为神经网络的数据的输入，则由于深度图像数据不具备物料的纹理信息，会使得通过深度数据识别物料的效果不佳；如果仅依据图像数据作为神经网络的输入，则由于图像中包含物料的纹理信息，在物料类别成像较好的情况下，会得到较好的物料识别结果，但是由于图像数据采集过程，容易受到环境光照和受成像视角的影响，导致定位结果不稳定。因此本发明通过将图像数据和深度图像数据结合在一起构建损失函数，能够根据图像数据的成像质量，实时调整所需要依赖数据的重要性，实现对网络的优化，能够准确地进行物料识别。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图像处理的物料识别方法，其特征在于，包括以下步骤：

获取不同视角下的待识别的物料图像信息；

根据图像配准结果，得到将当前相机固定位置处所采集建筑物料正视图变换到不同位置下所采集建筑物料正视图对应视角所需要的透视变换矩阵；

获取拼接后的图像信息对应的深度信息；基于获取的拼接后的图像信息以及深度信息，对物料进行识别。

2.根据权利要求1所述的基于图像处理的物料识别方法，其特征在于，获取不同视角下的待识别的物料图像信息具体为设置至少两台相机在不同视角下分别进行物料图像信息的拍摄。

3.根据权利要求1所述的基于图像处理的物料识别方法，其特征在于，采用sift特征点图像配准方法，得到除标准视角图像外其余任意一视角下的物料图像与当前标准视角图像的配准结果，从当前配准结果中，随机选取图像配准后的四对特征点，得到两张图像之间的透视变换矩阵，将用于与标准视角图像进行图像配准的图像，通过所得透视变换矩阵，将其变换至与当前标准视角图像属于同一空间视角下。

4.根据权利要求1所述的基于图像处理的物料识别方法，其特征在于，基于获取的拼接后的图像信息以及深度信息，对物料进行识别的具体过程为：

将拼接后的图像信息以及该图像信息对应的深度信息输入训练好的优化的Mask R-CNN网络模型，进行物料的识别，得到识别结果；

其中，对所述ResNet网络进行优化的具体过程为：

所述损失函数的获取过程为：

获取任意单个物料类别的成像质量评估值；

5.根据权利要求4所述的基于图像处理的物料识别方法，其特征在于，所述损失函数为：

其中，F_j为当前物料的图像第A_j个物料类别所对应的成像质量评估值，p(K_j)为第A_j个物料类别在当前ResNet网络训练过程中物料图像上的真实标签值，q(K'_j)为第A_j个物料类别在当前ResNet网络训练过程中物料图像上的预测标签值，p(L_j)为第A_j个物料类别在当前ResNet网络训练过程中深度图像上的真实标签值，q(L′_j)为第A_j个物料类别在当前ResNet网络训练过程中深度图像上的预测标签值，H为所有类别的个数，m()为归一化函数，j为物料编号。

6.根据权利要求4所述的基于图像处理的物料识别方法，其特征在于，所述调整指标为：

F_j＝exp(-D_j)*E_j*G

7.根据权利要求4所述的基于图像处理的物料识别方法，其特征在于，获取任意单个物料类别的成像质量评估值的具体过程为：

获取灰度图像的信息熵；

8.根据权利要求4所述的基于图像处理的物料识别方法，其特征在于，所述Mask R-CNN网络模型还包括FPN网络、RPN神经网络以及RoI Align模型。