CN112766313B

CN112766313B - 基于U-net结构的水晶体分割及定位方法、装置、设备和介质

Info

Publication number: CN112766313B
Application number: CN202011623485.1A
Authority: CN
Inventors: 刘建文
Original assignee: Xiamen Beiqi Technology Co ltd
Current assignee: Xiamen Beiqi Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-11-14
Anticipated expiration: 2040-12-29
Also published as: CN112766313A

Abstract

本发明提供一种基于U‑net结构的水晶体分割及定位方法，涉及图像分割及关键点定位技术领域，包括分割网络训练过程、关键点定位网络训练过程以及水晶体分割及定位过程，本方法针对水晶体这种光线结构复杂的目标，通过采用U‑net结构，使得网络获得了增强图像特征和筛选特征的能力，构建了一个极为鲁棒的水晶体分割模型；采用图像分割获得的水晶体图像作为输入进行关键点定位，重复利用了分割的模型结果，提升了关键点定位的准确率；本方法不仅分割和定位效果卓著，同时模型结构简单，实现了在嵌入式设备上有效运行。本发明实施例克服了水晶体面临的光线复杂条件下的分割和定位问题，使得生成的分割掩码和水晶体关键点准确可靠，抗噪声能力强。

Description

基于U-net结构的水晶体分割及定位方法、装置、设备和介质

技术领域

本发明涉及图像分割及关键点定位技术领域，特别涉及一种基于U-net结构的水晶体分割及定位方法、装置、设备和介质。

背景技术

图像分割技术是将图像中人们感兴趣的区域分割出来，是计算机图像处理中的一种基本技术，是图像分析和理解的基础。具体对于水晶体分割和三维重建而言，就算通过计算机视觉算法，分割出图像中的水晶体，并确定该水晶体的空间位置的过程。

不过当前对透明水晶体的研究还处于初期阶段，如专利名称为“一种晶体颗粒的图像分割方法及系统”(申请号为201810110876.3)，提出的利用形态学运算组合对图像进行均衡化处理,之后采用两步法Otsu双阈值分割算法对颗粒的两种特征进行提取，最后利用形态学算法对颗粒中的两部分连接合并。该方法本质上是一种阈值分割算法，对客户实际使用场景存在光线和背景的严苛限制。对于光线偏差大的场景，物体大小变化幅度大的情况，无法达到准确分割的目的，将给后期处理带来巨大的误差。

水晶体的三维重建对于测量水晶体的大小，获取形状拥有重大的意义。如专利名称为“晶体三维晶面生长动力学的立体成像测定系统及方法”(申请号为CN201310595380.3)，提出采用点与线定位方法，是所有水晶体重建需要使用的技术，不过该专利采用角/边缘/线检测技术并未具体说明，对存在多重反光、光线条件复杂的水晶体具体如何应对。

目前工业界和学术界，对于水晶体的研究确实存在严重的滞后和内容不足的情况。研究的内容少的原因之一，是由于水晶体自身存在的特殊物质形态，对光线存在多角度的反射，对目标分割和图像二维、三维重建构成了巨大的挑战。

发明内容

本发明要解决的技术问题，在于提供一种基于U-net结构的水晶体分割及定位方法、装置、设备和介质，实现了水晶体面临的光线复杂条件下的分割和定位，使得生成的水晶体分割掩码和水晶体关键点准确可靠，抗噪声能力强。

第一方面，本发明提供了一种基于U-net结构的水晶体分割及定位方法，包括：分割网络训练过程、关键点定位网络训练过程以及水晶体分割及定位方法；

所述分割网络训练过程包括：

获取设定数量的水晶体照片，对所述水晶体照片进行预处理，得到输入图像X_input，对所述输入图像X_input的水晶体区域进行分割操作，得到与所述输入图像X_input对应的分割掩码X_mask；

对所述输入图像X_input与分割掩码X_mask同时进行随机旋转操作、左右随机移动操作、上下随机移动操作或左右翻转操作，将操作后得到的输入图像X_input与分割掩码X_mask以数据对的形式作为第一训练数据；

构建第一U-net结构网络，利用所述第一训练数据对所述第一U-net结构网络进行水晶体分割模型的训练，得到分割网络；

所述关键点定位网络训练过程包括：

利用所述分割掩码X_mask对所述输入图像X_input进行分割，得到水晶体分割图像M_input，获取所述水晶体分割图像M_input中水晶体的11个关键点位置M_points；

对所述水晶体分割图像M_input以及所述11个关键点位置M_points进行随机旋转操作、左右随机移动操作、上下随机移动操作或左右翻转操作，将操作后得到的水晶体分割图像M_input以及11个关键点位置M_points以数据对的形式作为第二训练数据；

构建第二U-net结构网络，利用所述第二训练数据对所述第二U-net结构网络进行关键点定位的训练，得到关键点定位网络；

所述水晶体分割及定位过程包括：

获取待处理图像，预处理后输入所述分割网络，得到预测分割掩码；利用所述预测分割掩码对所述预处理后的待处理图像进行分割，得到水晶体分割图像M_input；将所述水晶体分割图像M_input输入所述关键点定位网络，得到预测的11个关键点位置，利用所述预测的11个关键点位置实现待处理图像中的水晶体定位。

进一步地，所述分割网络训练过程中，构建第一U-net结构网络，利用所述第一训练数据对所述第一U-net结构网络进行水晶体分割模型的训练，具体包括：

构建第一U-net结构网络，所述第一U-net结构网络包括16个卷积模块，所述输入图像X_input作为第一U-net结构网络的输入，输出单通道的预测分割掩码X_mask'；所述第一U-net结构网络采用基于X_mask'与X_mask差值的构建L2损失Loss_seg，公式为Loss_seg＝||X_mask'-X_mask||²，训练过程中，批量大小为8，总的迭代次数为80万次，采用随机梯度下降的方式训练。

进一步地，所述关键点定位网络训练过程中，构建第二U-net结构网络，利用所述第二训练数据对所述第二U-net结构网络进行关键点定位的训练，具体包括：

构建第二U-net结构网络，所述第二U-net结构网络包括19个卷积模块，所述水晶体分割图像M_input作为所述第二U-net结构网络的输入，输出为1×23的向量，其中，前22个分量为预测的关键点位置M_points'，最后1个分量为预测的准确度的概率值；所述第二U-net结构网络损失包括关键点定位损失Loss_2D与置信度损失Loss_pro，计算公式为：

Loss_2D＝||M_points'-M_points||²

Loss_pro＝||probility-abs(M_points'-M_points)||²

其中，probility为网络输出的准确度的概率值，abs代表绝对值函数；

训练过程中，批量大小为12，总的迭代次数为60万次，采用随机梯度下降的方式训练。

第二方面，本发明提供了一种基于U-net结构的水晶体分割及定位装置，包括：分割网络训练模块、关键点定位网络训练模块以及水晶体分割及定位模块；

所述分割网络训练模块用于执行：

所述关键点定位网络训练模块用于执行：

所述水晶体分割及定位模块用于执行：

进一步地，所述分割网络训练模块中，构建第一U-net结构网络，利用所述第一训练数据对所述第一U-net结构网络进行水晶体分割模型的训练，具体包括：

进一步地，所述关键点定位网络训练模块中，构建第二U-net结构网络，利用所述第二训练数据对所述第二U-net结构网络进行关键点定位的训练，具体包括：

构建第二U-net结构网络，所述第二U-net结构网络包括19个卷积模块，所述水晶体分割图像M_input作为所述第二U-net结构网络的输入，输出1×23的向量，其中，前22个分量为预测的关键点位置M_points'，最后1个分量为预测的准确度的概率值；所述第二U-net结构网络损失包括关键点定位损失Loss_2D与置信度损失Loss_pro，计算公式为：

Loss_2D＝||M_points'-M_points||²

Loss_pro＝||probility-abs(M_points'-M_points)||²

其中，probility为预测的准确度的概率值，abs代表绝对值函数；

第三方面，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的方法。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

针对水晶体这种光线结构复杂的目标，通过采用U-net结构，使得网络获得了增强图像特征和筛选特征的能力，构建了一个极为鲁棒的水晶体分割模型；采用图像分割掩码和原始输入图像相结合的方法，重复利用了分割的模型结果，提升了关键点定位的准确率；本方法不仅分割定位效果卓著，同时模型结构简单，实现了在嵌入式设备上有效运行。综上所述，本发明实施例克服了水晶体面临的光线复杂条件下的分割和定位问题，使得生成的分割掩码和水晶体关键点定位准确可靠，抗噪声能力强。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明实施例一中方法的流程图；

图2为本发明实施例一中分割网络的结构示意图；

图3为本发明实施例一中水晶体的11个关键点标注示意图；

图4为本发明实施例一中关键点定位网络的结构示意图；

图5为本发明实施例一中三维重建示意图；

图6为本发明实施例二中装置的结构示意图；

图7为本发明实施例三中电子设备的结构示意图；

图8为本发明实施例四中介质的结构示意图。

具体实施方式

实施例一

本实施例提供一种基于U-net结构的水晶体分割及定位方法，如图1所示，包括；分割网络训练过程、关键点定位网络训练过程以及水晶体分割及定位过程；

所述分割网络训练过程包括：

获取设定数量的水晶体照片，对所述水晶体照片进行预处理，得到输入图像X_input，对所述输入图像X_input的水晶体区域进行分割操作，得到与所述输入图像X_input对应的分割掩码X_mask(即在图像上水晶体的部分为白，背景部分为黑)；

对所述输入图像X_input与分割掩码X_mask同时进行随机旋转操作、左右随机移动操作、上下随机移动操作或左右翻转操作，从而对数据增强，将操作后得到的输入图像X_input与分割掩码X_mask以数据对的形式作为第一训练数据；

构建第一U-net结构网络，利用所述第一训练数据对所述第一U-net结构网络进行水晶体分割模型的训练，训练结束后，优化的第一U-net结构网络即为分割网络；

所述关键点定位网络训练过程包括：

利用所述分割掩码X_mask对所述输入图像X_input进行分割，得到水晶体分割图像M_input(即实现去除水晶体以外的所有背景图像，得到水晶体部分的真实图像)，然后获取所述水晶体分割图像M_input中水晶体的11个关键点位置M_points；

对所述水晶体分割图像M_input以及所述11个关键点位置M_points进行随机旋转操作、左右随机移动操作、上下随机移动操作或左右翻转操作，从而对数据增强，将操作后得到的水晶体分割图像M_input以及11个关键点位置M_points以数据对的形式作为第二训练数据；

构建第二U-net结构网络，利用所述第二训练数据对所述第二U-net结构网络进行关键点定位的训练，训练结束后，优化的第二U-net结构网络即为关键点定位网络；

所述水晶体分割及定位过程包括：

获取待处理图像，预处理后输入所述分割网络，得到预测分割掩码；利用所述预测分割掩码对所述预处理后的待处理图像进行分割，得到水晶体分割图像M_input；将所述水晶体分割图像M_input作为输入所述关键点定位网络，得到预测的11个关键点位置，利用所述预测的11个关键点位置实现待处理图像中的水晶体定位。

当获取到水晶体图像的二维关键点以后，可以利用现有技术中的三维重建方法将2D的平面水晶体图像转为3D的立体水晶体。

针对水晶体这种光线结构复杂的目标，通过采用U-net结构，使得网络获得了增强图像特征和筛选特征的能力，构建了一个极为鲁棒的水晶体分割模型；采用图像分割掩码和原始输入图像相结合的方法，重复利用了分割的模型结果，提升了关键点定位的准确率；本方法不仅分割定位效果卓著，同时模型结构简单，实现了在嵌入式设备上有效运行。综上所述，本实施例通过构建基于U-net结构的水晶体分割及定位算法，克服了水晶体面临的光线复杂条件下的分割和定位问题，使得生成的分割掩码和水晶体关键点准确可靠，抗噪声能力强。

在一具体实施例中，具体实现如下：

1、采集数据：通过摄像头采集大量的水晶体照片，对于摄像头采集的灰度图像进行预处理，比如，采用直方图均衡化，对图像进行突出图像目标与背景的边界，减少由于颜色而导致的图像偏差，从而获得了分割网络模型的输入图像X_input。为了获取准确的分割训练数据，组织人员对图像进行分割操作，获取到每张图像对应的分割掩码X_mask。

2、获取分割数据：对于获取到X_input与X_mask图像，对它进行随机旋转，结合左右上下随机移动和左右翻转，对数据增强；然后把增强后的数据X_input与X_mask以一对一数据对的形式，存储下来，用于后期的分割网络训练。

3、构建分割网络：对于分割网络的构建，本实施例构建了一个U-net网络结构进行水晶体分割模型的训练，如图2所示，通过构建16个卷积模块(其中，Conv+Relu+stride(2)表示采用Relu为激活函数的卷积，同时步长为2，Deconv+stride(2)表示采用反卷积，步长为2，Conv+Relu表示采用Relu为激活函数的卷积，同时步长为1)，最后输出单通道的分割掩码X_mask'，输出像素位于0-1之间，其中0表示背景区域，1表示图像中水晶体位置。

4、训练分割网络：采用基于X_mask'与X_mask差值的构建了L2损失Loss_seg训练分割网络，计算公式为Loss_seg＝||X_mask'-X_mask||²，训练过程中，批量大小(batchsize)为8，总的迭代次数为80万次，采用随机梯度下降的方式训练分割网络。

5、二维重建数据的初步构建：为了得到水晶体的三维重建结果，必须先获取二维点数据，本实施例通过构建关键点定位网络获取水晶体二维数据。把X_input作为输入，运行分割模型，在分割掩码X_mask'的基础上，把X_input中目标水晶体分割出来，获取到M_input。对于宽高比大于772/516的图像，采用0值填充的方式，并统一缩放到772*516的宽高尺度，有助于提升关键点定位网络对于分割网络的适应性。

6、获取二维重建数据：对于获取的M_input，本实施例通过手工标注的方式按照如图3的方式标注图像中对应点的位置(其中，5号点和6号点重合)。通过标注获取到图像中水晶体的关键点位置M_points，每张图像11个点，并且对数据进行随机旋转，结合随机移动和左右翻转，对数据增强，以一对一数据对的形式，存储下来，用于后期的关键点定位网络训练。

7、构建关键点定位网络模型，如图4所示本实施例构建了基于U-net结构的关键点定位网络，通过构建19个卷积模块(其中，Conv+Relu+stride(2)表示采用Relu为激活函数的卷积，同时步长为2，Deconv+stride(2)表示采用反卷积，同时步长为2，Conv+Relu表示采用Relu为激活函数的卷积，同时步长为1，Dense表示全连接层)，最后输出1×23的向量，其中前22个分量为预测的关键点M_points'，输出值位于0-1之间，乘上图像的原始宽或高即可得到相对于原图的坐标，最后一个分量为预测的准确度的概率值。

8、训练关键点定位网络，关键点定位网络包含两部分损失(loss),关键点定位损失Loss_2D和置信度损失Loss_pro，计算公式为：

Loss_2D＝||M_points'-M_points||²

Loss_pro＝||probility-abs(M_points'-M_points)||²

在训练过程中，批量大小(batchsize)为12，总的迭代次数为60万次，并采用随机梯度下降的方式训练关键点定位网络。

本实施例通过采用了两个摄像头，分别运行分割网络和关键点定位网络得到X_mask'与M_points'，构建目标的3D模型，从而实现了水晶体的3D重建，具体如图5所示：对于空间中的一点P，如果采用C1和C2相机观察，看到它分别在相机中分别位于两个相机的p1和p2点。由于P点位于p1和p2的交点位置，因此本实施例即可确定水晶体的P点的3D坐标位置，对于11个点重复该操作，利用双目立体视觉的技术，通过双目标定的参数以及左右图像关键点的视差计算出关键点的三维坐标，有了三维坐标，就可以计算出晶体每条边的长度，最终即可重建出水晶体的三维模型。

基于同一发明构思，本申请还提供了与实施例一中的方法对应的装置，详见实施例二。

实施例二

在本实施例中提供了一种基于U-net结构的水晶体分割及定位装置，如图6所示，包括：分割网络训练模块、关键点定位网络训练模块以及水晶体分割及定位模块；

所述分割网络训练模块用于执行：

所述关键点定位网络训练模块用于执行：

所述水晶体分割及定位模块用于执行：

在一种可能的实现方式中，所述分割网络训练模块中，构建第一U-net结构网络，利用所述第一训练数据对所述第一U-net结构网络进行水晶体分割模型的训练，具体包括：

构建第一U-net结构网络，所述第一U-net结构网络包括16个卷积模块，所述输入图像X_input作为第一U-net结构网络的输入，输出单通道的预测分割掩码X_mask'；所述第一U-net结构网络采用基于X_mask'与X_mask差值的构建L2损失Loss_seg，公式为Loss_seg＝||X_mask'-X_mask|^|2，训练过程中，批量大小为8，总的迭代次数为80万次，采用随机梯度下降的方式训练。

在一种可能的实现方式中，所述关键点定位网络训练模块中，构建第二U-net结构网络，利用所述第二训练数据对所述第二U-net结构网络进行关键点定位的训练，具体包括：

Loss_2D＝||M_points'-M_points||²

Loss_pro＝||probility-abs(M_points'-M_points)||²

由于本发明实施例二所介绍的装置，为实施本发明实施例一的方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的电子设备实施例，详见实施例三。

实施例三

本实施例提供了一种电子设备，如图7所示，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，可以实现实施例一中任一实施方式。

由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备，故而基于本申请实施例一中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备，都属于本申请所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的存储介质，详见实施例四。

实施例四

本实施例提供一种计算机可读存储介质，如图8所示，其上存储有计算机程序，该计算机程序被处理器执行时，可以实现实施例一中任一实施方式。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于U-net结构的水晶体分割及定位方法，其特征在于，包括：分割网络训练过程、关键点定位网络训练过程以及水晶体分割及定位过程；

所述分割网络训练过程包括：

所述关键点定位网络训练过程包括：

所述水晶体分割及定位过程包括：

2.根据权利要求1所述的方法，其特征在于：所述分割网络训练过程中，构建第一U-net结构网络，利用所述第一训练数据对所述第一U-net结构网络进行水晶体分割模型的训练，具体包括：

3.根据权利要求1所述的方法，其特征在于：所述关键点定位网络训练过程中，构建第二U-net结构网络，利用所述第二训练数据对所述第二U-net结构网络进行关键点定位的训练，具体包括：

Loss_2D＝||M_points'-M_points||²

Loss_pro＝||probility-abs(M_points'-M_points)||²

4.一种基于U-net结构的水晶体分割及定位装置，其特征在于：包括分割网络训练模块、关键点定位网络训练模块以及水晶体分割及定位模块；

所述分割网络训练模块用于执行：

所述关键点定位网络训练模块用于执行：

所述水晶体分割及定位模块用于执行：

5.根据权利要求4所述的装置，其特征在于：所述分割网络训练模块中，构建第一U-net结构网络，利用所述第一训练数据对所述第一U-net结构网络进行水晶体分割模型的训练，具体包括：

6.根据权利要求4所述的装置，其特征在于：所述关键点定位网络训练模块中，构建第二U-net结构网络，利用所述第二训练数据对所述第二U-net结构网络进行关键点定位的训练，具体包括：

Loss_2D＝||M_points'-M_points||²

Loss_pro＝||probility-abs(M_points'-M_points)||²

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至3任一项所述的方法。