CN116681892B

CN116681892B - 基于多中心PolarMask模型改进的图像精准分割方法

Info

Publication number: CN116681892B
Application number: CN202310644624.6A
Authority: CN
Inventors: 陈达; 王亚琳; 舒明雷; 周书旺; 刘丽
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2024-01-26
Anticipated expiration: 2043-06-02
Also published as: CN116681892A

Abstract

一种基于多中心PolarMask模型改进的图像精准分割方法，利用几何知识中的散度原理，在极中心度损失部分添加该点到轮廓欧式距离的梯度的散度，约束中心点的选取，使得中心点的选取更具合理性，并提高其的准确度；利用非凸图形可由可数个凸图形覆盖的原理，寻找多个中心点，并找出对应中心点下的掩码，使得更好的覆盖原PolarMask模型识别性较差的非凸图形，从而使模型简单有效，且更具普遍性和适用性，提高检测水平，为视觉系统研究提供重要参考价值。

Description

基于多中心PolarMask模型改进的图像精准分割方法

技术领域

本发明涉及图像分割领域，具体涉及一种基于多中心PolarMask模型改进的图像精准分割方法。

背景技术

图像分割是一项基本的计算机视觉任务，也是许多后续计算机视觉应用的基石，例如自动化视觉系统和机器人抓取以及医疗应用方面。近年来随着深度学习的快速发展，图像分割在实际应用方面取得了一系列优异的成果。

基于轮廓检测的图像分割方法PolarMask，其抛开了双阶段先检测后分割的两步检测步骤，采用检测和分割同时进行的检测步骤，大大提高了检测速率。本发明基于PolarMask模型进行了改进。

PolarMask通过实例中心分类和极坐标中的密集距离回归来预测实例轮廓，并设计了极中心度和相应的损失函数，极坐标的表示方法具有特殊性，使其在旋转物体中不受限制，大大提高了旋转物体的分割性能，其次，其通过中心点和中心点到轮廓上的距离来表示轮廓上的点，表示方法简单，但其所选轮廓将总为凸形，使其在非凸物体上的分割性能受到限制，在检测非凸物体时性能较差。

发明内容

本发明为了克服以上技术的不足，提供了一种提高检测非凸物体的性能，使模型应用更广泛的图像分割方法。

本发明克服其技术问题所采用的技术方案是：

一种基于多中心PolarMask模型改进的图像精准分割方法，包括如下步骤：

a)从COCO2017语义分割数据中获得训练集train2017、测试集test2017、验证集val2017以及训练集train2017的注释文件annotation_train、测试集test2017的注释文件annotation_test、验证集val2017的注释文件annotation_val；

b)对训练集train2017中的图像进行预处理，各个预处理后的图像构成原始图像集I_y，I_y＝{I_y1,I_y2,...,I_yi,...,I_yn}，I_yi为第i张预处理后的图像；

c)计算原始图像集I_y中第i张预处理后的图像I_yi中所标记的第j个物体W_j的中心点以及该中心点到第j个物体W_j轮廓的n条射线长度d₁,d₂,...,d_i,...,d_n，j∈{1,2,...,l}，l为第i张预处理后的图像I_yi中物体的个数；

d)建立多中心PolarMask模型，将原始图像集I_y中第i张预处理后的图像I_yi输入到多中心PolarMask模型中，输出得到分割图像I_yi′；

e)计算损失函数L，使用Adam优化器，利用损失函数L反向传播以优化多中心PolarMask模型，得到优化后的多中心PolarMask模型；

f)将测试集test2017中任一一张图像输入到优化后的多中心PolarMask模型中，输出得到分割图像I_test′。

进一步的，步骤b)中将训练集train2017中的第i张图像以50％的概率进行随机增强，得到预处理后的图像I_yi。

优选的，所述随机增强操作包括图像剪裁、图像翻转、对比度调整、亮度调整。进一步的，步骤c)包括如下步骤：

c-1)利用多边形重心公式计算原始图像集I_y中第i张预处理后的图像I_yi中的第j个物体的重心为第j个物体重心的X轴坐标，/>为第j个物体重心的Y轴坐标，重心/>作为第j个物体W_j的中心点；

c-2)以中心点为极中心点，从极中心点引一条射线作为极坐标轴，以顺时针方向为正方向建立极坐标系，在极坐标系中从极中心点建立n条射线S₁,S₂,...,S_i,...,S_n，S_i为第i条射线，i∈{1,...,n}，每两条相邻的射线之间的夹角为θ，/>沿第i条射线S_i的方向从内向外判断每个像素点是否属于第j个物体W_j，从注释文件annotation_train中查询每个掩码的位置，选取属于第j个物体W_j掩码的距离最近的像素点到极中心点的距离第i条射线S_i的射线长度d_i。

进一步的，步骤d)包括如下步骤：

d-1)多中心PolarMask模型由主干网络ResNet、生成检测模块、推理模块构成；

d-2)将原始图像集I_y中第i张预处理后的图像I_yi输入到多中心PolarMask模型的主干网络ResNet中，得到m个特征图C₁,C₂,...,C_i,...,C_m，C_i为第i个特征图，i∈{1,2,...,m}；

d-3)生成检测模块由PolarMask模型的head结构构成，将第i个特征图C_i输入到PolarMask模型的head结构中，分别输出分类回归、极中心度回归、掩码回归，分类回归为H×W×K的矩阵，H为矩阵行数，W为矩阵列数，K为类别数，极中心度回归为H×W×1的矩阵，掩码回归为H×W×n的矩阵，分类回归中第i个像素点的分类分数为极中心度回归中第i个像素点的极中心度为掩码回归中第i个像素点的回归射线长度为将第i个像素点的分类分数/>使用sigmoid函数归一化得到归一化后的分类分数/>将第i个像素点的极中心度/>使用sigmoid函数归一化得到归一化后的极中心度/>通过公式/>计算得到第j个特征图C_j的第i个像素点的置信度S_i，j∈{1,2,...,m}，i∈{1,2,...,H×W}，将第j个特征图C_j中的H×W个像素点的置信度按从大到小的顺序排列，取前1000个像素点并过滤掉前1000个像素点中置信度小于0.05的像素点后，得到处理后的特征图C_j′，使用python中的reshape函数将处理后的特征图C_j′的大小由H×W转换为1×(H×W)，得到处理后的特征图C_j″；

d-4)使用python中的stack函数将m个处理后的特征图C₁″,C₂″,...,C_j″,...,C_m″的所有像素点合并，得到特征图C；

d-5)将特征图C输入到推理模块中，将特征图C中筛选出像素点的分类分数大于0.05的像素点，使用阈值为0.5的非极大值抑制方法去除筛选出来的像素点中的冗余的像素点，得到l个保留下来的像素点，标记l个像素点的坐标为为第j个像素点的X轴坐标，/>为第j个像素点的Y轴坐标，使用python中列表索引方法得到坐标/>对应的回归距离{d_i′,j＝1,2,...,l}；

d-6)以第j个物体的中心点坐标为极中心点，从该极中心点引一条射线作为极坐标轴，以顺时针方向为正方向建立极坐标系；

d-7)通过公式计算得到第i个轮廓点的X轴坐标，通过公式计算得到第i个轮廓点的Y轴坐标，i∈{1,2,...,n}，从0度所对应的坐标点出发，按顺时针方向逐个连接n个轮廓点，得到物体的预测掩码轮廓M_j；

d-8)通过公式计算得到第j个轮廓点的置信度S_j′，j∈{1,2,...,n}，/>为第j个轮廓点对应的归一化后的极中心度，/>为第j个轮廓点对应的归一化后的分类分数，对n个轮廓点的置信度使用python的sg.argrelmax函数求取出q个极值点及每个极值点对应的置信度，其第i个极值点对应的置信度为S_i″，i∈{1,2,...,q}；

d-9)以第i个极值点为中心、5个像素点长度为半径建立一圆形区域C_i，圆形区域C_i中像素点个数为U，在该圆形区域C_i内利用python的列表索引在置信度S_i中寻找圆形区域C_i中像素点c_i的置信度c_i为圆形区域C_i中第i个像素点，i∈{1,2,...,U}；

d-10)选择U个像素点中置信度最高的像素点c_j，该像素点c_j的坐标为为像素点c_j的X轴坐标，/>为像素点c_j的Y轴坐标，设置置信度得分阈值，当置信度/>大于阈值0.3时，使用python中的列表索引方法计算出像素点c_j所对应的回归距离d_cj；

d-11)将像素点c_j的坐标作为极中心点，从该极中心点引一条射线作为极坐标轴，以顺时针方向为正方向建立极坐标系；

d-12)通过公式计算得到第i个轮廓点的X轴坐标，通过公式/>计算得到第i个轮廓点的Y轴坐标，i∈{1,2,...,n}，从0度所对应的坐标点出发，按顺时针方向逐个连接n个轮廓点，得到掩码轮廓M_j′；

d-13)使用python的opencv模块将预测掩码轮廓M_j和掩码轮廓M_j′合并，得到最终目标对象轮廓M_r；

d-14)使用python的opencv模块将目标对象轮廓M_r标记在第i张预处理后的图像I_yi上，得到分割图像I_yi′。

进一步的，步骤e)中计算损失函数L的步骤为：

e-1)通过公式计算得到掩码回归损失L_reg，式中

e-2)通过公式计算得到极中心度损失L_ct，式中ε为常数，/>点x为第i张预处理后的图像I_yi中任意一像素点，x∈{1,2,...,V}，V为第i张预处理后的图像I_yi的像素点总数，D(x)为点x到预测掩码轮廓M_j的欧式距离，/>为欧式距离的梯度算子，div(·)为散度算子；

e-3)通过公式L＝L_cls+α₁L_reg+α₂L_ct计算得到损失函数L，式中L_cls为二元交叉熵损失，α₁和α₂均为交易参数。

优选的，步骤e)中优化多中心PolarMask模型时初始学习率设置为0.01，迭代周期设置为10。

优选的，α₁＝1，α₂＝1，ε＝10^-6。

优选的，步骤d-11)中置信度得分阈值的取值为0.3。

本发明的有益效果是：

(1)改善PolarMask局限于分割凸形物体的缺陷，改善非凸物体的分割性能，提高模型应用的广泛性。

(2)通过修改损失函数，进一步提高掩码(mask)预测的准确性和中心点选取的准确性和合理性。

(3)通过选择合适的多中心点选取方法，提高中心点的选取质量，从而进一步提高分割的精确性，同时也会加快物体的检测速度，减少不必要的计算损失。

附图说明

图1为本发明的掩码组装图；

图2为本发明的方法流程图；

图3为本发明的目标检测网络结构图；

图4为本发明的多中心优化模型对图像的检测效果图。

具体实施方式

下面结合附图1至附图4对本发明做进一步说明。

a)从COCO2017语义分割数据中获得训练集train2017、测试集test2017、验证集val2017以及训练集train2017的注释文件annotation_train、测试集test2017的注释文件annotation_test、验证集val2017的注释文件annotation_val。

b)对训练集train2017中的图像进行预处理，各个预处理后的图像构成原始图像集I_y，I_y＝{I_y1,I_y2,...,I_yi,...,I_yn}，I_yi为第i张预处理后的图像。

c)计算原始图像集I_y中第i张预处理后的图像I_yi中所标记的第j个物体W_j的中心点以及该中心点到第j个物体W_j轮廓的n条射线长度d₁,d₂,...,d_i,...,d_n，j∈{1,2,...,l}，l为第i张预处理后的图像I_yi中物体的个数。

d)如附图3所示，建立多中心PolarMask模型，将原始图像集I_y中第i张预处理后的图像I_yi输入到多中心PolarMask模型中，输出得到分割图像I_yi′。

利用几何知识中的散度原理，在极中心度损失部分添加该点到轮廓欧式距离的梯度的散度，约束中心点的选取，使得中心点的选取更具合理性，并提高其的准确度；利用非凸图形可由可数个凸图形覆盖的原理，寻找多个中心点，并找出对应中心点下的掩码，使得更好的覆盖原PolarMask模型识别性较差的非凸图形，从而使模型简单有效，且更具普遍性和适用性，提高检测水平，为视觉系统研究提供重要参考价值。

实施例1：

步骤b)中将训练集train2017中的第i张图像以50％的概率进行随机增强，得到预处理后的图像I_yi。

实施例2：

所述随机增强操作包括图像剪裁、图像翻转、对比度调整、亮度调整。

实施例3：

如附图1所示，步骤c)包括如下步骤：

c-1)利用多边形重心公式计算原始图像集I_y中第i张预处理后的图像I_yi中的第j个物体的重心为第j个物体重心的X轴坐标，/>为第j个物体重心的Y轴坐标，重心/>作为第j个物体W_j的中心点。

实施例4：

本发明构建了一个基于多中心的PolarMask改进模型，能够更准确的预测目标对象掩码(mask)，具体的，步骤d)包括如下步骤：

d-1)多中心PolarMask模型由主干网络(backbone)ResNet、生成检测模块、推理模块构成。

d-2)将原始图像集I_y中第i张预处理后的图像I_yi输入到多中心PolarMask模型的主干网络ResNet中，按照特征金字塔的方式自上而下与横向连接的方式进行融合，使同时获取高级特征的语义信息和浅层特征特征的像素信息。得到m个特征图C₁,C₂,...,C_i,...,C_m，C_i为第i个特征图，i∈{1,2,...,m}。

d-3)生成检测模块由PolarMask模型的head结构构成，将第i个特征图C_i输入到PolarMask模型的head结构中，采用文献“Xie,E.,Sun,P.,Song,X.,Wang,W.,Liu,X.,Liang,D.,...&Luo,P.(2020).Polarmask:Single shot instance segmentation withpolar representation.In Proceedings of the IEEE/CVF conference on computervision and pattern recognition(pp.12193-12202).”中方法生成三个分支，分别输出分类回归、极中心度回归、掩码(mask)回归，分类回归为H×W×K的矩阵，H为矩阵行数，W为矩阵列数，K为类别数，极中心度回归为H×W×1的矩阵，掩码回归为H×W×n的矩阵，分类回归中第i个像素点的分类分数为极中心度回归中第i个像素点的极中心度为/>掩码回归中第i个像素点的回归射线长度为将第i个像素点的分类分数/>使用sigmoid函数归一化得到归一化后的分类分数/>将第i个像素点的极中心度/>使用sigmoid函数归一化得到归一化后的极中心度/>通过公式/>计算得到第j个特征图C_j的第i个像素点的置信度S_i，j∈{1,2,...,m}，i∈{1,2,...,H×W}，将第j个特征图C_j中的H×W个像素点的置信度按从大到小的顺序排列，取前1000个像素点并过滤掉前1000个像素点中置信度小于0.05的像素点后，得到处理后的特征图C_j′，使用python中的reshape函数将处理后的特征图C_j′的大小由H×W转换为1×(H×W)，得到处理后的特征图C_j″。例如本发明选择的数据集为COCO(K＝80)，实验表明n＝36时效果最佳。

d-5)将特征图C输入到推理模块中，将特征图C中筛选出像素点的分类分数大于0.05的像素点，使用阈值为0.5的非极大值抑制(NMS)方法去除筛选出来的像素点中的冗余的像素点，得到l个保留下来的像素点，标记l个像素点的坐标为为第j个像素点的X轴坐标，/>为第j个像素点的Y轴坐标，使用python中列表索引方法得到坐标/>对应的回归距离{d_i′,j＝1,2,...,l}。

d-6)以第j个物体的中心点坐标为极中心点，从该极中心点引一条射线作为极坐标轴，以顺时针方向为正方向建立极坐标系。

d-7)通过公式计算得到第i个轮廓点的X轴坐标，通过公式计算得到第i个轮廓点的Y轴坐标，i∈{1,2,...,n}，从0度所对应的坐标点出发，按顺时针方向逐个连接n个轮廓点，得到物体的预测掩码(mask)轮廓M_j，完成组装掩码(mask)。

d-8)通过公式计算得到第j个轮廓点的置信度S_j′，j∈{1,2,...,n}，/>为第j个轮廓点对应的归一化后的极中心度，/>为第j个轮廓点对应的归一化后的分类分数，对n个轮廓点的置信度使用python的sg.argrelmax函数求取出q个极值点及每个极值点对应的置信度，其第i个极值点对应的置信度为S_i″，i∈{1,2,...,q}。

d-9)以第i个极值点为中心、5个像素点长度为半径建立一圆形区域C_i，圆形区域C_i中像素点个数为U，在该圆形区域C_i内利用python的列表索引在置信度S_i中寻找圆形区域C_i中像素点c_i的置信度c_i为圆形区域C_i中第i个像素点，i∈{1,2,...,U}。

d-10)选择U个像素点中置信度最高的像素点c_j，该像素点c_j的坐标为为像素点c_j的X轴坐标，/>为像素点c_j的Y轴坐标，设置置信度得分阈值，当置信度/>大于阈值0.3时，使用python中的列表索引方法计算出像素点c_j所对应的回归距离d_cj。

d-11)将像素点c_j的坐标作为极中心点，从该极中心点引一条射线作为极坐标轴，以顺时针方向为正方向建立极坐标系。

d-12)通过公式计算得到第i个轮廓点的X轴坐标，通过公式/>计算得到第i个轮廓点的Y轴坐标，i∈{1,2,...,n}，从0度所对应的坐标点出发，按顺时针方向逐个连接n个轮廓点，得到掩码(mask)轮廓M_j′。

d-13)使用python的opencv模块将预测掩码轮廓M_j和掩码轮廓M_j′合并，得到最终目标对象轮廓M_r。

在该实施例中，优选的，步骤d-11)中置信度得分阈值的取值为0.3。

实施例5：

步骤e)中计算损失函数L的步骤为：

e-1)通过公式计算得到掩码回归损失L_reg，式中

e-2)通过公式计算得到极中心度损失L_ct，式中ε为常数，/>点x为第i张预处理后的图像I_yi中任意一像素点，x∈{1,2,...,V}，V为第i张预处理后的图像I_yi的像素点总数，D(x)为点x到预测掩码轮廓M_j的欧式距离，/>为欧式距离的梯度算子，div(·)为散度算子。

在该实施例中，优选的，步骤e)中优化多中心PolarMask模型时初始学习率设置为0.01，迭代周期设置为10。进一步优选的，α₁＝1，α₂＝1，ε＝10^-6。最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多中心PolarMask模型改进的图像精准分割方法，其特征在于，包括如下步骤：

f)将测试集test2017中任一一张图像输入到优化后的多中心PolarMask模型中，输出得到分割图像I_test′；

步骤d)包括如下步骤：

d-12)通过公式计算得到第i个轮廓点的X轴坐标，通过公式计算得到第i个轮廓点的Y轴坐标，i∈{1,2,...,n}，从0度所对应的坐标点出发，按顺时针方向逐个连接n个轮廓点，得到掩码轮廓M_j′；

d-14)使用python的opencv模块将目标对象轮廓M_r标记在第i张预处理后的图像I_yi上，得到得到分割图像I_yi′。

2.根据权利要求1所述的基于多中心PolarMask模型改进的图像精准分割方法，其特征在于：步骤b)中将训练集train2017中的第i张图像以50％的概率进行随机增强，得到预处理后的图像I_yi。

3.根据权利要求2所述的基于多中心PolarMask模型改进的图像精准分割方法，其特征在于：所述随机增强操作包括图像剪裁、图像翻转、对比度调整、亮度调整。

4.根据权利要求1所述的基于多中心PolarMask模型改进的图像精准分割方法，其特征在于，步骤c)包括如下步骤：

5.根据权利要求1所述的基于多中心PolarMask模型改进的图像精准分割方法，其特征在于，步骤e)中计算损失函数L的步骤为：

e-1)通过公式计算得到掩码回归损失L_reg，式中d_i ^max＝max(d_i,d_i′)，d_i ^min＝min(d_i,d_i′)；

6.根据权利要求1所述的基于多中心PolarMask模型改进的图像精准分割方法，其特征在于：步骤e)中优化多中心PolarMask模型时初始学习率设置为0.01，迭代周期设置为10。

7.根据权利要求5所述的基于多中心PolarMask模型改进的图像精准分割方法，其特征在于：α₁＝1，α₂＝1，ε＝10-⁶。

8.根据权利要求5所述的基于多中心PolarMask模型改进的图像精准分割方法，其特征在于：步骤d-11)中置信度得分阈值的额取值为0.3。