CN112070768B - 基于Anchor-Free的实时实例分割方法 - Google Patents
基于Anchor-Free的实时实例分割方法 Download PDFInfo
- Publication number
- CN112070768B CN112070768B CN202010973846.9A CN202010973846A CN112070768B CN 112070768 B CN112070768 B CN 112070768B CN 202010973846 A CN202010973846 A CN 202010973846A CN 112070768 B CN112070768 B CN 112070768B
- Authority
- CN
- China
- Prior art keywords
- anchor
- real
- time instance
- free
- instance segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于Anchor‑Free的实时实例分割方法,包括以下步骤:步骤S1:获取实例分割数据集,并预处理后生成训练集;步骤S2:基于改进的目标检测网络CenterNet和CAG‑Mask模块,构建基于Anchor‑Free的实时实例分割模型;步骤S3:根据训练集训练基于Anchor‑Free的实时实例分割模型,得到训练好的分割模型;步骤S4:根据训练好的分割模型对待检测图像或视频数据进行处理,获得实例分割效果。本发明有效缩短了分割时间,可用于实时的实例分割。
Description
技术领域
本发明涉及模式识别与计算机视觉领域,具体涉及一种基于Anchor-Free的实时实例分割方法。
背景技术
近年来,随着社会进步和科技的不断发展,在视觉领域,目标检测检测和语义分割结果的研究在短时间内得到快速发展。目标检测识别往往在图像上将目标以轴对称框的形式框出。大多成功的目标检测器都先穷举出潜在目标位置,然后对该位置进行分类。锚框的使用存在参数量大,正负样本不均导致训练难得缺点。因此使用Anchor-Free可以缩短训练时间,提高效率。实例分割极具挑战性,因为它要求对图像中所有目标进行正确检测并同时准确分割每个实例。
发明内容
有鉴于此,本发明的目的在于提供一种基于Anchor-Free的实时实例分割方法,能够有效地对图像进行实例分割。
为实现上述目的,本发明采用如下技术方案:
一种基于Anchor-Free的实时实例分割方法,包括以下步骤:
步骤S1:获取实例分割数据集,并预处理后生成训练集;
步骤S2:基于改进的目标检测网络CenterNet和CAG-Mask模块,构建基于Anchor-Free的实时实例分割模型;
步骤S3:根据训练集训练基于Anchor-Free的实时实例分割模型,得到训练好的分割模型;
步骤S4:根据训练好的分割模型对待检测图像或视频数据进行处理,获得实例分割效果。
进一步的,所述预处理包括用尺度变化、翻转以及对比度变化的数据增强方法。
进一步的,所述步骤S2具体为:
步骤S21:将HarDNet第二层的3×3传统卷积替换成3×3深度可分离卷积,使用修改后的HarDNet作为CenterNet的主干网提取特征,获得特征图,通过改进的HarDNet四次下采样之后由hm、wh、reg三个网络层输出三个预测值,分别是热力图、中心点对应的长和宽、偏置量,所有输出共享一个主干网;
步骤S22:在主干网加上分支CAG-Mask模块,建立Anchor-Free的实时实例分割模型
步骤S23:通道注意力模块是通过平均池化和最大池化操作来聚合特征映射的空间信息,生成两个不同的上下文描述图,将两个描述图送到一个共享网络,得到通道注意力图;
步骤S24:卷积块注意模块将空间和通道两个注意力模块串联起来,且通道注意力模块在前,空间注意力模块在后。
进一步的,所共享网络由多层感知机和一个隐藏层组成;
设通道注意力模块的输出结果为M,M的计算公式如下:
其中θ1和θ0为多层感知机(MLP)的权重,XI为输入特征图,表示对特征图D进行E类型的池化操作,上标D表示操作对象,下标E表示操作类型,max为取最大值,avg为取平均值;τ表示sigmoid函数,表示对应元素相加,表示对应元素相乘。
进一步的,所述步骤S24具体为:
将通道注意力模块的输出结果M作为空间注意力模块的输入,设空间注意力模块的输出结果为AO,AO的计算公式如下:
进一步的,所述步骤S3具体为:
步骤S31:根据训练集,训练模型,设输入图像为I,W和H分别为输入图像I的宽和高,I∈RW×H×3,R为实数;输入图片I通过改进的CenterNet,由改进主干网HarDNet经过S次下采样提取特征,由hm网络层产生出关键点的热力图,热力图的值代表每个关键点对于每个类别的预测值,热力图用表示,且其中C为目标检测类别的数量,关键点用(x,y)表示,c表示目标检测类,则用表示热力图中的关键点(x,y)对于类别c的预测值,Y(x,y,c)表示为热力图中的关键点(x,y)对于类别c的真实值;c类的每个真实关键点为(PX,PY),下采样S次后的对应低分辨率的中心点为
通过高斯核计算Y(x,y,c),计算公式如下:
其中σ是与目标大小相关的标准差;
步骤S32:Lk是中心点预测的损失函数,损失函数的计算公式如下:
其中α和β是超参数,N为输入图I的关键点数量;
步骤S33:设输入图I中第j个目标的检测框为(Aj,Bj,Cj,Dj),中心点为Pj,计算公式如下:
步骤S35:将改进的CenterNet的检测框数量设置为N个,得分最高的检测框被送入SAG-Mask分支进行训练,则最终的损失函数L如下:
L=Lk+0.1*Lbox+Loff+Lmask
其中Lmask是SAG-Mask分支的损失函数,是每个像素点的交叉熵损失的均值;
步骤S36:使用随机梯度下降优化方法,获得模型的最优参数,得到训练好的基于Anchor-Free的实时实例分割模型。
进一步的,所述步骤S4具体为:
步骤S41:将待预测图像输入训练好的基于Anchor-Free的实时实例分割模型进行预测,待预测图像通过改进的CenterNet进行多次下采样和上采样生成若干预测框,选择满足预设要求的预测框,并根据中心点预测概率选出符合要求预测框;
步骤S42:将得到的的预测框送入CAG-Mask模块进行语义分割,获得最终结果。
本发明与现有技术相比具有以下有益效果:
1.本发明能够有效地对图像进行实例分割,提升了实例分割的效率;
2.本发明能够使用改进的CenterNet目标检测方法,减少参数,没有复杂的后处理过程,使用HarDNet作为CenterNet的主干网提取特征,获得特征图,减少对特征图的访问,不会降低精度。速度快,可以解决实时的实例分割问题。
附图说明
图1是本发明一实施例中原理示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于Anchor-Free的实时实例分割方法,包括以下步骤:
步骤S1:获取实例分割数据集,对数据集使用尺度变化、翻转、对比度变化的数据增强方法扩充数据集,作为训练集;
步骤S2:基于改进的目标检测网络CenterNet和CAG-Mask模块,构建基于Anchor-Free的实时实例分割模型;
步骤S3:根据训练集训练基于Anchor-Free的实时实例分割模型,得到训练好的分割模型;
步骤S4:根据训练好的分割模型对待检测图像或视频数据进行处理,获得实例分割效果。
在本实施例中,所述步骤S2具体为:
步骤S21:将HarDNet第二层的3×3传统卷积替换成3×3深度可分离卷积,使用修改后的HarDNet作为CenterNet的主干网提取特征,获得特征图,通过改进的HarDNet四次下采样之后由hm、wh、reg三个网络层输出三个预测值,分别是热力图、中心点对应的长和宽、偏置量,所有输出共享一个主干网;
步骤S22:在主干网加上分支CAG-Mask模块,建立Anchor-Free的实时实例分割模型;注意力机制可以提升网络对于某些特征的关注度,本实施例采用了卷积块注意模块(Convolutional Block Attention Module),注意力的特征细化成两个不同的模块,将通道和空间结合起来,去关注特征图中特定的块特征。卷积块注意模块为一个小型的卷积神经网络,将空间和通道两个注意力模块串联起来,与只使用空间注意力模块相比,实现了显著的性能改进,同时保持了小的开销。
步骤S23:通道注意力模块是通过平均池化和最大池化操作来聚合特征映射的空间信息,生成两个不同的上下文描述图,将两个描述图送到一个共享网络,得到通道注意力图;
所共享网络由多层感知机和一个隐藏层组成;
设通道注意力模块的输出结果为M,M的计算公式如下:
其中θ1和θ0为多层感知机(MLP)的权重,XI为输入特征图,表示对特征图D进行E类型的池化操作,上标D表示操作对象,下标E表示操作类型,max为取最大值,avg为取平均值;τ表示sigmoid函数,表示对应元素相加,表示对应元素相乘。
步骤S24:卷积块注意模块将空间和通道两个注意力模块串联起来,且通道注意力模块在前,空间注意力模块在后。
将通道注意力模块的输出结果M作为空间注意力模块的输入,设空间注意力模块的输出结果为AO,AO的计算公式如下:
在本实施例中,所述步骤S3具体为:
步骤S31:根据训练集,训练模型,设输入图像为I,W和H分别为输入图像I的宽和高,I∈RW×H×3,R为实数;输入图片I通过改进的CenterNet,由改进主干网HarDNet经过S次下采样提取特征,由hm网络层产生出关键点的热力图,热力图的值代表每个关键点对于每个类别的预测值,热力图用表示,且其中C为目标检测类别的数量,关键点用(x,y)表示,c表示目标检测类,则用表示热力图中的关键点(x,y)对于类别c的预测值,Y(x,y,c)表示为热力图中的关键点(x,y)对于类别c的真实值;c类的每个真实关键点为(PX,PY),下采样S次后的对应低分辨率的中心点为
通过高斯核计算Y(x,y,c),计算公式如下:
其中σ是与目标大小相关的标准差;计算过程中如果出现两个高斯分布重叠的情况,则去掉元素间最大的那一个。
步骤S32:Lk是中心点预测的损失函数,损失函数的计算公式如下:
其中α和β是超参数,N为输入图I的关键点数量,即目标数量(一个目标一个关键点);
步骤S33:设输入图I中第j个目标的检测框为(Aj,Bj,Cj,Dj),中心点为Pj,计算公式如下:
步骤S35:将改进的CenterNet的检测框数量设置为N个,得分最高的检测框被送入SAG-Mask分支进行训练,则最终的损失函数L如下:
L=Lk+0.1*Lbox+Loff+Lmask
其中Lmask是SAG-Mask分支的损失函数,是每个像素点的交叉熵损失的均值;
步骤S36:使用动量为0.9的随机梯度下降优化方法,初始学习率设置为1.25e-4,阈值为0.3,每隔10个轮次学习率下降0.1,一共训练50轮次,在最后10轮次将阈值从0.3改为0.5,这样修改和只使用单一阈值训练相比,提高了精度,最终获得模型的最优参数,得到训练好的基于Anchor-Free的实时实例分割模型。
在本实施例中,所述步骤S4具体为:
步骤S41:将待预测图像输入训练好的基于Anchor-Free的实时实例分割模型进行预测,待预测图像通过改进的CenterNet进行多次下采样和上采样生成若干预测框,选择满足预设要求的预测框,选择分数前100的预测框,设置阈值为0.3,并根据中心点预测概率选出符合要求预测框;
步骤S42:将得到的的预测框送入CAG-Mask模块进行语义分割,获得最终结果。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (6)
1.一种基于Anchor-Free的实时实例分割方法,其特征在于,包括以下步骤:
步骤S1:获取实例分割数据集,并预处理后生成训练集;
步骤S2:基于改进的目标检测网络CenterNet和CAG-Mask模块,构建基于Anchor-Free的实时实例分割模型;
步骤S3:根据训练集训练基于Anchor-Free的实时实例分割模型,得到训练好的分割模型;
步骤S4:根据训练好的分割模型对待检测图像或视频数据进行处理,获得实例分割效果;
所述步骤S2具体为:
步骤S21:将HarDNet第二层的3×3传统卷积替换成3×3深度可分离卷积,使用修改后的HarDNet作为CenterNet的主干网提取特征,获得特征图,通过改进的HarDNet四次下采样之后由hm、wh、reg三个网络层输出三个预测值,分别是热力图、中心点对应的长和宽、偏置量,所有输出共享一个主干网;
步骤S22:在主干网加上分支CAG-Mask模块,建立Anchor-Free的实时实例分割模型
步骤S23:通道注意力模块是通过平均池化和最大池化操作来聚合特征映射的空间信息,生成两个不同的上下文描述图,将两个描述图送到一个共享网络,得到通道注意力图;
步骤S24:卷积块注意模块将空间和通道两个注意力模块串联起来,且通道注意力模块在前,空间注意力模块在后。
2.根据权利要求1所述的基于Anchor-Free的实时实例分割方法,其特征在于,所述预处理包括用尺度变化、翻转以及对比度变化的数据增强方法。
5.根据权利要求1所述的基于Anchor-Free的实时实例分割方法,其特征在于,所述步骤S3具体为:
步骤S31:根据训练集,训练模型,设输入图像为I,W和H分别为输入图像I的宽和高,I∈RW×H×3,R为实数;输入图片I通过改进的CenterNet,由改进主干网HarDNet经过S次下采样提取特征,由hm网络层产生出关键点的热力图,热力图的值代表每个关键点对于每个类别的预测值,热力图用表示,且其中C为目标检测类别的数量,关键点用(x,y)表示,c表示目标检测类,则用表示热力图中的关键点(x,y)对于类别c的预测值,Y(x,y,c)表示为热力图中的关键点(x,y)对于类别c的真实值;c类的每个真实关键点为(PX,PY),下采样S次后的对应低分辨率的中心点为
通过高斯核计算Y(x,y,c),计算公式如下:
其中σ是与目标大小相关的标准差;
步骤S32:Lk是中心点预测的损失函数,损失函数的计算公式如下:
其中α和β是超参数,N为输入图I的关键点数量;
步骤S33:设输入图I中第j个目标的检测框为(Aj,Bj,Cj,Dj),中心点为Pj,计算公式如下:
步骤S35:将改进的CenterNet的检测框数量设置为N个,得分最高的检测框被送入SAG-Mask分支进行训练,则最终的损失函数L如下:
L=Lk+0.1*Lbox+Loff+Lmask
其中Lmask是SAG-Mask分支的损失函数,是每个像素点的交叉熵损失的均值;
步骤S36:使用随机梯度下降优化方法,获得模型的最优参数,得到训练好的基于Anchor-Free的实时实例分割模型。
6.根据权利要求1所述的基于Anchor-Free的实时实例分割方法,其特征在于,所述步骤S4具体为:
步骤S41:将待预测图像输入训练好的基于Anchor-Free的实时实例分割模型进行预测,待预测图像通过改进的CenterNet进行多次下采样和上采样生成若干预测框,选择满足预设要求的预测框,并根据中心点预测概率选出符合要求预测框;
步骤S42:将得到的预测框送入CAG-Mask模块进行语义分割,获得最终结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010973846.9A CN112070768B (zh) | 2020-09-16 | 2020-09-16 | 基于Anchor-Free的实时实例分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010973846.9A CN112070768B (zh) | 2020-09-16 | 2020-09-16 | 基于Anchor-Free的实时实例分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112070768A CN112070768A (zh) | 2020-12-11 |
CN112070768B true CN112070768B (zh) | 2022-08-09 |
Family
ID=73696114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010973846.9A Active CN112070768B (zh) | 2020-09-16 | 2020-09-16 | 基于Anchor-Free的实时实例分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112070768B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700444B (zh) * | 2021-02-19 | 2023-06-23 | 中国铁道科学研究院集团有限公司铁道建筑研究所 | 基于自注意力与中心点回归模型的桥梁螺栓检测方法 |
CN112990102B (zh) * | 2021-04-16 | 2022-10-11 | 四川阿泰因机器人智能装备有限公司 | 一种改进的Centernet复杂环境目标检测方法 |
CN113177460B (zh) * | 2021-04-25 | 2023-07-07 | 台州智必安科技有限责任公司 | 基于卷积神经网络的双分支Anchor Free人脸检测方法及系统 |
CN113159200B (zh) * | 2021-04-27 | 2022-07-26 | 苏州科达科技股份有限公司 | 对象分析方法、装置及存储介质 |
CN113239939A (zh) * | 2021-05-12 | 2021-08-10 | 北京杰迈科技股份有限公司 | 一种轨道信号灯识别方法、模块及存储介质 |
CN113569620B (zh) * | 2021-05-24 | 2024-09-13 | 惠州市德赛西威智能交通技术研究院有限公司 | 一种基于单目视觉的路面标记实例化识别的方法 |
CN113781489B (zh) * | 2021-08-25 | 2024-03-29 | 浙江工业大学 | 一种息肉影像语义分割方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553205A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 无车牌信息车辆重识别方法、系统、介质、视频监控系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101873169B1 (ko) * | 2017-10-26 | 2018-06-29 | 한국항공우주연구원 | 관측 영상에 대한 실시간 훈련 및 객체 탐지하는 통합 모듈 장치 및 방법 |
CN109584248B (zh) * | 2018-11-20 | 2023-09-08 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN110633731B (zh) * | 2019-08-13 | 2022-02-25 | 杭州电子科技大学 | 一种基于交错感知卷积的单阶段无锚框目标检测方法 |
CN111640089B (zh) * | 2020-05-09 | 2023-08-15 | 武汉精立电子技术有限公司 | 一种基于特征图中心点的缺陷检测方法及装置 |
-
2020
- 2020-09-16 CN CN202010973846.9A patent/CN112070768B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553205A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 无车牌信息车辆重识别方法、系统、介质、视频监控系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112070768A (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112070768B (zh) | 基于Anchor-Free的实时实例分割方法 | |
WO2020228446A1 (zh) | 模型训练方法、装置、终端及存储介质 | |
WO2021022521A1 (zh) | 数据处理的方法、训练神经网络模型的方法及设备 | |
CN111968150B (zh) | 一种基于全卷积神经网络的弱监督视频目标分割方法 | |
CN110147788B (zh) | 一种基于特征增强crnn的金属板带产品标签文字识别方法 | |
CN109711422A (zh) | 图像数据处理、模型的建立方法、装置、计算机设备和存储介质 | |
CN110033473A (zh) | 基于模板匹配和深度分类网络的运动目标跟踪方法 | |
CN112818764A (zh) | 一种基于特征重建模型的低分辨率图像人脸表情识别方法 | |
CN110321805B (zh) | 一种基于时序关系推理的动态表情识别方法 | |
CN109740679A (zh) | 一种基于卷积神经网络和朴素贝叶斯的目标识别方法 | |
CN110334584B (zh) | 一种基于区域全卷积网络的手势识别方法 | |
CN110674777A (zh) | 一种专利文本场景下的光学字符识别方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN114170657A (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 | |
CN113344110A (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN117649582B (zh) | 基于级联注意力的单流单阶段网络目标跟踪方法与系统 | |
Qi et al. | Research on deep learning expression recognition algorithm based on multi-model fusion | |
CN117392419A (zh) | 一种基于深度学习的药品图片相似度比对方法 | |
CN113255543A (zh) | 基于图卷积网络的面部表情识别方法 | |
CN115640401B (zh) | 文本内容提取方法及装置 | |
Dsouza et al. | Real Time Facial Emotion Recognition Using CNN | |
CN112270404A (zh) | 一种基于ResNet64网络的紧固件产品鼓包缺陷的检测结构及其方法 | |
CN116884072A (zh) | 一种基于多层级和多尺度注意机制的面部表情识别方法 | |
CN113283530B (zh) | 基于级联特征块的图像分类系统 | |
Ashiquzzaman et al. | Applying data augmentation to handwritten arabic numeral recognition using deep learning neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |