CN114463544A - 一种不规则物体语义分割快速标注方法 - Google Patents

一种不规则物体语义分割快速标注方法 Download PDF

Info

Publication number
CN114463544A
CN114463544A CN202210102399.9A CN202210102399A CN114463544A CN 114463544 A CN114463544 A CN 114463544A CN 202210102399 A CN202210102399 A CN 202210102399A CN 114463544 A CN114463544 A CN 114463544A
Authority
CN
China
Prior art keywords
image
segmentation
model
semantic segmentation
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210102399.9A
Other languages
English (en)
Inventor
杨帆
郝强
潘鑫淼
胡建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhenshi Intelligent Technology Co Ltd
Original Assignee
Nanjing Zhenshi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhenshi Intelligent Technology Co Ltd filed Critical Nanjing Zhenshi Intelligent Technology Co Ltd
Priority to CN202210102399.9A priority Critical patent/CN114463544A/zh
Publication of CN114463544A publication Critical patent/CN114463544A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4084Scaling of whole images or parts thereof, e.g. expanding or contracting in the transform domain, e.g. fast Fourier transform [FFT] domain scaling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种不规则物体语义分割快速标注方法,包括以下步骤:1)进行图像数据采集及预处理,获取图像的数据集;2)对所述数据集中的图像进行网格划分,将得到的多个小格进行标注;3)将标注转换为分割掩模并进行边缘优化,得到用于模型训练的数据集;4)选取分割模型结构进行模型训练。本发明不规则物体语义分割快速标注方法,相比像素级标注,在轻微降低精度的同时极大地节省了标注耗时;对比矩形框标注,能明显提升识别精度,进而可以极大地提升了标注效率,同时减少了背景信息对模型训练的干扰。

Description

一种不规则物体语义分割快速标注方法
技术领域
本发明涉及语义分割技术领域,尤其涉及一种不规则物体语义分割快速标注方法。
背景技术
语义分割是指对图像中的每一个像素进行分类,从而识别出目标位于图像中的区域。通常语义分割算法训练需要基于大量人工标注的像素级掩模标签,标注过程耗时费力。基于弱标注的分割方法,通常是先标注目标外接矩形框,再将矩形框转换为用于模型训练的掩模。这种矩形边界框标注方法虽提升了标注速度,但标注框内包含了除目标外的背景信息,尤其是当目标为非矩形不规则物体时,标注中背景信息会严重干扰模型训练。故需要一种用于不规则物体语义分割的快速标注方法,提升标注效率,同时减少了背景信息对模型训练的干扰。
发明内容
本发明实施例提供一种不规则物体语义分割快速标注方法,以解决上述背景技术中提出的问题。
为了实现上述目的,本发明实施例提供了一种不规则物体语义分割快速标注方法,包括以下步骤:
1)进行图像数据采集及预处理,获取图像的数据集;
2)对所述数据集中的图像进行网格划分,将得到的多个小格进行标注;
3)将标注转换为分割掩模并进行边缘优化,得到用于模型训练的数据集;
4)选取分割模型结构进行模型训练。
进一步地,所述步骤1)进一步包括,将收集的所有带有目标物体的图像统一放缩到预设的像素,得到数据集。
进一步地,所述步骤2)进一步包括,将所述数据集中放缩后的图像划分为多个小格,并对所有小格进行标注。
进一步地,所述步骤3)进一步包括,
针对所述数据集中的图像构建对应的单通道图像,所有像素值均置零;
将所述单通道图像进行网格划分,再将数据集中图像标注对应的单通道图像的小格中所有的像素值置为1,得到目标的粗标注分割掩模图;
采用DenseCRF算法对所述粗标注分割掩模图进行优化,得到贴合目标边缘的掩模图。进一步地,所述步骤4)进一步包括,
选取分割模型结构,模型输入为待分割图像,输出为预测掩模;
采用交叉熵损失函数计算预测掩模与标注掩模的损失,使用梯度下降法迭代优化分割模型,最终训练后的模型能准确地预测输入图像中的目标掩模。
更进一步地,所述分割模型,包括,U-Net模型、FCN模型、DeepLab模型。
本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的不规则物体语义分割快速标注方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任一项所述的不规则物体语义分割快速标注方法的步骤。
有益效果在于:本专利提出的标注方法相比像素级标注,在轻微降低精度的同时极大地节省了标注耗时;对比矩形框标注,本专利标注方法能明显提升识别精度,进而可以极大地提升了标注效率,同时减少了背景信息对模型训练的干扰。
附图说明
图1是本发明提供的一种不规则物体语义分割快速标注方法的流程示意图;
图2是本发明提供的一种不规则物体语义分割快速标注方法中S2的一个优选实施例的结构示意图;
图3是本发明提供的一种不规则物体语义分割快速标注方法中S3的一个优选实施例的结构示意图;
图4是本发明提供的一种不规则物体语义分割快速标注方法中S4的一个优选实施例的结构示意图;
图5是本发明提供的一种不规则物体语义分割快速标注方法中三种标注示例图;
图6是本发明提供的一种终端设备的一个优选实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1是本发明提供的一种不规则物体语义分割快速标注方法的一个优选实施例的流程示意图。所述不规则物体语义分割快速标注方法,包括以下步骤:
S1,图像数据采集及预处理:收集N张(N为正整数,且大于100)带有目标物体的图像,将图像尺寸统一放缩到宽W像素、高H像素(W、H为正整数),得到数据集(I0,I1,I2,…,IN-1),其中In为放缩后的第n幅图像(n为0到N-1的整数);
S2,图像网格划分及标注:将图像In均匀划分为P行Q列的网格,即沿高方向P等分,沿宽方向Q等分(P、Q为正整数,且W能被P整除,H能被Q整除),其中第n幅图像第p行q列的小格记作
Figure BDA0003492888510000051
(p为0到P-1的整数,q为0到Q-1的整数);对带有目标物体的小格进行标注,得到图像的M个(M为正整数)标注[(p0,q0)n,(p1,q1)n,...,(pM-1,qM-1)n],其中(pm,qm)n指第n幅图像的第m个标注,位于第Pm行qm列的小格(m为0到M-1的整数,Pm为0到P-1的整数,qm为0到Q-1的整数),如图2所示;
S3,标注转换为分割掩模:针对图像In新建一张宽W像素、高H像素的单通道图像M′n,所有像素值均置零,将图像
Figure BDA0003492888510000052
也均匀划分为P行Q列的网格,其中第p行q列的小格记作
Figure BDA0003492888510000053
按照标注[(p0,q0)n,(p1,q1)n,...,(pM-1,qM-1)n]依次将图像M′n
Figure BDA0003492888510000054
小格中的所有像素值置为1,得到图像In的粗标注分割掩模M″n,如图3所示;
S4,掩模边缘优化:采用DenseCRF算法对粗标注分割掩模M″n进行优化,得到更贴合目标边缘的掩模Mn,如图4所示;
S5,标注所有图像:重复步骤S2-S4对所有图像进行掩模标注,得到用于模型训练的数据集[(I0,M0),(I1,M1),...,(IN-1,MN-1)];
S6,分割模型训练:选取分割模型结构,模型输入为待分割图像(包含目标物体的图像),输出为预测掩模,采用交叉熵损失函数计算一个批次数据的预测掩模与标注掩模(DenseCRF算法优化后的贴合目标边缘的掩模)的损失,使用梯度下降法迭代优化模型,最终训练后的模型能准确地预测输入图像中的目标掩模。
请参阅图6,图6是本发明提供的一种终端设备的一个优选实施例的结构示意图。所述终端设备包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的不规则物体语义分割快速标注方法的步骤。
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、……),所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器也可以是任何常规的处理器,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接所述终端设备的各个部分。
所述存储器主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(SmartMedia Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器也可以是其他易失性固态存储器件。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图6的结构示意图仅仅是上述终端设备的示例,并不构成对上述终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任一实施例所述的不规则物体语义分割快速标注方法的步骤。
本发明实施例:以烟雾语义分割为例,三种标注示例如图5所示(第一行依次为原图、像素级标注、矩形框标注、本专利方法标注,第二行为三种标注对应原图中的区域)。
收集1200张烟雾图像,尺寸均放缩到宽512像素、高512像素,划分成1000张训练集和200张测试集。分别采用像素级标注、矩形框标注和本专利标注方法(网格划分为32行32列进行标注)对训练集标注分割掩模,对测试集进行像素级标注。分割模型选用U-Net结构,使用本专利的训练方法,分别在三种标注训练集上迭代训练。采用平均交并比(mIoU)指标在测试集上对训练得到的三个模型进行对比,结果如下:
像素级标注 矩形框标注 本专利方法标注
平均交并比 78.9% 63.6% 75.3%
单张图像标注耗时 8分钟 12秒 23秒
可以看出,本专利提出的标注方法相比像素级标注,在轻微降低精度的同时极大地节省了标注耗时;对比矩形框标注,本专利标注方法能明显提升识别精度,进而可以极大地提升了标注效率,同时减少了背景信息对模型训练的干扰。
需说明的是,以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的系统实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (8)

1.一种不规则物体语义分割快速标注方法,其特征在于,包括以下步骤:
1)进行图像数据采集及预处理,获取图像的数据集;
2)对所述数据集中的图像进行网格划分,将得到的多个小格进行标注;
3)将标注转换为分割掩模并进行边缘优化,得到用于模型训练的数据集;
4)选取分割模型结构进行模型训练。
2.根据权利要求1所述的不规则物体语义分割快速标注方法,其特征在于,所述步骤1)进一步包括,将收集的所有带有目标物体的图像统一放缩到预设的像素,得到数据集。
3.根据权利要求1所述的不规则物体语义分割快速标注方法,其特征在于,所述步骤2)进一步包括,将所述数据集中放缩后的图像划分为多个小格,并对所有小格进行标注。
4.根据权利要求3所述的不规则物体语义分割快速标注方法,其特征在于,所述步骤3)进一步包括,
针对所述数据集中的图像构建对应的单通道图像,所有像素值均置零;
将所述单通道图像进行网格划分,再将数据集中图像标注对应的单通道图像的小格中所有的像素值置为1,得到目标的粗标注分割掩模图;
采用DenseCRF算法对所述粗标注分割掩模图进行优化,得到贴合目标边缘的掩模图。
5.根据权利要求4所述的不规则物体语义分割快速标注方法,其特征在于,所述步骤4)进一步包括,
选取分割模型结构,模型输入为待分割图像,输出为预测掩模;
采用交叉熵损失函数计算预测掩模与标注掩模的损失,使用梯度下降法迭代优化分割模型,最终训练后的模型能准确地预测输入图像中的目标掩模。
6.根据权利要求1所述的不规则物体语义分割快速标注方法,其特征在于,所述分割模型,包括,U-Net模型、FCN模型、DeepLab模型。
7.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的不规则物体语义分割快速标注方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的不规则物体语义分割快速标注方法的步骤。
CN202210102399.9A 2022-01-27 2022-01-27 一种不规则物体语义分割快速标注方法 Pending CN114463544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210102399.9A CN114463544A (zh) 2022-01-27 2022-01-27 一种不规则物体语义分割快速标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210102399.9A CN114463544A (zh) 2022-01-27 2022-01-27 一种不规则物体语义分割快速标注方法

Publications (1)

Publication Number Publication Date
CN114463544A true CN114463544A (zh) 2022-05-10

Family

ID=81411301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210102399.9A Pending CN114463544A (zh) 2022-01-27 2022-01-27 一种不规则物体语义分割快速标注方法

Country Status (1)

Country Link
CN (1) CN114463544A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882313A (zh) * 2022-05-17 2022-08-09 阿波罗智能技术(北京)有限公司 生成图像标注信息的方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882313A (zh) * 2022-05-17 2022-08-09 阿波罗智能技术(北京)有限公司 生成图像标注信息的方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108229303B (zh) 检测识别和检测识别网络的训练方法及装置、设备、介质
US10817717B2 (en) Method and device for parsing table in document image
CN102592268B (zh) 一种分割前景图像的方法
CN112734641A (zh) 目标检测模型的训练方法、装置、计算机设备及介质
CN108805128B (zh) 一种字符分割方法和装置
CN110598761A (zh) 一种点胶检测方法、装置及计算机可读存储介质
CN112419202B (zh) 基于大数据及深度学习的野生动物图像自动识别系统
CN115909059A (zh) 一种自然资源样本库建立方法和装置
CN112435214A (zh) 基于先验框线性缩放的花粉检测方法、装置和电子设备
CN111597845A (zh) 一种二维码检测方法、装置、设备及可读存储介质
CN114463544A (zh) 一种不规则物体语义分割快速标注方法
CN111651971A (zh) 一种表格信息转录方法、系统、电子设备和存储介质
CN115186228A (zh) 一种基于格点数据的切变线识别方法及装置
CN112446353B (zh) 基于深度卷积神经网络的视频图像道线检测方法
CN114694130A (zh) 基于深度学习的铁路沿线电线杆及杆号检测方法和装置
US20190188466A1 (en) Method, system and apparatus for processing a page of a document
EP4075381B1 (en) Image processing method and system
CN112733857B (zh) 自动分割字符区域的图像文字检测模型训练方法及装置
Somasundaram et al. Straightening of highly curved human chromosome for cytogenetic analysis
CN113343767A (zh) 物流违规操作的识别方法、装置、设备和存储介质
CN110580462B (zh) 一种基于非局部网络的自然场景文本检测方法和系统
CN106056575B (zh) 一种基于似物性推荐算法的图像匹配方法
CN106156715A (zh) 分析表格图像的布局的方法和设备
CN117197479A (zh) 一种应用玉米果穗外表面的图像分析方法、装置、计算机设备及存储介质
CN115908363B (zh) 肿瘤细胞统计方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination