CN112465840A - 语义分割模型训练方法、语义分割方法及相关装置 - Google Patents
语义分割模型训练方法、语义分割方法及相关装置 Download PDFInfo
- Publication number
- CN112465840A CN112465840A CN202011456416.6A CN202011456416A CN112465840A CN 112465840 A CN112465840 A CN 112465840A CN 202011456416 A CN202011456416 A CN 202011456416A CN 112465840 A CN112465840 A CN 112465840A
- Authority
- CN
- China
- Prior art keywords
- classification
- semantic segmentation
- segmentation model
- initial
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理技术领域,提供一种语义分割模型训练方法、语义分割方法及相关装置,所述语义分割模型训练方法包括:获取训练集,其中,训练集包括样本图像及分类标签,分类标签是由将样本图像分别输入多个预先训练的分类模型得到的多个分类结果融合而成;将训练集输入预先构建的语义分割模型,得到样本图像对应的分类概率;基于分类概率及分类标签对语义分割模型进行参数更新,得到训练后的语义分割模型。相对于现有技术,本发明既可以直接利用无标签的图像对语义分割模型进行训练、获得较好的泛化性,又能保证训练后的语义分割模型具有较高的准确率。
Description
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种语义分割模型训练方法、语义分割方法及相关装置。
背景技术
在图像处理中,语义分割技术可广泛应用于自动驾驶,视频理解,以及辅助其他人工智能领域。所谓语义分割技术,简单理解就是:给定一张图像,识别出图像的每个像素值所对应的类别,例如人,车,建筑物等。
目前,语义分割采用无监督技术对目标场景(实际使用的场景)进行在线学习,但是无监督由于是天然的无标签的训练方式,使得其训练的效果不是很好。
发明内容
本发明的目的在于提供一种语义分割模型训练方法、语义分割方法及相关装置,既可以直接利用无标签的图像对语义分割模型进行训练、获得较好的泛化性,又能保证训练后的语义分割模型具有较高的准确率。
为了实现上述目的,本发明采用的技术方案如下:
第一方面,本发明提供一种语义分割模型训练方法,所述方法包括:获取训练集,其中,所述训练集包括样本图像及分类标签,所述分类标签是由将所述样本图像分别输入多个预先训练的分类模型得到的多个分类结果融合而成;将所述训练集输入预先构建的语义分割模型,得到所述样本图像对应的分类概率;基于所述分类概率及所述分类标签对所述语义分割模型进行参数更新,得到训练后的语义分割模型。
第二方面,本发明提供一种语义分割模型训练装置,所述装置包括:第一获取模块,用于获取训练集,其中,所述训练集包括样本图像及分类标签,所述分类标签是由将所述样本图像分别输入多个预先训练的分类模型得到的多个分类结果融合而成;第一分割模块,用于将所述训练集输入预先构建的语义分割模型,得到所述样本图像对应的分类概率;更新模块,用于基于所述分类概率及所述分类标签对所述语义分割模型进行参数更新,得到训练后的语义分割模型。
第三方面,本发明提供一种语义分割方法,所述方法包括:获取待分割图像;将所述待分割图像输入训练后的语义分割模型,得到分割结果,其中,所述语义分割模型是将包括样本图像及分类标签的训练集输入预先构建的语义分割模型得到的,所述分类标签是由将所述样本图像分别输入多个预先训练的分类模型后得到的多个分类结果融合而成。
第四方面,本发明提供一种语义分割装置,所述装置包括:第一获取模块,用于获取训练集,其中,所述训练集包括样本图像及分类标签,所述分类标签是由将所述样本图像分别输入多个预先训练的分类模型得到的多个分类结果融合而成;第一分割模块,用于将所述训练集输入预先构建的语义分割模型,得到所述样本图像对应的分类概率;更新模块,用于基于所述分类概率及所述分类标签对所述语义分割模型进行参数更新,得到训练后的语义分割模型。
第五方面,本发明提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的语义分割模型训练方法,或者,如上述的语义分割方法。
第六方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的语义分割模型训练方法,或者,如上述的语义分割方法。
相对于现有技术,本发明利用将样本图像分别输入多个预先训练的分类模型得到的多个分类结果融合而成的分类标签及样本图像对预先构建的语义分割模型进行训练,最终得到训练后的语义分割模型,由此既可以直接利用无标签的图像对语义分割模型进行训练、获得较好的泛化性,又能保证训练后的语义分割模型具有较高的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的现有语义分割模型的网络结构示意图。
图2示出了本发明实施例提供的一种语义分割模型训练方法的流程图。
图3示出了本发明实施例提供的获取掩码图的过程示例图。
图4示出了本发明实施例提供的语义分割模型训练过程的示意图。
图5示出了本发明实施例提供的另一种语义分割模型训练方法的流程图。
图6示出了本发明实施例提供的一种语义分割方法的流程图。
图7示出了本发明实施例提供的语义分割模型训练装置的方框示意图。
图8示出了本发明实施例提供的语义分割装置的方框示意图。
图9示出了本发明实施例提供的电子设备的方框示意图。
图标:10-电子设备;11-处理器;12-存储器;13-总线;14-通信接口;100-语义分割模型训练装置;110-第一获取模块;120-第一分割模块;130-更新模块;200-语义分割装置;210-第二获取模块;220-第二分割模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
现有的语义分割模型为了得到较好的分割效果,通常会增加语义分割模型的复杂度,例如,增加语义分割模型的层数、深度等。请参照图1,图1示出了本发明实施例提供的现有语义分割模型的网络结构示意图。图1中的语义分割模型的网络结构包括多个卷积层、BN层、激活层和上采样层。但是,发明人经过研究发现,在语义分割模型的前向推理对硬件资源不敏感的情况下,单纯靠增加模型的复杂度,即增加语义分割模型的网络结构中的层数、深度等,在模型复杂到一定程度的情况下,对语义分割的结果的准确率提升并不明显,例如,同样层数的,深度为100和深度1000的网络,其准确度的差异非常小。
有鉴于此,本发明实施例提供一种语义分割模型训练方法、语义分割方法及相关装置,训练得到的语义分割模型具有较高的准确性。下面将对其进行详细描述。
请参照图2,图2示出了本发明实施例提供的一种语义分割模型训练方法的流程图,该方法包括以下步骤:
步骤S100,获取训练集,其中,训练集包括样本图像及分类标签,分类标签是由将样本图像分别输入多个预先训练的分类模型得到的多个分类结果融合而成。
通常情况下,获取样本图像的分类标签是对样本图像进行标注得到的,该方式操作起来非常麻烦,且费时费力,极大地降低了样本图像的数据量,最终影响训练后的语义分割模型的准确率。
为了更高效地得到分类标签,使训练语义分割模型时更容易获取到训练样本,降低对训练样本的标签的要求,本发明实施例预先训练了多个分类模型,每一个分类模型均可以对输入的样本图像进行分割,得到一个分类结果,多个分类模型可以是不同结构、不同方法的模型,由此可以通过多个分类模型自动得到分类标签,不再需要对样本图像进行专门的标签标注,降低了样本图像的要求,使得任意摄像头采集的图像都可以作为样本图像对语义分类模型进行训练,极大地扩充了训练样本图像,具有较好的泛化性,进而使得最终训练得到的语义分类模型更准确。
需要说明的是,训练分类模型时可以采用有标签的数据ADE20k作为训练样本对每个分类模型进行独立训练。
在本实施例中,分类模型的个数可以根据需要预先进行设定,也可以根据实际的训练效果做相应调整。
在本实施例中,在得到每个分类模型输出的各自的分类结果后,对多个分类结果进行融合,最终得到样本图像的分类标签,样本图像的分类标签包括样本图像中每一个像素点所属的类别,为了便于区别,可以使用掩码图进行更直观地表示,掩码图中不同的颜色代表不同的类别,即同一类别的像素点对应的颜色值相同。请参照图3,图3示出了本发明实施例提供的获取掩码图的过程示例图。
步骤S110,将训练集输入预先构建的语义分割模型,得到样本图像对应的分类概率。
在本实施例中,预先定义的类别可以为多个,样本图像对应的分类概率可以是样本图像中的每一个元素属于预先定义的每一个类别的概率,不难理解,分类概率越大,该元素属于该类别的可能性也越大。
步骤S120,基于分类概率及分类标签对语义分割模型进行参数更新,得到训练后的语义分割模型。
在本实施例中,作为一种具体实施方式,可以基于交叉熵损失函数的方法对参数进行更新,直至满足预设条件或者满足预设训练次数,交叉熵损失函数可以表示为:
在本实施例中,one-hot向量是将类别变量转换为机器学习算法易于利用的一种形式的过程,该向量的表示为一项属性的特征向量,也就是同一时间只有一个激活点(不为0),这个向量只有一个特征是不为0的,其他都是0,特别稀疏。例如,类别的数量为M,样本图像中的像素点a对应的yc表示为:{0,0,1,…,0},即除了第3个为1,其他均为0,其代表的含义为,像素点a的类别为M个类别中的第3类别。需要说明的是,也可以使用其他损失函数对参数进行更新。
为了更清楚地说明语义分割模型的训练过程,请参照图4,图4示出了本发明实施例提供的语义分割模型训练过程的示意图,图4中,样本图像分别输入至n个分类模型中,每个分类模型输出一个分类结果,将n个分类结果进行融合,得到样本图像的分类标签,样本图像输入至语义分割模型中,输出分类概率,根据分类概率和分类标签对语义分割模型进行参数调整,最终得到训练后的语义分割模型。
需要说明的是,当模型较大时,需要的相应的硬件性能也比较高,为了尽量减少语义分割模型受制于硬件的配置,在构建语义分割模型时,可以根据分类模型的结构构建语义分割模型,同时控制语义分割模型的复杂度低于预设复杂度,复杂度包括、但不限于层数、深度、参数的个数等。这样训练也叫蒸馏训练,最终得到的语义分割模型既不会过于复杂,又具有较高的准确性。
本发明实施例提供的上述方法,利用将样本图像分别输入多个预先训练的分类模型得到的多个分类结果融合而成的分类标签及样本图像,既可以直接利用无标签的图像对预先构建的语义分割模型进行训练,获得较好的泛化性,又能保证训练后的语义分割模型具有较高的准确性。
在图2的基础上,本实施例还提供一种具体获取训练集的方式,请参照图5,图5示出了本发明实施例提供的另一种语义分割模型训练方法的流程图,步骤S100包括以下子步骤:
子步骤S1001,将样本图像分别输入多个预先训练的分类模型,得到每个分类模型输出的初始分类结果。
子步骤S1002,利用投票机制对多个初始分类结果进行融合,得到分类标签。
在本实施例中,根据各个初始分类结果对样本图像的分类,利用投票机制得到与实际类别最接近的分类结果作为分类标签,使得分类标签尽可能地准确,进而使得最终训练后的语义分割模型也比较准确。
在本实施例中,作为一种具体实施方式,得到分类标签的方式可以是:
首先,统计多个初始分类结果中,每一像素点的各个初始类别的票数。
在本实施例中,样本图像包括多个像素点,例如,一幅分辨率为640×480的样本图像,其包括的像素点为大概需要307200个像素点。初始分类结果包括每一像素点的初始类别,即对于一个像素点而言,存在多个初始分类结果,每一初始分类结果中包括该像素点所属的类别,任意两个初始分类结果可能相同,也可能不同。例如,像素点a的初始分类结果一共有3个:结果1,结果2和结果3,其初始类别分别为类别a,类别b和类别a。
其次,依据每一像素点的各个初始类别的票数,确定每一像素点的最终类别。
在本实施例中,以确定样本图像中任意一个像素点的最终类别的方法为例进行说明,样本图像中的每一像素点都可以采取相同的方法确定最终类别。
(1)确定多个像素点中的任一目标像素点。
(2)获取目标像素点的各个初始类别的票数。
在本实施例中,由于目标像素点的各个初始结果中包括的初始类别可能相同,也可能不同,因此,对目标像素点中所有初始结果中的各个初始类别的票数进行统计。例如,目标像素点的初始结果有3个:结果1={类别a},结果2={类别b},结果3={类别a},则目标像素点的初始类别一共有2个:类别a和类别b,其票数分别是2和1。
(3)将票数最多的目标初始类别确定为目标像素点的最终类别。
在本实施例中,目标像素点的最终类别为根据初始类别确定出的与实际类别最接近的类别。
需要说明的是,在有些场景下,票数最多的初始类别为多个,此时为了得到与实际类别最接近的最终类别,可以采用的方式为:
(4)若票数最多的初始类别为多个,则将多个票数最多的初始类别中,准确率最高的分类模型对应的目标初始类别确定为目标像素点的最终类别。
在本实施例中,每一分类模型对应一个准确率,当票数最多的初始类别为多个时,选择准确率最高的分类模型对应的目标初始类别,将其作为最终类别。例如,分类模型有10个,模型1~模型10是按照准确率从高到低排序而成,目标像素点的初始类别分别为{d,d,a,c,c,b,b,b,a,c},票数最多的初始类别为c和b,其票数均为3票,由于其中准确率最高的为模型4,模型4对应的目标初始类别为c,则目标像素点的最终类别为c。
最后,对每一像素点的最终类别进行融合,得到样本图像的分类标签。
本发明实施例提供的上述方法,采用投票机制对多个初始分类结果进行融合,得到分类标签,使得分类标签与实际类别最接近,最终使训练得到的语义分割模型也更准确。
在本实施例中,得到训练后的语义分割模型后,可以对待分割图像进行语义分割,最终得到分割结果,本发明实施例还提供了一种语义分割方法,请参照图6,图6示出了本发明实施例提供的一种语义分割方法的流程图,该方法包括以下步骤:
步骤S200,获取待分割图像。
在本实施例中,待分割图像可以是无标签的图像,即任意摄像头所采集的图像都可以直接输入语义分割模型进行语义分割,得到分割结果。
步骤S210,将待分割图像输入训练后的语义分割模型,得到分割结果,其中,语义分割模型是将包括样本图像及分类标签的训练集输入预先构建的语义分割模型得到的,分类标签是由将样本图像分别输入多个预先训练的分类模型后得到的多个分类结果融合而成。
在本实施例中,语义分割模型的训练方法在上述已有详细描述,此处不再赘述。
为了执行上述语义分割模型训练方法的实施例及各个可能的实施方式中的相应步骤,下面给出一种语义分割模型训练装置100的实现方式。请参照图7,图7示出了本发明实施例提供的语义分割模型训练装置100的方框示意图。需要说明的是,本实施例所提供的语义分割模型训练装置100,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及指出。
语义分割模型训练装置100包括第一获取模块110,第一分割模块120及更新模块130。
第一获取模块110,用于获取训练集,其中,训练集包括样本图像及分类标签,分类标签是由将样本图像分别输入多个预先训练的分类模型得到的多个分类结果融合而成。
作为一种具体实施方式,第一获取模块110具体用于:将样本图像分别输入多个预先训练的分类模型,得到每个分类模型输出的初始分类结果;利用投票机制对多个初始分类结果进行融合,得到分类标签。
作为一种具体实施方式,样本图像包括多个像素点,初始分类结果包括每一像素点的初始类别,第一获取模块110在用于利用投票机制对多个初始分类结果进行融合,得到分类标签时,具体用于:统计多个初始分类结果中,每一像素点的各个初始类别的票数;依据每一像素点的各个初始类别的票数,确定每一像素点的最终类别;对每一像素点的最终类别进行融合,得到样本图像的分类标签。
作为一种具体实施方式,第一获取模块110在用于依据每一像素点的各个初始类别的票数,确定每一像素点的最终类别时,具体用于:确定多个像素点中的任一目标像素点;获取目标像素点的各个初始类别的票数;将票数最多的目标初始类别确定为目标像素点的最终类别。
作为一种具体实施方式,每一分类模型对应一个准确率,第一获取模块110在用于依据每一像素点的各个初始类别的票数,确定每一像素点的最终类别时,具体还用于:若票数最多的初始类别为多个,则将多个票数最多的初始类别中,准确率最高的分类模型对应的目标初始类别确定为目标像素点的最终类别。
第一分割模块120,用于将训练集输入预先构建的语义分割模型,得到样本图像对应的分类概率。
更新模块130,用于基于分类概率及分类标签对语义分割模型进行参数更新,得到训练后的语义分割模型。
为了执行上述语义分割模型训练方法的实施例及各个可能的实施方式中的相应步骤,下面给出一种语义分割装置200的实现方式。请参照图8,图8示出了本发明实施例提供的语义分割装置200的方框示意图。需要说明的是,本实施例所提供的语义分割装置200,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及指出。
语义分割装置200包括第二获取模块210和第二分割模块220。
第二获取模块210,用于获取待分割图像。
第二分割模块220,用于将待分割图像输入训练后的语义分割模型,得到分割结果,其中,语义分割模型是将包括样本图像及分类标签的训练集输入预先构建的语义分割模型得到的,分类标签是由将样本图像分别输入多个预先训练的分类模型后得到的多个分类结果融合而成。
请参照图9,图9示出了本发明实施例提供的电子设备10的方框示意图,电子设备10包括处理器11、存储器12、总线13、通信接口14。处理器11、存储器12通过总线13连接,处理器11通过通信接口14与外部设备通信。
处理器11可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器11可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器12用于存储程序,例如本发明实施例中的语义分割模型训练装置100或者语义分割装置200,语义分割模型训练装置100或者语义分割装置200均包括至少一个可以软件或固件(firmware)的形式存储于存储器12中的软件功能模块,处理器11在接收到执行指令后,执行所述程序以实现本发明实施例中的语义分割模型训练方法或者语义分割方法。
存储器12可能包括高速随机存取存储器(RAM:Random Access Memory),也可能还包括非易失存储器(non-volatile memory)。可选地,存储器12可以是内置于处理器11中的存储装置,也可以是独立于处理器11的存储装置。
总线13可以是ISA总线、PCI总线或EISA总线等。图9仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的语义分割模型训练方法或者上述的语义分割方法。
综上所述,本发明实施例提供了一种语义分割模型训练方法、语义分割方法及相关装置,所述语义分割模型训练方法包括:获取训练集,其中,训练集包括样本图像及分类标签,分类标签是由将样本图像分别输入多个预先训练的分类模型得到的多个分类结果融合而成;将训练集输入预先构建的语义分割模型,得到样本图像对应的分类概率;基于分类概率及分类标签对语义分割模型进行参数更新,得到训练后的语义分割模型。相对于现有技术,本发明实施例利用将样本图像分别输入多个预先训练的分类模型得到的多个分类结果融合而成的分类标签及样本图像对预先构建的语义分割模型进行训练,最终得到训练后的语义分割模型,由此既可以直接利用无标签的图像对语义分割模型进行训练、获得较好的泛化性,又能保证训练后的语义分割模型具有较高的准确率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种语义分割模型训练方法,其特征在于,所述方法包括:
获取训练集,其中,所述训练集包括样本图像及分类标签,所述分类标签是由将所述样本图像分别输入多个预先训练的分类模型得到的多个分类结果融合而成;
将所述训练集输入预先构建的语义分割模型,得到所述样本图像对应的分类概率;
基于所述分类概率及所述分类标签对所述语义分割模型进行参数更新,得到训练后的语义分割模型。
2.如权利要求1所述的语义分割模型训练方法,其特征在于,所述获取训练集的方法包括:
将所述样本图像分别输入多个预先训练的分类模型,得到每个所述分类模型输出的初始分类结果;
利用投票机制对多个初始分类结果进行融合,得到所述分类标签。
3.如权利要求2所述的语义分割模型训练方法,其特征在于,所述样本图像包括多个像素点,所述初始分类结果包括每一所述像素点的初始类别;
所述利用投票机制对多个初始分类结果进行融合,得到所述分类标签的步骤包括:
统计所述多个初始分类结果中,每一所述像素点的各个初始类别的票数;
依据每一所述像素点的各个初始类别的票数,确定每一所述像素点的最终类别;
对每一所述像素点的最终类别进行融合,得到所述样本图像的分类标签。
4.如权利要求3所述的语义分割模型训练方法,其特征在于,所述依据每一所述像素点的各个初始类别的票数,确定每一所述像素点的最终类别的步骤包括:
确定所述多个像素点中的任一目标像素点;
获取所述目标像素点的各个初始类别的票数;
将所述票数最多的目标初始类别确定为所述目标像素点的最终类别。
5.如权利要求4所述的语义分割模型训练方法,其特征在于,每一所述分类模型对应一个准确率;
所述依据每一所述像素点的各个初始类别的票数,确定每一所述像素点的最终类别的步骤还包括:
若票数最多的初始类别为多个,则将多个所述票数最多的初始类别中,所述准确率最高的分类模型对应的目标初始类别确定为所述目标像素点的最终类别。
6.一种语义分割方法,其特征在于,所述方法包括:
获取待分割图像;
将所述待分割图像输入训练后的语义分割模型,得到分割结果,其中,所述语义分割模型是将包括样本图像及分类标签的训练集输入预先构建的语义分割模型得到的,所述分类标签是由将所述样本图像分别输入多个预先训练的分类模型后得到的多个分类结果融合而成。
7.一种语义分割模型训练装置,其特征在于,所述装置包括:
第一获取模块,用于获取训练集,其中,所述训练集包括样本图像及分类标签,所述分类标签是由将所述样本图像分别输入多个预先训练的分类模型得到的多个分类结果融合而成;
第一分割模块,用于将所述训练集输入预先构建的语义分割模型,得到所述样本图像对应的分类概率;
更新模块,用于基于所述分类概率及所述分类标签对所述语义分割模型进行参数更新,得到训练后的语义分割模型。
8.一种语义分割装置,其特征在于,所述装置包括:
第二获取模块,用于获取待分割图像;
第二分割模块,用于将所述待分割图像输入训练后的语义分割模型,得到分割结果,其中,所述语义分割模型是将包括样本图像及分类标签的训练集输入预先构建的语义分割模型得到的,所述分类标签是由将所述样本图像分别输入多个预先训练的分类模型后得到的多个分类结果融合而成。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的语义分割模型训练方法,或者,如权利要求6所述的语义分割方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的语义分割模型训练方法,或者,如权利要求6所述的语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011456416.6A CN112465840B (zh) | 2020-12-10 | 2020-12-10 | 语义分割模型训练方法、语义分割方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011456416.6A CN112465840B (zh) | 2020-12-10 | 2020-12-10 | 语义分割模型训练方法、语义分割方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112465840A true CN112465840A (zh) | 2021-03-09 |
CN112465840B CN112465840B (zh) | 2023-02-17 |
Family
ID=74800197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011456416.6A Active CN112465840B (zh) | 2020-12-10 | 2020-12-10 | 语义分割模型训练方法、语义分割方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112465840B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763358A (zh) * | 2021-09-08 | 2021-12-07 | 合肥中科类脑智能技术有限公司 | 基于语义分割的变电站渗漏油和金属锈蚀检测方法及系统 |
CN113780313A (zh) * | 2021-09-18 | 2021-12-10 | 东软睿驰汽车技术(沈阳)有限公司 | 线特征的提取方法、装置和电子设备 |
CN114202654A (zh) * | 2022-02-17 | 2022-03-18 | 广东皓行科技有限公司 | 一种实体目标的模型构建方法、存储介质和计算机设备 |
CN114596440A (zh) * | 2022-03-22 | 2022-06-07 | 小米汽车科技有限公司 | 语义分割模型的生成方法、装置、电子设备及存储介质 |
CN115049820A (zh) * | 2022-05-11 | 2022-09-13 | 北京地平线机器人技术研发有限公司 | 遮挡区域的确定方法、装置和分割模型的训练方法 |
WO2022242352A1 (zh) * | 2021-05-21 | 2022-11-24 | 北京沃东天骏信息技术有限公司 | 构建图像语义分割模型和图像处理的方法、装置、电子设备及介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650721A (zh) * | 2016-12-28 | 2017-05-10 | 吴晓军 | 一种基于卷积神经网络的工业字符识别方法 |
EP3171297A1 (en) * | 2015-11-18 | 2017-05-24 | CentraleSupélec | Joint boundary detection image segmentation and object recognition using deep learning |
CN107657281A (zh) * | 2017-09-28 | 2018-02-02 | 辽宁工程技术大学 | 一种基于改进的卷积神经网络的图像识别方法 |
US20180129912A1 (en) * | 2016-11-07 | 2018-05-10 | Nec Laboratories America, Inc. | System and Method for Learning Random-Walk Label Propagation for Weakly-Supervised Semantic Segmentation |
WO2018169712A1 (en) * | 2017-03-13 | 2018-09-20 | Lucidyne Technologies, Inc. | Method of board lumber grading using deep learning techniques |
CN109711413A (zh) * | 2018-12-30 | 2019-05-03 | 陕西师范大学 | 基于深度学习的图像语义分割方法 |
CN109815979A (zh) * | 2018-12-18 | 2019-05-28 | 通号通信信息集团有限公司 | 一种弱标签语义分割标定数据生成方法及系统 |
US20200160065A1 (en) * | 2018-08-10 | 2020-05-21 | Naver Corporation | Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network |
CN111260665A (zh) * | 2020-01-17 | 2020-06-09 | 北京达佳互联信息技术有限公司 | 图像分割模型训练方法和装置 |
WO2020127398A1 (en) * | 2018-12-17 | 2020-06-25 | Promaton Holding B.V. | Automated semantic segmentation of non-euclidean 3d data sets using deep learning |
CN111489366A (zh) * | 2020-04-15 | 2020-08-04 | 上海商汤临港智能科技有限公司 | 神经网络的训练、图像语义分割方法及装置 |
CN111507989A (zh) * | 2020-04-15 | 2020-08-07 | 上海眼控科技股份有限公司 | 语义分割模型的训练生成方法、车辆外观检测方法、装置 |
CN111666902A (zh) * | 2020-06-10 | 2020-09-15 | 重庆紫光华山智安科技有限公司 | 行人特征提取模型的训练方法、行人识别方法及相关装置 |
WO2020192469A1 (zh) * | 2019-03-26 | 2020-10-01 | 腾讯科技(深圳)有限公司 | 图像语义分割网络的训练方法、装置、设备及存储介质 |
CN111797703A (zh) * | 2020-06-11 | 2020-10-20 | 武汉大学 | 基于鲁棒深度语义分割网络的多源遥感影像分类方法 |
-
2020
- 2020-12-10 CN CN202011456416.6A patent/CN112465840B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3171297A1 (en) * | 2015-11-18 | 2017-05-24 | CentraleSupélec | Joint boundary detection image segmentation and object recognition using deep learning |
US20180129912A1 (en) * | 2016-11-07 | 2018-05-10 | Nec Laboratories America, Inc. | System and Method for Learning Random-Walk Label Propagation for Weakly-Supervised Semantic Segmentation |
CN106650721A (zh) * | 2016-12-28 | 2017-05-10 | 吴晓军 | 一种基于卷积神经网络的工业字符识别方法 |
WO2018169712A1 (en) * | 2017-03-13 | 2018-09-20 | Lucidyne Technologies, Inc. | Method of board lumber grading using deep learning techniques |
CN107657281A (zh) * | 2017-09-28 | 2018-02-02 | 辽宁工程技术大学 | 一种基于改进的卷积神经网络的图像识别方法 |
US20200160065A1 (en) * | 2018-08-10 | 2020-05-21 | Naver Corporation | Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network |
WO2020127398A1 (en) * | 2018-12-17 | 2020-06-25 | Promaton Holding B.V. | Automated semantic segmentation of non-euclidean 3d data sets using deep learning |
CN109815979A (zh) * | 2018-12-18 | 2019-05-28 | 通号通信信息集团有限公司 | 一种弱标签语义分割标定数据生成方法及系统 |
CN109711413A (zh) * | 2018-12-30 | 2019-05-03 | 陕西师范大学 | 基于深度学习的图像语义分割方法 |
WO2020192469A1 (zh) * | 2019-03-26 | 2020-10-01 | 腾讯科技(深圳)有限公司 | 图像语义分割网络的训练方法、装置、设备及存储介质 |
CN111260665A (zh) * | 2020-01-17 | 2020-06-09 | 北京达佳互联信息技术有限公司 | 图像分割模型训练方法和装置 |
CN111489366A (zh) * | 2020-04-15 | 2020-08-04 | 上海商汤临港智能科技有限公司 | 神经网络的训练、图像语义分割方法及装置 |
CN111507989A (zh) * | 2020-04-15 | 2020-08-07 | 上海眼控科技股份有限公司 | 语义分割模型的训练生成方法、车辆外观检测方法、装置 |
CN111666902A (zh) * | 2020-06-10 | 2020-09-15 | 重庆紫光华山智安科技有限公司 | 行人特征提取模型的训练方法、行人识别方法及相关装置 |
CN111797703A (zh) * | 2020-06-11 | 2020-10-20 | 武汉大学 | 基于鲁棒深度语义分割网络的多源遥感影像分类方法 |
Non-Patent Citations (1)
Title |
---|
郑宝玉等: "基于深度卷积神经网络的弱监督图像语义分割", 《南京邮电大学学报(自然科学版)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022242352A1 (zh) * | 2021-05-21 | 2022-11-24 | 北京沃东天骏信息技术有限公司 | 构建图像语义分割模型和图像处理的方法、装置、电子设备及介质 |
CN113763358A (zh) * | 2021-09-08 | 2021-12-07 | 合肥中科类脑智能技术有限公司 | 基于语义分割的变电站渗漏油和金属锈蚀检测方法及系统 |
CN113763358B (zh) * | 2021-09-08 | 2024-01-09 | 合肥中科类脑智能技术有限公司 | 基于语义分割的变电站渗漏油和金属锈蚀检测方法及系统 |
CN113780313A (zh) * | 2021-09-18 | 2021-12-10 | 东软睿驰汽车技术(沈阳)有限公司 | 线特征的提取方法、装置和电子设备 |
CN114202654A (zh) * | 2022-02-17 | 2022-03-18 | 广东皓行科技有限公司 | 一种实体目标的模型构建方法、存储介质和计算机设备 |
CN114202654B (zh) * | 2022-02-17 | 2022-04-19 | 广东皓行科技有限公司 | 一种实体目标的模型构建方法、存储介质和计算机设备 |
CN114596440A (zh) * | 2022-03-22 | 2022-06-07 | 小米汽车科技有限公司 | 语义分割模型的生成方法、装置、电子设备及存储介质 |
CN114596440B (zh) * | 2022-03-22 | 2023-08-04 | 小米汽车科技有限公司 | 语义分割模型的生成方法、装置、电子设备及存储介质 |
CN115049820A (zh) * | 2022-05-11 | 2022-09-13 | 北京地平线机器人技术研发有限公司 | 遮挡区域的确定方法、装置和分割模型的训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112465840B (zh) | 2023-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112465840B (zh) | 语义分割模型训练方法、语义分割方法及相关装置 | |
CN107944450B (zh) | 一种车牌识别方法及装置 | |
CN111027493B (zh) | 一种基于深度学习多网络软融合的行人检测方法 | |
CN111191583B (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
WO2021129181A1 (en) | Portrait segmentation method, model training method and electronic device | |
CN113095346A (zh) | 数据标注的方法以及数据标注的装置 | |
CN111931859B (zh) | 一种多标签图像识别方法和装置 | |
CN113762309B (zh) | 对象匹配方法、装置及设备 | |
CN112418195B (zh) | 一种人脸关键点检测方法、装置、电子设备及存储介质 | |
CN112465909B (zh) | 基于卷积神经网络的类激活映射目标定位方法及系统 | |
CN116311279A (zh) | 样本图像的生成、模型训练、字符识别方法、设备及介质 | |
CN113205142A (zh) | 一种基于增量学习的目标检测方法和装置 | |
CN112597918A (zh) | 文本检测方法及装置、电子设备、存储介质 | |
CN112365513A (zh) | 一种模型训练的方法及装置 | |
CN113837257A (zh) | 一种目标检测方法及装置 | |
CN116152603A (zh) | 属性识别模型训练方法、系统、介质及装置 | |
CN116452810A (zh) | 一种多层次语义分割方法、装置、电子设备及存储介质 | |
CN112347957A (zh) | 行人重识别方法、装置、计算机设备及存储介质 | |
CN115187839B (zh) | 图文语义对齐模型训练方法及装置 | |
CN116259021A (zh) | 一种车道线检测方法、存储介质和电子设备 | |
CN115409991A (zh) | 目标识别方法、装置、电子设备和存储介质 | |
CN114332564A (zh) | 车辆分类方法、设备及存储介质 | |
CN114092746A (zh) | 一种多属性识别方法、装置、存储介质及电子设备 | |
CN112580750A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN116129279B (zh) | 图像处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |