CN116883673B - 语义分割模型训练方法、装置、设备及存储介质 - Google Patents
语义分割模型训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116883673B CN116883673B CN202311155296.XA CN202311155296A CN116883673B CN 116883673 B CN116883673 B CN 116883673B CN 202311155296 A CN202311155296 A CN 202311155296A CN 116883673 B CN116883673 B CN 116883673B
- Authority
- CN
- China
- Prior art keywords
- semantic segmentation
- loss
- semantic
- anchor point
- segmentation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 455
- 238000012549 training Methods 0.000 title claims abstract description 161
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000004927 fusion Effects 0.000 claims abstract description 37
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 238000000605 extraction Methods 0.000 description 31
- 230000006870 function Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种语义分割模型训练方法、装置、设备及存储介质,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景,包括获取包含样本图像及第一语义标签,通过语义分割模型提取样本图像的样本特征,根据样本图像的语义分割结果与第一语义标签的差异获取第一损失;获取类别锚点值及其第二语义标签;通过锚点嵌入网络对类别锚点值进行嵌入处理得到当前的锚点特征,通过语义分割模型根据当前的锚点特征的语义分割结果与第二语义标签的差异获取第二损失;根据样本特征和融合特征的差异获取第三损失;根据第一损失、第二损失及第三损失调整语义分割模型的参数,根据第二损失调整锚点嵌入网络的参数。提升语义分割模型进行语义分割的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种语义分割模型训练方法、装置、设备及存储介质,其中,该装置为语义分割模型训练装置,该设备为计算机设备,该存储介质为计算机可读存储介质。
背景技术
为了确保模型的可用性,通常需要对模型进行训练,目前,在对语义分割模型进行训练的过程中,利用一些公认的归纳偏置来对类中心特征进行正则化,实现类感知正则化(Class-Aware Regularization,CAR)。然而,该训练方式由于类中心特征是由学习到的特征生成的,会存在特征纠缠的问题,导致训练得到的模型的准确性较低。
发明内容
本申请实施例提供一种语义分割模型训练方法、装置、设备及存储介质,可以提升语义分割模型进行语义分割的准确性。
为解决上述技术问题,本申请实施例提供以下技术方案:
本申请实施例提供了一种语义分割模型训练方法,包括:
获取训练样本,所述训练样本包括样本图像及其对应的第一语义标签;
通过语义分割模型提取所述样本图像的样本特征,以及基于所述样本特征对所述样本图像进行语义分割,根据所述样本图像的语义分割结果与所述第一语义标签的差异,获取第一损失;
获取对应不同语义类别的类别锚点值及其对应的第二语义标签;
通过锚点嵌入网络对所述类别锚点值进行嵌入处理,得到当前的锚点特征,以及通过所述语义分割模型对所述当前的锚点特征进行语义分割,并根据所述当前的锚点特征的语义分割结果与所述第二语义标签的差异,获取第二损失;
根据所述样本特征和融合特征的差异,获取第三损失,所述融合特征由目标锚点特征和所述第一语义标签得到,所述目标锚点特征根据所述当前的锚点特征和上一次迭代后的锚点特征得到;
根据所述第一损失、所述第二损失以及所述第三损失,调整所述语义分割模型的参数,以及根据所述第二损失调整所述锚点嵌入网络的参数,直至满足预设停止条件。
根据本申请的一个方面,还提供了一种语义分割模型训练装置,包括:
第一获取模块,用于获取训练样本,所述训练样本包括样本图像及其对应的第一语义标签;
第一分割模块,用于通过语义分割模型提取所述样本图像的样本特征,以及基于所述样本特征对所述样本图像进行语义分割,根据所述样本图像的语义分割结果与所述第一语义标签的差异,获取第一损失;
第二获取模块,用于获取对应不同语义类别的类别锚点值及其对应的第二语义标签;
第二分割模块,用于通过锚点嵌入网络对所述类别锚点值进行嵌入处理,得到当前的锚点特征,以及通过所述语义分割模型对所述当前的锚点特征进行语义分割,并根据所述当前的锚点特征的语义分割结果与所述第二语义标签的差异,获取第二损失;
第三获取模块,用于根据所述样本特征和融合特征的差异,获取第三损失,所述融合特征由目标锚点特征和所述第一语义标签得到,所述目标锚点特征根据所述当前的锚点特征和上一次迭代后的锚点特征得到;
调整模块,用于根据所述第一损失、所述第二损失以及所述第三损失,调整所述语义分割模型的参数,以及根据所述第二损失调整所述锚点嵌入网络的参数,直至满足预设停止条件。
在一些实施方式中,所述语义分割模型训练装置还包括:
确定模块,用于确定所述当前的锚点特征的第一权重,以及所述上一次迭代后的锚点特征的第二权重;
加权模块,用于根据所述第一权重、所述第二权重,对所述上一次迭代后的锚点特征和所述当前的锚点特征进行加权,得到所述目标锚点特征。
在一些实施方式中,所述第三获取模块具体用于:计算所述样本特征和融合特征之间的特征距离,并将所述特征距离确定为第三损失。
在一些实施方式中,所述调整模块具体用于:
确定所述第一损失、所述第二损失以及所述第三损失各自对应的权重;
根据所述第一损失、所述第二损失以及所述第三损失各自对应的权重,对所述第一损失、所述第二损失以及所述第三损失进行加权,得到总损失;
基于所述总损失调整所述语义分割模型的参数。
在一些实施方式中,所述第二损失对应的权重小于或等于所述第一损失对应的权重,且大于所述第三损失对应的权重。
在一些实施方式中,所述第二获取模块包括:
确定子模块,用于确定所述语义分割模型的特征通道数D;
生成子模块,用于生成对应不同语义类别的D维类别锚点值。
在一些实施方式中,所述生成子模块具体用于:随机生成对应不同语义类别的D维类别锚点值。
在一些实施方式中,所述生成子模块还具体用于:对标准高斯分布进行随机采样,得到对应不同语义类别的D维类别锚点值。
在一些实施方式中,所述语义分割模型训练装置还包括:
第四获取模块,用于获取待分割图像;
提取模块,用于通过所述语义分割模型,对所述待分割图像进行特征提取,得到图像特征;
第三分割模块,用于通过所述语义分割模型,基于所述图像特征对所述待分割图像进行语义分割,得到所述待分割图像的语义分割结果。
根据本申请的一个方面,还提供了一种计算机设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本申请实施例提供的任一种语义分割模型训练方法。
根据本申请的一个方面,还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载,以执行本申请实施例提供的任一种语义分割模型训练方法。
根据本申请的一个方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器加载,以执行本申请实施例提供的任一种语义分割模型训练方法。
本申请实施例可以获取训练样本,训练样本包括样本图像及其对应的第一语义标签;通过语义分割模型提取样本图像的样本特征,以及基于样本特征对样本图像进行语义分割,根据样本图像的语义分割结果与第一语义标签的差异,获取第一损失;获取对应不同语义类别的类别锚点值及其对应的第二语义标签;通过锚点嵌入网络对类别锚点值进行嵌入处理,得到当前的锚点特征,以及通过语义分割模型对当前的锚点特征进行语义分割,并根据当前的锚点特征的语义分割结果与第二语义标签的差异,获取第二损失;根据样本特征和融合特征的差异,获取第三损失,融合特征由目标锚点特征和第一语义标签得到,目标锚点特征根据当前的锚点特征和上一次迭代后的锚点特征得到;根据第一损失、第二损失以及第三损失,调整语义分割模型的参数,以及根据第二损失调整锚点嵌入网络的参数,直至满足预设停止条件。以此,本申请提出基于锚点特征(即类锚特征)的正则化方式,在模型训练过程中,利用与样本特征无关的锚点特征,代替与样本特征相关的类中心,从而能够避免特征纠缠,防止模型过拟合,提升了语义分割模型进行语义分割的准确性。此外,通过跟随语义分割模型训练锚点嵌入网络,利用锚点嵌入网络获得具有可分性的目标锚点特征,进而通过融合有目标锚点特征的第三损失更新语义分割模型,拉近同类语义类别的样本特征和目标锚点特征,实现类内紧密性,同时,又由于锚点特征本身具有可分性,在拉近同类语义类别的样本特征和目标锚点特征的同时,使得不同语义类别的样本特征和目标锚点特征被拉远,实现类间松散性。通过同时实现类内紧密性和类间松散性,能够获得更优的特征分布,进一步提升语义分割模型进行语义分割的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的语义分割模型训练方法应用的场景示意图;
图2是本申请实施例提供的语义分割模型训练方法的流程示意图;
图3是本申请实施例提供的语义分割模型训练架构的示意图;
图4是本申请实施例提供的语义分割模型训练方法的另一流程示意图;
图5是本申请实施例提供的语义分割模型训练架构的另一示意图;
图6是本申请实施例提供的语义分割模型应用架构的示意图;
图7是本申请实施例提供的可视化展示语义分割模型提取得到的图像特征的示意图;
图8是本申请实施例提供的可视化展示语义分割模型对图像进行语义分割得到的语义分割结果的示意图;
图9是本申请实施例提供的可视化展示语义分割模型对图像进行语义分割得到的语义分割结果的另一示意图;
图10是本申请实施例提供的可视化展示语义分割模型对图像进行语义分割得到的语义分割结果的另一示意图;
图11是本申请实施例提供的语义分割模型训练方法的另一流程示意图;
图12是本申请实施例提供的语义分割模型训练方法的另一流程示意图;
图13是本申请实施例提供的语义分割模型训练装置的示意图;
图14是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请以下描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
本申请以下描述中,所涉及的术语“第一\第二”等仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
本申请实施例提供一种语义分割模型训练方法、装置、设备及存储介质。
请参阅图1,图1为本申请实施例所提供的语义分割模型训练方法应用的场景示意图,该语义分割模型训练方法可以应用于语义分割模型训练系统,该语义分割模型训练系统可以包括服务器10和终端20等,服务器10可以集成有本申请提供的语义分割模型训练装置,该服务器10可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
服务器10与终端20之间可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。该终端20可以是手机、电脑、智能语音交互设备、智能家电、车载终端等。
其中,在模型训练阶段,一方面,服务器10可以获取训练样本,训练样本包括样本图像及其对应的第一语义标签;通过语义分割模型提取样本图像的样本特征,以及基于样本特征对样本图像进行语义分割,根据样本图像的语义分割结果(即第一语义分割结果)与第一语义标签的差异,获取第一损失。另一方面,服务器10可以获取对应不同语义类别的类别锚点值及其对应的第二语义标签;通过锚点嵌入网络对类别锚点值进行嵌入处理,得到当前的锚点特征,以及通过语义分割模型对当前的锚点特征进行语义分割,并根据当前的锚点特征的语义分割结果(即第二语义分割结果)与第二语义标签的差异,获取第二损失。服务器10可以确定当前的锚点特征的第一权重,以及上一次迭代后的锚点特征的第二权重,根据第一权重、第二权重,对上一次迭代后的锚点特征和当前的锚点特征进行加权,得到目标锚点特征,然后对目标锚点特征和第一语义标签进行融合得到融合特征,根据样本特征和融合特征的差异,获取第三损失。此时,服务器10可以确定第一损失、第二损失以及第三损失各自对应的权重,并根据第一损失、第二损失以及第三损失各自对应的权重,对第一损失、第二损失以及第三损失进行加权,得到总损失,基于总损失调整语义分割模型的参数,以及根据第二损失调整锚点嵌入网络的参数,直至满足预设停止条件,得到训练后的语义分割模型。
在模型应用阶段,服务器10可以用于接收终端20发送的待分割图像,通过训练后的语义分割模型,对待分割图像进行特征提取,得到图像特征;通过训练后的语义分割模型,基于图像特征对待分割图像进行语义分割,得到待分割图像的语义分割结果。服务器10可以将待分割图像的语义分割结果发送给终端20,终端20可以显示该语义分割结果。
通过基于锚点特征(即类锚特征)的正则化方式,在模型训练过程中,利用与样本特征无关的锚点特征,代替与样本特征相关的类中心,从而能够避免特征纠缠,防止模型过拟合,提升了语义分割模型进行语义分割的准确性。此外,通过跟随语义分割模型训练锚点嵌入网络,利用锚点嵌入网络获得具有可分性的目标锚点特征,进而通过融合有目标锚点特征的第三损失更新语义分割模型,拉近同类语义类别的样本特征和目标锚点特征,实现类内紧密性,同时,又由于锚点特征本身具有可分性,在拉近同类语义类别的样本特征和目标锚点特征的同时,使得不同语义类别的样本特征和目标锚点特征被拉远,实现类间松散性。通过同时实现类内紧密性和类间松散性,能够获得更优的特征分布,进一步提升语义分割模型进行语义分割的准确性。
需要说明的是,图1所示的语义分割模型训练方法应用的场景示意图仅仅是一个示例,本申请实施例描述的语义分割模型训练方法应用以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着语义分割模型训练方法应用的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请实施例中,可以采用人工智能学习方式实现对图像进行语义分割,如在语义分割模型训练阶段,通过利用锚点特征代替类中心实现模型训练,以及通过跟随语义分割模型训练锚点嵌入网络,利用锚点嵌入网络获得具有可分性的目标锚点特征,拉近样本特征和目标锚点特征为训练约束,实现类内紧密性,同时,又由于类锚本身是分散性,可以实现类内紧密性和类间松散性,获得更优的特征分布,能够提升语义分割模型训练的准确性,从而在模型应用阶段,使得训练后的语义分割模型能够更准确地实现语义分割。需要说明的是,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能、感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括机器学习(Machine Learning, ML)技术,其中,深度学习(Deep Learning,DL)是机器学习中一个新的研究方向,它被引入机器学习以使其更接近于最初的目标,即人工智能。目前,深度学习主要应用在机器视觉、语音处理技术、自然语言处理等领域。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及意向程度论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
在本实施例中,将从语义分割模型训练装置的角度进行描述,该语义分割模型训练装置具体可以集成在服务器或终端等计算机设备中。
请参阅图2,图2是本申请一实施例提供的语义分割模型训练方法的流程示意图。该语义分割模型训练方法可以包括:
S101、获取训练样本,训练样本包括样本图像及其对应的第一语义标签。
在模型训练阶段,可以获取训练样本,以及样本图像对应的第一语义标签,并利用训练样本和第一语义标签对语义分割模型进行训练。其中,训练样本可以是包括多张样本图像的样本集,每张样本图像对应有预先标注的真实的语义标签(GT Mask),该语义标签即为第一语义标签,第一语义标签用于指示样本图像中像素点的语义类别。样本图像的具体类型可以根据应用场景的不同而不同,在此不做限定。
训练样本的获取方式可以包括:从服务器上预设的数据库中获取训练样本,或者,接收终端发送的训练样本等,当然,训练样本还可以通过其他方式获取,在此不做限定。
其中,语义分割模型的具体模型结构可以根据实际需求进行灵活设置,在此不做限定,例如,语义分割模型可以包括特征提取层和分类层等,特征提取层可以用于提取样本图像的样本特征,分类层可以用于基于样本特征对样本图像进行语义分割,得到样本图像的语义分割结果。
S102、通过语义分割模型提取样本图像的样本特征,以及基于样本特征对样本图像进行语义分割,根据样本图像的语义分割结果与第一语义标签的差异,获取第一损失。
在得到训练样本后,可以从训练样本中提取出样本图像,然后通过语义分割模型对样本图像进行特征提取,得到样本图像的样本特征。例如,可以通过语义分割模型的特征提取层对样本图像进行特征提取,得到样本图像的样本特征,该特征提取层的具体结构在此不做限定,如特征提取层可以具有特征提取功能的特征提取器(Feature Extractor)。
其中,样本特征可以是样本图像的像素特征(Pixel Feature),该像素特征可以是以特征图形式存在,该特征图可以是通过特征提取层对样本图像进行特征提取后,得到的与样本图像有一定对应关系的像素图群。
在得到样本图像的样本特征后,可以通过语义分割模型基于样本特征对样本图像进行语义分割,得到样本图像的语义分割结果。例如,可以通过语义分割模型的分类层(Classifier)基于样本特征对样本图像进行语义分割,得到样本图像的语义分割结果,该分类层的具体结构在此不做限定,如分类层可以由一层卷积层组成。该语义分割结果可以包括预测得到的样本图像中像素点对应的语义类别,还可以包括其他信息,在此不做限定。
在得到样本图像的语义分割结果后,可以根据样本图像的语义分割结果与第一语义标签的差异,获取第一损失,例如,可以通过第一损失函数Lce,计算样本图像的语义分割结果与第一语义标签之间的差异,得到第一损失可以是交叉熵损失函数,第一损失的计算公式可以如下:
。
其中,Lseg表示第一损失,Lce表示交叉熵损失函数,S表示语义分割模型(可以称为分割网络),和/>表示语义分割模型的参数,例如,若语义分割模型包括特征提取层f和分类层h,则/>表示特征提取层f的参数,/>表示分类层h的参数,I表示输入的样本图像,GTMask表示第一语义标签。即语义分割模型训练的主任务包括:先将样本图像通过特征提取层f进行特征提取,得到样本图像的样本特征,然后通过分类层h基于样本特征对样本图像进行语义分割,得到样本图像的语义分割结果,最后通过交叉熵损失函数Lce,计算样本图像的语义分割结果与第一语义标签GT Mask的差异,得到第一损失Lseg。
S103、获取对应不同语义类别的类别锚点值及其对应的第二语义标签。
其中,第二语义标签用于指示类别锚点值对应的语义类别,第二语义标签可以称为自定义类锚标签(one-hot Class Mask)。该类别锚点值可以是预定义类锚点值(Pre-defined Class Anchors),该预定义类锚点值可以是C×D维度的矩阵,其中,C表示不同语义类别的数量,如训练样本中包含的语义类别的数量,D表示特征通道数,如语义分割模型的特征通道数D。类别锚点值可以是随机生成或者按照预设策略生成,在生成类别锚点值后,可以为类别锚点值设置第二语义标签;类别锚点值还可以是从数据库中直接获取预先存储的类别锚点值,以及类别锚点值对应的第二语义标签,在此不做限定,以下将进行举例说明。
在一些实施方式中,获取对应不同语义类别的类别锚点值,包括:确定语义分割模型的特征通道数D;生成对应不同语义类别的D维类别锚点值。
为了能够生成与语义分割模型匹配的类别锚点值,以便通过语义分割模型对锚点特征准确进行语义分割,可以先确定语义分割模型的特征通道数D,然后生成对应不同语义类别的D维类别锚点值,如生成C×D的类别锚点值,C表示语义类别的数量,提高了类别锚点值生成的可靠性。
在一些实施方式中,生成对应不同语义类别的D维类别锚点值,包括:随机生成对应不同语义类别的D维类别锚点值。
为了提高类别锚点值的生成效率,可以随机生成对应不同语义类别的D维类别锚点值。
在一些实施方式中,随机生成对应不同语义类别的D维类别锚点值,包括:对标准高斯分布进行随机采样,得到对应不同语义类别的D维类别锚点值。
在随机生成类别锚点值的过程中,可以对标准高斯分布进行随机采样,得到对应不同语义类别的D维类别锚点值,通过对标准高斯分布进行随机采样生成类别锚点值,可以提高类别锚点值生成的准确性和灵活性。
S104、通过锚点嵌入网络对类别锚点值进行嵌入处理,得到当前的锚点特征,以及通过语义分割模型对当前的锚点特征进行语义分割,并根据当前的锚点特征的语义分割结果与第二语义标签的差异,获取第二损失。
在得到类别锚点值后,可以通过锚点嵌入网络对类别锚点值进行嵌入处理,以将类别锚点值映射至语义空间,从而得到当前的锚点特征。其中,锚点嵌入网络的具体结构在此不做限定,如锚点嵌入网络可以是由两层线性层和一层卷积层组成的嵌入层(EmbeddingLayer),该锚点嵌入网络可以是独立于语义分割模型,并共享语义分割模型的分类层的网络。
由于将类别锚点值映射至语义空间,得到分类层可感知的具有鉴别力的锚点特征,因此,可以通过语义分割模型的分类层对当前的锚点特征进行语义分割,得到当前的锚点特征的语义分割结果。该语义分割结果可以包括锚点特征对应的语义类别,还可以包括其他信息,在此不做限定。
在得到当前的锚点特征的语义分割结果后,可以根据当前的锚点特征的语义分割结果与第二语义标签的差异,获取第二损失。例如,可以通过第二损失函数计算当前的锚点特征的语义分割结果与第二语义标签的差异,得到第二损失(该第二损失函数可以是交叉熵损失函数),该第二损失即为锚点特征的语义分割损失,第二损失的计算公式可以如下:
。
其中,Laux-ce表示第二损失,C表示语义类别的数量,i表示第i种语义类别,log表示对数函数,h表示分类层,表示分类层h的参数,/>表示分类层h的输出(如语义分割结果),g表示锚点嵌入网络(即嵌入层),/>表示锚点嵌入网络g的参数,/>表示锚点嵌入网络的输出(如锚点特征),A表示类别锚点值,/>表示输入锚点嵌入网络的第i种语义类别对应的类别锚点值及其对应的第二语义标签。
即语义分割模型训练的辅助任务包括:通过锚点嵌入网络g对类别锚点值A进行嵌入处理,得到当前的锚点特征,以及通过语义分割模型的分类层h对当前的锚点特征进行语义分割,得到语义分割结果,并通过第二损失函数计算当前的锚点特征的语义分割结果与第二语义标签的差异,得到第二损失Laux-ce,以通过交叉熵损失来优化每个语义类别对应的类别锚点值和所设定的第二语义标签的配对结果。由于辅助任务的设计较为简单,所以很容易收敛,不会影响主任务的训练。并且,通过基于锚点特征的正则化方式,利用与样本特征无关的锚点特征,代替与样本特征相关的类中心进行模型训练,从而能够避免特征纠缠,防止模型过拟合,提升了语义分割模型进行语义分割的准确性。
需要说明的是,步骤S104和步骤S102之间执行先后顺序在此不做限定,例如,可以先执行步骤S104,后执行步骤S102,或者,同时执行步骤S104和步骤S102,或者先执行步骤S102,后执行步骤S104。即,第一损失的获取与第二损失的获取可以是同时执行,也可以先获取第一损失,后获取第二损失;还可以是先获取第二损失,后获取第一损失,在此不做限定。
S105、根据样本特征和融合特征的差异,获取第三损失,融合特征由目标锚点特征和第一语义标签得到,目标锚点特征根据当前的锚点特征和上一次迭代后的锚点特征得到。
为了通过跟随语义分割模型训练锚点嵌入网络,利用锚点嵌入网络获得具有可分性的目标锚点特征,进而通过融合有目标锚点特征的第三损失更新语义分割模型,拉近同类语义类别的样本特征和目标锚点特征,实现类内紧密性,可以根据当前的锚点特征和上一次迭代后的锚点特征获取目标锚点特征,并根据目标锚点特征和第一语义标签融合得到融合特征,根据样本特征和融合特征的差异,获取第三损失,以通过第三损失更新语义分割模型。其中,目标锚点特征的获取方式可以是基于当前的锚点特征和上一次迭代后的锚点特征各自对应的权重,对当前的锚点特征和上一次迭代后的锚点特征进行加权得到。
在一些实施方式中,根据样本特征和融合特征的差异,获取第三损失之前,语义分割模型训练方法还包括:
确定当前的锚点特征的第一权重,以及上一次迭代后的锚点特征的第二权重;
根据第一权重、第二权重,对上一次迭代后的锚点特征和当前的锚点特征进行加权,得到目标锚点特征。
为了确保所得到锚点特征的稳定性,可以通过动量更新的形式(如指数平均数指标(Exponential Moving Average,EMA)),基于当前的锚点特征和上一次迭代后的锚点特征来更新锚点特征,从而得到具有良好分散性的目标锚点特征(Class Anchors with GoodDispersion)。具体地,可以先确定当前的锚点特征的第一权重,以及上一次迭代后的锚点特征的第二权重,该第一权重和第二权重可以根据实际需求进行灵活设置,在此不做限定。然后,根据第一权重、第二权重,对上一次迭代后的锚点特征和当前的锚点特征进行加权,得到目标锚点特征,其加权公式可以如下所示:
。
其中,表示目标锚点特征,/>表示上一次迭代后的锚点特征,t表示当前迭代,t-1表示上一次迭代,/>表示上一次迭代后的锚点特征的第二权重,/>表示当前的锚点特征的第一权重,g表示锚点嵌入网络(即嵌入层),/>表示锚点嵌入网络g的参数,A表示输入锚点嵌入网络的类别锚点值,/>表示锚点嵌入网络输出的当前的锚点特征。
需要说明的是,当模型训练是首次迭代时,t-1=1-1=0,此时,可以将上一次迭代后的锚点特征赋予0值,或者,将上一次迭代后的锚点特征的第二权重赋为0,将当前的锚点特征的第一权重赋为1,即可直接将锚点嵌入网络输出的当前的锚点特征/>作为目标锚点特征。
在得到目标锚点特征后,可以根据目标锚点特征和第一语义标签融合得到融合特征,并通过第三损失函数计算样本特征和融合特征的差异,得到第三损失,该第三损失函数可以是交叉熵损失函数,该第三损失的计算公式可以如下:
。
其中,Lp2a表示第三损失(pixel-to-anchor),Dmse表示第三损失函数,该第三损失函数可以是L2距离度量函数,F表示特征提取层输出的样本特征,Y表示第一语义标签,表示目标锚点特征。该第三损失可以是交叉熵损失,使用交叉熵损失来优化类锚的非线性变换,交叉熵损失的类间竞争性可以保证锚点特征之间良好的可分性。
在一些实施方式中,根据样本特征和融合特征的差异,获取第三损失,包括:计算样本特征和融合特征之间的特征距离,并将特征距离确定为第三损失。
为了拉近同类语义类别的样本特征和目标锚点特征,可以通过计算样本特征和融合特征之间的特征距离,并将特征距离确定为第三损失来最小化样本特征到对应的目标锚点特征之间的特征距离,实现类内紧密性,同时,又由于锚点特征本身具有可分性,在拉近同类语义类别的样本特征和目标锚点特征的同时,使得不同语义类别的样本特征和目标锚点特征被拉远,实现类间松散性。通过同时实现类内紧密性和类间松散性,能够获得更优的特征分布,从而提升语义分割模型进行语义分割的准确性。
S106、根据第一损失、第二损失以及第三损失,调整语义分割模型的参数,以及根据第二损失调整锚点嵌入网络的参数,直至满足预设停止条件。
在得到样本图像的语义分割结果与第一语义标签之间差异对应的第一损失,当前的锚点特征的语义分割结果与第二语义标签之间差异对应的第二损失,样本特征与由目标锚点特征和第一语义标签融合得到的融合特征之间差异对应的第三损失后,可以根据第一损失、第二损失以及第三损失,调整语义分割模型的参数,以及根据第二损失调整锚点嵌入网络的参数,直至满足预设停止条件。其中,该预设停止条件可以是损失达到最小,或者是,训练迭代次数达到预设次数,该预设次数在此不做限定。
为了提高对语义分割模型的参数调整的准确性,可以对第一损失、第二损失以及第三损失进行加权得到总损失,并根据总损失调整语义分割模型的参数。在一些实施方式中,根据第一损失、第二损失以及第三损失,调整语义分割模型的参数,包括:
确定第一损失、第二损失以及第三损失各自对应的权重;
根据第一损失、第二损失以及第三损失各自对应的权重,对第一损失、第二损失以及第三损失进行加权,得到总损失;
基于总损失调整语义分割模型的参数。
具体地,首先,可以确定第一损失、第二损失以及第三损失各自对应的权重,例如,第一损失对应的权重为,第二损失对应的权重为/>,第三损失对应的权重为/>。然后,根据第一损失对应的权重为/>,第二损失对应的权重为/>,第三损失对应的权重为/>,对第一损失、第二损失以及第三损失进行加权,得到总损失,该总损失的计算公式可以如下:
。
其中,L表示总损失,Lseg表示第一损失,Laux-ce表示第二损失,Lp2a表示第三损失,表示第一损失对应的权重,/>表示第二损失对应的权重,/>表示第三损失对应的权重,/>、/>和/>的具体取值此不作限定,例如,可以设置/>=1,/>=0.1,/>=1。
为了提高对语义分割模型的参数调整的可靠性,在一些实施方式中,第二损失对应的权重小于或等于第一损失对应的权重,且大于第三损失对应的权重,可以针对不同应用场景的语义分割模型,调整第一损失、第二损失以及第三损失各自对应的权重。
在得到总损失后,可以基于总损失调整语义分割模型的参数,直至满足总损失最小化,或者是,训练迭代次数达到预设次数等。在完成对语义分割模型的训练后,可以进入模型应用阶段,利用语义分割模型对图像进行语义分割。
在一些实施方式中,根据第一损失、第二损失以及第三损失,调整语义分割模型的参数,以及根据第二损失调整锚点嵌入网络的参数,直至满足预设停止条件之后,语义分割模型训练方法还包括:
获取待分割图像;
通过语义分割模型,对待分割图像进行特征提取,得到图像特征;
通过语义分割模型,基于图像特征对待分割图像进行语义分割,得到待分割图像的语义分割结果。
在模型应用阶段,可以从服务器上用于存储图像的数据库中获取图像,并将获取到的图像作为待分割图像,或者,可以接收终端发送的图像,并将接收到的图像作为待分割图像,当然,待分割图像还可以通过其他方式获取。该待分割图像的具体类型可以根据应用场景的不同而不同,在此不做限定。
在得到待分割图像后,可以通过语义分割模型(即训练后的语义分割模型)的特征提取层,对待分割图像进行特征提取,得到待分割图像对应的图像特征,该图像特征可以是待分割图像的像素特征,该像素特征可以是以特征图形式存在。在得到图像特征后,可以通过语义分割模型的分类层,基于图像特征对待分割图像进行语义分割,得到待分割图像的语义分割结果,该语义分割结果可以包括图像特征对应的语义类别,还可以包括其他信息,在此不做限定。利用经过本申请模型训练方式进行训练的语义分割模型对图像进行语义分割,可以提高语义分割模型对图像进行语义分割的准确性。
本申请实施例可以获取训练样本,训练样本包括样本图像及其对应的第一语义标签;通过语义分割模型提取样本图像的样本特征,以及基于样本特征对样本图像进行语义分割,根据样本图像的语义分割结果与第一语义标签的差异,获取第一损失;获取对应不同语义类别的类别锚点值及其对应的第二语义标签;通过锚点嵌入网络对类别锚点值进行嵌入处理,得到当前的锚点特征,以及通过语义分割模型对当前的锚点特征进行语义分割,并根据当前的锚点特征的语义分割结果与第二语义标签的差异,获取第二损失;根据样本特征和融合特征的差异,获取第三损失,融合特征由目标锚点特征和第一语义标签得到,目标锚点特征根据当前的锚点特征和上一次迭代后的锚点特征得到;根据第一损失、第二损失以及第三损失,调整语义分割模型的参数,以及根据第二损失调整锚点嵌入网络的参数,直至满足预设停止条件。以此,本申请提出基于锚点特征的正则化方式,在模型训练过程中,利用与样本特征无关的锚点特征,代替与样本特征相关的类中心,从而能够避免特征纠缠,防止模型过拟合,提升了语义分割模型进行语义分割的准确性。此外,通过跟随语义分割模型训练锚点嵌入网络,利用锚点嵌入网络获得具有可分性的目标锚点特征,进而通过融合有目标锚点特征的第三损失更新语义分割模型,拉近同类语义类别的样本特征和目标锚点特征,实现类内紧密性,同时,又由于锚点特征本身具有可分性,在拉近同类语义类别的样本特征和目标锚点特征的同时,使得不同语义类别的样本特征和目标锚点特征被拉远,实现类间松散性。通过同时实现类内紧密性和类间松散性,能够获得更优的特征分布,进一步提升语义分割模型进行语义分割的准确性。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
本实施例以语义分割模型训练装置集成在服务器为例,如图3所示,服务器通过语义分割模型的特征提取层(Feature Extractor)提取样本图像的样本特征,以及通过语义分割模型的分类层(Classifier)基于样本特征对样本图像进行语义分割,根据样本图像的语义分割结果(即第一语义分割结果)与样本图像的第一语义标签(GT Mask)的差异,获取第一损失Lce。以及,服务器可以通过锚点嵌入网络(Embedding Layer)对类别锚点值进行嵌入处理,得到当前的锚点特征,以及通过语义分割模型的分类层对当前的锚点特征进行语义分割,并根据当前的锚点特征的语义分割结果(即第二语义分割结果),与类别锚点值的第二语义标签(one-hot Class Mask)的差异,获取第二损失Laux-ce。服务器可以通过动量更新的形式(EMA)对锚点特征进行更新,得到目标锚点特征,然后融合目标锚点特征和第一语义标签得到融合特征,根据样本特征和融合特征的差异,获取第三损失Lp2a。此时,服务器可以确定第一损失、第二损失以及第三损失各自对应的权重,并根据第一损失、第二损失以及第三损失各自对应的权重,对第一损失、第二损失以及第三损失进行加权,得到总损失,基于总损失调整语义分割模型的参数,以及根据第二损失调整锚点嵌入网络的参数,直至满足预设停止条件。以下将展开进行详细说明。
请参阅图4,图4为本申请实施例提供的语义分割模型训练方法的流程示意图。该方法流程可以包括:
S201、在模型训练阶段,服务器获取训练样本,训练样本包括样本图像及其对应的第一语义标签。
其中,训练样本可以是包括多张样本图像,以及每张样本图像对应的第一语义标签,服务器可以从数据库中获取训练样本,或者,接收终端发送的训练样本等。
S202、服务器通过语义分割模型的特征提取层对样本图像进行特征提取,得到样本图像的样本特征。
S203、服务器通过语义分割模型的分类层基于样本特征对样本图像进行语义分割,得到样本图像的第一语义分割结果。
如图5所示,服务器可以通过语义分割模型的特征提取层对样本图像进行特征提取,得到样本图像的样本特征,并语义分割模型的分类层基于样本特征对样本图像进行语义分割,得到样本图像的第一语义分割结果。
S204、服务器根据第一语义分割结果与第一语义标签的差异,获取第一损失。
由于第一语义标签用于指示样本图像中像素点对应的真实的语义类别,第一语义分割结果包括样本图像中像素点对应的预测的语义类别,因此,服务器可以通过第一损失函数,计算第一语义分割结果中预测的语义类别,与第一语义标签指示的真实的语义类别之间的差异,得到第一损失。
S205、服务器获取对应不同语义类别的类别锚点值及其对应的第二语义标签。
服务器可以随机生成对应不同语义类别的类别锚点值,例如,可以对标准高斯分布进行随机采样,得到对应不同语义类别的类别锚点值。在生成类别锚点值后,可以为类别锚点值设置第二语义标签,用于指示类别锚点值对应的语义类别。
其中,类别锚点值可以是C×D维度的矩阵,C表示语义类别的数量,如训练样本中包含的语义类别的数量,D表示特征通道数,如语义分割模型的特征通道数D。
S206、服务器构建锚点嵌入网络,并通过锚点嵌入网络对类别锚点值进行嵌入处理,得到当前的锚点特征。
服务器可以构建由两层线性层和一层卷积层组成的锚点嵌入网络,该锚点嵌入网络可以是独立于语义分割模型,并共享语义分割模型的分类层的网络。如图5所示,在得到类别锚点值后,服务器可以通过锚点嵌入网络对类别锚点值进行嵌入处理,以将类别锚点值映射至语义空间,从而得到当前的锚点特征。
S207、服务器通过语义分割模型的分类层对当前的锚点特征进行语义分割,得到当前的锚点特征的第二语义分割结果。
如图5所示,服务器可以通过语义分割模型的分类层对当前的锚点特征进行语义分割,得到当前的锚点特征的第二语义分割结果。
S208、服务器根据第二语义分割结果与第二语义标签的差异,获取第二损失。
由于第二语义标签可以指示锚点特征对应的真实的语义类别,第二语义分割结果包括锚点特征对应的预测的语义类别,因此,服务器可以通过第二损失函数,计算第二语义分割结果中预测的语义类别,与第二语义标签指示的真实的语义类别之间的差异,得到第二损失。
需要说明的是,步骤S204和步骤S208之间执行先后顺序在此不做限定,例如,可以先执行步骤S204,后执行步骤S208,或者,同时执行步骤S204和步骤S208,或者先执行步骤S208,后执行步骤S204。即,第一损失的获取与第二损失的获取可以是同时执行,也可以先获取第一损失,后获取第二损失;还可以是先获取第二损失,后获取第一损失,在此不做限定。
S209、服务器确定当前的锚点特征的第一权重,以及上一次迭代后的锚点特征的第二权重。
S210、服务器根据第一权重、第二权重,对上一次迭代后的锚点特征和当前的锚点特征进行加权,得到目标锚点特征。
服务器可以通过上述加权公式,根据第一权重、第二权重,对上一次迭代后的锚点特征和当前的锚点特征进行加权,得到目标锚点特征。需要说明的是,当模型训练是首次迭代时,可以将上一次迭代后的锚点特征的第二权重赋为0,将当前的锚点特征的第一权重赋为1,即直接将锚点嵌入网络输出的当前的锚点特征作为目标锚点特征。
S211、服务器对目标锚点特征和第一语义标签进行融合,得到融合特征。
S212、服务器计算样本特征和融合特征之间的特征距离,并将特征距离确定为第三损失。
如图5所示,服务器可以通过第三损失函数计算样本特征,与融合目标锚点特征和第一语义标签得到的融合特征之间的特征距离,并将特征距离确定为第三损失。
S213、服务器确定第一损失、第二损失以及第三损失各自对应的权重。
S214、服务器根据第一损失、第二损失以及第三损失各自对应的权重,对第一损失、第二损失以及第三损失进行加权,得到总损失。
S215、服务器基于总损失调整语义分割模型的参数,以及根据第二损失调整锚点嵌入网络的参数,直至满足预设停止条件。
如图5所示,服务器可以通过第一损失、第二损失以及第三损失各自对应的权重,对第一损失、第二损失以及第三损失进行加权得到的总损失,调整语义分割模型的参数,以及,根据第二损失调整锚点嵌入网络的参数,直至满足预设停止条件,其中,该预设停止条件可以是损失达到最小,或者是,训练迭代次数达到预设次数,该预设次数在此不做限定。
S216、在模型应用阶段,服务器获取待分割图像。
服务器可以从用于存储图像的数据库中获取图像,并将获取到的图像作为待分割图像,或者,可以接收终端发送的图像,并将接收到的图像作为待分割图像,等等。
S217、服务器通过语义分割模型的特征提取层,对待分割图像进行特征提取,得到图像特征。
在模型应用阶段对应的语义分割模型,即为经过上述模型训练阶段进行训练后得到的语义分割模型。
S218、服务器通过语义分割模型的分类层,基于图像特征对待分割图像进行语义分割,得到待分割图像的语义分割结果。
如图6所示,在模型应用阶段,服务器可以通过语义分割模型的特征提取层,对待分割图像进行特征提取,得到图像特征,通过语义分割模型的分类层,基于图像特征对待分割图像进行语义分割,得到待分割图像的语义分割结果。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可参见上文针对语义分割模型训练方法的详细描述,此处不再赘述。
为了方便理解本申请基于锚点特征的正则化方式(即类锚正则化方式)对语义分割模型进行训练后,通过语义分割模型进行语义分割达到的良好效果,对语义分割模型对图像进行语义分割得到的图像特征和语义分割结果进行可视化展示。如图7所示,展示的是通过语义分割模型对图像进行特征提取得到的图像特征,其中,a1表示利用现有模型训练方式对语义分割模型进行训练后,通过语义分割模型对图像进行特征提取得到的图像特征,a2表示本申请利用类锚正则化的模型训练方式对语义分割模型进行训练后,通过语义分割模型对图像进行特征提取得到的图像特征,a2相对于a1,通过同时实现类内紧密性和类间松散性,能够获得更优的特征分布。
如图8所示,展示的是通过语义分割模型对图像库1中的图像进行语义分割得到的语义分割结果,其中,b1表示利用现有模型训练方式对语义分割模型进行训练后,通过语义分割模型对图像进行语义分割得到的语义分割结果,b2表示本申请利用类锚正则化的模型训练方式对语义分割模型进行训练后,通过语义分割模型对图像进行语义分割得到的语义分割结果。如图8中虚线框内的语义分割结果所示,b2相对于b1得到的语义分割结果更准确。
又如图9所示,展示的是通过语义分割模型对图像库2中的图像进行语义分割得到的语义分割结果,其中,c1表示利用现有模型训练方式对语义分割模型进行训练后,通过语义分割模型对图像进行语义分割得到的语义分割结果,c2表示本申请利用类锚正则化的模型训练方式对语义分割模型进行训练后,通过语义分割模型对图像进行语义分割得到的语义分割结果。如图9中虚线框内的语义分割结果所示,c2相对于c1得到的语义分割结果更准确。
又如图10所示,展示的是通过语义分割模型对图像库3中的图像进行语义分割得到的语义分割结果,其中,d1表示利用现有模型训练方式对语义分割模型进行训练后,通过语义分割模型对图像进行语义分割得到的语义分割结果,d2表示本申请利用类锚正则化的模型训练方式对语义分割模型进行训练后,通过语义分割模型对图像进行语义分割得到的语义分割结果。如图10中虚线框内的语义分割结果所示,d2相对于d1得到的语义分割结果更准确。
通过上述展示对比可知,本申请提出基于锚点特征的正则化方式,在模型训练过程中,利用与样本特征无关的锚点特征,代替与样本特征相关的类中心,从而能够避免特征纠缠,防止模型过拟合,提升了语义分割模型进行语义分割的准确性。此外,通过跟随语义分割模型训练锚点嵌入网络,利用锚点嵌入网络获得具有可分性的目标锚点特征,进而通过融合有目标锚点特征的第三损失更新语义分割模型,拉近同类语义类别的样本特征和目标锚点特征,实现类内紧密性,同时,又由于锚点特征本身具有可分性,在拉近同类语义类别的样本特征和目标锚点特征的同时,使得不同语义类别的样本特征和目标锚点特征被拉远,实现类间松散性。通过同时实现类内紧密性和类间松散性,能够获得更优的特征分布,进一步提升语义分割模型进行语义分割的准确性。
可以理解的是,在本申请的具体实施方式中,涉及到训练样本、待分割图像等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
需要说明的是,本实施例仅仅是以服务器在模型训练阶段通过类锚正则化方式对语义分割模型进行训练,以及在模型应用阶段通过语义分割模型对图像进行语义分割为例进行说明,当然,在一实施方式中,在终端支持语义分割模型运行的情况下,可以由终端在模型训练阶段通过类锚正则化方式对语义分割模型进行训练,以及在模型应用阶段通过语义分割模型对图像进行语义分割。在另一实施方式中,如图11所示,可以由服务器在模型训练阶段通过类锚正则化方式对语义分割模型进行训练,并在接收到终端发送的图像分割请求后,通过训练后的语义分割模型对图像进行语义分割,将语义分割结果返回给终端,具体包括如下步骤:
S11、服务器基于类锚正则化方式对语义分割模型进行训练,得到训练后的语义分割模型。
S12、终端向服务器发送携带待分割图像的图像分割请求。
S13、服务器响应于图像分割请求,通过训练后的语义分割模型对待分割图像进行语义分割,得到待分割图像的语义分割结果。
S14、服务器将语义分割结果返回给终端。
S15、终端显示语义分割结果。
在另一实施方式中,如图12所示,在终端支持语义分割模型运行的情况下,可以由服务器在模型训练阶段通过类锚正则化方式对语义分割模型进行训练,并在接收到终端发送的模型获取请求后,将训练后的语义分割模型返回给终端,终端可以通过训练后的语义分割模型对图像进行语义分割,并显示语义分割结果,具体包括如下步骤:
S21、服务器基于类锚正则化方式对语义分割模型进行训练,得到训练后的语义分割模型。
S22、终端向服务器发送携带模型标识的模型获取请求。
S23、服务器响应于模型获取请求,将与模型标识匹配的训练后的语义分割模型返回给终端。
S24、终端通过训练后的语义分割模型对待分割图像进行语义分割,得到待分割图像的语义分割结果。
S25、终端显示语义分割结果。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可参见上文针对语义分割模型训练方法的详细描述,此处不再赘述。
为便于更好的实施本申请实施例提供的语义分割模型训练方法,本申请实施例还提供一种基于上述语义分割模型训练方法的装置。其中名词的含义与上述语义分割模型训练方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图13,图13为本申请实施例提供的语义分割模型训练装置的结构示意图,其中该语义分割模型训练装置300可以包括第一获取模块301、第一分割模块302、第二获取模块303、第二分割模块304、第三获取模块305以及调整模块306等。
其中,第一获取模块301,用于获取训练样本,训练样本包括样本图像及其对应的第一语义标签。
第一分割模块302,用于通过语义分割模型提取样本图像的样本特征,以及基于样本特征对样本图像进行语义分割,根据样本图像的语义分割结果与第一语义标签的差异,获取第一损失。
第二获取模块303,用于获取对应不同语义类别的类别锚点值及其对应的第二语义标签。
第二分割模块304,用于通过锚点嵌入网络对类别锚点值进行嵌入处理,得到当前的锚点特征,以及通过语义分割模型对当前的锚点特征进行语义分割,并根据当前的锚点特征的语义分割结果与第二语义标签的差异,获取第二损失。
第三获取模块305,用于根据样本特征和融合特征的差异,获取第三损失,融合特征由目标锚点特征和第一语义标签得到,目标锚点特征根据当前的锚点特征和上一次迭代后的锚点特征得到。
调整模块306,用于根据第一损失、第二损失以及第三损失,调整语义分割模型的参数,以及根据第二损失调整锚点嵌入网络的参数,直至满足预设停止条件。
在一些实施方式中,语义分割模型训练装置300还包括:
确定模块,用于确定当前的锚点特征的第一权重,以及上一次迭代后的锚点特征的第二权重;
加权模块,用于根据第一权重、第二权重,对上一次迭代后的锚点特征和当前的锚点特征进行加权,得到目标锚点特征。
在一些实施方式中,第三获取模块305具体用于:计算样本特征和融合特征之间的特征距离,并将特征距离确定为第三损失。
在一些实施方式中,调整模块306具体用于:
确定第一损失、第二损失以及第三损失各自对应的权重;
根据第一损失、第二损失以及第三损失各自对应的权重,对第一损失、第二损失以及第三损失进行加权,得到总损失;
基于总损失调整语义分割模型的参数。
在一些实施方式中,第二损失对应的权重小于或等于第一损失对应的权重,且大于第三损失对应的权重。
在一些实施方式中,第二获取模块303包括:
确定子模块,用于确定语义分割模型的特征通道数D;
生成子模块,用于生成对应不同语义类别的D维类别锚点值。
在一些实施方式中,生成子模块具体用于:随机生成对应不同语义类别的D维类别锚点值。
在一些实施方式中,生成子模块还具体用于:对标准高斯分布进行随机采样,得到对应不同语义类别的D维类别锚点值。
在一些实施方式中,语义分割模型训练装置300还包括:
第四获取模块,用于获取待分割图像;
提取模块,用于通过语义分割模型,对待分割图像进行特征提取,得到图像特征;
第三分割模块,用于通过语义分割模型,基于图像特征对待分割图像进行语义分割,得到待分割图像的语义分割结果。
本申请实施例可以由第一获取模块301获取训练样本,训练样本包括样本图像及其对应的第一语义标签;由第一分割模块302通过语义分割模型提取样本图像的样本特征,以及基于样本特征对样本图像进行语义分割,根据样本图像的语义分割结果与第一语义标签的差异,获取第一损失;由第二获取模块303获取对应不同语义类别的类别锚点值及其对应的第二语义标签;由第二分割模块304通过锚点嵌入网络对类别锚点值进行嵌入处理,得到当前的锚点特征,以及通过语义分割模型对当前的锚点特征进行语义分割,并根据当前的锚点特征的语义分割结果与第二语义标签的差异,获取第二损失;由第三获取模块305根据样本特征和融合特征的差异,获取第三损失,融合特征由目标锚点特征和第一语义标签得到,目标锚点特征根据当前的锚点特征和上一次迭代后的锚点特征得到;由调整模块306根据第一损失、第二损失以及第三损失,调整语义分割模型的参数,以及根据第二损失调整锚点嵌入网络的参数,直至满足预设停止条件。以此,本申请提出基于锚点特征(即类锚特征)的正则化方式,在模型训练过程中,利用与样本特征无关的锚点特征,代替与样本特征相关的类中心,从而能够避免特征纠缠,防止模型过拟合,提升了语义分割模型进行语义分割的准确性。此外,通过跟随语义分割模型训练锚点嵌入网络,利用锚点嵌入网络获得具有可分性的目标锚点特征,进而通过融合有目标锚点特征的第三损失更新语义分割模型,拉近同类语义类别的样本特征和目标锚点特征,实现类内紧密性,同时,又由于锚点特征本身具有可分性,在拉近同类语义类别的样本特征和目标锚点特征的同时,使得不同语义类别的样本特征和目标锚点特征被拉远,实现类间松散性。通过同时实现类内紧密性和类间松散性,能够获得更优的特征分布,进一步提升语义分割模型进行语义分割的准确性。
本申请实施例还提供一种计算机设备,该计算机设备可以是终端或服务器等,如图14所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图14中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取训练样本,训练样本包括样本图像及其对应的第一语义标签;通过语义分割模型提取样本图像的样本特征,以及基于样本特征对样本图像进行语义分割,根据样本图像的语义分割结果与第一语义标签的差异,获取第一损失;获取对应不同语义类别的类别锚点值及其对应的第二语义标签;通过锚点嵌入网络对类别锚点值进行嵌入处理,得到当前的锚点特征,以及通过语义分割模型对当前的锚点特征进行语义分割,并根据当前的锚点特征的语义分割结果与第二语义标签的差异,获取第二损失;根据样本特征和融合特征的差异,获取第三损失,融合特征由目标锚点特征和第一语义标签得到,目标锚点特征根据当前的锚点特征和上一次迭代后的锚点特征得到;根据第一损失、第二损失以及第三损失,调整语义分割模型的参数,以及根据第二损失调整锚点嵌入网络的参数,直至满足预设停止条件。
基于锚点特征的正则化方式(即类锚正则化方式),在模型训练过程中,利用与样本特征无关的锚点特征,代替与样本特征相关的类中心,从而能够避免特征纠缠,防止模型过拟合,提升了语义分割模型进行语义分割的准确性。此外,通过跟随语义分割模型训练锚点嵌入网络,利用锚点嵌入网络获得具有可分性的目标锚点特征,进而通过融合有目标锚点特征的第三损失更新语义分割模型,拉近同类语义类别的样本特征和目标锚点特征,实现类内紧密性,同时,又由于锚点特征本身具有可分性,在拉近同类语义类别的样本特征和目标锚点特征的同时,使得不同语义类别的样本特征和目标锚点特征被拉远,实现类间松散性。通过同时实现类内紧密性和类间松散性,能够获得更优的特征分布,进一步提升语义分割模型进行语义分割的准确性。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可参见上文针对语义分割模型训练方法的详细描述,此处不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机指令来完成,或通过计算机指令控制相关的硬件来完成,该计算机指令可以存储于一计算机可读存储介质(即存储介质)中,并由处理器进行加载和执行。为此,本申请实施例提供一种存储介质,其中存储有计算机程序,计算机程序可以包括计算机指令,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种语义分割模型训练方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种语义分割模型训练方法中的步骤,因此,可以实现本申请实施例所提供的任一种语义分割模型训练方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种语义分割模型训练方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种语义分割模型训练方法,其特征在于,包括:
获取训练样本,所述训练样本包括样本图像及其对应的第一语义标签;
通过语义分割模型提取所述样本图像的样本特征,以及基于所述样本特征对所述样本图像进行语义分割,根据所述样本图像的语义分割结果与所述第一语义标签的差异,获取第一损失;
获取对应不同语义类别的类别锚点值及其对应的第二语义标签;
通过锚点嵌入网络对所述类别锚点值进行嵌入处理,得到当前的锚点特征,以及通过所述语义分割模型对所述当前的锚点特征进行语义分割,并根据所述当前的锚点特征的语义分割结果与所述第二语义标签的差异,获取第二损失;
根据所述样本特征和融合特征的差异,获取第三损失,所述融合特征由目标锚点特征和所述第一语义标签得到,所述目标锚点特征根据所述当前的锚点特征和上一次迭代后的锚点特征得到;
根据所述第一损失、所述第二损失以及所述第三损失,调整所述语义分割模型的参数,以及根据所述第二损失调整所述锚点嵌入网络的参数,直至满足预设停止条件。
2.根据权利要求1所述的语义分割模型训练方法,其特征在于,所述根据所述样本特征和融合特征的差异,获取第三损失之前,所述方法还包括:
确定所述当前的锚点特征的第一权重,以及所述上一次迭代后的锚点特征的第二权重;
根据所述第一权重、所述第二权重,对所述上一次迭代后的锚点特征和所述当前的锚点特征进行加权,得到所述目标锚点特征。
3.根据权利要求1所述的语义分割模型训练方法,其特征在于,所述根据所述样本特征和融合特征的差异,获取第三损失,包括:
计算所述样本特征和融合特征之间的特征距离,并将所述特征距离确定为第三损失。
4.根据权利要求1所述的语义分割模型训练方法,其特征在于,所述根据所述第一损失、所述第二损失以及所述第三损失,调整所述语义分割模型的参数,包括:
确定所述第一损失、所述第二损失以及所述第三损失各自对应的权重;
根据所述第一损失、所述第二损失以及所述第三损失各自对应的权重,对所述第一损失、所述第二损失以及所述第三损失进行加权,得到总损失;
基于所述总损失调整所述语义分割模型的参数。
5.根据权利要求4所述的语义分割模型训练方法,其特征在于,所述第二损失对应的权重小于或等于所述第一损失对应的权重,且大于所述第三损失对应的权重。
6.根据权利要求1所述的语义分割模型训练方法,其特征在于,所述获取对应不同语义类别的类别锚点值,包括:
确定所述语义分割模型的特征通道数D;
生成对应不同语义类别的D维类别锚点值。
7.根据权利要求6所述的语义分割模型训练方法,其特征在于,所述生成对应不同语义类别的D维类别锚点值,包括:
随机生成对应不同语义类别的D维类别锚点值。
8.根据权利要求7所述的语义分割模型训练方法,其特征在于,所述随机生成对应不同语义类别的D维类别锚点值,包括:
对标准高斯分布进行随机采样,得到对应不同语义类别的D维类别锚点值。
9.根据权利要求1至8任一项所述的语义分割模型训练方法,其特征在于,所述根据所述第一损失、所述第二损失以及所述第三损失,调整所述语义分割模型的参数,以及根据所述第二损失调整所述锚点嵌入网络的参数,直至满足预设停止条件之后,所述方法还包括:
获取待分割图像;
通过所述语义分割模型,对所述待分割图像进行特征提取,得到图像特征;
通过所述语义分割模型,基于所述图像特征对所述待分割图像进行语义分割,得到所述待分割图像的语义分割结果。
10.一种语义分割模型训练装置,其特征在于,包括:
第一获取模块,用于获取训练样本,所述训练样本包括样本图像及其对应的第一语义标签;
第一分割模块,用于通过语义分割模型提取所述样本图像的样本特征,以及基于所述样本特征对所述样本图像进行语义分割,根据所述样本图像的语义分割结果与所述第一语义标签的差异,获取第一损失;
第二获取模块,用于获取对应不同语义类别的类别锚点值及其对应的第二语义标签;
第二分割模块,用于通过锚点嵌入网络对所述类别锚点值进行嵌入处理,得到当前的锚点特征,以及通过所述语义分割模型对所述当前的锚点特征进行语义分割,并根据所述当前的锚点特征的语义分割结果与所述第二语义标签的差异,获取第二损失;
第三获取模块,用于根据所述样本特征和融合特征的差异,获取第三损失,所述融合特征由目标锚点特征和所述第一语义标签得到,所述目标锚点特征根据所述当前的锚点特征和上一次迭代后的锚点特征得到;
调整模块,用于根据所述第一损失、所述第二损失以及所述第三损失,调整所述语义分割模型的参数,以及根据所述第二损失调整所述锚点嵌入网络的参数,直至满足预设停止条件。
11.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行如权利要求1至9任一项所述的语义分割模型训练方法。
12.一种存储介质,其特征在于,所述存储介质用于存储计算机程序,所述计算机程序被处理器加载以执行权利要求1至9任一项所述的语义分割模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311155296.XA CN116883673B (zh) | 2023-09-08 | 2023-09-08 | 语义分割模型训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311155296.XA CN116883673B (zh) | 2023-09-08 | 2023-09-08 | 语义分割模型训练方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116883673A CN116883673A (zh) | 2023-10-13 |
CN116883673B true CN116883673B (zh) | 2023-12-26 |
Family
ID=88259161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311155296.XA Active CN116883673B (zh) | 2023-09-08 | 2023-09-08 | 语义分割模型训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883673B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024808A1 (zh) * | 2017-08-01 | 2019-02-07 | 北京市商汤科技开发有限公司 | 语义分割模型的训练方法和装置、电子设备、存储介质 |
CN114022359A (zh) * | 2021-11-03 | 2022-02-08 | 深圳大学 | 图像超分辨率模型训练方法、装置、存储介质及设备 |
CN114283316A (zh) * | 2021-09-16 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种图像识别方法、装置、电子设备和存储介质 |
CN114372564A (zh) * | 2022-01-12 | 2022-04-19 | 腾讯科技(深圳)有限公司 | 用于对象分级的模型训练方法、对象分级方法及装置 |
CN114401666A (zh) * | 2019-07-15 | 2022-04-26 | 普罗马顿控股有限责任公司 | 基于深度学习的3d点云的对象检测和实例分割 |
CN114565812A (zh) * | 2022-03-01 | 2022-05-31 | 北京地平线机器人技术研发有限公司 | 语义分割模型的训练方法、装置和图像的语义分割方法 |
CN114612659A (zh) * | 2022-02-28 | 2022-06-10 | 国网山东省电力公司电力科学研究院 | 一种基于融合模态对比学习的电力设备分割方法及系统 |
CN115471662A (zh) * | 2022-11-03 | 2022-12-13 | 深圳比特微电子科技有限公司 | 语义分割模型的训练方法、识别方法、装置和存储介质 |
JP2023004894A (ja) * | 2021-06-25 | 2023-01-17 | 富士通株式会社 | 画像処理装置、画像処理方法及び機器読み取り可能な記憶媒体 |
US11610414B1 (en) * | 2019-03-04 | 2023-03-21 | Apple Inc. | Temporal and geometric consistency in physical setting understanding |
CN116363372A (zh) * | 2023-06-01 | 2023-06-30 | 之江实验室 | 弱监督语义分割方法、装置、设备和存储介质 |
CN116452810A (zh) * | 2023-04-25 | 2023-07-18 | 中国航空发动机研究院 | 一种多层次语义分割方法、装置、电子设备及存储介质 |
CN116630630A (zh) * | 2023-07-24 | 2023-08-22 | 深圳思谋信息科技有限公司 | 语义分割方法、装置、计算机设备及计算机可读存储介质 |
CN116664840A (zh) * | 2023-05-31 | 2023-08-29 | 博衍科技(珠海)有限公司 | 一种基于互关系知识蒸馏的语义分割方法、装置及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220343178A1 (en) * | 2019-09-25 | 2022-10-27 | Presagen Pty Ltd | Method and system for performing non-invasive genetic testing using an artificial intelligence (ai) model |
CN114693934B (zh) * | 2022-04-13 | 2023-09-01 | 北京百度网讯科技有限公司 | 语义分割模型的训练方法、视频语义分割方法及装置 |
-
2023
- 2023-09-08 CN CN202311155296.XA patent/CN116883673B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024808A1 (zh) * | 2017-08-01 | 2019-02-07 | 北京市商汤科技开发有限公司 | 语义分割模型的训练方法和装置、电子设备、存储介质 |
US11610414B1 (en) * | 2019-03-04 | 2023-03-21 | Apple Inc. | Temporal and geometric consistency in physical setting understanding |
CN114401666A (zh) * | 2019-07-15 | 2022-04-26 | 普罗马顿控股有限责任公司 | 基于深度学习的3d点云的对象检测和实例分割 |
JP2023004894A (ja) * | 2021-06-25 | 2023-01-17 | 富士通株式会社 | 画像処理装置、画像処理方法及び機器読み取り可能な記憶媒体 |
CN114283316A (zh) * | 2021-09-16 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种图像识别方法、装置、电子设备和存储介质 |
CN114022359A (zh) * | 2021-11-03 | 2022-02-08 | 深圳大学 | 图像超分辨率模型训练方法、装置、存储介质及设备 |
CN114372564A (zh) * | 2022-01-12 | 2022-04-19 | 腾讯科技(深圳)有限公司 | 用于对象分级的模型训练方法、对象分级方法及装置 |
CN114612659A (zh) * | 2022-02-28 | 2022-06-10 | 国网山东省电力公司电力科学研究院 | 一种基于融合模态对比学习的电力设备分割方法及系统 |
CN114565812A (zh) * | 2022-03-01 | 2022-05-31 | 北京地平线机器人技术研发有限公司 | 语义分割模型的训练方法、装置和图像的语义分割方法 |
CN115471662A (zh) * | 2022-11-03 | 2022-12-13 | 深圳比特微电子科技有限公司 | 语义分割模型的训练方法、识别方法、装置和存储介质 |
CN116452810A (zh) * | 2023-04-25 | 2023-07-18 | 中国航空发动机研究院 | 一种多层次语义分割方法、装置、电子设备及存储介质 |
CN116664840A (zh) * | 2023-05-31 | 2023-08-29 | 博衍科技(珠海)有限公司 | 一种基于互关系知识蒸馏的语义分割方法、装置及设备 |
CN116363372A (zh) * | 2023-06-01 | 2023-06-30 | 之江实验室 | 弱监督语义分割方法、装置、设备和存储介质 |
CN116630630A (zh) * | 2023-07-24 | 2023-08-22 | 深圳思谋信息科技有限公司 | 语义分割方法、装置、计算机设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
基于矩阵模式的林火图像半监督学习算法;杨绪兵 等;《图学学报》;第40卷(第5期);835-842 * |
Also Published As
Publication number | Publication date |
---|---|
CN116883673A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN116226785A (zh) | 目标对象识别方法、多模态识别模型的训练方法和装置 | |
CN110414335A (zh) | 视频识别方法、装置及计算机可读存储介质 | |
CN113641797A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113158554A (zh) | 模型优化方法、装置、计算机设备及存储介质 | |
CN114219971A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
Yang et al. | Research on subway pedestrian detection algorithms based on SSD model | |
CN115168720A (zh) | 内容交互预测方法以及相关设备 | |
CN115062709A (zh) | 模型优化方法、装置、设备、存储介质及程序产品 | |
CN113128526B (zh) | 图像识别方法、装置、电子设备和计算机可读存储介质 | |
CN116974626B (zh) | 分析序列图生成方法、装置、设备和计算机可读存储介质 | |
CN116861258B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
CN116883673B (zh) | 语义分割模型训练方法、装置、设备及存储介质 | |
CN116522131A (zh) | 对象表示方法、装置、电子设备及计算机可读存储介质 | |
CN112052386B (zh) | 信息推荐方法、装置和存储介质 | |
Lu | Design of visual communication based on deep learning approaches | |
CN117575894B (zh) | 图像生成方法、装置、电子设备和计算机可读存储介质 | |
CN117011616B (zh) | 一种图像内容审核方法、装置、存储介质和电子设备 | |
CN115129861B (zh) | 文本分类方法、装置和存储介质及电子设备 | |
CN117058489B (zh) | 多标签识别模型的训练方法、装置、设备及存储介质 | |
CN117058498B (zh) | 分割图评估模型的训练方法、分割图的评估方法及装置 | |
CN117216374A (zh) | 内容推荐方法、装置、计算机可读存储介质和计算机设备 | |
CN116978080A (zh) | 信息识别方法、装置和计算机可读存储介质 | |
CN117350366A (zh) | 一种网络模型构建方法以及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |