CN114708436A - 语义分割模型的训练方法、语义分割方法、装置和介质 - Google Patents
语义分割模型的训练方法、语义分割方法、装置和介质 Download PDFInfo
- Publication number
- CN114708436A CN114708436A CN202210620456.2A CN202210620456A CN114708436A CN 114708436 A CN114708436 A CN 114708436A CN 202210620456 A CN202210620456 A CN 202210620456A CN 114708436 A CN114708436 A CN 114708436A
- Authority
- CN
- China
- Prior art keywords
- output
- semantic
- pooling
- model
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 186
- 238000000034 method Methods 0.000 title claims abstract description 131
- 238000012549 training Methods 0.000 title claims abstract description 90
- 238000011176 pooling Methods 0.000 claims abstract description 117
- 238000012545 processing Methods 0.000 claims abstract description 49
- 230000004927 fusion Effects 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims description 54
- 230000015654 memory Effects 0.000 claims description 19
- 238000007499 fusion processing Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 13
- 238000011478 gradient descent method Methods 0.000 description 10
- 238000013178 mathematical model Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000002939 conjugate gradient method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种语义分割模型的训练方法、语义分割方法、装置和介质,其中的训练方法具体包括:分别利用教师模型和学生模型,确定多幅无标注图像对应的第一输出和第二输出;根据第一输出和第二输出,确定损失信息;根据损失信息,对学生模型的第一参数进行更新;根据第一输出和第二输出,确定损失信息,包括:根据第一语义表示,生成伪标签;根据第二语义表示和伪标签,确定第一损失信息;和/或分别对第一编码特征和第二编码特征进行多种尺度信息的池化处理,以得到第一池化特征和第二池化特征;根据第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征,确定第二损失信息。本申请实施例可以提高语义分割模型的性能。
Description
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种语义分割模型的训练方法、语义分割方法、装置和介质。
背景技术
语义分割是计算机视觉领域中一项重要的研究内容,其目标是将图像分割成具有不同语义信息的区域,并且标注每个区域相应的语义标签。在语义分割领域,获取标注往往是比较困难的和耗费成本的,因为掩膜标注要求和目标边缘紧密贴合,否则会为分割模型训练带来不合理的监督噪声。半监督学习可以有效利用无标注数据,使其作为有标签样本的补充,以降低标注成本。
一种语义分割模型的训练方法,可以为无标注数据生成伪标签,并将伪标签作为无标注数据的潜在真实标注,进而使得利用无标注数据成为可能。
在实际应用中,可能会出现伪标签与潜在真实标注不符的情况,此种情况下,无标注数据学习过程会从不正确的伪标签中学习到错误的信息,从而导致语义分割模型的性能的下降。
发明内容
本申请实施例提供了一种语义分割模型的训练方法,能够借助无标注数据提高语义分割模型的性能。
相应地,本申请实施例还提供了一种语义分割方法、一种语义分割模型的训练装置、一种语义分割装置、一种电子设备和一种机器可读介质,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种语义分割模型的训练方法,所述语义分割模型包括:教师模型和学生模型,所述语义分割模型的训练数据包括:与至少一幅无标注图像对应的在多种尺度信息下的多幅无标注图像;所述方法包括:
分别利用教师模型和学生模型,确定所述多幅无标注图像对应的第一输出和第二输出;
根据所述第一输出和所述第二输出,确定损失信息;
根据所述损失信息,对所述学生模型的第一参数进行更新;
其中,所述第一输出和第二输出对应的类型包括:编码特征类型、和/或、语义表示类型;在第一输出和第二输出对应编码特征类型的情况下,所述第一输出包括:第一编码特征,所述第二输出包括:第二编码特征;在第一输出和第二输出对应语义表示类型的情况下,所述第一输出包括:第一语义表示,所述第二输出包括:第二语义表示;
所述根据所述第一输出和所述第二输出,确定损失信息,包括:
根据所述第一语义表示,生成所述多幅无标注图像对应的伪标签;根据所述第二语义表示和所述伪标签,确定第一损失信息;和/或
分别对第一编码特征和第二编码特征进行多种尺度信息的池化处理,以得到第一池化特征和第二池化特征;根据所述第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征,确定第二损失信息。
可选地,所述根据所述第一语义表示,生成所述多幅无标注图像对应的伪标签,包括:
对多幅无标注图像分别对应的第一语义表示进行尺度对齐处理,以得到多幅无标注图像分别对应的第一对齐语义表示;
对多幅无标注图像分别对应的第一对齐语义表示进行融合处理,以得到融合语义表示;
根据所述融合语义表示,生成所述多幅无标注图像对应的伪标签。
可选地,所述根据所述第二语义表示和所述伪标签,确定第一损失信息,包括:
对多幅无标注图像分别对应的第二语义表示进行尺度对齐处理,以得到多幅无标注图像分别对应的第二对齐语义表示;根据第二对齐语义表示和所述伪标签,确定第一损失信息;或者
将所述伪标签转换为与所述第二语义表示相匹配的目标伪标签;根据第二语义表示和所述目标伪标签,确定第一损失信息。
可选地,所述池化融合特征的确定过程包括:分别对单种尺度信息对应的第一池化特征进行融合处理,以得到多种尺度信息分别对应的池化融合特征。
可选地,所述方法还包括:
根据更新后的第一参数,对教师模型的第二参数进行更新。
为了解决上述问题,本申请实施例公开了一种语义分割方法,所述方法包括:
接收待处理图像;
利用语义分割模型的教师模型或学生模型,对所述待处理图像进行语义分割,以得到对应的分割结果;
其中,所述语义分割模型的训练数据包括:一幅无标注图像在多种尺度信息下的多幅无标注图像;所述语义分割模型的训练过程包括:分别利用教师模型和学生模型,确定所述多幅无标注图像对应的第一输出和第二输出;根据所述第一输出和所述第二输出,确定损失信息;根据所述损失信息,对所述学生模型的第一参数进行更新;
其中,所述第一输出和第二输出对应的类型包括:编码特征类型、和/或、语义表示类型;在第一输出和第二输出对应编码特征类型的情况下,所述第一输出包括:第一编码特征,所述第二输出包括:第二编码特征;在第一输出和第二输出对应语义表示类型的情况下,所述第一输出包括:第一语义表示,所述第二输出包括:第二语义表示;
所述损失信息,包括:第一损失信息、和/或、第二损失信息;所述第二损失信息为根据所述第二语义表示和多幅无标注图像对应的伪标签得到,所述伪标签为根据所述第一语义表示得到;所述第二损失信息为根据第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征得到;所述第一池化特征为对第一编码特征进行多种尺度信息的池化处理得到;所述第二池化特征为对第二编码特征进行多种尺度信息的池化处理得到。
为了解决上述问题,本申请实施例公开了一种语义分割模型的训练装置,所述语义分割模型包括:教师模型和学生模型,所述语义分割模型的训练数据包括:一幅无标注图像在多种尺度信息下的多幅无标注图像;所述装置包括:
模型处理模块,用于分别利用教师模型和学生模型,确定所述多幅无标注图像对应的第一输出和第二输出;
损失处理模块,用于根据所述第一输出和所述第二输出,确定损失信息;
第一参数更新模块,用于根据所述损失信息,对所述学生模型的第一参数进行更新;
其中,所述第一输出和第二输出对应的类型包括:编码特征类型、和/或、语义表示类型;在第一输出和第二输出对应编码特征类型的情况下,所述第一输出包括:第一编码特征,所述第二输出包括:第二编码特征;在第一输出和第二输出对应语义表示类型的情况下,所述第一输出包括:第一语义表示,所述第二输出包括:第二语义表示;
所述损失处理模块包括:
第一损失处理模块,用于根据所述第一语义表示,生成所述多幅无标注图像对应的伪标签;根据所述第二语义表示和所述伪标签,确定第一损失信息;和/或
第二损失处理模块,用于分别对第一编码特征和第二编码特征进行多种尺度信息的池化处理,以得到第一池化特征和第二池化特征;根据所述第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征,确定第二损失信息。
为了解决上述问题,本申请实施例公开了一种语义分割装置,所述装置包括:
接收模块,用于接收待处理图像;
语义分割模块,用于利用语义分割模型的教师模型或学生模型,对所述待处理图像进行语义分割,以得到对应的分割结果;
其中,所述语义分割模型的训练数据包括:一幅无标注图像在多种尺度信息下的多幅无标注图像;所述语义分割模型的训练过程包括:分别利用教师模型和学生模型,确定所述多幅无标注图像对应的第一输出和第二输出;根据所述第一输出和所述第二输出,确定损失信息;根据所述损失信息,对所述学生模型的第一参数进行更新;
其中,所述第一输出和第二输出对应的类型包括:编码特征类型、和/或、语义表示类型;在第一输出和第二输出对应编码特征类型的情况下,所述第一输出包括:第一编码特征,所述第二输出包括:第二编码特征;在第一输出和第二输出对应语义表示类型的情况下,所述第一输出包括:第一语义表示,所述第二输出包括:第二语义表示;
所述损失信息,包括:第一损失信息、和/或、第二损失信息;所述第二损失信息为根据所述第二语义表示和多幅无标注图像对应的伪标签得到,所述伪标签为根据所述第一语义表示得到;所述第二损失信息为根据第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征得到;所述第一池化特征为对第一编码特征进行多种尺度信息的池化处理得到;所述第二池化特征为对第二编码特征进行多种尺度信息的池化处理得到。
本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例所述的方法。
本申请实施例还公开了一种机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例所述的方法。
本申请实施例包括以下优点:
在本申请实施例中,在语义分割模型的训练过程中,分别利用教师模型和学生模型,确定多幅无标注图像对应的第一输出和第二输出;根据该第一输出和该第二输出,确定损失信息;以及,根据该损失信息,对该学生模型的第一参数进行更新。
本申请实施例的损失信息可以包括:第一损失信息和第二损失信息中的至少一种。其中,第一损失信息可以表征语义分割模型在语义表示类型方面的输出所表征的分割准确度维度的损失,本申请实施例根据第一损失信息,对该学生模型的第一参数进行更新,可以提高语义分割模型在多尺度场景下的分割准确度。第二损失信息可以表征语义分割模型在编码特征类型方面的输出所表征的编码特征维度的损失,本申请实施例根据第二损失信息,对该学生模型的第一参数进行更新,可以提高语义分割模型在多尺度场景下的编码特征的准确度。
本申请实施例在提高语义分割模型在多尺度场景下的分割准确度、和/或、提高语义分割模型在多尺度场景下的编码特征的准确度的情况下,能够提高多幅无标注图像所对应伪标签的准确度,能够提高伪标签与潜在真实标注之间的匹配度,进而能够借助无标注数据提高语义分割模型的性能。
附图说明
图1是本申请一个实施例的语义分割模型的结构示意图;
图2是本申请一个实施例的语义分割模型的有标注数据的训练方法的示意图;
图3是本申请一个实施例的语义分割模型的训练方法的步骤流程示意图;
图4是本申请一个实施例的语义分割模型的训练过程的示意图;
图5是本申请一个实施例的语义分割模型的训练过程的示意图;
图6是本申请一个实施例的语义分割模型的训练过程的示意图;
图7是本申请一个实施例的语义分割方法的步骤流程示意图;
图8是本申请一个实施例的语义分割模型的训练装置的结构示意图;
图9是本申请一个实施例的语义分割装置的结构示意图;
图10是本申请一个实施例提供的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例可以应用于语义分割场景中。在语义分割场景中,可由语义分割模型对一幅图像进行语义分割,例如可为图像中的图像对象添加语义标签(譬如桌子、墙壁、天空、人、狗等)。语义分割模型得到的分割结果中可以包括:图像对象在图像中对应的图像区域、以及对应的语义标签。
本申请实施例的语义分割模型可用于表征待处理图像与分割结果之间的第一映射关系。本申请实施例可以对数学模型进行训练,以得到语义分割模型。数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型,数学模型是针对参照某种事物系统的特征或数量依存关系,采用数学语言,概括地或近似地表述出的一种数学结构,这种数学结构是借助于数学符号刻画出来的关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合,通过这些方程定量地或定性地描述系统各变量之间的相互关系或因果关系。除了用方程描述的数学模型外,还有用其他数学工具,如代数、几何、拓扑、数理逻辑等描述的模型。其中,数学模型描述的是系统的行为和特征而不是系统的实际结构。其中,可采用机器学习、深度学习方法等方法进行数学模型的训练,机器学习方法可包括:线性回归、决策树、随机森林等,深度学习方法可包括:CNN(卷积神经网络,Convolutional Neural Networks)、LSTM(长短期记忆网络,Long Short-TermMemory)、GRU(门控循环单元,Gated Recurrent Unit)等。
参照图1,示出了本申请一个实施例的语义分割模型的结构示意图,该语义分割模型具体可以包括:编码模块101和解码模块102。
其中,编码模块101可用于对待处理图像进行特征提取,以得到待处理图像对应的编码特征。编码模块101可以经由卷积层和下采样层将特征图的尺寸缩小,使其成为更低维度的表征。编码模块101的目的可以是,提取低级特征和高级特征,从而利用提取到的空间信息和全局信息提高语义分割的准确度。
编码模块101可用于表征待处理图像与编码特征之间的第二映射关系。编码模块101的例子可以包括:VGG(视觉几何群网络,Visual Geometry Group Network)、ResNet(残差网络,Residual Network)、轻量级网络等。可以理解,本申请实施例对于第一特征提取单元101对应的具体网络不加以限制。
其中,残差网络可以为卷积网络。卷积网络可以是一种深度前馈人工神经网络,在图像识别中具有较好的性能表现。卷积网络具体可以包括卷积层(convolutional layer)和池化层(pooling layer)。卷积层用于从输入的图像中自动抽取特征,得到特征图(feature map)。池化层用于对特征图进行池化处理,以减少特征图中的特征数量。池化层的池化处理包括最大池化、平均池化、随机池化等方式,其可根据实际需求选择合适的方式。
解码模块102用于根据编码模块101输出的编码特征,确定待处理图像对应的语义表示。解码模块102的处理可以包括:卷积处理、堆叠处理、深度可分离卷积和采样处理等。语义表示可以包括:待处理图像中像素点对应的语义标签。解码模块102可以利用上采样操作恢复空间维度,融合编码过程中提取到的特征,在尽可能减少信息损失的前提下完成与待处理图像同尺度的语义表示输出。语义表示可以为待处理图像中像素点对应的语义信息,该语义信息可以为像素点属于预设类别的概率。预设类别通常为多个。
一种语义分割模型的训练方法,会采用半监督学习方法,具体而言,可以为无标注数据生成伪标签,并将伪标签作为无标注数据的潜在真实标注,进而实现伪标签在无标注数据学习过程中的监督作用。在实际应用中,可能会出现伪标签与潜在真实标注不符的情况,此种情况下,无标注数据学习过程会从不正确的伪标签中学习到错误的信息,因而导致语义分割模型的性能的下降。
针对伪标签与潜在真实标注不符的情况导致语义分割模型的性能下降的技术问题,本申请实施例提供了一种语义分割模型的训练方法,该语义分割模型具体可以包括:教师模型和学生模型,该语义分割模型的训练数据可以包括:与至少一幅无标注图像对应的在多种尺度信息下的多幅无标注图像;
该训练方法可以包括:
分别利用教师模型和学生模型,确定多幅无标注图像对应的第一输出和第二输出;
根据该第一输出和该第二输出,确定损失信息;
根据该损失信息,对该学生模型的第一参数进行更新;
其中,该第一输出和第二输出对应的类型包括:编码特征类型、和/或、语义表示类型;在第一输出和第二输出对应编码特征类型的情况下,该第一输出包括:第一编码特征,该第二输出包括:第二编码特征;在第一输出和第二输出对应语义表示类型的情况下,该第一输出包括:第一语义表示,该第二输出包括:第二语义表示;
该根据该第一输出和该第二输出,确定损失信息,包括:
根据该第一语义表示,生成多幅无标注图像对应的伪标签;根据该第二语义表示和该伪标签,确定第一损失信息;和/或
分别对第一编码特征和第二编码特征进行多种尺度信息的池化处理,以得到第一池化特征和第二池化特征;根据该第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征,确定第二损失信息。
教师模型和学生模型是知识蒸馏技术的范畴。知识蒸馏是一种基于神经网络的信息提取方式,同时也是一种有效的网络压缩方式,通过集成或者大规模训练的方式生成一个教师模型,然后将该教师模型的输出标签进行软化,从而增加不同类别之间的信息量,使得对于不同模型分类任务的兼容性更强。教师模型可以指导学生模型,来解决实际的语义分割问题,该学生模型可以有效地将教师模型中优秀的分类能力和预测能力继承下来。教师模型和学生模型可以具有相同的网络结构,例如,教师模型和学生模型均可以包括:图1所示的编码模块101和解码模块102。教师模型和学生模型可以具有不同的参数,例如,教师模型的参数可以为第二参数,学生模型的参数可以为第一参数。
图像对象(如物体)与采集装置(如摄像头、摄像机等)之间的距离变化等因素,使得图像对象在图像中的尺度会发生变化。相关技术中,对于相同图像内容在不同尺度下的不同图像,语义分割模型通常会给出不同的分割结果;这是语义分割模型的半监督学习过程中、伪标签与潜在真实标注不符的一个原因。
本申请实施例针对语义分割模型设置的训练数据可以包括:一幅无标注图像在多种尺度信息下的多幅无标注图像。多幅无标注图像可以作为语义分割模型的半监督学习过程中的无标注训练数据,且能够表征多尺度场景。
本申请实施例在语义分割模型的训练过程中,分别利用教师模型和学生模型,确定多幅无标注图像对应的第一输出和第二输出;根据该第一输出和该第二输出,确定损失信息;以及,根据该损失信息,对该学生模型的第一参数进行更新。
本申请实施例的损失信息可以包括:第一损失信息和第二损失信息中的至少一种。其中,第一损失信息可以表征语义分割模型在语义表示类型方面的输出所表征的分割准确度维度的损失,本申请实施例根据第一损失信息,对该学生模型的第一参数进行更新,可以提高语义分割模型在多尺度场景下的分割准确度。第二损失信息可以表征语义分割模型在编码特征类型方面的输出所表征的编码特征维度的损失,本申请实施例根据第二损失信息,对该学生模型的第一参数进行更新,可以提高语义分割模型在多尺度场景下的编码特征的准确度。
本申请实施例在提高语义分割模型在多尺度场景下的分割准确度、和/或、提高语义分割模型在多尺度场景下的编码特征的准确度的情况下,能够提高多幅无标注图像所对应伪标签的准确度,能够提高伪标签与潜在真实标注之间的匹配度,进而能够提高语义分割模型的性能。
应用本申请实施例的技术方案,无论一幅图像的尺度信息发生怎样的变化,本申请实施例的语义分割模型可以针对这一幅图像的不同尺度信息,得到相似度更高的编码特征、和/或、匹配度更高的语义表示。因此,本申请实施例能够提高语义分割模型的鲁棒性等性能。
方法实施例一
本实施例对语义分割模型的训练过程进行说明。语义分割模型的训练过程可以包括:有标注数据的训练过程和无标注数据的训练过程。其中,可以首先执行有标注数据的训练,再执行无标注数据的训练。
在有标注数据的训练过程中,可以利用有标注数据,对学生模型进行训练。
学生模型的训练过程可以包括:前向传播和反向传播。
其中,前向传播(Forward Propagation)可以根据学生模型的第一参数,按照从输入层到输出层的顺序,依次计算最后得到输出信息(如分割结果)。其中,输出信息可用于确定误差信息。
反向传播(Backward Propagation)可以根据误差信息,按照从输出层到输入层的顺序,依次计算并对学生模型的第一参数进行更新。其中,反向传播过程中,可以确定学生模型的第一参数的梯度信息,并利用该梯度信息,对学生模型的第一参数进行更新。例如,反向传播可以依据微积分中的链式法则,沿着从输出层到输入层的顺序,依次计算并存储学生模型的处理层(包括输入层、中间层和输出层)的第一参数的梯度信息。
对于有标注数据,表征第i个输入图像,为与相应的像素级标注。假设学生模型针对输出的分割结果为,则可以根据和确定误差信息,并根据误差信息,更新学生模型的第一参数。本申请实施例可以利用交叉熵损失函数、对数损失函数、或,均方差损失函数等损失函数,确定误差信息。
学生模型的第一参数的更新方法可以包括:梯度下降法、牛顿法、拟牛顿法、或共轭梯度法等,可以理解,本申请实施例对于具体的更新方法不加以限制。
本申请实施例可以经由损失函数表征误差信息与第一参数之间的映射关系。在实际应用中,可以对第一参数求偏导数,把求得的偏导数以向量的形式写出来,偏导数对应的向量可以称为第一参数对应的梯度信息。可以根据梯度信息及步长信息,得到第一参数对应的更新量。
在采用梯度下降法的情况下,可以采用批量梯度下降法、随机梯度下降法、或者小批量梯度下降法等。在具体实现中,可以根据一个输入图像进行迭代;或者,可以根据多个输入图像进行迭代。上述迭代的收敛条件可以为:误差信息符合第一预设条件。第一预设条件可以为:误差信息与第一预设值之间的差值绝对值小于差值阈值;或者,迭代次数超过次数阈值等。换言之,在误差信息符合第一预设条件的情况下,可以结束迭代;此种情况下,可以得到学生模型的第一参数的第一目标值。
在有标注数据的训练过程中,在完成第一参数的一次更新后,可以根据更新后的第一参数,对教师模型的第二参数进行更新。第二参数的更新方法可以包括:指数加权平均方法等。
假设当前次的第一参数可以指第i次的第一参数,上一次的第二参数可以指第(i-1)次的第二参数,i可以指迭代次数的编号,i可以为正整数。具体而言,可以针对当前次的第一参数与上一次的第二参数,分别设置对应的第一权重和第二权重,并根据第一权重和第二权重,对当前次的第一参数与上一次的第二参数进行加权处理。其中,第一权重和第二权重可以在[0,1]之间,第一权重与第二权重的和可以为1,第二权重可以为接近1的数值,如0.99等。
第二参数的更新过程如公式(1)所示:
参考图2,示出了本申请一个实施例的语义分割模型的有标注数据的训练方法的示意图,其中,语义分割模型可以包括:学生模型和教师模型,学生模型可以包括:第一编码模块和第一解码模块,教师模型可以包括:第二编码模块和第二解码模块。教师模型和学生模型可以具有相同的网络结构,教师模型和学生模型可以具有不同的参数,例如,教师模型的参数可以为第二参数,学生模型的参数可以为第一参数。
本申请实施例可以利用有标注数据,对学生模型进行训练。其中,学生模型的前向传播可以得到分割结果,可以根据该分割结果与像素级别标注确定误差信息,并根据该误差信息进行学生模型的反向传播,由此可以在反向传播过程中对学生模型的第一参数进行更新。在完成第一参数的一次更新后,可以根据更新后的第一参数,对教师模型的第二参数进行更新。
在完成有标注数据的训练后,可以执行无标注数据的训练。
参照图3,示出了本申请一个实施例的语义分割模型的训练方法的步骤流程示意图,该语义分割模型具体可以包括:教师模型和学生模型,该语义分割模型的训练数据可以包括:与至少一幅无标注图像对应的在多种尺度信息下的多幅无标注图像。当然,这里所说的训练数据可以包括N(N可以为大于1的自然数)幅无标注图像,只是对于其中的每一幅无标注图像都有对应的具有多种尺度信息的多幅无标注图像;该方法具体可以包括如下步骤:
步骤301、分别利用教师模型和学生模型,确定多幅无标注图像对应的第一输出和第二输出;
步骤302、根据该第一输出和该第二输出,确定损失信息;
步骤303、根据该损失信息,对该学生模型的第一参数进行更新;
其中,该第一输出和第二输出对应的类型可以包括:编码特征类型、和/或、语义表示类型;在第一输出和第二输出对应编码特征类型的情况下,该第一输出包括:第一编码特征,该第二输出包括:第二编码特征;在第一输出和第二输出对应语义表示类型的情况下,该第一输出包括:第一语义表示,该第二输出包括:第二语义表示;
步骤302根据该第一输出和该第二输出,确定损失信息,可以包括:
步骤321、根据该第一语义表示,生成多幅无标注图像对应的伪标签;根据该第二语义表示和该伪标签,确定第一损失信息;和/或
步骤322、分别对第一编码特征和第二编码特征进行多种尺度信息的池化处理,以得到第一池化特征和第二池化特征;根据该第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征,确定第二损失信息。
本申请实施例可以将无标注数据集中的任一作为一幅无标注图像,并获取一幅无标注图像在多种尺度信息下的多幅无标注图像。尺度信息的种类可以为二,或者,尺度信息的种类可以大于二。例如,多种尺度信息可以包括:(0.75X、1.00X、1.25X);或者,多种尺度信息可以包括:(0.75X、1.00X);或者,多种尺度信息可以包括:(1.00X、1.25X);或者,多种尺度信息可以包括:(0.5X、0.75X、1.00X、1.25X、1.5X)。其中,X之前的数字可以表征相对于一幅无标注图像的缩放系数。本申请实施例可以根据该缩放系数,对一幅无标注图像进行缩放处理,以得到对应的无标注图像。可以理解,本领域技术人员可以根据实际应用需求,确定多种尺度信息,本申请实施例对于具体的多种尺度信息不加以限制。
在步骤301中,可以将多幅无标注图像分别输入教师模型和学生模型,由教师模型和学生模型分别输出多幅无标注图像对应的第一输出和第二输出。
需要说明的是,无标注数据的训练过程中,训练数据可以包括m(m可以为大于1的自然数)幅无标注图像,对于其中的每一幅无标注图像都有对应的具有N(N可以为大于1的自然数)种尺度信息的m幅无标注图像。N幅无标注图像对应的训练可以并行执行或串行执行,本申请实施例对于N幅无标注图像对应的具体训练顺序不加以限制。
图3所示方法可以用于无标注数据的训练。在无标注数据的训练过程中,学生模型的第一参数的初始值可以为经过有标注数据的训练得到,教师模型的第二参数的初始值可以为经过有标注数据的训练得到。
具体而言,可以在无标注数据的训练之前,进行有标注数据的训练,以得到第一参数的初始值和第二参数的初始值。在有标注数据的训练过程中,在误差信息符合第一预设条件的情况下,可以结束迭代;此种情况下,可以得到学生模型的第一参数的第一目标值;假设利用公式(1),根据第一参数的第一目标值,得到了教师模型的第二参数的第二目标值。则在无标注数据的训练过程中,第一参数的初始值可以为:第一参数的第一目标值,第二参数的初始值可以为:第二参数的第二目标值。
该第一输出和第二输出对应的类型可以包括:编码特征类型、和/或、语义表示类型。
其中,在第一输出和第二输出对应编码特征类型的情况下,该第一输出可以包括:第一编码特征,该第二输出可以包括:第二编码特征。该第一编码特征可由教师模型的编码模块输出,该第二编码特征可由学生模型的编码模块输出。
在第一输出和第二输出对应语义表示类型的情况下,该第一输出可以包括:第一语义表示,该第二输出可以包括:第二语义表示。该第一语义表示可由教师模型的解码模块输出,该第二语义表示可由学生模型的解码模块输出。
在步骤302中,确定的损失信息可以包括:第一损失信息和第二损失信息中的至少一种。其中,第一损失信息可以表征语义分割模型在语义表示类型方面的输出所表征的分割准确度维度的损失,本申请实施例根据第一损失信息,对该学生模型的第一参数进行更新,可以提高语义分割模型在多尺度场景下的分割准确度。第二损失信息可以表征语义分割模型在编码特征类型方面的输出所表征的编码特征维度的损失,本申请实施例根据第二损失信息,对该学生模型的第一参数进行更新,可以提高语义分割模型在多尺度场景下的编码特征的准确度。
第一损失信息可用于提高多尺度变化场景下语义表示的匹配度,而语义表示可以影响模型的分割准确度,因此第一损失信息可用于提高语义分割模型在多尺度场景下的分割准确度。
参照图4,示出了本申请一个实施例的语义分割模型的训练过程的示意图,其中,可以将(0.75X、1.00X、1.25X)等多尺度信息对应的多幅无标注图像分别输入教师模型和学生模型。
在教师模型的分支,可以经由教师模型输出第一语义表示,并根据该第一语义表示,生成多幅无标注图像对应的伪标签。在学生模型的分支,可以经由学生模型输出第二语义表示,并根据该第二语义表示和该伪标签,确定第一损失信息;进一步,可以根据第一损失信息,进行学生模型的反向传播。
对于同一个无标注的图像样本而言,其对应的多幅无标注图像可以记为:(1.25X、1.0X和0.75X )。学生模型输出的第二语义表示可以记为、和,教师模型输出的第一语义表示可以记为:、和,其中,C2可以表示需要分割的预设类别的数量。第一损失信息的目标是:使学生模型和教师模型针对多尺度信息得到一致性的语义表示。
上述步骤321生成多幅无标注图像对应的伪标签,可以进一步包括:对多幅无标注图像分别对应的第一语义表示进行尺度对齐处理,以得到多幅无标注图像分别对应的第一对齐语义表示;对多幅无标注图像分别对应的第一对齐语义表示进行融合处理,以得到融合语义表示;根据该融合语义表示,生成该多幅无标注图像对应的伪标签。
本申请实施例根据该第二语义表示和该伪标签,确定第一损失信息的过程,可以包括:
对多幅无标注图像分别对应的第二语义表示进行尺度对齐处理,以得到多幅无标注图像分别对应的第二对齐语义表示;根据第二对齐语义表示和所述伪标签,确定第一损失信息;或者
将所述伪标签转换为与所述第二语义表示相匹配的目标伪标签;根据第二语义表示和所述目标伪标签,确定第一损失信息
在步骤322中,可以首先利用池化算子,分别对第一编码特征和第二编码特征进行多种尺度信息的池化处理,以得到第一池化特征和第二池化特征。
第一编码特征和第二编码特征可分别由教师模型和学生模型的编码模块输出。教师模型和学生模型的编码模块输出的编码特征在感受野上可能存在信息差异。感受野可以指卷积神经网络的特征图上的像素点在输入图像上映射的区域大小。本申请实施例分别对第一编码特征和第二编码特征进行多种尺度信息的池化处理,可以针对特定尺度信息,捕获其对应的不同感受野的信息,因此能够提高不同感受野之间的信息的一致性。
本领域技术人员可以根据实际应用需求,确定多种尺度信息。例如,多种尺度信息可以包括:1×1、2×2、4×4和8×8中的至少两种,可以理解,本申请实施例对于池化处理对应的具体尺度信息不加以限制。
参照图5,示出了本申请一个实施例的语义分割模型的训练过程的示意图,其中,可以将(0.75X、1.00X、1.25X)等多尺度信息对应的多幅无标注图像分别输入教师模型和学生模型。
在教师模型的分支,可以经由教师模型的编码模块输出第一编码特征,并对该第一编码特征进行多种尺度信息的池化处理。在学生模型的分支,可以经由学生模型的编码模块输出第二编码特征,并对该第二编码特征进行多种尺度信息的池化处理。
假设对来自教师模型的第一编码特征M’进行四种尺度的池化(1×1、2×2、4×4和8×8),则、和 对应的第一池化特征可以为:、和;其中,第一池化特征可以包含:空间分辨率分别为(1×1、2×2、4×4和8×8)的池化特征。
假设对来自学生模型的第二编码特征M进行四种尺度的池化(1×1、2×2、4×4和8×8),则、和 对应的第二池化特征可以为、和;其中第二池化特征可以包含:空间分辨率分别为(1×1、2×2、4×4和8×8)的池化特征。第二池化特征可以记为、和。
本申请实施例可以根据该第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征,确定第二损失信息。本申请实施例可以根据池化融合特征与第二池化特征之间的距离度量方法,确定第二损失信息。距离度量方法可以包括:曼哈顿距离、或者欧式距离等。公式(5)为确定第二损失信息的过程的示例:
图4所示的训练过程可以对应技术方案A,技术方案A可以根据第一损失信息,对学生模型所包括的第一解码模块和第一编码模块进行反向传播,以更新第一解码模块和第一编码模块的第一参数。在完成第一参数的一次更新后,可以参照公式(1),根据更新后的第一参数,对教师模型(包括第二解码模块和第二编码模块)的第二参数进行更新。
图5所示的训练过程可以技术方案B,技术方案B可以根据第二损失信息,对学生模型所包括的第一编码模块进行反向传播,以更新第一编码模块的第一参数。在完成一次第一编码模块的第一参数的更新后,可以参照公式(1),根据更新后的第一参数,对教师模型的第二编码模块的第二参数进行更新。
参照图6,示出了本申请一个实施例的语义分割模型的训练过程的示意图,其中,可以同时根据第一损失信息和第二损失信息,对学生模型进行反向传播。具体而言,第一解码模块的第一参数的更新可以根据第一损失信息;第一编码模块的第一参数的更新可以同时根据第一损失信息和第二损失信息。在完成一次第一参数的更新后,可以参照公式(1),根据更新后的第一参数,对教师模型(包括第二解码模块和第二编码模块)的第二参数进行更新。
图6所示的训练过程可以技术方案C,技术方案C可以同时根据第一损失信息和第二损失信息,对学生模型进行反向传播。
技术方案A、技术方案B和技术方案C的一个区别在于,所采用的损失信息不同:技术方案A采用了第一损失信息,技术方案B采用了第二损失信息,技术方案C采用了第一损失信息和第二损失信息。
其中,损失信息的反向传播范围存在如下不同:第一损失信息的反向传播范围为:第一解码模块和第一编码模块;第二损失信息的反向传播范围为:第一编码模块。
在实际应用中,本领域技术人员可以根据实际应用需求,采用技术方案A、技术方案B和技术方案C中的任一。
学生模型的第一参数的更新方法可以包括:梯度下降法、牛顿法、拟牛顿法、共轭梯度法等,可以理解,本申请实施例对于具体的更新方法不加以限制。
在图3所示无标注数据的训练过程中,本申请实施例可以经由损失函数表征第一损失信息或第二损失信息与第一参数之间的映射关系。在实际应用中,可以对第一参数求偏导数,把求得的偏导数以向量的形式写出来,偏导数对应的向量可以称为第一参数对应的梯度信息。可以根据梯度信息及步长信息,得到第一参数对应的更新量。
在采用梯度下降法的情况下,可以采用批量梯度下降法、随机梯度下降法、或者小批量梯度下降法等。在具体实现中,可以根据一个输入图像进行迭代;或者,可以根据多个输入图像进行迭代。上述迭代的收敛条件可以为:第一损失信息或第二损失信息符合第二预设条件。第二预设条件可以为:第一损失信息或第二损失信息与第二预设值之间的差值绝对值小于差值阈值;或者,迭代次数超过次数阈值等。换言之,在第一损失信息或第二损失信息符合第二预设条件的情况下,可以结束迭代;此种情况下,可以得到学生模型的第一参数的第三目标值,也即,根据无标注数据完成对学生模型的训练,第三目标值可用于后续的语义分割过程。参照无标注数据的训练过程,本申请实施例可以根据更新后的第一参数,对教师模型的第二参数进行更新,在根据无标注数据完成对教师模型的训练的情况下,教师模型的第二参数可以为第四目标值,第四目标值可用于后续的语义分割过程。
综上,本申请实施例的语义分割模型的训练方法,在语义分割模型的训练过程中,分别利用教师模型和学生模型,确定多幅无标注图像对应的第一输出和第二输出;根据该第一输出和该第二输出,确定损失信息;以及,根据该损失信息,对该学生模型的第一参数进行更新。
本申请实施例的损失信息可以包括:第一损失信息和第二损失信息中的至少一种。其中,第一损失信息可以表征语义分割模型在语义表示类型方面的输出所表征的分割准确度维度的损失,本申请实施例根据第一损失信息,对该学生模型的第一参数进行更新,可以提高语义分割模型在多尺度场景下的分割准确度。第二损失信息可以表征语义分割模型在编码特征类型方面的输出所表征的编码特征维度的损失,本申请实施例根据第二损失信息,对该学生模型的第一参数进行更新,可以提高语义分割模型在多尺度场景下的编码特征的准确度。
本申请实施例在提高语义分割模型在多尺度场景下的分割准确度、和/或、提高语义分割模型在多尺度场景下的编码特征的准确度的情况下,能够提高多幅无标注图像所对应伪标签的准确度,能够提高伪标签与潜在真实标注之间的匹配度,进而能够提高语义分割模型的性能。
方法实施例二
本实施例对语义分割模型的语义分割过程进行说明,语义分割模型可以对待处理图像进行语义分割,以得到对应的分割结果。
参考图7,示出了本申请一个实施例的语义分割方法的步骤流程示意图,该方法具体可以包括如下步骤:
步骤701、接收待处理图像;
步骤702、利用语义分割模型的教师模型或学生模型,对该待处理图像进行语义分割,以得到对应的分割结果;
其中,该语义分割模型的训练数据可以包括:与至少一幅无标注图像对应的在多种尺度信息下的多幅无标注图像;该语义分割模型的训练过程可以包括:分别利用教师模型和学生模型,确定该多幅无标注图像对应的第一输出和第二输出;根据该第一输出和该第二输出,确定损失信息;根据该损失信息,对该学生模型的第一参数进行更新;
其中,该第一输出和第二输出对应的类型可以包括:编码特征类型、和/或、语义表示类型;在第一输出和第二输出对应编码特征类型的情况下,该第一输出包括:第一编码特征,该第二输出包括:第二编码特征;在第一输出和第二输出对应语义表示类型的情况下,该第一输出包括:第一语义表示,该第二输出包括:第二语义表示;
该损失信息可以包括:第一损失信息、和/或、第二损失信息;该第二损失信息可以为根据该第二语义表示和多幅无标注图像对应的伪标签得到,该伪标签可以为根据该第一语义表示得到;该第二损失信息为根据第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征得到;该第一池化特征可以为对第一编码特征进行多种尺度信息的池化处理得到;该第二池化特征为对第二编码特征进行多种尺度信息的池化处理得到。
在步骤702中,语义分割模型可以按照图1所示的流程,对待处理图像进行语义分割。具体而言,语义分割模型中的编码模块可以提取待处理图像的编码特征。语义分割模型中的解码模块可以根据编码特征,确定待处理图像对应的分割结果。
本申请实施例可以利用语义分割模型的教师模型或学生模型,对待处理图像进行语义分割。其中,学生模型的第一参数是在迭代的收敛条件下得到的,利用学生模型进行语义分割,能够提高语义分割的性能。教师模型的第二参数是对第一参数进行指数加权平均得到的,指数加权平均能够提高第二参数的平滑性,故教师模型能够提高语义分割的泛化能力。
综上,本申请实施例的语义分割方法,所采用的语义分割模型是根据损失信息,对该学生模型的第一参数进行更新。其中的损失信息可以包括:第一损失信息和第二损失信息中的至少一种。其中,第一损失信息可以表征语义分割模型在语义表示类型方面的输出所表征的分割准确度维度的损失,本申请实施例根据第一损失信息,对该学生模型的第一参数进行更新,可以提高语义分割模型在多尺度场景下的分割准确度。第二损失信息可以表征语义分割模型在编码特征类型方面的输出所表征的编码特征维度的损失,本申请实施例根据第二损失信息,对该学生模型的第一参数进行更新,可以提高语义分割模型在多尺度场景下的编码特征的准确度。
本申请实施例在提高语义分割模型在多尺度场景下的分割准确度、和/或、提高语义分割模型在多尺度场景下的编码特征的准确度的情况下,能够提高多幅无标注图像所对应伪标签的准确度,能够提高伪标签与潜在真实标注之间的匹配度,进而能够提高语义分割模型的性能,进而能够提高分割结果的准确度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
在上述实施例的基础上,本实施例还提供了一种语义分割模型的训练装置,参照图8,该语义分割模型可以包括:教师模型和学生模型,该语义分割模型的训练数据包括:与至少一幅无标注图像对应的在多种尺度信息下的多幅无标注图像;该装置具体可以包括:模型处理模块801、损失处理模块802和第一参数更新模块803。
其中,模型处理模块801,用于分别利用教师模型和学生模型,确定该多幅无标注图像对应的第一输出和第二输出;
损失处理模块802,用于根据该第一输出和该第二输出,确定损失信息;
第一参数更新模块803,用于根据该损失信息,对该学生模型的第一参数进行更新;
其中,该第一输出和第二输出对应的类型可以包括:编码特征类型、和/或、语义表示类型;在第一输出和第二输出对应编码特征类型的情况下,该第一输出可以包括:第一编码特征,该第二输出可以包括:第二编码特征;在第一输出和第二输出对应语义表示类型的情况下,该第一输出可以包括:第一语义表示,该第二输出可以包括:第二语义表示;
该损失处理模块802可以包括:
第一损失处理模块821,用于根据该第一语义表示,生成该多幅无标注图像对应的伪标签;根据该第二语义表示和该伪标签,确定第一损失信息;和/或
第二损失处理模块822,用于分别对第一编码特征和第二编码特征进行多种尺度信息的池化处理,以得到第一池化特征和第二池化特征;根据该第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征,确定第二损失信息。
可选地,第一损失处理模块821具体可以包括:
第一尺度对齐处理模块,用于对多幅无标注图像分别对应的第一语义表示进行尺度对齐处理,以得到多幅无标注图像分别对应的第一对齐语义表示;
第一融合处理模块,用于对多幅无标注图像分别对应的第一对齐语义表示进行融合处理,以得到融合语义表示;
伪标签生成模块,用于根据所述融合语义表示,生成所述多幅无标注图像对应的伪标签。
可选地,第一损失处理模块821具体可以包括:
第一损失确定模块,用于分别对应的第二对齐语义表示;根据第二对齐语义表示和所述伪标签,确定第一损失信息;或者
第二损失确定模块,用于将所述伪标签转换为与所述第二语义表示相匹配的目标伪标签;根据第二语义表示和所述目标伪标签,确定第一损失信息。
可选地,池化融合特征的确定过程包括:分别对单种尺度信息对应的第一池化特征进行融合处理,以得到多种尺度信息分别对应的池化融合特征。
可选地,该装置还可以包括:
第二参数更新模块,用于根据更新后的第一参数,对教师模型的第二参数进行更新。
在上述实施例的基础上,本实施例还提供了一种语义分割装置,参照图9,该装置可以包括:
接收模块901,用于接收待处理图像;
语义分割模块902,用于利用语义分割模型的教师模型或学生模型,对该待处理图像进行语义分割,以得到对应的分割结果;
其中,该语义分割模型的训练数据包括:与至少一幅无标注图像对应的在多种尺度信息下的多幅无标注图像;该语义分割模型的训练过程包括:分别利用教师模型和学生模型,确定该多幅无标注图像对应的第一输出和第二输出;根据该第一输出和该第二输出,确定损失信息;根据该损失信息,对该学生模型的第一参数进行更新;
其中,该第一输出和第二输出对应的类型包括:编码特征类型、和/或、语义表示类型;在第一输出和第二输出对应编码特征类型的情况下,该第一输出包括:第一编码特征,该第二输出包括:第二编码特征;在第一输出和第二输出对应语义表示类型的情况下,该第一输出包括:第一语义表示,该第二输出包括:第二语义表示;
该损失信息可以包括:第一损失信息、和/或、第二损失信息;该第二损失信息为根据该第二语义表示和多幅无标注图像对应的伪标签得到,该伪标签可以为根据该第一语义表示得到;该第二损失信息可以为根据第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征得到;该第一池化特征可以为对第一编码特征进行多种尺度信息的池化处理得到;该第二池化特征可以为对第二编码特征进行多种尺度信息的池化处理得到。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中,所述电子设备包括终端设备、服务器(集群)等各类型的设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括:终端设备、服务器(集群)等电子设备。图10示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1100 。
对于一个实施例,图10示出了示例性装置1100,该装置具有一个或多个处理器1102、被耦合到(一个或多个)处理器1102中的至少一个的控制模块(芯片组)1104、被耦合到控制模块1104的存储器1106、被耦合到控制模块1104的非易失性存储器(NVM)/存储设备1108、被耦合到控制模块1104的一个或多个输入/输出设备1110,以及被耦合到控制模块1104的网络接口1112。
处理器1102可包括一个或多个单核或多核处理器,处理器1102可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1100 能够作为本申请实施例中所述终端设备、服务器(集群)等设备。
在一些实施例中,装置1100 可包括具有指令1114的一个或多个计算机可读介质(例如,存储器1106或NVM/ 存储设备1108) 以及与该一个或多个计算机可读介质相合并被配置为执行指令1114以实现模块从而执行本公开中所述的动作的一个或多个处理器1102。
对于一个实施例,控制模块1104可包括任意适当的接口控制器,以向(一个或多个)处理器1102中的至少一个和/或与控制模块1104通信的任意适当的设备或组件提供任意适当的接口。
控制模块1104可包括存储器控制器模块,以向存储器1106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器1106可被用于例如为装置1100加载和存储数据和/或指令1114。对于一个实施例,存储器1106可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器1106可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM) 。
对于一个实施例,控制模块1104可包括一个或多个输入/输出控制器,以向NVM/存储设备1108及(一个或多个)输入/输出设备1110 提供接口。
例如,NVM/存储设备1108可被用于存储数据和/或指令1114。NVM/存储设备1108可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD) 、一个或多个光盘(CD) 驱动器和/或一个或多个数字通用光盘(DVD) 驱动器)。
NVM/存储设备1108可包括在物理上作为装置1100 被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如, NVM/存储设备1108可通过网络经由(一个或多个)输入/输出设备1110 进行访问。
(一个或多个)输入/输出设备1110 可为装置1100 提供接口以与任意其他适当的设备通信,输入/输出设备1110可以包括通信组件、音频组件、传感器组件等。网络接口1112可为装置1100 提供接口以通过一个或多个网络通信,装置1100 可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器(例如,存储器控制器模块) 的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP) 。对于一个实施例, (一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例, (一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC) 。
在各个实施例中,装置1100可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1100 可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1100包括一个或多个摄像机、键盘、液晶显示器(LCD) 屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC) 和扬声器。
其中,检测装置中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或NVM/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请实施例所提供的一种语义分割模块的训练方法和装置、一种语义分割方法、一种电子设备和一种机器可读介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种语义分割模型的训练方法,其特征在于,所述语义分割模型包括:教师模型和学生模型,所述语义分割模型的训练数据包括:与至少一幅无标注图像对应的在多种尺度信息下的多幅无标注图像;所述方法包括:
分别利用教师模型和学生模型,确定所述多幅无标注图像对应的第一输出和第二输出;
根据所述第一输出和所述第二输出,确定损失信息;
根据所述损失信息,对所述学生模型的第一参数进行更新;
其中,所述第一输出和第二输出对应的类型包括:编码特征类型、和/或、语义表示类型;在第一输出和第二输出对应编码特征类型的情况下,所述第一输出包括:第一编码特征,所述第二输出包括:第二编码特征;在第一输出和第二输出对应语义表示类型的情况下,所述第一输出包括:第一语义表示,所述第二输出包括:第二语义表示;
所述根据所述第一输出和所述第二输出,确定损失信息,包括:
根据所述第一语义表示,生成所述多幅无标注图像对应的伪标签;根据所述第二语义表示和所述伪标签,确定第一损失信息;和/或
分别对第一编码特征和第二编码特征进行多种尺度信息的池化处理,以得到第一池化特征和第二池化特征;根据所述第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征,确定第二损失信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一语义表示,生成所述多幅无标注图像对应的伪标签,包括:
对多幅无标注图像分别对应的第一语义表示进行尺度对齐处理,以得到多幅无标注图像分别对应的第一对齐语义表示;
对多幅无标注图像分别对应的第一对齐语义表示进行融合处理,以得到融合语义表示;
根据所述融合语义表示,生成所述多幅无标注图像对应的伪标签。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第二语义表示和所述伪标签,确定第一损失信息,包括:
对多幅无标注图像分别对应的第二语义表示进行尺度对齐处理,以得到多幅无标注图像分别对应的第二对齐语义表示;根据第二对齐语义表示和所述伪标签,确定第一损失信息;或者
将所述伪标签转换为与所述第二语义表示相匹配的目标伪标签;根据第二语义表示和所述目标伪标签,确定第一损失信息。
4.根据权利要求1所述的方法,其特征在于,所述池化融合特征的确定过程包括:分别对单种尺度信息对应的第一池化特征进行融合处理,以得到多种尺度信息分别对应的池化融合特征。
5.根据权利要求1至4中任一所述的方法,其特征在于,所述方法还包括:
根据更新后的第一参数,对教师模型的第二参数进行更新。
6.一种语义分割方法,其特征在于,所述方法包括:
接收待处理图像;
利用语义分割模型的教师模型或学生模型,对所述待处理图像进行语义分割,以得到对应的分割结果;
其中,所述语义分割模型的训练数据包括:与至少一幅无标注图像对应的在多种尺度信息下的多幅无标注图像;所述语义分割模型的训练过程包括:分别利用教师模型和学生模型,确定所述多幅无标注图像对应的第一输出和第二输出;根据所述第一输出和所述第二输出,确定损失信息;根据所述损失信息,对所述学生模型的第一参数进行更新;
其中,所述第一输出和第二输出对应的类型包括:编码特征类型、和/或、语义表示类型;在第一输出和第二输出对应编码特征类型的情况下,所述第一输出包括:第一编码特征,所述第二输出包括:第二编码特征;在第一输出和第二输出对应语义表示类型的情况下,所述第一输出包括:第一语义表示,所述第二输出包括:第二语义表示;
所述损失信息,包括:第一损失信息、和/或、第二损失信息;所述第二损失信息为根据所述第二语义表示和多幅无标注图像对应的伪标签得到,所述伪标签为根据所述第一语义表示得到;所述第二损失信息为根据第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征得到;所述第一池化特征为对第一编码特征进行多种尺度信息的池化处理得到;所述第二池化特征为对第二编码特征进行多种尺度信息的池化处理得到。
7.一种语义分割模型的训练装置,其特征在于,所述语义分割模型包括:教师模型和学生模型,所述语义分割模型的训练数据包括:与至少一幅无标注图像对应的在多种尺度信息下的多幅无标注图像;所述装置包括:
模型处理模块,用于分别利用教师模型和学生模型,确定所述多幅无标注图像对应的第一输出和第二输出;
损失处理模块,用于根据所述第一输出和所述第二输出,确定损失信息;
第一参数更新模块,用于根据所述损失信息,对所述学生模型的第一参数进行更新;
其中,所述第一输出和第二输出对应的类型包括:编码特征类型、和/或、语义表示类型;在第一输出和第二输出对应编码特征类型的情况下,所述第一输出包括:第一编码特征,所述第二输出包括:第二编码特征;在第一输出和第二输出对应语义表示类型的情况下,所述第一输出包括:第一语义表示,所述第二输出包括:第二语义表示;
所述损失处理模块包括:
第一损失处理模块,用于根据所述第一语义表示,生成所述多幅无标注图像对应的伪标签;根据所述第二语义表示和所述伪标签,确定第一损失信息;和/或
第二损失处理模块,用于分别对第一编码特征和第二编码特征进行多种尺度信息的池化处理,以得到第一池化特征和第二池化特征;根据所述第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征,确定第二损失信息。
8.一种语义分割装置,其特征在于,所述装置包括:
接收模块,用于接收待处理图像;
语义分割模块,用于利用语义分割模型的教师模型或学生模型,对所述待处理图像进行语义分割,以得到对应的分割结果;
其中,所述语义分割模型的训练数据包括:与至少一幅无标注图像对应的在多种尺度信息下的多幅无标注图像;所述语义分割模型的训练过程包括:分别利用教师模型和学生模型,确定所述多幅无标注图像对应的第一输出和第二输出;根据所述第一输出和所述第二输出,确定损失信息;根据所述损失信息,对所述学生模型的第一参数进行更新;
其中,所述第一输出和第二输出对应的类型包括:编码特征类型、和/或、语义表示类型;在第一输出和第二输出对应编码特征类型的情况下,所述第一输出包括:第一编码特征,所述第二输出包括:第二编码特征;在第一输出和第二输出对应语义表示类型的情况下,所述第一输出包括:第一语义表示,所述第二输出包括:第二语义表示;
所述损失信息,包括:第一损失信息、和/或、第二损失信息;所述第二损失信息为根据所述第二语义表示和多幅无标注图像对应的伪标签得到,所述伪标签为根据所述第一语义表示得到;所述第二损失信息为根据第一池化特征在尺度信息条件下的池化融合特征、以及第二池化特征得到;所述第一池化特征为对第一编码特征进行多种尺度信息的池化处理得到;所述第二池化特征为对第二编码特征进行多种尺度信息的池化处理得到。
9.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-6中任一项所述的方法。
10.一种机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210620456.2A CN114708436B (zh) | 2022-06-02 | 2022-06-02 | 语义分割模型的训练方法、语义分割方法、装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210620456.2A CN114708436B (zh) | 2022-06-02 | 2022-06-02 | 语义分割模型的训练方法、语义分割方法、装置和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114708436A true CN114708436A (zh) | 2022-07-05 |
CN114708436B CN114708436B (zh) | 2022-09-02 |
Family
ID=82177947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210620456.2A Active CN114708436B (zh) | 2022-06-02 | 2022-06-02 | 语义分割模型的训练方法、语义分割方法、装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708436B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116596916A (zh) * | 2023-06-09 | 2023-08-15 | 北京百度网讯科技有限公司 | 缺陷检测模型的训练和缺陷检测方法及其装置 |
CN118015316A (zh) * | 2024-04-07 | 2024-05-10 | 之江实验室 | 一种图像匹配模型训练的方法、装置、存储介质、设备 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109087303A (zh) * | 2018-08-15 | 2018-12-25 | 中山大学 | 基于迁移学习提升语义分割模型效果的框架 |
CN111080645A (zh) * | 2019-11-12 | 2020-04-28 | 中国矿业大学 | 基于生成式对抗网络的遥感图像半监督语义分割方法 |
CN111489365A (zh) * | 2020-04-10 | 2020-08-04 | 上海商汤临港智能科技有限公司 | 神经网络的训练方法、图像处理方法及装置 |
CN113343775A (zh) * | 2021-05-13 | 2021-09-03 | 武汉大学 | 一种用于遥感影像地表覆盖分类的深度学习泛化方法 |
CN113496512A (zh) * | 2021-09-06 | 2021-10-12 | 北京字节跳动网络技术有限公司 | 用于内窥镜的组织腔体定位方法、装置、介质及设备 |
US20210329267A1 (en) * | 2020-04-17 | 2021-10-21 | Qualcomm Incorporated | Parallelized rate-distortion optimized quantization using deep learning |
CN113569852A (zh) * | 2021-06-09 | 2021-10-29 | 中国科学院自动化研究所 | 语义分割模型的训练方法、装置、电子设备及存储介质 |
CN113763406A (zh) * | 2021-07-28 | 2021-12-07 | 华中师范大学 | 基于半监督学习的婴儿脑mri分割方法 |
CN113850012A (zh) * | 2021-06-11 | 2021-12-28 | 腾讯科技(深圳)有限公司 | 数据处理模型生成方法、装置、介质及电子设备 |
CN113936140A (zh) * | 2021-11-18 | 2022-01-14 | 上海电力大学 | 一种基于增量式学习的对抗样本攻击模型的评估方法 |
CN113989585A (zh) * | 2021-10-13 | 2022-01-28 | 北京科技大学 | 一种基于多特征融合语义分割的中厚板表面缺陷检测方法 |
CN114004973A (zh) * | 2021-12-30 | 2022-02-01 | 深圳比特微电子科技有限公司 | 用于图像语义分割的解码器及其实现方法 |
CN114120319A (zh) * | 2021-10-09 | 2022-03-01 | 苏州大学 | 一种基于多层次知识蒸馏的连续图像语义分割方法 |
CN114140390A (zh) * | 2021-11-02 | 2022-03-04 | 广州大学 | 一种基于半监督语义分割的裂纹检测方法及装置 |
CN114255237A (zh) * | 2021-11-12 | 2022-03-29 | 深圳大学 | 基于半监督学习的图像分割模型的训练方法及分割方法 |
CN114283285A (zh) * | 2021-11-17 | 2022-04-05 | 华能盐城大丰新能源发电有限责任公司 | 交叉一致性自训练遥感图像语义分割网络训练方法及装置 |
CN114283151A (zh) * | 2021-08-16 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 用于医学图像的图像处理方法、装置、设备及存储介质 |
-
2022
- 2022-06-02 CN CN202210620456.2A patent/CN114708436B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109087303A (zh) * | 2018-08-15 | 2018-12-25 | 中山大学 | 基于迁移学习提升语义分割模型效果的框架 |
CN111080645A (zh) * | 2019-11-12 | 2020-04-28 | 中国矿业大学 | 基于生成式对抗网络的遥感图像半监督语义分割方法 |
CN111489365A (zh) * | 2020-04-10 | 2020-08-04 | 上海商汤临港智能科技有限公司 | 神经网络的训练方法、图像处理方法及装置 |
US20210329267A1 (en) * | 2020-04-17 | 2021-10-21 | Qualcomm Incorporated | Parallelized rate-distortion optimized quantization using deep learning |
CN113343775A (zh) * | 2021-05-13 | 2021-09-03 | 武汉大学 | 一种用于遥感影像地表覆盖分类的深度学习泛化方法 |
CN113569852A (zh) * | 2021-06-09 | 2021-10-29 | 中国科学院自动化研究所 | 语义分割模型的训练方法、装置、电子设备及存储介质 |
CN113850012A (zh) * | 2021-06-11 | 2021-12-28 | 腾讯科技(深圳)有限公司 | 数据处理模型生成方法、装置、介质及电子设备 |
CN113763406A (zh) * | 2021-07-28 | 2021-12-07 | 华中师范大学 | 基于半监督学习的婴儿脑mri分割方法 |
CN114283151A (zh) * | 2021-08-16 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 用于医学图像的图像处理方法、装置、设备及存储介质 |
CN113496512A (zh) * | 2021-09-06 | 2021-10-12 | 北京字节跳动网络技术有限公司 | 用于内窥镜的组织腔体定位方法、装置、介质及设备 |
CN114120319A (zh) * | 2021-10-09 | 2022-03-01 | 苏州大学 | 一种基于多层次知识蒸馏的连续图像语义分割方法 |
CN113989585A (zh) * | 2021-10-13 | 2022-01-28 | 北京科技大学 | 一种基于多特征融合语义分割的中厚板表面缺陷检测方法 |
CN114140390A (zh) * | 2021-11-02 | 2022-03-04 | 广州大学 | 一种基于半监督语义分割的裂纹检测方法及装置 |
CN114255237A (zh) * | 2021-11-12 | 2022-03-29 | 深圳大学 | 基于半监督学习的图像分割模型的训练方法及分割方法 |
CN114283285A (zh) * | 2021-11-17 | 2022-04-05 | 华能盐城大丰新能源发电有限责任公司 | 交叉一致性自训练遥感图像语义分割网络训练方法及装置 |
CN113936140A (zh) * | 2021-11-18 | 2022-01-14 | 上海电力大学 | 一种基于增量式学习的对抗样本攻击模型的评估方法 |
CN114004973A (zh) * | 2021-12-30 | 2022-02-01 | 深圳比特微电子科技有限公司 | 用于图像语义分割的解码器及其实现方法 |
Non-Patent Citations (3)
Title |
---|
JIAFENG XIE 等: "Improving fast segmentation with teacher-student learning", 《ARXIV在线公开:HTTPS://ARXIV.ORG/ABS/1810.08476》 * |
PEI HE 等: "MANet: Multi-Scale Aware-Relation Network for Semantic Segmentation in Aerial Scenes", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》 * |
王逸尘: "基于深度学习的零样本语义分割研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116596916A (zh) * | 2023-06-09 | 2023-08-15 | 北京百度网讯科技有限公司 | 缺陷检测模型的训练和缺陷检测方法及其装置 |
CN118015316A (zh) * | 2024-04-07 | 2024-05-10 | 之江实验室 | 一种图像匹配模型训练的方法、装置、存储介质、设备 |
CN118015316B (zh) * | 2024-04-07 | 2024-06-11 | 之江实验室 | 一种图像匹配模型训练的方法、装置、存储介质、设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114708436B (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN114708436B (zh) | 语义分割模型的训练方法、语义分割方法、装置和介质 | |
AU2019200270A1 (en) | Concept mask: large-scale segmentation from semantic concepts | |
CN111210446B (zh) | 一种视频目标分割方法、装置和设备 | |
CN110910422A (zh) | 目标跟踪方法、装置、电子设备和可读存储介质 | |
CN114358203B (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
US20230042221A1 (en) | Modifying digital images utilizing a language guided image editing model | |
CN112597918B (zh) | 文本检测方法及装置、电子设备、存储介质 | |
CN113869138A (zh) | 多尺度目标检测方法、装置及计算机可读存储介质 | |
CN109902588B (zh) | 一种手势识别方法、装置及计算机可读存储介质 | |
CN114283352A (zh) | 一种视频语义分割装置、训练方法以及视频语义分割方法 | |
TWI803243B (zh) | 圖像擴增方法、電腦設備及儲存介質 | |
GB2579262A (en) | Space-time memory network for locating target object in video content | |
CN114241411B (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 | |
US11570318B2 (en) | Performing global image editing using editing operations determined from natural language requests | |
CN116665110B (zh) | 一种视频动作识别的方法及设备 | |
CN111325068B (zh) | 基于卷积神经网络的视频描述方法及装置 | |
Qiao et al. | Two-Stream Convolutional Neural Network for Video Action Recognition. | |
CN115601235A (zh) | 一种图像超分辨率网络训练方法、装置、设备及存储介质 | |
CN115049546A (zh) | 样本数据处理方法、装置、电子设备及存储介质 | |
CN114819149B (zh) | 基于变换神经网络的数据处理方法、装置和介质 | |
US20240331236A1 (en) | Utilizing cross-attention guidance to preserve content in diffusion-based image modifications | |
CN113436199B (zh) | 半监督视频目标分割方法及装置 | |
US20240338799A1 (en) | Utilizing regularized forward diffusion for improved inversion of digital images | |
US20240296607A1 (en) | Utilizing machine learning models to generate image editing directions in a latent space |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |