CN114943840A - 机器学习模型的训练方法、图像的处理方法和电子设备 - Google Patents

机器学习模型的训练方法、图像的处理方法和电子设备 Download PDF

Info

Publication number
CN114943840A
CN114943840A CN202210679311.XA CN202210679311A CN114943840A CN 114943840 A CN114943840 A CN 114943840A CN 202210679311 A CN202210679311 A CN 202210679311A CN 114943840 A CN114943840 A CN 114943840A
Authority
CN
China
Prior art keywords
determining
pixel
machine learning
learning model
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210679311.XA
Other languages
English (en)
Inventor
詹忆冰
汝理想
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202210679311.XA priority Critical patent/CN114943840A/zh
Publication of CN114943840A publication Critical patent/CN114943840A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种机器学习模型的训练方法、图像的处理方法和电子设备,涉及计算机技术领域。该训练方法,包括:利用机器学习模型的全局注意力模块,确定样本图像的注意力特征图;根据注意力特征图,利用机器学习模型的分割层,对样本图像进行语义分割,根据分割结果确定分割损失函数;根据分割损失函数,训练机器学习模型。本公开的技术方案能够提高机器学习模型的语义分割精度。

Description

机器学习模型的训练方法、图像的处理方法和电子设备
技术领域
本公开涉及计算机技术领域,特别涉及一种机器学习模型的训练方法、图像的处理方法、机器学习模型的训练装置、图像的处理装置、电子设备和非易失性计算机可读存储介质。
背景技术
图像语义分割是计算机视觉领域的基本任务之一,其目标是对一张图像的每个像素分配一个语义标签。语义分割方法可以广泛的应用到自动驾驶、视频监控等领域中,帮助机器识别并理解场景中的具体目标。
语义分割方法需要训练集中的图片包含逐像素标注信息,即图像中的每个像素都有自己的语义标签。这种标注信息的获取是非常昂贵和耗费人力的。因此,当前有工作开发基于弱标注信息的语义分割方法。
在相关技术中,基于图像级标签的弱监督分割方法训练集中的图像只包含图像级标签,仅提供该图像属于哪个类别。该类弱监督分割方法的核心思想在于根据图像级的标注信息生成高置信度像素级伪标签,作为训练分割的标注信息。基于图像级标签的弱监督分割方法可以分为多阶段与单阶段(端到端)的两类。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:语义分割的精度低。
鉴于此,本公开提出了一种机器学习模型的训练技术方案,能够提高机器学习模型的语义分割精度。
根据本公开的一些实施例,提供了一种机器学习模型的训练方法,包括:利用机器学习模型的全局注意力模块,确定样本图像的注意力特征图;根据注意力特征图,利用机器学习模型的分割层,对样本图像进行语义分割,根据分割结果确定分割损失函数;根据分割损失函数,训练机器学习模型。
在一些实施例中,训练方法还包括:利用全局注意力模块,确定样本图像的注意力矩阵;根据注意力矩阵,利用机器学习模型的线性层,对样本图像中像素之间的语义亲和关系进行预测,根据预测结果确定语义亲和关系损失函数;训练机器学习模型包括:根据分割损失函数和语义亲和关系损失函数,训练机器学习模型。
在一些实施例中,根据预测结果确定语义亲和关系损失函数包括:根据样本图像中不同像素之间的差异,确定不同像素之间的差异参数;根据注意力特征图,利用机器学习模型的分类层,生成第一类别激活图;利用差异参数,对第一类别激活图进行处理,生成第二类别激活图;根据第二类别激活图,确定各像素的语义亲和关系标签;根据语义亲和关系标签和预测结果,确定语义亲和关系损失函数。
在一些实施例中,确定不同像素之间的差异参数包括:确定不同像素中的第一像素与第二像素之间的第一差异;确定第一像素与其多个相邻像素之间的第二差异,相邻像素从以第一像素为中心预设半径范围内的像素中确定;根据第一差异以及第二差异之和,确定第一像素与第二像素之间的差异参数。
在一些实施例中,不同像素之间的差异包括颜色差异和位置差异,确定不同像素之间的差异参数包括:根据颜色差异,确定不同像素之间的颜色差异参数;根据位置差异,确定不同像素之间的位置差异参数;根据颜色差异参数和位置差异参数的加权和,确定差异参数。
在一些实施例中,根据第二类别激活图,确定各像素的语义亲和关系标签包括:根据预设的阈值,将第二类别激活图划分为多个区域;为不同区域内的像素,设置不同的第一像素级伪标签;根据第一像素级伪标签,确定语义亲和关系标签。
在一些实施例中,多个区域包括可忽略区域,根据第一像素级伪标签,确定语义亲和关系标签包括:在不同像素中的第一像素和第二像素具有相同的第一像素级伪标签,且第一像素和第二像素均不位于可忽略区域的情况下,语义亲和关系标签为第一标签;在第一像素和第二像素具有不同的第一像素级伪标签,且第一像素和第二像素均不位于可忽略区域的情况下,语义亲和关系标签为第二标签,第一标签的数值大于第二标签的数值;在第一像素和第二像素中的至少一个位于可忽略区域的情况下,语义亲和关系标签为第三标签,第三标签的数值大于第一标签的数值。
在一些实施例中,确定语义亲和关系损失函数包括:根据注意力矩阵及其转置矩阵,确定语义亲和矩阵,语义亲和矩阵中的各元素对应各像素的语义亲和关系参数;计算预设值与具有第一标签的各像素的语义亲和关系参数的第一差值,并计算所有第一差值的均值作为第一均值;计算所有具有第二标签的各像素的语义亲和关系参数的均值作为第二均值;根据第一均值和第二均值的加权和,确定语义亲和关系损失函数。
在一些实施例中,阈值包括第一阈值和第二阈值,第一阈值小于第二阈值,根据预设的阈值,将第二类别激活图划分为多个区域包括:将第二类别激活图中小于或等于第一阈值的数值对应的像素,划分到背景区域;将第二类别激活图中大于或等于第二阈值的数值对应的像素,划分到前景区域;将第二类别激活图中小于第二阈值且大于第一阈值的数值对应的像素,划分到可忽略区域。
在一些实施例中,训练方法还包括:根据注意力特征图,利用机器学习模型的分类层,对样本图像进行分类;根据注意力矩阵及其转置矩阵,确定语义亲和矩阵,语义亲和矩阵中的各元素对应各像素的语义亲和关系参数;根据语义亲和矩阵和第二类别激活图,确定第三类别激活图;根据第三类别激活图,确定各像素的第二像素级伪标签;根据第二像素级伪标签和分类结果,确定分类损失函数;训练机器学习模型包括:根据分类损失函数、分割损失函数和语义亲和关系损失函数,训练机器学习模型。
在一些实施例中,根据语义亲和矩阵和第二类别激活图,确定第三类别激活图包括:根据语义亲和矩阵各行元素的和,生成对角阵;根据对角阵和语义亲和矩阵,确定语义转换矩阵;根据语义转换矩阵和第二类别激活图,确定第三类别激活图。
在一些实施例中,训练方法还包括:根据注意力特征图,利用机器学习模型的分类层,对样本图像进行分类,根据分类结果确定分类损失函数;训练机器学习模型包括:根据分类损失函数、分割损失函数和语义亲和关系损失函数,训练机器学习模型。
在一些实施例中,利用机器学习模型的全局注意力模块,确定样本图像的注意力特征图包括:将样本图像划分为多个图像块;利用全局注意力模块处理多个图像块,确定多个特征向量;根据多个特征向量,确定注意力特征图。
根据本公开的另一些实施例,提供一种图像的处理方法,包括:利用机器学习模型的全局注意力模块,确定待处理图像的注意力特征图,机器学习模型通过上述任一个实施例中的训练方法进行训练;根据注意力特征图,利用机器学习模型的分割层,对待处理图像进行语义分割,确定待处理图像的分割结果。
根据本公开的又一些实施例,提供一种机器学习模型的训练装置,包括:特征提取单元,用于利用机器学习模型的全局注意力模块,确定样本图像的注意力特征图;分割单元,用于根据注意力特征图,利用机器学习模型的分割层,对样本图像进行语义分割,根据分割结果确定分割损失函数;训练单元,用于根据分割损失函数,训练机器学习模型。
在一些实施例中,特征提取单元根据注意力矩阵,利用机器学习模型的线性层,对样本图像中像素之间的语义亲和关系进行预测,根据预测结果确定语义亲和关系损失函数;训练单元根据分割损失函数和语义亲和关系损失函数,训练机器学习模型。
在一些实施例中,训练单元根据样本图像中不同像素之间的差异,确定不同像素之间的差异参数;根据注意力特征图,利用机器学习模型的分类层,生成第一类别激活图;利用差异参数,对第一类别激活图进行处理,生成第二类别激活图;根据第二类别激活图,确定各像素的语义亲和关系标签;根据语义亲和关系标签和预测结果,确定语义亲和关系损失函数。
在一些实施例中,训练单元确定不同像素中的第一像素与第二像素之间的第一差异;确定第一像素与其多个相邻像素之间的第二差异,相邻像素从以第一像素为中心预设半径范围内的像素中确定;根据第一差异以及第二差异之和,确定第一像素与第二像素之间的差异参数。
在一些实施例中,不同像素之间的差异包括颜色差异和位置差异,训练单元根据颜色差异,确定不同像素之间的颜色差异参数;根据位置差异,确定不同像素之间的位置差异参数;根据颜色差异参数和位置差异参数的加权和,确定差异参数。
在一些实施例中,训练单元根据预设的阈值,将第二类别激活图划分为多个区域;为不同区域内的像素,设置不同的第一像素级伪标签;根据第一像素级伪标签,确定语义亲和关系标签。
在一些实施例中,多个区域包括可忽略区域,训练单元在不同像素中的第一像素和第二像素具有相同的第一像素级伪标签,且第一像素和第二像素均不位于可忽略区域的情况下,语义亲和关系标签为第一标签;在第一像素和第二像素具有不同的第一像素级伪标签,且第一像素和第二像素均不位于可忽略区域的情况下,语义亲和关系标签为第二标签,第一标签的数值大于第二标签的数值;在第一像素和第二像素中的至少一个位于可忽略区域的情况下,语义亲和关系标签为第三标签,第三标签的数值大于第一标签的数值。
在一些实施例中,训练单元根据注意力矩阵及其转置矩阵,确定语义亲和矩阵,语义亲和矩阵中的各元素对应各像素的语义亲和关系参数;计算预设值与具有第一标签的各像素的语义亲和关系参数的第一差值,并计算所有第一差值的均值作为第一均值;计算所有具有第二标签的各像素的语义亲和关系参数的均值作为第二均值;根据第一均值和第二均值的加权和,确定语义亲和关系损失函数。
在一些实施例中,阈值包括第一阈值和第二阈值,训练单元将第二类别激活图中小于或等于第一阈值的数值对应的像素,划分到背景区域;将第二类别激活图中大于或等于第二阈值的数值对应的像素,划分到前景区域;将第二类别激活图中小于第二阈值且大于第一阈值的数值对应的像素,划分到可忽略区域。
在一些实施例中,训练装置还包括分类单元,用于根据注意力特征图,利用机器学习模型的分类层,对样本图像进行分类;训练单元根据注意力矩阵及其转置矩阵,确定语义亲和矩阵,语义亲和矩阵中的各元素对应各像素的语义亲和关系参数;训练单元根据语义亲和矩阵和第二类别激活图,确定第三类别激活图;训练单元根据第三类别激活图,确定各像素的第二像素级伪标签;训练单元根据第二像素级伪标签和分类结果,确定分类损失函数;训练单元根据分类损失函数、分割损失函数和语义亲和关系损失函数,训练机器学习模型。
在一些实施例中,训练单元根据语义亲和矩阵各行元素的和,生成对角阵;根据对角阵和语义亲和矩阵,确定语义转换矩阵;根据语义转换矩阵和第二类别激活图,确定第三类别激活图。
在一些实施例中,分类单元根据注意力特征图,利用机器学习模型的分类层,对样本图像进行分类,训练单元根据分类结果确定分类损失函数;训练单元根据分类损失函数、分割损失函数和语义亲和关系损失函数,训练机器学习模型。
在一些实施例中,特征提取单元将样本图像划分为多个图像块;利用全局注意力模块处理多个图像块,确定多个特征向量;根据多个特征向量,确定注意力特征图。
根据本公开的再一些实施例,提供一种图像的处理装置,包括:特征提取单元,用于利用机器学习模型的全局注意力模块,确定待处理图像的注意力特征图,机器学习模型通过上述任一个实施例中的训练方法进行训练;分割单元,用于根据注意力特征图,利用机器学习模型的分割层,对待处理图像进行语义分割,确定待处理图像的分割结果。
根据本公开的再一些实施例,提供一种电子设备,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的机器学习模型的训练方法,或者图像的处理方法。
根据本公开的再一些实施例,提供一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的机器学习模型的训练方法,或者图像的处理方法。
在上述实施例中,通过全局注意力机制很好地利用了图像中的全局物体信息。这样,使得机器学习模型能够发现完整的语义物体,从而提高语义分割的精度低。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出本公开的机器学习模型的训练方法的一些实施例的流程图;
图2a~2b示出本公开的机器学习模型的训练方法的一些实施例的示意图;
图3a示出本公开的图像的处理方法的一些实施例的流程图;
图3b示出本公开的图像的处理方法的一些实施例的示意图;
图4a示出本公开的机器学习模型的训练装置的一些实施例的框图;
图4b示出本公开的图像的处理装置的一些实施例的框图;
图5示出本公开的电子设备的一些实施例的框图;
图6示出本公开的电子设备的另一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
如前所述无论是多阶段还是单阶段方法,基于图像级标签的弱监督语义分割方法主要是基于CNN(Convolutional Neural Networks,卷积神经网络)训练分类网络,生成类别激活图作为初始的像素级伪标签。由于初始伪标签比较粗糙,一般全连接CRF(Conditional Random Field,条件随机场)对初始伪标签进行后处理,能够得到更精细的伪标签。
然而,上述基于图像级标签的弱监督语义分割方法存在着如下问题。
CNN中的卷积操作感受野有限,不能很好的利用图像的全局信息,导致生成的类别激活图一般只能包含物体的局部区域。即在伪标签中不能很好的标注完整的物体,从而影响语义分割的精度。
由于网络结构中的下采样等操作,生成的类别激活图的物体边缘处比较粗糙。相邻且相似的像素语义标签常常不一致,CRF方法由于需要考虑所有像素的RGB(红绿蓝)与位置信息。因此,速度较慢,不适合应用于高效的端到端训练过程。
为解决以上技术问题,本公开提出了一种基于视觉注意力学习语义亲和关系的端到端的弱监督语义分割网络。本公开将将视觉Transformer结构引入到端到端的弱监督语义分割方法中。视觉Transformer结构能有效地描述图像全局信息(其他的注意力机制网络也可以应用)。
在一些实施例中,基于视觉Transformer构建分类网络,提取图像的特征图。由于Transformer结构中的全局注意力机制,因此能够很好的利用图像中的全局物体信息。从而,使得生成的CAM(Class Activation Map,类别激活图)能够发现完整的语义物体,较好地克服CNN的缺陷。
在一些实施例中,进一步挖掘Transformer结构中的潜力,从全局注意力中学习对称的像素语义亲和(affinity)关系,进一步提升生成的CAM的精度。
在一些实施例中,利用像素自适应卷积,高效地提取像素的底层局部邻域信息,对CAM做进一步处理,使得CAM生成的伪标签与物体底层边界吻合。
通过探索Transformer结构来为弱监督语义分割网络生成初始标签,从而解决了:CNN结构生成CAM时的不完全激活的技术问题;基于CAM生成的伪标签的语义不准确的技术问题。
通过像素自适应的处理模块,解决了:伪标签与底层像素边界不一致的技术问题;CRF等方法的时间复杂度高,不适合用在端到端训练框架的技术问题。
例如,可以通过如下实施例实现本公开的技术方案。
图1示出本公开的机器学习模型的训练方法的一些实施例的流程图。
如图1所示,在步骤110中,利用机器学习模型的全局注意力模块,确定样本图像的注意力特征图。例如,可以利用Transformer网络的自注意力模块或者其他网络的注意力机制模块,提取注意力特征图。例如,样本图像可以为人脸图像、包含待跟踪目标的图像、包含待识别目标的图像等。可以通过机器学习模型进行语义分割,以实现人脸识别、目标跟踪、目标检测等。
在一些实施例中,利用机器学习模型的全局注意力模块,确定样本图像的注意力特征图包括:将样本图像划分为多个图像块;利用全局注意力模块处理多个图像块,确定多个特征向量;根据多个特征向量,确定注意力特征图。
例如,用Transformer作为基干网络进行特征提取。在Transformer的基干网络中,对于一张输入图像,首先将其分成h×w个图像块;然后将每个图像块输入到基干网络的全连接层中,得到同等数目的特征向量。
在一些实施例中,在基干网络的每个层中,采用自注意力方法来捕获特征间的全局关系,以避免卷积操作的局部感受野导致的CAM的不完全激活。
例如,通过Transformer的自注意力模块的3个不同的全连接层,将全连接层输出的特征向量映射为Q(查询特征)、K(键特征)、V(值特征)三个子特征向量。
例如,Transformer采用了多头机制,每个头都具有3个不同的全连接层。第i个头的三个子特征向量为Qi、Ki、Vi,通过下式计算第i个头的注意力矩阵Si
Figure BDA0003697691000000101
Xi=softmax(Si)Vi
dk为Ki的特征维度,Xi为该层的输出特征(即第i个头的注意力特征图)。在多次重复上述步骤,最终输出的特征Xi用于后续其他模块。例如,可以融合所有头的输出特征,得到最终的注意力特征图X∈Rh×w×c
在步骤120中,根据注意力特征图,利用机器学习模型的分割层,对样本图像进行语义分割,根据分割结果确定分割损失函数。
例如,对于分割损失
Figure BDA0003697691000000111
首先,使用一个分割解码器(分割层)对特征图进行预测,得到图像的像素级预测;然后,根据像素级预测和从注意矩阵中学习语义亲和关系的步骤中得到语义亲和关系标签,采用交叉熵损失函数得到
Figure BDA0003697691000000112
在一些实施例中,利用全局注意力模块,确定样本图像的注意力矩阵;根据注意力矩阵,利用机器学习模型的线性层,对样本图像中像素之间的语义亲和关系进行预测,根据预测结果确定语义亲和关系损失函数。
例如,根据样本图像中不同像素之间的差异,确定不同像素之间的差异参数。
例如,确定不同像素中的第一像素与第二像素之间的第一差异;确定第一像素与其多个相邻像素之间的第二差异,相邻像素从以第一像素为中心预设半径范围内的像素中确定;根据第一差异以及第二差异之和,确定第一像素与第二像素之间的差异参数。
例如,差异参数与第一差异正相关,与第二差异负相关。
例如,不同像素之间的差异包括颜色差异和位置差异根据颜色差异,确定不同像素之间的颜色差异参数;根据位置差异,确定不同像素之间的位置差异参数;根据颜色差异参数和位置差异参数的加权和,确定差异参数。
例如,输入的样本图像为I∈Rh×w×3,对于位置于(i,j)和(k,l)处的像素,它们之间的颜色(RGB)差异参数和位置差异参数为:
Figure BDA0003697691000000113
Figure BDA0003697691000000114
分别为根据像素(i,j)和(k,l)的RGB信息和位置信息计算的颜色标准差和位置标准差;ω1和ω6为预先确定的0到1之间的权重参数(如取0.3);|Iij-Ikl|为颜色差异,|Pij-Pkl|为位置差异。
例如,根据差异参数和位置差异参数,确定像素(i,j)和(k,l)的差异参数为:
Figure BDA0003697691000000121
(x,y)为从像素(i,j)的邻域中选取的相邻像素。如图2b所示,像素(i,j)的邻域集合为像素(i,j)的8个相邻像素。例如,可以通过不同空洞值的空洞卷积快速获得相邻像素。ω3是预先确定的0到1之间的权重参数(如0.01)。
在一些实施例中,根据注意力特征图,利用机器学习模型的分类层,生成第一类别激活图;利用差异参数,对第一类别激活图进行处理,生成第二类别激活图;根据第二类别激活图,确定各像素的语义亲和关系标签;根据语义亲和关系标签和预测结果,确定语义亲和关系损失函数。
在一些实施例中,对X进行池化操作,得到用于分类的特征向量f∈Rc,c为特征维度。
例如,使用GMP(全局最大池化)进行池化操作;将池化后的f输入分类层中,预测图像级别标签对各类别的隶属概率p∈Rk,k为类别数目。
例如,可见采用二值交叉熵损失函数计算分类损失函数Lcls,以更新基干网络和分类层的参数。
在一些实施例中,将池化之前的注意力特征图X输入到分类层中,得到第一类别激活图;根据第一类别激活图得到像素级的初始伪标签。
例如,可以基于差异参数,对第一类别激活图M∈Rh×w×k进行多次迭代处理,k为类别的数目。对于第t次迭代,生成的第二类别激活图为:
Figure BDA0003697691000000122
Figure BDA0003697691000000123
为像素(i,j)的相邻像素集合。
在一些实施例中,根据预设的阈值,将第二类别激活图划分为多个区域;为不同区域内的像素,设置不同的第一像素级伪标签;根据第一像素级伪标签,确定语义亲和关系标签。
例如,阈值包括第一阈值和第二阈值,第一阈值小于第二阈值,根据预设的阈值,将第二类别激活图划分为多个区域包括:将第二类别激活图中小于或等于第一阈值的数值对应的像素,划分到背景区域;将第二类别激活图中大于或等于第二阈值的数值对应的像素,划分到前景区域;将第二类别激活图中小于第二阈值且大于第一阈值的数值对应的像素,划分到可忽略区域。
为了学习到高置信度的语义亲和矩阵A,需要获得高置信度的语义亲和关系标签Yaff作为A的监督信息。
例如,可以根据经过像素自适应处理的输出,来导出亲和关系标签Yaff。设置两个0到1之间的背景阈值βl和βh,βlh(如分别为0.35、0.55),将第二类别激活图分为置信度较高的前景区域和背景区域,以及置信度较低的忽略区域。
例如,对于经过像素自适应处理输出的第二类别激活图M∈Rh×w×k,根据下式计算各区域的第一像素级伪标签
Figure BDA0003697691000000131
Figure BDA0003697691000000132
0和255分别表示背景区域和忽略区域的第一像素级伪标签,k为Mi,j,k在通道维上的序号(如小于100)。
在一些实施例中,多个区域包括可忽略区域,根据第一像素级伪标签。在不同像素中的第一像素和第二像素具有相同的第一像素级伪标签,且第一像素和第二像素均不位于可忽略区域的情况下,语义亲和关系标签为第一标签;在第一像素和第二像素具有不同的第一像素级伪标签,且第一像素和第二像素均不位于可忽略区域的情况下,语义亲和关系标签为第二标签,第一标签的数值大于第二标签的数值;在第一像素和第二像素中的至少一个位于可忽略区域的情况下,语义亲和关系标签为第三标签,第三标签的数值大于第一标签的数值。
例如,得到第一像素级伪标签之后,亲和关系标签Yaff∈Rh×w×h×w的计算方式为:如果像素(i,j)和(k,l)的第一像素级伪标签相同,并且都不是被忽略的区域,则
Figure BDA0003697691000000141
如果像素(i,j)和(k,l)的第一像素级伪标签不同,并且都不是被忽略的区域,则
Figure BDA0003697691000000142
如果像素(i,j)或(k,l)属于被忽略的区域,则
Figure BDA0003697691000000143
在一些实施例中,根据注意力矩阵及其转置矩阵,确定语义亲和矩阵,语义亲和矩阵中的各元素对应各像素的语义亲和关系参数;计算预设值(如1等正数)与具有第一标签的各像素的语义亲和关系参数的第一差值,并计算所有第一差值的均值作为第一均值;计算所有具有第二标签的各像素的语义亲和关系参数的均值作为第二均值;根据第一均值和第二均值的加权和,确定语义亲和关系损失函数。
例如,得到伪标签Yaff之后,可以用它来监督预测的语义亲和矩阵A,语义亲和关系损失函数为:
Figure BDA0003697691000000144
R+和R-分别表示Yaff为1和0的区域,N+和N-分别表示R+和R-中像素的数量,A(i,j)为A的第i行第j列的元素。
在一些实施例中,根据注意力特征图,利用机器学习模型的分类层,对样本图像进行分类;根据注意力矩阵及其转置矩阵,确定语义亲和矩阵,语义亲和矩阵中的各元素对应各像素的语义亲和关系参数;根据语义亲和矩阵和第二类别激活图,确定第三类别激活图;根据第三类别激活图,确定各像素的第二像素级伪标签;根据第二像素级伪标签和分类结果,确定分类损失函数。
例如,将注意力矩阵输入到线性层中,得到语义亲和关系的预测值。由于,注意力特征图是一种有向图,而语义亲和关系是一种无向图,因此,将S和S的转置相加,生成语义亲和矩阵,以实现有向图到无向图的转换:
A=MLP(S+ST)
MLP表示线性层函数。
例如,根据语义亲和矩阵各行元素的和,生成对角阵;根据对角阵和语义亲和矩阵,确定语义转换矩阵;根据语义转换矩阵和第二类别激活图,确定第三类别激活图。
例如,Laff可以使得预测的语义亲和矩阵A更加的准确。而学习到的高置信度的语义亲和矩阵可以被进一步对伪标签进行处理,从而得到更准确的标签。
例如,对于学习的语义亲和矩阵A,计算语义转换矩阵T:
T=D-1Aα,D(i,i)=∑kA(i,j)α
α为大于1的调节参数(如可以取2),用来移除A中比较小的值;D为对角阵,D(i,i)为对角线上的元素。
例如,根据语义转换矩阵T对初始伪标签进行处理。对于第二类别激活图M∈Rh ×w×k,首先将其向量化转换为vec(M)∈R(h×w)×k;确定第三类别激活图为:
Maff=T×vec(M)
在步骤130中,根据分割损失函数,训练机器学习模型。
在一些实施例中,根据分割损失函数和语义亲和关系损失函数,训练机器学习模型。
在一些实施例中,根据分类损失函数、分割损失函数和语义亲和关系损失函数,训练机器学习模型。
在一些实施例中,根据注意力特征图,利用机器学习模型的分类层,对样本图像进行分类,根据分类结果确定分类损失函数;根据分类损失函数、分割损失函数和语义亲和关系损失函数,训练机器学习模型。
例如,网络的综合损失函数为分类损失函数、分割损失函数和亲和关系损失函数的加权和:
L=Lcls1×Lseg2×Laff
λ1、λ2为0到1之间的预设权值(如0.1)。
图2a~2b示出本公开的机器学习模型的训练方法的一些实施例的示意图。
如图2a所示,在注意力特征图提取步骤中,用Transformer作为基干网络进行特征提取。在Transformer的基干网络中,对于一张输入图像,首先将其分成h×w个图像块;然后将每个图像块输入到基干网络的全连接层中,得到同等数目的特征向量。
在一些实施例中,在基干网络的每个层中,采用自注意力方法来捕获特征间的全局关系,以避免卷积操作的局部感受野导致的CAM的不完全激活。
例如,通过Transformer的自注意力模块的3个不同的全连接层,将全连接层输出的特征向量映射为Q(查询特征)、K(键特征)、V(值特征)三个子特征向量。
例如,Transformer采用了多头机制,每个头都具有3个不同的全连接层。第i个头的三个子特征向量为Qi、Ki、Vi,通过下式计算第i个头的注意力矩阵Si
Figure BDA0003697691000000161
Xi=softmax(Si)Vi
dk为Ki的特征维度,Xi为该层的输出特征(即第i个头的注意力特征图)。在多次重复上述步骤,最终输出的特征Xi用于后续其他模块。例如,可以融合所有头的输出特征,得到最终的注意力特征图X∈Rh×w×c
在一些实施例中,执行分类损失计算与初始伪标签生成步骤。对X进行池化操作,得到用于分类的特征向量f∈Rc,c为特征维度。
例如,使用GMP(全局最大池化)进行池化操作;将池化后的f输入分类层中,预测图像级别标签对各类别的隶属概率A∈Rk,k为类别数目。
例如,可见采用二值交叉熵损失函数计算分类损失函数Lcls,以更新基干网络和分类层的参数。
在一些实施例中,将池化之前的注意力特征图X输入到分类层中,得到第一类别激活图;根据第一类别激活图得到像素级的初始伪标签。
在一些实施例中,执行像素自适应处理步骤。分类损失计算与初始伪标签生成步骤中的初始伪标签比较粗糙。并且初始伪标签是局部不一致的,即相邻的具有相似RGB信息的像素的语义标签常常是不一致的。CRF方法进行局部一致性处理的速度较慢,因此本公开提出了一个基于局部像素RGB和位置信息的处理方法。
例如,输入的样本图像为I∈Rh×w×3,对于位置于(i,j)和(k,l)处的像素,它们之间的颜色(RGB)差异参数和位置差异参数为:
Figure BDA0003697691000000171
Figure BDA0003697691000000172
分别为根据像素(i,j)和(k,l)的RGB信息和位置信息计算的颜色标准差和位置标准差;ω1和ω2为预先确定的0到1之间的权重参数(如取0.3);|Iij-Ikl|为颜色差异,|Pij-Pkl|为位置差异。
例如,根据差异参数和位置差异参数,确定像素(i,j)和(k,l)的差异参数为:
Figure BDA0003697691000000173
(x,y)为从像素(i,j)的邻域中选取的相邻像素。如图2b所示,像素(i,j)的邻域集合为像素(i,j)的8个相邻像素。例如,可以通过不同空洞值的空洞卷积快速获得相邻像素。ω3是预先确定的0到1之间的权重参数(如0.01)。
例如,可以基于差异参数,对第一类别激活图M∈Rh×w×k进行多次迭代处理,k为类别的数目。对于第t次迭代,生成的第二类别激活图为:
Figure BDA0003697691000000174
Figure BDA0003697691000000175
为像素(i,j)的相邻像素集合。
在一些实施例中,执行从注意矩阵中学习语义亲和关系的步骤。从注意力特征图提取步骤中的注意力矩阵S中,学习像素之间的语义亲和关系,用于提高伪标签的质量。
例如,将注意力矩阵输入到线性层中,得到语义亲和关系的预测值。由于,注意力特征图是一种有向图,而语义亲和关系是一种无向图,因此,将S和S的转置相加,生成语义亲和矩阵,以实现有向图到无向图的转换:
A=MLP(S+ST)
MLP表示线性层函数。
为了学习到高置信度的语义亲和矩阵A,需要获得高置信度的语义亲和关系标签Yaff作为A的监督信息。
例如,可以根据经过像素自适应处理的输出,来导出亲和关系标签Yaff。设置两个0到1之间的背景阈值βl和βh,βlh(如分别为0.35、0.55),将第二类别激活图分为置信度较高的前景区域和背景区域,以及置信度较低的忽略区域。
例如,对于经过像素自适应处理输出的第二类别激活图M∈Rh×w×k,根据下式计算各区域的第一像素级伪标签
Figure BDA0003697691000000181
Figure BDA0003697691000000182
0和255分别表示背景区域和忽略区域的第一像素级伪标签,k为Mi,j,k在通道维上的序号(如小于100)。
例如,得到第一像素级伪标签之后,亲和关系标签Yaff∈Rh×w×h×w的计算方式为:如果像素(i,j)和(k,l)的第一像素级伪标签相同,并且都不是被忽略的区域,则
Figure BDA0003697691000000183
如果像素(i,j)和(k,l)的第一像素级伪标签不同,并且都不是被忽略的区域,则
Figure BDA0003697691000000184
如果像素(i,j)或(k,l)属于被忽略的区域,则
Figure BDA0003697691000000185
例如,得到伪标签Yaff之后,可以用它来监督预测的语义亲和矩阵A,语义亲和关系损失函数为:
Figure BDA0003697691000000186
R+和R-分别表示Yaff为1和0的区域,N+和N-分别表示R+和R-中像素的数量,A(i,j)为A的第i行第j列的元素。
Laff可以使得预测的语义亲和矩阵A更加的准确。而学习到的高置信度的语义亲和矩阵可以被进一步对伪标签进行处理,从而得到更准确的标签。
例如,对于学习的语义亲和矩阵A,计算语义转换矩阵T:
T=D-1Aα,D(i,i)=∑kA(i,j)α
α为大于1的调节参数(如可以取2),用来移除A中比较小的值;D为对角阵,D(i,i)为对角线上的元素。
例如,根据语义转换矩阵T对初始伪标签进行处理。对于第二类别激活图M∈Rh ×w×k,首先将其向量化转换为vec(M)∈R(h×w)×k;确定第三类别激活图为:
Maff=T×vec(M)
在上述实施例中,可以抑制被错误激活的背景区域,并且扩展部分激活的物体区域。
在一些实施例中,执行网络损失函数与训练步骤。网络损失函数可以包括分类损失函数、分割损失函数和亲和关系损失函数。分类损失
Figure BDA0003697691000000191
和亲和关系损失
Figure BDA0003697691000000192
在前面步骤中已经介绍。
对于分割损失
Figure BDA0003697691000000193
首先,使用一个分割解码器(分割层)对特征图进行预测,得到图像的像素级预测;然后,根据像素级预测和从注意矩阵中学习语义亲和关系的步骤中得到语义亲和关系标签,采用交叉熵损失函数得到
Figure BDA0003697691000000194
例如,网络的综合损失函数为分类损失函数、分割损失函数和亲和关系损失函数的加权和:
L=Lcls1×Lseg2×Laff
λ1、λ2为0到1之间的预设权值(如0.1)。
在上述实施例中,分类损失函数、分割损失函数和亲和关系损失函数都可以高效的实现,因此在训练阶段可以支持高效的端到端训练,避免了多阶段方法的高复杂度的模型。
图3a示出本公开的图像的处理方法的一些实施例的流程图。
如图3a所示,在步骤310中,利用机器学习模型的全局注意力模块,确定待处理图像的注意力特征图,机器学习模型通过上述任一个实施例中的训练方法进行训练。
在步骤320中,根据注意力特征图,利用机器学习模型的分割层,对待处理图像进行语义分割,确定待处理图像的分割结果。
图3b示出本公开的图像的处理方法的一些实施例的示意图。
如图3b所示,在测试推理阶段中,对训练完成的机器学习模型进行实际测试、部署阶段。例如,对于输入的待处理图像,首先使用基于Transformer的基干网络提取注意力特征图;然后利用语义分割层进行预测,得到语义分割结果,作为最终的输出。
图4a示出本公开的机器学习模型的训练装置的一些实施例的框图。
如图4a所示,机器学习模型的训练装置4a,包括:特征提取单元41a,用于利用机器学习模型的全局注意力模块,确定样本图像的注意力特征图;分割单元42a,用于根据注意力特征图,利用机器学习模型的分割层,对样本图像进行语义分割,根据分割结果确定分割损失函数;训练单元43a,用于根据分割损失函数,训练机器学习模型。
在一些实施例中,特征提取单元41a根据注意力矩阵,利用机器学习模型的线性层,对样本图像中像素之间的语义亲和关系进行预测,根据预测结果确定语义亲和关系损失函数;训练单元43a根据分割损失函数和语义亲和关系损失函数,训练机器学习模型。
在一些实施例中,训练单元43a根据样本图像中不同像素之间的差异,确定不同像素之间的差异参数;根据注意力特征图,利用机器学习模型的分类层,生成第一类别激活图;利用差异参数,对第一类别激活图进行处理,生成第二类别激活图;根据第二类别激活图,确定各像素的语义亲和关系标签;根据语义亲和关系标签和预测结果,确定语义亲和关系损失函数。
在一些实施例中,训练单元43a确定不同像素中的第一像素与第二像素之间的第一差异;确定第一像素与其多个相邻像素之间的第二差异,相邻像素从以第一像素为中心预设半径范围内的像素中确定;根据第一差异以及第二差异之和,确定第一像素与第二像素之间的差异参数。
在一些实施例中,不同像素之间的差异包括颜色差异和位置差异,训练单元43a根据颜色差异,确定不同像素之间的颜色差异参数;根据位置差异,确定不同像素之间的位置差异参数;根据颜色差异参数和位置差异参数的加权和,确定差异参数。
在一些实施例中,训练单元43a根据预设的阈值,将第二类别激活图划分为多个区域;为不同区域内的像素,设置不同的第一像素级伪标签;根据第一像素级伪标签,确定语义亲和关系标签。
在一些实施例中,多个区域包括可忽略区域,训练单元43a在不同像素中的第一像素和第二像素具有相同的第一像素级伪标签,且第一像素和第二像素均不位于可忽略区域的情况下,语义亲和关系标签为第一标签;在第一像素和第二像素具有不同的第一像素级伪标签,且第一像素和第二像素均不位于可忽略区域的情况下,语义亲和关系标签为第二标签,第一标签的数值大于第二标签的数值;在第一像素和第二像素中的至少一个位于可忽略区域的情况下,语义亲和关系标签为第三标签,第三标签的数值大于第一标签的数值。
在一些实施例中,训练单元43a根据注意力矩阵及其转置矩阵,确定语义亲和矩阵,语义亲和矩阵中的各元素对应各像素的语义亲和关系参数;计算预设值与具有第一标签的各像素的语义亲和关系参数的第一差值,并计算所有第一差值的均值作为第一均值;计算所有具有第二标签的各像素的语义亲和关系参数的均值作为第二均值;根据第一均值和第二均值的加权和,确定语义亲和关系损失函数。
在一些实施例中,阈值包括第一阈值和第二阈值,训练单元43a将第二类别激活图中小于或等于第一阈值的数值对应的像素,划分到背景区域;将第二类别激活图中大于或等于第二阈值的数值对应的像素,划分到前景区域;将第二类别激活图中小于第二阈值且大于第一阈值的数值对应的像素,划分到可忽略区域。
在一些实施例中,训练装置4a还包括分类单元44a,用于根据注意力特征图,利用机器学习模型的分类层,对样本图像进行分类;训练单元43a根据注意力矩阵及其转置矩阵,确定语义亲和矩阵,语义亲和矩阵中的各元素对应各像素的语义亲和关系参数;训练单元43a根据语义亲和矩阵和第二类别激活图,确定第三类别激活图;训练单元43a根据第三类别激活图,确定各像素的第二像素级伪标签;训练单元根据第二像素级伪标签和分类结果,确定分类损失函数;训练单元43a根据分类损失函数、分割损失函数和语义亲和关系损失函数,训练机器学习模型。
在一些实施例中,训练单元43a根据语义亲和矩阵各行元素的和,生成对角阵;根据对角阵和语义亲和矩阵,确定语义转换矩阵;根据语义转换矩阵和第二类别激活图,确定第三类别激活图。
在一些实施例中,分类单元44a根据注意力特征图,利用机器学习模型的分类层,对样本图像进行分类,训练单元43a根据分类结果确定分类损失函数;训练单元43a根据分类损失函数、分割损失函数和语义亲和关系损失函数,训练机器学习模型。
在一些实施例中,特征提取单元41a将样本图像划分为多个图像块;利用全局注意力模块处理多个图像块,确定多个特征向量;根据多个特征向量,确定注意力特征图。
图4b示出本公开的图像的处理装置的一些实施例的框图。
如图4b所示,图像的处理装置4b,包括:特征提取单元41b,用于利用机器学习模型的全局注意力模块,确定待处理图像的注意力特征图,机器学习模型通过上述任一个实施例中的训练方法进行训练;分割单元42b,用于根据注意力特征图,利用机器学习模型的分割层,对待处理图像进行语义分割,确定待处理图像的分割结果。
图5示出本公开的电子设备的一些实施例的框图。
如图5所示,该实施例的电子设备5包括:存储器51以及耦接至该存储器51的处理器52,处理器52被配置为基于存储在存储器51中的指令,执行本公开中任意一个实施例中的机器学习模型的训练方法,或者图像的处理方法。
其中,存储器51例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图6示出本公开的电子设备的另一些实施例的框图。
如图6所示,该实施例的电子设备6包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一个实施例中的机器学习模型的训练方法,或者图像的处理方法。
存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
电子设备6还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏、麦克、音箱等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的机器学习模型的训练方法、图像的处理方法、机器学习模型的训练装置、图像的处理装置、电子设备和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (18)

1.一种机器学习模型的训练方法,包括:
利用所述机器学习模型的全局注意力模块,确定样本图像的注意力特征图;
根据所述注意力特征图,利用所述机器学习模型的分割层,对所述样本图像进行语义分割,根据分割结果确定分割损失函数;
根据所述分割损失函数,训练所述机器学习模型。
2.根据权利要求1所述的训练方法,还包括:
利用所述全局注意力模块,确定所述样本图像的注意力矩阵;
根据所述注意力矩阵,利用所述机器学习模型的线性层,对所述样本图像中像素之间的语义亲和关系进行预测,根据预测结果确定语义亲和关系损失函数;
其中,所述训练所述机器学习模型包括:
根据所述分割损失函数和所述语义亲和关系损失函数,训练所述机器学习模型。
3.根据权利要求2所述的训练方法,其中,所述根据预测结果确定语义亲和关系损失函数包括:
根据所述样本图像中不同像素之间的差异,确定不同像素之间的差异参数;
根据所述注意力特征图,利用所述机器学习模型的分类层,生成第一类别激活图;
利用所述差异参数,对所述第一类别激活图进行处理,生成第二类别激活图;
根据所述第二类别激活图,确定各像素的语义亲和关系标签;
根据所述语义亲和关系标签和所述预测结果,确定所述语义亲和关系损失函数。
4.根据权利要求3所述的训练方法,其中,所述确定不同像素之间的差异参数包括:
确定所述不同像素中的第一像素与第二像素之间的第一差异;
确定所述第一像素与其多个相邻像素之间的第二差异,所述相邻像素从以所述第一像素为中心预设半径范围内的像素中确定;
根据所述第一差异以及所述第二差异之和,确定所述第一像素与所述第二像素之间的差异参数。
5.根据权利要求3所述的训练方法,其中,所述不同像素之间的差异包括颜色差异和位置差异,
所述确定不同像素之间的差异参数包括:
根据所述颜色差异,确定所述不同像素之间的颜色差异参数;
根据所述位置差异,确定所述不同像素之间的位置差异参数;
根据所述颜色差异参数和所述位置差异参数的加权和,确定所述差异参数。
6.根据权利要求3所述的训练方法,其中,所述根据所述第二类别激活图,确定各像素的语义亲和关系标签包括:
根据预设的阈值,将所述第二类别激活图划分为多个区域;
为不同区域内的像素,设置不同的第一像素级伪标签;
根据所述第一像素级伪标签,确定所述语义亲和关系标签。
7.根据权利要求6所述的训练方法,其中,所述多个区域包括可忽略区域,
所述根据所述第一像素级伪标签,确定所述语义亲和关系标签包括:
在所述不同像素中的第一像素和第二像素具有相同的第一像素级伪标签,且所述第一像素和所述第二像素均不位于所述可忽略区域的情况下,所述语义亲和关系标签为第一标签;
在所述第一像素和所述第二像素具有不同的第一像素级伪标签,且所述第一像素和所述第二像素均不位于所述可忽略区域的情况下,所述语义亲和关系标签为第二标签,所述第一标签的数值大于所述第二标签的数值;
在所述第一像素和所述第二像素中的至少一个位于所述可忽略区域的情况下,所述语义亲和关系标签为第三标签,所述第三标签的数值大于所述第一标签的数值。
8.根据权利要求7所述的训练方法,其中,所述确定所述语义亲和关系损失函数包括:
根据所述注意力矩阵及其转置矩阵,确定语义亲和矩阵,所述语义亲和矩阵中的各元素对应各像素的语义亲和关系参数;
计算预设值与具有所述第一标签的各像素的语义亲和关系参数的第一差值,并计算所有所述第一差值的均值作为第一均值;
计算所有具有所述第二标签的各像素的语义亲和关系参数的均值作为第二均值;
根据所述第一均值和所述第二均值的加权和,确定所述语义亲和关系损失函数。
9.根据权利要求6所述的训练方法,其中,所述阈值包括第一阈值和第二阈值,所述第一阈值小于所述第二阈值,
所述根据预设的阈值,将所述第二类别激活图划分为多个区域包括:
将所述第二类别激活图中小于或等于所述第一阈值的数值对应的像素,划分到背景区域;
将所述第二类别激活图中大于或等于所述第二阈值的数值对应的像素,划分到前景区域;
将所述第二类别激活图中小于所述第二阈值且大于所述第一阈值的数值对应的像素,划分到可忽略区域。
10.根据权利要求3所述的训练方法,还包括:
根据所述注意力特征图,利用所述机器学习模型的分类层,对所述样本图像进行分类;
根据所述注意力矩阵及其转置矩阵,确定语义亲和矩阵,所述语义亲和矩阵中的各元素对应各像素的语义亲和关系参数;
根据所述语义亲和矩阵和所述第二类别激活图,确定第三类别激活图;
根据所述第三类别激活图,确定各像素的第二像素级伪标签;
根据所述第二像素级伪标签和分类结果,确定分类损失函数;
其中,所述训练所述机器学习模型包括:
根据所述分类损失函数、所述分割损失函数和所述语义亲和关系损失函数,训练所述机器学习模型。
11.根据权利要求10所述的训练方法,其中,所述根据所述语义亲和矩阵和所述第二类别激活图,确定第三类别激活图包括:
根据所述语义亲和矩阵各行元素的和,生成对角阵;
根据所述对角阵和所述语义亲和矩阵,确定语义转换矩阵;
根据所述语义转换矩阵和所述第二类别激活图,确定所述第三类别激活图。
12.根据权利要求2所述的训练方法,还包括:
根据所述注意力特征图,利用所述机器学习模型的分类层,对所述样本图像进行分类,根据分类结果确定分类损失函数;
其中,所述训练所述机器学习模型包括:
根据所述分类损失函数、所述分割损失函数和所述语义亲和关系损失函数,训练所述机器学习模型。
13.根据权利要求1-12任一项所述的训练方法,其中,所述利用所述机器学习模型的全局注意力模块,确定样本图像的注意力特征图包括:
将所述样本图像划分为多个图像块;
利用所述全局注意力模块处理所述多个图像块,确定多个特征向量;
根据所述多个特征向量,确定所述注意力特征图。
14.一种图像的处理方法,包括:
利用所述机器学习模型的全局注意力模块,确定待处理图像的注意力特征图,所述机器学习模型通过权利要求1~13任一项所述的训练方法进行训练;
根据所述注意力特征图,利用所述机器学习模型的分割层,对所述待处理图像进行语义分割,确定所述待处理图像的分割结果。
15.一种机器学习模型的训练装置,包括:
特征提取单元,用于利用所述机器学习模型的全局注意力模块,确定样本图像的注意力特征图;
分割单元,用于根据所述注意力特征图,利用所述机器学习模型的分割层,对所述样本图像进行语义分割,根据分割结果确定分割损失函数;
训练单元,用于根据所述分割损失函数,训练所述机器学习模型。
16.一种图像的处理装置,包括:
特征提取单元,用于利用所述机器学习模型的全局注意力模块,确定待处理图像的注意力特征图,所述机器学习模型通过权利要求1~13任一项所述的训练方法进行训练;
分割单元,用于根据所述注意力特征图,利用所述机器学习模型的分割层,对所述待处理图像进行语义分割,确定所述待处理图像的分割结果。
17.一种电子设备,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-13任一项所述的机器学习模型的训练方法,或者权利要求14所述的图像的处理方法。
18.一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-13任一项所述的机器学习模型的训练方法,或者权利要求14所述的图像的处理方法。
CN202210679311.XA 2022-06-16 2022-06-16 机器学习模型的训练方法、图像的处理方法和电子设备 Pending CN114943840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210679311.XA CN114943840A (zh) 2022-06-16 2022-06-16 机器学习模型的训练方法、图像的处理方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210679311.XA CN114943840A (zh) 2022-06-16 2022-06-16 机器学习模型的训练方法、图像的处理方法和电子设备

Publications (1)

Publication Number Publication Date
CN114943840A true CN114943840A (zh) 2022-08-26

Family

ID=82910190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210679311.XA Pending CN114943840A (zh) 2022-06-16 2022-06-16 机器学习模型的训练方法、图像的处理方法和电子设备

Country Status (1)

Country Link
CN (1) CN114943840A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115482395A (zh) * 2022-09-30 2022-12-16 北京百度网讯科技有限公司 模型训练方法、图像分类方法、装置、电子设备和介质
CN116051467A (zh) * 2022-12-14 2023-05-02 东莞市人民医院 基于多任务学习的膀胱癌肌层侵犯预测方法及相关装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115482395A (zh) * 2022-09-30 2022-12-16 北京百度网讯科技有限公司 模型训练方法、图像分类方法、装置、电子设备和介质
CN115482395B (zh) * 2022-09-30 2024-02-20 北京百度网讯科技有限公司 模型训练方法、图像分类方法、装置、电子设备和介质
CN116051467A (zh) * 2022-12-14 2023-05-02 东莞市人民医院 基于多任务学习的膀胱癌肌层侵犯预测方法及相关装置
CN116051467B (zh) * 2022-12-14 2023-11-03 东莞市人民医院 基于多任务学习的膀胱癌肌层侵犯预测方法及相关装置

Similar Documents

Publication Publication Date Title
CN110097568B (zh) 一种基于时空双分支网络的视频对象检测与分割方法
US20180114071A1 (en) Method for analysing media content
US8379994B2 (en) Digital image analysis utilizing multiple human labels
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
US10867169B2 (en) Character recognition using hierarchical classification
CN111126115B (zh) 暴力分拣行为识别方法和装置
CN112561910A (zh) 一种基于多尺度特征融合的工业表面缺陷检测方法
CN111368636B (zh) 目标分类方法、装置、计算机设备和存储介质
CN114943840A (zh) 机器学习模型的训练方法、图像的处理方法和电子设备
CN111178251A (zh) 一种行人属性识别方法及系统、存储介质及终端
CN108734109B (zh) 一种面向图像序列的视觉目标跟踪方法及系统
CN111368634B (zh) 基于神经网络的人头检测方法、系统及存储介质
CN113989604B (zh) 基于端到端深度学习的轮胎dot信息识别方法
Huang et al. Image saliency detection via multi-scale iterative CNN
CN116704431A (zh) 水污染的在线监测系统及其方法
CN112464877A (zh) 基于自适应实例分类器细化的弱监督目标检测方法与系统
CN116863384A (zh) 一种基于CNN-Transfomer的自监督视频分割方法和系统
Li A deep learning-based text detection and recognition approach for natural scenes
Zhang et al. Small target detection based on squared cross entropy and dense feature pyramid networks
CN116977859A (zh) 基于多尺度图像切割和实例困难度的弱监督目标检测方法
Rao et al. Roads detection of aerial image with FCN-CRF model
CN112380970B (zh) 基于局部区域搜索的视频目标检测方法
Mery et al. Deep learning in x-ray testing
CN114462490A (zh) 图像目标的检索方法、检索设备、电子设备和存储介质
CN115019342A (zh) 一种基于类关系推理的濒危动物目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination