CN112001401A - 实例分割网络的训练模型及训练方法,实例分割网络 - Google Patents

实例分割网络的训练模型及训练方法,实例分割网络 Download PDF

Info

Publication number
CN112001401A
CN112001401A CN202010745430.1A CN202010745430A CN112001401A CN 112001401 A CN112001401 A CN 112001401A CN 202010745430 A CN202010745430 A CN 202010745430A CN 112001401 A CN112001401 A CN 112001401A
Authority
CN
China
Prior art keywords
network
histogram
subnet
segmentation
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010745430.1A
Other languages
English (en)
Other versions
CN112001401B (zh
Inventor
王立
范宝余
郭振华
赵雅倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010745430.1A priority Critical patent/CN112001401B/zh
Publication of CN112001401A publication Critical patent/CN112001401A/zh
Application granted granted Critical
Publication of CN112001401B publication Critical patent/CN112001401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种实例分割网络的训练模型及训练方法,一种实例分割网络。本申请公开的训练模型包括:特征提取网络、检测分割头部网络、直方图头部网络和损失计算模块,该模型中的检测分割头部网络能够对特征提取网络的输出数据中的时域信息进行处理;直方图头部网络能够对特征提取网络的输出数据中的频域信息进行处理;损失计算模块能够优化特征提取网络、检测分割头部网络和直方图头部网络分别对应的训练参数。本申请同时利用时域信息和频域信息训练实例分割网络,可以提高训练精度,从而提高实例分割网络的计算精度和分割性能。相应地,本申请提供的一种实例分割网络的训练方法和一种实例分割网络,也同样具有上述技术效果。

Description

实例分割网络的训练模型及训练方法,实例分割网络
技术领域
本申请涉及机器学习技术领域,特别涉及一种实例分割网络的训练模型及训练方法,一种实例分割网络。
背景技术
目前,现有的实例分割网络一般用图像的时域信息进行监督训练。对于图像中的小目标而言,时域信息可表征的信息量较少,因此参与训练的特征较少,模型的训练精度可能不足,导致分割性能有所降低。
因此,如何提高实例分割网络的训练精度,是本领域技术人员需要解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种实例分割网络的训练模型及训练方法,一种实例分割网络,以提高实例分割网络的训练精度。其具体方案如下:
第一方面,本申请提供了一种实例分割网络的训练模型,包括:特征提取网络、检测分割头部网络、直方图头部网络和损失计算模块,其中;
所述特征提取网络,用于对图像进行处理,以获得多个候选框;
所述检测分割头部网络,用于对所述多个候选框携带的时域信息进行处理,以输出所述图像中的各个目标;
所述直方图头部网络,用于对所述多个候选框携带的频域信息进行处理,以输出预测直方图;
所述损失计算模块,用于计算所述目标的目标损失值和所述预测直方图的直方图损失值,并基于所述目标损失值和所述直方图损失值优化所述特征提取网络、所述检测分割头部网络和所述直方图头部网络分别对应的训练参数。
优选地,所述直方图头部网络包括:目标子网和输出层;
所述目标子网包括注意力子网、包括至少一个卷积层的卷积子网、包括至少一个全连接层的全连接子网中的任一个或组合;
所述注意力子网和/或所述卷积子网,用于确定各个候选框中不同像素点之间的关系,并根据所述关系生成关系频域信息;
所述全连接子网,用于提取各个候选框中的特征频域信息;
所述输出层,用于根据所述关系频域信息和/或所述特征频域信息生成所述预测直方图。
优选地,若所述目标子网包括所述注意力子网和所述卷积子网,则所述注意力子网的输出端连接于所述卷积子网的输入端;
若所述目标子网包括所述卷积子网和所述全连接子网,则所述卷积子网的输出端连接于所述全连接子网的输入端;
若所述目标子网包括所述注意力子网和所述全连接子网,则所述注意力子网的输出端连接于所述全连接子网的输入端;
若所述目标子网包括所述注意力子网、所述卷积子网和所述全连接子网,则所述注意力子网的输出端连接于所述卷积子网的输入端,所述卷积子网的输出端连接于所述全连接子网的输入端。
优选地,所述注意力子网为Non-Local注意力网络。
优选地,所述直方图头部网络设置于所述检测分割头部网络中,并连接于所述特征提取网络的输出端。
优选地,所述直方图头部网络设置于所述检测分割头部网络中,并连接于所述检测分割头部网络中的分割头部网络的输出端,所述分割头部网络连接于所述特征提取网络的输出端。
优选地,所述特征提取网络包括:
骨干网络,用于提取所述图像中的高阶语义特征;
特征金字塔,用于处理高阶语义特征,以输出不同尺度的特征图;
目标区域提取网络,用于处理所述特征图,以输出所述多个候选框。
优选地,所述损失计算模块具体用于:基于所述预测直方图和所述图像的标签直方图的距离确定所述直方图损失值;所述预测直方图和所述标签直方图的距离为:欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、余弦距离、汉明距离、杰卡德距离、相关距离和信息熵中的任一种或组合。
第二方面,本申请提供了一种实例分割网络的训练方法,包括:
利用特征提取网络对图像进行处理,以获得多个候选框;
利用检测分割头部网络对所述多个候选框携带的时域信息进行处理,以输出所述图像中的各个目标;
利用直方图头部网络对所述多个候选框携带的频域信息进行处理,以输出预测直方图;
利用损失计算模块计算所述目标的目标损失值和所述预测直方图的直方图损失值,并基于所述目标损失值和所述直方图损失值优化所述特征提取网络、所述检测分割头部网络和所述直方图头部网络分别对应的训练参数。
第三方面,本申请提供了一种实例分割网络,所述实例分割网络利用上述所述的训练方法训练获得。
通过以上方案可知,本申请提供了一种实例分割网络的训练模型,包括:特征提取网络、检测分割头部网络、直方图头部网络和损失计算模块,其中;所述特征提取网络,用于对图像进行处理,以获得多个候选框;所述检测分割头部网络,用于对所述多个候选框携带的时域信息进行处理,以输出所述图像中的各个目标;所述直方图头部网络,用于对所述多个候选框携带的频域信息进行处理,以输出预测直方图;所述损失计算模块,用于计算所述目标的目标损失值和所述预测直方图的直方图损失值,并基于所述目标损失值和所述直方图损失值优化所述特征提取网络、所述检测分割头部网络和所述直方图头部网络分别对应的训练参数。
可见,本申请提供的实例分割网络的训练模型能够对图像的时域信息和频域信息同时进行训练,因此增加了训练过程中的信息量,同时以时域信息和频域信息分别针对的损失值优化训练参数,可以提高训练精度,因此可以提高实例分割网络的计算精度和分割性能。
相应地,本申请提供的一种实例分割网络的训练方法和一种实例分割网络,也同样具有上述技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的第一种实例分割网络的训练模型示意图;
图2为本申请公开的第一种直方图头部网络的结构示意图;
图3为本申请公开的第二种直方图头部网络的结构示意图;
图4为本申请公开的第三种直方图头部网络的结构示意图;
图5为本申请公开的第四种直方图头部网络的结构示意图;
图6为本申请公开的第一种检测分割头部网络的结构示意图;
图7为本申请公开的第二种检测分割头部网络的结构示意图;
图8为本申请公开的一种特征提取网络的结构示意图;
图9为本申请公开的第二种实例分割网络的训练模型示意图;
图10为本申请公开的一种Non-Local注意力网络的结构示意图;
图11为本申请公开的第三种实例分割网络的训练模型示意图;
图12为本申请公开的一种预测直方图示意图;
图13为本申请公开的一种实例分割网络的训练方法流程图;
图14为本申请公开的一种Mask-RCNN的结构示意图;
图15为本申请公开的一种利用实例分割网络对街景图像进行实例分割的结果示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,现有的实例分割网络一般用图像的时域信息进行监督训练。对于图像中的小目标而言,时域信息可表征的信息量较少,因此参与训练的特征较少,模型的训练精度可能不足,导致分割性能有所降低。为此,本申请提供了一种模型训练方案,能够提高实例分割网络的训练精度。
参见图1所示,本申请实施例公开了第一种实例分割网络的训练模型,包括:特征提取网络、检测分割头部网络、直方图头部网络和损失计算模块,其中;
特征提取网络,用于对图像进行处理,以获得多个候选框;
检测分割头部网络,用于对多个候选框携带的时域信息进行处理,以输出图像中的各个目标;
直方图头部网络,用于对多个候选框携带的频域信息进行处理,以输出预测直方图;
损失计算模块,用于计算目标的目标损失值和预测直方图的直方图损失值,并基于目标损失值和直方图损失值优化特征提取网络、检测分割头部网络和直方图头部网络分别对应的训练参数。
在本实施例中,直方图头部网络的输入数据(即多个候选框携带的频域信息)为:特征提取网络的输出数据或者检测分割头部网络中的分割头部网络的输出数据。
在一种具体实施方式中,直方图头部网络包括:目标子网和输出层;目标子网包括注意力子网、包括至少一个卷积层的卷积子网、包括至少一个全连接层的全连接子网中的任一个或组合;注意力子网和/或卷积子网,用于确定各个候选框中不同像素点之间的关系,并根据关系生成关系频域信息;全连接子网,用于提取各个候选框中的特征频域信息;输出层,用于根据关系频域信息和/或特征频域信息生成预测直方图。
其中,注意力网络可以对图像中的全局像素点的关系进行建模,卷积网络可以处理邻域信息(即相邻像素点之间的关系);全连接网络为多层感知机,可以输出生成预测直方图所需的初步信息。
在一种具体实施方式中,若目标子网包括注意力子网和卷积子网,则注意力子网的输出端连接于卷积子网的输入端,此时直方图头部网络的结构请参见图2。若目标子网包括卷积子网和全连接子网,则卷积子网的输出端连接于全连接子网的输入端,此时直方图头部网络的结构请参见图3。若目标子网包括注意力子网和全连接子网,则注意力子网的输出端连接于全连接子网的输入端,此时直方图头部网络的结构请参见图4。若目标子网包括注意力子网、卷积子网和全连接子网,则注意力子网的输出端连接于卷积子网的输入端,卷积子网的输出端连接于全连接子网的输入端,此时直方图头部网络的结构请参见图5。
在一种具体实施方式中,注意力子网为Non-Local注意力网络。
需要说明的是,直方图头部网络可以设置在检测分割头部网络中,也可以设置在检测分割头部网络外,也就是特征提取网络、检测分割头部网络、直方图头部网络和损失计算模块并列设置。
其中,若直方图头部网络设置在检测分割头部网络中,则可以有如下两种方式:
方式一:直方图头部网络与检测分割头部网络中的其他网络并列设置。因此在一种具体实施方式中,直方图头部网络设置于检测分割头部网络中,并连接于特征提取网络的输出端。此方式中,检测分割头部网络包括:分类头部网络、检测头部网络、分割头部网络和直方图头部网络;分类头部网络、检测头部网络、分割头部网络和直方图头部网络并列连接于特征提取网络的输出端,此时检测分割头部网络的结构请参见图6。
方式二:直方图头部网络连接于检测分割头部网络中的分割头部网络的后面。因此在一种具体实施方式中,直方图头部网络设置于检测分割头部网络中,并连接于检测分割头部网络中的分割头部网络的输出端,且分割头部网络连接于特征提取网络的输出端。此方式中,检测分割头部网络包括:分类头部网络、检测头部网络、分割头部网络和直方图头部网络;分类头部网络、检测头部网络和分割头部网络并列连接于特征提取网络的输出端;直方图头部网络连接于分割头部网络的输出端,此时检测分割头部网络的结构请参见图7。
在图6和图7中,F表示检测分割头部网络。
其中,若特征提取网络、检测分割头部网络、直方图头部网络和损失计算模块并列设置,则训练模型的结构可参见图1。在图1中,直方图头部网络的输入数据为:特征提取网络的输出数据或者检测分割头部网络中的分割头部网络的输出数据。
在一种具体实施方式中,特征提取网络包括:骨干网络,用于提取图像中的高阶语义特征;特征金字塔,用于处理高阶语义特征,以输出不同尺度的特征图;目标区域提取网络,用于处理特征图,以输出多个候选框。特征提取网络的结构请参见图8。
在一种具体实施方式中,损失计算模块具体用于:基于预测直方图和图像的标签直方图的距离确定直方图损失值;预测直方图和标签直方图的距离为:欧氏距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)、切比雪夫距离(ChebyshevDistance)、闵可夫斯基距离(Minkowski Distance)、标准化欧氏距离(StandardizedEuclidean Distance)、马氏距离(Mahalanobis Distance)、余弦距离(Cosine Distance)、汉明距离(Hamming Distance)、杰卡德距离(Jaccard Distance)、相关距离(Correlationdistance)、信息熵(Information Entropy)中的任一种或组合。其中,标签直方图通过统计Mask标签内图像的像素值分布获得。损失值指:任一个网络的输出数据与相应标签数据之间的距离(即loss)用于误差后向传播。
可见,本实施例能够对图像的时域信息和频域信息同时进行训练,因此增加了训练过程中的信息量,同时以时域信息和频域信息分别针对的损失值优化训练参数,可以提高训练精度,因此可以提高实例分割网络的计算精度和分割性能。
参见图9所示,本申请实施例公开了第二种实例分割网络的训练模型,包括:骨干网络,特征金字塔,目标区域提取网络、检测分割头部网络和损失计算模块,其中,检测分割头部网络包括:分类头部网络、检测头部网络、分割头部网络,连接在分割头部网络输出端的直方图头部网络。
在本实施例中,分类头部网络、检测头部网络、分割头部网络的输入数据相同,均为目标区域提取网络的输出数据。
需要说明的是,分类头部网络用于输出图像的类别,检测头部网络用于输出图像中的各个目标在图像中的位置(一般用坐标值表示),分割头部网络用于输出图像中的各个目标所占用的像素,直方图头部网络用于输出预测直方图。并且,分类头部网络、检测头部网络、分割头部网络、直方图头部网络均对应一个损失值,因此损失计算模块会计算获得4个损失值,且基于这4个损失值分别对应优化分类头部网络、检测头部网络、分割头部网络、直方图头部网络分别对应的相关参数。此时优化分类头部网络、检测头部网络、分割头部网络、直方图头部网络即为优化检测分割头部网络的训练参数。其中,分类头部网络、检测头部网络、分割头部网络分别对应的损失值可综合处理为目标损失值,直方图头部网络对应的损失值为直方图损失值。
其中,直方图头部网络连接于检测分割头部网络中的分割头部网络的后面,可以提高预测直方图的精度,但可能会影响分割头部网络的精度。因为直方图头部网络以分割头部网络的输出数据作为输入数据,由于数据已经经过了分割处理,因此为直方图头部网络的处理提供了方便,但由于直方图头部网络和分割头部网络各自优化的方向不一致,因此直方图头部网络优化时,会影响到分割头部网络的优化。本说明书提及的优化均指代各个网络组成部分的相关训练参数的优化。
本实施例中的训练模型的各个组成部分的作用及数据处理逻辑可参见上述实施例,本实施例不再赘述。其中的注意力子网为Non-Local注意力网络,Non-Local注意力网络的结构请参见图10。
可见,本实施例提供的训练模型能够对图像的时域信息和频域信息同时进行训练,因此增加了训练过程中的信息量,同时以时域信息和频域信息分别针对的损失值优化训练参数,可以提高训练精度,因此可以提高实例分割网络的计算精度和分割性能。
参见图11所示,本申请实施例公开了第三种实例分割网络的训练模型,包括:骨干网络,特征金字塔,目标区域提取网络以及检测分割头部网络,其中,检测分割头部网络包括:并列设置的分类头部网络、检测头部网络、分割头部网络和直方图头部网络。
在本实施例中,分类头部网络、检测头部网络、分割头部网络和直方图头部网络的输入数据相同,均为目标区域提取网络的输出数据。
需要说明的是,分类头部网络用于输出图像的类别,检测头部网络用于输出图像中的各个目标在图像中的位置(一般用坐标值表示),分割头部网络用于输出图像中的各个目标所占用的像素,直方图头部网络用于输出预测直方图。并且,分类头部网络、检测头部网络、分割头部网络、直方图头部网络均对应一个损失值,因此损失计算模块会计算获得4个损失值,且基于这4个损失值分别对应优化分类头部网络、检测头部网络、分割头部网络、直方图头部网络分别对应的相关参数。此时优化分类头部网络、检测头部网络、分割头部网络、直方图头部网络即为优化检测分割头部网络的训练参数。其中,分类头部网络、检测头部网络、分割头部网络分别对应的损失值可综合处理为目标损失值,直方图头部网络对应的损失值为直方图损失值。
其中,直方图头部网络与检测分割头部网络中的其他网络并列设置,不会其他网络的优化方向,也就不会影响其他网络的精度,但探索空间大,预测难度较高。本说明书提及的优化均指代各个网络组成部分的相关训练参数的优化。
其中,直方图头部网络输出的预测直方图可参见图12。在图12中,横轴表示像素值大小,纵轴表示落入各个像素值范围的像素点多少。
直方图(Histogram)又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。
直方图是数值数据分布的精确图形表示。这是一个连续变量的概率分布的估计,是一种条形图。为了构建直方图,第一步是将图像中的所有像素点按照像素值大小进行分段,即分成一系列间隔,然后计算每个间隔中有多少个像素点。间隔必须相邻,并且通常是(但不是必须的)相等的大小。直方图也可以被归一化,以显示“相对”频率,它就可以显示属于某几个类别的案例的比例。
本实施例中的训练模型的各个组成部分的作用及数据处理逻辑可参见上述实施例,本实施例不再赘述。
可见,本实施例通过设计直方图头部网络,给训练过程添加了直方图监督信息,使得训练模型能够对图像的时域信息和频域信息同时进行训练,因此增加了训练过程中的信息量,同时以时域信息和频域信息分别针对的损失值优化训练参数,可以提高训练精度,因此可以提高实例分割网络的计算精度和分割性能。
下面对本申请实施例提供的一种实例分割网络的训练方法进行介绍,下文描述的一种实例分割网络的训练方法与上文描述的一种实例分割网络的训练模型可以相互参照。
参见图13所示,本申请实施例公开了一种实例分割网络的训练方法,包括:
S1301、利用特征提取网络对图像进行处理,以获得多个候选框;
S1302、利用检测分割头部网络对多个候选框携带的时域信息进行处理,以输出图像中的各个目标;
S1303、利用直方图头部网络对多个候选框携带的频域信息进行处理,以输出预测直方图;
S1304、利用损失计算模块计算目标的目标损失值和预测直方图的直方图损失值,并基于目标损失值和直方图损失值优化特征提取网络、检测分割头部网络和直方图头部网络分别对应的训练参数。
可见,本实施例通过设计直方图头部网络,给训练过程添加了直方图监督信息,使得训练模型能够对图像的时域信息和频域信息同时进行训练,因此增加了训练过程中的信息量,同时以时域信息和频域信息分别针对的损失值优化训练参数,可以提高训练精度,因此可以提高实例分割网络的计算精度和分割性能。
下面对本申请实施例提供的一种实例分割网络进行介绍,下文描述的一种实例分割网络与上文描述的一种实例分割网络的训练模型及训练方法可以相互参照。
本申请实施例公开了一种实例分割网络,该实例分割网络利用上述实施例公开的训练方法训练获得。
其中,实例分割网络用于区分图像中不同目标的位置和像素,具体可参照MaskRCNN。Mask-RCNN通过增加不同的分支可以完成目标分类,目标检测,语义分割,实例分割,人体姿态估计等多种任务。对于实例分割来讲,就是在Faster-RCNN的基础上(分类+回归分支)增加了一个分支用于语义分割,其结构如图14所示。Mask RCNN是一种现有的实例分割网络。
如图15所示,利用实例分割网络对街景图像进行实例分割,可以确定图像中各个目标的位置、类别以及像素分布。当然,利用实例分割网络也可以对其他图像(如:医学X光片等)进行实例分割。
其中,在实例分割网络的训练模型中,添加了直方图头部网络,因此给训练过程添加了直方图监督信息,使得训练模型能够对图像的时域信息和频域信息同时进行训练,因此增加了训练过程中的信息量,同时以时域信息和频域信息分别针对的损失值优化训练参数,可以提高训练精度,因此可以提高实例分割网络的计算精度和分割性能。
在训练完成后,应用于实际的实例分割网络可以包括:训练完成的骨干网络,特征金字塔,目标区域提取网络以及检测分割头部网络,其中,检测分割头部网络包括:并列设置的分类头部网络、检测头部网络、分割头部网络;即:删除训练模型中的直方图头部网络和损失计算模块,即可获得可用的实例分割网络。若该实例分割网络用于对街景图像进行实例分割,则其中的骨干网络用于提取街景图像中的高阶语义特征;特征金字塔用于处理高阶语义特征,以输出不同尺度的特征图;目标区域提取网络用于处理特征图,以输出多个候选框。检测分割头部网络中的分类头部网络、检测头部网络、分割头部网络分别对多个候选框进行处理,以输出图像中各个目标的类别、位置和像素分布。
当然,也可以仅删除训练模型中的损失计算模块来获得可用的实例分割网络,此时,实例分割网络在实际应用过程中还可以输出直方图信息。
可见,本实施例实例分割网络在训练过程中,同时使用了时域信息和频域信息,因此增加了训练过程中的信息量,同时以时域信息和频域信息分别针对的损失值优化训练参数,可以提高训练精度,因此可以提高实例分割网络的计算精度和分割性能。
本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种实例分割网络的训练模型,其特征在于,包括:特征提取网络、检测分割头部网络、直方图头部网络和损失计算模块,其中;
所述特征提取网络,用于对图像进行处理,以获得多个候选框;
所述检测分割头部网络,用于对所述多个候选框携带的时域信息进行处理,以输出所述图像中的各个目标;
所述直方图头部网络,用于对所述多个候选框携带的频域信息进行处理,以输出预测直方图;
所述损失计算模块,用于计算所述目标的目标损失值和所述预测直方图的直方图损失值,并基于所述目标损失值和所述直方图损失值优化所述特征提取网络、所述检测分割头部网络和所述直方图头部网络分别对应的训练参数。
2.根据权利要求1所述的实例分割网络的训练模型,其特征在于,
所述直方图头部网络包括:目标子网和输出层;
所述目标子网包括注意力子网、包括至少一个卷积层的卷积子网、包括至少一个全连接层的全连接子网中的任一个或组合;
所述注意力子网和/或所述卷积子网,用于确定各个候选框中不同像素点之间的关系,并根据所述关系生成关系频域信息;
所述全连接子网,用于提取各个候选框中的特征频域信息;
所述输出层,用于根据所述关系频域信息和/或所述特征频域信息生成所述预测直方图。
3.根据权利要求2所述的实例分割网络的训练模型,其特征在于,
若所述目标子网包括所述注意力子网和所述卷积子网,则所述注意力子网的输出端连接于所述卷积子网的输入端;
若所述目标子网包括所述卷积子网和所述全连接子网,则所述卷积子网的输出端连接于所述全连接子网的输入端;
若所述目标子网包括所述注意力子网和所述全连接子网,则所述注意力子网的输出端连接于所述全连接子网的输入端;
若所述目标子网包括所述注意力子网、所述卷积子网和所述全连接子网,则所述注意力子网的输出端连接于所述卷积子网的输入端,所述卷积子网的输出端连接于所述全连接子网的输入端。
4.根据权利要求2所述的实例分割网络的训练模型,其特征在于,所述注意力子网为Non-Local注意力网络。
5.根据权利要求1所述的实例分割网络的训练模型,其特征在于,
所述直方图头部网络设置于所述检测分割头部网络中,并连接于所述特征提取网络的输出端。
6.根据权利要求1所述的实例分割网络的训练模型,其特征在于,
所述直方图头部网络设置于所述检测分割头部网络中,并连接于所述检测分割头部网络中的分割头部网络的输出端,所述分割头部网络连接于所述特征提取网络的输出端。
7.根据权利要求5或6所述的实例分割网络的训练模型,其特征在于,所述特征提取网络包括:
骨干网络,用于提取所述图像中的高阶语义特征;
特征金字塔,用于处理高阶语义特征,以输出不同尺度的特征图;
目标区域提取网络,用于处理所述特征图,以输出所述多个候选框。
8.根据权利要求1所述的实例分割网络的训练模型,其特征在于,所述损失计算模块具体用于:
基于所述预测直方图和所述图像的标签直方图的距离确定所述直方图损失值;
所述预测直方图和所述标签直方图的距离为:欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、余弦距离、汉明距离、杰卡德距离、相关距离和信息熵中的任一种或组合。
9.一种实例分割网络的训练方法,其特征在于,包括:
利用特征提取网络对图像进行处理,以获得多个候选框;
利用检测分割头部网络对所述多个候选框携带的时域信息进行处理,以输出所述图像中的各个目标;
利用直方图头部网络对所述多个候选框携带的频域信息进行处理,以输出预测直方图;
利用损失计算模块计算所述目标的目标损失值和所述预测直方图的直方图损失值,并基于所述目标损失值和所述直方图损失值优化所述特征提取网络、所述检测分割头部网络和所述直方图头部网络分别对应的训练参数。
10.一种实例分割网络,其特征在于,所述实例分割网络利用如权利要求9所述的训练方法训练获得。
CN202010745430.1A 2020-07-29 2020-07-29 用于实例分割的模型及训练方法,实例分割网络 Active CN112001401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010745430.1A CN112001401B (zh) 2020-07-29 2020-07-29 用于实例分割的模型及训练方法,实例分割网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010745430.1A CN112001401B (zh) 2020-07-29 2020-07-29 用于实例分割的模型及训练方法,实例分割网络

Publications (2)

Publication Number Publication Date
CN112001401A true CN112001401A (zh) 2020-11-27
CN112001401B CN112001401B (zh) 2022-12-09

Family

ID=73462526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010745430.1A Active CN112001401B (zh) 2020-07-29 2020-07-29 用于实例分割的模型及训练方法,实例分割网络

Country Status (1)

Country Link
CN (1) CN112001401B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095133A (zh) * 2021-03-04 2021-07-09 北京迈格威科技有限公司 模型训练方法、目标检测方法及对应装置
CN113822287A (zh) * 2021-11-19 2021-12-21 苏州浪潮智能科技有限公司 一种图像处理方法、系统、设备以及介质
CN113902743A (zh) * 2021-12-08 2022-01-07 武汉爱眼帮科技有限公司 一种基于云端计算的糖尿病视网膜病变的识别方法及装置
CN117437425A (zh) * 2023-12-21 2024-01-23 深圳思谋信息科技有限公司 语义分割方法、装置、计算机设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447169A (zh) * 2018-11-02 2019-03-08 北京旷视科技有限公司 图像处理方法及其模型的训练方法、装置和电子系统
CN110148148A (zh) * 2019-03-01 2019-08-20 北京纵目安驰智能科技有限公司 一种基于目标检测的下边缘检测模型的训练方法、模型和存储介质
CN110348445A (zh) * 2019-06-06 2019-10-18 华中科技大学 一种融合空洞卷积和边缘信息的实例分割方法
US20200175700A1 (en) * 2018-11-29 2020-06-04 Adobe Inc. Joint Training Technique for Depth Map Generation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447169A (zh) * 2018-11-02 2019-03-08 北京旷视科技有限公司 图像处理方法及其模型的训练方法、装置和电子系统
US20200175700A1 (en) * 2018-11-29 2020-06-04 Adobe Inc. Joint Training Technique for Depth Map Generation
CN110148148A (zh) * 2019-03-01 2019-08-20 北京纵目安驰智能科技有限公司 一种基于目标检测的下边缘检测模型的训练方法、模型和存储介质
CN110348445A (zh) * 2019-06-06 2019-10-18 华中科技大学 一种融合空洞卷积和边缘信息的实例分割方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095133A (zh) * 2021-03-04 2021-07-09 北京迈格威科技有限公司 模型训练方法、目标检测方法及对应装置
CN113095133B (zh) * 2021-03-04 2023-12-29 北京迈格威科技有限公司 模型训练方法、目标检测方法及对应装置
CN113822287A (zh) * 2021-11-19 2021-12-21 苏州浪潮智能科技有限公司 一种图像处理方法、系统、设备以及介质
CN113822287B (zh) * 2021-11-19 2022-02-22 苏州浪潮智能科技有限公司 一种图像处理方法、系统、设备以及介质
US12118771B2 (en) 2021-11-19 2024-10-15 Suzhou Metabrain Intelligent Technology Co., Ltd. Method and system for processing image, device and medium
CN113902743A (zh) * 2021-12-08 2022-01-07 武汉爱眼帮科技有限公司 一种基于云端计算的糖尿病视网膜病变的识别方法及装置
CN117437425A (zh) * 2023-12-21 2024-01-23 深圳思谋信息科技有限公司 语义分割方法、装置、计算机设备及计算机可读存储介质
CN117437425B (zh) * 2023-12-21 2024-03-22 深圳思谋信息科技有限公司 语义分割方法、装置、计算机设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN112001401B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN112001401B (zh) 用于实例分割的模型及训练方法,实例分割网络
CN110245659B (zh) 基于前背景相互关系的图像显著对象分割方法及装置
CN111161311A (zh) 一种基于深度学习的视觉多目标跟踪方法及装置
CN111583220B (zh) 影像数据检测方法和装置
CN110349187A (zh) 基于tsk模糊分类器的目标跟踪方法、装置及存储介质
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN112348828A (zh) 基于神经网络的实例分割方法和装置以及存储介质
CN112989962B (zh) 轨迹生成方法、装置、电子设备及存储介质
CN111639230B (zh) 一种相似视频的筛选方法、装置、设备和存储介质
CN112749726B (zh) 目标检测模型的训练方法、装置、计算机设备和存储介质
EP4053757A1 (en) Degradation suppression program, degradation suppression method, and information processing device
CN112508803B (zh) 一种三维点云数据的去噪方法、装置及存储介质
CN112613349A (zh) 基于深度混合卷积神经网络的时序动作检测方法及装置
CN112131944B (zh) 一种视频行为识别方法及系统
CN112602155A (zh) 生成针对经训练的模型的元数据
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
CN110610202A (zh) 一种图像处理方法及电子设备
Hegde et al. Attentive prototypes for source-free unsupervised domain adaptive 3d object detection
Ramachandra et al. Perceptual metric learning for video anomaly detection
CN117671597B (zh) 一种老鼠检测模型的构建方法和老鼠检测方法及装置
CN112560856B (zh) 车牌检测识别方法、装置、设备及存储介质
Peng et al. Hers superpixels: Deep affinity learning for hierarchical entropy rate segmentation
CN115187884A (zh) 一种高空抛物识别方法、装置、电子设备及存储介质
CN113743293B (zh) 跌倒行为检测方法、装置、电子设备及存储介质
CN111708908B (zh) 视频标签的添加方法及装置、电子设备、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant