CN114863257A - 图像处理方法、装置、设备及存储介质 - Google Patents

图像处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114863257A
CN114863257A CN202210520975.1A CN202210520975A CN114863257A CN 114863257 A CN114863257 A CN 114863257A CN 202210520975 A CN202210520975 A CN 202210520975A CN 114863257 A CN114863257 A CN 114863257A
Authority
CN
China
Prior art keywords
feature
image
position information
target
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210520975.1A
Other languages
English (en)
Inventor
费敬敬
王淏辰
金国强
李韡
吴立威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Priority to CN202210520975.1A priority Critical patent/CN114863257A/zh
Publication of CN114863257A publication Critical patent/CN114863257A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例提供了一种图像处理方法、装置、设备及存储介质。在确定目标图像中各像素点所属的类别时,可以先对目标图像进行目标检测,得到目标图像中不同类别的对象的预测位置信息,可以根据该预测位置信息确定至少一个第二特征,每个第二特征与从目标图像中提取的一个第一特征对应,基于该第一特征和第二特征融合得到融合特征,然后基于融合特征确定目标图像中各像素点所属的类别。其中,根据预测位置信息可以大致确定目标图像中各对象在图像中的位置,通过结合该预测位置信息辅助确定各像素点所属的类别信息,进而确定的各像素点所属的类别也更加准确。

Description

图像处理方法、装置、设备及存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及一种图像处理方法、装置、设备及存储介质。
背景技术
在某些应用场景,需要确定图像中各像素点所属的类别(比如,语义分割),比如,需要确定图像中各像素点是属于人物、天空、还是草地,然后再基于各像素点所属的类别对图像进行后续的处理。准确确定待处理图像中各像素点所属的类别,是提升后续处理的处理精度的前提。因而,有必要提供一种可以准确确定待处理图像中各像素点所属的类别的方案。
发明内容
本公开提供一种图像处理方法、装置、设备及存储介质。
根据本公开实施例的第一方面,提供一种图像处理方法,所述方法包括:
对获取的目标图像进行特征提取,得到至少一个第一特征,所述第一特征与所述目标图像中各像素点所属的对象类别相关;
基于所述目标图像中不同对象类别的对象的预测位置信息,得到至少一个第二特征;其中,所述每一个第二特征对应一个所述第一特征,所述预测位置信息通过对目标图像中的对象进行目标检测得到;
基于所述第一特征与所述第二特征融合得到的融合特征,确定目标图像中各像素点所属的对象类别。
根据本公开实施例的第二方面,提供一种语义分割模型的训练方法,所述方法包括:
获取携带第一标签的样本图像,所述第一标签用于指示所述样本图像中各像素点所属的对象类别;
基于所述第一标签,确定所述样本图像中不同对象类别的对象对应的先验位置信息;
利用预设的初始模型基于所述样本图像和所述先验位置信息,预测所述样本图像中各像素点所属的对象类别,得到预测结果;
基于所述预测结果和所述第一标签确定的目标损失,对所述初始模型进行迭代优化,得到所述语义分割模型。
根据本公开实施例的第三方面,提供一种图像处理装置,所述装置包括:
第一特征提取模块,用于对获取的目标图像进行特征提取,得到至少一个第一特征,所述第一特征与所述目标图像中各像素点所属的对象类别相关;
第二特征提取模块,用于基于所述目标图像中不同对象类别的对象的预测位置信息,得到至少一个第二特征;其中,所述每一个第二特征对应一个所述第一特征,所述预测位置信息通过对目标图像中的对象进行目标检测得到;
分类模块,用于基于所述第一特征与所述第二特征融合得到的融合特征,确定目标图像中各像素点所属的对象类别。
根据本公开实施例的第四方面,提供一种电子设备,所述电子设备包括处理器、存储器、存储在所述存储器可供所述处理器执行的计算机指令,所述处理器执行所述计算机指令时,可实现上述第一方面提及的方法。
根据本公开实施例的第五方面,提供一种计算机可读存储介质,所述存储介质上存储有计算机指令,所述计算机指令被执行时实现上述第一方面提及的方法。
本公开实施例中,在确定目标图像中各像素点所属的类别时,可以从目标图像中提取至少一个第一特征,该第一特征与目标图像中像素点所属对象类别有关,并且可以对目标图像进行目标检测,得到目标图像中不同对象类别的对象的预测位置信息,然后可以根据该预测位置信息从目标图像中提取多个第二特征,每个第二特征对应一个第一特征,然后可以基于第一特征和第二特征融合得到的融合特征,确定目标图像中各像素点所属的类别。其中,根据预测位置信息可以大致确定目标图像中各对象在图像中的位置,根据该预测位置信息确定的第二特征可以表征各第一特征的权重,通过结合该预测位置信息调整从目标图像中提取的第一特征的权重,对第一特征进行修正,使得最终得到的融合特征可以更加准确的反映像素点所属的类别信息,进而基于融合特征确定的各像素点所属的类别也更加准确。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1是本公开实施例的一种图像处理方法的流程图。
图2是本公开实施例的一种图像处理方法的示意图。
图3是本公开实施例的一种训练语义分割模型的示意图。
图4是本公开实施例的一种训练目标检测模型的示意图。
图5(a)是本公开实施例的一种确定对象的图像区域的最大外接矩形的示意图。
图5(b)是本公开实施例的一种将对象的图像区域的最大外接矩形扩大后得到第二检测框的示意图。
图6是本公开实施例的一种将重叠区域分配个一个第二检测框的示意图。
图7是本公开实施例的一种图像处理方法的示意图。
图8是本公开实施例的一种图像处理装置的逻辑结构示意图。
图9是本公开实施例的一种设备的逻辑结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了使本技术领域的人员更好的理解本公开实施例中的技术方案,并使本公开实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本公开实施例中的技术方案作进一步详细的说明。
在某些应用场景,需要确定图像中各像素点所属的类别(比如,语义分割),举个例子,假设有一帧待处理的图像,需要确定该图像中各像素点是属于人物、天空、还是草地,然后再基于各像素点所属的类别对图像进行后续的处理,比如,针对人物、天空、草地区域分别进行不同的色彩校正处理。目前,在确定图像中各像素点所属的类别时,可以先通过大量携带标签的样本图像对神经网络进行有监督的训练,然后利用训练好的神经网络预测待处理的目标图像中各像素点所属的类别,虽然采用这种方式基本上可以准确预测各像素点所属的类别,但是预测结果的精度还有待进一步提高。
基于此,本公开实施例提供了一种图像处理方法,在确定目标图像中各像素点所属的类别时,可以先对目标图像进行目标检测,得到目标图像中不同对象类别的对象对应的预测位置信息,利用该预测位置信息辅助目标图像中像素点的分类。比如,可以根据该预测位置信息确定从目标图像中提取到的多个第一特征对应的第二特征,该第二特征是与各对象所处位置相关的特征,该第二特征本质上可以认为是该第一特征的权重,然后可以基于该多个第一特征和对应的第二特征融合得到融合特征,然后基于融合特征确定目标图像中各像素点所属的类别。其中,根据预测位置信息可以大致确定目标图像中各对象在图像中的位置,通过结合该预测位置信息去调整从目标图像中提取的第一特征的权重,使得最终得到的融合特征可以更加准确的反映像素点所属的类别信息,进而基于融合特征确定的各像素点所属的类别也更加准确。
本公开实施例提供的图像处理方法可以由各种电子设备执行,该电子设备可以是手机、相机、电脑、云端服务器等,本申请实施不做限制。
以下结合图1和图2对本公开实施例提供的图像处理方法进行介绍,其中,图1为本公开实施例提供的图像处理方法的流程图,图2为本公开实施例提供的图像处理方法的示意图。如图1所示,本申请提供的图像处理方法可以包括以下步骤:
S102、对获取的目标图像进行特征提取,得到多个第一特征,所述第一特征与所述目标图像中各像素点所属的类别相关;
在步骤S102中,可以对获取的目标图像进行特征提取,得到多个第一特征。其中,目标图像可以是各种需要确定图像中的像素点所属类别的图像,该目标图像可以是彩色图像,也可以是灰度图像,本申请实施不做限制。
其中,对目标图像进行特征提取可以通过预先训练的特征提取网络实现,比如,可以通过Resnet网络、AlexNet等网络对目标图像进行特征提取,当然,也可以通过其他的方式实现,本公开实施例不做限制。提取到的第一特征为与目标图像中的像素点所属的类别相关的特征,该第一特征可用于判定目标图像中的像素点所属的类别。其中,第一特征可以是通过矩阵、向量或者其他形式表示,本公开实施例不做限制。
S104、基于所述目标图像中不同对象类别的对象的预测位置信息,得到至少一个第二特征;其中,每一个第二特征对应一个所述第一特征,所述预测位置信息通过对目标图像中的对象进行目标检测得到;
在步骤S104中,可以确定目标图像中不同类别的对象对应的预测位置信息,该预测位置信息可以是用于指示各对象在目标图像中的位置的各种信息,比如,预测位置信息可以是各对象对应的检测框,检测框可以是矩形框、也可以是其他形状的检测框,只要可以大致标识各对象在目标图像中的位置即可。比如,以检测框为矩形框为例,该位置信息可以是矩形框四个顶点的像素坐标,以检测框为圆形框为例,该位置信息可以是圆形框的圆心的像素坐标和半径。
其中,该预测位置信息可以预先确定,也可以实时确定。可以对目标图像进行目标检测,得到各对象对应的检测框,进而确定该检测框的位置信息作为该预测位置信息。其中,不同对象对应的预测位置信息可以通过预先训练的目标检测模型确定,或者也可以通过其他方式确定。
在得到预测位置信息后,然后可以基于预测位置信息,从目标图像中确定至少一个第二特征,每个第二特征对应一个第一特征,每个第二特征用于表示对应的第一特征的权重。由于该预测位置信息反映了各对象在图像中的大致位置,因而根据预测位置信息可以初步确定图像中属于不同类别的对象对应的像素区域,进而可以基于该先验信息确定提取到的多个第一特征的可靠程度,以确定多个第一特征各自对应的权重,即第二特征。其中,在一些实施例中,通过预测位置信息确定多个第一特征各自对应的第二特征可以通过预先训练的神经网络确定。
S106、基于所述第一特征与所述第二特征融合得到的融合特征,确定目标图像中各像素点所属的对象类别。
在得到第二特征后,可以基于第一特征和第二特征融合得到融合特征,然后可以基于融合特征确定目标图像中各像素点所属的类别。然后可以进一步的基于各像素点所属的类别对目标图像进行后续的处理。
由于各第一特征对应的第二特征表示该第一特征的权重,因而可以根据确定权重对第一特征进行融合处理,得到融合特征。通过在第一特征中融入基于各对象对应的预测位置信息提取到的第二特征,可以使得基于两者融合得到的融合特征可以更加准确的反映图像中各像素点的类别信息,从而根据融合特征确定的目标图像中的各像素点所属的类别也更加准确。
在一些实施例中,上述图像处理方法可以通过预先训练的语义分割模型执行。如图3所示,通过将目标图像和目标图像中不同类别的对象对应的预测位置信息输入到该语义分割模型中,即可以通过该语义分割模型输出目标图像中各像素点所属的类别。
其中,该语义分割模型的训练过程如图3所示,可以获取大量携带第一标签的样本图像,其中,第一标签用于指示样本图像中各像素点所属类别。第一标签可以由用户对样本图像中各像素点所属的类别进行标注得到。在获取到样本图像后,可以基于该第一标签确定样本图像中不同类别的对象对应的先验位置信息,该先验位置信息可以是用于指示各对象在样本图像中的位置的各种信息,比如,先验位置信息可以是各对象对应的检测框。同理,每个对象对应的检测框可以是矩形框、也可以是其他形状的检测框,只要可以标识各对象在样本图像中大致的位置即可。由于第一标签指示了每个像素点所属的类别,因而,可以基于第一标签确定属于每个类别的像素点集合对应的图像区域,进而,基于该图像区域确定不同类别的对象对应的先验位置信息。
在确定各对象对应的先验位置信息后,可以将样本图像和先验位置信息输入到预设的初始模型中,模型可以基于样本图像和先验位置信息得到预测结果,即样本图像中各像素点属于预设的各个对象类别的概率,然后可以基于模型输出的预测结果与第一标签的差异确定目标损失,基于该目标损失不断调整模型参数,训练得到该语义分割模型。
在一些实施例中,可以预先训练目标检测模型,通过目标检测模型预测目标图像中不同类别的对象对应的预测位置信息。如图4所示,为目标检测模型的训练过程的示意图,在训练目标检测模型时,可以获取大量携带第一标签的样本图像,其中,第一标签用于指示样本图像中各像素点所属的类别。第一标签可以由用户对样本图像中各像素点所属的类别进行标注得到。以先验位置信息用各对象对应的检测框的位置信息表示为例,在获取到样本图像后,可以基于该第一标签确定样本图像中不同类别的对象对应的检测框。由于第一标签指示了每个像素点所属的类别,因而,可以基于第一标签确定属于每个类别的像素点集合对应的图像区域,进而,基于该图像区域确定不同类别的对象对应的检测框。
在得到样本图像中不同类别的对象对应的检测框后,可以将检测框在样本图像中的位置信息作为该先验位置信息,并将该先验位置信息作为样本图像的第二标签。然后利用样本图像和第二标签训练得到目标检测模型。比如,可以将样本图像输入到预设的初始模型中,通过模型输出的各对象的位置信息,然后利用模型输出的位置信息和第二标签指示的位置信息之间的差异作为目标损失,不断调整模型中的参数,以训练得到目标检测模型。
在一些实施例中,在基于第一标签确定样本图像中不同类别的对象对应的先验位置信息时,可以针对样本图像中的每个对象,根据该第一标签确定该对象在样本图像中的图像区域,然后根据该图像区域确定该对象对应的检测框,其中,该检测框可以覆盖该图像区域。比如,可以确定该对象的像素点构成的图像区域,基于该图像区域确定一个可覆盖该图像区域的矩形框、圆形框或者多边形框,然后将所确定的矩形框、圆形框或者多边形框作为该对象对应的检测框。在确定各对象对应的检测框后,则可以将该检测框的位置信息作为先验位置信息。
在一些实施例中,如图5(a)所示,在基于各对象在样本图像中的图像区域确定各对象对应的检测框时,可以确定该图像区域对应的最小外接矩形,然后可以将该最小外接矩形作为每个对象对应的检测框。通过确定最小外接矩形,可以确保检测框既可以覆盖该对象,同时又不会包括过多的其他对象对应的区域。
在一些实施例中,如图5(b)所示,为了确保每个对象对应的检测框可以完全覆盖该对象的图像区域,在确定最小外接矩形后,还可以按预设的比例将该最小外接矩形向周围扩大得到目标矩形框,然后将该目标矩形作为该检测框。
在一些实施例中,如图6所示,样本图像中可能包括多个不同类别的对象,这多个对象对应的检测框存在重叠区域。由于每个图像区域只可能是属于一种类别,因而针对存在重叠区域的多个检测框,可以将该重叠区域分配给其中一个检测框,并缩小该多个检测框中的其他检测框的大小,直至该重叠区域位于所述其他检测框以外。即将重叠区域分配给其中一个检测框后,可以将其他检测框中该重叠区域部分剔除,使得最终得到的各对象对应的检测框不重叠。
在一些实施例中,在将重叠区域分配给其中一个检测框时,可以针对存在重叠区域的多个检测框,分别确定每个检测框的中心与该重叠区域的中心的距离,然后将该重叠区域分配给上述距离最小的检测框。通过将重叠区域分配给距离较近的检测框,可以确保尽可能准确的对检测框进行分配。如图6所示,重叠区域的中心与中间这个矩形框的中心距离最近,因而,将重叠区域分配给中间这个矩形框,然后减小左边矩形框,使重叠区域位于该矩形框外,从而得到样本图像中各对象最终对应的检测框。
在一些实施例中,在基于目标图像中不同类别的对象对应的预测位置信息,得到至少一个第二特征时,可以先基于预测位置信息确定掩码图像。其中,掩码图像可以看作是该目标图像的一个粗略的标签信息,用于指示各像素点的类别。该掩码图像中属于同一个对象类别的对象的像素点的像素值一致,且属于不同对象类别的对象的像素点的像素值各不相同。以预测位置信息用对象对应的检测框的位置信息表示为例,同一个检测内表示同一个类别的对象,因而可以一种像素值标识,不同的检测框标表示不同类别的对象,因而,可以通过设置不同的像素值加以区分。在得到掩码图后,可以对掩码图像进行最大池化处理以及平均池化处理,并将最大池化处理得到的特征A与平均池化处理得到的特征B拼接,得到拼接后的特征AB;对拼接后的特征进行卷积处理,得到提取到的至少一个第二特征。其中,最大池化处理和平均吃池化处理可以并行执行。通过对目标图像中各对象对应的预测位置信息进行特征提取,将其转化为有价值的信息,以辅助对目标图像中各像素点进行分类,可以得到更加准确的分类结果。
在一些实施例中,在基于第一特征与第二特征融合得到的融合特征,并基于融合特征确定目标图像中各像素点所属的对象类别时,可以将每个第一特征与各自对应的第二特征相乘,并对相乘后得到的结果进行卷积处理,然后对卷积处理得到的各特征进行融合,得到融合特征,比如,可以将卷积处理后得到的各特征输入的预先构建的FPN(FeaturePyramid Networks:特征金字塔结构)中,通过FPN对各层次的特征进行融合,得到融合特征,然后可以对融合特征进行解码处理,得到目标图像中各像素点所属的对象类别。
此外,本公开实施例还提供了一种语义分割模型的训练方法,该方法可以包括以下步骤:
获取携带第一标签的样本图像,所述第一标签用于指示所述样本图像中各像素点所属的对象类别;
基于所述第一标签,确定所述样本图像中不同对象类别的对象对应的先验位置信息;
利用预设的初始模型基于所述样本图像和所述先验位置信息,预测所述样本图像中各像素点所属的对象类别,得到预测结果;
基于所述预测结果和所述第一标签确定的目标损失,对所述初始模型进行迭代优化,得到所述语义分割模型。
其中,语义分割模型的训练方法的具体实现细节可参考上述实施例中的描述,在此不再赘述。
为了进一步解释本公开实施例提供的图像处理方法,以下结合一个具体的实施例加以解释。
为了更加准确的预测图像中各像素点所属的类别,本实施例训练了一种语义分割模型,通过该语义分割模型可以更加准确的确定图像中各像素点所属的类别。其中,整个方法的包括模型的训练阶段和推理阶段,以下结合图7分别对这两个阶段进行解释。
1、模型训练阶段
模型训练阶段可以利用携带第一标签的样本图像训练用于预测图像中各像素点所属类别的语义分割模型,以及用于预测图像中不同类别的对象对应的检测框的位置信息的目标检测模型,具体包括以下步骤:
(1)确定样本图像中不同类别的对象对应的第二检测框
可以获取大量携带第一标签的样本图像,第一标签用于指示样本图像中各像素点所属的类别。针对样本图像中的每个对象,可以基于第一标签确定该对象在样本图像中对应的图像区域,并确定该图像区域对应的最小外接矩形,然后按照一定的比例将该最小外接矩形向周围扩展,得到该对象对应的第二检测框。
其中,如果各对象对应的第二检测框存在重叠区域,则针对存在重叠区域的多个第二检测框,可以确定重叠区域的中心和该多个第二检测框的中心的距离,将该重叠区域划分给上述距离最小的第二检测框,并缩小其他第二检测框,将重叠区域从其他第二检测框中剔除,从而得到各第二对象最终对应的第二检测框,这些第二检测框不重叠。
(2)语义分割模型的训练
在确定样本图像中不同类别对象对应的第二检测框后,可以将该样本图像、该第二检测框在样本图像中的位置信息输入到预设的初始模型中,该初始模型可以包括一个主干网络,比如,主干网络可以是ResNet网络,通过主干网络对样本图像进行特征提取,得到多个特征。此外,该初始模型中还可以包括一个注意力机制网络,该注意力机制网络用于将对第二检测框的位置信息进行进一步处理,将其转化为有价值的信息,用于模型的训练。比如,该注意力机制网络可以并行地对基于第二检测框的位置信息得到的掩码图像进行最大池化处理和平均池化处理,将池化后的两个特征进行拼接,然后上采样到一定的尺寸,送入sigmoid等激活函数中,然后进行一系列的卷积,得到上述多个特征对应的权重,然后利用该权重对主干网络提取到的多个特征进行加权融合,得到最终的特征,并基于最终的特征预测样本图像中各像素点所属的类别。然后可以基于样本图像的预测结果以及样本图像对应的第一标签之间的差异不断调整模型的参数,以训练得到语义分割模型。
(3)目标检测模型的训练
由于在利用训练的语义分割模型预测目标图像中各像素点所属的类别时,可以同时输入图像中各对象的检测框的位置信息,辅助确定各像素点的类别。因此,可以复用上述样本图像训练一个目标检测模型,用于确定图像中各对象对应的检测框。比如,在确定样本图像中各对象对应的第二检测框后,可以将该第二检测框的位置信息作为样本图像的第二标签,利用携带该第二标签的样本图像训练预设的初始模型,得到目标检测模型。其中,该初始模型可以是Faster RCNN、RetinaNet等网络。比如,可以将样本图像输入到初始模型中,基于模型输出的各对象对应的第二检测框的位置信息和该标签的差异不断调整模型的参数,得到目标检测模型。
2、模型推理阶段
(1)利用目标检测模型确定待处理的目标图像中各对象对应的第一检测框的位置信息
在获取到待处理的目标图像后,可以将目标图像输入到目标检测模型中,通过目标检测模型输出目标图像中各对象对应的第一检测框的位置信息。
(2)利用语义分割模型确定目标图像中各像素点所属的类别
在确定目标图像中各对象对应的第一检测框的位置信息后,可以将该位置信息以及目标图像输入到语义分割模型中,由语义分割模型输出目标图像中各像素点所属的类别。
其中,不难理解,上述各实施例中的描述的方案在不存在冲突的情况,可以进行组合,本公开实施例中不一一例举。
相应的,本公开实施例还提供了一种图像处理装置,如图8所示,所述装置包括:
第一特征提取模块81,用于对获取的目标图像进行特征提取,得到至少一个第一特征,所述第一特征与所述目标图像中各像素点所属的对象类别相关;
第二特征提取模块82,用于基于所述目标图像中不同对象类别的对象的预测位置信息,得到至少一个第二特征;其中,所述每一个第二特征对应一个所述第一特征,所述预测位置信息通过对目标图像中的对象进行目标检测得到;
分类模块83,用于基于所述第一特征与所述第二特征融合得到的融合特征,确定目标图像中各像素点所属的对象类别。
其中,上述装置执行图像处理方法的具体步骤可以参考上述方法实施例中的描述,在此不再赘述。
进一步的,本公开实施例还提供一种设备,如图9所示,所述设备包括处理器91、存储器92、存储于所述存储器92可供所述处理器91执行的计算机指令,所述处理器91执行所述计算机指令时实现上述实施例中任一项所述的方法。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一实施例所述的方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本公开实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本公开实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本公开涉及增强现实领域,通过获取现实环境中的目标对象的图像信息,进而借助各类视觉相关算法实现对目标对象的相关特征、状态及属性进行检测或识别处理,从而得到与具体应用匹配的虚拟与现实相结合的AR效果。示例性的,目标对象可涉及与人体相关的脸部、肢体、手势、动作等,或者与物体相关的标识物、标志物,或者与场馆或场所相关的沙盘、展示区域或展示物品等。视觉相关算法可涉及视觉定位、SLAM、三维重建、图像注册、背景分割、对象的关键点提取及跟踪、对象的位姿或深度检测等。具体应用不仅可以涉及跟真实场景或物品相关的导览、导航、讲解、重建、虚拟效果叠加展示等交互场景,还可以涉及与人相关的特效处理,比如,妆容美化、肢体美化、特效展示、虚拟模型展示等交互场景。可通过卷积神经网络,实现对目标对象的相关特征、状态及属性进行检测或识别处理。上述卷积神经网络是基于深度学习框架进行模型训练而得到的网络模型。
以上所述仅是本公开实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本公开实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本公开实施例的保护范围。

Claims (12)

1.一种图像处理方法,其特征在于,所述方法包括:
对获取的目标图像进行特征提取,得到至少一个第一特征,所述第一特征与所述目标图像中各像素点所属的对象类别相关;
基于所述目标图像中不同对象类别的对象的预测位置信息,得到至少一个第二特征;其中,所述每一个第二特征对应一个所述第一特征,所述预测位置信息通过对目标图像中的对象进行目标检测得到;
基于所述第一特征与所述第二特征融合得到的融合特征,确定目标图像中各像素点所属的对象类别。
2.根据权利要求1所述的方法,其特征在于,所述方法通过预先训练的语义分割模型执行,所述语义分割模型基于以下方式训练得到:
获取携带第一标签的样本图像,所述第一标签用于指示所述样本图像中各像素点所属的对象类别;
基于所述第一标签,确定所述样本图像中不同对象类别的对象对应的先验位置信息;
利用预设的初始模型基于所述样本图像和所述先验位置信息,预测所述样本图像中各像素点所属的对象类别,得到预测结果;
基于所述预测结果和所述第一标签确定的目标损失,对所述初始模型进行迭代优化,得到所述语义分割模型。
3.根据权利要求1或2所述的方法,其特征在于,所述预测位置信息通过预先训练的目标检测模型确定,所述目标检测模型基于以下方式训练得到:
获取携带第一标签的样本图像,所述第一标签用于指示所述样本图像中各像素点所属的对象类别;
基于所述第一标签确定所述样本图像中不同类别的对象对应的先验位置信息,并将所述先验位置信息作为所述样本图像的第二标签;
利用所述样本图像和所述第二标签训练得到所述目标检测模型。
4.根据权利要求2或3所述的方法,其特征在于,所述基于所述第一标签确定所述样本图像中不同类别的对象对应的先验位置信息,包括:
针对所述样本图像中的每个对象,基于所述第一标签确定所述每个对象在所述样本图像中的图像区域;
基于所述图像区域确定所述每个对象对应的检测框,所述检测框可覆盖所述图像区域,将所述检测框在所述样本图像中的位置信息作为所述先验位置信息。
5.根据权利要求4所述的方法,其特征在于,所述基于所述图像区域确定所述每个对象对应的检测框,包括:
确定所述图像区域对应的最小外接矩形;
将所述最小外接矩形作为所述每个对象对应的检测框;或按照预设的比例将所述最小外接矩形向周围扩大得到目标矩形框,将所述目标矩形框作为所述检测框。
6.根据权利要求3-5任一项所述的方法,其特征在于,所述样本图像中包括多个对象,当所述多个对象各自对应的检测框存在重叠区域时,所述方法还包括:
针对存在重叠区域的多个检测框,将所述重叠区域分配给与所述重叠区域距离最近的检测框;
缩小所述多个检测框中的其他检测框的面积,直至所述重叠区域位于所述其他检测框以外。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述基于所述目标图像中不同类别的对象对应的预测位置信息,得到至少一个第二特征,包括:
基于所述预测位置信息确定掩码图像,所述掩码图像中属于同一个对象类别的对象的像素点的像素值一致,且属于不同对象类别的对象的像素点的像素值各不相同;
对所述掩码图像进行最大池化处理以及平均池化处理,并将最大池化处理得到的特征与平均池化处理得到的特征拼接,得到拼接后的特征;
对拼接后的特征进行卷积处理,得到所述第二特征。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述基于所述第一特征与所述第二特征融合得到的融合特征,确定目标图像中各像素点所属的对象类别,包括:
将每个所述第一特征与各自对应的第二特征相乘,并对得到的结果进行卷积处理,然后对卷积处理得到的各特征进行融合,得到融合特征;
对所述融合特征进行解码处理,得到目标图像中各像素点所属的对象类别。
9.一种语义分割模型的训练方法,其特征在于,所述方法包括:
获取携带第一标签的样本图像,所述第一标签用于指示所述样本图像中各像素点所属的对象类别;
基于所述第一标签,确定所述样本图像中不同对象类别的对象对应的先验位置信息;
利用预设的初始模型基于所述样本图像和所述先验位置信息,预测所述样本图像中各像素点所属的对象类别,得到预测结果;
基于所述预测结果和所述第一标签确定的目标损失,对所述初始模型进行迭代优化,得到所述语义分割模型。
10.一种图像处理装置,其特征在于,所述装置包括:
第一特征提取模块,用于对获取的目标图像进行特征提取,得到至少一个第一特征,所述第一特征与所述目标图像中各像素点所属的对象类别相关;
第二特征提取模块,用于基于所述目标图像中不同对象类别的对象的预测位置信息,得到至少一个第二特征;其中,所述每一个第二特征对应一个所述第一特征,所述预测位置信息通过对目标图像中的对象进行目标检测得到;
分类模块,用于基于所述第一特征与所述第二特征融合得到的融合特征,确定目标图像中各像素点所属的对象类别。
11.一种电子设备,其特征在于,所述计算机设备包括处理器、存储器、存储于所述存储器可供所述处理器执行的计算机指令,所述处理器执行所述计算机指令时实现如权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理时实现如权利要求1-9任一项所述的方法。
CN202210520975.1A 2022-05-12 2022-05-12 图像处理方法、装置、设备及存储介质 Pending CN114863257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210520975.1A CN114863257A (zh) 2022-05-12 2022-05-12 图像处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210520975.1A CN114863257A (zh) 2022-05-12 2022-05-12 图像处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114863257A true CN114863257A (zh) 2022-08-05

Family

ID=82637616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210520975.1A Pending CN114863257A (zh) 2022-05-12 2022-05-12 图像处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114863257A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309501A (zh) * 2023-03-27 2023-06-23 北京鹰之眼智能健康科技有限公司 一种疮面类型预测方法、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309501A (zh) * 2023-03-27 2023-06-23 北京鹰之眼智能健康科技有限公司 一种疮面类型预测方法、电子设备和存储介质
CN116309501B (zh) * 2023-03-27 2024-02-02 北京鹰之眼智能健康科技有限公司 一种疮面类型预测方法、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US10943145B2 (en) Image processing methods and apparatus, and electronic devices
CN111161349B (zh) 物体姿态估计方法、装置与设备
CN113420729B (zh) 多尺度目标检测方法、模型、电子设备及其应用
CN109815843B (zh) 图像处理方法及相关产品
CN109446889B (zh) 基于孪生匹配网络的物体追踪方法及装置
WO2019075130A1 (en) IMAGE PROCESSING DEVICE AND METHOD
CN111241989A (zh) 图像识别方法及装置、电子设备
CN111950389B (zh) 一种基于轻量级网络的深度二值特征人脸表情识别方法
CN114419570A (zh) 一种点云数据识别方法、装置、电子设备及存储介质
CN113140005A (zh) 目标对象定位方法、装置、设备及存储介质
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN112927209A (zh) 一种基于cnn的显著性检测系统和方法
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN113516146A (zh) 一种数据分类方法、计算机及可读存储介质
CN113837257B (zh) 一种目标检测方法及装置
CN114863257A (zh) 图像处理方法、装置、设备及存储介质
CN111353325A (zh) 关键点检测模型训练方法及装置
CN112149528A (zh) 一种全景图目标检测方法、系统、介质及设备
CN116091784A (zh) 一种目标跟踪方法、设备及存储介质
CN116883770A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
CN115761389A (zh) 图像样本的增广方法、装置、电子设备及存储介质
CN111967365A (zh) 影像连接点的提取方法和装置
CN117593619B (zh) 图像处理方法、装置、电子设备及存储介质
CN115661821B (zh) 回环检测方法、装置、电子设备、存储介质和程序产品
US20230386052A1 (en) Scene segmentation and object tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination