CN111091166A - 图像处理模型训练方法、图像处理方法、设备及存储介质 - Google Patents

图像处理模型训练方法、图像处理方法、设备及存储介质 Download PDF

Info

Publication number
CN111091166A
CN111091166A CN202010216037.3A CN202010216037A CN111091166A CN 111091166 A CN111091166 A CN 111091166A CN 202010216037 A CN202010216037 A CN 202010216037A CN 111091166 A CN111091166 A CN 111091166A
Authority
CN
China
Prior art keywords
processing
feature map
model
target
sample image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010216037.3A
Other languages
English (en)
Other versions
CN111091166B (zh
Inventor
曹世磊
刘华罗
魏东
马锴
郑冶枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010216037.3A priority Critical patent/CN111091166B/zh
Publication of CN111091166A publication Critical patent/CN111091166A/zh
Application granted granted Critical
Publication of CN111091166B publication Critical patent/CN111091166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了图像处理模型训练方法、图像处理方法、设备及存储介质。方法包括:获取第一样本图像、第二样本图像、第一分割标签、第二分割标签和图像处理模型;通过第一编码处理模型对第一样本图像和第一分割标签的串接特征图进行编码处理,得到第一目标特征图;通过第二编码处理模型对第二样本图像进行编码处理,得到第二目标特征图;通过关联处理模型对第一目标特征图和第二目标特征图进行关联处理,得到第三目标特征图;通过解码处理模型对第二目标特征图和第三目标特征图进行解码处理,得到分割结果;确定损失函数;利用损失函数训练得到目标图像处理模型。利用此种方式训练得到的图像处理模型的应用范围较广泛,图像处理的效果较好。

Description

图像处理模型训练方法、图像处理方法、设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种图像处理模型训练方法、图像处理方法、设备及存储介质。
背景技术
随着人工智能技术的不断发展,利用模型进行图像处理的应用需求在各个领域日益显著。例如,在医疗领域中,利用模型对医学图像进行分割处理等。
在利用模型对图像进行处理之前,需要对模型进行训练,然后利用训练好的模型对图像进行处理。通常情况下,用于进行分割处理的模型的训练过程为:将已知分割标签的每张样本图像分别输入待训练的模型中进行处理,得到每张样本图像的分割结果,根据每张样本图像的分割结果和分割标签之间的损失函数训练模型。在上述训练过程中,每张样本图像的处理过程相同,利用训练好的模型进行图像分割时,仅能够对训练过程中涉及到的分割类别进行分割,模型的应用范围较局限,导致利用训练好的模型进行图像处理的处理效果不佳。
发明内容
本申请实施例提供了一种图像处理模型训练方法、图像处理方法、设备及存储介质,可用于提高图像处理的处理效果。所述技术方案如下:
一方面,本申请实施例提供了一种图像处理模型训练方法,所述方法包括:
获取第一样本图像、第二样本图像、所述第一样本图像对应的第一分割标签、所述第二样本图像对应的第二分割标签和图像处理模型,所述第一分割标签和所述第二分割标签为针对相同的分割类别的标签,所述图像处理模型包括第一编码处理模型、第二编码处理模型、关联处理模型和解码处理模型;
通过所述第一编码处理模型对所述第一样本图像和所述第一分割标签的串接特征图进行编码处理,得到所述第一样本图像对应的第一目标特征图;
通过所述第二编码处理模型对所述第二样本图像进行编码处理,得到所述第二样本图像对应的第二目标特征图;
通过所述关联处理模型对所述第一目标特征图和所述第二目标特征图进行关联处理,得到所述第二样本图像对应的第三目标特征图;
通过所述解码处理模型对所述第二目标特征图和所述第三目标特征图进行解码处理,得到所述第二样本图像的分割结果;
基于所述第二样本图像的分割结果和所述第二分割标签,确定损失函数;利用所述损失函数训练所述第一编码处理模型、所述第二编码处理模型、所述关联处理模型和所述解码处理模型,得到目标图像处理模型。
还提供了一种图像处理方法,所述方法包括:
获取第一目标图像、第二目标图像和所述第一目标图像对应的针对目标类别的目标分割标签;
基于训练得到的目标图像处理模型对所述第一目标图像、所述目标分割标签和所述第二目标图像进行处理,得到所述第二目标图像对应的针对所述目标类别的目标分割结果。
另一方面,提供了一种图像处理模型训练装置,所述装置包括:
获取单元,用于获取第一样本图像、第二样本图像、所述第一样本图像对应的第一分割标签、所述第二样本图像对应的第二分割标签和图像处理模型,所述第一分割标签和所述第二分割标签为针对相同的分割类别的标签,所述图像处理模型包括第一编码处理模型、第二编码处理模型、关联处理模型和解码处理模型;
第一处理单元,用于通过所述第一编码处理模型对所述第一样本图像和所述第一分割标签的串接特征图进行编码处理,得到所述第一样本图像对应的第一目标特征图;
第二处理单元,用于通过所述第二编码处理模型对所述第二样本图像进行编码处理,得到所述第二样本图像对应的第二目标特征图;
第三处理单元,用于通过所述关联处理模型对所述第一目标特征图和所述第二目标特征图进行关联处理,得到所述第二样本图像对应的第三目标特征图;
第四处理单元,用于通过所述解码处理模型对所述第二目标特征图和所述第三目标特征图进行解码处理,得到所述第二样本图像的分割结果;
确定单元,用于基于所述第二样本图像的分割结果和所述第二分割标签,确定损失函数;
训练单元,用于利用所述损失函数训练所述第一编码处理模型、所述第二编码处理模型、所述关联处理模型和所述解码处理模型,得到目标图像处理模型。
在一种可能实现方式中,所述第一编码处理模型包括至少一个编码处理子模型;所述第一处理单元,用于通过所述至少一个编码处理子模型对所述第一样本图像和所述第一分割标签的串接特征图进行编码处理,得到所述第一样本图像对应的第一目标特征图。
在一种可能实现方式中,所述第一编码处理模型包括依次连接的第一编码处理子模型、第二编码处理子模型和第三编码处理子模型;所述第一处理单元,用于将所述第一样本图像和所述第一分割标签的串接特征图输入所述第一编码处理子模型进行第一下采样处理,得到所述第一样本图像对应的第一中间特征图;将所述第一中间特征图输入所述第二编码处理子模型进行第二下采样处理,得到所述第一样本图像对应的第二中间特征图;将所述第二中间特征图输入所述第三编码处理子模型进行第三下采样处理,得到所述第一样本图像对应的第一目标特征图。
在一种可能实现方式中,所述第二编码处理模型包括第四编码处理子模型、第五编码处理子模型、第六编码处理子模型和第一参考数量的融合处理子模型,所述第二处理单元,用于通过所述第四编码处理子模型、所述第五编码处理子模型、所述第六编码处理子模型和所述第一参考数量的融合处理子模型对所述第二样本图像进行编码处理,得到所述第二样本图像对应的第二目标特征图。
在一种可能实现方式中,所述第一参考数量为三个;所述第二编码处理模型包括位于所述第四编码处理子模型和所述第五编码处理子模型之间的第一融合处理子模型、位于所述第五编码处理子模型和所述第六编码处理子模型之间的第二融合处理子模型,以及位于所述第六编码处理子模型之后的第三融合处理子模型;
所述第二处理单元,用于将所述第二样本图像输入所述第四编码处理子模型进行第四下采样处理,得到所述第二样本图像对应的第三中间特征图;将所述第三中间特征图和所述第一中间特征图输入所述第一融合处理子模型进行第一融合处理,得到所述第二样本图像对应的第四中间特征图;将所述第四中间特征图输入所述第五编码处理子模型进行第五下采样处理,得到所述第二样本图像对应的第五中间特征图;将所述第五中间特征图和所述第二中间特征图输入所述第二融合处理子模型进行第二融合处理,得到所述第二样本图像对应的第六中间特征图;将所述第六中间特征图输入所述第六编码处理子模型进行第六下采样处理,得到所述第二样本图像对应的第七中间特征图;将所述第七中间特征图和所述第一目标特征图输入所述第三融合处理子模型进行第三融合处理,得到所述第二样本图像对应的第二目标特征图。
在一种可能实现方式中,所述第一融合处理子模型包括第二串接层和第二卷积层,所述第二处理单元,还用于将所述第三中间特征图和所述第一中间特征图输入所述第二串接层,得到第二串接特征图;将所述第二串接特征图输入所述第二卷积层,得到所述第二样本图像对应的第四中间特征图。
在一种可能实现方式中,所述解码处理模型包括依次连接的第一解码处理子模型、第二解码处理子模型、第三解码处理子模型和卷积处理子模型,所述第四处理单元,用于将所述第二目标特征图和所述第三目标特征图输入所述第一解码处理子模型,得到第一解码特征图;将所述第一解码特征图和所述第五中间特征图输入所述第二解码处理子模型,得到第二解码特征图;将所述第二解码特征图和所述第三中间特征图输入所述第三解码处理子模型,得到第三解码特征图;将所述第三解码特征图输入所述卷积处理子模型,得到所述第二样本图像的分割结果。
在一种可能实现方式中,所述确定单元,用于基于所述第二样本图像的分割结果和所述第二分割标签,分别确定第一子损失函数和第二子损失函数;基于所述第一子损失函数和所述第二子损失函数,确定所述损失函数。
还提供了一种图像处理装置,所述装置包括:
获取单元,用于获取第一目标图像、第二目标图像和所述第一目标图像对应的针对目标类别的目标分割标签;
处理单元,用于基于训练得到的目标图像处理模型对所述第一目标图像、所述目标分割标签和所述第二目标图像进行处理,得到所述第二目标图像对应的针对所述目标类别的目标分割结果。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现上述任一所述的图像处理模型训练方法,或者上述任一所述的图像处理方法。
另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一所述的图像处理模型训练方法,或者上述任一所述的图像处理方法。
本申请实施例提供的技术方案至少带来如下有益效果:
在图像处理模型训练过程中,利用两个编码处理模型分别处理两个样本图像,将两个编码处理模型输出的目标特征图进行关联处理后,利用解码处理模型预测第二样本图像的分割结果,进而利用分割结果和真实分割标签之间的损失函数训练模型。在上述训练过程中,对每次训练所需的两张样本图像进行不同的处理,既考虑样本图像和分割标签之间的约束信息,又考虑不同样本图像之间的相关性,此种方式训练得到的图像处理模型既可以对训练过程中涉及到的分割类别进行分割、又可以对训练过程中未涉及到的新分割类别进行分割,图像处理模型的应用范围较广泛,利用训练好的图像处理模型进行图像处理的处理效果较好。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种图像处理模型训练方法的流程图;
图3是本申请实施例提供的一种第一融合处理子模型的处理过程的示意图;
图4是本申请实施例提供的一种第二融合处理子模型的处理过程的示意图;
图5是本申请实施例提供的一种第三融合处理子模型的处理过程的示意图;
图6是本申请实施例提供的一种Cost Volume模块的实现过程的示意图;
图7是本申请实施例提供的一种关联处理模型的处理过程的示意图;
图8是本申请实施例提供的一种图像处理模型训练的过程示意图;
图9是本申请实施例提供的一种图像处理模型训练过程的整体思路的示意图;
图10是本申请实施例提供的一种图像处理方法的流程图;
图11是本申请实施例提供的一种第一终端、第二终端和服务器之间的交互过程的示意图;
图12是本申请实施例提供的一种图像处理过程的整体思路的示意图;
图13是本申请实施例提供的一种图像处理模型训练装置的示意图;
图14是本申请实施例提供的一种图像处理装置的示意图;
图15是本申请实施例提供的一种终端的结构示意图;
图16是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案涉及人工智能的计算机视觉技术。计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3-dimension,三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
随着人工智能技术的不断发展,利用模型进行图像处理的应用需求在各个领域日益显著。例如,在医疗领域中,利用模型对医学图像进行分割处理等。
对此,本申请实施例提供了一种图像处理模型训练方法和一种图像处理方法,请参考图1,其示出了本申请实施例提供的方法实施环境的示意图。该实施环境可以包括:终端11和服务器12。
其中,终端11和服务器12均可以利用本申请实施例提供的方法训练图像处理模型,本申请实施例对此不加以限定。终端11可以获取第一目标图像、第一目标图像对应的针对目标类别的分割标签和第二目标图像,然后利用终端11或者服务器12训练得到的目标图像处理模型对第一目标图像、分割标签和第二目标图像进行处理,得到第二目标图像对应的针对目标类别的分割结果。当然,终端11也可以将获取的第一目标图像、第一目标图像对应的针对目标类别的分割标签和第二目标图像发送至服务器12,服务器12根据终端11或者服务器12训练得到的目标图像处理模型对第一目标图像、分割标签和第二目标图像进行处理,得到第二目标图像对应的针对目标类别的分割结果,然后服务器12可以将分割结果发送至终端11。
在一种可能实现方式中,终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑、智能车机、智能电视、智能音箱等。服务器12可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端11与服务器12通过有线或无线网络建立通信连接。
本领域技术人员应能理解上述终端11和服务器12仅为举例,其他现有的或今后可能出现的终端或服务器如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
基于上述图1所示的实施环境,本申请实施例提供一种图像处理模型训练方法,以该方法应用于服务器为例。如图2所示,本申请实施例提供的方法可以包括如下步骤:
在步骤201中,获取第一样本图像、第二样本图像、第一样本图像对应的第一分割标签、第二样图像对应的第二分割标签和图像处理模型,第一分割标签和第二分割标签为针对相同的分割类别的标签。
其中,图像处理模型包括第一编码处理模型、第二编码处理模型、关联处理模型和解码处理模型。
图像处理模型是指未利用样本图像进行训练的图像处理模型。在模型训练之前,需要先获取待训练的图像处理模型。图像处理模型包括第一编码处理模型、第二编码处理模型、关联处理模型和解码处理模型。第一编码处理模型和第二编码处理模型分别对应不同的编码处理分支,第一编码处理模型和第二编码处理模型的参数不共享。需要说明的是,图像处理模型中的各个模型的初始参数可以根据经验设置,也可以根据应用场景自由调整,本申请实施例对此不加以限定。
在对图像处理模型进行训练之前,可以对图像处理模型的中的各个模型进行初始化处理。例如,采用方差为0.01,均值为0的高斯分布对图像处理模型的初始参数进行初始化等。图像处理模型中的不同模型可以采用相同的方式进行初始化处理,也可以采用不同的方式进行初始化处理,本申请实施例对此不加以限定。在设置好图像处理模型的结构和初始参数,并且对图像处理模型进行初始化处理后,服务器获取到图像处理模型。
在模型训练之前,除需获取图像处理模型之外,还需构建用于训练模型的训练集。训练集中包括多张样本图像,每张样本图像均对应至少一个分割标签。对于同一样本图像而言,该样本图像对应的不同的分割标签为针对不同分割类别的标签。本申请实施例对样本图像的模态不加以限定,示例性地,训练集中的样本图像可以为三维的灰度图像。
在一种可能实现方式中,在构建训练集时,可以将样本图像进行随机加强处理,以提高模型的泛化能力。在一种可能实现方式中,随机加强处理包括标准化、随机缩放、随机旋转、随机翻转等的一种或多种处理。标准化的处理可以是将每张样本图像减去图像均值,然后再除以图像方差;随机缩放的倍数可以在0.8倍到1.2倍之间;随机旋转的角度可以是90°、180°或270°;随机翻转可以是指沿x轴、y轴或z轴进行翻转。需要说明的是,在对样本图像进行随机加强处理的过程中,可以对具有相同分割类别的样本图像进行相同的处理操作,以使该分割类别在样本图像中的相对位置保持一致。
第一样本图像和第二样本图像可以从训练集中获取。第一分割标签可以从第一样本图像对应的至少一个分割标签中获取,第二分割标签可以从第二样本图像对应的至少一个分割标签中获取。第一分割标签和第二分割标签为针对相同的分割类别的标签。也就是说,第一样本图像和第二样本图像中具有相同的分割类别。在本申请实施例中,第一样本图像和第二样本图像为两张尺寸相同的样本图像;第一样本图像、第一分割标签和第二样本图像为模型的输入参数,而第二分割标签用于计算损失函数以训练模型。
在一种可能的实现方式中,服务器获取第一样本图像、第二样本图像、第一分割标签和第二分割标签的过程可以为:从训练集涉及的多个分割类别中随机确定一个分割类别;在具有该分割类别的样本图像中随机选择两张样图像,分别作为第一样本图像和第二样本图像,将第一样本图像对应的针对该分割类别的标签作为第一分割标签,将第二样本图像对应的针对该分割类别的标签作为第二分割标签。
需要说明的是,本申请实施例对训练集的构建过程不加以限定,可以根据图像处理模型的应用领域选择相应的样本图像构建训练集。示例性地,对于将图像处理模型应用在医疗领域,以分割出医学图像中的器官的情况,训练集可以为医学图像集,每张医学图像对应至少一个分割标签,每个分割标签为针对一种器官的标签。例如,可以利用相关技术中的TCIA(The Cancer Image Archive,癌症影像档案)中的Pancreas-CT(Pancreas-Computed Tomography,胰腺电子计算机断层扫描)图像集和BTCV(The Beyond theCranial Vault,颅顶之外)中的Abdomen(腹部)图像集构建训练集。此种情况下,样本图像为医学图像。对样本图像进行分割处理的过程可以是指对医学图像进行器官分割的过程。在上述医学图像构成的训练集中,每个医学图像均进行了详细的标注,每个医学图像均可以对应针对不同器官的多个分割标签。也就是说,此时的训练集中存在针对多种器官的分割标签。例如,训练集中存在针对脾脏、左肾、右肾、胆囊、食道、肝脏、胃、主动脉、下腔静脉、门静脉和脾静脉、胰腺、左肾上腺、右肾上腺、十二指肠这14种器官的分割标签。
医学图像的器官分割是一件非常有意义的研究,在临床诊断决策,治疗规划以及术中导航发挥着重要作用。由于像素/体素级别标注耗时、耗力,且需要医生的大力支持,使得获得大量标签变得非常困难。在这样的背景下,医生精确标注一例医学图像,利用模型标注剩余医学图像这一应用场景变得非常有意义。而由于医学图像具有很强的解刨学先验,不同图像中的相同器官的外观差异不大,并且器官在图像中的位置相对固定,具有相似的周围组织结构。因此,通过本申请实施例提供的图像处理模型训练方法能够从医学图像中学习到通用的器官概念,该通用的器官概念可以指示什么样的区域对应什么样的器官,进而可以对新的器官进行良好的分割。
在步骤202中,通过第一编码处理模型对第一样本图像和第一分割标签的串接特征图进行编码处理,得到第一样本图像对应的第一目标特征图。
将第一样本图像和第一分割标签进行串接处理,可以将分割标签的信息融合至第一样本图像中。将第一样本图像和第一分割标签进行串接处理的过程可以为:将第一样本图像和第一分割标签在通道维度上进行串接。由于第一样本图像和第一分割标签的尺寸和通道数均相同,所以第一样本图像和第一分割标签的串接特征图的尺寸与第一样本图像相同,通道数是第一样本图像的通道数的2倍。示例性地,假设第一样本图像为1通道的三维图像,第一分割标签为1通道的同样尺寸的三维标签,则第一样本图像和第一分割标签的串接特征图为2通道的同样尺寸的三维图像。
第一编码处理模型用于提取第一样本图像和第一分割标签的串接特征图的特征。第一目标特征图为第一编码处理模型对第一样本图像和第一分割标签的串接特征图进行处理后最终输出的特征图。在一种可能实现方式中,第一编码处理模型包括至少一个编码处理子模型。此时,服务器通过至少一个编码处理子模型对第一样本图像和第一分割标签的串接特征图进行编码处理,得到第一样本图像对应的第一目标特征图。本申请实施例对第一编码处理模型中包括的编码处理子模型的数量不加以限定,可以根据经验设置,也可以根据应用场景灵活调整。示例性地,第一编码处理模型可以包括两个编码处理子模型,也可以包括三个编码处理子模型,还可以包括四个编码处理子模型等。编码处理子模型用于进行下采样处理,编码处理子模型的数量越多,下采样处理的次数越多,提取的特征携带的信息也越多,但相应的计算量也会增大,所以可以根据经验合理地设置编码处理子模型的数量。
在一种可能实现方式中,对于第一编码处理模型包括三个编码处理子模型的情况。第一编码处理模型包括依次连接的第一编码处理子模型、第二编码处理子模型和第三编码处理子模型。此时,服务器通过至少一个编码处理模型对第一样本图像和第一分割标签的串接特征图进行编码处理,得到第一样本图像对应的第一目标特征图的过程可以包括以下三个步骤:
步骤1:将第一样本图像和第一分割标签的串接特征图输入第一编码处理子模型进行第一下采样处理,得到第一样本图像对应的第一中间特征图。
第一编码处理子模型中可以包括至少一个卷积层、至少一个BN(BatchNormalization,批量归一化)层和至少一个激活层。本申请实施例对激活层的类型不加以限定,例如,可以为PReLU(Parametric Rectified Linear Unit,带参数的修正线形单元)激活层。需要说明的是,本申请实施例对第一编码处理子模型的具体结构不加以限定,只要能够对第一样本图像和第一分割标签的串接特征图进行下采样处理即可。在一种可能实现方式中,至少一个卷积层、至少一个BN层和至少一个激活层可以构成残差模块,也就是说,第一编码处理子模型中可以包括残差模块,利用残差模块实现第一下采样处理过程。第一编码处理子模型中的残差模块的数量可以根据经验设置,也可以根据应用场景灵活调整,例如,第一编码处理子模型中可以包括两个残差模块。需要说明的是,不同的残差模块的结构可以相同,也可以不同,本申请实施例对此不加以限定。
将第一样本图像和第一分割标签的串接特征图输入第一编码处理子模型后,第一编码处理子模型可以输出第一中间特征图。第一中间特征图是指进行一次下采样处理后的特征图,可以表示融合有分割标签的第一样本图像的浅层特征。
第一下采样处理过程为缩小图像尺寸的过程。第一下采样处理后得到的第一中间特征图的尺寸可以通过第一编码处理子模型中的卷积层的参数控制。在一种可能实现方式中,通过对卷积层的参数进行设置,可以使第一样本图像对应的第一中间特征图的尺寸降为第一样本图像的尺寸的1/2。需要说明的是,本申请实施例对卷积层的参数设置过程不加以限定,只要能够使第一中间特征图的尺寸降为第一样本图像的尺寸的1/2即可。
需要说明的是,本申请实施例对经过第一下采样处理后得到的第一中间特征图的通道数不加以限定,可以通过第一编码处理子模型中的卷积层的参数进行控制。示例性地,第一下采样处理后得到的第一中间特征图的通道数可以为8。
步骤2:将第一中间特征图输入第二编码处理子模型进行第二下采样处理,得到第一样本图像对应的第二中间特征图。
第二编码处理子模型中同样可以包括至少一个卷积层、至少一个BN(BatchNormalization,批量归一化)层和至少一个激活层。本申请实施例对第二编码处理子模型的具体结构不加以限定,第二编码处理子模型的具体结构可以与第一编码处理子模型的具体结构相同,也可以不同。
将第一中间特征图输入第二编码处理子模型后,第二编码处理子模型可以输出第二中间特征图。第二中间特征图是指进行两次下采样处理后的特征图,与第一中间特征图相比,第二中间特征图可以表示融合有分割标签的第一样本图像的更深层次的特征。
第二下采样处理过程同样为缩小图像尺寸的过程。第二下采样处理后得到的第二中间特征图的尺寸可以通过第二编码处理子模型中的卷积层的参数控制。在一种可能实现方式中,通过对卷积层的参数进行设置,可以使第一样本图像对应的第二中间特征图的尺寸降为第一中间特征图的尺寸的1/2。当第一中间特征图的尺寸为第一样本图像的尺寸的1/2时,第二中间特征图的尺寸为第一样本图像的尺寸的1/4。
需要说明的是,本申请实施例对经过第二下采样处理后得到的第二中间特征图的通道数不加以限定,可以通过第二编码处理子模型中的卷积层的参数进行控制。示例性地,第二下采样处理后得到的第二中间特征图的通道数可以为16。
步骤3:将第二中间特征图输入第三编码处理子模型进行第三下采样处理,得到第一样本图像对应的第一目标特征图。
第三编码处理子模型中同样可以包括至少一个卷积层、至少一个BN(BatchNormalization,批量归一化)层和至少一个激活层。本申请实施例对第三编码处理子模型的具体结构不加以限定,第三编码处理子模型的具体结构可以与第一编码处理子模型、第二编码处理子模型的具体结构相同,也可以不同。
将第二中间特征图输入第三编码处理子模型后,第三编码处理子模型可以输出第一目标特征图。第一目标特征图是指进行三次下采样处理后的特征图,与第二中间特征图相比,第一目标特征图可以表示融合有分割标签的第一样本图像的更深层次的特征。
第三下采样处理过程同样为缩小图像尺寸的过程。第三下采样处理后得到的第一目标特征图的尺寸可以通过第三编码处理子模型中的卷积层的参数控制。在一种可能实现方式中,通过对卷积层的参数进行设置,可以使第一样本图像对应的第一目标特征图的尺寸降为第二中间特征图的尺寸的1/2。当第二中间特征图的尺寸为第一中间特征图的尺寸的1/2、第一中间特征图的尺寸为第一样本图像的尺寸的1/2时,第一目标特征图的尺寸为第一样本图像的尺寸的1/8。
需要说明的是,本申请实施例对经过第三下采样处理后得到的第一目标特征图的通道数不加以限定,可以通过第三编码处理子模型中的卷积层的参数进行控制。示例性地,第三下采样处理后得到的第一目标特征图的通道数可以为32。
当第一编码处理模型包括三个编码处理子模型时,对第一样本图像和第一分割标签的串接特征图的编码处理包括三次下采样处理,每多进行一次下采样处理,可以提取更深一层的图像特征。需要说明的是,由于第一编码处理模型是对第一样本图像和第一分割标签的串接特征图进行处理,所以处理过程中得到的第一中间特征图、第二中间特征图及第一目标特征图中均携带分割标签和样本图像之间的约束信息,这些约束信息能够指示分割类别的独特特征,能够起到限制在图像中分割哪个类别的作用,从而可以为后续的处理过程提供指导。
在步骤203中,通过第二编码处理模型对第二样本图像进行编码处理,得到第二样本图像对应的第二目标特征图。
第二编码处理模型用于提取第二样本图像的特征。第二目标特征图为第二编码处理模型对第二样本图像进行处理后最终输出的特征图。
在一种可能实现方式中,第二编码处理模型包括至少一个编码处理子模型。可以通过该至少一个编码处理子模型对第二样本图像进行编码处理,得到第二样本图像对应的第二目标特征图。需要说明的是,第二编码处理模型中的编码处理子模型的数量可以与第一编码处理模型中的编码处理子模型的数量相同,以保证两个编码处理分支在进行相同次数的下采样处理后,输出相同尺寸的特征图,以便于两个编码处理分支中的特征图之间的融合。示例性地,当第一编码处理模型包括依次连接的三个编码处理子模型时,第二编码处理模型中也包括依次连接的三个编码处理子模型。需要说明的是,由于第一编码处理模型对第一样本图像和第一分割标签的串接特征图进行处理,第二编码处理模型对第二样本图像进行处理,所以第二编码处理模型中的编码处理子模型的具体结构和/或参数可以与第一编码处理模型中的编码处理子模型的具体结构和/或参数不同,只需保证在进行相同次数的下采样处理后,输出相同尺寸的特征图即可。
在一种可能实现方式中,第二编码处理模型中除包括与第一编码处理模型中相同数量的编码处理子模型外,还可以包括融合处理子模型。融合处理子模型用于将第一编码处理模型的编码处理子模型输出的特征图与第二编码处理模型的编码处理子模型输出的特征图进行融合,由于第一编码处理模型的编码处理子模型输出的特征图中携带分割标签和图像的之间的约束信息,所以融合处理子模型可以将分割标签和图像的之间的约束信息传递到第二编码处理模型的处理过程中,以指导第二编码处理模型的处理过程,使第二编码处理模型的处理过程关注特定的区域。融合处理子模型可以在网络浅层就开始进行不同编码处理分支的信息融合,适用于两张样本图像之间差异比较小的情况。
在一种可能实现方式中,当第一编码处理模型包括依次连接的第一编码处理子模型、第二编码处理子模型和第三编码处理子模型时,第二编码处理模型可以包括第四编码处理子模型、第五编码处理子模型、第六编码处理子模型和第一参考数量的融合处理子模型。此种情况下,服务器通过第二编码处理模型对第二样本图像进行编码处理,得到第二样本图像对应的第二目标特征图的过程为:通过第四编码处理子模型、第五编码处理子模型、第六编码处理子模型和第一参考数量的融合处理子模型对第二样本图像进行编码处理,得到第二样本图像对应的第二目标特征图。
第二编码处理模型中的第四编码处理子模型、第五编码处理子模型和第六编码处理子模型可以形成三个能够布置融合处理子模型的待选位置,分别为第四编码处理子模型和第五编码处理子模型之间、第五编码处理子模型和第六编码处理子模型之间,以及第六编码处理子模型之后。需要说明的是,在本申请实施例中,每个待选位置最多可以布置一个融合处理子模型。
第一参考数量不大于第二编码处理模型中的编码处理子模型的数量。也就是说,当第二编码处理模型中包括三个编码处理子模型时,第一参考数量不超过三个,可以为一个、两个或三个。本申请实施例对第一参考数量不加以限制,可以根据经验或者需求设置。融合处理子模型的数量越多,对第二编码处理模型对应的编码处理分支的指导效果越好,越有利于提高最终的分割效果。
当第一参考数量为一个时,第二编码处理模型中包括一个融合处理子模型,该一个融合处理子模型可以处于任何一个待选位置,例如,该一个融合处理子模型可以处于第四编码处理子模型和第五编码处理子模型之间,也可以处于第五编码处理子模型和第六编码处理子模型之间,还可以处于第六编码处理子模型之后;当第一参考数量为两个时,该两个融合处理子模型可以处于任两个待选位置,例如,该两个融合处理子模型可以分别处于第四编码处理子模型和第五编码处理子模型之间,以及第五编码处理子模型和第六编码处理子模型之间;当第一参考数量为三个时,每个待选位置均布置有一个融合处理子模型。
需要说明的是,处于不同位置的融合处理子模型,用于对不同的特征图进行融合处理。处于第四编码处理子模型和第五编码处理子模型之间的融合处理子模型用于对第四编码处理子模型输出的特征图和第一编码处理模型中的第一编码处理子模型输出的特征图进行融合处理;处于第五编码处理子模型和第六编码处理子模型之间的融合处理子模型用于对第五编码处理子模型输出的特征图和第一编码处理模型中的第二编码处理子模型输出的特征图进行融合处理;处于第六编码处理子模型之后的融合处理子模型用于对第六编码处理子模型输出的特征图和第一编码处理模型中的第三编码处理子模型输出的特征图进行融合处理。
在一种可能实现中,对于第一编码处理模型包括第四编码处理子模型、第五编码处理子模型、第六编码处理子模型和第一参考数量的融合处理子模型的情况,当第一参考数量为三个时,第二编码处理模型包括位于第四编码处理子模型和第五编码处理子模型之间的第一融合处理子模型、位于第五编码处理子模型和第六编码处理子模型之间的第二融合处理子模型,以及位于第六编码处理子模型之后的第三融合处理子模型。此时,第一编码处理模型包括依次连接的第四编码处理子模型、第一融合处理子模型、第五编码处理子模型、第二融合处理子模型、第六编码处理子模型和第三融合处理子模型。此种情况下,通过第四编码处理子模型、第五编码处理子模型、第六编码处理子模型和第一参考数量的融合处理子模型对第二样本图像进行编码处理,得到第二样本图像对应的第二目标特征图的过程包括以下步骤1至步骤6:
步骤1:将第二样本图像输入第四编码处理子模型进行第四下采样处理,得到第二样本图像对应的第三中间特征图。
第四编码处理子模型中可以包括至少一个卷积层、至少一个BN(BatchNormalization,批量归一化)层和至少一个激活层。在一种可能实现方式中,至少一个卷积层、至少一个BN层和至少一个激活层可以构成残差模块,也就是说,第四编码处理子模型中可以包括残差模块,利用残差模块实现第四下采样处理过程。第四编码处理子模型中的残差模块的数量可以根据经验设置,也可以根据应用场景灵活调整,例如,第四编码处理子模型中可以包括两个残差模块。需要说明的是,不同的残差模块的结构可以相同,也可以不同,本申请实施例对此不加以限定。
将第二样本图像输入第四编码处理子模型后,第四编码处理子模型可以对第二样本图像进行第四下采样处理并输出第二样本图像对应的第三中间特征图。第三中间特征图是指对第二样本图像进行一次下采样处理后得到的特征图,可以表示第二样本图像的浅层特征。
本申请实施例对第四编码处理子模型的具体结构及参数设置不加以限定,只需保证第四下采样处理后得到的第三中间特征图的尺寸与第一编码处理模型进行第一下采样处理后得到的第一中间特征图的尺寸相同即可。示例性地,由于第一样本图像和第二样本图像的尺寸相同,当第一中间特征图的尺寸为第一样本图像的尺寸的1/2时,第三中间特征图的尺寸为第二样本图像的尺寸的1/2。
需要说明的是,本申请实施例对经过第四下采样处理后得到的第三中间特征图的通道数不加以限定,可以通过第四编码处理子模型中的卷积层的参数进行控制。示例性地,第四下采样处理后得到的第三中间特征图的通道数可以为8。
步骤2:将第三中间特征图和第一中间特征图输入第一融合处理子模型进行第一融合处理,得到第二样本图像对应的第四中间特征图。
第一中间特征图中携带第一样本图像和分割标签之间浅层的约束信息。第一融合处理子模型用于将第一中间特征图和第三中间特征图进行融合处理,将得到的第四中间特征图作为下一个编码处理阶段的输入,可以利用图像和分割标签之间浅层的约束信息指导后续处理过程中关注的区域。
在一种可能实现方式中,第一融合处理子模型包括第二串接层和第二卷积层。将第三中间特征图和第一中间特征图输入第一融合处理子模型进行第一融合处理,得到第二样本图像对应的第四中间特征图的过程可以包括以下步骤a和步骤b:
步骤a:将第三中间特征图和第一中间特征图输入第二串接层,得到第二串接特征图。
第三中间特征图和第一中间特征图为相同尺寸的特征图,通道数可以相同也可以不同。第二串接层可以将第三中间特征图和第二中间特征图在通道维度上进行串接,得到第二串接特征图。由于是在通道维度进行串接,所以第二串接特征图的通道数大于第三中间特征图的通道数。
步骤b:将第二串接特征图输入第二卷积层,得到第二样本图像对应的第四中间特征图。
将第二串接特征图输入第二卷积层后,第二卷积层对第二串接特征图进行卷积处理并输出第四中间特征图。通过合理设置第二卷积层的参数,可以使输出的第四中间特征图与第三中间特征图具有相同的尺寸和相同的通道数。第二卷积层中的卷积核的尺寸可以根据经验设置,示例性地,当第二样本图像为三维图像时,第一融合处理子模型中的第二卷积层中的卷积核的尺寸可以设置为7×7×7。
示例性地,第一融合处理子模型的处理过程可以如图3所示。在图3中,第一中间特征图301和第三中间特征图302经过第二串接层处理后,得到第二串接特征图303,然后经过第二卷积层处理后,得到第四中间特征图304。第二卷积层中的卷积核的尺寸为7×7×7。
步骤3:将第四中间特征图输入第五编码处理子模型进行第五下采样处理,得到第二样本图像对应的第五中间特征图。
第五编码处理子模型中可以包括至少一个卷积层、至少一个BN(BatchNormalization,批量归一化)层和至少一个激活层。将第四中间特征图输入第五编码处理子模型后,第五编码处理子模型可以对第四中间特征图进行第五下采样处理并输出第二样本图像对应的第五中间特征图。
本申请实施例对第五编码处理子模型的具体结构及参数设置不加以限定,只需保证第五下采样处理后得到的第五中间特征图的尺寸与第一编码处理模型进行第二下采样处理后得到的第二中间特征图的尺寸相同即可。示例性地,由于第一样本图像和第二样本图像的尺寸相同,当第二中间特征图的尺寸为第一样本图像的尺寸的1/4时,第五中间特征图的尺寸为第二样本图像的尺寸的1/4。
需要说明的是,本申请实施例对经过第五下采样处理后得到的第五中间特征图的通道数不加以限定,可以通过第五编码处理子模型中的卷积层的参数进行控制。示例性地,第五下采样处理后得到的第五中间特征图的通道数可以为16。
步骤4:将第五中间特征图和第二中间特征图输入第二融合处理子模型进行第二融合处理,得到第二样本图像对应的第六中间特征图。
第二中间特征图携带第一样本图像和分割标签之间在较深层的约束信息。第二融合处理子模型用于将第五中间特征图和第二中间特征图进行融合处理,将得到的第六中间特征图作为下一个编码处理阶段的输入,可以利用图像和分割标签之间在较深层的约束信息指导后续处理过程中关注的区域。
在一种可能实现方式中,第二融合处理子模型包括第三串接层和第三卷积层。将第五中间特征图和第二中间特征图输入第二融合处理子模型进行第二融合处理,得到第二样本图像对应的第六中间特征图的过程可以为:将第五中间特征图和第二中间特征图输入第三串接层,得到第三串接特征图;将第三串接特征图输入第三卷积层,得到第二样本图像对应的第六中间特征图。
第五中间特征图和第二中间特征图为相同尺寸的特征图,通道数可以相同也可以不同。第三串接层可以将第五中间特征图和第三中间特征图在通道维度上进行串接,得到第三串接特征图。
将第三串接特征图输入第三卷积层后,第三卷积层对第三串接特征图进行卷积处理并输出第六中间特征图。通过合理设置第三卷积层的参数,可以使输出的第六中间特征图与第五中间特征图具有相同的尺寸和相同的通道数。第三卷积层中的卷积核的尺寸可以根据经验设置,示例性地,当第二样本图像为三维图像时,第二融合处理子模型中的第三卷积层中的卷积核的尺寸可以设置为5×5×5。
示例性地,第二融合处理子模型的处理过程可以如图4所示。在图4中,第二中间特征图401和第五中间特征图402经过第三串接层处理后,得到第三串接特征图403,然后经过第三卷积层处理后,得到第六中间特征图404。第三卷积层中的卷积核的尺寸为5×5×5。
步骤5:将第六中间特征图输入第六编码处理子模型进行第六下采样处理,得到第二样本图像对应的第七中间特征图。
第六编码处理子模型中可以包括至少一个卷积层、至少一个BN(BatchNormalization,批量归一化)层和至少一个激活层。将第六中间特征图输入第六编码处理子模型后,第六编码处理子模型可以对第六中间特征图进行第六下采样处理并输出第二样本图像对应的第七中间特征图。
本申请实施例对第六编码处理子模型的具体结构及参数设置不加以限定,只需保证第六下采样处理后得到的第七中间特征图的尺寸与第一编码处理模型进行第三下采样处理后得到的第一目标特征图的尺寸相同即可。示例性地,由于第一样本图像和第二样本图像的尺寸相同,当第一目标特征图的尺寸为第一样本图像的尺寸的1/8时,第七中间特征图的尺寸为第二样本图像的尺寸的1/8。
需要说明的是,本申请实施例对经过第六下采样处理后得到的第七中间特征图的通道数不加以限定,可以通过第六编码处理子模型中的卷积层的参数进行控制。示例性地,第六下采样处理后得到的第七中间特征图的通道数可以为32。
步骤6:将第七中间特征图和第一目标特征图输入第三融合处理子模型进行第三融合处理,得到第二样本图像对应的第二目标特征图。
与第二中间特征图相比,第一目标特征图中携带第一样本图像和分割标签更深层次的约束信息。第三融合处理子模型用于将第七中间特征图和第一目标特征图进行融合处理,得到第二融合处理模型最终输出的第二目标特征图。
在一种可能实现方式中,第三融合处理子模型包括第四串接层和第四卷积层。将第七中间特征图和第一目标特征图输入第三融合处理子模型进行第三融合处理,得到第二样本图像对应的第二目标特征图的过程为:将第七中间特征图和第一目标特征图输入第四串接层,得到第四串接特征图;将第四串接特征图输入第四卷积层,得到第二样本图像对应的第二目标特征图。
第七中间特征图和第一目标特征图为相同尺寸的特征图,通道数可以相同也可以不同。第四串接层可以将第七中间特征图和第一目标特征图在通道维度上进行串接,得到第四串接特征图。
将第四串接特征图输入第四卷积层后,第四卷积层对第四串接特征图进行卷积处理并输出第二目标特征图。通过合理设置第四卷积层的参数,可以使输出的第二目标特征图与第七中间特征图具有相同的尺寸和相同的通道数。第四卷积层中的卷积核的尺寸可以根据经验设置,示例性地,当第二样本图像为三维图像时,第三融合处理子模型中的第四卷积层中的卷积核的尺寸可以设置为3×3×3。
示例性地,第三融合处理子模型的处理过程可以如图5所示。在图5中,第一目标特征图501和第七中间特征图502经过第四串接层处理后,得到第四串接特征图503,然后经过第四卷积层处理后,得到第二目标特征图504。第四卷积层中的卷积核的尺寸为3×3×3。
由于第二编码模型中的三个编码处理子模型处理后得到的中间特征图的尺寸逐渐减小,所以在不同的融合处理子模型中的不同卷积层,用不同尺寸的卷积核可以补偿感受野上的差距。
需要说明的是,上述步骤1至步骤6仅为第二编码处理模型对第二样本图像的编码处理过程的一种示例性描述,根据第二编码处理模型中包括的编码处理子模型及融合处理子模型的数量不同,第二编码处理模型对第二样本图像的编码处理过程也可以灵活变化,本申请实施例对此不加以限定。
在步骤204中,通过关联处理模型对第一目标特征图和第二目标特征图进行关联处理,得到第二样本图像对应的第三目标特征图。
关联处理模型用于基于第一目标特征图和第二目标特征图之间的相关性对第二目标特征图进行进一步处理,以得到融合相关性特征的第三目标特征图。由于第一目标特征图和第二目标特征图分别表示第一样本图像和第二样本图像深层次的特征,因此关联处理模型可以将第一样本图像和第二样本图像在深层做融合,感受野足够大,适用于不同样本图像之间差异比较大的情况。
在一种可能实现方式中,关联处理模型包括关联层、第一串接层和第一卷积层;通过关联处理模型对第一目标特征图和第二目标特征图进行关联处理,得到第二样本图像对应的第三目标特征图的过程包括以下步骤1至步骤3:
步骤1:将第一目标特征图和第二目标特征图输入关联层,得到第一目标特征图和第二目标特征图之间的相关特征图。
关联层用于获取第一目标特征图和第二目标特征图之间的相关性特征图。由于第一目标特征图与第一样本图像对应,第二目标特征图与第二样本图像对应,所以第一目标特征图和第二目标特征图之间的相关性特征图可以表征第一样本图像和第二样本图像之间的相关性。
在一种可能实现方式中,关联层可以基于Cost Volume(代价量)模块实现得到第一目标特征图和第二目标特征图之间的相关特征图的过程。
Cost Volume模块在立体匹配和光流中是一个标准的模块,可以用来表示一个特征图中的一个像素与另一个特征图上对应位置的周围像素(一个指定大小的patch(区域)中的像素)的相关性。
以二维图像为例(有些领域的图像为三维的(包括高度、宽度和深度),为了方便演示Cost Volume模块的实现过程,这里用了二维的图像,包括高度和宽度),Cost Volume模块的实现过程可以如图6所示。
在图6中,特征图601和特征图602的尺寸都为c*h*w,其中c表示通道数,h表示高度,w表示宽度。当patch的边长s的值为3时,取特征图601的一个像素,与特征图602对应patch中的每一个像素(这里有9像素,每个像素都是一个c通道的向量)都分别做点乘操作,得到一个9通道的向量603。对特征图601的每一个像素都做一次这种操作之后,就能得到一个s2*h*w尺寸的相关特征图,其中,s2表示相关特征图的通道数。这个相关特征图可以衡量特征图601和特征图602之间的相关性。patch的边长s的值可以根据经验设置,也可以根据应用场景灵活调整,本申请实施例对此不加以限定。
当两张特征图均为尺寸为D*W*H(D表示深度,W表示宽度,H表示高度)的三维图像 时,两张特征图在位置t处的相关性可以用
Figure 755412DEST_PATH_IMAGE001
表示,
Figure 871135DEST_PATH_IMAGE001
可以根据如下公式1进行计算:
Figure 773232DEST_PATH_IMAGE002
(公式1)
其中,X表示一张特征图;Y表示另外一张特征图;表示特征图X中处于位置t的像 素的特征;t i 表示特征图Y中处于位置t周围patch(尺寸为l 3的立方区域,l表示patch的边 长)中的各个像素的位置;
Figure 844536DEST_PATH_IMAGE004
表示特征图Y中处于位置t i 的像素的特征;N表示特征图的 通道数;T表示转置运算。基于上述公式1可以得到两张特征图在各个位置处的相关性,然后 可以得到相关特征图。此种情况下,两张特征图之间的相关特征图的尺寸为l 3*D*W*H。需要 说明的是,patch的边长l的取值可以根据经验设置,也可以根据应用场景自由调整,本申请 实施例对此不加以限定。示例性地,l的取值可以为3。
根据关联层中的Cost Volume模块,可以得到第一目标特征图和第二目标特征图之间的相关特征图,然后执行步骤2。需要说明的是,在获取第一目标特征图和第二目标特征图之间的相关特征图的过程中,可以获取第一目标特征图中某一位置的像素与第二目标特征图中对应位置的周围像素之间的相关性,也可以获取第二目标特征图中某一位置的像素与第一目标特征图中对应位置的周围像素之间的相关性,本申请实施例对此不加以限定。
步骤2:将相关特征图和第二目标特征图输入第一串接层,得到第一串接特征图。
第一串接层将相关特征图和第二目标特征图在通道维度上进行串接,得到第一串接特征图。
步骤3:将第一串接特征图输入第一卷积层,得到第二样本图像对应的第三目标特征图。
将第一串接特征图输入第一卷积层后,第一卷积层对第一串接特征图进行卷积处理并输出第三目标特征图。通过合理设置第一卷积层的参数,可以使输出的第三目标特征图与第二目标特征图具有相同的尺寸和相同的通道数。第一卷积层中的卷积核的尺寸可以根据经验设置,示例性地,当第二样本图像为三维图像时,第一卷积层中的卷积核的尺寸可以设置为1×1×1。
例如,关联处理模型的处理过程可以如图7所示。在图7中,将第一目标特征图701和第二目标特征图702输入关联层,得到相关特征图703(未单独画出);将相关特征图703和第二目标特征图702在第一串接层进行串接后,得到第一串接特征图704;利用第一卷积层对第一串接特征图704进行卷积处理,得到第三目标特征图705。第一卷积层中的卷积核的尺寸为1×1×1。
在步骤205中,通过解码处理模型对第二目标特征图和第三目标特征图进行解码处理,得到第二样本图像的分割结果。
解码处理模型用于进行解码处理并输出第二样本图像的分割结果。解码处理模型中可以包括至少一个解码处理子模型。解码处理子模型的数量可以与第二编码处理模型中的编码处理子模型的数量相同。
在一种可能实现方式中,对于第二解码处理模型中包括依次连接的第四编码处理子模型、第一融合处理子模型、第五编码处理子模型、第二融合处理子模型、第六编码处理子模型和第三融合处理子模型的情况,解码处理模型包括依次连接的第一解码处理子模型、第二解码处理子模型、第三解码处理子模型和卷积处理子模型。此时,通过解码处理模型对第二目标特征图和第三目标特征图进行解码处理,得到第二样本图像的分割结果的过程可以包括以下四个步骤:
步骤1:将第二目标特征图和第三目标特征图输入第一解码处理子模型,得到第一解码特征图。
第二目标特征图和第三目标特征图的尺寸相同,将第二目标特征图和第三目标特征图输入第一解码处理子模型后,第一解码处理子模型可以先将第二目标特征图和第三目标特征图进行串接,然后再对串接后的特征图进行上采样处理,得到第一解码特征图。
第一解码处理子模型中可以包括至少一个反卷积层、至少一个BN(BatchNormalization,批量归一化)层和至少一个激活层。在一种可能实现方式中,至少一个反卷积层、至少一个BN层和至少一个激活层可以构成残差模块,也就是说,第一解码处理子模型中可以包括残差模块。第一解码处理子模型中的残差模块的数量可以根据经验设置,也可以根据应用场景灵活调整,本申请实施例对此不加以限定。示例性地,第一解码处理子模型中可以仅包括一个残差模块。
通过对第一解码处理子模型中的反卷积层的参数进行设置,可以使上采样处理后得到的第一解码特征图的尺寸与第五中间特征图的尺寸相同。示例性地,假设第五中间特征图的尺寸为第二样本图像的尺寸的1/4,则第一解码特征图的尺寸也为第二样本图像的尺寸的1/4。
第一解码处理子模型的结构和参数可以根据第六编码处理子模型的结构和参数进行设置,本申请实施例对此不加以限定,只要能够使输出的第一解码特征图的尺寸与第五中间特征图的尺寸一致即可。
需要说明的是,本申请实施例对第一解码特征图的通道数不加以限定,可以通过第一解码处理子模型中的反卷积层的参数进行控制。示例性地,第一解码特征图的通道数可以为32。
步骤2:将第一解码特征图和第五中间特征图输入第二解码处理子模型,得到第二解码特征图。
第一解码特征图和第五中间特征图的尺寸相同,将第一解码特征图和第五中间特征图输入第二解码处理子模型后,第二解码处理子模型可以先将第一解码特征图和第五中间特征图进行串接,然后再对串接后的特征图进行上采样处理,得到第二解码特征图。
第二解码处理子模型中同样可以包括至少一个反卷积层、至少一个BN(BatchNormalization,批量归一化)层和至少一个激活层。通过对第二解码处理子模型中的反卷积层的参数进行设置,可以使上采样处理后得到的第二解码特征图的尺寸与第三中间特征图的尺寸相同。示例性地,假设第三中间特征图的尺寸为第二样本图像的尺寸的1/2,则第二解码特征图的尺寸也为第二样本图像的尺寸的1/2。
第二解码处理子模型的结构和参数可以根据第五编码处理子模型的结构和参数进行设置,本申请实施例对此不加以限定,只要能够使输出的第二解码特征图的尺寸与第三中间特征图的尺寸一致即可。
需要说明的是,本申请实施例对第二解码特征图的通道数不加以限定,可以通过第二解码处理子模型中的反卷积层的参数进行控制。示例性地,第二解码特征图的通道数可以为8。
步骤3:将第二解码特征图和第三中间特征图输入第三解码处理子模型,得到第三解码特征图。
第二解码特征图和第三中间特征图的尺寸相同,将第二解码特征图和第三中间特征图输入第三解码处理子模型后,第三解码处理子模型可以先将第二解码特征图和第三中间特征图进行串接,然后再对串接后的特征图进行上采样处理,得到第三解码特征图。
第三解码处理子模型中同样可以包括至少一个反卷积层、至少一个BN(BatchNormalization,批量归一化)层和至少一个激活层。通过对第三解码处理子模型中的反卷积层的参数进行设置,可以使上采样处理后得到的第三解码特征图的尺寸与第二样本图像的尺寸相同。
第三解码处理子模型的结构和参数可以根据第四编码处理子模型的结构和参数进行设置,本申请实施例对此不加以限定,只要能够使输出的第三解码特征图的尺寸与第二样本图像的尺寸一致即可。
需要说明的是,本申请实施例对第三解码特征图的通道数不加以限定,可以通过第三解码处理子模型中的反卷积层的参数进行控制。示例性地,第三解码特征图的通道数可以为8。
步骤4:将第三解码特征图输入卷积处理子模型,得到第二样本图像的分割结果。
卷积处理子模型中可以包括卷积层和激活层。通过卷积处理子模型中的卷积层的处理可以将第三解码特征图的尺寸保持不变,将第三解码特征图的通道数降至与第二样本图像的通道数相同。示例性地,当第二样本图像为灰度图像时,将第三解码特征图的通道数降低至1。在一种可能实现方式中,当第二样本图像为三维图像时,卷积处理子模型中的卷积层中的卷积核的尺寸可以为1×1×1。
在经过卷积层的处理后,可以通过卷积处理子模型中的激活层进行激活处理,然后输出第二样本图像的分割结果。第二样本图像的分割结果可以用一张分割概率图表示,该分割概率图的尺寸与第二样本图像一致,显示有每个像素对应的概率值。在一种可能实现方式中,卷积处理子模型中的激活层可以利用sigmoid(S状弯曲)函数进行激活,使分割结果中的每个像素对应的概率值在[0,1]范围内。
在步骤206中,基于第二样本图像的分割结果和第二分割标签,确定损失函数;利用损失函数训练第一编码处理模型、第二编码处理模型、关联处理模型和解码处理模型,得到目标图像处理模型。
第二样本图像的分割结果为预测的分割结果,第二分割标签为第二样本图像的真实的分割结果,基于第二样本图像的分割结果和第二分割标签,可以确定用于表示两者之间的差距的损失函数。
在一种可能实现方式中,基于第二样本图像的分割结果和第二分割标签,确定损失函数的过程为:基于第二样本图像的分割结果和第二分割标签,分别确定第一子损失函数和第二子损失函数;基于第一子损失函数和第二子损失函数,确定损失函数。
第一子损失函数和第二子损失函数以不同的形式表征分割结果和第二分割标签之间的差距。基于第一子损失函数和第二子损失函数,确定损失函数的方式可以为:为第一子损失函数设置第一权重,为第二子损失函数设置第二权重;将第一乘积和第二乘积的和作为损失函数,第一乘积为第一子损失函数和第一权重的乘积,第二乘积为第二子损失函数和第二权重的乘积。
第一权重和第二权重可以根据经验设置,也可以根据应用场景自由调整,本申请实施例对此不加以限定。示例性地,第一权重和第二权重可以均设置为1,此时,损失函数即为第一子损失函数和第二子损失函数的和。
在一种可能实现方式中,第一子损失函数可以是指dice(戴斯)损失函数,当第二样本图像为三维图像时,dice损失函数可以根据公式2计算得到;第二子损失函数可以是指交叉熵损失函数,当第二样本图像为三维图像时,交叉熵损失函数可以根据公式3计算得到。
Figure 763950DEST_PATH_IMAGE005
(公式2)
Figure 848450DEST_PATH_IMAGE006
(公式3)
其中,
Figure 60863DEST_PATH_IMAGE007
表示第一子损失函数;
Figure 840600DEST_PATH_IMAGE008
表示第二子损失函数;D表示第二样本 图像的深度;H表示第二样本图像的高度;W表示第二样本图像的宽度;
Figure 298126DEST_PATH_IMAGE009
表示分割结果,
Figure 643657DEST_PATH_IMAGE009
属 于D*H*W构成的欧式空间,也即
Figure 794016DEST_PATH_IMAGE010
Figure 421568DEST_PATH_IMAGE011
表示第二分割标签,
Figure 682786DEST_PATH_IMAGE011
属于D*H*W构成的欧 式空间,也即
Figure 148402DEST_PATH_IMAGE012
Figure 469662DEST_PATH_IMAGE013
表示分割结果中坐标为(i,j,k)的像素对应的概率值;
Figure 790703DEST_PATH_IMAGE014
表示第二分割标签中坐标为(i,j,k)的像素对应的概率值。第一子损失函数可以从交叠区 域的角度考虑分割结果和第二分割标签之间的差距,第二子损失函数可以从各个像素点的 角度考虑分割结果和第二分割标签之间的差距。根据此种第一子损失函数和第二子损失函 数确定的损失函数能够较全面的体现分割结果和第二分割标签之间的差距,进而可以更好 地训练模型。
在基于公式2和公式3分别确定第一子损失函数
Figure 324452DEST_PATH_IMAGE007
和第二子损失函数
Figure 910154DEST_PATH_IMAGE008
后,可以基于公式4计算损失函数:
Figure 402315DEST_PATH_IMAGE015
(公式4)
其中,
Figure 112783DEST_PATH_IMAGE016
表示损失函数;
Figure 217267DEST_PATH_IMAGE017
表示第一权重;
Figure 923055DEST_PATH_IMAGE018
表示第二权重。
Figure 54959DEST_PATH_IMAGE017
Figure 846197DEST_PATH_IMAGE018
均可以自 由设置。示例性地,当
Figure 485864DEST_PATH_IMAGE017
Figure 842896DEST_PATH_IMAGE018
均设置为1时,公式4可以化简为公式5,此时,损失函数为第一 子损失函数和第二子损失函数的和。
Figure 411281DEST_PATH_IMAGE019
(公式5)
利用损失函数训练第一编码处理模型、第二编码处理模型、关联处理模型和解码处理模型的过程为:利用损失函数更新第一编码处理模型的参数、第二编码处理模型的参数、关联处理模型的参数和解码处理模型的参数。
根据损失函数训练图像处理模型的过程为迭代过程,每训练一次,判断是否满足训练终止条件。若不满足训练终止条件,则根据上述步骤201至步骤206继续进行训练,直至满足训练终止条件。将满足训练终止条件时得到的图像处理模型作为目标图像处理模型。
需要说明的是,在迭代训练的过程中,可以在得到小批量数目的样本图像对应的损失函数后,用小批量数目的损失函数计算平均损失函数,然后用平均损失函数更新一次模型参数。本申请实施例对小批量数目的取值不加以限定。示例性的,小批量数目的取值可以为8。当训练集中的每个样本图像均参与过一次模型参数的更新过程时,完成一次完整的迭代训练过程。完整的迭代训练过程的次数可以根据经验设置,本申请实施例对此不加以限定。示例性地,完整的迭代训练过程的次数可以为设置为40。此种情况下,训练集中的每个样本图像均需参与40次模型参数的更新过程。
在一种可能实现方式中,满足训练终止条件包括但不限于以下三种情况:
情况1、迭代训练次数达到次数阈值。
次数阈值可以根据经验设置,也可以根据应用场景灵活调整,本申请实施例对此不加以限定。在一种可能实现方式中,次数阈值可以根据完整的迭代训练过程的次数、训练集中样本图像的数量以及小批量数目进行设置。
情况2、损失函数小于损失阈值。
损失阈值可以根据经验设置,也可以根据应用场景自由调整,本申请实施例对此不加以限定。
情况3、损失函数收敛。
损失函数收敛是指随着迭代训练次数的增加,在参考次数的训练结果中,损失函数的波动范围在参考范围内。例如,假设参考范围为-10-3~10-3,假设参考次数为10次。若损失函数在10次的迭代训练结果中波动范围均在-10-3~10-3内,则认为损失函数收敛。
当满足上述任一种情况时,说明满足训练终止条件。将满足训练终止条件时得到的第一编码处理模型、第二编码处理模型、关联处理模型和解码处理模型构成的图像处理模型作为目标图像处理模型。
在一种可能实现方式中,本申请实施例的技术方案可以用Pytorch(一个开源的Python机器学习库)实现,在Nvidia Tesla P40显卡上的GPU(Graphics Processing Unit,图形处理器)中运行。
在一种可能实现方式中,在利用损失函数更新模型参数的过程中,可以采用Adam(Adaptive Moment Estimation,适应性矩估计)优化算法进行优化。在优化过程中,使用余弦退火技术调整学习率,使学习率以10-4的权值从10-1衰减至10-7
图像处理模型训练的过程可以如图8所示。将第一样本图像801和第一分割标签802输入第一编码处理模型,依次利用三个编码处理子模型进行下采样处理后,得到第一中间特征图803、第二中间特征图804和第一目标特征图805。将第二样本图像806输入第二编码处理模型,利用第四编码处理子模型(未画出)对第二样本图像806进行下采样处理,得到第三中间特征图807;将第一中间特征图803和第三中间特征图807输入第一融合处理子模型808进行处理,得到第四中间特征图(未画出);利用第五编码处理子模型(未画出)对第四中间特征图进行下采样处理,得到第五中间特征图809;将第二中间特征图804和第五中间特征图809输入第二融合处理子模型810进行处理,得到第六中间特征图(未画出);利用第六编码处理子模型(未画出)对第六中间特征进行下采样处理,得到第七中间特征图811;将第一目标特征图805和第七中间特征图811输入第三融合处理子模型812进行处理,得到第二目标特征图813。
利用关联处理模型814对第一目标特征图805和第二目标特征图813进行关联处理,得到第三目标特征图815;将第三目标特征图815和第二目标特征图813输入第一解码处理子模型(未画出),得到第一解码特征图816;将第一解码特征图816和第五中间特征图809输入第二解码处理子模型(未画出),得到第二解码特征图817;将第二解码特征图817和第三中间特征图807输入第三解码处理子模型(未画出),得到第三解码特征图(未画出);利用卷积处理子模型(未画出)对第三解码特征图进行处理,得到第二样本图像的分割结果818。需要说明的是,当第一样本图像和第二样本图像均为三维图像时,图8中输入和输出的所有特征图均为三维的。此种情况下,图8中所示的图像仅为三维图像的二维切片图像。
在本申请实施例的模型训练过程中,通过学习分割标签和对应图像之间的约束信息,可以定义待分割类别的独特性(内部呈现一定的规律,且与周围区域有明显区分性),例如,在对医学图像中的器官进行分割的应用场景下,通过学习针对某器官的分割标签和对应的医学图像之间的约束信息,可以定义该器官的独特性(该器官内部呈现一定规律,且与周围其他组织或器官有明显区分性)。在此基础上,通过学习有分割标签的图像和无分割标签的图像之间的相关性,就可以将无分割标签的图像的分割结果直接预测出来。
图像处理模型训练过程的整体思路可以如图9所示,通过学习第一样本图像901和第一分割标签902之间的约束信息,以及第一样本图像901和第二样本图像903之间的相关性,可以直接预测出第二样本图像903的分割结果904,利用该分割结果904与第二分割标签计算损失函数并训练模型,重复进行多次上述过程,直至满足训练终止条件。需要说明的是,在重复进行上述过程时,每次用于输入的分割标签针对的分割类别可以不同,从而可以在多种分割类别中学习到通用的类别概念,进而基于学习到的通用的类别概念对新的分割类别进行分割。也就是说,本申请的模型训练过程学习的是通用的类别概念,而不是一个特定的类别,这种模型适合于在只有一个新分割类别的标签及其对应图像的情况下,在其他图像中分割出该新分割类别。
在一种可能实现方式中,在训练得到目标图像处理模型后,可以利用相同的测试集分别对目标图像处理模型以及相关技术中的图像处理模型进行测试,然后将目标图像处理模型的测试结果与相关技术中的图像处理模型的测试结果进行比对,以验证本申请实施例得到的目标图像处理模型能够达到合理的分割性能。
在实际操作过程中,可以利用医学图像构成测试集,该测试集中包括三种器官(脾脏、右肾和主动脉)的分割标签及其对应的医学图像。接下来,介绍目标图像处理模型分别与两种相关技术中的图像处理模型的比对过程及比对结果。在比对结果中,以dice系数作为评估分割性能的指标。
1、首先利用相同的训练集对相关技术中的单样本分割模型进行训练,然后利用测试集分别对训练得到的单样本分割模型以及目标图像处理模型进行测试。测试结果如表1所示。
根据表1可知,利用本申请实施例中的目标图像处理模型进行测试得到的dice系数比利用相关技术中的单样本分割模型进行测试得到的dice系数平均提高了22.6%,说明与相关技术中的单样本分割模型相比,本申请实施例中的目标图像处理模型的分割性能有较大提升。
表1
Figure 689815DEST_PATH_IMAGE020
2、首先利用相同的训练集对相关技术中的3D U-NET(三维U型网络)模型进行预训练,然后对用于分割每个器官的每个3D U-NET模型分别进行微调,也就是说,用三个独立的3DU-NET模型分别测试对三个器官的分割性能。利用测试集对目标图像处理模型和用不同数量的训练样本训练得到的3D U-NET模型进行测试。测试结果如表2所示:
表2
Figure 136102DEST_PATH_IMAGE021
从表2中可以得知,在仅有一个训练样本的情况下,3D U-NET模型的分割性能较差(平均dice系数仅有25.9%);随着训练样本的增加,3D U-NET模型的分割性能提升,当训练样本的比例增加至35%时,平均dice系数增加至78.1%。在仅有一个训练样本的情况下,本申请实施例提供的目标图像处理模型的分割性能(平均dice系数为78.5%)优于训练样本的比例为35%时得到的3D U-NET模型。相关技术中的3D U-NET模型为单编码处理模型、单解码处理模型的结构,而本申请实施例中的目标图像处理模型为双编码处理模型、单解码处理模型的结构。在这种双编码处理模型、单解码处理模型的结构下,可以通过学习通用的器官概念,利用一个单一的模型来精确地分割不同的器官,从而为临床应用提供更多的实用价值。
在本申请实施例中,在图像处理模型训练过程中,利用两个编码处理模型分别处理两个样本图像,将两个编码处理模型输出的目标特征图进行关联处理后,利用解码处理模型预测第二样本图像的分割结果,进而利用分割结果和真实分割标签之间的损失函数训练模型。在上述训练过程中,对每次训练所需的两张样本图像进行不同的处理,既考虑样本图像和分割标签之间的约束信息,又考虑不同样本图像之间的相关性,此种方式训练得到的图像处理模型既可以对训练过程中涉及到的分割类别进行分割、又可以对训练过程中未涉及到的新分割类别进行分割,图像处理模型的应用范围较广泛。
基于图1所示的实施环境,本申请实施例提供一种图像处理方法,以该方法应用于服务器为例。如图10所示,本申请实施例提供的方法可以包括如下步骤:
在步骤1001中,获取第一目标图像、第二目标图像和第一目标图像对应的针对目标类别的目标分割标签。
第一目标图像和第二目标图像中均具有目标类别,目标类别可以为模型训练过程中涉及到的类别,也可以为模型训练过程中未涉及到的类别,本申请实施例对此不加以限定。目标分割标签可以是指专业人员对第一目标图像中的目标类别进行标注后得到的标签。第二目标图像无需进行标注。需要说明的是,第一目标图像仅需一张,第二目标图像的数量可以为一张或多张,本申请实施例对此不加以限定。
第一目标图像、第二目标图像和第一目标图像对应的针对目标类别的目标分割标签可以由第一终端发送至服务器。需要说明的是,第一目标图像、第二目标图像和目标分割标签的尺寸相同。
第一目标图像和第二目标图像可以为与模型训练过程所需的训练集中的样本图像相同模态的图像,以提高模型预测的准确性。例如,若训练集中的样本图像为医学领域的腹部CT图像,则第一目标图像和第二目标图像也为医学领域的腹部CT图像。
在步骤1002中,基于训练得到的目标图像处理模型对第一目标图像、目标分割标签和第二目标图像进行处理,得到第二目标图像对应的针对目标类别的目标分割结果。
目标图像处理模型是指利用图2所示的实施例中的方法训练得到的图像处理模型。基于训练得到的目标图像处理模型对第一目标图像、目标分割标签和第二目标图像进行处理的过程可以参见图2所示的实施例中的模型训练过程中对第一样本图像、第一分割标签和第二样本图像的处理过程,此处不再赘述。
需要说明的是,对于第二目标图像为多张的情况,每次任选一张第二目标图像,将该张第二目标图像、第一目标图像和第一目标图像对应的目标分割标签输入目标图像处理模型,得到该张第二目标图像对应的目标分割结果;然后再任选一张其他的第二目标图像,重复上述过程,直至得到所有第二目标图像对应的目标分割结果。
在一种可能实现方式中,本申请实施例的技术方案可以用Pytorch实现,在在Nvidia Tesla P40显卡上的GPU中运行。
在得到目标分割结果后,服务器可以将目标分割结果发送至第二终端,以由第二终端的用户基于目标分割结果进行进一步的分析操作。第二终端与第一终端可以相同,也可以不同,本申请实施例对此不加以限定。
示例性地,第一终端、第二终端和服务器之间的交互过程可以如图11所示,第一终端1101将第一目标图像、第二目标图像和目标分割标签发送至服务器1102;服务器1102利用目标图像处理模型对第一目标图像、第二目标图像和目标分割标签进行处理,得到目标分割结果;服务器1102将目标分割结果发送至第二终端1103。
在本申请中,首先利用网络现有的有分割标签的样本图像构成训练集,在训练集的基础上,用监督学习的方法,训练出一个目标图像处理模型。训练好目标图像处理模型后,当有一个新的目标类别需要分割时,只需提供一个具有该目标类别的图像以及该图像对应的针对该目标类别的分割标签,通过把无分割标签的图像和该有分割标签的图像及其分割标签输入目标图像处理模型,就可以直接预测出无分割标签的图像的分割结果。由于模型使用过程中,只需一个有分割标签的图像即可对其他无分割标签的图像进行准确分割,所以,本申请的图像处理过程可以称作one-shot(单样本)分割过程。
本申请提供的图像处理方法可以应用在医疗领域,以对医学图像进行器官分割。在只具有一张医学图像和与该医学图像对应的针对某器官的分割标签的情况下,利用器官与医学图像之间的约束信息,以及不同医学图像之间的相关性,可以在其他无分割标签的医学图像中准确分割出同样的器官。对于一种需要分割的新器官,医生只需选择一张比较规整的医学图像进行标注,得到该医学图像对应的针对该新器官的分割标签,由于大多数人都有一个共同的解剖结构(尽管个体有不同程度的变异),所以新器官的分割标签及其对应的医学图像有望为该新器官提供一个强有力的解剖学先验,从而可以在同类型的其他医学图像中精确的分割出的该新器官。此种方式可以在一定程度上解决医学图像标注困难的问题,能够节省大量的人力、物力和时间,有非常高的实用价值。
图像处理过程的整体思路可以如图12所示,通过学习第一目标图像1201和其对应的目标分割标签1202之间的约束信息,以及第一目标图像1201和第二目标图像1203之间的相关性,可以直接预测出第二目标图像1203的目标分割结果1204。在基于图9所示的整体思路进行模型训练后,可以从充分标注的分割标签及其对应的图像中学习到通用的类别概念,将通用的类别概念进行泛化,可以在图12所示的整体思路上,利用单标注图像分割出模型训练过程中未涉及到的新类别。
示例性地,当将图像处理方法应用在医疗领域时,分割类别可以是指器官类型,在基于图9所示的整体思路进行模型训练后,可以从充分标注的器官分割标签及其对应的医学图像中学习到通用的器官概念,将通用的器官概念进行泛化,可以在图12所示的整体思路上,利用一张有新器官分割标签的医学图像,在其他医学图像中准确分割出该新器官。
在本申请实施例中,在图像处理模型训练过程中,利用两个编码处理模型分别处理两个样本图像,将两个编码处理模型输出的目标特征图进行关联处理后,利用解码处理模型预测第二样本图像的分割结果,进而利用分割结果和真实分割标签之间的损失函数训练模型。在上述训练过程中,对每次训练所需的两张样本图像进行不同的处理,既考虑样本图像和分割标签之间的约束信息,又考虑不同样本图像之间的相关性,此种方式训练得到的图像处理模型既可以对训练过程中涉及到的分割类别进行分割、又可以对训练过程中未涉及到的新分割类别进行分割,图像处理模型的应用范围较广泛,利用训练好的图像处理模型进行图像处理的处理效果较好。
参见图13,本申请实施例提供了一种图像处理模型训练装置,该装置包括:
获取单元1301,用于获取第一样本图像、第二样本图像、第一样本图像对应的第一分割标签、第二样本图像对应的第二分割标签和图像处理模型,第一分割标签和第二分割标签为针对相同的分割类别的标签,图像处理模型包括第一编码处理模型、第二编码处理模型、关联处理模型和解码处理模型;
第一处理单元1302,用于通过第一编码处理模型对第一样本图像和第一分割标签的串接特征图进行编码处理,得到第一样本图像对应的第一目标特征图;
第二处理单元1303,用于通过第二编码处理模型对第二样本图像进行编码处理,得到第二样本图像对应的第二目标特征图;
第三处理单元1304,用于通过关联处理模型对第一目标特征图和第二目标特征图进行关联处理,得到第二样本图像对应的第三目标特征图;
第四处理单元1305,用于通过解码处理模型对第二目标特征图和第三目标特征图进行解码处理,得到第二样本图像的分割结果;
确定单元1306,用于基于第二样本图像的分割结果和第二分割标签,确定损失函数;
训练单元1307,用于利用损失函数训练第一编码处理模型、第二编码处理模型、关联处理模型和解码处理模型,得到目标图像处理模型。
在一种可能实现方式中,关联处理模型包括关联层、第一串接层和第一卷积层;第三处理单元1304,用于将第一目标特征图和第二目标特征图输入关联层,得到第一目标特征图和第二目标特征图之间的相关特征图;将相关特征图和第二目标特征图输入第一串接层,得到第一串接特征图;将第一串接特征图输入第一卷积层,得到第二样本图像对应的第三目标特征图。
在一种可能实现方式中,第一编码处理模型包括至少一个编码处理子模型;第一处理单元1302,用于通过至少一个编码处理子模型对第一样本图像和第一分割标签的串接特征图进行编码处理,得到第一样本图像对应的第一目标特征图。
在一种可能实现方式中,第一编码处理模型包括依次连接的第一编码处理子模型、第二编码处理子模型和第三编码处理子模型;第一处理单元1302,用于将第一样本图像和第一分割标签的串接特征图输入第一编码处理子模型进行第一下采样处理,得到第一样本图像对应的第一中间特征图;将第一中间特征图输入第二编码处理子模型进行第二下采样处理,得到第一样本图像对应的第二中间特征图;将第二中间特征图输入第三编码处理子模型进行第三下采样处理,得到第一样本图像对应的第一目标特征图。
在一种可能实现方式中,第二编码处理模型包括第四编码处理子模型、第五编码处理子模型、第六编码处理子模型和第一参考数量的融合处理子模型,第二处理单元1303,用于通过第四编码处理子模型、第五编码处理子模型、第六编码处理子模型和第一参考数量的融合处理子模型对第二样本图像进行编码处理,得到第二样本图像对应的第二目标特征图。
在一种可能实现方式中,第一参考数量为三个;第二编码处理模型包括位于第四编码处理子模型和第五编码处理子模型之间的第一融合处理子模型、位于第五编码处理子模型和第六编码处理子模型之间的第二融合处理子模型,以及位于第六编码处理子模型之后的第三融合处理子模型;
第二处理单元1303,用于将第二样本图像输入第四编码处理子模型进行第四下采样处理,得到第二样本图像对应的第三中间特征图;将第三中间特征图和第一中间特征图输入第一融合处理子模型进行第一融合处理,得到第二样本图像对应的第四中间特征图;将第四中间特征图输入第五编码处理子模型进行第五下采样处理,得到第二样本图像对应的第五中间特征图;将第五中间特征图和第二中间特征图输入第二融合处理子模型进行第二融合处理,得到第二样本图像对应的第六中间特征图;将第六中间特征图输入第六编码处理子模型进行第六下采样处理,得到第二样本图像对应的第七中间特征图;将第七中间特征图和第一目标特征图输入第三融合处理子模型进行第三融合处理,得到第二样本图像对应的第二目标特征图。
在一种可能实现方式中,第一融合处理子模型包括第二串接层和第二卷积层,第二处理单元1303,还用于将第三中间特征图和第一中间特征图输入第二串接层,得到第二串接特征图;将第二串接特征图输入第二卷积层,得到第二样本图像对应的第四中间特征图。
在一种可能实现方式中,解码处理模型包括依次连接的第一解码处理子模型、第二解码处理子模型、第三解码处理子模型和卷积处理子模型,第四处理单元1305,用于将第二目标特征图和第三目标特征图输入第一解码处理子模型,得到第一解码特征图;将第一解码特征图和第五中间特征图输入第二解码处理子模型,得到第二解码特征图;将第二解码特征图和第三中间特征图输入第三解码处理子模型,得到第三解码特征图;将第三解码特征图输入卷积处理子模型,得到第二样本图像的分割结果。
在一种可能实现方式中,确定单元1306,用于基于第二样本图像的分割结果和第二分割标签,分别确定第一子损失函数和第二子损失函数;基于第一子损失函数和第二子损失函数,确定损失函数。
在本申请实施例中,在图像处理模型训练过程中,利用两个编码处理模型分别处理两个样本图像,将两个编码处理模型输出的目标特征图进行关联处理后,利用解码处理模型预测第二样本图像的分割结果,进而利用分割结果和真实分割标签之间的损失函数训练模型。在上述训练过程中,对每次训练所需的两张样本图像进行不同的处理,既考虑样本图像和分割标签之间的约束信息,又考虑不同样本图像之间的相关性,此种方式训练得到的图像处理模型既可以对训练过程中涉及到的分割类别进行分割、又可以对训练过程中未涉及到的新分割类别进行分割,图像处理模型的应用范围较广泛。
参见图14,本申请实施例提供了一种图像处理装置,该装置包括:
获取单元1401,用于获取第一目标图像、第二目标图像和第一目标图像对应的针对目标类别的目标分割标签;
处理单元1402,用于基于训练得到的目标图像处理模型对第一目标图像、目标分割标签和第二目标图像进行处理,得到第二目标图像对应的针对目标类别的目标分割结果。
在本申请实施例中,在图像处理模型训练过程中,利用两个编码处理模型分别处理两个样本图像,将两个编码处理模型输出的目标特征图进行关联处理后,利用解码处理模型预测第二样本图像的分割结果,进而利用分割结果和真实分割标签之间的损失函数训练模型。在上述训练过程中,对每次训练所需的两张样本图像进行不同的处理,既考虑样本图像和分割标签之间的约束信息,又考虑不同样本图像之间的相关性,此种方式训练得到的图像处理模型既可以对训练过程中涉及到的分割类别进行分割、又可以对训练过程中未涉及到的新分割类别进行分割,图像处理模型的应用范围较广泛,利用训练好的图像处理模型进行图像处理的处理效果较好。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图15是本申请实施例提供的一种终端的结构示意图。该终端可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端包括有:处理器1501和存储器1502。
处理器1501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1501可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1501所执行以实现本申请中方法实施例提供的图像处理模型训练方法或图像处理方法。
在一些实施例中,终端还可选包括有:外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地,外围设备包括:射频电路1504、触摸显示屏1505、摄像头组件1506、音频电路1507、定位组件1508和电源1509中的至少一种。
外围设备接口1503可被用于将I/O(Input /Output,输入/输出)相关的至少一个外围设备连接到处理器1501和存储器1502。在一些实施例中,处理器1501、存储器1502和外围设备接口1503被集成在同一芯片或电路板上;在一些其他实施例中,处理器1501、存储器1502和外围设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1504用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1504包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1504还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1505用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时,显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1501进行处理。此时,显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1505可以为一个,设置在终端的前面板;在另一些实施例中,显示屏1505可以为至少两个,分别设置在终端的不同表面或呈折叠设计;在再一些实施例中,显示屏1505可以是柔性显示屏,设置在终端的弯曲表面上或折叠面上。甚至,显示屏1505还可以设置成非矩形的不规则图形,也即异形屏。显示屏1505可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1506用于采集图像或视频。可选地,摄像头组件1506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1501进行处理,或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1507还可以包括耳机插孔。
定位组件1508用于定位终端的当前地理位置,以实现导航或LBS(Location BasedService,基于位置的服务)。定位组件1508可以是基于美国的GPS(Global PositioningSystem,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源1509用于为终端中的各个组件进行供电。电源1509可以是交流电、直流电、一次性电池或可充电电池。当电源1509包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端还包括有一个或多个传感器1510。该一个或多个传感器1510包括但不限于:加速度传感器1511、陀螺仪传感器1512、压力传感器1513、指纹传感器1514、光学传感器1515以及接近传感器1516。
加速度传感器1511可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1511可以用于检测重力加速度在三个坐标轴上的分量。处理器1501可以根据加速度传感器1511采集的重力加速度信号,控制触摸显示屏1505以横向视图或纵向视图进行用户界面的显示。加速度传感器1511还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1512可以检测终端的机体方向及转动角度,陀螺仪传感器1512可以与加速度传感器1511协同采集用户对终端的3D动作。处理器1501根据陀螺仪传感器1512采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1513可以设置在终端的侧边框和/或触摸显示屏1505的下层。当压力传感器1513设置在终端的侧边框时,可以检测用户对终端的握持信号,由处理器1501根据压力传感器1513采集的握持信号进行左右手识别或快捷操作。当压力传感器1513设置在触摸显示屏1505的下层时,由处理器1501根据用户对触摸显示屏1505的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1514用于采集用户的指纹,由处理器1501根据指纹传感器1514采集到的指纹识别用户的身份,或者,由指纹传感器1514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1501授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1514可以被设置在终端的正面、背面或侧面。当终端上设置有物理按键或厂商Logo时,指纹传感器1514可以与物理按键或厂商Logo集成在一起。
光学传感器1515用于采集环境光强度。在一个实施例中,处理器1501可以根据光学传感器1515采集的环境光强度,控制触摸显示屏1505的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏1505的显示亮度;当环境光强度较低时,调低触摸显示屏1505的显示亮度。在另一个实施例中,处理器1501还可以根据光学传感器1515采集的环境光强度,动态调整摄像头组件1506的拍摄参数。
接近传感器1516,也称距离传感器,通常设置在终端的前面板。接近传感器1516用于采集用户与终端的正面之间的距离。在一个实施例中,当接近传感器1516检测到用户与终端的正面之间的距离逐渐变小时,由处理器1501控制触摸显示屏1505从亮屏状态切换为息屏状态;当接近传感器1516检测到用户与终端的正面之间的距离逐渐变大时,由处理器1501控制触摸显示屏1505从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图15中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图16是本申请实施例提供的一种服务器的结构示意图,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1601和一个或多个存储器1602,其中,该一个或多个存储器1602中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器1601加载并执行,以实现上述各个方法实施例提供的图像处理模型训练方法或图像处理方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条程序代码。该至少一条程序代码由一个或者一个以上处理器加载并执行,以实现上述任一种图像处理模型训练方法,或者上述任一种图像处理方法。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由计算机设备的处理器加载并执行,以实现上述任一种图像处理模型训练方法,或者上述任一种图像处理方法。
可选地,上述计算机可读存储介质可以是只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘 (Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种图像处理模型训练方法,其特征在于,所述方法包括:
获取第一样本图像、第二样本图像、所述第一样本图像对应的第一分割标签、所述第二样本图像对应的第二分割标签和图像处理模型,所述第一分割标签和所述第二分割标签为针对相同的分割类别的标签,所述图像处理模型包括第一编码处理模型、第二编码处理模型、关联处理模型和解码处理模型;
通过所述第一编码处理模型对所述第一样本图像和所述第一分割标签的串接特征图进行编码处理,得到所述第一样本图像对应的第一目标特征图;
通过所述第二编码处理模型对所述第二样本图像进行编码处理,得到所述第二样本图像对应的第二目标特征图;
通过所述关联处理模型对所述第一目标特征图和所述第二目标特征图进行关联处理,得到所述第二样本图像对应的第三目标特征图;
通过所述解码处理模型对所述第二目标特征图和所述第三目标特征图进行解码处理,得到所述第二样本图像的分割结果;
基于所述第二样本图像的分割结果和所述第二分割标签,确定损失函数;利用所述损失函数训练所述第一编码处理模型、所述第二编码处理模型、所述关联处理模型和所述解码处理模型,得到目标图像处理模型。
2.根据权利要求1所述的方法,其特征在于,所述关联处理模型包括关联层、第一串接层和第一卷积层;所述通过关联处理模型对所述第一目标特征图和所述第二目标特征图进行关联处理,得到所述第二样本图像对应的第三目标特征图,包括:
将所述第一目标特征图和所述第二目标特征图输入所述关联层,得到所述第一目标特征图和所述第二目标特征图之间的相关特征图;
将所述相关特征图和所述第二目标特征图输入所述第一串接层,得到第一串接特征图;
将所述第一串接特征图输入所述第一卷积层,得到所述第二样本图像对应的第三目标特征图。
3.根据权利要求1所述的方法,其特征在于,所述第一编码处理模型包括至少一个编码处理子模型;所述通过所述第一编码处理模型对所述第一样本图像和所述第一分割标签的串接特征图进行编码处理,得到所述第一样本图像对应的第一目标特征图,包括:
通过所述至少一个编码处理子模型对所述第一样本图像和所述第一分割标签的串接特征图进行编码处理,得到所述第一样本图像对应的第一目标特征图。
4.根据权利要求3所述的方法,其特征在于,所述第一编码处理模型包括依次连接的第一编码处理子模型、第二编码处理子模型和第三编码处理子模型;所述通过所述至少一个编码处理子模型对所述第一样本图像和所述第一分割标签的串接特征图进行编码处理,得到所述第一样本图像对应的第一目标特征图,包括:
将所述第一样本图像和所述第一分割标签的串接特征图输入所述第一编码处理子模型进行第一下采样处理,得到所述第一样本图像对应的第一中间特征图;
将所述第一中间特征图输入所述第二编码处理子模型进行第二下采样处理,得到所述第一样本图像对应的第二中间特征图;
将所述第二中间特征图输入所述第三编码处理子模型进行第三下采样处理,得到所述第一样本图像对应的第一目标特征图。
5.根据权利要求4所述的方法,其特征在于,所述第二编码处理模型包括第四编码处理子模型、第五编码处理子模型、第六编码处理子模型和第一参考数量的融合处理子模型,所述通过所述第二编码处理模型对所述第二样本图像进行编码处理,得到所述第二样本图像对应的第二目标特征图,包括:
通过所述第四编码处理子模型、所述第五编码处理子模型、所述第六编码处理子模型和所述第一参考数量的融合处理子模型对所述第二样本图像进行编码处理,得到所述第二样本图像对应的第二目标特征图。
6.根据权利要求5所述的方法,其特征在于,所述第一参考数量为三个;所述第二编码处理模型包括位于所述第四编码处理子模型和所述第五编码处理子模型之间的第一融合处理子模型、位于所述第五编码处理子模型和所述第六编码处理子模型之间的第二融合处理子模型,以及位于所述第六编码处理子模型之后的第三融合处理子模型;
所述通过所述第四编码处理子模型、所述第五编码处理子模型、所述第六编码处理子模型和所述第一参考数量的融合处理子模型对所述第二样本图像进行编码处理,得到所述第二样本图像对应的第二目标特征图,包括:
将所述第二样本图像输入所述第四编码处理子模型进行第四下采样处理,得到所述第二样本图像对应的第三中间特征图;
将所述第三中间特征图和所述第一中间特征图输入所述第一融合处理子模型进行第一融合处理,得到所述第二样本图像对应的第四中间特征图;
将所述第四中间特征图输入所述第五编码处理子模型进行第五下采样处理,得到所述第二样本图像对应的第五中间特征图;
将所述第五中间特征图和所述第二中间特征图输入所述第二融合处理子模型进行第二融合处理,得到所述第二样本图像对应的第六中间特征图;
将所述第六中间特征图输入所述第六编码处理子模型进行第六下采样处理,得到所述第二样本图像对应的第七中间特征图;
将所述第七中间特征图和所述第一目标特征图输入所述第三融合处理子模型进行第三融合处理,得到所述第二样本图像对应的第二目标特征图。
7.根据权利要求6所述的方法,其特征在于,所述第一融合处理子模型包括第二串接层和第二卷积层,所述将所述第三中间特征图和所述第一中间特征图输入所述第一融合处理子模型进行第一融合处理,得到所述第二样本图像对应的第四中间特征图,包括:
将所述第三中间特征图和所述第一中间特征图输入所述第二串接层,得到第二串接特征图;
将所述第二串接特征图输入所述第二卷积层,得到所述第二样本图像对应的第四中间特征图。
8.根据权利要求6所述的方法,其特征在于,所述解码处理模型包括依次连接的第一解码处理子模型、第二解码处理子模型、第三解码处理子模型和卷积处理子模型,所述通过所述解码处理模型对所述第二目标特征图和所述第三目标特征图进行解码处理,得到所述第二样本图像的分割结果,包括:
将所述第二目标特征图和所述第三目标特征图输入所述第一解码处理子模型,得到第一解码特征图;
将所述第一解码特征图和所述第五中间特征图输入所述第二解码处理子模型,得到第二解码特征图;
将所述第二解码特征图和所述第三中间特征图输入所述第三解码处理子模型,得到第三解码特征图;
将所述第三解码特征图输入所述卷积处理子模型,得到所述第二样本图像的分割结果。
9.根据权利要求1-8任一所述的方法,其特征在于,所述基于所述第二样本图像的分割结果和所述第二分割标签,确定损失函数,包括:
基于所述第二样本图像的分割结果和所述第二分割标签,分别确定第一子损失函数和第二子损失函数;
基于所述第一子损失函数和所述第二子损失函数,确定所述损失函数。
10.一种图像处理方法,其特征在于,所述方法包括:
获取第一目标图像、第二目标图像和所述第一目标图像对应的针对目标类别的目标分割标签;
基于权利要求1-9任一所述的方法训练得到的目标图像处理模型对所述第一目标图像、所述目标分割标签和所述第二目标图像进行处理,得到所述第二目标图像对应的针对所述目标类别的目标分割结果。
11.一种图像处理模型训练装置,其特征在于,所述装置包括:
获取单元,用于获取第一样本图像、第二样本图像、所述第一样本图像对应的第一分割标签、所述第二样本图像对应的第二分割标签和图像处理模型,所述第一分割标签和所述第二分割标签为针对相同的分割类别的标签,所述图像处理模型包括第一编码处理模型、第二编码处理模型、关联处理模型和解码处理模型;
第一处理单元,用于通过所述第一编码处理模型对所述第一样本图像和所述第一分割标签的串接特征图进行编码处理,得到所述第一样本图像对应的第一目标特征图;
第二处理单元,用于通过所述第二编码处理模型对所述第二样本图像进行编码处理,得到所述第二样本图像对应的第二目标特征图;
第三处理单元,用于通过所述关联处理模型对所述第一目标特征图和所述第二目标特征图进行关联处理,得到所述第二样本图像对应的第三目标特征图;
第四处理单元,用于通过所述解码处理模型对所述第二目标特征图和所述第三目标特征图进行解码处理,得到所述第二样本图像的分割结果;
确定单元,用于基于所述第二样本图像的分割结果和所述第二分割标签,确定损失函数;
训练单元,用于利用所述损失函数训练所述第一编码处理模型、所述第二编码处理模型、所述关联处理模型和所述解码处理模型,得到目标图像处理模型。
12.根据权利要求11所述的装置,其特征在于,所述关联处理模型包括关联层、第一串接层和第一卷积层;所述第三处理单元,用于将所述第一目标特征图和所述第二目标特征图输入所述关联层,得到所述第一目标特征图和所述第二目标特征图之间的相关特征图;将所述相关特征图和所述第二目标特征图输入所述第一串接层,得到第一串接特征图;将所述第一串接特征图输入所述第一卷积层,得到所述第二样本图像对应的第三目标特征图。
13.一种图像处理装置,其特征在于,所述装置包括:
获取单元,用于获取第一目标图像、第二目标图像和所述第一目标图像对应的针对目标类别的目标分割标签;
处理单元,用于基于权利要求1-9任一所述的方法训练得到的目标图像处理模型对所述第一目标图像、所述目标分割标签和所述第二目标图像进行处理,得到所述第二目标图像对应的针对所述目标类别的目标分割结果。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至9任一所述的图像处理模型训练方法,或者如权利要求10所述的图像处理方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至9任一所述的图像处理模型训练方法,或者如权利要求10所述的图像处理方法。
CN202010216037.3A 2020-03-25 2020-03-25 图像处理模型训练方法、图像处理方法、设备及存储介质 Active CN111091166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010216037.3A CN111091166B (zh) 2020-03-25 2020-03-25 图像处理模型训练方法、图像处理方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010216037.3A CN111091166B (zh) 2020-03-25 2020-03-25 图像处理模型训练方法、图像处理方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111091166A true CN111091166A (zh) 2020-05-01
CN111091166B CN111091166B (zh) 2020-07-28

Family

ID=70400602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010216037.3A Active CN111091166B (zh) 2020-03-25 2020-03-25 图像处理模型训练方法、图像处理方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111091166B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598160A (zh) * 2020-05-14 2020-08-28 腾讯科技(深圳)有限公司 图像分类模型的训练方法、装置、计算机设备及存储介质
CN111681195A (zh) * 2020-06-09 2020-09-18 中国人民解放军63811部队 红外图像和可见光图像的融合方法、装置及可读存储介质
CN111860485A (zh) * 2020-07-24 2020-10-30 腾讯科技(深圳)有限公司 图像识别模型的训练方法、图像的识别方法、装置、设备
CN114332976A (zh) * 2021-09-17 2022-04-12 广州繁星互娱信息科技有限公司 虚拟对象处理方法、电子设备及存储介质
WO2022077218A1 (en) * 2020-10-13 2022-04-21 SZ DJI Technology Co., Ltd. Online point cloud processing of lidar and camera data
CN114494810A (zh) * 2022-01-28 2022-05-13 北京百度网讯科技有限公司 图像处理方法、神经网络及其训练方法、装置和设备
WO2022199137A1 (zh) * 2021-03-23 2022-09-29 中国科学院深圳先进技术研究院 语义分割网络的训练方法、图像处理方法及其设备
CN115130539A (zh) * 2022-04-21 2022-09-30 腾讯科技(深圳)有限公司 分类模型训练、数据分类方法、装置和计算机设备
CN116580269A (zh) * 2023-07-13 2023-08-11 荣耀终端有限公司 训练模型的方法、处理图像的方法、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110009598A (zh) * 2018-11-26 2019-07-12 腾讯科技(深圳)有限公司 用于图像分割的方法和图像分割设备
CN110472676A (zh) * 2019-08-05 2019-11-19 首都医科大学附属北京朝阳医院 基于深度神经网络的胃早癌组织学图像分类系统
EP3576020A1 (en) * 2018-05-30 2019-12-04 Siemens Healthcare GmbH Methods for generating synthetic training data and for training deep learning algorithms for tumor lesion characterization, method and system for tumor lesion characterization, computer program and electronically readable storage medium
US20190385021A1 (en) * 2018-06-18 2019-12-19 Drvision Technologies Llc Optimal and efficient machine learning method for deep semantic segmentation
CN110599492A (zh) * 2019-09-19 2019-12-20 腾讯科技(深圳)有限公司 图像分割模型的训练方法、装置、电子设备及存储介质
CN110675405A (zh) * 2019-09-12 2020-01-10 电子科技大学 基于注意力机制的one-shot图像分割方法
CN110766084A (zh) * 2019-10-28 2020-02-07 北京理工大学 基于cae与hl-cnn的小样本sar目标识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3576020A1 (en) * 2018-05-30 2019-12-04 Siemens Healthcare GmbH Methods for generating synthetic training data and for training deep learning algorithms for tumor lesion characterization, method and system for tumor lesion characterization, computer program and electronically readable storage medium
US20190385021A1 (en) * 2018-06-18 2019-12-19 Drvision Technologies Llc Optimal and efficient machine learning method for deep semantic segmentation
CN110009598A (zh) * 2018-11-26 2019-07-12 腾讯科技(深圳)有限公司 用于图像分割的方法和图像分割设备
CN110472676A (zh) * 2019-08-05 2019-11-19 首都医科大学附属北京朝阳医院 基于深度神经网络的胃早癌组织学图像分类系统
CN110675405A (zh) * 2019-09-12 2020-01-10 电子科技大学 基于注意力机制的one-shot图像分割方法
CN110599492A (zh) * 2019-09-19 2019-12-20 腾讯科技(深圳)有限公司 图像分割模型的训练方法、装置、电子设备及存储介质
CN110766084A (zh) * 2019-10-28 2020-02-07 北京理工大学 基于cae与hl-cnn的小样本sar目标识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XU ZHANG等: "ONE-SHOT LEARNING FOR FUNCTION-SPECIFIC REGION SEGMENTATION IN MOUSE", 《2019 IEEE 16TH INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING (ISBI 2019)》 *
ZHAO, A.等: "Data augmentation using learned transformations for one-shot medical image segmentation", 《 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598160A (zh) * 2020-05-14 2020-08-28 腾讯科技(深圳)有限公司 图像分类模型的训练方法、装置、计算机设备及存储介质
CN111598160B (zh) * 2020-05-14 2023-04-07 腾讯科技(深圳)有限公司 图像分类模型的训练方法、装置、计算机设备及存储介质
CN111681195A (zh) * 2020-06-09 2020-09-18 中国人民解放军63811部队 红外图像和可见光图像的融合方法、装置及可读存储介质
CN111860485A (zh) * 2020-07-24 2020-10-30 腾讯科技(深圳)有限公司 图像识别模型的训练方法、图像的识别方法、装置、设备
CN111860485B (zh) * 2020-07-24 2024-04-26 腾讯科技(深圳)有限公司 图像识别模型的训练方法、图像的识别方法、装置、设备
WO2022077218A1 (en) * 2020-10-13 2022-04-21 SZ DJI Technology Co., Ltd. Online point cloud processing of lidar and camera data
WO2022199137A1 (zh) * 2021-03-23 2022-09-29 中国科学院深圳先进技术研究院 语义分割网络的训练方法、图像处理方法及其设备
CN114332976A (zh) * 2021-09-17 2022-04-12 广州繁星互娱信息科技有限公司 虚拟对象处理方法、电子设备及存储介质
CN114494810A (zh) * 2022-01-28 2022-05-13 北京百度网讯科技有限公司 图像处理方法、神经网络及其训练方法、装置和设备
CN115130539A (zh) * 2022-04-21 2022-09-30 腾讯科技(深圳)有限公司 分类模型训练、数据分类方法、装置和计算机设备
CN116580269A (zh) * 2023-07-13 2023-08-11 荣耀终端有限公司 训练模型的方法、处理图像的方法、电子设备及存储介质
CN116580269B (zh) * 2023-07-13 2023-09-19 荣耀终端有限公司 训练模型的方法、处理图像的方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN111091166B (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111091166B (zh) 图像处理模型训练方法、图像处理方法、设备及存储介质
CN110163048B (zh) 手部关键点的识别模型训练方法、识别方法及设备
CN111325726A (zh) 模型训练方法、图像处理方法、装置、设备及存储介质
WO2020224479A1 (zh) 目标的位置获取方法、装置、计算机设备及存储介质
CN111739035B (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN111091576A (zh) 图像分割方法、装置、设备及存储介质
CN112036331B (zh) 活体检测模型的训练方法、装置、设备及存储介质
CN110135336B (zh) 行人生成模型的训练方法、装置及存储介质
CN111476783B (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN112598686B (zh) 图像分割方法、装置、计算机设备及存储介质
CN111243668B (zh) 分子结合位点检测方法、装置、电子设备及存储介质
CN110544272A (zh) 脸部跟踪方法、装置、计算机设备及存储介质
CN112749728A (zh) 学生模型训练方法、装置、计算机设备及存储介质
CN114332530A (zh) 图像分类方法、装置、计算机设备及存储介质
CN110570460A (zh) 目标跟踪方法、装置、计算机设备及计算机可读存储介质
CN111598160A (zh) 图像分类模型的训练方法、装置、计算机设备及存储介质
CN110675412A (zh) 图像分割方法、图像分割模型的训练方法、装置及设备
CN113705302A (zh) 图像生成模型的训练方法、装置、计算机设备及存储介质
CN113570645A (zh) 图像配准方法、装置、计算机设备及介质
CN113724189A (zh) 图像处理方法、装置、设备及存储介质
CN111598896A (zh) 图像检测方法、装置、设备及存储介质
CN111753498A (zh) 文本处理方法、装置、设备及存储介质
CN112508959B (zh) 视频目标分割方法、装置、电子设备及存储介质
CN112037305B (zh) 对图像中的树状组织进行重建的方法、设备及存储介质
CN113821658A (zh) 对编码器进行训练的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant