CN112330685B - 图像分割模型训练、图像分割方法、装置及电子设备 - Google Patents

图像分割模型训练、图像分割方法、装置及电子设备 Download PDF

Info

Publication number
CN112330685B
CN112330685B CN202011574785.5A CN202011574785A CN112330685B CN 112330685 B CN112330685 B CN 112330685B CN 202011574785 A CN202011574785 A CN 202011574785A CN 112330685 B CN112330685 B CN 112330685B
Authority
CN
China
Prior art keywords
image
segmentation
network
target
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011574785.5A
Other languages
English (en)
Other versions
CN112330685A (zh
Inventor
申世伟
李家宏
李思则
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202011574785.5A priority Critical patent/CN112330685B/zh
Publication of CN112330685A publication Critical patent/CN112330685A/zh
Application granted granted Critical
Publication of CN112330685B publication Critical patent/CN112330685B/zh
Priority to PCT/CN2021/117037 priority patent/WO2022142450A1/zh
Priority to EP21913197.6A priority patent/EP4095801A1/en
Priority to US17/895,629 priority patent/US20230022387A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Abstract

本公开关于一种图像分割模型训练、图像分割方法、装置及电子设备,该图像分割模型训练方法包括获取表征训练样本和预测样本的类别特征的目标类别特征信息和其关联场景特征信息;对目标类别特征信息和关联场景特征信息进行拼接处理;将拼接处理得到的第一拼接特征信息输入初始生成网络进行图像合成处理;将合成处理得到的第一合成图像输入初始判别网络进行真实性判别;将第一合成图像输入初始图像分割模型的分类网络进行图像分割,得到第一图像分割结果;基于第一图像判别结果、第一图像分割结果和目标类型特征信息训练初始图像分割模型的分类网络,得到目标图像分割模型。利用本公开实施例可以提升训练出的目标图像分割模型的图像分割精度。

Description

图像分割模型训练、图像分割方法、装置及电子设备
技术领域
本公开涉及人工智能技术领域,尤其涉及一种图像分割模型训练、图像分割方法、装置及电子设备。
背景技术
人工智能(Artificial Intelligence,AI)技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,利用人工智能技术进行图像分割,在视频监控、公共安全等多个领域发挥着重要的作用。
相关技术中,由于构建训练样本的成本高,难度大,基于未知类别的词向量自动合成图片像素特征的零样本分割技术方案在业界大受欢迎。但零样本分割技术由于只有文本信息参与图像分割模型的训练,存在分割精度低,易出错的问题。
发明内容
本公开提供一种图像分割模型训练、图像分割方法、装置及电子设备,以至少解决相关技术中分割精度低,易出错的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种图像分割模型训练方法,包括:
获取目标类别特征信息和所述目标类别特征信息的关联场景特征信息,所述目标类别特征信息表征训练样本和预测样本的类别特征;
对所述目标类别特征信息和所述关联场景特征信息进行拼接处理,得到第一拼接特征信息;
将所述第一拼接特征信息输入初始生成网络进行图像合成处理,得到第一合成图像;
将所述第一合成图像输入初始判别网络进行真实性判别,得到第一图像判别结果;
将所述第一合成图像输入初始图像分割模型的分类网络进行图像分割,得到第一图像分割结果;
基于所述第一图像判别结果、所述第一图像分割结果和所述目标类别特征信息训练所述初始图像分割模型的分类网络,得到目标图像分割模型。
可选的,所述关联场景特征信息的获取步骤包括:
获取场景图像集,将所述场景图像集输入场景识别模型进行场景识别,得到场景信息集;
将所述场景信息集输入目标词向量模型,得到场景特征信息集;
计算所述目标类别特征信息与所述场景特征信息集中场景特征信息间的相似度;
基于所述相似度从所述场景特征信息集中确定所述关联场景特征信息。
可选的,所述获取目标类别特征信息包括:
获取所述训练样本和所述预测样本的类别信息;
将所述类别信息输入目标词向量模型,得到所述目标类别特征信息。
可选的,所述基于所述第一图像判别结果、所述第一图像分割结果和所述目标类别特征信息训练所述初始图像分割模型的分类网络,得到目标图像分割模型包括:
利用所述第一图像判别结果和所述第一合成图像的真实性标签计算第一判别损失;
利用所述第一图像分割结果和所述目标类别特征信息计算第一分割损失;
根据所述第一判别损失和所述第一分割损失,确定第一目标损失;
在所述第一目标损失不满足第一预设条件的情况下,更新所述初始图像分割模型的分类网络、所述初始生成网络和所述初始判别网络中的网络参数;
基于更新后初始图像分割模型的分类网络、初始生成网络和初始判别网络更新所述第一目标损失,至所述第一目标损失满足所述第一预设条件,将当前的初始图像分割模型作为所述目标图像分割模型。
可选的,所述方法还包括:
获取所述训练样本、所述训练样本的训练场景特征信息和所述训练样本的训练类别特征信息;
将所述训练样本输入待训练分割模型的特征提取网络进行特征提取,得到分割特征图像;
对所述训练类别特征信息与所述训练场景特征信息进行拼接处理,得到第二拼接特征信息;
将所述第二拼接特征信息输入待训练生成网络进行图像合成处理,得到第二合成图像;
将所述第二合成图像和所述分割特征图像输入所述待训练分割模型的分类网络,分别进行图像分割,得到所述第二合成图像对应的第二图像分割结果和所述分割特征图像对应的第三图像分割结果;
将所述分割特征图像和所述第二合成图像输入待训练判别网络,分别进行真实性判别,得到所述分割特征图像对应的第二图像判别结果和所述第二合成图像对应的第三图像判别结果;
基于所述第二合成图像、所述分割特征图像、所述第二图像分割结果、所述第三图像分割结果、所述训练类别特征信息、所述第二图像判别结果和所述第三图像判别结果训练所述待训练分割模型、所述待训练生成网络和所述待训练判别网络,得到所述初始图像分割模型、所述初始生成网络和所述初始判别网络。
可选的,所述基于所述第二合成图像、所述分割特征图像、所述第二图像分割结果、所述第三图像分割结果、所述训练类别特征信息、所述第二图像判别结果和所述第三图像判别结果训练所述待训练分割模型、所述待训练生成网络和所述待训练判别网络,得到所述初始图像分割模型、所述初始生成网络和所述初始判别网络包括:
利用所述第二合成图像和所述分割特征图像计算内容损失;
利用所述第二图像分割结果、所述第三图像分割结果和所述训练类别特征信息,计算第二分割损失;
利用所述第二图像判别结果和所述第三图像判别结果计算第二判别损失;
根据所述内容损失、所述第二判别损失和所述第二分割损失,确定第二目标损失;
在所述第二目标损失不满足第二预设条件的情况下,更新所述待训练分割模型、所述待训练生成网络和所述待训练判别网络中的网络参数;
基于更新后待训练分割模型、待训练生成网络和待训练判别网络更新所述第二目标损失,至所述第二目标损失满足所述第二预设条件,将当前的待训练分割模型作为初始图像分割模型,将当前的待训练生成网络作为所述初始生成网络,将当前的待训练判别网络作为所述初始判别网络。
根据本公开实施例的第二方面,提供一种图像分割模型训练装置,包括:
特征信息获取模块,被配置为执行获取目标类别特征信息和所述目标类别特征信息的关联场景特征信息,所述目标类别特征信息表征训练样本和预测样本的类别特征;
第一拼接处理模块,被配置为执行对所述目标类别特征信息和所述关联场景特征信息进行拼接处理,得到第一拼接特征信息;
第一图像合成处理模块,被配置为执行将所述第一拼接特征信息输入初始生成网络进行图像合成处理,得到第一合成图像;
第一真实性判别模块,被配置为执行将所述第一合成图像输入初始判别网络进行真实性判别,得到第一图像判别结果;
第一图像分割模块,被配置为执行将所述第一合成图像输入初始图像分割模型的分类网络进行图像分割,得到第一图像分割结果;
模型训练模块,被配置为执行基于所述第一图像判别结果、所述第一图像分割结果和所述目标类别特征信息训练所述初始图像分割模型的分类网络,得到目标图像分割模型。
可选的,所述特征信息获取模块包括:
场景图像集获取单元,被配置为执行获取场景图像集;
场景识别单元,被配置为执行将所述场景图像集输入场景识别模型进行场景识别,得到场景信息集;
场景特征信息集获取单元,被配置为执行将所述场景信息集输入目标词向量模型,得到场景特征信息集;
相似度计算单元,被配置为执行计算所述目标类别特征信息与所述场景特征信息集中场景特征信息间的相似度;
关联场景特征信息确定单元,被配置为执行基于所述相似度从所述场景特征信息集中确定所述关联场景特征信息。
可选的,所述特征信息获取模块包括:
类别信息获取单元,被配置为执行获取所述训练样本和所述预测样本的类别信息;
目标类别特征信息获取单元,被配置为执行将所述类别信息输入目标词向量模型,得到所述目标类别特征信息。
可选的,所述模型训练模块包括:
第一判别损失计算单元,被配置为执行利用所述第一图像判别结果和所述第一合成图像的真实性标签计算第一判别损失;
第一分割损失计算单元,被配置为执行利用所述第一图像分割结果和所述目标类别特征信息计算第一分割损失;
第一目标损失确定单元,被配置为执行根据所述第一判别损失和所述第一分割损失,确定第一目标损失;
第一网络参数更新单元,被配置为执行在所述第一目标损失不满足第一预设条件的情况下,更新所述初始图像分割模型的分类网络、所述初始生成网络和所述初始判别网络中的网络参数;
目标图像分割模型确定单元,被配置为执行基于更新后初始图像分割模型的分类网络、初始生成网络和初始判别网络更新所述第一目标损失,至所述第一目标损失满足所述第一预设条件,将当前的初始图像分割模型作为所述目标图像分割模型。
可选的,所述装置还包括:
数据获取模块,被配置为执行获取所述训练样本、所述训练样本的训练场景特征信息和所述训练样本的训练类别特征信息;
特征提取模块,被配置为执行将所述训练样本输入待训练分割模型的特征提取网络进行特征提取,得到分割特征图像;
第二拼接处理模块,被配置为执行所述训练类别特征信息与所述训练场景特征信息进行拼接处理,得到第二拼接特征信息;
第二图像合成处理模块,被配置为执行将所述第二拼接特征信息输入待训练生成网络进行图像合成处理,得到第二合成图像;
第二图像分割模块,被配置为执行将所述第二合成图像和所述分割特征图像输入所述待训练分割模型的分类网络,分别进行图像分割,得到所述第二合成图像对应的第二图像分割结果和所述分割特征图像对应的第三图像分割结果;
第二真实性判别模块,被配置为执行将所述分割特征图像和所述第二合成图像输入待训练判别网络,分别进行真实性判别,得到所述分割特征图像对应的第二图像判别结果和所述第二合成图像对应的第三图像判别结果;
初始模型训练模块,被配置为执行基于所述第二合成图像、所述分割特征图像、所述第二图像分割结果、所述第三图像分割结果、所述训练类别特征信息、所述第二图像判别结果和所述第三图像判别结果训练所述待训练分割模型、所述待训练生成网络和所述待训练判别网络,得到所述初始图像分割模型、所述初始生成网络和所述初始判别网络。
可选的,所述初始模型训练模块包括:
内容损失计算单元,被配置为执行利用所述第二合成图像和所述分割特征图像计算内容损失;
第二分割损失计算单元,被配置为执行利用所述第二图像分割结果、所述第三图像分割结果和所述训练类别特征信息,计算第二分割损失;
第二判别损失计算单元,被配置为执行利用所述第二图像判别结果和所述第三图像判别结果计算第二判别损失;
第二目标损失确定单元,被配置为执行根据所述内容损失、所述第二判别损失和所述第二分割损失,确定第二目标损失;
第二网络参数更单元,被配置为执行在所述第二目标损失不满足第二预设条件的情况下,更新所述待训练分割模型、所述待训练生成网络和所述待训练判别网络中的网络参数;
初始模型确定单元,被配置为执行基于更新后待训练分割模型、待训练生成网络和待训练判别网络更新所述第二目标损失,至所述第二目标损失满足所述第二预设条件,将当前的待训练分割模型作为初始图像分割模型,将当前的待训练生成网络作为所述初始生成网络,将当前的待训练判别网络作为所述初始判别网络。
根据本公开实施例的第三方面,提供一种图像分割方法,包括:
获取待分割图像;
将所述待分割图像输入上述第一方面中任一项所述的图像分割模型训练方法训练得到的目标图像分割模型,对所述待分割图像进行图像分割,得到目标分割图像。
根据本公开实施例的第四方面,提供一种图像分割装置,包括:
待分割图像获取模块,被配置为执行获取待分割图像;
第三图像分割模块,被配置为执行将所述待分割图像输入上述第一方面中任一项所述的图像分割模型训练方法训练得到的目标图像分割模型,对所述待分割图像进行图像分割,得到目标分割图像。
根据本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上述第一方面或第三方面中任一项所述的方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行本公开实施例的第一方面或第三方面中任一所述的方法。
根据本公开实施例的第七方面,提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例的第一方面或第三方面中任一所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过获取训练样本和预测样本对应类别特征来作为初始图像分割模型的训练数据,可以提高训练好的目标图像分割模型对未知类别的识别能力,且通过获取目标类别特征信息的关联场景特征信息,可以实现对某一类别分割对象所出现场景的预测,进而保证基于未知类别或已知类别的词向量自动合成图片像素特征时,可以增加类别所出现的场景的限制,使得图像分割模型的训练更专注于特定场景下图像像素特征的合成,从而可以更好的利用场景上下文来调整零样本图像分割训练中的分类网络,大大提升零样本分割的精度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种应用环境的示意图。
图2是根据一示例性实施例示出的一种图像分割模型训练方法的流程图;
图3是根据一示例性实施例示出的一种获取关联场景特征信息方法的流程图;
图4是根据一示例性实施例示出的一种图像分割模型预训练方法的流程图;
图5是根据一示例性实施例示出的一种图像分割方法的流程图;
图6是根据一示例性实施例示出的一种图像分割模型训练装置框图;
图7是根据一示例性实施例示出的一种图像分割装置框图;
图8是根据一示例性实施例示出的一种用于图像分割模型训练或用于图像分割的电子设备的框图;
图9是根据一示例性实施例示出的一种用于图像分割模型训练或用于图像分割的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
请参阅图1,图1是根据一示例性实施例示出的一种应用环境的示意图,如图1所示,该应用环境可以包括服务器01和终端02。
在一个可选的实施例中,服务器01可以用于训练可以进行图像分割的目标图像分割模型。具体的,服务器01可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个可选的实施例中,终端02可以结合服务器01训练出的图像分割模型进行图像分割处理。具体的,终端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备等类型的电子设备。可选的,电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。
此外,需要说明的是,图1所示的仅仅是本公开提供的一种应用环境,在实际应用中,还可以包括其他应用环境,例如目标图像分割模型的训练,也可以在终端02上实现。
本说明书实施例中,上述服务器01以及终端02可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
图2是根据一示例性实施例示出的一种图像分割模型训练方法的流程图,如图2所示,图像分割模型训练方法可以应用于服务器、终端、边缘计算节点等电子设备中,包括以下步骤。
在步骤S201中,获取目标类别特征信息和目标类别特征信息的关联场景特征信息。
本说明书实施例中,目标类别特征信息可以表征训练样本和预测样本的类别特征;在一个具体的实施例中,训练样本的类别特征可以为大量已知类别特征,即用于训练目标图像分割模型的训练样本的类别特征;预测样本的类别特征为大量未知类别特征,即未参与目标图像分割模型训练的图像的类别特征;相应的,训练样本可以包括大量用于训练目标图像分割模型的训练图像;预测样本可以包括大量未参与目标图像分割模型训练,且属于训练好的目标图像分割模型可分割(需要预测)的图像,即零样本。
在一个可选的实施例中,获取目标类别特征信息包括:
获取训练样本和预测样本的类别信息;
将类别信息输入目标词向量模型,得到目标类别特征信息。
本说明书实施例中,在训练时,虽然没有获取预测样本,但可以结合实际应用需求,获取实际应用中目标图像分割模型需要分割的图像的类别信息作为预测样本的类别信息。
在一个具体的实施例中,类别信息可以为大量图像(即训练样本或预测样本)中包含的分割对象的类别,例如一张图像中包括猫(分割对象),相应的,该图像的类别信息为猫。
在一个具体的实施例中,目标词向量模型可以为基于预设训练文本信息对预设词向量模型进行训练得到的。在一个可选的实施例中,预设训练文本信息可以为与目标图像分割模型的应用领域相关的文本信息。
可选的,在进行目标词向量模型训练过程中,可以将预设训练文本信息进行分词处理,将分词处理后的分词信息(即一个个词)输入目标词向量模型进行训练,在训练过程中可以将每个词映射成K维实数向量,得到目标词向量模型的同时可以得到表征词之间的语义关联度的词向量集合。可选的,后续,将类别信息(词)输入该目标词向量模型,该目标词向量模型可以基于词向量集合中的词向量确定类别信息的词向量,并将该类别信息的词向量作为类别信息对应的目标类别特征信息。
在一个可选的实施例中,预设词向量模型可以包括但不限于word2vec、fasttext、glove等词向量模型。
上述实施例中,通过获取训练样本和预测样本对应类别特征来作为初始图像分割模型的训练数据,可以提高训练好的目标图像分割模型对未知类别的识别能力,进而大大提升分割精度。
在一个具体的实施例中,如图3所示,图3是根据一示例性实施例示出的一种获取关联场景特征信息方法的流程图,具体的,可以包括如下步骤:
在步骤S301中,获取场景图像集。
在步骤S303中,将场景图像集输入场景识别模型进行场景识别,得到场景信息集;
在步骤S305中,将场景信息集输入目标词向量模型,得到场景特征信息集;
在步骤S307中,计算目标类别特征信息与场景特征信息集中场景特征信息间的相似度;
在步骤S309中,基于相似度从场景特征信息集中确定关联场景特征信息。
在一个具体的实施例中,场景图像集可以包括大量场景对应的图像。场景信息集可以为场景图像集中大量图像对应的场景信息,例如在卧室拍摄的图像,场景信息为卧室;拍摄池塘里的鱼的图像,场景信息可以为池塘。
在一个具体的实施例中,可以以具有场景标注的图像为训练数据,对预设深度学习模型进行训练,得到可以进行场景识别的场景识别模型。相应的,将场景图像集输入该场景识别模型进行场景识别,可以得到场景图像集中图像对应的场景信息集。
可选的,预设深度学习模型可以包括但不限于卷积神经网络、逻辑回归神经网络、递归神经网络等深度学习模型。
在一个可选的实施例中,将场景信息集中场景信息(词)输入目标词向量模型,该目标词向量模型可以基于词向量集合中的词向量确定场景信息的词向量,并将该场景信息的词向量作为场景信息对应的场景特征信息。
在一个可选的实施例中,上述用于获取场景特征信息集的目标词向量模型与用户获取目标类别特征信息的目标词向量模型为相同的词向量模型,即为基于相同的预设训练文本信息训练得到的目标词向量模型,进而可以提高表征场景信息和类别信息之间的语义关联度的准确性。
在一个可选的实施例中,目标类别特征信息与场景特征信息间的相似度可以表征目标类别特征信息与场景特征信息对应的词(类别信息和场景信息)之间语义的相似程度;具体的,目标类别特征信息与场景特征信息间的相似度越高,目标类别特征信息与场景特征信息对应的词之间语义的相似程度越高;反之,目标类别特征信息与场景特征信息间的相似度越低,目标类别特征信息与场景特征信息对应的词之间语义的相似程度越低。
在一个可选的实施例中,目标类别特征信息与场景特征信息间的相似度可以包括但不限于目标类别特征信息与场景特征信息间的余弦距离、欧式距离、曼哈顿距离。
在一个可选的实施例中,上述目标类别特征信息可以包括多个类别信息对应的类别特征信息(词向量),相应的,针对每一类别信息,可以选取与该类别信息对应的类别特征信息间相似度排序前N的场景特征信息作为初选场景特征信息,并从初选场景特征信息中随机选取一个场景特征信息作为该类别特征信息的关联场景特征信息。
可选的,针对每一类别信息,也可以选取与该类别信息对应的类别特征信息间相似度大于等于预设阈值的场景特征信息作为初选场景特征信息,并从初选场景特征信息中随机选取一个场景特征信息作为该类别特征信息的关联场景特征信息。
本说明书实施例中,上述预设阈值和N可以结合实际应用需求进行设置。
上述实施例中,通过获取目标类别特征信息的关联场景特征信息,可以实现对某一类别分割对象所出现场景的预测,进而保证后续基于未知类别或已知类别的词向量自动合成图片像素特征时,可以增加该类别所出现的场景的限制,使得图像分割模型的训练更专注于特定场景下图像像素特征的合成。
在步骤S203中,对目标类别特征信息和关联场景特征信息进行拼接处理,得到第一拼接特征信息。
在一个具体的实施例中,目标类别特征信息和关联场景特征信息进行拼接处理可以包括将目标类别特征信息中每一类别信息对应的类别特征信息与该类别特征信息的关联场景特征信息进行拼接处理。例如某一类别信息对应的类别特征信息为[1,2,3,4,5];该类别特征信息的关联场景特征信息为[6,7,8,9,0],可选的,该类别信息对应的第一拼接特征信息可以为[1,2,3,4,5,6,7,8,9,0],也可以为[6,7,8,9,0,1,2,3,4,5]。
在一个可选的实施例中,为了提升零样本学习过程中,特征提取的精准性,可以结合训练样本,训练样本的训练场景特征信息和训练样本的训练类别特征信息进行预训练,相应的,如图4所示,上述方法还可以包括:
S401:获取训练样本、训练样本的训练场景特征信息和训练样本的训练类别特征信息;
本说明书实施例中,训练场景特征信息可以为训练样本对应场景信息的词向量;在一个可选的实施例中,获取训练样本的训练场景特征信息的具体的细化步骤可以参见上述获取场景图像集的场景特征信息集的具体细化步骤,在此不再赘述。
本说明书实施例中,训练样本的训练类别特征信息可以为训练样本对应类别信息的词向量。在一个可选的实施例中,获取训练样本的训练类别特征信息的具体的细化步骤可以参见上述获取目标类别特征信息的相关细化步骤,在此不再赘述。
S403:将训练样本输入待训练分割模型的特征提取网络进行特征提取,得到分割特征图像。
在一个可选的实施例中,待训练分割模型可以包括DeepLab(语义图像分割模型),但本说明书实施例并不以上述为限,在实际应用中,还可以包括其他深度学习模型。
在一个具体的实施例中,待训练分割模型可以包括特征提取网络和分类网络。本说明书实施例中,特征提取网络可以用于提取图像(训练样本)的特征信息,将训练样本输入待训练分割模型的特征提取网络进行特征提取,可以得到分割特征图像。
S405:对训练类别特征信息与训练场景特征信息进行拼接处理,得到第二拼接特征信息。
在一个可选的实施例中,对训练类别特征信息与训练场景特征信息进行拼接处理,得到第二拼接特征信息的具体细化步骤可以参见上述目标类别特征信息和关联场景特征信息进行拼接处理的相关细化步骤,在此不再赘述。
S407:将第二拼接特征信息输入待训练生成网络进行图像合成处理,得到第二合成图像。
在一个可选的实施例中,待训练生成网络可以为GAN(Generative AdversarialNetworks,生成式对抗网络)中生成器。将第二拼接特征信息输入待训练生成网络进行图像合成处理,可以得到第二合成图像。
在实际应用中,骆驼常常出现在沙漠场景里、鱼常出现在海洋、池塘等场景里,大部分物体(分割对象)所出现的场景是有限的。上述实施例中利用训练样本的训练类别特征信息和训练关联场景特征信息进行拼接处理后,得到的第二拼接特征信息来合成该训练样本对应的合成图像,可以增加对该训练样本对应的分割对象所出现的场景的限制,得到可以准确表征分割对象类别信息和场景信息的第二合成图像,大大提升了对训练样本的特征映射能力。
S409:将第二合成图像和分割特征图像输入待训练分割模型的分类网络,分别进行图像分割,得到第二合成图像对应的第二图像分割结果和分割特征图像对应的第三图像分割结果。
本说明书实施例中,第二合成图像可以包括训练样本中每一训练图像对应的合成图像,相应的,这里每一合成图像对应的第二图像分割结果可以表征该合成图像的预测类别特征信息;可选的,分割特征图像可以包括训练样本中每一训练图像对应的图像特征信息;相应的,这里每一图像特征信息对应的第三图像分割结果可以表征该图像特征信息的预测类别特征信息。
S411:将分割特征图像和第二合成图像输入待训练判别网络,分别进行真实性判别,得到分割特征图像对应的第二图像判别结果和第二合成图像对应的第三图像判别结果。
在一个可选的实施例中,待训练判别网络可以为GAN中判别器。本说明书实施例中,分割特征图像对应的第二图像判别结果可以表征分割特征图像为真实图像的预测概率;第二合成图像对应的第三图像判别结果可以表征第二合成图像为真实图像的预测概率。本说明书实施例中,真实图像可以为非合成的图像。
S413:基于第二合成图像、分割特征图像、第二图像分割结果、第三图像分割结果、训练类别特征信息、第二图像判别结果和第三图像判别结果训练待训练分割模型、待训练生成网络和待训练判别网络,得到初始图像分割模型、初始生成网络和初始判别网络。
在一个具体的实施例中,上述基于第二合成图像、分割特征图像、第二图像分割结果、第三图像分割结果、训练类别特征信息、第二图像判别结果和第三图像判别结果训练待训练分割模型、待训练生成网络和待训练判别网络,得到初始图像分割模型、初始生成网络和初始判别网络可以包括:
利用第二合成图像和分割特征图像计算内容损失;
利用第二图像分割结果、第三图像分割结果和训练类别特征信息,计算第二分割损失;
利用第二图像判别结果和第三图像判别结果计算第二判别损失;
根据内容损失、第二判别损失和第二分割损失,确定第二目标损失;
在第二目标损失不满足第二预设条件的情况下,更新待训练分割模型、待训练生成网络和待训练判别网络中的网络参数;
基于更新后待训练分割模型、待训练生成网络和待训练判别网络更新第二目标损失,至第二目标损失满足第二预设条件,将当前的待训练分割模型作为初始图像分割模型,将当前的待训练生成网络作为初始生成网络,将当前的待训练判别网络作为初始判别网络。
在一个具体的实施例中,内容损失可以反映待训练生成网络生成的第二合成图像与分割特征图间的差异。在一个具体的实施例中,内容损失可以为训练样本中训练图像对应的第二合成图像和分割特征图像间的相似距离。在一个可选的实施例中,第二合成图像和分割特征图像间的相似距离可以包括但不限于第二合成图像和分割特征图像间的余弦距离、欧式距离、曼哈顿距离。在一个可选的实施例中,内容损失的数值的大小与第二合成图像与分割特征图间的差异大小成正比,相应的,内容损失的数值的越小,训练得到的初始生成网络的性能越高。
在一个具体的实施例中,利用第二图像分割结果、第三图像分割结果和训练类别特征信息,计算第二分割损失可以包括基于预设损失函数计算第二图像分割结果与训练类别特征信息间的第一分割子损失,以及计算第三图像分割结果与训练类别特征信息间的第二分割子损失,将第一分割子损失和第二分割子损失进行加权,得到上述第二分割损失。第一分割子损失和第二分割子损失的权重可以结合实际应用需求进行设置。
具体的,第一分割子损失可以表征第二合成图像每个像素点与训练类别特征信息每个像素点间的差异;第二分割子损失可以表征分割特征图像每个像素点与训练类别特征信息每个像素点间的差异。
在一个具体的实施例中,利用第二图像判别结果和第三图像判别结果计算第二判别损失可以包括基于预设损失函数计算第二图像判别结果与分割特征图像对应的真实性标签间的第一判别子损失,以及计算第三图像判别结果与第二合成图像对应的真实性标签间的第二判别子损失。将第一判别子损失和第二判别子损失进行加权,得到上述第二判别损失。第一判别子损失和第二判别子损失的权重可以结合实际应用需求进行设置。
具体的,第一判别子损失可以表征第二图像判别结果与分割特征图像对应的真实性标签间间差异;第二判别子损失可以表征第三图像判别结果与第二合成图像对应的真实性标签间差异。
在一个可选的实施例中,由于分割特征图像是真实图像,相应的,分割特征图像对应的真实性标签可以为1(1表征真实图像);由于第二合成图像是合成图,不是真实图像;相应的,第二合成图像对应的真实性标签可以为0(0表征非真实图像,即合成图像);
本说明书实施例中,预设损失函数可以包括但不限于交叉熵损失函数、逻辑损失函数、Hinge(铰链)损失函数、指数损失函数等,本说明书实施例并不以上述为限。且用于计算判别损失和分割损失的损失函数可以相同,也可以不同。
在一个具体的实施例中,在得到内容损失、第二分割损失和第二判别损失之后,可以对内容损失、第二分割损失和第二判别损失进行加权计算,得到第二目标损失。具体的,内容损失、第二分割损失和第二判别损失的权重可以结合实际应用需求进行设置。
在一个可选的实施例中,第二目标损失满足第二预设条件可以为第二目标损失小于等于指定阈值,或前后两次训练过程中对应的第二目标损失与上一次训练学习后对应的第二目标损失间的差值小于一定阈值。本说明书实施例中,指定阈值和一定阈值可以为结合实际训练需求进行设置。
在实际应用中,在模型训练的多次迭代过程中,每次会随机的从训练样本中选取部分训练样本来参与本次的训练。相应的,基于更新后待训练分割模型、待训练生成网络和待训练判别网络更新第二目标损失可以包括随机的从训练样本中选取部分训练样本、这部门训练样本的训练类别特征信息和训练场景特征信息,并结合更新后的待训练分割模型、待训练生成网络和待训练判别网络重复上述步骤S403-S413中确定第二目标损失的步骤。
上述实施例中,在预训练过程中,增加各个类别对应分割对象出现场景信息的限制,使得图像分割模型的训练更专注于特定场景下图像像素特征的合成,大大提升了对训练样本的特征映射能力,且结合内容损失、第二分割损失和第二判别损失来确定第二目标损失,可以提高训练好的初始生成网络所生成的合成图像与真实样本间的相似性,进而提升训练出的初始图像分割模型的分割精度。
在步骤S205中,将第一拼接特征信息输入初始生成网络进行图像合成处理,得到第一合成图像。
在一个可选的实施例中,初始生成网络可以为基于训练样本的训练类别特征信息和训练样本的训练场景特征信息对GAN中生成器进行预训练后得到的。本说明书实施例中,将第一拼接特征信息输入初始生成网络进行图像合成处理,得到第一合成图像。
上述实施例中利用类别信息对应的类别特征信息和关联场景特征信息进行拼接处理后,得到的第一拼接特征信息来合成该类别信息对应的图像,可以增加该类别信息对应分割对象所出现的场景的限制,得到可以准确表征分割对象类别信息和场景信息的第一合成图像,大大提升了对未知类别的特征映射的能力。
在步骤S207中,将第一合成图像输入初始判别网络进行真实性判别,得到第一图像判别结果。
在一个可选的实施例中,初始判别网络可以为基于训练样本、训练样本的训练类别特征信息和训练样本的训练场景特征信息对GAN中判别器进行预训练后得到的。
本说明书实施例中,第一合成图像可以包括训练样本中每一训练图像或预测样本中每一图像对应的合成图像,相应的,这里每一合成图像的第一图像判别结果可以表征该合成图像是否为真实的训练图像或是否为真实的预测样本中图像的预测概率。
在步骤S209中,将第一合成图像输入初始图像分割模型的分类网络进行图像分割,得到第一图像分割结果。
在一个可选的实施例中,初始图像分割模型为基于训练样本、训练样本的训练场景特征信息和训练样本的训练类别特征信息对待训练分割模型进行预训练得到的。
可选的,将第一合成图像输入初始图像分割模型的分类网络进行图像分割,可以得到第一图像分割结果。可选的,第一合成图像对应的第一图像分割结果可以表征第一合成图像的预测类别特征信息。
在步骤S211中,基于第一图像判别结果、第一图像分割结果和目标类别特征信息训练初始图像分割模型的分类网络,得到目标图像分割模型。
在一个具体的实施例中,基于第一图像判别结果、第一图像分割结果和目标类别特征信息训练初始图像分割模型的分类网络,得到目标图像分割模型可以包括:
利用第一图像判别结果和第一合成图像的真实性标签计算第一判别损失;
利用第一图像分割结果和目标类别特征信息计算第一分割损失;
根据第一判别损失和第一分割损失,确定第一目标损失;
在第一目标损失不满足第一预设条件的情况下,更新初始图像分割模型的分类网络、初始生成网络和初始判别网络中的网络参数;
基于更新后初始图像分割模型的分类网络、初始生成网络和初始判别网络更新第一目标损失,至第一目标损失满足第一预设条件,将当前的初始图像分割模型作为目标图像分割模型。
在一个具体的实施例中,利用第一图像判别结果和第一合成图像的真实性标签计算第一判别损失可以包括基于预设损失函数计算第一图像判别结果与第一合成图像的真实性标签间的判别损失,将该判别损失作为第一判别损失。具体的,第一判别损失可以表征第一图像判别结果与第一合成图像对应的真实性标签间差异。
在一个可选的实施例中,由于第一合成图像是合成图,不是真实图像;相应的,第一合成图像对应的真实性标签可以为0(0表征非真实图像,即合成图像)
在一个具体的实施例中,利用第一图像分割结果和目标类别特征信息计算第一分割损失可以包括基于预设损失函数计算第一图像分割结果和目标类别特征信息间的分割损失,将该分割损失作为上述第一分割损失。第一分割损失可以表征一合成图像每个像素点与目标类别特征信息每个像素点间的差异。
本说明书实施例中,上述预设损失函数可以包括但不限于交叉熵损失函数、逻辑损失函数、Hinge(铰链)损失函数、指数损失函数等,本说明书实施例并不以上述为限。且用于计算判别损失和分割损失的损失函数可以相同,也可以不同。
在一个具体的实施例中,在得到第一分割损失和第一判别损失,可以对第一分割损失和第一判别损失进行加权计算,得到第一目标损失。具体的,第一分割损失和第一判别损失的权重可以结合实际应用需求进行设置。
在一个可选的实施例中,第一目标损失满足第一预设条件可以为输入第一目标损失小于等于指定阈值,或前后两次训练过程中对应的第一目标损失与上一次训练学习后对应的第一目标损失间的差值小于一定阈值。本说明书实施例中,指定阈值和一定阈值可以为结合实际训练需求进行设置。
在实际应用中,在模型训练的多次迭代过程中,每次会随机的从目标类别特征信息中选取部分目标类别特征信息和这目标类别特征信息的关联场景特征信息来参与本次的训练。可选的,以较大概率随机出未知类别特征,较小的概率随机出已知类别特征。相应的,基于更新后初始图像分割模型的分类网络、初始生成网络和初始判别网络更新第一目标损失的具体细化可以参见上述基于更新后待训练分割模型、待训练生成网络和待训练判别网络更新第二目标损失的相关细化步骤,在此不再赘述。
上述实施例中,结合第一图像分割结果和目标类别特征信息确定的第一分割损失,以及第一图像判别结果和第一合成图像的真实性标签确定的第二判别损失,来确定第一目标损失,可以在有效保证初始生成网络所生成的第一合成图像与真实样本(训练样本或预测样本)的相似性的基础上,更好的训练初始图像分割模型的分类网络,大大提升零样本分割的精度。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中,通过获取训练样本和预测样本对应类别特征来作为初始图像分割模型的训练数据,可以提高训练好的目标图像分割模型对未知类别的识别能力,且通过获取目标类别特征信息的关联场景特征信息,可以实现对某一类别分割对象所出现场景的预测,进而保证基于未知类别或已知类别的词向量自动合成图片像素特征时,可以增加类别所出现的场景的限制,使得图像分割模型的训练更专注于特定场景下图像像素特征的合成,从而可以更好的利用场景上下文来调整零样本图像分割训练中的分类网络,大大提升零样本分割的精度。
基于上述图像分割模型训练方法的实施例,以下介绍本公开一种图像分割方法的实施例中,图5是根据一示例性实施例示出的一种图像分割方法的流程图,参照图5,该方法可以应用于服务器、终端、边缘计算节点等电子设备中,包括以下步骤。
在步骤S501中,获取待分割图像;
在步骤S503中,将待分割图像输入上述图像分割模型训练方法训练得到的目标图像分割模型,对待分割图像进行图像分割,得到目标分割图像。
本说明书实施例中,待分割图像可以为需要进行分割的图像,具体的,待分割图像可以包含目标分割对象。相应的,目标分割图像可以为待分割图像中目标分割对象所在区域的图像。
上述实施例中,在目标图像分割模型训练过程中,通过引入场景上下文可以更好的调整目标图像分割模型中的分类器,提升模型特征映射的能力,进而在基于该目标图像分割模型进行图像分割时,可以大大提升分割精度,降低出错率。
图6是根据一示例性实施例示出的一种图像分割模型训练装置框图。参照图6,该装置包括:
特征信息获取模块610,被配置为执行获取目标类别特征信息和目标类别特征信息的关联场景特征信息,目标类别特征信息表征训练样本和预测样本的类别特征;
第一拼接处理模块620,被配置为执行对目标类别特征信息和关联场景特征信息进行拼接处理,得到第一拼接特征信息;
第一图像合成处理模块630,被配置为执行将第一拼接特征信息输入初始生成网络进行图像合成处理,得到第一合成图像;
第一真实性判别模块640,被配置为执行将第一合成图像输入初始判别网络进行真实性判别,得到第一图像判别结果;
第一图像分割模块650,被配置为执行将第一合成图像输入初始图像分割模型的分类网络进行图像分割,得到第一图像分割结果;
模型训练模块660,被配置为执行基于第一图像判别结果、第一图像分割结果和目标类别特征信息训练初始图像分割模型的分类网络,得到目标图像分割模型。
可选的,特征信息获取模块610包括:
场景图像集获取单元,被配置为执行获取场景图像集;
场景识别单元,被配置为执行将场景图像集输入场景识别模型进行场景识别,得到场景信息集;
场景特征信息集获取单元,被配置为执行将场景信息集输入目标词向量模型,得到场景特征信息集;
相似度计算单元,被配置为执行计算目标类别特征信息与场景特征信息集中场景特征信息间的相似度;
关联场景特征信息确定单元,被配置为执行基于相似度从场景特征信息集中确定关联场景特征信息。
可选的,特征信息获取模块610包括:
类别信息获取单元,被配置为执行获取训练样本和预测样本的类别信息;
目标类别特征信息获取单元,被配置为执行将类别信息输入目标词向量模型,得到目标类别特征信息。
可选的,模型训练模块660包括:
第一判别损失计算单元,被配置为执行利用第一图像判别结果和第一合成图像的真实性标签计算第一判别损失;
第一分割损失计算单元,被配置为执行利用第一图像分割结果和目标类别特征信息计算第一分割损失;
第一目标损失确定单元,被配置为执行根据第一判别损失和第一分割损失,确定第一目标损失;
第一网络参数更新单元,被配置为执行在第一目标损失不满足第一预设条件的情况下,更新初始图像分割模型的分类网络、初始生成网络和初始判别网络中的网络参数;
目标图像分割模型确定单元,被配置为执行基于更新后初始图像分割模型的分类网络、初始生成网络和初始判别网络更新第一目标损失,至第一目标损失满足第一预设条件,将当前的初始图像分割模型作为目标图像分割模型。
可选的,上述装置还包括:
数据获取模块,被配置为执行获取训练样本、训练样本的训练场景特征信息和训练样本的训练类别特征信息;
特征提取模块,被配置为执行将训练样本输入待训练分割模型的特征提取网络进行特征提取,得到分割特征图像;
第二拼接处理模块,被配置为执行训练类别特征信息与训练场景特征信息进行拼接处理,得到第二拼接特征信息;
第二图像合成处理模块,被配置为执行将第二拼接特征信息输入待训练生成网络进行图像合成处理,得到第二合成图像;
第二图像分割模块,被配置为执行将第二合成图像和分割特征图像输入待训练分割模型的分类网络,分别进行图像分割,得到第二合成图像对应的第二图像分割结果和分割特征图像对应的第三图像分割结果;
第二真实性判别模块,被配置为执行将分割特征图像和第二合成图像输入待训练判别网络,分别进行真实性判别,得到分割特征图像对应的第二图像判别结果和第二合成图像对应的第三图像判别结果;
初始模型训练模块,被配置为执行基于第二合成图像、分割特征图像、第二图像分割结果、第三图像分割结果、训练类别特征信息、第二图像判别结果和第三图像判别结果训练待训练分割模型、待训练生成网络和待训练判别网络,得到初始图像分割模型、初始生成网络和初始判别网络。
可选的,初始模型训练模块包括:
内容损失计算单元,被配置为执行利用第二合成图像和分割特征图像计算内容损失;
第二分割损失计算单元,被配置为执行利用第二图像分割结果、第三图像分割结果和训练类别特征信息,计算第二分割损失;
第二判别损失计算单元,被配置为执行利用第二图像判别结果和第三图像判别结果计算第二判别损失;
第二目标损失确定单元,被配置为执行根据内容损失、第二判别损失和第二分割损失,确定第二目标损失;
第二网络参数更单元,被配置为执行在第二目标损失不满足第二预设条件的情况下,更新待训练分割模型、待训练生成网络和待训练判别网络中的网络参数;
初始模型确定单元,被配置为执行基于更新后待训练分割模型、待训练生成网络和待训练判别网络更新第二目标损失,至第二目标损失满足第二预设条件,将当前的待训练分割模型作为初始图像分割模型,将当前的待训练生成网络作为初始生成网络,将当前的待训练判别网络作为初始判别网络。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种图像分割装置框图。参照图7,该装置包括:
待分割图像获取模块710,被配置为执行获取待分割图像;
第三图像分割模块720,被配置为执行将待分割图像输入上述图像分割模型训练方法训练得到的目标图像分割模型,对待分割图像进行图像分割,得到目标分割图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种用于图像分割模型训练或用于图像分割的电子设备的框图,该电子设备可以是终端,其内部结构图可以如图8所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像分割模型训练或图像分割的方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
图9是根据一示例性实施例示出的一种用于图像分割模型训练或用于图像分割的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图9所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像分割模型训练或图像分割的方法。
本领域技术人员可以理解,图8和图9中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中的图像分割模型训练或图像分割方法。
在示例性实施例中,还提供了一种存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的图像分割模型训练或图像分割方法。
在示例性实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行本公开实施例中的图像分割模型训练或图像分割方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (16)

1.一种图像分割模型训练方法,其特征在于,包括:
获取目标类别特征信息和所述目标类别特征信息的关联场景特征信息,所述目标类别特征信息表征训练样本和预测样本的类别特征;
对所述目标类别特征信息和所述关联场景特征信息进行拼接处理,得到第一拼接特征信息;
将所述第一拼接特征信息输入初始生成网络进行图像合成处理,得到第一合成图像;
将所述第一合成图像输入初始判别网络进行真实性判别,得到第一图像判别结果;
将所述第一合成图像输入初始图像分割模型的分类网络进行图像分割,得到第一图像分割结果;
基于所述第一图像判别结果、所述第一图像分割结果和所述目标类别特征信息训练所述初始图像分割模型的分类网络,得到目标图像分割模型。
2.根据权利要求1所述的图像分割模型训练方法,其特征在于,所述关联场景特征信息的获取步骤包括:
获取场景图像集,将所述场景图像集输入场景识别模型进行场景识别,得到场景信息集;
将所述场景信息集输入目标词向量模型,得到场景特征信息集;
计算所述目标类别特征信息与所述场景特征信息集中场景特征信息间的相似度;
基于所述相似度从所述场景特征信息集中确定所述关联场景特征信息。
3.根据权利要求1所述的图像分割模型训练方法,其特征在于,所述获取目标类别特征信息包括:
获取所述训练样本和所述预测样本的类别信息;
将所述类别信息输入目标词向量模型,得到所述目标类别特征信息。
4.根据权利要求1所述的图像分割模型训练方法,其特征在于,所述基于所述第一图像判别结果、所述第一图像分割结果和所述目标类别特征信息训练所述初始图像分割模型的分类网络,得到目标图像分割模型包括:
利用所述第一图像判别结果和所述第一合成图像的真实性标签计算第一判别损失;
利用所述第一图像分割结果和所述目标类别特征信息计算第一分割损失;
根据所述第一判别损失和所述第一分割损失,确定第一目标损失;
在所述第一目标损失不满足第一预设条件的情况下,更新所述初始图像分割模型的分类网络、所述初始生成网络和所述初始判别网络中的网络参数;
基于更新后初始图像分割模型的分类网络、初始生成网络和初始判别网络更新所述第一目标损失,至所述第一目标损失满足所述第一预设条件,将当前的初始图像分割模型作为所述目标图像分割模型。
5.根据权利要求1至4任一所述的图像分割模型训练方法,其特征在于,所述方法还包括:
获取所述训练样本、所述训练样本的训练场景特征信息和所述训练样本的训练类别特征信息;
将所述训练样本输入待训练分割模型的特征提取网络进行特征提取,得到分割特征图像;
对所述训练类别特征信息与所述训练场景特征信息进行拼接处理,得到第二拼接特征信息;
将所述第二拼接特征信息输入待训练生成网络进行图像合成处理,得到第二合成图像;
将所述第二合成图像和所述分割特征图像输入所述待训练分割模型的分类网络,分别进行图像分割,得到所述第二合成图像对应的第二图像分割结果和所述分割特征图像对应的第三图像分割结果;
将所述分割特征图像和所述第二合成图像输入待训练判别网络,分别进行真实性判别,得到所述分割特征图像对应的第二图像判别结果和所述第二合成图像对应的第三图像判别结果;
基于所述第二合成图像、所述分割特征图像、所述第二图像分割结果、所述第三图像分割结果、所述训练类别特征信息、所述第二图像判别结果和所述第三图像判别结果训练所述待训练分割模型、所述待训练生成网络和所述待训练判别网络,得到所述初始图像分割模型、所述初始生成网络和所述初始判别网络。
6.根据权利要求5所述的图像分割模型训练方法,其特征在于,所述基于所述第二合成图像、所述分割特征图像、所述第二图像分割结果、所述第三图像分割结果、所述训练类别特征信息、所述第二图像判别结果和所述第三图像判别结果训练所述待训练分割模型、所述待训练生成网络和所述待训练判别网络,得到所述初始图像分割模型、所述初始生成网络和所述初始判别网络包括:
利用所述第二合成图像和所述分割特征图像计算内容损失;
利用所述第二图像分割结果、所述第三图像分割结果和所述训练类别特征信息,计算第二分割损失;
利用所述第二图像判别结果和所述第三图像判别结果计算第二判别损失;
根据所述内容损失、所述第二判别损失和所述第二分割损失,确定第二目标损失;
在所述第二目标损失不满足第二预设条件的情况下,更新所述待训练分割模型、所述待训练生成网络和所述待训练判别网络中的网络参数;
基于更新后待训练分割模型、待训练生成网络和待训练判别网络更新所述第二目标损失,至所述第二目标损失满足所述第二预设条件,将当前的待训练分割模型作为初始图像分割模型,将当前的待训练生成网络作为所述初始生成网络,将当前的待训练判别网络作为所述初始判别网络。
7.一种图像分割方法,其特征在于,包括:
获取待分割图像;
将所述待分割图像输入根据权利要求1至6任一图像分割模型训练方法训练得到的目标图像分割模型,对所述待分割图像进行图像分割,得到目标分割图像。
8.一种图像分割模型训练装置,其特征在于,包括:
特征信息获取模块,被配置为执行获取目标类别特征信息和所述目标类别特征信息的关联场景特征信息,所述目标类别特征信息表征训练样本和预测样本的类别特征;
第一拼接处理模块,被配置为执行对所述目标类别特征信息和所述关联场景特征信息进行拼接处理,得到第一拼接特征信息;
第一图像合成处理模块,被配置为执行将所述第一拼接特征信息输入初始生成网络进行图像合成处理,得到第一合成图像;
第一真实性判别模块,被配置为执行将所述第一合成图像输入初始判别网络进行真实性判别,得到第一图像判别结果;
第一图像分割模块,被配置为执行将所述第一合成图像输入初始图像分割模型的分类网络进行图像分割,得到第一图像分割结果;
模型训练模块,被配置为执行基于所述第一图像判别结果、所述第一图像分割结果和所述目标类别特征信息训练所述初始图像分割模型的分类网络,得到目标图像分割模型。
9.根据权利要求8所述的图像分割模型训练装置,其特征在于,所述特征信息获取模块包括:
场景图像集获取单元,被配置为执行获取场景图像集;
场景识别单元,被配置为执行将所述场景图像集输入场景识别模型进行场景识别,得到场景信息集;
场景特征信息集获取单元,被配置为执行将所述场景信息集输入目标词向量模型,得到场景特征信息集;
相似度计算单元,被配置为执行计算所述目标类别特征信息与所述场景特征信息集中场景特征信息间的相似度;
关联场景特征信息确定单元,被配置为执行基于所述相似度从所述场景特征信息集中确定所述关联场景特征信息。
10.根据权利要求8所述的图像分割模型训练装置,其特征在于,所述特征信息获取模块包括:
类别信息获取单元,被配置为执行获取所述训练样本和所述预测样本的类别信息;
目标类别特征信息获取单元,被配置为执行将所述类别信息输入目标词向量模型,得到所述目标类别特征信息。
11.根据权利要求8所述的图像分割模型训练装置,其特征在于,所述模型训练模块包括:
第一判别损失计算单元,被配置为执行利用所述第一图像判别结果和所述第一合成图像的真实性标签计算第一判别损失;
第一分割损失计算单元,被配置为执行利用所述第一图像分割结果和所述目标类别特征信息计算第一分割损失;
第一目标损失确定单元,被配置为执行根据所述第一判别损失和所述第一分割损失,确定第一目标损失;
第一网络参数更新单元,被配置为执行在所述第一目标损失不满足第一预设条件的情况下,更新所述初始图像分割模型的分类网络、所述初始生成网络和所述初始判别网络中的网络参数;
目标图像分割模型确定单元,被配置为执行基于更新后初始图像分割模型的分类网络、初始生成网络和初始判别网络更新所述第一目标损失,至所述第一目标损失满足所述第一预设条件,将当前的初始图像分割模型作为所述目标图像分割模型。
12.根据权利要求8至11任一所述的图像分割模型训练装置,其特征在于,所述装置还包括:
数据获取模块,被配置为执行获取所述训练样本、所述训练样本的训练场景特征信息和所述训练样本的训练类别特征信息;
特征提取模块,被配置为执行将所述训练样本输入待训练分割模型的特征提取网络进行特征提取,得到分割特征图像;
第二拼接处理模块,被配置为执行所述训练类别特征信息与所述训练场景特征信息进行拼接处理,得到第二拼接特征信息;
第二图像合成处理模块,被配置为执行将所述第二拼接特征信息输入待训练生成网络进行图像合成处理,得到第二合成图像;
第二图像分割模块,被配置为执行将所述第二合成图像和所述分割特征图像输入所述待训练分割模型的分类网络,分别进行图像分割,得到所述第二合成图像对应的第二图像分割结果和所述分割特征图像对应的第三图像分割结果;
第二真实性判别模块,被配置为执行将所述分割特征图像和所述第二合成图像输入待训练判别网络,分别进行真实性判别,得到所述分割特征图像对应的第二图像判别结果和所述第二合成图像对应的第三图像判别结果;
初始模型训练模块,被配置为执行基于所述第二合成图像、所述分割特征图像、所述第二图像分割结果、所述第三图像分割结果、所述训练类别特征信息、所述第二图像判别结果和所述第三图像判别结果训练所述待训练分割模型、所述待训练生成网络和所述待训练判别网络,得到所述初始图像分割模型、所述初始生成网络和所述初始判别网络。
13.根据权利要求12所述的图像分割模型训练装置,其特征在于,所述初始模型训练模块包括:
内容损失计算单元,被配置为执行利用所述第二合成图像和所述分割特征图像计算内容损失;
第二分割损失计算单元,被配置为执行利用所述第二图像分割结果、所述第三图像分割结果和所述训练类别特征信息,计算第二分割损失;
第二判别损失计算单元,被配置为执行利用所述第二图像判别结果和所述第三图像判别结果计算第二判别损失;
第二目标损失确定单元,被配置为执行根据所述内容损失、所述第二判别损失和所述第二分割损失,确定第二目标损失;
第二网络参数更单元,被配置为执行在所述第二目标损失不满足第二预设条件的情况下,更新所述待训练分割模型、所述待训练生成网络和所述待训练判别网络中的网络参数;
初始模型确定单元,被配置为执行基于更新后待训练分割模型、待训练生成网络和待训练判别网络更新所述第二目标损失,至所述第二目标损失满足所述第二预设条件,将当前的待训练分割模型作为初始图像分割模型,将当前的待训练生成网络作为所述初始生成网络,将当前的待训练判别网络作为所述初始判别网络。
14.一种图像分割装置,其特征在于,包括:
待分割图像获取模块,被配置为执行获取待分割图像;
第三图像分割模块,被配置为执行将所述待分割图像输入根据权利要求1至6任一图像分割模型训练方法训练得到的目标图像分割模型,对所述待分割图像进行图像分割,得到目标分割图像。
15.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的图像分割模型训练方法或实现如权利要求7所述的图像分割方法。
16.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6中任一项所述的图像分割模型训练方法或实现如权利要求7所述的图像分割方法。
CN202011574785.5A 2020-12-28 2020-12-28 图像分割模型训练、图像分割方法、装置及电子设备 Active CN112330685B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202011574785.5A CN112330685B (zh) 2020-12-28 2020-12-28 图像分割模型训练、图像分割方法、装置及电子设备
PCT/CN2021/117037 WO2022142450A1 (zh) 2020-12-28 2021-09-07 用于图像分割模型训练和图像分割的方法及装置
EP21913197.6A EP4095801A1 (en) 2020-12-28 2021-09-07 Methods and apparatuses for image segmentation model training and for image segmentation
US17/895,629 US20230022387A1 (en) 2020-12-28 2022-08-25 Method and apparatus for image segmentation model training and for image segmentation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011574785.5A CN112330685B (zh) 2020-12-28 2020-12-28 图像分割模型训练、图像分割方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112330685A CN112330685A (zh) 2021-02-05
CN112330685B true CN112330685B (zh) 2021-04-06

Family

ID=74301891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011574785.5A Active CN112330685B (zh) 2020-12-28 2020-12-28 图像分割模型训练、图像分割方法、装置及电子设备

Country Status (4)

Country Link
US (1) US20230022387A1 (zh)
EP (1) EP4095801A1 (zh)
CN (1) CN112330685B (zh)
WO (1) WO2022142450A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330685B (zh) * 2020-12-28 2021-04-06 北京达佳互联信息技术有限公司 图像分割模型训练、图像分割方法、装置及电子设备
CN113362286B (zh) * 2021-05-24 2022-02-01 江苏星月测绘科技股份有限公司 一种基于深度学习的自然资源要素变化检测方法
CN113222055B (zh) * 2021-05-28 2023-01-10 新疆爱华盈通信息技术有限公司 一种图像分类方法、装置、电子设备及存储介质
CN113470048B (zh) * 2021-07-06 2023-04-25 北京深睿博联科技有限责任公司 场景分割方法、装置、设备及计算机可读存储介质
CN113642612B (zh) * 2021-07-19 2022-11-18 北京百度网讯科技有限公司 样本图像生成方法、装置、电子设备及存储介质
CN115223015B (zh) * 2022-09-16 2023-01-03 小米汽车科技有限公司 模型训练方法、图像处理方法、装置和车辆
CN115761222B (zh) * 2022-09-27 2023-11-03 阿里巴巴(中国)有限公司 图像分割方法、遥感图像分割方法以及装置
CN115331012B (zh) * 2022-10-14 2023-03-24 山东建筑大学 基于零样本学习的联合生成式图像实例分割方法及系统
CN115761239B (zh) * 2023-01-09 2023-04-28 深圳思谋信息科技有限公司 一种语义分割方法及相关装置
CN116167922B (zh) * 2023-04-24 2023-07-18 广州趣丸网络科技有限公司 一种抠图方法、装置、存储介质及计算机设备
CN117557221A (zh) * 2023-11-17 2024-02-13 德联易控科技(北京)有限公司 一种车辆损伤报告的生成方法、装置、设备和可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180322373A1 (en) * 2017-05-05 2018-11-08 Hrl Laboratories, Llc Zero shot machine vision system via joint sparse representations
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN111612010A (zh) * 2020-05-21 2020-09-01 京东方科技集团股份有限公司 图像处理方法、装置、设备以及计算机可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7925089B2 (en) * 2007-09-18 2011-04-12 Microsoft Corporation Optimization of multi-label problems in computer vision
CN111652121B (zh) * 2020-06-01 2023-11-03 腾讯科技(深圳)有限公司 一种表情迁移模型的训练方法、表情迁移的方法及装置
CN111429460B (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 图像分割方法、图像分割模型训练方法、装置和存储介质
CN112017189B (zh) * 2020-10-26 2021-02-02 腾讯科技(深圳)有限公司 图像分割方法、装置、计算机设备和存储介质
CN112330685B (zh) * 2020-12-28 2021-04-06 北京达佳互联信息技术有限公司 图像分割模型训练、图像分割方法、装置及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180322373A1 (en) * 2017-05-05 2018-11-08 Hrl Laboratories, Llc Zero shot machine vision system via joint sparse representations
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN111612010A (zh) * 2020-05-21 2020-09-01 京东方科技集团股份有限公司 图像处理方法、装置、设备以及计算机可读存储介质

Also Published As

Publication number Publication date
CN112330685A (zh) 2021-02-05
WO2022142450A1 (zh) 2022-07-07
EP4095801A1 (en) 2022-11-30
US20230022387A1 (en) 2023-01-26

Similar Documents

Publication Publication Date Title
CN112330685B (zh) 图像分割模型训练、图像分割方法、装置及电子设备
CN112270686B (zh) 图像分割模型训练、图像分割方法、装置及电子设备
CN111062871B (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
CN109871490B (zh) 媒体资源匹配方法、装置、存储介质和计算机设备
US20170116521A1 (en) Tag processing method and device
CN110807472B (zh) 图像识别方法、装置、电子设备及存储介质
CN112926654A (zh) 预标注模型训练、证件预标注方法、装置、设备及介质
CN112989962A (zh) 轨迹生成方法、装置、电子设备及存储介质
CN112883258A (zh) 信息推荐方法、装置、电子设备及存储介质
CN111507285A (zh) 人脸属性识别方法、装置、计算机设备和存储介质
CN113192175A (zh) 模型训练方法、装置、计算机设备和可读存储介质
CN112818995A (zh) 图像分类方法、装置、电子设备及存储介质
CN113641835B (zh) 多媒体资源推荐方法、装置、电子设备及介质
CN113704511B (zh) 多媒体资源的推荐方法、装置、电子设备及存储介质
CN113704509B (zh) 多媒体推荐方法、装置、电子设备及存储介质
CN113420203A (zh) 对象推荐方法、装置、电子设备及存储介质
CN113128526A (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN113902848A (zh) 对象重建方法、装置、电子设备及存储介质
CN113343024A (zh) 对象推荐方法、装置、电子设备及存储介质
CN115756821A (zh) 在线任务处理模型训练、任务处理方法及装置
CN114491093A (zh) 多媒体资源推荐、对象表征网络的生成方法及装置
CN114841851A (zh) 图像生成方法、装置、电子设备及存储介质
CN113868516A (zh) 对象推荐方法、装置、电子设备及存储介质
CN113269176B (zh) 图像处理模型训练、图像处理方法、装置和计算机设备
CN114048392B (zh) 多媒体资源推送方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant