CN114548213A - 模型训练方法、图像识别方法、终端设备及计算机介质 - Google Patents
模型训练方法、图像识别方法、终端设备及计算机介质 Download PDFInfo
- Publication number
- CN114548213A CN114548213A CN202111636815.5A CN202111636815A CN114548213A CN 114548213 A CN114548213 A CN 114548213A CN 202111636815 A CN202111636815 A CN 202111636815A CN 114548213 A CN114548213 A CN 114548213A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- model
- loss function
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种模型训练方法、图像识别方法、终端设备及计算机介质,该方法包括:获取图像训练集,包括若干单一类别的第一训练图像;获取每一类别的第一训练图像的第一分割伪标签;将若干第一训练图像输入待训练的分割模型,获取第一预测标签;基于第一预测标签和第一分割伪标签构建第一损失函数;提取相同类别的第一训练图像的第一图像特征对,以及不同类别的第一训练图像的第二图像特征对;获取第一图像特征对的第一相似度和第二图像特征对的第二相似度,构建第二损失函数,利用第一损失函数和第二损失函数对分割模型进行训练。本申请的图像识别方法,约束不同类别的图像特征对的不相似性以及同类别的图像特征对的相似性,提高模型准确度。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种模型训练方法、图像识别方法、终端设备及计算机介质。
背景技术
近年来,人工智能领域中的以预训练为代表的自然语言处理技术获得了爆发式发展,新技术和新模型层出不穷。在新时代背景下,如何将多样化的先进的自然语言处理领域科研成果高效地应用到产业实践中并解决实际问题,是自然语言处理领域中的核心问题。
然而,在将各类模型应用到产业实践的过程中,复杂的应用场景使得图像数据的形态分布复杂,在处理图像时,目标前景和图像背景间的边缘模糊,对目标对象进行语义分割时容易出现过分割,影响模型的准确度。
发明内容
本申请提供了一种模型训练方法、图像识别方法、终端设备及计算机介质,以解决现有技术中模型准确度不高的技术问题。
为解决上述问题,本申请提供的第一个技术方案为:提供一种模型训练方法,该模型训练方法包括:
获取图像训练集,其中,所述图像训练集包括若干单一类别的第一训练图像;
获取每一类别的第一训练图像的第一分割伪标签;
将若干所述第一训练图像输入待训练的分割模型,获取所述第一训练图像的第一预测标签;
基于所述第一预测标签和所述第一分割伪标签构建第一损失函数;
提取相同类别的第一训练图像的第一图像特征对,以及不同类别的第一训练图像的第二图像特征对;
获取所述第一图像特征对的第一相似度,以及所述第二图像特征对的第二相似度;
基于所述第一相似度和所述第二相似度构建第二损失函数,利用所述第一损失函数和所述第二损失函数对所述分割模型进行训练。
为解决上述技术问题,本申请提供的第二个技术方案为:提供一种图像识别方法,所述图像识别方法包括:
将待识别图像输入分割模型,得到所述待识别图像的图像识别类别,其中,
所述分割模型是利用如上所述的模型训练方法得到的。
为解决上述技术问题,本申请提供的第三个技术方案为:提供一种终端设备,所述终端设备包括处理器、与所述处理器连接的存储器,其中,
所述存储器存储有程序指令;
所述处理器用于执行所述存储器存储的程序指令以实现如上所述的模型训练方法。
为解决上述技术问题,本申请提供的第四个技术方案为:提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序指令,所述程序指令被执行时实现如上所述的模型训练方法。
本申请提供的模型训练方法中,终端设备获取图像训练集,图像训练集包括若干单一类别的第一训练图像;获取每一类别的第一训练图像的第一分割伪标签;将若干第一训练图像输入待训练的分割模型,获取第一训练图像的第一预测标签;基于第一预测标签和第一分割伪标签构建第一损失函数;提取相同类别的第一训练图像的第一图像特征对,以及不同类别的第一训练图像的第二图像特征对;获取第一图像特征对的第一相似度,以及第二图像特征对的第二相似度;基于第一相似度和第二相似度构建第二损失函数,利用第一损失函数和第二损失函数对分割模型进行训练。本申请的图像识别方法,通过使用第一图像特征对和第二图像特征对的相似度构建第二损失函数对分割模型进行训练,以约束相同类别的图像特征对的相似性和不同类别的图像特征对的不相似性,提高分割模型的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的模型训练方法第一实施例的流程示意图;
图2是本申请提供的模型一实施例的结构示意图;
图3是本申请提供的模型训练方法第二实施例的流程示意图;
图4是图3中获取第一分割伪标签的流程示意图;
图5是本申请提供的模型训练方法第三实施例的流程示意图;
图6是本申请提供的模型训练方法第四实施例的流程示意图;
图7是本申请提供的模型训练方法第五实施例的流程示意图;
图8是图7中第二训练图像一实施例的结构示意图;
图9是本申请提供的模型训练方法第六实施例的流程示意图;
图10是本申请提供的模型训练方法第七实施例的流程示意图;
图11是本申请提供的模型训练方法第八实施例的流程示意图;
图12是本申请提供的模型训练方法第九实施例的流程示意图;
图13是图12中获取类别响应图一实施例的流程示意图;
图14是本申请提供的终端设备一实施例的结构示意图;
图15是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更为明显易懂,下面结合附图,对本申请的具体实施方式做详细的说明。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“设置有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请参见图1-2,图1是本申请提供的模型训练方法第一实施例的流程示意图,图2是本申请提供的模型一实施例的结构示意图。
如图1所示,该模型训练方法的具体步骤如下:
S11:获取图像训练集,其中,图像训练集包括若干单一类别的第一训练图像。
在本申请实施例中,图像训练集可以通过使用图像采集设备针对相关区域进行采集得到,也可以通过多种标准测试数据库中获取得到。在具体的实施方式中,图像训练集可以是病理图像切片、医学影像图等,也可以是其他需要进行语义分割的图像数据,在此以病理图像切片为代表对本申请的模型训练方法进行描述。
作为一种实施例,用户可以自定义身体任意部位的病理图像,即用户可以但不限于将某一器官或身体部位确定为病变部位,并基于病变部位采集病理图像切片的数据作为图像训练集。
在本申请实施例中使用的模型可以但不局限于弱监督网络模型。具体的,如图2所示,该弱监督网络模型包括n个卷积层,用于进行特征提取,在第n个卷积层输出n通道的特征图后,向上分支经过全局平均池化层(Global Average Pooling Layer,GAP)进行正则化处理,将每一层的特征图进行平均化,并使用平均值表示每一层的参数,使得n通道的特征图变成n个特征,以减少参数数量,防止模型在训练过程中出现过拟合。GAP层输出nx1的特征后,经过全连接层(Fully Connected layer,FC)进行分类,FC层将nx1的特征映射到C个类别上,获得nxC的特征。特征经过全连接层后,经由模型的类激活映射(class activationmap,CAM)分类网络,输出每个目标类别中与该目标类别最具有显著判别性的区域,将待分割的图像训练集进行分割,以获取若干单一类别的第一训练图像。
终端设备对待训练的分割模型进行训练时,其训练过程分为预训练阶段和精训练阶段。进预训练阶段时,终端设备获取图像训练集,其中,图像训练集包括若干单一类别的第一训练图像。
S12:获取每一类别的第一训练图像的第一分割伪标签。
具体的,终端设备获取每一类别的第一训练图像,并利用阈值对第一训练图像进行分割,以获得每一类别的第一训练图像的第一分割伪标签。
S13:将若干第一训练图像输入待训练的分割模型,获取第一训练图像的第一预测标签。
终端设备获取每一类别的第一训练图像及其第一分割伪标签后,将第一训练图像和第一分割伪标签输入至待训练的分割模型中,以获取第一训练图像的第一预测标签。
S14:基于第一预测标签和第一分割伪标签构建第一损失函数。
终端设备获取每一类别的第一预测标签和第一分割伪标签后,可计算第一损失函数,如下式所示:
其中,Lossseg为第一损失函数;C为第一训练图像的类别数;ZC为第一预测标签;lc为第一分割伪标签。
S15:提取相同类别的第一训练图像的第一图像特征对,以及不同类别的第一训练图像的第二图像特征对。
为了提高模型的分类精度,使得模型适用于处理边缘模糊的图像,终端设备提取相同类别的第一训练图像的第一图像特征对,以及不同类别的第一训练图像的第二图像特征对。其中,图像特征对为根据第一预测标签中预测为相应类别的图像像素点所提取的一对图像特征。
S16:获取第一图像特征对的第一相似度,以及第二图像特征对的第二相似度。
由于相同类别的不同第一训练图像之间存在相似性,终端设备获取第一图像特征对的第一相似度,以及第二图像特征对的第二相似度。具体的,相似度的衡量方法包括但不限于使用余弦相似度来衡量,也可以为其他相似度衡量方法。
S17:基于第一相似度和第二相似度构建第二损失函数,利用第一损失函数和第二损失函数对分割模型进行训练。
终端设备获取第一相似度和第二相似度后,基于第一相似度和第二相似度构建第二损失函数。终端设备获取第一损失函数和第二损失函数后,基于第一损失函数和第二损失函数对分割模型进行训练,如下式所示:
Losstotal1=Lossseg+Lossconw;
其中,Losstotal1为第一训练图像训练模型的损失函数,Lossseg为第一损失函数,Lossconw为第二损失函数。
在本申请实施例中,终端设备获取图像训练集,图像训练集包括若干单一类别的第一训练图像;获取每一类别的第一训练图像的第一分割伪标签;将若干第一训练图像输入分割模型,获取第一训练图像的第一预测标签;基于第一预测标签和第一分割伪标签构建第一损失函数;提取相同类别的第一训练图像的第一图像特征对,以及不同类别的第一训练图像的第二图像特征对;获取第一图像特征对的第一相似度,以及第二图像特征对的第二相似度;基于第一相似度和第二相似度构建第二损失函数,利用第一损失函数和第二损失函数对分割模型进行训练。本申请的模型训练方法,通过使用第一分割伪标签训练模型,提高模型对边缘模糊的图像的处理能力;使用第一图像特征对和第二图像特征对的相似度构建第二损失函数,以约束相同类别的图像特征对的相似性和不同类别的不同第一训练图像之间的特征的不相似性,提高模型的准确度。
请参见图3-4,图3是本申请提供的模型训练方法第二实施例的流程示意图,图4是图3中获取第一分割伪标签的流程示意图。如图3所示,步骤S12进一步包括以下步骤:
S21:将第一训练图像进行归一化处理。
终端设备获取若干单一类别的第一训练图像后,由于图像采集和成像等因素会造成相同的采集部位在图像灰度信息上的不一致,因此在本实施例中对第一训练图像进行归一化处理。可选地,归一化处理方法可以是最大最小值归一化方法,也可为其他的数据规范化方法;在具体的实施方式中,也可对第一训练图像进行灰度化处理,例如使用均值方差归一化或灰度变换归一化的方法进行灰度化处理。在此对归一化处理的方法不做具体限定。
S22:基于预设分割阈值在归一化处理后的第一训练图像区分前景区域和背景区域,从而获取第一训练图像的第一分割伪标签。
如图4所示,终端设备对第一训练图像进行归一化处理后,将归一化处理后的第一训练图像输入至分割模型中,利用预设阈值对第一训练图像进行分割,以区分出前景区域和背景区域,每一类别的前景区域即为第一训练图像的第一分割伪标签。在具体的实施方式中,第一训练图像为三种单一类别的样本,终端设备将三种第一训练图像输入至分割模型后,分割模型基于预设阈值对图像进行分割,获取三种单一类别的前景区域及背景区域。
在本申请实施例中,终端设备将第一训练图像进行归一化处理;基于预设分割阈值在归一化处理后的第一训练图像区分前景区域和背景区域,从而获取第一训练图像的第一分割伪标签。通过本实施例的方法,可以从训练图像中获取图像的分割伪标签,并使用分割伪标签对分割模型进行训练,提高模型训练的效率。
请参见图5,图5是本申请提供的模型训练方法第三实施例的流程示意图。如图5所示,步骤S16进一步包括以下步骤:
S31:分别获取目标类别的两个第一训练图像的第一图像特征以及第二图像特征。
在本实施例中,由于相同类别的不同第一训练图像之间存在相似性,终端设备分别获取目标类别的两个第一训练图像的第一图像特征以及第二图像特征。
S32:获取第一图像特征与第二图像特征的第一相似度。
终端设备获取目标类别的两个第一训练图像的第一图像特征以及第二图像特征后,计算第一图像特征与第二图像特征的第一相似度,如下式所示:
S33:分别获取目标类别的一个第一训练图像的第三图像特征以及其他类别的一个第一训练图像的第四图像特征。
由于不同类别的不同第一训练图像之间存在不相似性,终端设备分别获取目标类别的一个第一训练图像的第三图像特征以及其他类别的一个第一训练图像的第四图像特征。
S34:获取第三图像特征与第四图像特征的第二相似度。
终端设备获取不同类别的不同第一训练图像的第三图像特征与第四图像特征后,计算第三图像特征与第四图像特征的第二相似度,其计算公式与计算第一图像特征与第二图像特征的第一相似度的公式类似,在此不再赘述。
请参见图6,图6是本申请提供的模型训练方法第四实施例的流程示意图。如图6所示,步骤S17进一步包括以下步骤:
S41:计算第一相似度与第二相似度的和。
终端设备在获取第一相似度和第二相似度后,计算第一相似度与第二相似度的和。
S42:基于第一相似度以及和的比值构建第二损失函数。
终端设备计算第一相似度与第二相似度的和,并基于第一相似度以及第一相似度与第二相似度的和的比值构建第二损失函数,如下式所示:
其中,Lossconw为第二损失函数;C为第一训练图像的类别数;xc,为相同类别的不同的第一训练图像的特征,即第一图像特征对;xc,为不同类别的不同的第一训练图像的特征,即第二图像特征对;为第一图像特征对的第一相似度;为第二图像特征对的第二相似度。
在本申请实施例中,终端设备计算第一相似度与第二相似度的和,基于第一相似度以及和的比值构建第二损失函数。本实施例的模型训练方法通过获取目标类别的两个第一训练图像的第一图像特征对和不同类别的两个第一训练图像的第二图像特征对,构建第二损失函数,以约束相同类别的不同第一训练图像之间的特征的相似性和不同类别的不同第一训练图像之间的特征的不相似性,提高模型的分类效果,提高模型的准确度。
请参见图7-8,图7是本申请提供的模型训练方法第五实施例的流程示意图,图8是图7中第二训练图像一实施例的结构示意图。如图7所示,为了进一步增强图像训练集的数据,提高模型的分类能力,步骤S12后,该模型训练方法进一步包括以下步骤:
S51:将不同类别的第一训练图像进行混合,以得到第二训练图像以及第二分割伪标签,其中,第二分割伪标签由不同类别的第一训练图像的第一分割伪标签混合得到。
在本实施例中,终端设备将不同类别的第一训练图像进行混合,以增强第一训练图像,进而得到第二训练图像,如图8左侧的示意图。终端设备将第二训练图像进行阈值分割,以获取第二分割伪标签,其中,第二分割伪标签由不同类别的第一训练图像的第一分割伪标签混合得到,如图8右侧的示意图。
具体的,如图8所示,终端设备将第一训练图像的一部份区域裁剪掉,并随机填充不同类别的第一训练图像的区域像素值,以得到按比例分配的第二训练图像,其中,第二训练图像由按比例分配的相同类别及不同类别的第一训练图像的区域组成。
S52:将第二训练图像输入分割模型,获取第二训练图像的第二预测标签。
终端设备获取第二训练图像及第二分割伪标签后,将第二训练图像和第二分割伪标签输入分割模型进行训练,以获取第二训练图像的第二预测标签。
S53:基于第二预测标签和第二分割伪标签构建第三损失函数。
基于终端设备获取的第二预测标签和第二分割伪标签,终端设备构建第三损失函数,第三损失函数的构建过程与步骤S14相似,在此不再赘述。
S54:提取第二训练图像中相同类别的第三图像特征对,以及不同类别的第四图像特征对。
为了提高模型对局部图像信息的定位能力,终端设备进一步提取第二训练图像中相同类别的第三图像特征对,以及不同类别的第四图像特征对。
S55:获取第三图像特征对的第三相似度,以及第四图像特征对的第四相似度。
基于终端设备提取的第三图像特征对和第四图像特征对,终端设备获取第三图像特征对的第三相似度和第四图像特征对的第四相似度。
S56:基于第三相似度和第四相似度构建第四损失函数,利用第三损失函数和第四损失函数对分割模型进行训练。
终端设备获取第三相似度和第四相似度后,基于第三相似度和第四相似度构建第四损失函数,并利用第三损失函数和第四损失函数对分割模型进行训练,其训练过程与步骤S17类似,在此不再赘述。构建第四函数的过程如下式所示:
其中,C表示第二训练图像中的目标类别数;x(u,v)表示终端设备提取的(u,v)位置处的图像特征;表示与x(u,v)属于第二训练图像中同一类别的两位置处的图像特征;表示与x(u,v)属于第二训练图像中不同类别的两位置处的图像特征;sim(x(u,v)c,为第三图像特征对的第三相似度;为第四图像特征对的第四相似度。
终端设备通过获取第三图像特征对的第三相似度和第四图像特征对的第四相似度,构建第四损失函数,达到约束第二训练图像的同一类别区域之间的特征的相似性,以及约束第二训练图像的不同类别区域之间的特征的不相似性,提高模型的分类效果。
在本申请实施例中,终端设备将不同类别的第一训练图像进行混合,以得到第二训练图像以及第二分割伪标签,其中,第二分割伪标签由不同类别的第一训练图像的第一分割伪标签混合得到;将第二训练图像输入分割模型,获取第二训练图像的第二预测标签;基于第二预测标签和第二分割伪标签构建第三损失函数;提取第二训练图像中相同类别的第三图像特征对,以及不同类别的第四图像特征对;获取第三图像特征对的第三相似度,以及第四图像特征对的第四相似度;基于第三相似度和第四相似度构建第四损失函数,利用第三损失函数和第四损失函数对分割模型进行训练。通过本实施例的方法,将不同类别的第一训练图像混合后得到第二训练图像,对图像训练集的数据进行加强,提高模型训练的效率,进一步增强模型对局部图像信息的定位能力。
进一步地,在该模型训练方法中,第三图像特征对包括高概率点特征以及不确定性点特征,其中,高概率点为预测置信度高于预设置信度阈值的图像像素点,不确定性点为预测置信度低于预设置信度阈值的图像像素点;第四图像特征对包括不同类别区域的高概率点特征。
具体的,第三图像特征对由第二训练图像中同一类别区域的两位置处的高概率点特征和不确定性点特征组成,高概率点特征为在该位置处预测的置信度高于预设置信度阈值的图像像素点,其中,预设置信度阈值可以为0.9,也可以为其他合适的预设置信度阈值;不确定性点为在该位置处预测的置信度低于预设置信度阈值的图像像素点。
可选的,由于不确定性的预测置信度过低时其属于该类别的可能性过低,为了加强对不确定性点的约束,不确定性点可以设为在第一预设置信度阈值左右的图像像素点,例如,当第一预设置信度阈值为0.5时,不确定性点可以为预测置信度在0.4-0.6范围内的特征,第一预设置信度阈值可以为其他预设阈值。在此,对第一预设置信度阈值及不确定性点的范围不做具体限定。
在本实施例中,通过获取第二训练图像中同一类别区域的两位置处的高概率点特征和不确定性点特征的第三相似度,以及第二训练图像中不同类别区域的高概率点特征的第四相似度,可以有效地限制第二训练图像中相同类别区域的相似性,以及限制第二训练图像中不同类别区域的不相似性,进一步提高模型对局部图像信息的区分能力,提高模型的准确度。
请参见图9,图9是本申请提供的模型训练方法第六实施例的流程示意图。如图9所示,该模型训练方法还包括以下步骤:
S61:基于第二分割伪标签确定第二训练图像中每一类别的前景区域。
终端设备获取第二训练图像后,将第二训练图像进行阈值分割,以获得第二分割伪标签,并将分割混合后每一类别的第一分割伪标签中的前景区域作为第二训练图像中每一类别的前景区域。
S62:基于第二预测标签获取每一类别的前景区域的像素数目,以及在第二训练图像中每一类别的像素预测概率和。
终端设备确定第二训练图像中每一类别的前景区域后,获取每一类别的前景区域的图像像素点数目;以及获取在第二训练图像中每一个像素点预测为每一类别的置信度之和,即在第二训练图像中每一类别的像素预测概率和,如下式所示:
S63:基于像素数目以及像素预测概率和构建第五损失函数。
终端设备获取像素数目以及像素预测概率和,并基于像素数目以及第二像素预测概率和构建第五损失函数,如下式所示:
其中,Lossarea为第五损失函数;T表示第二训练图像;k为图像训练集中的目标类别;Ak为类别k的前景区域的像素数目,Sk为预测为类别k的像素预测概率和。
S64:利用第三损失函数、第四损失函数以及第五损失函数对分割模型进行训练。
终端设备获取第三损失函数、第四损失函数和第五损失函数,并利用第三损失函数、第四损失函数以及第五损失函数对分割模型进行训练,如下式所示:
Losstotal2=Lossseg+Lossconl+Lossarea;
其中,Losstotal2为第二训练图像的总损失函数,Lossseg为第三损失函数;Lossconl为第四损失函数,Lossarea为第五损失函数。
具体的,在训练过程中,为了约束第二训练图像中切割区域的大小,终端设备获取每一类别的前景区域的像素数目及在第二训练图像中每一类别的像素预测概率和,构建第五损失函数对模型进行训练,有效提高第一训练图像分割混合的精准度,进而提高模型预测的准确度。
在本申请实施例中,终端设备基于第二分割伪标签确定第二训练图像中每一类别的前景区域;基于第二预测标签获取每一类别的前景区域的像素数目,以及在第二训练图像中每一类别的像素预测概率和;基于像素数目以及像素预测概率和构建第五损失函数;利用第三损失函数、第四损失函数以及第五损失函数对分割模型进行训练。通过本实施例的方法,能利用由第一训练图像拼接组合而成的第二训练图像对模型进行训练,并引入第五损失函数约束第二训练图像中切割区域的大小,有效提高模型对局部图像信息的区分能力,提高模型的准确度。
请参见图10,图10是本申请提供的模型训练方法第七实施例的流程示意图。图像训练集还包括第三训练图像,以及对第三训练图像标注的真实图像级标签,其中,真实图像级标签标注第三训练图像中包含的类别。如图10所示,在使用第一训练图像对模型进行训练前,该模型训练方法还包括:
S71:将第三训练图像输入分割模型,获取第三训练图像的预测图像级标签。
具体的,终端设备获取图像训练集中的第三训练图像,第三训练图像包含有多种目标类别的图像。其中,第三训练图像设置有真实图像级标签,以表示第三训练图像中所包含的目标类别。终端设备将第三训练图像输入至分割模型中,以获取第三训练图像的预测图像级标签。
S72:基于真实图像级标签和预测图像级标签构建第六损失函数,利用第六损失函数对分割模型进行训练。
进一步地,将第三训练图像输入分割模型中,在全连接层输出nxC的特征后,终端设备将特征输入至模型的CAM分类网络进行训练。CAM分类网络上设置有类别响应图,通过计算每个特征图平均值的加权和,将类激活映射上采样到的输入图像的大小,识别出与预设类别最相关的图像区域,其损失函数如下式所示:
由于第六损失函数能够抑制图像中不存在的类别,增加图像中存在类别的预测概率,CAM分类网络训练后能输出与目标类别最具有显著判别性的区域。终端设备获取每个目标类别中与该目标类别最具有显著判别性的区域后,可以将待分割的图像训练集进行分割,以获取若干单一类别的第一训练图像。
在本申请实施例中,终端设备将第三训练图像输入分割模型,获取第三训练图像的预测图像级标签;基于真实图像级标签和预测图像级标签构建第六损失函数,利用第六损失函数对分割模型进行训练。通过本实施例的方法,终端设备能够基于真实图像级标签和预测图像级标签构建第六损失函数,对分割模型进行训练,提高模型预测的准确度。
请参见图11,图11是本申请提供的模型训练方法第八实施例的流程示意图。如图11所示,该模型训练方法还包括:
S81:将第三训练图像输入分割模型,获取预测图像级标签中每一个类别对应的图像区域。
终端设备获取第三训练图像后,可将第三训练图像输入分割模型中,获取第三训练图像的预测图像级标签,并对预测图像级标签中每一个类别对应的图像区域进行分割。
S82:利用每一个类别对应的图像区域分割出单一类别的第一训练图像。
终端设备获取预测图像级标签中每一个类别对应的图像区域后,可将每一个类别对应的图像区域分割出单一类别的第一训练图像,以扩展第一训练图像的数量,进而将分割出的第一训练图像对模型进行训练,提高模型的训练效果。
在本申请实施例中,终端设备将第三训练图像输入分割模型,获取预测图像级标签中每一个类别对应的图像区域;利用每一个类别对应的图像区域分割出单一类别的第一训练图像。通过本申请的方法,终端设备可将多类别训练图像分割出单一类别的第一训练图像,提高第一训练图像的样本多样性,提高模型的训练效果。
请参见图12-13,图12是本申请提供的模型训练方法第九实施例的流程示意图,图13是图12中获取类别响应图一实施例的流程示意图。如图12所示,图像训练集中还包括多类别的第四训练图像,该模型训练方法还包括:
S91:将单一类别的第一训练图像与多类别的第四训练图像进行拼接,以得到第五训练图像。
在利用第一损失函数和第二损失函数对分割模型进行训练后,模型能对相同的语义区域提取出相似的特征,进而获取相同的预测类别,预训练阶段完成。为进一步提高模型的预测准确度,终端设备对模型进行精训练。
具体的,如图13所示,终端设备获取第四训练图像,其中,第四训练图像包括多种类别的训练图像。终端设备将多类别的第四训练图像与单类别的第一训练图像进行混合拼接,以获取第五训练图像。
S92:将第五训练图像输入分割模型,获取第五训练图像的类别响应图,其中,类别响应图包括第五训练图像的第三预测标签。
终端设备将第五训练图像输入至分割模型中,以获取第五训练图像的类别响应图,类别响应图表示第五训练图像的特征图对某一单类别的响应情况。其中,类别响应图包括第五训练图像的第三预测标签。
S93:将类别响应图通过拼接获取第一训练图像对应的第一类别响应图以及第四训练图像对应的第二类别响应图。
终端设备获取第五训练图像的类别相应图后,由于第五训练图像为单一类别的第一训练图像与多类别的第四训练图像拼接而成的图像,终端设备可将类别响应图再次拼接,以将类别相应图恢复成与第一训练图像对应的第一类别响应图和与第四训练图像对应的第二类别响应图。
S94:基于第一训练图像的分割伪标签以及第一类别响应图的预测标签构建第七损失函数。
终端设备获取第一训练图像对应的第一类别响应图后,基于第一训练图像的分割伪标签以及第一类别响应图的预测标签构建第七损失函数,如下式所示:
其中,Lossseg为第七损失函数;C为图像训练集中的目标类别数;ZC为第一类别响应图的预测标签;lc为第一训练图像的分割伪标签。
S95:基于第四训练图像的分割伪标签以及第二类别响应图的预测标签构建第八损失函数。
终端设备获取第四训练图像对应的第二类别响应图,并基于第四训练图像的分割伪标签以及第二类别响应图的预测标签构建第八损失函数,其构建过程与步骤S94相似,在此不再赘述。
S96:利用第七损失函数和第八损失函数对分割模型进行训练。
终端设备获取第七损失函数和第八损失函数后,可利用第七损失函数和第八损失函数对分割模型进行训练,如下式所示:
Losstotal3=Lossseg-k+Lossseg-uk;
其中,Losstotal3为第五训练图像的总损失函数;Lossseg-k为第一训练图像的第七损失函数;Lossseg-uk为第四训练图像的第八损失函数。
可选地,如图13所示,第五训练图像还可由不同多类别的第四训练图像拼接而成,并将第五训练图像的类别响应图再次拼接以获取不同第四训练图像的第一类别响应图和第二类别响应图,其训练过程与步骤S91-步骤S96相似,在此不再赘述。
在本申请实施例中,终端设备将单一类别的第一训练图像与多类别的第四训练图像进行拼接,以得到第五训练图像;将第五训练图像输入分割模型,获取第五训练图像的类别响应图,其中,类别响应图包括第五训练图像的第三预测标签;将类别响应图通过拼接获取第一训练图像对应的第一类别响应图以及第四训练图像对应的第二类别响应图;基于第一训练图像的分割伪标签以及第一类别响应图的预测标签构建第七损失函数;利用第七损失函数和第八损失函数对分割模型进行训练。通过本实施例的方法,终端设备可以使用由多类别的第四训练图像和单类别的第一训练图像拼接成的第五训练图像对模型进行训练,以提升模型对多类别训练图像的预测准确度,提高模型的分类精度。
可选地,步骤S96进一步包括以下步骤:利用调整参数对第八损失函数的权重进行调整;利用第七损失函数和调整后的第八损失函数对分割模型进行训练;其中,调整参数的数值由预设增长函数确定。
具体的,由于在模型训练前期,模型输出的预测结果准确性较低,模型对于输入的多类别的第四训练图像所生成的分割伪标签准确性也不高,为了降低多类别的第四训练图像由于准确性低产生的不利影响,在构建分割模型时引入调整参数对第八损失函数的权重进行调整,并利用第七损失函数和调整后的第八损失函数对分割模型进行训练,如下式所示:
Losstotal3=Lossseg-k+w*Lossseg-uk;
其中,Losstotal3为第五训练图像的总损失函数;Lossseg-k为第一训练图像的第七损失函数;Lossseg-uk为第四训练图像的第八损失函数;w为调整参数。
在具体的实施方式中,调整参数的数值可以由预设增长函数确定,在模型训练的初始阶段时,调整参数可以设置为0.2,以降低第八损失函数对模型训练的不利影响,随着迭代过程中模型生成的分割伪标签的准确性的提高,调整参数可以慢慢增加至1。调整参数的数值还可以设置成其他参数,在此,对调整参数的增长过程不作具体限定。
本申请还提出了一种图像识别方法,该图像识别方法的步骤包括:将待识别图像输入分割模型,得到待识别图像的图像识别类别,其中,分割模型是利用上述实施例所述的模型训练方法得到的。
具体的,上述实施例所述的模型训练方法所训练得到的分割模型可用于进行图像识别,用户将待识别图像输入至分割模型中,分割模型可对待识别图像进行语义分割,以输出待识别图像的图像识别类别,用户可根据得到的图像识别类别进行疾病诊断等操作。
请参见图14,图14是本申请提供的终端设备一实施例的结构示意图。终端设备包括相互连接的存储器52和处理器51。
存储器52用于存储实现上述任意一实施例所述的模型训练方法的程序指令。
处理器51用于执行存储器52存储的程序指令。
其中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信令的处理能力。处理器51还可以是通用处理器、数字信令处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器52可以为内存条、TF卡等,可以存储终端设备中全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器,串匹配预测装置才有记忆功能,才能保证正常工作。串匹配预测装置的存储器按用途存储器可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。
请参阅图15,图15是本申请提供的计算机可读存储介质一实施例的结构示意图。本申请的计算机可读存储介质存储有能够实现上述所有模型训练方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (14)
1.一种模型训练方法,其特征在于,所述模型训练方法包括:
获取图像训练集,其中,所述图像训练集包括若干单一类别的第一训练图像;
获取每一类别的第一训练图像的第一分割伪标签;
将若干所述第一训练图像输入待训练的分割模型,获取所述第一训练图像的第一预测标签;
基于所述第一预测标签和所述第一分割伪标签构建第一损失函数;
提取相同类别的第一训练图像的第一图像特征对,以及不同类别的第一训练图像的第二图像特征对;
获取所述第一图像特征对的第一相似度,以及所述第二图像特征对的第二相似度;
基于所述第一相似度和所述第二相似度构建第二损失函数,利用所述第一损失函数和所述第二损失函数对所述分割模型进行训练。
2.根据权利要求1所述的模型训练方法,其特征在于,
所述获取每一类别的第一训练图像的分割伪标签,包括:
将所述第一训练图像进行归一化处理;
基于预设分割阈值在归一化处理后的第一训练图像区分前景区域和背景区域,从而获取所述第一训练图像的第一分割伪标签。
3.根据权利要求1所述的模型训练方法,其特征在于,
所述获取所述第一图像特征对的第一相似度,以及所述第二图像特征对的第二相似度,包括:
分别获取目标类别的两个第一训练图像的第一图像特征以及第二图像特征;
获取所述第一图像特征与所述第二图像特征的第一相似度;
分别获取目标类别的一个第一训练图像的第三图像特征以及其他类别的一个第一训练图像的第四图像特征;
获取所述第三图像特征与所述第四图像特征的第二相似度。
4.根据权利要求1-3任一项所述的模型训练方法,其特征在于,
所述基于所述第一相似度和所述第二相似度构建第二损失函数,包括:
计算所述第一相似度与所述第二相似度的和;
基于所述第一相似度以及所述和的比值构建所述第二损失函数。
5.根据权利要求1所述的模型训练方法,其特征在于,
所述获取每一类别的第一训练图像的分割伪标签之后,所述模型训练方法还包括:
将不同类别的第一训练图像进行混合,以得到第二训练图像以及第二分割伪标签,其中,所述第二分割伪标签由不同类别的第一训练图像的第一分割伪标签混合得到;
将所述第二训练图像输入所述分割模型,获取所述第二训练图像的第二预测标签;
基于所述第二预测标签和所述第二分割伪标签构建第三损失函数;
提取所述第二训练图像中相同类别的第三图像特征对,以及不同类别的第四图像特征对;
获取所述第三图像特征对的第三相似度,以及所述第四图像特征对的第四相似度;
基于所述第三相似度和所述第四相似度构建第四损失函数,利用所述第三损失函数和所述第四损失函数对所述分割模型进行训练。
6.根据权利要求5所述的模型训练方法,其特征在于,
所述第三图像特征对包括高概率点特征以及不确定性点特征,其中,所述高概率点为预测置信度高于预设置信度阈值的图像像素点,所述不确定性点为预测置信度低于所述预设置信度阈值的图像像素点;所述第四图像特征对包括不同类别区域的高概率点特征。
7.根据权利要求5或6所述的模型训练方法,其特征在于,
所述模型训练方法还包括:
基于所述第二分割伪标签确定所述第二训练图像中每一类别的前景区域;
基于所述第二预测标签获取每一类别的前景区域的像素数目,以及在所述第二训练图像中每一类别的像素预测概率和;
基于所述像素数目以及所述像素预测概率和构建第五损失函数;
利用所述第三损失函数、所述第四损失函数以及所述第五损失函数对所述分割模型进行训练。
8.根据权利要求1所述的模型训练方法,其特征在于,
所述图像训练集还包括第三训练图像,以及对所述第三训练图像标注的真实图像级标签,其中,所述真实图像级标签标注所述第三训练图像中包含的类别;
所述模型训练方法还包括:
将所述第三训练图像输入所述分割模型,获取所述第三训练图像的预测图像级标签;
基于所述真实图像级标签和所述预测图像级标签构建第六损失函数,利用所述第六损失函数对所述分割模型进行训练。
9.根据权利要求8所述的模型训练方法,其特征在于,
所述模型训练方法还包括:
将所述第三训练图像输入所述分割模型,获取所述预测图像级标签中每一个类别对应的图像区域;
利用所述每一个类别对应的图像区域分割出单一类别的第一训练图像。
10.根据权利要求1所述的模型训练方法,其特征在于,
所述图像训练集中还包括多类别的第四训练图像;
所述模型训练方法,还包括:
将单一类别的第一训练图像与多类别的第四训练图像进行拼接,以得到第五训练图像;
将所述第五训练图像输入所述分割模型,获取所述第五训练图像的类别响应图,其中,所述类别响应图包括所述第五训练图像的第三预测标签;
将所述类别响应图通过拼接获取所述第一训练图像对应的第一类别响应图以及第四训练图像对应的第二类别响应图;
基于所述第一训练图像的分割伪标签以及所述第一类别响应图的预测标签构建第七损失函数;
基于所述第四训练图像的分割伪标签以及所述第二类别响应图的预测标签构建第八损失函数;
利用所述第七损失函数和所述第八损失函数对所述分割模型进行训练。
11.根据权利要求10所述的模型训练方法,其特征在于,
所述利用所述第七损失函数和所述第八损失函数对所述分割模型进行训练,包括:
利用调整参数对所述第八损失函数的权重进行调整;
利用所述第七损失函数和调整后的所述第八损失函数对所述分割模型进行训练;
其中,所述调整参数的数值由预设增长函数确定。
12.一种图像识别方法,其特征在于,包括:
将待识别图像输入分割模型,得到所述待识别图像的图像识别类别,其中,
所述分割模型是利用权利要求1-11中任一项所述的模型训练方法得到的。
13.一种终端设备,其特征在于,所述终端设备包括处理器、与所述处理器连接的存储器,其中,
所述存储器存储有程序指令;
所述处理器用于执行所述存储器存储的程序指令以实现权利要求1~11任一项所述的模型训练方法和/或权利要求12所述的图像识别方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序指令,所述程序指令被执行时实现权利要求1~11任一项所述的模型训练方法和/或权利要求12所述的图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111636815.5A CN114548213A (zh) | 2021-12-29 | 2021-12-29 | 模型训练方法、图像识别方法、终端设备及计算机介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111636815.5A CN114548213A (zh) | 2021-12-29 | 2021-12-29 | 模型训练方法、图像识别方法、终端设备及计算机介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114548213A true CN114548213A (zh) | 2022-05-27 |
Family
ID=81670106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111636815.5A Pending CN114548213A (zh) | 2021-12-29 | 2021-12-29 | 模型训练方法、图像识别方法、终端设备及计算机介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114548213A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972928A (zh) * | 2022-07-26 | 2022-08-30 | 深圳比特微电子科技有限公司 | 一种图像识别模型训练方法及装置 |
CN115690100A (zh) * | 2022-12-28 | 2023-02-03 | 珠海横琴圣澳云智科技有限公司 | 半监督信号点检测模型训练方法、信号点检测方法和装置 |
-
2021
- 2021-12-29 CN CN202111636815.5A patent/CN114548213A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972928A (zh) * | 2022-07-26 | 2022-08-30 | 深圳比特微电子科技有限公司 | 一种图像识别模型训练方法及装置 |
CN114972928B (zh) * | 2022-07-26 | 2022-11-11 | 深圳比特微电子科技有限公司 | 一种图像识别模型训练方法及装置 |
CN115690100A (zh) * | 2022-12-28 | 2023-02-03 | 珠海横琴圣澳云智科技有限公司 | 半监督信号点检测模型训练方法、信号点检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476284B (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
US20240177301A1 (en) | System and Method Associated with Predicting Segmentation Quality of Objects in Analysis of Copious Image Data | |
Tong et al. | Salient object detection via bootstrap learning | |
Yuan et al. | Bag-of-words and object-based classification for cloud extraction from satellite imagery | |
JP6050223B2 (ja) | 画像認識装置、画像認識方法、及び集積回路 | |
CN111814810A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN105512683A (zh) | 基于卷积神经网络的目标定位方法及装置 | |
BenTaieb et al. | Multi-loss convolutional networks for gland analysis in microscopy | |
CN112926654A (zh) | 预标注模型训练、证件预标注方法、装置、设备及介质 | |
CN114548213A (zh) | 模型训练方法、图像识别方法、终端设备及计算机介质 | |
WO2022089257A1 (zh) | 医学图像处理方法、装置、设备、存储介质及产品 | |
CN112149689B (zh) | 基于目标领域自监督学习的无监督领域适应方法和系统 | |
WO2022127333A1 (zh) | 图像分割模型的训练方法、图像分割方法、装置、设备 | |
CN111598144B (zh) | 图像识别模型的训练方法和装置 | |
Zhang et al. | Saliency detection via extreme learning machine | |
CN115908363B (zh) | 肿瘤细胞统计方法、装置、设备和存储介质 | |
Naiemi et al. | Scene text detection using enhanced extremal region and convolutional neural network | |
CN112241736A (zh) | 一种文本检测的方法及装置 | |
Sohail et al. | Deep object detection based mitosis analysis in breast cancer histopathological images | |
Akbar et al. | Tumor localization in tissue microarrays using rotation invariant superpixel pyramids | |
Tang et al. | Salient object detection via two-stage absorbing Markov chain based on background and foreground | |
Thapa et al. | Deep learning for breast cancer classification: Enhanced tangent function | |
CN115631370A (zh) | 一种基于卷积神经网络的mri序列类别的识别方法及装置 | |
Duan et al. | Bio-inspired visual attention model and saliency guided object segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |