CN117152428A - 模型训练方法、装置、计算机设备及计算机可读存储介质 - Google Patents

模型训练方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN117152428A
CN117152428A CN202310813173.4A CN202310813173A CN117152428A CN 117152428 A CN117152428 A CN 117152428A CN 202310813173 A CN202310813173 A CN 202310813173A CN 117152428 A CN117152428 A CN 117152428A
Authority
CN
China
Prior art keywords
image
candidate
training
images
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310813173.4A
Other languages
English (en)
Inventor
颜泽鑫
刘枢
吕江波
沈小勇
田倬韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Simou Intelligent Technology Co ltd
Original Assignee
Beijing Simou Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Simou Intelligent Technology Co ltd filed Critical Beijing Simou Intelligent Technology Co ltd
Priority to CN202310813173.4A priority Critical patent/CN117152428A/zh
Publication of CN117152428A publication Critical patent/CN117152428A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种模型训练方法、装置、计算机设备及计算机可读存储介质。方法包括:获取多张训练图像和多张候选图像;将训练图像输入至初始语义分割模型,得到第一预测矩阵;将候选图像输入至初始语义分割模型,得到第二预测矩阵;基于候选图像对应的第二预测矩阵,确定候选图像的预测差异度;基于候选图像对应的第二预测矩阵与训练图像对应的第一预测矩阵,确定候选图像与多张训练图像的特征相似度;基于各张候选图像的预测差异度和特征相似度,确定目标图像;基于目标图像,对初始语义分割模型进行训练,得到目标语义分割模型。采用本方法,能够提高模型训练效率。

Description

模型训练方法、装置、计算机设备及计算机可读存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种模型训练方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,神经网络模型被广泛的应用于对图像进行语义分割,语义分割是指对图像中的像素点进行图像类别上的分类,为了使神经网络模型的输出结果更加准确,使用之前需要对神经网络模型进行训练。
传统技术中,对大量的图像进行人工标注,得到训练图像,然后使用训练图像对神经网络模型进行训练,以得到准确度较高的神经网络模型,由于人工标注需要花费大量的时间,导致神经网络模型的训练效率低下。
发明内容
基于此,有必要针对上述技术问题,提供一种模型训练方法、装置、计算机设备、计算机可读存储介质及计算机程序产品,能够实现提高模型训练效率。
第一方面,本申请提供了一种模型训练方法,包括:
获取多张训练图像和多张候选图像;
将训练图像输入至初始语义分割模型,得到第一预测矩阵;将候选图像输入至初始语义分割模型,得到第二预测矩阵;
基于候选图像对应的第二预测矩阵,确定候选图像的预测差异度;
基于候选图像对应的第二预测矩阵与训练图像对应的第一预测矩阵;确定候选图像与多张训练图像的特征相似度;
基于各张候选图像的预测差异度和特征相似度,确定目标图像;
基于目标图像,对初始语义分割模型进行训练,得到目标语义分割模型。
第二方面,本申请还提供了一种模型训练装置,包括:
获取模块,用于获取多张训练图像和多张候选图像;
输入模块,用于将训练图像输入至初始语义分割模型,得到第一预测矩阵;将候选图像输入至初始语义分割模型,得到第二预测矩阵;
第一确定模块,用于基于候选图像对应的第二预测矩阵,确定候选图像的预测差异度;
第二确定模块,用于基于候选图像对应的第二预测矩阵与训练图像对应的第一预测矩阵,确定候选图像与多张训练图像的特征相似度;
选择模块,用于基于各张候选图像的预测差异度和特征相似度,确定目标图像;
训练模块,用于基于目标图像,对初始语义分割模型进行训练,得到目标语义分割模型。
第三方面,本申请还提供了一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述模型训练方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述模型训练方法的步骤。
第五方面,本申请还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述模型训练方法的步骤。
上述模型训练方法、装置、计算机设备及计算机可读存储介质,获取多张训练图像和多张候选图像,将已标注的训练图像输入至初始语义分割模型,得到第一预测矩阵,将未标注的候选图像输入至初始语义分割模型,得到第二预测矩阵,根据候选图像对应的第二预测矩阵,确定初始语义分割模型对候选图像的预测差异度,即确定初始语义分割模型对候选图像预测的准确程度,预测差异度越大,表征初始语义分割模型对候选图像预测的准确度越低,该候选图像对于初始语义分割模型的不确定性越强,基于候选图像对应的第二预测矩阵与训练图像对应的第一预测矩阵,确定候选图像与多张训练图像的特征相似度,特征相似度越低,表征候选图像与多张训练的差异性越大,基于各张候选图像的预测差异度和特征相似度,确定目标图像,可以理解为,选择出初始语义分割模型预测准确程度低,且与多张训练图像差异性大的目标图像,使用少量的目标图像对初始语义分割模型进行训练,即可达到使用所有的候选图像对初始语义分割模型进行训练的效果,从而提高了模型的训练效率。
附图说明
图1为本申请实施例提供的一种模型训练方法的应用环境图;
图2为本申请实施例提供的一种模型训练方法的流程示意图;
图3为本申请实施例提供的一种特征相似度确定步骤的流程示意图;
图4为本申请实施例提供的一种特征矩阵确定步骤的流程示意图;
图5为本申请实施例提供的一种确定特征矩阵的框架示意图;
图6为本申请实施例提供的一种目标图像确定步骤的流程示意图;
图7为本申请实施例提供的一种模型训练装置的结构框图;
图8为本申请实施例提供的一种计算机设备的内部结构图;
图9为本申请实施例提供的一种计算机可读存储介质的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的模型训练方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端和服务器均可单独用于执行本申请实施例中提供的模型训练方法。终端和服务器也可协同用于执行本申请实施例中提供的模型训练方法。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备及便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一些实施例中,如图2所示,提供了一种模型训练方法,该方法可应用于计算机设备,计算机设备可以是终端或服务器。该方法包括步骤202到步骤212。
步骤202,获取多张训练图像和多张候选图像。
其中,训练图像是指图像中的每个像素点已标注图像类别,用于对语义分割模型进行训练的图像。可以理解为,训练图像为已标注的图像,多张训练图像可以位于训练集合中。候选图像是指未进行图像类别标注的图像,可以从多张候选图像中选择出用于对初始语义分割模型进行训练的目标图像,多张候选图像可以位于候选集合中。
示例性的,计算机设备从训练集合中获取多张训练图像,从候选集合中获取多张候选图像。
步骤204,将训练图像输入至初始语义分割模型,得到第一预测矩阵;将候选图像输入至初始语义分割模型,得到第二预测矩阵。
其中,初始语义分割模型是指使用多张训练图像对语义分割模型进行训练得到的神经网络模型,用于对图像中像素点对应的图像类别的概率进行预测。例如,将待预测图像输入初始语义分割模型进行处理,输出预测矩阵,预测矩阵为三维矩阵,预测矩阵中每个元素值表征图像中的一个像素点对应的图像类别的概率。第一预测矩阵是指初始语义分割模型对训练图像进行预测的输出结果。第二预测矩阵是指初始语义分割模型对候选图像进行预测的输出结果。
步骤206,基于候选图像对应的第二预测矩阵,确定候选图像的预测差异度。
其中,预测差异度是指初始语义分割模型预测候选图像为不同图像类别对应的概率之间的差值。例如,初始语义分割模型预测候选图像为A图像类别的概率为20%,预测候选图像为B图像类别的概率为35%,则候选图像的预测差异度为15%。
示例性的,计算机设备基于候选图像对应的第二预测矩阵中同一图像类别对应的各个像素点的概率值,确定各个图像类别对应的平均概率,基于各个图像类别对应的平均概率,确定候选图像的预测差异度。
步骤208,基于候选图像对应的第二预测矩阵与训练图像对应的第一预测矩阵,确定候选图像与多张训练图像的特征相似度。
其中,特征相似度是指候选图像与多张训练图像之间的最小相似度。
示例性的,计算机设备计算候选图像对应的第二预测矩阵与训练图像对应的第一预测之间的余弦相似性,得到候选图像与该训练图像的相似度;基于候选图像与多张训练图像的多个相似度,确定候选图像与多张训练图像的特征相似度。
步骤210,基于各张候选图像的预测差异度和特征相似度,确定目标图像。
其中,目标图像是指从多张候选图像中选择出来,初始语义分割模型对其预测准确程度较低,且与多张训练图像的相似度较低的图像;目标图像用于对初始语义分割模型进行进一步训练。可以理解为,目标图像为满足不确定性和多样性的候选图像。
示例性的,计算机设备基于候选图像的预测差异度和特征相似度,得到候选图像的候选评估值,对多张候选图像对应的候选评估值进行比较,确定目标图像。
在一些实施例中,计算机设备将候选图像的预测差异度减去特征相似度,得到候选图像的候选评估值,将候选评估值与预设评估值进行比对,将大于预设评估值的候选评估值对应的候选图像确定为目标图像。
步骤212,基于目标图像,对初始语义分割模型进行训练,得到目标语义分割模型。
示例性的,计算机设备使用目标图像对初始语义分割模型进行训练,直至达到预设训练停止条件,得到目标语义分割模型。
上述模型训练方法中,获取多张训练图像和多张候选图像,将已标注的训练图像输入至初始语义分割模型,得到第一预测矩阵,将未标注的候选图像输入至初始语义分割模型,得到第二预测矩阵,根据候选图像对应的第二预测矩阵,确定初始语义分割模型对候选图像的预测差异度,即确定初始语义分割模型对候选图像预测的准确程度,预测差异度越大,表征初始语义分割模型对候选图像预测的准确度越低,该候选图像对于初始语义分割模型的不确定性越强,基于候选图像对应的第二预测矩阵与训练图像对应的第一预测矩阵,确定候选图像与多张训练图像的特征相似度,特征相似度越低,表征候选图像与多张训练的差异性越大,基于各张候选图像的预测差异度和特征相似度,确定目标图像,可以理解为,选择出初始语义分割模型预测准确程度低,且与多张训练图像差异性大的目标图像,使用少量的目标图像对初始语义分割模型进行训练,即可达到使用所有的候选图像对初始语义分割模型进行训练的效果,从而提高了模型的训练效率。
在一些实施例中,基于候选图像对应的第二预测矩阵,确定候选图像的预测差异度,包括:
基于候选图像对应的第二预测矩阵,确定各个图像类别对应的平均概率;第二预测矩阵为三维矩阵,第二预测矩阵中的元素值表征候选图像中的像素点所对应的图像类别的概率;
从各个图像类别对应的平均概率中筛选出第一平均概率和第二平均概率;
将第一平均概率与第二平均概率之间的差异,确定为候选图像的预测差异度。
其中,图像类别是指图像中的像素点所属于的类别。例如,候选图像中一个位于苹果内部的像素点,该像素点对应的图像类别为苹果。初始语义分割模型对像素点对应的多个图像类别的概率进行预测,输出的预测矩阵中包含每一个像素点对应各个图像类别的预测概率。平均概率是指候选图像中所有的像素点对应一个图像类别的平均概率,可以理解为,候选图像中各个像素点对应同一个图像类别的概率的平均值。三维矩阵是指由图像类别维度和像素点位置维度这两个维度构成的矩阵。例如,三维矩阵的三个维度分别为图像类别维度、像素点X轴坐标维度和像素点Y轴坐标维度。
示例性的,计算机设备根据候选图像对应的第二预测矩阵,针对每一个图像类别,获取候选图像中每个像素点对应该图像类别的概率,计算各个像素点对应该图像类别的概率的平均值,得到该图像类别对应的平均概率;对第二预测矩阵中各个图像类别对应的平均概率进行比较,将最大的平均概率确定为第一平均概率,将第二大的平均概率确定为第二平均概率,将第一平均概率减去第二平均概率,得到概率差值,将概率差值确定为候选图像的预测差异度。
在一些实施例中,预测差异度的计算公式如下所述:
margin=max1(probaility)-max2(probaility) 公式(1)
其中,margin是指预测差异度,probaility是指各个图像类别对应的平均概率,max1是指最大概率值,max2是指第二大概率值。
本实施例中,通过候选图像对应的第二预测矩阵确定初始语义分割模型对候选图像的预测差异度,第一平均概率对应的图像类别为初始语义分割模型预测的候选图像最可能的图像类别,第二平均概率对应的图像类别为初始语义分割模型预测的候选图像第二可能的图像类别,基于第一平均概率与第二平均概率之间的差异确定的预测差异度,表征了初始语义分割模型对候选图像预测的不确定性,预测差异度越高,表征初始语义分割模型对候选图像预测的不确定性越强,基于预测差异度确定目标图像,将目标图像作为训练图像,即考虑了训练图像的不确定性,使用不确性较强的候选图像对初始语义分割模型进行训练,有助于提高初始语义分割模型的训练效果。
在一些实施例中,如图3所示,基于候选图像对应的第二预测矩阵与训练图像对应的第一预测矩阵,确定候选图像与多张训练图像的特征相似度,包括:
步骤302,基于预测矩阵,对图像进行特征提取,得到图像对应的特征矩阵;预测矩阵包括训练图像对应的第一预测矩阵和候选图像对应的第二预测矩阵;当预测矩阵为第一预测矩阵时,得到训练图像对应的第一特征矩阵;当预测矩阵为第二预测矩阵时,得到候选图像对应的第二特征矩阵。
其中,预测矩阵是指初始语义分割模型的输出矩阵。特征矩阵是指用于表征图像特征的矩阵,特征矩阵为二维矩阵。
示例性的,计算机设备基于第一预测矩阵,对训练图像进行特征提取,得到训练图像对应的第一特征矩阵;基于第二预测矩阵,对候选图像进行特征提取,得到候选图像对应的第二特征矩阵。
步骤304,基于第二特征矩阵与第一特征矩阵,确定候选图像与训练图像之间的相似度。
其中,相似度是指两个数据集之间的相似程度。相似度可以为余弦相似度和皮尔逊相关系数等。
示例性的,计算机设备计算第二特征矩阵与第一特征矩阵的余弦相似度,将余弦相似度确定为候选图像与训练图像之间的相似度。
在一些实施例中,候选图像与训练图像之间的相似度计算方法如下所示:
其中,cosine similarity是指余弦相似度,A是指第一特征矩阵,B是指第二特征矩阵,i是元素值的编号,n是指元素值的总数,Ai是指第一特征矩阵中第i个元素值,Bi是指第二特征矩阵中第i个元素值。
步骤306,将多个相似度中最小的相似度确定为候选图像与多张训练图像的特征相似度,多个相似度与多张训练图像一一对应。
示例性的,针对每个候选图像,计算机设备将该候选图像与各个训练图像之间的相似度进行比较,确定最小的相似度,将最小的相似度确定为候选图像与多张训练图像的特征相似度。
本实施例中,通过将最小的相似度确定为候选图像与多张训练图像的特征相似度,特征相似度越小,表征候选图像与多张训练图像的相似性越小,即候选图像与多张训练图像的差异性越大,基于特征相似性确定目标图像,将目标图像作为训练图像,即考虑了训练图像的多样性,使用多样性的候选图像对初始语义分割模型进行训练,有助于提高初始语义分割模型的训练效果。
在一些实施例中,如图4所示,基于预测矩阵,对图像进行特征提取,得到图像对应的特征矩阵,包括:
步骤402,基于预测矩阵,确定图像对应的标签矩阵。
其中,标签矩阵是指用于表征图像中的每个像素点对应的图像类别的三维矩阵。例如,特征矩阵中的每个像素点对应的多个图像类别的元素值中,仅其中一个元素值与其它的元素值不相同,即该像素点的图像类别为不相同的元素值对应的图像类别。
示例性的,计算机设备根据预测矩阵中同一个像素点对应的不同图像类别的概率,确定该像素点的目标图像类别,基于各个像素点的目标图像类别,确定图像对应的标签矩阵。
步骤404,对预测矩阵进行降维转换,得到预测降维矩阵;对标签矩阵进行降维转换,得到标签降维矩阵。
其中,降维转换是指降低矩阵维度的处理过程。例如,预测矩阵为三维矩阵H×W×C,H为图像中一列像素点的数量,W为图像中一行像素点的数量,C为图像类别的总数,通过降维转换将预测矩阵转换为预测降维矩阵(H×W)×C,预测降维矩阵为二维矩阵。
示例性的,计算机设备使用同一预设方式将预测矩阵转换成预测降维矩阵,及将标签矩阵转换成标签降维矩阵。
步骤406,对标签降维矩阵进行转置处理,得到标签转置矩阵。
其中,转置处理是指将矩阵的行换成同序数的列的过程。
步骤408,对预测降维矩阵和标签转置矩阵进行融合处理,得到图像对应的特征矩阵。
其中,融合是指相乘的过程。示例性的,计算机设备将预测降维矩阵乘以标签转置矩阵,得到图像对应的特征矩阵。
在一些实施例中,对图像进行特征提取的过程如图5所示,初始语义分割模型输出预测矩阵,对预测矩阵进行降维处理,得到预测降维矩阵;同时,对预测矩阵进行标签化处理,得到标签矩阵,对标签矩阵进行降维处理,得到标签降维矩阵;对标签降维矩阵进行转置处理,得到标签转置矩阵,然后将预测降维矩阵乘以标签转置矩阵,得到图像的特征矩阵。
本实施例中,通过预测降维矩阵乘以标签转置矩阵,得到图像对应的特征矩阵,预测降维矩阵表征初始语义分割模型对图像中各个像素点对应图像类别的概率的预测,标签转置矩阵表征了图像中各个像素点对应的图像类别,将预测降维矩阵乘以标签转置矩阵,得到的特征矩阵充分的体现了初始语义分割模型对图像的预测特征,为计算候选图像和训练图像之间的相似度,提供了准确的基础数据。
在一些实施例中,基于预测矩阵,确定图像对应的标签矩阵,包括:
针对图像中的每个像素点,将最大概率对应的图像类别确定为像素点对应的目标类别,最大概率是像素点所对应的图像类别的概率中最大的;
将预测矩阵中,像素点对应的目标类别的概率设置为第一标识,其余的图像类别的概率设置为第二标识,得到图像对应的标签矩阵。
其中,概率表征像素点为该图像类别的可能性大小,概率越大,表征像素点为该图像类别的可能性越大,反之为该图像类别的可能性越小。第一标识是指像素点对应目标类别的标签,第二标识是指像素点对应非目标类别的标签,第一标识和第二标识可以为不同的数字。例如,第一标识为1,第二标识为0。
示例性的,针对图像中的每个像素点,计算机设备从预测矩阵中获取该像素点对应的各个图像类别的概率,将该像素点对应的各个图像类别的概率进行比较,确定最大的概率,将最大的概率对应的图像类别确定为该像素点的目标类别,其余的图像类别为非目标类别,将预测矩阵中该像素点对应的目标类别的概率设置1,将该像素点对应的非目标类别的概率设置为0,得到图像对应的标签矩阵。
本实施例中,标签矩阵中的各个元素表征图像中各个像素点对应的目标类别,即各个像素点对应的可能性最大的图像类别,标签矩阵体现了图像的图像类别特征。
在一些实施例中,基于各张候选图像的预测差异度和特征相似度,确定目标图像,包括:
基于候选图像的预测差异度和特征相似度,确定候选图像的候选评估值;
将各张候选图像的候选评估值中最大的候选评估值对应的候选图像,确定为目标图像。
其中,候选评估值是指评估候选图像可选性大小的数值。可以理解为,候选评估值表征候选图像的不确定性和多样性,候选评估值越大,表征初始语义分割模型对候选图像的不确定性越强,并且候选图像相比与多个训练图像的多样性越高,即候选评估值越大,使用候选评估值对应的候选图像对初始语义分割模型进行训练的训练效果越好。
示例性的,计算机设备对候选图像的特征相似度进行变号处理,即将特征相似度加上负号,得到目标特征相似度,然后将候选图像的预测差异度加上目标特征相似度,得到候选图像的候选评估值,对各个候选图像对应的候选评估值进行比对,将最大的候选评估值对应的候选图像确定为目标图像。
本实施例中,将最大的候选评估值对应的候选图像确定为目标图像,即选择出初始语义分割模型预测不确定性最高,且与多张训练图像差异最大的候选图像,为后续初始语义分割模型进行训练提供了训练图像。
在一些实施例中,如图6所示,模型训练方法还包括:
步骤602,对目标图像统计数量进行更新,得到当前目标图像统计数量。
其中,目标图像统计数量是指目标图像的数量。
示例性的,当计算机设备确定目标图像之后,将目标图像统计数量加上确定的目标图像的数量,得到当前目标图像统计数量。
步骤604,在当前目标图像统计数量小于预设数量的情况下,将目标图像作为训练图像,得到更新后的多张训练图像和多张候选图像。
示例性的,计算机设备将当前目标图像统计数量与预设数量进行比较,如果当前目标图像统计数量等于预设数量,则基于预设数量的目标图像,对初始语义分割模型进行训练,得到目标语义分割模型;如果当前目标图像统计数量小于预设数量,则将目标图像加入训练图像集合,得到更新后的多张训练图像,将目标图像从候选图像集合中移除,得到更新后的多张候选图像,然后执行步骤606。
步骤606,重复执行基于更新后的多张训练图像和多张候选图像获得目标图像的步骤。
示例性的,计算机设备重复执行步骤204-210。
步骤608,直至当前目标图像统计数量等于预设数量,得到预设数量的目标图像。
步骤610,基于目标图像,对初始语义分割模型进行训练,得到目标语义分割模型,包括:基于预设数量的目标图像,对初始语义分割模型进行训练,得到目标语义分割模型。
示例性的,计算机设备使用预设数量的目标图像对初始语义分割模型进行多次训练,得到目标语义分割模型。
本实施例中,使用少量的目标图像对初始语义分割模型进行训练,即可达到使用所有的候选图像对初始语义分割模型进行训练的效果,从而提高了模型的训练效率。
在一个示例性地实施例中,对语义分割模型的训练方法如下所述:
计算机设备从训练集合中获取多张训练图像,从候选集合中获取多张候选图像,训练图像为已标注图像,候选图像为未标注图像,使用多张训练图像对语义分割模型进行训练,得到初始语义分割模型。将训练图像输入至初始语义分割模型进行处理,输出训练图像对应的第一预测矩阵;将候选图像输入至初始语义分割模型进行处理,输出候选图像对应的第二预测矩阵。
计算机设备根据第二预测矩阵,针对每一个图像类别,获取候选图像中每个像素点对应该图像类别的概率,计算各个像素点对应该图像类别的概率的平均值,得到该图像类别对应的平均概率,对第二预测矩阵中各个图像类别对应的平均概率进行比较,将最大的平均概率确定为第一平均概率,将第二大的平均概率确定为第二平均概率,将第一平均概率减去第二平均概率,得到概率差值,将概率差值确定为候选图像的预测差异度。
计算机设备基于第一预测矩阵,对训练图像进行如图5所示的特征提取,得到训练图像对应的第一特征矩阵,基于第二预测矩阵,对候选图像进行如图5所示的特征提取,得到候选图像对应的第二特征矩阵,计算第二特征矩阵与第一特征矩阵的余弦相似度,将余弦相似度确定为候选图像与训练图像之间的相似度。针对每个候选图像,计算机设备将该候选图像与各个训练图像之间的相似度进行比较,将最小的相似度确定为候选图像与多张训练图像的特征相似度。
计算机设备将候选图像的预测差异度减去特征相似度,得到候选图像的候选评估值,将最大的候选评估值对应的候选图像确定为目标图像,对目标图像统计数量加上一,得到当前目标图像统计数量,将当前目标图像统计数量与预设数量进行比较,如果当前目标图像统计数量等于预设数量,则基于预设数量的目标图像,对初始语义分割模型进行训练,得到目标语义分割模型;如果当前目标图像统计数量小于预设数量,则将目标图像加入训练图像集合,得到更新后的多张训练图像,将目标图像从候选图像集合中移除,得到更新后的多张候选图像,重复执行上述步骤,至目标图像统计数量等于预设数量,得到预设数量的目标图。
计算机设备使用预设数量的目标图像对初始语义分割模型进行多次训练,得到目标语义分割模型。
上述模型训练方法,获取多张训练图像和多张候选图像,将已标注的训练图像输入至初始语义分割模型,得到第一预测矩阵,将未标注的候选图像输入至初始语义分割模型,得到第二预测矩阵,根据候选图像对应的第二预测矩阵,确定初始语义分割模型对候选图像的预测差异度,即确定初始语义分割模型对候选图像预测的准确程度,预测差异度越大,表征初始语义分割模型对候选图像预测的准确度越低,该候选图像对于初始语义分割模型的不确定性越强,基于候选图像对应的第二预测矩阵与训练图像对应的第一预测矩阵,确定候选图像与多张训练图像的特征相似度,特征相似度越低,表征候选图像与多张训练的差异性越大,基于各张候选图像的预测差异度和特征相似度,确定目标图像,可以理解为,选择出初始语义分割模型预测准确程度低,且与多张训练图像差异性大的目标图像,使用少量的目标图像对初始语义分割模型进行训练,即可达到使用所有的候选图像对初始语义分割模型进行训练的效果,从而提高了模型的训练效率。
应该理解的是,虽然如上述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种模型训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个模型训练装置实施例中的具体限定可以参见上文中对于模型训练方法的限定,在此不再赘述。
在一些实施例中,如图7所示,提供了一种模型训练装置,包括:
获取模块702,用于获取多张训练图像和多张候选图像;
输入模块704,用于将训练图像输入至初始语义分割模型,得到第一预测矩阵;将候选图像输入至初始语义分割模型,得到第二预测矩阵;
第一确定模块706,用于基于候选图像对应的第二预测矩阵,确定候选图像的预测差异度;
第二确定模块708,用于基于候选图像对应的第二预测矩阵与训练图像对应的第一预测矩阵,确定候选图像与多张训练图像的特征相似度;
选择模块710,用于基于各张候选图像的预测差异度和特征相似度,确定目标图像;
训练模块712,用于基于目标图像,对初始语义分割模型进行训练,得到目标语义分割模型。
在一些实施例中,在基于候选图像对应的第二预测矩阵,确定候选图像的预测差异度方面,第一确定模块706具体用于:
基于候选图像对应的第二预测矩阵,确定各个图像类别对应的平均概率;第二预测矩阵为三维矩阵,第二预测矩阵中的元素值表征候选图像中的像素点所对应的图像类别的概率;
从各个图像类别对应的平均概率中筛选出第一平均概率和第二平均概率;
将第一平均概率与第二平均概率之间的差异,确定为候选图像的预测差异度。
在一些实施例中,在基于候选图像对应的第二预测矩阵与训练图像对应的第一预测矩阵,确定候选图像与多张训练图像的特征相似度方面,第二确定模块708具体用于:
基于预测矩阵,对图像进行特征提取,得到图像对应的特征矩阵;预测矩阵包括训练图像对应的第一预测矩阵和候选图像对应的第二预测矩阵;当预测矩阵为第一预测矩阵时,得到训练图像对应的第一特征矩阵;当预测矩阵为第二预测矩阵时,得到候选图像对应的第二特征矩阵;
基于第二特征矩阵与第一特征矩阵,确定候选图像与训练图像之间的相似度;
将多个相似度中最小的相似度确定为候选图像与多张训练图像的特征相似度,多个相似度与多张训练图像一一对应。
在一些实施例中,在基于预测矩阵,对图像进行特征提取,得到图像对应的特征矩阵方面,第二确定模块708具体用于:
基于预测矩阵,确定图像对应的标签矩阵;
对预测矩阵进行降维转换,得到预测降维矩阵;对标签矩阵进行降维转换,得到标签降维矩阵;
对标签降维矩阵进行转置处理,得到标签转置矩阵;
对预测降维矩阵和标签转置矩阵进行融合处理,得到图像对应的特征矩阵。
在一些实施例中,在基于预测矩阵,确定图像对应的标签矩阵方面,第二确定模块708具体用于:
针对图像中的每个像素点,将最大概率对应的图像类别确定为像素点对应的目标类别,最大概率是像素点所对应的图像类别的概率中最大的;
将预测矩阵中,像素点对应的目标类别的概率设置为第一标识,其余的图像类别的概率设置为第二标识,得到图像对应的标签矩阵。
在一些实施例中,在基于各张候选图像的预测差异度和特征相似度,确定目标图像方面,选择模块710具体用于:
基于候选图像的预测差异度和特征相似度,确定候选图像的候选评估值;
将各张候选图像的候选评估值中最大的候选评估值对应的候选图像,确定为目标图像。
在一些实施例中,选择模块710还用于:
对目标图像统计数量进行更新,得到当前目标图像统计数量;
在当前目标图像统计数量小于预设数量的情况下,将目标图像作为训练图像,得到更新后的多张训练图像和多张候选图像;
重复执行基于更新后的多张训练图像和多张候选图像获得目标图像的步骤;直至当前目标图像统计数量等于预设数量,得到预设数量的目标图像;
基于目标图像,对初始语义分割模型进行训练,得到目标语义分割模型,包括:基于预设数量的目标图像,对初始语义分割模型进行训练,得到目标语义分割模型。
上述模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器,也可以以软件形式存储于计算机设备中的存储器,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元以及输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现上述的模型训练方法的步骤。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,还提供了一种计算机设备,该计算机设备包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机可读存储介质900,其上存储有计算机程序902,该计算机程序902被处理器执行时实现上述各方法实施例中的步骤,其内部结构图可以如图9所示。
在一些实施例中,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(FerroelectricRandom Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(StaticRandom Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
获取多张训练图像和多张候选图像;
将所述训练图像输入至初始语义分割模型,得到第一预测矩阵;将所述候选图像输入至所述初始语义分割模型,得到第二预测矩阵;
基于所述候选图像对应的第二预测矩阵,确定所述候选图像的预测差异度;
基于所述候选图像对应的第二预测矩阵与所述训练图像对应的第一预测矩阵,确定所述候选图像与多张所述训练图像的特征相似度;
基于各张所述候选图像的预测差异度和特征相似度,确定目标图像;
基于所述目标图像,对所述初始语义分割模型进行训练,得到目标语义分割模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述候选图像对应的第二预测矩阵,确定所述候选图像的预测差异度,包括:
基于所述候选图像对应的第二预测矩阵,确定各个图像类别对应的平均概率;所述第二预测矩阵为三维矩阵,所述第二预测矩阵中的元素值表征所述候选图像中的像素点所对应的图像类别的概率;
从各个所述图像类别对应的平均概率中筛选出第一平均概率和第二平均概率;
将所述第一平均概率与所述第二平均概率之间的差异,确定为所述候选图像的预测差异度。
3.根据权利要求1所述的方法,其特征在于,所述基于所述候选图像对应的第二预测矩阵与所述训练图像对应的第一预测矩阵,确定所述候选图像与多张所述训练图像的特征相似度,包括:
基于预测矩阵,对图像进行特征提取,得到所述图像对应的特征矩阵;所述预测矩阵包括所述训练图像对应的第一预测矩阵和所述候选图像对应的第二预测矩阵;当所述预测矩阵为所述第一预测矩阵时,得到所述训练图像对应的第一特征矩阵;当所述预测矩阵为所述第二预测矩阵时,得到所述候选图像对应的第二特征矩阵;
基于所述第二特征矩阵与所述第一特征矩阵,确定所述候选图像与所述训练图像之间的相似度;
将多个相似度中最小的相似度确定为所述候选图像与多张所述训练图像的特征相似度,多个所述相似度与多张所述训练图像一一对应。
4.根据权利要求3所述的方法,其特征在于,所述基于预测矩阵,对图像进行特征提取,得到所述图像对应的特征矩阵,包括:
基于预测矩阵,确定图像对应的标签矩阵;
对所述预测矩阵进行降维转换,得到预测降维矩阵;对所述标签矩阵进行降维转换,得到标签降维矩阵;
对所述标签降维矩阵进行转置处理,得到标签转置矩阵;
对所述预测降维矩阵和所述标签转置矩阵进行融合处理,得到所述图像对应的特征矩阵。
5.根据权利要求4所述的方法,其特征在于,所述基于预测矩阵,确定图像对应的标签矩阵,包括:
针对图像中的每个像素点,将最大概率对应的图像类别确定为所述像素点对应的目标类别,所述最大概率是所述像素点所对应的图像类别的概率中最大的;
将预测矩阵中,所述像素点对应的所述目标类别的概率设置为第一标识,其余的所述图像类别的概率设置为第二标识,得到所述图像对应的标签矩阵。
6.根据权利要求1所述的方法,其特征在于,所述基于各张所述候选图像的预测差异度和特征相似度,确定目标图像,包括:
基于所述候选图像的预测差异度和特征相似度,确定所述候选图像的候选评估值;
将各张所述候选图像的候选评估值中最大的候选评估值对应的候选图像,确定为目标图像。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对目标图像统计数量进行更新,得到当前目标图像统计数量;
在所述当前目标图像统计数量小于预设数量的情况下,将所述目标图像作为训练图像,得到更新后的多张训练图像和多张候选图像;
重复执行基于所述更新后的多张训练图像和多张候选图像获得目标图像的步骤;
直至当前目标图像统计数量等于所述预设数量,得到所述预设数量的目标图像;
基于所述目标图像,对所述初始语义分割模型进行训练,得到目标语义分割模型,包括:
基于所述预设数量的目标图像,对所述初始语义分割模型进行训练,得到目标语义分割模型。
8.一种模型训练装置,其特征在于,包括:
获取模块,用于获取多张训练图像和多张候选图像;
输入模块,用于将所述训练图像输入至初始语义分割模型,得到第一预测矩阵;将所述候选图像输入至所述初始语义分割模型,得到第二预测矩阵;
第一确定模块,用于基于所述候选图像对应的第二预测矩阵,确定所述候选图像的预测差异度;
第二确定模块,用于基于所述候选图像对应的第二预测矩阵与所述训练图像对应的第一预测矩阵,确定所述候选图像与多张所述训练图像的特征相似度;
选择模块,用于基于各张所述候选图像的预测差异度和特征相似度,确定目标图像;
训练模块,用于基于所述目标图像,对所述初始语义分割模型进行训练,得到目标语义分割模型。
9.一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202310813173.4A 2023-07-04 2023-07-04 模型训练方法、装置、计算机设备及计算机可读存储介质 Pending CN117152428A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310813173.4A CN117152428A (zh) 2023-07-04 2023-07-04 模型训练方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310813173.4A CN117152428A (zh) 2023-07-04 2023-07-04 模型训练方法、装置、计算机设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN117152428A true CN117152428A (zh) 2023-12-01

Family

ID=88885599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310813173.4A Pending CN117152428A (zh) 2023-07-04 2023-07-04 模型训练方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN117152428A (zh)

Similar Documents

Publication Publication Date Title
CN111192292A (zh) 基于注意力机制与孪生网络的目标跟踪方法及相关设备
CN111667001B (zh) 目标重识别方法、装置、计算机设备和存储介质
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN112883227B (zh) 一种基于多尺度时序特征的视频摘要生成方法和装置
US11983903B2 (en) Processing images using self-attention based neural networks
CN115272250B (zh) 确定病灶位置方法、装置、计算机设备和存储介质
CN116894974A (zh) 图像分类方法、装置、计算机设备及其存储介质
CN117332766A (zh) 流程图生成方法、装置、计算机设备和存储介质
CN116310308A (zh) 图像分割方法、装置、计算机设备和存储介质
CN113139490B (zh) 一种图像特征匹配方法、装置、计算机设备及存储介质
CN117152428A (zh) 模型训练方法、装置、计算机设备及计算机可读存储介质
CN116630629B (zh) 基于域适应的语义分割方法、装置、设备及存储介质
CN116612474B (zh) 对象检测方法、装置、计算机设备及计算机可读存储介质
CN115761239B (zh) 一种语义分割方法及相关装置
CN118230072B (zh) 基于二维分类模型的三维点云分类模型训练方法和介质
US12125247B2 (en) Processing images using self-attention based neural networks
CN117975473A (zh) 票据文本检测模型训练及检测方法、装置、设备和介质
CN116932761A (zh) 文本数据标注模型的构建方法、装置和计算机设备
CN116597293A (zh) 多模态场景识别方法、装置、计算机设备和存储介质
CN116012665A (zh) 图像处理模型训练方法、装置、计算机设备和存储介质
CN115658899A (zh) 文本分类方法、装置、计算机设备和存储介质
CN117197827A (zh) 票据信息识别方法、装置、计算机设备和存储介质
CN118053161A (zh) 卡面信息识别方法、装置、设备、存储介质和程序产品
CN118657151A (zh) 语义特征提取模型训练方法、装置、设备和存储介质
CN116881122A (zh) 测试案例生成方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination