CN116363444A - 模糊分类模型训练方法、识别模糊图像的方法及装置 - Google Patents

模糊分类模型训练方法、识别模糊图像的方法及装置 Download PDF

Info

Publication number
CN116363444A
CN116363444A CN202211605204.9A CN202211605204A CN116363444A CN 116363444 A CN116363444 A CN 116363444A CN 202211605204 A CN202211605204 A CN 202211605204A CN 116363444 A CN116363444 A CN 116363444A
Authority
CN
China
Prior art keywords
image
network
sample image
training
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211605204.9A
Other languages
English (en)
Inventor
崔程
郜廷权
魏胜禹
李晨霞
杜宇宁
刘毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211605204.9A priority Critical patent/CN116363444A/zh
Publication of CN116363444A publication Critical patent/CN116363444A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了模糊分类模型训练方法、识别模糊图像的方法及装置,涉及人工智能领域,尤其涉及计算机视觉领域。具体实现方案为:获取样本图像和样本图像的标签,其中样本图像的标签用于表示样本图像是否为模糊图像。然后利用预设神经网络中的骨干网络提取样本图像的图像特征,并利用预设神经网络中的分类头网络对图像特征进行识别,得到分类头网络对图像特征的识别结果,识别结果用于表示样本图像是否为模糊图像。然后基于识别结果和样本图像的标签,训练分类头网络,将骨干网络和训练完成的分类头网络作为训练完成的预设神经网络,基于训练完成的预设神经网络得到模糊分类模型。实现了减少模糊分类模型出现过拟合,提高识别模糊图像的准确度。

Description

模糊分类模型训练方法、识别模糊图像的方法及装置
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉技术领域。
背景技术
图像是否模糊对计算机视觉相关算法的精度起到决定性作用,间接影响了计算机视觉相关产品的使用体验。例如,相比于模糊的人脸图像,对清晰的人脸图像进行人脸识别,更容易识别出人脸。同样的,相比于模糊的物体图像,对清晰的物体图像进行目标识别,更容易定位目标的位置。
发明内容
本公开提供了一种模糊分类模型训练方法、识别模糊图像的方法及装置。
本公开实施例的第一方面,提供了一种模糊分类模型训练方法,包括:
获取样本图像和样本图像的标签,所述样本图像的标签用于表示样本图像是否为模糊图像;
利用预设神经网络中的骨干网络提取所述样本图像的图像特征;
利用所述预设神经网络中的分类头网络对所述图像特征进行识别,得到所述分类头网络对所述图像特征的识别结果,所述识别结果用于表示所述样本图像是否为模糊图像;
基于所述识别结果和所述样本图像的标签,训练所述分类头网络,将所述骨干网络和训练完成的分类头网络作为训练完成的预设神经网络,基于训练完成的预设神经网络得到模糊分类模型;所述模糊分类模型用于识别图像是否为模糊图像。
本公开实施例的第二方面,提供了一种识别模糊图像的方法,包括:
获取待识别图像;
利用模糊分类模型中的骨干网络提取所述待识别图像的图像特征;
利用所述模糊分类模型中的分类头网络,对所述图像特征进行识别,得到所述分类头网络对所述图像特征的识别结果,所述识别结果用于表示所述待识别图像是否为模糊图像;所述模糊分类模型为按照第一方面任一项所述的方法训练得到的模型。
本公开实施例的第三方面,提供了一种模糊分类模型训练装置,包括:
获取模块,用于获取样本图像和样本图像的标签,所述样本图像的标签用于表示样本图像是否为模糊图像;
特征提取模块,用于利用预设神经网络中的骨干网络提取所述获取模块获取的所述样本图像的图像特征;
识别模块,用于利用所述预设神经网络中的分类头网络对所述特征提取模块提取的所述图像特征进行识别,得到所述分类头网络对所述图像特征的识别结果,所述识别结果用于表示所述样本图像是否为模糊图像;
训练模块,用于基于所述识别模块的所述识别结果和所述获取模块获取的所述样本图像的标签,训练所述分类头网络,将所述骨干网络和训练完成的分类头网络作为训练完成的预设神经网络,基于训练完成的预设神经网络得到模糊分类模型;所述模糊分类模型用于识别图像是否为模糊图像。
本公开实施例的第四方面,提供了一种识别模糊图像的装置,包括:
获取模块,用于获取待识别图像;
特征提取模块,用于利用模糊分类模型中的骨干网络提取所述获取模块获取的所述待识别图像的图像特征;
识别模块,用于利用所述模糊分类模型中的分类头网络,对所述特征提取模块提取的所述图像特征进行识别,得到所述分类头网络对所述图像特征的识别结果,所述识别结果用于表示所述待识别图像是否为模糊图像;所述模糊分类模型为按照第一方面任一项所述的方法训练得到的模型。
本公开实施例的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面中任一项所述的方法。
本公开实施例的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面或第二方面中任一项所述的方法。
本公开实施例的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面或第二方面中任一项所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种模糊分类模型训练方法的流程图;
图2是本公开实施例提供的另一种模糊分类模型训练方法的流程图;
图3是本公开实施例提供的一种模糊分类模型训练过程的示例性示意图;
图4是本公开实施例提供的一种识别模糊图像的方法的流程图;
图5是本公开实施例提供的一种模糊分类模型训练装置的结构示意图;
图6是本公开实施例提供的一种识别模糊图像的装置的结构示意图;
图7是用来实现本公开实施例的模糊分类模型训练方法、识别模糊图像的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在工业界,常用的模糊图像识别方法是,使用二分类模型判定图像是否模糊。在训练二分类模型时,通常对训练好的模型直接进行微调,得到二分类模型。但由于识别图像是否模糊这一任务较为简单,直接微调的方式容易使得模型出现过拟合的情况,即模型对于训练时的图像的识别准确度较高,但对其他图像的识别准确度较低,因此不具备泛化性。
为了解决上述问题,本公开实施例还提供了一种模糊分类模型训练方法,该方法应用于电子设备,例如,电子设备可以是服务器、手机或者台式计算机等具备图像处理能力的设备。如图1所示,本公开实施例提供的模糊分类模型训练方法包括如下步骤:
S101、获取样本图像和样本图像的标签。
其中,样本图像的标签用于表示样本图像是否为模糊图像。
可选的,可以获取大量的且重复率低于阈值的多张样本图像,从而提高训练得到的模糊分类模型的泛化性。
S102、利用预设神经网络中的骨干网络提取样本图像的图像特征。
可选的,骨干网络可以是任意图像分类模型的特征提取网络,例如卷积神经网络(Convolutional Neural Networks,CNN)或者变形器(Transformer)模型等的骨干网络。骨干网络可以包括:卷积(convolution)层和池化(Pooling)层等。
S103、利用预设神经网络中的分类头网络对图像特征进行识别,得到分类头网络对图像特征的识别结果。其中,识别结果用于表示样本图像是否为模糊图像。
本公开实施例中,将样本图像输入骨干网络,利用骨干网络提取输入的样本图像的图像特征,并将骨干网络输出的图像特征输入分类头网络,利用分类头网络根据图像特征识别输入的样本图像是否为模糊图像,并得到分类头输出的该样本图像为模糊图像的概率。若输出的概率大于或等于阈值,则可以确定该样本图像为模糊图像,相反若输出的概率小于阈值,则可以确定该样本图像为清晰图像。
分类头网络可以包括:全连接(Fully connected)层和归一化(softmax)层。例如,分类头网络包括两层全连接层和一层归一化层,或者分类头网络包括三层全连接层和一层归一化层。本公开实施例对分类头网络的具体结构不做限定。
S104、基于识别结果和样本图像的标签,训练分类头网络,将骨干网络和训练完成的分类头网络作为训练完成的预设神经网络,基于训练完成的预设神经网络得到模糊分类模型。
在训练过程中,可以仅调整分类头网络的网络参数,并冻结骨干网络所有网络参数的梯度,即保持骨干网络的网络参数不变,从而达到仅训练分类头网络的效果。在分类头网络训练完成后,可以基于当前的预设神经网络得到模糊分类模型。
由于本公开实施例中,在训练模糊分类模型时,利用样本图像和样本图像的标签,仅训练模糊分类模型中的分类头网络,即训练过程不影响骨干网络。使得训练过程中骨干网络不会学习样本图像是否为模糊图像,因此减少了训练后得到的模糊分类模型出现过拟合的情况,因此保证了模糊分类模型的泛化能力,提高了使用模糊分类模型识别模糊图像的准确度。
在本公开实施例中,上述S101获取的样本图像中包括正样本图像和负样本图像,其中正样本图像为模糊图像,负样本图像为清晰图像。
上述S101获取样本图像和样本图像的标签的方式,可以实现为:将指定图像集中的图像作为负样本图像,为负样本图像设置第一标签,并对负样本图像进行模糊处理,将模糊处理结果作为正样本图像,为正样本图像设置第二标签。其中,第一标签用于表示样本图像为清晰图像,第二标签用于表示样本图像为模糊图像。
指定图像集可以是图像数量较大的公开图像集。指定图像集可以仅包含清晰图像,或者指定图像集可以包括大量的清晰图像以及少量的模糊图像,由于模糊图像在指定图像集中所占比例较小,对模型训练精度影响较小,因此本公开实施例将指定图像集中的所有图像均看作清晰图像。
可选的,在将指定图像集中的图像作为负样本图像之前,还可以对指定图像集中的图像进行图像预处理,例如图像预处理包括:尺寸调整(resize)、滤波和去噪等,将图像预处理后的图像作为负样本图像,并设置负样本图像的第一标签为0。
其中,可以对负样本图像进行高斯模糊或运动模糊等模糊处理,将模糊处理结果作为正样本图像,并设置正样本图像的第二标签为1。
可选的,在生成正样本图像时,可以基于预设的正样本图像与负样本图像的数量比例。例如,预设的正样本图像和负样本图像的数量比例为1:1时,可以分别对每个负样本图像进行一次模糊处理,得到一个正样本图像。或者,预设的正样本图像和负样本图像的数量比例为2:1时,可以分别对每个负样本图像进行一次高斯模糊,得到一个正样本图像;并分别对每个负样本图像进行一次运动模糊,得到一个正样本图像。
本公开实施例使用高斯模糊或运动模糊对负样本图像进行模糊处理,由于高斯模糊和运动模糊属于现实视觉中最常见的模糊方式,因此通过这种模糊处理得到的模糊图像,更贴近真实场景中的模糊图像,因此用这种模糊图像训练得到的模糊分类模型在实际应用中的识别准确度更高。
而且,本公开实施例直接将指定图像集中的图像作为负样本图像,并对负样本图像进行模糊处理得到正样本图像,使得样本图像无需人工标注,减少了训练模糊分类模型的人工成本,提高了训练效率。
另外,在学术界,具有专门的图像质量评估(Image Quality Assessment,IQA)研究方向,在评估图像是否模糊时,一般采用指定的算法模型对图像的模糊程度进行打分。训练模型时,训练方向是希望模型对图像的预测分数与人工对图像的打分更接近。但是由于训练时基于的图像集数据量一般较小,使得模型容易出现过拟合的情况,因而不具备泛化性。
而本公开实施例由于不需要对样本图像进行人工标注,因此可以获取大量的样本图像,并使用大量的样本图像进行模型训练,因此减少了训练得到的模糊分类模型出现过拟合的情况,提高了模糊分类模型的泛化性。
本公开实施例中,上述S104基于预设神经网络的识别结果和样本图像的标签,训练分类头网络的过程,包括如下步骤:
步骤一、基于识别结果和样本图像的标签,计算损失值。
在一轮训练的迭代过程中,可以选择一批样本图像输入骨干网络,并将骨干网络提取的图像特征输入分类头网络,得到分类头网络输出的这一批样本图像为模糊图像的概率。将这批样本图像为模糊图像的概率和这批样本图像的标签,带入预设的损失函数,并计算出损失值。例如,预设的损失函数为交叉熵损失函数、负对数似然损失函数或者指数损失函数等。
步骤二、判断分类头网络是否收敛。
可选的,可以判断当前迭代次数是否达到指定次数,若达到指定次数,则确定分类头网络收敛,若未达到预设次数,则确定分类头网络未收敛。
或者,可以判断本次迭代计算的损失值与上一次迭代计算的损失值之间的差值,是否小于预设差值;若小于则确定分类头网络收敛,若大于或等于则确定分类头网络未收敛。
或者,还可以通过其他方式判断分类头网络是否收敛,本公开实施例对此不作具体限定。
步骤三、若分类头网络未收敛,则基于损失值调整分类头网络的网络参数,并返回S102利用预设神经网络中的骨干网络提取样本图像的图像特征的步骤;即返回S102以进入下一轮迭代,从而继续利用S102-S104的方式训练分类头网络。
可选的,可以基于反向传播的方式,利用梯度下降方法,基于本次迭代计算的损失值调整分类头网络的网络参数。之后进入下一轮迭代,从而利用预设神经网络,识别下一批样本图像是否为模糊图像,直至分类头网络收敛。
其中,在训练过程中,保持预设神经网络的骨干网络的网络参数不变。且预设神经网络的骨干网络可以预先经过训练得到。
步骤四、若分类头网络收敛,则确定分类头网络训练完成。
本公开实施例中,利用样本图像的识别结果与样本图像的标签,对预设神经网络的分类头网络进行训练,使得分类头网络的识别结果越来越接近样本图像的标签,提高分类头网络的识别精度。而且在训练过程中,保持骨干网络的网络参数不变,使得骨干网络在训练过程中,不学习样本图像是否为模糊图像,从而减少了训练得到的模糊分类模型出现过拟合的可能,保障模糊分类模型的泛化能力。
本公开实施例中,上述S104得到模糊分类模型的方式,可以为将训练完成的预设神经网络,作为模糊分类模型。
或者,本公开实施例中,由于指定图像集中可能存在少量的模糊图像,但本公开实施例将指定图像集中的图像均看作清晰图像,使得利用指定图像集进行模型训练时,指定图像集中的模糊图像可能影响模型训练的精度。
为了提高模型训练精度,在上述S104对分类头网络训练完成之后,在基于训练完成的预设神经网络得到模糊分类模型之前,电子设备还可以对指定图像集进行提纯,即减少指定图像集中的模糊图像,具体包括如下步骤:
步骤1、确定训练完成的预设神经网络的识别准确度是否满足预设条件。
预设条件可以包括训练完成的预设神经网络的识别准确度增益小于预设的增益阈值。预设条件还可以包括其他条件,本公开实施例对此不作具体限定。例如,预设条件还可以包括训练完成的预设神经网络的识别准确度大于预设准确度阈值。
其中,本次训练完成的预设神经网络的识别准确度增益,可以为:本次训练最后一轮迭代时计算的损失值,与上次训练最后一轮迭代时计算的损失值之间的差值。或者,可以通过其他方式计算识别准确度增益,本公开实施例对此不作具体限定。
步骤2、若训练完成的预设神经网络的识别准确度不满足预设条件,则利用训练完成的预设神经网络,分别识别指定图像集中的各图像是否为模糊图像,并从指定图像集中删除模糊图像,返回上述S101中将指定图像集中的图像作为负样本图像的步骤。从而继续通过S101的方式,从当前提纯后的指定图像集中获取样本图像和样本图像的标签,并进一步使用当前的样本图像和样本图像的标签,再次训练预设神经网络中的分类头网络。
若训练完成的预设神经网络的识别准确度不满足预设条件,说明预设神经网络的识别准确度还不够高,还能够进一步优化。因此剔除指定图像集中被预设神经网络识别出的模糊图像,相当于对指定图像集进行提纯,从而实现了减少指定图像集中的模糊图像,以便后续再利用指定图像集得到的正样本图像和负样本图像更准确,并进一步使得利用正负样本图像训练得到的预设识别模型的识别准确度更高。
步骤3、若训练完成的预设神经网络的识别准确度满足预设条件,则执行上述S104中基于训练完成的预设神经网络得到模糊分类模型的步骤。
若训练完成的预设神经网络的识别准确度满足预设条件,说明预设神经网络的识别准确度足够高,进一步优化空间较小,因此可以不继续对预设神经网络进行训练。
通过上述方法,本公开实施例可以对指定图像集进行不断提纯,从而减少指定图像集中的模糊图像,降低了模糊图像被认定为负样本对于模糊分类模型训练精度的影响,从而提高了模糊分类模型的识别准确度。
在本公开实施例中,在训练完成的预设神经网络的识别准确度满足预设条件时,执行S104时可以直接将当前的预设神经网络,作为模糊分类模型。
或者,为了减少实际应用过程中对于模糊图像识别的计算量,参见图2,上述S104得到模糊分类模型的方式可以包括以下步骤:
S201、将训练完成的预设神经网络中的骨干网络,替换为轻量级骨干网络。
其中,轻量级骨干网络可以是各种轻量级网络的骨干网络,因此轻量级骨干网络用于提取输入图像的图像特征。例如,轻量级骨干网络可以是:基于中央处理器(centralprocessing unit,CPU)加速策略的轻量级卷积神经网络(PP-LCNet)、压缩网络(SqueezeNet)或者移动网络(MobileNet)等模型的骨干网络。
S202、基于当前的指定图像集,训练替换完成的预设神经网络中的分类头网络,并在训练完成时,将当前的预设神经网络,作为模糊分类模型。
其中,基于当前的指定图像集,训练替换后的预设神经网络的分类头网络的过程,与上述训练替换前的预设神经网络的分类头网络的过程相同,可以参考上述描述,此处不再赘述。
当前的指定图像集可以是通过步骤1-步骤3的方式提纯后的指定图像集;或者,当指定图像集包括的模糊图像数量少于预设数量,或者指定图像集仅包括清晰图像的情况下,可以不通过上述方式提纯指定图像集,并直接使用指定图像集训练替换后的预设神经网络的分类头网络。
通过上述方法,本公开实施例可以将模糊分类模型的骨干网络设置为轻量级骨干网,从而减少使用模糊分类模型进行图像模糊识别的计算量,提高了计算速度。例如使用基于PP-LCNet的模糊分类模型,在CPU上识别图像是否为模糊图像仅需要2毫秒。
而且,由于模糊分类模型的计算量小,因此降低了对模糊分类模型被部署的设备的算力要求,使得可以将模糊分类模型部署在计算能力较低的电子设备中,如手机或者平板电脑等,从而扩大了模糊图像识别的应用场景。
参见图3,以下结合实际应用场景,对本公开实施例提供的模糊分类模型训练方法的整体流程进行说明:
训练过程主要分为两个步骤,第一步为不断提纯图像,即在训练预设神经网络的过程中,不断剔除指定图像集中的模糊图像。第二步为迭代模型,即训练包含轻量级骨干网络和分类头网络的预设分类模型。其中,第一步为图3上方的虚线框中的流程,第二步为图3下方的虚线框中的流程。其中,图3上方虚线框中的金字塔表示骨干网络,包括两个圆形的矩形表示分类头网络。图3下方虚线框中的金字塔表示轻量级骨干网络,包括两个圆形的矩形表示分类头网络。
第一步中,对指定图像集中的图像进行预处理,得到负样本图像,并设置负样本图像的标签为0。并对负样本图像进行随机模糊,即随机对负样本图像使用高斯模糊或者运动模糊,得到正样本图像,并设置正样本图像的标签为1,将正样本图像和负样本图像均作为训练样本。将训练样本输入预设神经网络的骨干网络,利用骨干网络提取图像特征,并将提取的图像特征输入预设神经网络的分类头网络,得到分类头网络输出的图像为模糊图像的概率。
之后,基于分类头网络输出的图像为模糊图像的概率和输入预设神经网络的样本图像的标签,计算损失值;然后采用反向传播的方式,按照梯度下降的方法基于损失值调整分类头网络的网络参数,并继续使用样本图像训练分类头网络,直至分类头网络收敛,得到收敛后的预设神经网络。
再利用收敛后的预设神经网络预测指定图像集中的模糊图像,并删除指定图像集中的模糊图像,得到提纯后的指定图像集。重新使用提纯后的指定图像集得到训练样本,并再次使用训练样本训练预设神经网络的分类头网络,直至训练得到的预设神经网络的识别准确度增益小于预设增益阈值。
第二步中,将当前的预设神经网络中的骨干网络,替换为轻量级骨干网络,并利用提纯后的指定图像集得到训练样本,使用训练样本训练替换后的预设神经网络中的分类头网络,并在训练完成时,将当前的预设神经网络,作为模糊分类模型。
基于相同的发明构思,本公开实施例还提供了一种识别模糊图像的方法,该方法应用于电子设备,例如,电子设备可以是手机、台式计算机、笔记本电脑或者服务器等具备图像处理能力的设备。识别模糊图像的方法应用的电子设备,与上述模糊分类模型训练方法应用的电子设备可以是相同的设备,或者是不同的设备。
如图4所示,识别模糊图像的方法包括如下步骤:
S401、获取待识别图像。
S402、利用模糊分类模型中的骨干网络提取待识别图像的图像特征。
可选的,骨干网络可以是各种图像分类模型的特征提取网络,例如CNN或者Transformer模型等的骨干网络。骨干网络可以包括:卷积层和池化层等。
S403、利用模糊分类模型中的分类头网络,对图像特征进行识别,得到分类头网络对图像特征的识别结果。
其中,识别结果用于表示待识别图像是否为模糊图像;模糊分类模型为按照上述模糊分类模型训练方法训练得到的模型。
分类头网络可以包括:全连接层和归一化层。例如,分类头网络包括两层全连接层和一层归一化层,或者分类头网络包括三层全连接层和一层归一化层。本公开实施例对分类头网络的具体结构不做限定。
由于本公开实施例中,在训练模糊分类模型时,利用样本图像和样本图像的标签,仅训练模糊分类模型中的分类头网络,即训练过程不影响骨干网络。使得训练过程中骨干网络不会学习样本图像是否为模糊图像,因此减少了训练后得到的模糊分类模型出现过拟合的情况,因此保证了模糊分类模型的泛化能力,提高了模糊分类模型识别待识别图像是否为模糊图像的准确度。
而且,本公开实施例可以应用于各种计算机视觉相关任务,用于清洗或过滤模糊图像,从而提高任务处理精度,提高用户体验。
基于相同的发明构思,对应于上述方法实施例,本公开实施例还提供了一种模糊分类模型训练装置,如图5所示,该装置包括:获取模块501、特征提取模块502、识别模块503和训练模块504;
获取模块501,用于获取样本图像和样本图像的标签,样本图像的标签用于表示样本图像是否为模糊图像;
特征提取模块502,用于利用预设神经网络中的骨干网络提取获取模块501获取的样本图像的图像特征;
识别模块503,用于利用预设神经网络中的分类头网络对特征提取模块502提取的图像特征进行识别,得到分类头网络对图像特征的识别结果,识别结果用于表示样本图像是否为模糊图像;
训练模块504,用于基于识别模块503的识别结果和获取模块501获取的样本图像的标签,训练分类头网络,将骨干网络和训练完成的分类头网络作为训练完成的预设神经网络,基于训练完成的预设神经网络得到模糊分类模型;模糊分类模型用于识别图像是否为模糊图像。
在本公开的一些实施例中,其中,样本图像包括正样本图像和负样本图像;获取模块501,具体用于:
将指定图像集中的图像作为负样本图像,为负样本图像设置第一标签,第一标签用于表示样本图像为清晰图像;
对负样本图像进行模糊处理,将模糊处理结果作为正样本图像,为正样本图像设置第二标签,第二标签用于表示样本图像为模糊图像。
在本公开的一些实施例中,该装置还可以包括:
确定模块,用于在基于训练完成的预设神经网络得到模糊分类模型之前,确定训练完成的预设神经网络的识别准确度是否满足预设条件;
提纯模块,用于若确定模块确定的训练完成的预设神经网络的识别准确度不满足预设条件,则利用训练完成的预设神经网络,分别识别指定图像集中的各图像是否为模糊图像,并从指定图像集中删除模糊图像,返回将指定图像集中的图像作为负样本图像的步骤;
返回模块,用于若确定模块确定的训练完成的预设神经网络的识别准确度满足预设条件,则触发训练模块504执行基于训练完成的预设神经网络得到模糊分类模型的步骤。
在本公开的一些实施例中,其中,训练模块504,具体用于:
将训练完成的预设神经网络中的骨干网络,替换为轻量级骨干网络;
基于当前的指定图像集,训练替换完成的预设神经网络中的分类头网络,并在训练完成时,将当前的预设神经网络,作为模糊分类模型。
在本公开的一些实施例中,其中,训练模块504,具体用于:
基于识别结果和样本图像的标签,计算损失值;
若分类头网络未收敛,则基于损失值调整分类头网络的网络参数,并调用利用预设神经网络中的骨干网络提取样本图像的图像特征的步骤;
若分类头网络收敛,则确定分类头网络训练完成。
基于相同的发明构思,对应于上述方法实施例,本公开实施例还提供了一种识别模糊图像的装置,如图6,包括:获取模块601、特征提取模块602和识别模块603;
获取模块601,用于获取待识别图像;
特征提取模块602,用于利用模糊分类模型中的骨干网络提取获取模块601获取的待识别图像的图像特征;
识别模块603,用于利用模糊分类模型中的分类头网络,对特征提取模块602提取的图像特征进行识别,得到分类头网络对图像特征的识别结果,识别结果用于表示待识别图像是否为模糊图像;模糊分类模型为上述模糊分类模型训练方法训练得到的模型。
本公开的技术方案中,所涉及的图像信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
电子设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如模糊分类模型训练方法、识别模糊图像的方法。例如,在一些实施例中,模糊分类模型训练方法、识别模糊图像的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的模糊分类模型训练方法、识别模糊图像的方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行模糊分类模型训练方法、识别模糊图像的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (15)

1.一种模糊分类模型训练方法,包括:
获取样本图像和样本图像的标签,所述样本图像的标签用于表示样本图像是否为模糊图像;
利用预设神经网络中的骨干网络提取所述样本图像的图像特征;
利用所述预设神经网络中的分类头网络对所述图像特征进行识别,得到所述分类头网络对所述图像特征的识别结果,所述识别结果用于表示所述样本图像是否为模糊图像;
基于所述识别结果和所述样本图像的标签,训练所述分类头网络,将所述骨干网络和训练完成的分类头网络作为训练完成的预设神经网络,基于训练完成的预设神经网络得到模糊分类模型;所述模糊分类模型用于识别图像是否为模糊图像。
2.根据权利要求1所述的方法,其中,所述样本图像包括正样本图像和负样本图像;所述获取样本图像和样本图像的标签,包括:
将指定图像集中的图像作为负样本图像,为所述负样本图像设置第一标签,所述第一标签用于表示样本图像为清晰图像;
对所述负样本图像进行模糊处理,将模糊处理结果作为正样本图像,为所述正样本图像设置第二标签,所述第二标签用于表示样本图像为模糊图像。
3.根据权利要求2所述的方法,在所述基于训练完成的预设神经网络得到模糊分类模型之前,所述方法还包括:
确定训练完成的预设神经网络的识别准确度是否满足预设条件;
若训练完成的预设神经网络的识别准确度不满足所述预设条件,则利用训练完成的预设神经网络,分别识别所述指定图像集中的各图像是否为模糊图像,并从所述指定图像集中删除模糊图像,返回所述将指定图像集中的图像作为负样本图像的步骤;
若训练完成的预设神经网络的识别准确度满足所述预设条件,则执行所述基于训练完成的预设神经网络得到模糊分类模型的步骤。
4.根据权利要求1-3任一项所述的方法,其中,所述基于训练完成的预设神经网络得到模糊分类模型,包括:
将训练完成的预设神经网络中的骨干网络,替换为轻量级骨干网络;
基于当前的指定图像集,训练替换完成的预设神经网络中的分类头网络,并在训练完成时,将当前的预设神经网络,作为所述模糊分类模型。
5.根据权利要求1-3任一项所述的方法,其中,所述基于所述识别结果和所述样本图像的标签,训练所述分类头网络,包括:
基于所述识别结果和所述样本图像的标签,计算损失值;
若所述分类头网络未收敛,则基于所述损失值调整所述分类头网络的网络参数,并返回所述利用预设神经网络中的骨干网络提取所述样本图像的图像特征的步骤;
若所述分类头网络收敛,则确定所述分类头网络训练完成。
6.一种识别模糊图像的方法,包括:
获取待识别图像;
利用模糊分类模型中的骨干网络提取所述待识别图像的图像特征;
利用所述模糊分类模型中的分类头网络,对所述图像特征进行识别,得到所述分类头网络对所述图像特征的识别结果,所述识别结果用于表示所述待识别图像是否为模糊图像;所述模糊分类模型为按照权利要求1-5任一项所述的方法训练得到的模型。
7.一种模糊分类模型训练装置,包括:
获取模块,用于获取样本图像和样本图像的标签,所述样本图像的标签用于表示样本图像是否为模糊图像;
特征提取模块,用于利用预设神经网络中的骨干网络提取所述获取模块获取的所述样本图像的图像特征;
识别模块,用于利用所述预设神经网络中的分类头网络对所述特征提取模块提取的所述图像特征进行识别,得到所述分类头网络对所述图像特征的识别结果,所述识别结果用于表示所述样本图像是否为模糊图像;
训练模块,用于基于所述识别模块的所述识别结果和所述获取模块获取的所述样本图像的标签,训练所述分类头网络,将所述骨干网络和训练完成的分类头网络作为训练完成的预设神经网络,基于训练完成的预设神经网络得到模糊分类模型;所述模糊分类模型用于识别图像是否为模糊图像。
8.根据权利要求7所述的装置,其中,所述样本图像包括正样本图像和负样本图像;所述获取模块,具体用于:
将指定图像集中的图像作为负样本图像,为所述负样本图像设置第一标签,所述第一标签用于表示样本图像为清晰图像;
对所述负样本图像进行模糊处理,将模糊处理结果作为正样本图像,为所述正样本图像设置第二标签,所述第二标签用于表示样本图像为模糊图像。
9.根据权利要求8所述的装置,所述装置还包括:
确定模块,用于在所述基于训练完成的预设神经网络得到模糊分类模型之前,确定训练完成的预设神经网络的识别准确度是否满足预设条件;
提纯模块,用于若所述确定模块确定的训练完成的预设神经网络的识别准确度不满足所述预设条件,则利用训练完成的预设神经网络,分别识别所述指定图像集中的各图像是否为模糊图像,并从所述指定图像集中删除模糊图像,返回所述将指定图像集中的图像作为负样本图像的步骤;
返回模块,用于若所述确定模块确定的训练完成的预设神经网络的识别准确度满足所述预设条件,则触发所述训练模块执行所述基于训练完成的预设神经网络得到模糊分类模型的步骤。
10.根据权利要求7-9任一项所述的装置,其中,所述训练模块,具体用于:
将训练完成的预设神经网络中的骨干网络,替换为轻量级骨干网络;
基于当前的指定图像集,训练替换完成的预设神经网络中的分类头网络,并在训练完成时,将当前的预设神经网络,作为所述模糊分类模型。
11.根据权利要求7-9任一项所述的装置,其中,所述训练模块,具体用于:
基于所述识别结果和所述样本图像的标签,计算损失值;
若所述分类头网络未收敛,则基于所述损失值调整所述分类头网络的网络参数,并调用所述利用预设神经网络中的骨干网络提取所述样本图像的图像特征的步骤;
若所述分类头网络收敛,则确定所述分类头网络训练完成。
12.一种识别模糊图像的装置,包括:
获取模块,用于获取待识别图像;
特征提取模块,用于利用模糊分类模型中的骨干网络提取所述获取模块获取的所述待识别图像的图像特征;
识别模块,用于利用所述模糊分类模型中的分类头网络,对所述特征提取模块提取的所述图像特征进行识别,得到所述分类头网络对所述图像特征的识别结果,所述识别结果用于表示所述待识别图像是否为模糊图像;所述模糊分类模型为按照权利要求1-5任一项所述的方法训练得到的模型。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5或6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5或6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5或6中任一项所述的方法。
CN202211605204.9A 2022-12-14 2022-12-14 模糊分类模型训练方法、识别模糊图像的方法及装置 Pending CN116363444A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211605204.9A CN116363444A (zh) 2022-12-14 2022-12-14 模糊分类模型训练方法、识别模糊图像的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211605204.9A CN116363444A (zh) 2022-12-14 2022-12-14 模糊分类模型训练方法、识别模糊图像的方法及装置

Publications (1)

Publication Number Publication Date
CN116363444A true CN116363444A (zh) 2023-06-30

Family

ID=86925847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211605204.9A Pending CN116363444A (zh) 2022-12-14 2022-12-14 模糊分类模型训练方法、识别模糊图像的方法及装置

Country Status (1)

Country Link
CN (1) CN116363444A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669310A (zh) * 2021-01-07 2021-04-16 江西中科九峰智慧医疗科技有限公司 一种基于数据模拟和深度学习的胸片模糊问题分类系统,方法及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669310A (zh) * 2021-01-07 2021-04-16 江西中科九峰智慧医疗科技有限公司 一种基于数据模拟和深度学习的胸片模糊问题分类系统,方法及存储介质

Similar Documents

Publication Publication Date Title
CN112861885B (zh) 图像识别方法、装置、电子设备及存储介质
CN113705628B (zh) 预训练模型的确定方法、装置、电子设备以及存储介质
CN112949767A (zh) 样本图像增量、图像检测模型训练及图像检测方法
CN115456167B (zh) 轻量级模型训练方法、图像处理方法、装置及电子设备
CN114118287A (zh) 样本生成方法、装置、电子设备以及存储介质
CN112966744A (zh) 模型训练方法、图像处理方法、装置和电子设备
CN115358392A (zh) 深度学习网络的训练方法、文本检测方法及装置
CN113205041A (zh) 结构化信息提取方法、装置、设备和存储介质
CN116740355A (zh) 自动驾驶图像的分割方法、装置、设备及存储介质
CN116363444A (zh) 模糊分类模型训练方法、识别模糊图像的方法及装置
CN114494814A (zh) 基于注意力的模型训练方法、装置及电子设备
CN114186681A (zh) 用于生成模型簇的方法、装置及计算机程序产品
CN115457329B (zh) 图像分类模型的训练方法、图像分类方法和装置
CN114724144B (zh) 文本识别方法、模型的训练方法、装置、设备及介质
CN113361621B (zh) 用于训练模型的方法和装置
CN116012859A (zh) 基于清晰度指标的文本图像拒识判断方法、装置及设备
CN114119972A (zh) 模型获取及对象处理方法、装置、电子设备及存储介质
CN113361575A (zh) 模型训练方法、装置和电子设备
CN113379750A (zh) 语义分割模型的半监督学习方法、相关装置及产品
CN112560987A (zh) 图像样本处理方法、装置、设备、存储介质和程序产品
CN114494818B (zh) 图像处理方法、模型训练方法、相关装置及电子设备
CN112633276B (zh) 训练方法、识别方法、装置、设备、介质
CN117746069B (zh) 以图搜图的模型训练方法、和以图搜图方法
CN116416500B (zh) 图像识别模型训练方法、图像识别方法、装置及电子设备
CN117275030B (zh) 审核地图的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication