CN116468985B - 模型训练方法、质量检测方法、装置、电子设备及介质 - Google Patents

模型训练方法、质量检测方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN116468985B
CN116468985B CN202310286506.2A CN202310286506A CN116468985B CN 116468985 B CN116468985 B CN 116468985B CN 202310286506 A CN202310286506 A CN 202310286506A CN 116468985 B CN116468985 B CN 116468985B
Authority
CN
China
Prior art keywords
image
quality
low
model
unsupervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310286506.2A
Other languages
English (en)
Other versions
CN116468985A (zh
Inventor
郭惠珂
崔东林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310286506.2A priority Critical patent/CN116468985B/zh
Publication of CN116468985A publication Critical patent/CN116468985A/zh
Application granted granted Critical
Publication of CN116468985B publication Critical patent/CN116468985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,具体涉及一种模型训练方法、质量检测方法、装置、电子设备及介质。具体实现方案为:获取有监督样本图像,有监督样本图像具有对应的低质量区域标记;将有监督样本图像输入目标编码器,获得目标编码器输出的样本图像特征,目标编码器通过无监督训练获得;利用样本图像特征和低质量区域标记对初始检测模型进行有监督训练,获得经过训练的初始检测模型;在经过训练的初始检测模型满足检测模型收敛条件的情况下,获得质量检测模型,质量检测模型为经过训练的初始检测模型。采用本公开可以提高质量检测模型的训练效率,同时,提高质量检测模型的检测效果。

Description

模型训练方法、质量检测方法、装置、电子设备及介质
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉技术领域,具体涉及一种模型训练方法、质量检测方法、装置、电子设备及介质。
背景技术
目前,视频、图像等数据资源的质量检测模型通常仅通过有监督训练获得。然而,有监督训练往往需要人工对海量样本图像进行标注,这不仅会降低质量检测模型的训练效率,还会降低质量检测模型的检测效果。
发明内容
本公开提供了一种模型训练方法、质量检测方法、装置、电子设备及介质。
根据本公开的一方面,提供了一种模型训练方法,包括:
获取有监督样本图像,有监督样本图像具有对应的低质量区域标记;
将有监督样本图像输入目标编码器,获得目标编码器输出的样本图像特征,目标编码器通过无监督训练获得;
利用样本图像特征和低质量区域标记对初始检测模型进行有监督训练,获得经过训练的初始检测模型;
在经过训练的初始检测模型满足检测模型收敛条件的情况下,获得质量检测模型,质量检测模型为经过训练的初始检测模型。
根据本公开的第二方面,提供了一种质量检测方法,包括:
获取待检测图像;
将待检测图像输入目标编码器,获得目标编码器输出的检测图像特征,目标编码器通过无监督训练获得;
将检测图像特征输入质量检测模型,获得质量检测模型输出的低质量区域预测结果,质量检测模型通过第一方面所提供的方法训练获得;
基于低质量区域预测结果,获得待检测图像的质量检测结果。
根据本公开的第三方面,提供了一种模型训练装置,包括:
样本图像获取单元,用于获取有监督样本图像,有监督样本图像具有对应的低质量区域标记;
样本图像特征获取单元,将有监督样本图像输入目标编码器,获得目标编码器输出的样本图像特征,目标编码器通过无监督训练获得;
检测模型训练单元,用于利用样本图像特征和低质量区域标记对初始检测模型进行有监督训练,获得经过训练的初始检测模型;
检测模型获取单元,用于在经过训练的初始检测模型满足检测模型收敛条件的情况下,获得质量检测模型,质量检测模型为经过训练的初始检测模型。
根据本公开的第四方面,提供了一种质量检测装置,包括:
检测图像获取单元,用于获取待检测图像;
检测图像特征获取单元,用于将待检测图像输入目标编码器,获得目标编码器输出的检测图像特征,目标编码器通过无监督训练获得;
预测结果获取单元,用于将检测图像特征输入质量检测模型,获得质量检测模型输出的低质量区域预测结果,质量检测模型通过第一方面所提供的方法训练获得;
检测结果获取单元,用于基于低质量区域预测结果,获得待检测图像的质量检测结果。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;
与至少一个处理器通信连接的存储器;
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面所提供的方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行第一方面所提供的方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现第一方面所提供的方法。
采用本公开可以提高质量检测模型的训练效率,同时,提高质量检测模型的检测效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的一种模型训练方法的流程示意图;
图2为本公开实施例提供的一种质量检测模型的训练流程说明图;
图3为本公开实施例提供的一种图像处理模型的训练流程说明图;
图4为本公开实施例提供的一种模型训练方法的完整性流程说明图;
图5为本公开实施例提供的一种模型训练方法的场景示意图;
图6为本公开实施例提供的一种质量检测方法的流程示意图;
图7为本公开实施例提供的一种质量检测方法的完整性流程示意图;
图8为本公开实施例提供的一种质量检测方法的场景示意图;
图9为本公开实施例提供的一种模型训练装置的示意性结构框图;
图10为本公开实施例提供的一种质量检测装置的示意性结构框图;
图11为本公开实施例提供的一种电子设备的示意性结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如背景技术所述的,目前,视频、图像等数据资源的质量检测模型通常仅通过有监督训练获得。然而,有监督训练往往需要人工对海量样本图像进行标注。一方面,由于人工标注会耗费大量时间,因此,会降低质量检测模型的训练效率;另一方面,由于人工标注的出错率较高,因此,在样本图像基数较大的情况下,错误标注的数量也会增加,从而降低质量检测模型的检测效果。
基于以上背景,本公开实施例提供了一种模型训练方法,该模型训练方法可以应用于电子设备。以下,将结合图1所示流程示意图,对本公开实施例提供的一种模型训练方法进行说明。需要说明的是,虽然在流程示意图中示出了逻辑顺序,但是,在某些情况下,也可以以其他顺序执行所示出或描述的步骤。
步骤S101,获取有监督样本图像,有监督样本图像具有对应的低质量区域标记;
步骤S102,将有监督样本图像输入目标编码器,获得目标编码器输出的样本图像特征,目标编码器通过无监督训练获得;
步骤S103,利用样本图像特征和低质量区域标记对初始检测模型进行有监督训练,获得经过训练的初始检测模型;
步骤S104,在经过训练的初始检测模型满足检测模型收敛条件的情况下,获得质量检测模型,质量检测模型为经过训练的初始检测模型。
其中,有监督样本图像可以从网络获取,也可以在从网络获取到视频样本之后,按照预设抽取间隔,从视频样本中抽取。其中,预设抽取间隔可以根据实际应用需求设定,本公开实施例对此不作限制。在获取到有监督样本图像之后,可以通过人工标注等方式,使用标注矩形框对有监督样本图像中的马赛克、水印、二维码等标志信息进行标注,再返回标注矩形框的坐标位置,以及标注矩形框中标志信息的类别。基于此,可以理解的是,本公开实施例中,低质量区域标记包括标注矩形框的坐标位置,以及标注矩形框中标志信息的类别。其中,坐标位置可以包括标注矩形框的中心点在图像坐标系中的X轴坐标值、Y轴坐标值,以及标注矩形框的长度和宽度。此外,本公开实施例中,在执行步骤S101之前,也可以获取上千张有监督样本图像(例如,3000张,)组成有监督训练样本集,再从有监督训练样本集中选取一张有监督样本图像,基于该张有监督样本图像,执行步骤S102和步骤S103,并以此循环,以实现对初始检测模型的迭代训练。
本公开实施例中,目标编码器可以通过无监督训练获得。例如,可以是经过训练的深度自注意力变换网络(Transformer)中包括的编码器。在获取到有监督样本图像之后,可以将有监督样本图像输入目标编码器,通过目标编码器对有监督样本图像进行特征提取,获得样本图像特征,再将样本图像特征输出。
本公开实施例中,在获得样本图像特征之后,可以利用样本图像特征和低质量区域标记对初始检测模型进行有监督训练,获得经过训练的初始检测模型。例如,可以将样本图像特征输入初始检测模型,获得初始检测模型输出的低质量区域预测结果,再根据低质量区域预测结果和低质量区域标记,对初始检测模型的模型参数进行更新,获得经过训练的初始检测模型。其中,“根据低质量区域预测结果和低质量区域标记,对初始检测模型的模型参数进行更新”可以包括:获取低质量区域预测结果与低质量区域标记之间的区域损失值;根据区域损失值对初始检测模型的模型参数进行更新。基于此,可以理解的是,本公开实施例中,检测模型收敛条件可以是低质量区域预测结果与低质量区域标记之间的区域损失值在第一预设损失范围以内。在经过训练的初始检测模型满足检测模型收敛条件的情况下,将经过训练的初始检测模型作为质量检测模型。其中,第一预设损失范围可以根据实际应用需求设定,本公开实施例对此不作限制。
此外,本公开实施例中,在获得质量检测模型之后,可以基于预先构建的准确率测试样本集和召回率测试样本集,分别选择对应的随机阈值,对质量检测模型进行模型效果评估,以保证质量检测模型具有优异的模型效果。
采用本公开实施例提供的模型训练方法可以获取有监督样本图像,有监督样本图像具有对应的低质量区域标记;将有监督样本图像输入目标编码器,获得目标编码器输出的样本图像特征,目标编码器通过无监督训练获得;利用样本图像特征和低质量区域标记对初始检测模型进行有监督训练,获得经过训练的初始检测模型;在经过训练的初始检测模型满足检测模型收敛条件的情况下,获得质量检测模型,质量检测模型为经过训练的初始检测模型。其中,目标编码器是通过无监督训练获得的,已经具有特征提取能力,因此,相对于现有技术而言,可以基于相对少量的有监督样本图像,完成对初始检测模型的有监督训练,使得经过训练的初始检测模型满足检测模型收敛条件。由于有监督样本图像的数量需求相对少了,因此,可以大量减少人工耗时,从而提高质量检测模型的训练效率。此外,也是由于有监督样本图像的数量需求相对少了,因此,标注出错量也相对少了,可以提高质量检测模型的训练效果,以提高质量检测模型的检测效果。
请结合图2,本公开实施例中,初始检测模型可以包括有监督解码器和前馈神经网络。基于此,在一些可选的实施方式中,“利用样本图像特征和低质量区域标记对初始检测模型进行有监督训练,获得经过训练的初始检测模型”,可以包括以下步骤:
在样本图像特征上添加低质量区域预测编码,获得预测特征表示;
将预测特征表示输入有监督解码器,获得有监督解码器输出的特征解码结果;
将特征解码结果输入前馈神经网络,获得前馈神经网络输出的低质量区域预测结果;
根据低质量区域预测结果和低质量区域标记,对第一参数和第二参数进行更新,获得经过训练的初始检测模型,第一参数为有监督解码器的模型参数,第二参数为前馈神经网络的模型参数。
其中,低质量区域预测编码可以是一个经过随机初始化、且可学习的位置编码。
本公开实施例中,有监督解码器可以是Transformer中包括的解码器,用于恢复预测特征表示的细节和相应空间维度,获得对应的特征解码结果。
本公开实施例中,在获取到特征解码结果表示之后,可以将特征解码结果输入前馈神经网络,通过前馈神经网络对特征解码结果进行特征映射,获得低质量区域预测结果。其中,低质量区域预测结果可以包括有监督样本图像中多个预测矩形框的坐标位置,以及每个预测矩形框中标志信息的类别。其中,坐标位置可以包括预测矩形框的中心点在图像坐标系中的X轴坐标值、Y轴坐标值,以及预测矩形框的长度和宽度,标志信息的类别用于表征标志信息是马赛克、水印,还是二维码等中的哪一类。此外,本公开实施例中,前馈神经网络可以包括串联连接的多层全连接层。
此外,需要说明的是,本公开实施例中,低质量区域预测结果中,预测矩形框的数量上限可以是固定值N。其中,N≥1、且为整数。例如,N=4,则低质量区域预测结果可以包括有监督样本图像中第一预测矩形框的坐标位置和其中标志信息的类别、第二预测矩形框的坐标位置和其中标志信息的类别、第三预测矩形框的坐标位置和其中标志信息的类别和第四预测矩形框的坐标位置和其中标志信息的类别。基于此,可以理解的是,本公开实施例中,在将特征解码结果输入前馈神经网络,以通过前馈神经网络对特征解码结果进行特征映射,获得特征映射结果、且特征映射结果表征有监督样本图像所对应的预测矩形框数量大于N的情况下,可以从中进一步确定N个尺寸最大的预测矩形框,再据此确定低质量区域预测结果。
还需要说明的是,本公开实施例中,“根据低质量区域预测结果和低质量区域标记,对第一参数和第二参数进行更新”可以包括:获取低质量区域预测结果与低质量区域标记之间的区域损失值;根据区域损失值对第一参数和第二参数进行更新。此外,需要说明的是,本公开实施例中,由于低质量区域预测编码是一个经过随机初始化、且可学习的位置编码,因此,在根据区域损失值对第一参数和第二参数进行更新的同时,也需要根据区域损失值对低质量区域预测编码进行更新。
通过“利用样本图像特征和低质量区域标记对初始检测模型进行有监督训练,获得经过训练的初始检测模型”包括的以上步骤,本公开实施例中,初始检测模型包括有监督解码器和前馈神经网络,其具有简单的模型结构。预测,后续仅基于有监督解码器和前馈神经网络便可以输出有监督样本图像所对应的低质量区域预测结果,以进一步提高质量检测模型的训练效率。
在一些可选的实施方式中,“在样本图像特征上添加低质量区域预测编码,获得预测特征表示”,可以包括以下步骤:
设置可学习的低质量区域预测编码,低质量区域预测编码与样本图像特征具有相同的数据结构;
将样本图像特征与低质量区域预测编码相加,获得预测特征表示。
如前所述的,本开实施例中,低质量区域预测编码可以是一个经过随机初始化、且可学习的位置编码,其可以与样本图像特征具有相同的数据结构。基于此,本公开实施例中,可以将样本图像特征和低质量区域预测编码中的对应像素元素相加,获得预测特征表示。
通过“在样本图像特征上添加低质量区域预测编码,获得预测特征表示”包括的以上步骤,本公开实施例中,由于低质量区域预测编码与样本图像特征具有相同的数据结构,因此,可以将样本图像特征和低质量区域预测编码中的对应元素相加,获得预测特征表示,从而简化了预测特征表示的获取过程,以进一步提高质量检测模型的训练效率。
在一些可选的实施方式中,“根据低质量区域预测结果和低质量区域标记,对第一参数和第二参数进行更新,获得经过训练的初始检测模型”可以包括以下步骤:
根据低质量区域预测结果和低质量区域标记,获得多个区域损失值、且任两个区域损失值是基于不同的损失函数获得的;
基于多个区域损失值,获得整合性损失;
根据整合性损失,对第一参数和第二参数进行更新,获得经过训练的初始检测模型。
在一具体示例中,不同的损失函数可以包括具有对应关系的一组预测矩形框和标注矩形框的交并比(Intersection Over Union,IOU)损失函数和绝对值(L1)损失函数。其中,预测矩形框通过区域预测结果表征,标注矩形框通过低质量区域标记表征。本公开实施例中,在获得多个区域损失值之后,可以基于每个损失值,以及该损失值所对应的权重系数,获得整合性损失,再根据整合性损失,对第一参数和第二参数进行更新,获得经过训练的初始检测模型。
以多个区域损失值包括对应于IOU损失函数的第一损失值X1和对应于L1损失函数的第二损失值X2为例,在第一损失值X1所对应的权重系数为Y1,第二损失值X2所对应的权重系数为Y2的情况下,整合性损失X可以是:X1*Y1+X2*Y2。
通过“根据低质量区域预测结果和低质量区域标记,对第一参数和第二参数进行更新,获得经过训练的初始检测模型”包括的以上步骤,本公开实施例中,可以根据低质量区域预测结果和低质量区域标记,获得多个区域损失值、且任两个区域损失值是基于不同的损失函数获得的。此后,基于多个区域损失值,获得整合性损失,以便于根据整合性损失,对第一参数和第二参数进行更新,获得经过训练的初始检测模型。由于多个区域损失值中任两个区域损失值是基于不同的损失函数获得的,因此,可以基于不同的损失角度,确定低质量区域预测结果和低质量区域标记之间的整合性损失,从而提高整合性损失的损失表征效果,以提高质量检测模型的模型效果。
在一些可选的实施方式中,模型训练方法还可以包括以下步骤:
获取无监督样本图像;
利用无监督样本图像,对包括无监督编码器的初始处理模型进行无监督训练,获得经过训练的初始处理模型;
在经过训练的初始处理模型满足处理模型收敛条件的情况下,获得图像处理模型,图像处理模型为经过训练的初始处理模型,图像处理模型包括目标编码器,目标编码器为经过训练的无监督编码器。
其中,无监督样本图像可以从网络获取,也可以在从网络获取到视频样本之后,按照预设抽取间隔,从视频样本中抽取。其中,预设抽取间隔可以根据实际应用需求设定,本公开实施例对此不作限制。此外,本公开实施例中,在“获取无监督样本图像”之前,也可以获取上千张无监督样本图像(例如,5000张)组成无监督训练样本集,再从无监督训练样本集中选取一张无监督样本图像,基于该张无监督样本图像,执行“利用无监督样本图像,对包括无监督编码器的初始处理模型进行无监督训练,获得经过训练的初始处理模型”的步骤,并以此循环,以实现对初始处理模型的迭代训练。
本公开实施例中,初始处理模型可以是Transformer,也即,无监督编码器可以是Transformer中包括的编码器。
本公开实施例中,在获取到无监督样本图像之后,可以利用无监督样本图像,对初始处理模型进行无监督训练,获得经过训练的初始处理模型。例如,可以将无监督样本图像输入初始处理模型,获得初始处理模型输出的图像特征处理结果,再根据图像特征处理结果和无监督样本图像,对初始处理模型的模型参数进行更新,获得经过训练的初始处理模型。其中,“根据图像特征处理结果和无监督样本图像,对初始处理模型的模型参数进行更新”可以包括:获取图像特征处理结果与无监督样本图像之间的图像特征损失值;根据图像特征损失值对初始处理模型的模型参数进行更新。基于此,可以理解的是,本公开实施例中,处理模型收敛条件可以是图像特征处理结果与无监督样本图像之间的图像特征在第二预设损失范围以内。在经过训练的初始处理模型满足图像模型收敛条件的情况下,将经过训练的初始处理模型作为图像处理模型。其中,第二预设损失范围可以根据实际应用需求设定,本公开实施例对此不作限制。
通过模型训练方法包括的以上步骤,本公开实施例中,可以获取无监督样本图像,再利用无监督样本图像,对包括无监督编码器的初始处理模型进行无监督训练,获得经过训练的初始处理模型,以便于在经过训练的初始处理模型满足处理模型收敛条件的情况下,将经过训练的初始处理模型作为图像处理模型。其中,涉及到的无监督训练过程简单,训练耗时较低,因此,能够进一步提高质量检测模型的训练效率。
请结合图3,本公开实施例中,初始处理模型除包括无监督编码器之外,还可以包括无监督解码器。基于此,在一些可选的实施方式中,“利用无监督样本图像,对包括无监督编码器的初始处理模型进行无监督训练,获得经过训练的初始处理模型”可以包括以下步骤:
将无监督样本图像划分为多个图像块;
对多个图像块中的第一部分图像块进行遮挡,获得第一特征序列;
将多个图像块中除第一部分图像块之外的第二部分图像块输入无监督编码器,获得无监督编码器输出的第二特征序列;
将第一特征序列和第二特征序列输入无监督解码器,获得无监督解码器输出的图像特征处理结果;
基于图像特征处理结果,对第三参数和第四参数进行更新,获得经过训练的初始处理模型,第三参数为无监督编码器的模型参数,第四参数为无监督解码器的模型参数。
本公开实施例中,在将无监督样本图像划分为多个图像块之前,可以对无监督样本图像进行尺寸变换。在一具体示例中,可以将无监督样本图像从原始尺寸变换为目标尺寸、且目标尺寸小于原始尺寸,以减小模型训练过程中所涉及的数据处理量。其中,目标尺寸可以是224*224个像素元素。此外,在一具体示例中,可以将无监督样本图像划分为7*7个像素元素的多个图像块。那么,在目标尺寸为224*224个像素元素的情况下,可以获得32*32个图像块。
本公开实施例中,在将无监督样本图像划分为多个图像块之后,可以按照随机获取的目标比例值,从多个图像块中确定第一部分图像块,再对第一部分图像块进行遮挡,获得第一特征序列。其中,“对第一部分图像块进行遮挡”可以是将第一部分图像块的像素值调整为0。
本公开实施例中,在获得第一特征序列,可以将多个图像块中除第一部分图像块之外的第二部分图像块输入无监督编码器,通过无监督编码器对第二部分图像块进行特征提取,获得第二特征序列,再将第二特征序列输出。
此外,需要说明的是,本公开实施例中,在获取到第一特征序列和第二特征序列之后,可以按照第一特征序列和第二特征序列中每个特征块在无监督样本图像中所对应的原始位置,对第一特征序列和第二特征序列进行拼接处理,获得拼接特征,再将拼接特征输入无监督解码器,通过无监督解码器恢复拼接特征的细节和相应空间维度,获得图像特征处理结果,并将图像特征处理结果输出。其中,无监督解码器可以是Transformer中包括的解码器。
还需要说明的是,本公开实施例中,“基于图像特征处理结果,对第三参数和第四参数进行更新”可以包括:获取图像特征处理结果与无监督样本图像之间的图像特征损失值;根据图像特征损失值对第三参数和第四参数进行更新。此外,可以理解的是,本公开实施例中,在获取获取图像特征处理结果与无监督样本图像之间的图像特征损失值之前,可以对图像特征处理结果进行尺寸恢复,使其与无监督样本图像等大。
通过“利用无监督样本图像,对包括无监督编码器的初始处理模型进行无监督训练,获得经过训练的初始处理模型”包括的以上步骤,可以理解的是,本公开实施例中,初始处理模型是基于掩码预训练原理进行无监督训练的,这可以使得最终的、经过训练的无监督编码器(也即,目标编码器)具有优异的特征提取能力,从而进一步提高质量检测模型的训练效果,也即,进一步提高质量检测模型的检测效果。
在一些可选的实施方式中,“对多个图像块中的第一部分图像块进行遮挡,获得第一特征序列”可以包括以下步骤:
获取预设比例区间;
从预设比例区间中,随机获取目标比例值;
按照目标比例值,从多个图像块中确定第一部分图像块;
对第一部分图像块进行遮挡,获得第一特征序列。
其中,预设比例区间可以是[75%,90%]。
此外,本公开实施例中,在从预设比例区间中,随机获取到目标比例值之后,可以按照目标比例值,从多个图像块中随机确定第一部分图像块。例如,目标比例值为80%、且共有32*32个图像块,则可以从32*32个图像块中随机确定32*32*80%个图像块,作为第一部分图像块。
通过“对多个图像块中的第一部分图像块进行遮挡,获得第一特征序列”包括的以上步骤,本公开实施例中,可以获取预设比例区间,再从预设比例区间中,随机获取目标比例值,并按照目标比例值,从多个图像块中确定第一部分图像块,以便于对第一部分图像块进行遮挡,获得第一特征序列。其中,目标比例值是从预设比例区间中随机获取的,因此,具有较高的随机性,可以进一步提高质量检测模型的训练效果,也即,可以进一步提高质量检测模型的检测效果。
以下,将结合图4,对本公开实施例提供的一种模型训练方法的完整性流程进行说明。
分别按照预设抽取间隔,从视频样本中抽取无监督样本图像和有监督样本图像,有监督样本图像具有对应的低质量区域标记;
将无监督样本图像划分为多个图像块;获取预设比例区间;从预设比例区间中,随机获取目标比例值;按照目标比例值,从多个图像块中确定第一部分图像块;对第一部分图像块进行遮挡,获得第一特征序列;将多个图像块中除第一部分图像块之外的第二部分图像块输入无监督编码器,获得无监督编码器输出的第二特征序列;将第一特征序列和第二特征序列输入无监督解码器,获得无监督解码器输出的图像特征处理结果,无监督编码器和无监督解码器包含于初始处理模型;
基于图像特征处理结果,对第三参数和第四参数进行更新,获得经过训练的初始处理模型,第三参数为无监督编码器的模型参数,第四参数为无监督解码器的模型参数;
在经过训练的初始处理模型满足处理模型收敛条件的情况下,获得图像处理模型,图像处理模型为经过训练的初始处理模型,图像处理模型包括目标编码器,目标编码器为经过训练的无监督编码器;
将有监督样本图像输入目标编码器,获得目标编码器输出的样本图像特征;
设置可学习的低质量区域预测编码,低质量区域预测编码与样本图像特征具有相同的数据结构;将样本图像特征与低质量区域预测编码相加,获得预测特征表示;
将预测特征表示输入有监督解码器,获得有监督解码器输出的特征解码结果;将特征解码结果输入前馈神经网络,获得前馈神经网络输出的低质量区域预测结果,有监督解码器和前馈神经网络包含于初始检测模型;
根据低质量区域预测结果和低质量区域标记,获得多个区域损失值、且任两个区域损失值是基于不同的损失函数获得的;基于多个区域损失值,获得整合性损失;根据整合性损失,对第一参数和第二参数进行更新,获得经过训练的初始检测模型,第一参数为有监督解码器的模型参数,第二参数为前馈神经网络的模型参数;
在经过训练的初始检测模型满足检测模型收敛条件的情况下,获得质量检测模型,质量检测模型为经过训练的初始检测模型。
请参阅图5,为本公开实施例提供的一种模型训练方法的场景示意图。
如前所述的,本公开实施例提供的模型训练方法应用于电子设备。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字处理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。
其中,电子设备可以用于:
获取有监督样本图像,有监督样本图像具有对应的低质量区域标记;
将有监督样本图像输入目标编码器,获得目标编码器输出的样本图像特征,目标编码器通过无监督训练获得;
利用样本图像特征和低质量区域标记对初始检测模型进行有监督训练,获得经过训练的初始检测模型;
在经过训练的初始检测模型满足检测模型收敛条件的情况下,获得质量检测模型,质量检测模型为经过训练的初始检测模型。
其中,有监督样本图像可以从网络获取,也可以在从网络获取到视频样本之后,按照预设抽取间隔,从视频样本中抽取,还可以从预先构建的有监督训练样本集中获取。其中,预设抽取间隔可以根据实际应用需求设定,本公开实施例对此不作限制。
需要说明的是,本公开实施例中,图5所示的场景示意图仅为示意性而非限制性的,本领域技术人员可以基于图5示例进行各种显而易见的变化和/或替换,获得的技术方案仍属于本公开实施例的公开范围。
本公开实施例提供了一种质量检测方法,该质量检测方法可以应用于电子设备。以下,将结合图6所示流程示意图,对本公开实施例提供的一种质量检测方法进行说明。需要说明的是,虽然在流程示意图中示出了逻辑顺序,但是,在某些情况下,也可以以其他顺序执行所示出或描述的步骤。
步骤S601,获取待检测图像;
步骤S602,将待检测图像输入目标编码器,获得目标编码器输出的检测图像特征,目标编码器通过无监督训练获得;
步骤S603,将检测图像特征输入质量检测模型,获得质量检测模型输出的低质量区域预测结果,质量检测模型通过模型训练方法训练获得;
步骤S604,基于低质量区域预测结果,获得待检测图像的质量检测结果。
其中,待检测图像可以是从网络获取,也可以在从网络获取到待检测视频之后,按照预设抽取间隔,从待检测视频中抽取。此外,本公开实施例中,低质量区域预测结果可以包括有监督样本图像中多个预测矩形框的坐标位置,以及每个预测矩形框中标志信息的类别。其中,坐标位置可以包括预测矩形框的中心点在图像坐标系中的X轴坐标值、Y轴坐标值,以及预测矩形框的长度和宽度,标志信息的类别用于表征标志信息是马赛克、水印,还是二维码等中的哪一类。
采用本公开实施例提供的质量检测方法,可以获取待检测图像;待检测图像输入目标编码器,获得目标编码器输出的检测图像特征,目标编码器通过无监督训练获得;检测图像特征输入质量检测模型,获得质量检测模型输出的低质量区域预测结果,质量检测模型是通过模型训练方法训练获得的;基于低质量区域预测结果,获得待检测图像的质量检测结果。其中,目标编码器通过无监督训练获得,已经具有特征提取能力,因此,相对于现有技术而言,在质量检测模型的训练过程中,就可以基于相对少量的有监督样本图像,完成对初始检测模型的有监督训练,使得经过训练的初始检测模型满足检测模型收敛条件。由于有监督样本图像的数量需求相对少了,因此,标注出错量也相对少了,可以提高质量检测模型的训练效果,以提供质量检测模型的检测效果。
在一些可选的实施方式中,“获取待检测图像”可以包括以下步骤:
确定待检测视频;
按照预设抽取间隔,从待检测视频中抽取多张候选样本图像,待检测图像为多张候选样本图像中的任一候选样本图像。
其中,待检测视频可以从网络获取,预设抽取间隔可以根据实际应用需求设定,本公开实施例对此不作限制。
在从待检测视频中抽取多张候选样本图像之后,对于每张候选样本图像,都可以执行一次步骤S602、步骤S603和步骤S604,以获得每张候选样本图像所对应的质量检测结果。
通过“获取待检测图像”包括的以上步骤,本公开实施例中,可以在确定待检测视频之后,按照预设抽取间隔,自动地从待检测视频中抽取多张候选样本图像,再将多张候选样本图像中的任一候选样本图像作为待检测图像,以便于执行步骤S602、步骤S603和步骤S604,从而提高质量检测方法的自动化程度。
在一些可选的实施方式中,质量检测方法还可以包括以下步骤:
根据多张候选样本图像中每张候选样本图像所对应的质量检测结果,确定多张候选样本图像中低质量图像的数量占比;
在数量占比大于预设数量占比的情况下,确定待检测视频为低质量视频。
其中,预设数量占比可以是10%、5%、2%等数值,具体可以根据实际应用需求设定,本公开实施例对此不作限制。
以预设数量占比为10%为例,假设,候选样本图像一共有100张。其中,有12张候选样本图像为低质量图像,也即,100张候选样本图像中低质量图像的数量占比为12%,是大于10%的,因此,确定待检测视频为低质量视频。
通过质量检测方法包括的以上步骤,本公开实施例中,可以根据多张候选样本图像中每张候选样本图像所对应的质量检测结果,确定多张候选样本图像中低质量图像的数量占比,再在数量占比大于预设数量占比的情况下,确定待检测视频为低质量视频。也就是说,本公开实施例可以基于图像质量检测,实现视频质量检测,从而提高质量检测方法的可应用范围。
在一些可选的实施方式中,“基于低质量区域预测结果,获得待检测图像的质量检测结果”还可以包括以下步骤:
基于低质量区域预测结果,确定待检测图像的低质量区域面积;
根据低质量区域面积和待检测图像的图像面积,获得待检测图像的低质量面积占比;
在低质量面积占比大于预设面积占比的情况下,获得用于表征待检测图像为低质量图像的质量检测结果。
如前所述的,本公开实施例中,低质量区域预测结果可以包括有监督样本图像中多个预测矩形框的坐标位置,以及每个预测矩形框中标志信息的类别。其中,坐标位置可以包括预测矩形框的中心点在图像坐标系中的X轴坐标值、Y轴坐标值,以及预测矩形框的长度和宽度。
那么,在获取到低质量区域预测结果之后,可以从低质量区域预测结果中提取出每个预测矩形框的长度和宽度,再据此获得每个预测矩形框的区域面积,并进一步获得待检测图像中所有预测矩形框的区域面积之和,作为低质量区域面积。最后,根据低质量区域面积和待检测图像的图像面积,获得待检测图像的低质量面积占比,再在低质量面积占比大于预设面积占比的情况下,获得用于表征待检测图像为低质量图像的质量检测结果。
其中,预设面积占比可以根据实际应用需求设定,本公开实施例对此不作限制。
通过“基于低质量区域预测结果,获得待检测图像的质量检测结果”还包括的以上步骤,本公开实施例中,可以基于低质量区域预测结果,获得待检测图像的低质量区域面积,再据此确定待检测图像是否低质量图像,从而简化质量检测流程,以提高质量检测效率。
以下,将结合图7,对本公开实施例提供的一种质量检测方法的完整性流程进行说明。
确定待检测视频;
按照预设抽取间隔,从待检测视频中抽取多张候选样本图像,待检测图像为多张候选样本图像中的任一候选样本图像;
将待检测图像输入目标编码器,获得目标编码器输出的检测图像特征,目标编码器通过无监督训练获得;
将检测图像特征输入质量检测模型,获得质量检测模型输出的低质量区域预测结果,质量检测模型是通过模型训练方法训练获得的;
基于低质量区域预测结果,获得待检测图像的低质量区域面积;根据低质量区域面积和待检测图像的图像面积,获得待检测图像的低质量面积占比;在低质量面积占比大于预设面积占比的情况下,获得用于表征待检测图像为低质量图像的质量检测结果;
根据多张候选样本图像中每张候选样本图像所对应的质量检测结果,确定多张候选样本图像中低质量图像的数量占比;在数量占比大于预设数量占比的情况下,确定待检测视频为低质量视频,作为待检测视频的质量检测结果。
其中,低质量区域预测结果可以包括有监督样本图像中多个预测矩形框的坐标位置,以及每个预测矩形框中标志信息的类别。其中,坐标位置可以包括预测矩形框的中心点在图像坐标系中的X轴坐标值、Y轴坐标值,以及预测矩形框的长度和宽度。在低质量区域预测结果中预测矩形框的数量上限为4的情况下,低质量区域预测结果可以包括有监督样本图像中第一预测矩形框的坐标位置和其中标志信息的类别、第二预测矩形框的坐标位置和其中标志信息的类别、第三预测矩形框的坐标位置和其中标志信息的类别和第四预测矩形框的坐标位置和其中标志信息的类别。
请参阅图8,为本公开实施例提供的一种质量检测方法的场景示意图。
如前所述的,本公开实施例提供的质量检测方法应用于电子设备。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字处理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。
电子设备可以用于:
获取待检测图像;
将待检测图像输入目标编码器,获得目标编码器输出的检测图像特征,目标编码器通过无监督训练获得;
将检测图像特征输入质量检测模型,获得质量检测模型输出的低质量区域预测结果,质量检测模型是通过模型训练方法训练获得的;
基于低质量区域预测结果,获得待检测图像的质量检测结果。
其中,待检测图像可以是从网络获取,也可以在从网络获取到待检测视频之后,按照预设抽取间隔,从待检测视频中抽取。其中,预设抽取间隔可以根据实际应用需求设定,本公开实施例对此不作限制。
需要说明的是,本公开实施例中,图8所示的场景示意图仅为示意性而非限制性的,本领域技术人员可以基于图8示例进行各种显而易见的变化和/或替换,获得的技术方案仍属于本公开实施例的公开范围。
为了更好地实施模型训练方法,本公开实施例还提供一种模型训练装置,该模型训练装置具体可以集成在电子设备中。以下,将结合图9所示结构示意图,对公开实施例提供的一种模型训练装置900进行说明。
模型训练装置900可以包括:
样本图像获取单元901,用于获取有监督样本图像,有监督样本图像具有对应的低质量区域标记;
样本图像特征获取单元902,将有监督样本图像输入目标编码器,获得目标编码器输出的样本图像特征,目标编码器通过无监督训练获得;
检测模型训练单元903,用于利用样本图像特征和低质量区域标记对初始检测模型进行有监督训练,获得经过训练的初始检测模型;
检测模型获取单元904,用于在经过训练的初始检测模型满足检测模型收敛条件的情况下,获得质量检测模型,质量检测模型为经过训练的初始检测模型。
在一些可选的实施方式中,初始检测模型包括有监督解码器和前馈神经网络,检测模型训练单元903用于:
在样本图像特征上添加低质量区域预测编码,获得预测特征表示;
将预测特征表示输入有监督解码器,获得有监督解码器输出的特征解码结果;
将特征解码结果输入前馈神经网络,获得前馈神经网络输出的低质量区域预测结果;
根据低质量区域预测结果和低质量区域标记,对第一参数和第二参数进行更新,获得经过训练的初始检测模型,第一参数为有监督解码器的模型参数,第二参数为前馈神经网络的模型参数。
在一些可选的实施方式中,检测模型训练单元903用于:
设置可学习的低质量区域预测编码,低质量区域预测编码与样本图像特征具有相同的数据结构;
将样本图像特征与低质量区域预测编码相加,获得预测特征表示。
在一些可选的实施方式中,检测模型训练单元903用于:
根据低质量区域预测结果和低质量区域标记,获得多个区域损失值、且任两个区域损失值是基于不同的损失函数获得的;
基于多个区域损失值,获得整合性损失;
根据整合性损失,对第一参数和第二参数进行更新,获得经过训练的初始检测模型。
在一些可选的实施方式中,模型训练装置900还包括处理模型训练单元,用于:
获取无监督样本图像;
利用无监督样本图像,对包括无监督编码器的初始处理模型进行无监督训练,获得经过训练的初始处理模型;
在经过训练的初始处理模型满足处理模型收敛条件的情况下,获得图像处理模型,图像处理模型为经过训练的初始处理模型,图像处理模型包括目标编码器,目标编码器为经过训练的无监督编码器。
在一些可选的实施方式中,初始处理模型还包括无监督解码器,处理模型训练单元用于:
将无监督样本图像划分为多个图像块;
对多个图像块中的第一部分图像块进行遮挡,获得第一特征序列;
将多个图像块中除第一部分图像块之外的第二部分图像块输入无监督编码器,获得无监督编码器输出的第二特征序列;
将第一特征序列和第二特征序列输入无监督解码器,获得无监督解码器输出的图像特征处理结果;
基于图像特征处理结果,对第三参数和第四参数进行更新,获得经过训练的初始处理模型,第三参数为无监督编码器的模型参数,第四参数为无监督解码器的模型参数。
在一些可选的实施方式中,处理模型训练单元用于:
获取预设比例区间;
从预设比例区间中,随机获取目标比例值;
按照目标比例值,从多个图像块中确定第一部分图像块;
对第一部分图像块进行遮挡,获得第一特征序列。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个模块的具体实施可参见前面的模型训练方法实施例,在此不作赘述。
为了更好地实施质量检测方法,本公开实施例还提供一种质量检测装置1000,该质量检测装置1000具体可以集成在电子设备中。以下,将结合图10所示结构示意图,对公开实施例提供的一种质量检测装置1000进行说明。
质量检测装置1000可以包括:
检测图像获取单元1001,用于获取待检测图像;
检测图像特征获取单元1002,用于将待检测图像输入目标编码器,获得目标编码器输出的检测图像特征,目标编码器通过无监督训练获得;
预测结果获取单元1003,用于将检测图像特征输入质量检测模型,获得质量检测模型输出的低质量区域预测结果,质量检测模型是通过权利要求1~8中任一项的方法训练获得的;
检测结果获取单元1004,用于基于低质量区域预测结果,获得待检测图像的质量检测结果。
在一些可选的实施方式中,检测图像获取单元1001用于:
确定待检测视频;
按照预设抽取间隔,从待检测视频中抽取多张候选样本图像,待检测图像为多张候选样本图像中的任一候选样本图像。
在一些可选的实施方式中,质量检测装置1000还包括视频检测控制单元,用于:
根据多张候选样本图像中每张候选样本图像所对应的质量检测结果,确定多张候选样本图像中低质量图像的数量占比;
在数量占比大于预设数量占比的情况下,确定待检测视频为低质量视频。
在一些可选的实施方式中,检测结果获取单元1004用于:
基于低质量区域预测结果,确定待检测图像的低质量区域面积;
根据低质量区域面积和待检测图像的图像面积,获得待检测图像的低质量面积占比;
在低质量面积占比大于预设面积占比的情况下,获得用于表征待检测图像为低质量图像的质量检测结果。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个模块的具体实施可参见前面的模型训练方法实施例,在此不作赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、介质及计算机程序产品。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。
如前所述的,本公开实施例中,电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字处理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。
如图11所示,电子设备1100包括计算单元1101,其可以根据存储在只读存储器(Read-Only Memory,ROM)1102中的计算机程序或从存储单元1108加载到随机访问存储器(Random Access Memory,RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM1103中,还可存储电子设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM1103通过总线1104彼此相连。输入/输出(Input/Output,I/O)接口1105也连接至总线1104。
电子设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如,键盘、鼠标等;输出单元1107,例如,各种类型的显示器、扬声器等;存储单元1108,例如,磁盘、光盘等;以及通信单元1109,例如,网卡、调制解调器、无线通信收发机等。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphics Processing Unit,GPU)、各种专用的人工智能(ArtificialIntelligence,AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Process,DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如,模型训练方法和/或质量检测方法。例如,在一些可选的实施方式中模型训练方法和/或质量检测方法可分别被实现为计算机软件程序,其被有形地包含于非瞬时计算机可读存储介质,例如,存储单元1108。在一些可选的实施方式中,计算机程序的部分或全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的模型训练方法和/或质量检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行模型训练方法和/或质量检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用标准产品(ApplicationSpecific Standard Product,ASSP)、芯片上系统的系统(System On Chip,SOC)、复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或多个计算机程序中,该一个或多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,非瞬时计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。非瞬时计算机可读存储介质可以是机器可读信号介质或机器可读储存介质。非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或前述内容的任何合适组合。非瞬时计算机可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)或快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光学储存设备、磁储存设备、或前述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,阴极射线管(Cathode Ray Tube,CRT)显示器或液晶显示器(Liquid Crystal Display,LCD);以及键盘和指向装置(例如,鼠标或轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或触觉反馈);并且可以用任何形式(包括声输入、语音输入、或触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或包括中间件部件的计算系统(例如,应用服务器)、或包括前端部件的计算系统(例如,具有图形用户界面或网络浏览器的用户计算机,用户可以通过该图形用户界面或该网络浏览器来与此处描述的系统和技术的实施方式交互)、或包括这种后台部件、中间件部件、或前端部件的任何组合的计算系统中。可以通过任何形式或介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(Local AreaNetwork,LAN)、广域网(Wide Area Network,WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或是结合了区块链的服务器。
本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述模型训练方法和/或质量检测方法。
本公开实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述模型训练方法和/或质量检测方法。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。此外,本公开中,诸如“第一”、“第二”、“第三”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。再者,本公开中“多个”,可以理解为至少两个。
前述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (18)

1.一种模型训练方法,包括:
获取有监督样本图像,所述有监督样本图像具有对应的低质量区域标记;
将所述有监督样本图像输入目标编码器,获得所述目标编码器输出的样本图像特征,所述目标编码器通过无监督训练获得;
利用所述样本图像特征和所述低质量区域标记对初始检测模型进行有监督训练,获得经过训练的初始检测模型;
在所述经过训练的初始检测模型满足检测模型收敛条件的情况下,获得质量检测模型,所述质量检测模型为所述经过训练的初始检测模型;
其中,所述初始检测模型包括有监督解码器和前馈神经网络,所述利用所述样本图像特征和所述低质量区域标记对初始检测模型进行有监督训练,获得经过训练的初始检测模型,包括:
设置可学习的低质量区域预测编码,所述低质量区域预测编码与所述样本图像特征具有相同的数据结;将所述样本图像特征与所述低质量区域预测编码相加,获得预测特征表示;
将所述预测特征表示输入所述有监督解码器,获得所述有监督解码器输出的特征解码结果;
将所述特征解码结果输入所述前馈神经网络,获得所述前馈神经网络输出的低质量区域预测结果;
根据所述低质量区域预测结果和所述低质量区域标记,获得多个区域损失值、且任两个区域损失值是基于不同的损失函数获得的;基于所述多个区域损失值,获得整合性损失;根据所述整合性损失,对第一参数和第二参数进行更新,获得所述经过训练的初始检测模型;所述第一参数为所述有监督解码器的模型参数,所述第二参数为所述前馈神经网络的模型参数。
2.根据权利要求1所述的方法,还包括:
获取无监督样本图像;
利用所述无监督样本图像,对包括无监督编码器的初始处理模型进行无监督训练,获得经过训练的初始处理模型;
在所述经过训练的初始处理模型满足处理模型收敛条件的情况下,获得图像处理模型,所述图像处理模型为所述经过训练的初始处理模型,所述图像处理模型包括目标编码器,所述目标编码器为经过训练的无监督编码器。
3.根据权利要求2所述的方法,其中,所述初始处理模型还包括无监督解码器,所述利用所述无监督样本图像,对包括无监督编码器的初始处理模型进行无监督训练,获得经过训练的初始处理模型,包括:
将所述无监督样本图像划分为多个图像块;
对所述多个图像块中的第一部分图像块进行遮挡,获得第一特征序列;
将所述多个图像块中除所述第一部分图像块之外的第二部分图像块输入所述无监督编码器,获得所述无监督编码器输出的第二特征序列;
将所述第一特征序列和所述第二特征序列输入所述无监督解码器,获得所述无监督解码器输出的图像特征处理结果;
基于所述图像特征处理结果,对第三参数和第四参数进行更新,获得所述经过训练的初始处理模型,所述第三参数为所述无监督编码器的模型参数,所述第四参数为所述无监督解码器的模型参数。
4.根据权利要求3所述的方法,其中,所述对所述多个图像块中的第一部分图像块进行遮挡,获得第一特征序列,包括:
获取预设比例区间;
从所述预设比例区间中,随机获取目标比例值;
按照所述目标比例值,从所述多个图像块中确定所述第一部分图像块;
对所述第一部分图像块进行遮挡,获得所述第一特征序列。
5.一种质量检测方法,包括:
获取待检测图像;
将所述待检测图像输入目标编码器,获得所述目标编码器输出的检测图像特征,所述目标编码器通过无监督训练获得;
将所述检测图像特征输入质量检测模型,获得所述质量检测模型输出的低质量区域预测结果,所述质量检测模型通过权利要求1~4中任一项所述的方法训练获得;
基于所述低质量区域预测结果,获得所述待检测图像的质量检测结果。
6.根据权利要求5所述的方法,其中,所述获取待检测图像,包括:
确定待检测视频;
按照预设抽取间隔,从所述待检测视频中抽取多张候选样本图像,所述待检测图像为所述多张候选样本图像中的任一候选样本图像。
7.根据权利要求6所述的方法,还包括:
根据所述多张候选样本图像中每张候选样本图像所对应的质量检测结果,确定所述多张候选样本图像中低质量图像的数量占比;
在所述数量占比大于预设数量占比的情况下,确定所述待检测视频为低质量视频。
8.根据权利要求5所述的方法,其中,所述基于所述低质量区域预测结果,获得所述待检测图像的质量检测结果,包括:
基于所述低质量区域预测结果,确定所述待检测图像的低质量区域面积;
根据所述低质量区域面积和所述待检测图像的图像面积,获得所述待检测图像的低质量面积占比;
在所述低质量面积占比大于预设面积占比的情况下,获得用于表征所述待检测图像为低质量图像的质量检测结果。
9.一种模型训练装置,包括:
样本图像获取单元,用于获取有监督样本图像,所述有监督样本图像具有对应的低质量区域标记;
样本图像特征获取单元,将所述有监督样本图像输入目标编码器,获得所述目标编码器输出的样本图像特征,所述目标编码器通过无监督训练获得;
检测模型训练单元,用于利用所述样本图像特征和所述低质量区域标记对初始检测模型进行有监督训练,获得经过训练的初始检测模型;
检测模型获取单元,用于在所述经过训练的初始检测模型满足检测模型收敛条件的情况下,获得质量检测模型,所述质量检测模型为所述经过训练的初始检测模型;
其中,所述初始检测模型包括有监督解码器和前馈神经网络,所述检测模型训练单元用于:
设置可学习的低质量区域预测编码,所述低质量区域预测编码与所述样本图像特征具有相同的数据结;将所述样本图像特征与所述低质量区域预测编码相加,获得预测特征表示;
将所述预测特征表示输入所述有监督解码器,获得所述有监督解码器输出的特征解码结果;
将所述特征解码结果输入所述前馈神经网络,获得所述前馈神经网络输出的低质量区域预测结果;
根据所述低质量区域预测结果和所述低质量区域标记,获得多个区域损失值、且任两个区域损失值是基于不同的损失函数获得的;基于所述多个区域损失值,获得整合性损失;根据所述整合性损失,对第一参数和第二参数进行更新,获得所述经过训练的初始检测模型;所述第一参数为所述有监督解码器的模型参数,所述第二参数为所述前馈神经网络的模型参数。
10.根据权利要求9所述的装置,还包括处理模型训练单元,用于:
获取无监督样本图像;
利用所述无监督样本图像,对包括无监督编码器的初始处理模型进行无监督训练,获得经过训练的初始处理模型;
在所述经过训练的初始处理模型满足处理模型收敛条件的情况下,获得图像处理模型,所述图像处理模型为所述经过训练的初始处理模型,所述图像处理模型包括目标编码器,所述目标编码器为经过训练的无监督编码器。
11.根据权利要求10所述的装置,其中,所述初始处理模型还包括无监督解码器,所述处理模型训练单元用于:
将所述无监督样本图像划分为多个图像块;
对所述多个图像块中的第一部分图像块进行遮挡,获得第一特征序列;
将所述多个图像块中除所述第一部分图像块之外的第二部分图像块输入所述无监督编码器,获得所述无监督编码器输出的第二特征序列;
将所述第一特征序列和所述第二特征序列输入所述无监督解码器,获得所述无监督解码器输出的图像特征处理结果;
基于所述图像特征处理结果,对第三参数和第四参数进行更新,获得所述经过训练的初始处理模型,所述第三参数为所述无监督编码器的模型参数,所述第四参数为所述无监督解码器的模型参数。
12.根据权利要求11所述的装置,其中,所述处理模型训练单元用于:
获取预设比例区间;
从所述预设比例区间中,随机获取目标比例值;
按照所述目标比例值,从所述多个图像块中确定所述第一部分图像块;
对所述第一部分图像块进行遮挡,获得所述第一特征序列。
13.一种质量检测装置,包括:
检测图像获取单元,用于获取待检测图像;
检测图像特征获取单元,用于将所述待检测图像输入目标编码器,获得所述目标编码器输出的检测图像特征,所述目标编码器通过无监督训练获得;
预测结果获取单元,用于将所述检测图像特征输入质量检测模型,获得所述质量检测模型输出的低质量区域预测结果,所述质量检测模型通过权利要求1~4中任一项所述的方法训练获得;
检测结果获取单元,用于基于所述低质量区域预测结果,获得所述待检测图像的质量检测结果。
14.根据权利要求13所述的装置,其中,所述检测图像获取单元用于:
确定待检测视频;
按照预设抽取间隔,从所述待检测视频中抽取多张候选样本图像,所述待检测图像为所述多张候选样本图像中的任一候选样本图像。
15.根据权利要求14所述的装置,还包括视频检测控制单元,用于:
根据所述多张候选样本图像中每张候选样本图像所对应的质量检测结果,确定所述多张候选样本图像中低质量图像的数量占比;
在所述数量占比大于预设数量占比的情况下,确定所述待检测视频为低质量视频。
16.根据权利要求13所述的装置,其中,所述检测结果获取单元用于:
基于所述低质量区域预测结果,确定所述待检测图像的低质量区域面积;
根据所述低质量区域面积和所述待检测图像的图像面积,获得所述待检测图像的低质量面积占比;
在所述低质量面积占比大于预设面积占比的情况下,获得用于表征所述待检测图像为低质量图像的质量检测结果。
17.一种电子设备,包括:
至少一个处理器;
与所述至少一个处理器通信连接的存储器;
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~8中任一项所述的方法。
CN202310286506.2A 2023-03-22 2023-03-22 模型训练方法、质量检测方法、装置、电子设备及介质 Active CN116468985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310286506.2A CN116468985B (zh) 2023-03-22 2023-03-22 模型训练方法、质量检测方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310286506.2A CN116468985B (zh) 2023-03-22 2023-03-22 模型训练方法、质量检测方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN116468985A CN116468985A (zh) 2023-07-21
CN116468985B true CN116468985B (zh) 2024-03-19

Family

ID=87172603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310286506.2A Active CN116468985B (zh) 2023-03-22 2023-03-22 模型训练方法、质量检测方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN116468985B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311475A (zh) * 2020-02-21 2020-06-19 广州腾讯科技有限公司 检测模型训练方法、装置、存储介质和计算机设备
CN111325320A (zh) * 2020-02-10 2020-06-23 深圳前海微众银行股份有限公司 弱监督机器学习优化方法、装置、设备及存储介质
CN112801164A (zh) * 2021-01-22 2021-05-14 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、设备及存储介质
CN113642431A (zh) * 2021-07-29 2021-11-12 北京百度网讯科技有限公司 目标检测模型的训练方法及装置、电子设备和存储介质
CN113901998A (zh) * 2021-09-29 2022-01-07 北京百度网讯科技有限公司 模型的训练方法、装置、设备、存储介质以及检测方法
CN114187459A (zh) * 2021-11-05 2022-03-15 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、电子设备以及存储介质
CN114722826A (zh) * 2022-04-07 2022-07-08 平安科技(深圳)有限公司 模型的训练方法和装置、电子设备、存储介质
CN115082752A (zh) * 2022-05-30 2022-09-20 浙江大华技术股份有限公司 基于弱监督的目标检测模型训练方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190294973A1 (en) * 2018-03-23 2019-09-26 Google Llc Conversational turn analysis neural networks
CN115700838A (zh) * 2021-07-29 2023-02-07 脸萌有限公司 用于图像识别模型的训练方法及其装置、图像识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325320A (zh) * 2020-02-10 2020-06-23 深圳前海微众银行股份有限公司 弱监督机器学习优化方法、装置、设备及存储介质
CN111311475A (zh) * 2020-02-21 2020-06-19 广州腾讯科技有限公司 检测模型训练方法、装置、存储介质和计算机设备
CN112801164A (zh) * 2021-01-22 2021-05-14 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、设备及存储介质
CN113642431A (zh) * 2021-07-29 2021-11-12 北京百度网讯科技有限公司 目标检测模型的训练方法及装置、电子设备和存储介质
CN113901998A (zh) * 2021-09-29 2022-01-07 北京百度网讯科技有限公司 模型的训练方法、装置、设备、存储介质以及检测方法
CN114187459A (zh) * 2021-11-05 2022-03-15 北京百度网讯科技有限公司 目标检测模型的训练方法、装置、电子设备以及存储介质
CN114722826A (zh) * 2022-04-07 2022-07-08 平安科技(深圳)有限公司 模型的训练方法和装置、电子设备、存储介质
CN115082752A (zh) * 2022-05-30 2022-09-20 浙江大华技术股份有限公司 基于弱监督的目标检测模型训练方法、装置、设备及介质

Also Published As

Publication number Publication date
CN116468985A (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN110020620B (zh) 一种大姿态下的人脸识别方法、装置及设备
CN113657390A (zh) 文本检测模型的训练方法和检测文本方法、装置和设备
CN113222916A (zh) 采用目标检测模型检测图像的方法、装置、设备和介质
CN113837308B (zh) 基于知识蒸馏的模型训练方法、装置、电子设备
CN114494784A (zh) 深度学习模型的训练方法、图像处理方法和对象识别方法
CN112560862A (zh) 文本识别方法、装置及电子设备
CN114419035B (zh) 产品识别方法、模型训练方法、装置和电子设备
CN113591566A (zh) 图像识别模型的训练方法、装置、电子设备和存储介质
CN114037074A (zh) 一种模型剪枝方法、装置、电子设备及存储介质
CN113887615A (zh) 图像处理方法、装置、设备和介质
CN115311469A (zh) 图像标注方法、训练方法、图像处理方法以及电子设备
CN115797565A (zh) 三维重建模型训练方法、三维重建方法、装置及电子设备
CN114596431A (zh) 信息确定方法、装置及电子设备
CN115359308A (zh) 模型训练、难例识别方法、装置、设备、存储介质及程序
CN112967248B (zh) 生成缺陷图像样本的方法、装置、介质及程序产品
CN114495101A (zh) 文本检测方法、文本检测网络的训练方法及装置
CN117746125A (zh) 图像处理模型的训练方法、装置及电子设备
CN116468985B (zh) 模型训练方法、质量检测方法、装置、电子设备及介质
CN115130473B (zh) 关键信息抽取方法、模型训练方法、相关装置及电子设备
CN115861809A (zh) 杆状物检测及其模型的训练方法、装置、电子设备、介质
CN113554057B (zh) 图的分割方法、装置及电子设备
CN113361522B (zh) 用于确定字符序列的方法、装置和电子设备
CN114494782A (zh) 图像处理方法、模型训练方法、相关装置及电子设备
CN114707638A (zh) 模型训练、对象识别方法及装置、设备、介质和产品
CN115294536B (zh) 基于人工智能的违章检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant