CN111401528A - 基于模拟退火遗传算法的生成对抗网络过采样方法及装置 - Google Patents

基于模拟退火遗传算法的生成对抗网络过采样方法及装置 Download PDF

Info

Publication number
CN111401528A
CN111401528A CN202010247326.XA CN202010247326A CN111401528A CN 111401528 A CN111401528 A CN 111401528A CN 202010247326 A CN202010247326 A CN 202010247326A CN 111401528 A CN111401528 A CN 111401528A
Authority
CN
China
Prior art keywords
sample data
network
optimal
determining
child
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010247326.XA
Other languages
English (en)
Inventor
张贺晔
郝菁煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010247326.XA priority Critical patent/CN111401528A/zh
Publication of CN111401528A publication Critical patent/CN111401528A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种基于模拟退火遗传算法的生成对抗网络过采样方法及装置,包括:利用生成对抗人工神经网络的对抗性学习能力,确定样本数据与最优子代样本数据的对应关系;具体地,依据预设的个体适应度条件确定所述最优子代样本数据;依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数;依据所述网络参数确定所述对应关系;获取目标样本数据;通过所述对应关系,确定与所述目标样本数据对应的最优子代目标样本数据。通过同时使用多个对抗学习目标训练生成网络,克服单一对抗学习目标的局限性;通过使用模拟退火算法来选择是否更新生成网络,避免模型陷入局部最优解,使模型收敛至全局最优。

Description

基于模拟退火遗传算法的生成对抗网络过采样方法及装置
技术领域
本申请涉及医学检测领域,特别是一种基于模拟退火遗传算法的生成对抗网络过采样方法及装置。
背景技术
类不平衡问题在机器学习应用中广泛存在。当用于分类的数据存在类不平衡问题时,许多标准分类器的性能会大大降低。这是因为大多数分类算法假定训练数据均衡分布,对不同类别的数据采用相同的错误分类成本。而在数据不平衡时,提升分类器在数据性能的关键是精准的捕获到少数类数据的分布。但是,从极少的少数类样本中学习准确的分布十分困难。
一个解决类不平衡问题的常用方法就是增加少数类的样本,使得少数类的分布可以更容易被学习,即过采样方法。在各种过采样方法中,随机过采样最容易实现,因为它可以通过简单地复制样本来扩大少数类的样本量。但是,这样获得的样本容易出现泛化过低的风险,导致过拟合。另一种过采样的方式为插值,例如SMOTE(Synthetic MinorityOversampling Technique)。SMOTE可以缓解过拟合的情况,但它假设所有少数类样本的附近皆为少数类样本,有很强的盲目性。Border-line SMOTE是对SMOTE算法的改进,它只对少数类边界附近的样本进行过采样,可以减轻SMOTE算法盲目性的问题。但是,在高维空间中处理数据时,由于在高维空间中存在噪声并且难以测量距离,因此生成的新样本质量可能会受到损失。
近年来,GAN(Generative Adversarial Networks,生成式对抗网络)在充足的训练样本下具有出色的学习数据分布的能力,它在图像生成,图像到图像合成,图像超分辨率和其他应用中取得了巨大的成功。因此GAN展现出通过学习少数类的分布来解决类不平衡问题的潜力。尽管GAN已成功应用于许多任务,但仍然存在一些问题阻碍GAN的良好训练,例如不稳定训练,崩溃模式和超参数调整。同时,由于少数类的样本数量有限,GAN在训练结束时可能只能学习少数类分布的一部分,因此可能会陷入局部最优。
发明内容
鉴于所述问题,提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种基于模拟退火遗传算法的生成对抗网络过采样方法及装置,包括:
一种基于模拟退火遗传算法的生成对抗网络过采样方法,包括:
利用生成对抗人工神经网络的对抗性学习能力,确定样本数据与最优子代样本数据的对应关系;具体地,依据预设的个体适应度条件确定所述最优子代样本数据;依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数;依据所述网络参数确定所述对应关系;
获取目标样本数据;
通过所述对应关系,确定与所述目标样本数据对应的最优子代目标样本数据;具体地,确定与所述目标样本数据对应的最优子代目标样本数据,包括:将所述对应关系中与所述目标样本数据相同的目标样本数据所对应的子代目标样本数据,确定为所述最优子代目标样本数据。
进一步地,依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数的步骤,包括:
当所述最优子代样本数据对应的个体适应度高于所述生成网络预设的个体适应度时,以概率1将生成所述最优子代样本数据时对应的网络参数更新所述生成网络的原有网络参数;
当所述最优子代样本数据对应的个体适应度低于所述生成网络预设的个体适应度时,依据当前模拟退火温度,以及所述最优子代样本数据对应的个体适应度与所述生成网络预设的个体适应度的差异值确定更新概率;
以所述更新概率将生成所述最优子代样本数据时对应的网络参数更新所述生成网络的原有网络参数。
进一步地,依据当前模拟退火温度,以及所述最优子代样本数据对应的个体适应度与所述生成网络预设的个体适应度的差异值确定更新概率的步骤,包括:
依据以下公式确定所述更新概率,
Figure BDA0002434290170000031
Tn=α*Tn-1
式中:Fcbest代表所述最优子代样本数据对应的个体适应度;FG代表所述生成网络预设的个体适应度;△代表所述差异值;P代表所述更新概率;Tn代表所述当前模拟退火温度;n代表迭代次数;α代表退火系数。
进一步地,依据预设的个体适应度条件确定最优子代样本数据的步骤,包括:
利用生成对抗人工神经网络的对抗性学习能力,依据样本数据产生多个不同的子代样本数据;
确定各个所述子代样本数据的多样性适应度,以及质量分数;
依据所述多样性适应度,以及所述质量分数确认所述子代样本数据的个体适应度;
确定所述个体适应度最高的所述子代样本数据为所述最佳子代样本数据。
进一步地,确定各个所述子代样本数据的多样性适应度,以及质量分数的步骤,包括:
依据以下公式确定各个所述子样本数据的质量分数,
Figure BDA0002434290170000032
式中:Fq代表质量分数;z代表输入生成网络的噪声;G(z)代表生成网络输出的图像;D(G(z))代表以生成网络输出的图像作为输入时,判别网络的输出结果;
依据以下公式确定各个所述子样本数据的多样性适应度,
Figure BDA0002434290170000033
式中:Fd代表多样性适应度;
Figure BDA0002434290170000034
代表判别网络的梯度范围数值。
进一步地,依据所述多样性适应度,以及所述质量分数确认所述子代样本数据的个体适应度的步骤,包括:
依据以下公式确定各个所述子样本数据的个体适应度;
Figure BDA0002434290170000041
式中:F代表个体适应度;γ代表质量分数和多样性适应度的平衡系数。
一种基于模拟退火遗传算法的生成对抗网络过采样装置,包括:
建立模块,用于利用生成对抗人工神经网络的对抗性学习能力,确定样本数据与最优子代样本数据的对应关系;具体地,依据预设的个体适应度条件确定所述最优子代样本数据;依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数;依据所述网络参数确定所述对应关系;
获取模块,用于获取目标样本数据;
确定模块,用于通过所述对应关系,确定与所述目标样本数据对应的最优子代目标样本数据;具体地,确定与所述目标样本数据对应的最优子代目标样本数据,包括:将所述对应关系中与所述目标样本数据相同的目标样本数据所对应的子代目标样本数据,确定为所述最优子代目标样本数据。
进一步地,所述建立模块包括:
网络参数第一更新子模块,用当所述最优子代样本数据对应的个体适应度高于所述生成网络预设的个体适应度时,以概率1将生成所述最优子代样本数据时对应的网络参数更新所述生成网络的原有网络参数;
更新概率生成子模块,用于当所述最优子代样本数据对应的个体适应度低于所述生成网络预设的个体适应度时,依据当前模拟退火温度,以及所述最优子代样本数据对应的个体适应度与所述生成网络预设的个体适应度的差异值确定更新概率;
网络参数第二更新子模块,用于以所述更新概率将生成所述最优子代样本数据时对应的网络参数更新所述生成网络的原有网络参数。
一种设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的基于模拟退火遗传算法的生成对抗网络过采样方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的基于模拟退火遗传算法的生成对抗网络过采样方法的步骤。
本申请具有以下优点:
在本申请的实施例中,通过利用生成对抗人工神经网络的对抗性学习能力,确定样本数据与最优子代样本数据的对应关系;具体地,依据预设的个体适应度条件确定所述最优子代样本数据;依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数;依据所述网络参数确定所述对应关系;获取目标样本数据;通过所述对应关系,确定与所述目标样本数据对应的最优子代目标样本数据;具体地,确定与所述目标样本数据对应的最优子代目标样本数据,包括:将所述对应关系中与所述目标样本数据相同的目标样本数据所对应的子代目标样本数据,确定为所述最优子代目标样本数据。通过同时使用多个对抗学习目标训练生成网络,克服单一对抗学习目标的局限性;通过使用模拟退火算法来选择是否更新生成网络,避免模型陷入局部最优解,使模型收敛至全局最优,即学习到最贴近真实样本的分布,更好的解决不平衡问题。
附图说明
为了更清楚地说明本申请的技术方案,下面将对本申请的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的现有技术过采样方法与本申请过采样方法的过采样结果对比示意图;
图2是本申请一实施例提供的一种基于模拟退火遗传算法的生成对抗网络过采样方法的步骤流程图;
图3是本申请一实施例提供的一种基于模拟退火遗传算法的生成对抗网络过采样方法的退火遗传GAN神经网络结构示意图;
图4是本申请一具体实现提供的一种基于模拟退火遗传算法的生成对抗网络过采样方法的在MNIST和Fashion-MNIST集上的少数类召回率结果示意图;
图5是本申请一具体实现提供的一种基于模拟退火遗传算法的生成对抗网络过采样方法的在CIFAR-10和SVHN集上的表现结果示意图;
图6是本申请一具体实现提供的一种基于模拟退火遗传算法的生成对抗网络过采样方法的在CIFAR-10和SVHN集上生成的样本示意图;
图7是本申请一具体实现提供的一种基于模拟退火遗传算法的生成对抗网络过采样方法的在CIFAR-10集上对分类器的综合影响结果示意图;
图8是本申请一具体实现提供的一种基于模拟退火遗传算法的生成对抗网络过采样方法的在MNIST和Fashion-MNIST集上分布结果示意图;
图9是本申请一实施例提供的一种基于模拟退火遗传算法的生成对抗网络过采样装置的结构框图;
图10是本发明一实施例的一种计算机设备的结构示意图。
具体实施方式
为使本申请的所述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参照图1,需要说明的是,在本发明任一实施例中,本发明公开的方法应用于对少数类的样本处理,由于少数类的样本数量有限,现有的GAN模型在训练结束时可能只能学习少数类分布的一部分,因此可能会陷入局部最优,如图1中a部分所示,因此提出了本发明公开的新的模型退火遗传GAN(AGGAN)模型,将模拟退火遗传算法融入GAN模型的训练过程中以避免陷入局部最优问题图1中b部分所示。其中遗传算法和模拟退火是解决高维空间中搜索和优化问题的主要方法。
参照图2,示出了本申请一实施例提供的一种基于模拟退火遗传算法的生成对抗网络过采样方法,包括:
S210、利用生成对抗人工神经网络的对抗性学习能力,确定样本数据与最优子代样本数据的对应关系;具体地,依据预设的个体适应度条件确定所述最优子代样本数据;依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数;依据所述网络参数确定所述对应关系;
S220、获取目标样本数据;
S230、通过所述对应关系,确定与所述目标样本数据对应的最优子代目标样本数据;具体地,确定与所述目标样本数据对应的最优子代目标样本数据,包括:将所述对应关系中与所述目标样本数据相同的目标样本数据所对应的子代目标样本数据,确定为所述最优子代目标样本数据。
在本申请的实施例中,通过利用生成对抗人工神经网络的对抗性学习能力,确定样本数据与最优子代样本数据的对应关系;具体地,依据预设的个体适应度条件确定所述最优子代样本数据;依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数;依据所述网络参数确定所述对应关系;获取目标样本数据;通过所述对应关系,确定与所述目标样本数据对应的最优子代目标样本数据;具体地,确定与所述目标样本数据对应的最优子代目标样本数据,包括:将所述对应关系中与所述目标样本数据相同的目标样本数据所对应的子代目标样本数据,确定为所述最优子代目标样本数据。通过同时使用多个对抗学习目标训练生成网络,克服单一对抗学习目标的局限性;通过使用模拟退火算法来选择是否更新生成网络,避免模型陷入局部最优解,使模型收敛至全局最优,即学习到最贴近真实样本的分布,更好的解决不平衡问题。
参照图3,下面,将对本示例性实施例中基于模拟退火遗传算法的生成对抗网络过采样方法作进一步地说明。
如上述步骤S210所述,利用生成对抗人工神经网络的对抗性学习能力,确定样本数据与最优子代样本数据的对应关系;具体地,依据预设的个体适应度条件确定所述最优子代样本数据;依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数;依据所述网络参数确定所述对应关系。
在一实施例中,依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数的步骤,包括:
当所述最优子代样本数据对应的个体适应度高于所述生成网络预设的个体适应度时,以概率1将生成所述最优子代样本数据时对应的网络参数更新所述生成网络的原有网络参数;
当所述最优子代样本数据对应的个体适应度低于所述生成网络预设的个体适应度时,依据当前模拟退火温度,以及所述最优子代样本数据对应的个体适应度与所述生成网络预设的个体适应度的差异值确定更新概率;
以所述更新概率将生成所述最优子代样本数据时对应的网络参数更新所述生成网络的原有网络参数。
需要说明的是,使用模拟退火的机制来决定是否更新生成网络为上一步产生的最佳子代样本数据(GcBest)。如果GcBest的个体适应度高于生成网络G,则以概率1将GcBest更新为Gnew(下一代生成网络)。如果GcBest的个体适应度低于上一代生成网络G,则GcBest将以更新概率P更新为Gnew。在这样的过程中,以一个更坏的方向上的递减概率更新G,使得AGGAN能够渐近收敛到全局最优。
在一实施例中,依据当前模拟退火温度,以及所述最优子代样本数据对应的个体适应度与所述生成网络预设的个体适应度的差异值确定更新概率的步骤,包括:
依据以下公式确定所述更新概率,
Figure BDA0002434290170000081
Tn=α*Tn-1
式中:Fcbest代表所述最优子代样本数据对应的个体适应度;FG代表所述生成网络预设的个体适应度;△代表所述差异值;P代表所述更新概率;Tn代表所述当前模拟退火温度;n代表迭代次数;α代表退火系数。
需要说明的是,更新概率P由当前温度T、GcBest和G之间个体适应度的差异确定的。温度T在退火系数α的影响下逐渐减小。
在一实施例中,依据预设的个体适应度条件确定最优子代样本数据的步骤,包括:
利用生成对抗人工神经网络的对抗性学习能力,依据样本数据产生多个不同的子代样本数据;
确定各个所述子代样本数据的多样性适应度,以及质量分数;
依据所述多样性适应度,以及所述质量分数确认所述子代样本数据的个体适应度;
确定所述个体适应度最高的所述子代样本数据为所述最佳子代样本数据。
需要说明的是,在每次迭代中,生成网络G通过不同的对抗性学习目标产生不同的子代样本数据Gc。每个Gc代表生成网络在其解空间中的一个解。根据每个子代所产生样本的多样性和质量来评估的其个体适应度。然后保留个体适应度最高的子代GcBest,而消除其他后代。生成最佳子代的过程反映了遗传算法中适者生存的思想,采用不同的对抗学习目标克服了使用单一固定学习目标的局限性,有助于最终学习到的生成网络获得更好的性能。
在一实施例中,确定各个所述子代样本数据的多样性适应度,以及质量分数的步骤,包括:
将生成的图像输入判别网络D,将输出的平均值,命名为质量分数;具体地,依据以下公式确定各个所述子样本数据的质量分数,
Figure BDA0002434290170000091
式中:Fq代表质量分数;z代表输入生成网络的噪声;G(z)代表生成网络输出的图像;D(G(z))代表以生成网络输出的图像作为输入时,判别网络的输出结果。
如果生成网络获得一个相对较高的值,该值对应于较小的判别器梯度,则其生成的样本倾向于足够分散,以避免判别器具有明显的对策。形式上,多样性适应度得分定义为;具体地,依据以下公式确定各个所述子样本数据的多样性适应度,
Figure BDA0002434290170000092
式中:Fd代表多样性适应度;
Figure BDA0002434290170000101
代表判别网络的梯度范围数值。
在一实施例中,依据所述多样性适应度,以及所述质量分数确认所述子代样本数据的个体适应度的步骤,包括:
依据以下公式确定各个所述子样本数据的个体适应度;
Figure BDA0002434290170000102
式中:F代表个体适应度;γ代表质量分数和多样性适应度的平衡系数。
需要说明的是,在上述步骤之后,将以下列公式为目标函数更新判别网络,以进一步区分真实样本x和生成样本G(z)。而不断更新的判别网络D可以持续推动生成网络G向更好解移动。
Figure BDA0002434290170000103
其中,VD代表真实样x本和生成样本G(z)间的差异值。
如上述步骤S220所述,获取目标样本数据;
如上述步骤S230所述,通过所述对应关系,确定与所述目标样本数据对应的最优子代目标样本数据。
例如:实时识别出受试者的目标样本数据。
由此,通过基于对应关系,根据目标样本数据有效地识别出最优子代目标样本数据,从而为少数类提供准确的判断依据,且判断结果精准性好。
在一个可选例子中,步骤S230中确定与所述目标样本数据对应的最优子代目标样本数据,可以包括:将所述对应关系中与所述目标样本数据相同的子代目标样本数据,确定为所述最优子代目标样本数据。
在一个可选例子中,步骤S230中确定与所述目标样本数据对应的最优子代目标样本数据,还可以包括:当所述对应关系可以包括函数关系时,将所述目标样本数据输入所述函数关系中,确定所述函数关系的输出参数为最优子代目标样本数据。
由此,通过基于对应关系或函数关系,根据目标样本数据确定最优子代目标样本数据,确定方式简便,确定结果可靠性高。
例如,用训练所得到的人工神经网络模型去检测测试集中每一个样例的子代目标样本数据。
在一个可选实施方式中,还可以包括:验证所述最优子代目标样本数据与实际子代目标样本数据是否相符的过程。
可选地,可以接收到所述最优子代目标样本数据与实际子代目标样本数据不符的验证结果、和/或确定所述对应关系中没有与所述目标样本数据相同的目标样本数据时,对所述对应关系进行更新、修正、再学习中的至少一种维护操作。
例如:设备本身无法获知到实际子代目标样本数据,需要有医生的反馈操作才行,即如果设备智能判断出子代目标样本数据,医生通过操作反馈其与实际的状态不符,设备才能获知。
验证所述最优子代目标样本数据与实际子代目标样本数据是否相符(例如:可以通过AR显示模块对实际子代目标样本数据进行显示,以验证确定的所述最优子代目标样本数据与实际子代目标样本数据是否相符)。
当所述最优子代目标样本数据与实际子代目标样本数据不符、和/或所述对应关系中没有与所述目标样本数据相同的目标样本数据时,对所述对应关系进行更新、修正、再学习中的至少一种维护操作。
例如:可以根据维护后的对应关系,根据所述目标样本数据确定最优子代目标样本数据。例如:将维护后的所述对应关系中与所述目标样本数据相同的目标样本数据对应的子代目标样本数据,确定为最优子代目标样本数据。
由此,通过对确定的目标样本数据与子代目标样本数据之间的对应关系的维护,有利于提升对子代目标样本数据确定的精准性和可靠性。
参照图4~8,在一具体实现中,在Linux(Ubuntu16.04)系统上,使用Python完成了所有代码,在NVIDIA Tesla P40 24GB GPU显卡上训练并测试本发明方法的人工神经网络模型。使用深度学习Pytorch框架,利用Adam优化器,在模型训练的过程中,生成网络和辨别网络的初始学习率分别为0.001和0.0001。在MNIST、Fashion-MNIST、CIFAR-10、SVHN四个图像上进行不平衡实验,使用最为经典的支持向量机(SVM)作为分类器,验证本发明方法的有效性。
使用以下几种指标来衡量GAN的性能:
(1)识别率、几何平均、少数类的召回率:使用GAN过采样平衡后的数据训练出的分类器识别率(G-mean、少数类召回率)越高,说明过采样效果越好,即GAN生成的样本越接近真实样本。
(2)T-SNE降维后的分布展示:使用GAN过采样后的少数类样本与测试集中的该类样本重合度越高,表示生成样本的效果越好。
需要说明的是,实验使用了4个图像数据集:MNIST、Fashion MNIST、CIFAR-10和SVHN。因为所有数据集均为多元数据,所以从每个数据集中选择两个相似的类构造二元数据。从MNIST中选择数字3(正类)和数字5(负类),从Fashion MNIST中选择T恤(正类)和连衣裙(负类),从CIFAR-10中选择轮船(正类)和飞机(负类),从SVHN中选择数字8(正类)和数字9(负类)。
对于上述构造的二元数据集,从每个类中随机选择不同数量的样本来构造不平衡训练集。
实验使用GANs作为过采样方法来解决类不平衡问题。其中,只使用少数类的样本来训练GAN模型,而训练完成的GAN模型会生成新的样本来将不平衡数据集恢复到平衡状态。通过比较在不平衡数据集和平衡数据集上训练的分类器的性能,体现GANs解决类不平衡问题的能力。为了保证分类器得到充分的训练,分别对平衡前后的数据进行数据增强。
在实验中,选择了经典的支持向量机(SVM)作为分类器。为了缩短培训时间,使用支持GPU的Thunder-SVM进行训练。使用WGAN、WGANgp、E-GAN和AGGAN进行过采样,并使用相同的网络结构使这些不同的方法之间的比较是公平的。在使用MNIST和Fashion MNIST数据集的实验中,鉴别器由三个卷积层组成,生成网络由三个反卷积层组成。在CIFAR-10和SVHN的实验中,这两个网络分别有六层。
Figure BDA0002434290170000131
表1
表1显示了不同不平衡比率下MNIST和Fashion MNIST数据集的准确率和G-mean。原始不平衡数据和数据增强后不平衡数据的实验结果表明,数据不平衡会显著影响分类器的性能,单纯增加数据量并不能带来更好的性能。使用GANs进行过采样的实验结果表明,GANs可以有效地解决类不平衡的问题,在平衡后的数据上使用数据增强可以进一步提高分类器的性能。同时,可以观察到,当不平衡程度较低时,如1:10,不同的GANs表现相似。但是,随着不平衡程度的增加,AGGAN的优势也越来越明显。当不平衡比达到1:100时,AGGAN明显优于所有其它GAN。
参照图4,展示了在不平衡比例为1:100时,在MNIST和Fashion MNIST数据集中的少数类的召回率。可以看出,在这种情况下AGGAN能使分类结果中少数类的召回率保持在一个较高的水平,说明AGGAN可以比其它方法生成更贴近真实少数类样本的数据,使得过采样后的少数类能更好的覆盖该类的测试集,因此所训练的分类器能更好的对少数类进行正确分类。
参照图5,展示了不同不平衡比例时,在MNIST和Fashion MNIST数据集中的AUC指标。AUC因为不受样本正负数量的印象,因此在数据不平衡时更具有参考性。由图5可以看出,使用AGGAN过采样后的数据可以使训练好的分类器的AUC始终保持在一个较高水平。
参照表2、图6和图7,展示了在CIFAR-10和SVHN数据集上的实验结果和直观图像展示。对于CIFAR-10,使用1:5的不平衡比;对于SVHN,使用1:10的不平衡比。实验结果表明AGGAN仍然可以在更复杂的数据集上运行良好。这可以归因于使用AGGAN可以在较少的训练样本下生成更高质量的图像。图7通过计算CIFAR-10数据集中准确度和少数类的精准率、召回率、F1得分,展示了不同方法对分类性能的影响,这为AGGAN能够显著提高分类器的性能提供了坚实的证据。
Figure BDA0002434290170000141
表2
图8显示了t-SNE分析的结果,这是一种可以将降维数据投影到2D中进行可视化的技术。这里分别给出了在使用AGGAN平衡数据之前和之后MNIST和Fashion-MNIST数据集的数据分布。第一列显示原始的不平衡训练数据集,其中少数类的训练样本只能覆盖测试集的部分少数分布(均衡)。因此,许多属于少数民族的样本会被错误分类。然而,在图8的第二列,可以看到,使用AGGAN进行过采样后,训练集中的少数类样本几乎可以覆盖测试集中少数类的完全分布,因此分类器的性能可以显著提高。这些结果表明,AGGAN能够从稀缺的少数类样本中学习到真实的分布,进而从数据分布的角度证明了AGGAN的优越性能。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
参照图9,示出了本申请一实施例提供的一种基于模拟退火遗传算法的生成对抗网络过采样装置,包括:
建立模块910,用于利用生成对抗人工神经网络的对抗性学习能力,确定样本数据与最优子代样本数据的对应关系;具体地,依据预设的个体适应度条件确定所述最优子代样本数据;依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数;依据所述网络参数确定所述对应关系;
获取模块920,用于获取目标样本数据;
确定模块930,用于通过所述对应关系,确定与所述目标样本数据对应的最优子代目标样本数据;具体地,确定与所述目标样本数据对应的最优子代目标样本数据,包括:将所述对应关系中与所述目标样本数据相同的目标样本数据所对应的子代目标样本数据,确定为所述最优子代目标样本数据。
在一实施例中,所述建立模块910,包括:
网络参数第一更新子模块,用当所述最优子代样本数据对应的个体适应度高于所述生成网络预设的个体适应度时,以概率1将生成所述最优子代样本数据时对应的网络参数更新所述生成网络的原有网络参数;
更新概率生成子模块,用于当所述最优子代样本数据对应的个体适应度低于所述生成网络预设的个体适应度时,依据当前模拟退火温度,以及所述最优子代样本数据对应的个体适应度与所述生成网络预设的个体适应度的差异值确定更新概率;
网络参数第二更新子模块,用于以所述更新概率将生成所述最优子代样本数据时对应的网络参数更新所述生成网络的原有网络参数。
在一实施例中,所述更新概率生成子模块,包括:
依据以下公式确定所述更新概率,
Figure BDA0002434290170000151
Tn=α*Tn-1
式中:Fcbest代表所述最优子代样本数据对应的个体适应度;FG代表所述生成网络预设的个体适应度;△代表所述差异值;P代表所述更新概率;Tn代表所述当前模拟退火温度;n代表迭代次数;α代表退火系数。
在一实施例中,所述建立模块910,包括:
子代样本数据产生子模块,用于利用生成对抗人工神经网络的对抗性学习能力,依据样本数据产生多个不同的子代样本数据;
多样性适应度,以及质量分数确定子模块,用于确定各个所述子代样本数据的多样性适应度,以及质量分数;
个体适应度确定子模块,用于依据所述多样性适应度,以及所述质量分数确认所述子代样本数据的个体适应度;
最佳子代样本数据确定子模块,用于确定所述个体适应度最高的所述子代样本数据为所述最佳子代样本数据。
在一实施例中,所述多样性适应度,以及质量分数确定子模块,包括:
依据以下公式确定各个所述子样本数据的质量分数,
Figure BDA0002434290170000161
式中:Fq代表质量分数;z代表输入生成网络的噪声;G(z)代表生成网络输出的图像;D(G(z))代表以生成网络输出的图像作为输入时,判别网络的输出结果。
依据以下公式确定各个所述子样本数据的多样性适应度,
Figure BDA0002434290170000162
式中:Fd代表多样性适应度;
Figure BDA0002434290170000163
代表判别网络的梯度范围数值。
在一实施例中,所述个体适应度确定子模块,包括:
依据以下公式确定各个所述子样本数据的个体适应度;
Figure BDA0002434290170000164
式中:F代表个体适应度;γ代表质量分数和多样性适应度的平衡系数。
参照图10,示出了本发明的一种基于模拟退火遗传算法的生成对抗网络过采样方法的计算机设备,具体可以包括如下:
上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线18结构中的一种或多种,包括存储器总线18或者存储器控制器,外围总线18,图形加速端口,处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线18,微通道体系结构(MAC)总线18,增强型ISA总线18、音视频电子标准协会(VESA)局域总线18以及外围组件互连(PCI)总线18。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图10中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些程序模块42被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)界面22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)),广域网(WAN)和/或公共网络(例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白,尽管图10中未示出,可以结合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于模拟退火遗传算法的生成对抗网络过采样方法。
也即,上述处理单元16执行上述程序时实现:利用生成对抗人工神经网络的对抗性学习能力,确定样本数据与最优子代样本数据的对应关系;具体地,依据预设的个体适应度条件确定所述最优子代样本数据;依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数;依据所述网络参数确定所述对应关系;获取目标样本数据;通过所述对应关系,确定与所述目标样本数据对应的最优子代目标样本数据;具体地,确定与所述目标样本数据对应的最优子代目标样本数据,包括:将所述对应关系中与所述目标样本数据相同的目标样本数据所对应的子代目标样本数据,确定为所述最优子代目标样本数据。
在本发明实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的基于模拟退火遗传算法的生成对抗网络过采样方法:
也即,给程序被处理器执行时实现:利用生成对抗人工神经网络的对抗性学习能力,确定样本数据与最优子代样本数据的对应关系;具体地,依据预设的个体适应度条件确定所述最优子代样本数据;依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数;依据所述网络参数确定所述对应关系;获取目标样本数据;通过所述对应关系,确定与所述目标样本数据对应的最优子代目标样本数据;具体地,确定与所述目标样本数据对应的最优子代目标样本数据,包括:将所述对应关系中与所述目标样本数据相同的目标样本数据所对应的子代目标样本数据,确定为所述最优子代目标样本数据。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机克顿信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPOM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的基于模拟退火遗传算法的生成对抗网络过采样方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种基于模拟退火遗传算法的生成对抗网络的过采样方法,其特征在于,包括:
利用生成对抗人工神经网络的对抗性学习能力,确定样本数据与最优子代样本数据的对应关系;具体地,依据预设的个体适应度条件确定所述最优子代样本数据;依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数;依据所述网络参数确定所述对应关系;
获取目标样本数据;
通过所述对应关系,确定与所述目标样本数据对应的最优子代目标样本数据;具体地,确定与所述目标样本数据对应的最优子代目标样本数据,包括:将所述对应关系中与所述目标样本数据相同的目标样本数据所对应的子代目标样本数据,确定为所述最优子代目标样本数据。
2.根据权利要求1所述的方法,其特征在于,依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数的步骤,包括:
当所述最优子代样本数据对应的个体适应度高于所述生成网络预设的个体适应度时,以概率1将生成所述最优子代样本数据时对应的网络参数更新所述生成网络的原有网络参数;
当所述最优子代样本数据对应的个体适应度低于所述生成网络预设的个体适应度时,依据当前模拟退火温度,以及所述最优子代样本数据对应的个体适应度与所述生成网络预设的个体适应度的差异值确定更新概率;
以所述更新概率将生成所述最优子代样本数据时对应的网络参数更新所述生成网络的原有网络参数。
3.根据权利要求1所述的方法,其特征在于,依据当前模拟退火温度,以及所述最优子代样本数据对应的个体适应度与所述生成网络预设的个体适应度的差异值确定更新概率的步骤,包括:
依据以下公式确定所述更新概率,
Figure FDA0002434290160000011
Figure FDA0002434290160000012
Tn=α*Tn-1
式中:Fcbest代表所述最优子代样本数据对应的个体适应度;FG代表所述生成网络预设的个体适应度;△代表所述差异值;P代表所述更新概率;Tn代表所述当前模拟退火温度;n代表迭代次数;α代表退火系数。
4.根据权利要求1所述的方法,其特征在于,依据预设的个体适应度条件确定最优子代样本数据的步骤,包括:
利用生成对抗人工神经网络的对抗性学习能力,依据样本数据产生多个不同的子代样本数据;
确定各个所述子代样本数据的多样性适应度,以及质量分数;
依据所述多样性适应度,以及所述质量分数确认所述子代样本数据的个体适应度;
确定所述个体适应度最高的所述子代样本数据为所述最佳子代样本数据。
5.根据权利要求4所述的方法,其特征在于,确定各个所述子代样本数据的多样性适应度,以及质量分数的步骤,包括:
依据以下公式确定各个所述子样本数据的质量分数,
Figure FDA0002434290160000021
式中:Fq代表质量分数;z代表输入生成网络的噪声;G(z)代表生成网络输出的图像;D(G(z))代表以生成网络输出的图像作为输入时,判别网络的输出结果;
依据以下公式确定各个所述子样本数据的多样性适应度,
Figure FDA0002434290160000022
式中:Fd代表多样性适应度;
Figure FDA0002434290160000023
代表判别网络的梯度范围数值。
6.根据权利要求4所述的方法,其特征在于,依据所述多样性适应度,以及所述质量分数确认所述子代样本数据的个体适应度的步骤,包括:
依据以下公式确定各个所述子样本数据的个体适应度;
Figure FDA0002434290160000024
式中:F代表个体适应度;γ代表质量分数和多样性适应度的平衡系数。
7.一种基于模拟退火遗传算法的生成对抗网络过采样装置,其特征在于,包括:
建立模块,用于利用生成对抗人工神经网络的对抗性学习能力,确定样本数据与最优子代样本数据的对应关系;具体地,依据预设的个体适应度条件确定所述最优子代样本数据;依据所述最优子代样本数据确定所述生成对抗人工神经网络中生成网络的网络参数;依据所述网络参数确定所述对应关系;
获取模块,用于获取目标样本数据;
确定模块,用于通过所述对应关系,确定与所述目标样本数据对应的最优子代目标样本数据;具体地,确定与所述目标样本数据对应的最优子代目标样本数据,包括:将所述对应关系中与所述目标样本数据相同的目标样本数据所对应的子代目标样本数据,确定为所述最优子代目标样本数据。
8.根据权利要求7所述的装置,其特征在于,所述建立模块包括:
网络参数第一更新子模块,用当所述最优子代样本数据对应的个体适应度高于所述生成网络预设的个体适应度时,以概率1将生成所述最优子代样本数据时对应的网络参数更新所述生成网络的原有网络参数;
更新概率生成子模块,用于当所述最优子代样本数据对应的个体适应度低于所述生成网络预设的个体适应度时,依据当前模拟退火温度,以及所述最优子代样本数据对应的个体适应度与所述生成网络预设的个体适应度的差异值确定更新概率;
网络参数第二更新子模块,用于以所述更新概率将生成所述最优子代样本数据时对应的网络参数更新所述生成网络的原有网络参数。
9.一种设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
CN202010247326.XA 2020-03-31 2020-03-31 基于模拟退火遗传算法的生成对抗网络过采样方法及装置 Pending CN111401528A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010247326.XA CN111401528A (zh) 2020-03-31 2020-03-31 基于模拟退火遗传算法的生成对抗网络过采样方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010247326.XA CN111401528A (zh) 2020-03-31 2020-03-31 基于模拟退火遗传算法的生成对抗网络过采样方法及装置

Publications (1)

Publication Number Publication Date
CN111401528A true CN111401528A (zh) 2020-07-10

Family

ID=71429331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010247326.XA Pending CN111401528A (zh) 2020-03-31 2020-03-31 基于模拟退火遗传算法的生成对抗网络过采样方法及装置

Country Status (1)

Country Link
CN (1) CN111401528A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434459A (zh) * 2021-06-30 2021-09-24 电子科技大学 基于生成对抗网络的片上网络任务映射方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434459A (zh) * 2021-06-30 2021-09-24 电子科技大学 基于生成对抗网络的片上网络任务映射方法

Similar Documents

Publication Publication Date Title
CN108564129B (zh) 一种基于生成对抗网络的轨迹数据分类方法
EP3355244A1 (en) Data fusion and classification with imbalanced datasets
US20170032276A1 (en) Data fusion and classification with imbalanced datasets
US20220067588A1 (en) Transforming a trained artificial intelligence model into a trustworthy artificial intelligence model
US20190311258A1 (en) Data dependent model initialization
US11113573B1 (en) Method for generating training data to be used for training deep learning network capable of analyzing images and auto labeling device using the same
CN111274981B (zh) 目标检测网络构建方法及装置、目标检测方法
CN110956255A (zh) 难样本挖掘方法、装置、电子设备及计算机可读存储介质
US20200065664A1 (en) System and method of measuring the robustness of a deep neural network
CN111275660A (zh) 一种平板显示器缺陷检测方法及装置
US10101971B1 (en) Hardware device based software verification
JP2018045673A (ja) 分類器構築方法、画像分類方法、分類器構築装置および画像分類装置
WO2023088174A1 (zh) 目标检测方法及装置
CN111401528A (zh) 基于模拟退火遗传算法的生成对抗网络过采样方法及装置
US11373285B2 (en) Image generation device, image generation method, and image generation program
JP2020052475A (ja) 分類器構築方法、画像分類方法、分類器構築装置および画像分類装置
CN113159233A (zh) 一种谱聚类加速方法、系统、计算机设备及存储介质
Silver et al. SLIQ: quantum image similarity networks on noisy quantum computers
CN112560834A (zh) 一种坐标预测模型生成方法、装置及图形识别方法、装置
CN113362372B (zh) 一种单目标追踪方法及计算机可读介质
CN116185843B (zh) 基于神经元覆盖率引导的两阶段神经网络测试方法及装置
Wang et al. Adaptive Contrastive Learning for Learning Robust Representations under Label Noise
WO2023053216A1 (ja) 機械学習プログラム、機械学習方法および機械学習装置
Roshan et al. IMBoost: a new weighting factor for boosting to improve the classification performance of imbalanced data
CN116959078B (zh) 疲劳检测模型的构建方法、疲劳检测方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination