CN114021704B - 一种ai神经网络模型的训练方法及相关装置 - Google Patents

一种ai神经网络模型的训练方法及相关装置 Download PDF

Info

Publication number
CN114021704B
CN114021704B CN202210000464.7A CN202210000464A CN114021704B CN 114021704 B CN114021704 B CN 114021704B CN 202210000464 A CN202210000464 A CN 202210000464A CN 114021704 B CN114021704 B CN 114021704B
Authority
CN
China
Prior art keywords
sample
training
layer
neural network
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210000464.7A
Other languages
English (en)
Other versions
CN114021704A (zh
Inventor
乐康
张耀
张滨
徐大鹏
曹保桂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Seichitech Technology Co ltd
Original Assignee
Shenzhen Seichitech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Seichitech Technology Co ltd filed Critical Shenzhen Seichitech Technology Co ltd
Priority to CN202210000464.7A priority Critical patent/CN114021704B/zh
Publication of CN114021704A publication Critical patent/CN114021704A/zh
Application granted granted Critical
Publication of CN114021704B publication Critical patent/CN114021704B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种AI神经网络模型的训练方法及相关装置,用于降低漏检率和误检率。本申请方法包括:获取训练样本集;建立初始AI神经网络模型;将训练样本输入初始AI神经网络模型;进行卷积特征提取,生成第一样本特征;对第一样本特征进行通道混合,生成第二样本特征;对第二样本特征进行池化降维处理和dropout操作,生成第三样本特征;对第三样本特征进行高维特征提取,生成第四样本特征;对第四样本特征进行卷积处理,生成第五样本特征;对第五样本特征进行分块池化降维处理,生成特征值向量;对特征值向量进行计算,生成概率分布;计算损失值,生成损失值变化数据;判断在预设区间内否小于预设阈值;若是,则确定训练完成。

Description

一种AI神经网络模型的训练方法及相关装置
技术领域
本申请涉及神经网络领域,尤其涉及一种AI神经网络模型的训练方法及相关装置。
背景技术
随着信息显示技术的不断发展,显示屏(Organic ElectroluminescenceDisplay,OLED)凭借其自发光、可弯曲、视角广泛、响应速度快、制程简单等优势,正逐步取代传统的LCD,快速深入的应用到现代社会的各个领域。
在OLED生产制作的过程中,由于OLED制程工艺复杂、蒸镀工艺难以实现非常良好的平整性,导致每个子像素的发光亮度在相同外部条件下差异较大,这是一种常见缺陷Mura,在OLED显示中相较半导体发光二极管(Light Emitting Diode、LCD)更为严重。这就使得在OLED制作完成之后,需要对每个OLED的子像素进行补偿,以达到显示屏显示标准。在对OLED的子像素进行补偿之前,首先需要对OLED进行良品检测,只有非良品的OLED才需要进行子像素进行补偿。当前OLED的良品检测在技术和方式有三类:机器视觉检测、影像亮度色度计、人工检测。
影像亮度色度计检测:影像亮度色度计检测是基于CCD的影像系统,经过校准之后,对光线、亮度和色彩的反应与CIE模型定义的标准大体一致,能近似获得人眼感知效果。优点是具有缺陷固定情况下重复检测效率高的优点,但是存在检测灵活性差,成本高,时延大等缺点。人工检测:当前人工检测方式,众所周知,人工检测存在主观性、随意性、效率低,成本高、误差大等缺点,由于缺陷Mura低对比度、边缘模糊、形状不固定等特性,导致人眼无法识别,所以人工检测已经是濒临淘汰的最原始检测方式。机器视觉检测:机器视觉检测包含图像预处理系统、判别系统、深度学习平台,图片存储系统,综合运用了图像预处理、缺陷检测算法、机器学习、深度学习等AI技术。先通过工业相机获取显示屏图像,再使用图像预处理技术凸显特征,通过训练好的卷积神经网络模型算法进行识别,从而达到代替人工检测的目的。具备效率高,成本低,灵活性强的优点。所以,机器视觉检测就成为了当前较为重点研究的良品检测方式。
当前,存在一种使用VGG-16卷积神经网络模型对OLED进行良品检测的方式。使用VGG-16卷积神经网络模型对OLED进行良品检测之前,需要将多组显示屏图像输入原始VGG-16卷积神经网络模型中进行网络的训练。但是,由于训练样本中的Mura缺陷类型各异,并且训练样本的尺寸大小不同,神经网络随着卷积层数的增加,小的Mura缺陷特征会被淹没在背景中,使得神经网络模型的训练效果下降,增加了神经网络模型的漏检率和误检率。
发明内容
本申请第一方面提供了一种AI神经网络模型的训练方法,其特征在于,包括:
获取训练样本集,训练样本集中包含存在Mura缺陷的显示屏的拍摄图像和不存在Mura缺陷的显示屏的拍摄图像;
建立初始AI神经网络模型,初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,高维特征提取模块包含至少三个特征值向量提取层,特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成;
从训练样本集中选取训练样本,输入初始AI神经网络模型;
通过特征金字塔网络对训练样本进行卷积特征提取,生成第一样本特征,所述第一样本特征融合了不同深度卷积层的特征;
通过通道混合模块对第一样本特征进行通道随机混合,生成第二样本特征;
通过Trans模块对第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,Trans模块包含空间金字塔通道池化层、全局平均池化层和dropout层;
通过高维特征提取模块对第三样本特征进行高维特征提取,生成第四样本特征,Trans子模块包含空间金字塔通道池化层、全局平均池化层和dropout层,Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成;
通过Dense模块对第四样本特征进行卷积处理,生成第五样本特征,Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入;
通过空间通道金字塔池化模块对第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表训练样本的宽与高;
对特征值向量进行计算,以生成训练样本归属良品和非良品的概率分布;
根据训练样本归属良品和非良品的概率分布、训练样本归属良品和非良品的真实概率分布与初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据;
判断损失值变化数据在预设区间内是否小于预设阈值;
若损失值变化数据在预设区间内小于预设阈值,则确定初始AI神经网络模型为目标AI神经网络模型。
可选的,在判断损失值变化数据在预设区间内是否小于预设阈值之后,训练方法还包括:
若损失值变化数据在预设区间内不小于预设阈值,则判断训练样本的训练次数是否达标;
若训练样本的训练次数达标,根据小批梯度下降法更新初始AI神经网络模型的权值,并把训练过程中获取到的训练样本的特征和概率分布进行模型保存;
从训练样本集中重新选取训练样本输入初始AI神经网络模型中训练。
可选的,在确定初始AI神经网络模型为目标AI神经网络模型之后,训练方法还包括:
获取目标显示屏图像,并将目标显示屏图像输入目标AI神经网络模型,目标显示屏图像为目标显示屏的拍摄图像;
将目标显示屏图像归属良品和非良品的概率分布中最大概率值输出;
通过检测软件检测目标显示屏图像的归属良品和非良品的检测结果;
根据最大概率值与检测结果输出目标显示屏的检测结果。
可选的,在判断训练样本的训练次数是否达标之后,训练方法还包括:
若训练样本的训练次数未达标,则根据小批梯度下降法更新初始AI神经网络模型的权值,并将训练样本重新输入初始AI神经网络模型中训练。
可选的,通过特征金字塔网络对训练样本进行卷积特征提取,生成第一样本特征,包括:
通过特征金字塔网络对训练样本依次进行多层次卷积处理、特征通道融合处理、通道降维处理、上采样处理、二次卷积采样处理和通道叠加处理,生成第一样本特征。
可选的,通过Trans模块对第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,包括:
通过Trans模块中的空间金字塔通道池化层对第二样本特征进行通道的分组,以使得每一组中包含不同份数的通道集合,每一个通道集合包含至少一个通道;
对每一组中每一份通道集合的对应位置进行池化降维处理,并输出对应份数的通道池化数据,以生成初始通道池化数据集合;
对只有一份通道集合的组的通道池化数据进行复制,并结合通道池化数据集合生成目标通道池化数据集合;
通过Trans模块中的全局平均池化层和dropout层分别对所述目标通道池化数据集合进行池化降维处理和dropout操作,生成第三样本特征。
可选的,获取训练样本集,包括:
拍摄显示屏集合,以生成拍摄样本集,显示屏集合中包括存在Mura缺陷的显示屏和不存在Mura缺陷的显示屏;
对拍摄样本集中的拍摄样本进行样本扩充预处理,生成训练样本集,样本扩充预处理包含放缩处理、裁剪处理、旋转处理和照片背景灰度直流分量统一化处理。
本申请第二方面提供了一种AI神经网络模型的训练装置,其特征在于,包括:
获取单元,用于获取训练样本集,训练样本集中包含存在Mura缺陷的显示屏的拍摄图像和不存在Mura缺陷的显示屏的拍摄图像;
建立单元,用于建立初始AI神经网络模型,初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,高维特征提取模块包含至少三个特征值向量提取层,特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成;
第一选取单元,用于从训练样本集中选取训练样本,输入初始AI神经网络模型;
第一提取单元,用于通过特征金字塔网络对训练样本进行卷积特征提取,生成第一样本特征,第一样本特征融合了不同深度卷积层的特征;
混合单元,用于通过通道混合模块对第一样本特征进行通道随机混合,生成第二样本特征;
第一池化单元,用于通过Trans模块对第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,Trans模块包含空间金字塔通道池化层、全局平均池化层和dropout层;
第二提取单元,用于通过高维特征提取模块对第三样本特征进行高维特征提取,生成第四样本特征,Trans子模块包含空间金字塔通道池化层、全局平均池化层和dropout层,Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成;
卷积单元,用于通过Dense模块对第四样本特征进行卷积处理,生成第五样本特征,Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入;
第二池化单元,用于通过空间通道金字塔池化模块对第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表训练样本的宽与高;
第一计算单元,用于对特征值向量进行计算,以生成训练样本归属良品和非良品的概率分布;
第二计算单元,用于根据训练样本归属良品和非良品的概率分布、训练样本归属良品和非良品的真实概率分布与初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据;
第一判断单元,用于判断损失值变化数据在预设区间内的损失值是否小于预设阈值;
确定单元,用于当第一判断单元确定损失值变化数据在预设区间内的损失值小于预设阈值时,则确定初始AI神经网络模型为目标AI神经网络模型。
可选的,训练装置还包括:
第二判断单元,用于当第一判断单元确定损失值变化数据在预设区间内不小于预设阈值,则判断训练样本的训练次数是否达标;
第一更新单元,当第二判断单元确定训练样本的训练次数达标,根据小批梯度下降法更新初始AI神经网络模型的权值,并把训练过程中获取到的训练样本的特征和概率分布进行模型保存;
第二选取单元,用于从训练样本集中重新选取训练样本输入初始AI神经网络模型中训练。
可选的,训练装置还包括:
第三获取单元,用于获取目标显示屏图像,并将目标显示屏图像输入目标AI神经网络模型,目标显示屏图像为目标显示屏的拍摄图像;
输入单元,用于将目标显示屏图像归属良品和非良品的概率分布中最大概率值输出;
检测单元,用于通过检测软件检测目标显示屏图像的归属良品和非良品的检测结果;
输出单元,用于根据最大概率值与检测结果输出目标显示屏的检测结果。
可选的,训练装置还包括:
第二更新单元,用于当第二判断单元确定训练样本的训练次数未达标,则根据小批梯度下降法更新初始AI神经网络模型的权值,并将训练样本重新输入初始AI神经网络模型中训练。
可选的,第一提取单元,具体为:
通过特征金字塔网络对训练样本依次进行多层次卷积处理、特征通道融合处理、通道降维处理、上采样处理、二次卷积采样处理和通道叠加处理,生成第一样本特征。
可选的,第一池化单元,具体为:
通过Trans模块中的空间金字塔通道池化层对第二样本特征进行通道的分组,以使得每一组中包含不同份数的通道集合,每一个通道集合包含至少一个通道;
对每一组中每一份通道集合的对应位置进行池化降维处理,并输出对应份数的通道池化数据,以生成初始通道池化数据集合;
对只有一份通道集合的组的通道池化数据进行复制,并结合通道池化数据集合生成目标通道池化数据集合;
通过Trans模块中的全局平均池化层和dropout层分别对所述目标通道池化数据集合进行池化降维处理和dropout操作,生成第三样本特征。
可选的,获取单元,具体为:
拍摄显示屏集合,以生成拍摄样本集,显示屏集合中包括存在Mura缺陷的显示屏和不存在Mura缺陷的显示屏;
对拍摄样本集中的拍摄样本进行样本扩充预处理,生成训练样本集,样本扩充预处理包含放缩处理、裁剪处理、旋转处理和照片背景灰度直流分量统一化处理。
本申请第三方面提供了一种电子设备,其特征在于,包括:
处理器、存储器、输入输出单元以及总线;
处理器与存储器、输入输出单元以及总线相连;
存储器保存有程序,处理器调用程序以执行如第一方面以及第一方面的任意可选的训练方法。
本申请第四方面提供了一种计算机可读存储介质,计算机可读存储介质上保存有程序,程序在计算机上执行时执行如第一方面以及第一方面的任意可选的训练方法。
从以上技术方案可以看出,本申请具有以下优点:
首先,终端获取训练样本集,其中训练样本集中包含存在Mura缺陷的显示屏的拍摄图像和不存在Mura缺陷的显示屏的拍摄图像。接着,终端建立初始AI神经网络模型,其中,初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,高维特征提取模块包含至少三个特征值向量提取层,特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成。通过该初始AI神经网络模型对存在Mura缺陷的显示屏拍摄图像进行训练。终端从训练样本集中选取训练样本,输入初始AI神经网络模型。终端通过初始AI神经网络模型中的特征金字塔网络对训练样本进行卷积特征提取,生成第一样本特征,第一样本特征融合了不同深度卷积层的特征,可适用于对多尺度训练样本的训练。终端再通过初始AI神经网络模型中的通道混合模块对第一样本特征进行通道随机混合,生成第二样本特征。接着终端通过初始AI神经网络模型中的Trans模块对第二样本特征进行池化降维处理,生成第三样本特征,Trans模块包含空间金字塔通道池化层、全局平均池化层和dropout层。然后终端通过初始AI神经网络模型中的高维特征提取模块对第三样本特征进行高维特征提取,生成第四样本特征,其中,Trans子模块包含空间金字塔通道池化层和全局平均池化层,Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成。终端通过初始AI神经网络模型中的Dense模块对第四样本特征进行卷积处理,生成第五样本特征,其中,Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入。终端通过初始AI神经网络模型中的空间通道金字塔池化模块对第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表训练样本的宽与高。终端对特征值向量进行计算,以生成训练样本归属良品和非良品的概率分布。终端根据训练样本归属良品和非良品的概率分布、训练样本归属良品和非良品的真实概率分布与初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据。终端判断损失值变化数据在预设区间内是否小于预设阈值,当终端确定若损失值变化数据在预设区间内小于预设阈值时,则终端确定初始AI神经网络模型为目标AI神经网络模型。本技术方案中,通过在AI神经网络模型中设置了由Trans子模块、Dense子模块和Xception子模块组成的特征值向量提取层,可以实现对训练样本中对高维特征的提取。并且AI神经网络模型中还设置了特征金字塔网络,用于实现多尺寸检测以及适配不同尺寸大小的图片。特征金字塔网络通过融合不同深度卷积层的特征,较好地改善了多尺度问题,使得AI神经网络能对不同大小形状的Mura都有较好的检测率,降低了AI神经网络模型的漏检率和误检率。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请中AI神经网络模型的训练方法的一个实施例示意图;
图2为本申请中AI神经网络模型的空间金字塔通道池化层原理图;
图3为本申请中AI神经网络模型的Xception子模块原理图;
图4-1、图4-2和图4-3为本申请中AI神经网络模型的训练方法的另一个实施例示意图;
图5为本申请中AI神经网络模型的网络层的一个实施例流程示意图;
图6为本申请中AI神经网络模型的网络层的另一个实施例结构示意图;
图7为本申请中AI神经网络模型的网络层的另一个实施例结构示意图;
图8为本申请AI神经网络模型的训练装置的一个实施例示意图;
图9为本申请AI神经网络模型的训练装置的另一个实施例示意图;
图10为本申请电子设备的一个实施例示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
在现有技术中,存在一种使用VGG-16卷积神经网络模型对OLED进行良品检测的方式。使用VGG-16卷积神经网络模型对OLED进行良品检测之前,需要将多组显示屏图像输入原始VGG-16卷积神经网络模型中进行网络的训练。但是,由于训练样本中的Mura缺陷类型各异,并且训练样本的尺寸大小不同,神经网络随着卷积层数的增加,小的Mura缺陷特征会被淹没在背景中,使得神经网络模型的训练效果下降,增加了神经网络模型的漏检率和误检率。
基于此,本申请公开了一种AI神经网络模型的训练方法及相关装置,通过在AI神经网络模型中设置了特征金字塔网络,用于实现多尺寸检测以及适配不同尺寸大小的图片。特征金字塔网络通过融合不同深度卷积层的特征,较好地改善了多尺度问题,使得AI神经网络能对不同大小形状的Mura都有较好的检测率,降低了AI神经网络模型的漏检率和误检率。
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的方法可以应用于服务器、设备、终端或者其它具备逻辑处理能力的设备,对此,本申请不作限定。为方便描述,下面以执行主体为终端为例进行描述。
请参阅图1,本申请提供了一种AI神经网络模型的训练方法的一个实施例,包括:
101、获取训练样本集,训练样本集中包含存在Mura缺陷的显示屏的拍摄图像和不存在Mura缺陷的显示屏的拍摄图像;
终端首先需要获取用于训练初始AI神经网络模型的训练样本集,训练样本集中包含多张存在缺陷类型的显示屏图像以及多张常规良品检测正常的显示屏图像,用于对初始AI神经网络模型进行训练。获取训练样本集的方式可以是从网络收集多张存在缺陷类型的显示屏图像,也可以是从生产场地现场拍摄带有缺陷类型的显示屏而生成的图像,此处不作限定。下面对训练样本的获取的步骤进行举例说明:
首先采集多种缺陷类型的显示屏图像,以使得训练样本的类型丰富充足。显示屏的缺陷为Mura缺陷,Mura缺陷的类型包括小彩斑、灰阶点状白斑、大面积片状彩斑、S向边缘Mura、G向彩带、拐角Mura等多种典型缺陷类型的显示屏图像,此处不作限定。
102、建立初始AI神经网络模型,初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,高维特征提取模块包含至少三个特征值向量提取层,特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成;
终端建立初始AI神经网络模型,本实施例中,使用初始AI神经网络模型时,在进行一定的参数设置,以及一定程度的初始训练后,即可用于训练上述的训练样本集中的训练样本。
初始AI神经网络模型中包含用于进行不同深度卷积层的特征的融合的特征金字塔网络,用于提高不同深度特征融合效果的通道混合模块,用于特征融合以及减少特征通道的Trans模块,用于提取改为特征信息的高维特征提取模块,用于减少提高特征传递效果以及减小梯度消失的Dense模块,以及用于池化降维的空间通道金字塔池化模块,高维特征提取模块包含至少三个特征值向量提取层,特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成。
103、从训练样本集中选取训练样本,输入初始AI神经网络模型;
终端从训练样本集中随机抽取一定数量的样本,同时进行训练。本实施例中,采用批量大小为32的小批量训练卷积神经网络,通过多次迭代,达到训练效果。本实施例中,迭代的次数约为25000次。
终端将选取出来的一个批次的训练样本输入初始AI神经网络模型中,以使得初始AI神经网络模型对训练样本进行学习分析。
104、通过特征金字塔网络对训练样本进行卷积特征提取,生成第一样本特征,第一样本特征融合了不同深度卷积层的特征;
终端通过初始AI神经网络模型中的特征金字塔网络对训练样本进行卷积特征提取,通过特征金字塔网络(FPN,Feature Pyramid Networks)的特性,对训练样本进行不同深度的卷积特征提取,并且对提取到的特征进行融合,生成第一样本特征,第一样本特征为具有多个通道的特征数据。
105、通过通道混合模块对第一样本特征进行通道随机混合,生成第二样本特征;
终端通过通道混合模块将FPN输出的第一样本特征的各个通道打乱顺序,增加通道间的特征融合,以此生成第二样本特征。
例如:假设第一样本特征为1024个经过排序输出的特征通道,通过将1024个特征通道分成8份,将每一份通道的顺序进行重新组合,使得特征通道输出的特征图中的特征充分融合。
106、通过Trans模块对第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,Trans模块包含空间金字塔通道池化层、全局平均池化层和dropout层;
终端通过Trans模块对第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,Trans模块包含空间金字塔通道池化层、全局平均池化层和dropout层,在降维的同时,防止模型过拟合。
107、通过高维特征提取模块对第三样本特征进行高维特征提取,生成第四样本特征,Trans子模块包含空间金字塔通道池化层、全局平均池化层和dropout层,Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成;
终端通过高维特征提取模块对第三样本特征进行高维特征提取,生成第四样本特征,其中,Trans子模块包含空间金字塔通道池化层、全局平均池化层和dropout层,Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成。
例如:在初始AI神经网络模型的高维特征提取模块中,有三个特征值向量提取层串联,每一个特征值向量提取层由一个Trans子模块、一个Dense子模块和一个Xception子模块组成。并且,Trans子模块包含重新设计的用于通道间池化的空间金字塔通道池化层(SCPP,Spatial Channel Pyramid Pooling)和全局平均池化层,终端使用SCPP对第三样本特征进行减少特征通道数和特征通道融合处理,再使用全局平均池化层对第三样本特征进行下采样操作,得到第四样本特征。
请参阅图2,图2为空间金字塔通道池化层的原理图。
请参阅图3,图3为Xception子模块原理图:将输入特征通道先进行普通卷积操作,再对1*1卷积后的每个通道分别进行3*3卷积操作,最后将结果结合,模块结构图如图2。Xception子模块多次重复上述操作以及Batch Normalization操作,即在网络的每一层输入之前,做了一个归一化处理。
深度可分离卷积是对输入特征先第一步:Depthwise卷积,对输入的每个特征通道,分别进行3*3卷积操作,并将结果整合;第二步:Pointwise卷积,对Depthwise卷积中的整合结果,进行1*1卷积操作。
108、通过Dense模块对第四样本特征进行卷积处理,生成第五样本特征,Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入;
终端通过Dense模块对第四样本特征进行卷积处理,生成第五样本特征,其中,Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入。Dense一共有4个,最少的情况下,有6/12/16/24个卷积层。
Dense模块对上一层高维特征提取模块输入的第四样本特征,输入多个BN层-Relu层-Conv层操作,每个BN层-Relu层-Conv层的输入都加上前面BN层-Relu层-Conv层的输出,并且按通道叠加,即每一层的输入来自前面所有层的输出,使得较前面的特征信息可以较好的传递到后面的卷积层,并增加了Res结构,在增加神经网络层数基础上,有效减小梯度消失现象。
例如:第一个BN层-Relu层-Conv层输出的第一特征图,输入到第二个BN层-Relu层-Conv层,第三个BN层-Relu层-Conv层的输入为第一个BN层-Relu层-Conv层和第二个BN层-Relu层-Conv层的输出,以此类推,第n个BN层-Relu层-Conv层的输入为前n-1个BN层-Relu层-Conv层的输出特征图的总和,并且这些特征图是以特征通道的形式呈现,在一个BN层-Relu层-Conv层输入时,按特征通道叠加处理前面的BN层-Relu层-Conv层的输出后,作为这个BN层-Relu层-Conv层的输入。
109、通过空间通道金字塔池化模块对第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表训练样本的宽与高;
终端通过空间通道金字塔池化模块对第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表训练样本的宽与高。
例如:空间通道金字塔池化模块(SPP模块)将输入特征图在H-W维度进行分块池化,最右边的特征图,对特征图的每一个特征通道进行池化,每个特征通道得到一个特征值;中间的特征图,将特征图的每一个特征通道分为4份,再对每1/4个特征通道分别进行池化,每个特征通道得到4个特征值;以此类推,最左边的特征图,每个通道得到16个特征值,将这些特征值拼接起来,生成特征值向量送入下一层全连接神经网络(FC)。
110、对特征值向量进行计算,以生成训练样本归属良品和非良品的概率分布;
终端对特征值向量进行计算,以生成训练样本归属良品和非良品的概率分布。终端控制全连接神经网络接收SPP输入的特征值向量,通过全连接神经网络的特征建模,输出训练样本归属良品和非良品的概率分布,即分类结果(OK/NG)数值,传入下一级logsoftmax分类模块进行损失值计算。
111、根据训练样本归属良品和非良品的概率分布、训练样本归属良品和非良品的真实概率分布与初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据;
终端根据分类结果(OK/NG)数值以及该训练样本的真实(OK/NG)数值,并且加上模型中softmax层的损失函数计算损失值,生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据。
初始AI神经网络模型中的全连接层用于通过对显示屏的训练样本的学习分析得到的特征的权重,表征该特征的重要性程度。而初始AI神经网络模型中的谷哥模块主要用于特征提取、过滤特征以及特征融合等操作,筛选出类别区分能力强的特征。初始AI神经网络模型中的池化层进行最大池化操作,提高初始AI神经网络模型的泛化性。最终对特征进行组合,生成特征图,最后通过softmax层中的损失函数计算生成训练样本归属良品和非良品的模型概率分布。
损失函数Softmax(x)也是一个non-linearity,但它的特殊之处在于它通常是网络中一次操作。这是因为它接受了一个实数向量并返回一个概率分布。其定义如下:定义x是一个实数的向量(正数或负数都无所谓,没有限制)。输出是一个概率分布:每个元素都是非负的,并且所有元素的总和都是1。除了softmax层中的损失函数Softmax(x),也可以使用log softmax层损失函数log softmax(x),即在softmax层的结果上再做多一次log运算,即log(softmax(x))。将初始AI神经网络模型分类值(OK/NG)最大的作为判别结果输出。
例如:假设本实施例中,softmax层的计算公式如下:
Figure 21306DEST_PATH_IMAGE001
假设softmax层的输入是WX,假设预训练卷积神经网络模型的输入样本是I,讨论一个3分类问题(类别用1类,2类,3类表示),样本I的真实类别是2类,那么这个样本I经过所有网络层到达softmax层之前就得到了WX,也就是说WX是一个元素为3的向量,那么上面公式中的aj就表示这个元素为3的向量中的第j个值(最后会得到S1,S2,S3),而分母中的ak则表示元素为3的向量中的3个值,所以会有个求和符号(这里求和是k从1到T,T和公式中的T是对应相等的,也就是类别数,j的范围也是1到T)。由于ex恒大于0,所以分子永远是正数,分母又是多个正数的和,所以分母也肯定是正数,因此Sj是正数,而且范围是(0,1)。若现在不是在训练预训练卷积神经网络模型,而是在测试预训练卷积神经网络模型,那么当一个样本经过softmax层并输出一个T*1个元素的向量时,就会取这个向量中元素数值最大的那个的作为这个训练样本的预测标签。
下面进行举例说明:假设你的WX=[1,2,3],那么经过softmax层后就会得到[0.09,0.24,0.67],这三个数字表示这个样本属于第1,2,3类的概率分别是0.09,0.24,0.67。取概率最大的0.67,所以这里得到的预测值就是第三类。再例如:y=2.0,1.0,0.1,通过softmax函数(softmax层)后,计算得到对应的概率值S(y)=0.7,0.2,0.1,则最大概率值为0.7。
而log softmax层损失函数log softmax(x)=Sj的基础上,即在计算的基础上加上log运算。
112、判断损失值变化数据在预设区间内是否小于预设阈值;
终端判断损失值变化数据在预设区间内是否小于预设阈值,例如:当训练次数达到了10万次时,需要获取最近10000次的损失值大大小小,判断这10000次损失值是否都小于预设阈值0.0001,如果是,则执行步骤113。
113、若损失值变化数据在预设区间内小于预设阈值,则确定初始AI神经网络模型为目标AI神经网络模型。
当终端确定损失值变化数据在预设区间内都小于预设阈值时,则可以确定初始AI神经网络模型训练完成,终端确定初始AI神经网络模型为目标AI神经网络模型,可以进入设计场景应用。
本实施例中,首先,终端获取训练样本集,其中训练样本集中包含存在Mura缺陷的显示屏的拍摄图像和不存在Mura缺陷的显示屏的拍摄图像。接着,终端建立初始AI神经网络模型,其中,初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,高维特征提取模块包含至少三个特征值向量提取层,特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成。通过该初始AI神经网络模型对存在Mura缺陷的显示屏拍摄图像进行训练。终端从训练样本集中选取训练样本,输入初始AI神经网络模型。终端通过初始AI神经网络模型中的特征金字塔网络对训练样本进行卷积特征提取,生成第一样本特征,第一样本特征融合了不同深度卷积层的特征,可适用于对多尺度训练样本的训练。终端再通过初始AI神经网络模型中的通道混合模块对第一样本特征进行通道随机混合,生成第二样本特征。接着终端通过初始AI神经网络模型中的Trans模块对第二样本特征进行池化降维处理,生成第三样本特征,Trans模块包含空间金字塔通道池化层和全局平均池化层。然后终端通过初始AI神经网络模型中的高维特征提取模块对第三样本特征进行高维特征提取,生成第四样本特征,其中,Trans子模块包含空间金字塔通道池化层和全局平均池化层,Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成。终端通过初始AI神经网络模型中的Dense模块对第四样本特征进行卷积处理,生成第五样本特征,其中,Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入。终端通过初始AI神经网络模型中的空间通道金字塔池化模块对第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表训练样本的宽与高。终端对特征值向量进行计算,以生成训练样本归属良品和非良品的概率分布。终端根据训练样本归属良品和非良品的概率分布、训练样本归属良品和非良品的真实概率分布与初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据。终端判断损失值变化数据在预设区间内是否小于预设阈值,当终端确定若损失值变化数据在预设区间内小于预设阈值时,则终端确定初始AI神经网络模型为目标AI神经网络模型。本技术方案中,通过在AI神经网络模型中设置了由Trans子模块、Dense子模块和Xception子模块组成的特征值向量提取层,可以实现对训练样本中对高维特征的提取。并且AI神经网络模型中还设置了特征金字塔网络,用于实现多尺寸检测以及适配不同尺寸大小的图片。特征金字塔网络通过融合不同深度卷积层的特征,较好地改善了多尺度问题,使得AI神经网络能对不同大小形状的Mura都有较好的检测率,降低了AI神经网络模型的漏检率和误检率。
请参阅图4-1、图4-2和图4-3,本申请提供了一种AI神经网络模型的训练方法的另一个实施例,包括:
401、拍摄显示屏集合,以生成拍摄样本集,显示屏集合中包括存在Mura缺陷的显示屏和不存在Mura缺陷的显示屏;
终端拍摄显示屏集合,以生成拍摄样本集,显示屏集合中包括存在Mura缺陷的显示屏和不存在Mura缺陷的显示屏。初始AI神经网络模型处理的是图像数据,因此需要通过高分辨率的工业相机拍照获取显示屏样本的高清照片,1.51亿像素的工业面阵相机通过垂直于屏幕方向拍摄存在Mura缺陷类型的显示屏的照片。
例如:终端采集各画面存在不同Mura缺陷类型的显示屏(截取整个显示屏区域的图片,目的是去除拍照图片周边的环境干扰部分),统一标记其为NG类型,并且采集各画面良品(即无Mura缺陷)类型的显示屏(图片选择跟缺陷的要求一致),统一标记其为OK类型。将两类图像进行整合生成拍摄样本集。
402、对拍摄样本集中的拍摄样本进行样本扩充预处理,生成训练样本集,样本扩充预处理包含放缩处理、裁剪处理、旋转处理和照片背景灰度直流分量统一化处理;
终端对拍摄样本集中的拍摄样本进行样本扩充预处理,生成训练样本集,样本扩充预处理包含放缩处理、裁剪处理、旋转处理和照片背景灰度直流分量统一化处理。对于通过拍照获取的拍摄样本集,在送入初始AI神经网络模型进行训练前,需要对照片进行样本扩充预处理。
初始AI神经网络模型训练时需要大量的存在Mura缺陷类型的显示屏照片,通过从大量训练样本中学习到的数据特征进行建模,有些时候拍摄样本集并不是那么充分,需要通过数据增强方式人为“增加”缺陷样本,数据增强包括对照片进行旋转、偏移、镜像、裁剪、拉伸等图像操作,使得新图片和原图“看起来”不一样,一定意义上生成了新的照片,扩充了数据集。
裁剪处理:使用工业相机拍摄得到的Mura缺陷类型的拍摄样本集,除了缺陷屏幕部分外还包括一些周围背景部分,这部分图像是不需要的,可能会对初始AI神经网络模型的训练及检测带来影响,且多出来的图像也会增加初始AI神经网络模型训练和测试时的时间成本以及GPU显存消耗,因此需要通过裁剪的方式去除这些无用图像,只保留存在Mura缺陷的显示屏部分。
除了裁剪处理,旋转处理、偏移处理、镜像处理以及拉伸处理,都可以对拍摄样本集中的图像进行训练样本的扩充。
照片背景灰度直流分量统一化:由于Mura缺陷类型多样以及不同厂家拍照条件不同,不同的缺陷照片的背景灰度会不一样,这会对初始AI神经网络模型的训练以及检测带来不便,训练样本集中的图像的背景灰度不同,可能会影响最终检测结果。Mura缺陷类型的图像包括背景的灰度直流分量和Mura缺陷的灰度交流分量,本实施例通过保留图像中Mura缺陷的灰度交流分量,统一所有Mura缺陷图像中的背景的灰度直流分量,使得初始AI神经网络模型可以适配训练样本集中所有不同背景灰度的Mura缺陷图像。
其次,对于拍摄样本集中存在的RGB三通道彩色图像,处理步骤略有不同,绿色G通道按照上图进行处理,红色R通道和蓝色B通道像素在减去各自通道像素平均灰度值后,增加的统一灰度值和绿色通道不同,按照各自通道灰度平均值和绿色通道灰度平均值的比例,增加相应比例的统一灰度值。
例如:RGB三通道的像素灰度平均值分别为50、75、100,绿色通道增加的统一灰度值为128,即绿色通道所有像素值减去50,再加上128,红色通道所有像素值减去75,再加上128*(75/50),蓝色通道所有像素值减去100,再加上128*(100/50)。
403、建立初始AI神经网络模型,初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,高维特征提取模块包含至少三个特征值向量提取层,特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成;
404、从训练样本集中选取训练样本,输入初始AI神经网络模型;
本实施例中的步骤403至404与前述实施例中步骤102至103类似,此处不再赘述。
405、通过特征金字塔网络对训练样本依次进行多层次卷积处理、特征通道融合处理、通道降维处理、上采样处理、二次卷积采样处理和通道叠加处理,生成第一样本特征;
终端通过特征金字塔网络对训练样本依次进行多层次卷积处理、特征通道融合处理、通道降维处理、上采样处理、二次卷积采样处理和通道叠加处理,生成第一样本特征,目的是为了采集到不同深度卷积层的特征,较好地改善了多尺度问题,使得AI神经网络能对不同大小形状的Mura都有较好的检测率,降低了AI神经网络模型的漏检率和误检率。
例如:终端首先通过特征金字塔网络FPN对训练样本进行特征提取,多层次卷积处理为通过5个不同深度的卷积层对同一张训练样本提取到的特征为C1、C2、C3、C4、C5,特征通道融合处理是将C2、C3、C4、C5各自通过1*1卷积进行特征通道融合,通道降维处理是对进行了特征通道融合处理之后的数据进行降维,分别生成数据C2’、C3’、C4’、P5。上采样处理将P5依次进行三次二倍最近邻上采样,分别得到P4’、P3’、P2’,将C2’、C3’、C4’分别与P2’、P3’、P4’进行叠加,生成数据P2、P3、P4。二次卷积采样处理将P2、P3、P4进行3×3卷积,得到数据F2、F3、F4,最后通道叠加处理将F2、F3、F4、P5进行特征通道叠加,生成第一样本特征。
406、通过通道混合模块对第一样本特征进行通道随机混合,生成第二样本特征;
本实施例中的步骤406与前述实施例中步骤105类似,此处不再赘述。
407、通过Trans模块中的空间金字塔通道池化层对第二样本特征进行通道的分组,以使得每一组中包含不同份数的通道集合,每一个通道集合包含至少一个通道;
408、对每一组中每一份通道集合的对应位置进行池化降维处理,并输出对应份数的通道池化数据,以生成初始通道池化数据集合;
409、对只有一份通道集合的组的通道池化数据进行复制,并结合通道池化数据集合生成目标通道池化数据集合;
410、通过Trans模块中的全局平均池化层和dropout层分别对所述目标通道池化数据集合进行池化降维处理和dropout操作,生成第三样本特征;
Trans子模块包含重新设计的用于通道间池化的空间金字塔通道池化层(SCPP,Spatial Channel Pyramid Pooling)和全局平均池化层,使用SCPP减少特征通道数并进行通道特征融合,再使用全局平均池化作为下采样操作。
终端首先通过Trans模块中的空间金字塔通道池化层对第二样本特征进行通道的分组,以使得每一组中包含不同份数的通道集合,每一个通道集合包含至少一个通道,再对每一组中每一份通道集合的对应位置进行池化降维处理,并输出对应份数的通道池化数据,以生成初始通道池化数据集合。接着,终端对只有一份通道集合的组的通道池化数据进行复制,并结合通道池化数据集合生成目标通道池化数据集合,通过Trans模块中的全局平均池化层对目标通道池化数据集合进行池化降维处理,生成第三样本特征。
其中,空间金字塔通道池化层SCPP的作用如下:一般降低特征通道数是使用1*1卷积,但1*1逐点卷积计算量巨大,本实施例设计了一种特征通道间的空间池化方法,可以代替1*1卷积进行特征通道降维和通道间特征信息融合。
空间金字塔通道池化层SCPP将特征通道进行不同数量的分组,例如:1份,每份为所有通道;2份,每份为1/2所有通道;4份,每份为1/4所有通道;每一份里面,各个通道的对应位置元素进行池化操作(最大池化或平均池化),每份通道生成一张特征图,将每一份通道的特征图按通道叠加,输出为新的特征图,最终输出特征通道数为1+2+4+…。为了将最终输出通道数为2的n次方,将每份为所有通道的组做池化的输出通道(C=1)多复制一份输出,C为份数。
411、通过高维特征提取模块对第三样本特征进行高维特征提取,生成第四样本特征,Trans子模块包含空间金字塔通道池化层和全局平均池化层,Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成;
412、通过Dense模块对第四样本特征进行卷积处理,生成第五样本特征,Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入;
413、通过空间通道金字塔池化模块对第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表训练样本的宽与高;
414、对特征值向量进行计算,以生成训练样本归属良品和非良品的概率分布;
415、根据训练样本归属良品和非良品的概率分布、训练样本归属良品和非良品的真实概率分布与初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据;
416、判断损失值变化数据在预设区间内是否小于预设阈值;
417、若损失值变化数据在预设区间内小于预设阈值,则确定初始AI神经网络模型为目标AI神经网络模型;
本实施例中的步骤411至417与前述实施例中步骤107至113类似,此处不再赘述。
418、若损失值变化数据在预设区间内不小于预设阈值,则判断训练样本的训练次数是否达标;
当损失值变化数据在预设区间内,不是所有的损失值的大小以及趋势都收敛于0时,则确定预训练卷积神经网络模型训练尚未完成。这时需要判断训练样本的训练次数是否达标,即当前的训练样本是否完成了预设次数的训练,若是,则执行步骤420,若否,则执行步骤419。
419、若训练样本的训练次数未达标,则根据小批梯度下降法更新初始AI神经网络模型的权值,并将训练样本重新输入初始AI神经网络模型中训练;
当终端确定训练样本的训练次数达标,则需要根据小批梯度下降法更新初始AI神经网络模型的权重,并将训练样本重新输入初始AI神经网络模型中训练。
本文使用nesterov代替momentum的SGDM优化器以及Adam优化器。
本实施例中,通过小批梯度下降法(mini-batch SGD)更新预训练卷积神经网络模型,其中批训练的梯度更新方式的公式为:
Figure 581601DEST_PATH_IMAGE002
n是批量大小(batchsize),是学习率(learning rate)。
使用反向梯度求导,请参考图5,图5为AI神经网络模型的网络层示意图。
左侧为第一层,也是输入层,输入层包含两个神经元a和b。中间为第二层,也是隐含层,隐含层包含两个神经元c和d。右侧为第三层,也是输出层,输出层包含e和f,每条线上标的
Figure 87668DEST_PATH_IMAGE003
是层与层之间连接的权重。
Figure 585777DEST_PATH_IMAGE003
代表第l层第j个神经元,与上一层(l-1)第k个神经元输出相对应的权重。
Figure 61758DEST_PATH_IMAGE004
代表第l层第j个神经元输出。
Figure 148662DEST_PATH_IMAGE005
代表第l层第j个神经元输入。
Figure 137216DEST_PATH_IMAGE006
代表第l层第j个神经元偏置。
W代表权重矩阵,Z代表输入矩阵,A代表输出矩阵,Y代表标准答案。
L代表卷积神经网络模型的层数。
Figure 434205DEST_PATH_IMAGE007
向前传播的方法,即将输入层的信号传输至隐藏层,以隐藏层节点c为例,站在节点c上往后看(输入层的方向),可以看到有两个箭头指向节点c,因此a,b节点的信息将传递给c,同时每个箭头有一定的权重,因此对于c节点来说,输入信号为:
Figure 402292DEST_PATH_IMAGE008
同理,节点d的输入信号为:
Figure 609282DEST_PATH_IMAGE009
由于终端善于做带有循环的任务,因此可以用矩阵相乘来表示:
Figure 519470DEST_PATH_IMAGE010
所以,隐藏层节点经过非线性变换后的输出表示如下:
Figure 555952DEST_PATH_IMAGE011
同理,输出层的输入信号表示为权重矩阵乘以上一层的输出:
Figure 249102DEST_PATH_IMAGE012
同样,输出层节点经过非线性映射后的最终输出表示为:
Figure 107336DEST_PATH_IMAGE013
输入信号在权重矩阵们的帮助下,得到每一层的输出,最终到达输出层。可见,权重矩阵在前向传播信号的过程中扮演着运输兵的作用,起到承上启下的功能。
请参考图6,图6为一个AI神经网络模型的网络层示意图。向后传播的方法,既然梯度下降需要每一层都有明确的误差才能更新参数,所以接下来的重点是如何将输出层的误差反向传播给隐藏层。
其中输出层、隐藏层节点的误差如图所示,输出层误差已知,接下来对隐藏层第一个节点c作误差分析。还是站在节点c上,不同的是这次是往前看(输出层的方向),可以看到指向c节点的两个蓝色粗箭头是从节点e和节点f开始的,因此对于节点c的误差肯定是和输出层的节点e和f有关。输出层的节点e有箭头分别指向了隐藏层的节点c和d,因此对于隐藏节点e的误差不能被隐藏节点c霸为己有,而是要服从按劳分配的原则(按权重分配),同理节点f的误差也需服从这样的原则,因此对于隐藏层节点c的误差为:
Figure 1474DEST_PATH_IMAGE014
同理,对于隐藏层节点d的误差为:
Figure 210738DEST_PATH_IMAGE015
为了减少工作量,可写成矩阵相乘的形式:
Figure 707579DEST_PATH_IMAGE016
该矩阵比较繁琐,可简化到前向传播的形式,不破坏它们的比例,因此我们可以忽略掉分母部分,所以重新成矩阵形式为:
Figure 997484DEST_PATH_IMAGE017
该权重矩阵,其实是前向传播时权重矩阵w的转置,因此简写形式如下:
Figure 655998DEST_PATH_IMAGE018
输出层误差在转置权重矩阵的帮助下,传递到了隐藏层,这样我们就可以利用间接误差来更新与隐藏层相连的权重矩阵。可见,权重矩阵在反向传播的过程中同样扮演着运输兵的作用,只不过这次是搬运的输出误差,而不是输入信号。
请参考图7,图7为AI神经网络模型的网络层示意图。接下来需要进行链式求导,上面介绍了输入信息的前向传播与输出误差的后向传播,接下来就根据求得的误差来更新参数。
首先对隐藏层的w11进行参数更新,更新之前让我们从后往前推导,直到预见w11为止,计算方式如下:
Figure 352559DEST_PATH_IMAGE019
因此误差对w11求偏导如下:
Figure 184248DEST_PATH_IMAGE020
求导得如下公式(所有值已知):
Figure 830125DEST_PATH_IMAGE021
同理,误差对于w12的偏导如下:
Figure 659540DEST_PATH_IMAGE022
同样,求导得w12的求值公式:
Figure 843397DEST_PATH_IMAGE023
同理,误差对于偏置求偏导如下:
Figure 70590DEST_PATH_IMAGE024
同理,误差对于偏置求偏导如下:
Figure 695606DEST_PATH_IMAGE025
接着对输入层的w11进行参数更新,更新之前我们依然从后往前推导,直到预见第一层的w11为止:
Figure 86136DEST_PATH_IMAGE026
因此误差对输入层的w11求偏导如下:
Figure 163814DEST_PATH_IMAGE027
求导得如下公式:
Figure 681514DEST_PATH_IMAGE028
同理,输入层的其他三个参数按照同样的方法即可求出各自的偏导,此处不做赘述。在每个参数偏导数明确的情况下,带入梯度下降公式即可:
Figure 488933DEST_PATH_IMAGE029
至此,利用链式法则来对每层参数进行更新的任务已经完成。
其次,SGDM动量算法在SGD基础上引入了动量v充当速度角色,它代表参数在参数空间移动的方向和速率。速度被设为负梯度的指数移动平均。动量在物理上定义为质量乘以速度,这里我们假设是单位质量,因此速度也看作是粒子的动量。
超参数γ∈[0,1)决定了之前梯度的贡献衰减得有多快,当γ=1时,动量算法等价于小批量随机梯度下降。更新公式为:
Figure 925730DEST_PATH_IMAGE030
其中,mt为实际的参数更新方向,mt-1为上一步的参数更新方向,gt为当前梯度,
Figure 864605DEST_PATH_IMAGE031
为当前权值,
Figure 310630DEST_PATH_IMAGE031
为上一次的权值。
Nesterov动量与标准动量得区别体现在梯度计算上。Nesterov动量中,梯度计算在施加当前速度之后。
Nesterov是momentum算法得改进算法:Momentum保留了上一时刻的梯度gt-1,对其没有进行任何改变,NAG是在梯度更新时做一个矫正。
在动量法中,实际的参数更新方向mt为上一步的参数更新方向mt-1和当前梯度gt的叠加。这样,mt可以被拆分为两步进行,先根据mt-1更新一次得到参数,再用gt进行更新。
Figure 769293DEST_PATH_IMAGE032
在更新了初始AI神经网络模型的权重之后,还需要把训练过程中获取到的训练样本的特征和概率分布进行模型保存,目的是在每一组训练样本的训练次数达标之后,保留一个模型,以使得在后续训练过程中出现泛化、过拟合等问题时,还可以使用原先保存下来的初始AI神经网络模型。
420、若训练样本的训练次数达标,根据小批梯度下降法更新初始AI神经网络模型的权值,并把训练过程中获取到的训练样本的特征和概率分布进行模型保存;
当终端确定训练样本的训练次数达标,则需要根据小批梯度下降法更新初始AI神经网络模型的权重,则把训练过程中获取到的训练样本的特征和概率分布进行模型保存。具体权值更新步骤见步骤219。
421、从训练样本集中重新选取训练样本输入初始AI神经网络模型中训练;
当训练样本的训练次数达标,终端从训练样本集中重新选取训练样本输入初始AI神经网络模型中训练。
422、获取目标显示屏图像,并将目标显示屏图像输入目标AI神经网络模型,目标显示屏图像为目标显示屏的拍摄图像;
423、将目标显示屏图像归属良品和非良品的概率分布中最大概率值输出;
424、通过检测软件检测目标显示屏图像的归属良品和非良品的检测结果;
425、根据最大概率值与检测结果输出目标显示屏的检测结果。
当终端训练完成之后,即可使用目标AI神经网络模型对真实图像进行测试,终端获取目标显示屏图像,并将目标显示屏图像输入目标AI神经网络模型,目标显示屏图像为目标显示屏的拍摄图像,终端将目标显示屏图像归属良品和非良品的概率分布中最大概率值输出,终端再通过检测软件检测目标显示屏图像的归属良品和非良品的检测结果。
例如:将目标显示屏图像输入目标AI神经网络模型进行推理,计算属于每个类别的概率值,选出概率最大类别,确定其类型(OK或NG)。并与传统的缺陷检测软件判定的类别进行综合判断,目标AI神经网络模型输出最大的概率值的类别,当传统的缺陷软件检测判定为OK品图片,则依据目标AI神经网络模型的输出结果,否则输出依据传统检测软件判别为NG结果。
本实施例中,首先,终端拍摄显示屏集合,以生成拍摄样本集,接着终端对拍摄样本集中的拍摄样本进行样本扩充预处理,生成训练样本集,以使得训练样本集中的训练样本丰富,增强AI神经网络模型的准确度。接着,终端建立初始AI神经网络模型,其中,初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,高维特征提取模块包含至少三个特征值向量提取层,特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成。通过该初始AI神经网络模型对存在Mura缺陷的显示屏拍摄图像进行训练。终端从训练样本集中选取训练样本,输入初始AI神经网络模型。终端通过特征金字塔网络对训练样本依次进行多层次卷积处理、特征通道融合处理、通道降维处理、上采样处理、二次卷积采样处理和通道叠加处理,生成第一样本特征,可适用于对多尺度训练样本的训练。终端再通过初始AI神经网络模型中的通道混合模块对第一样本特征进行通道随机混合,生成第二样本特征。接着终端通过初始AI神经网络模型中的Trans模块通过Trans模块中的空间金字塔通道池化层对第二样本特征进行通道的分组,以使得每一组中包含不同份数的通道集合,每一个通道集合包含至少一个通道,接着,终端对每一组中每一份通道集合的对应位置进行池化降维处理,并输出对应份数的通道池化数据,以生成初始通道池化数据集合,并且终端对只有一份通道集合的组的通道池化数据进行复制,并结合通道池化数据集合生成目标通道池化数据集合。最后,终端通过Trans模块对第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,Trans模块包含空间金字塔通道池化层、全局平均池化层和dropout层,生成第三样本特征。然后终端通过初始AI神经网络模型中的高维特征提取模块对第三样本特征进行高维特征提取,生成第四样本特征,其中,Trans子模块包含空间金字塔通道池化层、全局平均池化层和dropout层,Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成。终端通过初始AI神经网络模型中的Dense模块对第四样本特征进行卷积处理,生成第五样本特征,其中,Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入。终端通过初始AI神经网络模型中的空间通道金字塔池化模块对第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表训练样本的宽与高。终端对特征值向量进行计算,以生成训练样本归属良品和非良品的概率分布。终端根据训练样本归属良品和非良品的概率分布、训练样本归属良品和非良品的真实概率分布与初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据。终端判断损失值变化数据在预设区间内是否小于预设阈值,当终端确定若损失值变化数据在预设区间内小于预设阈值时,则终端确定初始AI神经网络模型为目标AI神经网络模型。
若终端确定损失值变化数据在预设区间内不小于预设阈值,则终端判断训练样本的训练次数是否达标。若终端确定训练样本的训练次数未达标,则根据小批梯度下降法更新初始AI神经网络模型的权值,并将训练样本重新输入初始AI神经网络模型中训练。若终端训练样本的训练次数达标,则终端根据小批梯度下降法更新初始AI神经网络模型的权值,并把训练过程中获取到的训练样本的特征和概率分布进行模型保存,终端再从训练样本集中重新选取训练样本输入初始AI神经网络模型中训练。
在实际场景中,终端获取目标显示屏图像,并将目标显示屏图像输入目标AI神经网络模型,终端将目标显示屏图像归属良品和非良品的概率分布中最大概率值输出,并且,终端通过检测软件检测目标显示屏图像的归属良品和非良品的检测结果,最后终端根据最大概率值与检测结果输出目标显示屏的检测结果。
本技术方案中,通过在AI神经网络模型中设置了由Trans子模块、Dense子模块和Xception子模块组成的特征值向量提取层,可以实现对训练样本中对高维特征的提取。并且AI神经网络模型中还设置了特征金字塔网络,用于实现多尺寸检测以及适配不同尺寸大小的图片。特征金字塔网络通过融合不同深度卷积层的特征,较好地改善了多尺度问题,使得AI神经网络能对不同大小形状的Mura都有较好的检测率,降低了AI神经网络模型的漏检率和误检率。
其次,结合了传统检测软件共同执行检测任务,高效且准确。
请参阅图8,本申请提供了一种AI神经网络模型的训练装置的一个实施例,包括:
获取单元801,用于获取训练样本集,训练样本集中包含存在Mura缺陷的显示屏的拍摄图像和不存在Mura缺陷的显示屏的拍摄图像;
建立单元802,用于建立初始AI神经网络模型,初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,高维特征提取模块包含至少三个特征值向量提取层,特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成;
第一选取单元803,用于从训练样本集中选取训练样本,输入初始AI神经网络模型;
第一提取单元804,用于通过特征金字塔网络对训练样本进行卷积特征提取,生成第一样本特征;
混合单元805,用于通过通道混合模块对第一样本特征进行通道随机混合,生成第二样本特征;
第一池化单元806,用于通过Trans模块对第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,Trans模块包含空间金字塔通道池化层、全局平均池化层和dropout层;
第二提取单元807,用于通过高维特征提取模块对第三样本特征进行高维特征提取,生成第四样本特征,Trans子模块包含空间金字塔通道池化层、全局平均池化层和dropout层,Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成;
卷积单元808,用于通过Dense模块对第四样本特征进行卷积处理,生成第五样本特征,Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入;
第二池化单元809,用于通过空间通道金字塔池化模块对第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表训练样本的宽与高;
第一计算单元810,用于对特征值向量进行计算,以生成训练样本归属良品和非良品的概率分布;
第二计算单元811,用于根据训练样本归属良品和非良品的概率分布、训练样本归属良品和非良品的真实概率分布与初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据;
第一判断单元812,用于判断损失值变化数据在预设区间内的损失值是否小于预设阈值;
确定单元813,用于当第一判断单元812确定损失值变化数据在预设区间内的损失值小于预设阈值时,则确定初始AI神经网络模型为目标AI神经网络模型。
本实施例中,首先,获取单元801获取训练样本集,其中训练样本集中包含存在Mura缺陷的显示屏的拍摄图像和不存在Mura缺陷的显示屏的拍摄图像。接着,建立单元802获取初始AI神经网络模型,其中,初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,高维特征提取模块包含至少三个特征值向量提取层,特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成。通过该初始AI神经网络模型对存在Mura缺陷的显示屏拍摄图像进行训练。第一选取单元803从训练样本集中选取训练样本,输入初始AI神经网络模型。第一提取单元804通过初始AI神经网络模型中的特征金字塔网络对训练样本进行卷积特征提取,生成第一样本特征,第一样本特征融合了不同深度卷积层的特征,可适用于对多尺度训练样本的训练。混合单元805再通过初始AI神经网络模型中的通道混合模块对第一样本特征进行通道随机混合,生成第二样本特征。接着第一池化单元806通过初始AI神经网络模型中的Trans模块对第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,Trans模块包含空间金字塔通道池化层、全局平均池化层和dropout层。然后第二提取单元807通过初始AI神经网络模型中的高维特征提取模块对第三样本特征进行高维特征提取,生成第四样本特征,其中,Trans子模块包含空间金字塔通道池化层、全局平均池化层和dropout层,Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成。卷积单元808通过初始AI神经网络模型中的Dense模块对第四样本特征进行卷积处理,生成第五样本特征,其中,Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入。第二池化单元809通过初始AI神经网络模型中的空间通道金字塔池化模块对第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表训练样本的宽与高。第一计算单元810对特征值向量进行计算,以生成训练样本归属良品和非良品的概率分布。第二计算单元811根据训练样本归属良品和非良品的概率分布、训练样本归属良品和非良品的真实概率分布与初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据。第一判断单元812判断损失值变化数据在预设区间内是否小于预设阈值,当终端确定若损失值变化数据在预设区间内小于预设阈值时,则确定单元813确定初始AI神经网络模型为目标AI神经网络模型。本技术方案中,通过在AI神经网络模型中设置了由Trans子模块、Dense子模块和Xception子模块组成的特征值向量提取层,可以实现对训练样本中对高维特征的提取。并且AI神经网络模型中还设置了特征金字塔网络,用于实现多尺寸检测以及适配不同尺寸大小的图片。特征金字塔网络通过融合不同深度卷积层的特征,较好地改善了多尺度问题,使得AI神经网络能对不同大小形状的Mura都有较好的检测率,降低了AI神经网络模型的漏检率和误检率。
请参阅图9,本申请提供了一种AI神经网络模型的训练装置的另一个实施例,包括:
获取单元901,用于获取训练样本集,训练样本集中包含存在Mura缺陷的显示屏的拍摄图像和不存在Mura缺陷的显示屏的拍摄图像;
可选的,获取单元901,具体为:
拍摄显示屏集合,以生成拍摄样本集,显示屏集合中包括存在Mura缺陷的显示屏和不存在Mura缺陷的显示屏;
对拍摄样本集中的拍摄样本进行样本扩充预处理,生成训练样本集,样本扩充预处理包含放缩处理、裁剪处理、旋转处理和照片背景灰度直流分量统一化处理。
建立单元902,用于获取初始AI神经网络模型,初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,高维特征提取模块包含至少三个特征值向量提取层,特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成;
第一选取单元903,用于从训练样本集中选取训练样本,输入初始AI神经网络模型;
第一提取单元904,用于通过特征金字塔网络对训练样本进行卷积特征提取,生成第一样本特征;
可选的,第一提取单元904,具体为:
通过特征金字塔网络对训练样本依次进行多层次卷积处理、特征通道融合处理、通道降维处理、上采样处理、二次卷积采样处理和通道叠加处理,生成第一样本特征。
混合单元905,用于通过通道混合模块对第一样本特征进行通道随机混合,生成第二样本特征;
第一池化单元906,用于通过Trans模块对第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,Trans模块包含空间金字塔通道池化层、全局平均池化层和dropout层;
可选的,第一池化单元906,具体为:
通过Trans模块中的空间金字塔通道池化层对第二样本特征进行通道的分组,以使得每一组中包含不同份数的通道集合,每一个通道集合包含至少一个通道;
对每一组中每一份通道集合的对应位置进行池化降维处理,并输出对应份数的通道池化数据,以生成初始通道池化数据集合;
对只有一份通道集合的组的通道池化数据进行复制,并结合通道池化数据集合生成目标通道池化数据集合;
通过Trans模块中的全局平均池化层和dropout层分别对所述目标通道池化数据集合进行池化降维处理和dropout操作,生成第三样本特征。
第二提取单元907,用于通过高维特征提取模块对第三样本特征进行高维特征提取,生成第四样本特征,Trans子模块包含空间金字塔通道池化层、全局平均池化层和dropout层,Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成;
卷积单元908,用于通过Dense模块对第四样本特征进行卷积处理,生成第五样本特征,Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入;
第二池化单元909,用于通过空间通道金字塔池化模块对第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表训练样本的宽与高;
第一计算单元910,用于对特征值向量进行计算,以生成训练样本归属良品和非良品的概率分布;
第二计算单元911,用于根据训练样本归属良品和非良品的概率分布、训练样本归属良品和非良品的真实概率分布与初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据;
第一判断单元912,用于判断损失值变化数据在预设区间内的损失值是否小于预设阈值;
确定单元913,用于当第一判断单元912确定损失值变化数据在预设区间内的损失值小于预设阈值时,则确定初始AI神经网络模型为目标AI神经网络模型;
第二判断单元914,用于当第一判断单元912确定损失值变化数据在预设区间内不小于预设阈值,则判断训练样本的训练次数是否达标;
第二更新单元915,用于当第二判断单元914确定训练样本的训练次数未达标,则根据小批梯度下降法更新初始AI神经网络模型的权值,并将训练样本重新输入初始AI神经网络模型中训练;
第一更新单元916,当第二判断单元914确定训练样本的训练次数达标,根据小批梯度下降法更新初始AI神经网络模型的权值,并把训练过程中获取到的训练样本的特征和概率分布进行模型保存;
第二选取单元917,用于从训练样本集中重新选取训练样本输入初始AI神经网络模型中训练;
第三获取单元918,用于获取目标显示屏图像,并将目标显示屏图像输入目标AI神经网络模型,目标显示屏图像为目标显示屏的拍摄图像;
输入单元919,用于将目标显示屏图像归属良品和非良品的概率分布中最大概率值输出;
检测单元920,用于通过检测软件检测目标显示屏图像的归属良品和非良品的检测结果;
输出单元921,用于根据最大概率值与检测结果输出目标显示屏的检测结果。
本实施例中,首先,获取单元901拍摄显示屏集合,以生成拍摄样本集,接着获取单元901对拍摄样本集中的拍摄样本进行样本扩充预处理,生成训练样本集,以使得训练样本集中的训练样本丰富,增强AI神经网络模型的准确度。接着,建立单元902获取初始AI神经网络模型,其中,初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,高维特征提取模块包含至少三个特征值向量提取层,特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成。通过该初始AI神经网络模型对存在Mura缺陷的显示屏拍摄图像进行训练。第一选取单元903从训练样本集中选取训练样本,输入初始AI神经网络模型。第一提取单元904通过特征金字塔网络对训练样本依次进行多层次卷积处理、特征通道融合处理、通道降维处理、上采样处理、二次卷积采样处理和通道叠加处理,生成第一样本特征,可适用于对多尺度训练样本的训练。混合单元905再通过初始AI神经网络模型中的通道混合模块对第一样本特征进行通道随机混合,生成第二样本特征。接着第一池化单元906通过初始AI神经网络模型中的Trans模块通过Trans模块中的空间金字塔通道池化层对第二样本特征进行通道的分组,以使得每一组中包含不同份数的通道集合,每一个通道集合包含至少一个通道,接着,第一池化单元906对每一组中每一份通道集合的对应位置进行池化降维处理,并输出对应份数的通道池化数据,以生成初始通道池化数据集合,并且第一池化单元906对只有一份通道集合的组的通道池化数据进行复制,并结合通道池化数据集合生成目标通道池化数据集合。最后,第一池化单元906通过通过Trans模块对第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,Trans模块包含空间金字塔通道池化层、全局平均池化层和dropout层。然后第二提取单元907通过初始AI神经网络模型中的高维特征提取模块对第三样本特征进行高维特征提取,生成第四样本特征,Trans子模块包含空间金字塔通道池化层、全局平均池化层和dropout层,Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成。卷积单元908通过初始AI神经网络模型中的Dense模块对第四样本特征进行卷积处理,生成第五样本特征,其中,Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入。第二池化单元909通过初始AI神经网络模型中的空间通道金字塔池化模块对第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表训练样本的宽与高。第一计算单元910对特征值向量进行计算,以生成训练样本归属良品和非良品的概率分布。第二计算单元911根据训练样本归属良品和非良品的概率分布、训练样本归属良品和非良品的真实概率分布与初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据。第一判断单元912判断损失值变化数据在预设区间内是否小于预设阈值,当第一判断单元912确定若损失值变化数据在预设区间内小于预设阈值时,则确定单元913确定初始AI神经网络模型为目标AI神经网络模型。
若第一判断单元912确定损失值变化数据在预设区间内不小于预设阈值,则第二判断单元914判断训练样本的训练次数是否达标。若第二判断单元914确定训练样本的训练次数未达标,则第二更新单元915根据小批梯度下降法更新初始AI神经网络模型的权值,并将训练样本重新输入初始AI神经网络模型中训练。若第二判断单元914训练样本的训练次数达标,则第一更新单元916根据小批梯度下降法更新初始AI神经网络模型的权值,并把训练过程中获取到的训练样本的特征和概率分布进行模型保存,第二选取单元917再从训练样本集中重新选取训练样本输入初始AI神经网络模型中训练。
在实际场景中,第三获取单元918获取目标显示屏图像,并将目标显示屏图像输入目标AI神经网络模型,输入单元919将目标显示屏图像归属良品和非良品的概率分布中最大概率值输出,并且,检测单元920通过检测软件检测目标显示屏图像的归属良品和非良品的检测结果,最后输出单元921根据最大概率值与检测结果输出目标显示屏的检测结果。
本技术方案中,通过在AI神经网络模型中设置了由Trans子模块、Dense子模块和Xception子模块组成的特征值向量提取层,可以实现对训练样本中对高维特征的提取。并且AI神经网络模型中还设置了特征金字塔网络,用于实现多尺寸检测以及适配不同尺寸大小的图片。特征金字塔网络通过融合不同深度卷积层的特征,较好地改善了多尺度问题,使得AI神经网络能对不同大小形状的Mura都有较好的检测率,降低了AI神经网络模型的漏检率和误检率。
请参阅图10,本申请实施例提供了一种电子设备,包括:
处理器1001、存储器1002、输入输出单元1003、总线1004;
处理器1001与存储器1002、输入输出单元1003以及总线1004相连;
处理器1001具体执行如下操作:
获取训练样本集,训练样本集中包含存在Mura缺陷的显示屏的拍摄图像和不存在Mura缺陷的显示屏的拍摄图像;
建立初始AI神经网络模型,初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,高维特征提取模块包含至少三个特征值向量提取层,特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成;
从训练样本集中选取训练样本,输入初始AI神经网络模型;
通过特征金字塔网络对训练样本进行卷积特征提取,生成第一样本特征;
通过通道混合模块对第一样本特征进行通道随机混合,生成第二样本特征;
通过Trans模块对第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,Trans模块包含空间金字塔通道池化层、全局平均池化层和dropout层;
通过高维特征提取模块对第三样本特征进行高维特征提取,生成第四样本特征,Trans子模块包含空间金字塔通道池化层、全局平均池化层和dropout层,Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成;
通过Dense模块对第四样本特征进行卷积处理,生成第五样本特征,Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入;
通过空间通道金字塔池化模块对第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表训练样本的宽与高;
对特征值向量进行计算,以生成训练样本归属良品和非良品的概率分布;
根据训练样本归属良品和非良品的概率分布、训练样本归属良品和非良品的真实概率分布与初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据;
判断损失值变化数据在预设区间内是否小于预设阈值;
若损失值变化数据在预设区间内小于预设阈值,则确定初始AI神经网络模型为目标AI神经网络模型。
本实施例中,处理器1001的功能与前述图1、图4-1、图4-2和图4-3所示实施例中的步骤对应,此处不做赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种AI神经网络模型的训练方法,其特征在于,包括:
获取训练样本集,所述训练样本集中包含存在Mura缺陷的显示屏的拍摄图像和不存在Mura缺陷的显示屏的拍摄图像;
建立初始AI神经网络模型,所述初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,所述高维特征提取模块包含至少三个特征值向量提取层,所述特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成;
从所述训练样本集中选取训练样本,输入所述初始AI神经网络模型;
通过特征金字塔网络对所述训练样本进行卷积特征提取,生成第一样本特征,所述第一样本特征融合了不同深度卷积层的特征;
通过通道混合模块对所述第一样本特征进行通道随机混合,生成第二样本特征;
通过Trans模块对所述第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,所述Trans模块包含空间金字塔通道池化层、全局平均池化层和dropout层;
通过高维特征提取模块对所述第三样本特征进行高维特征提取,生成第四样本特征,所述Trans子模块包含空间金字塔通道池化层、全局平均池化层和dropout层,所述Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成;
通过Dense模块对所述第四样本特征进行卷积处理,生成第五样本特征,所述Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,所述BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入;
通过所述空间通道金字塔池化模块对所述第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表所述训练样本的宽与高;
对所述特征值向量进行计算,以生成所述训练样本归属良品和非良品的概率分布;
根据所述训练样本归属良品和非良品的概率分布、所述训练样本归属良品和非良品的真实概率分布与所述初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,所述损失值变化数据为每一次训练生成的损失值的统计数据;
判断所述损失值变化数据在预设区间内是否小于预设阈值;
若所述损失值变化数据在预设区间内小于预设阈值,则确定所述初始AI神经网络模型为目标AI神经网络模型。
2.根据权利要求1中所述的训练方法,其特征在于,在判断所述损失值变化数据在预设区间内是否小于预设阈值之后,所述训练方法还包括:
若所述损失值变化数据在预设区间内不小于预设阈值,则判断所述训练样本的训练次数是否达标;
若所述训练样本的训练次数达标,根据小批梯度下降法更新所述初始AI神经网络模型的权值,并把训练过程中获取到的所述训练样本的特征和所述概率分布进行模型保存;
从所述训练样本集中重新选取训练样本输入所述初始AI神经网络模型中训练。
3.根据权利要求2中所述的训练方法,其特征在于,在所述确定所述初始AI神经网络模型为目标AI神经网络模型之后,所述训练方法还包括:
获取目标显示屏图像,并将所述目标显示屏图像输入目标AI神经网络模型,所述目标显示屏图像为目标显示屏的拍摄图像;
将所述目标显示屏图像归属良品和非良品的概率分布中最大概率值输出;
通过检测软件检测所述目标显示屏图像的归属良品和非良品的检测结果;
根据所述最大概率值与所述检测结果输出所述目标显示屏的检测结果。
4.根据权利要求2中所述的训练方法,其特征在于,在判断所述训练样本的训练次数是否达标之后,所述训练方法还包括:
若所述训练样本的训练次数未达标,则根据小批梯度下降法更新所述初始AI神经网络模型的权值,并将所述训练样本重新输入所述初始AI神经网络模型中训练。
5.根据权利要求1至4中任一项所述的训练方法,其特征在于,所述通过特征金字塔网络对所述训练样本进行卷积特征提取,生成第一样本特征,包括:
通过特征金字塔网络对所述训练样本依次进行多层次卷积处理、特征通道融合处理、通道降维处理、上采样处理、二次卷积采样处理和通道叠加处理,生成第一样本特征。
6.根据权利要求1至4中任一项所述的训练方法,其特征在于,所述通过Trans模块对所述第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,包括:
通过所述Trans模块中的空间金字塔通道池化层对所述第二样本特征进行通道的分组,以使得每一组中包含不同份数的通道集合,每一个通道集合包含至少一个通道;
对每一组中每一份通道集合的对应位置进行池化降维处理,并输出对应份数的通道池化数据,以生成初始通道池化数据集合;
对只有一份通道集合的组的通道池化数据进行复制,并结合所述通道池化数据集合生成目标通道池化数据集合;
通过所述Trans模块中的全局平均池化层和dropout层分别对所述目标通道池化数据集合进行池化降维处理和dropout操作,生成第三样本特征。
7.根据权利要求1至4中任一项所述的训练方法,其特征在于,所述获取训练样本集,包括:
拍摄显示屏集合,以生成拍摄样本集,所述显示屏集合中包括存在Mura缺陷的显示屏和不存在Mura缺陷的显示屏;
对所述拍摄样本集中的拍摄样本进行样本扩充预处理,生成训练样本集,所述样本扩充预处理包含放缩处理、裁剪处理、旋转处理和照片背景灰度直流分量统一化处理。
8.一种AI神经网络模型的训练装置,其特征在于,包括:
获取单元,用于获取训练样本集,所述训练样本集中包含存在Mura缺陷的显示屏的拍摄图像和不存在Mura缺陷的显示屏的拍摄图像;
建立单元,用于建立初始AI神经网络模型,所述初始AI神经网络模型中包含特征金字塔网络、通道混合模块、Trans模块、高维特征提取模块、Dense模块和空间通道金字塔池化模块,所述高维特征提取模块包含至少三个特征值向量提取层,所述特征值向量提取层由Trans子模块、Dense子模块和Xception子模块组成;
选取单元,用于从所述训练样本集中选取训练样本,输入所述初始AI神经网络模型;
第一提取单元,用于通过特征金字塔网络对所述训练样本进行卷积特征提取,生成第一样本特征,所述第一样本特征融合了不同深度卷积层的特征;
混合单元,用于通过通道混合模块对所述第一样本特征进行通道随机混合,生成第二样本特征;
第一池化单元,用于通过Trans模块对所述第二样本特征进行池化降维处理和dropout操作,生成第三样本特征,所述Trans模块包含空间金字塔通道池化层、全局平均池化层和dropout层;
第二提取单元,用于通过高维特征提取模块对所述第三样本特征进行高维特征提取,生成第四样本特征,所述Trans子模块包含空间金字塔通道池化层、全局平均池化层和dropout层,所述Dense子模块由至少两组BN层-Relu层-Conv层和Res残差网络组成;
卷积单元,用于通过Dense模块对所述第四样本特征进行卷积处理,生成第五样本特征,所述Dense模块由至少两组BN层-Relu层-Conv层和Res残差网络组成,所述BN层-Relu层-Conv层中每一层的输出都作为下一个BN层-Relu层-Conv层的输入;
第二池化单元,用于通过所述空间通道金字塔池化模块对所述第五样本特征在H-W维度上进行分块池化降维处理,生成特征值向量,H和W分别代表所述训练样本的宽与高;
第一计算单元,用于对所述特征值向量进行计算,以生成所述训练样本归属良品和非良品的概率分布;
第二计算单元,用于根据所述训练样本归属良品和非良品的概率分布、所述训练样本归属良品和非良品的真实概率分布与所述初始AI神经网络模型的损失函数计算损失值,生成损失值变化数据,所述损失值变化数据为每一次训练生成的损失值的统计数据;
第一判断单元,用于判断所述损失值变化数据在预设区间内是否小于预设阈值;
确定单元,用于当所述第一判断单元确定所述损失值变化数据在预设区间内小于预设阈值时,则确定所述初始AI神经网络模型为目标AI神经网络模型。
9.一种电子设备,其特征在于,包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行如权利要求1至7任意一项所述的训练方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行如权利要求1至7中任一项所述的训练方法。
CN202210000464.7A 2022-01-04 2022-01-04 一种ai神经网络模型的训练方法及相关装置 Active CN114021704B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210000464.7A CN114021704B (zh) 2022-01-04 2022-01-04 一种ai神经网络模型的训练方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210000464.7A CN114021704B (zh) 2022-01-04 2022-01-04 一种ai神经网络模型的训练方法及相关装置

Publications (2)

Publication Number Publication Date
CN114021704A CN114021704A (zh) 2022-02-08
CN114021704B true CN114021704B (zh) 2022-03-22

Family

ID=80069505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210000464.7A Active CN114021704B (zh) 2022-01-04 2022-01-04 一种ai神经网络模型的训练方法及相关装置

Country Status (1)

Country Link
CN (1) CN114021704B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612437B (zh) * 2022-03-15 2024-04-09 深圳市科泰兴业科技有限公司 一种基于amoled的显示画质提升方法
CN115034812B (zh) * 2022-05-31 2023-04-21 湖南华菱电子商务有限公司 基于大数据的钢铁行业销售量预测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899225A (zh) * 2020-06-30 2020-11-06 烟台市计量所 基于多尺度金字塔结构的核电管道缺陷检测方法
CN112651973A (zh) * 2020-12-14 2021-04-13 南京理工大学 基于特征金字塔注意力和混合注意力级联的语义分割方法
CN113011567A (zh) * 2021-03-31 2021-06-22 深圳精智达技术股份有限公司 一种卷积神经网络模型的训练方法及装置
CN113705583A (zh) * 2021-08-16 2021-11-26 南京莱斯电子设备有限公司 一种基于卷积神经网络模型的目标检测识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102192572B1 (ko) * 2014-06-09 2020-12-18 삼성전자주식회사 광원 모듈의 불량 검사방법, 광원 모듈의 제조 방법 및 광원 모듈 검사장치
US20210370993A1 (en) * 2020-05-27 2021-12-02 University Of South Carolina Computer vision based real-time pixel-level railroad track components detection system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899225A (zh) * 2020-06-30 2020-11-06 烟台市计量所 基于多尺度金字塔结构的核电管道缺陷检测方法
CN112651973A (zh) * 2020-12-14 2021-04-13 南京理工大学 基于特征金字塔注意力和混合注意力级联的语义分割方法
CN113011567A (zh) * 2021-03-31 2021-06-22 深圳精智达技术股份有限公司 一种卷积神经网络模型的训练方法及装置
CN113705583A (zh) * 2021-08-16 2021-11-26 南京莱斯电子设备有限公司 一种基于卷积神经网络模型的目标检测识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Deep Learning based MURA Defect Detection;Ramya Bagavath Singh 等;《EAI Endorsed Transactions on Cloud Systems》;20190716;第15卷(第5期);第1-7页 *
基于增强特征金字塔和可变形卷积的绝缘子缺陷检测;张晶焯 等;《电力工程技术》;20210730;第40卷(第4期);第155-160页 *
基于深度学习的型钢表面多形态微小缺陷检测算法;刘亚姣 等;《计算机应用》;20211015;第1-8页 *

Also Published As

Publication number Publication date
CN114021704A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
US10970600B2 (en) Method and apparatus for training neural network model used for image processing, and storage medium
CN111583187B (zh) 一种基于cnn可视化的pcb电路板缺陷检测方法
CN114021704B (zh) 一种ai神经网络模型的训练方法及相关装置
CN110909605B (zh) 基于对比相关的跨模态行人重识别方法
CN113011567B (zh) 一种卷积神经网络模型的训练方法及装置
CN110570363A (zh) 基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法
CN112884712B (zh) 一种显示面板缺陷分类的方法及相关装置
CN111881804B (zh) 基于联合训练的姿态估计模型训练方法、系统、介质及终端
CN109919059B (zh) 基于深度网络层次化与多任务训练的显著性物体检测方法
CN115705637A (zh) 一种基于改进YOLOv5模型的丝饼缺陷检测方法
CN111242026B (zh) 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法
CN115526891B (zh) 一种缺陷数据集的生成模型的训练方法及相关装置
CN114757844A (zh) 一种图像摩尔纹消除方法及装置
CN116543433A (zh) 一种基于改进YOLOv7模型的口罩佩戴检测方法和装置
CN113971764A (zh) 一种基于改进YOLOv3的遥感图像小目标检测方法
CN114331946A (zh) 一种图像数据处理方法、设备以及介质
CN114581456A (zh) 一种多图像分割模型的构建方法、图像检测方法及装置
CN113724155A (zh) 用于自监督单目深度估计的自提升学习方法、装置及设备
CN113284061A (zh) 一种基于梯度网络的水下图像增强方法
CN116342536A (zh) 基于轻量化模型的铝带材表面缺陷检测方法、系统及设备
CN117557784B (zh) 目标检测方法、装置、电子设备及存储介质
CN113256546A (zh) 一种基于彩色图指导的深度图补全方法
CN116309270A (zh) 一种基于双目图像的输电线路典型缺陷识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant