CN113011567B - 一种卷积神经网络模型的训练方法及装置 - Google Patents
一种卷积神经网络模型的训练方法及装置 Download PDFInfo
- Publication number
- CN113011567B CN113011567B CN202110345118.8A CN202110345118A CN113011567B CN 113011567 B CN113011567 B CN 113011567B CN 202110345118 A CN202110345118 A CN 202110345118A CN 113011567 B CN113011567 B CN 113011567B
- Authority
- CN
- China
- Prior art keywords
- training
- neural network
- network model
- convolutional neural
- loss value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种卷积神经网络模型的训练方法及装置,用于减少用于显示面板良品检测的卷积神经网络模型的训练时间。本申请实施例方法包括:获取训练样本集和原始VGG‑16卷积神经网络模型;将原始VGG‑16卷积神经网络模型的卷积核数量删减为一半,并删减一个卷积层conv3‑256、两个卷积层conv3‑512以及一个全连接层FC‑1000;选取训练样本,并输入预训练卷积神经网络模型中;获取训练样本的特征,并对特征进行计算,以生成训练样本归属良品和非良品的模型概率分布;根据模型概率分布、真实概率分布与损失函数计算损失值,以生成损失值变化数据;判断损失值变化数据在预设区间内的损失值是否收敛于0;若是,则确定预训练卷积神经网络模型为目标卷积神经网络模型。
Description
技术领域
本申请实施例涉及显示面板领域,尤其涉及一种卷积神经网络模型的训练方法及装置。
背景技术
随着信息显示技术的不断发展,显示面板(Organic ElectroluminescenceDisplay,OLED)凭借其自发光、可弯曲、视角广泛、响应速度快、制程简单等优势,正逐步取代传统的LCD,快速深入的应用到现代社会的各个领域。
在OLED生产制作的过程中,由于OLED制程工艺复杂、蒸镀工艺难以实现非常良好的平整性,导致每个子像素的发光亮度在相同外部条件下差异较大,这是一种常见缺陷Mura,在OLED显示中相较半导体发光二极管(Light Emitting Diode、LCD)更为严重。这就使得在OLED制作完成之后,需要对每个OLED的子像素进行补偿,以达到显示面板显示标准。在对OLED的子像素进行补偿之前,首先需要对OLED进行良品检测,只有非良品的OLED才需要进行子像素进行补偿。当前OLED的良品检测在技术和方式有三类:机器视觉检测、影像亮度色度计、人工检测。
影像亮度色度计检测:影像亮度色度计检测是基于CCD的影像系统,经过校准之后,对光线、亮度和色彩的反应与CIE模型定义的标准大体一致,能近似获得人眼感知效果。优点是具有缺陷固定情况下重复检测效率高的优点,但是存在检测灵活性差,成本高,时延大等缺点。人工检测:当前人工检测方式,众所周知,人工检测存在主观性、随意性、效率低,成本高、误差大等缺点,由于缺陷Mura低对比度、边缘模糊、形状不固定等特性,导致人眼无法识别,所以人工检测已经是濒临淘汰的最原始检测方式。机器视觉检测:机器视觉检测包含图像预处理系统、判别系统、深度学习平台,图片存储系统,综合运用了图像预处理、缺陷检测算法、机器学习、深度学习等AI技术。先通过工业相机获取显示面板图像,再使用图像预处理技术凸显特征,通过训练好的卷积神经网络模型算法进行识别,从而达到代替人工检测的目的。具备效率高,成本低,灵活性强的优点。所以,机器视觉检测就成为了当前较为重点研究的良品检测方式。
当前,存在一种使用VGG-16卷积神经网络模型对OLED进行良品检测的方式。使用VGG-16卷积神经网络模型对OLED进行良品检测之前,需要将多组显示面板图像输入原始VGG-16卷积神经网络模型中进行网络的训练。由于VGG-16卷积神经网络模型的具有一定数量卷积层数与全连接层数,但只有良品与非良品两种训练输出,VGG-16卷积神经网络模型能力过剩,导致训练过程中存在过拟合现象以及泛化现象,导致卷积神经网络模型的训练时间增加。
发明内容
本申请实施例第一方面提供了一种卷积神经网络模型的训练方法,其特征在于,包括:
获取训练样本集和原始VGG-16卷积神经网络模型,所述训练样本集中包含至少两张显示面板图像;
将所述原始VGG-16卷积神经网络模型的卷积层的卷积核数量删减为一半,并将所述原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减,以生成预训练卷积神经网络模型;
从所述训练样本集中选取训练样本,并将所述训练样本输入所述预训练卷积神经网络模型中;
通过所述预训练卷积神经网络模型获取所述训练样本的特征,并对所述特征进行计算,以生成所述训练样本归属良品和非良品的模型概率分布;
根据所述训练样本归属良品和非良品的模型概率分布、所述训练样本归属良品和非良品的真实概率分布与所述预训练卷积神经网络模型的损失函数计算损失值,以生成损失值变化数据,所述损失值变化数据为每一次训练生成的损失值的统计数据;
判断所述损失值变化数据在预设区间内的损失值是否收敛于0;
若所述损失值变化数据在预设区间内的损失值收敛于0,则确定所述预训练卷积神经网络模型为目标卷积神经网络模型。
可选的,在判断所述损失值变化数据在预设区间内的损失值是否收敛于0之后,所述训练方法还包括:
若所述损失值变化数据在预设区间内的损失值不收敛于0,则判断所述训练样本的训练次数是否达标;
若所述训练样本的训练次数达标,根据小批梯度下降法更新所述预训练卷积神经网络模型的权重,则把训练过程中获取到的所述训练样本的特征和所述概率分布进行模型保存。
可选的,在所述根据小批梯度下降法更新所述预训练卷积神经网络模型的权重,则把训练过程中获取到的所述训练样本的特征和所述概率分布进行模型保存之后,所述训练方法还包括:
从所述训练样本集中重新选取训练样本输入所述预训练卷积神经网络模型中训练。
可选的,在判断所述训练样本的训练次数是否达标之后,所述训练方法还包括:
若所述训练样本的训练次数未达标,则根据小批梯度下降法更新所述预训练卷积神经网络模型的权重,并将所述训练样本重新输入所述预训练卷积神经网络模型中训练。
可选的,在获取训练样本集和原始VGG-16卷积神经网络模型之后,所述从所述训练样本集中选取训练样本,并将所述训练样本输入所述预训练卷积神经网络模型中之前,所述训练方法还包括:
对所述训练样本集中的训练样本进行预处理,所述预处理包含放缩处理、裁剪处理、归一化处理和图像信道选择滤波器预处理。
可选的,在所述确定所述预训练卷积神经网络模型为目标卷积神经网络模型之后,所述训练方法还包括:
获取待检测显示面板图像;
将所述待检测显示面板图像输入所述目标卷积神经网络模型;
通过所述目标卷积神经网络模型生成所述待检测显示面板图像的良品概率值和非良品概率值,并将所述良品概率值和所述非良品概率值中数值最大的作为模型良品检测结果从所述目标卷积神经网络模型中输出;
获取常规良品检测下的所述待检测显示面板图像的常规良品检测结果,所述常规良品检测为通过非目标卷积神经网络模型方式检测所述待检测显示面板图像得到的良品检测结果;
将所述模型良品检测结果和所述常规良品检测结果中概率数值最大的作为目标良品检测结果输出。
本申请实施例第二方面提供了一种卷积神经网络模型的训练装置,其特征在于,包括:
第一获取单元,用于获取训练样本集和原始VGG-16卷积神经网络模型,所述训练样本集中包含至少两张显示面板图像;
重构单元,用于将所述原始VGG-16卷积神经网络模型的卷积层的卷积核数量删减为一半,并将所述原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减,以生成预训练卷积神经网络模型;
第一输入单元,用于从所述训练样本集中选取训练样本,并将所述训练样本输入所述预训练卷积神经网络模型中;
第一计算单元,用于通过所述预训练卷积神经网络模型获取所述训练样本的特征,并对所述特征进行计算,以生成所述训练样本归属良品和非良品的模型概率分布;
第二计算单元,用于根据所述训练样本归属良品和非良品的模型概率分布、所述训练样本归属良品和非良品的真实概率分布与所述预训练卷积神经网络模型的损失函数计算损失值,以生成损失值变化数据,所述损失值变化数据为每一次训练生成的损失值的统计数据;
第一判断单元,用于判断所述损失值变化数据在预设区间内的损失值是否收敛于0;
确定单元,用于当所述第一判断单元确定所述损失值变化数据在预设区间内的损失值收敛于0,则确定所述预训练卷积神经网络模型为目标卷积神经网络模型。
可选的,所述训练装置还包括:
第二判断单元,用于当所述第一判断单元确定所述损失值变化数据在预设区间内的损失值不收敛于0,则判断所述训练样本的训练次数是否达标;
第一更新单元,用于当所述第二判断单元确定所述训练样本的训练次数达标,根据小批梯度下降法更新所述预训练卷积神经网络模型的权重,则把训练过程中获取到的所述训练样本的特征和所述概率分布进行模型保存。
可选的,所述训练装置还包括:
第二输入单元,用于从所述训练样本集中重新选取训练样本输入所述预训练卷积神经网络模型中训练。
可选的,所述训练装置还包括:
第二更新单元,用于当所述第二判断单元确定所述训练样本的训练次数未达标,则根据小批梯度下降法更新所述预训练卷积神经网络模型的权重,并将所述训练样本重新输入所述预训练卷积神经网络模型中训练。
可选的,所述训练装置还包括:
预处理单元,用于对所述训练样本集中的训练样本进行预处理,所述预处理包含放缩处理、裁剪处理、归一化处理和图像信道选择滤波器预处理。
可选的,所述训练装置还包括:
第二获取单元,用于获取待检测显示面板图像;
第三输入单元,用于将所述待检测显示面板图像输入所述目标卷积神经网络模型;
第一输出单元,用于通过所述目标卷积神经网络模型生成所述待检测显示面板图像的良品概率值和非良品概率值,并将所述良品概率值和所述非良品概率值中数值最大的作为模型良品检测结果从所述目标卷积神经网络模型中输出;
第三获取单元,用于获取常规良品检测下的所述待检测显示面板图像的常规良品检测结果,所述常规良品检测为通过非目标卷积神经网络模型方式检测所述待检测显示面板图像得到的良品检测结果;
第二输出单元,用于将所述模型良品检测结果和所述常规良品检测结果中概率数值最大的作为目标良品检测结果输出。
本申请实施例第三方面提供了一种卷积神经网络模型的训练装置,其特征在于,包括:
处理器、存储器、输入输出单元、总线;
处理器与存储器、输入输出单元以及总线相连;
处理器具体执行如下操作:
获取训练样本集和原始VGG-16卷积神经网络模型,所述训练样本集中包含至少两张显示面板图像;
将所述原始VGG-16卷积神经网络模型的卷积层的卷积核数量删减为一半,并将所述原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减,以生成预训练卷积神经网络模型;
从所述训练样本集中选取训练样本,并将所述训练样本输入所述预训练卷积神经网络模型中;
通过所述预训练卷积神经网络模型获取所述训练样本的特征,并对所述特征进行计算,以生成所述训练样本归属良品和非良品的模型概率分布;
根据所述训练样本归属良品和非良品的模型概率分布、所述训练样本归属良品和非良品的真实概率分布与所述预训练卷积神经网络模型的损失函数计算损失值,以生成损失值变化数据,所述损失值变化数据为每一次训练生成的损失值的统计数据;
判断所述损失值变化数据在预设区间内的损失值是否收敛于0;
若所述损失值变化数据在预设区间内的损失值收敛于0,则确定所述预训练卷积神经网络模型为目标卷积神经网络模型。
可选的,处理器还用于执行第一方面中的任意可选方案的操作。
一种计算机可读存储介质,计算机可读存储介质上保存有程序,程序在计算机上执行时执行如前述第一方面以及第一方面的任意可选的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
首先获取训练样本集和原始VGG-16卷积神经网络模型,对原始VGG-16卷积神经网络模型进行层删减与卷积核重构,以使得原始VGG-16卷积神经网络模型的层数与每层卷积核减少,生成预训练卷积神经网络模型。从训练样本集中选取训练样本并输入预训练卷积神经网络模型中,通过所述预训练卷积神经网络模型获取所述训练样本的特征,并对所述特征进行计算,以生成所述训练样本归属良品和非良品的模型概率分布。根据训练样本归属良品和非良品的模型概率分布、训练样本归属良品和非良品的真实概率分布与预训练卷积神经网络模型的损失函数计算损失值,以生成损失值变化数据。判断损失值变化数据在预设区间内的损失值是否收敛于0,若损失值变化数据在预设区间内的损失值收敛于0,则确定预训练卷积神经网络模型为目标卷积神经网络模型。本实施例中,通过将原始VGG-16卷积神经网络模型的卷积层的卷积层的卷积核数量删减为一半,其次,将原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减,减少了训练过程中的过拟合现象以及泛化现象,降低了用于显示面板良品检测的卷积神经网络模型的训练时间。
附图说明
图1为本申请实施例中卷积神经网络模型的训练方法的一个实施例流程示意图;
图2-1与图2-2为本申请实施例中卷积神经网络模型的训练方法的另一个实施例流程示意图;
图3为本申请实施例中卷积神经网络模型网络层的一个实施例流程示意图;
图4为本申请实施例中卷积神经网络模型网络层的另一个实施例结构示意图;
图5为本申请实施例中卷积神经网络模型网络层的另一个实施例结构示意图;
图6为本申请实施例中卷积神经网络模型的训练装置的一个实施例流程示意图;
图7为本申请实施例中卷积神经网络模型的训练装置的另一个实施例流程示意图;
图8为本申请实施例中卷积神经网络模型的训练装置的另一个实施例流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的阐述,显然阐述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护范围。
本申请实施例公开了一种卷积神经网络模型的训练方法及相关装置,用于减少用于显示面板良品检测的卷积神经网络模型的训练时间。
在本实施例中,显示面板缺陷分类的方法可在系统实现,可以在服务器实现,也可以在终端实现,具体不做明确限定。为方便描述,本申请实施例使用终端为执行主体举例描述。
请参阅图1,本申请实施例提供了一种卷积神经网络模型的训练方法,包括:
101、获取训练样本集和原始VGG-16卷积神经网络模型,训练样本集中包含至少两张显示面板图像;
终端获取训练样本集,训练样本集中包含多张存在缺陷类型的显示面板图像以及多张常规良品检测正常的显示面板图像,用于对原始卷积神经网络模型进行训练。获取训练样本集的方式可以是从网络收集多张存在缺陷类型的显示面板图像,也可以是从生产场地现场拍摄带有缺陷类型的显示面板而生成的图像,此处不作限定。下面对训练样本的获取的步骤进行举例说明:
首先采集多种缺陷类型的显示面板图像,以使得训练样本的类型丰富充足。显示面板的缺陷为Mura缺陷,Mura缺陷的类型包括小彩斑、灰阶点状白斑、大面积片状彩斑、S向边缘Mura、G向彩带、拐角Mura等多种典型缺陷类型的显示面板图像,此处不作限定。
终端获取原始VGG-16卷积神经网络模型,本实施例中,使用原始VGG-16卷积神经网络模型时,在进行一定的参数设置,以及一定程度的初始训练后,即可用于训练上述的训练样本集种的训练样本。
可选的,本实施例中使用的原始VGG-16深度卷积神经网络,其中网络结构分为16层,13个卷积层、3个全连接层、5个池化层和softmax层:conv3-64,conv3-64,maxpool,conv3-128,conv3-128,maxpool,conv3-256,conv3-256,conv3-256,maxpool,conv3-512,conv3-512,conv3-512,maxpool,conv3-512,conv3-512,conv3-512,maxpool,FC-4096,FC-4096,FC-1000,softmax。
102、将原始VGG-16卷积神经网络模型的卷积层的卷积核数量删减为一半,并将原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减,以生成预训练卷积神经网络模型;
终端需要对原始VGG-16卷积神经网络模型进行重做,具体的,首先将原始VGG-16卷积神经网络模型的卷积层的卷积层的卷积核数量删减为一半,其次,将原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减,以生成预训练卷积神经网络模型。
重做后的预训练卷积神经网络模型的网络层分别标记为:conv3-32,conv3-32,maxpool,conv3-64,conv3-64,maxpool,conv3-128,conv3-128,maxpool,conv3-256,conv3-256,maxpool,conv3-512,conv3-512,maxpool,FC-4096,FC-4096,softmax。
通过对原始VGG-16卷积神经网络模型进行层删减与卷积核重构,以使得原始VGG-16卷积神经网络模型的层数与每层卷积核减少,减少了训练过程中的过拟合现象以及泛化现象,降低了用于显示面板良品检测的卷积神经网络模型的训练时间。
103、从训练样本集中选取训练样本,并将训练样本输入预训练卷积神经网络模型中;
终端从训练样本集中随机抽取一定数量的样本,同时进行训练。本实施例中,采用批量大小为32的小批量训练卷积神经网络,通过多次迭代,达到训练效果。本实施例中,迭代的次数约为25000次。
终端将选取出来的一个批次的训练样本输入预训练卷积神经网络模型中,以使得预训练卷积神经网络模型对训练样本进行学习分析,训练卷积神经网络模型。
104、通过预训练卷积神经网络模型获取训练样本的特征,并对特征进行计算,以生成训练样本归属良品和非良品的模型概率分布;
终端通过预训练卷积神经网络模型获取训练样本的特征,终端通过预训练卷积神经网络模型对特征进行学习分析,生成训练样本归属良品和非良品的模型概率分布。
预训练卷积神经网络模型中的全连接层用于通过对显示面板图像的学习分析得到的特征的权重,表征该特征的重要性程度。而预训练卷积神经网络模型中的卷积层主要用于过滤特征,筛选出类别区分能力强的特征。预训练卷积神经网络模型中的池化层进行最大池化操作,提高卷积神经网络模型的泛化性。最终对特征进行组合,生成图像,最后通过softmax层计算生成训练样本归属良品和非良品的模型概率分布。
本实施例中,softmax层的计算公式如下:
假设softmax层的输入是WX,假设预训练卷积神经网络模型的输入样本是I,讨论一个3分类问题(类别用1类,2类,3类表示),样本I的真实类别是2类,那么这个样本I经过所有网络层到达softmax层之前就得到了WX,也就是说WX是一个元素为3的向量,那么上面公式中的aj就表示这个元素为3的向量中的第j个值(最后会得到S1,S2,S3),而分母中的ak则表示元素为3的向量中的3个值,所以会有个求和符号(这里求和是k从1到T,T和公式中的T是对应相等的,也就是类别数,j的范围也是1到T)。由于ex恒大于0,所以分子永远是正数,分母又是多个正数的和,所以分母也肯定是正数,因此Sj是正数,而且范围是(0,1)。若现在不是在训练预训练卷积神经网络模型,而是在测试预训练卷积神经网络模型,那么当一个样本经过softmax层并输出一个T*1个元素的向量时,就会取这个向量中元素数值最大的那个的作为这个训练样本的预测标签。
下面进行举例说明:假设你的WX=[1,2,3],那么经过softmax层后就会得到[0.09,0.24,0.67],这三个数字表示这个样本属于第1,2,3类的概率分别是0.09,0.24,0.67。取概率最大的0.67,所以这里得到的预测值就是第三类。再例如:y=2.0,1.0,0.1,通过softmax函数(softmax层)后,计算得到对应的概率值S(y)=0.7,0.2,0.1,则最大概率值为0.7。
105、根据训练样本归属良品和非良品的模型概率分布、训练样本归属良品和非良品的真实概率分布与预训练卷积神经网络模型的损失函数计算损失值,以生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据;
根据训练样本归属良品和非良品的模型概率分布、训练样本归属良品和非良品的真实概率分布与预训练卷积神经网络模型的损失函数计算损失值。再根据每一次训练生成的损失值的统计数据,生成损失值变化数据。
本实施例中,预训练卷积神经网络模型的损失函数为交叉熵损失函数,该交叉熵函数的计算方法如下所示:
在数字识别任务中,如果数字样本是数字“5”,那么真实分布应该为:[0,0,0,0,0,1,0,0,0,0],如果网络输出的分布为:[0.1,0.1,0,0,0,0.7,0,0.1,0,0],则应为10,那么计算损失函数得:
Loss=-[0*log(0.1)]*3-[0*log(0)]*6-1*log(0.7)≈0.3567
如果网络输出的分布为:[0.2,0.3,0.1,0,0,0.3,0.1,0,0,0],那么计算损失函数得:
Loss=-[0*log(0.1)]*2-[0*log(0.2)]-[0*log(0)]*5-[0*log(0.3)]*2-log(0.7)≈1.204
上述两种情况对比,第一个分布的损失通过交叉熵函数计算出的损失值明显低于第二个分布通过交叉熵函数计算出的损失值的损失,说明第一个分布更接近于真实分布。
通过上述方式计算出模型概率分布与真实概率分布的损失值后,将从预训练卷积神经网络模型开始训练到目前的所有损失值都进行统计,生成损失值变化数据。
106、判断损失值变化数据在预设区间内的损失值是否收敛于0;若是,执行步骤107;
终端判断损失值变化数据在预设区间内的损失值是否收敛于0,当损失值变化数据在预设区间内,所有的损失值的大小以及趋势都收敛于0时,则可以确定预训练卷积神经网络模型训练完成,执行步骤107。
107、若损失值变化数据在预设区间内的损失值收敛于0,则确定预训练卷积神经网络模型为目标卷积神经网络模型。
当损失值变化数据在预设区间内,所有的损失值的大小以及趋势都收敛于0时,则可以确定预训练卷积神经网络模型训练完成,则可以将预训练卷积神经网络模型确定为目标卷积神经网络模型。
下面进行举例说明:当损失值变化数据中,最新的10000次训练这个区间内,产生的所有损失值都小于0.001,并且每一个损失值都比前一个损失值的绝对值的数值小,即收敛于0,可以确定训练完成,进而确定预训练卷积神经网络模型为目标卷积神经网络模型。
首先获取训练样本集和原始VGG-16卷积神经网络模型,对原始VGG-16卷积神经网络模型进行层删减与卷积核重构,以使得原始VGG-16卷积神经网络模型的层数与每层卷积核减少,生成预训练卷积神经网络模型。从训练样本集中选取训练样本并输入预训练卷积神经网络模型中,通过预训练卷积神经网络模型获取训练样本的特征,并对特征进行计算,以生成训练样本归属良品和非良品的模型概率分布。根据训练样本归属良品和非良品的模型概率分布、训练样本归属良品和非良品的真实概率分布与预训练卷积神经网络模型的损失函数计算损失值,以生成损失值变化数据。判断损失值变化数据在预设区间内的损失值是否收敛于0,若损失值变化数据在预设区间内的损失值收敛于0,则确定预训练卷积神经网络模型为目标卷积神经网络模型。本实施例中,通过将原始VGG-16卷积神经网络模型的卷积层的卷积层的卷积核数量删减为一半,其次,将原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减,减少了训练过程中的过拟合现象以及泛化现象,降低了用于显示面板良品检测的卷积神经网络模型的训练时间。
其次,本实施例的目标卷积神经网络模型的随机初始化相比使用预训练模型进行迁移学习灵活性更好检测准确率也更高,目标卷积神经网络模型的梯度更加稳定,更加可预测,计算梯度时可采用更大的步长,即更大的学习率来加速预训练卷积神经网络的训练,还可防止交叉熵损失函数空间突变,即不会掉入梯度消失的平坦区域,也不会掉入梯度爆炸的局部最小区域。
请参阅图2-1至图2-2,本申请实施例提供了另一种卷积神经网络模型的训练方法,包括:
201、获取训练样本集和原始VGG-16卷积神经网络模型,训练样本集中包含至少两张显示面板图像;
本实施例中的步骤201与前述实施例中步骤101类似,此处不再赘述。
202、对训练样本集中的训练样本进行预处理,预处理包含放缩处理、裁剪处理、归一化处理和图像信道选择滤波器预处理;
终端对训练样本集中的训练样本进行预处理,预处理包含放缩处理、裁剪处理、归一化处理和图像信道选择滤波器预处理。即终端在训练卷积神经网络模型之前,需要对收集的训练样本进行预处理,以使得训练样本达到统一的规格。
由于显示面板图像都是长方形图像,而不是不是正方形的图像,根据实际情况对卷积神经网络模型输入的图像进行调整为矩形。本实施例中,输入的显示面板图像大小调整为为256x512(宽x高)。其次,通过进行显示面板图像的旋转校正以及进一步剪切处理等得到显示面板图像,有效的排除了图像周边环境的干扰,最后通过的图像信道选择滤波器预处理,有效抑制周期背景干扰,凸显Mura的特征,是后续卷积神经网络模型训练的关键。图像信道选择滤波器预处理的公式如下:
其中,r=48px/deg,r决定了视觉分辨率。K=4(在每个维度中用K的整数因子对图像进行下采样)i和j是列和行像素索引,w和h是图像的宽度和高度(以像素为单位)。
可选的,本实施例中,将训练样本缩放到256*256*3大小后,随机裁剪到224*224*3(宽为224,高为224的3通道彩色图像),然后随机翻转图像,进行归一化处理以及图像信道选择滤波器预处理等一系列图像预处理工作。
203、将原始VGG-16卷积神经网络模型的卷积层的卷积核数量删减为一半,并将原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减;
204、从训练样本集中选取训练样本,并将训练样本输入预训练卷积神经网络模型中;
205、通过预训练卷积神经网络模型获取训练样本的特征,并对特征进行计算,以生成训练样本归属良品和非良品的模型概率分布;
206、根据训练样本归属良品和非良品的模型概率分布、训练样本归属良品和非良品的真实概率分布与预训练卷积神经网络模型的损失函数计算损失值,以生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据;
207、判断损失值变化数据在预设区间内的损失值是否收敛于0;
208、若损失值变化数据在预设区间内的损失值收敛于0,则确定预训练卷积神经网络模型为目标卷积神经网络模型;
本实施例中的步骤203至208与前述实施例中步骤102至107类似,此处不再赘述。
209、若损失值变化数据在预设区间内的损失值不收敛于0,则判断训练样本的训练次数是否达标;若是,则执行步骤210;若否,则执行步骤212;
当损失值变化数据在预设区间内,不是所有的损失值的大小以及趋势都收敛于0时,则确定预训练卷积神经网络模型训练尚未完成。这时需要判断训练样本的训练次数是否达标,即当前的训练样本是否完成了预设次数的训练,若是,则执行步骤210,若否,则执行步骤212。
210、若训练样本的训练次数达标,根据小批梯度下降法更新预训练卷积神经网络模型的权重,则把训练过程中获取到的训练样本的特征和概率分布进行模型保存;
当终端确定训练样本的训练次数达标,则需要根据小批梯度下降法更新预训练卷积神经网络模型的权重,则把训练过程中获取到的训练样本的特征和概率分布进行模型保存。
本实施例中,通过小批梯度下降法更新预训练卷积神经网络模型,其中批训练的梯度更新方式的公式为:
n是批量大小(batchsize),η是学习率(learning rate)。
使用反向梯度求导,请参考图3,图3为一个卷积神经网络模型网络层示意图。
W代表权重矩阵,Z代表输入矩阵,A代表输出矩阵,Y代表标准答案。
L代表卷积神经网络模型的层数。
向前传播的方法,即将输入层的信号传输至隐藏层,以隐藏层节点c为例,站在节点c上往后看(输入层的方向),可以看到有两个箭头指向节点c,因此a,b节点的信息将传递给c,同时每个箭头有一定的权重,因此对于c节点来说,输入信号为:
同理,节点d的输入信号为:
由于终端善于做带有循环的任务,因此可以用矩阵相乘来表示:
Z2=W1*A1+B2
所以,隐藏层节点经过非线性变换后的输出表示如下:
A2=sigmoid(Z2)
同理,输出层的输入信号表示为权重矩阵乘以上一层的输出:
Z3=W2*A2+B3
同样,输出层节点经过非线性映射后的最终输出表示为:
A3=sigmoid(Z3)
输入信号在权重矩阵们的帮助下,得到每一层的输出,最终到达输出层。可见,权重矩阵在前向传播信号的过程中扮演着运输兵的作用,起到承上启下的功能。
请参考图4,图4为一个卷积神经网络模型网络层示意图。向后传播的方法,既然梯度下降需要每一层都有明确的误差才能更新参数,所以接下来的重点是如何将输出层的误差反向传播给隐藏层。
其中输出层、隐藏层节点的误差如图所示,输出层误差已知,接下来对隐藏层第一个节点c作误差分析。还是站在节点c上,不同的是这次是往前看(输出层的方向),可以看到指向c节点的两个蓝色粗箭头是从节点e和节点f开始的,因此对于节点c的误差肯定是和输出层的节点e和f有关。输出层的节点e有箭头分别指向了隐藏层的节点c和d,因此对于隐藏节点e的误差不能被隐藏节点c霸为己有,而是要服从按劳分配的原则(按权重分配),同理节点f的误差也需服从这样的原则,因此对于隐藏层节点c的误差为:
同理,对于隐藏层节点d的误差为:
为了减少工作量,可写成矩阵相乘的形式:
该矩阵比较繁琐,可简化到前向传播的形式,不破坏它们的比例,因此我们可以忽略掉分母部分,所以重新成矩阵形式为:
该权重矩阵,其实是前向传播时权重矩阵w的转置,因此简写形式如下:
Eh=WT*Eo
输出层误差在转置权重矩阵的帮助下,传递到了隐藏层,这样我们就可以利用间接误差来更新与隐藏层相连的权重矩阵。可见,权重矩阵在反向传播的过程中同样扮演着运输兵的作用,只不过这次是搬运的输出误差,而不是输入信号。
请参考图5,图5为一个卷积神经网络模型网络层示意图。接下来需要进行链式求导,上面介绍了输入信息的前向传播与输出误差的后向传播,接下来就根据求得的误差来更新参数。
首先对隐藏层的w11进行参数更新,更新之前让我们从后往前推导,直到预见w11为止,计算方式如下:
因此误差对w11求偏导如下:
求导得如下公式(所有值已知):
同理,误差对于w12的偏导如下:
同样,求导得w12的求值公式:
同理,误差对于偏置求偏导如下:
同理,误差对于偏置求偏导如下:
接着对输入层的w11进行参数更新,更新之前我们依然从后往前推导,直到预见第一层的w11为止:
因此误差对输入层的w11求偏导如下:
求导得如下公式:
同理,输入层的其他三个参数按照同样的方法即可求出各自的偏导,此处不做赘述。在每个参数偏导数明确的情况下,带入梯度下降公式即可:
至此,利用链式法则来对每层参数进行更新的任务已经完成。
在更新了预训练卷积神经网络的权重之后,还需要把训练过程中获取到的训练样本的特征和概率分布进行模型保存,目的是在每一组训练样本的训练次数达标之后,保留一个模型,以使得在后续训练过程中出现泛化、过拟合等问题时,还可以使用原先保存下来的预训练卷积神经网络模型。本步骤后,执行步骤211。
211、从训练样本集中重新选取训练样本输入预训练卷积神经网络模型中训练;
当终端训练样本的训练次数是否达标之后,例如达到了25000次训练,但是预训练卷积神经网络还未收敛于0,则需要重新选取训练样本进行训练,这时则需要从训练样本集中重新选取训练样本输入预训练卷积神经网络模型中训练。
212、若训练样本的训练次数未达标,则根据小批梯度下降法更新预训练卷积神经网络模型的权重,并将训练样本重新输入预训练卷积神经网络模型中训练;
当终端确定训练样本的训练次数未达标,则同样需要根据小批梯度下降法更新预训练卷积神经网络模型的权重,再将训练样本重新输入预训练卷积神经网络中进行训练。小批梯度下降法更新预训练卷积神经网络模型的权重,其方法通步骤210,此处不做赘述。
213、获取待检测显示面板图像;
终端首先获取待检测显示面板图像,将待检测显示面板图像输入训练完成的目标卷积神经网络模型中,得到检测的结果。当显示面板存在缺陷时,在待检测显示面板图像上会存在一定的非良品的特征。获取待检测显示面板图像的方式可以是从生产场地现场拍摄显示面板而生成的图像,此处不作限定。在实际应用中,该卷积神经网络应用于显示面板生产场地中,从显示面板生产场地拍摄每一个显示面板,从而通过卷积神经网络模型判断是否存在缺陷。或是从维修显示面板的场地中,拍摄待维修的显示面板,得到待检测显示面板图像。
本实施例中,显示面板的缺陷为Mura缺陷,Mura缺陷的类型包括小彩斑、灰阶点状白斑、大面积片状彩斑、S向边缘Mura、G向彩带、拐角Mura等多种典型缺陷类型的显示面板图像,此处不作限定。
在获取待检测显示面板图像之后,还需要对待检测显示面板图像进行预处理。
终端在训练卷积神经网络模型之前,需要对收集的待检测显示面板图像进行预处理,以使得训练样本达到统一的规格。
可选的,本实施例中,将待检测显示面板图像缩放到256*256*3大小后,随机裁剪到224*224*3(宽为224,高为224的3通道彩色图像),然后随机翻转待检测显示面板图像,进行归一化处理等一系列图像预处理工作。
214、将待检测显示面板图像输入目标卷积神经网络模型;
终端将待检测显示面板图像输入训练完成的目标卷积神经网络模型中,以使得目标卷积神经网络模型对待检测显示面板图像进行分析计算。
215、通过目标卷积神经网络模型生成待检测显示面板图像的良品概率值和非良品概率值,并将良品概率值和非良品概率值中数值最大的作为模型良品检测结果从目标卷积神经网络模型中输出;
终端通过目标卷积神经网络模型生成待检测显示面板图像的良品概率值和非良品概率值,并将良品概率值和非良品概率值中数值最大的作为模型良品检测结果从目标卷积神经网络模型中输出,具体细节与步骤104类似,此处不作赘述,需要说明的是,在训练过程中需要将模型概率分布输出,在目标卷积神经网络实际运用中只需要输出概率大的结果以及对应的数值即可。例如在训练过程中需要将模型概率分布P(良品概率值P1,非良品概率值P2)输出,在目标卷积神经网络实际运用中只需要输出max(P(P1,P2))即可。
216、获取常规良品检测下的待检测显示面板图像的常规良品检测结果,常规良品检测为通过非目标卷积神经网络模型方式检测待检测显示面板图像得到的良品检测结果;
终端获取常规良品检测下的待检测显示面板图像的常规良品检测结果,常规良品检测为通过非目标卷积神经网络模型方式检测待检测显示面板图像得到的良品检测结果。可以是仪器扫描检测,也可以是人工检测,此处不作限定。
217、将模型良品检测结果和常规良品检测结果中概率数值最大的作为目标良品检测结果输出。
终端将模型良品检测结果和常规良品检测结果中概率数值最大的作为目标良品检测结果输出。
首先获取训练样本集和原始VGG-16卷积神经网络模型,对原始VGG-16卷积神经网络模型进行层删减与卷积核重构,以使得原始VGG-16卷积神经网络模型的层数与每层卷积核减少,生成预训练卷积神经网络模型。从训练样本集中选取训练样本并输入预训练卷积神经网络模型中,通过预训练卷积神经网络模型获取训练样本的特征,并对特征进行计算,以生成训练样本归属良品和非良品的模型概率分布。根据训练样本归属良品和非良品的模型概率分布、训练样本归属良品和非良品的真实概率分布与预训练卷积神经网络模型的损失函数计算损失值,以生成损失值变化数据。判断损失值变化数据在预设区间内的损失值是否收敛于0,若损失值变化数据在预设区间内的损失值收敛于0,则确定预训练卷积神经网络模型为目标卷积神经网络模型。本实施例中,通过将原始VGG-16卷积神经网络模型的卷积层的卷积层的卷积核数量删减为一半,其次,将原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减,减少了训练过程中的过拟合现象以及泛化现象,降低了用于显示面板良品检测的卷积神经网络模型的训练时间。
其次,本实施例的目标卷积神经网络模型的随机初始化相比使用预训练模型进行迁移学习灵活性更好检测准确率也更高,目标卷积神经网络模型的梯度更加稳定,更加可预测,计算梯度时可采用更大的步长,即更大的学习率来加速预训练卷积神经网络的训练,还可防止交叉熵损失函数空间突变,即不会掉入梯度消失的平坦区域,也不会掉入梯度爆炸的局部最小区域。
获取待检测显示面板图像,并将待检测显示面板图像输入训练完成的目标卷积神经网络模型中。通过目标卷积神经网络模型生成待检测显示面板图像的良品概率值和非良品概率值,并将良品概率值和非良品概率值中数值最大的作为模型良品检测结果从目标卷积神经网络模型中输出,终端获取常规良品检测下的待检测显示面板图像的常规良品检测结果,将模型良品检测结果和常规良品检测结果中概率数值最大的作为目标良品检测结果输出,多重检测,增加可信度。
请参阅图6,本申请实施例提供了一种卷积神经网络模型的训练装置,包括:
第一获取单元601,用于获取训练样本集和原始VGG-16卷积神经网络模型,训练样本集中包含至少两张显示面板图像;
重构单元602,用于将原始VGG-16卷积神经网络模型的卷积层的卷积核数量删减为一半,并将原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减,以生成预训练卷积神经网络模型;
第一输入单元603,用于从训练样本集中选取训练样本,并将训练样本输入预训练卷积神经网络模型中;
第一计算单元604,用于通过预训练卷积神经网络模型获取训练样本的特征,并对特征进行计算,以生成训练样本归属良品和非良品的模型概率分布;
第二计算单元605,用于根据训练样本归属良品和非良品的模型概率分布、训练样本归属良品和非良品的真实概率分布与预训练卷积神经网络模型的损失函数计算损失值,以生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据;
第一判断单元606,用于判断损失值变化数据在预设区间内的损失值是否收敛于0;
确定单元607,用于当第一判断单元606确定损失值变化数据在预设区间内的损失值收敛于0,则确定预训练卷积神经网络模型为目标卷积神经网络模型。
请参阅图7,本申请实施例提供了一种卷积神经网络模型的训练装置,包括:
第一获取单元701,用于获取训练样本集和原始VGG-16卷积神经网络模型,训练样本集中包含至少两张显示面板图像;
预处理单元702,用于对训练样本集中的训练样本进行预处理,预处理包含放缩处理、裁剪处理、归一化处理和图像信道选择滤波器预处理;
重构单元703,用于将原始VGG-16卷积神经网络模型的卷积层的卷积核数量删减为一半,并将原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减,以生成预训练卷积神经网络模型;
第一输入单元704,用于从训练样本集中选取训练样本,并将训练样本输入预训练卷积神经网络模型中;
第一计算单元705,用于通过预训练卷积神经网络模型获取训练样本的特征,并对特征进行计算,以生成训练样本归属良品和非良品的模型概率分布;
第二计算单元706,用于根据训练样本归属良品和非良品的模型概率分布、训练样本归属良品和非良品的真实概率分布与预训练卷积神经网络模型的损失函数计算损失值,以生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据;
第一判断单元707,用于判断损失值变化数据在预设区间内的损失值是否收敛于0;
确定单元708,用于当第一判断单元707确定损失值变化数据在预设区间内的损失值收敛于0,则确定预训练卷积神经网络模型为目标卷积神经网络模型;
第二判断单元709,用于当第一判断单元707确定损失值变化数据在预设区间内的损失值不收敛于0,则判断训练样本的训练次数是否达标;
第一更新单元710,用于当第二判断单元709确定训练样本的训练次数达标,根据小批梯度下降法更新预训练卷积神经网络模型的权重,则把训练过程中获取到的训练样本的特征和概率分布进行模型保存;
第二输入单元711,用于从训练样本集中重新选取训练样本输入预训练卷积神经网络模型中训练;
第二更新单元712,用于当第二判断单元确定训练样本的训练次数未达标,则根据小批梯度下降法更新预训练卷积神经网络模型的权重,并将训练样本重新输入预训练卷积神经网络模型中训练;
第二获取单元713,用于获取待检测显示面板图像;
第三输入单元714,用于将待检测显示面板图像输入目标卷积神经网络模型;
第一输出单元715,用于通过目标卷积神经网络模型生成待检测显示面板图像的良品概率值和非良品概率值,并将良品概率值和非良品概率值中数值最大的作为模型良品检测结果从目标卷积神经网络模型中输出;
第三获取单元716,用于获取常规良品检测下的待检测显示面板图像的常规良品检测结果,常规良品检测为通过非目标卷积神经网络模型方式检测待检测显示面板图像得到的良品检测结果;
第二输出单元717,用于将模型良品检测结果和常规良品检测结果中概率数值最大的作为目标良品检测结果输出。
请参阅图8,本申请实施例提供了另一种卷积神经网络模型的训练装置,包括:
处理器801、存储器802、输入输出单元803、总线804;
处理器801与存储器802、输入输出单元803以及总线804相连;
处理器801具体执行如下操作:
获取训练样本集和原始VGG-16卷积神经网络模型,训练样本集中包含至少两张显示面板图像;
将原始VGG-16卷积神经网络模型的卷积层的卷积核数量删减为一半,并将原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减,以生成预训练卷积神经网络模型;
从训练样本集中选取训练样本,并将训练样本输入预训练卷积神经网络模型中;
通过预训练卷积神经网络模型获取训练样本的特征,并对特征进行计算,以生成训练样本归属良品和非良品的模型概率分布;
根据训练样本归属良品和非良品的模型概率分布、训练样本归属良品和非良品的真实概率分布与预训练卷积神经网络模型的损失函数计算损失值,以生成损失值变化数据,损失值变化数据为每一次训练生成的损失值的统计数据;
判断损失值变化数据在预设区间内的损失值是否收敛于0;
若损失值变化数据在预设区间内的损失值收敛于0,则确定预训练卷积神经网络模型为目标卷积神经网络模型。
本实施例中,处理器801的功能与前述图1至图2所示实施例中的步骤对应,此处不做赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (9)
1.一种卷积神经网络模型的训练方法,其特征在于,包括:
获取训练样本集和原始VGG-16卷积神经网络模型,所述训练样本集中包含至少两张显示面板图像;
将所述原始VGG-16卷积神经网络模型的卷积层的卷积核数量删减为一半,并将所述原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减,以生成预训练卷积神经网络模型;
从所述训练样本集中选取训练样本,并将所述训练样本输入所述预训练卷积神经网络模型中;
通过所述预训练卷积神经网络模型获取所述训练样本的特征,并对所述特征进行计算,以生成所述训练样本归属良品和非良品的模型概率分布;
根据所述训练样本归属良品和非良品的模型概率分布、所述训练样本归属良品和非良品的真实概率分布与所述预训练卷积神经网络模型的损失函数计算损失值,以生成损失值变化数据,所述损失值变化数据为每一次训练生成的损失值的统计数据;
判断所述损失值变化数据在预设区间内的损失值是否收敛于0;
若所述损失值变化数据在预设区间内的损失值收敛于0,则确定所述预训练卷积神经网络模型为目标卷积神经网络模型;
获取待检测显示面板图像;
将所述待检测显示面板图像输入所述目标卷积神经网络模型;
通过所述目标卷积神经网络模型生成所述待检测显示面板图像的良品概率值和非良品概率值,并将所述良品概率值和所述非良品概率值中数值最大的作为模型良品检测结果从所述目标卷积神经网络模型中输出;
获取常规良品检测下的所述待检测显示面板图像的常规良品检测结果,所述常规良品检测为通过非目标卷积神经网络模型方式检测所述待检测显示面板图像得到的良品检测结果;
将所述模型良品检测结果和所述常规良品检测结果中概率数值最大的作为目标良品检测结果输出。
2.根据权利要求1中所述的训练方法,其特征在于,在判断所述损失值变化数据在预设区间内的损失值是否收敛于0之后,所述训练方法还包括:
若所述损失值变化数据在预设区间内的损失值不收敛于0,则判断所述训练样本的训练次数是否达标;
若所述训练样本的训练次数达标,根据小批梯度下降法更新所述预训练卷积神经网络模型的权重,则把训练过程中获取到的所述训练样本的特征和所述概率分布进行模型保存。
3.根据权利要求2中所述的训练方法,其特征在于,在所述根据小批梯度下降法更新所述预训练卷积神经网络模型的权重,则把训练过程中获取到的所述训练样本的特征和所述概率分布进行模型保存之后,所述训练方法还包括:
从所述训练样本集中重新选取训练样本输入所述预训练卷积神经网络模型中训练。
4.根据权利要求2中所述的训练方法,其特征在于,在判断所述训练样本的训练次数是否达标之后,所述训练方法还包括:
若所述训练样本的训练次数未达标,则根据小批梯度下降法更新所述预训练卷积神经网络模型的权重,并将所述训练样本重新输入所述预训练卷积神经网络模型中训练。
5.根据权利要求1至4中任一项的训练方法,其特征在于,在获取训练样本集和原始VGG-16卷积神经网络模型之后,所述从所述训练样本集中选取训练样本,并将所述训练样本输入所述预训练卷积神经网络模型中之前,所述训练方法还包括:
对所述训练样本集中的训练样本进行预处理,所述预处理包含放缩处理、裁剪处理、归一化处理和图像信道选择滤波器预处理。
6.一种卷积神经网络模型的训练装置,其特征在于,包括:
第一获取单元,用于获取训练样本集和原始VGG-16卷积神经网络模型,所述训练样本集中包含至少两张显示面板图像;
重构单元,用于将所述原始VGG-16卷积神经网络模型的卷积层的卷积核数量删减为一半,并将所述原始VGG-16卷积神经网络模型的一个卷积层conv3-256、两个卷积层conv3-512以及一个全连接层FC-1000删减,以生成预训练卷积神经网络模型;
第一输入单元,用于从所述训练样本集中选取训练样本,并将所述训练样本输入所述预训练卷积神经网络模型中;
第一计算单元,用于通过所述预训练卷积神经网络模型获取所述训练样本的特征,并对所述特征进行计算,以生成所述训练样本归属良品和非良品的模型概率分布;
第二计算单元,用于根据所述训练样本归属良品和非良品的模型概率分布、所述训练样本归属良品和非良品的真实概率分布与所述预训练卷积神经网络模型的损失函数计算损失值,以生成损失值变化数据,所述损失值变化数据为每一次训练生成的损失值的统计数据;
第一判断单元,用于判断所述损失值变化数据在预设区间内的损失值是否收敛于0;
确定单元,用于当所述第一判断单元确定所述损失值变化数据在预设区间内的损失值收敛于0,则确定所述预训练卷积神经网络模型为目标卷积神经网络模型;
第二获取单元,用于获取待检测显示面板图像;
第三输入单元,用于将所述待检测显示面板图像输入所述目标卷积神经网络模型;
第一输出单元,用于通过所述目标卷积神经网络模型生成所述待检测显示面板图像的良品概率值和非良品概率值,并将所述良品概率值和所述非良品概率值中数值最大的作为模型良品检测结果从所述目标卷积神经网络模型中输出;
第三获取单元,用于获取常规良品检测下的所述待检测显示面板图像的常规良品检测结果,所述常规良品检测为通过非目标卷积神经网络模型方式检测所述待检测显示面板图像得到的良品检测结果;
第二输出单元,用于将所述模型良品检测结果和所述常规良品检测结果中概率数值最大的作为目标良品检测结果输出。
7.根据权利要求6中所述的训练装置,其特征在于,所述训练装置还包括:
第二判断单元,用于当所述第一判断单元确定所述损失值变化数据在预设区间内的损失值不收敛于0,则判断所述训练样本的训练次数是否达标;
第一更新单元,用于当所述第二判断单元确定所述训练样本的训练次数达标,根据小批梯度下降法更新所述预训练卷积神经网络模型的权重,则把训练过程中获取到的所述训练样本的特征和所述概率分布进行模型保存。
8.根据权利要求7中所述的训练装置,其特征在于,所述训练装置还包括:
第二输入单元,用于从所述训练样本集中重新选取训练样本输入所述预训练卷积神经网络模型中训练。
9.根据权利要求7中的训练装置,其特征在于,所述训练装置还包括:
第二更新单元,用于当所述第二判断单元确定所述训练样本的训练次数未达标,则根据小批梯度下降法更新所述预训练卷积神经网络模型的权重,并将所述训练样本重新输入所述预训练卷积神经网络模型中训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110345118.8A CN113011567B (zh) | 2021-03-31 | 2021-03-31 | 一种卷积神经网络模型的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110345118.8A CN113011567B (zh) | 2021-03-31 | 2021-03-31 | 一种卷积神经网络模型的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113011567A CN113011567A (zh) | 2021-06-22 |
CN113011567B true CN113011567B (zh) | 2023-01-31 |
Family
ID=76409547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110345118.8A Active CN113011567B (zh) | 2021-03-31 | 2021-03-31 | 一种卷积神经网络模型的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113011567B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI769875B (zh) * | 2021-06-24 | 2022-07-01 | 國立中央大學 | 深度學習網路裝置、其使用的記憶體存取方法與非揮發性儲存媒介 |
CN113657576A (zh) * | 2021-07-21 | 2021-11-16 | 浙江大华技术股份有限公司 | 卷积神经网络模型轻量化方法及设备、图像识别方法 |
CN114021704B (zh) * | 2022-01-04 | 2022-03-22 | 深圳精智达技术股份有限公司 | 一种ai神经网络模型的训练方法及相关装置 |
CN115100583A (zh) * | 2022-08-29 | 2022-09-23 | 君华高科集团有限公司 | 一种后厨食品安全实时监管的方法及系统 |
CN115860113B (zh) * | 2023-03-03 | 2023-07-25 | 深圳精智达技术股份有限公司 | 一种自对抗神经网络模型的训练方法及相关装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092960A (zh) * | 2017-04-17 | 2017-08-25 | 中国民航大学 | 一种改进的并行通道卷积神经网络训练方法 |
CN109490776A (zh) * | 2018-11-06 | 2019-03-19 | 杭州君谋科技有限公司 | 一种基于机器学习的手机振动马达良次品检测方法 |
CN110163342A (zh) * | 2019-04-17 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种模型压缩方法、装置、设备及存储介质 |
CN110188720A (zh) * | 2019-06-05 | 2019-08-30 | 上海云绅智能科技有限公司 | 一种基于卷积神经网络的目标检测方法及系统 |
CN110222817A (zh) * | 2019-05-10 | 2019-09-10 | 上海交通大学 | 基于学习自动机的卷积神经网络压缩方法、系统及介质 |
CN111260665A (zh) * | 2020-01-17 | 2020-06-09 | 北京达佳互联信息技术有限公司 | 图像分割模型训练方法和装置 |
CN111583229A (zh) * | 2020-05-09 | 2020-08-25 | 江苏野马软件科技有限公司 | 一种基于卷积神经网络路面故障检测方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10529318B2 (en) * | 2015-07-31 | 2020-01-07 | International Business Machines Corporation | Implementing a classification model for recognition processing |
US10997496B2 (en) * | 2016-08-11 | 2021-05-04 | Nvidia Corporation | Sparse convolutional neural network accelerator |
CN109426858B (zh) * | 2017-08-29 | 2021-04-06 | 京东方科技集团股份有限公司 | 神经网络、训练方法、图像处理方法及图像处理装置 |
TWI689875B (zh) * | 2018-06-29 | 2020-04-01 | 由田新技股份有限公司 | 利用深度學習系統的自動光學檢測分類設備及其訓練設備 |
CN109102543B (zh) * | 2018-08-17 | 2021-04-02 | 深圳蓝胖子机器智能有限公司 | 基于图像分割的物体定位方法、设备和存储介质 |
US11538143B2 (en) * | 2018-10-26 | 2022-12-27 | Nec Corporation | Fully convolutional transformer based generative adversarial networks |
CN111275660B (zh) * | 2018-12-05 | 2024-04-30 | 合肥欣奕华智能机器股份有限公司 | 一种平板显示器缺陷检测方法及装置 |
CN111291806A (zh) * | 2020-02-02 | 2020-06-16 | 西南交通大学 | 一种基于卷积神经网络工业产品标签号的识别方法 |
CN111626340B (zh) * | 2020-05-11 | 2024-05-28 | Oppo广东移动通信有限公司 | 一种分类方法、装置、终端及计算机存储介质 |
CN111932511B (zh) * | 2020-08-04 | 2022-08-12 | 南京工业大学 | 一种基于深度学习的电子元器件质量检测方法与系统 |
-
2021
- 2021-03-31 CN CN202110345118.8A patent/CN113011567B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107092960A (zh) * | 2017-04-17 | 2017-08-25 | 中国民航大学 | 一种改进的并行通道卷积神经网络训练方法 |
CN109490776A (zh) * | 2018-11-06 | 2019-03-19 | 杭州君谋科技有限公司 | 一种基于机器学习的手机振动马达良次品检测方法 |
CN110163342A (zh) * | 2019-04-17 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种模型压缩方法、装置、设备及存储介质 |
CN110222817A (zh) * | 2019-05-10 | 2019-09-10 | 上海交通大学 | 基于学习自动机的卷积神经网络压缩方法、系统及介质 |
CN110188720A (zh) * | 2019-06-05 | 2019-08-30 | 上海云绅智能科技有限公司 | 一种基于卷积神经网络的目标检测方法及系统 |
CN111260665A (zh) * | 2020-01-17 | 2020-06-09 | 北京达佳互联信息技术有限公司 | 图像分割模型训练方法和装置 |
CN111583229A (zh) * | 2020-05-09 | 2020-08-25 | 江苏野马软件科技有限公司 | 一种基于卷积神经网络路面故障检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113011567A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011567B (zh) | 一种卷积神经网络模型的训练方法及装置 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN112884712B (zh) | 一种显示面板缺陷分类的方法及相关装置 | |
KR102442844B1 (ko) | 실제 3차원 객체를 실제 객체의 2-차원 스푸프로부터 구별하기 위한 방법(Method for Distinguishing a Real Three-Dimensional Object from a Two-Dimensional Spoof of the Real Object) | |
CN113222836B (zh) | 一种高光谱与多光谱遥感信息融合方法及系统 | |
CN114219044A (zh) | 一种图像分类方法、装置、终端及存储介质 | |
CN114021704B (zh) | 一种ai神经网络模型的训练方法及相关装置 | |
Ganesan et al. | A novel feature descriptor based coral image classification using extreme learning machine with ameliorated chimp optimization algorithm | |
CN115564983A (zh) | 目标检测方法、装置、电子设备、存储介质及其应用 | |
Selvakumar et al. | Automated mango leaf infection classification using weighted and deep features with optimized recurrent neural network concept | |
CN116958535B (zh) | 一种基于多尺度残差推理的息肉分割系统及方法 | |
Wakhare et al. | Using Image Processing and Deep Learning Techniques Detect and Identify Pomegranate Leaf Diseases | |
Tuliabaeva et al. | On the recognition of weakly blurred, highly contrasting objects by neural networks | |
CN115346091A (zh) | 一种Mura缺陷图像数据集的生成方法和生成装置 | |
Bhattacharjya et al. | A genetic algorithm for intelligent imaging from quantum-limited data | |
JPH08305855A (ja) | 画像のパターン認識方法及び装置 | |
Chen et al. | Multi-Level Feature Aggregation Network for Full-Reference Image Quality Assessment | |
CN113971764A (zh) | 一种基于改进YOLOv3的遥感图像小目标检测方法 | |
CN113011370A (zh) | 一种基于深度学习的多状态人脸识别方法 | |
CN117073840B (zh) | 基于优化计算成像的多光谱成像方法、系统及相关设备 | |
Xiang et al. | Quality-distinguishing and patch-comparing no-reference image quality assessment | |
Zhou et al. | Low‐light image enhancement for infrared and visible image fusion | |
Melcherson | Image Augmentation to Create Lower Quality Images for Training a YOLOv4 Object Detection Model | |
US20230281431A1 (en) | Computer implemented method for processing structured data | |
Zhang et al. | A multi-scale channel interactive attention network for hyperspectral image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |