CN110197259A

CN110197259A - 基于小批量数据集与深度学习算法的晶圆缺陷检测方法

Info

Publication number: CN110197259A
Application number: CN201910465949.1A
Authority: CN
Inventors: 王进; 祖佳跃; 喻志勇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-09-03

Abstract

本发明公开了一种基于小批量数据集与深度学习的晶圆缺陷检测方法，首先根据获取的彩色晶圆图像作数据预处理，训练样本集尺寸归一化到固定大小300*250，然后对归一化的图像进行彩色增强，增强因子定义为5‑8；随后采用深度学习中的SSD算法模型，并引入迁移学习策略，在此基础上优化调整模型的参数，可以得到一个能自动进行特征提取和缺陷分类的算法；基于训练的好的分类器即可对未知种类的缺陷进行检测并分类。本发明实现了自动晶圆缺陷检测，效率较人工构造特征大大提高，晶圆缺陷的检测精度也比传统图像处理方法有了较大提升。

Description

基于小批量数据集与深度学习算法的晶圆缺陷检测方法

技术领域

本发明涉及半导体缺陷检测与图像处理技术领域，尤其涉及一种基于深度学习的晶圆缺陷检测方法。

背景技术

在半导体相关产品中，晶片是一种半成品，其进行深加工即可得到可用于实际生产的芯片。研究数据显示，近几年半导体产品总销量将会继续增加，在未来将会有更多的资金投向半导体行业。尤其在中国半导体市场巨大，中国政府计划在未来十年约投资1000亿美元用于半导体相关行业产品的研发。稳压与镇流芯片在集成电路中有重要且广泛的应用，晶圆是组成芯片的基础材料，在工业领域晶圆的年产量约为数百十亿片。现今，用于晶片表面缺陷检测的方法主要包含了三大类方法即基于机器学习、基于图像处理、人类视觉检测。这三大类方法都有着共同特点即要以晶圆的轮廓边缘或是角点的特征信息为重要检测依据。机器学习的方法又包含了监督式与非监督式以及强化学习等。机器学习算法中，有学者提出了一种自组织神经网络算法(SONNs)对晶圆的缺陷进行检测，该算法在检测时体现出了缺陷种类的自适应性，但是算法的稳定性不高。机器学习算的通病在于，需要大量的训练样本，训练样本的分类要尽可能的完整多样。在晶圆产品中缺陷种类大小的出现是随机的不确定，若样本的数量较少会使缺陷的种类标记不完全，在检测时体现出较低的精度。人类视觉检测的主要优点是检测的准确率高，对各种缺陷的适应性强。但是存在较多的缺点检测效率低，工作的时间短，同时检测的准确率易受干扰。图像处理检测的主要优点是晶圆图像处理的部分结果都可见，便于参数的调节，对特征明显的缺陷可实现较高精度的检测出来。但为了使检测精度的尽可能的准确，检测的程序的逻辑关系往往特别复杂，需要较强的图像处理知识储备。机器学习算法的主要优点是，对于不同类物体只要有足够的训练集往往检测的结果比较准确，程序也较为简单有成熟的框架可以借鉴。但是训练集的准备较为耗时，且不适宜于相同类型物体进行细微差别的分类，对多缺陷种类晶圆检测的精度很低。

发明内容

本发明的目的在于提供一种基于小批量数据集与深度学习算法的晶圆缺陷检测方法，以解决现有深度学习需要大量训练数据与从头训练神经网络模型太过费时的问题，同时可以为芯片的缺陷检测提供理论与方法参考。

本发明的目的是通过以下技术方案来实现的：

一种基于小批量数据集与深度学习算法的晶圆缺陷检测方法，包括如下步骤：

通过微距定焦镜头全局扫描得到矩形晶圆原始彩色图像；

将所述彩色图像进行数据增强得到足够数量级的数据集；

将所述晶圆图像添加高斯噪声，椒盐噪音，进行图像裁剪、翻转等操作扩增数据，降低深度学习需要大量原始数据的劣势；

将SSD原始算法与迁移学习相结合，除了在在VGG-16的原来网络层上提取特征之外，在conv8-2,conv9-2,conv19-2和pool-11层上提取，利用小尺度的卷积减少计算量，使用非对称卷积和并行化结构来优化Pooling操作。

进一步的，所述添加高斯噪声(Guassian noise)指在图像上添加按照概率密度函数符合高斯分布的噪声。

进一步的，所述图像裁剪采用随机裁剪，之后将图片回复原来的尺寸。

附图说明

图1a、1b是高斯噪声处理前后的晶圆图像；

图2是SSD网络模型图；

图3是算法流程图；

图4a、4b采取迁移学习前后效果对比图。

具体实施方式

下面结合附图对本发明作进一步说明。

本发明的基于深度学习的晶圆缺陷检测方法，该方法包括：

通过微距定焦镜头全局扫描得到矩形晶圆原始彩色图像。摄像头的感光芯片尺寸大小为2/3"(8.8mm*6.6mm)，五百万像素即每个像素点之间的距离精度可达3.6um，对于1mm*1mm的晶片实现50um的检测精度，完全可满足实际生产缺陷检测的精度要求。

将所述彩色图像结合Guassian Noise算法、随机裁剪、翻转等操作扩增数据，得到足够多的晶圆图像。

Guassian Noise算法：这一算法依据概率密度函数具有良好正太分布特性的，服从正态分布(高斯分布)的一类噪声，噪声效果体现在图片中就是白色小点。如图1a和1b所示，本申请用python脚本为图像批量添加高斯噪声。

随机裁剪：这一方法是图像增强中使用较多的手段，它可以建立图像中每个因子特的征与相应类别的权重关系，减弱背景(或噪音)因子的权重，因此可以产生更好的学习效果，增加模型稳定性。

翻转操作扩增数据：计算机看到的图片是R、G、B三通道的信息，是一个个的像素点，所以哪怕是简单的翻转图像对它来说也是全新的图像数据，这是一种很便捷且有效的图像增强手段。一般，用这一方法可以将原始数据扩征2-3倍而不影响算法模型的泛化性，不会造成影响到全局算法的过拟合。

使用的深度学习算法往往不能普遍适应每一种对象的目标检测，而从零训练一个神经网络极其耗费时间成本，且需要大量数据喂养，引入迁移学习之后，不需要关注前面的特征提取层，只需要从某后面几层网络开始训练，且需要的数据量大大降低。

数据增强，是指对(有限)训练数据通过某种变换操作，从而生成新数据的过程。对获得原始彩色晶圆图像，统一尺寸为300*250后，分别采取随机裁剪、翻转、高斯噪声处理等手段。

图像裁剪可以选择任意的增强因子，扩增任意位数。目前普遍叫法是随机裁剪，随机选取部分图像裁剪之后调整图像大小为原来的尺寸即可。在深度学习的训练时将图片的随机剪裁(random crop)已经成为很普遍的数据扩充(data augmentation)方法，随机剪裁(缩写为：IRC)不但提高了模型精度，也增强了模型稳定性。这个裁剪并不仅仅是增加数据，而如上文也是一个弱化数据噪声与增加模型稳定性的方法。比如我们假设：二类分类问题(如区分人脸与猫脸)，C₁类别主要特征为{E₁，F₁，G₁}，C₂为{E₂，F₂，G₂}，这里的特征可能是非离散的，如人脸的局部patch(眼睛及周围区域，嘴巴及周围区域，为了容易书写用离散的方式)我们增加背景数据噪音：,随机加入，这里同上可以表示为非人脸的背景区域

随机剪裁可以得到图片：如

I₁＝{E₁，F₁，G₁}，

I₂＝{E₁，F₁，G₁，N₁}，

I₃＝{E₁，F1，N₂}，

I₄＝{F₁，G₁，N₃}

为N₁，N₂，N₃为随机的而E₁，F₁，G₁总是能高概率产生E₁，F₁，G₁→C₁的映射，这时{E₁，F₁，G₁}中任意因子相对于N₁，N₂，N₃有更高的信息增益或者权重：

P(C₁|x∈{E₁，F₁，G₁})＞＞P(C₁|x∈{N₁，N₂，N₃})

如果N₁，N₂，N₃在类别C₂也有相应的分布，那么N₁，N₂，N₃对分类的信息增益接近于零。假设模型未见过数据I_x＝{F₁，G₁，N₁，N₃}，那么模型会如何预测该数据？通过上式我们可以看到F₁，G₁的权重远高于其他特征，即使其他未见过的噪声加入，F₁，G₁因子的权重仍然起主要作用，所以模型有更高的稳定性。随机裁剪相当于建立每个因子特征与相应类别的权重关系，减弱背景(或噪音)因子的权重，也就可以产生更好的学习效果，增加模型稳定性。

数据翻转是进行数据增强时比较常用的一种方法，它不同于简单的旋转图片，而是进行类似于镜面翻折的操作，一般数据扩增二到三倍比较合适。

随机噪声，又称背景噪声，由时间上随机产生的大量起伏骚扰积累而造成的，其值在给定瞬间内不能预测的噪声。是概率密度函数服从正态分布(高斯分布)的一类噪声，它有良好的正态分布特性。

当这个噪声幅度分布暗恋产正态分布的特性，同时它的功率谱的密度又是均匀的化，我们把这种噪声叫做高斯白噪声。下面的公式为高斯噪声的相关描述。

功率谱密度：

其中表示双边功率谱密度。

自相关函数：

椒盐噪声是由图像传感器，传输信道，解码处理等产生的黑白相间的亮暗点噪声。椒盐噪声是指两种噪声，一种是盐噪声(salt noise)，另一种是胡椒噪声(pepper noise)。盐＝白色，椒＝黑色。前者是高灰度噪声，后者属于低灰度噪声。一般两种噪声同时出现，呈现在图像上就是黑白杂点。本算法控制噪声的数量，随机生成黑白杂点，在图像坐标内随机分布。

迁移学习。深度神经网络相比之前传统的机器学习方法可以看作是一个全新的物种，但是它需要大量的算力，需要的显卡资源和训练时间已及数据量的开销都很大，而迁移学习可以改变这一切，能够显著降低深度学习所需要的资源。

本发明所用的方法，采用了在IMAGENET数据集上预先训练好的SSD inception V2模型。SSD有两种结构，一个是SSD300,还有一个是SSD512,它们的区别只是输入图像的区别，不过，两者都使用VGG-16-Atrous作为基本的网络结构，在VGG-16的基础网络上增加了层，用来提取特征，如图2中方框部分所示。它之所以对小目标有比YOLO更好的检测效果，是因为它在沿用YOLO中bbox直接分类的思路之外，借鉴了Faster R-CNN的anchor方法，通过在不同的网络层级，选择不同尺寸以及比例的anchor,来匹配更好的ground truth，优中选优，达到可以提高整个算法模型准确率的效果。

将其迁移到晶圆缺陷检测上的应用上之后，除了在conv8-2,conv9-2,conv19-2和pool-11层上提取特征之外，还会在VGG-16的原来网络层上提取。同时，采取了如下优化思路。

A.将大尺度的卷积分解成多个小尺度的卷积来减少计算量。将1个5x5的卷积分解成两个3x3的卷积串联，两级3x3的卷积的覆盖范围就是5x5，两者的覆盖范围没有区别。假设5x5和两级3x3卷积输出的特征数相同，那两级3x3卷积的计算量就是前者的(3x3+3x3)/5x5＝18/25。

B.使用非对称卷积。将nxn的卷积分解成1xn和nx1卷积的串联，例如n＝3，分解后就能节省约1/3的计算量。通过测试发现非对称卷积用在网络中靠中间的层级才有较好的效果(特别是feature map的大小在12x12～20x20之间时)。

C.可以使用并行结构来优化Pooling。Pooling会造成represtation bottleneck，一种解决办法就是在Pooling前用1x1卷积把特征数加倍，这种加倍可以理解加入了冗余的特征，然后再作Pooling就只是把冗余的信息重新去掉，没有减少信息量。这种方法有很好的效果但因为加入了1x1卷积会极大的增大计算量。替代的方法是使用两个并行的支路，一路1x1卷积，由于特征维度没有加倍计算量相比之前减少了一倍，一路是Pooling，最后再在特征维度拼合到一起。这种方法即有很好的效果，又没有增大计算量。

到此，SSD算法模型与迁移学习的结合应用完成，可以开始深度学习模型的训练。算法流程图如3所示。

如图4a和4b所示，检测结果的判断。选取30个崩边、崩角和20个红色氧化膜缺陷的样本，已及20个无缺陷样本，通过实验检测后，统计结果表明本算法准确率为83％。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于小批量数据集与深度学习算法的晶圆缺陷检测方法，包括如下步骤：

通过微距定焦镜头全局扫描得到矩形晶圆原始彩色图像；

将所述彩色图像进行数据增强得到足够数量级的数据集；

2.如权利要求1所述的一种基于小批量数据集与深度学习算法的晶圆缺陷检测方法，其特征在于，所述添加高斯噪声（Guassian noise）指在图像上添加按照概率密度函数符合高斯分布的噪声。

3.如权利要求1所述的一种基于小批量数据集与深度学习算法的晶圆缺陷检测方法，其特征在于，所述图像裁剪采用随机裁剪，之后将图片回复原来的尺寸。