CN111428760B - 一种基于特征相似度的自适应聚类方法及应用 - Google Patents

一种基于特征相似度的自适应聚类方法及应用 Download PDF

Info

Publication number
CN111428760B
CN111428760B CN202010162913.9A CN202010162913A CN111428760B CN 111428760 B CN111428760 B CN 111428760B CN 202010162913 A CN202010162913 A CN 202010162913A CN 111428760 B CN111428760 B CN 111428760B
Authority
CN
China
Prior art keywords
clustering
cluster
white pixel
effect function
function value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010162913.9A
Other languages
English (en)
Other versions
CN111428760A (zh
Inventor
孙红霞
李琛
余学儒
傅豪
田畔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai IC R&D Center Co Ltd
Original Assignee
Shanghai IC R&D Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai IC R&D Center Co Ltd filed Critical Shanghai IC R&D Center Co Ltd
Priority to CN202010162913.9A priority Critical patent/CN111428760B/zh
Publication of CN111428760A publication Critical patent/CN111428760A/zh
Application granted granted Critical
Publication of CN111428760B publication Critical patent/CN111428760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征相似度的自适应聚类方法,包括如下步骤:S01:设置初始深度学习参数,提取样品特征;S02:设置初始聚类数k以及步长x,以此确定m个聚类数;S03:对样品特征进行聚类;S04:针对每一组聚类结果,计算其对应的聚类效果函数值f(p);S05:根据最大聚类数对应的聚类效果函数值梯度,确定新的聚类数k’;S06:重复步骤S03‑S05,直至最大聚类数对应的聚类效果函数值梯度小于梯度阈值,记录当前聚类效果函数值f(k’);S07:调整深度学习参数,重复步骤S02‑S06n次,选择使当前聚类效果函数值f(k’)最大的深度学习参数和聚类数;并得出其对应的聚类结果。本发明能够更精细准确的对样品特征进行聚类,有利于发现更多导致白色像素的原因。

Description

一种基于特征相似度的自适应聚类方法及应用
技术领域
本发明涉及聚类方法,具体涉及一种基于特征相似度的自适应聚类方法及应用。
背景技术
白色像素分布是衡量CIS(CMOS图像传感器)的关键指标之一,CMOS图像传感器中白色像素分布情况直接关系到其产生的图像质量,尤其是在低光或高温下产生图像的均匀性。产生白色像素的根本原因是CMOS图像传感器所在硅片表面具有缺陷或硅片表面被金属玷污,缺陷和金属玷污物可能来源于物料、机台和工艺等;其中,不同工艺原因会造成CMOS图像传感器中白色像素特定的分布模式,而且造成白色像素的工艺原因和白色像素的分布模式之间具有比较明确的一一对应关系。因此,根据CMOS图像传感器输出图像的测试数据可以寻找出白色像素分布模式,进而快速准确地分析造成白色像素分布模式的原因,从而找到产生白色像素分布模式的工艺问题,并反馈给工艺制造。通过对测试数据的分析,可以尽快调整对应的工艺步骤,这对于CIS的质量和制造效率提升有着积极的推动作用。
现有技术中针对CIS中白色像素分布的分析,还没有高速有效的智能分析方法。现有技术中针对CIS输出的图像通常进行人工分析,以经验值或者肉眼观察的方式确定白色像素,并采用肉眼观察的方式总结出白色像素分布情况,再根据制造经验确定造成白色像素分布的原因。现有技术中的分析方法效率低,只能对CMOS图像传感器的测试数据进行简单扼要的分析,无法对白色像素进行有效分类,进而无法准确确定白色像素的分布模式。
随着人工智能的发展,聚类方法逐渐应用在白色像素分布领域;在对白色像素分布模式进行分类时,往往无法准确确定白色像素的聚类数,而聚类数的确定又决定着分类结果的准确性。若无法对白色像素进行准确分类,则不能准确找出白色像素分布与工艺制造之间的对应关系。
发明内容
本发明的目的是提供一种基于特征相似度的自适应聚类方法及应用,能够更精细准确的对样品特征进行聚类,有利于发现更多导致白色像素分布的原因,进而提高白色像素分析效率。
为了实现上述目的,本发明采用如下技术方案:一种基于特征相似度的自适应聚类方法,包括如下步骤:
S01:设置初始深度学习参数,提取样品特征;
S02:设置初始聚类数k以及步长x,以此确定m个聚类数;k、x、m均为大于0的整数;
S03:针对每一个聚类数,对所述样品特征进行聚类,从而得出m组聚类结果;
S04:针对每一组聚类结果,计算其对应的聚类效果函数值f(p),从而得出m个聚类效果函数值;p表示聚类数;
S05:根据最大聚类数对应的聚类效果函数值梯度;确定新的聚类数k’;
S06:重复步骤S03-S05,直至最大聚类数对应的聚类效果函数值梯度小于梯度阈值,记录当前聚类效果函数值f(k’);
S07:调整深度学习参数,重复步骤S02-S06n次,选择使当前聚类效果函数值f(k’)最大的深度学习参数和聚类数;并得出其对应的聚类结果。
进一步地,所述步骤S01中深度学习参数包括网络深度、训练批次、批处理大小和特征个数。
进一步地,所述步骤S01中利用变分自编码器提取样品特征。
进一步地,所述步骤S03中设置步长为10,以此确定的5个聚类数分别为:k,k+10,k+20,k+30,k+40。
进一步地,所述步骤S03中采用K均值聚类算法对所述样品特征进行聚类。
进一步地,所述步骤S04中聚类效果函数值其中,dpri为第p个聚类数,第r类中,第i个样品点的相似度;thres为相似度阈值;Np为第p个聚类数中的总样本数。
进一步地,所述第p个聚类数,第r类中,第i个样品点的相似度基于该样本点的特征与该类簇中心的欧式距离得出。
进一步地,所述第p个聚类数,第r类中,第i个样品点的相似度其中,bpri为第p个聚类数,第r类,第i个样品点的特征;cpr为第p个聚类数,第r类的簇中心。
进一步地,所述步骤S05中根据最大聚类数对应的聚类效果函数值梯度确定新的聚类数k’和k’-x。
进一步地,所述步骤S05中新的聚类数k’=k+step,step=(1×sign(g(p)+m×g(p))3;其中,k为初始聚类数,sign为符号函数,g(p)为最大聚类数对应的聚类效果函数值梯度。
一种采用基于特征相似度的自适应聚类进行白色像素分析的方法,包括如下步骤:
T01:根据白色像素阈值将CMOS图像传感器的测试数据转换为二值图,每个二值图对应为一个样品;
T02:对样品作图片预处理,筛选出有白色像素分布的样品;
T03:采用权利要求1中的自适应聚类方法对筛选出的样品进行聚类,得出聚类结果;
T04:根据聚类结果对样品贴标签;
T05:采用有监督学习方法对含有标签的样品进行分类,并结合CMOS图像传感器的制作工艺,分析CMOS图像传感器中白色像素分布的原因。
本发明具有如下有益效果:本发明提供的自适应聚类方法,通过多次重复逼近,找出最优的聚类模型,能够更精细准确的对样品特征进行聚类;本发明聚类方法应用于白色像素分析时,能够确保对白色像素分布特征进行精细准确分类,有利于发现更多导致白色像素分布的原因,进而提高白色像素分析效率。
附图说明
附图1为本发明基于特征相似度的自适应聚类方法的流程图;
附图2为本发明自适应聚类方法应用在白色像素分布时的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明的具体实施方式做进一步的详细说明。
如附图1所示,本发明提供的一种基于特征相似度的自适应聚类方法,包括如下步骤:
S01:设置初始深度学习参数,提取样品特征。
具体的,深度学习参数包括网络深度h、训练批次epoch、批处理大小batch_size和特征个数n。优选的,本发明可以利用变分自编码器提取样品特征。
当本发明中聚类方法应用于白色像素分析时,CMOS图像传感器经过测试机台得到CMOS图像传感器测试数据,设定白色像素阈值,将测试数据转换为二值图,每个二值图对应一个样品,通过变分自编码器提取上述样品,也就是二值图中的白色像素特征。
S02:设置初始聚类数k以及步长x,以此确定m个聚类数;k、x、m均为大于0的整数。
优选的,本发明中可以设置步长为10,以此确定的5个聚类数分别为:k,k+10,k+20,k+30,k+40。这里设置的初始聚类数以及初始深度学习参数不一定是最优的聚类数,通过下述的自适应逼近方法,才能选出最优的聚类数和深度学习参数。
S03:针对每一个聚类数,对样品特征进行聚类,从而得出m组聚类结果。优选的,本发明可以采用K均值聚类算法对样品特征进行聚类,具体的聚类方法如现有技术所述,在此不再详细介绍。
S04:针对每一组聚类结果,计算其对应的聚类效果函数值f(p),从而得出m个聚类效果函数值;p表示聚类数。
具体的,聚类效果函数值的计算方法如下:其中,dpri为第p个聚类数,第r类中,第i个样品点的相似度,用于衡量该样品属于该类的可能性;thres为相似度阈值;Np为第p个聚类数中的总样本数。
具体的,本发明中第p个聚类数,第r类中,第i个样品点的相似度基于该样本点的特征与该类簇中心的欧式距离得出。可以采用如下计算方法进行计算:第p个聚类数,第r类中,第i个样品点的相似度其中,bpri为第p个聚类数,第r类,第i个样品点的特征;cpr为第p个聚类数,第r类的簇中心。
S05:根据最大聚类数对应的聚类效果函数值梯度确定新的聚类数k’和k’-x;
具体的,新的聚类数k’=k+step,step=(1×sign(g(p)+m×g(p))3;其中,k为初始聚类数,sign为符号函数,g(p)为最大聚类数对应的聚类效果函数值梯度。
S06:重复步骤S03-S05,直至最大聚类数对应的聚类效果函数值梯度小于梯度阈值,记录当前聚类效果函数值f(k’)。
在上述确定新的聚类数k’时,新的聚类数k’不一定是增长的,如果聚类数多的时候的效果不如聚类数少的时候,g(p)就是负数,就会在当前聚类的基础上往数值减小的方向调整。但当聚类数接近最优解时,新的聚类数k’和新的聚类数k’-10的聚类效果理论上不会有很大差距(因为我们样本数量级是万为单位的),所以梯度就会趋于0,我们设定最大聚类数对应的聚类效果函数值梯度小于梯度阈值即停止重复。
S07:调整深度学习参数,重复步骤S02-S06n次,选择使当前聚类效果函数值f(k’)最大的深度学习参数和聚类数;并得出其对应的聚类结果。
本步骤中深度学习参数与步骤S01中深度学习参数相同,具体包括网络深度h、训练批次epoch、批处理大小batch_size和特征个数n。针对新的深度学习参数,重新设定初始聚类数,聚类的对象仍然为步骤S01中提取的样品特征。
本步骤中每一次变换深度学习参数,都会寻找出步骤S06中对应的聚类效果函数值f(k’),在聚类数为k’时,最大聚类数对应的聚类效果函数值梯度小于梯度阈值。使当前聚类效果函数值f(k’)最大的深度学习参数和聚类数即为本发明需要寻找的最优聚类模型,针对步骤S01中提取的样品特征,采用最优聚类模型聚类之后的结果作为最终的聚类结果。
值得说明的是,同样的深度学习参数可以对应不同的聚类数。不同的深度学习参数可以对应相同的聚类数。本步骤中变换深度学习参数过程可以类似于网格搜索,旨在找到局部最优解。
如附图2所示,本发明提供的一种采用基于特征相似度的自适应聚类进行白色像素分析的方法,包括如下步骤:
T01:根据白色像素阈值将CMOS图像传感器的测试数据转换为二值图,每个二值图对应为一个样品。
作为一种优选的实施例确定白色像素阈值的方法为:当测量数据的累积百分比,达到某个设定的值时,将对应的测量数据作为确定白色像素的阈值。例如当累积百分比达到10%时,其对应的测量数据作为白色像素阈值,并记为p10。为了充分分析白色像素分布的模式,并考虑到实际需要,本发明中设定的白色像素阈值分别为p10、p20、p30、p40、p50、p60、p70、p80、p90共9个值。其中,本发明也可以根据实际需求设置不同个数的白色像素阈值。
T02:对样品(二值图)做图片预处理,筛选出有白色像素分布的样品。
T03:采用上述的自适应聚类方法先对筛选出的样品(二值图)进行特征提取和聚类;具体可以采用变分自编码器在二值图中提取出白色像素分布特征;
在聚类过程中,采用上述自适应聚类方法找出最优的聚类模型,得出对应的聚类结果。
T04:根据聚类结果对样品贴标签。
T05:采用有监督学习方法对含有标签的样品进行分类,并结合CMOS图像传感器的制作工艺,分析CMOS图像传感器中白色像素分布的原因。
本发明提高的自适应聚类方法,通过多次重复逼近,找出最优的聚类模型,能够更精细准确的对样品特征进行聚类;本发明聚类方法应用于白色像素分析时,能够确保对白色像素分布特征进行精细准确分类,有利于发现更多导致白色像素分布的原因,进而提高白色像素分析效率。
以上所述仅为本发明的优选实施例,所述实施例并非用于限制本发明的专利保护范围,因此凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明所附权利要求的保护范围内。

Claims (9)

1.一种采用基于特征相似度的自适应聚类进行白色像素分析的方法,其特征在于,包括如下步骤:
T01:根据白色像素阈值将CMOS图像传感器的测试数据转换为二值图,每个二值图对应为一个样品;当测量数据的累积百分比达到设定的值时,将对应的测量数据作为确定白色像素的阈值;
T02:对样品作图片预处理,筛选出有白色像素分布的样品;
T03:采用基于特征相似度的自适应聚类方法对筛选出的样品进行聚类,得出聚类结果;其中,基于特征相似度的自适应聚类方法,包括:
S01:设置初始深度学习参数,提取样品特征;
S02:设置初始聚类数k以及步长x,以此确定m个聚类数;k、x、m均为大于0的整数;
S03:针对每一个聚类数,对所述样品特征进行聚类,从而得出m组聚类结果;
S04:针对每一组聚类结果,计算其对应的聚类效果函数值f(p),从而得出m个聚类效果函数值;p表示聚类数;
S05:根据最大聚类数对应的聚类效果函数值梯度,确定新的聚类数k’;
S06:重复步骤S03-S05,直至最大聚类数对应的聚类效果函数值梯度小于梯度阈值,记录当前聚类效果函数值f(k’);
S07:调整深度学习参数,重复步骤S02-S06 n次,选择使当前聚类效果函数值f(k’)最大的深度学习参数和聚类数;并得出其对应的聚类结果
T04:根据聚类结果对样品贴标签;
T05:采用有监督学习方法对含有标签的样品进行分类,并结合CMOS图像传感器的制作工艺,分析CMOS图像传感器中白色像素分布的原因。
2.根据权利要求1所述的一种采用基于特征相似度的自适应聚类进行白色像素分析的方法,其特征在于,所述步骤S01中深度学习参数包括网络深度、训练批次、批处理大小和特征个数。
3.根据权利要求1所述的一种采用基于特征相似度的自适应聚类进行白色像素分析的方法,其特征在于,所述步骤S01中利用变分自编码器提取样品特征。
4.根据权利要求1所述的一种采用基于特征相似度的自适应聚类进行白色像素分析的方法,其特征在于,所述步骤S03中采用K均值聚类算法对所述样品特征进行聚类。
5.根据权利要求1所述的一种采用基于特征相似度的自适应聚类进行白色像素分析的方法,其特征在于,所述步骤S04中聚类效果函数值其中,dpri为第p个聚类数,第r类中,第i个样品点的相似度;thres为相似度阈值;Np为第p个聚类数中的总样本数。
6.根据权利要求5所述的一种采用基于特征相似度的自适应聚类进行白色像素分析的方法,其特征在于,所述第p个聚类数,第r类中,第i个样品点的相似度基于该样品点的特征与该类簇中心的欧式距离得出。
7.根据权利要求5所述的一种采用基于特征相似度的自适应聚类进行白色像素分析的方法,其特征在于,所述第p个聚类数,第r类中,第i个样品点的相似度其中,bpri为第p个聚类数,第r类,第i个样品点的特征;cpr为第p个聚类数,第r类的簇中心。
8.根据权利要求1所述的一种采用基于特征相似度的自适应聚类进行白色像素分析的方法,其特征在于,所述步骤S05中根据最大聚类数对应的聚类效果函数值梯度确定新的聚类数k’和k’-x。
9.根据权利要求8所述的一种采用基于特征相似度的自适应聚类进行白色像素分析的方法,其特征在于,所述步骤S05中新的聚类数k’=k+step,step=(1×sign(g(p)+m×g(p))3;其中,k为初始聚类数,sign为符号函数,g(p)为最大聚类数对应的聚类效果函数值梯度。
CN202010162913.9A 2020-03-10 2020-03-10 一种基于特征相似度的自适应聚类方法及应用 Active CN111428760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010162913.9A CN111428760B (zh) 2020-03-10 2020-03-10 一种基于特征相似度的自适应聚类方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010162913.9A CN111428760B (zh) 2020-03-10 2020-03-10 一种基于特征相似度的自适应聚类方法及应用

Publications (2)

Publication Number Publication Date
CN111428760A CN111428760A (zh) 2020-07-17
CN111428760B true CN111428760B (zh) 2023-09-08

Family

ID=71547503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010162913.9A Active CN111428760B (zh) 2020-03-10 2020-03-10 一种基于特征相似度的自适应聚类方法及应用

Country Status (1)

Country Link
CN (1) CN111428760B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665327A (zh) * 2016-07-29 2018-02-06 高德软件有限公司 一种车道线检测方法及装置
CN109460735A (zh) * 2018-11-09 2019-03-12 中国科学院自动化研究所 基于图半监督学习的文档二值化处理方法、系统、装置
CN110097060A (zh) * 2019-03-28 2019-08-06 浙江工业大学 一种面向树干图像的开集识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107665327A (zh) * 2016-07-29 2018-02-06 高德软件有限公司 一种车道线检测方法及装置
CN109460735A (zh) * 2018-11-09 2019-03-12 中国科学院自动化研究所 基于图半监督学习的文档二值化处理方法、系统、装置
CN110097060A (zh) * 2019-03-28 2019-08-06 浙江工业大学 一种面向树干图像的开集识别方法

Also Published As

Publication number Publication date
CN111428760A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN106295653B (zh) 一种水质图像分类方法
CN112380952B (zh) 基于人工智能的电力设备红外图像实时检测及识别方法
CN110648310B (zh) 基于注意力机制的弱监督铸件缺陷识别方法
CN112766334B (zh) 一种基于伪标签域适应的跨域图像分类方法
CN105303169B (zh) 一种基于慢特征的细胞分裂识别方法及其识别装置
CN111310756A (zh) 一种基于深度学习的损伤玉米颗粒检测和分类方法
CN112766218B (zh) 基于非对称联合教学网络的跨域行人重识别方法和装置
CN108960258A (zh) 一种基于自学习深度特征的模板匹配方法
CN111898627B (zh) 一种基于pca的svm云微粒子优化分类识别方法
CN111833313B (zh) 基于深度主动学习的工业产品表面缺陷检测方法及系统
CN111008650B (zh) 一种基于深度卷积对抗神经网络的金相组织自动评级方法
CN113421223B (zh) 基于深度学习和高斯混合的工业产品表面缺陷检测方法
CN111428760B (zh) 一种基于特征相似度的自适应聚类方法及应用
CN113989556A (zh) 一种小样本医学影像分类方法和系统
CN115100451B (zh) 一种用于液压泵漏油监控的数据扩充方法
CN114926702B (zh) 一种基于深度注意力度量的小样本图像分类方法
CN112014821B (zh) 一种基于雷达宽带特征的未知车辆目标识别方法
CN111294588B (zh) 一种cmos图像传感器中白色像素分布的分析装置及方法
CN115171151A (zh) 一种基于猪脸识别的猪只饮水行为检测方法
CN114580503A (zh) 一种基于dp-svm的大仪工时计算方法
CN113887600A (zh) 一种基于改进的lda-gsvd织物图像瑕疵分类方法及系统
CN113628252A (zh) 一种基于热成像视频的泄漏气体云团检测方法
CN111242047A (zh) 图像处理方法和装置、电子设备及计算机可读存储介质
CN115131296B (zh) 一种用于图像识别的分布式计算方法及系统
CN117115816B (zh) 一种白带显微图像中线索细胞的识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant