CN116503416A - 半导体缺陷标注方法、装置、终端设备以及存储介质 - Google Patents

半导体缺陷标注方法、装置、终端设备以及存储介质 Download PDF

Info

Publication number
CN116503416A
CN116503416A CN202310781422.6A CN202310781422A CN116503416A CN 116503416 A CN116503416 A CN 116503416A CN 202310781422 A CN202310781422 A CN 202310781422A CN 116503416 A CN116503416 A CN 116503416A
Authority
CN
China
Prior art keywords
model
data
defect
labeling
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310781422.6A
Other languages
English (en)
Inventor
黄秀金
廖红虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Bohui Intelligent Technology Co ltd
Original Assignee
Shenzhen Bohui Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Bohui Intelligent Technology Co ltd filed Critical Shenzhen Bohui Intelligent Technology Co ltd
Priority to CN202310781422.6A priority Critical patent/CN116503416A/zh
Publication of CN116503416A publication Critical patent/CN116503416A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/001Industrial image inspection using an image reference approach
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30148Semiconductor; IC; Wafer
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Testing Or Measuring Of Semiconductors Or The Like (AREA)
  • Semiconductor Integrated Circuits (AREA)

Abstract

本发明公开了一种半导体缺陷标注方法、装置、终端设备以及存储介质,其方法包括:获取原始数据;将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果,其中,所述缺陷标注模型基于预设的数据与模型管理系统得到。本发明解决了半导体缺陷标注中需要大量人工进行数据标注的问题,提高了半导体缺陷标注的效率。

Description

半导体缺陷标注方法、装置、终端设备以及存储介质
技术领域
本发明涉及半导体检测技术领域,尤其涉及一种半导体缺陷标注方法、装置、终端设备以及存储介质。
背景技术
当前缺陷检测基本上都是采用深度学习算法,深度学习算法需要大量的标注数据才能达到令人满意的效果。但是在半导体领域,收集和标注缺陷数据都是需要耗费大量的时间和人力,尤其是数据标注。因为数据标注必须要有经验的专业人士在已采集的图片中准确判定出缺陷类别及其所在位置,并用标注工具标识出来。
同时,由于模型训练需要多次迭代,在模型训练过程中会存在多个版本的数据和模型,这对数据和模型的管理带来了较大的挑战。稍微疏忽就可能导致模型和数据的混淆和混用。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种半导体缺陷标注方法、装置、终端设备以及存储介质,旨在解决半导体缺陷标注中需要大量人工进行数据标注导致的标注效率低下的技术问题。
为实现上述目的,本发明提供一种半导体缺陷标注方法,所述半导体缺陷标注方法包括:
获取原始数据;
将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果,其中,所述缺陷标注模型基于预设的数据与模型管理系统得到。
可选的,所述将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果的步骤之前还包括:
基于预设的数据与模型管理系统,选取预训练基础模型;
对所述预训练基础模型进行模型训练得到所述缺陷标注模型。
可选的,所述对所述预训练基础模型进行模型训练得到所述缺陷标注模型的步骤包括:
获取预先采集的样本数据;
抽取若干样本数据进行人工标注,获得训练样本数据;
将所述训练样本数据输入所述预训练基础模型进行模型训练,获得基础标注模型;
将所述样本数据中未被抽取的样本数据,输入所述基础标注模型进行模型预测,获得预测后的数据样本;
对所述预测后的数据样本进行人工核验,获得核验结果;
根据所述核验结果,重复训练及预测所述基础标注模型,直到所述核验结果中缺陷标注不正确的数据样本达到预设值时,获得缺陷标注模型。
可选的,所述将所述样本数据中未被抽取的样本数据,输入所述基础标注模型进行模型预测,获得预测后的数据样本的步骤包括:
将所述样本数据中未被抽取的样本数据,生成模型预测数据;
将所述模型预测数据输入所述基础标注模型进行模型预测以及标识出预测结果中的缺陷类别以及位置,获得预测后的数据样本。
可选的,所述根据所述核验结果,重复训练及预测所述基础标注模型的步骤包括:
将所述核验结果中缺陷标注正确的数据样本输入所述训练样本数据中,重复训练所述基础标注数据模型;
将所述核验结果中缺陷标注不正确的数据样本作为模型预测数据输入到重复训练后的基础标注模型中进行模型预测。
可选的,所述获取预先采集的样本数据的步骤之前还包括:
对所述原始数据进行管理,具体包括:
将待检测数据输入所述数据与模型管理系统;
根据所述数据与模型管理系统,通过预设的数据管理模块对所述待检测数据进行管理。
可选的,所述将所述训练样本数据输入所述预训练基础模型进行模型训练,获得基础标注模型的步骤之后还包括:
对所述基础标注模型进行管理,具体包括:
将所述基础标注模型输入所述数据与模型管理系统;
根据所述数据与模型管理系统,通过预设的模型管理模块对所述基础标注模型进行版本管理。
本发明实施例还提出一种半导体缺陷标注装置,所述半导体缺陷标注装置包括:
获取模块,用于获取原始数据;
标注模块,用于将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果,其中,所述缺陷标注模型基于预设的数据与模型管理模型得到。
本发明实施例还提出了一种终端设备所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的半导体缺陷标注程序,所述半导体缺陷标注程序被所述处理器执行时实现如上所述的半导体缺陷标注方法的步骤。
本发明实施例还提出了一种计算机可读存储介质,所述计算机可读存储介质上存储有半导体缺陷标注程序,所述半导体缺陷标注程序被处理器执行时实现如上所述的半导体缺陷标注方法的步骤。
本发明实施例提出的一种半导体缺陷标注方法、装置、终端设备以及存储介质,获取原始数据;根据所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果,其中,所述缺陷标注模型基于预设的数据与模型管理系统得到。由此,实现了对半导体缺陷的检测及标注,解决了半导体缺陷标注需要大量人工的技术问题,提高了半导体缺陷标注的效率。
附图说明
图1为本发明半导体缺陷标注装置所属终端设备的功能模块示意图;
图2为本发明半导体缺陷标注方法一示例性实施例的流程示意图;
图3为本发明半导体缺陷标注方法另一示例性实施例的流程示意图;
图4为本发明半导体缺陷标注方法涉及获取缺陷标注模型的流程示意图;
图5为本发明半导体缺陷标注方法涉及获取缺陷标注模型的示意图;
图6为本发明半导体缺陷标注方法涉及获取预测后的样本数据的流程示意图;
图7为本发明半导体缺陷标注方法涉及重复训练及预测基础标注模型的流程示意图;
图8为本发明半导体缺陷标注方法另一示例性实施例的流程示意图;
图9为本发明半导体缺陷标注方法中涉及对原始数据进行管理的流程示意图;
图10为本发明半导体缺陷标注方法另一示例性实施例的流程示意图;
图11为本发明半导体缺陷标注方法中涉及对基础标注模型进行管理的流程示意图;
图12为本发明半导体缺陷标注方法中涉及数据与模型管理系统的示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:基于预设的数据与模型管理系统,选取预训练基础模型;对所述预训练基础模型进行模型训练得到所述缺陷标注模型。获取预先采集的样本数据;抽取若干样本数据进行人工标注,获得训练样本数据;将所述训练样本数据输入所述预训练基础模型进行模型训练,获得基础标注模型;将所述样本数据中未被抽取的样本数据,输入所述基础标注模型进行模型预测,获得预测后的数据样本;对所述预测后的数据样本进行人工核验,获得核验结果;根据所述核验结果,重复训练及预测所述基础标注模型,直到所述核验结果中缺陷标注不正确的数据样本达到预设值时,获得缺陷标注模型。将所述样本数据中未被抽取的样本数据,生成模型预测数据;将所述模型预测数据输入所述基础标注模型进行模型预测以及标识出预测结果中的缺陷类别以及位置,获得预测后的数据样本。将所述核验结果中缺陷标注正确的数据样本输入所述训练样本数据中,重复训练所述基础标注数据模型;将所述核验结果中缺陷标注不正确的数据样本作为模型预测数据输入到重复训练后的基础标注模型中进行模型预测。对所述原始数据进行管理,具体包括:将待检测数据输入所述数据与模型管理系统;根据所述数据与模型管理系统,通过预设的数据管理模块对所述待检测数据进行管理。对所述基础标注模型进行管理,具体包括:将所述基础标注模型输入所述数据与模型管理系统;根据所述数据与模型管理系统,通过预设的模型管理模块对所述基础标注模型进行版本管理。从而解决了半导体缺陷标注需要大量人工导致标注效率低下的问题,实现了对半导体缺陷的检测及标注,提高了半导体缺陷标注的效率。基于本发明方案,从现实中半导体缺陷标注存在需要大量人工对半导体缺陷进行识别及标注,从而效率低下的问题,设计了一种半导体缺陷标注方法,并在对半导体进行缺陷标注时验证了本发明的半导体缺陷标注方法的有效性,最后经过本发明方法进行半导体缺陷标注的效率得到了明显提升。
本发明实施例涉及的技术术语:
RFCN:RFCN是一种基于深度学习的目标检测算法,全称为Region-based FullyConvolutional Network。它是在Faster R-CNN算法的基础上进行改进的,采用全卷积网络来实现端到端的目标检测。RFCN通过在卷积神经网络中引入位置敏感的RoI池化层,可以更好地处理不同大小的物体目标,并且具有更高的检测精度和更快的检测速度。RFCN已经在各种场景下得到了广泛的应用,如自动驾驶、智能安防、医学图像分析等。
YOLO: (You Only Look Once) 是一种基于深度学习的对象检测算法。与传统的对象检测算法不同,YOLO 可以同时完成对象的定位和分类,且速度较快。其基本思想是将输入图像分割成多个网格,每个网格预测该网格内是否存在对象和对象的位置和类别。YOLO 由于其快速的检测速度和较高的准确率,在计算机视觉领域得到了广泛应用。
Faster R-CNN:Faster R-CNN是一种深度学习算法,用于目标检测任务。它是在R-CNN和Fast R-CNN的基础上发展而来,相比于这两种算法,它的检测速度更快,且在准确率上也有所提升。
本发明实施例考虑到,相关技术在半导体缺陷标注时,必须要有经验的专业人士在已采集的图片中准确判定出缺陷类别及其所在位置,并用标识工具标识出来,这种方式存在着需要大量人工而导致效率低下的问题。
因此,本发明实施例,基于现实中半导体缺陷标注存在需要大量人工对半导体缺陷进行识别及标注,从而效率低下的问题,设计了一种半导体缺陷标注方法,并在对半导体进行缺陷标注时验证了本发明的半导体缺陷标注方法的有效性,最后经过本发明方法进行半导体缺陷标注的效率得到了明显提升。
具体地,参照图1,图1为本发明半导体缺陷标注装置所属终端设备的功能板块示意图。该半导体缺陷标注装置可以独立于终端设备的、能够进行半导体缺陷标注的装置,其可以通过硬件或者软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动设备,还可以为具有数据处理功能的固定终端设备或服务器等。
在本实施例中,该半导体缺陷标注装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及半导体缺陷标注程序,半导体缺陷标注装置可以获取原始数据;根据所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果,其中,所述缺陷标注模型基于预设的数据与模型管理系统得到。通过该半导体缺陷标注程序进行半导体缺陷标注,得到标注结果等结果等信息存储于该存储器130中;输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中存储器130中的半导体缺陷标注程序被处理器执行时实现以下步骤:
获取原始数据;
将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果,其中,所述缺陷标注模型基于预设的数据与模型管理系统得到。
进一步地,存储器130中的半导体缺陷标注程序被处理器执行时还实现以下步骤:
基于预设的数据与模型管理系统,选取预训练基础模型;
对所述预训练基础模型进行模型训练得到所述缺陷标注模型。
进一步地,存储器130中的半导体缺陷标注程序被处理器执行时还实现以下步骤:
获取预先采集的样本数据;
抽取若干样本数据进行人工标注,获得训练样本数据;
将所述训练样本数据输入所述预训练基础模型进行模型训练,获得基础标注模型;
将所述样本数据中未被抽取的样本数据,输入所述基础标注模型进行模型预测,获得预测后的数据样本;
对所述预测后的数据样本进行人工核验,获得核验结果;
根据所述核验结果,重复训练及预测所述基础标注模型,直到所述核验结果中缺陷标注不正确的数据样本达到预设值时,获得缺陷标注模型。
进一步地,存储器130中的半导体缺陷标注程序被处理器执行时还实现以下步骤:
将所述样本数据中未被抽取的样本数据,生成模型预测数据;
将所述模型预测数据输入所述基础标注模型进行模型预测以及标识出预测结果中的缺陷类别以及位置,获得预测后的数据样本。
进一步地,存储器130中的半导体缺陷标注程序被处理器执行时还实现以下步骤:
将所述核验结果中缺陷标注正确的数据样本输入所述训练样本数据中,重复训练所述基础标注数据模型;
将所述核验结果中缺陷标注不正确的数据样本作为模型预测数据输入到重复训练后的基础标注模型中进行模型预测。
进一步地,存储器130中的半导体缺陷标注程序被处理器执行时还实现以下步骤:
对所述原始数据进行管理,具体包括:
将待检测数据输入所述数据与模型管理系统;
根据所述数据与模型管理系统,通过预设的数据管理模块对所述待检测数据进行管理。
进一步地,存储器130中的半导体缺陷标注程序被处理器执行时还实现以下步骤:
对所述基础标注模型进行管理,具体包括:
将所述基础标注模型输入所述数据与模型管理系统;
根据所述数据与模型管理系统,通过预设的模型管理模块对所述基础标注模型进行版本管理。
本实施例通过上述方案,具体通过获取原始数据;将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果,其中,所述缺陷标注模型基于预设的数据与模型管理系统得到。基于预设的数据与模型管理,获取待训练模型进行训练,使用训练后的半导体缺陷标注模型对半导体缺陷进行标注,可以解决半导体缺陷标注需要大量人工的问题。基于本发明方案,从现实中半导体缺陷标注存在需要大量人工对半导体缺陷进行识别及标注,从而导致效率低下的问题,设计了一种半导体缺陷标注方法,并在对半导体进行缺陷标注时验证了本发明的半导体缺陷标注方法的有效性,最后经过本发明方法进行半导体缺陷标注的效率得到了明显提升。
基于上述终端设备架构但不限于上述框架,提出本发明方法实施例。
参照图2,图2为本发明半导体缺陷标注方法一示例性实施例的流程示意图。所述半导体缺陷标注方法包括:
步骤S01,获取原始数据;
本实施例方法的执行主体可以是一种半导体缺陷标注装置,也可以是一种半导体缺陷标注终端设备或服务器,本实施例以半导体缺陷标注装置进行举例,该半导体缺陷标注装置可以集成在具有数据处理功能终端设备上。
为了实现对半导体缺陷的识别及标注,必须要有数据输入进模型进行检测,采取以下步骤实现对数据的获取:
首先,由于申请实施例对应的是半导体领域,而现在半导体缺陷的识别主要是对于采集的图纸进行判定及标注,故本申请实施例获取的数据包括但不限于图纸;
然后,在获取半导体的图纸后,半导体的缺陷包括但不限于缺陷类型以及缺陷所在位置,其中,在获取的原始数据中,包括图纸上只有缺陷类型或图纸上只有缺陷所在位置的情况。
最后,将收集好的原始数据先存储到数据与模型管理系统,对信息进行保存。
步骤S04,将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果,其中,所述缺陷标注模型基于预设的数据与模型管理系统得到;
获取到原始数据后,使用存储在数据与模型管理系统的缺陷标注模型进行标注,通过以下步骤实现:
首先,缺陷标注模型是预先在数据与模型管理系统中经过选取以及训练得来的,对半导体的缺陷类型以及缺陷位置都具有识别以及标注功能;
最后,使用缺陷标注模型对原始数据进行识别及标注,其中,在缺陷标注模型进行识别及标注的同时,也会对数据进行存储以及对模型进行训练。
其中,原始数据包括但不限于业务需要所获取的数据以及对模型进行训练而选取的数据。
本实施例通过上述方案,具体通过获取原始数据;将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果,其中,所述缺陷标注模型基于预设的数据与模型管理系统得到。从而解决了半导体缺陷标注需要大量人工的问题,实现了对半导体缺陷的检测及标注,提高了半导体缺陷标注的效率。
参照图3,图3为本发明半导体缺陷标注方法另一示例性实施例的流程示意图。
基于上述图2所示的实施例,所述步骤S02,将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果的步骤之前包括:
步骤S02,基于预设的数据与模型管理系统,选取预训练基础模型;
步骤S03,对所述预训练基础模型进行模型训练得到所述缺陷标注模型。
具体地,对在半导体缺陷进行识别及标注时,需要提前对模型进行训练,采取以下步骤实现:
首先,从数据与模型管理系统中的模型仓库中选取预训练的基础模型,其中,所述模型包括但不限于具有RFCN算法的模型、Faster R-CNN算法的模型或者YOLO算法的模型,这些模型都具有深度学习的目标检测算法,经过深度学习,使模型的识别及标注能达到更高的准确度。
最后,通过在数据与模型管理系统中存储的数据,对预训练的基础模型进行重复训练,并将获取得到的数据以及模型版本进行存储,在后续的实际使用时,使用效果最好的模型进行结果输出,其中,数据以及模型版本的存储是将其存入数据与模型管理系统,方便对模型训练时的数据以及模型的训练效果进行查看。
本实施例通过上述方案,具体通过基于预设的数据与模型管理系统,选取预训练基础模型;对所述预训练基础模型进行模型训练得到所述缺陷标注模型。由此,实现了对缺陷标注模型的获取,使用重复训练后的缺陷标注模型对半导体缺陷进行标注,解决了半导体缺陷标注需要大量人工导致效率低下的问题,提高了半导体缺陷标注的效率。
参照图4,图4为本发明半导体缺陷标注方法涉及获取缺陷标注模型的流程示意图。
基于上述图3所示的实施例,所述步骤S03,对所述预训练基础模型进行模型训练得到所述缺陷标注模型的步骤包括:
步骤S032,获取预先采集的样本数据;
步骤S033,抽取若干样本数据进行人工标注,获得训练样本数据;
步骤S034,将所述训练样本数据输入所述预训练基础模型进行模型训练,获得基础标注模型;
步骤S036,将所述样本数据中未被抽取的样本数据,输入所述基础标注模型进行模型预测,获得预测后的数据样本;
步骤S037,对所述预测后的数据样本进行人工核验,获得核验结果;
步骤S038,根据所述核验结果,重复训练及预测所述基础标注模型,直到所述核验结果中缺陷标注不正确的数据样本达到预设值时,获得缺陷标注模型。
具体地,为了获得标注效果更好的缺陷批注模型,采取以下步骤实现:
首先,从数据与模型管理系统获取预先采集的样本数据,其中,预先采集的样本数据,指的是将采集到的原始数据进行存储,在对模型进行训练的过程中,将原始数据作为样本数据来对模型进行训练;
然后,抽取样本数据中的部分进行人工标注,人工批注完成后的样本数据,即为训练样本数据,用于对模型的训练,其中,抽取的部分可以为样本数据中的10%,也可以为其他数值,这里的数值由用户来选择操作;
然后,将训练样本数据输入先前在数据与模型管理系统获取的预训练基础模型,对基础模型进行训练,获得基础标注模型,其中,这里使用的模型为具有深度学习功能的模型,通过模型的训练,可以增强模型的识别及标注能力;
然后,将先前样本数据中未被抽取的数据作为预测数据,输入到基础标注模型中进行模型预测,即可获得经过模型预测后的数据样本,其中,预测数据主要用于对训练后的模型进行模型预测;
然后,对经过模型预测后的数据样本进行人工核验,获得核验结果,其中核验结果中会有两种情况,一种为得到缺陷类别及定位均为正确的数据样本,另一种为得到缺陷类别及定位不正确,其中,第一种情况为类别及定位均为正确的情况,第二种情况包括,缺陷类别正确但缺陷定位不正确、缺陷类别不正确但缺陷定位正确或者缺陷类别及缺陷定位都不正确,这三种类型都会判定为缺陷类型及定位不正确;
最后,根据获得的核验结果,对基础标注模型进行重复训练,直到核验结果中没有缺陷类别及定位不正确的数据样本或者满足业务要求的样本数据时,则停止训练,此时获得的模型即为缺陷标注模型,其中,对基础标注模型进行重复训练的过程中,所获得的数据(包括但不限于标注以及未标注的数据)以及每一次训练获得的模型都将其存储到数据与模型管理系统中。
如图5所示,图5为本发明半导体缺陷标注方法涉及获取缺陷标注模型的示意图。
首先,在原始数据中抽取10%的样本数据进行人工标注,作为标注数据,剩下的90%为非标注数据,在本实施例中以10%进行抽取,在其他实施例中可以抽取其他数值的样本数据;
然后将标注数据对在模型仓库中选取的基础模型进行模型训练,其中,这里的模型仓库中选取出的模型,可以为先前已经训练过,具有模型版本的模型,也可以是预训练的基础模型,这些模型都具备深度学习算法,在本实施例中,以预训练的基础模型为主;
然后,将非标注数据输入至经过训练后的基础标注模型中进行模型预测,得到模型预测的结果,对预测结果进行人工筛选,将模型预测结果中标注正确的数据样本输入至标注数据中,对模型进行训练,而标注不正确的数据,输入至非标注数据中,等待模型训练完成后,再度进行模型预测;
然后,重复对模型进行训练及预测的操作;
最后,当模型预测结果中没有标注不正确的数据样本或者满足业务要求的数据时,停止对模型的训练,输出模型,此时输出的模型即为缺陷标注模型,并对模型进行版本管理。
本实施例通过上述方案,具体通过获取预先采集的样本数据;抽取若干样本数据进行人工标注,获得训练样本数据;将所述训练样本数据输入所述预训练基础模型进行模型训练,获得基础标注模型;将所述样本数据中未被抽取的样本数据,输入所述基础标注模型进行模型预测,获得预测后的数据样本;对所述预测后的数据样本进行人工核验,获得核验结果;根据所述核验结果,重复训练及预测所述基础标注模型,直到所述核验结果中没有缺陷标注不正确的数据样本时,获得缺陷标注模型。由此,获得了缺陷标注模型,实现了对半导体缺陷的标注,解决了半导体缺陷标注需要大量人工导致效率低下的问题,提高了半导体缺陷标注的效率。
参照图6,图6为本发明半导体缺陷标注方法涉及获取预测后的样本数据的流程示意图。
基于上述图4所示的实施例,所述步骤S036,将所述样本数据中未被抽取的样本数据,输入所述基础标注模型进行模型预测,获得预测后的数据样本的步骤还包括:
步骤S0361,将所述样本数据中未被抽取的样本数据,生成模型预测数据;
步骤S0362,将所述模型预测数据输入所述基础标注模型进行模型预测以及标识出预测结果中的缺陷类别以及位置,获得预测后的数据样本。
具体地,在使用训练样本数据对模型进行训练后,为了获取训练后的模型的输出效果,采取以下步骤实现:
首先,将先前未被抽取的数据进行整理,生成模型预测数据,其中,模型预测数据也可以理解为非标注数据,在后续对模型进行预测后,获得的不正确标注数据样本也输入作为模型预测数据;
然后,将获得的模型预测数据输入进先前进行训练后得到的基础标注模型;
最后,经过基础标注模型获得预测后的数据样本,并标识出预测结果中的缺陷类别以及位置,其中,对预测结果中的缺陷类别以及位置进行标识,是为了方便进行人工核验,减少人工核验的工作量,也便于能将标识数据以及未标识数据存储进数据管理模块。
本实施例通过上述方案,具体通过将所述样本数据中未被抽取的样本数据,生成模型预测数据;将所述模型预测数据输入所述基础标注模型进行模型预测。由此,实现了获取模型预测的结果以及对预测结果中的缺陷类型和位置进行标识,解决了后续人工核验以及数据存储时资源投入大的问题,提高了半导体缺陷检测的效率。
参照图7,图7为本发明半导体缺陷标注方法涉及重复训练及预测基础标注模型的流程示意图。
基于上述图4所示的实施例,所述步骤S038,根据所述核验结果,重复训练及预测所述基础标注模型的步骤包括:
步骤S0381,将所述核验结果中缺陷标注正确的数据样本输入所述训练样本数据中,重复训练所述基础标注数据模型;
步骤S0382,将所述核验结果中缺陷标注不正确的数据样本作为模型预测数据输入到重复训练后的基础标注模型中进行模型预测。
具体地,为了得到输出效果更好的模型,通过以下步骤实现:
首先,在人工核验后,选取出标注正确的数据样本,将标注正确的数据样本输入到训练样本数据中,对基础标注模型进行重复训练,其中,标注正确的数据指的是在基础标注模型进行缺陷标注时,获取的缺陷类型以及缺陷位置都正确的数据样本;
最后,选取出标注不正确的数据样本,将标注不正确的数据样本作为模型预测数据输入到经过重复训练的基础标注模型中进行模型预测,其中,所述不正确的数据样本包括了缺陷类别正确但缺陷定位不正确、缺陷类别不正确但缺陷定位正确或者缺陷类别及缺陷定位都不正确,这三种类型都会判定为缺陷标注不正确。
本实施例通过上述方案,具体通过将所述核验结果中缺陷标注正确的数据样本输入所述训练样本数据中,重复训练所述基础标注数据模型;将所述核验结果中缺陷标注不正确的数据样本作为模型预测数据输入到重复训练后的基础标注模型中进行模型预测。完成了对基础标注模型的重复训练,实现了获得输出效果更好的缺陷标注模型,解决了半导体缺陷标注需要大量人工的问题,提高了半导体缺陷标注的效率。
参照图8,图8为本发明半导体缺陷标注方法另一示例性实施例的流程示意图。
基于上述图4所示的实施例,在本实施例中,在所述获取预先采集的样本数据的步骤之前,所述半导体缺陷标注方法还包括:
步骤S031,对所述原始数据进行管理。
相比较上述图4所示的实施例,本实施例还包括对数据进行管理的方案。
具体地,参照图9,图9为本发明半导体缺陷标注方法中涉及对数据进行管理的流程示意图,具体包括:
步骤S0311,将待检测数据输入所述数据与模型管理系统;
步骤S0312,根据所述数据与模型管理系统,通过预设的数据管理模块对所述待检测数据进行管理。
更具体地,为了使获取模型以及使用模型时能得到对应的数据记录,采用以下步骤实现:
首先,将待检测数据输入所述数据与模型管理系统,其中,这里的待检测数据,包括但不限于,实际业务应用时所要检测的数据以及为了对模型进行训练所获取的数据;
然后,使用配置在数据与模型管理系统中的数据管理模块对待检测数据进行管理,其中,待检测数据包括但不限于数据的描述、创建时间、创建者以及数据的来源等信息。
进一步地,数据管理模块对于数据的管理,不止于在获取待检测数据的阶段,还有对模型进行训练、对模型进行预测以及新获取数据与历史数据的融合等,对数据进行管理的目的在于提供可视化的半导体缺陷检测模型使用及训练数据,可以得知每一次的模型训练以及使用中标注的质量等信息。
本实施例通过上述方案,具体通过将待检测数据输入所述数据与模型管理系统;根据所述数据与模型管理系统,通过预设的数据管理模块对所述待检测数据进行管理。由此,实现了对半导体缺陷标注模型训练及使用时产生的数据的管理,解决了缺陷标注模型在训练以及使用过程中得到的数据没有进行管理的问题,提高了半导体缺陷标注的效率。
参照图10,图10为本申请半导体缺陷标注方法另一示例性实施例的流程示意图。
基于上述图4所示的实施例,在本实施例中,在所述将所述训练样本数据输入所述预训练基础模型进行模型训练,获得基础标注模型的步骤之后,所述半导体缺陷标注方法还包括:
步骤S035,对所述基础标注模型进行管理。
相比较上述图4所示的实施例,本实施例还包括对模型进行管理的方案。
具体地,参照图11,图11为本发明半导体缺陷标注方法中涉及对模型进行管理的流程示意图,具体包括:
步骤S0351:将所述基础标注模型输入所述数据与模型管理系统;
步骤S0352:根据所述数据与模型管理系统,通过预设的模型管理模块对所述基础标注模型进行版本管理。
更具体地,为了对模型进行管理,采取以下步骤实现:
首先,从数据与模型管理系统中,选取出预训练模型后,对模型进行训练,获得训练后的模型;
然后,将获得的训练后的模型输入至模型管理模块,其中,模型管理模块是存储与数据与模型管理系统中的,而最终使用的缺陷标注模型是经过多次训练得到的,所以每次训练后得到的模型都会存储到模型管理模块中进行版本管理。
进一步地,由于模型需要大量的训练以及使用,才能达到更好的输出效果,所以在数据与模型管理系统中,配置有模型管理模块,对每次训练以及使用后的模型进行版本管理,从模型仓库中获取的预训练模型,经过每次训练都会进行版本更新,例如YOLOv1以及YOLOv2等,对于每次模型训练后的效果都无法记录其中的差异或改进点,通过模型管理模块能够更好的实现对模型效果的记录以及版本的管理。
本实施例通过上述方案,具体通过将所述基础标注模型输入所述数据与模型管理系统;根据所述数据与模型管理系统,通过预设的模型管理模块对所述基础标注模型进行版本管理。由此,完成了对模型的版本管理,解决了模型版本没有得到对应记录的问题,提高了半导体缺陷标注模型的效率。
参照图12,图12为本发明半导体缺陷标注方法中涉及数据与模型管理系统的示意图。
首先,在数据与模型管理系统中,配备有推理模块、训练模块以及存储模块,其中,推理模块主要用于对模型和数据的应用,包括对未标注数据的预测等,训练模块主要用于模型的训练,包括新加入数据与历史训练数据的融合,模型训练过程中资源与参数的管理等,存储模块主要用于对数据和模型文件的存储管理,包括数据或模型的历史版本管理与索引等;
然后,使用推理模块获取业务数据,并运用模型对业务数据进行预测,得到的预测数据用于输出、存储以及按照规则筛选出对应的标注数据;
然后,使用训练模块将标注出的数据输入进标注模型中进行模型训练,获得的训练后模型发送到存储模块进行管理以及将训练后的模型进行部署后发送至推理模块进行运用;
最后,使用存储模块,将预测数据以及标注数据都存储与数据管理模块进行存储,将每次进行模型训练后获得的模型输入至模型管理模块,进行模型管理。
本实施例通过上述方案,具体通过数据与模型管理系统,实现了对模型的使用、训练以及存储进行了管理,解决了半导体缺陷标注模型开发时没有对应进行数据以及模型管理的问题,提高了使用半导体缺陷标注模型进行标注的效率。
此外,本发明实施例还提出一种半导体缺陷标注装置,所述半导体缺陷标注装置包括:
获取模块,用于获取原始数据;
标注模块,用于将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果,其中,所述缺陷标注模型基于预设的数据与模型管理系统得到。
此外,本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的半导体缺陷标注程序,所述半导体缺陷标注程序被所述处理器执行时实现如上所述的半导体缺陷标注方法的步骤。
由于本半导体缺陷标注程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有半导体缺陷标注程序,所述半导体缺陷标注程序被处理器执行时实现如上所述的半导体缺陷标注方法的步骤。
由于本半导体缺陷标注程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本发明实施例提出的半导体缺陷标注方法、装置、终端设备以及存储介质,获取原始数据;将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果,其中,所述缺陷标注模型基于预设的数据与模型管理系统得到。从而解决了半导体缺陷标注需要大量人工导致效率低下的问题,实现了对半导体缺陷的检测及标注,提高了半导体缺陷标注的效率。基于本发明方案,从现实中半导体缺陷标注存在需要大量人工对半导体缺陷进行识别及标注,从而效率低下的问题,设计了一种半导体缺陷标注方法,并在对半导体进行缺陷标注时验证了本发明的半导体缺陷标注方法的有效性,最后经过本发明方法进行半导体缺陷标注的效率得到了明显提升。
和现有的技术相比,本发明实施例方案具有以下优点:
1、提升半导体缺陷标注模型的开发部署速度,减少人工对缺陷数据的标注工作;
2、提供了一个数据与模型管理模块,用于管理模型开发过程中的数据和模型文件,避免了模型和数据的混淆和混用。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本发明每个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种半导体缺陷标注方法,其特征在于,所述半导体缺陷标注方法包括以下步骤:
获取原始数据;
将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果,其中,所述缺陷标注模型基于预设的数据与模型管理系统得到。
2.根据权利要求1所述的半导体缺陷标注方法,其特征在于,所述将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果的步骤之前还包括:
基于预设的数据与模型管理系统,选取预训练基础模型;
对所述预训练基础模型进行模型训练得到所述缺陷标注模型。
3.根据权利要求2所述的半导体缺陷标注方法,其特征在于,所述对所述预训练基础模型进行模型训练得到所述缺陷标注模型的步骤包括:
获取预先采集的样本数据;
抽取若干样本数据进行人工标注,获得训练样本数据;
将所述训练样本数据输入所述预训练基础模型进行模型训练,获得基础标注模型;
将所述样本数据中未被抽取的样本数据,输入所述基础标注模型进行模型预测,获得预测后的数据样本;
对所述预测后的数据样本进行人工核验,获得核验结果;
根据所述核验结果,重复训练及预测所述基础标注模型,直到所述核验结果中缺陷标注不正确的数据样本达到预设值时,获得缺陷标注模型。
4.根据权利要求3所述的半导体缺陷标注方法,其特征在于,所述将所述样本数据中未被抽取的样本数据,输入所述基础标注模型进行模型预测,获得预测后的数据样本的步骤包括:
将所述样本数据中未被抽取的样本数据,生成模型预测数据;
将所述模型预测数据输入所述基础标注模型进行模型预测以及标识出预测结果中的缺陷类别以及位置,获得预测后的数据样本。
5.根据权利要求3所述的半导体缺陷标注方法,其特征在于,所述根据所述核验结果,重复训练及预测所述基础标注模型的步骤包括:
将所述核验结果中缺陷标注正确的数据样本输入所述训练样本数据中,重复训练所述基础标注数据模型;
将所述核验结果中缺陷标注不正确的数据样本作为模型预测数据输入到重复训练后的基础标注模型中进行模型预测。
6.根据权利要求3所述的半导体缺陷标注方法,其特征在于,所述获取预先采集的样本数据的步骤之前还包括:
对所述原始数据进行管理,具体包括:
将待检测数据输入所述数据与模型管理系统;
根据所述数据与模型管理系统,通过预设的数据管理模块对所述待检测数据进行管理。
7.根据权利要求3所述的半导体缺陷标注方法,其特征在于,所述将所述训练样本数据输入所述预训练基础模型进行模型训练,获得基础标注模型的步骤之后还包括:
对所述基础标注模型进行管理,具体包括:
将所述基础标注模型输入所述数据与模型管理系统;
根据所述数据与模型管理系统,通过预设的模型管理模块对所述基础标注模型进行版本管理。
8.一种半导体缺陷标注装置,其特征在于,所述半导体缺陷标注装置包括:
获取模块,用于获取原始数据;
标注模块,用于将所述原始数据,输入预设的缺陷标注模型进行标注,获得标注结果,其中,所述缺陷标注模型基于预设的数据与模型管理系统得到。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的半导体缺陷标注程序,所述半导体缺陷标注程序被所述处理器执行时实现如权利要求1-7中任一项所述的半导体缺陷标注方法的步骤。
10.一种计算器可读存储介质,其特征在于,所述计算器可读存储介质上存储有半导体缺陷标注程序,所述半导体缺陷标注程序被处理器执行时实现如权利要求1-7中任一项所述的半导体缺陷标注方法的步骤。
CN202310781422.6A 2023-06-29 2023-06-29 半导体缺陷标注方法、装置、终端设备以及存储介质 Pending CN116503416A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310781422.6A CN116503416A (zh) 2023-06-29 2023-06-29 半导体缺陷标注方法、装置、终端设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310781422.6A CN116503416A (zh) 2023-06-29 2023-06-29 半导体缺陷标注方法、装置、终端设备以及存储介质

Publications (1)

Publication Number Publication Date
CN116503416A true CN116503416A (zh) 2023-07-28

Family

ID=87321670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310781422.6A Pending CN116503416A (zh) 2023-06-29 2023-06-29 半导体缺陷标注方法、装置、终端设备以及存储介质

Country Status (1)

Country Link
CN (1) CN116503416A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232130A (zh) * 2019-05-20 2019-09-13 平安科技(深圳)有限公司 元数据管理谱系生成方法、装置、计算机设备和存储介质
CN115908977A (zh) * 2022-11-17 2023-04-04 北京远舢智能科技有限公司 一种图像数据标注方法、装置、电子设备及存储介质
CN116342554A (zh) * 2023-03-30 2023-06-27 晶栅科技(苏州)有限公司 采用深度学习的晶圆规则性失效邻近管芯标记方法及相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232130A (zh) * 2019-05-20 2019-09-13 平安科技(深圳)有限公司 元数据管理谱系生成方法、装置、计算机设备和存储介质
CN115908977A (zh) * 2022-11-17 2023-04-04 北京远舢智能科技有限公司 一种图像数据标注方法、装置、电子设备及存储介质
CN116342554A (zh) * 2023-03-30 2023-06-27 晶栅科技(苏州)有限公司 采用深度学习的晶圆规则性失效邻近管芯标记方法及相关装置

Similar Documents

Publication Publication Date Title
CN110569856B (zh) 样本标注方法及装置、损伤类别的识别方法及装置
CN110580475A (zh) 基于无人机巡检的线路诊断方法、电子装置及存储介质
CN110188495B (zh) 一种基于深度学习的二维户型图生成三维户型图的方法
CN111680753A (zh) 一种数据标注方法、装置、电子设备及存储介质
CN113435456A (zh) 基于机器学习的岩石薄片组分识别方法、装置及介质
CN111126393A (zh) 车辆外观改装判断方法、装置、计算机设备及存储介质
CN110827236A (zh) 基于神经网络的脑组织分层方法、装置、计算机设备
CN111340831A (zh) 点云边缘检测方法和装置
CN115830399A (zh) 分类模型训练方法、装置、设备、存储介质和程序产品
CN116824135A (zh) 基于机器视觉的大气自然环境试验工业产品识别分割方法
CN116071294A (zh) 一种光纤表面缺陷检测方法和装置
CN115205586A (zh) 基于知识蒸馏的多自监督任务融合方法、装置及存储介质
Guachi-Guachi et al. Convolutional neural networks applied to microtomy: Identifying the trimming-end cutting routine on paraffin-embedded tissue blocks
CN110046666B (zh) 海量图片标注方法
CN116661786A (zh) 一种设计页面生成方法及装置
CN112200862A (zh) 目标检测模型的训练方法、目标检测方法及装置
CN116503416A (zh) 半导体缺陷标注方法、装置、终端设备以及存储介质
CN114529852A (zh) 一种基于视频数据的遗留物检测分析方法
KR102265678B1 (ko) 이미지 파일의 바운딩 박스 작업의 난이도를 예측하는 방법 및 이를 수행하는 컴퓨터 장치
KR102301635B1 (ko) 인공지능 모델을 이용하여 바운딩 박스를 추론하는 방법 및 바운딩 박스를 추론하는 컴퓨터 장치
CN114998570A (zh) 一种对象检测框的确定方法、装置、存储介质及电子装置
JP2004527048A (ja) 記録情報の同定方法
CN117593648B (zh) 基于弱监督学习的遥感目标建筑物提取方法
KR102548246B1 (ko) 이미지 엔트로피를 이용한 객체 검출용 데이터셋 구성 방법 및 이를 수행하는 데이터 처리장치
CN118366162B (zh) 基于深度学习的图像分割方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230728