CN116303696B - 半导体测试数据的处理方法、装置、电子设备及存储介质 - Google Patents
半导体测试数据的处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116303696B CN116303696B CN202310558335.4A CN202310558335A CN116303696B CN 116303696 B CN116303696 B CN 116303696B CN 202310558335 A CN202310558335 A CN 202310558335A CN 116303696 B CN116303696 B CN 116303696B
- Authority
- CN
- China
- Prior art keywords
- test data
- abnormal
- sampling
- processing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 455
- 238000012545 processing Methods 0.000 title claims abstract description 81
- 239000004065 semiconductor Substances 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000005070 sampling Methods 0.000 claims abstract description 106
- 230000002159 abnormal effect Effects 0.000 claims abstract description 85
- 238000010586 diagram Methods 0.000 claims abstract description 57
- 238000012216 screening Methods 0.000 claims abstract description 24
- 230000002776 aggregation Effects 0.000 claims abstract description 20
- 238000004220 aggregation Methods 0.000 claims abstract description 20
- 238000003491 array Methods 0.000 claims abstract description 15
- 230000008030 elimination Effects 0.000 claims abstract description 9
- 238000003379 elimination reaction Methods 0.000 claims abstract description 9
- 238000003672 processing method Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 8
- 230000001788 irregular Effects 0.000 claims description 6
- 238000003908 quality control method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 7
- 235000012431 wafers Nutrition 0.000 description 7
- 238000007405 data analysis Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Testing Or Measuring Of Semiconductors Or The Like (AREA)
Abstract
本申请提供了半导体测试数据的处理方法、装置、电子设备及存储介质,包括:基于用户的查询需求在半导体测试数据库中筛选出查询需求相对应的多个测试数据;基于每个测试数据对应的字段维度,对多个测试数据进行聚合处理,确定出每个测试数据的字段维度相对应的测试数据数组;对多个测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个测试数据中的多个抽样测试数据,测试数据以散点图的形式进行展示,并将抽样测试数据在散点图中的坐标信息进行存储。通过聚合处理、剔除异常测试数据以及分层抽样的方法,在保持样本和原始数据不存在显著性差异的前提下,分层次多步骤降低半导体数据散点图分析场景下应用的负载压力。
Description
技术领域
本申请涉及数据处理技术领域,尤其是涉及半导体测试数据的处理方法、装置、电子设备及存储介质。
背景技术
散点图是数据分析过程中使用频率最高的几种基础图表类型之一,由于可以真实反映原始测试数据的分布状况,是最常见的大数据量分析场景。简单的二维散点图是在笛卡尔坐标系内使用两组数据构成大量坐标点,通过对坐标点的分析判断两组变量之间是否存在关联关系,又或者分析数据所遵循的统计学分布情况。从半导体测试数据量的角度来说,一片8英寸的晶圆在维度单个测试项可能产生8万个以上的坐标点,而一个批次的晶圆可能有几十片,再经过多达几千道的测试程序后,产生的数据量数以亿行计,这已经超出了绝大数通用数据分析系统(BI系统)散点图的绘制能力,从实用性的角度而言,在不做处理的情况下,这样的数据量也超过了目前常用显示设备的分辨率,因此,不经处理的将全量数据向用户展示是没有意义的。
现阶段,在实际的芯片验证过程中,测试工程师常常需要应用各种图表来分析和表征晶圆的性能质量,而即使是单个批次的样本在测试的各个阶段累计产生的数据也经常在千万甚至亿行以上,这样的数据量必定会给BI系统带来极大的负载压力。所以,如何降低系统的负载压力提高了整体系统的可靠性成为了不容小觑的技术问题。
发明内容
有鉴于此,本申请的目的在于提供半导体测试数据的处理方法、装置、电子设备及存储介质,通过聚合处理、剔除异常测试数据以及分层抽样的方法,在保持样本和原始数据不存在显著性差异的前提下,分层次多步骤降低半导体数据散点图分析场景下应用的负载压力,满足该场景对于整体数据分布以及边界值的关注,提高了整体系统的可靠性。
本申请实施例提供了一种半导体测试数据的处理方法,所述处理方法包括:
基于用户的查询需求在半导体测试数据库中筛选出所述查询需求相对应的多个测试数据;
基于每个所述测试数据对应的字段维度,对多个所述测试数据进行聚合处理,确定出每个所述测试数据的字段维度相对应的测试数据数组;
对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据,对多个所述测试数据以散点图的形式进行展示,并将所述抽样测试数据在所述散点图中的坐标信息进行存储。
在一种可能的实施方式中,所述对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据,包括:
将多个所述测试数据转换为笛卡尔坐标系下的测试数据,并在所述笛卡尔坐标系上划分多个网格状分组;
对多个所述网格状分组中的异常测试数据进行剔除,从剔除所述异常测试数据的每个所述网格状分组中抽取出目标数量的测试数据,将目标数量的测试数据作为多个所述测试数据中的多个抽样测试数据。
在一种可能的实施方式中,通过以下步骤确定出所述异常测试数据:
将多个所述测试数据进行排序,将在排序后的多个所述测试数据中的多个目标中位数相对应的测试数据确定为异常测试数据;
基于多个所述目标中位数确定出第一位数间距与第二位数间距,基于所述第一位数间距、所述第二位数间距以及所述目标中位数确定出第一边界值和第二边界值;其中,所述第一边界值大于所述第二边界值;
当所述测试数据大于所述第一边界值或者小于所述第二边界值时,则该测试数据为异常测试数据。
在一种可能的实施方式中,通过以下步骤确定出所述异常测试数据:
基于多个所述测试数据相对应的目标测试项目的质量管控指标,对多个所述测试数据进行筛选确定出所述异常测试数据;
或者,基于函数拟合不规则曲线对所述笛卡尔坐标系上的散点坐标从多个数据维度进行筛选,确定出异常测试数据。
在一种可能的实施方式中,通过以下步骤确定出所述目标数量的测试数据:
获取预设抽样比例;
基于所述预设抽样比例与所述网格状分组的数量的乘积,确定出第一数值;
确定剔除所述异常测试数据之后的所述测试数据的总数目,将所述测试数据的总数目除以所述第一数值,确定出所述目标数量的测试数据。
在一种可能的实施方式中,在所述对多个所述网格状分组中的异常测试数据进行剔除,从剔除所述异常测试数据的每个所述网格状分组中抽取出目标数量的测试数据,将目标数量的测试数据作为多个所述测试数据中的多个抽样测试数据之后,所述处理方法还包括:
基于所述网格状分组的数量与所述目标数量的测试数据的乘积,确定出抽样后的多个所述抽样测试数据的总数目。
在一种可能的实施方式中,在所述基于用户的查询需求在半导体测试数据库中筛选出所述查询需求相对应的多个测试数据之前,所述处理方法还包括:
将多个半导体测试数据以列式存储结构的方式存储在数据库中生成所述半导体测试数据库,以便基于用户的查询需求在所述半导体测试数据库中筛选出所述查询需求相对应的多个测试数据。
本申请实施例还提供了一种半导体测试数据的处理装置,所述处理装置包括:
筛选模块,用于基于用户的查询需求在半导体测试数据库中筛选出所述查询需求相对应的多个测试数据;
聚合模块,用于基于每个所述测试数据对应的字段维度,对多个所述测试数据进行聚合处理,确定出每个所述测试数据的字段维度相对应的测试数据数组;
分层抽样模块,用于对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据,对多个所述测试数据以散点图的形式进行展示,并将所述抽样测试数据在所述散点图中的坐标信息进行存储。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的半导体测试数据的处理方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的半导体测试数据的处理方法的步骤。
本申请实施例提供的半导体测试数据的处理方法、装置、电子设备及存储介质置,所述处理方法包括:基于用户的查询需求在半导体测试数据库中筛选出所述查询需求相对应的多个测试数据;基于每个所述测试数据对应的字段维度,对多个所述测试数据进行聚合处理,确定出每个所述测试数据的字段维度相对应的测试数据数组;对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据,对多个所述测试数据以散点图的形式进行展示,并将所述抽样测试数据在所述散点图中的坐标信息进行存储。通过聚合处理、剔除异常测试数据以及分层抽样的方法,在保持样本和原始数据不存在显著性差异的前提下,分层次多步骤降低半导体数据散点图分析场景下应用的负载压力,满足该场景对于整体数据分布以及边界值的关注,提高了整体系统的可靠性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种半导体测试数据的处理方法的流程图;
图2为本申请实施例所提供的一种半导体测试数据的处理方法中剔除异常测试数据进行分层抽样处理的示意图之一;
图3为本申请实施例所提供的一种半导体测试数据的处理方法中剔除异常测试数据进行分层抽样处理的示意图之二;
图4为本申请实施例所提供的一种半导体测试数据的处理方法中剔除异常测试数据进行分层抽样处理的示意图之三;
图5为本申请实施例所提供的一种半导体测试数据的处理方法中剔除异常测试数据进行分层抽样处理的示意图之四;
图6为本申请实施例所提供的一种半导体测试数据的处理装置的结构示意图;
图7为本申请实施例所提供的另一种半导体测试数据的处理装置的结构示意图;
图8为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“对半导体测试数据进行处理”,给出以下实施方式,对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于数据处理技术领域。
经研究发现,现阶段,在实际的芯片验证过程中,测试工程师常常需要应用各种图表来分析和表征晶圆的性能质量,而即使是单个批次的样本在测试的各个阶段累计产生的数据也经常在千万甚至亿行以上,这样的数据量必定会给BI系统带来极大的负载压力。所以,如何对测试数据进行预处理,提高了整体系统的可靠性成为了不容小觑的技术问题。
基于此,本申请实施例提供了一种半导体测试数据的处理方法、装置、电子设备及存储介质,通过聚合处理、剔除异常测试数据以及分层抽样的方法,在保持样本和原始数据不存在显著性差异的前提下,分层次多步骤降低半导体数据散点图分析场景下应用的负载压力,满足该场景对于整体数据分布以及边界值的关注,提高了整体系统的可靠性。
请参阅图1,图1为本申请实施例所提供的一种半导体测试数据的处理方法的流程图。如图1中所示,本申请实施例提供的处理方法,包括:
S101:基于用户的查询需求在半导体测试数据库中筛选出所述查询需求相对应的多个测试数据。
该步骤中,获取用户的半导体测试数据的查询需求,根据该查询需求在半导体测试数据库中筛选出相对应的多个测试数据。
这里,在数据查询阶段使用流式处理,逐条将查询到的测试数据处理成最终返回客户端的结构,避免应用的内存空间长期被大量的中间数据结构占用。
在一种可能的实施方式中,在所述基于用户的查询需求在半导体测试数据库中筛选出所述查询需求相对应的多个测试数据之前,所述处理方法还包括:
将多个半导体测试数据以列式存储结构的方式存储在数据库中生成所述半导体测试数据库,以便基于用户的查询需求在所述半导体测试数据库中筛选出所述查询需求相对应的多个测试数据。
这里,将多个半导体测试数据以列式存储结构的方式存储在数据库中生成半导体测试数据库,以便根据用户的查询需求在半导体测试数据库中筛选出查询需求相对应的多个测试数据。
在本方案中,从代替惯用的行式存储的关系型数据库的列式存储结构的数据库集群中查询存储的测试数据,列式存储更适合于复杂的数据分析场景下的数据查询,相比行式存储,能够大幅提升检索效率,避免数据传输阶段大量无用的字段占用IO资源。
S102:基于每个所述测试数据对应的字段维度,对多个所述测试数据进行聚合处理,确定出每个所述测试数据的字段维度相对应的测试数据数组。
该步骤中,根据筛选出来的每个测试数据对应的字段维度对多个测试数据进行聚合处理,确定出每个测试数据的字段维度相对应的测试数据数组。
这里,由于在存储的测试数据里存在大量关于产品批次号、规格的重复信息,例如DEVICE_ID、LOT_ID、WAFER_ID等字段,这一步会将测试数据按照这些维度进行聚合成测试数据数组,降低重复数据占用的空间。
S103:对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据,对多个所述测试数据以散点图的形式进行展示,并将所述抽样测试数据在所述散点图中的坐标信息进行存储。
该步骤中,在不损失数据特征及满足测试数据分析的业务需求的前提下,对测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个测试数据中的多个抽样测试数据,并对多个测试数据以散点图的形式进行展示,并将抽样测试数据在散点图中的坐标信息进行存储。
这里,在不损失数据特征及满足测试数据分析的业务需求的前提下,对测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,一方面减轻服务端系统的负载压力,另一方面也能够降低客户端硬件门槛,给用户带来更好的使用体验。
其中,将散点图服务单独拆分,做多点分布式部署,坐标点数据进行缓存,以便在分析条件相同的情况下达到复用的效果,进一步增强系统负载能力、可靠性。
在一种可能的实施方式中,所述对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据,包括:
A:将多个所述测试数据转换为笛卡尔坐标系下的测试数据,并在所述笛卡尔坐标系上划分多个网格状分组。
这里,将多个测试数据转换作为笛卡尔坐标系的x轴测试数据与y轴测试数据,测试数据总数为N,在存有测试数据的笛卡尔坐标系上划分为(可调)网格状分组。
B:对多个所述网格状分组中的异常测试数据进行剔除,从剔除所述异常测试数据的每个所述网格状分组中抽取出目标数量的测试数据,将目标数量的测试数据作为多个所述测试数据中的多个抽样测试数据。
这里,对多个网格状分组中的异常测试数据进行剔除,从剔除异常测试数据的每个网格状分组中抽取出目标数量的测试数据,将目标数量的测试数据作为多个测试数据中的多个抽样测试数据。
其中,为满足业务人员对异常测试数据的关注,事先会将整体样本的异常数据先行剔除,之所以进行这样的处理,原因是:半导体测试工程师并不关注每个具体测试数据,而更愿意从统计学的角度观察数据集内样本的分布,因而大部分数据都可以被剔除;每组数据的异常数据是数据验证的重点,通过这些点与测试工程师指定的High/Low Limit的对比,可以快速得出该批次产品在某一测试项下的总体测试的测试结果。
在一种可能的实施方式中,通过以下步骤确定出所述异常测试数据:
a:将多个所述测试数据进行排序,将在排序后的多个所述测试数据中的多个目标中位数相对应的测试数据确定为异常测试数据。
这里,将多个测试数据进行排序,将在排序后的多个测试数据中的多个目标中位数相对应的测试数据确定为异常测试数据。
这里,目标中位数可为Q25/Q50/Q75,Q25/Q50/Q75测试数据从小到大排序后的第25%、50%、75% 位的数值。
b:基于多个所述目标中位数确定出第一位数间距与第二位数间距,基于所述第一位数间距、所述第二位数间距以及所述目标中位数确定出第一边界值和第二边界值;其中,所述第一边界值大于所述第二边界值。
c:当所述测试数据大于所述第一边界值或者小于所述第二边界值时,则该测试数据为异常测试数据。
这里,以目标中位数为Q25/Q50/Q75为例,定义四分位数间距IQR = Q75 – Q25(第一位数间距),当测试数据大于Q75+1.5IQR(第一边界值)或者测试数据小于Q25-1.5IQR(第二边界值),定义该坐标点对应的测试数据为异常测试数据。
其中,符合异常测试数据定义的坐标点不参与抽样,它们是测试工程师关注的重点,予以全部保留。
在一种可能的实施方式中,通过以下步骤确定出所述异常测试数据:
基于多个所述测试数据相对应的目标测试项目的质量管控指标,对多个所述测试数据进行筛选确定出所述异常测试数据;或者,基于函数拟合不规则曲线对所述笛卡尔坐标系上的散点坐标从多个数据维度进行筛选,确定出异常测试数据。
这里,根据多个测试数据相对应的目标测试项目的质量管控指标,对多个测试数据进行筛选确定出异常测试数据;或者,基于函数拟合不规则曲线对笛卡尔坐标系上的散点坐标从多个数据维度进行筛选,确定出异常测试数据。
其中,根据不同的测试项目,结合该批次产品在测试项目下的质量管控指标,例如CP(制程能力)、CPK(制程能力指数)等其他指标,根据指标来筛选异常测试数据的边界。
其中,由于散点的聚簇通常不是规则的,可以通过函数拟合不规则曲线,对散点坐标从多个数据维度进行筛选。
在一种可能的实施方式中,通过以下步骤确定出所述目标数量的测试数据:
(1):获取预设抽样比例。
这里,根据用户需求设定预设抽样比例。
(2):基于所述预设抽样比例与所述网格状分组的数量的乘积,确定出第一数值。
这里,根据预设抽样比例与网格状分组的数量的乘积,确定出第一数值。
(3):确定剔除所述异常测试数据之后的所述测试数据的总数目,将所述测试数据的总数目除以所述第一数值,确定出所述目标数量的测试数据。
这里, 个(可调)网格状分组,预设抽样比例k,N为剔除所异常测试数据之后的测试数据的总数目。
在一种可能的实施方式中,在所述对多个所述网格状分组中的异常测试数据进行剔除,从剔除所述异常测试数据的每个所述网格状分组中抽取出目标数量的测试数据,将目标数量的测试数据作为多个所述测试数据中的多个抽样测试数据之后,所述处理方法还包括:
基于所述网格状分组的数量与所述目标数量的测试数据的乘积,确定出抽样后的多个所述抽样测试数据的总数目。
这里,根据网格状分组的数量与目标数量的测试数据的乘积,确定出抽样后的多个抽样测试数据的总数目。
在具体实施例中,将指定的两组测试数据作为笛卡尔坐标系的x轴与y轴数据,总数为N,指定抽样比例k,划分为个(可调)网格状分组,从每个分组中抽取个坐标点,抽样后的总样本数为/>。
这里,抽样方法分为随机抽样与非随机抽样,随机抽样方法更能够确保抽样的客观性与科学性,只有抽样难度大经济成本高的情况下才会使用非随机方法,毫无疑问我们使用随机抽样方法。在常用的随机抽样方法中,简单随机抽样最易于操作,但由于每个值被丢弃的概率相同可能遗失异常值,系统性随机抽样无法避免因数据本身周期性变化可能导致的系统误差,整群随机抽样的误差通常大于简单随机抽样,分层抽样,将数据根据不同的维度进行了层级上的划分,在每个区间内进行简单随机抽样,避免了随机抽样的系统误差扩大,虽然操作上最复杂,但与总体样本的误差是最小的。
进一步的,请参阅图2为本申请实施例所提供的一种半导体测试数据的处理方法中剔除异常测试数据进行分层抽样处理的示意图之一、图3为本申请实施例所提供的一种半导体测试数据的处理方法中剔除异常测试数据进行分层抽样处理的示意图之二、图4为本申请实施例所提供的一种半导体测试数据的处理方法中剔除异常测试数据进行分层抽样处理的示意图之三、图5为本申请实施例所提供的一种半导体测试数据的处理方法中剔除异常测试数据进行分层抽样处理的示意图之四。图2为将多个测试数据转换为笛卡尔坐标系下的测试数据,图3、图4为对异常测试数据进行剔除,黑色线条以外的黑色圆点为筛选出的异常测试数据,图5从剔除异常测试数据的每个网格状分组中抽取出目标数量的测试数据,将目标数量的测试数据作为多个测试数据中的多个抽样测试数据。
在现有技术中,全量的原始数据在海量数据的散点图分析场景下并不是必要的,该分析场景下不会对每个坐标点进行逐个分析,而更多的关注于整体所服从的分布情况以及边界情况。而本方法处理后可在单个散点图服务节点、单张图表上处理多达1000万行的数据集,并像客户端浏览器响应至多50万个坐标点。抽样结果的示例:建立了一个包含25片晶圆,单片晶圆32000个测试,10个测试项目的数据集,在单个散点图上,共计超过800万个坐标点,经抽样处理后共向客户端响应83220个坐标点,测试结果如下表所示:
表1:抽样前后统计值对比
这里,采用T检验的方法来对抽样后的数据进行显著性检验,通过查询T界值表发现t值均小于2.27,验证经过抽样后得到的坐标点与原始数据不存在显著性差异,即抽样后的样本可以作为分析测试数据的依据。
其中,对海量半导体数据的处理关键在于对数据量的压缩,采用分层抽样的方法能够在无论测试数据服从于何种分布的情况下,对所有区间范围内的数据按比例抽样,从而做到相比其余常见随机抽样方法拥有与原始数据更小的误差。但分层抽样的区间划分、抽样比例是可以调节的。
本申请实施例提供的一种半导体测试数据的处理方法,所述处理方法包括:基于用户的查询需求在半导体测试数据库中筛选出所述查询需求相对应的多个测试数据;基于每个所述测试数据对应的字段维度,对多个所述测试数据进行聚合处理,确定出每个所述测试数据的字段维度相对应的测试数据数组;对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据,对多个所述测试数据以散点图的形式进行展示,并将所述抽样测试数据在所述散点图中的坐标信息进行存储。通过聚合处理、剔除异常测试数据以及分层抽样的方法,在保持样本和原始数据不存在显著性差异的前提下,分层次多步骤降低半导体数据散点图分析场景下应用的负载压力,满足该场景对于整体数据分布以及边界值的关注,提高了整体系统的可靠性。
请参阅图6、图7,图6为本申请实施例所提供的一种半导体测试数据的处理装置的结构示意图,图7为本申请实施例所提供的另一种半导体测试数据的处理装置的结构示意图。如图6中所示,所述处理装置600包括:
筛选模块610,用于基于用户的查询需求在半导体测试数据库中筛选出所述查询需求相对应的多个测试数据;
聚合模块620,用于基于每个所述测试数据对应的字段维度,对多个所述测试数据进行聚合处理,确定出每个所述测试数据的字段维度相对应的测试数据数组;
分层抽样模块630,用于对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据,对多个所述测试数据以散点图的形式进行展示,并将所述抽样测试数据在所述散点图中的坐标信息进行存储。
进一步的,分层抽样模块630在用于所述对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据时,分层抽样模块630具体用于:
将多个所述测试数据转换为笛卡尔坐标系下的测试数据,并在所述笛卡尔坐标系上划分多个网格状分组;
对多个所述网格状分组中的异常测试数据进行剔除,从剔除所述异常测试数据的每个所述网格状分组中抽取出目标数量的测试数据,将目标数量的测试数据作为多个所述测试数据中的多个抽样测试数据。
进一步的,分层抽样模块630通过以下步骤确定出所述异常测试数据:
将多个所述测试数据进行排序,将在排序后的多个所述测试数据中的多个目标中位数相对应的测试数据确定为异常测试数据;
基于多个所述目标中位数确定出第一位数间距与第二位数间距,基于所述第一位数间距、所述第二位数间距以及所述目标中位数确定出第一边界值和第二边界值;其中,所述第一边界值大于所述第二边界值;
当所述测试数据大于所述第一边界值或者小于所述第二边界值时,则该测试数据为异常测试数据。
进一步的,分层抽样模块630通过以下步骤确定出所述异常测试数据:
基于多个所述测试数据相对应的目标测试项目的质量管控指标,对多个所述测试数据进行筛选确定出所述异常测试数据;
或者,基于函数拟合不规则曲线对所述笛卡尔坐标系上的散点坐标从多个数据维度进行筛选,确定出异常测试数据。
进一步的,分层抽样模块630通过以下步骤确定出所述目标数量的测试数据:
获取预设抽样比例;
基于所述预设抽样比例与所述网格状分组的数量的乘积,确定出第一数值;
确定剔除所述异常测试数据之后的所述测试数据的总数目,将所述测试数据的总数目除以所述第一数值,确定出所述目标数量的测试数据。
进一步的,如图7所示,处理装置600还包括抽取总数确定模块640,所述抽取总数确定模块640用于:
基于所述网格状分组的数量与所述目标数量的测试数据的乘积,确定出抽样后的多个所述抽样测试数据的总数目。
进一步的,如图7所示,处理装置600还包括数据库建立模块650,数据库建立模块650用于:
将多个半导体测试数据以列式存储结构的方式存储在数据库中生成所述半导体测试数据库,以便基于用户的查询需求在所述半导体测试数据库中筛选出所述查询需求相对应的多个测试数据。
本申请实施例提供的一种半导体测试数据的处理装置,所述处理装置包括:筛选模块,用于基于用户的查询需求在半导体测试数据库中筛选出所述查询需求相对应的多个测试数据;聚合模块,用于基于每个所述测试数据对应的字段维度,对多个所述测试数据进行聚合处理,确定出每个所述测试数据的字段维度相对应的测试数据数组;分层抽样模块,用于对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据,对多个所述测试数据以散点图的形式进行展示,并将所述抽样测试数据在所述散点图中的坐标信息进行存储。通过聚合处理、剔除异常测试数据以及分层抽样的方法,在保持样本和原始数据不存在显著性差异的前提下,分层次多步骤降低半导体数据散点图分析场景下应用的负载压力,满足该场景对于整体数据分布以及边界值的关注,提高了整体系统的可靠性。
请参阅图8,图8为本申请实施例所提供的一种电子设备的结构示意图。如图8中所示,所述电子设备800包括处理器810、存储器820和总线830。
所述存储器820存储有所述处理器810可执行的机器可读指令,当电子设备800运行时,所述处理器810与所述存储器820之间通过总线830通信,所述机器可读指令被所述处理器810执行时,可以执行如上述图1所示方法实施例中的半导体测试数据的处理方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的半导体测试数据的处理方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种半导体测试数据的处理方法,其特征在于,所述处理方法包括:
基于用户的查询需求在半导体测试数据库中筛选出所述查询需求相对应的多个测试数据;
基于每个所述测试数据对应的字段维度,对多个所述测试数据进行聚合处理,确定出每个所述测试数据的字段维度相对应的测试数据数组;
对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据,对多个所述测试数据以散点图的形式进行展示,并将所述抽样测试数据在所述散点图中的坐标信息进行存储;
所述对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据,包括:
将多个所述测试数据转换为笛卡尔坐标系下的测试数据,并在所述笛卡尔坐标系上划分多个网格状分组;
对多个所述网格状分组中的异常测试数据进行剔除,从剔除所述异常测试数据的每个所述网格状分组中抽取出目标数量的测试数据,将目标数量的测试数据作为多个所述测试数据中的多个抽样测试数据。
2.根据权利要求1所述的处理方法,其特征在于,通过以下步骤确定出所述异常测试数据:
将多个所述测试数据进行排序,将在排序后的多个所述测试数据中的多个目标中位数相对应的测试数据确定为异常测试数据;
基于多个所述目标中位数确定出第一位数间距与第二位数间距,基于所述第一位数间距、所述第二位数间距以及所述目标中位数确定出第一边界值和第二边界值;其中,所述第一边界值大于所述第二边界值;
当所述测试数据大于所述第一边界值或者小于所述第二边界值时,则该测试数据为异常测试数据。
3.根据权利要求1所述的处理方法,其特征在于,通过以下步骤确定出所述异常测试数据:
基于多个所述测试数据相对应的目标测试项目的质量管控指标,对多个所述测试数据进行筛选确定出所述异常测试数据;
或者,基于函数拟合不规则曲线对所述笛卡尔坐标系上的散点坐标从多个数据维度进行筛选,确定出异常测试数据。
4.根据权利要求1所述的处理方法,其特征在于,通过以下步骤确定出所述目标数量的测试数据:
获取预设抽样比例;
基于所述预设抽样比例与所述网格状分组的数量的乘积,确定出第一数值;
确定剔除所述异常测试数据之后的所述测试数据的总数目,将所述测试数据的总数目除以所述第一数值,确定出所述目标数量的测试数据。
5.根据权利要求1所述的处理方法,其特征在于,在所述对多个所述网格状分组中的异常测试数据进行剔除,从剔除所述异常测试数据的每个所述网格状分组中抽取出目标数量的测试数据,将目标数量的测试数据作为多个所述测试数据中的多个抽样测试数据之后,所述处理方法还包括:
基于所述网格状分组的数量与所述目标数量的测试数据的乘积,确定出抽样后的多个所述抽样测试数据的总数目。
6.根据权利要求1所述的处理方法,其特征在于,在所述基于用户的查询需求在半导体测试数据库中筛选出所述查询需求相对应的多个测试数据之前,所述处理方法还包括:
将多个半导体测试数据以列式存储结构的方式存储在数据库中生成所述半导体测试数据库,以便基于用户的查询需求在所述半导体测试数据库中筛选出所述查询需求相对应的多个测试数据。
7.一种半导体测试数据的处理装置,其特征在于,所述处理装置包括:
筛选模块,用于基于用户的查询需求在半导体测试数据库中筛选出所述查询需求相对应的多个测试数据;
聚合模块,用于基于每个所述测试数据对应的字段维度,对多个所述测试数据进行聚合处理,确定出每个所述测试数据的字段维度相对应的测试数据数组;
分层抽样模块,用于对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据,对多个所述测试数据以散点图的形式进行展示,并将所述抽样测试数据在所述散点图中的坐标信息进行存储;
分层抽样模块在用于所述对多个所述测试数据数组中的测试数据进行异常测试数据剔除后进行分层抽样处理,确定出多个所述测试数据中的多个抽样测试数据时,分层抽样模块具体用于:
将多个所述测试数据转换为笛卡尔坐标系下的测试数据,并在所述笛卡尔坐标系上划分多个网格状分组;
对多个所述网格状分组中的异常测试数据进行剔除,从剔除所述异常测试数据的每个所述网格状分组中抽取出目标数量的测试数据,将目标数量的测试数据作为多个所述测试数据中的多个抽样测试数据。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的半导体测试数据的处理方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一所述的半导体测试数据的处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310558335.4A CN116303696B (zh) | 2023-05-18 | 2023-05-18 | 半导体测试数据的处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310558335.4A CN116303696B (zh) | 2023-05-18 | 2023-05-18 | 半导体测试数据的处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116303696A CN116303696A (zh) | 2023-06-23 |
CN116303696B true CN116303696B (zh) | 2023-09-19 |
Family
ID=86796352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310558335.4A Active CN116303696B (zh) | 2023-05-18 | 2023-05-18 | 半导体测试数据的处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303696B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015651A (zh) * | 2020-08-28 | 2020-12-01 | 北京互金新融科技有限公司 | 数据处理方法及装置 |
CN112561324A (zh) * | 2020-12-15 | 2021-03-26 | 中国兵器工业标准化研究所 | 颗粒产品批代表性性能抽样测试份数量的确定方法 |
CN115236418A (zh) * | 2022-07-28 | 2022-10-25 | 中电科思仪科技股份有限公司 | 一种用于无人机天线测试的方向图修正方法及系统 |
CN115981894A (zh) * | 2023-02-13 | 2023-04-18 | 上海孤波科技有限公司 | 一种测试数据的传输方法、装置、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10955468B2 (en) * | 2018-01-23 | 2021-03-23 | Texas Instruments Incorporated | Wafer probe resumption of die testing |
US11687540B2 (en) * | 2021-02-18 | 2023-06-27 | Oracle International Corporation | Fast, approximate conditional distribution sampling |
-
2023
- 2023-05-18 CN CN202310558335.4A patent/CN116303696B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015651A (zh) * | 2020-08-28 | 2020-12-01 | 北京互金新融科技有限公司 | 数据处理方法及装置 |
CN112561324A (zh) * | 2020-12-15 | 2021-03-26 | 中国兵器工业标准化研究所 | 颗粒产品批代表性性能抽样测试份数量的确定方法 |
CN115236418A (zh) * | 2022-07-28 | 2022-10-25 | 中电科思仪科技股份有限公司 | 一种用于无人机天线测试的方向图修正方法及系统 |
CN115981894A (zh) * | 2023-02-13 | 2023-04-18 | 上海孤波科技有限公司 | 一种测试数据的传输方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
徐鹏 ; 林森 ; .基于C4.5决策树的流量分类方法.软件学报.2009,(第10期),全文. * |
林龙涛 ; 贾小珠 ; 任厚来 ; .基于分层抽样的入侵检测方法.青岛大学学报(自然科学版).2007,(第01期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116303696A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5240475B2 (ja) | 近似パターン合致の方法および装置 | |
CN110826648A (zh) | 一种利用时序聚类算法实现故障检测的方法 | |
US7895171B2 (en) | Compressibility estimation of non-unique indexes in a database management system | |
KR102104193B1 (ko) | 서비스 파라미터 선택 방법 및 관련된 디바이스 | |
CN109471853B (zh) | 数据降噪方法、装置、计算机设备和存储介质 | |
EP2389624A1 (en) | Sampling analysis of search queries | |
CN110471945B (zh) | 活跃数据的处理方法、系统、计算机设备和存储介质 | |
CN112036476A (zh) | 基于二分类业务的数据特征选择方法、装置及计算机设备 | |
CN1783092A (zh) | 数据分析装置和数据分析方法 | |
CN111858245A (zh) | 一种异常数据的分析方法、装置、电子设备及存储介质 | |
CN110737600A (zh) | 崩溃统计数据显示方法、装置、计算机设备及存储介质 | |
CN116303696B (zh) | 半导体测试数据的处理方法、装置、电子设备及存储介质 | |
CN114429256A (zh) | 数据监测方法、装置、电子设备及存储介质 | |
CN112883056B (zh) | 一种半导体测试数据处理方法及装置 | |
Fulp et al. | Combining spatial and temporal properties for improvements in data reduction | |
CN114358121A (zh) | 基于变电站设备的监测方法、装置和终端设备 | |
US20040199358A1 (en) | Complex multivariate analysis system and method | |
KR101542558B1 (ko) | 웨이퍼 수율 맵을 분석하는 방법 및 상기 방법을 기록한 기록매체 | |
CN113360313A (zh) | 一种基于海量系统日志的行为分析方法 | |
CN106776598B (zh) | 一种信息处理方法及装置 | |
CN113094415A (zh) | 数据抽取方法、装置、计算机可读介质及电子设备 | |
CN115086156B (zh) | 存储区域网络中异常应用的定位方法 | |
CN112749750B (zh) | 一种基于k均值聚类算法的搜索引擎聚合分析方法及系统 | |
CN113495831B (zh) | 基于关键字生成测试用例的方法、系统、设备及介质 | |
CN117609693A (zh) | 错误数据治理方法、装置、计算设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |