CN115269526B

CN115269526B - 一种半导体生产数据的处理方法及系统

Info

Publication number: CN115269526B
Application number: CN202211133780.8A
Authority: CN
Inventors: 涂辉; 武永
Original assignee: Yulong Semiconductor Equipment Jiangsu Co ltd
Current assignee: Yulong Semiconductor Equipment Jiangsu Co ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2023-03-24
Anticipated expiration: 2042-09-19
Also published as: CN115269526A

Abstract

本发明公开了一种半导体生产数据的处理方法及系统，涉及数据压缩技术领域，所述方法包括：获取半导体的生产数据；将生产数据划分为多个周期数据序列；将多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据；获取所述窗口区数据的最大重复语句长度；获取窗口区数据的最佳字典长度；获取窗口区数据的自适应字典个数；获取每个窗口区数据的自适应字典个数；对每个窗口区数据进行LZ77编码压缩，获取压缩后的半导体的生产数据，并对压缩后的半导体的生产数据进行保存或传输；本发明解决了相关技术中，单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下的技术问题。

Description

一种半导体生产数据的处理方法及系统

技术领域

本发明涉及数据压缩技术领域，具体涉及一种半导体生产数据的处理方法及系统。

背景技术

随着智能化的时代的到来，半导体产业迅速发展。当今半导体产业的产品制造和经营为符合高效性和准确性，越来越智能化和自动化。但在智能化和自动化的过程中因为多特征对于半导体生产过程的描述导致出现多维度的海量数据，而这些海量数据在传输和处理的时候往往因为数据维度过多，单个维度数据量过大使得处理过于繁琐，传输比较缓慢。

当前对于半导体生产过程中所产生的多维数据的传输方式为降维压缩传输，现有技术通常采用LZ77编码压缩算法进行压缩传输，可以将半导体生产过程中所产生的多维数据划分为滑动窗口进行窗口内单字典单向编码，但是当待压缩的数据量过大时，单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下，无法满足对大量数据的处理要求。

发明内容

本发明的目的是提供一种半导体生产数据的处理方法及系统，以解决相关技术中，单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下的技术问题，有鉴于此，本发明通过以下技术方案予以实现。

本发明的第一个方案提供了一种半导体生产数据的处理方法，包括：

获取半导体的生产数据，所述生产数据包含正常数据序列和异常数据序列；

根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据划分为多个周期数据序列，且每个周期数据序列包括一个正常数据序列和一个异常数据序列；

将多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据，获取所述窗口区数据中重复出现的最长数据序列，对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度；

将所述最大重复语句长度作为LZ77编码的第一个字典长度；根据所述第一个字典长度将所述窗口区数据划分为多个区间数据，获取所述区间数据内不同语句长度的数据出现的个数，并获取所述第一个字典长度的标准值；

对所述第一个字典长度更新获取第二个字典长度，并获取第二个字典长度的标准值，当第二字典长度的标准值相对与第一字典长度的标准值不再增大时，将第二字典长度作为窗口区数据的最佳字典长度，当第二字典长度的标准值相对与第一字典长度的标准值增大时，更新第二字典长度，依次迭代，直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时，将更新后的字典长度作为所述窗口区数据的最佳字典长度；

根据所述最佳字典长度获取所述窗口区数据的自适应字典个数；

依次将每个周期数据序列作为LZ77编码的窗口区数据，并获取每个所述窗口区数据的自适应字典个数；

根据每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩，获取压缩后的半导体的生产数据，并对所述压缩后的半导体的生产数据进行保存或传输。

优选地，所述根据所述第一个字典长度将所述窗口区数据划分为多个区间数据的过程中还包括：获取所述窗口区数据的总数，并根据所述窗口区数据的总数与第一个字典长度获得多个区间数据。

更优选地，所述区间数据内不同重复语句长度的数据出现的个数为区间数据内每个重复语句长度的数据出现次数的总和。

更优选地，所述第一个字典长度对应的标准值通过下式确定：

式中，

为第一个字典长度对应的标准值；/>

为第/>

个区间数据内不同重复语句长度的数据出现次数，与全部区间数据内不同重复语句长度的数据出现次数的比值；/>

为区间数据的总数。

更优选地，所述窗口区数据的自适应字典个数通过下式确定：

式中，

为窗口区数据的自适应字典个数；/>

为窗口区数据的总数；/>

为最佳字典长度；/>

为每个字典对应的压缩区间长度。

优选地，所述获取半导体的生产数据的过程中还包括对获取的半导体的生产数据进行降维处理。

更优选地，所述对每个所述窗口区数据进行LZ77编码压缩的方式为：对所述窗口区数据中的每个区间数据进行双向LZ77编码压缩。

本发明的第二个方案提供了一种半导体生产数据的处理系统，包括：

数据获取模块，用于获取半导体的生产数据，所述生产数据包含正常数据序列和异常数据序列；根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据划分为多个周期数据序列，且每个周期数据序列包括一个正常数据序列和一个异常数据序列；

最佳字典确定模块，用于从所述数据获取模块获取的多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据，获取所述窗口区数据中重复出现的最长数据序列，对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度；将所述最大重复语句长度作为LZ77编码的第一个字典长度；根据所述第一个字典长度将所述窗口区数据划分为多个区间数据，获取所述区间数据内不同语句长度的数据出现的个数，并获取所述第一个字典长度的标准值；对所述第一个字典长度更新获取第二个字典长度，并获取第二个字典长度的标准值，当第二字典长度的标准值相对与第一字典长度的标准值不再增大时，将第二字典长度作为窗口区数据的最佳字典长度，当第二字典长度的标准值相对与第一字典长度的标准值增大时，更新第二字典长度，依次迭代，直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时，将更新后的字典长度作为所述窗口区数据的最佳字典长度；

自适应字典确定模块，用于根据所述最佳字典确定模块获取的所述窗口区数据的最佳字典长度获取所述窗口区数据的自适应字典个数；依次将每个周期数据序列作为LZ77编码的窗口区数据，并获取每个所述窗口区数据的自适应字典个数；

数据压缩模块，用于根据所述自适应字典个数模块获取的每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩，获取压缩后的半导体的生产数据，并对所述压缩后的半导体的生产数据进行保存或传输。

与现有技术相比，本发明的有益效果是：

本发明提供了一种半导体生产数据的处理方法及系统，该处理方法通过获取半导体的生产数据，生产数据包含正常数据和异常数据；根据生产数据中正常数据和异常数据交替出现的周期将生产数据划分为多个周期数据序列；将多个周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据，并获取窗口区数据的最大重复语句长度；根据最大重复语句长度获取窗口区数据的最佳字典长度；本发明对LZ77编码的窗口区数据确定了最佳字典长度，相对于现有技术中的固定字典长度对窗口数据的压缩，可极大地提高LZ77编码效率。

本发明的处理方法还通过窗口区数据的最佳字典长度获取窗口区数据的自适应字典个数；依次将每个周期数据序列作为LZ77编码的窗口区数据，并获取每个窗口区数据的自适应字典个数；根据每个窗口区数据的自适应字典个数对每个窗口区数据进行LZ77编码压缩，获取压缩后的半导体的生产数据；本发明对每个窗口区数据进行LZ77编码压缩方式为使用最佳字典长度进行双向编码压缩，可进一步提升LZ77编码效率；还通过对压缩后的半导体的生产数据进行传输和保存，完成半导体生产数据的处理；本发明解决了相关技术中，单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据的处理方法的流程示意图；

图2为本发明实施例提供的数据的处理系统的原理示意图；

图3为本发明实施例提供的窗口区数据的字典数为偶数的压缩方式示意图；

图4为本发明实施例提供的窗口区数据的字典数为奇数的压缩方式示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的使用场景为：在半导体产品生产的过程中，往往需要收集海量的多维数据，而因为数据量特别巨大在后续的数据管理和数据传输的过程中容易发生错误，并且数据管理和数据传输的速度和效率不高，所以通过对数据进行预处理，并结合数据压缩技术对半导体生产数据进行压缩来实现半导体生产数据的快速处理和传输。

实施例

本实施例的第一个目的是提供一种半导体生产数据的处理方法，如图1 所示，处理方法包括：

S101，获取半导体生产环节中的数据，对获取的半导体生产环节中的数据进行降维处理获得一维的生产数据

；所述生产数据/>

包含正常数据序列和异常数据序列；根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据/>

划分为多个周期数据序列，且每个周期数据序列包括一个正常数据序列和一个异常数据序列；

需要说明的是，本实施例使用PCA算法对生产数据

进行降维处理；而半导体生产环节中的数据的一个明显的特征为正常数据序列和异常数据序列交替出现，且当半导体生产环节发生异常时一组异常数据序列连续出现；半导体生产环节正常时，一组正常数据序列连续出现，且连续出现的正常数据序列和连续出现的异常数据序列自身具有高度相似性，所以根据半导体生产的数据中正常数据序列与异常数据序列交替出现的周期对生产数据/>

S102，获取多个所述周期数据序列中的第一个周期数据序列作为LZ77编码的窗口区数据

；获取所述窗口数据/>

中重复出现的最长数据序列，对所述最长数据序列的数据个数加1获得所述窗口区数据/>

的最大重复语句长度；

需要说明的是，本实施例中还可以通过下述步骤获取所述窗口区数据

的最大重复语句长度，获取所述窗口区数据/>

的最大重复语句长度的过程为：获取所述窗口区数据

中的每个重复语句长度的数据出现的概率；所述获取所述窗口区数据/>

中的每个重复语句长度的数据出现的概率的过程为，获取所述窗口区数据/>

中重复语句长度为1的数据出现的概率，所述窗口区数据/>

中重复语句长度为1的数据出现的概率通过下式确定：

式中，

为窗口区数据/>

中重复语句长度为1的数据出现的概率；/>

为窗口区数据

中重复语句长度为1的数据个数；/>

为窗口区数据/>

的总体次数；

为了减少计算量，在

的基础上，获取所述窗口区数据/>

中重复语句长度为2的数据出现的概率；所述窗口区数据/>

中重复语句长度为2的数据出现的概率通过下式确定：/>

式中，

为窗口区数据/>

中重复语句长度为2的数据出现的概率；/>

为窗口区数据

中重复语句长度为2的数据个数；/>

为窗口区数据/>

的总体次数；

最后在

的基础上，获取所述窗口区数据/>

中重复语句长度为/>

的数据出现的概率；所述窗口区数据/>

中重复语句长度为/>

的数据出现的概率通过下式确定：

式中，

为窗口区数据/>

中重复语句长度为/>

的数据出现的概率；/>

为窗口区数据/>

中重复语句长度为/>

的数据个数；/>

为窗口区数据/>

的总体次数；

通过上述步骤可获得所述窗口区数据

中每个重复语句长度的数据出现的概率，并获得所述窗口区数据/>

中数据的最大重复语句长度为/>

；

需要说明的是，之所以在

的基础获取窗口区数据/>

中重复语句长度为/>

的数据出现的概率是因为进一步减少计算量，通过上述步骤获得了窗口区数据/>

中数据的最大重复语句长度为/>

；

根据所述窗口区数据

中最大重复语句长度获取所述窗口区数据/>

的最佳字典长度；获取所述窗口区数据/>

的最佳字典长度的过程为：

将所述最大重复语句长度

作为LZ77编码的第一个字典长度；根据所述第一个字典长度将所述窗口数据划分为多个区间数据，所述多个区间数据通过下式确定：

式中，

为根据第一个字典长度将所述窗口区数据划分的区间数据的个数；/>

为窗口区数据的总数；/>

为第一个字典长度；

获取所述区间数据内不同语句长度的数据出现的个数，所述区间数据内不同重复语句长度数据出现的个数通过下式确定：

式中，

为区间数据内不同语句长度的数据出现的个数，/>

表示第一个字典长度；

为区间数据内重复语句长度为/>

时的数据出现的个数；

获取所述第一个字典长度的标准值；所述第一个字典长度的标准值通过下式确定：

式中，

为第一个字典长度的标准值；/>

为第/>

个区间数据内不同重复语句长度的数据出现的个数与全部区间数据内不同语句长度的数据出现的个数的比值；/>

为区间数据的总数

对所述第一个字典长度更新获取第二个字典长度，并获取第二个字典长度的标准值，当第二字典长度的标准值相对与第一字典长度的标准值不再增大时，将第二字典长度作为窗口区数据的最佳字典长度，当第二字典长度的标准值相对与第一字典长度的标准值增大时，更新第二字典长度，依次迭代，直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时，将更新后的字典长度作为所述窗口区数据的最佳字典长度

；

需要说明的是，本实施例中的之所以将最大重复语句长度

作为LZ77编码的第一个字典长度是因为本实施例的最佳字典长度必须大于最大重复语句长度，以提升对窗口数据的压缩效率，并进一步减少计算量；在对所述窗口区数据/>

进行LZ77编码时，字典长度（字典内的数据个数）越长，半导体生产数据的压缩效率越高，相应的压缩时间越长；字典长度越短，半导体生产数据压缩效率较低，但是压缩时间较短，所以获取最佳字典长度对窗口区数据进行压缩时，可以在提升压缩效率的同时进一步减少压缩时间，获取使得在对半导体生产数据进行较大压缩效率的同时减少压缩时间；获取最佳字典长度的逻辑为在最短的字典长度内，尽可能包含更多的不同的重复语句长度；

S103，根据所述窗口区数据

的最佳字典长度/>

获取所述窗口区数据/>

的自适应字典个数；所述窗口区数据/>

的自适应字典个数通过下式确定：

式中，

为窗口区数据的自适应字典个数；/>

为窗口区数据的总数；/>

为最佳字典长度；/>

为每个字典对应的压缩区间长度；

依次将每个所述周期数据序列作为LZ77编码的窗口区数据，并获取每个窗口区数据的自适应字典个数；

需要说明的是，本实施例取所述压缩区间长度

的值为/>

，压缩区间长度/>

可根据具体的实施要求选取其他的值，本实施例选取的压缩区间长度/>

满足奈奎斯特采样定理；当上述步骤获取的自适应字典个数/>

为非整数时，对所述自适应字典个数/>

进行向下取整，获得最终的自适应字典个数；

S104，通过上述步骤获得了所述生产数据

中的每个窗口数据的自适应字典个数；根据所述生产数据/>

中的每个窗口数据的自适应字典个数；现需要根据每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩；因为上述步骤中窗口区数据的字典区可能出现偶数或者奇数的字典数，所以偶数字典分检索过程为相邻两个字典区的数据进行双向检索；奇数则除最后一个字典区外，检索方式和偶数字典区相同，最后一个字典区为正常LZ77编码压缩检索；如图3所示，图3为窗口区数据的字典数为6个的压缩方式，图3中字典分检索过程为相邻两个字典区的数据进行双向检索；图3中灰色区域的字典区域，白色区域为待缓存区域，区域内箭头方向为窗口区数据进入字典区的方向；如图4所示，图4为窗口区数据的字典数为5个的压缩方式，图3中除最后一个字典区外，字典分检索过程为相邻两个字典区的数据进行双向检索，最后一个字典区为正常LZ77编码压缩检索；图4中灰色区域的字典区域，白色区域为待缓存区域，区域内箭头方向为窗口区数据进入字典区的方向；/>

通过上述步骤可完成对所述生产数据

的压缩获得了压缩后的半导体的生产数据；对所述压缩后的半导体的生产数据进行传输和保存，完成所述半导体的生产数据的处理。

本实施例的第二个目的是提供一种半导体生产数据的处理系统，如图2所示，处理系统包括数据获取模块、最佳字典确定模块、自适应字典确定模块和数据压缩模块；

最佳字典确定模块，用于从所述数据获取模块获取的多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据，获取所述窗口数据中重复出现的最长数据序列，对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度；将所述最大重复语句长度作为LZ77编码的第一个字典长度；根据所述第一个字典长度将所述窗口数据划分为多个区间数据，获取所述区间数据内不同语句长度的数据出现的个数，并获取所述第一个字典长度的标准值；对所述第一个字典长度更新获取第二个字典长度，并获取第二个字典长度的标准值，当第二字典长度的标准值相对与第一字典长度的标准值不再增大时，将第二字典长度作为窗口区数据的最佳字典长度，当第二字典长度的标准值相对与第一字典长度的标准值增大时，更新第二字典长度，依次迭代，直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时，将更新后的字典长度作为所述窗口区数据的最佳字典长度；

综上，本实施例提供了一种半导体生产数据的处理方法及系统，所述方法包括获取半导体的生产数据，生产数据包含正常数据和异常数据；根据生产数据中正常数据和异常数据交替出现的周期将生产数据划分为多个周期数据序列；将多个周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据，并获取所述窗口区数据的最大重复语句长度；根据所述最大重复语句长度获取所述窗口区数据的最佳字典长度；根据窗口区数据的最佳字典长度获取窗口区数据的自适应字典个数；依次将每个周期数据序列作为LZ77编码的窗口区数据，并获取每个窗口区数据的自适应字典个数；根据每个窗口区数据的自适应字典个数对每个窗口区数据进行LZ77编码压缩，获取压缩后的半导体的生产数据；对压缩后的半导体的生产数据进行传输和保存，完成半导体生产数据的处理；本发明解决了相关技术中，单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下的技术问题；所述系统包括数据获取模块、最佳字典确定模块、自适应字典确定模块、数据压缩模块和数据传输模块，通过所述系统可完成对所述半导体数据的处理。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种半导体生产数据的处理方法，其特征在于，包括以下步骤：

第一个字典长度对应的标准值通过下式确定：

式中，

为第一个字典长度对应的标准值；

为第

个区间数据内不同重复语句长度的数据出现次数，与全部区间数据内不同重复语句长度的数据出现次数的比值；

为区间数据的总数；

根据所述最佳字典长度获取所述窗口区数据的自适应字典个数；所述窗口区数据的自适应字典个数通过下式确定：

式中，

为窗口区数据的自适应字典个数；

为窗口区数据的总数；

为最佳字典长度；

为每个字典对应的压缩区间长度；

2.根据权利要求1所述的半导体生产数据的处理方法，其特征在于，所述根据所述第一个字典长度将所述窗口区数据划分为多个区间数据的过程中还包括：获取所述窗口区数据的总数，并根据所述窗口区数据的总数与第一个字典长度获得多个区间数据。

3.根据权利要求2所述的半导体生产数据的处理方法，其特征在于，所述区间数据内不同重复语句长度的数据出现的个数为区间数据内每个重复语句长度的数据出现次数的总和。

4.根据权利要求1所述的半导体生产数据的处理方法，其特征在于，所述获取半导体的生产数据的过程中还包括对获取的半导体的生产数据进行降维处理。

5.根据权利要求4所述的半导体生产数据的处理方法，其特征在于，所述对每个所述窗口区数据进行LZ77编码压缩的方式为：对所述窗口区数据中的每个区间数据进行双向LZ77编码压缩。

6.一种半导体生产数据的处理系统，其特征在于，包括：

最佳字典确定模块，用于从所述数据获取模块获取的多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据，获取所述窗口区数据中重复出现的最长数据序列，对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度；将所述最大重复语句长度作为LZ77编码的第一个字典长度；根据所述第一个字典长度将所述窗口区数据划分为多个区间数据，获取所述区间数据内不同语句长度的数据出现的个数，并获取所述第一个字典长度的标准值；

第一个字典长度对应的标准值通过下式确定：