CN115269526B - 一种半导体生产数据的处理方法及系统 - Google Patents
一种半导体生产数据的处理方法及系统 Download PDFInfo
- Publication number
- CN115269526B CN115269526B CN202211133780.8A CN202211133780A CN115269526B CN 115269526 B CN115269526 B CN 115269526B CN 202211133780 A CN202211133780 A CN 202211133780A CN 115269526 B CN115269526 B CN 115269526B
- Authority
- CN
- China
- Prior art keywords
- data
- dictionary
- length
- standard value
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 94
- 239000004065 semiconductor Substances 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000007906 compression Methods 0.000 claims abstract description 48
- 230000006835 compression Effects 0.000 claims abstract description 48
- 230000000737 periodic effect Effects 0.000 claims abstract description 32
- 238000013144 data compression Methods 0.000 claims abstract description 10
- 230000002159 abnormal effect Effects 0.000 claims description 28
- 150000001875 compounds Chemical class 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000003044 adaptive effect Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000003672 processing method Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Algebra (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Manufacturing & Machinery (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种半导体生产数据的处理方法及系统,涉及数据压缩技术领域,所述方法包括:获取半导体的生产数据;将生产数据划分为多个周期数据序列;将多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据;获取所述窗口区数据的最大重复语句长度;获取窗口区数据的最佳字典长度;获取窗口区数据的自适应字典个数;获取每个窗口区数据的自适应字典个数;对每个窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据,并对压缩后的半导体的生产数据进行保存或传输;本发明解决了相关技术中,单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下的技术问题。
Description
技术领域
本发明涉及数据压缩技术领域,具体涉及一种半导体生产数据的处理方法及系统。
背景技术
随着智能化的时代的到来,半导体产业迅速发展。当今半导体产业的产品制造和经营为符合高效性和准确性,越来越智能化和自动化。但在智能化和自动化的过程中因为多特征对于半导体生产过程的描述导致出现多维度的海量数据,而这些海量数据在传输和处理的时候往往因为数据维度过多,单个维度数据量过大使得处理过于繁琐,传输比较缓慢。
当前对于半导体生产过程中所产生的多维数据的传输方式为降维压缩传输,现有技术通常采用LZ77编码压缩算法进行压缩传输,可以将半导体生产过程中所产生的多维数据划分为滑动窗口进行窗口内单字典单向编码,但是当待压缩的数据量过大时,单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下,无法满足对大量数据的处理要求。
发明内容
本发明的目的是提供一种半导体生产数据的处理方法及系统,以解决相关技术中,单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下的技术问题,有鉴于此,本发明通过以下技术方案予以实现。
本发明的第一个方案提供了一种半导体生产数据的处理方法,包括:
获取半导体的生产数据,所述生产数据包含正常数据序列和异常数据序列;
根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
将多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,获取所述窗口区数据中重复出现的最长数据序列,对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度;
将所述最大重复语句长度作为LZ77编码的第一个字典长度;根据所述第一个字典长度将所述窗口区数据划分为多个区间数据,获取所述区间数据内不同语句长度的数据出现的个数,并获取所述第一个字典长度的标准值;
对所述第一个字典长度更新获取第二个字典长度,并获取第二个字典长度的标准值,当第二字典长度的标准值相对与第一字典长度的标准值不再增大时,将第二字典长度作为窗口区数据的最佳字典长度,当第二字典长度的标准值相对与第一字典长度的标准值增大时,更新第二字典长度,依次迭代,直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时,将更新后的字典长度作为所述窗口区数据的最佳字典长度;
根据所述最佳字典长度获取所述窗口区数据的自适应字典个数;
依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个所述窗口区数据的自适应字典个数;
根据每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据,并对所述压缩后的半导体的生产数据进行保存或传输。
优选地,所述根据所述第一个字典长度将所述窗口区数据划分为多个区间数据的过程中还包括:获取所述窗口区数据的总数,并根据所述窗口区数据的总数与第一个字典长度获得多个区间数据。
更优选地,所述区间数据内不同重复语句长度的数据出现的个数为区间数据内每个重复语句长度的数据出现次数的总和。
更优选地,所述第一个字典长度对应的标准值通过下式确定:
更优选地,所述窗口区数据的自适应字典个数通过下式确定:
优选地,所述获取半导体的生产数据的过程中还包括对获取的半导体的生产数据进行降维处理。
更优选地,所述对每个所述窗口区数据进行LZ77编码压缩的方式为:对所述窗口区数据中的每个区间数据进行双向LZ77编码压缩。
本发明的第二个方案提供了一种半导体生产数据的处理系统,包括:
数据获取模块,用于获取半导体的生产数据,所述生产数据包含正常数据序列和异常数据序列;根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
最佳字典确定模块,用于从所述数据获取模块获取的多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,获取所述窗口区数据中重复出现的最长数据序列,对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度;将所述最大重复语句长度作为LZ77编码的第一个字典长度;根据所述第一个字典长度将所述窗口区数据划分为多个区间数据,获取所述区间数据内不同语句长度的数据出现的个数,并获取所述第一个字典长度的标准值;对所述第一个字典长度更新获取第二个字典长度,并获取第二个字典长度的标准值,当第二字典长度的标准值相对与第一字典长度的标准值不再增大时,将第二字典长度作为窗口区数据的最佳字典长度,当第二字典长度的标准值相对与第一字典长度的标准值增大时,更新第二字典长度,依次迭代,直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时,将更新后的字典长度作为所述窗口区数据的最佳字典长度;
自适应字典确定模块,用于根据所述最佳字典确定模块获取的所述窗口区数据的最佳字典长度获取所述窗口区数据的自适应字典个数;依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个所述窗口区数据的自适应字典个数;
数据压缩模块,用于根据所述自适应字典个数模块获取的每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据,并对所述压缩后的半导体的生产数据进行保存或传输。
与现有技术相比,本发明的有益效果是:
本发明提供了一种半导体生产数据的处理方法及系统,该处理方法通过获取半导体的生产数据,生产数据包含正常数据和异常数据;根据生产数据中正常数据和异常数据交替出现的周期将生产数据划分为多个周期数据序列;将多个周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,并获取窗口区数据的最大重复语句长度;根据最大重复语句长度获取窗口区数据的最佳字典长度;本发明对LZ77编码的窗口区数据确定了最佳字典长度,相对于现有技术中的固定字典长度对窗口数据的压缩,可极大地提高LZ77编码效率。
本发明的处理方法还通过窗口区数据的最佳字典长度获取窗口区数据的自适应字典个数;依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个窗口区数据的自适应字典个数;根据每个窗口区数据的自适应字典个数对每个窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据;本发明对每个窗口区数据进行LZ77编码压缩方式为使用最佳字典长度进行双向编码压缩,可进一步提升LZ77编码效率;还通过对压缩后的半导体的生产数据进行传输和保存,完成半导体生产数据的处理;本发明解决了相关技术中,单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据的处理方法的流程示意图;
图2为本发明实施例提供的数据的处理系统的原理示意图;
图3为本发明实施例提供的窗口区数据的字典数为偶数的压缩方式示意图;
图4为本发明实施例提供的窗口区数据的字典数为奇数的压缩方式示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的使用场景为:在半导体产品生产的过程中,往往需要收集海量的多维数据,而因为数据量特别巨大在后续的数据管理和数据传输的过程中容易发生错误,并且数据管理和数据传输的速度和效率不高,所以通过对数据进行预处理,并结合数据压缩技术对半导体生产数据进行压缩来实现半导体生产数据的快速处理和传输。
实施例
本实施例的第一个目的是提供一种半导体生产数据的处理方法,如图1 所示,处理方法包括:
S101,获取半导体生产环节中的数据,对获取的半导体生产环节中的数据进行降维处理获得一维的生产数据;所述生产数据/>包含正常数据序列和异常数据序列;根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据/>划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
需要说明的是,本实施例使用PCA算法对生产数据进行降维处理;而半导体生产环节中的数据的一个明显的特征为正常数据序列和异常数据序列交替出现,且当半导体生产环节发生异常时一组异常数据序列连续出现;半导体生产环节正常时,一组正常数据序列连续出现,且连续出现的正常数据序列和连续出现的异常数据序列自身具有高度相似性,所以根据半导体生产的数据中正常数据序列与异常数据序列交替出现的周期对生产数据/>划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
S102,获取多个所述周期数据序列中的第一个周期数据序列作为LZ77编码的窗口区数据;获取所述窗口数据/>中重复出现的最长数据序列,对所述最长数据序列的数据个数加1获得所述窗口区数据/>的最大重复语句长度;
需要说明的是,本实施例中还可以通过下述步骤获取所述窗口区数据的最大重复语句长度,获取所述窗口区数据/>的最大重复语句长度的过程为:获取所述窗口区数据中的每个重复语句长度的数据出现的概率;所述获取所述窗口区数据/>中的每个重复语句长度的数据出现的概率的过程为,获取所述窗口区数据/>中重复语句长度为1的数据出现的概率,所述窗口区数据/>中重复语句长度为1的数据出现的概率通过下式确定:
获取所述区间数据内不同语句长度的数据出现的个数,所述区间数据内不同重复语句长度数据出现的个数通过下式确定:
获取所述第一个字典长度的标准值;所述第一个字典长度的标准值通过下式确定:
对所述第一个字典长度更新获取第二个字典长度,并获取第二个字典长度的标准值,当第二字典长度的标准值相对与第一字典长度的标准值不再增大时,将第二字典长度作为窗口区数据的最佳字典长度,当第二字典长度的标准值相对与第一字典长度的标准值增大时,更新第二字典长度,依次迭代,直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时,将更新后的字典长度作为所述窗口区数据的最佳字典长度;
需要说明的是,本实施例中的之所以将最大重复语句长度作为LZ77编码的第一个字典长度是因为本实施例的最佳字典长度必须大于最大重复语句长度,以提升对窗口数据的压缩效率,并进一步减少计算量;在对所述窗口区数据/>进行LZ77编码时,字典长度(字典内的数据个数)越长,半导体生产数据的压缩效率越高,相应的压缩时间越长;字典长度越短,半导体生产数据压缩效率较低,但是压缩时间较短,所以获取最佳字典长度对窗口区数据进行压缩时,可以在提升压缩效率的同时进一步减少压缩时间,获取使得在对半导体生产数据进行较大压缩效率的同时减少压缩时间;获取最佳字典长度的逻辑为在最短的字典长度内,尽可能包含更多的不同的重复语句长度;
依次将每个所述周期数据序列作为LZ77编码的窗口区数据,并获取每个窗口区数据的自适应字典个数;
需要说明的是,本实施例取所述压缩区间长度的值为/>,压缩区间长度/>可根据具体的实施要求选取其他的值,本实施例选取的压缩区间长度/>满足奈奎斯特采样定理;当上述步骤获取的自适应字典个数/>为非整数时,对所述自适应字典个数/>进行向下取整,获得最终的自适应字典个数;
S104,通过上述步骤获得了所述生产数据中的每个窗口数据的自适应字典个数;根据所述生产数据/>中的每个窗口数据的自适应字典个数;现需要根据每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩;因为上述步骤中窗口区数据的字典区可能出现偶数或者奇数的字典数,所以偶数字典分检索过程为相邻两个字典区的数据进行双向检索;奇数则除最后一个字典区外,检索方式和偶数字典区相同,最后一个字典区为正常LZ77编码压缩检索;如图3所示,图3为窗口区数据的字典数为6个的压缩方式,图3中字典分检索过程为相邻两个字典区的数据进行双向检索;图3中灰色区域的字典区域,白色区域为待缓存区域,区域内箭头方向为窗口区数据进入字典区的方向;如图4所示,图4为窗口区数据的字典数为5个的压缩方式,图3中除最后一个字典区外,字典分检索过程为相邻两个字典区的数据进行双向检索,最后一个字典区为正常LZ77编码压缩检索;图4中灰色区域的字典区域,白色区域为待缓存区域,区域内箭头方向为窗口区数据进入字典区的方向;/>
本实施例的第二个目的是提供一种半导体生产数据的处理系统,如图2所示,处理系统包括数据获取模块、最佳字典确定模块、自适应字典确定模块和数据压缩模块;
数据获取模块,用于获取半导体的生产数据,所述生产数据包含正常数据序列和异常数据序列;根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
最佳字典确定模块,用于从所述数据获取模块获取的多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,获取所述窗口数据中重复出现的最长数据序列,对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度;将所述最大重复语句长度作为LZ77编码的第一个字典长度;根据所述第一个字典长度将所述窗口数据划分为多个区间数据,获取所述区间数据内不同语句长度的数据出现的个数,并获取所述第一个字典长度的标准值;对所述第一个字典长度更新获取第二个字典长度,并获取第二个字典长度的标准值,当第二字典长度的标准值相对与第一字典长度的标准值不再增大时,将第二字典长度作为窗口区数据的最佳字典长度,当第二字典长度的标准值相对与第一字典长度的标准值增大时,更新第二字典长度,依次迭代,直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时,将更新后的字典长度作为所述窗口区数据的最佳字典长度;
自适应字典确定模块,用于根据所述最佳字典确定模块获取的所述窗口区数据的最佳字典长度获取所述窗口区数据的自适应字典个数;依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个所述窗口区数据的自适应字典个数;
数据压缩模块,用于根据所述自适应字典个数模块获取的每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据,并对所述压缩后的半导体的生产数据进行保存或传输。
综上,本实施例提供了一种半导体生产数据的处理方法及系统,所述方法包括获取半导体的生产数据,生产数据包含正常数据和异常数据;根据生产数据中正常数据和异常数据交替出现的周期将生产数据划分为多个周期数据序列;将多个周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,并获取所述窗口区数据的最大重复语句长度;根据所述最大重复语句长度获取所述窗口区数据的最佳字典长度;根据窗口区数据的最佳字典长度获取窗口区数据的自适应字典个数;依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个窗口区数据的自适应字典个数;根据每个窗口区数据的自适应字典个数对每个窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据;对压缩后的半导体的生产数据进行传输和保存,完成半导体生产数据的处理;本发明解决了相关技术中,单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下的技术问题;所述系统包括数据获取模块、最佳字典确定模块、自适应字典确定模块、数据压缩模块和数据传输模块,通过所述系统可完成对所述半导体数据的处理。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种半导体生产数据的处理方法,其特征在于,包括以下步骤:
获取半导体的生产数据,所述生产数据包含正常数据序列和异常数据序列;
根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
将多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,获取所述窗口区数据中重复出现的最长数据序列,对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度;
将所述最大重复语句长度作为LZ77编码的第一个字典长度;根据所述第一个字典长度将所述窗口区数据划分为多个区间数据,获取所述区间数据内不同语句长度的数据出现的个数,并获取所述第一个字典长度的标准值;
第一个字典长度对应的标准值通过下式确定:
对所述第一个字典长度更新获取第二个字典长度,并获取第二个字典长度的标准值,当第二字典长度的标准值相对与第一字典长度的标准值不再增大时,将第二字典长度作为窗口区数据的最佳字典长度,当第二字典长度的标准值相对与第一字典长度的标准值增大时,更新第二字典长度,依次迭代,直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时,将更新后的字典长度作为所述窗口区数据的最佳字典长度;
根据所述最佳字典长度获取所述窗口区数据的自适应字典个数;所述窗口区数据的自适应字典个数通过下式确定:
依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个所述窗口区数据的自适应字典个数;
根据每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据,并对所述压缩后的半导体的生产数据进行保存或传输。
2.根据权利要求1所述的半导体生产数据的处理方法,其特征在于,所述根据所述第一个字典长度将所述窗口区数据划分为多个区间数据的过程中还包括:获取所述窗口区数据的总数,并根据所述窗口区数据的总数与第一个字典长度获得多个区间数据。
3.根据权利要求2所述的半导体生产数据的处理方法,其特征在于,所述区间数据内不同重复语句长度的数据出现的个数为区间数据内每个重复语句长度的数据出现次数的总和。
4.根据权利要求1所述的半导体生产数据的处理方法,其特征在于,所述获取半导体的生产数据的过程中还包括对获取的半导体的生产数据进行降维处理。
5.根据权利要求4所述的半导体生产数据的处理方法,其特征在于,所述对每个所述窗口区数据进行LZ77编码压缩的方式为:对所述窗口区数据中的每个区间数据进行双向LZ77编码压缩。
6.一种半导体生产数据的处理系统,其特征在于,包括:
数据获取模块,用于获取半导体的生产数据,所述生产数据包含正常数据序列和异常数据序列;根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
最佳字典确定模块,用于从所述数据获取模块获取的多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,获取所述窗口区数据中重复出现的最长数据序列,对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度;将所述最大重复语句长度作为LZ77编码的第一个字典长度;根据所述第一个字典长度将所述窗口区数据划分为多个区间数据,获取所述区间数据内不同语句长度的数据出现的个数,并获取所述第一个字典长度的标准值;
第一个字典长度对应的标准值通过下式确定:
对所述第一个字典长度更新获取第二个字典长度,并获取第二个字典长度的标准值,当第二字典长度的标准值相对与第一字典长度的标准值不再增大时,将第二字典长度作为窗口区数据的最佳字典长度,当第二字典长度的标准值相对与第一字典长度的标准值增大时,更新第二字典长度,依次迭代,直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时,将更新后的字典长度作为所述窗口区数据的最佳字典长度;
自适应字典确定模块,用于根据所述最佳字典确定模块获取的所述窗口区数据的最佳字典长度获取所述窗口区数据的自适应字典个数;
所述窗口区数据的自适应字典个数通过下式确定:
依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个所述窗口区数据的自适应字典个数;
数据压缩模块,用于根据所述自适应字典个数模块获取的每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据,并对所述压缩后的半导体的生产数据进行保存或传输。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211133780.8A CN115269526B (zh) | 2022-09-19 | 2022-09-19 | 一种半导体生产数据的处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211133780.8A CN115269526B (zh) | 2022-09-19 | 2022-09-19 | 一种半导体生产数据的处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115269526A CN115269526A (zh) | 2022-11-01 |
CN115269526B true CN115269526B (zh) | 2023-03-24 |
Family
ID=83756107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211133780.8A Active CN115269526B (zh) | 2022-09-19 | 2022-09-19 | 一种半导体生产数据的处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115269526B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116939047B (zh) * | 2023-09-18 | 2023-11-24 | 吉林省车桥汽车零部件有限公司 | 一种用于数控机床系统的数据智能通信方法 |
CN117014519B (zh) * | 2023-09-27 | 2023-12-29 | 北京融威众邦科技股份有限公司 | 一种数据传输方法及医院智能传输系统 |
CN117273764B (zh) * | 2023-11-21 | 2024-03-08 | 威泰普科技(深圳)有限公司 | 一种电子雾化器防伪管理方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103546162A (zh) * | 2013-09-22 | 2014-01-29 | 上海交通大学 | 基于非连续上下文建模和最大熵原则的基因压缩方法 |
CN114665884A (zh) * | 2022-03-29 | 2022-06-24 | 北京诺司时空科技有限公司 | 时序数据库自适应有损压缩方法、系统及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722014B (zh) * | 2022-06-09 | 2022-09-02 | 杭银消费金融股份有限公司 | 基于数据库日志文件的批量数据时间序列传输方法及系统 |
CN114956290B (zh) * | 2022-07-27 | 2022-11-01 | 江苏赛沐思环保科技有限公司 | 一种基于lz77编码的工业废水的智能处理方法 |
-
2022
- 2022-09-19 CN CN202211133780.8A patent/CN115269526B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103546162A (zh) * | 2013-09-22 | 2014-01-29 | 上海交通大学 | 基于非连续上下文建模和最大熵原则的基因压缩方法 |
CN114665884A (zh) * | 2022-03-29 | 2022-06-24 | 北京诺司时空科技有限公司 | 时序数据库自适应有损压缩方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115269526A (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115269526B (zh) | 一种半导体生产数据的处理方法及系统 | |
CN116681036B (zh) | 基于数字孪生的工业数据存储方法 | |
KR19990078037A (ko) | 적응확률추정방법및적응부호화방법과적응복호화방법 | |
CN116303374B (zh) | 基于sql数据库的多维度报表数据优化压缩方法 | |
CN108416427A (zh) | 卷积核堆积数据流、压缩编码以及深度学习算法 | |
CN115204754B (zh) | 一种基于大数据的热力供需信息管理平台 | |
CN109871362A (zh) | 一种面向流式时序数据的数据压缩方法 | |
CN116016606B (zh) | 一种基于智慧云的污水处理运维数据高效管理系统 | |
CN115882866A (zh) | 一种基于数据差值特征的数据压缩方法 | |
US8660187B2 (en) | Method for treating digital data | |
CN117155407A (zh) | 一种智慧镜柜消毒日志数据优化存储方法 | |
WO2001063772A1 (en) | Method and apparatus for optimized lossless compression using a plurality of coders | |
US6055273A (en) | Data encoding and decoding method and device of a multiple-valued information source | |
CN113612483A (zh) | 一种工业实时数据无损编码压缩方法 | |
CN116915873B (zh) | 基于物联网技术的高速电梯运行数据快速传输方法 | |
CN115695564B (zh) | 一种物联网数据的高效传输方法 | |
US20230154053A1 (en) | System and method for scene graph lossless compression by context-based graph convolution | |
CN116318172A (zh) | 一种设计仿真软件数据自适应压缩方法 | |
CN115913248A (zh) | 一种直播软件开发数据智能管理系统 | |
CN115567058A (zh) | 一种结合预测与编码的时序数据有损压缩方法 | |
US7193542B2 (en) | Digital data compression robust relative to transmission noise | |
CN118018033B (zh) | 一种电机性能数据的智能压缩传输方法 | |
CN112073069B (zh) | 一种适用于集成电路测试的测试向量无损压缩方法 | |
CN117896442B (zh) | 一种基于物联网的综合能源数据管理系统 | |
CN118018033A (zh) | 一种电机性能数据的智能压缩传输方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |