CN115269526B - 一种半导体生产数据的处理方法及系统 - Google Patents

一种半导体生产数据的处理方法及系统 Download PDF

Info

Publication number
CN115269526B
CN115269526B CN202211133780.8A CN202211133780A CN115269526B CN 115269526 B CN115269526 B CN 115269526B CN 202211133780 A CN202211133780 A CN 202211133780A CN 115269526 B CN115269526 B CN 115269526B
Authority
CN
China
Prior art keywords
data
dictionary
length
standard value
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211133780.8A
Other languages
English (en)
Other versions
CN115269526A (zh
Inventor
涂辉
武永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yulong Semiconductor Equipment Jiangsu Co ltd
Original Assignee
Yulong Semiconductor Equipment Jiangsu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yulong Semiconductor Equipment Jiangsu Co ltd filed Critical Yulong Semiconductor Equipment Jiangsu Co ltd
Priority to CN202211133780.8A priority Critical patent/CN115269526B/zh
Publication of CN115269526A publication Critical patent/CN115269526A/zh
Application granted granted Critical
Publication of CN115269526B publication Critical patent/CN115269526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Algebra (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Manufacturing & Machinery (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种半导体生产数据的处理方法及系统,涉及数据压缩技术领域,所述方法包括:获取半导体的生产数据;将生产数据划分为多个周期数据序列;将多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据;获取所述窗口区数据的最大重复语句长度;获取窗口区数据的最佳字典长度;获取窗口区数据的自适应字典个数;获取每个窗口区数据的自适应字典个数;对每个窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据,并对压缩后的半导体的生产数据进行保存或传输;本发明解决了相关技术中,单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下的技术问题。

Description

一种半导体生产数据的处理方法及系统
技术领域
本发明涉及数据压缩技术领域,具体涉及一种半导体生产数据的处理方法及系统。
背景技术
随着智能化的时代的到来,半导体产业迅速发展。当今半导体产业的产品制造和经营为符合高效性和准确性,越来越智能化和自动化。但在智能化和自动化的过程中因为多特征对于半导体生产过程的描述导致出现多维度的海量数据,而这些海量数据在传输和处理的时候往往因为数据维度过多,单个维度数据量过大使得处理过于繁琐,传输比较缓慢。
当前对于半导体生产过程中所产生的多维数据的传输方式为降维压缩传输,现有技术通常采用LZ77编码压缩算法进行压缩传输,可以将半导体生产过程中所产生的多维数据划分为滑动窗口进行窗口内单字典单向编码,但是当待压缩的数据量过大时,单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下,无法满足对大量数据的处理要求。
发明内容
本发明的目的是提供一种半导体生产数据的处理方法及系统,以解决相关技术中,单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下的技术问题,有鉴于此,本发明通过以下技术方案予以实现。
本发明的第一个方案提供了一种半导体生产数据的处理方法,包括:
获取半导体的生产数据,所述生产数据包含正常数据序列和异常数据序列;
根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
将多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,获取所述窗口区数据中重复出现的最长数据序列,对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度;
将所述最大重复语句长度作为LZ77编码的第一个字典长度;根据所述第一个字典长度将所述窗口区数据划分为多个区间数据,获取所述区间数据内不同语句长度的数据出现的个数,并获取所述第一个字典长度的标准值;
对所述第一个字典长度更新获取第二个字典长度,并获取第二个字典长度的标准值,当第二字典长度的标准值相对与第一字典长度的标准值不再增大时,将第二字典长度作为窗口区数据的最佳字典长度,当第二字典长度的标准值相对与第一字典长度的标准值增大时,更新第二字典长度,依次迭代,直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时,将更新后的字典长度作为所述窗口区数据的最佳字典长度;
根据所述最佳字典长度获取所述窗口区数据的自适应字典个数;
依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个所述窗口区数据的自适应字典个数;
根据每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据,并对所述压缩后的半导体的生产数据进行保存或传输。
优选地,所述根据所述第一个字典长度将所述窗口区数据划分为多个区间数据的过程中还包括:获取所述窗口区数据的总数,并根据所述窗口区数据的总数与第一个字典长度获得多个区间数据。
更优选地,所述区间数据内不同重复语句长度的数据出现的个数为区间数据内每个重复语句长度的数据出现次数的总和。
更优选地,所述第一个字典长度对应的标准值通过下式确定:
Figure 233073DEST_PATH_IMAGE001
式中,
Figure 592510DEST_PATH_IMAGE002
为第一个字典长度对应的标准值;/>
Figure 355278DEST_PATH_IMAGE003
为第/>
Figure 901797DEST_PATH_IMAGE004
个区间数据内不同重复语句长度的数据出现次数,与全部区间数据内不同重复语句长度的数据出现次数的比值;/>
Figure 996661DEST_PATH_IMAGE005
为区间数据的总数。
更优选地,所述窗口区数据的自适应字典个数通过下式确定:
Figure 836703DEST_PATH_IMAGE006
式中,
Figure 742343DEST_PATH_IMAGE007
为窗口区数据的自适应字典个数;/>
Figure 25425DEST_PATH_IMAGE008
为窗口区数据的总数;/>
Figure 674712DEST_PATH_IMAGE009
为最佳字典长度;/>
Figure 759474DEST_PATH_IMAGE010
为每个字典对应的压缩区间长度。
优选地,所述获取半导体的生产数据的过程中还包括对获取的半导体的生产数据进行降维处理。
更优选地,所述对每个所述窗口区数据进行LZ77编码压缩的方式为:对所述窗口区数据中的每个区间数据进行双向LZ77编码压缩。
本发明的第二个方案提供了一种半导体生产数据的处理系统,包括:
数据获取模块,用于获取半导体的生产数据,所述生产数据包含正常数据序列和异常数据序列;根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
最佳字典确定模块,用于从所述数据获取模块获取的多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,获取所述窗口区数据中重复出现的最长数据序列,对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度;将所述最大重复语句长度作为LZ77编码的第一个字典长度;根据所述第一个字典长度将所述窗口区数据划分为多个区间数据,获取所述区间数据内不同语句长度的数据出现的个数,并获取所述第一个字典长度的标准值;对所述第一个字典长度更新获取第二个字典长度,并获取第二个字典长度的标准值,当第二字典长度的标准值相对与第一字典长度的标准值不再增大时,将第二字典长度作为窗口区数据的最佳字典长度,当第二字典长度的标准值相对与第一字典长度的标准值增大时,更新第二字典长度,依次迭代,直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时,将更新后的字典长度作为所述窗口区数据的最佳字典长度;
自适应字典确定模块,用于根据所述最佳字典确定模块获取的所述窗口区数据的最佳字典长度获取所述窗口区数据的自适应字典个数;依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个所述窗口区数据的自适应字典个数;
数据压缩模块,用于根据所述自适应字典个数模块获取的每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据,并对所述压缩后的半导体的生产数据进行保存或传输。
与现有技术相比,本发明的有益效果是:
本发明提供了一种半导体生产数据的处理方法及系统,该处理方法通过获取半导体的生产数据,生产数据包含正常数据和异常数据;根据生产数据中正常数据和异常数据交替出现的周期将生产数据划分为多个周期数据序列;将多个周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,并获取窗口区数据的最大重复语句长度;根据最大重复语句长度获取窗口区数据的最佳字典长度;本发明对LZ77编码的窗口区数据确定了最佳字典长度,相对于现有技术中的固定字典长度对窗口数据的压缩,可极大地提高LZ77编码效率。
本发明的处理方法还通过窗口区数据的最佳字典长度获取窗口区数据的自适应字典个数;依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个窗口区数据的自适应字典个数;根据每个窗口区数据的自适应字典个数对每个窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据;本发明对每个窗口区数据进行LZ77编码压缩方式为使用最佳字典长度进行双向编码压缩,可进一步提升LZ77编码效率;还通过对压缩后的半导体的生产数据进行传输和保存,完成半导体生产数据的处理;本发明解决了相关技术中,单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据的处理方法的流程示意图;
图2为本发明实施例提供的数据的处理系统的原理示意图;
图3为本发明实施例提供的窗口区数据的字典数为偶数的压缩方式示意图;
图4为本发明实施例提供的窗口区数据的字典数为奇数的压缩方式示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的使用场景为:在半导体产品生产的过程中,往往需要收集海量的多维数据,而因为数据量特别巨大在后续的数据管理和数据传输的过程中容易发生错误,并且数据管理和数据传输的速度和效率不高,所以通过对数据进行预处理,并结合数据压缩技术对半导体生产数据进行压缩来实现半导体生产数据的快速处理和传输。
实施例
本实施例的第一个目的是提供一种半导体生产数据的处理方法,如图1 所示,处理方法包括:
S101,获取半导体生产环节中的数据,对获取的半导体生产环节中的数据进行降维处理获得一维的生产数据
Figure 101594DEST_PATH_IMAGE011
;所述生产数据/>
Figure 871973DEST_PATH_IMAGE011
包含正常数据序列和异常数据序列;根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据/>
Figure 324951DEST_PATH_IMAGE011
划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
需要说明的是,本实施例使用PCA算法对生产数据
Figure 733061DEST_PATH_IMAGE011
进行降维处理;而半导体生产环节中的数据的一个明显的特征为正常数据序列和异常数据序列交替出现,且当半导体生产环节发生异常时一组异常数据序列连续出现;半导体生产环节正常时,一组正常数据序列连续出现,且连续出现的正常数据序列和连续出现的异常数据序列自身具有高度相似性,所以根据半导体生产的数据中正常数据序列与异常数据序列交替出现的周期对生产数据/>
Figure 980502DEST_PATH_IMAGE011
划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
S102,获取多个所述周期数据序列中的第一个周期数据序列作为LZ77编码的窗口区数据
Figure 238177DEST_PATH_IMAGE008
;获取所述窗口数据/>
Figure 120945DEST_PATH_IMAGE008
中重复出现的最长数据序列,对所述最长数据序列的数据个数加1获得所述窗口区数据/>
Figure 898408DEST_PATH_IMAGE008
的最大重复语句长度;
需要说明的是,本实施例中还可以通过下述步骤获取所述窗口区数据
Figure 566018DEST_PATH_IMAGE008
的最大重复语句长度,获取所述窗口区数据/>
Figure 61722DEST_PATH_IMAGE008
的最大重复语句长度的过程为:获取所述窗口区数据
Figure 341656DEST_PATH_IMAGE008
中的每个重复语句长度的数据出现的概率;所述获取所述窗口区数据/>
Figure 239205DEST_PATH_IMAGE008
中的每个重复语句长度的数据出现的概率的过程为,获取所述窗口区数据/>
Figure 343296DEST_PATH_IMAGE008
中重复语句长度为1的数据出现的概率,所述窗口区数据/>
Figure 60716DEST_PATH_IMAGE008
中重复语句长度为1的数据出现的概率通过下式确定:
Figure 144341DEST_PATH_IMAGE012
式中,
Figure 896396DEST_PATH_IMAGE013
为窗口区数据/>
Figure 436968DEST_PATH_IMAGE008
中重复语句长度为1的数据出现的概率;/>
Figure 641684DEST_PATH_IMAGE014
为窗口区数据
Figure 529000DEST_PATH_IMAGE008
中重复语句长度为1的数据个数;/>
Figure 525775DEST_PATH_IMAGE015
为窗口区数据/>
Figure 456822DEST_PATH_IMAGE008
的总体次数;
为了减少计算量,在
Figure 887848DEST_PATH_IMAGE016
的基础上,获取所述窗口区数据/>
Figure 359280DEST_PATH_IMAGE008
中重复语句长度为2的数据出现的概率;所述窗口区数据/>
Figure 69616DEST_PATH_IMAGE008
中重复语句长度为2的数据出现的概率通过下式确定:/>
Figure 437144DEST_PATH_IMAGE017
式中,
Figure 508130DEST_PATH_IMAGE018
为窗口区数据/>
Figure 501363DEST_PATH_IMAGE008
中重复语句长度为2的数据出现的概率;/>
Figure 82517DEST_PATH_IMAGE019
为窗口区数据
Figure 637257DEST_PATH_IMAGE008
中重复语句长度为2的数据个数;/>
Figure 38283DEST_PATH_IMAGE015
为窗口区数据/>
Figure 710572DEST_PATH_IMAGE008
的总体次数;
最后在
Figure 896965DEST_PATH_IMAGE020
的基础上,获取所述窗口区数据/>
Figure 606295DEST_PATH_IMAGE008
中重复语句长度为/>
Figure 9464DEST_PATH_IMAGE021
的数据出现的概率;所述窗口区数据/>
Figure 95232DEST_PATH_IMAGE008
中重复语句长度为/>
Figure 277076DEST_PATH_IMAGE021
的数据出现的概率通过下式确定:
Figure 16362DEST_PATH_IMAGE022
式中,
Figure 782193DEST_PATH_IMAGE023
为窗口区数据/>
Figure 422384DEST_PATH_IMAGE008
中重复语句长度为/>
Figure 832637DEST_PATH_IMAGE021
的数据出现的概率;/>
Figure 133037DEST_PATH_IMAGE024
为窗口区数据/>
Figure 261530DEST_PATH_IMAGE008
中重复语句长度为/>
Figure 315199DEST_PATH_IMAGE021
的数据个数;/>
Figure 829226DEST_PATH_IMAGE015
为窗口区数据/>
Figure 785680DEST_PATH_IMAGE008
的总体次数;
通过上述步骤可获得所述窗口区数据
Figure 152202DEST_PATH_IMAGE008
中每个重复语句长度的数据出现的概率,并获得所述窗口区数据/>
Figure 117884DEST_PATH_IMAGE008
中数据的最大重复语句长度为/>
Figure 751996DEST_PATH_IMAGE021
需要说明的是,之所以在
Figure 144932DEST_PATH_IMAGE020
的基础获取窗口区数据/>
Figure 744889DEST_PATH_IMAGE008
中重复语句长度为/>
Figure 248682DEST_PATH_IMAGE021
的数据出现的概率是因为进一步减少计算量,通过上述步骤获得了窗口区数据/>
Figure 143826DEST_PATH_IMAGE008
中数据的最大重复语句长度为/>
Figure 458395DEST_PATH_IMAGE021
根据所述窗口区数据
Figure 783197DEST_PATH_IMAGE008
中最大重复语句长度获取所述窗口区数据/>
Figure 339949DEST_PATH_IMAGE008
的最佳字典长度;获取所述窗口区数据/>
Figure 433807DEST_PATH_IMAGE008
的最佳字典长度的过程为:
将所述最大重复语句长度
Figure 184857DEST_PATH_IMAGE021
作为LZ77编码的第一个字典长度;根据所述第一个字典长度将所述窗口数据划分为多个区间数据,所述多个区间数据通过下式确定:
Figure 731376DEST_PATH_IMAGE025
式中,
Figure 967185DEST_PATH_IMAGE005
为根据第一个字典长度将所述窗口区数据划分的区间数据的个数;/>
Figure 931861DEST_PATH_IMAGE008
为窗口区数据的总数;/>
Figure 837500DEST_PATH_IMAGE026
为第一个字典长度;
获取所述区间数据内不同语句长度的数据出现的个数,所述区间数据内不同重复语句长度数据出现的个数通过下式确定:
Figure 386162DEST_PATH_IMAGE027
式中,
Figure 301028DEST_PATH_IMAGE028
为区间数据内不同语句长度的数据出现的个数,/>
Figure 261156DEST_PATH_IMAGE026
表示第一个字典长度;
Figure 586964DEST_PATH_IMAGE029
为区间数据内重复语句长度为/>
Figure 373655DEST_PATH_IMAGE004
时的数据出现的个数;
获取所述第一个字典长度的标准值;所述第一个字典长度的标准值通过下式确定:
Figure 842945DEST_PATH_IMAGE001
式中,
Figure 890535DEST_PATH_IMAGE002
为第一个字典长度的标准值;/>
Figure 137977DEST_PATH_IMAGE003
为第/>
Figure 897116DEST_PATH_IMAGE004
个区间数据内不同重复语句长度的数据出现的个数与全部区间数据内不同语句长度的数据出现的个数的比值;/>
Figure 888206DEST_PATH_IMAGE005
为区间数据的总数
对所述第一个字典长度更新获取第二个字典长度,并获取第二个字典长度的标准值,当第二字典长度的标准值相对与第一字典长度的标准值不再增大时,将第二字典长度作为窗口区数据的最佳字典长度,当第二字典长度的标准值相对与第一字典长度的标准值增大时,更新第二字典长度,依次迭代,直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时,将更新后的字典长度作为所述窗口区数据的最佳字典长度
Figure 914937DEST_PATH_IMAGE009
需要说明的是,本实施例中的之所以将最大重复语句长度
Figure 598859DEST_PATH_IMAGE021
作为LZ77编码的第一个字典长度是因为本实施例的最佳字典长度必须大于最大重复语句长度,以提升对窗口数据的压缩效率,并进一步减少计算量;在对所述窗口区数据/>
Figure 845295DEST_PATH_IMAGE008
进行LZ77编码时,字典长度(字典内的数据个数)越长,半导体生产数据的压缩效率越高,相应的压缩时间越长;字典长度越短,半导体生产数据压缩效率较低,但是压缩时间较短,所以获取最佳字典长度对窗口区数据进行压缩时,可以在提升压缩效率的同时进一步减少压缩时间,获取使得在对半导体生产数据进行较大压缩效率的同时减少压缩时间;获取最佳字典长度的逻辑为在最短的字典长度内,尽可能包含更多的不同的重复语句长度;
S103,根据所述窗口区数据
Figure 640076DEST_PATH_IMAGE008
的最佳字典长度/>
Figure 786892DEST_PATH_IMAGE009
获取所述窗口区数据/>
Figure 641716DEST_PATH_IMAGE008
的自适应字典个数;所述窗口区数据/>
Figure 239095DEST_PATH_IMAGE008
的自适应字典个数通过下式确定:
Figure 821255DEST_PATH_IMAGE006
式中,
Figure 838890DEST_PATH_IMAGE007
为窗口区数据的自适应字典个数;/>
Figure 615347DEST_PATH_IMAGE008
为窗口区数据的总数;/>
Figure 85642DEST_PATH_IMAGE009
为最佳字典长度;/>
Figure 612439DEST_PATH_IMAGE010
为每个字典对应的压缩区间长度;
依次将每个所述周期数据序列作为LZ77编码的窗口区数据,并获取每个窗口区数据的自适应字典个数;
需要说明的是,本实施例取所述压缩区间长度
Figure 235312DEST_PATH_IMAGE010
的值为/>
Figure 431938DEST_PATH_IMAGE030
,压缩区间长度/>
Figure 638798DEST_PATH_IMAGE010
可根据具体的实施要求选取其他的值,本实施例选取的压缩区间长度/>
Figure 470750DEST_PATH_IMAGE010
满足奈奎斯特采样定理;当上述步骤获取的自适应字典个数/>
Figure 197397DEST_PATH_IMAGE007
为非整数时,对所述自适应字典个数/>
Figure 814192DEST_PATH_IMAGE007
进行向下取整,获得最终的自适应字典个数;
S104,通过上述步骤获得了所述生产数据
Figure 259080DEST_PATH_IMAGE011
中的每个窗口数据的自适应字典个数;根据所述生产数据/>
Figure 222619DEST_PATH_IMAGE011
中的每个窗口数据的自适应字典个数;现需要根据每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩;因为上述步骤中窗口区数据的字典区可能出现偶数或者奇数的字典数,所以偶数字典分检索过程为相邻两个字典区的数据进行双向检索;奇数则除最后一个字典区外,检索方式和偶数字典区相同,最后一个字典区为正常LZ77编码压缩检索;如图3所示,图3为窗口区数据的字典数为6个的压缩方式,图3中字典分检索过程为相邻两个字典区的数据进行双向检索;图3中灰色区域的字典区域,白色区域为待缓存区域,区域内箭头方向为窗口区数据进入字典区的方向;如图4所示,图4为窗口区数据的字典数为5个的压缩方式,图3中除最后一个字典区外,字典分检索过程为相邻两个字典区的数据进行双向检索,最后一个字典区为正常LZ77编码压缩检索;图4中灰色区域的字典区域,白色区域为待缓存区域,区域内箭头方向为窗口区数据进入字典区的方向;/>
通过上述步骤可完成对所述生产数据
Figure 193986DEST_PATH_IMAGE011
的压缩获得了压缩后的半导体的生产数据;对所述压缩后的半导体的生产数据进行传输和保存,完成所述半导体的生产数据的处理。
本实施例的第二个目的是提供一种半导体生产数据的处理系统,如图2所示,处理系统包括数据获取模块、最佳字典确定模块、自适应字典确定模块和数据压缩模块;
数据获取模块,用于获取半导体的生产数据,所述生产数据包含正常数据序列和异常数据序列;根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
最佳字典确定模块,用于从所述数据获取模块获取的多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,获取所述窗口数据中重复出现的最长数据序列,对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度;将所述最大重复语句长度作为LZ77编码的第一个字典长度;根据所述第一个字典长度将所述窗口数据划分为多个区间数据,获取所述区间数据内不同语句长度的数据出现的个数,并获取所述第一个字典长度的标准值;对所述第一个字典长度更新获取第二个字典长度,并获取第二个字典长度的标准值,当第二字典长度的标准值相对与第一字典长度的标准值不再增大时,将第二字典长度作为窗口区数据的最佳字典长度,当第二字典长度的标准值相对与第一字典长度的标准值增大时,更新第二字典长度,依次迭代,直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时,将更新后的字典长度作为所述窗口区数据的最佳字典长度;
自适应字典确定模块,用于根据所述最佳字典确定模块获取的所述窗口区数据的最佳字典长度获取所述窗口区数据的自适应字典个数;依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个所述窗口区数据的自适应字典个数;
数据压缩模块,用于根据所述自适应字典个数模块获取的每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据,并对所述压缩后的半导体的生产数据进行保存或传输。
综上,本实施例提供了一种半导体生产数据的处理方法及系统,所述方法包括获取半导体的生产数据,生产数据包含正常数据和异常数据;根据生产数据中正常数据和异常数据交替出现的周期将生产数据划分为多个周期数据序列;将多个周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,并获取所述窗口区数据的最大重复语句长度;根据所述最大重复语句长度获取所述窗口区数据的最佳字典长度;根据窗口区数据的最佳字典长度获取窗口区数据的自适应字典个数;依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个窗口区数据的自适应字典个数;根据每个窗口区数据的自适应字典个数对每个窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据;对压缩后的半导体的生产数据进行传输和保存,完成半导体生产数据的处理;本发明解决了相关技术中,单字典单向编码压缩需要的字典内检索时间较长使得压缩效率低下的技术问题;所述系统包括数据获取模块、最佳字典确定模块、自适应字典确定模块、数据压缩模块和数据传输模块,通过所述系统可完成对所述半导体数据的处理。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种半导体生产数据的处理方法,其特征在于,包括以下步骤:
获取半导体的生产数据,所述生产数据包含正常数据序列和异常数据序列;
根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
将多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,获取所述窗口区数据中重复出现的最长数据序列,对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度;
将所述最大重复语句长度作为LZ77编码的第一个字典长度;根据所述第一个字典长度将所述窗口区数据划分为多个区间数据,获取所述区间数据内不同语句长度的数据出现的个数,并获取所述第一个字典长度的标准值;
第一个字典长度对应的标准值通过下式确定:
Figure 955390DEST_PATH_IMAGE002
式中,
Figure DEST_PATH_IMAGE003
为第一个字典长度对应的标准值;
Figure 935372DEST_PATH_IMAGE004
为第
Figure DEST_PATH_IMAGE005
个区间数据内不同重复语句长度的数据出现次数,与全部区间数据内不同重复语句长度的数据出现次数的比值;
Figure 548755DEST_PATH_IMAGE006
为区间数据的总数;
对所述第一个字典长度更新获取第二个字典长度,并获取第二个字典长度的标准值,当第二字典长度的标准值相对与第一字典长度的标准值不再增大时,将第二字典长度作为窗口区数据的最佳字典长度,当第二字典长度的标准值相对与第一字典长度的标准值增大时,更新第二字典长度,依次迭代,直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时,将更新后的字典长度作为所述窗口区数据的最佳字典长度;
根据所述最佳字典长度获取所述窗口区数据的自适应字典个数;所述窗口区数据的自适应字典个数通过下式确定:
Figure 223450DEST_PATH_IMAGE008
式中,
Figure DEST_PATH_IMAGE009
为窗口区数据的自适应字典个数;
Figure 340311DEST_PATH_IMAGE010
为窗口区数据的总数;
Figure DEST_PATH_IMAGE011
为最佳字典长度;
Figure 753844DEST_PATH_IMAGE012
为每个字典对应的压缩区间长度;
依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个所述窗口区数据的自适应字典个数;
根据每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据,并对所述压缩后的半导体的生产数据进行保存或传输。
2.根据权利要求1所述的半导体生产数据的处理方法,其特征在于,所述根据所述第一个字典长度将所述窗口区数据划分为多个区间数据的过程中还包括:获取所述窗口区数据的总数,并根据所述窗口区数据的总数与第一个字典长度获得多个区间数据。
3.根据权利要求2所述的半导体生产数据的处理方法,其特征在于,所述区间数据内不同重复语句长度的数据出现的个数为区间数据内每个重复语句长度的数据出现次数的总和。
4.根据权利要求1所述的半导体生产数据的处理方法,其特征在于,所述获取半导体的生产数据的过程中还包括对获取的半导体的生产数据进行降维处理。
5.根据权利要求4所述的半导体生产数据的处理方法,其特征在于,所述对每个所述窗口区数据进行LZ77编码压缩的方式为:对所述窗口区数据中的每个区间数据进行双向LZ77编码压缩。
6.一种半导体生产数据的处理系统,其特征在于,包括:
数据获取模块,用于获取半导体的生产数据,所述生产数据包含正常数据序列和异常数据序列;根据所述生产数据中正常数据序列和异常数据序列交替出现的周期将所述生产数据划分为多个周期数据序列,且每个周期数据序列包括一个正常数据序列和一个异常数据序列;
最佳字典确定模块,用于从所述数据获取模块获取的多个所述周期数据序列中的任意一个周期数据序列作为LZ77编码的窗口区数据,获取所述窗口区数据中重复出现的最长数据序列,对所述最长数据序列的数据个数加1获得所述窗口区数据的最大重复语句长度;将所述最大重复语句长度作为LZ77编码的第一个字典长度;根据所述第一个字典长度将所述窗口区数据划分为多个区间数据,获取所述区间数据内不同语句长度的数据出现的个数,并获取所述第一个字典长度的标准值;
第一个字典长度对应的标准值通过下式确定:
Figure 667573DEST_PATH_IMAGE002
式中,
Figure 878716DEST_PATH_IMAGE003
为第一个字典长度对应的标准值;
Figure 194291DEST_PATH_IMAGE004
为第
Figure 326195DEST_PATH_IMAGE005
个区间数据内不同重复语句长度的数据出现次数,与全部区间数据内不同重复语句长度的数据出现次数的比值;
Figure 976488DEST_PATH_IMAGE006
为区间数据的总数;
对所述第一个字典长度更新获取第二个字典长度,并获取第二个字典长度的标准值,当第二字典长度的标准值相对与第一字典长度的标准值不再增大时,将第二字典长度作为窗口区数据的最佳字典长度,当第二字典长度的标准值相对与第一字典长度的标准值增大时,更新第二字典长度,依次迭代,直至更新后的字典长度的标准值相对与更新前的字典长度的标准值不再增大时,将更新后的字典长度作为所述窗口区数据的最佳字典长度;
自适应字典确定模块,用于根据所述最佳字典确定模块获取的所述窗口区数据的最佳字典长度获取所述窗口区数据的自适应字典个数;
所述窗口区数据的自适应字典个数通过下式确定:
Figure 992986DEST_PATH_IMAGE008
式中,
Figure 412335DEST_PATH_IMAGE009
为窗口区数据的自适应字典个数;
Figure 856086DEST_PATH_IMAGE010
为窗口区数据的总数;
Figure 603462DEST_PATH_IMAGE011
为最佳字典长度;
Figure 407339DEST_PATH_IMAGE012
为每个字典对应的压缩区间长度;
依次将每个周期数据序列作为LZ77编码的窗口区数据,并获取每个所述窗口区数据的自适应字典个数;
数据压缩模块,用于根据所述自适应字典个数模块获取的每个窗口区数据的自适应字典个数对每个所述窗口区数据进行LZ77编码压缩,获取压缩后的半导体的生产数据,并对所述压缩后的半导体的生产数据进行保存或传输。
CN202211133780.8A 2022-09-19 2022-09-19 一种半导体生产数据的处理方法及系统 Active CN115269526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211133780.8A CN115269526B (zh) 2022-09-19 2022-09-19 一种半导体生产数据的处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211133780.8A CN115269526B (zh) 2022-09-19 2022-09-19 一种半导体生产数据的处理方法及系统

Publications (2)

Publication Number Publication Date
CN115269526A CN115269526A (zh) 2022-11-01
CN115269526B true CN115269526B (zh) 2023-03-24

Family

ID=83756107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211133780.8A Active CN115269526B (zh) 2022-09-19 2022-09-19 一种半导体生产数据的处理方法及系统

Country Status (1)

Country Link
CN (1) CN115269526B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116939047B (zh) * 2023-09-18 2023-11-24 吉林省车桥汽车零部件有限公司 一种用于数控机床系统的数据智能通信方法
CN117014519B (zh) * 2023-09-27 2023-12-29 北京融威众邦科技股份有限公司 一种数据传输方法及医院智能传输系统
CN117273764B (zh) * 2023-11-21 2024-03-08 威泰普科技(深圳)有限公司 一种电子雾化器防伪管理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546162A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于非连续上下文建模和最大熵原则的基因压缩方法
CN114665884A (zh) * 2022-03-29 2022-06-24 北京诺司时空科技有限公司 时序数据库自适应有损压缩方法、系统及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722014B (zh) * 2022-06-09 2022-09-02 杭银消费金融股份有限公司 基于数据库日志文件的批量数据时间序列传输方法及系统
CN114956290B (zh) * 2022-07-27 2022-11-01 江苏赛沐思环保科技有限公司 一种基于lz77编码的工业废水的智能处理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546162A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于非连续上下文建模和最大熵原则的基因压缩方法
CN114665884A (zh) * 2022-03-29 2022-06-24 北京诺司时空科技有限公司 时序数据库自适应有损压缩方法、系统及介质

Also Published As

Publication number Publication date
CN115269526A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN115269526B (zh) 一种半导体生产数据的处理方法及系统
CN116681036B (zh) 基于数字孪生的工业数据存储方法
KR19990078037A (ko) 적응확률추정방법및적응부호화방법과적응복호화방법
CN116303374B (zh) 基于sql数据库的多维度报表数据优化压缩方法
CN108416427A (zh) 卷积核堆积数据流、压缩编码以及深度学习算法
CN115204754B (zh) 一种基于大数据的热力供需信息管理平台
CN109871362A (zh) 一种面向流式时序数据的数据压缩方法
CN116016606B (zh) 一种基于智慧云的污水处理运维数据高效管理系统
CN115882866A (zh) 一种基于数据差值特征的数据压缩方法
US8660187B2 (en) Method for treating digital data
CN117155407A (zh) 一种智慧镜柜消毒日志数据优化存储方法
WO2001063772A1 (en) Method and apparatus for optimized lossless compression using a plurality of coders
US6055273A (en) Data encoding and decoding method and device of a multiple-valued information source
CN113612483A (zh) 一种工业实时数据无损编码压缩方法
CN116915873B (zh) 基于物联网技术的高速电梯运行数据快速传输方法
CN115695564B (zh) 一种物联网数据的高效传输方法
US20230154053A1 (en) System and method for scene graph lossless compression by context-based graph convolution
CN116318172A (zh) 一种设计仿真软件数据自适应压缩方法
CN115913248A (zh) 一种直播软件开发数据智能管理系统
CN115567058A (zh) 一种结合预测与编码的时序数据有损压缩方法
US7193542B2 (en) Digital data compression robust relative to transmission noise
CN118018033B (zh) 一种电机性能数据的智能压缩传输方法
CN112073069B (zh) 一种适用于集成电路测试的测试向量无损压缩方法
CN117896442B (zh) 一种基于物联网的综合能源数据管理系统
CN118018033A (zh) 一种电机性能数据的智能压缩传输方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant