CN107330454B

CN107330454B - 非线性海量高维序列数据分类特性可视化及定量分析方法

Info

Publication number: CN107330454B
Application number: CN201710471831.0A
Authority: CN
Inventors: 孙锴
Original assignee: Individual
Current assignee: Chen Wenqin
Priority date: 2017-06-20
Filing date: 2017-06-20
Publication date: 2020-07-17
Anticipated expiration: 2037-06-20
Also published as: CN107330454A

Abstract

本发明公开一种非线性海量高维序列数据分类特性可视化及定量分析方法，包括：步骤1、构造测试数据矩阵X；步骤2、构造数据分类矩阵：从步骤1的测试数据矩阵中选取k个监测时序，作为基准数据集；根据选取的选取k组基准数据集，构造基准数据矩阵；根据基准数据矩阵计算分类区间；将测试数据矩阵X转换为数据分类矩阵Q；步骤3、构造分类彩色图谱：对数据分类矩阵Q中的数值着色，获得分类彩色图谱；步骤4、基于分类彩色图谱量化计算产品质量/系统运行健康状态。本发明快速实现产品质量/系统动态特征提取，以及展示故障数据分布。

Description

非线性海量高维序列数据分类特性可视化及定量分析方法

技术领域

本发明涉及非线性海量高维序列数据分析领域，特别涉及一种复杂产品质量或复杂系统动态特性的量化综合分析方法。

背景技术

复杂产品，如半导体芯片，具有多个特征参数，且参数间高度相关，具有非线性特征。每个产品的质量通过一组不同单位，类型各异的测试数据反映。同批次复杂产品的质量测试数据构成了反映该批次产品整体质量参数数据集。批量生产时，需要对数以万记质量参数数据进行快速分析，评定质量等级，分析缺陷分布特点并找出原因。复杂系统，如流程工业系统，电力系统，大型船舶，飞机等，由多个部件高度耦合而成，其动态特性包含在附着在系统上的多个传感器传回的监测数据集中。无论是反映复杂产品质量的测试数据集，还是反映复杂系统动态特性的监测数据集，都具有海量、高维、高耦合性和非线性的特征。由于数据集本身的复杂性以及对分析结果的实时性要求，单变量数据统计分析方法以及传统的多维数据统计方法均难以取得满意的效果。

国家发明专利“基于二位彩色数字图谱的复杂机电系统状态评估方法”(专利号：ZL201110146488.5)，国家发明专利申请“基于故障数据灰度图谱的半导体芯片批量测试方法”(申请号：201611199475.3)，和相关论文《Plant-wide quantitative assessment of aprocess industry system’s operating state based on color-spectrum》(MechanicalSystems and Signal Processing.2015(60-61):644-655)、《基于故障图谱的企业级故障模式识别方法》(计算机集成制造系统，2015年21卷第2期：519-527)和《基于数据驱动的系统彩色图谱分析现代工业系统健康状态》(计算机集成制造系统，2015年21卷第2期：519-527)公开了一些利用数据可视化技术，对浮点型数据根据特定的规则着色，从而将人类不易识别的数值的变化情况转化为人眼易于识别的色彩变换，达到数据分析和筛选的目的技术。

然之前公开的三类数据图谱的构造方法都有不足之处。系统彩色图谱和故障图谱针对以流程工业为代表的复杂机电系统。其中系统彩色图谱中的色彩是根据数值直接转换而来的，图谱中的颜色没有明确的含义，只能通过颜色的变化反映系统的动态特性，颜色本身却无法明确显示系统的状态特性；故障图谱将系统状态二分为正常和异常，分别用白色和黑色标示，过于简单，难以显示细微的系统动态特性。数据故障灰度图谱主要用于半导体芯片的质量批量测试，通过颜色由白到黑的灰度变化标示芯片参数所处的质量区间。由于人眼对于灰色变化的敏感性不高，导致质量区间的区分效果并不十分理想。总的来说，之前提出的基于图谱的分析方法都只是针对某个特定行业的特定数据集进行分析，无论从方法上还是从行业应用的角度都具有局限性，无法很好的解决从数据分析角度分析非线性海量高维数据，提取数据中隐含重要信息，快速量化提取产品质量/系统动态特征，分析故障分布特点并找出原因的问题。

发明内容

本发明的目的在于提供一种非线性海量高维序列数据分类特性可视化及定量分析方法，快速实现产品质量/系统动态特征提取，以及展示故障数据分布的方法；以解决上述现有技术存在的问题。

为了实现上述目的，本发明采用如下技术方案：

非线性海量高维序列数据分类特性可视化及定量分析方法，包括：

步骤1、构造测试数据矩阵X；

步骤2、构造数据分类矩阵：从步骤1的测试数据矩阵中选取k个监测时序，作为基准数据集；根据选取的选取k组基准数据集，构造基准数据矩阵；根据基准数据矩阵计算分类区间；将测试数据矩阵X转换为数据分类矩阵Q；

步骤3、构造分类彩色图谱：对数据分类矩阵Q中的数值着色，获得分类彩色图谱；

步骤4、基于分类彩色图谱量化计算产品质量/系统运行健康状态。

进一步的，步骤1中，构造m×n维测试数据矩阵X如下：

测试数据矩阵X的每一行代表一个测试样品包含n个测试变量一次测试结果；数据矩阵X的每一列代表整个测试周期中的所有测试样品的某个测试参数所有的测试变量值，

的下角标i代表第i个测试序列，上角标j代表第j个测试参数。

进一步的，步骤1中，构造一个测试数据矩阵，或者根据测试对象的周期属性分割建立成测试数据矩阵序列。

进一步的，步骤2中从步骤1的测试数据矩阵中选取k个最优质的监测时序，作为基准数据集，具体如下：

若被测数据来源于具有n个部件的企业生产系统，根据生产系统的运行部分设定的:

(1)n个部件的实际工业参数[θ₁ θ₂ … θ_j … θ_n]_1×n；

(2)n个部件的工业参数上限UCL＝[θ₁+γ₁ θ₂+γ₂ … θ_j+γ_j … θ_n+γ_n]_1×n；

(3)n个部件的工业参数下限LCL＝[θ₁-δ₁ θ₂-δ₂ … θ_j-δ_j … θ_n-δ_n]_1×n；

确定生产系统运行正常时参数的最佳取值范围；根据以下两个标准，选取生产系统正常运行时的基准数据集：

(1)

(2)

将向量Distance中的元素排序，挑选出其中最小的K个监测时序，作为基准数据集；

若被测数据来自n个产品质量检测结果，则根据产品各个质量参数的给定的：

(1)n个产品的质量参数最佳值[θ₁ θ₂ … θ_j … θ_n]_1×n；

(2)n个产品的质量参数上限UCL＝[θ₁+γ₁ θ₂+γ₂ … θ_j+γ_j … θ_n+γ_n]_1×n；

(3)n个产品的质量参数下限LCL＝[θ₁-δ₁ θ₂-δ₂ … θ_j-δ_j … θ_n-δ_n]_1×n；

确定质量参数最佳值范围；根据以下两个标准选取基准数据集：

(1)

(2)

将向量Distance中的元素排序，挑选出其中最小的k个质量测试数据，作为基准数据集。

进一步的，以shewhart控制图为理论基础，根据选取的选取k组基准数据集，构造基准数据矩阵：

计算基准数据矩阵的平均值，得平均值向量：

第j个测试参数的标准值μ_j代表该参数的最佳期望值；

计算基准数据矩阵的标准差，得均方差向量：

标准差代表数据的偏离程度；依据测试值偏离最佳期望值的程度对数据进行分类，t代表分类区间号，若对数据分h类，则得到数据分类区间如下：

将测试数据矩阵X与分类区间作比对，将数据矩阵X转换为数据分类矩阵Q：

进一步的，对于第j个参数，以标准值μ_j为中心，偏离度仅为一个标准差的定义的区间内，即x_ij∈[μ_j-σ_j,μ_j+σ_j]是该参数的测试值最理想的数值范围，即

依次类推，制定数据分类规则：以标准差为单位，设定数据分类区间规则如下：

进一步的，步骤3中根据数据可视化原理，利用颜色表，对质量数据分类矩阵中的数值着色；分类矩阵中的数值代表分类，相同的数值代表测试值处于同一类；对处于同一类的数值赋予同一个颜色，将数据的分类情况以彩色图像的形式展现出来。

进一步的，步骤4包括以下情况中一种或几种：

(1)利用数字图像处理技术，分析分类彩色图谱上颜色的分布情况，从系统层面提取产品质量/系统运行健康状态的特征；

(2)根据图谱上颜色的分布区域，以行为单位，基于分类矩阵量化各个监测时序的异常数据量，构造反映产品质量/系统运行状态的序列函数；从而实现产品质量评级以及系统运行健康状态趋势分析；

(3)根据图谱上颜色的分布区域，以列为单位，基于分类矩阵量化测试参数对产品质量/系统运行健康状态异常值的贡献率，从而实现缺陷参数识别；

(4)基于分类矩阵，以测试参数为节点，构造反应产品质量/系统运行健康状态的复杂网络；利用复杂网络和图论的相关理论，分析异常传递模式以及实现故障溯源；

(5)基于分类矩阵，以测试时序为节点，利用人工智能算法，建立故障类型的模式识别算法，实现故障模式分类。

本发明将测试数据集按照以测试参数为横向，测试序列为纵向的规则排列，构造一个完整的二维数据表，以矩阵形式表示。若测试数据过多，数据表过大，也可以依据测试序列将数据表依据特定规则平均分割，构造一系列测试数据表，并以矩阵形式表示。首先，结合产品/系统的实际情况，挑选出反映系统/产品最好状态的k组测试数据，作为基准数据集，以矩阵的形式表示。计算该基准数据矩阵的平均值和均方差，构造数据分类标准。其次，依据数据分类标准将测试数据集中的数据予以分类，构造数据分类矩阵。制定数据着色规则，将同一类数据染上相同的颜色。利用数字图像的像素所特有的高度的关联性和耦合性，构造反映产品质量/系统动态特性的数字图像—分类彩色图谱。最后，通过对数据分类矩阵的分析，实现快速实现产品质量分级，系统运行健康等级评定，以及故障识别及溯源。

本发明利用shewhart控制图和数据可视化技术构造反应测试参数故障分布程度的分类彩色图谱，实现了海量时序数据的统一分析及处理，具体技术效果如下：

避免了传统算法中对海量高维非线性数据的降维运算，解决了高维性对数据分析质量的影响。

利用分类彩色图谱的颜色直观的揭示了故障数据与测试参数之间的内在联系，反映出多变量数据之间复杂的关联关系，将复杂问题直观化、形象化、简单化，有利于从宏观层面把故障数据情况。

利用分类图谱量化多变量之间的关联关系，简化了算法，缩短数据分析所用的时间，提高分析效率。

将分类图谱与数字图像处理、复杂网络、人工智能等比较成熟的理论结合起来，为海量高维非线性数据提供了一种全新的思想方法。

附图说明

图1为单个参数的分类区间示意图。

具体实施方式

本发明一种非线性海量高维序列数据分类特性可视化及定量分析方法，测试数据集含有n个测试参数芯片，m个测试序列，则该批次的测试数据有共有m×n个数据变量，形成m×n测试数据矩阵X。将测试数据矩阵X依据着色规则构造二维彩色数字图像—分类彩色图谱，反映产品质量/系统动态特性的整体分布情况。通过分析分类彩色图谱，实现芯片质量分级分拣，系统运行健康等级评定，以及故障识别及溯源。

本发明一种非线性海量高维序列数据分类特性可视化及定量分析方法，包括以下步骤：

步骤1：构造测试数据矩阵X

构造m×n维测试数据矩阵X(以下简称数据矩阵X)如下：

数据矩阵X的每一行代表一个测试样品包含n个测试变量一次测试结果。数据矩阵X的每一列代表整个测试周期中的所有测试样品的某个测试参数所有的测试变量值，

的下角标i代表第i个测试序列，上角标j代表第j个测试参数。

若测试序列过长，则平均或根据测试对象的周期属性T分割测试数据集，构造测试矩阵序列如下：

步骤2：构造数据分类矩阵

根据被测数据的工业背景，选取k组“最优质的”测试数据，作为基准数据。具体方法如下：

(1)n个部件的实际工业参数[θ₁ θ₂ … θ_j … θ_n]_1×n

(2)n个部件的工业参数上限UCL＝[θ₁+γ₁ θ₂+γ₂ … θ_j+γ_j … θ_n+γ_n]_1×n

(3)n个部件的工业参数下限LCL＝[θ₁-δ₁ θ₂-δ₂ … θ_j-δ_j … θ_n-δ_n]_1×n，

确定生产系统运行正常时参数的最佳取值范围。结合生产系统的实际生产状态，根据以下两个标准，选取生产系统正常运行时的基准数据集：

(1)

将向量Distance中的元素排序，挑选出其中最小的k(k≥10)个监测时序，作为基准数据集；

(1)n个产品的质量参数最佳值[θ₁ θ₂ … θ_j … θ_n]_1×n

(2)n个产品的质量参数上限UCL＝[θ₁+γ₁ θ₂+γ₂ … θ_j+γ_j … θ_n+γ_n]_1×n

(3)n个产品的质量参数下限LCL＝[θ₁-δ₁ θ₂-δ₂ … θ_j-δ_j … θ_n-δ_n]_1×n

确定质量参数最佳值范围，产品实际的质量情况，在已知的合格品种，根据以下两个标准：

(1)

(2)

将向量Distance中的元素排序，挑选出其中最小的k(k≥10)个质量测试数据，作为基准数据集。

以shewhart控制图为理论基础，根据选取的选取k组基准数据集，构造基准数据矩阵如下：

计算基准数据矩阵的平均值，得平均值向量如下：

第j个测试参数的标准值μ_j代表该参数的最佳期望值。显然，标准值μ_j只是一个理想状态。

计算基准数据矩阵的标准差，得均方差向量如下：

标准差代表数据的偏离程度。依据测试值偏离最佳预期值的程度对数据进行分类。如图1所示，以第j个参数为例，以标准值μ_j为中心，偏离度仅为一个标准差的定义的区间内，即x_ij∈[μ_j-σ_j，μ_j+σ_j]是该参数的测试值最理想的数值范围，即

式(7)中，t代表分类区间号，t∈N，N为自然数。根据分类区间的规则，若对数据分h类，则可以得到数据分类区间如下：

μ_j-σ_j和μ_j+σ_j分别为区间1允许的最小值和最大值。若测试值

落在区间1:[μ_j-σ_j,μ_j+σ_j]中，则测试值为理想值，定义为一级。当第j个测试值中

偏离标准值，落入区间t中，即当该参数的测试值x_ij∈[μ_j-(t-1)σ_j,μ_j-tσ_j]∪[μ_j+tσ_j,μ_j+(t-1)σ_j]时，认为该测试值所代表的参数偏离标准值的程度为第t级。如果该测试数据集用于评定产品质量，则不同等级的分类区间，对应该产品不同等级的质量。该分类区间是参数的质量分类区间。如果该测试数据集是复杂系统的监测数据集，则不同等级分类区间对应系统的动态波动特性情况。该分类区间是系统运行健康特性分级区间。如说明书附图1所示。对每个测试参数都进行这样的操作，则可以得出测试数据集所有参数的h个质量等级的2h×n个测试参数边界值，构成测试数据集分类区间矩阵。

将数据矩阵X与分类区间作比对，测试数据值在一级品质量分类区间的测试数据为0，在二级品质量分类区间的测试数据为1，…,以此类推，将数据矩阵X转换为数据分类矩阵Q。

步骤3.构造分类彩色图谱

根据数据可视化原理，利用颜色表，对质量数据分类矩阵中的数值着色。分类矩阵中的数值代表分类。相同的数值代表测试值处于同一类。对处于同一类的数值赋予同一个颜色，可以将数据的分类情况以图像的形式展现出来。以RGB颜色格式为例，颜色与分类值的对应关系如表1所示：

表1.着色规则

分类彩色图谱以绿色为第一等级，以红色为最高等级。绿色代表测试值完全符合要求，产品质量/系统运行完美。红色代表测试值完全不符合要求，产品质量/系统运行完全不可接受。若分类区间数不足7，中间区域的颜色可以从表1中挑选。若分类区间数超过7，可以根据行业管理或使用者习惯对颜色进行细分。通过对分类矩阵中的数值着色，构造测试数据集分类彩色图谱，可以充分展示数据分类情况。

步骤4.基于分类彩色图谱量化计算产品质量/系统运行健康状态

(1)利用数字图像处理技术，分析分类彩色图谱上颜色的分布情况，从系统层面提取产品质量/系统运行健康状态的特征。

(2)根据图谱上颜色的分布区域，以行为单位，基于分类矩阵量化各个监测时序的异常数据量，构造反映产品质量/系统运行状态的序列函数。从而实现产品质量评级以及系统运行健康状态趋势分析。

(3)根据图谱上颜色的分布区域，以列为单位，基于分类矩阵量化测试参数对产品质量/系统运行健康状态异常值的贡献率，从而实现缺陷参数识别。

(4)基于分类矩阵，以测试参数为节点，构造反应产品质量/系统运行健康状态的复杂网络。利用复杂网络和图论的相关理论，分析异常传递模式以及实现故障溯源。

(5)基于分类矩阵，以测试时序为节点，利用神经网络，遗传算法，蚁群算法等人工智能算法，建立故障类型的模式识别算法，实现故障模式分类。

因此，通过分类彩色图谱中色彩突变区域的特征，可以快速的判断产品质量/系统运行状态等级、判定故障类型、定位故障范围以及对系统的健康状态量化评估及预测，从而达到故障诊断、故障模式识别、故障溯源与预警的目的。

某测试数据集，由m个测试参数的n个测试序列，共计m×n个数据组成，部分测试数据见表2。

表2.测试数据

测试序列	参数1	参数2	参数4	…
					A001	-37.3807	37.8406	5.56227	…
A002	-38.3323	39.5301	5.28495	…
					A003	-27.419	27.6164	4.26187	…
A004	-39.272	41.1711	5.73834	…
					A005	-41.818	43.392	5.02501	…
A006	-35.3672	37.7287	4.95222	…
					A007	-34.4579	35.6521	4.99769	…
A008	-36.8554	39.0715	5.37675	…
					A009	-40.9368	42.0707	5.83162	…
A010	-27.9413	28.3052	4.34862	…
					A011	-38.93	39.7303	5.69076	…
A012	-29.3361	29.6703	4.58029	…
					A013	-34.9547	36.8532	4.99185	…
A014	-24.3012	24.4997	3.74402	…
					A015	-32.4916	33.5219	5.04302	…
A016	-35.6782	38.7783	5.02697	…
					A017	-36.438	39.4079	4.89321	…
A018	-30.7231	31.0887	4.67771	…
					A019	-35.9598	38.3006	4.82963	…
A020	-29.4345	29.7997	4.59663
					A021	-39.3223	40.0984	5.7423
…	…	…	…	…

某测试参数的分类区间如说明书附图1所示。以此类推，所有测试参数均类似于说明书附图1。将表1的中的测试数据与各自的分类区间作对比，可以得到分类矩阵Q如下：

将分类矩阵Q中数据值按照表1中的规则着色，即可把分类矩阵Q转化为分类彩色图谱。通过分析分类图谱可以实现故障诊断、故障模式识别、故障溯源与预警。