CN111241481A - 一种空气动力数据集异常数据检测方法 - Google Patents
一种空气动力数据集异常数据检测方法 Download PDFInfo
- Publication number
- CN111241481A CN111241481A CN202010025238.5A CN202010025238A CN111241481A CN 111241481 A CN111241481 A CN 111241481A CN 202010025238 A CN202010025238 A CN 202010025238A CN 111241481 A CN111241481 A CN 111241481A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- matrix
- abnormal
- aerodynamic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Algebra (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种空气动力数据集异常数据检测方法,包括S1、根据界定的自变量、因变量关系对,得到三组自变量和因变量;S2、基于鲁棒最小二乘回归方法,同时对所述三组自变量和因变量进行回归,得到三个βi,i=1,2,3,其中βi为系数;S3、分别计算三组因变量的标准化预测值与标准化残差,得到三组新的二维数据集;S4、分别对S3中所得三组新的二维数据集进行单链接层次聚类,以最大类为纯净数据集进行异常数据集检测,合并三次聚类的异常数据作为整个数据的异常数据。
Description
技术领域
本发明属于气动数据集的技术领域,具体涉及一种空气动力数据集异常数据检测方法。
背景技术
空气动力(简称气动)数据集/数据库(Aerodynamic database),是指在飞行器气动设计过程中有组织有计划地生产的飞行包线范围的气动数据集,一般通过CFD计算、风洞试验、飞行试验等手段获得。比如文献“Pamadi B N,Brauckmann G J,Ruth M J,etal.Aerodynamic Characteristics,Database Development,and Flight Simulation ofthe X-34Vehicle[J].Journal of Spacecraft and Rockets,2001,38(3):334-344.”中介绍了通过风洞试验、工程计算等多种方法融合建立X-34飞行器的气动数据集;文献“Engelund W C,Holland S D,Cockrell C E,et al.Aerodynamic Database Developmentfor the Hyper-X Airframe-Integrated Scramjet Propulsion Experiments[J].Journal of Spacecraft and Rockets,2001,38(6):803-810.”中介绍了飞行试验获得的气动数据集的过程。无论那种方法获得数据集,因为试验或计算条件设置不正确、传感器异常、人工统计误操作等原因,往往会产生异常数据。异常数据的存在可能对飞行器的设计、建模、控制等各环节产生不利影响,每一个数据集的生产与收集过程将耗费较大的人力排除这些异常数据。
气动数据本质上是一种物理数据,体现物理规律。正常数据分布,在各维度上总能体现较好的分布曲线,异常数据则不符合正常数据的分布规律。为鉴别异常气动数据的难点主要体现在以下几个方面:
1、数据集大、且单条数据维度高,数据计算量呈指数增长。
2、数据项之间存在耦合关系、行数据之间存在共线性,回归模型。
3、数据来源复杂,数据中可能出现重复、非函数映射关系。
目前尚无针对气动数据集专有的异常数据检测分析工具,主要是人工方法,将数据分组拷贝到Excel电子表格,再人工作图、人眼观察,特别依赖专业人员的经验与细心。
发明内容
本发明的目的在于针对现有技术中的上述不足,提供一种空气动力数据集异常数据检测方法,以解决或改善上述的问题。
为达到上述目的,本发明采取的技术方案是:
一种空气动力数据集异常数据检测方法,其包括:
S1、根据界定的自变量、因变量关系对,得到三组自变量和因变量;
S2、基于鲁棒最小二乘回归方法,同时对所述三组自变量和因变量进行回归,得到三个βi,i=1,2,3,其中βi为系数向量;
S3、分别计算三组因变量的标准化预测值与标准化残差,得到三组新的二维数据集;
S4、分别对S3中所得三组新的二维数据集进行单链接层次聚类,以最大类为纯净数据集进行异常数据集检测,合并三次聚类的异常数据作为整个数据的异常数据。
优选地,S1中根据界定的自变量、因变量关系对,得到三组自变量和因变
量为:Pi={Xi,Yi},i=1,2,3.
Y1={CL}
Y2={CD}
Y3={Cm}
其中,M为马赫数,M2为马赫数的平方,α为攻角,α2为攻角的平方,δp为舵偏角,为舵偏角的平方,为舵偏角的三次方,αδp为攻角与舵偏角复合项,H为以千米为单位的海拔高度,CL为升力系数,CD为阻力系数,Cm为俯仰力矩系数;Pi为原始数据集上界定的一组关系对,Xi为自变量矩阵,Yi为因变量向量。
优选地,βi,满足min||Xiβi-Yi||,i=1,2,3,||·||为绝对值运行。
优选地,S2中基于鲁棒最小二乘回归方法,同时对所述三组自变量和因变量进行回归,得到三个βi向量。三组回归方式相同,为表达方法直接以X和Y表示任意一组自变量与因变量,具体步骤包括:
基于SVD分解自变量:其中X为n×m矩阵,Y为n×1矩阵,U为n×n左奇异矩阵,V为m×m右奇异矩阵为酉矩阵,上标T为转置运算,∑为n×m奇异值矩阵,∑1为∑的非零项子矩阵,U1和U2是U的子矩阵,V1和V2为V的子矩阵,且有∑1=diag(σi),σi为∑1的对角线元素,λi为XTX的特征值;如果X满秩,则∑1大小为n,否则X为奇异矩阵,∑1的列数小于n;
优选地,在S2中采用截断最小二乘,从自变量X与因变量Y两个方面同时抵抗异常点的扰动,具体步骤如下:
确定对大数据集进行重复抽样的次数Ns,抽样次数Ns由样本大小n和回归维度k计算,其中,k等于S1中自变量列数;
当n值较小时,如N<30,则直接进行全排列产生样本,即样本数为当n值较大时,为减小计算时间,则至少保证完全纯净数据集样本的概率接近100%,假设异常数据比例为e=30%,通过Ns次抽样产生纯净数据集的概率为令其接近于1,则可反解得Ns;
基于SVD求最小二乘估计参数,对Ns个样本分别计算的带βi,i=1,2,…,Ns;
得到LTS回归系数β*,取s中最小值对应到的β*=βi。
优选地,S4中分别对S3中所得三组新的二维数据集进行单链接层次聚类,以最大类为纯净数据集进行异常数据集检测,合并三次聚类的异常数据作为整个数据的异常数据的具体步骤包括:
本发明提供的空气动力数据集异常数据检测方法,具有以下有益效果:
本发明的方法首先根据气动数据特点建立回归关系,为数据建立基本规律,确定了后序大数据下的回归模型的高效性和准确性;其次,根据气动数据特点,将SVD分解与LTS回归结合,形成适用于气动数据集的鲁棒二乘回归方法,算法参数的选取与气动数据特点结合,解决气动数据中重复、非函数映射、共线性等带来的建模困难;利用标准化预测值与标准化残差建立聚类,降低气动数据集高维度带来的计算复杂性。
附图说明
图1为空气动力数据集异常数据检测方法的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
根据本申请的一个实施例,参考图1,本方案的空气动力数据集异常数据检测方法,包括:
S1、根据界定的自变量、因变量关系对,得到三组自变量和因变量;
S2、基于鲁棒最小二乘回归方法,同时对所述三组自变量和因变量进行回归,得到三个βi,i=1,2,3,其中βi为回归系数;
S3、分别计算三组因变量的标准化预测值与标准化残差,得到三组新的二维数据集;
S4、分别对S3中所得三组新的二维数据集进行单链接层次聚类,以最大类为纯净数据集进行异常数据集检测,合并三次聚类的异常数据作为整个数据的异常数据。
根据本申请的一个实施例,以下将对上述步骤进行详细描述。
为便于描述,以纵向气动力数据集为对象,开展本以下描述,首先一个纵向气动力数据集定义为{M,H,α,δp,CL,CD,CM},分别表示马赫数、高度、攻角、俯仰舵偏角、升力、阻力、俯仰力矩。
其中,M为马赫数,M2为马赫数的平方,α为攻角,α2为攻角的平方,δp为舵偏角,为舵偏角的平方,为舵偏角的三次方,αδp为攻角与舵偏角复合项,H为以千米为单位的海拔高度,CL为升力系数,CD为阻力系数,Cm为俯仰力矩系数;Pi为原始数据集上界定的一组关系对,Xi为自变量矩阵,Yi为因变量向量。
利用建立的基本函数关系,主要是利用了气动数据的物理规律是稳定的且数据项的耦合一般是确定的,以减界定数据训练的维度,一定程度上克服大数据带来的维度灾难。
S2、基于鲁棒最小二乘回归方法,同时对三组数据Pi,i=1,2,3进行回归,获得三个βi使之分别满足min||Xiβ-Ci||,i=1,2,3,其具体步骤如下:
鲁棒截断最小二乘回归,鲁棒性体现在解决气动数据集的数据量大、重复数据、非函数的映射关系等带来的回归困难。首先,对于最小二乘的求解利用SVD分解,一是克服矩阵奇异,同时SVD分解可采用分块分解,克服数据量大问题。其次,截断最小二乘,进行有放回抽样数据集数上进行最小二乘求解,样本数为Xi的列数k(维度)。
S21、利用SVD求最小二乘估计参数;
输入大小为n×m的自变量X,和n×1的因变量Y,求解系数β,具体的步骤如下:
S22、截断最小二乘,是从自变量X与因变量Y两个方面同时抵抗异常点的扰动,是一种稳健的回归估计方法,具体步骤如下:
确定对大数据集进行重复抽样的次数Ns,抽样次数Ns由样本大小n和回归维度k(k等于S1中自变量列数)计算。
当n值较小时,如N<30,则直接进行全排列产生样本,即样本数为当n值较大时,为减小计算时间,则至少保证完全纯净数据集样本的概率接近100%,假设异常数据为比例为e=30%,通过Ns次抽样产生纯净数据集的概率为令其接近于1(如95%),则可反解得Ns。
对Ns个样本分别采用S21描述的方法求出βi,i=1,2,…,Ns。
最后,得到LTS回归系数β*,取s中最小值对应到的β*=βi。
S4、分别对Pi,s,i=1,2,3进行单链接层次聚类,以最大类为纯净数据集进行异常数据集检测,合并三次聚类的异常数据作为整个数据的异常数据。
其中,建立聚类树后的步骤如下:
本发明的方法首先根据气动数据特点建立回归关系,为数据建立基本规律,确定了后序大数据下的回归模型的高效性和准确性;其次,根据气动数据特点,将SVD分解与LTS回归结合,形成适用于气动数据集的鲁棒二乘回归方法,算法参数的选取与气动数据特点结合,解决气动数据中重复、非函数映射、共线性等带来的建模困难;利用标准化预测值与标准化残差建立聚类,降低气动数据集高维度带来的计算复杂性。
虽然结合附图对发明的具体实施方式进行了详细地描述,但不应理解为对本专利的保护范围的限定。在权利要求书所描述的范围内,本领域技术人员不经创造性劳动即可做出的各种修改和变形仍属本专利的保护范围。
Claims (7)
1.一种空气动力数据集异常数据检测方法,其特征在于,包括:
S1、根据界定的自变量、因变量关系对,得到三组自变量和因变量;
S2、基于鲁棒最小二乘回归方法,同时对所述三组自变量和因变量进行回归,得到三个βi,i=1,2,3,其中βi为系数向量;
S3、分别计算三组因变量的标准化预测值与标准化残差,得到三组新的二维数据集;
S4、分别对S3中所得三组新的二维数据集进行单链接层次聚类,以最大类为纯净数据集进行异常数据集检测,合并三次聚类的异常数据作为整个数据的异常数据。
3.根据权利要求1所述的空气动力数据集异常数据检测方法,其特征在于:所述βi,满足min||Xiβi-Yi||,i=1,2,3,||·||为绝对值运行。
4.根据权利要求1所述的空气动力数据集异常数据检测方法,其特征在于:所述S2中基于鲁棒最小二乘回归方法,同时对所述三组自变量和因变量进行回归,得到三个βi向量。三组回归方式相同,为表达方法直接以X和Y表示任意一组自变量与因变量,具体步骤包括:
基于SVD分解自变量:其中X为n×m矩阵,Y为n×1矩阵,U为n×n左奇异矩阵,V为m×m右奇异矩阵为酉矩阵,上标T为转置运算,∑为n×m奇异值矩阵,∑1为∑的非零项子矩阵,U1和U2是U的子矩阵,V1和V2为V的子矩阵,且有∑1=diag(σi),σi为∑1的对角线元素,λi为XTX的特征值;如果X满秩,则∑1大小为n,否则X为奇异矩阵,∑1的列数小于n;
5.根据权利要求4所述的空气动力数据集异常数据检测方法,其特征在于:在S2中采用截断最小二乘,从自变量X与因变量Y两个方面同时抵抗异常点的扰动,具体步骤如下:
确定对大数据集进行重复抽样的次数Ns,抽样次数Ns由样本大小n和回归维度k计算,其中,k等于S1中自变量列数;
当n值较小时,如N<30,则直接进行全排列产生样本,即样本数为当n值较大时,为减小计算时间,则至少保证完全纯净数据集样本的概率接近100%,假设异常数据比例为e=30%,通过Ns次抽样产生纯净数据集的概率为令其接近于1,则可反解得Ns;
基于SVD求最小二乘估计参数,对Ns个样本分别计算的带βi,i=1,2,…,Ns;
得到LTS回归系数β*,取s中最小值对应到的β*=βi。
7.根据权利要求1所述的空气动力数据集异常数据检测方法,其特征在于:所述S4中分别对S3中所得三组新的二维数据集进行单链接层次聚类,以最大类为纯净数据集进行异常数据集检测,合并三次聚类的异常数据作为整个数据的异常数据的具体步骤包括:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010025238.5A CN111241481B (zh) | 2020-01-10 | 2020-01-10 | 一种空气动力数据集异常数据检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010025238.5A CN111241481B (zh) | 2020-01-10 | 2020-01-10 | 一种空气动力数据集异常数据检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241481A true CN111241481A (zh) | 2020-06-05 |
CN111241481B CN111241481B (zh) | 2022-04-29 |
Family
ID=70865817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010025238.5A Active CN111241481B (zh) | 2020-01-10 | 2020-01-10 | 一种空气动力数据集异常数据检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241481B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1896478A (zh) * | 2005-04-29 | 2007-01-17 | 通用汽车环球科技运作公司 | 发动机启动和开动至运行过渡的基于模型的燃料控制校准 |
WO2009026463A2 (en) * | 2007-08-21 | 2009-02-26 | The Salk Institute For Biological Studies | Robust regression based exon array protocol system and applications |
CN103336906A (zh) * | 2013-07-15 | 2013-10-02 | 哈尔滨工业大学 | 环境传感器的采集数据流中连续异常检测的抽样gpr方法 |
CN103345593A (zh) * | 2013-07-31 | 2013-10-09 | 哈尔滨工业大学 | 面向传感器单数据流的聚集异常检测方法 |
US20130268501A1 (en) * | 2012-04-09 | 2013-10-10 | Mitek Analytics Llc | System and method for monitoring distributed asset data |
KR20160026054A (ko) * | 2014-08-29 | 2016-03-09 | 현대건설주식회사 | 플러터 계수 추출 방법 및 장치 |
CN106570325A (zh) * | 2016-11-04 | 2017-04-19 | 西南大学 | 一种基于偏最小二乘法的乳腺细胞异常检测方法 |
CN107655669A (zh) * | 2017-09-19 | 2018-02-02 | 中广核核电运营有限公司 | 气动调节阀机械性能检测装置及其检测方法 |
-
2020
- 2020-01-10 CN CN202010025238.5A patent/CN111241481B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1896478A (zh) * | 2005-04-29 | 2007-01-17 | 通用汽车环球科技运作公司 | 发动机启动和开动至运行过渡的基于模型的燃料控制校准 |
WO2009026463A2 (en) * | 2007-08-21 | 2009-02-26 | The Salk Institute For Biological Studies | Robust regression based exon array protocol system and applications |
US20130268501A1 (en) * | 2012-04-09 | 2013-10-10 | Mitek Analytics Llc | System and method for monitoring distributed asset data |
CN103336906A (zh) * | 2013-07-15 | 2013-10-02 | 哈尔滨工业大学 | 环境传感器的采集数据流中连续异常检测的抽样gpr方法 |
CN103345593A (zh) * | 2013-07-31 | 2013-10-09 | 哈尔滨工业大学 | 面向传感器单数据流的聚集异常检测方法 |
KR20160026054A (ko) * | 2014-08-29 | 2016-03-09 | 현대건설주식회사 | 플러터 계수 추출 방법 및 장치 |
CN106570325A (zh) * | 2016-11-04 | 2017-04-19 | 西南大学 | 一种基于偏最小二乘法的乳腺细胞异常检测方法 |
CN107655669A (zh) * | 2017-09-19 | 2018-02-02 | 中广核核电运营有限公司 | 气动调节阀机械性能检测装置及其检测方法 |
Non-Patent Citations (3)
Title |
---|
ROBIAH ADNAN等: "Multiple Outliers Detection Procedures in Linear Regression", 《MATEMATIK》 * |
徐文华等: "奇异值分解求线性最小二乘解的理论分析", 《贵阳学院学报》 * |
杨海强等: "一种基于SVD 的改进LTS 气动数据异常检测方法", 《电光与控制》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111241481B (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rizk-Allah et al. | Artificial ecosystem optimizer for parameters identification of proton exchange membrane fuel cells model | |
Van der Laan et al. | Augmentation procedures for control of the generalized family-wise error rate and tail probabilities for the proportion of false positives | |
CN111814956B (zh) | 一种基于多维度二次特征提取的多任务学习的空气质量预测方法 | |
CN110377942B (zh) | 一种基于有限高斯混合模型的多模型时空建模方法 | |
CN111292525A (zh) | 基于神经网络的交通流预测方法 | |
CN111369045A (zh) | 一种短期光伏发电功率预测的方法 | |
CN110442911B (zh) | 一种基于统计机器学习的高维复杂系统不确定性分析方法 | |
CN111564183A (zh) | 融合基因本体和神经网络的单细胞测序数据降维方法 | |
CN111008726A (zh) | 一种电力负荷预测中类图片转换方法 | |
CN110458341B (zh) | 一种考虑气象特性的超短期风电预测方法及系统 | |
CN115828797A (zh) | 一种基于降阶模型的潜艇水动力载荷快速预报方法 | |
CN106021880B (zh) | 基于bp神经网络的导管架平台结构响应计算方法 | |
CN114897138A (zh) | 基于注意力机制和深度残差网络的系统故障诊断方法 | |
CN111241481B (zh) | 一种空气动力数据集异常数据检测方法 | |
CN114580262A (zh) | 一种锂离子电池健康状态估计方法 | |
CN106528679A (zh) | 基于多线性自回归模型的时间序列分析方法 | |
CN113920210A (zh) | 基于自适应图学习主成分分析方法的图像低秩重构方法 | |
CN110288002B (zh) | 一种基于稀疏正交神经网络的图像分类方法 | |
CN114545066A (zh) | 一种非侵入式负荷监测模型聚合方法和系统 | |
CN113962431A (zh) | 一种两阶段特征处理的母线负荷预测方法 | |
CN112766356A (zh) | 一种基于动态权重D-XGBoost模型的预测方法及系统 | |
CN110288724A (zh) | 一种基于小波函数主元分析的批次过程监测方法 | |
CN116976011B (zh) | 低高保真度气动数据特征关联深度复合网络模型及方法 | |
CN112560898B (zh) | 一种基于深度学习的负荷时空预测方法 | |
CN117727372B (zh) | 一种基于正则化模型的数据整合方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |