CN115343676B - 密封电子设备内部多余物定位技术的特征优化方法 - Google Patents

密封电子设备内部多余物定位技术的特征优化方法 Download PDF

Info

Publication number
CN115343676B
CN115343676B CN202210999654.4A CN202210999654A CN115343676B CN 115343676 B CN115343676 B CN 115343676B CN 202210999654 A CN202210999654 A CN 202210999654A CN 115343676 B CN115343676 B CN 115343676B
Authority
CN
China
Prior art keywords
positioning
features
feature
sealed electronic
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210999654.4A
Other languages
English (en)
Other versions
CN115343676A (zh
Inventor
王国涛
孙志刚
王慧
于松屹
吕美萱
耿仁轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Yu Gao Electronic Technology Co ltd
Original Assignee
Heilongjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang University filed Critical Heilongjiang University
Priority to CN202210999654.4A priority Critical patent/CN115343676B/zh
Publication of CN115343676A publication Critical patent/CN115343676A/zh
Application granted granted Critical
Publication of CN115343676B publication Critical patent/CN115343676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/14Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object using acoustic emission techniques
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/44Processing the detected response signal, e.g. electronic circuits specially adapted therefor
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N29/00Investigating or analysing materials by the use of ultrasonic, sonic or infrasonic waves; Visualisation of the interior of objects by transmitting ultrasonic or sonic waves through the object
    • G01N29/44Processing the detected response signal, e.g. electronic circuits specially adapted therefor
    • G01N29/4454Signal recognition, e.g. specific values or portions, signal events, signatures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2291/00Indexing codes associated with group G01N29/00
    • G01N2291/02Indexing codes associated with the analysed material
    • G01N2291/028Material parameters
    • G01N2291/0289Internal structure, e.g. defects, grain size, texture
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

密封电子设备内部多余物定位技术的特征优化方法,属于电子设备内部多余物定位技术领域。为了解决目前的机器学习对于密封电子设备内部多余物进行定位时存在不能兼顾计算量和准确率的问题。本发明通过多通道数据建立多余物定位数据集,并分别计算每个特征与标签值之间的皮尔逊相关系数的绝对值rij并分通道累加,基于累加情况更新rij,进而得到每个特征对应的组合加权并对其进行排序;同时对所有特征的p值结果,进而得到每个特征对应的并对其进行排序,根据两个排序结果进行综合排序,基于排序结果对定位数据集中的类型特征选择性保留,并应用机器学习算法在各个保留的定位数据集上进行定位测试,根据定位精度来确定最优的特征组合。

Description

密封电子设备内部多余物定位技术的特征优化方法
技术领域
本发明属于电子设备内部多余物定位技术领域,具体涉及一种密封电子设备内部多余物定位技术的特征优化方法。
背景技术
密封电子设备是指那些具有密封防水和电磁屏蔽等特定功能的封闭式构造的组件,如航天电源、导弹、火箭发动机和空间探测器等,用于完成定位、导航、通信和飞行控制等任务。密封电子设备的生产和装配过程工序繁多,各个环节都有可能将焊渣碎末、金属碎片、垫圈和导线段等微粒封装于设备内部,这些留存在设备中的由外部引入或内部生成的破坏设备原有状态的一切物质,称为多余物。多余物在振动、冲击、超失重等外力的作用下,可能会碰撞损坏元器件或者附着在电路表面引起短路或线路异常,进而导致整个设备工作异常,甚至引发事故造成人员伤亡。因此,对密封电子设备进行多余物检测、定位及故障清除,可以减少多余物问题对航天工程造成的损失,是保障整个航天系统可靠运行的重要手段。
对密封电子设备进行多余物检测、定位及故障清除,首先是要判断设备内部是否存在多余物,目前对这方面的研究较多,主要是借助微粒碰撞噪声检测来激励待测设备,使其内部的多余物处于滑动或振动状态,并由此产生多余物信号。因此,可以在设备表面放置声发射传感器,通过判断是否检测到产生的多余物信号进而判断设备内是否存在多余物,相关研究已经取得较为显著的成果并得到实际应用。近年来,笔者所在的多余物检测课题组致力于多余物的材质信息、定位位置、重量等深层信息的发掘研究,试图为航天工程中的多余物排查工作提供更多可供参考的信息。
针对密封电子设备多余物检测与定位,可以把运动的多余物看作碰撞源进行检测和定位。很多学者借鉴时差定位法和区域定位法来展开研究,并在结构简单的密闭式设备上取得了较好的故障源或声发射源定位效果。但当把它们应用到结构复杂的设备上时,因为存在的设备内部结构复杂和组成材质不均匀的影响,所取得的定位效果并不理想。具体来说,是因为声音信号在上述因素的影响下具有异向性,信号的传播方向和速度会发生变化,导致故障源或声发射源的定位结果不稳定。
随着机器学习的广泛应用,可以考虑将多余物定位问题转化成多分类问题进行研究。但是在基于机器学习的预测事件中,机器学习的预测效果依赖于数据集中样本的空间分布,由于上述原因的存在导致了目前的机器学习对于密封电子设备内部多余物进行定位时不能兼顾计算量和准确率的问题。
发明内容
本发明为了解决目前的机器学习对于密封电子设备内部多余物进行定位时存在不能兼顾计算量和准确率的问题。
密封电子设备内部多余物定位技术的特征优化方法,包括以下步骤:
步骤一:针对密封电子设备内部多余物定位数据,分别计算每个特征与标签值之间的皮尔逊相关系数的绝对值rij,代表通道i的第j个特征,i=1,2,...,I,j=1,2,...,J,I为通道数量,J为每个通道信号提取的特征类型数量。
所述的密封电子设备内部多余物定位数据为多通道信号提取的特征,即通过安置在密封电子设备表面的I个声发射传感器采集,生成的I套多余物信号即为I个通道数据,针对每个通道信号提取J个类型的特征。
所述标签值为模型内部分隔为多个相等的密闭空间中多余物所在的一个空间放置对应的标签。
将I通道内各自的J个类型特征的皮尔逊相关系数的绝对值进行累加,得到各自对应的累加结果Ri
同时计算定位数据集中I*J个类型特征的皮尔逊相关系数的绝对值的总和Rall
然后分别求取各通道的Ri占Rall的比重,作为通道特性的加权系数
步骤二:针对每个通道数据,基于rij中所在通道,将rij中乘以加权系数得到的对应通道的加权系数,得到更新的/>
针对每个特征,对同一通道内的进行累加,得到每个特征对应的组合加权
步骤三:针对J个类型的特征对应的值,将/>按照数值进行从大到小排序,得到/>对应的排序编号/>
步骤四:计算定位数据集中所有特征的p值,得到每个特征对应的p值结果sij
以同一类型的特征为划分单位,将I通道内共I*J个类型特征进行分组,得到归属于J个类型的特征的组合;针对同一通道内特征的sij进行累加,得到每个特征对应的
步骤五:针对J个类型的特征对应的值,将/>按照数值进行从小到大排序;得到对应的排序编号/>
步骤六:针对每个类型的特征,将和/>加和得到/>将/>按照数值进行从小到大排序得到/>对应的综合排序编号Nj
步骤七:分别将综合排序编号Nj中排名前α、前(α+1)、前(α+2)、……、前J的J个类型的特征的组合予以保留,即分别将定位数据集中对应的I*α、I*(α+1)、I*(α+2)、……、I*J个类型特征予以保留,并应用机器学习算法在各个保留的定位数据集上进行定位测试,根据定位精度来确定最优的特征组合;α为通过网格搜索法确定的调节参数。
有益效果:
本发明提出的多通道加权阈值的特征选择方法充分考虑了声发射传感器的布局,即考虑了通道特性,而且本发明可以充分考虑每组数据在数据空间的贡献,对数据进行了优化,在保证计算量的基础上能够保证特征的表征能力,从而提高了多余物进行定位的准确率。
附图说明
图1为多余物定位试验系统结构框图。图2(a)为平面结构密封电子设备的模型,图2(b)为空间结构密封电子设备的模型。图3为特征优化方法的流程图。图4平面定位数据集的热图。图5空间定位数据集的热图。图6多通道加权阈值特征选择的算法流程。
具体实施方式
具体实施方式一:
本实施方式为密封电子设备内部多余物定位技术的特征优化方法,包括以下步骤:
1、建立定位数据集
利用现有的密封电子设备多余物检测系统,搭建如图1所示的多余物定位试验系统。
系统由三部分组成;
第一部分是微粒碰撞噪声检测平台,包括密封电子设备(即被测试件)、激励装置(摆台)、激励装置驱动设备、夹具等。微粒碰撞噪声检测平台用于激励密封电子设备,使设备内部的多余物与被试设备内壁发生碰撞,产生多余物信号。
第二部分是密封电子设备多余物检测系统,系统提供的四个声发射传感器安置在设备表面,用来捕获生成的多余物信号送入系统内进行调理与采集,最终将信号数据保存在上位机。
第三部分为算法处理,主要在上位机完成。在信号数据的基础上,完成包括脉冲提取、脉冲匹配、特征提取、机器学习分类算法等处理。
借助于搭建的多余物定位试验系统,多余物定位技术的实现流程如下:
步骤一、根据待测密封电子设备的形状和体积设计等大或等比例缩放的密封电子设备模型,并将模型内部分隔为多个相等的密闭空间,我们选择其中一个空间放置多余物。
步骤二、将含有多余物的模型固定在微粒碰撞噪声检测平台上,对模型施加力学激励,使模型内部多余物产生碰撞或滑动状态。
步骤三、由密封电子设备多余物检测系统提供的四个声发射传感器采集多余物信号,送入检测系统进行调理与采集,并将采集的信号数据发送至上位机保存。
步骤四、对信号数据进行处理,并从处理后的信号数据中提取多个反映多余物所在位置的特征形成向量,即代表步骤一中预先放置多余物的空间的定位数据。
步骤五、调整步骤一中放置多余物的空间,并重复进行步骤一至步骤四,可以得到代表新位置的多余物的定位数据集。以此类推,在步骤五中调整多余物均匀放置到模型的每个空间内,并重复步骤一至步骤四,最终可以建立代表在模型内部不同空间放置多余物的定位数据集。
步骤六、将不同分类算法带入定位数据集,训练不同的分类学习器,评估各分类学习器的定位性能,比较得出更优者进行参数寻优,使其性能达到最优。
步骤七、将待测密封电子设备固定在微粒碰撞噪声检测平台上,对其施加力学激励,使其内部多余物产生碰撞或滑动状态。重复步骤三至步骤四,得到一条待预测的数据,带入最优的分类学习器得到多余物的预测位置。在前期的研究中,笔者分别训练了基于不同机器学习分类算法的分类学习器,包括k近邻、朴素贝叶斯、决策树、支持向量机、随机森林等。通过多次测试得到它们取得的平均定位精度,表现突出的随机森林被选择。进一步的,我们对随机森林的附属参数进行优化设计,得到最优的基于参数优化随机森林的分类学习器(以下简称RF学习器)。目前,RF学习器在平面和空间结构的密封电子设备内部多余物的定位测试中,取得的最高定位精度分别为87.01%和83.67%。
需要说明的是,本发明待测密封电子设备为平板状的航天电子模块(高度忽略不计,可视为平面)和立体状的航天电源,分别代表平面与空间定位。根据上述流程,首先需要构建如图2所示的平面和空间结构的模型。如图2(a),将平面结构模型划分为16个空间。因此,平面定位数据集代表了多余物放置在16个不同的位置,即平面定位数据集的标签值为1至16。同样的,如图2(b),将空间结构模型划分为8个空间,空间定位数据集代表了多余物放置在8个不同的位置,即空间定位数据集的标签值为1至8。
还需要说明的是,笔者在步骤四中对多余物信号进行了时频域分析,从信号数据中提取的能够反映多余物所在位置的特征共11个,其具体描述如表1所示。
表1多余物定位特征的具体描述
结合步骤一至步骤四我们可以发现:放置在模型某个空间内的多余物受到激励在某个时刻产生的多余物信号,同时被四个声发射传感器捕获到,即体现为多余物检测系统捕获的四通道信号。需要说明的是,因为一维线性定位我们通常采用2个声发射传感器捕获所需的声音信号,二维平面定位我们通常采用3个声发射传感器。因此,对于本发明的三维构造的密封电子设备,我们采用4个声发射传感器来采集同一时刻产生的多余物信号,确保信号采集的完整性。对于单个信号,我们经过信号调理与信号采集,可以从中提取11个特征。这样,四通道的信号最终经过信号调理与信号采集共可以提取44个特征,形成一条代表多余物当前所在位置的定位数据。也就是说,对于平面或空间定位数据集中的具体某个定位数据,它是1×45的规格,第一列代表标签值,第二至四十五列代表从四通道的多余物信号中提取的44个特征。
2、特征优化:
为研究密封电子设备内部多余物定位技术的特征优化方法,我们在现有平面与空间定位数据集的基础上,设计了如图3所示的实现流程。
首先,对于平面与空间定位数据集中存在的缺失值,设计分别使用中位数、众数、均值、最大值、最小值等统计方法填充,和直接丢弃缺失值的方式进行处理,并将参数优化随机森林的分类学习器(下文简称RF学习器)分别应用于经过上述方法处理后的定位数据集上,得出最优的缺失值处理方法并保留处理后的定位数据集。
其次,进一步分析定位数据集内各特征之间的差异性,设计分别使用z分数标准化、min-max标准化和行归一化的方法对其进行标准化和归一化处理,确保数据集中所有的行和列在RF学习器上得到相对平等的对待,同样得出最优的标准化和归一化处理方法并保留处理后的定位数据集。
然后,研究基于特征和基于模型的特征选择方法,引入皮尔逊系数、p值和决策树的特征重要性来定量衡量各特征的性能。最后,在对基于特征和基于模型的特征选择方法的基础上,选择合适的皮尔逊相关系数和p值,结合现有多余物定位技术的多通道特性,设计了多通道阈值加权的特征选择方法,进一步筛选定位数据集中具有良好定位性能的特征,最终形成选择后的新的定位数据集。RF学习器亦在该定位数据集上取得最佳的定位效果。至此,完成本发明提出方法的全部设计流程,下面将对其进行详细描述。
(1)数据集描述
借助于多余物定位试验系统,我们得到了表征多余物在平面和空间结构的密封电子设备模型内部不同位置的定位数据集。其中,平面定位数据集中包含76784个数据,空间定位数据集中包含81785个数据,具体如表2、表3所示。
表2平面定位数据集的具体描述
表3空间定位数据集的具体描述
(2)缺失值处理
实际上,在多余物信号的采集过程中,因为信号采集的不连续、部分通道的信号能量小等原因,导致建立的定位数据集中存在部分缺失值。我们对平面与空间定位数据集分别进行缺失值分析,其结果如表4、表5所示。
表4平面定位数据集的缺失值描述
表5空间定位数据集的缺失值描述
我们先利用统计方法来计算缺失值所在列其他特征数据的均值、中位数、众数、最大值和最小值,并用计算出的数值填充该列的缺失值。此外,我们还可以选择直接将缺失值所在的整条定位数据全部丢弃,保留不存在缺失值的定位数据。我们将RF学习器应用到经过上述利用数值填充或直接丢弃处理后的定位数据集上进行预测。
具体来说,我们分别把平面与空间定位数据集按3∶1的比例分成训练集和测试集。其中,训练集用于建立RF学习器,测试集用于检验RF学习器的定位性能。为了得到相对准确的定位结果,每种经过处理的定位数据集分别进行了10次测试,取10次测试的平均值作为最终的定位精度,以此来减少定位结果的随机影响。应用RF学习器在六种缺失值处理方法得到的定位数据集上的定位效果分别如表6、表7所示。
表6应用六种缺失值处理方法的平面定位数据集的定位效果
表7应用六种缺失值处理方法的空间定位数据集的定位效果
从表中可以看出,在平面与空间定位数据集中,将缺失值所在的整行定位数据直接丢弃的处理方式获得的定位精度最高,分别为87.01%和83.67%,这也是以往研究过程中使用的方法和取得的最高定位精度。其他使用统计方法的数值填充的方式获得了近似的定位精度。这表明,如果数据集中缺失值个数较少,我们采用直接丢弃的方式要比数值填充的方式取得的定位效果更好。最终,我们得到无缺失值的平面与空间定位数据集,其中,平面定位数据集包含76765个有效数据,空间定位数据集包含81768个有效数据。
(3)标准化与归一化
在对平面与空间定位数据集进行缺失值处理后,我们得到两个完整的定位数据集。我们进一步分析定位数据集中的特征,发现各特征之间的数据尺度具有较大的差异性,如频谱质心、频谱均方差等特征的取值区间为0.9至1,而上升时间和时间延迟的取值区间限制在0.0001以内,两者之间的数据尺度相差9000倍以上。因此,我们选择标准化与归一化处理方式,旨在将定位数据集的行和列对齐一致,确保定位数据集中所有特征在RF学习器中得到平等对待。在本发明中,我们选择的标准化与归一化处理方法包括:z分数标准化、min-max标准化和行归一化。
3.1 z分数标准化
z分数标准化的输出会被重新缩放,使均值为0,标准差为1。通过缩放特征、统一化均值和方差(标准差的平方),可以让RF学习器达到最优化,而不会倾向于较大比例的特征。Z分数标准化的计算公式如下:
z=(x-μ)/σ (1)
式中,z是标准化后的值,x是标准化前的值,μ是该列的均值,σ是该列的标准差。
3.2 min-max标准化
min-max标准化和z分数标准化类似,它也是用一个公式输出的结果替换输入的值,其计算公式如下:
m=(x-xmin)/(xmax-xmin) (2)
式中,m是标准化后的值,x是标准化前的值,xmin是该列的最小值,xmax是该列的最大值。
3.3行归一化
行归一化不是计算每列统计方法的数值,而是会保证每行有单位范数,意味着每行的向量长度相同。如果每行数据都在一个n维空间内,那么每行都有一个向量范数。也就是说,认为每行都是空间内的一个向量:
x=(x1,x2,...,xn) (3)
在平面和空间定位数据集中,n为44,则范数的计算公式如下:
式中计算的是L2范数,其他类型的范数也可以使用,实际上关心的是让每行都有相同的范数即可。
值得注意的是,在特征工程中,以定位数据集为例,z分数标准化与min-max标准化是以一列特征数据为研究对象,将该列包含的特征数据按照同一标准进行缩放。而行归一化是以一条定位数据为研究对象,将这条定位数据中包含的特征数据按照统一标准进行缩放。由此可以看出,对于包含多维特征的定位数据集,行归一化方法可能会降低特征效率或破坏多维特征数据的空间定位。
结果分析:对定位数据集分别进行z分数标准化、min-max标准化和行归一化处理。同样的,进行多次测试,并取平均定位精度来评估单个标准化和归一化方法的处理效果。应用RF学习器在三种标准化与归一化方法得到的定位数据集上的定位效果分别如表8、表9所示。
表8应用三种标准化与归一化方法的平面定位数据集的定位效果
表9应用三种标准化与归一化方法的空间定位数据集的定位效果
从表中可以看出,在平面与空间定位数据集中,使用z分数标准化方法获得的平均定位精度最高,分别为94.94%和95.44%,相较处理之前的87.01%和83.67%,定位精度均有大幅的提升,且在空间定位数据集上提升幅度更大。使用min-max标准化方法在处理前后,定位精度也有明显提高,但较z分数标准化方法还有一些差距。使用行归一化方法在处理前后,定位精度均有所下降,这表明,行归一化方法不适用于具有多维特征数据的定位数据集的优化。最终保存经过z分数标准化处理的平面与空间定位数据集。
(4)特征选择
在机器学习中讨论特征时经常遇到噪声问题。即数据集中的一些特征可能预测性不高,有时甚至会阻碍分类学习器的预测性能。特征选择是从原始数据中选择对于预测结果而言最好的特征的过程。给定n个特征,搜索其中包括k(k<n)个特征的子集来改善分类学习器的预测性能。
实际上,在机器学习中,为了提高计算效率或分类学习器的预测性能,我们也会选择主成分分析方法来将包含N维特征数据的数据集转化成包含K维特征数据的数据集。其中,K<N。不同的是,主成分分析方法主要用于数据降维的处理中。它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大(即,方差最大)。这样,它不仅能够使用较少的数据维度,而且能够保留原多维数据中较多的数据特性。如果参照特征选择的过程和目的,主成分分析方法也可以实现将包含n个特征的定位数据集处理成包含k个特征的定位数据集。但在本发明中,两者是不一样的。主成分分析方法是将包含N维特征数据的数据集压缩成包含K维特征数据的数据集。对于减少的n-k维特征数据,它不是直接舍弃的,而是通过统计方法添加到剩余的K维特征数据上。这体现为剩余的K维特征数据的统计数值并不能与原N维特征数据中K维特征数据的统计数值一一对应。而特征选择是从包含N维特征数据的数据集中选择K维特征数据,在此基础上保留形成数据集。对于减少的n-k维特征数据,它是直接舍弃的。这体现为剩余的K维特征数据的统计数值能够与原N维特征数据中K维特征数据的统计数值一一对应。更进一步的,在本发明中是希望从现有的11个特征中选择出具有良好定位性能的m个特征,m<11。这样,在以后的操作过程中,直接从多余物信号中提取这m个特征,并构建1×(4m+1)规格的定位数据。而不需要先构建1×45规格的定位数据,再压缩至1×(4m+1)规格。
因此,在得到经过z分数标准化处理的平面与空间定位数据集的基础上,我们选择使用特征选择的方法,删除定位数据集中的噪声特征。具体的,在本发明中,我们主要分析了基于统计和基于模型的特征选择类型,并结合现有多余物定位技术的多通道特性,设计了多通道加权阈值的特征选择方法,进一步提高现有多余物定位技术的定位精度。
4.1基于统计的特征选择
基于统计的特征选择很大程度上依赖统计学领域相关概念的数值判断,以便在分类学习器的训练阶段进行特征选择。通过计算特征的统计数值,我们可以快速、简便地定量和定性特征数据。使用皮尔逊相关系数和假设检验进行特征选择的研究。
(a)皮尔逊系数
皮尔逊相关系数用于测量数据集中各列之间的线性关系,其值在-1到1之间变化,0代表彼此之间没有线性关系,相关性接近-1或1代表彼此之间线性关系很强。皮尔逊相关系数的计算公式如下:
其中,及σX分别是对第一列数据Xi的标准分数、均值和标准差,/>及σY分别是对第二列数据Yi的标准分数、均值和标准差。
我们分别计算平面与空间定位数据集中所有列之间的皮尔逊相关系数,并分别绘制平面与空间定位数据集的热图,如图4、图5所示。
在机器学习的任何特征提取过程中,需要分析组件之间的判别力和统计独立性。在本发明中,我们需要对四通道共44个特征进行分析,分析各特征之间的统计独立性。往往那些彼此之间统计独立性较强(也即相关性较弱)的特征,所对应的特征数据之间包含的信息具有较小的重复性,它们是更加值得考虑被选择的。在图4与图5所示的热图中,颜色越浅代表两个特征之间的相关性越弱,颜色越深代表两个特征之间的相关性越强。以图4为例,从左上角到右下角的对角线区域代表特征与自身的相关性,所以颜色是最浅的。以这个对角线区域为分割线,得到的两个三角形区域实际上是一样的。它们都表达了特征之间的相关性。从图4中可以看出,speCen1、speCen2、speCen3、speCen4的组合分别与RMSF1、RMSF2、RMSF3、RMSF4的组合相关性较强。同样的,我们从图4中总共发现有7个相关性较强的组合。并且,如果我们在图5中对应寻找这7个组合,同样发现他们也是相关性较强的。这表明平面定位数据集与空间定位数据集的特征数据之间的关联性。但是从总体来说,剩余部分的颜色都较深,甚至一些部分的颜色是最深的黑色。这表明多数特征之间是相互独立的,只有少量特征之间具有一定的相关性。这也在一定程度上证明了我们进行特征选择的必要性。即尽可能保留那些彼此相互统计独立的特征。
在本发明中,我们进一步计算定位数据集中特征和标签值的皮尔逊相关系数,由此得到每个特征与标签值之间的相关性。根据皮尔逊相关系数的定义可以知道,特征与标签值之间的皮尔逊相关系数越大,表明它与与标签值越相关,说明它是值得被选择的。因此,我们计算定位数据集中每个特征与标签值的皮尔逊相关系数的具体数值,并寻找数值接近-1或1的特征,因为这些特征会具有较好的定位性能。参照表1对多余物定位技术所使用的11个特征的具体描述(尤其是“符号表示”),以及第2节描述的多余物检测系统的四通道特性,表10列出了44个特征在代码中的符号表示及其具体的描述。
表10定位数据集中特征的具体描述和符号表示
/>
在对计算出的44个特征的相关系数的具体数值进行综合分析的基础上,我们过滤出数值超过正负0.1的特征。其中,平面定位数据集中过滤出的特征为:speCen1、speCen3、speStdDev1、speStdDev4、RMSF1、RMSF4、RVF 1、RVF2、RVF3、RVF4、zerorate1、aveEnergy1、aveEnergy4、RMSV1、RMSV4、maxAmp1、maxAmp4、symTime1、symTime2、symTime3、symTime4,共计21个,空间定位数据集中过滤出的特征为:speCen1、speCen3、speCen4、speStdDev1、speStdDev3、speStdDev4、RMSF1、RMSF3、RVF1、RVF3、RVF4、zerorate1、zerorate3、aveEnergy1、aveEnergy3、aveEnergy4、RMSV1、RMSV3、RMSV4、maxAmp1、maxAmp3、maxAmp4、symTime1、symTime3、delayTime1、delayTime3,共计26个。我们将平面定位数据集仅保留标签值和上述21个特征,形成1×22的规格,将空间定位数据集仅保留标签值和上述26个特征,形成1×27的规格。同样分别应用RF学习器在上述处理后的定位数据集上进行多次测试,得到此时的平面和空间平均定位精度为88.63%和90.88%。此时的定位精度较经过z分数标准化处理后取得的定位精度均有所下降,且选择的特征越少,下降幅度越大。
(b)假设检验
假设检验是一种统计学方法,可以对单个特征进行复杂的统计检验。在特征选择中使用假设检验更像是自定义了一个选择器,它尝试从数据集中选择最佳特征,但是这里的检验更依赖于形式化的统计方法,并通过所谓的p值进行检验。作为一种统计检验,假设检验用于在给定数据样本时确定可否在整个数据集上应用某种条件。假设检验的结果会告诉我们是否应该相信或拒绝假设并选择另一个假设。基于样本数据,假设检验会确定是否应拒绝零假设(也称虚无假设,即统计学中的H0),机器学习中通常会用p值(一个上限为1的非负小数,由显著性水平决定)得出该结论。
在特征选择中,假设检验的原则是:“特征与响应变量没有关系”为真还是假。由此得出,本发明中的零假设为:“定位数据集中的特征与标签值没有关系”为真还是假,即响应变量就是标签值。我们需要在每个特征上进行检验,并决定其与响应变量是否有显著关系。某种程度上说,前述基于皮尔逊系数的特征相关性检测逻辑也是这样的。具体的,如果某个特征与响应变量的相关性太弱,那么认为“特征与响应变量没有关系”这个假设为真。如果某个特征与响应变量的相关性太弱足够强,那么就可以拒绝该假设,认为特征与响应变量有关。p值是介于0和1之间的小数,代表在假设检验下,给定数据偶然出现的概率。简而言之,p值越低,拒绝零假设的概率越大。在定位数据集中,p值越低,这个特征与标签值有关联的概率就越大,即保留该特征。
常用的假设检验方法有Z检验、t检验、卡方检验、F检验等。在本发明中,我们主要选择的是t检验。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。在本发明中,我们分别建立了平面与空间定位数据集,并且已知两个数据集的特征数据。但是从另一个角度来看,我们建立的平面与空间定位数据集都只是包含有限个特征数据,它们并不能完全反映所有特征数据的取值与分布。因此,对于这种含有有限个样本,且总体标准差未知的正态分布,t检验是最合适的。此外,Z检验是在已知总体均值和方差的情况下,基于正态分布的相关信息进行假设检验。卡方检验是针对分类变量的,而本发明的特征数据的取值是连续的未知的数值,而不是离散的某个类别。F检验是基于方差的相关信息对已知统计模型进行假设检验。所以这三种方法都不适合用于本发明。
我们分别计算两个定位数据集中各列的p值并对具体的数值进行分析。在机器学习中,常见的用来设置p值的阈值是0.05,可以认为p值小于0.05的特征是显著的。我们同样将阈值设定为0.05来过滤定位数据集中的特征。其中,平面定位数据集中过滤出的特征为:speCen1、aveEnergy1、aveEnergy3、aveEnergy4、RMSV1、RMSV2、RMSV3、RMSV4、maxAmp1、maxAmp2、maxAmp3、maxAmp4、symTime1、symTime2、symTime3、symTime4、zerorate4、zerorate3、aveEnergy2、zerorate1、speCen2、speCen3、speCen4、speStdDev1、zerorate2、speStdDev3、speStdDev4、RMSF1、speStdDev2、RMSF3、RMSF4、RVF1、RVF2、RVF3、RVF4、RMSF2,共计36个。空间定位数据集中过滤出的特征为:speCen1、aveEnergy3、aveEnergy4、RMSV1、RMSV2、RMSV3、RMSV4、maxAmp1、delayTime3、maxAmp2、maxAmp4、symTime1、symTime2、symTime3、symTime4、delayTime1、delayTime2、maxAmp3、aveEnergy1、aveEnergy2、zerorate3、speCen2、speCen3、speCen4、speStdDev1、speStdDev2、speStdDev3、zerorate4、RMSF1、speStdDev4、RMSF3、RMSF4、RVF1、RVF2、RVF3、RVF4、zerorate1、zerorate2、RMSF2,共计39个。
将分别经过皮尔逊系数和p值过滤得到的特征进行对比可以发现,利用p值过滤保留的平面与空间定位数据集中的特征完全包含前者保留的特征。我们将平面定位数据集仅保留标签值和上述36个特征,形成1×37的规格,将空间定位数据集仅保留标签值和上述39个特征,形成1×40的规格。同样分别应用RF学习器在上述处理后的定位数据集上进行多次测试,得到此时的平面和空间平均定位精度为93.77%和95.06%。虽然此时的定位精度已经接近z分数标准化处理后的定位精度,但使用的特征数量也接近全部,特征选择效果不明显。
4.2基于模型的特征选择
基于模型的特征选择则依赖于一个预处理步骤,需要另外训练一个辅助的机器学习分类学习器,并利用其预测能力来选择特征。常用类型包括基于树模型和基于线性模型,这两类模型都有特征排列的功能,在对特征划分子集时很有用。使用机器学习分类学习器为RF学习器,其基分类器为决策树,与基于树的模型相匹配。另外,线性模型是指线性回归、逻辑回归、支持向量机等分类学习器,随机森林属于非线性分类学习器。因此,本发明在基于模型的特征选择部分主要是基于决策树的模型展开研究的。
在拟合决策树时,决策树会从根节点开始,在每个节点处贪婪地选择最优分割。我们常用基尼系数来记录每次分隔时整体最优指标。在树形结构中,这些指标对特征重要性有很大帮助。我们通过计算定位数据集中各特征的特征重要性,来表明该特征对于决策树拟合的重要性。具体的,我们设置特征重要性的阈值为0.05,用于过滤重要性大于0.05的特征。最终,平面定位数据集中过滤出的特征为除speStdDev2、zerorate2、zerorate4、aveEnergy2、delayTime4外共计39个。空间定位数据集中过滤出的特征为除maxAmp4、risTime3、delayTime3外共计41个。
可以发现,基于树的模型在平面与空间定位数据集上选择了除极少数特征外的其他所有特征,与特征选择前差异不大。我们将平面定位数据集仅保留标签值和上述39个特征,形成1×40的规格,将空间定位数据集仅保留标签值和上述41个特征,形成1×42的规格。同样分别应用RF学习器在上述处理后的定位数据集上进行多次测试,得到此时的平面和空间平均定位精度为94.05%和95.33%。显然,该结果已经与z分数标准化处理后取得的定位精度相当,但依然存在特征选择效果不明显的情况。
4.3多通道加权阈值的特征选择
从基于统计和基于模型的特征选择方法中我们可以发现,基于统计的特征选择方法选择的特征个数为总个数的半数左右,最终导致平面和空间定位精度的大幅度下降,特征选择的效果不理想。基于模型的特征选择方法选择的特征个数几乎为全部特征,所取得的平面和空间定位精度也接近于使用全部特征的定位精度。更进一步分析,基于模型的特征选择方法,是使用基于决策树的分类学习器进行辅助判断的,其工作原理与随机森林有所差异,所以使用该方法的特征选择作用不明显。而在基于统计的特征选择方法中,所选择的半数特征大多集中在通道1和通道3,具体表现为被选择特征的符号表示的最后一位字符多数为1或3,少数为2或4。这表明当把四个通道各自11个特征共计44个特征作为个体进行特征选择时,该方法并未考虑各通道之间特征的关联性。因此,我们在新设计特征选择方法时要充分考虑各通道的特征之间的关联性,即通道特性,尽量选择四个通道内的同一类型(如delayTime1、delayTime2、delayTime3、delayTime4虽然在四个通道,但是属于同一类型,都是时间延迟)的特征,而不是将四个通道各自的11个特征分别进行考虑。即,需要设计一种评价标准,将四个通道内同一类型的特征作为一个整体对其做出评价,最终对四个通道内共11个特征的组合做出评价,得到11个评价结果,并据此进行组合特征的选择。另外,在基于统计的特征选择方法中,不管是基于皮尔逊相关系数还是基于p值来评估和选择特征,都是基于单个指标的。在新方法中,我们考虑将两者结合起来考虑,通过一种加权排名的方式进行特征的排序和选择。
具体的,本发明在基于统计的特征选择方法的基础上,结合现有多余物定位技术的多通道特性,引入皮尔逊相关系数和p值的组合方式,设计了多通道加权阈值的特征选择方法。在该方法中,我们以四通道的同一类型特征为最小特征选择单位,将原本在44个独立特征上进行的特征选择转换为在11个同一类型特征上进行选择,充分考虑了多通道特性。此外,为了综合考虑皮尔逊相关系数和p值对特征选择的影响,我们在对44个特征的皮尔逊相关系数绝对值进行通道特性加权的基础上,分别计算11个同一类型特征的皮尔逊相关系数绝对值和p值的总和,并按照两者的计算数值分别进行从大到小和从小到大排序,累加两者的排序编号并根据结果再次进行从小到大排序,得到同一类型特征的最终排序。结合网格搜索法,最终可以得出最优的特征选择和对应取得的最高定位精度。该算法的具体实现步骤如下:
步骤一:利用公式(6)可以求得特征与标签值之间的皮尔逊相关系数的绝对值。我们利用该公式分别计算定位数据集中所有列的皮尔逊相关系数的绝对值,即定位数据集中所有特征与标签值之间的皮尔逊相关系数的绝对值。并表示为rij(i=1,2,3,4,j=1,2,...,11),代表通道i的第j个特征。因此,当特征的i相同时,代表它们归属于同一通道,当特征的j相同时,代表它们属于同一类型的特征。
其中,及σX分别是对特征Xi的标准分数、均值和标准差,/>及σY分别是对Yi的标准分数、均值和标准差。在本方法中,Yi指的是标签值。
在得到定位数据集中44个特征的皮尔逊相关系数的绝对值的基础上,我们以通道为单位,将四通道内各自11个特征的皮尔逊相关系数的绝对值进行累加,得到对应四个通道的四个求和结果,分别表示为Ri,i=1,2,3,4,则其计算公式如下:
其中,rij表示通道i中的第j个特征。
进一步,我们计算定位数据集中44个特征的皮尔逊相关系数的绝对值的总和,得到Rall。这里我们可以直接累加对应四个通道的四个求和结果,它们得到的结果都是一样的。接着,我们分别求取各通道在公式(7)得到的求和结果Ri占Rall的比重,称为通道特性加权系数(简称加权系数),即上文提到的“对44个特征的皮尔逊相关系数绝对值进行通道特性加权”的作用者,表示为其计算公式为:
其中,/>
步骤二:在步骤一的基础上,我们根据rij(i=1,2,3,4,j=1,2,...,11)中的i值,即表征其所在通道,将其值乘以通过公式(8)计算得到的对应通道的加权系数。举例来说,r1j(j=1,2,...,11)是属于通道1的11个特征,所以我们将它们乘以通道1的加权系数r2j(j=1,2,...,11)是属于通道2的11个特征,所以我们将它们乘以通道2的加权系数/>以此类推,我们最终可以得到44个经过通道特性加权的新的数值,并将它们分别表示为其计算公式为:
接着,我们以同一类型的特征为划分单位,将四通道内共44个特征进行分组,得到归属于11个类型的特征的组合(每个组合包含4个分别属于4个通道的特征)。在此基础上,我们累加同一组合(同一通道)内特征的新值得到11个类型的特征的组合的总和,分别表示为/>其计算公式如下:
步骤三:在得到11个类型的特征的组合的总和值的基础上,我们将/>按照数值进行从大到小排序,可以得到/>对应的排序编号
步骤四:经过上述步骤,我们结合了通道特性用单个评价指标(皮尔逊相关系数)对11个类型的特性的组合进行了排序,接下来按照同样的思路用第二个指标p值进行评估。我们计算定位数据集中所有特征的p值,将计算结果分别表示为sij(i=1,2,3,4,j=1,2,...,11)。同样的,我们以同一类型的特征为划分单位,将四通道内共44个特征进行分组,得到归属于11个类型的特征的组合。我们累加同一组合(同一通道)内特征的p值sij,得到11个类型的特征的组合的总和,分别表示为则其计算公式如下:
步骤五:在得到11个类型的特征的组合的总和值的基础上,我们将/>按照数值进行从小到大排序。这样,我们可以得到/>对应的排序编号至此,我们实现了用第二个指标(p值)对11个类型的特征的组合进行了排序。最后,需要根据两个排序的结果进行综合判断,实现对11个类型的特征的组合的最终评估。
步骤六:我们累加步骤三和步骤五中得到两个的排序编号和/>得到11个总和,表示为/>我们将/>按照数值进行从小到大排序。这样,我们可以得到对应的综合排序编号,表示为Nj(j=1,2,...,11)。其中:/>
需要补充说明的是,当出现多个数值相同时,如/>与/>数值相同,我们做出以下的补充规定:/>的排序编号越小,优先设置其综合排序编号越小。因此,虽然/>与/>的/>数值相同,但在上述补充规则下,因为前者的/>后者的/>所以/>的综合排序编号要比/>的小。
步骤七:多次特征选择实验表明:选择的特征数量在原特征总数的半数以上取得的定位精度相对较理想。因此,我们结合网格搜索法,分别将综合排序编号Nj中排名前6、前7、前8、前9、前10和前11的11个类型的特征的组合予以保留,即分别将定位数据集中对应的24、28、32、36、40和44个特征予以保留,并应用RF学习器在各个保留的定位数据集上进行定位测试(预测),根据定位精度来确定最优的特征组合。通过上述步骤,我们最终可以得到n个同一类型的特征的组合是最优的特征选择结果,即RF学习器在保留对应的4n个特征的定位数据集上取得的定位精度最高。上述算法实现流程如图6所示。
我们分别在经过z分数标准化的平面与空间定位数据集上应用多通道加权阈值的特征选择方法,得到11个类型的特征的组合在特征选择不同阶段的定位效果和排序编号,具体描述如表11、表12所示。
表11平面定位数据集的特征选择效果
表12空间定位数据集的特征选择效果
根据表11的综合排序编号,我们将排名前6、7、8、9、10、11的同类型特征的组合带入网格搜索法中,并根据搜索结果保留平面定位数据集中对应的多个特征,应用RF学习器在新的平面定位数据集上进行多次定位测试,得到平均定位精度的最高的同类型特征的组合的个数为9个,分别为:speCen、RVF、speStdDev、aveEnergy、symTime、RMSF、maxAmp、zerorate、RMSV,取得的最高定位精度为95.23%。同样我们将表12中排名前6、7、8、9、10、11的同类型特征的组合带入网格搜索法中,并根据搜索结果保留空间定位数据集中对应的多个特征,应用RF学习器在新的空间定位数据集上进行多次定位测试,同样得到平均定位精度的最高的同类型特征的组合的个数为9个,分别为:speCen、RVF、RMSV、maxAmp、symTime、speStdDev、aveEnergy、delayTime、RMSF,取得的最高定位精度为95.91%。可以发现,基于多通道加权阈值的特征选择方法在平面与空间定位数据集中均保留了36列,即形成1×37的规格,少于最初的44列,且取得的定位精度较选择前有了明显提高。
表13分别列出了基于皮尔逊相关系数、基于p值和基于多通道加权阈值的特征选择方法的选择效果。从表中可以看出,相较于仅使用单个评价指标,基于多通道加权阈值的特征选择方法将两个评估指标进行有机结合,并取得了高于两者的平均定位精度。也即,本发明所提的多通道加权阈值的特征选择方法在定位数据集上取得的平均定位精度要高于传统的基于统计和基于模型的特征选择方法。这充分说明了本方法在多通道特征选择方面的优越性。
表13不同特征选择方法的特征选择效果
至此,本发明研究的密封电子设备多余物检测技术的特征优化方法在平面与空间定位数据集上取得了最高的定位精度分别为95.23%和95.91%,相较于笔者前期研究取得的87.01%和83.67%有很大幅度的提升。表14列出了RF学习器分别在经过缺失值处理、标准化与归一化和特征选择阶段取得的定位精度。
表14RF学习器在定位数据集不同处理阶段取得的定位精度
对上述研究过程和结果进行总结,得到本发明所提的密封电子设备内部多余物定位技术的特征优化方法的一般程序步骤如下:
步骤一:缺失值处理阶段。对于定位数据集中存在的缺失值,使用直接丢弃法进行处理,这是因为平面和空间定位数据集中包含较少的缺失值。
步骤二:标准化与归一化阶段。为解决定位数据集中存在的数据不规整的问题,采用z分数标准化的方法进行处理。
步骤三:特征选择阶段。为提高基于参数优化随机森林的分类学习器的预测性能,使用基于多通道加权阈值的特征选择方法,保留数据集中对分类学习器贡献大的特征。
由前文的描述可知:经过上述步骤处理后的平面与空间定位数据集,相较于处理之前,数据集的整体质量有了明显的提升,具体表现在分类学习器在平面和空间定位数据集上取得的定位精度提升幅度较大。至此,本发明所提的特征优化方法的一般程序步骤描述结束。
(5)实验验证与分析(Test andAnalysis)
前面分别对平面与空间定位数据集进行了缺失值处理、标准化与归一化、特征选择,并在每一阶段分析得出最优的处理方法。其中,在缺失值处理阶段,将缺失值直接丢弃的方法要优于其他利用统计数据填充的方法。在标准化与归一化阶段,采用z分数标准化的方法要优于min-max标准化和行归一化的方法。在特征选择阶段,采用本发明设计的多通道加权阈值的特征选择方法要优于传统的基于统计和基于模型的特征选择方法,且与多余物定位技术的多通道特性相联系,更具实用性与普适性。
在实验验证与分析部分,我们利用多余物定位试验系统对航天电子模块和航天电源进行测试,并分别建立平面与空间验证数据集。我们将前期得出的特征优化路线在平面与空间验证数据集上进行验证,从而证明本发明提出的密封电子设备多余物定位技术的特征优化方法的可行性。
5.1验证数据集
为了验证本发明提出的密封电子设备多余物定位技术的特征优化方法在实际应用场景下的应用效果,本发明分别将航天电子模块和航天电源置于多余物定位试验系统中,我们人为将它们视为由16个空间组成的平面模型和8个空间组成的空间模型。此处的人为是指在笔者的脑海中,而不是采用其他工具破坏它们的内部结构从而达到分隔空间的目的。具体的,笔者对照平面与空间结构的密封电子设备模型的划分规则,人为的选择在航天电子模块和航天电源内部对应的的不同空间放置多余物,借助于多余物定位试验系统,通过大量且均衡的实验,我们建立代表不同空间的平面与空间验证数据集,其具体描述如表15、表16所示。
表15平面验证数据集的具体描述
表16空间验证数据集的具体描述
5.2性能评估指标
为了评估本发明提出的密封电子设备多余物定位技术的特征优化方法的效果,需要应用RF学习器在处理后的定位数据集上进行定位测试,通过衡量定位效果来间接表明特征优化方法的效果。为了定量研究RF学习器的定位效果,本发明主要选取了定位精度作为定位性能评估指标。
假定数据集为D={(x1,y1),(x2,y2),…,(xm,ym)},其中yi是特征数据xi对应的真实标签值,f(xi)是RF学习器f预测的标签值。RF学习器取得的定位精度可表示为预测正确的样本数占总样本数的比例,即
其中,I是指示函数,当f(xi)=yi时,I(f(xi)=yi)=1。
5.3特征优化效果分析
我们首先对平面与空间验证数据集进行缺失值处理,即将所有的缺失值直接丢弃,并在处理后的验证数据集上应用RF学习器进行定位测试,得到平面与空间的定位精度为84.51%和80.64%。进一步的,对平面与空间验证数据集进行z分数标准化处理,同样在处理后的验证数据集上应用RF学习器进行定位测试,得到平面与空间的定位精度为90.05%和88.73%。最后,我们使用多通道加权阈值特征选择方法进行特征选择,得到11个类型的特征的组合在特征选择不同阶段的定位效果和排序编号,具体描述如表17、表18所示。
表17平面验证数据集的特征选择效果
表18空间验证数据集的特征选择效果
根据表17的综合排序编号,我们将排名前6、7、8、9、10、11的同类型特征的组合带入网格搜索法中,并根据搜索结果保留平面验证数据集中对应的多个特征,应用RF学习器在新的平面验证数据集上进行多次定位测试,得到平均定位精度的最高的同类型特征的组合的个数为9个,分别为:speCen、symTime、speStdDev、RVF、RMSF、aveEnergy、maxAmp、RMSV、delayTime,取得的最高定位精度为90.57%。同样我们将表18中排名前6、7、8、9、10、11的同类型特征的组合带入网格搜索法中,并根据搜索结果保留空间验证数据集中对应的多个特征,应用RF学习器在新的空间验证数据集上进行多次定位测试,同样得到平均定位精度的最高的同类型特征的组合的个数为9个,分别为:speCen、symTime、RMSV、aveEnergy、delayTime、maxAmp、speStdDev、RVF、RMSF,取得的最高定位精度为89.16%。表19列出了RF学习器在验证数据集的缺失值处理、标准化与归一化和特征选择不同处理阶段取得的定位精度。
表19 RF学习器在验证数据集不同处理阶段取得的定位精度
我们对此进行分析可以得出:不同于构建的电子设备模型,当把实际的航天电子模块和航天电源置于多余物定位试验系统中时,所构建的验证数据集的缺失值相对增多。并且在相同的处理阶段,RF学习器在验证数据集上取得的定位精度比在定位数据集上取得的定位精度略低一些,但相差不是很大,这也说明了实际测试过程中存在的部分误差是被允许的。总而言之,通过平面与空间验证数据集的定位测试,RF学习器所取得的平面与空间定位精度均在90%左右。其中,平面定位精度为90.57%,空间定位精度为89.16%,相较于84.51%和80.64%有大幅度的提升。这与RF学习器在定位数据集中取得的定位效果一致,充分说明本发明提出的密封电子设备多余物定位技术的特征优化方法的可靠性和稳健性。
遵循相同的验证步骤,作者分别挑选了10个航天电子模块和航天电源,借助于多余物定位试验系统,我们分别得到了10个平面与空间定位数据集。我们按照3.5节的特征优化方法的一般程序步骤,分别对10个平面与空间定位数据集进行处理,得到如表20所示的特征优化结果。需要说明的是,如果数据集中存在缺失值,我们无法直接在该数据集上训练分类学习器。所以,表20中的“优化前”的定位精度一般指的是缺失值处理阶段的定位精度,也即经过直接丢弃法处理后取得的定位精度。
表20 10次验证测试的特征优化效果
从表中可以看出,本发明所提的密封电子设备内部多余物定位技术的特征优化方法在不同的平面与空间定位数据集上均取得了明显的优化效果。多次验证测试更加有效证明了本发明所提优化方法在工程应用中的可靠性和稳健性。实际上,考虑到多余物定位研究中采集到的多余物信号是四通道的,所以结合通道特性来进行特征选择要比将所有特征“一视同仁”地进行选择更可靠。实际上,在验证阶段,笔者同样分别使用基于皮尔逊相关系数和基于p值的特征选择方法进行处理,发现分类学习器在使用这两种方法处理前后的定位数据集上取得的多数的定位精度是下降的,一小部分是基本无变化,只有1或2个定位精度是小幅度上升的。这说明了将所有特征放在一起进行选择时,基于皮尔逊相关系数和基于p值的特征选择方法是为了“迎合”分类学习器的“喜好”而给出的一种特征选择方案。当测试对象变化时,这种方案的稳定性较差。而本发明提出的多通道加权阈值的特征选择方法充分考虑了声发射传感器的布局,即文中提到的通道特性。因此,它给出的一种特征选择方案是更加稳定和可靠的。

Claims (10)

1.密封电子设备内部多余物定位技术的特征优化方法,其特征在于,包括以下步骤:
步骤一:针对密封电子设备内部多余物定位数据,分别计算每个特征与标签值之间的皮尔逊相关系数的绝对值rij,ij代表通道i的第j个特征,i=1,2,…,I,j=1,2,…,J,I为通道数量,J为每个通道信号提取的特征类型数量;
所述的密封电子设备内部多余物定位数据为多通道信号提取的特征,即通过安置在密封电子设备表面的I个声发射传感器采集,生成的I套多余物信号即为I个通道数据,针对每个通道信号提取J个类型的特征;
所述标签值为模型内部分隔为多个相等的密闭空间中多余物所在的一个空间放置对应的标签;
将I通道内各自的J个类型特征的皮尔逊相关系数的绝对值进行累加,得到各自对应的累加结果Ri
同时计算定位数据集中I*J个类型特征的皮尔逊相关系数的绝对值的总和Rall
然后分别求取各通道的Ri占Rall的比重,作为通道特性的加权系数Wi p
步骤二:针对每个通道数据,基于rij中所在通道,将rij中乘以加权系数Wi p得到的对应通道的加权系数,得到更新的
针对每个特征,对同一通道内的进行累加,得到每个特征对应的组合加权/>
步骤三:针对J个类型的特征对应的值,将/>按照数值进行从大到小排序,得到对应的排序编号/>
步骤四:计算定位数据集中所有特征的p值,得到每个特征对应的p值结果sij
以同一类型的特征为划分单位,将I通道内共I*J个类型特征进行分组,得到归属于J个类型的特征的组合;针对同一通道内特征的sij进行累加,得到每个特征对应的
步骤五:针对J个类型的特征对应的值,将/>按照数值进行从小到大排序;得到/>对应的排序编号/>
步骤六:针对每个类型的特征,将和/>加和得到/>将/>按照数值进行从小到大排序得到/>对应的综合排序编号Nj
步骤七:分别将综合排序编号Nj中排名前α个类型的特征的组合予以保留,前α+1个类型的特征的组合予以保留,前α+2个类型的特征的组合予以保留,……,以及前J个类型的特征的组合予以保留,即分别将定位数据集中对应的I*α、I*(α+1)、I*(α+2)、……、I*J个类型特征的特征组合予以保留,并应用机器学习算法在各个保留的定位数据集上进行定位测试,根据定位精度来确定最优的特征组合;α为通过网格搜索法确定的调节参数。
2.根据权利要求1所述的密封电子设备内部多余物定位技术的特征优化方法,其特征在于,步骤六所述将按照数值进行从小到大排序得到/>对应的综合排序编号Nj的过程中,当出现多个/>数值相同时,如果/>的排序编号越小,优先设置其综合排序编号越小。
3.根据权利要求2所述的密封电子设备内部多余物定位技术的特征优化方法,其特征在于,所述的特征类型包括:时间延迟、脉冲上升时间、脉冲对称度、脉冲幅值、脉冲能量、均方根电压、脉冲过零率、频谱质心、频谱均方差、均方根概率、频率标准差;其中,
时间延迟为多余物信号到达不同声发射传感器的时间差;脉冲上升时间为脉冲起始时刻到峰值时刻所经过的时间;脉冲对称度为上升时间和下降时间的比值;脉冲幅值为信号的最大幅值的平均值;脉冲能量为在时间上对信号的平方进行积分。
4.根据权利要求3所述的密封电子设备内部多余物定位技术的特征优化方法,其特征在于,采用PATH加权的广义互相关法求时间延迟。
5.根据权利要求4所述的密封电子设备内部多余物定位技术的特征优化方法,其特征在于,所述的通道数量I=4,即在密封电子设备表面设置4个声发射传感器。
6.根据权利要求5所述的密封电子设备内部多余物定位技术的特征优化方法,其特征在于,所述特征与标签值之间的皮尔逊相关系数的绝对值如下:
其中,及σX分别是对特征Xi的均值和标准差,/>是特征Xi的标准分数;/>及σY分别是标签值Yi的均值和标准差,/>是Yi的标准分数;n是特征Xu的样本数量。
7.根据权利要求6所述的密封电子设备内部多余物定位技术的特征优化方法,其特征在于,步骤七所述的机器学习算法为随机森林的分类学习器。
8.根据权利要求1至7之一所述的密封电子设备内部多余物定位技术的特征优化方法,其特征在于,进行特征优化前的密封电子设备内部多余物定位数据是经过预处理的声发射传感器数据,预处理过程包括以下步骤:
首先通过安置在密封电子设备表面的I个声发射传感器采集数据,然后进行缺失值处理和标准化处理。
9.根据权利要求8所述的密封电子设备内部多余物定位技术的特征优化方法,其特征在于,所述缺失值处理过程采用直接丢弃法。
10.根据权利要求9所述的密封电子设备内部多余物定位技术的特征优化方法,其特征在于,所述的标准化处理过程采用z分数标准化的方法。
CN202210999654.4A 2022-08-19 2022-08-19 密封电子设备内部多余物定位技术的特征优化方法 Active CN115343676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210999654.4A CN115343676B (zh) 2022-08-19 2022-08-19 密封电子设备内部多余物定位技术的特征优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210999654.4A CN115343676B (zh) 2022-08-19 2022-08-19 密封电子设备内部多余物定位技术的特征优化方法

Publications (2)

Publication Number Publication Date
CN115343676A CN115343676A (zh) 2022-11-15
CN115343676B true CN115343676B (zh) 2023-07-18

Family

ID=83954920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210999654.4A Active CN115343676B (zh) 2022-08-19 2022-08-19 密封电子设备内部多余物定位技术的特征优化方法

Country Status (1)

Country Link
CN (1) CN115343676B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115931114B (zh) * 2022-12-02 2023-08-29 哈尔滨工业大学 一种用于颗粒碰撞噪声检测系统检测结果判识的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102590788B (zh) * 2012-02-08 2013-10-16 航天科工防御技术研究试验中心 多余物时差定位方法及其系统
CN102590359B (zh) * 2012-02-08 2014-02-12 航天科工防御技术研究试验中心 多余物信号识别方法及其系统
US11494415B2 (en) * 2018-05-23 2022-11-08 Tata Consultancy Services Limited Method and system for joint selection of a feature subset-classifier pair for a classification task
CN112836731A (zh) * 2021-01-21 2021-05-25 黑龙江大学 基于决策树准确率和相关性度量的信号随机森林分类方法、系统及装置
CN113657441A (zh) * 2021-07-08 2021-11-16 西安理工大学 基于加权皮尔逊相关系数并结合特征筛选的分类算法

Also Published As

Publication number Publication date
CN115343676A (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
US10713563B2 (en) Object recognition using a convolutional neural network trained by principal component analysis and repeated spectral clustering
CN110197205B (zh) 一种多特征来源残差网络的图像识别方法
CN102136073B (zh) 学习装置及方法、识别装置及方法、和信息处理系统
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
EP3798924A1 (en) System and method for classifying manufactured products
CN114821164A (zh) 基于孪生网络的高光谱图像分类方法
CN113077444A (zh) 一种基于cnn的超声无损检测图像缺陷分类方法
CN109255029A (zh) 一种采用加权优化训练集增强自动Bug报告分配的方法
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN115343676B (zh) 密封电子设备内部多余物定位技术的特征优化方法
CN115115825B (zh) 图像中的对象检测方法、装置、计算机设备和存储介质
CN104809471A (zh) 一种基于空间光谱信息的高光谱图像残差融合分类方法
Dommaraju et al. Identifying topological prototypes using deep point cloud autoencoder networks
CN111461923A (zh) 一种基于深度卷积神经网络的窃电监测系统和方法
Mandal et al. Unsupervised non-redundant feature selection: a graph-theoretic approach
Sun et al. Feature optimization method for the localization technology on loose particles inside sealed electronic equipment
CN117033912B (zh) 一种设备故障预测方法、装置、可读存储介质及电子设备
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
Petelin et al. Tla: Topological landscape analysis for single-objective continuous optimization problem instances
CN117371511A (zh) 图像分类模型的训练方法、装置、设备及存储介质
CN111048145A (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
Dong et al. Scene-oriented hierarchical classification of blurry and noisy images
CN115616408A (zh) 电池热管理数据处理方法及系统
CN115064217A (zh) 蛋白质免疫原性分类器构建方法、预测方法、装置及介质
CN115757365A (zh) 多维时序数据异常检测方法、模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230808

Address after: 150000 Room 518, Huichuang technology incubator, No. 161, xidazhi street, Nangang District, Harbin, Heilongjiang Province

Patentee after: Harbin Yu Gao Electronic Technology Co.,Ltd.

Address before: 150080 No. 74, Xuefu Road, Nangang District, Heilongjiang, Harbin

Patentee before: Heilongjiang University