CN117520824A - 一种基于信息熵的分布式光纤数据特征重构方法 - Google Patents

一种基于信息熵的分布式光纤数据特征重构方法 Download PDF

Info

Publication number
CN117520824A
CN117520824A CN202410003931.0A CN202410003931A CN117520824A CN 117520824 A CN117520824 A CN 117520824A CN 202410003931 A CN202410003931 A CN 202410003931A CN 117520824 A CN117520824 A CN 117520824A
Authority
CN
China
Prior art keywords
feature
information entropy
data
optical fiber
distributed optical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410003931.0A
Other languages
English (en)
Inventor
李清毅
滕卫明
朱程远
李江
杨秦敏
张国民
何国军
江芸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Provincial Natural Gas Development Co ltd
Zhejiang Baimahu Laboratory Co ltd
Zhejiang University ZJU
Original Assignee
Zhejiang Provincial Natural Gas Development Co ltd
Zhejiang Baimahu Laboratory Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Provincial Natural Gas Development Co ltd, Zhejiang Baimahu Laboratory Co ltd, Zhejiang University ZJU filed Critical Zhejiang Provincial Natural Gas Development Co ltd
Priority to CN202410003931.0A priority Critical patent/CN117520824A/zh
Publication of CN117520824A publication Critical patent/CN117520824A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Optical Transform (AREA)

Abstract

本发明公开了一种基于信息熵的分布式光纤数据特征重构方法。为了克服现有技术实际分布式光纤的应用场景中存在不同的外部干扰,干扰振动检测的问题;本发明包括以下步骤:S1:多分布式光纤数据进行多维特征提取,并计算每个特征的信息熵;S2:根据信息熵的阈值比较筛选特征,筛选后的特征构成特征矩阵;S3:对特征矩阵中的数据去均值化处理后,采用主要成分分析对特征矩阵降维,获得重构特征。通过对特征进行降维处理,在保障时效性的同时,减少特征冗余,提升后续检测、识别、定位等任务的运行效率;采用数据均值化代替数据标准化消除数据在量纲和数量级上的差异,避免了各特征间的变异程度差异性被淹没。

Description

一种基于信息熵的分布式光纤数据特征重构方法
技术领域
本发明涉及光纤数据重构技术领域,尤其涉及一种基于信息熵的分布式光纤数据特征重构方法。
背景技术
外部入侵事件已经成为长输天然气管道破坏的主要原因,管道破坏会带来气体泄漏、燃爆、地表塌陷等事故,造成的生命、财产损失是十分巨大而沉重的。如何高效、及时、精准地早期定位外部入侵事件,从而进行提前干预是目前管道防范外部破坏的迫切需求,具有重大的社会价值与研究意义。
分布式光纤传感具有长距离铺设、可塑性强、供电简单、抗电磁干扰、耐腐蚀等先天优势,可以十分便利地在山地、农林、河流等各类复杂地形下铺设应用,对各类长距离、大范围设施的入侵事件检测任务具有很好的适应性,在防范管道外部入侵方面具有巨大的研究价值与应用前景。例如,一种在中国专利文献上公开的“分布式光纤地质沉降与管道应力危害预警监测装置和方法”,其公告号:CN109099948A,将全分布式光纤应变检测系统与准分布式光纤应变检测系统相结合,对布里渊散射信号和光纤光栅回波信号进行实时处理和解调,将应变信息和具体位置在显示装置上显示出来。
分布式光纤传感系统应用于管道外部威胁监测时,相比于实验室环境下还面临着一系列的实际问题。
一方面光波能量存在着随距离衰减的物理规律,同时天然气管道沿线存在着山地、农田、公路等不同的地质地貌,不同的地质对于振动的传导是有所差异的。
另一方面,天然气管道沿线还存在高速公路、铁道线路、工厂等各类存在干扰性振动的场景,这些场景引发的振动在信号特性上与挖掘机、钻土机等机械挖掘威胁事件存在着一定的相似性,给威胁事件识别带来了很大的干扰。
发明内容
本发明主要解决现有技术实际分布式光纤的应用场景中存在不同的外部干扰,干扰振动检测的问题;提供一种基于信息熵的分布式光纤数据特征重构方法,通过计算多维特征的信息熵,并对数据进行均值化处理后再进行主成分分析,获得特征降维后的重构特征,进行深入表征,提高数据处理的效率与有效性。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于信息熵的分布式光纤数据特征重构方法,包括以下步骤:
S1:多分布式光纤数据进行多维特征提取,并计算每个特征的信息熵;
S2:根据信息熵的阈值比较筛选特征,筛选后的特征构成特征矩阵;
S3:对特征矩阵中的数据去均值化处理后,采用主要成分分析对特征矩阵降维,获得重构特征。
本方案对特征进行降维处理,在保障时效性的同时,减少特征冗余,提升后续检测、识别、定位等任务的运行效率;采用数据均值化代替数据标准化消除数据在量纲和数量级上的差异,避免了各特征间的变异程度差异性被淹没。
作为优选,对于存在n种取值的特征X,对应的信息熵定义为:
其中,表示特征X取值为/>时的概率值;
表示的是特征X的信息熵。
反映的是特征X的信息量,/>越小对应的信息熵越大,意味着其发生时提供的信息量越大。
作为优选,将计算得到的各特征的信息熵与信息熵阈值比较,保留大于信息熵阈值的特征;将保留的特征构成新的特征矩阵X’。
在主要成分分析(PCA)的基础之上引入了信息熵做特征筛选,提升了数据降维的效率。
作为优选,对特征矩阵X’的去均值化处理过程为:
其中,为特征矩阵中去均值化后的第i行第j列的特征数据;
为特征矩阵中去均值化后的第i行第j列的特征数据;
m为特征维度个数。
并采用数据均值化代替原有PCA方法数据预处理采用的标准化处理,消除特征数量级和量纲的差异,同时也保留变异程度的差异性。
作为优选,对特征矩阵的降维过程包括:
计算去均值化数据的协方差矩阵C,并采用特征值分解计算协方差矩阵C的特征值和特征向量;
选取若干特征值与对应的特征向量相乘,实现特征降维。
作为优选,协方差矩阵C的计算方法如下:
其中,代表特征矩阵/>的转置;
m代表维度个数;
表示每个数据的协方差。
作为优选,根据下式计算处理的保留贡献率:
其中,为第i个特征值;
k为选取的特征值数量;
d为全部特征值数量。
特征值可以反映各特征在原始特征组的信息重要程度,可选取前k个作为预期分量,去除特征值较小的成分。
本发明的有益效果是:
1.针对特征提取冗余问题,提升分布式光纤数据的处理效率,提出了基于信息熵的特征重构方法,对特征进行降维处理,在保障时效性的同时,减少特征冗余,提升后续检测、识别、定位等任务的运行效率;
2. 采用数据均值化代替数据标准化消除数据在量纲和数量级上的差异,避免了各特征间的变异程度差异性被淹没。
附图说明
图1是本发明的基于信息熵的特征降维流程图。
图2是本发明的0,1信源信息熵曲线图。
图3是本发明的信息熵、条件熵与互信息的关系示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种基于信息熵的分布式光纤数据特征重构方法,包括以下步骤:
多分布式光纤数据进行多维特征提取,并计算每个特征的信息熵。
对光纤传感信号进行特征提取,包括幅值特征、离散程度特征、波形分布特征,共15维特征,提取方法根据公式对原始信号进行特征计算。
其中,峰值(Peak value, PK)和最小值(Minimum, Min)是指扰动信号的幅值最大值和最小值。
峰峰值(Peak-to-Peak, PK-PK)是这两者的差值。
均值(Mean, M)即为幅值平均。
能量(Energy, E)是扰动信号的绝对值的平方和,一般取对数处理避免数组过大。
整流平均值(Average rectified value, Arv)是信号绝对值的平均,因而其对差分前信号而言意义与均值一致。
均方根(Root Mean Square, RMS)借鉴了交流电的计算方式,描述的是波形的有效值。
方差(variance, var)和标准差(Standard deviation, SD),两者描述了信号较均值的离散程度方。
峭度因子(Kurtosis, Kur)描述的是波形平缓程度。
偏度因子(Skewness, Skew)描述的是波形分布偏斜方向和程度。
裕度因子(Clearance factor, CL)、波形因子(Shape factor, S)、峰值因子(Crest factor,C)、脉冲因子(Impulse factor,I)是都是比值定义,对于冲击性较为敏感。
接着,采取基于信息熵的PCA方法进行特征降维,从而获得重构特征。
信息熵是用于来衡量事件或信号的不确定性的,对于一个事件而言,如果其发生概率越小,那么该事件发生是提供的信息就越多。如“地球是圆的”和“太阳从西边升起”,前者为已知的既定事实,“地球是圆的”对该事件的发生并不能提供任何有效信息,其信息量为0;后者是一个不可能事件,如若发生“太阳从西边升起”,则意味着宇宙发生重大变化,对此而言它所提供的信息量是无穷大。
对于一个具有n种取值的随机变量X,即,其信息熵的定义为:
其中,表示随机变量X取值为/>时的概率值,其概率值大于等于0,且有:
反映的是变量X的信息量;/>越小对应的信息熵越大,意味着其发生时提供的信息量越大。
只有0,1两者可能元素的元信源是最简单的单符号信源,其信息熵如图2所示。
信息熵具有如下特性:
1.非负性:
任一信源提供的信息量大于等于0,即
2.单调性:
如果,那么对应的/>
3.累加性:
两个互相独立元素对应信息熵可以通过加和计算,即
类似地,随机变量X和变量Y的条件熵为:
表示在给定变量Y的条件下随机变量X的不确定性。如若变量X和变量Y两者相互独立,则有:
随机变量X和变量Y的互信息为:
互信息描述的是随机变量Y在因为已知Y事件而减少的信息量,反映的是事件间的依赖性,其同时也满足
信息熵、/>、/>,条件熵/>、/>,互信息/>的相互关系如图3所示。
基于信息熵的特征降维算法具体流程如图1所示,其在主要成分分析(PCA)的基础之上引入了信息熵做特征筛选,提升了数据降维的效率;并采用数据均值化代替原有PCA方法数据预处理采用的标准化处理,消除特征数量级和量纲的差异,同时也保留变异程度的差异性。
对于含有d个样本数、m个维度特征的信号特征组,其特征降维过程如下:
1)特征信息熵筛选。
计算各特征的信息熵,与信息熵阈值做比较。
如果大于设定的信息熵阈值,则将特征保留,否则将其剔除。
在本实施例中,信息熵阈值选为全体特征信息熵的中位数,即实现对50%的特征进行初步筛选。
2)获得新特征矩阵。
对于信号特征组所有特征完成信息熵计算之后,将满足条件的特征加入新的特征矩阵/>中,最终得到新的特征矩阵/>
3)对特征矩阵中的数据去均值化,消除量纲差异,其过程如下式所示。
其中,为特征矩阵中去均值化后的第i行第j列的特征数据;
为特征矩阵中去均值化后的第i行第j列的特征数据;
m为特征维度个数。
4)计算去均值化数据的协方差矩阵。
协方差矩阵C的计算方法如下:
其中,代表特征矩阵/>的转置;
m代表维度个数;
表示每个数据的协方差。
5)计算协方差矩阵的特征值和特征向量/>
采用特征值分解进行计算,可表示为:
其中,是特征向量/>对应的特征值;
是矩阵/>的特征向量组成的矩阵;
则是一个对角阵,对角线上的元素就是特征值。
6)选取主成分。
计算得到的特征值可以反映各特征在原始特征组的信息重要程度,可选取前k个作为预期分量,去除特征值较小的成分。再根据下式计算本次处理所保留贡献率。
7. 获得降维后特征。
将选取的k个特征值与对应特征向量相乘,实现从d维到k维的特征降维。
选取某省天然气管网采集到的光纤监测数据进行实验验证,如表1所示。
表1. 某省天然气管网的光纤监测数据降维实验验证表
通过基于信息熵的特征降维,将光纤传感信号特征提取得到15维幅值特征、离散程度特征和形状特征转化为4维度的主成分特征,保留99.06%的贡献率,同时也有效降低模型的训练和预测负担。
本实施例的方案针对特征提取冗余问题,提升分布式光纤数据的处理效率,提出了基于信息熵的特征重构方法,对特征进行降维处理,在保障时效性的同时,减少特征冗余,提升后续检测、识别、定位等任务的运行效率;采用数据均值化代替数据标准化消除数据在量纲和数量级上的差异,避免了各特征间的变异程度差异性被淹没。
应理解,实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (7)

1.一种基于信息熵的分布式光纤数据特征重构方法,其特征在于,包括以下步骤:
S1:多分布式光纤数据进行多维特征提取,并计算每个特征的信息熵;
S2:根据信息熵的阈值比较筛选特征,筛选后的特征构成特征矩阵;
S3:对特征矩阵中的数据去均值化处理后,采用主要成分分析对特征矩阵降维,获得重构特征。
2.根据权利要求1所述的一种基于信息熵的分布式光纤数据特征重构方法,其特征在于,对于存在n种取值的特征X,对应的信息熵定义为:
其中,表示特征X取值为/>时的概率值;
表示的是特征X的信息熵。
3.根据权利要求1或2所述的一种基于信息熵的分布式光纤数据特征重构方法,其特征在于,将计算得到的各特征的信息熵与信息熵阈值比较,保留大于信息熵阈值的特征;将保留的特征构成新的特征矩阵X’。
4.根据权利要求3所述的一种基于信息熵的分布式光纤数据特征重构方法,其特征在于,对特征矩阵X’的去均值化处理过程为:
其中,为特征矩阵中去均值化后的第i行第j列的特征数据;
为特征矩阵中去均值化后的第i行第j列的特征数据;
m为特征维度个数。
5.根据权利要求1或4所述的一种基于信息熵的分布式光纤数据特征重构方法,其特征在于,对特征矩阵的降维过程包括:
计算去均值化数据的协方差矩阵C,并采用特征值分解计算协方差矩阵C的特征值和特征向量;
选取若干特征值与对应的特征向量相乘,实现特征降维。
6.根据权利要求5所述的一种基于信息熵的分布式光纤数据特征重构方法,其特征在于,协方差矩阵C的计算方法如下:
其中,代表特征矩阵/>的转置;
m代表维度个数;
表示每个数据的协方差。
7.根据权利要求5所述的一种基于信息熵的分布式光纤数据特征重构方法,其特征在于,根据下式计算处理的保留贡献率:
其中,为第i个特征值;
k为选取的特征值数量;
d为全部特征值数量。
CN202410003931.0A 2024-01-03 2024-01-03 一种基于信息熵的分布式光纤数据特征重构方法 Pending CN117520824A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410003931.0A CN117520824A (zh) 2024-01-03 2024-01-03 一种基于信息熵的分布式光纤数据特征重构方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410003931.0A CN117520824A (zh) 2024-01-03 2024-01-03 一种基于信息熵的分布式光纤数据特征重构方法

Publications (1)

Publication Number Publication Date
CN117520824A true CN117520824A (zh) 2024-02-06

Family

ID=89766728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410003931.0A Pending CN117520824A (zh) 2024-01-03 2024-01-03 一种基于信息熵的分布式光纤数据特征重构方法

Country Status (1)

Country Link
CN (1) CN117520824A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407363A (zh) * 2016-09-08 2017-02-15 电子科技大学 一种基于信息熵的超高维数据降维算法
CN110334546A (zh) * 2019-07-08 2019-10-15 辽宁工业大学 基于主成分分析优化的差分隐私高维数据发布保护方法
CN110991554A (zh) * 2019-12-16 2020-04-10 沈阳理工大学 一种基于改进pca的深度网络图像分类方法
CN111427866A (zh) * 2020-03-30 2020-07-17 江苏方天电力技术有限公司 一种基于相关性和主成分分析的建模变量选择方法
CN113378021A (zh) * 2021-07-08 2021-09-10 哈尔滨理工大学 基于半监督的信息熵主成分分析降维方法
CN116186590A (zh) * 2023-03-06 2023-05-30 华北电力大学(保定) 基于数据层特征融合和卷积神经网络的轴承故障诊断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407363A (zh) * 2016-09-08 2017-02-15 电子科技大学 一种基于信息熵的超高维数据降维算法
CN110334546A (zh) * 2019-07-08 2019-10-15 辽宁工业大学 基于主成分分析优化的差分隐私高维数据发布保护方法
CN110991554A (zh) * 2019-12-16 2020-04-10 沈阳理工大学 一种基于改进pca的深度网络图像分类方法
CN111427866A (zh) * 2020-03-30 2020-07-17 江苏方天电力技术有限公司 一种基于相关性和主成分分析的建模变量选择方法
CN113378021A (zh) * 2021-07-08 2021-09-10 哈尔滨理工大学 基于半监督的信息熵主成分分析降维方法
CN116186590A (zh) * 2023-03-06 2023-05-30 华北电力大学(保定) 基于数据层特征融合和卷积神经网络的轴承故障诊断方法

Similar Documents

Publication Publication Date Title
Choubin et al. Earth fissure hazard prediction using machine learning models
CN103093400B (zh) 一种隧道施工中邻近建筑物安全性定量评价方法
Niu et al. Susceptibility assessment of landslides triggered by the Lushan earthquake, April 20, 2013, China
CN105426840A (zh) 一种基于多特征融合的红外森林火灾判定方法
Feng et al. Do anthropogenic factors affect the improvement of vegetation cover in resource-based region?
CN112132371A (zh) 一种耦合熵权-模糊聚类算法的城市洪涝风险评估方法
CN115455791B (zh) 一种基于数值模拟技术提高滑坡位移预测准确率的方法
CN116992522A (zh) 深基坑围护结构变形预测方法、装置、设备及存储介质
Wang et al. Ground fissure susceptibility mapping based on factor optimization and support vector machines
CN107748361A (zh) 基于截断杂波统计的sar图像双参数cfar检测方法
CN111175816B (zh) 油藏改造实时构建微地震裂缝网络的方法及装置
CN117272232A (zh) 数据融合的隧道监测方法、装置、计算机设备及存储介质
Liu et al. Joint probability analysis of marine environmental elements
CN117520824A (zh) 一种基于信息熵的分布式光纤数据特征重构方法
Wang et al. Landslide susceptibility prediction considering rock integrity and stress state: a case study
CN113808370A (zh) 一种面向滑坡的多指标耦合监测预警方法
Zeng et al. Assessment of earthquake-induced landslide hazard zoning using the physics-environmental coupled Model
CN114021422B (zh) 一种基于跨孔雷达和深度学习的地下结构内部缺陷识别方法
Johncy et al. An efficient power theft detection using mean-shift clustering and deep learning in smart grid
CN115331096A (zh) 一种采矿沉陷区域识别方法、系统、存储介质和电子设备
CN111414698A (zh) 一种地铁隧道开挖地表沉降成因的对应分析方法
He et al. Rapid identification of signs of external force damage along the cable
Macciotta et al. Rock falls–a deterministic process with nonlinear behavior
CN118279681B (zh) 一种滑坡隐患的综合判识方法
CN117725843B (zh) 一种基于深度学习的房屋结构变形预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination