CN116361679B - 基于数据驱动的电缆寿命智能预测方法及系统 - Google Patents
基于数据驱动的电缆寿命智能预测方法及系统 Download PDFInfo
- Publication number
- CN116361679B CN116361679B CN202310644094.5A CN202310644094A CN116361679B CN 116361679 B CN116361679 B CN 116361679B CN 202310644094 A CN202310644094 A CN 202310644094A CN 116361679 B CN116361679 B CN 116361679B
- Authority
- CN
- China
- Prior art keywords
- distance
- data points
- data
- clustering
- optimization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000005457 optimization Methods 0.000 claims abstract description 126
- 239000006185 dispersion Substances 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000003064 k means clustering Methods 0.000 claims description 18
- 230000002123 temporal effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 230000032683 aging Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000035882 stress Effects 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种基于数据驱动的电缆寿命智能预测方法及系统;首先获取电缆历史运行中的多维时序数据,根据迭代聚类中的数据点的距离特征获得簇类离散度和优化程度。根据聚类空间中数据点的邻域数据点与聚类中心的距离特征获得数据点的距离优化因子;根据多维时序数据中数据点的时序近邻数据点与聚类中心的距离特征获得数据点的时序优化因子。根据数据点的簇类离散度、优化程度、距离优化因子和时序优化因子获得距离优化值,根据距离优化值对迭代聚类进行改进,提高数据点的簇类划分和隐藏状态的准确性,进而提高电缆寿命预测的准确度。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于数据驱动的电缆寿命智能预测方法及系统。
背景技术
因电缆的老化和故障容易导致供电中断和设备损坏,故电缆寿命预测是电力系统中较为重要的工作环节,有助于及时采取维护措施,提高电力系统的可靠性。在对电缆的物理老化进行状态分析的过程中可以利用隐马尔可夫模型进行状态的预测,但在隐马尔可夫模型中需要通过电缆寿命影响因素中的运行温度、湿度、电压和机械应力等多个维度的数据进行状态划分。
对多维数据的划分可通过现有的K均值聚类算法将获取的多维数据点划分为不同的电缆状态簇类,从而确定隐马尔可夫模型中所需的隐藏状态。但在通过K均值聚类算法进行聚类时,容易出现聚类不准确的情况,聚类簇中的边缘数据点或局部稀疏数据点的划分不合理,进而导致预测模型对电缆寿命的预测不准确。
发明内容
为了解决上述通过K均值聚类算法进行聚类时,容易出现聚类不准确的情况,导致预测模型对电缆寿命的预测不准确的技术问题,本发明的目的在于提供一种基于数据驱动的电缆寿命智能预测方法及系统,所采用的技术方案具体如下:
获取电缆历史运行中的多维时序数据,对所述多维时序数据中的数据点通过K均值聚类算法进行迭代聚类;在每次迭代聚类的过程中,根据所述数据点与最近一个聚类中心的距离特征获得所述数据点的簇类离散度;根据所述数据点与最近两个聚类中心的距离特征获得所述数据点的优化程度;
确定所述数据点在聚类空间中的邻域数据点,根据所述邻域数据点与不同聚类中心的距离特征获得所述数据点不同的距离优化因子;确定所述数据点在多维时序数据中的时序近邻数据点,根据所述时序近邻数据点与不同聚类中心的距离特征获得所述数据点不同的时序优化因子;
根据所述数据点的所述簇类离散度、所述优化程度、所述距离优化因子和所述时序优化因子,获得所述数据点与不同聚类中心的距离优化值;根据数据点的所述距离优化值继续迭代聚类,根据迭代聚类的结果通过隐马尔可夫模型进行电缆寿命的预测。
进一步地,所述根据所述数据点与最近两个聚类中心的距离特征获得所述数据点的优化程度的步骤包括:
计算所述数据点与最近两个聚类中心的欧氏距离之和,将所述数据点与最近两个聚类中心的欧氏距离之和进行归一化并负相关映射,获得所述数据点的优化程度。
进一步地,所述确定所述数据点在聚类空间中的邻域数据点的步骤包括:
对于任意一次迭代聚类的过程,确定所述数据点在聚类空间中的预设数量个距离最近的其他数据点,作为参考数据点;所述参考数据点在聚类空间中的预设数量个距离最近的其他数据点中,包含所述数据点的参考数据点,作为所述邻域数据点。
进一步地,所述根据所述邻域数据点与不同聚类中心的距离特征获得所述数据点不同的距离优化因子的步骤包括:
计算所述邻域数据点与所述参考数据点的数量比值,获得邻域数量比;计算所述邻域数据点与同一聚类中心的欧氏距离的平均值,获得邻域距离特征值;计算所述邻域数量比与所述邻域距离特征值的乘积,获得所述距离优化因子。
进一步地,所述确定所述数据点在多维时序数据中的时序近邻数据点的步骤包括:
在所述多维时序数据中,确定所述数据点的预设数量个时间最近的其他数据点,作为所述时序近邻数据点。
进一步地,所述根据所述时序近邻数据点与不同聚类中心的距离特征获得所述数据点不同的时序优化因子的步骤包括:
计算所述时序近邻数据点与聚类中心的欧氏距离,获得近邻距离特征值,计算所述时序近邻数据点与所述数据点的时间距离的倒数,获得时间权重,计算所述时间权重与对应的所述近邻距离特征值的乘积,获得近邻距离表征值,计算所述时序近邻数据点对于同一个聚类中心的所述近邻距离表征值的和值,获得所述时序优化因子。
进一步地,所述获得所述数据点与不同聚类中心的距离优化值的步骤包括:
计算所述数据点的所述簇类离散度与所述优化程度的乘积,计算所述数据点的所述簇类离散度与所述优化程度的乘积与数值一的和值,获得距离调节系数,计算所述距离调节系数与所述数据点与对应聚类中心的欧氏距离的乘积,获得距离调节值,计算所述距离调节值、对应的所述距离优化因子和对应的所述时序优化因子三者的和值,获得所述距离优化值。
进一步地,所述根据迭代聚类的结果通过隐马尔可夫模型进行电缆寿命的预测的步骤包括:
根据不同数据点的所述距离优化值通过K均值聚类算法进行迭代聚类,获得不同的电缆状态特征作为不同数据点的隐藏状态;通过隐藏状态训练隐马尔可夫模型对同类型的电缆寿命进行预测。
进一步地,所述根据所述数据点与最近一个聚类中心的距离特征获得所述数据点的簇类离散度的步骤包括:
计算所述数据点与最近一个聚类中心的欧氏距离并归一化,获得所述簇类离散度。
本发明还提出了一种基于数据驱动的电缆寿命智能预测系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序实现任意一项所述方法的步骤。
本发明具有如下有益效果:
在本发明实施例中,获取数据点的簇类离散度,能够根据数据点与对应聚类中心的距离特征表征聚类结果,分析数据点在聚类空间中所处位置,衡量最终的优化情况。计算数据点的优化程度,能够更准确地反映数据点是否处于两个相邻聚类中心的相邻边缘处,从而表征数据点的需要优化的程度。为了能够获得更准确的簇类,需要结合数据点在聚类空间中的邻域数据点,因数据点与其邻域数据点的特征相似,故可通过邻域数据点在聚类中的距离特征获得距离优化因子。同时因为数据点为时序数据,为了避免时序上噪声干扰以及时序上时序近邻数据点的簇类结果不一,影响最终的电缆寿命预测;故获得数据点的时序近邻数据点,根据时序近邻数据点在聚类中的距离特征获得时序优化因子,促使时序上相邻的数据点更倾向于划分到一个簇类。进而获得的距离优化值相比于聚类空间中的欧氏距离能够结合数据点之间的特征,使得簇类划分效果更好,聚类准确度更高,最终提高了电缆寿命预测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于数据驱动的电缆寿命智能预测方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于数据驱动的电缆寿命智能预测方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于数据驱动的电缆寿命智能预测方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于数据驱动的电缆寿命智能预测方法流程图,该方法包括以下步骤:
步骤S1,获取电缆历史运行中的多维时序数据,对多维时序数据中的数据点通过K均值聚类算法进行迭代聚类;在每次迭代聚类的过程中,根据数据点与最近一个聚类中心的距离特征获得数据点的簇类离散度;根据数据点与最近两个聚类中心的距离特征获得数据点的优化程度。
在本发明实施例中,实施场景为对电缆寿命的智能预测。对于电缆寿命的预测可通过隐马尔可夫模型进行分析,隐马尔可夫模型是一种统计分析模型,核心是观察参数中的隐藏状态进而实现识别分析等功能;在本发明实施例中即为确定电缆寿命的隐藏状态,例如正常、轻微老化、中度老化和严重老化等。需要说明的是,隐马尔可夫模型属于现有技术,具体步骤不再赘述。对于确定隐藏状态,可通过采集电缆运行中的多维数据,进行聚类分析,获得不同的簇类,对应电缆不同的隐藏状态。因需要预先确定好隐藏状态的类型,故常用K均值聚类算法进行聚类,K均值聚类算法是一种现有的迭代求解的聚类分析算法,简要步骤为预将数据分为K个对象作为初始的聚类中心,对应K个簇类;计算每个对象与各个种子聚类中心的距离,把每个对象分配给距离最近的聚类中心,分配完成后聚类中心会根据现有的对象被重新聚类以及不断迭代,直到满足聚类中心不再发生变化,聚类完成,具体步骤不再赘述。聚类过程中是根据数据点与不同聚类中心的距离判断所属簇类的,对于簇类中的边缘数据点或稀疏数据点可能会出现聚类误差,导致聚类结果不准确,从而影响数据点隐藏状态的分析,致使电缆寿命预测不准确。因此需要对电缆的多维数据通过K均值聚类算法进行改进,优化距离过程中数据点与聚类中心的距离,提高聚类准确度。
首先,需要获取电缆历史运行中的多维时序数据,因为需要实现电缆寿命的预测,故需要采集电缆历史运行中全生命周期的多维时序数据,通过该多维时序数据进行相同类型的其他电缆的寿命预测。在本发明实施例中,通过电缆的温度传感器、实时电流、实时电压和机械应力传感器获取到电缆运行中的多维时序数据,需要说明的是,实时者可根据实施场景自行确定能够反映电缆寿命的相关数据信息,构成电缆状态的多维时序数据。对于电缆历史运行全生命周期的多维时序数据,每一个时间戳对应一个多维的数据点,不同时间段的数据点特征能够表征不同的电缆寿命特征。后续可通过该多维时序数据进行改进地迭代聚类,获取不同数据点对应的隐藏状态,进而实现电缆寿命的预测。
进一步地,获得多维时序数据之后,可对多维时序数据进行改进地迭代聚类,通过簇类划分结果进行数据点隐藏状态的确定,对于K均值聚类过程中的K值需要通过隐马尔可夫模型所需要的隐藏状态数量确定,在本发明实施例中,将预测模型中的隐藏状态区分为:正常、轻微老化、中度老化和严重老化四种状态,即K值为4,实施者可根据实施场景自行确定隐藏状态的类型与数量。
因为K均值聚类算法在迭代聚类的过程中,是基于聚类对象与聚类中心的距离大小实现簇类划分的,在两个相邻簇类的边缘数据点以及局部稀疏数据点可能会出现划分错误的情况,因此需要对数据点在聚类过程中的距离特征进行优化,提高迭代聚类的精度。整体逻辑为根据数据点在当前迭代过程中的簇类划分情况以及数据点的时序特征,对该数据点在迭代聚类过程中的距离进行优化,提高簇类划分的准确性。对于聚类过程中距离的优化,首先需要分析不同数据点在聚类空间中的簇类特征;故在第一次预设K个初始聚类中心进行聚类后的每次迭代聚类中,可根据数据点与最近一个聚类中心的距离特征获得数据点的簇类离散度,具体包括:计算数据点与最近一个聚类中心的欧氏距离并归一化,获得簇类离散度,其中归一化通过该数据点所在簇类内所有数据点的欧氏距离进行最大值最小值归一化。
对于簇类离散度的获取,因为K均值聚类算法会使每个数据点对应一个所属簇类,进而在聚类空间中某些数据点会在对应簇类的边缘,意味着此类数据点属于该簇类的准确性较小,和聚类中心数据点的特征相似性较小,后续需要对此类数据点的迭代聚类进行更多的优化,寻找合适的簇类,提高聚类的精确性。当数据点距离所属簇类的聚类中心越近,意味着该数据点属于该簇类的准确性越大,和聚类中心数据点的特征较为相似,后续不需要对该数据点的迭代聚类进行更多的优化。故当数据点的簇类离散度越大,意味着该数据点在后续迭代聚类过程中更应该优化;当数据点的簇类离散度越小,意味着该数据点在后续迭代聚类中不需要过多的优化。
在聚类空间中,簇类离散度大的数据点在所属聚类中心的边缘,但该类数据点在聚类空间中存在两种情况,第一种是该数据点距另一个聚类中心的边缘同样较近,即该数据点的隐藏状态难以准确划分;第二种情况为该数据点距所有聚类中心的距离都较远,即在整体的聚类空间边缘,表征电缆状态较为特殊的情况。对于第二种数据点,因为属于特殊情况的数据点,距离所有聚类中心的距离都较远,故不需要再进行过多优化。而对于第一种情况,数据点在两个最近的距离中心的边缘处,可能会出现簇类划分不准确的情况,故后续需要结合更多特征提高数据点的簇类划分准确度。因此需要先确定数据点属于第一种情况或第二种情况,分析数据点迭代聚类中需要优化的程度,故根据数据点与最近两个聚类中心的距离特征获得数据点的优化程度,具体包括:计算数据点与最近两个聚类中心的欧氏距离之和,将数据点与最近两个聚类中心的欧氏距离之和进行归一化并负相关映射,获得数据点的优化程度;其中归一化通过该数据点所在簇类内所有数据点对应的欧氏距离之和进行最大值最小值归一化。
对于数据点的优化程度的获取,当数据点与最近两个聚类中心的欧氏距离之和越大,意味着该数据点在两个簇类的相邻边缘处的可能性越小,对于该数据点的优化程度数值较小,即不需要对迭代聚类进行过多的优化。当数据点与最近两个聚类中心的欧氏距离之和越小,意味着该数据点在两个簇类的相邻边缘处的可能性越大,该数据点的优化程度数值较大,更需要寻找合适的簇类,对该数据点的迭代聚类过程进行优化。
至此,在通过K均值聚类算法的迭代聚类中,通过获得数据点的簇类离散度和优化程度分析该数据点迭代聚类的优化情况,后续可结合其他数据点的数据特征进行迭代聚类的优化。
步骤S2,确定数据点在聚类空间中的邻域数据点,根据邻域数据点与不同聚类中心的距离特征获得数据点不同的距离优化因子;确定数据点在多维时序数据中的时序近邻数据点,根据时序近邻数据点与不同聚类中心的距离特征获得数据点不同的时序优化因子。
在聚类空间中,相邻的数据点表征的电缆状态特征相似,对于数据点迭代聚类的优化,可参考相邻的其他数据点的簇类特征进行分析。因此需要确定数据点在聚类空间中的邻域数据点,具体包括:对于任意一次迭代聚类的过程,确定数据点在聚类空间中的预设数量个距离最近的其他数据点,作为参考数据点;筛选参考数据点在聚类空间中的预设数量个距离最近的其他数据点中,包含数据点的参考数据点,作为邻域数据点。在本发明实施例中,预设数量为10,即参考数据点的数量为10,实施者可根据实施场景自行设定。数据点和其邻域数据点的参考数据点都互相包括对方;数据点和对应的邻域数据点表征的电缆特征相似,因此可将邻域数据点的簇类特征进行分析,优化数据点的簇类划分;故根据邻域数据点与不同聚类中心的距离特征获得数据点不同的距离优化因子,具体包括:计算邻域数据点与参考数据点的数量比值,获得邻域数量比;计算邻域数据点与同一聚类中心的欧氏距离的平均值,获得邻域距离特征值;计算邻域数量比与邻域距离特征值的乘积,获得距离优化因子;距离优化因子的获取公式具体包括:
式中,表示第i个数据点在第m次迭代聚类中对于第c个聚类中心的距离优化
因子,K表示参考数据点的数量,表示第i个数据点在第m次迭代聚类中邻域数据点的数
量,表示第n个邻域数据点在第m次迭代聚类中与第c个聚类中心的欧氏距离。表
示邻域数量比,表示邻域距离特征值。
对于距离优化因子的获取,对于一个数据点,与其邻域数据点的特征相似,故在迭代聚类中,需要尽量将数据点和其邻域数据点共同划分为同一个簇类,够提高聚类的精度,在对数据点的优化过程中,可结合邻域数据点的聚类情况获得距离优化因子,通过距离优化因子优化迭代过程中的距离特征。因此通过数据点的邻域距离特征值作为距离优化因子的度量,并且对于该数据点,当其邻域数据点的数量越多时,即邻域数量比越接近1,则意味着数据点与其参考数据点越接近,进而距离优化因子越可信;否则意味着数据点较为孤立,进而距离优化因子趋于零。
进一步地,因为在电缆运行监测的多维数据中,数据点是具有时序性的,在聚类过程中获取的簇类结果进行数据点的隐藏状态划分可能会导致在时序中连续的数据点出现隐藏状态的频繁变化,从而导致通过隐马尔可夫模型进行电缆寿命预测时出现预测不准确的情况。所以在迭代聚类过程中,为了进一步提高聚类结果的准确性,需要通过数据点时序上相邻的数据点的聚类特征进行优化,从而限制时序中的连续数据点处于同一个状态,同时还能够在隐藏状态的划分中避免一些噪声数据点的影响。故确定数据点在多维时序数据中的时序近邻数据点,具体包括:在多维时序数据中,确定数据点的预设数量个时间最近的其他数据点,作为时序近邻数据点。在本发明实施例中预设数量为10,即时序近邻数据点的数量为10,实施者可根据实施场景自行确定,需要注意的是该预设数量和邻域数据点中的预设数量需要相同。
确定数据点的时序近邻数据点后,可根据时序近邻数据点与不同聚类中心的距离特征获得数据点不同的时序优化因子,具体包括:计算时序近邻数据点与聚类中心的欧氏距离,获得近邻距离特征值,计算时序近邻数据点与数据点的时间距离的倒数,获得时间权重,计算时间权重与对应的近邻距离特征值的乘积,获得近邻距离表征值,计算时序近邻数据点对于同一个聚类中心的近邻距离表征值的和值,获得时序优化因子;时序优化因子的获取公式具体包括:
式中,表示第i个数据点在第m次迭代聚类中对于第c个聚类中心的时序优
化因子,H表示时序近邻数据点的数量,表示第h个时序近邻数据点与对应数据点的时间
距离,例如相邻采样点的时间距离为1;表示第h个时序近邻数据点在第m次迭代聚类
中对于第c个聚类中心的欧氏距离,也即为第h个时序近邻数据点在第m次迭代聚类中对于
第c个聚类中心的近邻距离特征值;为时间权重,为近邻距离表征值。
对于时序优化因子的获取,在迭代聚类中,对于数据点的簇类划分是通过每一次迭代进行聚类中心的变化,并通过每个数据点距离最近的聚类中心作为其簇类划分结果。因此在迭代聚类过程中可通过数据点在时序上的时序近邻数据点对于不同聚类中心的距离进行优化衡量;同时需要考虑到时间距离,时间距离越近,其数据点的特征越相似,在优化过程中权重越大。通过计算时序优化因子,能够让电缆运行监测的多维数据中相邻的数据更倾向于被确定为相同的隐藏状态,从而提高通过隐马尔可夫模型对电缆寿命预测的准确性。
至此,通过数据点在聚类空间中的邻域数据点获得了距离优化因子,通过数据点在多维时序数据上的时序近邻数据点获得了时序优化因子,后续可根据距离优化因子和时序优化因子对迭代聚类进行改进,提高聚类的准确性。
步骤S3,根据数据点的簇类离散度、优化程度、距离优化因子和时序优化因子,获得数据点与不同聚类中心的距离优化值;根据数据点的距离优化值继续迭代聚类,根据迭代聚类的结果通过隐马尔可夫模型进行电缆寿命的预测。
在通过K均值聚类算法的迭代聚类中计算了数据点的簇类离散度、优化程度、距离优化因子和时序优化因子后,可以对聚类中的距离衡量进行优化;故根据数据点的簇类离散度、优化程度、距离优化因子和时序优化因子,获得数据点与不同聚类中心的距离优化值,具体包括:计算数据点的簇类离散度与优化程度的乘积,计算数据点的簇类离散度与优化程度的乘积与数值一的和值,获得距离调节系数,计算距离调节系数与数据点与对应聚类中心的欧氏距离的乘积,获得距离调节值,计算距离调节值、对应的距离优化因子和对应的时序优化因子三者的和值,获得距离优化值;距离优化值的获取公式具体包括:
式中,表示第i个数据点在第m次迭代聚类中对于第c个聚类中心的距离优化
值,表示第i个数据点在第m次迭代聚类中的簇类离散度,表示第i个数据点在第m
次迭代聚类中的优化程度,表示第i个数据点在第m次迭代聚类中对于第c个聚类中心
的欧氏距离,表示第i个数据点在第m次迭代聚类中对于第c个聚类中心的距离优化因
子,表示第i个数据点在第m次迭代聚类中对于第c个聚类中心的时序优化因子。为距离调节系数;为距离调节值。
对于数据点的距离优化值,当数据点的簇类离散度和优化程度越大,则意味着该数据点处于两个相邻簇类的边缘,需要寻找更准确更合适的簇类,因此对此类数据点距离的调整越大,同时再结合数据点的距离优化因子和时序优化因子,通过时序近邻数据点和邻域数据点的聚类特征进行辅助计算,获得距离优化值,该距离优化值相比于单一计算欧氏距离,能够结合多方面的特征进行更准确地聚类,获得簇类划分效果更好的聚类结果。
计算数据点与不同聚类中心的距离特征值进行比较,划分到距离特征值最小的簇类中,根据不同数据点的距离优化值通过K均值聚类算法进行迭代聚类;最终获得不同的电缆状态特征作为不同数据点的隐藏状态。获得数据点多维数据的观测值与对应的隐藏状态之后,即可通过隐马尔可夫的训练过程使模型学习到状态之间的转移概率、观测值与隐藏状态之间的发射概率等参数,并通过训练好的隐马尔可夫模型对同类型的新的观测数据进行预测。通过现有的维特比算法确定最可能的隐藏状态序列,从而预测电缆的寿命。需要说明的是,维特比算法和隐马尔可夫模型为现有技术,具体步骤不再赘述。至此,通过对K均值聚类算法中的距离进行优化,使得数据点的簇类划分结果和对应的隐藏状态更准确,进而提高了电缆寿命的预测准确性。
综上所述,本发明实施例提供了一种基于数据驱动的电缆寿命智能预测方法;首先获取电缆历史运行中的多维时序数据,根据迭代聚类中的数据点的距离特征获得簇类离散度和优化程度。根据聚类空间中数据点的邻域数据点与聚类中心的距离特征获得数据点的距离优化因子;根据多维时序数据中数据点的时序近邻数据点与聚类中心的距离特征获得数据点的时序优化因子。根据数据点的簇类离散度、优化程度、距离优化因子和时序优化因子获得距离优化值,根据距离优化值对迭代聚类进行改进,提高数据点的簇类划分和隐藏状态的准确度,进而提高电缆寿命预测的准确度。
本发明还提出了一种基于数据驱动的电缆寿命智能预测系统,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序实现任意一项一种基于数据驱动的电缆寿命智能预测方法的步骤。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (4)
1.一种基于数据驱动的电缆寿命智能预测方法,其特征在于,所述方法包括以下步骤:
获取电缆历史运行中的多维时序数据,对所述多维时序数据中的数据点通过K均值聚类算法进行迭代聚类;在每次迭代聚类的过程中,根据所述数据点与最近一个聚类中心的距离特征获得所述数据点的簇类离散度;根据所述数据点与最近两个聚类中心的距离特征获得所述数据点的优化程度;
确定所述数据点在聚类空间中的邻域数据点,根据所述邻域数据点与不同聚类中心的距离特征获得所述数据点不同的距离优化因子;确定所述数据点在多维时序数据中的时序近邻数据点,根据所述时序近邻数据点与不同聚类中心的距离特征获得所述数据点不同的时序优化因子;
根据所述数据点的所述簇类离散度、所述优化程度、所述距离优化因子和所述时序优化因子,获得所述数据点与不同聚类中心的距离优化值;根据数据点的所述距离优化值继续迭代聚类,根据迭代聚类的结果通过隐马尔可夫模型进行电缆寿命的预测;
所述根据所述数据点与最近两个聚类中心的距离特征获得所述数据点的优化程度的步骤包括:
计算所述数据点与最近两个聚类中心的欧氏距离之和,将所述数据点与最近两个聚类中心的欧氏距离之和进行归一化并负相关映射,获得所述数据点的优化程度;
所述确定所述数据点在聚类空间中的邻域数据点的步骤包括:
对于任意一次迭代聚类的过程,确定所述数据点在聚类空间中的预设数量个距离最近的其他数据点,作为参考数据点;所述参考数据点在聚类空间中的预设数量个距离最近的其他数据点中,包含所述数据点的参考数据点,作为所述邻域数据点;
所述根据所述邻域数据点与不同聚类中心的距离特征获得所述数据点不同的距离优化因子的步骤包括:
计算所述邻域数据点与所述参考数据点的数量比值,获得邻域数量比;计算所述邻域数据点与同一聚类中心的欧氏距离的平均值,获得邻域距离特征值;计算所述邻域数量比与所述邻域距离特征值的乘积,获得所述距离优化因子;
所述确定所述数据点在多维时序数据中的时序近邻数据点的步骤包括:
在所述多维时序数据中,确定所述数据点的预设数量个时间最近的其他数据点,作为所述时序近邻数据点;
所述根据所述时序近邻数据点与不同聚类中心的距离特征获得所述数据点不同的时序优化因子的步骤包括:
计算所述时序近邻数据点与聚类中心的欧氏距离,获得近邻距离特征值,计算所述时序近邻数据点与所述数据点的时间距离的倒数,获得时间权重,计算所述时间权重与对应的所述近邻距离特征值的乘积,获得近邻距离表征值,计算所述时序近邻数据点对于同一个聚类中心的所述近邻距离表征值的和值,获得所述时序优化因子;
所述获得所述数据点与不同聚类中心的距离优化值的步骤包括:
计算所述数据点的所述簇类离散度与所述优化程度的乘积,计算所述数据点的所述簇类离散度与所述优化程度的乘积与数值一的和值,获得距离调节系数,计算所述距离调节系数与所述数据点与对应聚类中心的欧氏距离的乘积,获得距离调节值,计算所述距离调节值、对应的所述距离优化因子和对应的所述时序优化因子三者的和值,获得所述距离优化值。
2.根据权利要求1所述的一种基于数据驱动的电缆寿命智能预测方法,其特征在于,所述根据迭代聚类的结果通过隐马尔可夫模型进行电缆寿命的预测的步骤包括:
根据不同数据点的所述距离优化值通过K均值聚类算法进行迭代聚类,获得不同的电缆状态特征作为不同数据点的隐藏状态;通过隐藏状态训练隐马尔可夫模型对同类型的电缆寿命进行预测。
3.根据权利要求1所述的一种基于数据驱动的电缆寿命智能预测方法,其特征在于,所述根据所述数据点与最近一个聚类中心的距离特征获得所述数据点的簇类离散度的步骤包括:
计算所述数据点与最近一个聚类中心的欧氏距离并归一化,获得所述簇类离散度。
4.一种基于数据驱动的电缆寿命智能预测系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序实现如权利要求1-3任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310644094.5A CN116361679B (zh) | 2023-06-02 | 2023-06-02 | 基于数据驱动的电缆寿命智能预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310644094.5A CN116361679B (zh) | 2023-06-02 | 2023-06-02 | 基于数据驱动的电缆寿命智能预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116361679A CN116361679A (zh) | 2023-06-30 |
CN116361679B true CN116361679B (zh) | 2023-08-11 |
Family
ID=86910962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310644094.5A Active CN116361679B (zh) | 2023-06-02 | 2023-06-02 | 基于数据驱动的电缆寿命智能预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361679B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117195029B (zh) * | 2023-11-08 | 2024-03-05 | 南通腾宇环保设备有限公司 | 一种用于清洁站的除臭机数据实时处理方法及系统 |
CN117454671B (zh) * | 2023-12-22 | 2024-04-12 | 广东力宏微电子有限公司 | 基于人工智能的场效应管寿命评估方法 |
CN117992870B (zh) * | 2024-04-03 | 2024-06-25 | 山东铁鹰建设工程有限公司 | 一种用于智能化衬砌台车的偏压预警方法 |
CN118013447B (zh) * | 2024-04-10 | 2024-06-14 | 山东德源电力科技股份有限公司 | 基于模式识别的电能表监测数据的处理方法 |
CN118051800B (zh) * | 2024-04-16 | 2024-06-21 | 山东峰华智能科技有限公司 | 基于云边协同的矿内监测数据智能处理方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750800A (zh) * | 2014-11-13 | 2015-07-01 | 安徽四创电子股份有限公司 | 一种基于出行时间特征的机动车聚类方法 |
CN109524993A (zh) * | 2018-12-19 | 2019-03-26 | 中国农业大学 | 用于中长期优化调度的风电光伏典型周出力场景生成方法 |
CN110738232A (zh) * | 2019-08-27 | 2020-01-31 | 国网四川省电力公司电力科学研究院 | 一种基于数据挖掘技术的电网电压越限成因诊断方法 |
WO2020155755A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于谱聚类的异常点比例优化方法、装置及计算机设备 |
CN112991740A (zh) * | 2021-03-23 | 2021-06-18 | 苏州蓝图智慧城市科技有限公司 | 一种基于出行离散度及聚类的车辆引导方法、介质及设备 |
JPWO2021144938A1 (zh) * | 2020-01-16 | 2021-07-22 | ||
CN115600119A (zh) * | 2022-12-13 | 2023-01-13 | 青岛左岸数据科技有限公司(Cn) | 适用于风力发电的数据处理方法及系统 |
CN116055182A (zh) * | 2023-01-28 | 2023-05-02 | 北京特立信电子技术股份有限公司 | 基于访问请求路径分析的网络节点异常识别方法 |
CN116050573A (zh) * | 2022-11-28 | 2023-05-02 | 苏州科技大学 | 基于聚类和lstm的太湖水质预测方法 |
CN116185722A (zh) * | 2023-04-28 | 2023-05-30 | 北京环球医疗救援有限责任公司 | 一种用于医疗保险主数据存储的数据安全管理系统 |
-
2023
- 2023-06-02 CN CN202310644094.5A patent/CN116361679B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104750800A (zh) * | 2014-11-13 | 2015-07-01 | 安徽四创电子股份有限公司 | 一种基于出行时间特征的机动车聚类方法 |
CN109524993A (zh) * | 2018-12-19 | 2019-03-26 | 中国农业大学 | 用于中长期优化调度的风电光伏典型周出力场景生成方法 |
WO2020155755A1 (zh) * | 2019-01-28 | 2020-08-06 | 平安科技(深圳)有限公司 | 基于谱聚类的异常点比例优化方法、装置及计算机设备 |
CN110738232A (zh) * | 2019-08-27 | 2020-01-31 | 国网四川省电力公司电力科学研究院 | 一种基于数据挖掘技术的电网电压越限成因诊断方法 |
JPWO2021144938A1 (zh) * | 2020-01-16 | 2021-07-22 | ||
CN112991740A (zh) * | 2021-03-23 | 2021-06-18 | 苏州蓝图智慧城市科技有限公司 | 一种基于出行离散度及聚类的车辆引导方法、介质及设备 |
CN116050573A (zh) * | 2022-11-28 | 2023-05-02 | 苏州科技大学 | 基于聚类和lstm的太湖水质预测方法 |
CN115600119A (zh) * | 2022-12-13 | 2023-01-13 | 青岛左岸数据科技有限公司(Cn) | 适用于风力发电的数据处理方法及系统 |
CN116055182A (zh) * | 2023-01-28 | 2023-05-02 | 北京特立信电子技术股份有限公司 | 基于访问请求路径分析的网络节点异常识别方法 |
CN116185722A (zh) * | 2023-04-28 | 2023-05-30 | 北京环球医疗救援有限责任公司 | 一种用于医疗保险主数据存储的数据安全管理系统 |
Non-Patent Citations (1)
Title |
---|
协方差测距算法在多维聚类分析中的优化研究;刘云等;重庆大学学报;第46卷(第5期);102-110 * |
Also Published As
Publication number | Publication date |
---|---|
CN116361679A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116361679B (zh) | 基于数据驱动的电缆寿命智能预测方法及系统 | |
CN112084237A (zh) | 一种基于机器学习和大数据分析的电力系统异常预测方法 | |
CN115982602B (zh) | 一种光伏变压器电故障检测方法 | |
CN111429034A (zh) | 一种配电网故障预测的方法 | |
CN110750524A (zh) | 一种有源配电网故障特征的确定方法及系统 | |
CN114861788A (zh) | 一种基于dbscan聚类的负荷异常检测方法及系统 | |
CN116805785B (zh) | 基于随机聚类的电力负荷层次时间序列预测方法 | |
CN117273489A (zh) | 光伏状态评估方法及装置 | |
CN118363980B (zh) | 一种sql语句智能合并方法及系统 | |
CN116306229A (zh) | 一种基于深度强化学习和迁移学习电力短期负荷预测方法 | |
CN118378199A (zh) | 一种大数据分析平台中的实时异常检测方法 | |
CN115982608A (zh) | 一种基于线损动态分析的线损异常判断方法 | |
CN117973899A (zh) | 基于大数据的土地开发与经营信息智能管理系统 | |
CN117435937A (zh) | 一种智能电表异常数据识别方法、装置、设备及存储介质 | |
CN116539285A (zh) | 基于人工智能的光源检测方法、装置、设备及存储介质 | |
CN111797899A (zh) | 一种低压台区kmeans聚类方法及系统 | |
US20230161653A1 (en) | Method of managing system health | |
CN116842464A (zh) | 一种电池系统soc估计方法 | |
CN115982621A (zh) | 一种基于时间卷积网络的旋转机械剩余使用寿命预测方法 | |
CN109547248A (zh) | 基于人工智能的在轨飞行器自组网故障诊断方法及装置 | |
CN115659271A (zh) | 传感器异常检测方法、模型训练方法、系统、设备及介质 | |
CN116757337B (zh) | 一种基于人工智能的房建施工进度预测系统 | |
CN113283157A (zh) | 智能冲压压力机部件生命周期预测系统、方法、终端、介质 | |
CN113377630A (zh) | 一种通用的kpi异常检测框架实现方法 | |
CN117878929B (zh) | 基于多源数据融合的负荷控制终端预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |