CN117076906B - 分布式智能故障诊断方法和系统、计算机设备、存储介质 - Google Patents
分布式智能故障诊断方法和系统、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN117076906B CN117076906B CN202311042752.XA CN202311042752A CN117076906B CN 117076906 B CN117076906 B CN 117076906B CN 202311042752 A CN202311042752 A CN 202311042752A CN 117076906 B CN117076906 B CN 117076906B
- Authority
- CN
- China
- Prior art keywords
- data
- target
- global
- feature
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 158
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 238000003066 decision tree Methods 0.000 claims abstract description 48
- 230000008569 process Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000005070 sampling Methods 0.000 claims description 22
- 238000010276 construction Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 description 39
- 238000007637 random forest analysis Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004899 c-terminal region Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本申请实施例提供了一种分布式智能故障诊断方法和系统、计算机设备、存储介质,属于数据库智能预测技术领域。该方法包括:将边缘客户端发送的目标局部冲突特征输入故障诊断模型;故障诊断模型通过以下过程训练而成:根据样本局部冲突特征进行绑定得到目标绑定索引特征;根据目标绑定索引特征和样本局部冲突特征确定目标全局数据;根据目标全局数据进行特征分箱得到目标全局分箱数据;根据目标全局分箱数据得到全局梯度数据,从而构建全局直方图,并构建目标决策树;根据目标决策树预测得到预测诊断数据;根据预测诊断数据和样本诊断数据对初始诊断模型进行模型训练得到故障诊断模型。本申请实施例能够实现大规模故障数据的准确故障诊断。
Description
技术领域
本申请涉及数据库智能预测技术领域,尤其涉及一种分布式智能故障诊断方法和系统、计算机设备、存储介质。
背景技术
随着技术的不断发展,工业企业在生产过程中产生的数据越来越多,包括传感器数据、设备运行数据、生产质量数据等。由于成本、技术更新速度等原因,大部分工业企业的计算机硬件资源配置并不高。这导致了在对大量数据进行故障预测时,计算设备的计算能力和存储能力受到了极大的限制,使得工业企业难以应对复杂的数据分析需求。
相关技术的故障诊断方法采用随机森林(Random Forest,RF)算法或XGBoost算法。其中,RF算法通过构建多个决策树,并综合每个决策树的结果进行分类,该算法具有较好的分类准确性,即故障诊断准确性。然而,在处理大规模数据时,由于RF需要并行训练多个决策树,因此该方法的计算复杂度较高,且存在单机硬件资源消耗过高的问题。XGBoost是一种梯度提升算法,通过迭代训练多个弱分类器,并对错误分类的样本进行加权,从而提高分类器的准确性。然而,XGBoost算法在预排序过程的空间复杂度过高,需要存储特征值和存储特征对应样本的梯度统计值的索引,增加了对单机硬件资源的消耗。因此,如何提供一种能够对大规模的故障数据进行准确故障诊断,且能够避免单机硬件资源消耗过高问题的方法,成为了亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提出了一种分布式智能故障诊断方法和系统、计算机设备、存储介质,能够对大规模的故障数据进行准确故障诊断,且能够避免单机硬件资源消耗过高问题。
为实现上述目的,本申请实施例的第一方面提出了一种分布式智能故障诊断方法,所述方法包括:
应用于服务端,所述服务端与多个边缘客户端通信连接,所述边缘客户端用于收集目标采集数据,所述方法包括:
获取每个所述边缘客户端发送的所述目标采集数据的目标局部冲突特征;
将所述目标局部冲突特征输入预先训练的故障诊断模型,得到故障诊断结果,并将所述故障诊断结果返回到对应的所述边缘客户端;其中,所述故障诊断模型通过以下过程训练而成:
获取样本局部冲突特征和所述样本局部冲突特征的样本诊断数据;
根据所述样本局部冲突特征进行特征绑定,得到目标绑定索引特征;
根据所述目标绑定索引特征和所述样本局部冲突特征进行数据查找,确定目标全局数据;
根据所述目标全局数据进行特征分箱处理,得到目标全局分箱数据;
根据所述目标全局分箱数据进行梯度计算,得到全局梯度数据;
根据所述全局梯度数据进行直方图构建,得到全局直方图;
根据所述全局直方图进行树构建,得到目标决策树;
根据所述目标决策树对所述目标全局分箱数据进行特征预测,得到预测诊断数据;
根据所述预测诊断数据和所述样本诊断数据对初始诊断模型进行模型训练,得到所述故障诊断模型。
在一些实施例中,所述根据所述目标绑定索引特征和所述样本局部冲突特征进行数据查找,确定目标全局数据,包括:
根据所述目标绑定索引特征和所述样本局部冲突特征进行特征映射,确定原始特征;
根据所述原始特征对所述目标绑定索引特征进行特征区域划分,得到特征区域范围数据;
根据所述特征区域范围数据对目标绑定索引特征进行最值数据查找,得到局部最大值数据和局部最小值数据;
根据所述局部最大值数据和所述局部最小值数据进行数据统计,得到所述目标全局数据。
在一些实施例中,所述根据所述目标全局数据进行特征分箱处理,得到目标全局分箱数据,包括:
根据所述目标全局数据进行全局特征分箱,得到全局分箱特征;
根据所述全局分箱特征获取所述边缘客户端发送的局部分箱数据;
根据所述局部分箱数据进行数据统计,得到候选全局分箱数据;
对所述候选全局分箱数据进行数据合并,得到所述目标全局分箱数据。
在一些实施例中,所述根据所述目标全局分箱数据进行梯度计算,得到全局梯度数据,包括:
根据所述目标全局分箱数据对所述局部分箱数据进行数据调整,得到分箱调整数据;
根据所述目标全局分箱数据的特征从历史决策树中匹配出预测特征数据;
根据所述预测特征数据和所述分箱调整数据确定局部梯度数据;
根据所述局部梯度数据进行加和处理,得到所述全局梯度数据。
在一些实施例中,所述根据所述全局梯度数据进行直方图构建,得到全局直方图,包括:
根据所述全局梯度数据进行数据采样,得到梯度采样数据;
根据所述梯度采样数据生成局部直方图;
根据所述局部直方图进行直方图整合,得到所述全局直方图。
在一些实施例中,所述根据所述全局直方图进行树构建,得到目标决策树,包括:
根据所述全局直方图进行直方图分裂,得到直方图分裂索引数据;
根据所述直方图分裂索引数据和所述全局直方图进行全局树构建,得到所述目标决策树。
为实现上述目的,本申请实施例的第二方面提出了一种分布式智能故障诊断方法,应用于边缘客户端,所述边缘客户端与服务端通信连接,所述方法包括:
获取原始采集数据;
对所述原始采集数据进行预处理,得到目标采集数据;
对所述目标采集数据进行特征提取,得到目标局部冲突特征;并将所述目标局部冲突特征发送到服务端;
接收所述服务端返回的故障诊断结果,所述故障诊断结果为根据上述第一方面所述的一种分布式智能故障诊断方法得到。
为实现上述目的,本申请实施例的第三方面提出了一种分布式智能故障诊断系统,应用于服务端,所述服务端与多个边缘客户端通信连接,所述边缘客户端用于收集目标采集数据,所述系统包括:
获取模块,用于获取每个所述边缘客户端发送的所述目标采集数据的目标局部冲突特征;
诊断模块,用于将所述目标局部冲突特征输入预先训练的故障诊断模型,得到故障诊断结果,并将所述故障诊断结果返回到对应的所述边缘客户端;其中,所述故障诊断模型通过以下过程训练而成:获取样本局部冲突特征和所述样本局部冲突特征的样本诊断数据;根据所述样本局部冲突特征进行特征绑定,得到目标绑定索引特征;根据所述目标绑定索引特征和所述样本局部冲突特征进行数据查找,确定目标全局数据;根据所述目标全局数据进行特征分箱处理,得到目标全局分箱数据;根据所述目标全局分箱数据进行梯度计算,得到全局梯度数据;根据所述全局梯度数据进行直方图构建,得到全局直方图;根据所述全局直方图进行树构建,得到目标决策树;根据所述目标决策树对所述目标全局分箱数据进行特征预测,得到预测诊断数据;根据所述预测诊断数据和所述样本诊断数据对初始诊断模型进行模型训练,得到所述故障诊断模型。
为实现上述目的,本申请实施例的第三方面提出了一种计算机设备,包括:
至少一个存储器;
至少一个处理器;
至少一个计算机程序;
所述至少一个计算机程序被存储在所述至少一个存储器中,所述至少一个处理器执行所述至少一个计算机程序以实现上述第一方面所述的分布式智能故障诊断方法。
为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行上述第一方面所述的分布式智能故障诊断方法。
本申请实施例提出的一种分布式智能故障诊断方法和系统、计算机设备、存储介质,服务端与多个边缘客户端通信连接,先获取每个边缘客户端发送的目标采集数据的目标局部冲突特征。将目标局部冲突特征输入预先训练的故障诊断模型,得到故障诊断结果,并将故障诊断结果返回到对应的边缘客户端。其中,故障诊断模型通过以下过程训练而成:首先,获取样本局部冲突特征和样本局部冲突特征的样本诊断数据;根据样本局部冲突特征进行特征绑定,得到目标绑定索引特征;根据目标绑定索引特征和样本局部冲突特征进行数据查找,确定目标全局数据;根据目标全局数据进行特征分箱处理,得到目标全局分箱数据;根据目标全局分箱数据进行梯度计算,得到全局梯度数据。之后,根据全局梯度数据进行直方图构建,得到全局直方图。根据全局直方图进行树构建,得到目标决策树。根据目标决策树对目标全局分箱数据进行特征预测,得到预测诊断数据。根据预测诊断数据和样本诊断数据对初始诊断模型进行模型训练,得到故障诊断模型。本申请实施例能够对大规模的故障数据进行准确故障诊断,且能够避免单机硬件资源消耗过高问题。
附图说明
图1是本申请实施例提供的分布式智能故障诊断方法的流程图;
图2是本申请实施例提供的目标局部冲突特征的获取过程的流程图;
图3是本申请实施例提供的故障诊断模型的训练过程的流程图;
图4是本申请实施例提供的基于边缘客户端/服务端架构的并行计算框架结构图;
图5是图3中的步骤S330的流程图;
图6是图3中的步骤S340的流程图;
图7是图3中的步骤S350的流程图;
图8是图3中的步骤S360的流程图;
图9是图3中的步骤S370的流程图;
图10是本申请实施例提供的分布式智能故障诊断系统的结构示意图;
图11是本申请实施例提供的计算机设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
随机森林(Random Forest,RF):是一种集成学习算法,RF算法结合了决策树和随机化的思想。随机森林由多个决策树组成,每个决策树都是独立生成的。RF算法可以处理高维数据和大量特征的问题。但训练时间较长,对于噪声较大的数据,容易过拟合,且包含难以解释模型的内部机制。
极端梯度提升(eXtreme Gradient Boosting,XGBoost):是一种梯度提升树算法,XGBoost通过集成多个弱学习器(决策树)来构建一个强学习器。
特征分箱:是指将连续型特征划分为离散型特征的过程。特征分箱将连续型特征的取值范围划分为多个离散的区间(也称为箱子或桶),将连续的数值映射到相应的区间中的离散值,以便更好地描述和分析数据。
直方图分裂:是指将一个整体的直方图分割成多个子直方图的过程。这种分割可以根据不同的条件、属性或者特征来进行,以便更好地理解数据的分布和特征。
客户端/服务端架构(Client/Server Architecture,C/S架构):是一种计算机系统或应用程序的软件架构模式。在C/S架构中,系统被分为两个主要组件:客户端(Client,也相当于本申请的边缘客户端)和服务端(Server)。客户端是用户交互的界面,通常运行在用户的终端设备上,例如个人电脑、智能手机或平板电脑。客户端负责向用户提供界面和交互功能,接收用户输入,将用户请求发送到服务器,并将服务器返回的数据展示给用户。服务端是中央处理单元,负责处理客户端发送的请求并提供相应的服务。服务端通常运行在高性能的计算机或服务器集群上,具备强大的计算能力和存储能力。它接收客户端的请求,执行相应的逻辑和计算,并将结果返回给客户端。
随着技术的不断发展,工业企业在生产过程中产生的数据越来越多,包括传感器数据、设备运行数据、生产质量数据等。这些数据庞大且复杂,需要进行有效的处理和分析,往往需要借助机器学习等方法来实现信息价值的洞察。然而,由于成本、技术更新速度等原因,大部分工业企业的计算机硬件资源配置并不高。这导致了在对大量数据进行故障预测时,计算设备的计算能力和存储能力受到了极大的限制,使得工业企业难以应对复杂的数据分析需求。
树模型在工业企业的故障识别场景中有广泛的应用前景。树模型通过将数据转化为决策树的形式,可以很好地进行分类。相关技术的故障诊断方法采用随机森林(RandomForest,RF)算法或XGBoost算法。在处理大规模数据时,这两种集成学习方法都可以采用分布式方法进行模型训练,但是都存在对硬件资源条件要求过高的问题。其中,RF算法通过构建多个决策树,并综合每个决策树的结果进行分类,该算法具有较好的分类准确性,即故障诊断准确性。然而,在处理大规模数据时,由于RF需要并行训练多个决策树,因此该方法的计算复杂度较高,且存在单机硬件资源消耗过高的问题。XGBoost是一种梯度提升算法,通过迭代训练多个弱分类器,并对错误分类的样本进行加权,从而提高分类器的准确性。然而,XGBoost算法在预排序过程的空间复杂度过高,需要存储特征值和存储特征对应样本的梯度统计值的索引,增加了对单机硬件资源的消耗。因此,如何提供一种能够对大规模的故障数据进行准确故障诊断,且能够避免单机硬件资源消耗过高问题的方法,成为了亟待解决的技术问题。
基于此,本申请实施例提供了一种分布式智能故障诊断方法和系统、计算机设备、存储介质,能够对大规模的故障数据进行准确故障诊断,且能够避免单机硬件资源消耗过高问题。
本申请实施例提供的分布式智能故障诊断方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现分布式智能故障诊断方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络个人计算机(Personal Computer,PC)、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
请参阅图1,图1是本申请实施例提供的分布式智能故障诊断方法的一个流程图。在本申请的一些实施例中,图1中的方法可以具体包括但不限于步骤S110至步骤S120,下面结合图1对这两个步骤进行详细介绍。
步骤S110,获取每个边缘客户端发送的目标采集数据的目标局部冲突特征;
步骤S120,将目标局部冲突特征输入预先训练的故障诊断模型,得到故障诊断结果,并将故障诊断结果返回到对应的边缘客户端。
需要说明的是,本申请实施例提供的分布式智能故障诊断方法可以应用于客户端和服务端的交互处理过程,且可以客户端或服务端调用,在此不作具体限定。
在一些实施例的步骤S110中,在实际应用中,服务端与多个边缘客户端通信连接,每个边缘客户端都为一个边缘设备,服务端获取每个边缘客户端发送的目标局部冲突特征。目标局部冲突特征是指边缘客户端经过初步处理和分析后的目标采集数据进行特征提取后的特征数据。每个边缘客户端都可以调用故障诊断模型的模型接口,即将处理得到的目标局部冲突特征发送到服务端。
在一些实施例中,请参阅图2,图2是本申请实施例提供的目标局部冲突特征的获取过程的一个流程图。在本申请的一些实施例中,目标局部冲突特征的获取过程具体可以包括但不限于步骤S210至步骤S240,下面结合图2对这四个步骤进行详细介绍。
步骤S210,获取原始采集数据;
步骤S220,对原始采集数据进行预处理,得到目标采集数据;
步骤S230,对目标采集数据进行特征提取,得到目标局部冲突特征;并将目标局部冲突特征发送到服务端;
步骤S240,接收服务端返回的故障诊断结果。
在一些实施例的步骤S210中,原始采集数据是指边缘客户端采集的还未处理的原始数据。例如,原始采集数据可以为传感器数据、设备运行数据、生产质量数据等。
需要说明的是,每个边缘客户端都为一个边缘设备,边缘设备是指位于网络边缘、接近数据源和终端用户的设备。边缘设通常具有一定的计算、存储和网络连接能力,用于处理和分析数据,并提供实时的、低延迟的服务。边缘设备包括:边缘服务器(是一种位于网络边缘的服务器,用于处理和存储数据,并提供边缘计算服务。边缘服务器通常具有较高的计算和存储能力,可以运行复杂的应用程序和服务)、网关设备(用于连接边缘设备与云端或中心服务器之间的通信,可以将边缘设备收集到的数据进行处理和过滤,然后将数据传输到云端进行进一步的分析和存储)、边缘计算节点(是一种轻量级的计算设备,通常是基于物联网技术的传感器、智能手机、嵌入式设备等,可以在本地进行数据处理和分析,以提供实时的、低延迟的服务,减少对云端的依赖)、智能摄像头(是一种具有图像分析和处理能力的边缘设备,可以在摄像头本地进行实时的图像识别、物体检测和视频分析,用于安防监控、智能交通等领域)、传感器(用于收集环境数据的边缘设备,如温度、湿度、光照、加速度等,通常嵌入在物体、设备或环境中,用于实时监测和采集数据,为其他设备或系统提供数据输入)等,在此不作具体限定。
在一些实施例的步骤S220中,由于实际应用中对模型的输入数据或发送到服务端的数据有规定的格式要求,需要对原始采集数据进行数据清洗、格式变换等预处理操作。目标采集数据是指对原始采集数据经过数据解耦和预处理后得到的需要进行故障判断的数据。
需要说明的是,数据解耦(Decoupling of Data)是指将数据与具体的应用程序或系统解耦,使得数据可以独立于应用程序进行管理和使用。数据解耦的目的是降低数据与应用程序之间的紧密耦合度,提高数据的可重用性和灵活性。
在一些实施例的步骤S230中,为了更深入地理解和分析数据,对目标采集数据进行特征提取,即从目标采集数据中提取出具有代表性和区分度的特征,用于描述和表示数据的某些属性或特点。目标局部冲突特征是指在目标采集数据中存在的局部冲突或不一致性的特征。具体来说,当目标采集数据中的某些部分存在冲突或矛盾时,可以将这些部分提取出来作为局部冲突特征。这些冲突可能包括数据的不一致、异常、重复等情况。因此,通过提取目标局部冲突特征,可以识别和分析数据中的问题或异常情况,从而提供更准确的分析结果和决策支持。之后,将目标局部冲突特征的局部冲突矩阵发送到服务端。
在一些实施例的步骤S240中,当经过分布式智能故障诊断处理之后,服务端向对应的边缘客户端返回该原始采集数据对应的故障诊断结果。故障诊断结果是指原始采集数据是否有故障,从而进一步判断该原始采集数据对应的设备是否出现故障。因此,故障诊断结果包括数据异常(即该数据对应的设备可能存在故障)或数据正常(即该数据对应的设备无异常)。
在一些实施例的步骤S120中,服务端在接收到每个目标局部冲突特征后,通过在边缘客户端和服务端都调用故障诊断模型的模型容器接口,以对目标局部冲突特征进行智能故障诊断。
需要说明的是,模型容器是指用于存储故障诊断模型的一个模型文件,模型容器接口是指调用该模型容器的一个函数,从而在计算机中可以将故障诊断模型作为一个函数进行调用。模型容器可以通过拷贝放到任意一个设备中(服务端和/或边缘客户端),以实现对采集数据的故障诊断和故障类型预测。
本申请实施例采用对边缘客户端和服务端进行分布式计算的智能故障诊断模型,其中计算任务被分散到多个边缘客户端和服务端节点上进行并行计算。在这种模式下,客户端和服务端共同协作,共享计算负载和数据,可以充分利用多节点的计算资源,提高计算性能和处理能力。同时,由于任务被分散到多个节点上进行计算,即使某个节点发生故障或失效,整个计算过程仍然可以继续运行,提高了系统的可靠性和容错性。因此,本申请实施例通过最小粒度的算法拆分和不同计算复杂度的算法捆绑,实现对客户硬件资源的充分利用,降低了单机模型训练的计算复杂度,降低了模型训练的门槛。
需要说明的是,本申请实施例还对故障诊断模型进行算法流程注册,通过将计算任务划分为多个子任务,并在边缘客户端和服务端同时执行这些子任务,以实现计算的并行化处理。服务端和边缘客户端各自负责从任务队列中获取任务,并执行相应的计算工作,可以充分利用客户端和服务器端的计算资源,提高计算效率和性能。同时,算法流程注册方式还能有效分担服务器端的计算负载,提高系统的可扩展性和稳定性。
示例性的,在对故障诊断模型进行算法流程注册时,algFlow.add(“curr”:“localConflictMatrix”,“next”:“gloabalConflictMatrix”,“isCenter”:True,“isFork”:False}中,algFlow.add()是指算法流程注册提供的一个接口。其中,“curr”:“localConflictMatrix”,“curr”表示当前流程的位置标识,“localConflictMatrix”是指当前流程的算法名称。“next”:“gloabalConflictMatrix”中,“next”是指下一流程的位置标识,“gloabalConflictMatrix”是指下一流程的算法名称。“isCenter”:True,“isCenter”是指当前节点的位置标识,True表示在S端,False则表示在C端。“isFork”:False,“isFork”表示当前流程结果是否存在多分支标识,False表示无多分支,True表示存在多分支。之后,将该注册流程同步至服务和边缘客户端。
在一些实施例中,请参阅图3,图3是本申请实施例提供的故障诊断模型的训练过程的流程图。在本申请的一些实施例中,故障诊断模型的训练过程具体可以包括但不限于步骤S310至步骤S390,下面结合图3对这九个步骤进行详细介绍。
步骤S310,获取样本局部冲突特征和样本局部冲突特征的样本诊断数据;
步骤S320,根据样本局部冲突特征进行特征绑定,得到目标绑定索引特征;
步骤S330,根据目标绑定索引特征和样本局部冲突特征进行数据查找,确定目标全局数据;
步骤S340,根据目标全局数据进行特征分箱处理,得到目标全局分箱数据;
步骤S350,根据目标全局分箱数据进行梯度计算,得到全局梯度数据;
步骤S360,根据全局梯度数据进行直方图构建,得到全局直方图;
步骤S370,根据全局直方图进行树构建,得到目标决策树;
步骤S380,根据目标决策树对目标全局分箱数据进行特征预测,得到预测诊断数据;
步骤S390,根据预测诊断数据和样本诊断数据对初始诊断模型进行模型训练,得到故障诊断模型。
下面结合图4对步骤S310至步骤S390进行详细说明,图4示出了本申请实施例提供的基于边缘客户端/服务端架构的并行计算框架结构图。图4中第一行的流程图用于表示对应分布式交互过程的接口流程图。具体包括特征绑定、数据离散、梯度计算、数据采样、特征直方图计算、生成树阶段。图8中的箭头表示通讯的方向,方框表示节点上的算法。每个节点的算法:输入来源由节点本地数据、缓存中间结果以及通讯信息构成,算法输出可存储本地作为缓存中间结果,也可直接传回服务端。
在一些实施例的步骤S310中,在对故障诊断模型进行训练时,边缘客户端输入的数据包括多个样本数据,每个样本数据包括一个边缘客户端发送的样本局部冲突特征和该样本局部冲突特征的样本诊断数据。其中,样本局部冲突特征是对样本采集数据处理得到,样本局部冲突特征和上述目标局部冲突特征相同,样本采集数据和上述目标采集数据相同,只是用于模型训练作为样本,在此不再赘述。样本诊断数据作为一个样本标签,用于判断故障诊断模型是否可以准确诊断故障类型。样本诊断数据包括正标签和负标签,正标签表示数据异常(即该数据对应的设备可能存在故障),负标签表示数据正常(即该数据对应的设备无异常)。
在一些实施例的步骤S320中,目标绑定索引特征是指将样本局部冲突特征求和后按照一定的规则进行组合,生成的新的特征。这种组合可以是两个或多个特征之间的加减乘除等操作,也可以是特征的统计信息,比如求和、求平均等。通过特征绑定索引,可以将原始的高维特征空间转化为低维特征空间,从而减少了特征的数量。具体地,先对多个样本局部冲突特征的矩阵进行矩阵求和,得到样本全局冲突特征。然后,对样本全局冲突特征进行特征绑定,得到目标绑定索引特征。
在一些实施例的步骤S330中,服务端将目标绑定索引特征返回到对应的每个边缘客户端,边缘客户端根据目标绑定索引特征和所述样本局部冲突特征进行数据查找,确定目标全局数据。其中,目标全局数据是指特征的全局最大值数据和最小值数据。
需要说明的是,本申请实施例的故障诊断方法可以基于轻量级梯度提升机(LightGradient Boosting Machine,LGBM)算法进行模型构建。在LGBM算法中,目标绑定索引特征包括目标绑定特征和目标绑定索引,即特征绑定后,每个绑定特征都有一个绑定索引,且绑定索引表示该绑定特征在排序后的目标绑定特征的列表中的位置。通过绑定索引,可以将绑定特征映射回原始特征。
在一些实施例中,请参阅图5,图5是本申请实施例提供的步骤S330的一个流程图。在本申请的一些实施例中,步骤S330具体可以包括但不限于步骤S510至步骤S540,下面结合图5对这四个步骤进行详细介绍。
步骤S510,根据目标绑定索引特征和样本局部冲突特征进行特征映射,确定原始特征;
步骤S520,根据原始特征对目标绑定索引特征进行特征区域划分,得到特征区域范围数据;
步骤S530,根据特征区域范围数据对目标绑定索引特征进行最值数据查找,得到局部最大值数据和局部最小值数据;
步骤S540,根据局部最大值数据和局部最小值数据进行数据统计,得到目标全局数据。
在一些实施例的步骤S510至步骤S530中,在本申请的故障诊断模型中,为了减少内存占用和计算复杂度,服务端对样本局部冲突特征进行特征绑定,得到目标绑定索引特征。并且,边缘客户端执行特征绑定后可以得到特征局部最大最小值(即局部最大值数据和局部最小值数据)。具体地,首先,根据目标绑定索引特征和样本局部冲突特征进行特征映射,确定原始特征。
然后,对每个原始特征,根据原始特征对目标绑定索引特征进行特征区域划分,得到特征区域范围数据。特征区域范围数据是指目标绑定索引特征在排序后的特征列表中的位置范围。之后,根据位置范围找到该特征的局部最大最小值,即根据特征区域范围数据对目标绑定索引特征进行最值数据查找,得到局部最大值数据和局部最小值数据。局部最大值数据是指在某个数据集或样本集合中,对于某个特定的特征(或属性),找出在该特征上取得局部最大值的数据点。局部最小值数据是指在某个数据集或样本集合中,对于某个特定的特征(或属性),找出在该特征上取得局部最小值的数据点。
需要说明的是,本申请实施例通过遍历每个目标绑定特征,根据对应的绑定索引找到该特征在排序后的特征列表中的起始位置和结束位置。然后,通过这个位置范围,可以得到该特征的局部最大值和最小值。其中,特征的局部最大值数据和局部最小值数据是指在该特征的绑定范围内的最大最小值,并不是在整个数据集上的最大最小值。这是因为特征绑定将原始特征进行了组合,生成了新的绑定特征,所以特征的最大最小值是在绑定范围内计算的。
在一些实施例的步骤S540中,当边缘客户端确定特征局部最大最小值(即局部最大值数据和局部最小值数据)后,在服务端根据特征局部最大最小值进行对应特征矩阵的加和统计,得到特征全局最大最小值(即目标全局数据)。
在一些实施例的步骤S340中,特征分箱的目的是将连续型特征转化为离散型特征,从而使得模型能够更好地捕捉特征之间的非线性关系。通过特征分箱,可以将连续型特征的取值范围划分为多个区间,每个区间代表一个离散的取值。这样,模型就可以将连续型特征的取值映射到对应的区间,进而对特征进行建模和预测。本申请实施例的服务端根据目标全局数据进行特征分箱处理,得到目标全局分箱数据。目标全局分箱数据是指目标全局数据的离散特征。
需要说明的是,在LGBM中,目标全局分箱数据是通过分箱算法来生成的。分箱算法包括等频分箱、等距分箱和最优分箱等。等频分箱将连续型特征划分为每个箱子中样本数量相等的区间;等距分箱将连续型特征划分为每个箱子的取值范围相等的区间;最优分箱则是通过优化某个评价指标(如最小化离散化后特征与目标变量之间的差异)来确定最佳的分箱方案。此外,特征分箱还可以帮助模型处理异常值和缺失值,减少模型对数据的敏感性。
请参阅图6,图6是本申请实施例提供的步骤S340的一个流程图。在本申请的一些实施例中,步骤S340具体包括但不限于步骤S610至步骤S640,下面结合图6对这四个步骤进行详细介绍。
步骤S610,根据目标全局数据进行全局特征分箱,得到全局分箱特征;
步骤S620,根据全局分箱特征获取边缘客户端发送的局部分箱数据;
步骤S630,根据局部分箱数据进行数据统计,得到候选全局分箱数据;
步骤S640,对候选全局分箱数据进行数据合并,得到目标全局分箱数据。
在一些实施例的步骤S610至步骤S630中,在得到特征全局最大最小值(即目标全局数据)后,服务端根据目标全局数据进行全局特征分箱,得到全局分箱特征。然后,边缘客户端根据全局分箱特征进行数据离散化,并对局部离散数据进行局部数据分箱统计得到局部分箱数据。之后,服务端对局部分箱数据进行数据统计,得到候选全局分箱数据。
在一些实施例的步骤S640中,然而,尽管候选全局分箱数据可以提供较好的特征统计信息,但当数据集非常大时,计算和存储这些统计信息可能会非常耗时和占用内存。因此,当数据集非常大而特征维度较高时,分箱数据的合并可以有效地减少模型的复杂度和提高训练速度。具体地,服务端对候选全局分箱数据进行数据合并,得到目标全局分箱数据。特征分箱数据合并是指将多个特征的候选全局分箱数据合并为一个整体的分箱数据。通过合并分箱数据,可以将每个特征的分箱信息压缩为一个更小的数据结构,从而减少内存占用和计算复杂度。
在一些实施例的步骤S350中,由于LGBM是基于决策树的集成学习算法,LGBM通过串行训练多个决策树,并通过梯度提升的方式不断优化模型的预测能力。相比于传统的梯度提升算法,LGBM采用了一些优化策略,如基于直方图的算法,来加速训练过程,并减少内存消耗。因此,在本申请的故障诊断模型中,将根据目标全局分箱数据进行梯度计算,得到全局梯度数据。
请参阅图7,图7是本申请实施例提供的步骤S350的一个流程图。在本申请的一些实施例中,步骤S350具体包括但不限于步骤S710至步骤S740,下面结合图7对这四个步骤进行详细介绍。
步骤S710,根据目标全局分箱数据对局部分箱数据进行数据调整,得到分箱调整数据;
步骤S720,根据目标全局分箱数据的特征从历史决策树中匹配出预测特征数据;
步骤S730,根据预测特征数据和分箱调整数据确定局部梯度数据;
步骤S740,根据局部梯度数据进行加和处理,得到全局梯度数据。
在一些实施例的步骤S710至步骤S740中,边缘客户端根据目标全局分箱数据对局部分箱数据进行离散化数据调整,得到分箱调整数据。由于LGBM算法是通过训练一系列的决策树来建立模型,则边缘客户端根据服务端在上一次训练生成的历史决策树中匹配获取预测特征数据,即预测值。然后,边缘客户端根据预测特征数据和分箱调整数据进行梯度计算,得到局部梯度数据。服务端根据局部梯度数据进行加和处理,得到全局梯度数据。
在一些实施例的步骤S360中,为了提高故障诊断的准确性,在数据采样阶段,本申请实施例根据全局梯度数据进行直方图构建,得到全局直方图。其中,直方图可以用于数据的归一化或标准化处理,通过观察特征的直方图,可以判断数据是否符合某种分布,进而选择合适的归一化或标准化方法。
请参阅图8,图8是本申请实施例提供的步骤S360的一个流程图。在本申请的一些实施例中,步骤S360具体包括但不限于步骤S810至步骤S830,下面结合图8对这三个步骤进行详细介绍。
步骤S810,根据全局梯度数据进行数据采样,得到梯度采样数据;
步骤S820,根据梯度采样数据生成局部直方图;
步骤S830,根据局部直方图进行直方图整合,得到全局直方图。
在一些实施例的步骤S810至步骤S830中,在数据采样阶段,服务端根据全局梯度数据进行数据采样,得到梯度采样数据。然后,边缘客户端根据梯度采样数据提取采样后的数据,并跟采样后的数据生成局部直方图。之后,服务端根据局部直方图进行直方图整合,生成全局直方图。
需要说明的是,数据采样方法可以采用均匀采样(Uniform Sampling)、集成采样(Ensemble Sampling)、基于梯度的单边采样(Gradient-based One-Side Sampling,GOSS)等,在此不作具体限定。其中,GOSS采样通过根据样本的梯度大小进行选择性的样本采样,从而加速模型的训练过程并提高模型的泛化能力。
需要说明的是,根据局部直方图进行直方图整合的具体步骤为:首先,收集局部直方图,即将数据分成若干局部区域。对于每个局部区域,计算该区域的直方图,即统计该区域中每个值的频率或概率分布。然后,归一化局部直方图,即对于每个局部直方图,将频率或概率进行归一化,使得每个直方柱的高度表示在整个区域内的相对频率或概率。之后,整合局部直方图:将归一化后的局部直方图按照一定的规则进行整合,生成全局直方图。其中,可以选择简单的加权求和,将每个局部直方图的柱高度按照某种权重进行加权求和,也可以选择更复杂的方法,如插值或平均化等,在此不作具体限定。
在一些实施例的步骤S370中,服务端根据全局直方图进行树构建,得到目标决策树。当一次训练结束后,生成一个目标决策树。
请参阅图9,图9是本申请实施例提供的步骤S370的一个流程图。在本申请的一些实施例中,步骤S370具体包括但不限于步骤S910至步骤S920,下面结合图9对这两个步骤进行详细介绍。
步骤S910,根据全局直方图进行直方图分裂,得到直方图分裂索引数据;
步骤S920,根据直方图分裂索引数据和全局直方图进行全局树构建,得到目标决策树。
在一些实施例的步骤S910中,直方图分裂是指将一个整体的直方图分割成多个子直方图的过程。这种分割可以根据不同的条件、属性或者特征来进行,以便更好地理解数据的分布和特征。在数据分析和可视化中,通过直方图分裂将数据分成不同的子直方图,可以比较不同子集之间的差异和相似性,找出数据中的模式、异常值或者特定的特征。具体地,服务端根据全局直方图进行直方图分裂,得到直方图分裂索引数据。
在一写实施例的步骤S920中,在得到直方图分裂索引数据后,边缘客户端将对局部直方图进行局部直方图分裂和局部树节点构建。之后,根据局部直方图分裂、局部树节点和全局直方图进行全局树构建,即构建全局树阶段,当生成的决策树满足预设终止条件,得到目标决策树。当生成的决策树不满足预设终止条件,则重新根据全局直方图进行直方图分裂,更新直方图分裂索引数据。
需要说明的是,局部直方图分裂和局部树节点构建可以进行捆绑。这里捆绑的依据主要是基于计算过程中算法对内存能资源占用的评估。
需要说明的是,本申请的故障诊断模型是通过训练一系列的决策树来建立模型。每个决策树都是一个二叉树结构,其中每个节点表示一个特征的分裂点,每个叶子节点表示一个预测值。当对一个新的样本进行预测时,故障诊断模型会根据决策树的规则将样本从根节点逐步分配到叶子节点。在每个叶子节点上,对应的预测值就是该样本的预测结果。
需要说明的是,生成树的预设终止条件可以包括:叶子节点的样本数量、叶子节点的增益、最大树深度等,这些参数可以根据具体问题和数据特点进行调优,以达到最佳的模型性能。其中,对于叶子节点的样本数量,例如,生成树在每个节点的分裂过程中,会根据当前节点的样本数量来判断是否停止继续分裂。如果节点中的样本数量小于等于预设的值(参数mindatain_leaf),则认为该节点已经达到了终止条件,停止分裂。对于叶子节点的增益,由于生成树在每个节点的分裂过程中,会计算当前分裂后的目标函数的增益,即分裂前后目标函数的差值。如果分裂后的增益小于等于预设的值(参数mingainto_split),则认为该节点已经达到了终止条件,停止分裂。因此,通过设置合适的参数值,可以控制生成树的生长过程。较小的mindatain_leaf和mingainto_split值会导致树生长得更深,更容易过拟合;而较大的值则会限制树的生长,提高模型的泛化能力。
在一些实施例的步骤S380中,为了验证对故障诊断的准确性,本申请实施例在得到目标决策树后,根据目标决策树对目标全局分箱数据进行特征预测,得到预测诊断数据。预测诊断数据是指模型对样本局部冲突特征经过故障诊断后的故障类型。
在一些实施例的步骤S390中,根据预测诊断数据和样本诊断数据进行故障类型匹配,并根据匹配结果对初始诊断模型进行模型训练,以保证故障诊断的准确性,得到故障诊断模型。
本申请实施例所提供的分布式智能故障诊断方法,可以适用于多个边缘客户端硬件配置较低的场景,直接利用多个边缘客户端的多机计算能力,完成模型训练。本申请实施例基于可调节计算复杂度的算法流程注册,并且,采用C/S架构对流程中算法进行并行计算,可以充分利用客户端和服务器端的计算资源,提高计算效率和性能。因此,相比于RF算法,本申请实施例在处理大规模数据时,数据可以分布在不同节点,且不存在对节点数据均衡的要求,从而实现对硬件资源的充分利用。相比于XGBoost算法,本申请实施例可以对算法进行不同计算复杂度的调节,增加了单机计算复杂度的灵活性,有助于降低对单机硬件资源的消耗。此外,本申请实施例可以实现基于硬件条件的可变粒度下的并行计算,降低了训练过程的灵活性。因此,本申请实施例能够对大规模的故障数据进行准确故障诊断,且能够避免单机硬件资源消耗过高问题。
请参阅图10,图10是本申请实施例提供的分布式智能故障诊断系统的结构示意图,该系统可以实现上述实施例的分布式智能故障诊断方法,该系统包括获取模块1010、诊断模块1020。
获取模块1010,用于获取每个边缘客户端发送的目标局部冲突特征;
诊断模块1020,用于将目标局部冲突特征输入预先训练的故障诊断模型,得到故障诊断结果,并将故障诊断结果返回到对应的边缘客户端;其中,故障诊断模型通过以下过程训练而成:获取样本局部冲突特征和样本局部冲突特征的样本诊断数据;根据样本局部冲突特征进行特征绑定,得到目标绑定索引特征和目标绑定索引特征的绑定特征索引;根据目标绑定索引特征和绑定特征索引进行数据查找,确定目标全局数据;根据目标全局数据进行特征分箱处理,得到目标全局分箱数据;根据目标全局分箱数据进行梯度计算,得到全局梯度数据;根据全局梯度数据进行直方图构建,得到全局直方图;根据全局直方图进行树构建,得到目标决策树;根据目标决策树对目标全局分箱数据进行特征预测,得到预测诊断数据;根据预测诊断数据和样本诊断数据对初始诊断模型进行模型训练,得到故障诊断模型。
需要说明的是,本申请实施例的分布式智能故障诊断系统用于实现上述实施例的分布式智能故障诊断方法,本申请实施例的分布式智能故障诊断系统与前述的分布式智能故障诊断方法相对应,具体的处理过程请参照前述的分布式智能故障诊断方法,在此不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括:至少一个存储器,至少一个处理器,至少一个计算机程序,至少一个计算机程序被存储在至少一个存储器中,至少一个处理器执行至少一个计算机程序以实现上述实施例中任一种的分布式智能故障诊断方法。该计算机设备可以为包括平板电脑、车载电脑等任意智能终端。
请参阅图11,图11示意了另一实施例的一种计算机设备的硬件结构,该计算机设备包括:
处理器1110,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器1120,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器1120可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1120中,并由处理器1110来调用执行本申请实施例的分布式智能故障诊断方法;
输入/输出接口1130,用于实现信息输入及输出;
通信接口1140,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线1150,在设备的各个组件(例如处理器1110、存储器1120、输入/输出接口1130和通信接口1140)之间传输信息;
其中处理器1110、存储器1120、输入/输出接口1130和通信接口1140通过总线1150实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序用于使计算机执行上述实施例中分布式智能故障诊断方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read On ly Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参阅附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。
Claims (9)
1.一种分布式智能故障诊断方法,其特征在于,应用于服务端,所述服务端与多个边缘客户端通信连接,所述边缘客户端用于收集目标采集数据,所述方法包括:
获取每个所述边缘客户端发送的所述目标采集数据的目标局部冲突特征;其中,所述目标局部冲突特征是指所述边缘客户端经过初步处理和分析后的所述目标采集数据进行特征提取后的特征数据;
将所述目标局部冲突特征输入预先训练的故障诊断模型,得到故障诊断结果,并将所述故障诊断结果返回到对应的所述边缘客户端;其中,所述故障诊断模型通过以下过程训练而成:
获取样本局部冲突特征和所述样本局部冲突特征的样本诊断数据;
根据所述样本局部冲突特征进行特征绑定,得到目标绑定索引特征;其中,所述目标绑定索引特征是指将所述样本局部冲突特征求和后按照一定的规则进行组合生成的新的特征;
根据所述目标绑定索引特征和所述样本局部冲突特征进行数据查找,确定目标全局数据;其中,所述根据所述目标绑定索引特征和所述样本局部冲突特征进行数据查找,确定目标全局数据,包括:根据所述目标绑定索引特征和所述样本局部冲突特征进行特征映射,确定原始特征;根据所述原始特征对所述目标绑定索引特征进行特征区域划分,得到特征区域范围数据;根据所述特征区域范围数据对目标绑定索引特征进行最值数据查找,得到局部最大值数据和局部最小值数据;根据所述局部最大值数据和所述局部最小值数据进行数据统计,得到所述目标全局数据;
根据所述目标全局数据进行特征分箱处理,得到目标全局分箱数据;
根据所述目标全局分箱数据进行梯度计算,得到全局梯度数据;
根据所述全局梯度数据进行直方图构建,得到全局直方图;
根据所述全局直方图进行树构建,得到目标决策树;
根据所述目标决策树对所述目标全局分箱数据进行特征预测,得到预测诊断数据;
根据所述预测诊断数据和所述样本诊断数据对初始诊断模型进行模型训练,得到所述故障诊断模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标全局数据进行特征分箱处理,得到目标全局分箱数据,包括:
根据所述目标全局数据进行全局特征分箱,得到全局分箱特征;
根据所述全局分箱特征获取所述边缘客户端发送的局部分箱数据;
根据所述局部分箱数据进行数据统计,得到候选全局分箱数据;
对所述候选全局分箱数据进行数据合并,得到所述目标全局分箱数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标全局分箱数据进行梯度计算,得到全局梯度数据,包括:
根据所述目标全局分箱数据对所述局部分箱数据进行数据调整,得到分箱调整数据;
根据所述目标全局分箱数据的特征从历史决策树中匹配出预测特征数据;
根据所述预测特征数据和所述分箱调整数据确定局部梯度数据;
根据所述局部梯度数据进行加和处理,得到所述全局梯度数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述全局梯度数据进行直方图构建,得到全局直方图,包括:
根据所述全局梯度数据进行数据采样,得到梯度采样数据;
根据所述梯度采样数据生成局部直方图;
根据所述局部直方图进行直方图整合,得到所述全局直方图。
5.根据权利要求1所述的方法,其特征在于,所述根据所述全局直方图进行树构建,得到目标决策树,包括:
根据所述全局直方图进行直方图分裂,得到直方图分裂索引数据;
根据所述直方图分裂索引数据和所述全局直方图进行全局树构建,得到所述目标决策树。
6.一种分布式智能故障诊断方法,其特征在于,应用于边缘客户端,所述边缘客户端与服务端通信连接,所述方法包括:
获取原始采集数据;
对所述原始采集数据进行预处理,得到目标采集数据;
对所述目标采集数据进行特征提取,得到目标局部冲突特征;并将所述目标局部冲突特征发送到服务端;
接收所述服务端返回的故障诊断结果,所述故障诊断结果为根据上述权利要求1至5任一项所述的一种分布式智能故障诊断方法得到。
7.一种分布式智能故障诊断系统,其特征在于,应用于服务端,所述服务端与多个边缘客户端通信连接,所述边缘客户端用于收集目标采集数据,所述系统包括:
获取模块,用于获取每个所述边缘客户端发送的所述目标采集数据的目标局部冲突特征;其中,所述目标局部冲突特征是指所述边缘客户端经过初步处理和分析后的所述目标采集数据进行特征提取后的特征数据;
诊断模块,用于将所述目标局部冲突特征输入预先训练的故障诊断模型,得到故障诊断结果,并将所述故障诊断结果返回到对应的所述边缘客户端;其中,所述故障诊断模型通过以下过程训练而成:获取样本局部冲突特征和所述样本局部冲突特征的样本诊断数据;根据所述样本局部冲突特征进行特征绑定,得到目标绑定索引特征,其中,所述目标绑定索引特征是指将所述样本局部冲突特征求和后按照一定的规则进行组合生成的新的特征;根据所述目标绑定索引特征和所述样本局部冲突特征进行数据查找,确定目标全局数据;根据所述目标全局数据进行特征分箱处理,得到目标全局分箱数据;根据所述目标全局分箱数据进行梯度计算,得到全局梯度数据;根据所述全局梯度数据进行直方图构建,得到全局直方图;根据所述全局直方图进行树构建,得到目标决策树;根据所述目标决策树对所述目标全局分箱数据进行特征预测,得到预测诊断数据;根据所述预测诊断数据和所述样本诊断数据对初始诊断模型进行模型训练,得到所述故障诊断模型;其中,所述根据所述目标绑定索引特征和所述样本局部冲突特征进行数据查找,确定目标全局数据,包括:根据所述目标绑定索引特征和所述样本局部冲突特征进行特征映射,确定原始特征;根据所述原始特征对所述目标绑定索引特征进行特征区域划分,得到特征区域范围数据;根据所述特征区域范围数据对目标绑定索引特征进行最值数据查找,得到局部最大值数据和局部最小值数据;根据所述局部最大值数据和所述局部最小值数据进行数据统计,得到所述目标全局数据。
8.一种计算机设备,其特征在于,包括:
至少一个存储器;
至少一个处理器;
至少一个计算机程序;
所述至少一个计算机程序被存储在所述至少一个存储器中,所述至少一个处理器执行所述至少一个计算机程序以实现:
如权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使计算机执行:
如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311042752.XA CN117076906B (zh) | 2023-08-18 | 2023-08-18 | 分布式智能故障诊断方法和系统、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311042752.XA CN117076906B (zh) | 2023-08-18 | 2023-08-18 | 分布式智能故障诊断方法和系统、计算机设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117076906A CN117076906A (zh) | 2023-11-17 |
CN117076906B true CN117076906B (zh) | 2024-02-23 |
Family
ID=88714686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311042752.XA Active CN117076906B (zh) | 2023-08-18 | 2023-08-18 | 分布式智能故障诊断方法和系统、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076906B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118394209A (zh) * | 2024-04-16 | 2024-07-26 | 云和恩墨(北京)信息技术有限公司 | 基于强化学习的智能仿真交互系统和方法、设备、介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533519A (zh) * | 2019-05-16 | 2019-12-03 | 杭州排列科技有限公司 | 基于决策树的特征分箱算法 |
CN112785016A (zh) * | 2021-02-20 | 2021-05-11 | 南京领行科技股份有限公司 | 基于机器学习的新能源汽车保养维护与故障监测诊断方法 |
CN113408668A (zh) * | 2021-07-30 | 2021-09-17 | 深圳前海微众银行股份有限公司 | 基于联邦学习系统的决策树构建方法、装置及电子设备 |
CN113591152A (zh) * | 2021-08-04 | 2021-11-02 | 神谱科技(上海)有限公司 | 一种基于LightGBM算法的纵向联邦建模方法 |
CN114444721A (zh) * | 2022-01-30 | 2022-05-06 | 阿里巴巴新加坡控股有限公司 | 模型训练方法、装置、电子设备及计算机存储介质 |
CN114676642A (zh) * | 2022-04-18 | 2022-06-28 | 大连大学 | 智慧渔业的5g网络故障预测方法 |
WO2022143987A1 (zh) * | 2020-12-31 | 2022-07-07 | 华为技术有限公司 | 树模型训练方法、装置和系统 |
CN115293291A (zh) * | 2022-08-31 | 2022-11-04 | 北京百度网讯科技有限公司 | 排序模型的训练方法、排序方法、装置、电子设备及介质 |
CN115982570A (zh) * | 2022-12-27 | 2023-04-18 | 上海欣兆阳信息科技有限公司 | 联邦学习建模的多环节自定义优化方法、装置、设备和存储介质 |
CN116342255A (zh) * | 2023-03-29 | 2023-06-27 | 卓望信息技术(北京)有限公司 | 互联网消费贷反欺诈风险识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210097449A1 (en) * | 2020-12-11 | 2021-04-01 | Intel Corporation | Memory-efficient system for decision tree machine learning |
-
2023
- 2023-08-18 CN CN202311042752.XA patent/CN117076906B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533519A (zh) * | 2019-05-16 | 2019-12-03 | 杭州排列科技有限公司 | 基于决策树的特征分箱算法 |
WO2022143987A1 (zh) * | 2020-12-31 | 2022-07-07 | 华为技术有限公司 | 树模型训练方法、装置和系统 |
CN112785016A (zh) * | 2021-02-20 | 2021-05-11 | 南京领行科技股份有限公司 | 基于机器学习的新能源汽车保养维护与故障监测诊断方法 |
CN113408668A (zh) * | 2021-07-30 | 2021-09-17 | 深圳前海微众银行股份有限公司 | 基于联邦学习系统的决策树构建方法、装置及电子设备 |
CN113591152A (zh) * | 2021-08-04 | 2021-11-02 | 神谱科技(上海)有限公司 | 一种基于LightGBM算法的纵向联邦建模方法 |
CN114444721A (zh) * | 2022-01-30 | 2022-05-06 | 阿里巴巴新加坡控股有限公司 | 模型训练方法、装置、电子设备及计算机存储介质 |
CN114676642A (zh) * | 2022-04-18 | 2022-06-28 | 大连大学 | 智慧渔业的5g网络故障预测方法 |
CN115293291A (zh) * | 2022-08-31 | 2022-11-04 | 北京百度网讯科技有限公司 | 排序模型的训练方法、排序方法、装置、电子设备及介质 |
CN115982570A (zh) * | 2022-12-27 | 2023-04-18 | 上海欣兆阳信息科技有限公司 | 联邦学习建模的多环节自定义优化方法、装置、设备和存储介质 |
CN116342255A (zh) * | 2023-03-29 | 2023-06-27 | 卓望信息技术(北京)有限公司 | 互联网消费贷反欺诈风险识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
Performance assessment of selective machine learning techniques for improved PV array fault diagnosis;Dhritiman Adhya 等;《ELSEVIER》;1-16 * |
基于集成学习的变压器故障预测方法研究;王凯;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;C042-158 * |
Also Published As
Publication number | Publication date |
---|---|
CN117076906A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177095B (zh) | 日志分析方法、装置、计算机设备及存储介质 | |
Ribeiro et al. | Mlaas: Machine learning as a service | |
CN106557778B (zh) | 通用物体检测方法和装置、数据处理装置和终端设备 | |
US20230082597A1 (en) | Neural Network Construction Method and System | |
CN117076906B (zh) | 分布式智能故障诊断方法和系统、计算机设备、存储介质 | |
CN109743356B (zh) | 工业互联网数据采集方法及装置、可读存储介质和终端 | |
CN113435602A (zh) | 确定机器学习样本的特征重要性的方法及系统 | |
CN113095370B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
US12040947B2 (en) | Method and apparatus for determining device information, and system | |
CN113408087B (zh) | 一种基于云边系统和视频智能分析的变电站巡视方法 | |
CN110533112A (zh) | 车联网大数据跨域分析融合方法 | |
CN110147389B (zh) | 帐号处理方法和装置、存储介质及电子装置 | |
CN114693624B (zh) | 一种图像检测方法、装置、设备及可读存储介质 | |
CN113037783B (zh) | 一种异常行为检测方法及系统 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
Shankar et al. | Janus: Benchmarking commercial and open-source cloud and edge platforms for object and anomaly detection workloads | |
CN111737371B (zh) | 可动态预测的数据流量检测分类方法及装置 | |
CN112486676B (zh) | 一种基于边缘计算的数据共享分发装置 | |
CN117555695A (zh) | 一种基于并行计算实现异构计算的优化方法及系统 | |
CN114640669A (zh) | 边缘计算方法及装置 | |
CN115328870B (zh) | 一种面向云制造的数据共享方法及系统 | |
CN114581734B (zh) | 分类模型训练方法、装置、设备以及存储介质 | |
CN115757900A (zh) | 应用人工智能模型的用户需求分析方法及系统 | |
CN116958020A (zh) | 异常图像检测方法、模型训练方法、装置、设备和介质 | |
CN114548229A (zh) | 训练数据增广方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |