CN109522957A - 基于决策树算法的港口岸桥机械工作状态故障分类的方法 - Google Patents
基于决策树算法的港口岸桥机械工作状态故障分类的方法 Download PDFInfo
- Publication number
- CN109522957A CN109522957A CN201811367439.2A CN201811367439A CN109522957A CN 109522957 A CN109522957 A CN 109522957A CN 201811367439 A CN201811367439 A CN 201811367439A CN 109522957 A CN109522957 A CN 109522957A
- Authority
- CN
- China
- Prior art keywords
- data
- decision tree
- decision
- attribute
- gantry crane
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于决策树算法的岸桥机械工作状态故障分类方法,其中包括以下步骤:步骤1:通过安装在岸桥起重机上的的传感器来采集获取数据,存储到数据库;步骤2:通过分析岸桥设备的各种历史监测量得到标准故障样本数据,然后采用决策树生成算法对故障样本数据进行分类分析,得到故障的决策树;步骤3:将采集到的实时监测数据通过上一步骤2得到的决策树作为故障模式的分类模型进行分类,从而确定故障种类。本发明不需要人工记录数据,直接通过传感器收集的数据进行数据处理,减少数据的容错率,得到更加准的的结果。本方法不需要通过其他算法,就可以高效的处理岸桥大规模的监测数据,具有通用性和易操作性。
Description
技术领域
本发明涉及岸桥的工作状态数据分类的监测及故障的预测,尤其涉及一种基于决策分类算法用于港口机械的工作状态数据的分析。
背景技术
目前,随着港口航运运输的迅速发展,港口机械的使用量也快速壮大,每年需要搬运的标箱数量庞大,岸桥机械运行的速度跟状态的直接关系到整个运输的工作效率。在进行吊装集装箱时,岸桥的运动跟受力都要受到各方面因素的影响,这时就要对岸桥的每一个部位进行监测并且进行故障分析,从而会产生庞大的数据信息,因此如何从中快速提取分类数据就变得尤为重要。做到及时发现岸桥的隐患。这对提高岸桥的整体效率具有重要的作用。
在常规技术中,由于航运业的蓬勃发展,岸桥的工作强度越来越大,如果通过常规的人工实地检测,这样工作的效率就大大降低而且对人工成本也是一项不小的投入。因此在岸桥上每个部位装上检测设备,对岸桥每隔一段时间实时更新岸桥的工作状态的数据,再收集数据加以分析。通常需要感应器在岸桥结构部位进行数据收集,然后进行数据分析。
决策树(Decision Tree)又称为决策判定树是运用于分类的一种树结构。其中的每个内部结点代表对某个属性的一次测试,每条边代表一个测试结果,叶结点代表某个类或者以类的形式分布,最上面的结点是根结点。决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。1986年Quinlan提出了著名的ID3算法[Quinlan,1986]。在ID3算法的基础上,1993年Quinlan又提出了C4.5算法[Quinlan,1993]。为了适应处理大规模数据集的需要,后来又提出了若干改进的算法,其中SLIQ(supervisedlearning inquest)和SPRINT(scalable parallelizable induction of decisiontrees)是比较有代表性的两个算法。随着计算机技术和数字信号处理(DSP)技术的发展,针对岸桥的在线状态监测技术也有了很大的发展,并在一些集装箱码头得到了应用。同时,随着数据库技术的迅速发展,大型数据库或数据仓库可以用来存储设备运行状态的各种数据和参数。这些数据和参数中包含了设备运行状态的各种特征,但大部分数据和参数是杂乱无章的,特征并不明显、不直观。传统方法对处理这些海量的数据显得力不从心,通过计算机软件将数据处理,然后分类,把数据进行细分剔除,从而在这些海量数据的背后发现新的、有价值的知识。
构造决策树是采用自上而下的递归构造方法。决策树构造的结果是一棵二叉树或者多叉树,它的输入是一组带有类别标记的训练数据。二叉树的内部结点(非叶结点)一般表示为一个逻辑判断,如形式为a=b的逻辑判断,其中a是属性,b是该属性的某个属性值;树的边是逻辑判断的分支结果。多叉树(ID3)的内部结点是属性,边是该属性的所有取值,有几个属性值,就有几条边。树的叶结点都是类别标记。
使用决策树进行分类,首先利用训练集建立并精化一棵决策树,建立决策树模型。这个过程实际上是一个从数据中获取知识,进行机器学习的过程。然后利用生成完毕的决策树对输入数据进行分类。对输入的记录,从根结点依次测试记录的属性值,直到到达某个叶结点,从而找到该记录所在的类。
构造决策树最大的运算代价在于计算选择最佳分裂属性,因为选择分裂的时候,对每个字段都考虑;对每个字段中的值先排序,然后再一一计算,最后选出最佳的分裂属性。常见的衡量准则有信息熵和GiniIndex等方法。决策树算法内部的并行性,实际上跟数据本身的存储有很大的关系,如果数据纵向划分存储,即每个节点只存储数据的部分属性,那么这种存储方式具有较好的并行性;而如果数据横向存储,分布在各个数据节点的那种情况,那么比较难用决策树算法进行并行化处理,特别是第一个根节点的分裂就只能串行执行,在根节点分裂完成以后,根节点下的两个子节点可以用相应的两台机器进行并行处理,以此类推。从本质上来讲,如果数据是横向存储且想得到全局分类决策树,那么很难进行并行处理,且节点之间不能并行,只能将其串行。
在现有技术下面对很多复杂岸桥工作状态事故原因的分析诊断方面,既有的数据分析方法尚无能为力,目前仍需依靠人工经验分析判断,很多情况下只有在出现重大问题时才发现故障,不仅导致了人工诊断岸桥工作状态系统故障时工作量大、故障监测与诊断效率低下等技术问题,增加了小车作业的危险。因此,提高各种监测资源的利用率,保障小车行车安全、提高运力,是港口物流装备领域的迫切需求。
发明内容
本发明的目的在于提供一种采用决策树的数据分类方法和系统,为了解决现有技术中岸桥工作状态系统故障检测工作量大、效率低下、风险性高等技术问题。
一种基于决策树算法的港口岸桥机械工作状态故障分类的方法,包含以下步骤:
步骤1:通过安装在岸桥起重机上的传感器来采集获取数据,存储到数据库;
步骤2:通过分析岸桥设备的各种历史监测量得到标准故障样本数据,然后采用决策树生成算法对故障样本数据进行分类分析,得到故障的决策树;
步骤3:将采集到的实时监测数据通过上一步骤2得到的决策树作为故障模式的分类模型进行分类,从而确定故障种类。
优选地,所述步骤1中,采集每隔10到20秒的实时数据。
优选地,步骤1所述的各种岸桥部位收集的状态参数,是分类的特征属性,将其作为决策树的中间节点,步骤2所述各种故障类型的判断与分类,作为决策树的树叶;
步骤2中所述决策树算法采用分类回归决策树算法,具体构建决策树的方法包含:
步骤2.1、树以代表训练样本的单节点开始;
步骤2.2、如果样本都在同一个类,则该结点成为树叶,并用该类标记;
步骤2.3、否则,算法选择最有分类能力的属性作为决策树的当前结点;
步骤2.4、根据当前决策结点属性取值的不同,将训练样本数据集划分为若干子集,每个取值形成一个分枝;
步骤2.5、针对上一步得到的一个子集,重复进行先前步骤,递归形成每个划分样本上的决策树,一旦一个属性出现在一个结点上,就不必在该结点的任何后代考虑它;
若递归划分步骤满足1-3任一条件时停止:
条件1、当给定结点的所有样本属于同一个类;
条件2、当没有剩余属性可以用来进一步划分样本,在这种情况下,使用多数表决将给定的结点转换成树叶,并以样本中元组个数最多的类别作为类别标记,同时存放该结点样本的类别分布;
条件3、当如果一个分枝没有样本,则以样本的多数类创建一个树叶。
优选地,所述步骤3的分类方法是基于MapReduce的并行决策树ID3算法,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树,并根据所述决策树,对输入的数据记录进行分类;
S1、启动一个进程,计算训练数据中包含的每个属性的信息增益,选出最大值作为根节点的分裂属性,并计算决策规则以及传给第一层的前缀信息;
S2、判断是否产生了新的决策规则,若是,则将产生的新的决策规则保存到规则集中,同时删除当前训练数据中包含该规则的样本,产生新的数据集,之后执行步骤1.3;否则,直接执行步骤1.3;
S3、判断是否产生新的前缀信息,若是,则执行步骤1.4;否则执行步骤1.5;
S4、决策树层数加一,判断当前决策树的层数是否小于训练数据中包含的所有属性的总数,若是,则执行步骤1.5,否则执行步骤1.6;
S5、启动一个新的进程,计算在当前前缀信息下,当前训练数据中包含的每个属性的信息增益,选出最大值作为当前节点的分裂属性,并计算决策规则以及传给下一层的前缀信息,返回步骤1.2;
S6、结束训练,根据计算得到的决策规则构建决策树。
优选地,通过matlab软件对数据集合进行决策树算法ID3运算处理,对于ID3算法的其中的D的熵表示为:
其中,pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计;
假设将训练元组D按属性A进行划分,则A对D划分的期望信息为:
而信息增益即为两者的差值:
gain(A)=in fo(D)-in foA(D)。
优选地,所述MapReduce函数的Map函数中,根据头文件信息对读入的每一行样本进行解析,产生中间的<key,value>对;
其中,key为前缀信息+类别信息+条件属性的名字+条件属性的值或者前缀信息+类别信息;
若没有前缀信息,则key为空,value为1;
Map函数的输入key和value分别为样本的在dfs上偏移位置和样本本身,Reduce函数对中间<key,value>对进行融合。
优选地,构建完成的决策树保存在HDFS文件系统中,当进行测试时,每个节点从HDFS中提取决策树,对输入的数据记录进行分类。
一种采用决策树的数据分类系统,系统模块包括:
训练模块,用于基于MapReduce机制,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树;
分类模块,用于根据所述决策树,对输入的数据记录进行分类;
所述训练模块,包括:
信息增益计算模块,用于计算在当前前缀信息下,当前训练数据中包含的每个属性的信息增益,选出最大值作为当前节点的分裂属性,并计算决策规则以及传给下一层的前缀信息;
决策规则判断模块,用于判断是否产生了新的决策规则,若是,则将产生的新的决策规则保存到规则集中,同时删除当前训练数据中包含该规则的样本,产生新的数据集,触发前缀信息判断模块;否则,直接触发前缀信息判断模块;
前缀信息判断模块,用于判断是否产生新的前缀信息,若是,则触发阈值判断模块,否则结束训练,根据计算得到的决策规则构建决策树;
阈值判断模块,决策树层数加一,判断当前决策树的层数是否小于训练数据中包含的所有属性的总数,若是,则触发信息增益计算模块;否则结束训练,根据计算得到的决策规则构建决策树。
优选地,所述数据分类系统应用于港口岸桥机械工作状态故障分类,所述系统进一步包含:
数据采集设备,用于采集岸桥设备的监测数据;
数据库单元,连接所述数据采集设备,用于存储采集的历史监测数据和实时监测数据;
数据分析单元,连接所述数据库单元,用于对数据库中的历史数据进行数据分析,得到进行故障诊断的决策树,并利用数据库中的实时数据通过决策树对设备进行故障诊断;
知识库单元,连接所述数据分析单元,用于存储所述进行故障诊断的决策树。
优选地,所述训练模块中,在进行属性的信息增益计算时采用MapReduce函数采集数据;
所述分类模块控制每个节点将保存在HDFS文件系统中的构建完成的决策树提取出来,对输入的数据记录进行分类。
本发明可以及时发现及预测工作出现的问题,在港机行业的监测的过程中有较高的使用价值。与传统的人工现场实地勘察相比,工作效率及可靠性大大提高,具有通用性和鲁棒性。
附图说明
图1为本发明的流程图;
图2为本次测试所采用的实验数据用matlab程序编写得到的波形图;
图3为本次测试所采用的对数据的分段处理得出归一化后的部分图形。
具体实施方式
下面首先将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;然后,通过两个具体的工程实例介绍本发明的技术方案。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种采用决策树的数据分类系统,该系统模块包括:训练模块,用于基于MapReduce机制,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树;分类模块,用于根据所述决策树,对输入的数据记录进行分类。
所述训练模块,包括:信息增益计算模块,用于计算在当前前缀信息下,当前训练数据中包含的每个属性的信息增益,选出最大值作为当前节点的分裂属性,并计算决策规则以及传给下一层的前缀信息;决策规则判断模块,用于判断是否产生了新的决策规则,若是,则将产生的新的决策规则保存到规则集中,同时删除当前训练数据中包含该规则的样本,产生新的数据集,触发前缀信息判断模块;否则,直接触发前缀信息判断模块;前缀信息判断模块,用于判断是否产生新的前缀信息,若是,则触发阈值判断模块,否则结束训练,根据计算得到的决策规则构建决策树;阈值判断模块,决策树层数加一,判断当前决策树的层数是否小于训练数据中包含的所有属性的总数,若是,则触发信息增益计算模块;否则结束训练,根据计算得到的决策规则构建决策树。所述训练模块中,在进行属性的信息增益计算时采用MapReduce函数采集数据;所述分类模块控制每个节点将保存在HDFS文件系统中的构建完成的决策树提取出来,对输入的数据记录进行分类。
该数据分类系统应用于港口岸桥机械工作状态故障分类,所述系统进一步包含:数据采集设备,用于采集岸桥设备的监测数据;数据库单元,连接所述数据采集设备,用于存储采集的历史监测数据和实时监测数据;数据分析单元,连接所述数据库单元,用于对数据库中的历史数据进行数据分析,得到进行故障诊断的决策树,并利用数据库中的实时数据通过决策树对设备进行故障诊断;知识库单元,连接所述数据分析单元,用于存储所述进行故障诊断的决策树。
如附图1所示,一种基于决策树算法的港口岸桥机械工作状态故障分类的方法,其特征在于,包含以下步骤:
步骤1:通过安装在岸桥起重机上的的传感器来采集获取数据,存储到数据库;采集每隔10到20秒的实时数据。
步骤2:通过分析岸桥设备的各种历史监测量得到标准故障样本数据,然后采用决策树生成算法对故障样本数据进行分类分析,得到故障的决策树。
步骤1所述的各种岸桥部位收集的状态参数,是分类的特征属性,将其作为决策树的中间节点,步骤2所述各种故障类型的判断与分类,作为决策树的树叶;步骤2中所述决策树算法采用分类回归决策树算法,具体构建决策树的方法包含:步骤2.1、树以代表训练样本的单节点开始;步骤2.2、如果样本都在同一个类,则该结点成为树叶,并用该类标记;步骤2.3、否则,算法选择最有分类能力的属性作为决策树的当前结点;步骤2.4、根据当前决策结点属性取值的不同,将训练样本数据集划分为若干子集,每个取值形成一个分枝;步骤2.5、针对上一步得到的一个子集,重复进行先前步骤,递归形成每个划分样本上的决策树,一旦一个属性出现在一个结点上,就不必在该结点的任何后代考虑它;若递归划分步骤满足1-3任一条件时停止:条件1、当给定结点的所有样本属于同一个类;条件2、当没有剩余属性可以用来进一步划分样本,在这种情况下,使用多数表决将给定的结点转换成树叶,并以样本中元组个数最多的类别作为类别标记,同时存放该结点样本的类别分布;条件3、当如果一个分枝没有样本,则以样本的多数类创建一个树叶。
步骤3:将采集到的实时监测数据通过上一步骤2得到的决策树作为故障模式的分类模型进行分类,从而确定故障种类。
所述步骤3的分类方法是基于MapReduce的并行决策树ID3算法,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树,并根据所述决策树,对输入的数据记录进行分类;S1、启动一个进程,计算训练数据中包含的每个属性的信息增益,选出最大值作为根节点的分裂属性,并计算决策规则以及传给第一层的前缀信息;S2、判断是否产生了新的决策规则,若是,则将产生的新的决策规则保存到规则集中,同时删除当前训练数据中包含该规则的样本,产生新的数据集,之后执行步骤1.3;否则,直接执行步骤1.3;S3、判断是否产生新的前缀信息,若是,则执行步骤1.4;否则执行步骤1.5;S4、决策树层数加一,判断当前决策树的层数是否小于训练数据中包含的所有属性的总数,若是,则执行步骤1.5,否则执行步骤1.6;S5、启动一个新的进程,计算在当前前缀信息下,当前训练数据中包含的每个属性的信息增益,选出最大值作为当前节点的分裂属性,并计算决策规则以及传给下一层的前缀信息,返回步骤1.2;S6、结束训练,根据计算得到的决策规则构建决策树。
步骤3中,通过matlab软件对数据集合进行决策树算法ID3运算处理,对于ID3算法的其中的D的熵表示为:
其中,pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计;熵的实际意义表示是D中元组的类标号所需要的平均信息量。
假设将训练元组D按属性A进行划分,则A对D划分的期望信息为:
而信息增益即为两者的差值:
gain(A)=in fo(D)-in foA(D)
步骤3中,所述MapReduce函数的Map函数中,根据头文件信息对读入的每一行样本进行解析,产生中间的<key,value>对;其中,key为前缀信息+类别信息+条件属性的名字+条件属性的值或者前缀信息+类别信息;若没有前缀信息,则key为空,value为1;Map函数的输入key和value分别为样本的在dfs上偏移位置和样本本身,Reduce函数对中间<key,value>对进行融合。构建完成的决策树保存在HDFS文件系统中,当进行测试时,每个节点从HDFS中提取决策树,对输入的数据记录进行分类。
本次测试所采用的实验数据源于2009年12月25日截止到2009年12月31号,其中选取的是起升减速箱左高速轴端HGH1A,HGH1V两处的应变片收集到的数据。数据均来自于NetCMAS(network condition monitoring and assessment system),其中NetCMAS系统包含了四大模块:信号处理与数据管理模块、岸桥健康状态监测系统模块、工程测试以及专家分析模块和教学实验与数据处理模块。此次试验分析采用的是岸桥健康状态监测评估系统模块中的“远程控制与事实处理分析”,由于NetCMAS采集到的实时数据通常包含一些异常数据,重复数据,缺失数据,所以不能直接选用数据进行处理,得进行预处理。由于matlab在进行数据处理的时候无法同时进行大量的数据处理,因此在进行数据归一化的时候将数据进行按照每一天24小时为一组,共分为七组。首先对分析收集的数据的波形图,通过对matlab的程序编写得到附图2所示的波形图。
对于对数据的分段处理,通过相应的处理得出归一化后的部分图形,dendrogram默认最多画30个最底层节点,当然可以设置参数改变这个限制,比如dendrogram(Z,0)就会把所有数据点索引下标都标出来,但对于成千上万的数据集合,这样的结果必然是图形下方非常拥挤,训练数据预测数据,显示图像如附图3所示。
接着再通过matlab计算其余的数据分别到这7组数据集合分类,通过matlab寻找距离的平方矩阵中数据的每行最小值及其位置,再依据最小值的位置进行分类分类,再统计每个中心组所述数据的个数并计算其所占的比例,其具体的统计结果见下表:
该表能够通过数据分类划分成七类,对比正常工作的岸桥的的振动数据,判断振动频率是否符合该点的正常振动频率范围。
本发明采用决策树算法分类器对岸桥检测中选择的数据进行计算、分类,能够在庞大的原始数据中使差别较大的数据要求进一步分类,更有利于确定岸桥的工作状态,从而大大提高岸桥的工作效率并且有效避免其中的隐患。
尽管本发明的内容已经通过上述优选实例作了详细介绍,但应当认识到上述的描述不应被认为是本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求。
Claims (10)
1.一种基于决策树算法的港口岸桥机械工作状态故障分类的方法,其特征在于,包含以下步骤:
步骤1:通过安装在岸桥起重机上的传感器来采集获取数据,存储到数据库;
步骤2:通过分析岸桥设备的各种历史监测量得到标准故障样本数据,然后采用决策树生成算法对故障样本数据进行分类分析,得到故障的决策树;
步骤3:将采集到的实时监测数据通过上一步骤2得到的决策树作为故障模式的分类模型进行分类,从而确定故障种类。
2.如权利要求1所述的基于决策树算法的港口岸桥机械工作状态故障分类的方法,其特征在于,所述步骤1中,采集每隔10到20秒的实时数据。
3.如权利要求1所述的基于决策树算法的港口岸桥机械工作状态故障分类的方法,其特征在于,步骤1所述的各种岸桥部位收集的状态参数,是分类的特征属性,将其作为决策树的中间节点,步骤2所述各种故障类型的判断与分类,作为决策树的树叶;
步骤2中所述决策树算法采用分类回归决策树算法,具体构建决策树的方法包含:
步骤2.1、树以代表训练样本的单节点开始;
步骤2.2、如果样本都在同一个类,则该结点成为树叶,并用该类标记;
步骤2.3、否则,算法选择最有分类能力的属性作为决策树的当前结点;
步骤2.4、根据当前决策结点属性取值的不同,将训练样本数据集划分为若干子集,每个取值形成一个分枝;
步骤2.5、针对上一步得到的一个子集,重复进行先前步骤,递归形成每个划分样本上的决策树,一旦一个属性出现在一个结点上,就不必在该结点的任何后代考虑它;
若递归划分步骤满足1-3任一条件时停止:
条件1、当给定结点的所有样本属于同一个类;
条件2、当没有剩余属性可以用来进一步划分样本,在这种情况下,使用多数表决将给定的结点转换成树叶,并以样本中元组个数最多的类别作为类别标记,同时存放该结点样本的类别分布;
条件3、当如果一个分枝没有样本,则以样本的多数类创建一个树叶。
4.如权利要求3所述的基于决策树算法的港口岸桥机械工作状态故障分类的方法,其特征在于,所述步骤3的分类方法是基于MapReduce的并行决策树ID3算法,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树,并根据所述决策树,对输入的数据记录进行分类;
S1、启动一个进程,计算训练数据中包含的每个属性的信息增益,选出最大值作为根节点的分裂属性,并计算决策规则以及传给第一层的前缀信息;
S2、判断是否产生了新的决策规则,若是,则将产生的新的决策规则保存到规则集中,同时删除当前训练数据中包含该规则的样本,产生新的数据集,之后执行步骤1.3;否则,直接执行步骤1.3;
S3、判断是否产生新的前缀信息,若是,则执行步骤1.4;否则执行步骤1.5;
S4、决策树层数加一,判断当前决策树的层数是否小于训练数据中包含的所有属性的总数,若是,则执行步骤1.5,否则执行步骤1.6;
S5、启动一个新的进程,计算在当前前缀信息下,当前训练数据中包含的每个属性的信息增益,选出最大值作为当前节点的分裂属性,并计算决策规则以及传给下一层的前缀信息,返回步骤1.2;
S6、结束训练,根据计算得到的决策规则构建决策树。
5.如权利要求4所述的基于决策树算法的港口岸桥机械工作状态故障分类的方法,其特征在于,通过matlab软件对数据集合进行决策树算法ID3运算处理,对于ID3算法的其中的D的熵表示为:
其中,pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计;
假设将训练元组D按属性A进行划分,则A对D划分的期望信息为:
而信息增益即为两者的差值:
gain(A)=info(D)-infoA(D)。
6.如权利要求4所述的基于决策树算法的港口岸桥机械工作状态故障分类的方法,其特征在于,所述MapReduce函数的Map函数中,根据头文件信息对读入的每一行样本进行解析,产生中间的<key,value>对;
其中,key为前缀信息+类别信息+条件属性的名字+条件属性的值或者前缀信息+类别信息;
若没有前缀信息,则key为空,value为1;
Map函数的输入key和value分别为样本的在dfs上偏移位置和样本本身,Reduce函数对中间<key,value>对进行融合。
7.如权利要求4所述的基于决策树算法的港口岸桥机械工作状态故障分类的方法,其特征在于,构建完成的决策树保存在HDFS文件系统中,当进行测试时,每个节点从HDFS中提取决策树,对输入的数据记录进行分类。
8.一种采用决策树的数据分类系统,其特征在于,系统模块包括:
训练模块,用于基于MapReduce机制,并行计算训练数据中包含的每个属性的信息增益,选出最佳的分裂决策属性作为节点构造决策树;
分类模块,用于根据所述决策树,对输入的数据记录进行分类;
所述训练模块,包括:
信息增益计算模块,用于计算在当前前缀信息下,当前训练数据中包含的每个属性的信息增益,选出最大值作为当前节点的分裂属性,并计算决策规则以及传给下一层的前缀信息;
决策规则判断模块,用于判断是否产生了新的决策规则,若是,则将产生的新的决策规则保存到规则集中,同时删除当前训练数据中包含该规则的样本,产生新的数据集,触发前缀信息判断模块;否则,直接触发前缀信息判断模块;
前缀信息判断模块,用于判断是否产生新的前缀信息,若是,则触发阈值判断模块,否则结束训练,根据计算得到的决策规则构建决策树;
阈值判断模块,决策树层数加一,判断当前决策树的层数是否小于训练数据中包含的所有属性的总数,若是,则触发信息增益计算模块;否则结束训练,根据计算得到的决策规则构建决策树。
9.如权利要求8所述的一种采用决策树的数据分类系统,其特征在于,所述数据分类系统应用于港口岸桥机械工作状态故障分类,所述系统进一步包含:
数据采集设备,用于采集岸桥设备的监测数据;
数据库单元,连接所述数据采集设备,用于存储采集的历史监测数据和实时监测数据;
数据分析单元,连接所述数据库单元,用于对数据库中的历史数据进行数据分析,得到进行故障诊断的决策树,并利用数据库中的实时数据通过决策树对设备进行故障诊断;
知识库单元,连接所述数据分析单元,用于存储所述进行故障诊断的决策树。
10.如权利要求8所述的一种采用决策树的数据分类系统,其特征在于,所述训练模块中,在进行属性的信息增益计算时采用MapReduce函数采集数据;
所述分类模块控制每个节点将保存在HDFS文件系统中的构建完成的决策树提取出来,对输入的数据记录进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811367439.2A CN109522957A (zh) | 2018-11-16 | 2018-11-16 | 基于决策树算法的港口岸桥机械工作状态故障分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811367439.2A CN109522957A (zh) | 2018-11-16 | 2018-11-16 | 基于决策树算法的港口岸桥机械工作状态故障分类的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109522957A true CN109522957A (zh) | 2019-03-26 |
Family
ID=65778129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811367439.2A Pending CN109522957A (zh) | 2018-11-16 | 2018-11-16 | 基于决策树算法的港口岸桥机械工作状态故障分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522957A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110716820A (zh) * | 2019-10-10 | 2020-01-21 | 厦门钛尚人工智能科技有限公司 | 一种基于决策树算法的故障诊断方法 |
CN110737731A (zh) * | 2019-10-25 | 2020-01-31 | 徐州工程学院 | 一种基于决策树的公积金用户数据细化分析系统及方法 |
CN111126672A (zh) * | 2019-12-02 | 2020-05-08 | 国网浙江省电力有限公司电力科学研究院 | 一种基于分类决策树的高压架空输电线路台风灾害预测方法 |
CN111241056A (zh) * | 2019-12-31 | 2020-06-05 | 国网浙江省电力有限公司电力科学研究院 | 一种基于决策树模型的电力用能数据存储优化方法 |
CN111275203A (zh) * | 2020-02-11 | 2020-06-12 | 深圳前海微众银行股份有限公司 | 基于列存储的决策树构造方法、装置、设备及存储介质 |
CN111562111A (zh) * | 2020-06-05 | 2020-08-21 | 上海交通大学 | 发动机冷态测试故障诊断方法 |
CN111798107A (zh) * | 2020-06-18 | 2020-10-20 | 国网河北省电力有限公司石家庄市栾城区供电分公司 | 一种应用ai智能诊断分析的新型反窃电系统及方法 |
CN111874813A (zh) * | 2020-08-04 | 2020-11-03 | 上海海事大学 | 基于改进决策树算法的岸桥起重机减速器状态检测方法 |
CN112070107A (zh) * | 2020-07-15 | 2020-12-11 | 上海大学 | 一种电子口岸船舶进港控制方法 |
CN112132221A (zh) * | 2020-09-25 | 2020-12-25 | 海南电网有限责任公司 | 一种基于规则学习的电网事故智能识别的方法 |
CN112631226A (zh) * | 2020-12-26 | 2021-04-09 | 太原师范学院 | 一种基于数据驱动的生产设备故障监测方法 |
CN113011484A (zh) * | 2021-03-12 | 2021-06-22 | 大商所飞泰测试技术有限公司 | 基于分类树和判定树的图形化的需求分析及测试用例生成方法 |
CN113450014A (zh) * | 2021-07-14 | 2021-09-28 | 上海海事大学 | 一种设备运行动态风险分类方法 |
CN113673624A (zh) * | 2021-08-31 | 2021-11-19 | 重庆大学 | 基于决策树模型的桥梁状态监测方法 |
CN115204536A (zh) * | 2022-09-16 | 2022-10-18 | 苏州智能交通信息科技股份有限公司 | 楼宇设备故障预测方法、装置、设备及存储介质 |
CN116155956A (zh) * | 2023-04-18 | 2023-05-23 | 武汉森铂瑞科技有限公司 | 一种基于梯度决策树模型的多路复用通信方法及系统 |
CN117930669A (zh) * | 2024-03-20 | 2024-04-26 | 山西顺达胜业通信工程有限公司 | 基于物联网的智能家居远程控制方法 |
-
2018
- 2018-11-16 CN CN201811367439.2A patent/CN109522957A/zh active Pending
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110716820A (zh) * | 2019-10-10 | 2020-01-21 | 厦门钛尚人工智能科技有限公司 | 一种基于决策树算法的故障诊断方法 |
CN110737731A (zh) * | 2019-10-25 | 2020-01-31 | 徐州工程学院 | 一种基于决策树的公积金用户数据细化分析系统及方法 |
CN110737731B (zh) * | 2019-10-25 | 2023-12-29 | 徐州工程学院 | 一种基于决策树的公积金用户数据细化分析系统及方法 |
CN111126672A (zh) * | 2019-12-02 | 2020-05-08 | 国网浙江省电力有限公司电力科学研究院 | 一种基于分类决策树的高压架空输电线路台风灾害预测方法 |
CN111241056B (zh) * | 2019-12-31 | 2024-03-01 | 国网浙江省电力有限公司营销服务中心 | 一种基于决策树模型的电力用能数据存储优化方法 |
CN111241056A (zh) * | 2019-12-31 | 2020-06-05 | 国网浙江省电力有限公司电力科学研究院 | 一种基于决策树模型的电力用能数据存储优化方法 |
CN111275203A (zh) * | 2020-02-11 | 2020-06-12 | 深圳前海微众银行股份有限公司 | 基于列存储的决策树构造方法、装置、设备及存储介质 |
CN111562111A (zh) * | 2020-06-05 | 2020-08-21 | 上海交通大学 | 发动机冷态测试故障诊断方法 |
CN111798107A (zh) * | 2020-06-18 | 2020-10-20 | 国网河北省电力有限公司石家庄市栾城区供电分公司 | 一种应用ai智能诊断分析的新型反窃电系统及方法 |
CN112070107A (zh) * | 2020-07-15 | 2020-12-11 | 上海大学 | 一种电子口岸船舶进港控制方法 |
CN111874813A (zh) * | 2020-08-04 | 2020-11-03 | 上海海事大学 | 基于改进决策树算法的岸桥起重机减速器状态检测方法 |
CN112132221A (zh) * | 2020-09-25 | 2020-12-25 | 海南电网有限责任公司 | 一种基于规则学习的电网事故智能识别的方法 |
CN112631226A (zh) * | 2020-12-26 | 2021-04-09 | 太原师范学院 | 一种基于数据驱动的生产设备故障监测方法 |
CN112631226B (zh) * | 2020-12-26 | 2021-10-29 | 太原师范学院 | 一种基于数据驱动的生产设备故障监测方法 |
CN113011484B (zh) * | 2021-03-12 | 2023-12-26 | 大商所飞泰测试技术有限公司 | 基于分类树和判定树的图形化的需求分析及测试用例生成方法 |
CN113011484A (zh) * | 2021-03-12 | 2021-06-22 | 大商所飞泰测试技术有限公司 | 基于分类树和判定树的图形化的需求分析及测试用例生成方法 |
CN113450014A (zh) * | 2021-07-14 | 2021-09-28 | 上海海事大学 | 一种设备运行动态风险分类方法 |
CN113450014B (zh) * | 2021-07-14 | 2024-04-05 | 上海海事大学 | 一种设备运行动态风险分类方法 |
CN113673624A (zh) * | 2021-08-31 | 2021-11-19 | 重庆大学 | 基于决策树模型的桥梁状态监测方法 |
CN115204536A (zh) * | 2022-09-16 | 2022-10-18 | 苏州智能交通信息科技股份有限公司 | 楼宇设备故障预测方法、装置、设备及存储介质 |
CN116155956A (zh) * | 2023-04-18 | 2023-05-23 | 武汉森铂瑞科技有限公司 | 一种基于梯度决策树模型的多路复用通信方法及系统 |
CN116155956B (zh) * | 2023-04-18 | 2023-08-22 | 武汉森铂瑞科技有限公司 | 一种基于梯度决策树模型的多路复用通信方法及系统 |
CN117930669A (zh) * | 2024-03-20 | 2024-04-26 | 山西顺达胜业通信工程有限公司 | 基于物联网的智能家居远程控制方法 |
CN117930669B (zh) * | 2024-03-20 | 2024-05-28 | 山西顺达胜业通信工程有限公司 | 基于物联网的智能家居远程控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522957A (zh) | 基于决策树算法的港口岸桥机械工作状态故障分类的方法 | |
CN113360358B (zh) | 一种自适应计算it智能运维健康指数的方法及系统 | |
CN107133255A (zh) | 一种大电网全景安全防御方法和系统 | |
CN106600115A (zh) | 一种企业信息系统运维智能分析方法 | |
CN108960434A (zh) | 基于机器学习模型解释来分析数据的方法及装置 | |
CN105654196A (zh) | 一种基于电力大数据的自适应负荷预测选择方法 | |
CN108491991A (zh) | 基于工业大数据产品工期的约束条件分析系统与方法 | |
CN103886030B (zh) | 基于代价敏感决策树的信息物理融合系统数据分类方法 | |
CN116703303A (zh) | 基于多层感知机与rbf的仓储可视化监管系统及方法 | |
CN117221087A (zh) | 告警根因定位方法、装置及介质 | |
CN116861924A (zh) | 基于人工智能的项目风险预警方法及系统 | |
CN112116168B (zh) | 一种用户行为的预测方法、装置及电子设备 | |
CN111126627B (zh) | 基于分离度指数的模型训练系统 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN114566052B (zh) | 一种基于车流方向判别高速公路车流监控设备转动的方法 | |
CN112101125B (zh) | 一种快递货物堆积程度的检测方法及装置 | |
CN109344171A (zh) | 一种基于数据流处理的非线性系统特征变量显著性挖掘法 | |
CN109685133A (zh) | 基于构建的预测模型低成本、高区分度的数据分类方法 | |
CN111062827B (zh) | 一种基于人工智能模式的工程监理方法 | |
CN115689407A (zh) | 账户异常检测方法、装置以及终端设备 | |
CN113726558A (zh) | 基于随机森林算法的网络设备流量预测系统 | |
CN117544482A (zh) | 基于ai的运维故障确定方法、装置、设备和存储介质 | |
CN114399407B (zh) | 一种基于动静态选择集成的电力调度监控数据异常检测方法 | |
CN116862194A (zh) | 一种基于电网业务数据分析运检系统 | |
CN110413682A (zh) | 一种数据的分类展示方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190326 |
|
RJ01 | Rejection of invention patent application after publication |