CN111860946B - 基于c4.5算法的防鸟装置有效性评价方法 - Google Patents
基于c4.5算法的防鸟装置有效性评价方法 Download PDFInfo
- Publication number
- CN111860946B CN111860946B CN202010526272.0A CN202010526272A CN111860946B CN 111860946 B CN111860946 B CN 111860946B CN 202010526272 A CN202010526272 A CN 202010526272A CN 111860946 B CN111860946 B CN 111860946B
- Authority
- CN
- China
- Prior art keywords
- bird
- effectiveness
- feature
- data
- effective
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 47
- 238000003066 decision tree Methods 0.000 claims abstract description 52
- 230000002265 prevention Effects 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012423 maintenance Methods 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims abstract description 10
- 238000013209 evaluation strategy Methods 0.000 claims abstract description 6
- 238000010187 selection method Methods 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims abstract description 5
- 238000013138 pruning Methods 0.000 claims description 29
- 238000012795 verification Methods 0.000 claims description 21
- 230000002940 repellent Effects 0.000 claims description 16
- 239000005871 repellent Substances 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及机器学习领域,更具体地,涉及基于C4.5算法的防鸟装置有效性评价方法,包括收集运维数据形成数据集Dall并获得特征集Aall;然后将特征集Aall中的元素采用过滤式评价策略的特征选择方法挑选出具有信息价值的特征,得到新的特征集合和数据集;使用获得的数据并利用C4.5算法构建可评价防鸟装置有效性的决策树;最后设定召回率阀值,采集新防鸟装置投入后的运维数据,建立混淆矩阵,通过计算召回率评估决策树有效性评价方法准确性;本方法利用召回率作为评估指标,评估决策树有效性评价方法的准确性,当召回率低于一定值时,重新收集防鸟装置的运维数据,重构特征,重新建立决策树,更进一步提高对防鸟装置有效性的评价结果准确性。
Description
技术领域
本发明涉及机器学习领域,更具体地,涉及基于C4.5算法的防鸟装置有效性评价方法。
背景技术
鸟害是现在造成输电线路事故的主要原因之一,为了防止鸟害造成事故,一般会在输电线路上设置有防鸟装置,但是由于输电线路杆塔的多样性、防鸟装置的复杂性和不同鸟类的适应性,防鸟装置可能无法发挥效果或者发挥出最佳效果,因此需要对防鸟装置的有效性进行评价,并且根据防鸟装置有效性的评价进行装置的设置。
申请号为“201811196369.9”,专利申请文件中公开了一种输电线路鸟害防护装置的有效性评价方法,该方法通过评价防鸟装置有效性的指标,构建了防鸟装置效果评价指标体系,实现对防鸟装置有效性的评价。但是该方法只构建了一个体系,没有根据评价结果和实际的使用情况对该体系的评价准确性进行评价和反馈,令体系只能根据固有的指标进行评价,导致在不同的环境情况下,有效性的评价不够准确。
发明内容
本发明为克服上述现有技术中有效性评价不够准确的问题,提供基于C4.5算法的防鸟装置有效性评价方法,令防鸟装置有效性的评价更加准确。
为解决上述技术问题,本发明采用的技术方案是:提供基于C4.5算法的防鸟装置有效性评价方法,包括以下的步骤:
步骤一:收集现有的防鸟装置运维数据形成数据集Dall,量化现有防鸟装置的有效性并在数据集Dall中获得特征集Aall;
步骤二:将特征集Aall中的元素采用过滤式评价策略的特征选择方法挑选出具有信息价值的特征,得到新的特征集合A与新的数据集D;
步骤三:根据特征集合A与数据集D,利用C4.5算法构建可评价防鸟装置有效性的决策树;
步骤四:设定召回率阈值,采集新防鸟装置投入后的运维数据,建立混淆矩阵,通过计算召回率评估决策树有效性评价方法准确性;若召回率满足阈值要求,通过决策树评价方法得出防鸟装置的有效性;若召回率不满足阈值要求,收集新防鸟装置的运维数据后重复步骤二至三,直至计算的召回率满足阈值要求;
召回率是指实际情况下有效的防鸟装置个数中有多少个防鸟装置被决策树的评价方法预测为有效,计算公式如下:
其中,TP为防鸟装置在真实情况为有效,在决策树评价方法的预测中也为有效;FN为防鸟装置在真实情况为有效,在决策树评价方法的预测为无效。
优选的,在所述步骤一中,数据集Dall和特征集Aall的构建方法如下:收集现有的防鸟装置运维数据,根据防鸟装置所处杆塔发生鸟害的次数,按照标准量化为防鸟装置的有效、一般有效、无效三个等级,此时防鸟装置的有效性作为类别,其集合={有效、一般有效、无效};
再从运维数据中获得对防鸟装置有效性有影响的特征,并收集每个特征下各自的可能值,从而构建特征集Aall。
优选的,收集特征下的可能值的时候,对特征集Aall中的连续性数据进行离散化处理,再划分可能值。
优选的,在所述步骤二中,采用过滤式评价策略的特征选择方法从特征集挑选具有信息价值的特征的具体步骤为:
S2.1:根据先验知识从特征集Aall和数据集Dall中选出对防鸟装置的有效性具有影响的特征,得到新的特征集合Anew与新的数据集Dnew;
S2.2:计算防鸟装置有效性信息熵H(y):设防鸟装置有效变量为Y,取值空间为R+,其概率分布为p(y)=P(Y=y),p(y)为数据集Dnew中防鸟装置有效所占的比例,Y的熵定义式为:
S2.3:计算特征Anewi与防鸟装置有效的条件熵H(Y|Xi):设特征Anewi变量为Xi取值空间为R+,其与防鸟装置有效变量Y的联合概率分布为p(Xi,y)、条件概率分布为p(xi,y)为在数据集Dnew中特征Anewi下防鸟装置有效所占的比例;条件熵定义式为:
由上两条式子可得特征Anewi与防鸟装置有效性的互信息I(Xi;Y)计算公式:
I(Xi;Y)=H(Y)-H(Y|Xi)
S2.4:重复步骤二,直到特征集Anew里所有特征与防鸟装置有效性的互信息均计算完;
S2.5:当选出特征达到k个即停止计算,获得新的特征集合A与新的数据集D。
优选的,在所述步骤三中,C4.5算法构建决策树的步骤如下:
S3.1:计算特征集合A的所有特征Ai的信息增益率,选取信息增益率最大的特征对根节点进行划分,并将该特征记为AN;
S3.2:进行决策树的分裂,计算特征AN的每个可能值下,剩余特征的信息增益率,选取高于信息增益率平均值且信息增益率最大的特征,则该特征基于该可能值下继续进行划分;
S3.3:当出现所有的可能值均已被使用或者剩余数据均属同一类,则终止树的分裂;
S3.4:选取后剪枝的方法,对建立好的决策树进行剪枝处理。
优选的,在所述步骤S3.1中,已知防鸟装置有效的信息熵H(y),以防鸟装置有效作为根节点。
优选的,特征Ai的信息增益率的公式为,
其中,Gain(D,Ai)为特征Ai的信息增益;Dv为在数据集D中,所含特征Ai第v个可能值下的样本数;m为特征Ai下的可能值个数;
特征Ai的信息增益的公式为:
其中,Dv为在数据集D中,所含特征Ai第v个可能值下的样本数;m为特征Ai下的可能值个数。
优选的,剪枝处理的具体步骤如下:
S3.4.1:从数据集Dall划分出部分数据集作为验证集Dtest;
S3.4.2:将验证集Dtest的数据通过决策树计算该决策树的验证集精度;
S3.4.3:然后自底向上的求出子节点剪枝后的验证集精度,若子节点剪枝后的验证集精度高于子节点剪枝前的验证集精度,则对该子节点进行剪枝,若子节点剪枝后的验证集精度低于子节点剪枝前的验证集精度,则不对该子节点进行剪枝。
优选的,在所述步骤四中,混淆矩阵包括真实数据和预测数据,通过发生鸟害次数评价防鸟装置有效性的数据作为真实数据,通过决策树评价方法评价防鸟装置有效性的数据作为预测数据;
优选的,在所述步骤四中,将防鸟装置有效性评价中的一般有效和无效都归类为无效;有效性评价变为两个等级:有效和无效。
优选的,设定一个间隔时间,每隔一段时间就获取防鸟装置的运维数据,重新执行步骤四。每隔一段时间就检测决策树评价方法的准确性,能够及时更新决策树,令决策树评价防鸟装置有效性更加准确。
与现有技术相比,有益效果是:从数据集中挑选出对防鸟装置有效性具有影响的特征,并通过这些大量的特征数据构建决策树,令决策树对防鸟装置的有效性评价结果更准确;同时建立混淆矩阵,利用召回率作为评估指标,评估决策树有效性评价方法的准确性,当召回率低于一定值时,重新收集防鸟装置的运维数据,重构特征,重新建立决策树,更进一步提高评价结果准确性。
附图说明
图1是本发明基于C4.5算法的防鸟装置有效性评价方法的流程图;
图2是本发明步骤二的流程图;
图3是本发明决策树构建的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”“长”“短”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体描述:
实施例1
如图1-3所示为基于C4.5算法的防鸟装置有效性评价方法的实施例,具体步骤如下:
步骤一:收集现有的防鸟装置运维数据形成数据集Dall,量化现有防鸟装置的有效性并在数据集Dall中获得特征集Aall;根据防鸟装置所处杆塔发生鸟害的次数,按照标准量化为防鸟装置的有效、一般有效、无效三个等级,此时防鸟装置的有效性作为类别,其集合={有效、一般有效、无效};再从运维数据中获得对防鸟装置有效性有影响的特征,并收集每个特征下各自的可能值,从而构建特征集Aall。对特征集Aall中的连续性数据进行离散化处理,再划分可能值。
在本实施例中,假设依据每季度防鸟装置所处杆塔发生鸟害的次数根据专家的标准量化成防鸟装置的有效、一般有效、无效三个等级,数据集Dall如表1-1所示:
表1-1数据集Dall
以表1-1数据集为例,特征集合Aall={受害杆塔种类,受害杆塔电压等级,受害杆塔塔高,杆塔受害部位,受害杆塔周边环境,涉害鸟类},类别集合={有效、一般有效、无效}。以上表格数据仅为本发明假设例子,并不限制本发明的专利范围。
步骤二:将特征集Aall中的元素采用过滤式评价策略的特征选择方法挑选出具有信息价值的特征,得到新的特征集合A与新的数据集D,具体流程如下:
S2.1:根据先验知识从特征集Aall和数据集Dall中选出对防鸟装置的有效性具有影响的特征,得到新的特征集合Anew与新的数据集Dnew;
S2.2:计算防鸟装置有效性信息熵H(y):设防鸟装置有效变量为Y,取值空间为R+,其概率分布为p(y)=P(Y=y),p(y)为数据集Dnew中防鸟装置有效所占的比例,Y的熵定义式为:
S2.3:计算特征Anewi与防鸟装置有效的条件熵H(Y|Xi):设特征Anewi变量为Xi取值空间为R+,其与防鸟装置有效变量Y的联合概率分布为p(Xi,y)、条件概率分布为p(xi,y)为在数据集Dnew中特征Anewi下防鸟装置有效所占的比例;条件熵定义式为:
由上两条式子可得特征Anewi与防鸟装置有效性的互信息I(Xi;Y)计算公式:
I(Xi;Y)=H(Y)-H(Y|Xi)
S2.4:重复步骤二,直到特征集Anew里所有特征与防鸟装置有效性的互信息均计算完;
S2.5:当选出特征达到k个即停止计算,获得新的特征集合A与新的数据集D。
步骤三:根据特征集合A与数据集D,利用C4.5算法构建可评价防鸟装置有效性的决策树;具体流程如下:
S3.1:计算特征集合A的所有特征Ai的信息增益率,选取信息增益率最大的特征对根节点进行划分,并将该特征记为AN;其中以防鸟装置有效作为根节点,特征Ai的信息增益率的公式为,
其中,Gain(D,Ai)为特征Ai的信息增益;Dv为在数据集D中,所含特征Ai第v个可能值下的样本数;m为特征Ai下的可能值个数;
特征Ai的信息增益的公式为:
其中,Dv为在数据集D中,所含特征Ai第v个可能值下的样本数;m为特征Ai下的可能值个数。
S3.2:进行决策树的分裂,计算特征AN的每个可能值下,剩余特征的信息增益率,选取高于信息增益率平均值且信息增益率最大的特征,则该特征基于该可能值下继续进行划分;
S3.3:当出现所有的可能值均已被使用或者剩余数据均属同一类,则终止树的分裂;
S3.4:选取后剪枝的方法,对建立好的决策树进行剪枝处理,具体流程如下:
S3.4.1:从数据集Dall划分出部分数据集作为验证集Dtest;
S3.4.2:将验证集Dtest的数据通过决策树计算该决策树的验证集精度;
S3.4.3:然后自底向上的求出子节点剪枝后的验证集精度,若子节点剪枝后的验证集精度高于子节点剪枝前的验证集精度,则对该子节点进行剪枝,若子节点剪枝后的验证集精度低于子节点剪枝前的验证集精度,则不对该子节点进行剪枝。
步骤四:设定召回率阈值,采集新防鸟装置投入后的运维数据,建立混淆矩阵,通过计算召回率评估决策树有效性评价方法准确性;若召回率满足阈值要求,通过决策树评价方法得出防鸟装置的有效性;若召回率不满足阈值要求,收集新防鸟装置的运维数据后重复步骤二至三,直至计算的召回率满足阈值要求;
在本实施例中,研发的防鸟装置投入使用后,每隔一段时间收集防鸟装置所处杆塔发生鸟害的次数数据,例如该季度内发生鸟害次数(同样依据每季度防鸟装置所处杆塔发生鸟害的次数根据专家的标准量化成防鸟装置的有效、一般有效、无效三个等级),通过发生鸟害次数评价防鸟装置有效性的数据作为真实数据,通过C4.5决策树有效性评价方法评价防鸟装置有效性的数据作为预测数据,依据这些数据建立混淆矩阵。因为更关注新投入的防鸟装置在什么环境下有效,所以将一般有效和无效都归类为无效,变为两个等级:有效、无效。
在本实施例中,假设在10个投放的新防鸟装置中,通过发生鸟害次数评价得出防鸟装置有效性情况(实际情况)和通过决策树有效性评价方法评价得出防鸟装置有效性情况(预测情况)如下表:
防鸟装置 | 实际结果 | 预测结果 |
1 | 无效 | 有效 |
2 | 无效 | 无效 |
3 | 无效 | 无效 |
4 | 无效 | 无效 |
5 | 无效 | 无效 |
6 | 有效 | 有效 |
7 | 有效 | 有效 |
8 | 有效 | 有效 |
9 | 有效 | 无效 |
10 | 有效 | 无效 |
根据上表得到混淆矩阵:
表中TP(True Positive):将正类预测为正类数,真实为有效,预测也为有效;FN(False Negative):将正类预测为负类数,真实为有效,预测为无效;FP(False Positive):将负类预测为正类数,真实为无效,预测为有效;TN(True Negative):将负类预测为负类数,真实为无效,预测也为无效。
召回率是指实际情况下有效的防鸟装置个数中有多少个防鸟装置被C4.5决策树评价方法预测为有效。计算公式如下:
投放防鸟装置是为了有效,当召回率越高,影响防鸟装置有效的环境因素更容易被预测出来。设定召回率的阈值值,当召回率低于阈值时,决策树评价方法准确性不高,此时收集新投入防鸟装置的运维记录进行特征选择,再次构建决策树。
本实施的有益效果:从数据集中挑选出对防鸟装置有效性具有影响的特征,并通过这些大量的特征数据构建决策树,令决策树对防鸟装置的有效性评价结果更准确;同时建立混淆矩阵,利用召回率作为评估指标,评估决策树有效性评价方法的准确性,当召回率低于一定值时,重新收集防鸟装置的运维数据,重构特征,重新建立决策树,更进一步提高评价结果准确性。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.基于C4.5算法的防鸟装置有效性评价方法,其特征在于,包括以下的步骤:
步骤一:收集现有的防鸟装置运维数据形成数据集Dall,量化现有防鸟装置的有效性并在数据集Dall中获得特征集Aall;数据集Dall和特征集Aall的构建方法如下:收集现有的防鸟装置运维数据,根据防鸟装置所处杆塔发生鸟害的次数,按照标准量化为防鸟装置的有效、一般有效、无效三个等级,此时防鸟装置的有效性作为类别,其集合={有效、一般有效、无效};
再从运维数据中获得对防鸟装置有效性有影响的特征,并收集每个特征下各自的可能值,从而构建特征集Aall;
步骤二:将特征集Aall中的元素采用过滤式评价策略的特征选择方法挑选出具有信息价值的特征,得到新的特征集合A与新的数据集D;采用过滤式评价策略的特征选择方法从特征集挑选具有信息价值的特征的具体步骤为:
S2.1:根据先验知识从特征集Aall和数据集Dall中选出对防鸟装置的有效性具有影响的特征,得到新的特征集合Anew与新的数据集Dnew;
S2.2:计算防鸟装置有效性信息熵H(y):设防鸟装置有效变量为Y,取值空间为R+,其概率分布为p(y)=P(Y=y),p(y)为数据集Dnew中防鸟装置有效所占的比例,Y的熵定义式为:
S2.3:计算特征Anewi与防鸟装置有效的条件熵H(Y|Xi):设特征Anewi变量为Xi取值空间为R+,其与防鸟装置有效变量Y的联合概率分布为p(Xi,y)、条件概率分布为p(xi,y)为在数据集Dnew中特征Anewi下防鸟装置有效所占的比例;条件熵定义式为:
由上两条式子可得特征Anewi与防鸟装置有效性的互信息I(Xi;Y)计算公式:
I(Xi;Y)=H(Y)-H(Y|Xi)
S2.4:重复步骤二,直到特征集Anew里所有特征与防鸟装置有效性的互信息均计算完;
S2.5:当选出特征达到k个即停止计算,获得新的特征集合A与新的数据集D;
步骤三:根据特征集合A与数据集D,利用C4.5算法构建可评价防鸟装置有效性的决策树;C4.5算法构建决策树的步骤如下:
S3.1:计算特征集合A的所有特征Ai的信息增益率,选取信息增益率最大的特征对根节点进行划分,并将该特征记为AN;
S3.2:进行决策树的分裂,计算特征AN的每个可能值下,剩余特征的信息增益率,选取高于信息增益率平均值且信息增益率最大的特征,则该特征基于该可能值下继续进行划分;
S3.3:当出现所有的可能值均已被使用或者剩余数据均属同一类,则终止树的分裂;
S3.4:选取后剪枝的方法,对建立好的决策树进行剪枝处理;
步骤四:设定召回率阈值,采集新防鸟装置投入后的运维数据,建立混淆矩阵,通过计算召回率评估决策树有效性评价方法准确性;若召回率满足阈值要求,通过决策树评价方法得出防鸟装置的有效性;若召回率不满足阈值要求,收集新防鸟装置的运维数据后重复步骤二至三,直至计算的召回率满足阈值要求;
召回率是指实际情况下有效的防鸟装置个数中有多少个防鸟装置被决策树的评价方法预测为有效,计算公式如下:
其中,TP为防鸟装置在真实情况为有效,在决策树评价方法的预测中也为有效;FN为防鸟装置在真实情况为有效,在决策树评价方法的预测为无效。
2.根据权利要求1所述的基于C4.5算法的防鸟装置有效性评价方法,其特征在于,收集特征下的可能值的时候,对特征集Aall中的连续性数据进行离散化处理,再划分可能值。
3.根据权利要求1所述的基于C4.5算法的防鸟装置有效性评价方法,其特征在于,在所述步骤S3.1中,已知防鸟装置有效的信息熵H(y),以防鸟装置有效作为根节点。
4.根据权利要求3所述的基于C4.5算法的防鸟装置有效性评价方法,其特征在于,特征Ai的信息增益率的公式为,
其中,Gain(D,Ai)为特征Ai的信息增益;Dv为在数据集D中,所含特征Ai第v个可能值下的样本数;m为特征Ai下的可能值个数;
特征Ai的信息增益的公式为:
其中,Dv为在数据集D中,所含特征Ai第v个可能值下的样本数。
5.根据权利要求1所述的基于C4.5算法的防鸟装置有效性评价方法,其特征在于,剪枝处理的具体步骤如下:
S3.4.1:从数据集Dall划分出部分数据集作为验证集Dtest;
S3.4.2:将验证集Dtest的数据通过决策树计算该决策树的验证集精度;
S3.4.3:然后自底向上的求出子节点剪枝后的验证集精度,若子节点剪枝后的验证集精度高于子节点剪枝前的验证集精度,则对该子节点进行剪枝,若子节点剪枝后的验证集精度低于子节点剪枝前的验证集精度,则不对该子节点进行剪枝。
6.根据权利要求1所述的基于C4.5算法的防鸟装置有效性评价方法,其特征在于,在所述步骤四中,混淆矩阵包括真实数据和预测数据,通过发生鸟害次数评价防鸟装置有效性的数据作为真实数据,通过决策树评价方法评价防鸟装置有效性的数据作为预测数据。
7.根据权利要求1-6任一所述的基于C4.5算法的防鸟装置有效性评价方法,其特征在于,设定一个间隔时间,每隔一段时间就获取防鸟装置的运维数据,重新执行步骤四。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010526272.0A CN111860946B (zh) | 2020-06-09 | 2020-06-09 | 基于c4.5算法的防鸟装置有效性评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010526272.0A CN111860946B (zh) | 2020-06-09 | 2020-06-09 | 基于c4.5算法的防鸟装置有效性评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860946A CN111860946A (zh) | 2020-10-30 |
CN111860946B true CN111860946B (zh) | 2023-08-04 |
Family
ID=72986506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010526272.0A Active CN111860946B (zh) | 2020-06-09 | 2020-06-09 | 基于c4.5算法的防鸟装置有效性评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860946B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845717A (zh) * | 2017-01-24 | 2017-06-13 | 哈尔滨工业大学 | 一种基于多模型融合策略的能源效率评价方法 |
WO2018014610A1 (zh) * | 2016-07-20 | 2018-01-25 | 武汉斗鱼网络科技有限公司 | 基于c4.5决策树算法的特定用户挖掘系统及其方法 |
CN110110989A (zh) * | 2019-04-29 | 2019-08-09 | 国网河北省电力有限公司经济技术研究院 | 架空线路防鸟效果的评价方法及终端设备 |
CN110796331A (zh) * | 2019-09-11 | 2020-02-14 | 国网浙江省电力有限公司杭州供电公司 | 基于c4.5决策树算法的电力业务协同分类方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10600005B2 (en) * | 2018-06-01 | 2020-03-24 | Sas Institute Inc. | System for automatic, simultaneous feature selection and hyperparameter tuning for a machine learning model |
-
2020
- 2020-06-09 CN CN202010526272.0A patent/CN111860946B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018014610A1 (zh) * | 2016-07-20 | 2018-01-25 | 武汉斗鱼网络科技有限公司 | 基于c4.5决策树算法的特定用户挖掘系统及其方法 |
CN106845717A (zh) * | 2017-01-24 | 2017-06-13 | 哈尔滨工业大学 | 一种基于多模型融合策略的能源效率评价方法 |
CN110110989A (zh) * | 2019-04-29 | 2019-08-09 | 国网河北省电力有限公司经济技术研究院 | 架空线路防鸟效果的评价方法及终端设备 |
CN110796331A (zh) * | 2019-09-11 | 2020-02-14 | 国网浙江省电力有限公司杭州供电公司 | 基于c4.5决策树算法的电力业务协同分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于C4.5决策树算法的"学习行为―效果"评分模型构建研究;赵星;;自动化与仪器仪表(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111860946A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10521748B2 (en) | Retention risk determiner | |
KR20180116820A (ko) | 다중 가중치 산정 및 topsis를 이용한 단위유역별 수자원 취약성 평가 방법 | |
CN109871975B (zh) | 基于数据挖掘的故障抢修处理时长预测方法 | |
CN110827169B (zh) | 一种基于分级指标的分布式电网业务监控方法 | |
CN108388957B (zh) | 一种基于多特征融合技术的中小河流洪水预报方法及其预报系统 | |
CN107992447A (zh) | 一种应用于河流水位预测数据的特征选择分解方法 | |
CN107391515A (zh) | 基于关联规则分析的电力系统指标分析方法 | |
CN111898647A (zh) | 一种基于聚类分析的低压配电设备误告警识别方法 | |
CN107220907B (zh) | 一种采用秩和比综合评价的谐波污染用户分级方法 | |
Williams | Framework for assessing viability of threatened coho salmon in the Southern Oregon/Northern California Coast Evolutionarily Significant Unit | |
CN111898831A (zh) | 一种实时洪水概率预报实用化方法 | |
CN113723716B (zh) | 一种客流分级预警异常告警方法、设备及存储介质 | |
CN105139282A (zh) | 一种电网指标数据处理方法、装置以及计算设备 | |
CN105426998B (zh) | 一种基于多条件下的风电功率区间预测方法 | |
CN110598181A (zh) | 一种基于最大熵的极端水文事件风险分析方法和系统 | |
CN104408525B (zh) | 作业车间调度风险的量化评估与控制方法 | |
CN116862081A (zh) | 一种污染治理设备运维方法及系统 | |
CN111860946B (zh) | 基于c4.5算法的防鸟装置有效性评价方法 | |
Boyce et al. | Negative binomial models for abundance estimation of multiple closed populations | |
CN108921452B (zh) | 一种基于模糊算法的输电线路风险评估复合预警方法 | |
CN110766100A (zh) | 轴承故障诊断模型构建方法、诊断方法及电子设备 | |
CN108090635B (zh) | 一种基于聚类分类的路用性能预测方法 | |
CN113112067A (zh) | 一种tfri权重计算模型的建立方法 | |
CN116739742A (zh) | 信贷风控模型的监控方法、装置、设备及存储介质 | |
CN114169590B (zh) | 一种基于多情景划分的水库入库径流预报校正方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |