CN111860894A - 斜拉桥病害属性选择方法 - Google Patents
斜拉桥病害属性选择方法 Download PDFInfo
- Publication number
- CN111860894A CN111860894A CN202010743751.8A CN202010743751A CN111860894A CN 111860894 A CN111860894 A CN 111860894A CN 202010743751 A CN202010743751 A CN 202010743751A CN 111860894 A CN111860894 A CN 111860894A
- Authority
- CN
- China
- Prior art keywords
- attribute
- disease
- attributes
- category
- cable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000031940 Disease Attributes Diseases 0.000 title claims abstract description 203
- 238000010187 selection method Methods 0.000 title claims description 19
- 238000012216 screening Methods 0.000 claims abstract description 30
- 201000010099 disease Diseases 0.000 claims abstract description 25
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 25
- 230000003993 interaction Effects 0.000 claims description 35
- 230000003902 lesion Effects 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 14
- 230000000717 retained effect Effects 0.000 claims description 8
- 238000010219 correlation analysis Methods 0.000 claims description 5
- 241000700605 Viruses Species 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 14
- 238000004364 calculation method Methods 0.000 description 6
- 230000008439 repair process Effects 0.000 description 6
- NAXKFVIRJICPAO-LHNWDKRHSA-N [(1R,3S,4R,6R,7R,9S,10S,12R,13S,15S,16R,18S,19S,21S,22S,24S,25S,27S,28R,30R,31R,33S,34S,36R,37R,39R,40S,42R,44R,46S,48S,50R,52S,54S,56S)-46,48,50,52,54,56-hexakis(hydroxymethyl)-2,8,14,20,26,32,38,43,45,47,49,51,53,55-tetradecaoxa-5,11,17,23,29,35,41-heptathiapentadecacyclo[37.3.2.23,7.29,13.215,19.221,25.227,31.233,37.04,6.010,12.016,18.022,24.028,30.034,36.040,42]hexapentacontan-44-yl]methanol Chemical compound OC[C@H]1O[C@H]2O[C@H]3[C@H](CO)O[C@H](O[C@H]4[C@H](CO)O[C@H](O[C@@H]5[C@@H](CO)O[C@H](O[C@H]6[C@H](CO)O[C@H](O[C@H]7[C@H](CO)O[C@@H](O[C@H]8[C@H](CO)O[C@@H](O[C@@H]1[C@@H]1S[C@@H]21)[C@@H]1S[C@H]81)[C@H]1S[C@@H]71)[C@H]1S[C@H]61)[C@H]1S[C@@H]51)[C@H]1S[C@@H]41)[C@H]1S[C@H]31 NAXKFVIRJICPAO-LHNWDKRHSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- E—FIXED CONSTRUCTIONS
- E01—CONSTRUCTION OF ROADS, RAILWAYS, OR BRIDGES
- E01D—CONSTRUCTION OF BRIDGES, ELEVATED ROADWAYS OR VIADUCTS; ASSEMBLY OF BRIDGES
- E01D11/00—Suspension or cable-stayed bridges
- E01D11/04—Cable-stayed bridges
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Architecture (AREA)
- Civil Engineering (AREA)
- Structural Engineering (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及一种斜拉桥病害属性选择方法,通过对所述样本属性集合中的所有病害属性进行相关分析和冗余分析,不但可以有效去除与类别属性无关的病害属性,保留与类别属性有关的属性,而且可以有效去除与类别属性有关的属性中,与其他属性冗余度较大的属性,确保多个与所述类别属性有关的病害属性之间的冗余度最小化,进而使得最终保留下来的病害属性均为与病害最相关的病害属性,筛选结果准确。
Description
技术领域
本申请涉及公路桥梁技术领域,特别是涉及一种斜拉桥病害属性选择方法。
背景技术
斜拉桥以其跨越能力大、结构形式优美和经济性好等特点在世界上得到了迅速发展。斜拉桥在投入使用的过程中,会自然而然的产生各种病害,病害会严重影响斜拉桥的使用寿命。
斜拉桥结构体系复杂,分析每个部件出现的病害可以从不同角度对病害程度和损伤状况进行描述。病害往往具有多种多样的病害属性,时变的或非时变的,精确的或不完整的,模糊的或确定的,相互支持互补的或相互矛盾冲突的。选择与斜拉桥病害相关的病害属性进行研究,对斜拉桥病害的防治的重要性是毋庸置疑的。
传统的斜拉桥病害属性选择方法,一般是通过从外观上观察获取病害属性进行分析研究。然而,依据外观观察的方式选择的病害属性较为单一,且无法分析不同病害属性之间的复杂关系,因此,传统的斜拉桥病害属性选择方法具有无法准确找到与病害最相关的病害属性的问题。
发明内容
基于此,有必要针对传统斜拉桥病害属性选择方法无法准确找到与病害最相关的病害属性的问题,提供一种斜拉桥病害属性选择方法。
本申请提供一种斜拉桥病害属性选择方法,所述斜拉桥病害属性选择方法包括:
选取多个斜拉桥样本;
获取一个斜拉桥样本中,与斜拉桥病害有关的一个类别属性,以及在该类别属性下的多个病害属性;
创建所述斜拉桥样本的样本属性集合,所述样本属性集合包括所述类别属性和所述多个病害属性;
对所述样本属性集合中的所有病害属性进行相关分析和冗余分析,去除所述样本属性集合中与所述类别属性无关的病害属性,并确保多个与所述类别属性有关的病害属性之间的冗余度最小化;
将经上一步骤处理后保留的病害属性,作为与斜拉桥病害相关的核心属性,输出所有核心属性;
对每一个斜拉桥样本均执行前述所有步骤,输出与每一个斜拉桥样本对应的所有核心属性。
本申请涉及一种斜拉桥病害属性选择方法,通过对所述样本属性集合中的所有病害属性进行相关分析和冗余分析,不但可以有效去除与类别属性无关的病害属性,保留与类别属性有关的属性,而且可以有效去除与类别属性有关的属性中,与其他属性冗余度较大的属性,确保多个与所述类别属性有关的病害属性之间的冗余度最小化,进而使得最终保留下来的病害属性均为与病害最相关的病害属性,筛选结果准确。
附图说明
图1为本申请一实施例提供的斜拉桥病害属性选择方法的流程示意图;
图2为本申请一实施例提供的斜拉桥病害属性选择方法中主要属性,次要属性和类别属性的覆盖关系图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种斜拉桥病害属性选择方法。需要说明的是,本申请提供的斜拉桥病害属性选择方法的应用于任何种类的斜拉桥。
此外,本申请提供的斜拉桥病害属性选择方法不限制其执行主体。可选地,本申请提供的斜拉桥病害属性选择方法的执行主体的可以为一种斜拉桥病害属性选择处理终端。具体地,本申请提供的斜拉桥病害属性选择方法的执行主体的可以为所述斜拉桥病害属性选择处理终端中的一个或多个处理器。
如图1所示,在本申请的一实施例中,所述斜拉桥病害属性选择方法包括如下步骤S100至步骤S600:
S100,选取多个斜拉桥样本。
S200,获取一个斜拉桥样本中,与斜拉桥病害有关的一个类别属性。获取在该类别属性下的多个病害属性。
S300,创建所述斜拉桥样本的样本属性集合。所述样本属性集合包括所述类别属性。所述样本属性集合还包括所述多个病害属性。
S400,对所述样本属性集合中的所有病害属性进行相关分析和冗余分析,去除所述样本属性集合中与所述类别属性无关的病害属性,并确保多个与所述类别属性有关的病害属性之间的冗余度最小化。
S500,将经所述步骤S400处理后保留的病害属性,作为与斜拉桥病害相关的核心属性,输出所有核心属性。
S600,对每一个斜拉桥样本均执行所述步骤S200至所述步骤S500,输出与每一个斜拉桥样本对应的所有核心属性。
具体地,在步骤S100中选取斜拉桥样本时,可以是对一个斜拉桥进行多次检测,将每一次的检测数据作为一个斜拉桥样本。也可以是针对多个斜拉桥进行检测,每一个斜拉桥检测一次,将检测数据作为一个斜拉桥样本。在这种情况下,为控制变量,多个斜拉桥需要是同种类的斜拉桥,且差异尽可能的小,例如桥型一致。
多个斜拉桥样本的斜拉桥病害一致,因此本申请的目的是寻找与所述斜拉桥病害最相关的病害属性。
每个样本属性集合包括一个类别属性和多个病害属性。可以理解,如果斜拉桥样本个数为W个,则共有W个样本属性集合。样本属性集合之间的区别在于类别属性不同,也即每一个样本属性集合对应一个不同的类别属性。可以理解,样本属性集合之间,类别属性不同,病害属性自然不同。
类别属性具有数值。例如,一个样本属性集合中的类别属性为维修等级,且类别属性的数值为3,则表明所述斜拉桥存在三个维修等级,三个不同的维修等级代表者斜拉桥目前需要维修的程度:小修,中修和大修。
步骤S200至步骤S500为针对一个斜拉桥样本的寻找与斜拉桥病害相关的核心属性的步骤,通过多次执行步骤S200至步骤S500,可以将所有斜拉桥样本各自对应的核心属性均找到,并输出为数据保存。当后续需要寻找与斜拉桥病害相关的病害属性时,可以依据类别属性进行检索,得到不同类别属性对应的病害属性。
本实施例中,通过对所述样本属性集合中的所有病害属性进行相关分析和冗余分析,不但可以有效去除与类别属性无关的病害属性,保留与类别属性有关的属性,而且可以有效去除与类别属性有关的属性中,与其他属性冗余度较大的属性,确保多个与所述类别属性有关的病害属性之间的冗余度最小化,进而使得最终保留下来的病害属性均为与病害最相关的病害属性,筛选结果准确。
在本申请的一实施例中,所述步骤S400包括如下步骤S410至步骤S430:
S410,采用第一属性选择算法,对所述样本属性集合中的所有病害属性进行筛选,创建第一集合,将所有经所述第一属性选择算法筛选后得到的病害属性纳入所述第一集合。
S420,采用第二属性选择算法,对所述样本属性集合中的所有病害属性进行筛选,创建第二集合,将所有经所述第二属性选择算法筛选后得到的病害属性纳入所述第二集合。
S430,采用第三属性选择算法,对所述第一集合中的所有病害属性和所述第二集合中的所有病害属性进行进一步筛选,创建第三集合,将所有经所述第三属性选择算法筛选后得到的病害属性纳入所述第三集合。
具体地,步骤S410和步骤S420可以同步进行,也可以以任意顺序先后进行。所述第三集合中保留下来的所有病害属性即所述步骤S500中的与斜拉桥病害相关的核心属性。
本实施例中,通过两种不同维度的属性选择算法,各自得到选择结果,并将选择结果进行融合筛选计算,可以避免单一算法带来的准确性失衡问题,实现综合多种算法对病害属性的多样性筛选,进而使得筛选结果准确化。
在本申请的一实施例中,所述步骤S410包括如下步骤S411a至步骤S411g:
S411a,选取预设病害属性参数值。
S411b,选取所述样本属性集合中的一个病害属性。依据公式1计算所述病害属性的信息熵。依据公式2计算所述类别属性的信息熵。依据公式3计算在已知类别属性C的条件下,病害属性Fi的信息熵。
其中,Fi为被选取的病害属性。H(Fi)为病害属性Fi的信息熵。fi为预设病害属性参数值。pi为在所有斜拉桥样本中,病害属性Fi数值为fi出现的概率。n(fi)为在所有斜拉桥样本中,病害属性Fi数值为fi出现的次数。dom(Fi)为病害属性Fi的值域。n为斜拉桥样本的总个数。
其中,C为所述类别属性。H(C)为类别属性C的信息熵。p(C)为类别属性C在所有斜拉桥样本中出现的概率。n(C)为类别属性C在所有斜拉桥样本中出现的次数。n为斜拉桥样本的总个数。
其中,H(Fi|C)为在已知类别属性C的条件下,病毒属性Fi的信息熵。p(Fi|C)为为在所有斜拉桥样本中,在已知类别属性C的条件下,病害属性Fi数值为fi出现的次数。n(FiC)为在所有斜拉桥样本中,在已知类别属性C的条件下,病害属性Fi数值为fi出现的次数。fi为预设病害属性参数值。p(C)为类别属性C在所有斜拉桥样本中出现的概率。n为斜拉桥样本的总个数。
S411c,依据公式4计算所述病害属性与所述类别属性之间的对称不确定度。
其中,SU(Fi,C)为所述病害属性与所述类别属性之间的对称不确定度。H(Fi)为所述病害属性的信息熵。H(C)为所述类别属性的信息熵。H(Fi|C)为的信息熵。n(C)为类别属性为C出现的次数,为在已知所述类别属性的条件下,病害属性Fi取值fi出现的次数。p(C)为所述类别属性出现的概率。
S411d,判断所述病害属性与所述类别属性之间的对称不确定度是否大于对称不确定度阈值。
S411e,若所述病害属性与所述类别属性之间的对称不确定度大于所述对称不确定度阈值,则将所述病害属性作为与所述类别属性有关的病害属性。在所述样本属性集合中,保留所述病害属性。
S411f,若所述病害属性与所述类别属性之间的对称不确定度小于或等于所述对称不确定度阈值,则将所述病害属性作为与所述类别属性无关的病害属性。在所述样本属性集合中,去除所述病害属性。
S411g,对所述样本属性集合中的每一个病害属性均执行所述步骤S411b至所述步骤S411f,创建第一集合。将所有保留下来的病害属性纳入所述第一集合。
具体地,所述预设病害属性参数值可以通过翻阅文献资料预先设定,是一个经验值。所述预设病害属性参数值与斜拉桥的种类、地理位置等参数均有关。
所述步骤S411a,还包括统计所有样本属性集合中所有病害属性的数值。这是为了便于步骤S411b中计算在所有斜拉桥样本中,病害属性Fi数值为fi出现的概率pi。
所述步骤S411a,还包括统计所有样本属性集合的类别属性的数值。这是为了便于步骤S411b中计算类别属性C在所有斜拉桥样本中出现的概率。
步骤S410提供的第一属性选择算法包括两个部分,第一部分是相关分析算法,即步骤S411a至步骤S411g,这部分的目的是去除样本属性集合中与类别属性无关的病害属性,保留强烈影响类别属性的病害属性(即与类别属性有关的病害属性)。
所述对称不确定度阈值可以通过翻阅文献资料或通过试验人为制定。
本实施例中,通过计算病害属性与类别属性之间的对称不确定度,再与对称不确定度阈值进行比较,实现对样本属性集合中与类别属性无关的病害属性的剔除,完成了基础的筛选工作。
在本申请的一实施例中,所述步骤S410还包括如下步骤S412a至步骤S412h:
S412a,将所述第一集合中的所有病害属性按数值从大到小排序,选取数值最大的病害属性作为标准属性。
S412b,依据数值从大到小的顺序,将所述第一集合中,比所述标准属性数值小的下一个病害属性,作为待分析属性。
S412c,依据公式5计算所述待分析属性和所述标准属性的对称不确定度。
依据公式6计算所述待分析属性和所述类别属性的对称不确定度。
其中,Fj为所述待分析属性。Fs为所述标准属性。SU(Fj,Fs)为所述待分析属性和所述标准属性的对称不确定度。H(Fj)为所述待分析属性的信息熵。H(Fs)为所述标准属性的信息熵。H(Fj|Fs)为在已知所述标准属性的条件下,所述待分析属性的信息熵。
其中,Fj为所述待分析属性。C为所述类别属性。SU(Fj,C)为所述待分析属性和所述类别属性的对称不确定度。H(Fj)为所述待分析属性的信息熵,H(C)为所述类别属性的信息熵doorH(Fj|C)为在已知所述类别属性的条件下,所述待分析属性的信息熵。
S412d,判断所述待分析属性和所述标准属性的对称不确定度,是否大于所述待分析属性和所述类别属性的对称不确定度。
S412e,若所述待分析属性和所述标准属性的对称不确定度,大于所述待分析属性和所述类别属性的对称不确定度,则在所述第一集合中,去除所述待分析属性。
S412f,若所述待分析属性和所述标准属性的对称不确定度,小于或等于所述待分析属性和所述类别属性的对称不确定度,则在所述第一集合中,保留所述待分析属性。
S412g,依据数值从大到小的顺序,将所述第一集合中,比所述待分析属性数值小的下一个病害属性,作为新的待分析属性。对所述新的待分析属性执行所述步骤S412c至所述步骤S412f。
S412h,反复执行所述步骤S412g,直至所述第一集合中的所有病害属性筛选完毕。
具体地,第一属性选择算法包括两个部分,第二部分是冗余分析算法,即步骤S412a至步骤S412h,这部分的目的是去除冗余度较大的病害属性。通过第一部分去除与类别属性不相关的病害属性后,剩余的均是与类别属性相关的病害属性。
然而,在这些病害属性中,有一些病害属性和其他病害属性之间的冗余度较大。为了尽可能的保留有效信息,就要确保病害属性之间的冗余度最小化,因此,需要删除冗余度大的病害属性。步骤S412a至步骤S412h,可以实现去除冗余度较大的病害属性的目的。具体是通过对比待分析属性和标准属性的对称不确定度,与待分析属性和类别属性的对称不确定度的数值大小来实现的。
本实施例中,通过对比待分析属性和标准属性的对称不确定度,与待分析属性和类别属性的对称不确定度的数值大小,确保了多个与所述类别属性有关的病害属性之间的冗余度最小化,实现了病害属性的进一步筛选。
在本申请的一实施例中,所述步骤S420包括步骤S421a至步骤S422f:
S421a,依据公式7计算所述样本属性集合中每一个病害属性与所述类别属性之间的互信息值,得到多个互信息值。
I(Fα;C)=H(Fα)-H(C|Fα) 公式7
其中,Fα为所述样本属性集合中的一个病害属性,C为所述类别属性。I(Fα;C)为病害属性Fα与类别属性C之间的互信息值。H(Fα)为病害属性Fα的信息熵。H(C|Fα)为已知病害属性Fα的条件下,类别属性C的信息熵。
S421b,将所述多个互信息值按数值从大到小排序,将数值最大的互信息值对应的病害属性作为模板属性。
S422c,创建第二集合和第四集合,将所述模板属性纳入所述第二集合,将所述样本属性集合中除所述模板属性之外,所有剩余的病害属性纳入所述第四集合。
S422d,依据公式8计算所述第四集合中每一个病害属性与所述模板属性之间的评估标准值,得到多个评估标准值。
其中,Fβ为所述第四集合中的一个病害属性。Fη为所述模板属性。C为所述类别属性。Iβ为病害属性Fβ与模板属性Fη之间的评估标准值。I(Fβ;C)为病害属性Fβ与类别属性C之间的互信息值。I(Fβ;Fη)为病害属性Fβ与模板属性Fη之间的互信息值。H(Fβ)为病害属性Fβ的信息熵。H(C|Fβ)为在已知病害属性Fβ的基础上,类别属性C的信息熵。H(Fη|Fβ)为在已知病害属性Fβ的基础上,模板属性Fη的信息熵。X为所述第四集合。|X|为所述第四集合中病害属性的总个数。
S422e,将所述多个评估标准值按数值从大到小排序,将数值最大的评估标准值对应的病害属性作为新的模板属性。将所述新的模板属性纳入所述第二集合。
S422f,反复执行所述步骤S422d至所述步骤S422e,直至所述第二集合中的病害属性数量等于预设选取数量,结束筛选。
具体地,步骤S421a至步骤S422f为第二属性选择算法的具体步骤。所述第二属性选择算法是区别于第一属性选择算法的一种筛选算法。
所述预设选取数量的数值由人为预先设定。一旦所述第二集合中的病害属性数量达到所述预设选取数量,立即停止筛选过程,执行步骤S431。
步骤S421a至步骤S422f的原理也是在冗余度最小化的前提下,筛选与类别属性较为相关的病害属性,但是原理和第一属性选择算法有很大不同。步骤S421a至步骤S422,是先将与类别属性相关度最大的病害属性保留,作为模板属性,再通过计算每一个其余病害属性与所述模板属性之间的评估标准值,实现将每一个病害属性与模板属性之间的信息重叠的部分剔除,实现冗余度最小化。
公式8中的评估标准值越大,代表病害属性携带的冗余信息越小。通过循环选择新的模板属性与评估标准值计算,实现整个筛选步骤的执行。
本实施例中,通过与类别属性相关度最大的病害属性保留,作为模板属性,再通过计算每一个其余病害属性与所述模板属性之间的评估标准值,实现将每一个病害属性与模板属性之间的信息重叠的部分剔除,实现病害属性与类别属性相关度最大化且冗余度最小化。
在本申请的一实施例中,所述预设选取数量为整数。所述预设选取数量处于大于等于2且小于等于10的数值范围内。
具体地,所述预设选取数量可以为2。所述预设选取数量可以为10。所述预设选取数量可以为6。所述预设选取数量越大,筛选出的病害属性整体的冗余度越大(平均冗余度越大)。因为从顺序上,越后筛选出来的病害属性冗余度越大。
本实施例中,通过设置所述预设选取数量的数值范围,可以实现对病害属性的冗余度的控制。
在本申请的一实施例中,所述步骤S430包括如下步骤S431至步骤S438:
S431,依据公式9取所述第一集合和所述第二集合的交集。将所述交集作为主要属性集合。所述主要属性集合中的病害属性为主要属性。
Xlist1=S1I S2 公式9
其中,Xlist1为所述主要属性集合。S1为所述第一集合。S2为所述第二集合。
依据公式10得到次要属性集合。所述次要属性集合中的病害属性为次要属性。
Xlist2=S1US2-S1I S2 公式10
其中,Xlist2为所述次要属性集合。S1为所述第一集合。S2为所述第二集合。
S432,在所述第二集合中选取一个次要属性。
S433,在所述第二集合中选取一个主要属性,并依据公式11计算在确定主要属性的条件下,主要属性和次要属性组合时对类别属性的相互作用值。
其中,Fx为主要属性。Fy为次要属性。为在确定主要属性的条件下,主要属性和次要属性组合时对类别属性的相互作用值。SU(Fx,Fy)为主要属性和次要属性之间的对称不确定度。SU(Fx,Fy|C)为主要属性和次要属性组合时,和次要属性之间的对称不确定度。SU(Fx,C|Fy)为主要属性和类别属性组合时,和次要属性之间的对称不确定度。SU(Fx,C)为主要属性和类别属性之间的对称不确定度。fx为主要属性的预设取值。fy为次要属性的预设取值。C为类别属性。n(Fx|C,Fy)为在所有斜拉桥样本中,已知类别属性C的数值和次要属性的预设取值fy的条件下,主要属性的数值为预设取值fx出现的次数。n(C,Fy)为在所有斜拉桥样本中,已知类别属性C的数值的条件下,次要属性的数值为预设取值fy出现的次数。
S434,反复执行所述步骤S433,分别计算每一个主要属性与所述次要属性组合时对类别属性的相互作用值,得到多个相互作用值,所述相互作用值的个数与所述主要属性的个数相同。
S435,计算多个相互作用值的平均数,得到平均相互作用值。
S436,基于所述平均相互作用值,对所述次要属性进行冗余分析,判断所述次要属性是否满足冗余标准。
S437,若所述次要属性满足冗余标准,则将所述次要属性作为核心次要属性。
S438,反复执行所述步骤S432至步骤S437,直至所有次要属性完成冗余标准筛选,输出所有核心次要属性。
具体地,通过第一属性选择算法可以得出第一集合,通过第二属性选择算法可以得出第二集合。步骤S431至步骤S438列出的是综合两种选择算法的计算结果而进一步筛选的第三属性选择算法。
首先取第一集合和所述第二集合的交集,生成主要属性集合,可以试下对两种不同的属性选择算法进行交集融合,得到与类别属性强相关的病害属性的集合。主要属性集合中的所有病害属性可以作为步骤S500中的核心属性,这部分病害属性也称为主要属性。第一集合和第二集合中的剩余病害属性不能轻易放弃,虽然它们属于与类别属性弱相关的病害属性,也称为次要属性,但是可以通过进一步的冗余标准算法,剔除冗余度大的病害属性,保留冗余度小的病害属性,也能作为步骤S500中核心属性,这部分病害属性也称为核心次要属性。
在公式11中,为了简化描述,避免公式冗长,故只列出了SU(Fx,C|Fy)的算法公式。SU(Fx,Fy|C)可以参考SU(Fx,C|Fy)的算法公式计算,二者算法原理相同。至于SU(Fx,Fy)和SU(Fx,C)的计算方法,可以参考公式4计算,和SU(Fi,C)的计算原理相同,此处也不再赘述。
本实施例中,可以实现针对两种不同的属性选择算法的选择结果,进行融合筛选计算,筛选出最终与斜拉桥病害最相关的核心属性,可以避免单一算法带来的准确性失衡问题,实现综合多种算法对病害属性的多样性筛选,进而使得筛选结果准确化。
在本申请的一实施例中,所述步骤S436包括如下步骤S436a至步骤S436c:
S436a,判断所述平均相互作用值是否小于0。
S436b,若所述平均相互作用值小于0,则确定所述次要属性满足冗余标准。
S436c,若所述平均相互作用值大于0或等于0,则确定所述次要属性不满足冗余标准。
具体地,如图2所示,图2是将主要属性,次要属性和类别属性分别进行二维化后,形成的覆盖关系图,便于对公式11和步骤S436a至步骤S436c的判断逻辑理解。主要属性与所述次要属性组合时对类别属性的相互作用值,可以理解为图2中4的覆盖区域。
当相互作用值小于0时,代表4的覆盖区域小于0,表明主要属性与所述次要属性组合时,对类别属性有相互作用,可以提供更多的类别鉴定信息,且主要属性与所述次要属性之间没有冗余,可以将次要属性保留作为次要核心属性。
当相互作用值大于0时,代表4的覆盖区域大于0,表明主要属性与所述次要属性组合时,对类别属性有相互作用,可以提供更多的类别鉴定信息,但是主要属性与所述次要属性之间存在冗余,需要将次要属性去除。
当相互作用值等于0时,代表4的覆盖区域等于0,表明主要属性与所述次要属性组合时,对类别属性没有相互作用,无法提供更多的类别鉴定信息,需要将次要属性去除。
至于平均相互作用值的比较,只是将相互作用值取平均数,比较原理和相互作用值的比较原理是一样的。取平均数只是因为主要属性很多,为了保证相互作用值的计算准确性,需要将次要属性和每一个主要属性均计算一个相互作用值,然后取平均数。
本实施例中,通过相互作用值与0的比较,可以实现次要属性的冗余性个相关性判断。
在本申请的一实施例中,在所述步骤S438之后,所述步骤S430还包括如下步骤:
S439,创建第三集合,将所述主要属性集合中的所有主要属性,以及所有次要核心属性一并纳入所述第三集合。
具体地,本步骤属于一个整合过程。
本实施例中,通过将所述主要属性集合中的所有主要属性,以及所有次要核心属性一并纳入所述第三集合,实现了对筛选结果的统一整合,便于后续数据的输出。
在本申请的一实施例中,所述步骤S500包括如下步骤:
S510,将所述第三集合中的病害属性,作为与斜拉桥病害相关的核心属性,输出所有核心属性。
具体地,可以通过生成核心属性图表,以实现核心属性的输出。所述核心属性图表可以展现所有核心属性和核心数值的数值,更直观化。
以上所述实施例的各技术特征可以进行任意的组合,各方法步骤也并不做执行顺序的限制,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种斜拉桥病害属性选择方法,其特征在于,所述斜拉桥病害属性选择方法包括:
S100,选取多个斜拉桥样本;
S200,获取一个斜拉桥样本中,与斜拉桥病害有关的一个类别属性,以及在该类别属性下的多个病害属性;
S300,创建所述斜拉桥样本的样本属性集合,所述样本属性集合包括所述类别属性和所述多个病害属性;
S400,对所述样本属性集合中的所有病害属性进行相关分析和冗余分析,去除所述样本属性集合中与所述类别属性无关的病害属性,并确保多个与所述类别属性有关的病害属性之间的冗余度最小化;
S500,将经所述步骤S400处理后保留的病害属性,作为与斜拉桥病害相关的核心属性,输出所有核心属性;
S600,对每一个斜拉桥样本均执行所述步骤S200至所述步骤S500,输出与每一个斜拉桥样本对应的所有核心属性。
2.根据权利要求1所述的斜拉桥病害属性选择方法,其特征在于,所述步骤S400包括:
S410,采用第一属性选择算法,对所述样本属性集合中的所有病害属性进行筛选,创建第一集合,将所有经所述第一属性选择算法筛选后得到的病害属性纳入所述第一集合;
S420,采用第二属性选择算法,对所述样本属性集合中的所有病害属性进行筛选,创建第二集合,将所有经所述第二属性选择算法筛选后得到的病害属性纳入所述第二集合;
S430,采用第三属性选择算法,对所述第一集合中的所有病害属性和所述第二集合中的所有病害属性进行进一步筛选,创建第三集合,将所有经所述第三属性选择算法筛选后得到的病害属性纳入所述第三集合。
3.根据权利要求2所述的斜拉桥病害属性选择方法,其特征在于,所述步骤S410包括:
S411a,选取预设病害属性参数值;
S411b,选取所述样本属性集合中的一个病害属性,依据公式1计算所述病害属性的信息熵,依据公式2计算所述类别属性的信息熵,依据公式3计算在已知类别属性C的条件下,病害属性Fi的信息熵;
其中,Fi为被选取的病害属性,H(Fi)为病害属性Fi的信息熵,fi为预设病害属性参数值,pi为在所有斜拉桥样本中,病害属性Fi取值为fi出现的概率,n(fi)为在所有斜拉桥样本中,病害属性Fi取值为fi出现的次数,dom(Fi)为病害属性Fi的值域;n为斜拉桥样本的总个数;
其中,C为所述类别属性,H(C)为类别属性C的信息熵,p(C)为类别属性C在所有斜拉桥样本中出现的概率,n(C)为类别属性C在所有斜拉桥样本中出现的次数;n为斜拉桥样本的总个数;
其中,H(Fi|C)为在已知类别属性C的条件下,病毒属性Fi的信息熵,p(Fi|C)为为在所有斜拉桥样本中,在已知类别属性C的条件下,病害属性Fi取值为fi出现的次数,n(FiC)为在所有斜拉桥样本中,在已知类别属性C的条件下,病害属性Fi取值为fi出现的次数,fi为预设病害属性参数值,p(C)为类别属性C在所有斜拉桥样本中出现的概率,n为斜拉桥样本的总个数;
S411c,依据公式4计算所述病害属性与所述类别属性之间的对称不确定度;
其中,SU(Fi,C)为所述病害属性与所述类别属性之间的对称不确定度,H(Fi)为所述病害属性的信息熵,H(C)为所述类别属性的信息熵,H(Fi|C)为的信息熵,n(C)为类别属性为C出现的次数,为在已知所述类别属性的条件下,病害属性Fi取值fi出现的次数,p(C)为所述类别属性出现的概率;
S411d,判断所述病害属性与所述类别属性之间的对称不确定度是否大于对称不确定度阈值;
S411e,若所述病害属性与所述类别属性之间的对称不确定度大于所述对称不确定度阈值,则将所述病害属性作为与所述类别属性有关的病害属性,在所述样本属性集合中,保留所述病害属性;
S411f,若所述病害属性与所述类别属性之间的对称不确定度小于或等于所述对称不确定度阈值,则将所述病害属性作为与所述类别属性无关的病害属性,在所述样本属性集合中,去除所述病害属性;
S411g,对所述样本属性集合中的每一个病害属性均执行所述步骤S411b至所述步骤S411f,创建第一集合,将所有保留下来的病害属性纳入所述第一集合。
4.根据权利要求3所述的斜拉桥病害属性选择方法,其特征在于,所述步骤S410还包括:
S412a,将所述第一集合中的所有病害属性按数值从大到小排序,选取数值最大的病害属性作为标准属性;
S412b,依据数值从大到小的顺序,将所述第一集合中,比所述标准属性数值小的下一个病害属性,作为待分析属性;
S412c,依据公式5计算所述待分析属性和所述标准属性的对称不确定度,依据公式6计算所述待分析属性和所述类别属性的对称不确定度;
其中,Fj为所述待分析属性,Fs为所述标准属性,SU(Fj,Fs)为所述待分析属性和所述标准属性的对称不确定度,H(Fj)为所述待分析属性的信息熵,H(Fs)为所述标准属性的信息熵,H(Fj|Fs)为在已知所述标准属性的条件下,所述待分析属性的信息熵;
其中,Fj为所述待分析属性,C为所述类别属性,SU(Fj,C)为所述待分析属性和所述类别属性的对称不确定度,H(Fj)为所述待分析属性的信息熵,H(C)为所述类别属性的信息熵,H(Fj|C)为在已知所述类别属性的条件下,所述待分析属性的信息熵;
S412d,判断所述待分析属性和所述标准属性的对称不确定度,是否大于所述待分析属性和所述类别属性的对称不确定度;
S412e,若所述待分析属性和所述标准属性的对称不确定度,大于所述待分析属性和所述类别属性的对称不确定度,则在所述第一集合中,去除所述待分析属性;
S412f,若所述待分析属性和所述标准属性的对称不确定度,小于或等于所述待分析属性和所述类别属性的对称不确定度,则在所述第一集合中,保留所述待分析属性;
S412g,依据数值从大到小的顺序,将所述第一集合中,比所述待分析属性数值小的下一个病害属性,作为新的待分析属性,对所述新的待分析属性执行所述步骤S412c至所述步骤S412f;
S412h,反复执行所述步骤S412g,直至所述第一集合中的所有病害属性筛选完毕。
5.根据权利要求4所述的斜拉桥病害属性选择方法,其特征在于,所述步骤S420包括:
S421a,依据公式7计算所述样本属性集合中每一个病害属性与所述类别属性之间的互信息值,得到多个互信息值;
I(Fα;C)=H(Fα)-H(C|Fα) 公式7;
其中,Fα为所述样本属性集合中的一个病害属性,C为所述类别属性,I(Fα;C)为病害属性Fα与类别属性C之间的互信息值,H(Fα)为病害属性Fα的信息熵,H(C|Fα)为已知病害属性Fα的条件下,类别属性C的信息熵;
S421b,将所述多个互信息值按数值从大到小排序,将数值最大的互信息值对应的病害属性作为模板属性;
S422c,创建第二集合和第四集合,将所述模板属性纳入所述第二集合,将所述样本属性集合中除所述模板属性之外,所有剩余的病害属性纳入所述第四集合;
S422d,依据公式8计算所述第四集合中每一个病害属性与所述模板属性之间的评估标准值,得到多个评估标准值;
其中,Fβ为所述第四集合中的一个病害属性,Fη为所述模板属性,C为所述类别属性,Iβ为病害属性Fβ与模板属性Fη之间的评估标准值,I(Fβ;C)为病害属性Fβ与类别属性C之间的互信息值,I(Fβ;Fη)为病害属性Fβ与模板属性Fη之间的互信息值,H(Fβ)为病害属性Fβ的信息熵,H(C|Fβ)为在已知病害属性Fβ的基础上,类别属性C的信息熵,H(Fη|Fβ)为在已知病害属性Fβ的基础上,模板属性Fη的信息熵,X为所述第四集合,|X|为所述第四集合中病害属性的总个数;
S422e,将所述多个评估标准值按数值从大到小排序,将数值最大的评估标准值对应的病害属性作为新的模板属性,并将所述新的模板属性纳入所述第二集合;
S422f,反复执行所述步骤S422d至所述步骤S422e,直至所述第二集合中的病害属性数量等于预设选取数量,结束筛选。
6.根据权利要求5所述的斜拉桥病害属性选择方法,其特征在于,所述预设选取数量为整数,所述预设选取数量处于大于等于2且小于等于10的数值范围内。
7.根据权利要求6所述的斜拉桥病害属性选择方法,其特征在于,所述步骤S430包括:
S431,依据公式9取所述第一集合和所述第二集合的交集,将所述交集作为主要属性集合;所述主要属性集合中的病害属性为主要属性;
Xlist1=S1|S2 公式9;
其中,Xlist1为所述主要属性集合,S1为所述第一集合,S2为所述第二集合;
依据公式10得到次要属性集合;所述次要属性集合中的病害属性为次要属性;
Xlist2=S1US2-S1|S2 公式10;
其中,Xlist2为所述次要属性集合,S1为所述第一集合,S2为所述第二集合;
S432,在所述第二集合中选取一个次要属性;
S433,在所述第二集合中选取一个主要属性,并依据公式11计算在确定主要属性的条件下,主要属性和次要属性组合时对类别属性的相互作用值;
其中,Fx为主要属性,Fy为次要属性,为在确定主要属性的条件下,主要属性和次要属性组合时对类别属性的相互作用值,SU(Fx,Fy)为主要属性和次要属性之间的对称不确定度,SU(Fx,Fy|C)为主要属性和次要属性组合时,和次要属性之间的对称不确定度,SU(Fx,C|Fy)为主要属性和类别属性组合时,和次要属性之间的对称不确定度,SU(Fx,C)为主要属性和类别属性之间的对称不确定度,fx为主要属性的预设取值,fy为次要属性的预设取值,C为类别属性,n(Fx|C,Fy)为在所有斜拉桥样本中,已知类别属性C的数值和次要属性的预设取值fy的条件下,主要属性的数值为预设取值fx出现的次数,n(C,Fy)为在所有斜拉桥样本中,已知类别属性C的数值的条件下,次要属性的数值为预设取值fy出现的次数;
S434,反复执行所述步骤S433,分别计算每一个主要属性与所述次要属性组合时对类别属性的相互作用值,得到多个相互作用值,所述相互作用值的个数与所述主要属性的个数相同;
S435,计算多个相互作用值的平均数,得到平均相互作用值;
S436,基于所述平均相互作用值,对所述次要属性进行冗余分析,判断所述次要属性是否满足冗余标准;
S437,若所述次要属性满足冗余标准,则将所述次要属性作为核心次要属性;
S438,反复执行所述步骤S432至步骤S437,直至所有次要属性完成冗余标准筛选,输出所有核心次要属性。
8.根据权利要求7所述的斜拉桥病害属性选择方法,其特征在于,所述步骤S436包括:
S436a,判断所述平均相互作用值是否小于0;
S436b,若所述平均相互作用值小于0,则确定所述次要属性满足冗余标准;
S436c,若所述平均相互作用值大于0或等于0,则确定所述次要属性不满足冗余标准。
9.根据权利要求8所述的斜拉桥病害属性选择方法,其特征在于,在所述步骤S438之后,所述步骤S430还包括:
S439,创建第三集合,将所述主要属性集合中的所有主要属性,以及所有次要核心属性一并纳入所述第三集合。
10.根据权利要求9所述的斜拉桥病害属性选择方法,其特征在于,所述步骤S500包括:
S510,将所述第三集合中的病害属性,作为与斜拉桥病害相关的核心属性,输出所有核心属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010743751.8A CN111860894B (zh) | 2020-07-29 | 2020-07-29 | 斜拉桥病害属性选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010743751.8A CN111860894B (zh) | 2020-07-29 | 2020-07-29 | 斜拉桥病害属性选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860894A true CN111860894A (zh) | 2020-10-30 |
CN111860894B CN111860894B (zh) | 2024-01-09 |
Family
ID=72945637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010743751.8A Active CN111860894B (zh) | 2020-07-29 | 2020-07-29 | 斜拉桥病害属性选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860894B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110135203A1 (en) * | 2009-01-29 | 2011-06-09 | Nec Corporation | Feature selection device |
CN108564009A (zh) * | 2018-03-28 | 2018-09-21 | 天津大学 | 一种基于互信息量的改进特征评价方法 |
CN109598275A (zh) * | 2017-09-30 | 2019-04-09 | 富士通株式会社 | 特征选择装置、方法及电子设备 |
CN109636660A (zh) * | 2018-10-22 | 2019-04-16 | 广东精点数据科技股份有限公司 | 一种基于信息熵的农业气象数据冗余消除方法及系统 |
KR20190136969A (ko) * | 2018-05-30 | 2019-12-10 | 경희대학교 산학협력단 | 유용한 특징 선택 방법 및 그 장치 |
CN111339165A (zh) * | 2020-02-28 | 2020-06-26 | 重庆邮电大学 | 一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法 |
-
2020
- 2020-07-29 CN CN202010743751.8A patent/CN111860894B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110135203A1 (en) * | 2009-01-29 | 2011-06-09 | Nec Corporation | Feature selection device |
CN109598275A (zh) * | 2017-09-30 | 2019-04-09 | 富士通株式会社 | 特征选择装置、方法及电子设备 |
CN108564009A (zh) * | 2018-03-28 | 2018-09-21 | 天津大学 | 一种基于互信息量的改进特征评价方法 |
KR20190136969A (ko) * | 2018-05-30 | 2019-12-10 | 경희대학교 산학협력단 | 유용한 특징 선택 방법 및 그 장치 |
CN109636660A (zh) * | 2018-10-22 | 2019-04-16 | 广东精点数据科技股份有限公司 | 一种基于信息熵的农业气象数据冗余消除方法及系统 |
CN111339165A (zh) * | 2020-02-28 | 2020-06-26 | 重庆邮电大学 | 一种基于Fisher分和近似马尔科夫毯的移动用户出境特征选择方法 |
Non-Patent Citations (2)
Title |
---|
张俐;袁玉宇;王枞;: "基于最大相关信息系数的FCBF特征选择算法", 北京邮电大学学报, no. 04 * |
高菲: "基于特征分类能力互补性和归一化互信息的特征选择方法", 万方期刊 * |
Also Published As
Publication number | Publication date |
---|---|
CN111860894B (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI640049B (zh) | 複合式缺陷分類器 | |
CN109784096B (zh) | 基于聚类算法的硬件木马检测和剔除方法 | |
JPH1196010A (ja) | 分類装置 | |
CN110414277B (zh) | 基于多特征参数的门级硬件木马检测方法 | |
CN113096736A (zh) | 一种基于纳米孔测序的病毒实时自动分析方法及系统 | |
GB2390919A (en) | Generating random circuit design tests using a genetic algorithm | |
CN106557420B (zh) | 测试db数据生成方法及装置 | |
CN113641906A (zh) | 基于资金交易关系数据实现相似目标人员识别处理的系统、方法、装置、处理器及其介质 | |
CN107193993A (zh) | 基于局部学习特征权重选择的医疗数据分类方法及装置 | |
CN113113152A (zh) | 针对新型冠状病毒肺炎的疾病数据集样本获取处理方法、系统、装置、处理器及其存储介质 | |
CN108470194A (zh) | 一种特征筛选方法及装置 | |
CN111860894A (zh) | 斜拉桥病害属性选择方法 | |
Becker et al. | Rough set theory in the classification of loan applications | |
CN112989272A (zh) | 一种基于局部路径的社团发现算法 | |
Pantazis et al. | Analyzing longitudinal data in the presence of informative dropout: The jmre1 command | |
CN112434808B (zh) | 全栈式的前向型神经网络深度学习系统安全分析与检测方法 | |
CN114710344B (zh) | 一种基于溯源图的入侵检测方法 | |
Kusa et al. | Vombat: A tool for visualising evaluation measure behaviour in high-recall search tasks | |
Tan et al. | Automated wafer defect map generation for process yield improvement | |
Azzalini et al. | E-FAIR-DB: functional dependencies to discover data bias and enhance data equity | |
JP2004163416A (ja) | 欠陥検査装置 | |
JPH11160400A (ja) | 順序回路の故障箇所推定方法及び故障箇所推定における候補抽出並びにその重み付け方法更にはその装置 | |
Bajgier et al. | Powers of goodness-of-fit tests in detecting balanced mixed normal distributions | |
JP2022086803A (ja) | 要因推定方法、予測方法、属性値推定方法、要因推定装置、予測装置、属性値推定装置およびプログラム | |
Hiroyasu et al. | Extracting rules for cell segmentation in corneal endothelial cell images using GP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |