CN117494008A - 一种基于模糊综合评价的随机森林分类方法 - Google Patents
一种基于模糊综合评价的随机森林分类方法 Download PDFInfo
- Publication number
- CN117494008A CN117494008A CN202311515999.9A CN202311515999A CN117494008A CN 117494008 A CN117494008 A CN 117494008A CN 202311515999 A CN202311515999 A CN 202311515999A CN 117494008 A CN117494008 A CN 117494008A
- Authority
- CN
- China
- Prior art keywords
- fuzzy
- evaluation
- factor
- data
- factors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 168
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 238000013209 evaluation strategy Methods 0.000 claims abstract description 6
- OVBPIULPVIDEAO-LBPRGKRZSA-N folic acid Chemical compound C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-LBPRGKRZSA-N 0.000 claims description 46
- 239000011159 matrix material Substances 0.000 claims description 35
- 238000012549 training Methods 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013278 delphi method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000011835 investigation Methods 0.000 description 2
- 230000006996 mental state Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012876 topography Methods 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于模糊综合评价的随机森林分类方法,包括:通过专家经验法将数据集中的数据划分为可分组数据和不可分组数据;根据可分组数据中的属性关联对可分组数据进行分组,将每个组内的数据作为子因素,并根据同一组内所有子因素确定该组的父因素;通过模糊综合评价策略对所有父因素进行模糊综合评价,得到可分组数据的模糊评价结果;将可分组数据的模糊评价结果和不可分组数据作为随机森林算法模型的输入,利用随机森林算法模型得到数据集的分类结果。本发明能够降低随机森林算法的计算量,同时最大限度地保留原始数据的信息,提高随机森林训练结果的准确性。
Description
技术领域
本发明涉及一种基于模糊综合评价的随机森林分类方法,属于大数据处理技术领域。
背景技术
随机森林作为一种机器学习算法,被广泛运用到数据分类和预测过程中,与传统分类方法相比,随机森林算法具有需要调整的参数少、处理大样本数据高效、无需担心过拟合、信号容忍度强等优点,可以有效防止决策树中的数据稀疏问题。
随着大数据技术的发展,数据集的属性数目越来越多,不同属性具有不同的权重,而且权重的取值也出现了模糊性,对这类数据集中的数据进行处理时,不仅计算量巨大,而且最终的数据训练结果也很容易出现效率低、准确率低等负面影响。此外,由于属性的数目较多,若要将每个属性的权值定义清晰,其取值必须非常小才能满足归一化的要求,而权重较小就很容易造成信息的丢失,因此,当利用随机森林方法训练这类数据集时,其结果的准确性往往差强人意。如何提高随机森林方法对属性多、权重模糊的数据集的训练结果是接下来的研究重点。
发明内容
为了解决现有技术中存在的问题,本发明提出了一种基于模糊综合评价的随机森林分类方法,通过模糊综合评价解决现有的部分数据集中数据属性过多、权重过小、数值模糊化的问题,将经过模糊评价的数据作为随机森林的输入数据进行训练,在降低随机森林算法分类计算量的同时最大限度地保留了原始数据的信息,提高随机森林分类效率和随机森林训练结果的准确性。
为解决上述技术问题,本发明采用了如下技术手段:
本发明提供一种基于模糊综合评价的随机森林分类方法,包括如下步骤:
通过专家经验法将数据集中的数据划分为可分组数据和不可分组数据;
根据可分组数据中的属性关联对可分组数据进行分组,将每个组内的数据作为子因素,并根据同一组内所有子因素确定该组的父因素;
通过模糊综合评价策略对所有父因素进行模糊综合评价,得到可分组数据的模糊评价结果;
将可分组数据的模糊评价结果和不可分组数据作为随机森林算法模型的输入,利用随机森林算法模型得到数据集的分类结果。
进一步的,所述父因素的表达式如下:
其中,Ui表示第i个父因素,i=1,2,…,m,m为父因素的总数,表示父因素Ui中第n个子因素,n=1,2,…,ni,ni为父因素Ui中子因素的总数。
进一步的,所述通过模糊综合评价策略对所有父因素进行模糊综合评价,得到可分组数据的模糊评价结果,包括:
获取可分组数据的模糊评价集;
将每个父因素看作一个独立的单因素,根据所述模糊评价集得到每个父因素的模糊评价矩阵;
根据所有父因素的模糊评价矩阵得到可分组数据的模糊评价矩阵;
利用德尔菲方法计算每个父因素的权重,同时确定模糊算子;
基于所述可分组数据的模糊评价矩阵、权重和模糊算子,
根据所述模糊综合矩阵对可分组数据进行模糊综合评价,得到可分组数据的模糊综合评价结果。
进一步的,所述模糊评价集V={v1,v2,…,vK},其中,vk表示第k个评价结果,k=1,2,…K,K为评价结果的总数。
进一步的,根据所述模糊评价集得到每个父因素的模糊评价矩阵,包括:
基于模糊评价集,根据父因素中每个子因素的取值得到每个子因素相对于模糊评价集的隶属度;
根据父因素中所有子因素的隶属度,得到父因素相对于模糊评价集的隶属度,得到父因素的模糊评价矩阵:
Rf={ri1,ri2,…,riK}
其中,Ri表示第i个父因素Ui的模糊评价矩阵,rik表示第i个父因素Ui属于第k个评价结果的隶属度,k=1,2,…K,K为模糊评价集V中评价结果的总数。
进一步的,所述可分组数据的模糊评价矩阵为:
其中,R为可分组数据的模糊评价矩阵,rik表示第i个父因素Ui属于第k个评价结果的隶属度,f=1,2,…,m,m为父因素的总数,k=1,2,…K,K为模糊评价集V中评价结果的总数。
进一步的,根据所述模糊综合矩阵对可分组数据进行模糊综合评价,得到可分组数据的模糊综合评价向量:
其中,BU表示可分组数据的模糊综合评价向量,bf表示可分组数据中第i个父因素Ui的模糊综合评价值,A表示可分组数据的权重,B表示可分组数据的模糊综合评价矩阵,Af表示可分组数据中第i个父因素的权重,Bi表示可分组数据中第i个父因素的模糊综合评价向量,bik表示第i个父因素隶属于第k个评价结果的加权隶属度,R为可分组数据的模糊评价矩阵,ain表示父因素Ui中第n个子因素的权重,rik表示第i个父因素Ui属于第k个评价结果的隶属度,i=1,2,…,m,m为父因素的总数,k=1,2,…K,K为模糊评价集V中评价结果的总数。
根据最大隶属度原则,取模糊综合评价向量BU中最大元素bmax所对应的评价结果vmax作为最终的可分组数据的模糊综合评价结果。
采用以上技术手段后可以获得以下优势:
本发明提出了一种基于模糊综合评价的随机森林分类方法,在进行随机森林分类之前先对待分类数据集中的数据进行模糊处理,将具有共同含义的子属性聚合在一起,视为某个父因素的子因素,然后在父因素的基础上进行模糊综合评价,由于父因素是子因素聚合而来,所以父因素的模糊综合评价结果包含了原数据集中所有子因素的信息,使用父因素的模糊综合评价结果可以代替原始数据集中的子因素,用于后续的随机森林训练,能够在大幅减少属性或因素的数量的同时还能最大限度的保留原始数据集中所包含的信息,不会丢失原始信息,进而降低随机森林算法的计算量,提高分类速度的同时还能够提高分类效果。
本发明解决了原数据集中属性之间的相关性被忽略的问题,同时解决了原数据集中因属性较多导致权重过小从而产生的信息丢失的问题,本发明最终的随机森林的训练结果取得了明显的改善。
附图说明
图1为本发明实施例中基于模糊综合评价的随机森林分类方法的步骤示意图;
图2为本发明实施例中基于模糊综合评价的随机森林分类方法的流程示意图;
图3为本发明实施例中8种算法针对21个数据集的分类的准确率示意图;
图4为本发明实施例中8种算法针对21个数据集的分类的平均准确率示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明:
本发明提供一种基于模糊综合评价的随机森林分类方法,简写为FCE-RF算法,适用于具有一定规模的数据集,该数据集一般有两个特点,一是属性个数或者需要用来进行训练的特征属性较多;二是数据集中数据的很多属性的取值范围,并非是只能取两个值的布尔型数据以表示是或否,而是可以在极大值和极小值之间即在多个不同的值的范围内进行取值来表示某个隶属的等级。如图1、2所示,本发明方法主要包括如下步骤:
步骤A、数据预处理:通过专家经验方法对数据集中的数据进行预处理,将数据划分为可分组数据和不可分组数据。对于可分组数据,根据数据的属性信息对可分组数据进行分组,得到多组子数据集,每一组子数据集可以看作一个父因素,该子数据集中包含的多个数据可以看作父因素下的多个子因素。
在本发明实施例中,步骤A的具体操作如下:
步骤A01、根据数据属性的名称、含义等对待处理的数据集中的数据进行分组性判断,在数据集中两个不同属性的数据之间可能具有关联性,这些数据可以进行分组,而另一些数据与其他数据没有关联,相对独立,不可以分组,本发明可以根据分组性判断结果将待处理的数据集中的数据划分为可分组数据和不可分组数据。
步骤A02、根据可分组数据中的属性关系进行人工判别,将具有较强共性的属性看作为某个父因素的子因素,将所有可分组数据划分到多个组内,并根据每个组内的子因素生成该组的父因素。
以某百科中的词条“中国”的介绍为例。该百科在介绍中国时,其属性包括:“领土疆域”、“地形气候”、“生物多样性”、“经济概况”、“交通运输”、“商贸合作”、“文学”、“建筑”、“传统节日”等。百科本身对这些属性已经进行了分组:属性“领土疆域”、“地形气候”、“生物多样性”都是在描述属性“地理”,据此将属性“地理”看作是父因素U1,属性“领土疆域”、“地形气候”、“生物多样性”看作是该父因素U1的三个子因素同理,属性“经济概况”、“交通运输”、“商贸合作”都是描述属性“经济”,可以将属性“经济”看作是父因素U2,属性“经济概况”、“交通运输”、“商贸合作”看作是该父因素U2的三个子因素属性“文学”、“建筑”、“传统节日”都是描述属性“文化”,将属性“文化”看作是父因素U3,属性“文学”、“建筑”、“传统节日”看作是该父因素U3的三个子因素
假设所有可分组数据一共划分出m个组,在第i个组内,将具有公共属性的子因素聚合成一个父因素Ui,父因素Ui的值由这些子因素决定,父因素Ui的表达式如下:
其中,表示第i个父因素Ui中第ni个子因素,ni为第i个父因素Ui中子因素的总数,U为可分组数据的集合,/>表示对所有父因素取并集,Uj为第j个父因素,表示任意两个父因素不含有相同的子因素。
步骤B、模糊综合评价(FCE):将步骤A获取的父因素作为模糊因素,通过模糊综合评价策略对父因素进行模糊综合评价,得到可分组数据的模糊综合评价结果。模糊综合评价法能够根据同一父因素下多个具有关联的子因素对数据进行总体评价,对模糊的数据进行准确量化。
在本发明实施例中,为明确模糊评价的结果,定义模糊评价集V={v1,v2,…,vK},模糊评价集V包含了待评价数据所有的可能判定的结果,其中,vk(k=1,2,…K)表示第k个评价结果。如果v1表示完全不属于,vK表示完全属于,那么v2、v3、…vK-1表示介于完全不属于和完全属于之间的评价结果。
步骤B01、将步骤A02得到的每个父因素看作一个独立的单因素,进行单因素模糊评价,以确定每一个子因素的隶属度,进而得到每个父因素的单因素模糊评价矩阵。则第i个父因素Ui的模糊评价矩阵为Ri={ri1,ri2,…,rik},其中,rik表示第i个父因素Ui属于第k个评价结果的隶属度。
步骤B02、利用所有父因素的模糊评价矩阵构建可分组数据的模糊评价矩阵R:
步骤B03、为了对可分组数据进行模糊综合评价,需要预先确定每一个父因素在综合评价中的权重,以及各个模糊算子的权值。
当原始信息量较大,参与评判的相关因素也较多时,不仅计算成本较大,且费效比也不低。因此从经济效益的角度看,本发明采用德尔菲(Delphi)方法确定权重。
对于每一个父因素Ui,各个子因素un(n=1,2,…,ni)在决定父因素Ui的取值中的影响程度是不同的,因此在计算父因素Ui时,需要给每个子因素un分配不同的权重。
每个父因素的权重的确定方法包括:(1)通过德尔菲法获取每个子因素un的权重集,比如,以问卷的形式请多人分别对各个子因素赋予不同大小的权重。(2)对于子因素un,从un的权重集中分别找出un权重的最大值Mn和最小值mn,并设置一个恰当的正整数P,利用(Mn-mn)/P将权重集中的偶室友权重按某个特定的顺序进行排列,得到一个具有特定顺序的数列;(3)根据数列将所有权重分成P组,计算落在每组内所有的权重的频次;(4)根据频次的分布,取频次的最大值所在分组的中间值,作为子因素un的权重an。重复上述过程,可以获取父因素Ui初始的权重集合其中,/>为父因素Ui中子因素un的初始权重。
基于初始的权重集合进行归一化处理,可以得到父因素Ui的权重向量,具体如下:
其中,Ai表示可分组数据中第i个父因素的权重,ain表示父因素Ui中第n个子因素的权重。
考虑到本数据集的特征,P值的取值取为4。
在本发明实施例中,模糊算子可以选用最常见的四种模糊算子,一般情况下,优选模糊算子四种模糊算子的特点如表1所示:
表1
步骤B04、根据可分组数据的模糊评价矩阵R、每个父因素的权重和模糊算子,对可分组数据进行模糊综合评价,得到可分组数据的模糊综合评价向量,根据最大隶属度原则,取模糊综合评价向量BU=(b1,b2,…bm)中最大元素bmax所对应的评价结果vmax作为最终的可分组数据的模糊综合评价结果。
模糊综合评价向量BU的计算公式如下:
其中,bi表示可分组数据中第i个父因素Ui的模糊综合评价值,A表示可分组数据的权重,B表示可分组数据的模糊综合评价矩阵,Bi表示可分组数据中第i个父因素的模糊综合评价向量,bik表示第i个父因素隶属于第k个评价结果的加权隶属度,k=1,2,…K。
步骤C、将步骤B得到的可分组数据的模糊综合评价结果与步骤A中的不可分组数据,共同作为随机森林算法模型的输入,根据现有的模型训练方法对随机森林算法模型进行训练和预测,得到训练后的随机森林算法模型,并基于训练后的随机森林算法模型对实时数据进行分类,得到准确可靠的分类结果。
本发明方法在进行随机森林分类之前先进行模糊处理,将具有共同含义的子属性聚合在一起,并将这些属性数据视为某个父因素的子因素,对父因素进行模糊综合评价,通过模糊综合评价可以大大减少原始数据集中初始属性或因素的数量,使用模糊综合评价结果代替原始数据进行随机森林分类,能够有效降低计算量,提高了随机森林分类的计算效率。本发明对父因素进行模糊综合评价,由于父因素是子因素聚合而来,所以父因素的模糊综合评价结果包含了原始数据集中所有子因素的信息,即本发明在大幅减少属性或因素的数量的同时,原始数据集中所包含的信息并未丢失,因此,父因素的模糊综合评价结果可以很好地代替原始数据集中的子因素,用于后续的随机森林训练,既提高计算效率,又能够保证计算效果。
本发明解决了原数据集中属性之间的相关性被忽略的问题,同时解决了原数据集中因属性较多导致权重过小从而产生的信息丢失的问题,本发明最终的随机森林的训练结果取得了明显的改善。
实施例2
本实施例结合一个具体的数据集,对实施例1介绍的方法进行说明。
某所学校共有382名学生,为了便于了解学生情况,因材施教,现由13位不同的老师以问卷调查、访谈等方式,对影响学生生长环境的各个因素进行调查和数据统计,并通过打分的形式进行评价。打分在0分到5分之间,0分或1分表示较低或较差,2-3分表示一般,4分或5分表示较高或较好。将所有打分数据统计构成一个含有多个不同属性元素的数据集,通过数据集中的数据考察考查学生的生长环境对学生总评成绩的影响,通过本发明对数据集进行分类处理,得到学生的总评成绩(Evaluation)的取值,Evaluation=0表示不合格,Evaluation=1表示合格。
数据集中有9个属性(因素)需要进行数据的预处理,分别是″Medu″,″Fedu″,″Famrel″,″Traveltime″,″Studytime″,″Freetime″,″Goout″,″Health″and″Evaluation″,每个属性(因素)的具体的含义如表2所示。
表2
步骤1、通过数据预处理获取子因素和父因素。
本发明通过专家经验法分析表2中各个因素的实际含义,确定可分组数据和不可分组数据,比如,表2中“Medu”、“Fedu”和“Famrel”实际上均是对学生的家庭教育环境(family Educational Environment,FEE)的描述,这三个因素之间是有关联的,因此这三个因素对应的数据可以归为可分组数据,本发明可以将“FEE”看作“Medu”、“Fedu”和“Famrel”的父因素U1,而“Medu”、“Fedu”和“Famrel”可视为影响父因素U1的三个子因素,将它们构建成两层因素集,如表3所示。
表3
“Traveltime”、“Studytime”描述的是学生在学校之外分别在通勤和学习上所花费的时间情况,也即学生在学习方面的时间效益(Time Efficiency,TE);而“Freetime”、“Friendship”、“Health”这三个因素实际上描述的是学生的身心状态(Physical andMental State,PMS),因此,本发明将TE、PMS,分别看作是影响学生最终成绩的父因素U2、U3,Traveltime、Studytime看作是影响U2取值的子因素u1、u2,而Freetime、Friendship、Health这三个特征值看作是影响U3取值的子因素u1、u2、u3,具体如表4所示。
表4
步骤2、基于步骤1得到的父因素和子因素进行模糊综合评价。
本发明可以根据表2中的打分规则得到模糊评价集,在父因素U1中,子因素u1、u2、u3的取值范围为模糊评价集V1={0,1,2,3,4}。
对于某名学生的第一个父因素U1,有13名不同的老师给父因素U1下的3个子因素进行打分,其中,某一个子因素un隶属于模糊评价集V1中第k个评价结果的隶属度表示为:
按照上述公式可以计算出父因素U1中3个子因素隶属于K个评价结果的隶属度,进而得到父因素U1的模糊评价矩阵R1,R1为一个3行5列的矩阵,表达式如下:
同理,本发明可以得到该学生第二个父因素U2、第三个父因素U3的模糊评价矩阵R2和R3:
重复上述操作,可以得到所有学生的模糊评价矩阵
步骤3、获取权重和模糊算子。
采用Delphi方法得到的每个权重的取值,如表5所示。
表5
权重取值 | u1 | u2 | u3 |
A1 | 0.3 | 0.3 | 0.4 |
A2 | 0.4 | 0.6 | NULL |
A3 | 0.3 | 0.2 | 0.5 |
步骤4、根据表5中的权重和步骤2得到的模糊评价矩阵以及四种模糊算子,对数据集中的可分组数据进行模糊综合评价,得到模糊综合评价结果。
步骤5、将模糊综合评价结果输入随机森林算法模型,利用随机森林算法模型进行训练学习,得到学生的总评成绩Evaluation。
本发明实施例采用KNN、NB、DT、RF算法,以及采用带有四种模糊算子的FCE-RF+算法,分别对21组数据集进行数据分类实验以作为对比。RF数目的参数设置为N={100,200,300,500};森林深度的参数设置n={3,5,7,9}。
8种算法针对21个数据集的分类的准确率如图3所示,8种算法的平均准确率如图4所示。以RF算法的准确率作为基准,将其它方法的实验结果与该方法的结果进行比较,根据图3、4可以看出,采用带有四种模糊算子的FCE-RF算法的分类准确率普遍较高,其中,带有模糊算子M(●,∨)的FCE-RF方法、带有模糊算子的FCE-RF方法、和带有模糊算子的FCE-RF方法的准确率均高于RF算法,它们准确率的平均值分别为79.43%、71.03%、74.74%,只有带有模糊算子M(∧,∨)的FCE-RF方法的准确率低于RF算法,其平均准确率为67.33%。
带有模糊算子M(●,∨)的FCE-RF方法,其平均准确率最高,达到了79.43%,比原有RF算法的平均准确率高了9.63%。虽然结果理想,但利用该算子时,丢失的信息较多,信息利用率较低,在保留数据量较少的情况下,虚高的准确率也是一种风险,并不具备广泛的移植性。因此该算子更适合那些冗余数据较多的数据集。
带有模糊算子的FCE-RF方法,其平均准确率为74.74%,比原有RF方法的平均准确率高了4.94%。利用该算子的优势在于信息丢失比较少,综合信息的程度比较高,可以充分利用现有的信息来进行模糊评判,在计算时也充分考虑到了不同权重的因素或属性对最后模糊综合评判的影响。利用这种算子FCE-RF方法,准确率较高且客观性较强,具有良好的可移植性和普适性,适用于属性较多且部分属性相关性较强的数据集。
带有模糊算子M(●,∨)的FCE-RF方法、带有模糊算子的FCE-RF方法、和带有模糊算子/>的FCE-RF方法和现有的RF算法的准确率对比以及使用范围如表6所示。
表6
本发明方法通过模糊综合决策对原始随机森林算法进行改进,能够克服评价对象数值模糊化的缺陷,最大限度地保留了原始数据的信息,有效提高了随机森林算法对数据集的分类回归能力,能够解决大数据时代原数据集中属性之间的相关性被忽略的问题,能够在原数据集中属性较多、权重模糊的情况下避免因权重过小而产生的信息丢失的问题,提高随机森林算法的准确率。
本发明方法具有非常广阔的应用前景,例如,通过使用这种方法,我们可以提供用于营销目的的数据预测,比如根据客户的在线行为历史,预计他们会购买的产品。总之,该方法值得在当今包含越来越多的属性的大规模的数据集中进一步的研究和推广。
上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述,本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此,虽然已经具体讨论了一些另选的实施方式,但是其它实施方式将是显而易见的,或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化,以及落在上述申请的精神和范围内的其它实施方式。
本说明书中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。
虽然通过实施方式描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。
Claims (7)
1.一种基于模糊综合评价的随机森林分类方法,其特征在于,包括如下步骤:
通过专家经验法将数据集中的数据划分为可分组数据和不可分组数据;
根据可分组数据中的属性关联对可分组数据进行分组,将每个组内的数据作为子因素,并根据同一组内所有子因素确定该组的父因素;
通过模糊综合评价策略对所有父因素进行模糊综合评价,得到可分组数据的模糊评价结果;
将可分组数据的模糊评价结果和不可分组数据作为随机森林算法模型的输入,利用随机森林算法模型得到数据集的分类结果。
2.根据权利要求1所述的基于模糊综合评价的随机森林分类方法,其特征在于,所述父因素的表达式如下:
其中,Ui表示第i个父因素,i=1,2,…,m,m为父因素的总数,表示父因素Ui中第n个子因素,n=1,2,…,ni,ni为父因素Ui中子因素的总数。
3.根据权利要求1所述的基于模糊综合评价的随机森林分类方法,其特征在于,所述通过模糊综合评价策略对所有父因素进行模糊综合评价,得到可分组数据的模糊评价结果,包括:
获取可分组数据的模糊评价集;
将每个父因素看作一个独立的单因素,根据所述模糊评价集得到每个父因素的模糊评价矩阵;
根据所有父因素的模糊评价矩阵得到可分组数据的模糊评价矩阵;
利用德尔菲方法计算每个父因素的权重,同时确定模糊算子;
基于所述可分组数据的模糊评价矩阵、权重和模糊算子,
根据所述模糊综合矩阵对可分组数据进行模糊综合评价,得到可分组数据的模糊综合评价结果。
4.根据权利要求3所述的基于模糊综合评价的随机森林分类方法,其特征在于,所述模糊评价集V={v1,v2,…,vK},其中,vk表示第k个评价结果,k=1,2,…K,K为评价结果的总数。
5.根据权利要求4所述的基于模糊综合评价的随机森林分类方法,其特征在于,根据所述模糊评价集得到每个父因素的模糊评价矩阵,包括:
基于模糊评价集,根据父因素中每个子因素的取值得到每个子因素相对于模糊评价集的隶属度;
根据父因素中所有子因素的隶属度,得到父因素相对于模糊评价集的隶属度,得到父因素的模糊评价矩阵:
Ri={ri1,ri2,…,riK}
其中,Ri表示第i个父因素Ui的模糊评价矩阵,rik表示第i个父因素Ui属于第k个评价结果的隶属度,k=1,2,…K,K为模糊评价集V中评价结果的总数。
6.根据权利要求3所述的基于模糊综合评价的随机森林分类方法,其特征在于,所述可分组数据的模糊评价矩阵为:
其中,R为可分组数据的模糊评价矩阵,rik表示第i个父因素Ui属于第k个评价结果的隶属度,i=1,2,…,m,m为父因素的总数,k=1,2,…K,K为模糊评价集V中评价结果的总数。
7.根据权利要求3所述的基于模糊综合评价的随机森林分类方法,其特征在于,根据所述模糊综合矩阵对可分组数据进行模糊综合评价,得到可分组数据的模糊综合评价向量:
其中,BU表示可分组数据的模糊综合评价向量,bi表示可分组数据中第i个父因素Ui的模糊综合评价值,A表示可分组数据的权重,B表示可分组数据的模糊综合评价矩阵,Ai表示可分组数据中第i个父因素的权重,Bi表示可分组数据中第i个父因素的模糊综合评价向量,bik表示第i个父因素隶属于第k个评价结果的加权隶属度,R为可分组数据的模糊评价矩阵,ain表示父因素Ui中第n个子因素的权重,rik表示第i个父因素Ui属于第k个评价结果的隶属度,i=1,2,…,m,m为父因素的总数,k=1,2,…K,K为模糊评价集V中评价结果的总数;
根据最大隶属度原则,取模糊综合评价向量BU中最大元素bmax所对应的评价结果vmax作为最终的可分组数据的模糊综合评价结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311515999.9A CN117494008A (zh) | 2023-11-15 | 2023-11-15 | 一种基于模糊综合评价的随机森林分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311515999.9A CN117494008A (zh) | 2023-11-15 | 2023-11-15 | 一种基于模糊综合评价的随机森林分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117494008A true CN117494008A (zh) | 2024-02-02 |
Family
ID=89674156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311515999.9A Pending CN117494008A (zh) | 2023-11-15 | 2023-11-15 | 一种基于模糊综合评价的随机森林分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117494008A (zh) |
-
2023
- 2023-11-15 CN CN202311515999.9A patent/CN117494008A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108182489A (zh) | 一种基于在线学习行为分析的个性化学习推荐方法 | |
CN107067182A (zh) | 面向多维意象的产品设计方案评估方法 | |
EP4080429A1 (en) | Technology readiness level determination method and system based on science and technology big data | |
CN110751355A (zh) | 一种科技成果评估方法和装置 | |
CN114764682B (zh) | 一种基于多机器学习算法融合的大米安全风险评估方法 | |
CN113011788B (zh) | 一种海上交通事故应急决策方法、终端设备及存储介质 | |
CN108509588B (zh) | 一种基于大数据的律师评估方法及推荐方法 | |
CN112785156B (zh) | 一种基于聚类与综合评价的产业领袖识别方法 | |
CN113435713A (zh) | 基于gis技术和两模型融合的风险地图编制方法及系统 | |
CN109919227A (zh) | 一种面向混合属性数据集的密度峰值聚类方法 | |
CN101702172A (zh) | 一种基于类-属性关系依赖度的数据离散化方法 | |
CN113159535A (zh) | 一种基于熵权法的软件服务绩效评价方法 | |
CN117313947A (zh) | 一种基于随机森林和金枪鱼群优化算法的学习预警方法 | |
CN109992592B (zh) | 基于校园消费卡流水数据的高校贫困生识别方法 | |
CN111221915B (zh) | 基于CWK-means的在线学习资源质量分析方法 | |
CN112162972A (zh) | 一种基于数据挖掘与隐私保护技术的人力资源双向推荐系统 | |
CN117494008A (zh) | 一种基于模糊综合评价的随机森林分类方法 | |
CN110619422A (zh) | 一种智能车站客流状况预测方法和系统 | |
CN116127194A (zh) | 一种企业推荐方法 | |
CN110727801A (zh) | 基于本体的模糊评价搜索引擎广告优化方法 | |
Li et al. | University Students' behavior characteristics analysis and prediction method based on combined data mining model | |
CN114048977A (zh) | 一种工程师分级方法、装置及终端设备 | |
WO1992017853A2 (en) | Direct data base analysis, forecasting and diagnosis method | |
CN113837913A (zh) | 一种村镇耕地资源承载力关键阈值确定方法及装置 | |
CN113205274A (zh) | 一种施工质量定量化排名方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |