CN112182221B - 一种基于改进随机森林的知识检索优化方法 - Google Patents
一种基于改进随机森林的知识检索优化方法 Download PDFInfo
- Publication number
- CN112182221B CN112182221B CN202011082779.8A CN202011082779A CN112182221B CN 112182221 B CN112182221 B CN 112182221B CN 202011082779 A CN202011082779 A CN 202011082779A CN 112182221 B CN112182221 B CN 112182221B
- Authority
- CN
- China
- Prior art keywords
- decision tree
- particle
- random forest
- decision
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 62
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000005457 optimization Methods 0.000 title claims abstract description 20
- 238000003066 decision tree Methods 0.000 claims abstract description 123
- 239000002245 particle Substances 0.000 claims abstract description 61
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 40
- 238000009826 distribution Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 33
- 230000003044 adaptive effect Effects 0.000 claims description 26
- 238000011156 evaluation Methods 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 abstract description 13
- 230000008878 coupling Effects 0.000 abstract description 9
- 238000010168 coupling process Methods 0.000 abstract description 9
- 238000005859 coupling reaction Methods 0.000 abstract description 9
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 230000002708 enhancing effect Effects 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002431 foraging effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于知识库技术领域,具体涉及一种基于改进随机森林的知识检索优化方法。本发明降低了随机森林分类模型内部决策树的耦合性,适当减少了决策树数量,从而简化了分类模型的结构,能够一定程度上提高模型运行效率。本发明对所保留的决策树采用粒子群算法进行权值分布优化,能够较大增强随机森林模型的分类准确性。本发明采用改进的随机森林算法构造分类模型,对知识检索结果进行再分类,能够筛除与目标检索内容相关度较低的检索结果,并将结果根据内容相关度进行排序,大大提高了其检索精度,有利于增强用户体验,优化搜索性能指标。
Description
技术领域
本发明属于知识库技术领域,具体涉及一种基于改进随机森林的知识检索优化方法。
背景技术
随着大数据时代的到来,知识工程受到了广泛关注,如何从海量的数据中提取有用的知识,是大数据分析的关键。知识库技术提供了一种从海量文本和图像中抽取结构化知识的手段,从而具有广阔的应用前景。近年来,随着各行业信息化程度的加深,知识库在各领域取得了快速发展,典型的,如能够体现人工智能应用的知识问答系统、提升机构知识管理利用的机构知识库、促进科技信息开放共享的学科知识库等。如何从庞大的知识库中实现高效高质的知识检索已成为目前的一大研究热点。
当前在知识库知识获取方面,存在搜索内容良莠不齐、结果排名与目标搜索内容相关度并不完全一致等问题,搜索性能指标表现有待提高,用户需过滤大量无用信息,才能找到满足需求的内容。如何对知识库进行高效的知识检索,仍有很大的研究空间。
针对知识检索问题,国内外学者进行了大量的研究工作,研究重点主要为以决策树及神经网络为代表的机器学习算法在知识库领域的应用。随机森林算法以其高准确性、抗过拟合、抗噪声能力广泛应用于数据挖掘和数据分类领域。然而,随机森林算法中同时存在关键参数难以确定、决策树质量参差不齐影响模型整体效果等问题,限制了该算法在知识检索方面的应用。互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性,是对变量间相互依赖性的量度。粒子群优化算法(particle swarm optimization,PSO)是于1995年提出的一种模拟鸟群觅食的群智能优化算法,它的基本核心是利用群体中的个体对信息的共享从而使整个群体的运动在问题求解空间中产生从无序到有序的演化过程,从而获得问题的最优解,有着较强的优化能力。互信息法可以帮助度量随机森林模型中,决策树间的相关性;粒子群算法是一种典型的优化算法,可实现对于决策树的权值分布情况的优化改进,二者结合,能够较大程度改善随机森林算法模型的结构,降低其耦合性、提高分类精度。
发明内容
本发明的目的在于提供可提高知识检索的质量及效率的一种基于改进随机森林的知识检索优化方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:对知识库知识获取结果文档进行特征提取和空间向量表示,作为训练集;采用Bootstrap抽样方法从训练集中有放回地抽取n个样本,依此重复k次,得到k个训练数据集;据此k个训练数据集训练决策树,生成k棵随机决策树,组成随机森林以此方式操作k个训练集,生成k棵随机决策树,组成随机森林R={h1,h2,....hk};
步骤2:利用互信息法找出随机森林模型中相关度较高的决策树构成决策树组,只保留组内评价精度最高的决策树,获得新的决策树组H[h1,h2,...,hp];
步骤2.1:计算随机森林R={h1,h2,....hk}中决策树之间的相关性;
随机森林中任意两个决策树ha,hb的互信息I(ha,hb)为
I(ha,hb)=H(ya)+H(yb)-H(ya,yb)
其中,ya为决策树ha的输出信息;yb为决策树hb的输出信息;H(ya)为ya的信息熵;H(yb)为yb的信息熵;p(ax)为ya的边缘概率分布;p(by)为yb的边缘概率分布;p(ax,by)为ya与yb的联合概率分布;
步骤2.2:将所有I(ha,hb)大于阈值ε的决策树划分为一个决策树组;
步骤2.3:根据精度I(ha,y)获取每组中精度最高的决策树;以I(ha,y)表示决策树ha与实际标签y的互信息,即决策树ha的输出评价结果与实际评价结果之间的相关性;I(ha,y)的值越大,决策树ha的精度越高;在每一组决策树组中,计算得出其中I(ha,y)值最大的决策树,并将每组选出的决策树合成一个新的决策树组H[h1,h2,...,hp];
步骤3:采用粒子群算法确定所保留的决策树的权值分布,得到完整的随机森林分类模型;
步骤3.1:初始化粒子群,给每个粒子赋予随机的初始位置和速度;所有粒子均采用实数编码,最终决策森林中,每个决策树对最终结果的影响权值,记为ω1至ωp;设定最大迭代次数;
步骤3.2:计算适应值,根据适应度函数,计算每个粒子的适应值;以粒子中ω1至ωp值作为决策树权值,生成随机森林分类模型,以该模型输出评价结果与实际评价结果之间的相关性计算作为适应度函数,相关性值作为适应值;
步骤3.3:计算个体最佳适应值;对每一个粒子,将其当前位置的适应值与其历史最佳位置对应的适应值比较;如果当前位置的适应值更高,则用当前位置更新历史最佳位置;
步骤3.4:计算群体最佳适应值;对每一个粒子,将其当前位置的适应值与其全局最佳位置对应的适应值比较;如果当前位置的适应值更高,则用当前位置更新全局最佳位置;
步骤3.5:更新粒子位置和速度;
其中,为第t次迭代时第j维中粒子i的速度;是粒子i的位置;ω为惯性权重;c1、c2为学习因子;粒子群第t次迭代时的个体极值点;为粒子群的全局极值点;为[0,1]区间内均匀分布的随机数;Vmax是常数;
步骤3.6:判断是否满足结束条件;若未满足结束条件,则返回步骤3.2,若满足结束条件则输出每个粒子的全局最佳位置,得到权值向量W[ω1,ω2,...,ωp];
步骤4:将知识检索结果文档输入到构建的随机森林分类模型中,获取每一文档的相关度分类,实现对知识检索结果的精度排序,并排除与搜索内容相关度极低的检索结果;
步骤4.1:将需要进行优化的所有检索结果文档,进行特征提取和空间向量表示,以获取文档向量组Y[Y1,Y2,Y3,...,Yn];
步骤4.2:将文档向量组Y[Y1,Y2,Y3,...,Yn]中的文档向量输入到决策树组H[h1,h2,...,hp]中,获取每个文档向量Ym根据每棵决策树的评价得分Sm[s1,s2,...,sp];
步骤4.3:对每个文档向量Ym的评价得分Sm[s1,s2,...,sp]进行加权处理,得到每个文档向量Ym的最终得分Zm;
Zm=Sm*WT=[s1,s2,...,sp]·[ω1,ω2,...,ωp]T
步骤4.4:将所有文档向量根据最终得分Zm值进行重新排序,将得分高的文档位置提前、得分低的文档位置推后,达到优化检索结果、提高整体评价精度的目的。
本发明的有益效果在于:
本发明针对现阶段随机森林算法在知识检索领域应用存在的检索结果精度低的问题,提出了一种基于改进随机森林的知识检索优化方法。本发明以互信息法对传统随机森林算法所得分类模型进行结构优化,并结合粒子群算法优化决策树权值,最终获得了耦合性更低、分类精度更高的算法模型。使用改进后的分类模型对知识检索结果进行优化,可得到更符合检索目标的检索结果,提高评价精度。本发明降低了随机森林分类模型内部决策树的耦合性,适当减少了决策树数量,从而简化了分类模型的结构,能够一定程度上提高模型运行效率。本发明对所保留的决策树采用粒子群算法进行权值分布优化,能够较大增强随机森林模型的分类准确性。本发明采用改进的随机森林算法构造分类模型,对知识检索结果进行再分类,能够筛除与目标检索内容相关度较低的检索结果,并将结果根据内容相关度进行排序,大大提高了其检索精度,有利于增强用户体验,优化搜索性能指标。
附图说明
图1为本发明的总体方案图。
图2为本发明中基于互信息优化模型的结构图。
图3为本发明中决策树对文档的相关度判定的示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明属于知识库技术领域,针对现有技术存在的知识检索中的检索结果精度低的问题,提出了一种基于改进随机森林的知识检索优化方法。本发明以互信息法对传统随机森林算法所得分类模型进行结构优化,并结合粒子群算法优化决策树权值,最终获得了耦合性更低、分类精度更高的算法模型。使用改进后的分类模型对知识检索结果进行优化,可得到更符合检索目标的检索结果,提高评价精度。
实施例1:
本发明针对现阶段随机森林算法在知识检索领域应用存在的问题,提出一种基于改进随机森林的知识检索优化方法。本发明采用互信息对随机森林分类模型进行结构优化,在此基础上加入粒子群算法对模型迭代优化调整决策树权值,以提高整体分类效果。本发明用于知识检索,可提高知识检索的质量及效率。本发明对传统随机森林算法的改进主要如下:其一,采用互信息法,分析获取相关度较高的决策树组,仅保留其中最高分类精度的决策树,并采用加权投票方法,将决策树的分类精度转化为投票权值,由此产生的新随机森林中的决策树相关性大大减小;其二,在决策树筛选完成后,利用PSO算法优化投票阶段中的各决策树的对应投票权值,最终使得决策树的权值分布更为合理,以提升模型的分类性能。
本发明主要包括针对传统随机森林算法的改进方案,以及采用该算法优化知识检索结果两部分。总体方案图如图1。改进方案是在采用传统随机森林算法生成初始随机森林模型的基础上,利用互信息法找出模型中相关性较高的决策树组,从每个决策树组中挑选出与目标检索内容相关性最高的决策树,组成新的决策树组,作为新随机森林分类模型中的决策树;随后需采用粒子群优化算法确定所选出决策树的权值分布,根据各决策树的权值分布,构成最终的随机森林分类模型。将知识检索结果进行预处理后,可输入该分类模型中,对检索结果进行相关度分类,作为知识检索结果进行输出。主要采用如下步骤:
步骤1:将知识库进行知识获取所得的文档作为训练集,进行预处理,并据此生成初始随机森林模型。
步骤2:利用互信息法找出随机森林模型中相关度较高的决策树构成决策树组,只保留组内评价精度最高的决策树,以得到更低耦合、高精度的分类模型。
步骤3:采用粒子群算法确定所保留的决策树的权值分布,得到完整的分类模型。
步骤4:以该模型优化知识检索结果文档,获取评价精度更高的检索结果。
所述步骤1具体内容如下:
对知识库知识获取结果文档进行特征提取和空间向量表示,作为训练集;随后采用Bootstrap抽样方法从训练集中有放回地抽取n(n≤样本容量总数N)个样本,依此重复K次,得到K个训练数据集。再据此K个训练数据集训练决策树,构造随机森林分类模型。
本发明选取余弦相似度、杰卡德相似度、皮尔逊相似度和欧氏距离四个文档相关度指标作为特征,可对应{特征1,特征2,特征3,特征4},并采用分类回归树算法(CART决策树生成算法),即采用基尼系数作为节点分裂时所用到的判断指标,生成决策树。对决策树进行节点分裂时,从以上4个相关度指标中随机抽取m(1<m≤4)个,再从该m个指标中迭代选择最优属性作为分裂特征进行分裂操作。以此方式操作K个训练集,生成K棵随机决策树,组成随机森林R={h1,h2,....hk}。
所述步骤2具体内容如下:
信息论中的互信息主要用来评价不同变量间的相互依赖程度,即表明一个随机变量中可能含有其它随机变量的信息容量。如图2所示为基于互信息优化随机森林模型结构的基本步骤图。
步骤2中的主要实现步骤包括:
步骤2.1计算决策树R={h1,h2,....hk}之间的相关性。两组随机变量X和Y的互信息可表示为:
其中P为随机变量X、Y的联合概率分布,p(x)和p(y)分别X与Y的边缘概率分布,H(X)是X的信息熵,其计算公式为:
其中p(xi)代表事件xi发生的概率;H(Y)代表Y的信息熵,H(X,Y)代表联合熵,其计算公式为:
X和Y之间完全独立时,二者互信息最小,结果为0;若互信息越大,则其相互依赖程度越大,即两个变量之间耦合度越大。对于随机森林中的决策树hi(i=1,2,...K),以I(hi,hk)(i≠k)表示决策树hi与hk的互信息。本发明采用互信息来计算决策树之间的相关性,即重合程度及耦合度,计算方式如下:
I(hi,hk)=I(yi,yk) (4)
其中yi(i=1,2...K)为第i棵决策树的输出信息。
步骤2.2将所有I(hi,hk)(i≠k)大于阈值ε的决策树划分为一个决策树组。步骤2.1中计算所得的I(hi,hk)的值越大,则两棵决策树的相关性越大。本发明需将森林中互信息值大于阈值ε的决策树合为一组。
步骤2.3根据精度I(hi,y)获取每组中精度最高的决策树。
以I(hi,y)表示决策树hi与实际标签y的互信息,即决策树hi的输出评价结果与实际评价结果之间的相关性。其计算方式为:
I(hi,y)=I(yi,y) (5)
I(hi,y)的值越大,决策树hi的精度越高。在每一组决策树组中,计算得出其中I(hi,y)值最大的决策树,并将每组选出的决策树合成一个新的决策树组H[h1,h2,...,hp]。
所述步骤3具体内容如下:
假设在实现步骤2获取每组中精度最高的决策树后,共有n棵决策树,其对最终结果产生加权影响;则步骤3中采用PSO算法优化的对象即是:最终决策森林中,每个决策树对最终结果的影响权值,记为ω1至ωp。
所有粒子均采用实数编码,粒子中ω1至ωp含义与上文一致,即通过PSO算法优化随机森林中各决策树对最终结果影响的权值分布,以进一步提升算法对知识检索的性能优化,最终获得一个权值向量W[ω1,ω2,...,ωp]。
则步骤3中的主要实现步骤包括:
步骤3.1初始化粒子群:给每个粒子赋予随机的初始位置和速度。
步骤3.2计算适应值:根据适应度函数,计算每个粒子的适应值。以粒子中ω1至ωp值作为决策树权值,生成随机森林分类模型,以该模型输出评价结果与实际评价结果之间的相关性计算作为适应度函数,相关性值作为适应值。
步骤3.3求个体最佳适应值:对每一个粒子,将其当前位置的适应值与其历史最佳位置(pbest)对应的适应值比较,如果当前位置的适应值更高,则用当前位置更新历史最佳位置。
步骤3.4求群体最佳适应值:对每一个粒子,将其当前位置的适应值与其全局最佳位置(gbest)对应的适应值比较,如果当前位置的适应值更高,则用当前位置更新全局最佳位置。
步骤3.5更新粒子位置和速度:对种群中每个粒子在给定的搜索空间中,按照如下两个公式通过不断地调整自身的速度和位置进行寻优,直到满足收敛终止条件。
式中,为第t次迭代时第j维中粒子i的速度;是粒子i的位置;ω为惯性权重;c1、c2为学习因子;粒子群第t次迭代时的个体极值点;为粒子群的全局极值点;为[0,1]区间内均匀分布的随机数;Vmax是常数。
步骤3.6判断算法是否结束:若未满足结束条件,则返回步骤3.2,若满足结束条件则算法结束,全局最佳位置(gbest)即全局最优解。
所述步骤4具体内容如下:
本发明通过以上步骤构建了随机森林分类模型,可将知识获取结果文档向量,输入该模型中,获取每一文档的相关度分类,以实现对知识检索结果的精度排序,以及排除与搜索内容相关度极低的检索结果。
则步骤4中的主要实现步骤包括:
步骤4.1将需要进行优化的所有检索结果文档,进行特征提取和空间向量表示,以获取文档向量组Y[Y1,Y2,Y3,...,Yn]。
步骤4.2将文档向量组Y[Y1,Y2,Y3,...,Yn]中的文档向量Yi(1≤i≤n),输入筛选所得的决策树组H[h1,h2,...,hp]中,获取其根据每棵决策树的评价得分Si[s1,s2,...,sp]。
如图3所示,表明了选取三特征的决策树对于文档向量的评分情况。以图3决策树为例,将一个文档向量输入该决策树,则若最终相关度判定为4,该文档可获得4分(si=4);其次是相关度为3,可获得3分(si=3),依次递减。其他结构决策树情况相似。
步骤4.3对上一步文档向量的得分进行加权处理。设文档向量Yi处理后的最终得分为Zi,则其计算方式如下:
Zi=Si*WT=[s1,s2,...,sp]·[ω1,ω2,...,ωp]T (8)
步骤4.4将所有文档向量,根据计算所得的Zi(1≤i≤n)值进行重新排序,即得分高的文档位置提前、得分低的文档位置推后,最终达到优化检索结果、提高整体评价精度的目的。
本发明降低了随机森林分类模型内部决策树的耦合性,适当减少了决策树数量,从而简化了分类模型的结构,能够一定程度上提高模型运行效率。本发明对所保留的决策树采用粒子群算法进行权值分布优化,能够较大增强随机森林模型的分类准确性。本发明采用改进的随机森林算法构造分类模型,对知识检索结果进行再分类,能够筛除与目标检索内容相关度较低的检索结果,并将结果根据内容相关度进行排序,大大提高了其检索精度,有利于增强用户体验,优化搜索性能指标。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于改进随机森林的知识检索优化方法,其特征在于,包括以下步骤:
步骤1:对知识库知识获取结果文档进行特征提取和空间向量表示,作为训练集;采用Bootstrap抽样方法从训练集中有放回地抽取n个样本,依此重复k次,得到k个训练数据集;据此k个训练数据集训练决策树,生成k棵随机决策树,组成随机森林以此方式操作k个训练集,生成k棵随机决策树,组成随机森林R={h1,h2,....hk};
步骤2:利用互信息法找出随机森林模型中相关度较高的决策树构成决策树组,只保留组内评价精度最高的决策树,获得新的决策树组H[h1,h2,...,hp];
步骤2.1:计算随机森林R={h1,h2,....hk}中决策树之间的相关性;
随机森林中任意两个决策树ha,hb的互信息I(ha,hb)为
I(ha,hb)=H(ya)+H(yb)-H(ya,yb)
其中,ya为决策树ha的输出信息;yb为决策树hb的输出信息;H(ya)为ya的信息熵;H(yb)为yb的信息熵;p(ax)为ya的边缘概率分布;p(by)为yb的边缘概率分布;p(ax,by)为ya与yb的联合概率分布;
步骤2.2:将所有I(ha,hb)大于阈值ε的决策树划分为一个决策树组;
步骤2.3:根据精度I(ha,y)获取每组中精度最高的决策树;以I(ha,y)表示决策树ha与实际标签y的互信息,即决策树ha的输出评价结果与实际评价结果之间的相关性;I(ha,y)的值越大,决策树ha的精度越高;在每一组决策树组中,计算得出其中I(ha,y)值最大的决策树,并将每组选出的决策树合成一个新的决策树组H[h1,h2,...,hp];
步骤3:采用粒子群算法确定所保留的决策树的权值分布,得到完整的随机森林分类模型;
步骤3.1:初始化粒子群,给每个粒子赋予随机的初始位置和速度;所有粒子均采用实数编码,最终决策森林中,每个决策树对最终结果的影响权值,记为ω1至ωp;设定最大迭代次数;
步骤3.2:计算适应值,根据适应度函数,计算每个粒子的适应值;以粒子中ω1至ωp值作为决策树权值,生成随机森林分类模型,以该模型输出评价结果与实际评价结果之间的相关性计算作为适应度函数,相关性值作为适应值;
步骤3.3:计算个体最佳适应值;对每一个粒子,将其当前位置的适应值与其历史最佳位置对应的适应值比较;如果当前位置的适应值更高,则用当前位置更新历史最佳位置;
步骤3.4:计算群体最佳适应值;对每一个粒子,将其当前位置的适应值与其全局最佳位置对应的适应值比较;如果当前位置的适应值更高,则用当前位置更新全局最佳位置;
步骤3.5:更新粒子位置和速度;
其中,为第t次迭代时第j维中粒子i的速度;是粒子i的位置;ω为惯性权重;c1、c2为学习因子;粒子群第t次迭代时的个体极值点;为粒子群的全局极值点;为[0,1]区间内均匀分布的随机数;Vmax是常数;
步骤3.6:判断是否满足结束条件;若未满足结束条件,则返回步骤3.2,若满足结束条件则输出每个粒子的全局最佳位置,得到权值向量W[ω1,ω2,...,ωp];
步骤4:将知识检索结果文档输入到构建的随机森林分类模型中,获取每一文档的相关度分类,实现对知识检索结果的精度排序,并排除与搜索内容相关度极低的检索结果;
步骤4.1:将需要进行优化的所有检索结果文档,进行特征提取和空间向量表示,以获取文档向量组Y[Y1,Y2,Y3,...,Yn];
步骤4.2:将文档向量组Y[Y1,Y2,Y3,...,Yn]中的文档向量输入到决策树组H[h1,h2,...,hp]中,获取每个文档向量Ym根据每棵决策树的评价得分Sm[s1,s2,...,sp];
步骤4.3:对每个文档向量Ym的评价得分Sm[s1,s2,...,sp]进行加权处理,得到每个文档向量Ym的最终得分Zm;
Zm=Sm*WT=[s1,s2,...,sp]·[ω1,ω2,...,ωp]T
步骤4.4:将所有文档向量根据最终得分Zm值进行重新排序,将得分高的文档位置提前、得分低的文档位置推后,达到优化检索结果、提高整体评价精度的目的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011082779.8A CN112182221B (zh) | 2020-10-12 | 2020-10-12 | 一种基于改进随机森林的知识检索优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011082779.8A CN112182221B (zh) | 2020-10-12 | 2020-10-12 | 一种基于改进随机森林的知识检索优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112182221A CN112182221A (zh) | 2021-01-05 |
CN112182221B true CN112182221B (zh) | 2022-04-05 |
Family
ID=73948106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011082779.8A Active CN112182221B (zh) | 2020-10-12 | 2020-10-12 | 一种基于改进随机森林的知识检索优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182221B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613584A (zh) * | 2021-01-07 | 2021-04-06 | 国网上海市电力公司 | 一种故障诊断方法、装置、设备及存储介质 |
CN112883359B (zh) * | 2021-03-12 | 2022-10-21 | 河北亚迎科技有限公司 | 一种动态验证方法和系统 |
CN113221200B (zh) * | 2021-04-15 | 2022-10-25 | 哈尔滨工程大学 | 一种适用于堆芯颗粒分布不确定性分析的三维高效随机排布方法 |
CN116823014B (zh) * | 2023-04-06 | 2024-02-13 | 南京邮电大学 | 一种企业员工绩效自动评分服务实现方法 |
CN117556256B (zh) * | 2023-11-16 | 2024-09-06 | 南京小裂变网络科技有限公司 | 一种基于大数据的私域业务标签筛选系统及其方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766883A (zh) * | 2017-10-13 | 2018-03-06 | 华中师范大学 | 一种基于加权决策树的优化随机森林分类方法及系统 |
CN110059852A (zh) * | 2019-03-11 | 2019-07-26 | 杭州电子科技大学 | 一种基于改进随机森林算法的股票收益率预测方法 |
CN110347701A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 一种面向实体检索查询的目标类型标识方法 |
CN110472817A (zh) * | 2019-07-03 | 2019-11-19 | 西北大学 | 一种结合深度神经网络的XGBoost集成信用评价系统及其方法 |
CN110596492A (zh) * | 2019-09-17 | 2019-12-20 | 昆明理工大学 | 一种基于粒子群算法优化随机森林模型的变压器故障诊断方法 |
CN111428790A (zh) * | 2020-03-26 | 2020-07-17 | 沈阳理工大学 | 基于粒子群优化的双准确度加权随机森林算法 |
CN111428142A (zh) * | 2020-05-06 | 2020-07-17 | 南京大学 | 一种基于随机森林分类器的代码评审人推荐系统及方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12046040B2 (en) * | 2015-07-17 | 2024-07-23 | Origin Research Wireless, Inc. | Method, apparatus, and system for people counting and recognition based on rhythmic motion monitoring |
SG10201406215YA (en) * | 2014-09-30 | 2016-04-28 | Mentorica Technology Pte Ltd | Systems and methods for automated data analysis and customer relationship management |
US20190267112A1 (en) * | 2016-10-30 | 2019-08-29 | Taliaz Ltd. | Method and system for predicting response of a subject to antidepressant treatment |
-
2020
- 2020-10-12 CN CN202011082779.8A patent/CN112182221B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766883A (zh) * | 2017-10-13 | 2018-03-06 | 华中师范大学 | 一种基于加权决策树的优化随机森林分类方法及系统 |
CN110059852A (zh) * | 2019-03-11 | 2019-07-26 | 杭州电子科技大学 | 一种基于改进随机森林算法的股票收益率预测方法 |
CN110347701A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 一种面向实体检索查询的目标类型标识方法 |
CN110472817A (zh) * | 2019-07-03 | 2019-11-19 | 西北大学 | 一种结合深度神经网络的XGBoost集成信用评价系统及其方法 |
CN110596492A (zh) * | 2019-09-17 | 2019-12-20 | 昆明理工大学 | 一种基于粒子群算法优化随机森林模型的变压器故障诊断方法 |
CN111428790A (zh) * | 2020-03-26 | 2020-07-17 | 沈阳理工大学 | 基于粒子群优化的双准确度加权随机森林算法 |
CN111428142A (zh) * | 2020-05-06 | 2020-07-17 | 南京大学 | 一种基于随机森林分类器的代码评审人推荐系统及方法 |
Non-Patent Citations (4)
Title |
---|
A novel gene selection algorithm for cancer identification based on random forest and particle swarm optimization;Elnaz Pashaei 等;《2015 IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology (CIBCB)》;20151019;1-6 * |
Gene selection and classification approach for microarray data based on Random Forest Ranking and BBHA;Elnaz Pashaei 等;《2016 IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI)》;20160421;308-311 * |
基于改进随机森林算法的研究与应用;庄巧蕙;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115(第01(2020)期);I140-315 * |
面向遥感影像的水域提取算法研究;王浩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190215(第02(2019)期);I140-1156 * |
Also Published As
Publication number | Publication date |
---|---|
CN112182221A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112182221B (zh) | 一种基于改进随机森林的知识检索优化方法 | |
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
Ye et al. | Remote sensing image retrieval using convolutional neural network features and weighted distance | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN106991127B (zh) | 一种基于拓扑特征扩展的知识主题短文本层次分类方法 | |
CN109408600B (zh) | 一种基于数据挖掘的图书荐购方法 | |
CN113378913B (zh) | 一种基于自监督学习的半监督节点分类方法 | |
CN108897791B (zh) | 一种基于深度卷积特征和语义相似度量的图像检索方法 | |
CN108921047B (zh) | 一种基于跨层融合的多模型投票均值动作识别方法 | |
CN110866134B (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN108763295B (zh) | 一种基于深度学习的视频近似拷贝检索算法 | |
CN101339553A (zh) | 面向海量数据近似快速聚类和索引方法 | |
CN111859936B (zh) | 一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法 | |
CN110909158B (zh) | 基于改进萤火虫算法和k近邻的文本分类方法 | |
CN111210023A (zh) | 数据集分类学习算法自动选择系统及方法 | |
CN117649552A (zh) | 一种基于对比学习和主动学习的图像增量学习方法 | |
CN114611491A (zh) | 基于文本挖掘技术的智慧政务舆情分析研究方法 | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
CN113590818B (zh) | 一种基于cnn与gru及knn融合的政务文本数据分类方法 | |
CN113836330A (zh) | 基于生成对抗性自动增强网络的图像检索方法及装置 | |
CN106919658A (zh) | 一种基于gpu加速的大规模图像词汇树检索方法及系统 | |
CN114140657A (zh) | 一种基于多特征融合的图像检索方法 | |
CN106951501A (zh) | 一种基于多图匹配的三维模型检索方法 | |
Huang et al. | Adversarial learning for content-based image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |