CN109409647A - 一种基于随机森林算法的薪资水平影响因素的分析方法 - Google Patents
一种基于随机森林算法的薪资水平影响因素的分析方法 Download PDFInfo
- Publication number
- CN109409647A CN109409647A CN201811050849.4A CN201811050849A CN109409647A CN 109409647 A CN109409647 A CN 109409647A CN 201811050849 A CN201811050849 A CN 201811050849A CN 109409647 A CN109409647 A CN 109409647A
- Authority
- CN
- China
- Prior art keywords
- variable
- random
- salary level
- gini
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 20
- 238000004458 analytical method Methods 0.000 title claims abstract description 14
- 238000003066 decision tree Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000005070 sampling Methods 0.000 claims abstract description 9
- 238000012986 modification Methods 0.000 claims abstract description 5
- 230000004048 modification Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013138 pruning Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 230000001902 propagating effect Effects 0.000 claims description 2
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 230000035606 childbirth Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 239000012535 impurity Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于随机森林算法的薪资水平影响因素的分析方法,属于数据挖掘分类技术领域。本发明先建立一个居民信息的数据库;其次对获得的居民信息数据进行预先处理;然后引入随机森林算法,对预处理过的数据集随机抽样进行决策树的构建,长出多棵决策树,进而形成森林;求出随机森林中变量重要性评分的Gini指数,比较Gini指数改变量平均值的大小,对影响薪资水平的因素重要性进行排序,快速准确地对影响薪资水平的主要因素进行分析。本发明与现有技术相比,主要提供了一种基于随机森林算法对薪资水平影响因素的判断方法,本发明方法科学实用,能够快速准确地对影响薪资水平的因素进行分析。
Description
技术领域
本发明涉及一种基于随机森林算法的薪资水平影响因素的分析方法,属于数据挖掘分类技术领域。
背景技术
随着社会的不断发展,社会结构越来越复杂,工作类型越来越多,如何能快速准确地对影响居民薪资水平的主要因素进行分析成为了一个需要考虑的问题。随机森林算法是以决策树作为基分类器的组合分类器,利用Bootstrap方法产生具有差异性的经过训练的样本集,同时在构建决策树时,随机的选择属性,进而对节点进行分裂。CART算法和Bagging方法的有效结合,使得通过随机特征的选择进行属性分裂,让该模型有较好的减少数据噪声和杂信号的作用,从而有较好的分类效果。
发明内容
本发明要解决的技术问题是提供一种基于随机森林算法的影响城市居民薪资水平主要因素的判断方法,用以解决上述问题。
本发明的技术方案是:一种基于随机森林算法的薪资水平影响因素的分析方法,包括如下步骤:
Step1、建立完备的居民信息数据库;
Step2、对居民信息数据进行清洗、消减和转换的预先处理;
Step3、引入随机森林算法,对数据集随机抽样进行决策树的构建,每个决策树最大生长而不被剪枝,长出多棵决策树,进而形成森林;
Step4、求出随机森林中变量重要性评分的Gini指数;
Step5、对影响薪资水平的因素重要性进行排序,快速准确地对影响薪资水平的因素进行分析;
具体地,所述步骤Step1中居民信息数据库是居民信息的集合,字段包括姓名、性别、教育层次、工作年限、工作领域等居民的基本信息。
具体地,所述步骤Step2是对Step1中的信息数据进行预先处理,其预先处理包括对居民信息数据的清洗、消减和转换。
具体地,所述步骤Step3中,首先,采用Bootstrap抽样方法从原始数据集中抽取N个训练子集,每个训练子集的大小约为原始数据集的三分之二;然后,为每个训练子集分别建立决策树,产生由N棵决策树组成的森林,在每棵树生长的过程中,从所有M个特征变量中随机抽取m个属性(m≤M),在m个属性中根据Gini指数最小原则选出最优属性进行内部节点分裂;最后,集合N棵决策树的预测结果,根据投票方式决定新样本的类别;每次抽样过程中约三分之一的数据未被抽中,利用这些数据来估计内部误差。此刻则定义两个参数:即随机森林中生长树的数目N和节点分裂时输入的特征变量个数m。由于随机森林不会出现过拟合现象,根据各分类的数据产生的误差趋于稳定时设置N的值。节点分裂时输入的特征变量个数m通过遍历M个特征变量时,预测错误率最低可得。
具体地,所述步骤Step4是集合N棵决策树的预测结果,求出随机森林中变量重要性评分的Gini指数;
假定有M个变量x1,x2,x3...xM,需计算M个变量的重要性得分统计量。根据Gini指数,变量xi的得分统计量为VIMi (Gini)。统计量VIMi (Gini)表示第i个变量在随机森林树中节点分裂不纯度的平均改变量,计算公式如公式(1):
式(1)中,K为自助样本集类别数,PMK为节点m属于第k类的概率,当样本属于二分类别数据(即K=2)时,节点m的Gini指数如公式(2):
GIm=2Pm(1-Pm) (2)
Pmk是样本在节点m属于任一类的概率估计值。变量xi在节点m的重要性,即在节点m分枝前后Gini指数变化量为:
VIMji (Gini)=GIm-GIl-GIr (3)
式(3)中,GIi和GIr分别表示的是由节点m分裂的两个新节点的Gini指数。如果变量xi在第j棵树中出现M次,那么变量xi在第j棵树的重要性定义如公式(4)所示:
变量xi在随机森林中的Gini重要性定义如公式(5)所示:
公式(5)中,n为随机森林中决策树的个数。
具体地,所述步骤Step5中,对影响薪资水平的因素的重要性进行排序,即可快速准确地对影响薪资水平的因素进行分析。
本发明的有益效果是:本发明与现有技术相比,提高了薪资水平影响因素分析的准确性与高效性,对人力资源和社会保障部门具有很大的指导意义。
附图说明
图1是本发明步骤流程图;
图2是本发明步骤Step2详细流程图;
图3是本发明步骤Step3详细流程图;
图4是本发明具体实施方式中所举例子构建随机森林和通过Gini指数对影响因素的重要性分析的实施方法流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-4所示,一种基于随机森林算法的薪资水平影响因素的分析方法,先建立一个居民信息的数据库;其次对获得居民信息数据进行预先处理;然后引入随机森林算法,对获取的数据集进行随机抽样进行决策树的构建,长出多棵决策树,进而形成森林;求出随机森林中变量重要性评分的Gini指数,比较Gini指数改变量平均值的大小,对影响薪资水平的因素重要性进行排序,快速准确地对影响薪资水平的主要因素进行分析。
具体步骤如下:
Step1、建立完备的城市居民信息数据库;具体地:
暂定所建数据库中有如下关键词:姓名、性别、年龄、身高、体重、婚育状况、教育层次、工作年限、工作领域、工作经验、家庭住址……
Step2、对居民信息数据进行清洗、消减和转换的预先处理;具体地:
获取居民信息数据,数据的质量是影响数据挖掘工作的关键性因素。采集到的居民信息数据是不完整的含有噪声的冗余的数据,因此,需要对采集到的居民信息数据进行预处理,以提高数据的质量。对居民信息数据的预处理工作主要包括三个方面:数据清洗、数据消减、数据转换。
(1)数据清洗
收集到的信息的属性有些是不完整的,如有些数据没有年龄、教育层次,工作领域等属性,需要将这部分数据清洗掉。
(2)数据消减
采集到的信息中的属性的很多,但并非所有的属性都是研究工作所必需的。因此,从数据集选取与研究相关的属性,删除不相关属性是至关重要的一项工作。观察数据,发现姓名、身高、体重、婚育状况等属性与本研究无关,将其删除。
(3)数据转换
采集到的信息的有些属性是连续型的,为了简化数据,需要对采集到的居民信息数据进行离散化处理。如对年龄的处理,划分不同的年龄段进行分类处理。
Step3、引入随机森林算法,对数据集进行随机抽样进行决策树的构建,每个决策树最大生长而不被剪枝,长出多棵决策树,进而形成森林;具体的:
Step3.1、对原始居民信息数据训练集SC采用Bootstrap抽样,生成训练样本集SCi=(xi,yi),(i=1,2,3,…n)
Step3.2、使用训练集SCi生成一棵不剪枝的决策树ti:
a.从所有m个特征中随机选取mt个居民信息特征;
b.依据Gini指数在每个节点上,从mt个特征中选取最优特征;
c.分裂直到决策树生长到最大;
最后得到:1.决策树的集合{ti,i=1,2,…,n};
2.待测的居民信息数据样本dt,决策树ti输出ti(dt);
Step4、求出随机森林中变量重要性评分的Gini指数;具体的:
假定有M个变量x1,x2,x3...xM,需计算M个变量的重要性得分统计量。根据Gini指数,变量xi的得分统计量为VIMi (Gini)。统计量VIMi (Gini)表示第i个变量在随机森林树中节点分裂不纯度的平均改变量,计算公式如公式(1):
式(1)中,K为自助样本集类别数,Pmk为节点m属于第k类的概率,当样本属于二分类别数据(即K=2)时,节点m的Gini指数如公式(2):
GIm=2Pm(1-Pm) (2)
Pmk是样本在节点m属于任一类的概率估计值。变量xi在节点m的重要性,即在节点m分枝前后Gini指数变化量为:
VIMji (Gini)=GIm-GIl-GIr (3)
式(3)中,GIl和GIr分别表示的是由节点m分裂的两个新节点的Gini指数。如果变量xi在第j棵树中出现M次,那么变量xi在第j棵树的重要性定义如公式(4)所示:
变量xi在随机森林中的Gini重要性定义如公式(5)所示:
公式(5)中,n为随机森林中决策树的个数。
Step5、对影响薪资水平的因素重要性进行排序,快速准确地对影响薪资水平的因素进行分析。具体的:
将Step4所得的薪资水平的影响因素重要性排序为xL,x1,x3...,x2,xM,得到影响薪资水平的主要因素为xL,x1,x3等,可以快速准确地对薪资水平主要影响因素进行分析,对人力资源和社会保障部门具有很大的指导意义。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (5)
1.一种基于随机森林算法的薪资水平影响因素的分析方法,其特征在于:
Step1、建立完备的居民信息数据库;
Step2、对居民信息数据进行清洗、消减和转换的预先处理;
Step3、引入随机森林算法,对数据集随机抽样进行决策树的构建,每个决策树最大生长而不被剪枝,长出多棵决策树,进而形成森林;
Step4、求出随机森林中变量重要性评分的Gini指数;
Step5、对影响薪资水平的因素重要性进行排序,快速准确地对影响薪资水平的因素进行分析。
2.根据权利要求1所述的基于随机森林算法的薪资水平影响因素的分析方法,其特征在于:所述步骤Step1中居民信息数据库是居民信息的集合,字段包括姓名、性别、教育层次、工作年限、工作领域。
3.根据权利要求1所述的基于随机森林算法的薪资水平影响因素的分析方法,其特征在于:所述步骤Step2是对Step1中的信息数据进行预先处理,其预先处理包括对居民信息数据的清洗、消减和转换。
4.根据权利要求1所述的基于随机森林算法的薪资水平影响因素的分析方法,其特征在于:所述步骤Step3具体步骤为:
首先,采用Bootstrap抽样方法从原始数据集中抽取N个训练子集,每个训练子集的大小约为原始数据集的三分之二;
然后,为每个训练子集分别建立决策树,产生由N棵决策树组成的森林,在每棵树生长的过程中,从所有M个特征变量中随机抽取m个属性(m≤M),在m个属性中根据Gini指数最小原则选出最优属性进行内部节点分裂;
最后,集合N棵决策树的预测结果,根据投票方式决定新样本的类别;每次抽样过程中约三分之一的数据未被抽中,利用这些数据来估计内部误差。此刻则定义两个参数:即随机森林中生长树的数目N和节点分裂时输入的特征变量个数m。
5.根据权利要求1所述的基于随机森林算法的薪资水平影响因素的分析方法,其特征在于:所述步骤Step4是集合N棵决策树的预测结果,求出随机森林中变量重要性评分的Gini指数;
假定有M个变量x1,x2,x3...xM,需计算M个变量的重要性得分统计量。根据Gini指数,变量xi的得分统计量为VIMi (Gini)。统计量VIMi (Gini)表示第i个变量在随机森林树中节点分裂不纯度的平均改变量,计算公式如公式(1):
式(1)中,K为自助样本集类别数,Pmk为节点m属于第k类的概率,当样本属于二分类别数据(即K=2)时,节点m的Gini指数如公式(2):
GIm=2Pm(1-Pm) 2)
Pmk是样本在节点m属于任一类的概率估计值。变量xi在节点m的重要性,即在节点m分枝前后Gini指数变化量为:
VIMji (Gini)=GIm-GIl-GIr (3)
式(3)中,GIl和GIr分别表示的是由节点m分裂的两个新节点的Gini指数。如果变量xi在第j棵树中出现M次,那么变量xi在第j棵树的重要性定义如公式(4)所示:
变量xi在随机森林中的Gini重要性定义如公式(5)所示:
公式(5)中,n为随机森林中决策树的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811050849.4A CN109409647A (zh) | 2018-09-10 | 2018-09-10 | 一种基于随机森林算法的薪资水平影响因素的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811050849.4A CN109409647A (zh) | 2018-09-10 | 2018-09-10 | 一种基于随机森林算法的薪资水平影响因素的分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109409647A true CN109409647A (zh) | 2019-03-01 |
Family
ID=65464619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811050849.4A Pending CN109409647A (zh) | 2018-09-10 | 2018-09-10 | 一种基于随机森林算法的薪资水平影响因素的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109409647A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175191A (zh) * | 2019-05-14 | 2019-08-27 | 复旦大学 | 数据分析中的数据过滤规则建模方法 |
CN110705683A (zh) * | 2019-10-12 | 2020-01-17 | 腾讯科技(深圳)有限公司 | 随机森林模型的构造方法、装置、电子设备及存储介质 |
CN110751192A (zh) * | 2019-09-27 | 2020-02-04 | 南京大学 | 基于cart算法的随机森林的决策树推理系统及方法 |
CN110956303A (zh) * | 2019-10-12 | 2020-04-03 | 未鲲(上海)科技服务有限公司 | 信息预测方法、装置、终端及可读存储介质 |
CN111260201A (zh) * | 2020-01-13 | 2020-06-09 | 北京科技大学 | 一种基于分层随机森林的变量重要性分析方法 |
WO2020220823A1 (zh) * | 2019-04-30 | 2020-11-05 | 京东城市(南京)科技有限公司 | 用于构建决策树的方法和装置 |
CN112734274A (zh) * | 2021-01-20 | 2021-04-30 | 国家电网公司华中分部 | 一种低碳电网运营主导影响因素挖掘及综合评估方法 |
CN113592557A (zh) * | 2021-08-03 | 2021-11-02 | 北京有竹居网络技术有限公司 | 广告投放结果的归因方法、装置、存储介质及电子设备 |
CN117493856A (zh) * | 2024-01-03 | 2024-02-02 | 佛山科学技术学院 | 一种基于随机森林的串果采摘特征因素分析方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140304200A1 (en) * | 2011-10-24 | 2014-10-09 | President And Fellows Of Harvard College | Enhancing diagnosis of disorder through artificial intelligence and mobile health technologies without compromising accuracy |
CN105512768A (zh) * | 2015-12-14 | 2016-04-20 | 上海交通大学 | 大数据环境下用户用电关联因素辨识及用电量预测方法 |
CN106934368A (zh) * | 2017-03-13 | 2017-07-07 | 长安大学 | 一种基于眼动指标数据的驾驶疲劳检测系统及识别方法 |
CN106997669A (zh) * | 2017-05-31 | 2017-08-01 | 青岛大学 | 一种基于特征重要性的判断交通拥堵成因的方法 |
CN108062720A (zh) * | 2017-12-05 | 2018-05-22 | 贵州电网有限责任公司电力科学研究院 | 一种基于相似日选取及随机森林算法的负荷预测方法 |
-
2018
- 2018-09-10 CN CN201811050849.4A patent/CN109409647A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140304200A1 (en) * | 2011-10-24 | 2014-10-09 | President And Fellows Of Harvard College | Enhancing diagnosis of disorder through artificial intelligence and mobile health technologies without compromising accuracy |
CN105512768A (zh) * | 2015-12-14 | 2016-04-20 | 上海交通大学 | 大数据环境下用户用电关联因素辨识及用电量预测方法 |
CN106934368A (zh) * | 2017-03-13 | 2017-07-07 | 长安大学 | 一种基于眼动指标数据的驾驶疲劳检测系统及识别方法 |
CN106997669A (zh) * | 2017-05-31 | 2017-08-01 | 青岛大学 | 一种基于特征重要性的判断交通拥堵成因的方法 |
CN108062720A (zh) * | 2017-12-05 | 2018-05-22 | 贵州电网有限责任公司电力科学研究院 | 一种基于相似日选取及随机森林算法的负荷预测方法 |
Non-Patent Citations (1)
Title |
---|
罗璇: "基于随机森林的P2P网络借贷成功率重要影响因素研究", 《中国优秀硕士学位论文全文数据库经济与管理科学辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020220823A1 (zh) * | 2019-04-30 | 2020-11-05 | 京东城市(南京)科技有限公司 | 用于构建决策树的方法和装置 |
CN110175191A (zh) * | 2019-05-14 | 2019-08-27 | 复旦大学 | 数据分析中的数据过滤规则建模方法 |
CN110751192A (zh) * | 2019-09-27 | 2020-02-04 | 南京大学 | 基于cart算法的随机森林的决策树推理系统及方法 |
CN110705683A (zh) * | 2019-10-12 | 2020-01-17 | 腾讯科技(深圳)有限公司 | 随机森林模型的构造方法、装置、电子设备及存储介质 |
CN110956303A (zh) * | 2019-10-12 | 2020-04-03 | 未鲲(上海)科技服务有限公司 | 信息预测方法、装置、终端及可读存储介质 |
CN110705683B (zh) * | 2019-10-12 | 2021-06-29 | 腾讯科技(深圳)有限公司 | 随机森林模型的构造方法、装置、电子设备及存储介质 |
CN111260201A (zh) * | 2020-01-13 | 2020-06-09 | 北京科技大学 | 一种基于分层随机森林的变量重要性分析方法 |
CN111260201B (zh) * | 2020-01-13 | 2023-04-28 | 北京科技大学 | 一种基于分层随机森林的变量重要性分析方法 |
CN112734274A (zh) * | 2021-01-20 | 2021-04-30 | 国家电网公司华中分部 | 一种低碳电网运营主导影响因素挖掘及综合评估方法 |
CN112734274B (zh) * | 2021-01-20 | 2023-11-03 | 国家电网公司华中分部 | 一种低碳电网运营主导影响因素挖掘及综合评估方法 |
CN113592557A (zh) * | 2021-08-03 | 2021-11-02 | 北京有竹居网络技术有限公司 | 广告投放结果的归因方法、装置、存储介质及电子设备 |
CN117493856A (zh) * | 2024-01-03 | 2024-02-02 | 佛山科学技术学院 | 一种基于随机森林的串果采摘特征因素分析方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109409647A (zh) | 一种基于随机森林算法的薪资水平影响因素的分析方法 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN104834735B (zh) | 一种基于词向量的文档摘要自动提取方法 | |
CN105975488B (zh) | 一种关系数据库中基于主题类簇单元的关键词查询方法 | |
CN110346831B (zh) | 一种基于随机森林算法的智能化地震流体识别方法 | |
CN101093559A (zh) | 一种基于知识发现的专家系统构造方法 | |
CN109669990A (zh) | 一种基于dbscan对密度不规则数据进行异常挖掘的改进算法 | |
Chakrabarty | A regression approach to distribution and trend analysis of quarterly foreign tourist arrivals in India | |
CN109492022A (zh) | 基于语义的改进的k-means算法的搜索方法 | |
Indira et al. | Performance analysis of genetic algorithm for mining association rules | |
CN110909785B (zh) | 基于语义层级的多任务Triplet损失函数学习方法 | |
CN108520038A (zh) | 一种基于排序学习算法的生物医学文献检索方法 | |
CN109633748B (zh) | 一种基于改进遗传算法的地震属性优选方法 | |
CN107194468A (zh) | 面向情报大数据的决策树增量学习方法 | |
CN113705110A (zh) | 一种基于双重随机森林回归方法的爆破振动速度预测方法 | |
CN111428821A (zh) | 一种基于决策树的资产分类方法 | |
CN105930358A (zh) | 基于关联度的案例检索方法及其系统 | |
CN110009024A (zh) | 一种基于id3算法的数据分类方法 | |
CN113762394B (zh) | 一种爆破块度预测方法 | |
CN109242534A (zh) | 一种基于用户评论动态分析的用户评分预测方法 | |
CN103020864A (zh) | 玉米良种选育方法 | |
CN107480130A (zh) | 基于web信息的关系数据的属性值同一性判定方法 | |
Kumara et al. | A survey on K-means algorithm centroid initialization | |
Wang et al. | Prediction model of glutamic acid production of data mining based on R language | |
Zhou et al. | Bank Customer Classification Algorithm Based on Improved Decision Tree |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |
|
RJ01 | Rejection of invention patent application after publication |