CN113658680B - 基于随机森林的戒毒人员戒治效果的评估方法 - Google Patents
基于随机森林的戒毒人员戒治效果的评估方法 Download PDFInfo
- Publication number
- CN113658680B CN113658680B CN202110863567.1A CN202110863567A CN113658680B CN 113658680 B CN113658680 B CN 113658680B CN 202110863567 A CN202110863567 A CN 202110863567A CN 113658680 B CN113658680 B CN 113658680B
- Authority
- CN
- China
- Prior art keywords
- drug
- relief
- effect
- person
- standard deviation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000694 effects Effects 0.000 title claims abstract description 60
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 41
- 238000011156 evaluation Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 43
- 239000003814 drug Substances 0.000 claims abstract description 22
- 229940079593 drug Drugs 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims abstract description 15
- 230000008859 change Effects 0.000 claims abstract description 11
- 238000012854 evaluation process Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 39
- 208000007271 Substance Withdrawal Syndrome Diseases 0.000 claims description 20
- 206010013663 drug dependence Diseases 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 208000011117 substance-related disease Diseases 0.000 claims description 15
- 238000003491 array Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000003066 decision tree Methods 0.000 claims description 7
- 238000013139 quantization Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 239000008186 active pharmaceutical agent Substances 0.000 claims 3
- 229940088679 drug related substance Drugs 0.000 claims 3
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000013210 evaluation model Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Pathology (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于随机森林的戒毒人员戒治效果的评估方法,本发明涉及戒毒领域和机器学习领域,包含目标函数和特征的选择、训练模型和评估过程;在戒毒人员多维度戒毒数据中选择一个维度YD作为目标函数,从戒毒人员多维度戒毒数据选择一组特征FD,建立训练数据集TrainSet样本集合,训练随机森林回归模型,计算得到被评估人员的YD和类似戒毒人员平均值的偏差是标准差的倍数LSS、被评估人员的YD和整体平均值的偏差是标准差的倍数GSS,综合进行评估。本发明评估方法适应性强,当制度变化,技术进步导致数据发生巨大变化之后,可以通过重新训练模型的方式快速适应变化、且精确度更高。
Description
技术领域
本发明涉及戒毒领域和机器学习领域,尤其涉及一种基于随机森林的戒毒人员戒治效果的评估方法。
背景技术
虽然目前已经提出很多强制戒毒人员戒治效果的评估方法,但是在实际操作过程中,普遍存在操作难度较大、评估信度效度较低的问题。另外,现有的评估方法的设计均基于经验,无法快速灵活改变参数,难以适应新技术发展、信息系统和相关制度变化带来的环境变化。
现有戒毒信息系统中已经有大量的数据和戒治效果直接相关,例如计分考核数据、考试成绩、医疗检验结果和康复训练数据等;但这些数据缺乏统一标准,各地域之间差别巨大,每次制度变化和技术进步,都会导致这些数据发生巨大变化,直接从这些数据中靠人工分析方式评价戒治效果很困难,不直观,评估结果精确度严重依赖于评估人员的经验。
发明内容
为解决上述技术问题,本发明提供一种基于随机森林的戒毒人员戒治效果的评估方法,建立完全基于数据的戒治效果评估模型,排除人为主观因素,以实现通过构造数据集重新训练方式随时更新模型,能够快速灵活适应环境的变化,同时也能适应不同地域的技术、制度环境巨大的差别。
为实现上述目的,本发明提供如下技术方案:
一种基于随机森林的戒毒人员戒治效果的评估方法,包含目标函数和特征的选择、训练模型和评估过程;其中,
(1)目标函数和特征选择:
在戒毒人员多维度戒毒数据中选择一个维度YD作为目标函数,所述YD是与所述戒治效果直接相关的量化指标;
从戒毒人员多维度戒毒数据选择一组特征FD,所述FD为戒毒人员的静止属性;
(2)训练模型:
a、建立训练数据集TrainSet样本集合,其中的每一样本对应多维度戒毒数据中一个人员的数据;
b、训练随机森林回归模型RFM,从TrainSet中提取样本并放入子集ModelTrainSet中,用于随机森林训练;
c、将所述RFM中所有叶子节点放到统一的叶子节点数组lnodes中,使用RFM对人员特征向量f进行回归,计算命中叶子节点的所有TrainSet样本的均值LNMEAN数组和标准差LNSTD数组;计算TrainSet全体的目标函数值的标准差和平均值,保存到GSTD和GMEAN中;
d、保存RFM、GMEAN、GSTD、LNSTD和LNMEAN;
(3)评估过程:
a、从存储介质加载训练过程得到的RFM、GMEAN、GSTD、LNSTD和LNMEAN;
b、用随机森林回归算法根据模型RFM预测被评估人员的目标函数YD值,获得命中的RFM叶子节点,计算被评估人员的YD和类似戒毒人员平均值的偏差是标准差的倍数LSS;
c、计算被评估人员的YD和整体平均值的偏差是标准差的倍数GSS,
其公式为GSS=(YD-GMEAN[m])/GSTD[m];
d、输出LSS和GSS,以及LSS和GSS指标随时间变化的趋势,作为被评价人员戒治效果指标YD的直观说明;
GSS>0表示被评价人员的戒治效果优于整体平均水平,GSS<0表示被评价人员的戒治效果比整体平均水平差;
当LSS>0,表示被评估人员当前的戒治效果优于类似戒毒人员平均值,
-1<LSS<1,表示被评估人员戒治效果和类似戒毒人员的平均值偏差在一个标准差之内,标注其戒治效果为“正常”,
LSS<-1表示戒毒人员戒治效果低于类似戒毒人员平均值超过一个标准差,标注其戒治效果为“差”,
LSS>1表示戒毒人员戒治效果高于类似戒毒人员平均值超过1个标准差,标注其戒治效果为“优”;
当LSS和GSS的评估结果不同时,以LSS的评估结果为标准。
进一步地,所述YD为连续实数类型;YD为累计奖罚分、月度奖罚分、考试成绩、医疗检验结果、康复训练成绩任一种。
进一步地,所述FD在整个戒毒过程内不会变化;FD为性别、年龄、吸食毒品种类、文化程度任一种。
进一步地,所述(2)训练模型中a所述TrainSet样本集合中的每一样本对应多维度戒毒数据中一个人员的数据,所述每个样本设置三个列,分别为month、label、features;其中,
YD的值作为label,从多维度戒毒数据中提取选中特征维度FD的数据构造features向量;month是戒毒人员戒毒时间,由多维度戒毒数据中提取,以月为单位。
进一步地,所述(2)训练模型中b所述从TrainSet中提取month等于mi的样本并放入子集ModelTrainSet中,用于随机森林训练,所述mi取中间值,mi=12;
将数据集ModelTrainSet训练随机森林分类模型RFM,在训练过程中,控制所述叶子节点的最小样本数>MNS,其中,10≤MNS<ModelTrainSet样本总数/叶子节点总数。
进一步地,所述(2)训练模型中c所述叶子节点数为lnsize,lnsize等于lnodes的长度;
使用RFM对人员特征向量f进行回归,得到向量f在k个决策树中命中的叶子节点下标元组lnis=(ln1,ln2,...lnk),其中lni为向量f在第i个决策树中命中的叶子节点在lnodes中的下标;
计算命中叶子节点的所有TrainSet样本的均值LNMEAN数组和标准差LNSTD数组,LNSTD和LNMEAN均为二维数组,其第一维均表示月份,长度为36,其第二维均表示节点,长度是节点数为lnsize;
其中,LNSTD[m][i]的值是命中第i个叶子节点的第m个月样本的label的标准差;LNMEAN[m][i]的值是命中第i个叶子节点的第m个月样本的label的平均值。
进一步地,具体计算方法:
①建立二维集合数组TSS,其第一维表示月份,长度为36,第二维表示节点,长度是节点数也就是lnsize;TSS的所有元素初始化为空集;
②列举TrainSet集合中每一个样本x,用随机森林回归算法预测x.features的预测值py,忽略py,取预测过程中命中的随机森林叶子节点在lnodes中的下标lnis=(ln1,ln2,...lnk),将样本x加入k个子集TSS[x.month][lni],其中i=1-k;
③列举TSS的每个元素TSS[m][j],TSS[m][j]是一个样本的子集,计算这个子集的元素label的均值和标准差,分别保存到LNMEAN[m][i]和LNSTD[m][i]中;
④建立一维集合数组GTSS,长度为36,所有元素初始化为空集,列举TrainSet集合中每一个样本x,将x加入子集GTSS[x.month];
⑤列举GTSS的每个元素GTSS[m],GTSS[m]是一个样本的子集,计算这个子集所有样本的label的均值和标准差,保存到数组GMEAN[m]和GSTD[m];所述GMEAN和GSTD是一维数组,下标表示月份,表示全局的均值和标准差。
进一步地,所述(3)评估过程中b使用上述TrainSet数据集样本features列相同的方法,提取被评估人员的特征向量f,用随机森林回归算法根据模型RFM预测f的YD属性值,忽略预测值,取得f向量命中RFM模型中的所有叶子节点的下标lnis=(ln1,ln2,...lnk);计算被评价人员的戒毒时间m,以月为单位。
进一步地,所述LSS的计算方法为:选择标准差最小的命中节点lnt,利用如下公式计算LSS,
LSS=(YD-LNMEAN[m][lnt])/LNSTD[m][lnt],其中,在LNSTD[m][lni]中,LNSTD[m][lnt]的值最小;
或取所有命中节点的平均值,利用如下公式计算LSS:
其中i=1-k。
本发明具有以下有益效果:
1.本发明的利用戒毒信息系统中和戒治效果直接相关的数据,从数据库中自动提取数据构造训练集,使用随机森林回归算法训练一个基于戒毒历史数据的强制戒毒人员戒治效果评估模型,得到的模型可以对戒毒人员进行定期的戒治效果评估,评估只需要从信息系统数据库中提取数据,无需加入额外的专家主观判断,简单易于操作,准确率高,输出指标易于理解和把握。
2.本发明建立完全基于数据的戒治效果评估模型,评估过程简单成本低,易于操作,评估结果易于理解;不一刀切,灵活性高,排除人为主观因素,以实现通过构造数据集重新训练方式随时更新模型,能够快速灵活适应环境的变化,可以适应各地域不同的制度、不同的技术设备带来的巨大差异,易于推广,适应性强,当制度变化,技术进步导致数据发生巨大变化之后,可以通过重新训练模型的方式快速适应变化;相对于基于决策树的评估方法,基于随机森林的评估方法精确度更高。
3.本发明通过计算LSS指标,以类似戒毒人员的平均值和标准差作为比较基准,考虑被评估人员的性别、文化程度的差异,评估结果更为合理,可以适应各地域不同的制度、不同的技术设备带来的巨大差异,尽管原始数据差别巨大,但评估结果LSS和GSS的取值范围一致,数值含义也类似,易于推广,适应性强。
附图说明
图1为本发明的训练过程的流程图。
图2为本发明的评估过程的流程图。
具体实施方式
下面通过实施例对本发明作进一步说明,但不作为是对本发明的限制。
实施例1
一种基于随机森林的戒毒人员戒治效果的评估方法,包含目标函数和特征的选择、训练模型和评估过程;其中,
(1)目标函数和特征选择:
在戒毒人员多维度戒毒数据中选择一个维度YD作为目标函数,所述YD为连续实数类型,且YD是与所述戒治效果直接相关的量化指标;所述YD为累计奖罚分、月度奖罚分、考试成绩、医疗检验结果、康复训练成绩任一种;
从戒毒人员多维度戒毒数据选择一组特征FD,所述FD为戒毒人员的静止属性,其在整个戒毒过程内不会变化;所述FD为性别、年龄、吸食毒品种类、文化程度任一种;
(2)训练模型:(图1为本发明的训练过程的流程图)
a、建立训练数据集TrainSet样本集合,其中的每一样本对应多维度戒毒数据中一个人员的数据,所述每个样本设置三个列,分别为month、label、features;其中,
YD的值作为label,使用常规的方法从多维度戒毒数据中提取选中特征维度FD的数据构造features向量;month是戒毒人员戒毒时间,由多维度戒毒数据中提取,以月为单位;
b、训练随机森林回归模型RFM
从TrainSet中提取,month等于mi的样本并放入子集ModelTrainSet中,用于随机森林训练,所述mi取中间值,mi=12;
将数据集ModelTrainSet训练随机森林分类模型RFM,在训练过程中,控制所述叶子节点的最小样本数>MNS,其中,10≤MNS<ModelTrainSet样本总数/叶子节点总数;
c、将所述RFM中所有叶子节点放到统一的叶子节点数组lnodes中,叶子节点数为lnsize,lnsize等于lnodes的长度;
使用RFM对人员特征向量f进行回归,得到向量f在k个决策树中命中的叶子节点下标元组lnis=(ln1,ln2,...lnk),其中lni为向量f在第i个决策树中命中的叶子节点在lnodes中的下标;所述进行回归计算时,使用中间结果lnis,忽略最终的预测值;
计算命中叶子节点的所有TrainSet样本的均值LNMEAN数组和标准差LNSTD数组,LNSTD和LNMEAN均为二维数组,其第一维均表示月份,长度为36,其第二维均表示节点,长度是节点数为lnsize;
其中,LNSTD[m][i]的值是命中第i个叶子节点(也就是lnodes的第i个元素)的第m个月样本的label的标准差;LNMEAN[m][i]的值是命中第i个叶子节点(也就是lnodes的第i个元素)的第m个月样本的label的平均值;
具体计算方法:
①建立二维集合数组TSS,其第一维表示月份,长度为36,第二维表示节点,长度是节点数也就是lnsize;TSS的所有元素初始化为空集;
②列举TrainSet集合中每一个样本x,用随机森林回归算法预测x.features的预测值py,忽略py,取预测过程中命中的随机森林叶子节点在lnodes中的下标lnis=(ln1,ln2,...lnk),将样本x加入k个子集TSS[x.month][lni],其中i=1-k;
③列举TSS的每个元素TSS[m][j],TSS[m][j]是一个样本的子集,计算这个子集的元素label的均值和标准差,分别保存到LNMEAN[m][i]和LNSTD[m][i]中;
④建立一维集合数组GTSS,长度为36,所有元素初始化为空集,列举TrainSet集合中每一个样本x,将x加入子集GTSS[x.month];
⑤列举GTSS的每个元素GTSS[m],GTSS[m]是一个样本的子集,计算这个子集所有样本的label的均值和标准差,保存到数组GMEAN[m]和GSTD[m];所述GMEAN和GSTD是一维数组,下标表示月份,表示全局的均值和标准差;
d、保存RFM、GMEAN、GSTD、LNSTD和LNMEAN;
(3)评估过程:(图2为本发明的评估过程的流程图)
a、从存储介质加载训练过程得到的RFM、GMEAN、GSTD、LNSTD和LNMEAN;
b、使用上述TrainSet数据集样本features列相同的方法,提取被评估人员的特征向量f,用随机森林回归算法根据模型RFM预测f的YD属性值,忽略预测值,取得f向量命中RFM模型中的所有叶子节点的下标lnis=(ln1,ln2,...lnk);计算被评价人员的戒毒时间m,以月为单位;计算被评估人员的YD和类似戒毒人员平均值的偏差是标准差的倍数LSS;
所述LSS的计算方法为:选择标准差最小的命中节点lnt,利用如下公式计算LSS,
LSS=(YD-LNMEAN[m][lnt])/LNSTD[m][lnt],其中,在LNSTD[m][lni](i=1-k)中,
LNSTD[m][lnt]的值最小;
或取所有命中节点的平均值,利用如下公式计算LSS:
c、计算被评估人员的YD和整体平均值的偏差是标准差的倍数GSS,
其公式为GSS=(YD-GMEAN[m])/GSTD[m];
d、输出LSS和GSS,以及LSS和GSS指标随时间变化的趋势,作为被评价人员戒治效果指标YD的直观说明;
GSS>0表示被评价人员的戒治效果优于整体平均水平,GSS<0表示被评价人员的戒治效果比整体平均水平差;
当LSS>0,表示被评估人员当前的戒治效果优于类似戒毒人员平均值,
-1<LSS<1,表示被评估人员戒治效果和类似戒毒人员的平均值偏差在一个标准差之内,标注其戒治效果为“正常”,
LSS<-1表示戒毒人员戒治效果低于类似戒毒人员平均值超过一个标准差,标注其戒治效果为“差”,
LSS>1表示戒毒人员戒治效果高于类似戒毒人员平均值超过1个标准差,标注其戒治效果为“优”;
当LSS和GSS的评估结果不同时,以LSS的评估结果为标准。
实施例2
按照本发明实施例1方法在某戒毒局进行测试,提取戒毒执法平台数据库中2016-09-01以来已经离所的13126名戒毒人员的基本信息、SCL90量表测试结果和计分考核等762个维度数据,经过数据清洗和删除错误及质量太低数据后,构造训练数据集TrainSet;选择累计奖罚分作为YD,mi取12,训练戒治效果评估模型,然后对6971名在册戒毒人员的戒治效果进行评估。
得到64836条评估结果(每个戒毒人员每个月计算得到一个评估结果),其中,92.2%的结果显示LSS和GSS评估情况一致;
其余7.8%的结果(涉及635人)的GSS得分低于全局平均值(即GSS<0),但是LSS>1,即戒治效果为“优”;
为了验证该7.8%的结果准确性,从中随机抽取20个结果,经专家人工评估,其中19个为优,1个为正常;即该区间中数据的LSS评估准确率为95%。
因此,本发明将LSS和GSS的结合考虑分析,综合进行评估,不仅提高了评估效率,确认了大部分数据的准确性,且精确度更高,使得约635名表面上得分不突出、但事实上表现良好的戒毒人员获得更公平的评价。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (9)
1.一种基于随机森林的戒毒人员戒治效果的评估方法,其特征在于,包含目标函数和特征的选择、训练模型和评估过程;其中,
(1)目标函数和特征选择:
在戒毒人员多维度戒毒数据中选择一个维度YD作为目标函数,所述YD是与所述戒治效果直接相关的量化指标;
从戒毒人员多维度戒毒数据选择一组特征FD,所述FD为戒毒人员的静止属性;
(2)训练模型:
a、建立训练数据集TrainSet样本集合,其中的每一样本对应多维度戒毒数据中一个人员的数据;
b、训练随机森林回归模型RFM,从TrainSet中提取样本并放入子集ModelTrainSet中,用于随机森林训练;
c、将所述RFM中所有叶子节点放到统一的叶子节点数组lnodes中,使用RFM对人员特征向量f进行回归,计算命中叶子节点的所有TrainSet样本的均值LNMEAN数组和标准差LNSTD数组;计算TrainSet全体的目标函数值的标准差和平均值,保存到GSTD和GMEAN中;
d、保存RFM、GMEAN、GSTD、LNSTD和LNMEAN;
(3)评估过程:
a、从存储介质加载训练过程得到的RFM、GMEAN、GSTD、LNSTD和LNMEAN;
b、用随机森林回归算法根据模型RFM预测被评估人员的目标函数YD值,获得命中的RFM叶子节点,计算被评估人员的YD和类似戒毒人员平均值的偏差是标准差的倍数LSS;
c、计算被评估人员的YD和整体平均值的偏差是标准差的倍数GSS ,
其公式为GSS=(YD-GMEAN[m])/GSTD[m];
d、输出LSS和GSS,以及LSS和GSS指标随时间变化的趋势,作为被评价人员戒治效果指标YD的直观说明;
GSS>0表示被评价人员的戒治效果优于整体平均水平,GSS<0表示被评价人员的戒治效果比整体平均水平差;
当LSS>0,表示被评估人员当前的戒治效果优于类似戒毒人员平均值,
-1<LSS<1,表示被评估人员戒治效果和类似戒毒人员的平均值偏差在一个标准差之内,标注其戒治效果为“正常”,
LSS<-1表示戒毒人员戒治效果低于类似戒毒人员平均值超过一个标准差,标注其戒治效果为“差”,
LSS>1表示戒毒人员戒治效果高于类似戒毒人员平均值超过1个标准差,标注其戒治效果为“优”;
当LSS和GSS的评估结果不同时,以LSS的评估结果为标准。
2.根据权利要求1所述基于随机森林的戒毒人员戒治效果的评估方法,其特征在于,所述YD为连续实数类型;YD为累计奖罚分、月度奖罚分、考试成绩、医疗检验结果、康复训练成绩任一种。
3.根据权利要求1所述基于随机森林的戒毒人员戒治效果的评估方法,其特征在于,所述FD在整个戒毒过程内不会变化;FD为性别、年龄、吸食毒品种类、文化程度任一种。
4.根据权利要求1所述基于随机森林的戒毒人员戒治效果的评估方法,其特征在于,所述(2)训练模型中a所述TrainSet样本集合中的每一样本对应多维度戒毒数据中一个人员的数据,所述每个样本设置三个列,分别为month、label、features;其中,
YD的值作为label,从多维度戒毒数据中提取选中特征维度FD的数据构造features向量;month是戒毒人员戒毒时间,由多维度戒毒数据中提取,以月为单位。
5.根据权利要求1所述基于随机森林的戒毒人员戒治效果的评估方法,其特征在于,所述(2)训练模型中b所述从TrainSet中提取month等于mi的样本并放入子集ModelTrainSet中,用于随机森林训练,所述mi取中间值, mi=12;
将数据集ModelTrainSet训练随机森林分类模型RFM,在训练过程中,控制所述叶子节点的最小样本数>MNS,其中,10≤MNS<ModelTrainSet样本总数/叶子节点总数。
6.根据权利要求1所述基于随机森林的戒毒人员戒治效果的评估方法,其特征在于,所述(2)训练模型中c所述叶子节点数为lnsize,lnsize等于lnodes的长度;
使用RFM对人员特征向量f进行回归,得到向量f在k个决策树中命中的叶子节点下标元组lnis=(ln1,ln2,...lnk),其中lni为向量f在第i个决策树中命中的叶子节点在lnodes中的下标;
计算命中叶子节点的所有TrainSet样本的均值LNMEAN数组和标准差LNSTD数组,LNSTD和LNMEAN均为二维数组,其第一维均表示月份,长度为36,其第二维均表示节点,长度是节点数为lnsize;
其中,LNSTD[m][i]的值是命中第i个叶子节点的第m个月样本的label的标准差;LNMEAN[m][i]的值是命中第i个叶子节点的第m个月样本的label的平均值。
7.根据权利要求6所述基于随机森林的戒毒人员戒治效果的评估方法,其特征在于,具体计算方法:
①建立二维集合数组TSS,其第一维表示月份,长度为36,第二维表示节点,长度是节点数也就是lnsize;TSS的所有元素初始化为空集;
②列举TrainSet集合中每一个样本x,用随机森林回归算法预测x.features的预测值py,忽略py,取预测过程中命中的随机森林叶子节点在lnodes中的下标lnis=(ln1,ln2,...lnk),将样本x加入k个子集TSS[x.month][lni],其中i=1-k;
③列举TSS的每个元素TSS[m][j],TSS[m][j]是一个样本的子集,计算这个子集的元素label的均值和标准差,分别保存到LNMEAN[m][i]和LNSTD[m][i]中;
④建立一维集合数组GTSS,长度为36,所有元素初始化为空集,列举TrainSet集合中每一个样本x,将x加入子集GTSS[x.month];
⑤列举GTSS的每个元素GTSS[m],GTSS[m]是一个样本的子集,计算这个子集所有样本的label的均值和标准差,保存到数组GMEAN[m]和GSTD[m];所述GMEAN和GSTD是一维数组,下标表示月份,表示全局的均值和标准差。
8.根据权利要求4所述基于随机森林的戒毒人员戒治效果的评估方法,其特征在于,所述(3)评估过程中b使用上述TrainSet数据集样本features列相同的方法,提取被评估人员的特征向量f,用随机森林回归算法根据模型RFM预测f的YD属性值,忽略预测值,取得f向量命中RFM模型中的所有叶子节点的下标lnis=(ln1,ln2,...lnk);计算被评价人员的戒毒时间m,以月为单位。
9.根据权利要求1所述基于随机森林的戒毒人员戒治效果的评估方法,其特征在于,所述LSS的计算方法为:选择标准差最小的命中节点lnt,利用如下公式计算LSS,
LSS=(YD-LNMEAN[m][lnt])/LNSTD[m][lnt],其中,在LNSTD[m][lni]中,LNSTD[m][lnt]的值最小;
或取所有命中节点的平均值,利用如下公式计算LSS:
;其中i=1-k。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110863567.1A CN113658680B (zh) | 2021-07-29 | 2021-07-29 | 基于随机森林的戒毒人员戒治效果的评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110863567.1A CN113658680B (zh) | 2021-07-29 | 2021-07-29 | 基于随机森林的戒毒人员戒治效果的评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113658680A CN113658680A (zh) | 2021-11-16 |
CN113658680B true CN113658680B (zh) | 2023-10-27 |
Family
ID=78490857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110863567.1A Active CN113658680B (zh) | 2021-07-29 | 2021-07-29 | 基于随机森林的戒毒人员戒治效果的评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113658680B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826852A (zh) * | 2019-09-27 | 2020-02-21 | 安徽四创电子股份有限公司 | 一种强制隔离戒毒人员风险评估方法及系统 |
AU2020100709A4 (en) * | 2020-05-05 | 2020-06-11 | Bao, Yuhang Mr | A method of prediction model based on random forest algorithm |
CN112598184A (zh) * | 2020-12-27 | 2021-04-02 | 上海达梦数据库有限公司 | 一种戒毒人员复吸风险预测的方法和装置 |
-
2021
- 2021-07-29 CN CN202110863567.1A patent/CN113658680B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826852A (zh) * | 2019-09-27 | 2020-02-21 | 安徽四创电子股份有限公司 | 一种强制隔离戒毒人员风险评估方法及系统 |
AU2020100709A4 (en) * | 2020-05-05 | 2020-06-11 | Bao, Yuhang Mr | A method of prediction model based on random forest algorithm |
CN112598184A (zh) * | 2020-12-27 | 2021-04-02 | 上海达梦数据库有限公司 | 一种戒毒人员复吸风险预测的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113658680A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109857835B (zh) | 一种基于认知诊断理论的自适应网络安全知识测评方法 | |
Hirzel et al. | Ecological‐niche factor analysis: how to compute habitat‐suitability maps without absence data? | |
Eid et al. | Models for individual tree mortality in Norway | |
CN106547871A (zh) | 基于神经网络的搜索结果的召回方法和装置 | |
CN109002492B (zh) | 一种基于LightGBM的绩点预测方法 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN109935337B (zh) | 一种基于相似性度量的病案查找方法及系统 | |
CN108804577B (zh) | 一种资讯标签兴趣度的预估方法 | |
CN108717548B (zh) | 一种面向传感器动态增加的行为识别模型更新方法及系统 | |
CN106776950A (zh) | 一种基于专家经验引导的现场鞋印痕迹花纹图像检索方法 | |
CN109615009A (zh) | 一种学习内容推荐方法及电子设备 | |
CN111612491B (zh) | 状态分析模型构建方法、分析方法及装置 | |
Anatya et al. | Fruit maturity classification using convolutional neural networks method | |
CN113658680B (zh) | 基于随机森林的戒毒人员戒治效果的评估方法 | |
CN107608938B (zh) | 基于增强回归树算法的面向二值分类的因子筛选方法 | |
CN113657726B (zh) | 基于随机森林的人员的危险性分析方法 | |
CN109344400A (zh) | 一种文献入库的判断方法和装置 | |
CN113257425A (zh) | 一种优化LSTM和LightGBM参数的流感预测系统、存储介质和装置 | |
CN116663972A (zh) | 基于特征选择的食品掺杂物权重可视分析方法 | |
CN109325099A (zh) | 一种自动检索的方法和装置 | |
CN111090742B (zh) | 一种问答对的评价方法、装置、存储介质及设备 | |
CN108170664A (zh) | 基于重点关键词的关键词拓展方法和装置 | |
CN114821324A (zh) | 一种基于选择性学习与回放的遥感图像农作物识别方法 | |
CN113658681A (zh) | 一种基于决策树的戒毒人员戒治效果评估方法 | |
CN112419113A (zh) | 一种打地基学习效果分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |