CN109934407A - 一种基于Logistic广义线性回归模型的志愿者工作意向预测方法 - Google Patents

一种基于Logistic广义线性回归模型的志愿者工作意向预测方法 Download PDF

Info

Publication number
CN109934407A
CN109934407A CN201910194108.1A CN201910194108A CN109934407A CN 109934407 A CN109934407 A CN 109934407A CN 201910194108 A CN201910194108 A CN 201910194108A CN 109934407 A CN109934407 A CN 109934407A
Authority
CN
China
Prior art keywords
logistic
regression model
volunteer
volunteers
poverty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910194108.1A
Other languages
English (en)
Inventor
顾雅婷
刘力燃
孟小亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910194108.1A priority Critical patent/CN109934407A/zh
Publication of CN109934407A publication Critical patent/CN109934407A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于Logistic广义线性回归模型的志愿者工作意向预测方法,包括以下步骤:S1、获取对志愿者参加健康扶贫志愿工作产生影响的多个影响因子;S2、对各个影响因子,选取Logistic似然函数进行回归模型模拟;S3、判断现有的影响因子与志愿者意愿的相关性,并剔除相关性较低的影响因子;获取数据集将其分为测试集和训练集;S4、求解出影响因子对应的参数方程式,同时利用熵权法求解不同影响因子的权重;S5、根据生成的二元Logistic回归模型对测试集进行效果评估。本发明能够对志愿者参与健康扶贫志愿工作的意愿程度进行预测,利用扶贫地点的扶贫改善数据,进一步促进志愿者对于扶贫的意愿,形成良性循环。

Description

一种基于Logistic广义线性回归模型的志愿者工作意向预测 方法
技术领域
本发明涉及数据分析领域,尤其涉及一种基于Logistic广义线性回归模型的志愿者工作意向预测方法。
背景技术
志愿者的工作意向是指,通过已有的扶贫地的相关数据,通过分析当地的经济、政治、文化等因素,利用已有的数据建立模型,推测出志愿者工作意愿的预测模型。
目前的志愿者意愿模型受到的影响因素有:当地的经济发展水平,志愿者距离扶贫地点的远近,当地的交通方便水平。但是因为数据的缺失等原因,该模型仍然有许多不足:
(1)数据缺失,模型的建立困难;
(2)志愿者意愿通常较为主观,抽象的主观感想抽象成数学模型仍然有许多困难;
(3)建立回归模型时,设置相关系数的阈值选择问题;
(4)不同指标的权重判断选择。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于Logistic广义线性回归模型的志愿者工作意向预测方法。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于Logistic广义线性回归模型的志愿者工作意向预测方法,该方法包括以下步骤:
S1、获取对志愿者参加健康扶贫志愿工作产生影响的多个影响因子;
S2、对各个影响因子,选取Logistic似然函数进行回归模型模拟;
S3、判断现有的影响因子与志愿者意愿的相关性,设置阈值,若相关性大于或等于阈值,则说明该影响因子具有强相关性,将影响因子筛选未有用指标;若相关性小于阈值,则剔除该影响因子;获取一定数量的观测值作为数据集,将其分为测试集和训练集;
S4、对训练集进行二元Logistic回归,得到二元Logistic回归模型,求解出影响因子对应的参数方程式,同时利用熵权法求解不同影响因子的权重;
S5、根据生成的二元Logistic回归模型对测试集进行效果评估;并通过二元Logistic回归模型以及不同影响因子的权重,对志愿者参加健康扶贫志愿工作的意向进行预测。
进一步地,本发明的步骤S1中选取的影响因子包括:性别,年龄,文化程度,政治面貌,收入程度,对扶贫志愿工作的参与程度,对健康扶贫志愿者的态度,扶贫地点的交通发达程度,当地政府的扶贫支持力度,婚恋情况。
进一步地,本发明的步骤S2中的Logistic似然函数的基本形式为:
其中,P0为初始值,K为终值,r衡量曲线变化快慢;
影响因子的方程式为:
Y=F(X1,X2,X3,X4,X5,X6,X7,X8,X9,X10)+μ
其中,μ是残差项,因变量Y是二分变量,取值为0和1,即意愿参与取1,非意愿参与取0;影响是否愿意健康扶贫志愿参与的因素为X1,X2,...XK,K=10,与因变量Y相关的自变量假设有n组,即Xi1,Xi2,...XiK,i=1,2,3...,n,于是Y1,Y2,...Yi的Logistic似然函数为:
进一步地,本发明的步骤S3中对数据集进行划分时,选取75%的数据作为训练集,其余数据作为测试集。
进一步地,本发明的步骤S4中采用的熵权法求解不同影响因子的权重的方法具体为:
S41、对各个影响因子的数据做标准化处理,假设给定了K个影响因子X1,X2,...XK,其中Xi={x1,x2,...xn},假设对各影响因子数据标准化后的值为Y1,Y2,...YK,则:
S42、求各影响因子的信息熵,一组数据的信息熵为:
其中,pij=0,则定义
S43、确定各指标权重,根据信息熵的计算公式,计算出各个影响因子的信息熵为E1,E2,...EK,通过信息熵计算各影响因子的权重:
本发明产生的有益效果是:本发明的基于Logistic广义线性回归模型的志愿者工作意向预测方法,通过已经获得的志愿者意愿分析模型和影响该模型的影响因素,对于想要进行扶贫的志愿者进行相应的数据采集后,可以对志愿者进行相应的扶贫地点推荐。同时,将该数据采集给对应的扶贫地点,使志愿者和扶贫地点能够双向满足,提高扶贫的效率。同时,利用扶贫地点的扶贫改善的数据,进一步促进志愿者对于扶贫的意愿,形成良性循环。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例的基于Logistic广义线性回归方程构建模型,并用熵权法确定不同指标的权重。
利用往年的已经存在的数据和网络问卷调查分析志愿者的意愿和受到的影响因素并预测模型;利用武汉大学团委和问卷调查提供的大学生扶贫寒暑假实践队和社会人士参与扶贫的相关数据,通过分析扶贫地点的因素:如当地扶贫地点的乡镇人口,当地经济发展水平,居民人均发展水平,乡镇的区位条件,乡镇的交通通行状况;同样分析的还有志愿者本人的意愿因素:进行扶贫的目的,志愿者本人的社会经济地位和收入情况,志愿者的受教育程度,志愿者本人对扶贫的态度,曾经做过志愿者的次数,政治面貌等因素,将抽象意愿的模型数理化。
判断现有的因素与志愿者意愿的相关性,可以设置一个阈值,若高于该阈值,则说明强相关性,该指标可以被筛选为有用指标,若不能,则剔除。
如图1所示,本发明实施例的具体步骤为:
step1:对于分析志愿者是否愿意进行健康扶贫志愿工作,首先选取对于健康扶贫工作的影响因子。这其中,需要考虑的模型指标如表1所示。同时,可以利用KM曲线得出指标和志愿者意愿的大致相关性关系,是正相关还是负相关。
表1 Logistic模型指标变量说明
方程式为:
Y=F(X1,X2,X3,X4,X5,X6,X7,X8,X9,X10)+μ (1)
step2:此时选取Logistic似然函数进行回归模型模拟:
Logistic似然函数模型,简称逻辑回归模型。该模型的基本形式为:
其中P0为初始值,K为终值,r衡量曲线变化快慢。
公式(1)中,μ是残差项。因变量Y是二分变量,取值为0和1,即意愿参与取1,非意愿参与取0。影响是否愿意健康扶贫志愿参与的因素为X1,X2,...XK,与因变量Y相关的自变量假设有n组,即Xi1,Xi2,...XiK(i=1,2,3...,n)。于是Y1,Y2,...Yi的Logistic似然函数为:
对以上的似然函数取自然对数得:
最大似然估计选取β0,β1,...βk估计值,使结果最大,运用SPSS软件对二元Logistic回归分析运算,方程因参数估计的更改范围小于0.001。
step3:判断现有的因素与志愿者意愿的相关性,可以设置一个阈值,若高于该阈值,则说明强相关性,该指标可以被筛选为有用指标,若不能,则剔除。对所述数据集中的观测值按75%比例随机分成测试集和训练集;
step4:对所述训练集进行二元Logistic回归,得到二元Logistic回归模型,求解出参数方程式,同时利用熵权法求解不同参数的权重。熵权法的步骤为:
(1)对各个指标的数据做标准化处理,假设给定了K个指标X1,X2,...XK,其中Xi={x1,x2,...xn}。假设对各指标数据标准化后的值为Y1,Y2,...YK,那么
(2)求各指标的信息熵,根据信息论中信息熵的定义,一组数据的信息熵其中其中pij=0,则定义
(3)确定各指标权重:
根据信息熵的计算公式,计算出各个指标的信息熵为E1,E2,...EK。通过信息熵计算各指标的权重:
step5:用所生成的二元Logistic回归模型对所述测试集进行效果评估。较佳的,所述的Logistic回归模型形式为:其中对应的因素见表1。其中,Ln(M)表示志愿者的意愿度函数;X1,X2,...XK表示影响因素变量;β0,β1,...βk表示回归系数。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (5)

1.一种基于Logistic广义线性回归模型的志愿者工作意向预测方法,其特征在于,该方法包括以下步骤:
S1、获取对志愿者参加健康扶贫志愿工作产生影响的多个影响因子;
S2、对各个影响因子,选取Logistic似然函数进行回归模型模拟;
S3、判断现有的影响因子与志愿者意愿的相关性,设置阈值,若相关性大于或等于阈值,则说明该影响因子具有强相关性,将影响因子筛选未有用指标;若相关性小于阈值,则剔除该影响因子;获取一定数量的观测值作为数据集,将其分为测试集和训练集;
S4、对训练集进行二元Logistic回归,得到二元Logistic回归模型,求解出影响因子对应的参数方程式,同时利用熵权法求解不同影响因子的权重;
S5、根据生成的二元Logistic回归模型对测试集进行效果评估;并通过二元Logistic回归模型以及不同影响因子的权重,对志愿者参加健康扶贫志愿工作的意向进行预测。
2.根据权利要求1所述的基于Logistic广义线性回归模型的志愿者工作意向预测方法,其特征在于,步骤S1中选取的影响因子包括:性别,年龄,文化程度,政治面貌,收入程度,对扶贫志愿工作的参与程度,对健康扶贫志愿者的态度,扶贫地点的交通发达程度,当地政府的扶贫支持力度,婚恋情况。
3.根据权利要求2所述的基于Logistic广义线性回归模型的志愿者工作意向预测方法,其特征在于,步骤S2中的Logistic似然函数的基本形式为:
其中,P0为初始值,K为终值,r衡量曲线变化快慢;
影响因子的方程式为:
Y=F(X1,X2,X3,X4,X5,X6,X7,X8,X9,X10)+μ
其中,μ是残差项,因变量Y是二分变量,取值为0和1,即意愿参与取1,非意愿参与取0;影响是否愿意健康扶贫志愿参与的因素为X1,X2,...XK,K=10,与因变量Y相关的自变量假设有n组,即Xi1,Xi2,...XiK,i=1,2,3...,n,于是Y1,Y2,...Yi的Logistic似然函数为:
4.根据权利要求1所述的基于Logistic广义线性回归模型的志愿者工作意向预测方法,其特征在于,步骤S3中对数据集进行划分时,选取75%的数据作为训练集,其余数据作为测试集。
5.根据权利要求3所述的基于Logistic广义线性回归模型的志愿者工作意向预测方法,其特征在于,步骤S4中采用的熵权法求解不同影响因子的权重的方法具体为:
S41、对各个影响因子的数据做标准化处理,假设给定了K个影响因子X1,X2,...XK,其中Xi={x1,x2,...xn},假设对各影响因子数据标准化后的值为Y1,Y2,...YK,则:
S42、求各影响因子的信息熵,一组数据的信息熵为:
其中,pij=0,则定义
S43、确定各指标权重,根据信息熵的计算公式,计算出各个影响因子的信息熵为E1,E2,...EK,通过信息熵计算各影响因子的权重:
CN201910194108.1A 2019-03-14 2019-03-14 一种基于Logistic广义线性回归模型的志愿者工作意向预测方法 Pending CN109934407A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910194108.1A CN109934407A (zh) 2019-03-14 2019-03-14 一种基于Logistic广义线性回归模型的志愿者工作意向预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910194108.1A CN109934407A (zh) 2019-03-14 2019-03-14 一种基于Logistic广义线性回归模型的志愿者工作意向预测方法

Publications (1)

Publication Number Publication Date
CN109934407A true CN109934407A (zh) 2019-06-25

Family

ID=66986915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910194108.1A Pending CN109934407A (zh) 2019-03-14 2019-03-14 一种基于Logistic广义线性回归模型的志愿者工作意向预测方法

Country Status (1)

Country Link
CN (1) CN109934407A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826928A (zh) * 2019-11-12 2020-02-21 山东怡之家智能科技有限公司 一种基于大数据的erp库存优化分析方法及系统
CN116501979A (zh) * 2023-06-30 2023-07-28 北京水滴科技集团有限公司 信息推荐方法、装置、计算机设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826928A (zh) * 2019-11-12 2020-02-21 山东怡之家智能科技有限公司 一种基于大数据的erp库存优化分析方法及系统
CN116501979A (zh) * 2023-06-30 2023-07-28 北京水滴科技集团有限公司 信息推荐方法、装置、计算机设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108182489B (zh) 一种基于在线学习行为分析的个性化学习推荐方法
Daraio et al. Rankings and university performance: A conditional multidimensional approach
CN106817251B (zh) 一种基于节点相似度的链路预测方法及装置
CN106022508A (zh) 预测线上理财平台的用户邀请好友行为的方法和装置
CN107507016A (zh) 一种消息推送方法和系统
CN101076799A (zh) 调查候选人的即时选择
CN109934407A (zh) 一种基于Logistic广义线性回归模型的志愿者工作意向预测方法
CN113435713B (zh) 基于gis技术和两模型融合的风险地图编制方法及系统
Gil Lafuente et al. Gender equality index of the autonomous communities of Spain: A multidimensional analysis
CN105389646A (zh) 基于灰色白化函数变权聚类法的评估方法
Barra et al. Managerial efficiency in higher education using individual versus aggregate level data. Does the choice of decision making units count?
CN113516229A (zh) 面向群智感知系统的可信用户优化选择方法
Leiwakabessy et al. A Modified Human Development Index, Democracy and Economic Growth in Indonesia
Ruocco et al. An empirical approach to compare the performance of heterogeneous academic fields
CN111126812A (zh) 综合学习能力监测方法、装置、电子设备和存储介质
Schweinberger et al. Foundations of finite-, super-, and infinite-population random graph inference
Ruby et al. A study model on the impact of various indicators in the performance of students in higher education
CN114048977A (zh) 一种工程师分级方法、装置及终端设备
Sanko Temporal transferability: trade-off between data newness and the number of observations for forecasting travel demand
Amalia et al. The Influence of Women's Development and Empowerment on Inclusive Economic Growth
Brasili et al. Mapping citizens' identification with the EU
Guo et al. A study on the identification of entrepreneurial success or failure through machine learning algorithms.
Büyükatak et al. An investigation of data mining classification methods in classifying students according to 2018 PISA reading scores
Hatta et al. Comparison of two methods between TOPSIS and MAUT in determining BIDIKMISI scholarship
Kang Construction of Selection and Evaluation Algorithm for High‐Level Tennis Students in Colleges and Universities Based on Random Matrix Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190625