CN109409757A - 一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法 - Google Patents
一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法 Download PDFInfo
- Publication number
- CN109409757A CN109409757A CN201811299087.1A CN201811299087A CN109409757A CN 109409757 A CN109409757 A CN 109409757A CN 201811299087 A CN201811299087 A CN 201811299087A CN 109409757 A CN109409757 A CN 109409757A
- Authority
- CN
- China
- Prior art keywords
- school
- children
- curve
- degree
- age
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 19
- 230000000366 juvenile effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000013508 migration Methods 0.000 abstract description 2
- 230000005012 migration Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
- G06Q50/2053—Education institution selection, admissions, or financial aid
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Educational Technology (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Pure & Applied Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Optimization (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Algebra (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,包括基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,最终根据公式“学位需求=适龄儿童数量+流入适龄儿童数量‑流出适龄儿童数量”,建立以年为单位的学位压力评估模型,对城区内的学位压力进行评估;考虑了城区人口迁移对于教育资源需求量的影响,辅助政府部门以及学校管理者提前做出应对,从而按照需要优化城市的教育资源布局,提升整体教育水平。
Description
技术领域
本发明属于城市教育资源管理技术领域,特别是涉及一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法。
背景技术
目前城市生活中,特别是中小学生对于学位需求的预测主要是基于城区适龄人口的静态数据得到。此种方法的问题是忽略了城区人口流动因素,特别在对中长期的学位需求预测时,采用静态人口数据会导致预测结果与现实存在较大偏差。
其中现有计算方法技术包括朴素贝叶斯算法和曲线拟合建模,但是都不能解决上述问题。
1.朴素贝叶斯算法:
贝叶斯定理是统计学中通过事件集中的先验概率对后验概率评估的一个算法,其具体形式为:对于随机事件A和B有,在B发生的情况下A发生的可能性P(A|B)为随机事件的条件概率满足如下公式:
贝叶斯算法是应用贝叶斯定理对,它是一类利用概率统计知识对事件进行分类的算法。该算法被广泛运用到大型数据的预测中,但适用于具有多维度的事件发生可能性的准确评估。
2.曲线拟合建模:
曲线拟合(curve fitting)是指选择适当的曲线类型来拟合观测数据,并用拟合的曲线方程分析两变量间的关系。在确定拟合参数时采用最小二乘法,最小二乘法是一种数学优化技术,通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。本方法只适合用于建模预测一些根据事件连续变化的数值关系。
考虑到以上两种预测方法不能单独完整的解决适龄人口的静态数据问题,有必要建立一套动态的学位需求预测模型,综合考虑城区内与学位压力相关的各项指标,据此评估城区内学位压力随时间演化的情况,以帮助教育部门合理分配教育资源与有计划扩充教育设施。
发明内容
本发明提供一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,综合考虑城区内与学位压力相关的各项指标,据此评估城区内学位压力随时间演化的情况,以帮助教育部门合理分配教育资源与有计划扩充教育设施。
本发明采用的技术方案是:包括基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,最终根据公式“学位需求=适龄儿童数量+流入适龄儿童数量-流出适龄儿童数量”,建立以年为单位的学位压力评估模型,对城区内的学位压力进行评估;
本发明提供的一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,包括以下步骤:
S10:探索所述学位压力相关数据方法:
探索区域内与就学情况相关的信息,通过各相关委办局业务数据包括学生信息、房屋出租信息或房地产户主信息等,获取相应数据字段,为未来模型的构建提供数据支撑;
S20:评估适龄儿童数量方法为:
通过儿童年龄(身份证号)以及该地区平均入学年龄的统计结果,获取未来1-5年内到达入学年龄的儿童人数;
S30:构建学龄儿童流出模型方法,选取样本中共m个适龄儿童数据作为训练样本,基于朴素贝叶斯算法构建相应模型,具体步骤如下:
S31.对数据字段中的连续性指标进行分箱;
S32.将如家庭年收入、房屋租赁年数等连续指标进行分箱,离散为若干条件指标;
S33.最终获得包含n项条件的布尔类型指标集合,记为X=[X1,X2,...Xn]。对其数据中任意样本i,其特征表达为X(i)=[a1(i),a2(i),...an(i)],其中a(i)取值为真或假;
S34.计算训练样本中流出儿童先验概率;
对于儿童流出的黑白样本的先验概率有:
P(Y=流出)+P(Y=未流出)=1
其中Y代表个体的流出情况,有流出与未流出两种情况。
S35.计算的流出概率:
计算i样本的流出概率为:
其中P(Xj(i)=aj(i)|Y=流出)表示训练数据的所有流出样本中,第j项指标等于aj(i)的概率;P(Xj(i)=aj(i))表示训练数据的所有训练样本中,第j项指标等于aj(i)的概率;
S36.当出现训练数据中同类样本量为0的情况下,采用拉普拉斯平滑:即在计算先验概率时,出现本类型的样本量设定为1(原本为0),分母数值加2(由于归类指标只存在“流出/未流出”两种情况,特征可能值为2)。
S37.最终计算结果中,若出现P(Y=流出)≥P(Y=未流出),则认为该儿童会发生学位流出情况,反之则不会。
S38.检验条件指标集:
采用验证样本特征带入通过训练数据,获得的适龄儿童流出概率,检验模型准确度,根据验证结果调整模型中的条件指标;
S39.计算学位流出数量;
S391.计算未来一段时间内的学位流入情况;
S40:构建学龄儿童流入模型,相比于城区内流出儿童的相关数据比较容易获取,城区流入儿童的相关信息维度较多且难以掌握,故在本发明中采用曲线估计法构建城区流入儿童数量-时间的数值模型,具体步骤如下:
S41.选择拟合曲线;
首先根据实际问题本身特点,用时间作为x轴参数,实际流入学位数量作为y轴参数,选择常见的曲线模型,包括但不限于:二次曲线(Quadratic)、复合曲线(Compound)、增长曲线(Growth)、对数曲线(Logarithmic)、三次曲线(Cubic)、S曲线(S)、指数曲线(Exponential)、逆函数(Inverse)、幂函数(Power)、逻辑函数(Logistic);
S42.曲线参数拟合;
运用最小二乘法求解完成每一种曲线模型的参数估计,并显示R方、F检验值、相伴概率值以及模型的相关系数等统计量,然后对参数估计的相关统计量进行检验,看其是否通过显著性检验,最终,选择R方统计量值最大的模型作为首选的曲线模型;
S43.计算学龄儿童流入的学位流入数量
将时间带入拟合曲线中,计算未来一段时间内的学位流入情况;
S50:计算学位需求数量
根据所述步骤S20、S30、S40所获取的结果,计算以下公式:
“学位需求=适龄儿童数量+流入适龄儿童数量-流出适龄儿童数量”
计算得出未来几年内的学位需求情况。
进一步方案为,所述步骤S10中的字段信息包括:是否为流出适龄儿童、儿童身份证号码、儿童性别、儿童是否本地户口、家庭本地是否有房、家庭是否租赁本地房屋、家庭租赁房屋年数、家庭年收入、父亲是否本地户口、母亲是否本地户口、父母是否海归、是否独生子女,同时获取该区域过去几年的适龄儿童流入情况。
进一步方案为,所述步骤34中的流出适龄儿童黑样本为:年龄为6-8岁儿童,在5岁以前居住在区内,且现在未在区内上学;流出适龄儿童白样本为;年龄为6-8岁的本区户口儿童,且在区内就学。
进一步方案为,所述基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,是通过记载有城区年龄-人口分布以及城区内学龄儿童的家庭信息建立的。
本发明提供的技术方案带来的有益效果是:基于城区年龄-人口分布以及城区内学龄儿童的家庭信息,分别建立基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,最终根据公式“学位需求=适龄儿童数量+流入适龄儿童数量-流出适龄儿童数量”,基于曲线估计法建模的城区学龄儿童流入评估方法,以及根据此模型分析得到城区学位需求评估方法,建立以年为单位的学位压力评估模型,考虑到了学龄人口的流动性,适用于不同区域划分级别的学去压力评估,对城区内的学位压力进行准确评估。
附图说明:
图1为本发明工作流程示意图;
图2为本发明教育预警学位数据来源示意图;
图3本发明学位流入数量示意图;
图4为本发明区内学位缺口前十统计示意图。
具体实施方式
为了更充分理解本发明的技术内容,下面结合附图和具体实施例对本发明的技术方案进一步介绍和说明,但不局限于此。
参见图1至图4所示,一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,包括基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,最终根据公式“学位需求=适龄儿童数量+流入适龄儿童数量-流出适龄儿童数量”,建立以年为单位的学位压力评估模型,对城区内的学位压力进行评估;
本发明提供的一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,包括以下步骤:
S10:探索所述学位压力相关数据方法:
探索区域内与就学情况相关的信息,通过各相关委办局业务数据包括学生信息、房屋出租信息或房地产户主信息,获取相应数据字段,为未来模型的构建提供数据支撑;
S20:评估适龄儿童数量方法为:
通过儿童年龄(身份证号)以及该地区平均入学年龄的统计结果,获取未来1-5年内到达入学年龄的儿童人数;
S30:构建学龄儿童流出模型方法,选取样本中共m个适龄儿童数据作为训练样本,基于朴素贝叶斯算法构建相应模型,具体步骤如下:
S31.对数据字段中的连续性指标进行分箱;
S32.将如家庭年收入、房屋租赁年数等连续指标进行分箱,离散为若干条件指标;
S33.最终获得包含n项条件的布尔类型指标集合,记为X=[X1,X2,...Xn]。对其数据中任意样本i,其特征表达为X(i)=[a1(i),a2(i),...an(i)],其中a(i)取值为真或假;
S34.计算训练样本中流出儿童先验概率;
对于儿童流出的黑白样本的先验概率有:
P(Y=流出)+P(Y=未流出)=1
其中Y代表个体的流出情况,有流出与未流出两种情况。
S35.计算的流出概率:
计算i样本的流出概率为:
其中P(Xj(i)=aj(i)|Y=流出)表示训练数据的所有流出样本中,第j项指标等于aj(i)的概率;P(Xj(i)=aj(i))表示训练数据的所有训练样本中,第j项指标等于aj(i)的概率;
S36.当出现训练数据中同类样本量为0的情况下,采用拉普拉斯平滑:即在计算先验概率时,出现本类型的样本量设定为1(原本为0),分母数值加2(由于归类指标只存在“流出/未流出”两种情况,特征可能值为2)。
S37.最终计算结果中,若出现P(Y=流出)≥P(Y=未流出),则认为该儿童会发生学位流出情况,反之则不会。
S38.检验条件指标集:
采用验证样本特征带入通过训练数据,获得的适龄儿童流出概率,检验模型准确度,根据验证结果调整模型中的条件指标;
S39.计算学位流出数量;
S391.计算未来一段时间内的学位流入情况;
S40:构建学龄儿童流入模型,相比于城区内流出儿童的相关数据比较容易获取,城区流入儿童的相关信息维度较多且难以掌握,故在本发明中采用曲线估计法构建城区流入儿童数量-时间的数值模型,具体步骤如下:
S41.选择拟合曲线
首先根据实际问题本身特点,用时间作为x轴参数,实际流入学位数量作为y轴参数,选择常见的曲线模型,包括但不限于:二次曲线(Quadratic)、复合曲线(Compound)、增长曲线(Growth)、对数曲线(Logarithmic)、三次曲线(Cubic)、S曲线(S)、指数曲线(Exponential)、逆函数(Inverse)、幂函数(Power)、逻辑函数(Logistic);
S42.曲线参数拟合
运用最小二乘法求解完成每一种曲线模型的参数估计,并显示R方、F检验值、相伴概率值以及模型的相关系数等统计量,然后对参数估计的相关统计量进行检验,看其是否通过显著性检验,最终,选择R方统计量值最大的模型作为首选的曲线模型;
S43.计算学龄儿童流入的学位流入数量
将时间带入拟合曲线中,计算未来一段时间内的学位流入情况;
S50:计算学位需求数量
根据所述步骤S20、S30、S40所获取的结果,计算以下公式:
“学位需求=适龄儿童数量+流入适龄儿童数量-流出适龄儿童数量”
计算得出未来几年内的学位需求情况。
进一步地,步骤S10中的字段信息包括:是否为流出适龄儿童、儿童身份证号码、儿童性别、儿童是否本地户口、家庭本地是否有房、家庭是否租赁本地房屋、家庭租赁房屋年数、家庭年收入、父亲是否本地户口、母亲是否本地户口、父母是否海归、是否独生子女,同时获取该区域过去几年的适龄儿童流入情况。
进一步地,步骤34中的流出适龄儿童黑样本为:年龄为6-8岁儿童,在5岁以前居住在区内,且现在未在区内上学;流出适龄儿童白样本为;年龄为6-8岁的本区户口儿童,且在区内就学。
进一步地,基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,是通过记载有城区年龄-人口分布以及城区内学龄儿童的家庭信息建立的。
具体实施例如下:一种基于朴素贝叶斯算法与曲线建模的城区学位需求评估方法,以某区及其涵盖的63个学区(小学)为例:
步骤S10:探索学位压力相关数据
通过区公安户籍数据、卫计局提供的人口出生数据、教育局提供的学生信息、房屋出租办提供的流动人口信息、区住建局提供的房屋出租信息以及区房产局所提供户主信息,获取涵盖内1~12岁儿童数据共179624条(0~1岁儿童信息完整度较差,不予参考)。如图2所示,为教育预警学位具体数据来源情况。
数据字段内容包括:儿童身份证号信息、儿童性别信息、儿童户籍所在地、家庭房产情况、家庭房屋租赁情况、家庭年收入、父母亲户籍所在地、父母海归情况、家庭子女数量、学龄儿童学位是否发生流出;
统计以及过去5年内学龄儿童学位流入数量。为下一步的模型构建提供数据支撑。
步骤S20:评估适龄儿童数量
根据步骤1所获取的儿童入学信息与儿童身份证号(年龄信息),统计得出该区内平均入学年龄为6.3周岁;通过儿童身份证号信息计算得出未来一至五年的本区入学适龄儿童数量分别为:18058、15990、16124、16490、19360。
步骤S30:构建学龄儿童流出模型
根据步骤1所获取的城区就学儿童信息,选取样本中6~8岁的儿童数据字段共计43646条用于构建学龄儿童流出模型,选择其中42646条作为训练样本,1000条用于检测模型准确度。具体步骤为:
对数据字段中的连续性指标进行分箱
对家庭年收入、房屋租赁年数等连续指标进行分箱后,获得共10项描述儿童情况的布尔指标,具体包括:儿童是否为男性、儿童是否独生子女、儿童是否本地户口、家庭本地是否有房、家庭是否租赁本地房屋、家庭租赁房屋是否大于3年、家庭年收入是否大于20万、父亲是否本地户口、母亲是否本地户口、父母中一人是否为海归,模型的分类目的是将目标儿童归类为会发生学位流出儿童或不会发生学位流出儿童。
在训练样本中,共存在2342项外迁儿童记录,儿童流出概率为:
根据样本计算各指标的条件概率,如下
表一、该区样本中各指标的条件概率
以某一样本儿童情况为:男性、本区户口、家庭本区无房产、家庭租赁本地房屋、租赁时间不大于3年、家庭年收入大于20万、父亲非本地户口、母亲非本地户口、父母为海归。其学位流出概率为:
判断此样本会发生学位流失。
检验条件指标集:
采用1000条检验样本对所构建模型进行检验,预测准确率达到98.6%。满足使用需求。
计算学位流出数量
计算未来五年,适龄儿童流出数量分别为:895例、899例、891例、1231例、1089例。
步骤S40:构建学龄儿童流入模型
根据步骤1所获取的过去五年区内儿童学位流入数量,如图3所示:
选择拟合曲线
根据如图所示每年学位流入逐年增加的特点,我们选择了线性曲线,对数曲线,幂指数曲线等三种曲线,对“年份-学位流入”曲线进行拟合。
曲线参数拟合
运用最小二乘法求解完成每一种曲线模型的参数进行估计,结果如下表:
表2:选取曲线与对应R2值
曲线类型 | R<sup>2</sup> |
线性曲线 | 0.9109 |
对数曲线 | 0.9527 |
指数曲线 | 0.9459 |
根据R方结果,最终选择对数曲线对学位流入情况将隐形拟合。
学位流入数量计算
根据拟合结果,选取二次曲线对未来学位流入数量进行拟合,计算2018至2022年该区学位流入数量进行模拟计算(结果四舍五入)计算未来五年学位流入数量依次为:6059例、6589例、7048例、7453例、7815例。
步骤S50:计算学位需求数量
基于步骤2、3、4所获取的结果,根据以下公式:
“学位需求=适龄儿童数量+流入适龄儿童数量-流出适龄儿童数量”得到相应的2018年到2022年的学位需求如下表:
表3学位需求量
时间 | 学位需求量 |
2018 | 23222 |
2019 | 21680 |
2020 | 22281 |
2021 | 22712 |
2022 | 26086 |
结果分析:根据得到的结果发现2022年学位压力最高,因为这一年是二胎放开+猴宝宝入学小一的时间点,有此对于学区内整体的教育规划进行分配。
采用本方法对对该区内63个小学学区分别记性学位压力进行评估分析,得到更为具体区域学位压力,考虑到每个学区学校现状可接收入学情况,学位缺口前十的学校,如图4所示。
根据分析结果,相关机构可以对学区的具体规划以及具体每个小学的资源分配进行调整:1.增加高压力学区的资源投入;2.设计引导儿童前往学位压力较小的学区入学。最终达到以更有效率的分配有限的教育资源的目的。
本发明优点如下:
1.本发明提出一种基于朴素贝叶斯算法与曲线建模的城区学位需求评估方法,分析预测未来几年内城区需要入学的儿童数量,帮助动态了解城区内教育资源的需求情况。
2.本发明考虑了城区人口迁移对于教育资源需求量的影响,辅助政府部门以及学校管理者提前做出应对,从而按照需要优化城市的教育资源布局,提升整体教育水平。
3.人口数据是复杂系统的客观真实的反映,它包涵着系统与时间相关的行为本质规律,本发明涉及一种基于朴素贝叶斯算法与曲线建模的城区学位需求评估方法,基于大量的历史数据对城区学位需求进行建模及分析,这是一种对大数据系统应用的有效运用,可以用来帮助更深的理解教育资源需求这一复杂系统的运行规律。
以上所述仅为本专利优选实施方式,并非限制本专利范围,凡是利用说明书及附图内容所作的等效结构或等效流程变换,直接或间接运用在其它相关的技术领域,均属于本专利保护范围。
Claims (4)
1.一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,其特征在于:包括基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,最终根据公式“学位需求=适龄儿童数量+流入适龄儿童数量-流出适龄儿童数量”,建立以年为单位的学位压力评估模型,对城区内的学位压力进行评估;
本发明提供的一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,包括以下步骤:
S10:探索所述学位压力相关数据方法:
探索区域内与就学情况相关的信息,通过各相关委办局业务数据包括学生信息、房屋出租信息或房地产户主信息,获取相应数据字段,为未来模型的构建提供数据支撑;
S20:评估适龄儿童数量方法为:
通过儿童年龄(身份证号)以及该地区平均入学年龄的统计结果,获取未来1-5年内到达入学年龄的儿童人数;
S30:构建学龄儿童流出模型方法,选取样本中共m个适龄儿童数据作为训练样本,基于朴素贝叶斯算法构建相应模型,具体步骤如下:
S31.对数据字段中的连续性指标进行分箱;
S32.将如家庭年收入、房屋租赁年数等连续指标进行分箱,离散为若干条件指标;
S33.最终获得包含n项条件的布尔类型指标集合,记为X=[X1,X2,...Xn]。对其数据中任意样本i,其特征表达为X(i)=[a1(i),a2(i),...an(i)],其中a(i)取值为真或假;
S34.计算训练样本中流出儿童先验概率;
对于儿童流出的黑白样本的先验概率有:
P(Y=流出)+P(Y=未流出)=1
其中Y代表个体的流出情况,有流出与未流出两种情况。
S35.计算的流出概率:
计算i样本的流出概率为:
其中P(Xj(i)=aj(i)|Y=流出)表示训练数据的所有流出样本中,第j项指标等于aj(i)的概率;P(Xj(i)=aj(i))表示训练数据的所有训练样本中,第j项指标等于aj(i)的概率;
S36.当出现训练数据中同类样本量为0的情况下,采用拉普拉斯平滑:即在计算先验概率时,出现本类型的样本量设定为1(原本为0),分母数值加2(由于归类指标只存在“流出/未流出”两种情况,特征可能值为2)。
S37.最终计算结果中,若出现P(Y=流出)≥P(Y=未流出),则认为该儿童会发生学位流出情况,反之则不会。
S38.检验条件指标集:
采用验证样本特征带入通过训练数据,获得的适龄儿童流出概率,检验模型准确度,根据验证结果调整模型中的条件指标;
S39.计算学位流出数量;
S391.计算未来一段时间内的学位流入情况;
S40:构建学龄儿童流入模型,相比于城区内流出儿童的相关数据比较容易获取,城区流入儿童的相关信息维度较多且难以掌握,故在本发明中采用曲线估计法构建城区流入儿童数量-时间的数值模型,具体步骤如下:
S41.选择拟合曲线
首先根据实际问题本身特点,用时间作为x轴参数,实际流入学位数量作为y轴参数,选择常见的曲线模型,包括但不限于:二次曲线(Quadratic)、复合曲线(Compound)、增长曲线(Growth)、对数曲线(Logarithmic)、三次曲线(Cubic)、S曲线(S)、指数曲线(Exponential)、逆函数(Inverse)、幂函数(Power)、逻辑函数(Logistic);
S42.曲线参数拟合
运用最小二乘法求解完成每一种曲线模型的参数估计,并显示R方、F检验值、相伴概率值以及模型的相关系数等统计量,然后对参数估计的相关统计量进行检验,看其是否通过显著性检验,最终,选择R方统计量值最大的模型作为首选的曲线模型;
S43.计算学龄儿童流入的学位流入数量
将时间带入拟合曲线中,计算未来一段时间内的学位流入情况;
S50:计算学位需求数量
根据所述步骤S20、S30、S40所获取的结果,计算以下公式:
“学位需求=适龄儿童数量+流入适龄儿童数量-流出适龄儿童数量”
计算得出未来几年内的学位需求情况。
2.根据权利要求1所述的基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,其特征在于:所述步骤S10中的字段信息包括:是否为流出适龄儿童、儿童身份证号码、儿童性别、儿童是否本地户口、家庭本地是否有房、家庭是否租赁本地房屋、家庭租赁房屋年数、家庭年收入、父亲是否本地户口、母亲是否本地户口、父母是否海归、是否独生子女,同时获取该区域过去几年的适龄儿童流入情况。
3.根据权利要求1所述的基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,其特征在于:所述步骤34中的流出适龄儿童黑样本为:年龄为6-8岁儿童,在5岁以前居住在区内,且现在未在区内上学;流出适龄儿童白样本为;年龄为6-8岁的本区户口儿童,且在区内就学。
4.根据权利要求1所述的基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法,其特征在于:所述基于朴素贝叶斯算法的学龄儿童流出模型与基于曲线估计法的学龄儿童流入模型,是通过记载有城区年龄-人口分布以及城区内学龄儿童的家庭信息建立的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811299087.1A CN109409757B (zh) | 2018-11-02 | 2018-11-02 | 一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811299087.1A CN109409757B (zh) | 2018-11-02 | 2018-11-02 | 一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109409757A true CN109409757A (zh) | 2019-03-01 |
CN109409757B CN109409757B (zh) | 2021-09-24 |
Family
ID=65471278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811299087.1A Active CN109409757B (zh) | 2018-11-02 | 2018-11-02 | 一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109409757B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886844A (zh) * | 2019-03-21 | 2019-06-14 | 中国电建集团昆明勘测设计研究院有限公司 | 基于贝叶斯网络模型的房屋登记数据关联楼盘表方法 |
CN110807159A (zh) * | 2019-10-30 | 2020-02-18 | 同盾控股有限公司 | 数据标记方法、装置、存储介质及电子设备 |
CN110889431A (zh) * | 2019-10-28 | 2020-03-17 | 杭州电子科技大学 | 基于K-Means算法改进的高频职业技能生命曲线聚类方法 |
CN111476480A (zh) * | 2020-04-03 | 2020-07-31 | 山东爱城市网信息技术有限公司 | 一种小学入学报名的系统及方法 |
CN112308263A (zh) * | 2019-07-25 | 2021-02-02 | 华为技术有限公司 | 学位资源预测方法、装置、存储介质和芯片 |
CN114580773A (zh) * | 2022-03-15 | 2022-06-03 | 城云科技(中国)有限公司 | 一种学区压力评估方法、装置及应用 |
CN114693177A (zh) * | 2022-05-18 | 2022-07-01 | 成都秦川物联网科技股份有限公司 | 基于物联网的智慧城市就学管理方法、系统、装置及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2633552A1 (en) * | 2005-12-15 | 2007-06-21 | University Of Vermont And State Agricultural College | Clinical decision support system |
CN103150697A (zh) * | 2011-12-07 | 2013-06-12 | 北京四达时代软件技术股份有限公司 | 确定客户流失的方法及装置 |
CN105069534A (zh) * | 2015-08-18 | 2015-11-18 | 广州华多网络科技有限公司 | 客户流失预测方法以及装置 |
CN107292787A (zh) * | 2017-07-13 | 2017-10-24 | 山东浪潮云服务信息科技有限公司 | 一种运用地图技术构建学区压力模型的方法 |
CN107679663A (zh) * | 2017-10-09 | 2018-02-09 | 中国电子科技集团公司第二十八研究所 | 一种教育资源监测预警系统 |
-
2018
- 2018-11-02 CN CN201811299087.1A patent/CN109409757B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2633552A1 (en) * | 2005-12-15 | 2007-06-21 | University Of Vermont And State Agricultural College | Clinical decision support system |
CN103150697A (zh) * | 2011-12-07 | 2013-06-12 | 北京四达时代软件技术股份有限公司 | 确定客户流失的方法及装置 |
CN105069534A (zh) * | 2015-08-18 | 2015-11-18 | 广州华多网络科技有限公司 | 客户流失预测方法以及装置 |
CN107292787A (zh) * | 2017-07-13 | 2017-10-24 | 山东浪潮云服务信息科技有限公司 | 一种运用地图技术构建学区压力模型的方法 |
CN107679663A (zh) * | 2017-10-09 | 2018-02-09 | 中国电子科技集团公司第二十八研究所 | 一种教育资源监测预警系统 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886844A (zh) * | 2019-03-21 | 2019-06-14 | 中国电建集团昆明勘测设计研究院有限公司 | 基于贝叶斯网络模型的房屋登记数据关联楼盘表方法 |
CN109886844B (zh) * | 2019-03-21 | 2022-08-12 | 中国电建集团昆明勘测设计研究院有限公司 | 基于贝叶斯网络模型的房屋登记数据关联楼盘表方法 |
CN112308263A (zh) * | 2019-07-25 | 2021-02-02 | 华为技术有限公司 | 学位资源预测方法、装置、存储介质和芯片 |
CN110889431A (zh) * | 2019-10-28 | 2020-03-17 | 杭州电子科技大学 | 基于K-Means算法改进的高频职业技能生命曲线聚类方法 |
CN110807159A (zh) * | 2019-10-30 | 2020-02-18 | 同盾控股有限公司 | 数据标记方法、装置、存储介质及电子设备 |
CN111476480A (zh) * | 2020-04-03 | 2020-07-31 | 山东爱城市网信息技术有限公司 | 一种小学入学报名的系统及方法 |
CN114580773A (zh) * | 2022-03-15 | 2022-06-03 | 城云科技(中国)有限公司 | 一种学区压力评估方法、装置及应用 |
CN114693177A (zh) * | 2022-05-18 | 2022-07-01 | 成都秦川物联网科技股份有限公司 | 基于物联网的智慧城市就学管理方法、系统、装置及介质 |
US11854104B1 (en) | 2022-05-18 | 2023-12-26 | Chengdu Qinchuan Iot Technology Co., Ltd. | Methods and systems for managing school attendance of smart city based on the Internet of Things |
Also Published As
Publication number | Publication date |
---|---|
CN109409757B (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109409757A (zh) | 一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法 | |
Fox | Multilevel IRT using dichotomous and polytomous response data | |
Johnson et al. | Ordinal data modeling | |
Mu et al. | A scale-space clustering method: Mitigating the effect of scale in the analysis of zone-based data | |
Klosterman | Simple and complex models | |
Wang et al. | Bayesian calibration at the urban scale: a case study on a large residential heating demand application in Amsterdam | |
Schreiner | A simple poverty scorecard for Mexico | |
Salas-Velasco | Measuring and explaining the production efficiency of Spanish universities using a non-parametric approach and a bootstrapped-truncated regression | |
Lee | Carbayes version 4.6: An r package for spatial areal unit modelling with conditional autoregressive priors | |
Bahr et al. | The use of cluster analysis in typological research on community college students | |
Andreoli | Robust inference for inverse stochastic dominance | |
Yu et al. | Identifying the Flypaper Effect in the Presence of Spatial Dependence: Evidence from Education in C hina's Counties | |
Chao | Estimating project overheads rate in bidding: DSS approach using neural networks | |
Fotheringham et al. | Multiscale Geographically Weighted Regression: Theory and Practice | |
Barra et al. | Managerial efficiency in higher education using individual versus aggregate level data. Does the choice of decision making units count? | |
Alberto et al. | Variable selection in STAR models with neighbourhood effects using genetic algorithms | |
Brzezicka et al. | The applicability of the speculative frame method for detecting disturbances on the real estate market: evidence from Poland | |
He et al. | An index of social fabric for assessing community vulnerability to natural hazards: Model development and analysis of uncertainty and sensitivity | |
CN105160065A (zh) | 基于拓扑关系的遥感信息相似度评价方法 | |
CN108921434A (zh) | 一种通过人机交互完成用户能力预测的方法 | |
Tiit et al. | Indexes in demographic statistics: a methodology using nonstandard information for solving critical problems | |
Jalali et al. | Estimation of unknown parameters in system dynamics models using the method of simulated moments | |
Kummerow et al. | Error trade-offs in regression appraisal methods | |
Peng et al. | One-year value-added school effects from various models and their inter-temporal variability: Evidence from China | |
Carutasu et al. | Pandemic impact over digital skills training needs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |