CN109816175A - 基于可变分量和结构风险最小的区域人数预测方法及系统 - Google Patents
基于可变分量和结构风险最小的区域人数预测方法及系统 Download PDFInfo
- Publication number
- CN109816175A CN109816175A CN201910125043.5A CN201910125043A CN109816175A CN 109816175 A CN109816175 A CN 109816175A CN 201910125043 A CN201910125043 A CN 201910125043A CN 109816175 A CN109816175 A CN 109816175A
- Authority
- CN
- China
- Prior art keywords
- target area
- login user
- prediction model
- variable componenent
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于可变分量和结构风险最小的区域人数预测方法及系统,包括:获取目标区域人员数量的多组样本数据;样本数据包括目标区域的历史真实用户数和历史登录用户可变分量;历史登录用户可变分量根据目标区域的历史基站登录用户数和稳定时段用户数得到;将所有样本数据输入包含结构风险因子的预测模型进行训练,将结构风险最小的预测模型作为目标预测模型;获取目标区域的基站登录用户数,并根据基站登录用户数和稳定时段用户数,得到登录用户可变分量;将登录用户可变分量输入目标预测模型,得到对应的目标区域人员数量预测值。本发明在实现对客流量的精准预测的同时明显提升了预测效率和模型的泛化程度。
Description
技术领域
本发明涉及信息处理技术领域,尤指一种基于可变分量和结构风险最小的区域人数预测方法及系统。
背景技术
伴随我国经济的腾飞,大型活动逐渐成为促进文化交流和经济繁荣发展的主要载体。诸如上海、北京等规模较大城市,各种大型活动(如节假日欢庆、体育赛事等)的规模和数量日渐增加,随之导致的各种群体安全问题层出不穷。据我国社科院公布的《社会蓝皮书》数据显示,我国发生的群体性事件从1993年到2005年间增加了10倍左右,近几年依然有上升的趋势。
对以往所发生的群体性事件进行分析后不难发现人群密度过大、过度拥挤是事故发生的根本原因。在大城市,移动网络基本已经实现了完全的覆盖,且手机的使用率也达到了较高比率。目前公共区域客流量计算主要依赖运营商提供的基站手机登录信息。运营商电信网络有以下特点,一是网络覆盖范围和实际区域的物理位置无法完全匹配,有些重点区域存在多个基站同时覆盖的情况,二是存在信号漂移、干扰等因素,单纯通过统计现场采集到的基站所登陆的手机数不能真实反映区域范围内人员数量;再加上,人群拥有手机率和数量存在一定差异,双卡和单卡手机并存,从而无法准确统计区域内的登录手机数;同时运营商定期或不定期对基站位置、数量和网络的调整导致固定区域用户数量的骤变;因此使用常见的线性、非线性深度学习等模型直接构建手机用户数和真实客流人数之间的关系效果往往不佳,而且无法实现模型跨区域使用等问题。
发明内容
本发明的目的是提供一种基于可变分量和结构风险最小的区域人数预测方法及系统,在保证经验风险在可接受范围内的基础上选择结构风险最小的预测模型,实现了对客流量的精准预测,同时明显提升了预测效率和模型的泛化程度,并且实现了模型的跨区域使用。
本发明提供的技术方案如下:
基于可变分量和结构风险最小的区域人数预测方法,包括:获取目标区域人员数量的多组样本数据;所述样本数据包括目标区域的历史真实用户数和历史登录用户可变分量;所述历史登录用户可变分量根据所述目标区域的历史基站登录用户数和稳定时段用户数得到;将所有样本数据输入包含结构风险因子的预测模型进行训练,将结构风险最小的预测模型作为目标预测模型;获取目标区域的基站登录用户数,并根据所述基站登录用户数和所述稳定时段用户数,得到登录用户可变分量;将所述登录用户可变分量输入所述目标预测模型,得到对应的目标区域人员数量预测值。
在上述技术方案中,在保证经验风险在可接受范围内的基础上选择结构风险最小的预测模型,实现了对客流量的精准预测,同时提升了预测效率和模型的泛化程度,并且实现了模型的跨区域使用。
进一步优选的,在所述获取目标区域人员数量的多组样本数据之前,包括:根据目标区域的基站登录用户数变化曲线确定所述目标区域的稳定时段;根据所述目标区域的稳定时段的基站登录用户数确定稳定时段用户数。
在上述技术方案中,通过获得稳定时段用户数,使预测模型构建时将基站登录用户数转化为登录可变分量用户数作为预测模型的自变量,从而解决预测模型的跨区域适应性问题。
进一步优选的,所述将所有样本数据输入包含结构风险因子的预测模型进行训练,将结构风险最小的预测模型作为目标预测模型,具体包括:根据每组样本数据的历史登录用户可变分量,得到对应的登录用户可变分量增量;将每组样本数据的登录用户可变分量增量输入包含模型复杂度的预测模型,得到对应的目标区域人员数量预测值;使所有样本数据的历史真实用户数和对应的目标区域人员数量预测值之间的偏差都控制在预设范围内的预测模型作为目标预测模型。
在上述技术方案中,在保证经验风险在可接受范围内的基础上选择结构风险最小的预测模型,实现了对客流量的精准预测,同时提升了预测效率和模型的泛化程度。
进一步优选的,根据以下公式计算每组样本数据的登录用户可变分量增量:
其中,构成第i组样本数据的登录用户可变分量增量,为第i组样本数据中第j个登录用户可变分量增量,为第i组样本数据中第1个登录用户可变分量,为第i组样本数据中第j个登录用户可变分量;
进一步优选的,根据以下公式计算每组样本数据对应的目标区域人员数量预测值:
Xi=[1,Zi1,Zi2,......,Zip],β=[β0,β1,......,βp]T;
其中,为第i个样本数据对应的目标区域人员数量预测值,β0为回归函数常数项,βi(i=1,2,…,p)为自变量回归系数,λ为正则化系数,ξi为随机干扰项。
在上述技术方案中,给出了一种经验风险和结构风险最小的多元线性回归模型,经验证,该模型与常规方案相比在预测准确度和运行效率上提升明显。
进一步优选的,所述将结构风险最小的预测模型作为目标预测模型还包括:将结构风险最小的预测模型作为候选模型,根据可决系数、和/或修正的可决系数、和/或T检验、和/或F检验对所述候选模型的合理性进行评估;当所述候选模型被评估合理时,将所述候选模型作为目标预测模型。
在上述技术方案中,通过各种显著性检验方法验证模型的合理性,从而使获得的模型在充分使用运营商数据的基础上提升了预测准确度和运行效率。
本发明还提供一种基于可变分量和结构风险最小的区域人数预测系统,包括:样本获取模块,用于获取目标区域人员数量的多组样本数据;所述样本数据包括目标区域的历史真实用户数和历史登录用户可变分量;所述历史登录用户可变分量根据所述目标区域的历史基站登录用户数和稳定时段用户数得到;模型生成模块,用于将所有样本数据输入包含结构风险因子的预测模型进行训练,将结构风险最小的预测模型作为目标预测模型;人员数量预测模块,用于获取目标区域的基站登录用户数,并根据所述基站登录用户数和所述稳定时段用户数,得到登录用户可变分量;将所述登录用户可变分量输入所述目标预测模型,得到对应的目标区域人员数量预测值。
在上述技术方案中,在保证经验风险在可接受范围内的基础上选择结构风险最小的预测模型,实现了对客流量的精准预测,同时提升了预测效率和模型的泛化程度,并且实现了模型的跨区域使用。
进一步优选的,还包括:用户数基准获取模块,用于根据目标区域的基站登录用户数变化曲线确定所述目标区域的稳定时段;根据所述目标区域的稳定时段的基站登录用户数确定稳定时段用户数。
在上述技术方案中,通过获得各区域的稳定时段用户数,使预测模型构建时将基站登录用户数转化为登录可变分量用户数作为预测模型的自变量,从而解决预测模型的跨区域适应性问题。
进一步优选的,所述模型生成模块,进一步用于根据每组样本数据的历史登录用户可变分量,得到对应的登录用户可变分量增量;将每组样本数据的登录用户可变分量增量输入包含模型复杂度的预测模型,得到对应的目标区域人员数量预测值;使所有样本数据的历史真实用户数和对应的目标区域人员数量预测值之间的偏差都控制在预设范围内的预测模型作为目标预测模型。
在上述技术方案中,通过采用结构风险最小策略构建预测模型,在实现对客流量的精准预测的同时提升了预测效率和模型的泛化程度。
进一步优选的,还包括:模型检验模块,用于将结构风险最小的预测模型作为候选模型,根据可决系数、和/或修正的可决系数、和/或T检验、和/或F检验对所述候选模型的合理性进行评估;当所述候选模型被评估合理时,将所述候选模型作为目标预测模型。
在上述技术方案中,通过各种显著性检验方法验证模型的合理性,从而使获得的模型在充分使用运营商数据的基础上提升了预测准确度和运行效率。
通过本发明提供的一种基于可变分量和结构风险最小的区域人数预测方法及系统,能够带来以下至少一种有益效果:在保证经验风险在可接受范围内的基础上选择结构风险最小的预测模型,实现了对客流量的精准预测,同时提升了预测效率和模型的泛化程度;采用历史登录用户可变分量作为预测模型的自变量,解决了预测模型的跨区域适应性问题,并克服了运营商定期或不定期调整基站的位置、数量和网络而导致固定区域用户数量的骤变对客流精准预测的影响。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种基于可变分量和结构风险最小的区域人数预测方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明的一种基于可变分量和结构风险最小的区域人数预测方法的一个实施例的流程图;
图2是本发明的一种基于可变分量和结构风险最小的区域人数预测方法的另一个实施例的流程图;
图3是本发明的一种基于可变分量和结构风险最小的区域人数预测方法的另一个实施例的流程图;
图4是本发明的一种基于可变分量和结构风险最小的区域人数预测系统的一个实施例的结构示意图;
图5是本发明的一种基于可变分量和结构风险最小的区域人数预测系统的另一个实施例的结构示意图;
图6是本发明的一种基于可变分量和结构风险最小的区域人数预测系统的另一个实施例的结构示意图;
图7是本发明的一种基于可变分量和结构风险最小的区域人数预测方法的另一个实施例中基站登录用户数变化曲线。
附图标号说明:
110.样本获取模块,120.模型生成模块,130.人员数量预测模块,140.用户数基准获取模块,150.模型检验模块。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图,并得到其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
在本发明的一个实施例中,如图1所示,一种基于可变分量和结构风险最小的区域人数预测方法,包括:
步骤S100获取目标区域人员数量的多组样本数据;所述样本数据包括目标区域的历史真实用户数和历史登录用户可变分量;所述历史登录用户可变分量根据所述目标区域的历史基站登录用户数和稳定时段用户数得到。
具体的,目标区域是指能通过一个或多个基站监测到该区域人员数量的地方,尤其指基站所覆盖的公共区域,比如广场等大型户外活动的举办地或旅游景点等区域。目标区域的历史真实用户数为当前时刻以前的某个时间段的目标区域的真实客流人数,比如某天、或某天某时刻的真实客流人数;真实客流人数可以通过路测或其他方式获得,比如根据目标区域内的摄像头采集图像,由图像识别确定人数。目标区域的历史基站登录用户数是指覆盖该目标区域的基站所监测到的当前时刻以前的目标区域内人员数量,比如,基站所记录的目标区域的登陆手机数,该数据可以从运营商处获得。
稳定时段为某个时间段,目标区域的用户数在该时间段比较稳定,变化率趋于0;稳定时段用户数为目标区域在该时间段的用户数,可以取该时间段的基站登录用户数,或取多个连续的该时间段的基站登录用户数的平均值、或最小值、或中位数、或众数、或分位数等,比如将凌晨5点设为稳定时段,获取连续N天的稳定时段的基站登录用户数,取该N个值的平均值、或最小值、或中位数、或众数、或分位数作为稳定时段用户数。一般,一天之中的用户数最小值基本处于稳定时段。运营商定期或不定期调整基站位置、数量和网络会导致固定区域用户数量的骤变,这可通过稳定时段用户数得到反映;不同区域的稳定时段用户数差异较大。
结合实际情况,在目标区域的稳定时段一般不存在活动客流人数,故用户数比较稳定。根据历史基站登录用户数和稳定时段用户数得到历史登录用户可变分量,比如,将历史基站登录用户数与稳定时段用户数之差作为历史登录用户可变分量,历史登录用户可变分量反映了活动的客流人数。
样本数据可以以各种时间粒度为单位,比如以天为单位,一天的统计数据作为一组样本数据,多天的统计数据对应多组样本数据。
步骤S200将所有样本数据输入包含结构风险因子的预测模型进行训练,将结构风险最小的预测模型作为目标预测模型。
具体的,对所有样本数据的历史真实用户数和历史登录用户可变分量进行相关性分析,根据两者之间的相关方向、相关程度和相关形式,初步选定预测模型,同时为了降低预测模型的结构风险,提升预测模型的泛化程度和运行效率,在预测模型中加入结构风险因子,比如反映模型复杂度的正则化项。将每组样本数据的历史登录用户可变分量作为自变量,对应的历史真实用户数作为因变量,将该自变量输入到包含结构风险因子的预测模型得到对应该样本数据的用户数的预测量,根据该预测量与该因变量得到本次样本数据对应的估计偏差;如此,计算出所有样本数据的估计偏差。从使所有样本数据的估计偏差都控制在预设范围内的预测模型中,选择复杂度最低的预测模型作为结构风险最小的预测模型,将该模型作为目标预测模型,具体可以通过随机梯度下降法、或梯度下降法、或最小二乘法得到目标预测模型。从前描述可知,该目标预测模型的经验风险和结构风险都在可接收范围内。
步骤S300获取目标区域的基站登录用户数,并根据所述基站登录用户数和所述稳定时段用户数,得到登录用户可变分量;
步骤S400将所述登录用户可变分量输入所述目标预测模型,得到对应的目标区域人员数量预测值。
具体的,比如获取目标区域当天若干个时刻的基站登录用户数,根据这些基站登录用户数和目标区域的稳定时段用户数,得到对应的登录用户可变分量。将这些登录用户可变分量输入目标预测模型,得到当天的目标区域人员数量预测值。
本实施例,各个区域在稳定时段的基站登录用户数(即手机信令用户数)是不一样的,但是在模型构建时通过将历史基站登录用户数转化为历史登录用户可变分量作为模型的自变量,解决了模型的跨区域适应性问题,即通过一个区域的样本数据获得的模型也适用于另一个区域。
采用结构风险最小的策略来选择目标预测模型,降低了模型的复杂度,提升了模型的泛化程度和运行效率。
在本发明的另一个实施例中,如图2所示,一种基于可变分量和结构风险最小的区域人数预测方法,包括:
步骤S010根据目标区域的基站登录用户数变化曲线确定所述目标区域的稳定时段;
步骤S020根据所述目标区域的稳定时段的基站登录用户数确定稳定时段用户数。
具体的,根据运营商提供的目标区域的大量的基站登录用户数数据,获得基站登录用户数变化曲线,比如,在一天中,运营商提供的某个区域的用户数据趋势基本如图7所示,从图中可观测到在凌晨4点前后基站侦测到的用户数基本趋于稳定,所以将用户数基本趋于稳定的时间段作为稳定时段,比如凌晨4点。获取稳定时段的基站登录用户数,比如获取某天凌晨4点的基站登录用户数作为稳定时段用户数,也可以获取连续多天凌晨4点的历史基站登录用户数,对其求平均,将均值作为稳定时段用户数。
步骤S100获取目标区域人员数量的多组样本数据;所述样本数据包括目标区域的历史真实用户数和历史登录用户可变分量;所述历史登录用户可变分量根据所述目标区域的历史基站登录用户数和稳定时段用户数得到。
步骤S210根据每组样本数据的历史登录用户可变分量,得到对应的登录用户可变分量增量;
根据以下公式计算每组样本数据的登录用户可变分量增量:
其中,构成第i组样本数据的登录用户可变分量增量,为第i组样本数据中第j个登录用户可变分量增量,为第i组样本数据中第1个登录用户可变分量,为第i组样本数据中第j个登录用户可变分量;
步骤S220将每组样本数据的登录用户可变分量增量输入包含模型复杂度的预测模型,得到对应的目标区域人员数量预测值;
根据以下公式计算每组样本数据对应的目标区域人员数量预测值:
Xi=[1,Zi1,Zi2,......,Zip],β=[β0,β1,......,βp]T;
其中,为第i个样本数据对应的目标区域人员数量预测值,β0为回归函数常数项,βi(i=1,2,…,p)为自变量回归系数,λ为正则化系数,ξi为随机干扰项;
步骤S230使所有样本数据的历史真实用户数和对应的目标区域人员数量预测值之间的偏差都控制在预设范围内的预测模型作为目标预测模型。具体的,目标区域人员数量预测值的计算公式中,第1项为多项式拟合的多元回归函数,第2项为向量β的范数,反映了模型的复杂度。
比如,以某个区域人员数量为例,样本数据以天为单位,每组样本数据对应一天的统计数据,包括一天的历史真实用户数、一天中p个时刻的历史基站登录用户数;多组样本数据对应多天的统计数据。
将历史基站登录用户数与稳定时段用户数之差作为历史登录用户可变分量,这样就可以根据每一天中p个时刻的历史基站登录用户数,得到对应天中对应时刻的历史登录用户可变分量;这p个时刻的历史登录用户可变分量构成了一组样本数据的历史登录用户可变分量。
根据每一天中p个时刻的历史登录用户可变分量,得到对应天中对应时刻的登录用户可变分量增量;这p个时刻的登录用户可变分量增量构成了一组样本数据的历史登录用户可变分量。
将每组样本数据的登录用户可变分量增量输入预测模型,得到每组样本数据对应的目标区域人员数量预测值。
比如采用随机梯度下降法,使所有样本数据的历史真实用户数和对应的目标区域人员数量预测值之间的偏差都控制在预设范围内,由此得到的预测模型即为目标预测模型。假定通过迭代次数来反映预设范围,如下表所示,不同迭代次数对应的目标预测模型与常规方案相比,在预测准确度和运行效率上提升明显。
迭代次数 | 准确度提升 | 效率提升 |
100 | 5.2% | 60.4% |
200 | 9.7% | 57.5% |
300 | 11.5% | 58% |
400 | 17.4% | 49% |
500 | 13.9% | 32% |
步骤S300获取目标区域的基站登录用户数,并根据所述基站登录用户数和所述稳定时段用户数,得到登录用户可变分量;
步骤S400将所述登录用户可变分量输入所述目标预测模型,得到对应的目标区域人员数量预测值。
本实施例,以多元线性回归为例说明如何获取结构风险最小的目标预测模型。
在本发明的另一个实施例中,如图3所示,一种基于可变分量和结构风险最小的区域人数预测方法,包括:
在前一个实施例的基础上,增加步骤S240-S250。其中,步骤S240-S250为:
步骤S240将结构风险最小的预测模型作为候选模型,根据可决系数、和/或修正的可决系数、和/或T检验、和/或F检验对所述候选模型的合理性进行评估;
步骤S250当所述候选模型被评估合理时,将所述候选模型作为目标预测模型。
具体的,根据结构风险最小的策略得到一候选模型,该候选模型所采用的拟合系数仅仅是总体回归系数的一个估计值,与真实值之间的差异我们并不清楚,即估计的可靠程度还有待确定,所以引入可决系数、和/或修正的可决系数、和/或T检验、和/或F检验等显著性检验方法对模型估计的精确度进行评估。若检验结果符合要求,则将该候选模型作为目标区域人员数量的目标预测模型;否则,需要重新确定样本数据进行回归拟合,根据结构风险最小重新选择模型,直至模型的检验结果符合要求为止。
1)可决系数R2定义为:
其中Yi为真实数据值,为真实数据值的平均值,为预测值,TSS为离差平方和,RSS为残差平方和。可决系数R2取值范围在[0,1]之间,当R2越大时,则表示自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比越高,样本点在回归线附近越密集,即模型的拟合度越好。
但在实际应用中,发现R2对于自变量个数有着较强的敏感性,即R2与自变量个数之间存在着一定的正相关关系,从而会误导使用者轻易得出“增加自变量个数有助于模型的拟合效果提升”的错误结论。因此在考虑模型拟合度的同时还需要考虑变量的自由度,故引入修正的可决系数,其中n是输入样本数,k是自变量个数,定义为:
2)F检验,旨在对模型中因变量与自变量之间的线性关系在总体上是否显著做出推断。根据假设检验原理,构造F统计量:
其中,ESS为回归平方和,RSS为残差平方和,n是输入样本数,k是自变量个数;F统计量服从自由度为(k,n-k-1)的F分布,在给定显著性水平α的前提下,查表得到临界值Fα(k,n-k-1),通过样本值求出统计量F的具体数值后,与临界值之间进行对比,如果F>Fα(k,n-k-1),则说明小概率事件在一次实验中发生了,从而拒绝原假设,此时可认为回归模型有显著意义,即所有的自变量联合起来对因变量有显著影响。否则,说明小概率事件没有发生,接受原假设,此时则认为回归模型没有显著意义,即所有的自变量联合起来对因变量没有显著影响。
3)T检验。模型的总体线性关系显著并不等同于每个自变量对因变量的影响都是显著的,因此,有必要对每一个因变量进行显著性检验以决定其是否应该留在模型中。与F检验类似,构造统计量t。
t统计量服从自由度为(n-k-1)的T分布,在既定显著性水平α下,查表可得到其临界值为tα/2(n-k-1),通过样本观测值求出统计量t的具体数值与临界值之间进行对比,如果|t|>tα/2(n-k-1),则拒绝原假设,说明该自变量对因变量有显著影响,需要保留,否则,则说明自变量对因变量影响不显著,应该在模型中进行剔除。
将根据结构风险最小的策略得到的候选模型,进行可决系数、T检验、F检验等显著性检验,拟合结果如下表所示:
注:***表示非常显著,**表示较为显著,*表示显著
修正的可决系数值为0.9755,即自变量对因变量的解释力度达到了97.55%;p值远小于0.01,F检验较为理想,回归模型整体拟合度较好。模型中的回归系数均非常显著的通过了T检验,因此可以认为该候选模型的拟合效果优,可以作为目标区域人员数量的目标预测模型。
在本发明的一个实施例中,如图4所示,一种基于可变分量和结构风险最小的区域人数预测系统,包括:
样本获取模块110,用于获取目标区域人员数量的多组样本数据;所述样本数据包括目标区域的历史真实用户数和历史登录用户可变分量;所述历史登录用户可变分量根据所述目标区域的历史基站登录用户数和稳定时段用户数得到。
具体的,目标区域是指能通过一个或多个基站监测到该区域人员数量的地方,尤其指基站所覆盖的公共区域,比如广场等大型户外活动的举办地或旅游景点等区域。目标区域的历史真实用户数为当前时刻以前的某个时间段的目标区域的真实客流人数,比如某天、或某天某时刻的真实客流人数;真实客流人数可以通过路测或其他方式获得。目标区域的历史基站登录用户数是指覆盖该目标区域的基站所监测到的当前时刻以前的目标区域内人员数量,比如,基站所记录的目标区域的登陆手机数,该数据可以从运营商处获得。
稳定时段为某个时间段,目标区域的用户数在该时间段比较稳定,变化率趋于0;稳定时段用户数为目标区域在该时间段的用户数,可以取该时间段的基站登录用户数,或取多个连续的该时间段的基站登录用户数的平均值、或最小值、或中位数、或众数、或分位数等,比如将凌晨5点设为稳定时段,获取连续N天的稳定时段的基站登录用户数,取该N个值的平均值、或最小值、或中位数、或众数、或分位数作为稳定时段用户数。一般,一天之中的用户数最小值基本处于稳定时段。运营商定期或不定期调整基站位置、数量和网络会导致固定区域用户数量的骤变,这可通过稳定时段用户数得到反映;不同区域的稳定时段用户数差异较大。
结合实际情况,在目标区域的稳定时段一般不存在活动客流人数,故用户数比较稳定。根据历史基站登录用户数和稳定时段用户数得到历史登录用户可变分量,比如,将历史基站登录用户数与稳定时段用户数之差作为历史登录用户可变分量,历史登录用户可变分量反映了活动的客流人数。
样本数据可以以各种时间粒度为单位,比如以天为单位,一天的统计数据作为一组样本数据,多天的统计数据对应多组样本数据。
模型生成模块120,用于将所有样本数据输入包含结构风险因子的预测模型进行训练,将结构风险最小的预测模型作为目标预测模型。
具体的,对所有样本数据的历史真实用户数和历史登录用户可变分量进行相关性分析,根据两者之间的相关方向、相关程度和相关形式,初步选定预测模型,同时为了降低预测模型的结构风险,提升预测模型的泛化程度和运行效率,在预测模型中加入结构风险因子,比如反映模型复杂度的正则化项。
将每组样本数据的历史登录用户可变分量作为自变量,对应的历史真实用户数作为因变量,将该自变量输入到包含结构风险因子的预测模型得到对应该样本数据的用户数的预测量,根据该预测量与该因变量得到本次样本数据对应的估计偏差;如此,计算出所有样本数据的估计偏差。从使所有样本数据的估计偏差都控制在预设范围内的预测模型中,选择复杂度最低的预测模型作为结构风险最小的预测模型,将该模型作为目标预测模型,具体可以通过随机梯度下降法、或梯度下降法、或最小二乘法得到目标预测模型。从前描述可知,该目标预测模型的经验风险和结构风险都在可接收范围内。
人员数量预测模块130,用于获取目标区域的基站登录用户数,并根据所述基站登录用户数和所述稳定时段用户数,得到登录用户可变分量;将所述登录用户可变分量输入所述目标预测模型,得到对应的目标区域人员数量预测值。
具体的,比如获取目标区域当天若干个时刻的基站登录用户数,根据这些基站登录用户数和目标区域的稳定时段用户数,得到对应的登录用户可变分量。将这些登录用户可变分量输入目标预测模型,得到当天的目标区域人员数量预测值。
本实施例,各个区域在稳定时段的基站登录用户数(即手机信令用户数)是不一样的,但是在模型构建时通过将历史基站登录用户数转化为历史登录用户可变分量作为模型的自变量,解决了模型的跨区域适应性问题,即通过一个区域的样本数据获得的模型也适用于另一个区域。
采用结构风险最小的策略来选择目标预测模型,降低了模型的复杂度,提升了模型的泛化程度和运行效率。
在本发明的另一个实施例中,如图5所示,一种基于可变分量和结构风险最小的区域人数预测系统,包括:
用户数基准获取模块140,用于根据目标区域的基站登录用户数变化曲线确定所述目标区域的稳定时段;根据所述目标区域的稳定时段的基站登录用户数确定稳定时段用户数。
具体的,根据运营商提供的目标区域的大量的基站登录用户数数据,获得基站登录用户数变化曲线,比如,在一天中,运营商提供的某个区域的用户数据趋势基本如图7所示,从图中可观测到在凌晨4点前后基站侦测到的用户数基本趋于稳定,所以将用户数基本趋于稳定的时间段作为稳定时段,比如凌晨4点。获取稳定时段的基站登录用户数,比如获取某天凌晨4点的基站登录用户数作为稳定时段用户数,也可以获取连续多天凌晨4点的历史基站登录用户数,对其求平均,将均值作为稳定时段用户数。
样本获取模块110,用于获取目标区域人员数量的多组样本数据;所述样本数据包括目标区域的历史真实用户数和历史登录用户可变分量;所述历史登录用户可变分量根据所述目标区域的历史基站登录用户数和稳定时段用户数得到;
模型生成模块120,用于根据每组样本数据的历史登录用户可变分量,得到对应的登录用户可变分量增量;将每组样本数据的登录用户可变分量增量输入包含模型复杂度的预测模型,得到对应的目标区域人员数量预测值;使所有样本数据的历史真实用户数和对应的目标区域人员数量预测值之间的偏差都控制在预设范围内的预测模型作为目标预测模型;
其中,通过以下公式计算每组样本数据的登录用户可变分量增量:
其中,构成第i组样本数据的登录用户可变分量增量,为第i组样本数据中第j个登录用户可变分量增量,为第i组样本数据中第1个登录用户可变分量,为第i组样本数据中第j个登录用户可变分量。
根据以下公式计算每组样本数据对应的目标区域人员数量预测值:
Xi=[1,Zi1,Zi2,......,Zip],β=[β0,β1,......,βp]T;
其中,为第i个样本数据对应的目标区域人员数量预测值,β0为回归函数常数项,βi(i=1,2,…,p)为自变量回归系数,λ为正则化系数,ξi为随机干扰项。
具体的,目标区域人员数量预测值的计算公式中,第1项为多项式拟合的多元回归函数,第2项为向量β的范数,反映了模型的复杂度。
比如,以某个区域人员数量为例,样本数据以天为单位,每组样本数据对应一天的统计数据,包括一天的历史真实用户数、一天中p个时刻的历史基站登录用户数;多组样本数据对应多天的统计数据。
将历史基站登录用户数与稳定时段用户数之差作为历史登录用户可变分量,这样就可以根据每一天中p个时刻的历史基站登录用户数,得到对应天中对应时刻的历史登录用户可变分量;这p个时刻的历史登录用户可变分量构成了一组样本数据的历史登录用户可变分量。
根据每一天中p个时刻的历史登录用户可变分量,得到对应天中对应时刻的登录用户可变分量增量;这p个时刻的登录用户可变分量增量构成了一组样本数据的历史登录用户可变分量。
将每组样本数据的登录用户可变分量增量输入预测模型,得到每组样本数据对应的目标区域人员数量预测值。
比如采用随机梯度下降法,使所有样本数据的历史真实用户数和对应的目标区域人员数量预测值之间的偏差都控制在预设范围内,由此得到的预测模型即为目标预测模型。
假定通过迭代次数来反映预设范围,如下表所示,不同迭代次数对应的目标预测模型与常规方案相比,在预测准确度和运行效率上提升明显。
迭代次数 | 准确度提升 | 效率提升 |
100 | 5.2% | 60.4% |
200 | 9.7% | 57.5% |
300 | 11.5% | 58% |
400 | 17.4% | 49% |
500 | 13.9% | 32% |
人员数量预测模块130,用于获取目标区域的基站登录用户数,并根据所述基站登录用户数和所述稳定时段用户数,得到登录用户可变分量;将所述登录用户可变分量输入所述目标预测模型,得到对应的目标区域人员数量预测值。
本实施例,以多元线性回归为例说明如何获取结构风险最小的目标预测模型。
在本发明的另一个实施例中,如图6所示,一种基于可变分量和结构风险最小的区域人数预测系统,包括:
在前一个实施例的基础上,增加了模型检验模块150。模型检验模块150,用于将结构风险最小的预测模型作为候选模型,根据可决系数、和/或修正的可决系数、和/或T检验、和/或F检验对该候选模型的合理性进行评估;当该候选模型被评估合理时,将该候选模型作为目标预测模型。
具体的,根据结构风险最小的策略得到一候选模型,该候选模型所采用的拟合系数仅仅是总体回归系数的一个估计值,与真实值之间的差异我们并不清楚,即估计的可靠程度还有待确定,所以引入可决系数、和/或修正的可决系数、和/或T检验、和/或F检验等显著性检验方法对模型估计的精确度进行评估。若检验结果符合要求,则将该候选模型作为目标区域人员数量的目标预测模型;否则,需要重新确定样本数据进行回归拟合,根据结构风险最小重新选择模型,直至模型的检验结果符合要求为止。
1)可决系数R2定义为:
其中Yi为真实数据值,为真实数据值的平均值,为预测值,TSS为离差平方和,RSS为残差平方和。可决系数R2取值范围在[0,1]之间,当R2越大时,则表示自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比越高,样本点在回归线附近越密集,即模型的拟合度越好。
但在实际应用中,发现R2对于自变量个数有着较强的敏感性,即R2与自变量个数之间存在着一定的正相关关系,从而会误导使用者轻易得出“增加自变量个数有助于模型的拟合效果提升”的错误结论。因此在考虑模型拟合度的同时还需要考虑变量的自由度,故引入修正的可决系数,其中n是输入样本数,k是自变量个数,定义为:
2)F检验,旨在对模型中因变量与自变量之间的线性关系在总体上是否显著做出推断。根据假设检验原理,构造F统计量:
其中,ESS为回归平方和,RSS为残差平方和,n是输入样本数,k是自变量个数;F统计量服从自由度为(k,n-k-1)的F分布,在给定显著性水平α的前提下,查表得到临界值Fα(k,n-k-1),通过样本值求出统计量F的具体数值后,与临界值之间进行对比,如果F>Fα(k,n-k-1),则说明小概率事件在一次实验中发生了,从而拒绝原假设,此时可认为回归模型有显著意义,即所有的自变量联合起来对因变量有显著影响。否则,说明小概率事件没有发生,接受原假设,此时则认为回归模型没有显著意义,即所有的自变量联合起来对因变量没有显著影响。
3)T检验。模型的总体线性关系显著并不等同于每个自变量对因变量的影响都是显著的,因此,有必要对每一个因变量进行显著性检验以决定其是否应该留在模型中。与F检验类似,构造统计量t。
t统计量服从自由度为(n-k-1)的T分布,在既定显著性水平α下,查表可得到其临界值为tα/2(n-k-1),通过样本观测值求出统计量t的具体数值与临界值之间进行对比,如果|t|>tα/2(n-k-1),则拒绝原假设,说明该自变量对因变量有显著影响,需要保留,否则,则说明自变量对因变量影响不显著,应该在模型中进行剔除。
将根据结构风险最小的策略得到的候选模型,进行可决系数、T检验、F检验等显著性检验,拟合结果如下表所示:
注:***表示非常显著,**表示较为显著,*表示显著
修正的可决系数值为0.9755,即自变量对因变量的解释力度达到了97.55%;p值远小于0.01,F检验较为理想,回归模型整体拟合度较好。模型中的回归系数均非常显著的通过了T检验,因此可以认为该候选模型的拟合效果优,可以作为目标区域人员数量的目标预测模型。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于可变分量和结构风险最小的区域人数预测方法,其特征在于,包括:
获取目标区域人员数量的多组样本数据;所述样本数据包括目标区域的历史真实用户数和历史登录用户可变分量;所述历史登录用户可变分量根据所述目标区域的历史基站登录用户数和稳定时段用户数得到;
将所有样本数据输入包含结构风险因子的预测模型进行训练,将结构风险最小的预测模型作为目标预测模型;
获取目标区域的基站登录用户数,并根据所述基站登录用户数和所述稳定时段用户数,得到登录用户可变分量;
将所述登录用户可变分量输入所述目标预测模型,得到对应的目标区域人员数量预测值。
2.根据权利要求1所述的基于可变分量和结构风险最小的区域人数预测方法,其特征在于,在所述获取目标区域人员数量的多组样本数据之前,包括:
根据目标区域的基站登录用户数变化曲线确定所述目标区域的稳定时段;
根据所述目标区域的稳定时段的基站登录用户数确定稳定时段用户数。
3.根据权利要求1或2所述的基于可变分量和结构风险最小的区域人数预测方法,其特征在于,所述将所有样本数据输入包含结构风险因子的预测模型进行训练,将结构风险最小的预测模型作为目标预测模型,具体包括:
根据每组样本数据的历史登录用户可变分量,得到对应的登录用户可变分量增量;
将每组样本数据的登录用户可变分量增量输入包含模型复杂度的预测模型,得到对应的目标区域人员数量预测值;
使所有样本数据的历史真实用户数和对应的目标区域人员数量预测值之间的偏差都控制在预设范围内的预测模型作为目标预测模型。
4.根据权利要求3所述的基于可变分量和结构风险最小的区域人数预测方法,其特征在于:
根据以下公式计算每组样本数据的登录用户可变分量增量:
其中,构成第i组样本数据的登录用户可变分量增量,为第i组样本数据中第j个登录用户可变分量增量,为第i组样本数据中第1个登录用户可变分量,为第i组样本数据中第j个登录用户可变分量。
5.根据权利要求4所述的基于可变分量和结构风险最小的区域人数预测方法,其特征在于:
根据以下公式计算每组样本数据对应的目标区域人员数量预测值:
Xi=[1,Zi1,Zi2,......,Zip],β=[β0,β1,......,βp]T;
其中,为第i个样本数据对应的目标区域人员数量预测值,β0为回归函数常数项,βi(i=1,2,…,p)为自变量回归系数,λ为正则化系数,ξi为随机干扰项。
6.根据权利要求1所述的基于可变分量和结构风险最小的区域人数预测方法,其特征在于,所述将结构风险最小的预测模型作为目标预测模型还包括:
将结构风险最小的预测模型作为候选模型,根据可决系数、和/或修正的可决系数、和/或T检验、和/或F检验对所述候选模型的合理性进行评估;
当所述候选模型被评估合理时,将所述候选模型作为目标预测模型。
7.一种基于可变分量和结构风险最小的区域人数预测系统,其特征在于,包括:
样本获取模块,用于获取目标区域人员数量的多组样本数据;所述样本数据包括目标区域的历史真实用户数和历史登录用户可变分量;所述历史登录用户可变分量根据所述目标区域的历史基站登录用户数和稳定时段用户数得到;
模型生成模块,用于将所有样本数据输入包含结构风险因子的预测模型进行训练,将结构风险最小的预测模型作为目标预测模型;
人员数量预测模块,用于获取目标区域的基站登录用户数,并根据所述基站登录用户数和所述稳定时段用户数,得到登录用户可变分量;将所述登录用户可变分量输入所述目标预测模型,得到对应的目标区域人员数量预测值。
8.根据权利要求7中所述的基于可变分量和结构风险最小的区域人数预测系统,其特征在于,还包括:
用户数基准获取模块,用于根据目标区域的基站登录用户数变化曲线确定所述目标区域的稳定时段;根据所述目标区域的稳定时段的基站登录用户数确定稳定时段用户数。
9.根据权利要求7或8中所述的基于可变分量和结构风险最小的区域人数预测系统,其特征在于:
所述模型生成模块,进一步用于根据每组样本数据的历史登录用户可变分量,得到对应的登录用户可变分量增量;将每组样本数据的登录用户可变分量增量输入包含模型复杂度的预测模型,得到对应的目标区域人员数量预测值。
10.根据权利要求7所述的基于可变分量和结构风险最小的区域人数预测系统,其特征在于,还包括:
模型检验模块,用于将结构风险最小的预测模型作为候选模型;根据可决系数、和/或修正的可决系数、和/或T检验、和/或F检验对所述候选模型的合理性进行评估;当所述候选模型被评估合理时,将所述候选模型作为目标预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910125043.5A CN109816175B (zh) | 2019-02-19 | 2019-02-19 | 基于可变分量和结构风险最小的区域人数预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910125043.5A CN109816175B (zh) | 2019-02-19 | 2019-02-19 | 基于可变分量和结构风险最小的区域人数预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109816175A true CN109816175A (zh) | 2019-05-28 |
CN109816175B CN109816175B (zh) | 2022-02-25 |
Family
ID=66606974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910125043.5A Active CN109816175B (zh) | 2019-02-19 | 2019-02-19 | 基于可变分量和结构风险最小的区域人数预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109816175B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686483A (zh) * | 2019-10-17 | 2021-04-20 | 中国移动通信集团陕西有限公司 | 预警区域识别方法、装置、计算设备及计算机存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110295577A1 (en) * | 2010-06-01 | 2011-12-01 | Jayaraman Ramachandran | Systems, Methods, and Computer Program Products for Estimating Crowd Sizes Using Information Collected From Mobile Devices in a Wireless Communications Network |
CN106878952A (zh) * | 2017-03-20 | 2017-06-20 | 上海迪爱斯通信设备有限公司 | 区域人员数量的预测方法及装置 |
CN107423742A (zh) * | 2016-05-23 | 2017-12-01 | 中兴通讯股份有限公司 | 人群流量的确定方法及装置 |
CN108021980A (zh) * | 2017-12-15 | 2018-05-11 | 中国科学院地理科学与资源研究所 | 一种基于手机数据的精细尺度城市人群数量预测方法 |
CN108053080A (zh) * | 2017-12-30 | 2018-05-18 | 中国移动通信集团江苏有限公司 | 区域用户数量统计值预测方法、装置、设备及介质 |
-
2019
- 2019-02-19 CN CN201910125043.5A patent/CN109816175B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110295577A1 (en) * | 2010-06-01 | 2011-12-01 | Jayaraman Ramachandran | Systems, Methods, and Computer Program Products for Estimating Crowd Sizes Using Information Collected From Mobile Devices in a Wireless Communications Network |
CN107423742A (zh) * | 2016-05-23 | 2017-12-01 | 中兴通讯股份有限公司 | 人群流量的确定方法及装置 |
CN106878952A (zh) * | 2017-03-20 | 2017-06-20 | 上海迪爱斯通信设备有限公司 | 区域人员数量的预测方法及装置 |
CN108021980A (zh) * | 2017-12-15 | 2018-05-11 | 中国科学院地理科学与资源研究所 | 一种基于手机数据的精细尺度城市人群数量预测方法 |
CN108053080A (zh) * | 2017-12-30 | 2018-05-18 | 中国移动通信集团江苏有限公司 | 区域用户数量统计值预测方法、装置、设备及介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686483A (zh) * | 2019-10-17 | 2021-04-20 | 中国移动通信集团陕西有限公司 | 预警区域识别方法、装置、计算设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109816175B (zh) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105163326B (zh) | 一种基于无线网络话务特征的小区聚类方法和系统 | |
CN106878952B (zh) | 区域人员数量的预测方法及装置 | |
CN108288106A (zh) | 一种基于大数据的旅游客流预测方法 | |
CN103369571B (zh) | 基于多网联合测量的传播模型校正与覆盖自优化方法 | |
CN103632212A (zh) | 一种时变用户均衡动态网络演化客流预测系统和方法 | |
CN107679768A (zh) | 一种基于电网实时数据的态势感知系统及其构建方法 | |
CN106067079A (zh) | 一种基于bp神经网络的灰霾预测的系统和方法 | |
CN109004997A (zh) | 一种频谱感知方法、装置和计算机可读存储介质 | |
CN103996071A (zh) | 一种基于马尔科夫理论的风电场风速预测方法 | |
CN110162997A (zh) | 基于插值点的匿名隐私保护方法 | |
CN112348290A (zh) | 河流水质预测方法、装置、存储介质及设备 | |
CN107527121A (zh) | 一种电网的信息系统运行状态诊断预测的方法 | |
CN106686720A (zh) | 一种基于时间维度的无线指纹定位方法及其系统 | |
CN115915364A (zh) | 通信基站的节能方法、装置、计算机可读介质及设备 | |
CN113837383B (zh) | 模型训练方法、装置、电子设备及存储介质 | |
Xing et al. | Wireless traffic prediction with series fluctuation pattern clustering | |
CN109816175A (zh) | 基于可变分量和结构风险最小的区域人数预测方法及系统 | |
Xiahou et al. | Indoor air monitoring system based on Internet of things and its prediction model | |
CN108966169A (zh) | 针对农田土壤的重金属污染分析预警系统 | |
CN112884532A (zh) | 一种低功耗物联网采集系统 | |
Gu et al. | Research on Efficient Top-Query Based on ARIMA Time Series Model | |
Li et al. | Ship traffic flow prediction based on AIS data mining | |
CN114781766B (zh) | 水文站点的水文信息预测方法、装置、设备及存储介质 | |
CN109961085A (zh) | 基于贝叶斯估计的航班延误预测模型的建立方法及装置 | |
CN111105617B (zh) | 基于矩阵稳定性分析的智能交通预测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |