CN116567547A - 人口数据质量检验方法、系统和可读存储介质 - Google Patents
人口数据质量检验方法、系统和可读存储介质 Download PDFInfo
- Publication number
- CN116567547A CN116567547A CN202310813565.0A CN202310813565A CN116567547A CN 116567547 A CN116567547 A CN 116567547A CN 202310813565 A CN202310813565 A CN 202310813565A CN 116567547 A CN116567547 A CN 116567547A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- stable
- users
- month
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000007689 inspection Methods 0.000 title claims abstract description 33
- 230000009471 action Effects 0.000 claims abstract description 50
- 230000011664 signaling Effects 0.000 claims abstract description 49
- 230000002354 daily effect Effects 0.000 claims description 37
- 238000004140 cleaning Methods 0.000 claims description 14
- 230000001502 supplementing effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000003203 everyday effect Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 abstract description 29
- 230000002159 abnormal effect Effects 0.000 abstract description 14
- 238000011161 development Methods 0.000 description 10
- 238000009825 accumulation Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000013519 translation Methods 0.000 description 6
- 230000002087 whitening effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000012098 association analyses Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W8/00—Network data management
- H04W8/18—Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Remote Sensing (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开的一种人口数据质量检验方法、系统和可读存储介质,其中方法包括:采集用户信令数据,基于所述信令数据获取用户对应的行动轨迹数据;基于所述行动轨迹数据确定工作居住点,以筛选得到日稳定用户;基于所述日稳定用户结合预设的时间段统计自然月内对应的月稳定用户,其中,所述时间段基于用户输入数据动态变化;基于所述月稳定用户作为历史数据输入到灰色预测模型来进行预测得到当月的人口数据稳定数值。本发明通过规划求解修正异常值,可减少人为修正造成的主观误差,并且将新的修正值作为新原始序列不断地更新预测模型,从而提高人口数据质量预测的精度、保证数据检验的准确性。
Description
技术领域
本发明涉及大数据技术领域,更具体的,涉及一种人口数据质量检验方法、系统和可读存储介质。
背景技术
随着经济和城市化的发展,大数据驱动的城市规划越来越有必要。对城市进行每月稳定人口的预测,可以为城市的规划、交通和住房等方面提供重要的参考价值,对城市的建设发展以及城市空间尤其是土地资源的配置产生重要影响。北京市各大区域的稳定人口统计分析有助于推动感知数据驱动的城市规划转型。
其中,准确预测各月稳定人口,对制定合理的人口规划和人口布局方案、维护经济可持续健康发展和促进城镇化进程具有重要意义。
发明内容
本发明的目的是提供一种人口数据质量检验方法、系统和可读存储介质,通过规划求解修正异常值,可减少人为修正造成的主观误差,并且将新的修正值作为新原始序列不断地更新预测模型,从而提高人口数据质量预测的精度、保证数据检验的准确性。
本发明第一方面提供了一种人口数据质量检验方法,包括以下步骤:
采集用户信令数据,基于所述信令数据获取用户对应的行动轨迹数据;
基于所述行动轨迹数据确定工作居住点,以筛选得到日稳定用户;
基于所述日稳定用户结合预设的时间段统计自然月内对应的月稳定用户,其中,所述时间段基于用户输入数据动态变化;
基于所述月稳定用户作为历史数据输入到灰色预测模型来进行预测得到当月的人口数据稳定数值。
本方案中,所述采集用户信令数据,基于所述信令数据获取用户对应的行动轨迹数据,具体包括:
获取在规定区域内,每个用户IMSI所切换的基站扇区信息,其中,所述基站扇区信息包括扇区位置数据以及进出扇区时间数据;
基于所述基站扇区信息获取当前手机用户实时轨迹信息,并接入目标消息系统中订阅当前用户对应的所述用户信令数据,从而获取用户对应的所述行动轨迹数据,其中,所述目标消息系统包括Kafka消息系统。
本方案中,所述基于所述行动轨迹数据确定工作居住点,以筛选得到日稳定用户,具体包括:
基于所述行动轨迹数据确定当前用户每天停留时间最长的目标地点群;
基于所述目标地点群结合工作时间以及居住时间确定当前用户对应的工作地点以及居住地点,从而基于所述工作地点以及所述居住地点得到所述工作居住点;
剔除未满足日稳定用户条件的用户IMSI信息以筛选得到所述日稳定用户,其中,所述日稳定用户条件包括确定所述工作居住点的用户。
本方案中,所述基于所述日稳定用户结合预设的时间段统计自然月内对应的月稳定用户,具体包括:
基于所述时间段统计自然月内满足当前时间段要求的日稳定用户作为所述月稳定用户;
对未满足当前时间段要求的所述日稳定用户进行数据清洗,其中,所述数据清洗的方式包括删除用户以及补充用户数据。
本方案中,所述方法还包括基于预测得到的所述人口数据稳定数值与当月实际人口数据值进行误差比较,以基于误差结果筛选得到异常值。
本方案中,所述方法还包括规划求解并修正所述异常值以更新动态预测过程。
本发明第二方面还提供一种人口数据质量检验系统,包括存储器和处理器,所述存储器中包括人口数据质量检验方法程序,所述人口数据质量检验方法程序被所述处理器执行时实现如下步骤:
采集用户信令数据,基于所述信令数据获取用户对应的行动轨迹数据;
基于所述行动轨迹数据确定工作居住点,以筛选得到日稳定用户;
基于所述日稳定用户结合预设的时间段统计自然月内对应的月稳定用户,其中,所述时间段基于用户输入数据动态变化;
基于所述月稳定用户作为历史数据输入到灰色预测模型来进行预测得到当月的人口数据稳定数值。
本方案中,所述采集用户信令数据,基于所述信令数据获取用户对应的行动轨迹数据,具体包括:
获取在规定区域内,每个用户IMSI所切换的基站扇区信息,其中,所述基站扇区信息包括扇区位置数据以及进出扇区时间数据;
基于所述基站扇区信息获取当前手机用户实时轨迹信息,并接入目标消息系统中订阅当前用户对应的所述用户信令数据,从而获取用户对应的所述行动轨迹数据,其中,所述目标消息系统包括Kafka消息系统。
本方案中,所述基于所述行动轨迹数据确定工作居住点,以筛选得到日稳定用户,具体包括:
基于所述行动轨迹数据确定当前用户每天停留时间最长的目标地点群;
基于所述目标地点群结合工作时间以及居住时间确定当前用户对应的工作地点以及居住地点,从而基于所述工作地点以及所述居住地点得到所述工作居住点;
剔除未满足日稳定用户条件的用户IMSI信息以筛选得到所述日稳定用户,其中,所述日稳定用户条件包括确定所述工作居住点的用户。
本方案中,所述基于所述日稳定用户结合预设的时间段统计自然月内对应的月稳定用户,具体包括:
基于所述时间段统计自然月内满足当前时间段要求的日稳定用户作为所述月稳定用户;
对未满足当前时间段要求的所述日稳定用户进行数据清洗,其中,所述数据清洗的方式包括删除用户以及补充用户数据。
本方案中,所述人口数据质量检验方法程序被所述处理器执行时实现如下步骤:基于预测得到的所述人口数据稳定数值与当月实际人口数据值进行误差比较,以基于误差结果筛选得到异常值。
本方案中,所述人口数据质量检验方法程序被所述处理器执行时实现如下步骤:规划求解并修正所述异常值以更新动态预测过程。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种人口数据质量检验方法程序,所述人口数据质量检验方法程序被处理器执行时,实现如上述任一项所述的一种人口数据质量检验方法的步骤。
本发明公开的一种人口数据质量检验方法、系统和可读存储介质,通过规划求解修正异常值,可减少人为修正造成的主观误差,并且将新的修正值作为新原始序列不断地更新预测模型,从而提高人口数据质量预测的精度、保证数据检验的准确性。
附图说明
图1示出了本发明一种人口数据质量检验方法的流程图;
图2示出了本发明一种人口数据质量检验系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
具体地,本申请提供一种基于手机信令预测每月稳定人口,能够在误差允许的范围内提供各区域每月稳定用户数,对于制定人口规划和人口布局方案、维护经济可持续健康发展和促进城镇化具有重要意义。
图1示出了本申请一种人口数据质量检验方法的流程图。
如图1所示,本申请公开了一种人口数据质量检验方法,包括以下步骤:
S102,采集用户信令数据,基于所述信令数据获取用户对应的行动轨迹数据;
S104,基于所述行动轨迹数据确定工作居住点,以筛选得到日稳定用户;
S106,基于所述日稳定用户结合预设的时间段统计自然月内对应的月稳定用户,其中,所述时间段基于用户输入数据动态变化;
S108,基于所述月稳定用户作为历史数据输入到灰色预测模型来进行预测得到当月的人口数据稳定数值。
需要说明的是,于本实施例中,由于手机信令信息可以反映出当前手机用户在连续时间段内,不同时间点所在的空间位置,因此可以利用每月各区域稳定用户的历史值来定量预测各区域当前月份对应的稳定用户数值,具体地,利用三大运营商的信令数据,在每个规范后的区域内,对每个用户IMSI所有发生切换的基站扇区信息进行采集,从而可以基于IMSI获取到手机用户实时轨迹信息,进而确定所述行动轨迹数据,而后基于所述行动轨迹数据来确定用户每天的工作和居住地点得到所述工作居住点,以此得到所述日稳定用户,在所述日稳定用户的基础之上,统计自然月内累计满足一半及以上天数的用户确定为月稳定用户,在得到每月各区域稳定用户的数值之后,将当前的月稳定用户作为历史数值输入到灰色预测模型来预测当月的人口数据稳定数值,其中,基于历史值建立所述灰色预测模型,并通过规划求解修正异常值来建立动态预测过程,使得优化后的灰色预测模型的预测精度得以提高,从而可以保证人口数据的预测质量。
根据本发明实施例,所述采集用户信令数据,基于所述信令数据获取用户对应的行动轨迹数据,具体包括:
获取在规定区域内,每个用户IMSI所切换的基站扇区信息,其中,所述基站扇区信息包括扇区位置数据以及进出扇区时间数据;
基于所述基站扇区信息获取当前手机用户实时轨迹信息,并接入目标消息系统中订阅当前用户对应的所述用户信令数据,从而获取用户对应的所述行动轨迹数据,其中,所述目标消息系统包括Kafka消息系统。
需要说明的是,上述实施例中说明了可以基于用户IMSI来识别行动轨迹,于本实施例中,具体地,在规定区域内,通过运营商的信令数据来获取每个用户IMSI所切换的基站扇区信息,具体包括扇区位置数据以及进出扇区时间数据,进而可以基于所述基站扇区信息获取当前手机用户对应的实时轨迹信息,使用Spark Streaming接入Kafka消息系统以订阅实时信令数据得到所述用户信令数据,从而可以基于用户信令数据来识别获取手机用户每天的行动轨迹。
根据本发明实施例,所述基于所述行动轨迹数据确定工作居住点,以筛选得到日稳定用户,具体包括:
基于所述行动轨迹数据确定当前用户每天停留时间最长的目标地点群;
基于所述目标地点群结合工作时间以及居住时间确定当前用户对应的工作地点以及居住地点,从而基于所述工作地点以及所述居住地点得到所述工作居住点;
剔除未满足日稳定用户条件的用户IMSI信息以筛选得到所述日稳定用户,其中,所述日稳定用户条件包括确定所述工作居住点的用户。
需要说明的是,于本实施例中,由于用户在每个扇区停留的时长不同,因此可以基于所述行动轨迹数据确定当前用户每天停留时间最长的目标地点群,其中,所述目标地点群为用户在不同扇区对应的停留时间最长的点,因此,可以基于停留时间来获取用户在不同扇区对应的地点,相应地,再结合工作时间以及居住时间可以确定当前用户对应的工作地点以及居住地点,例如,工作时间为“7:00-19:00”,而居住时间为“21:00-7:00”,一天以“24h”为计,由于存在游客或者其他出差人员,在不同的扇区之间不断变换自己的位置,因此这类用户不满足日稳定用户,则进行剔除,从而可以基于工作地点以及所述居住地点来得到所述工作居住点,并且,确定得到所述工作居住点的用户为所述日稳定用户。
根据本发明实施例,所述基于所述日稳定用户结合预设的时间段统计自然月内对应的月稳定用户,具体包括:
基于所述时间段统计自然月内满足当前时间段要求的日稳定用户作为所述月稳定用户;
对未满足当前时间段要求的所述日稳定用户进行数据清洗,其中,所述数据清洗的方式包括删除用户以及补充用户数据。
需要说明的是,于本实施例中,所述时间段一般取为自然月的一半天数及以上,即表明在日稳定用户的基础上,只要满足了在自然月内累计满足一半天数即可以将当前日稳定用户作为所述月稳定用户,其中,由于可能存在信令丢失等情况,导致日稳定用户未能够满足当前时间段要求,因此还需要对未满足当前时间段要求的所述日稳定用户进行数据清洗,其中,所述数据清洗的方式包括删除用户以及补充用户数据,删除一些短期出差的外来人口用户,以及补充一些信令缺失的本地人口用户,以此完善数据来源的准确性。
根据本发明实施例,所述方法还包括基于预测得到的所述人口数据稳定数值与当月实际人口数据值进行误差比较,以基于误差结果筛选得到异常值。
需要说明的是,于本实施例中,通过对比所述人口数据稳定数值与所述实际人口数据值之间的误差百分比大小来检验本期人口数据是否正常,其中,误差百分比一般定为“3%”,如果受不可抗力因素或者节假日等因素的影响,误差百分比则会相应升高,排除不可抗力因素和节假日等因素后,再次定位得到数据异常值(即误差百分比远大于“3%”),此时利用规划求解对异常值进行修正,在满足当期人口波动的前提下实现修正幅度最小。
根据本发明实施例,所述方法还包括规划求解并修正所述异常值以更新动态预测过程。
需要说明的是,于本实施例中,更新动态预测过程即运用的是级比生成算子生成数列,通过对原始数据的整理寻找数据的规律,其中,灰色预测是一种对含有不确定因素的系统进行预测的方法,灰色预测通过鉴别系统因素之间发展趋势的相异程度,即进行关联分析,并对原始数据进行生成处理来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型,从而预测事物未来发展趋势的状况,用等时距观测到的反映预测对象特征的一系列数量值构造灰色预测模型,预测未来某一时刻的特征量,或达到某一特征量的时间。
值得一提的是,所述方法还包括建立所述灰色预测模型,具体包括:
基于原始序列进行一阶累加后生成新的累加序列;
计算得到所述累加序列对应的灰导数;
建立灰微分方程,基于所述灰微分方程得到所述灰色预测模型。
需要说明的是,于本实施例中,对原始数据进行处理后,得到预测前的原始序列为:,/> ,k=2,3,...,n为序列/>的级比;将原始序列进行一阶累加后生成新的累加序列/>,,其中:/>, i=1,2,...,n在一阶累加数列的基础上,求取X (1)的灰导数d(k),其中,/>,建立GM(1 ,1)灰微分方程:/>,其中,α为发展灰度,反应/>和/>是如何变化的;μ为内生控制灰度(灰作用量),反应数据之前的变化关系。 为求解α和μ,令/>为待估向量,可以利用离散的数据序列建立近似的微分方程进行拟合,由最小二乘法计算求解。
值得一提的是,所述方法还包括求取紧邻权值作为白化背景值。
需要说明的是,于本实施例中,求取紧邻权值作为白化背景值,其中,,k=2,3,...,n,进一步地,将GM(1 ,1)灰微分方程中灰导数的时刻视为连续的时间变量t,将其白化为白微分方程并求解,求解时微分方程的初始值取预测值与实际值离差平方和最小的点,并选取使离差平方和最小的生成系数生成紧邻权值数列。之后通过累减得到预测数据/>。得到预测值后对比预测值与实际值的误差百分比筛选出异常数据。
值得一提的是,所述方法还包括在原始序列不通过级比检验时,通过平移转换使得原始序列满足检验,进而继续构建所述灰色预测模型。
需要说明的是,于本实施例中,当序列的级比满足/> 时,序列/>可做GM(1,1)建模,对于不通过级比检验的序列,则进行“平移转换”,平移转换后的所有级比值都位于区间/> 内,即序列满足级比检验,适合构建灰色预测模型。
值得一提的是,关于规划求解,其是假设分析的一种,即根据约束条件,求达成目标单元格的变量值,“规划求解”调整决策变量单元格中的值以符合约束条件单元格上的限制,并在目标单元格中产生想要的结果,本发明运用规划求解的目的是在得到预测值后,对比筛选出实际值/>中的异常值,批量自动修正其中的异常值,得到新的实际值/>。
具体地,本发明的规划求解方法为非线性内点法,将对参与计算目标单元格和约束单元格中的公式的一组单元格(称为决策变量单元格或简称为变量单元格)进行处理:“设置目标”在已知数据总和无误的前提下,设置目标为北京市本期的稳定人数总和,其为一个定值;“通过更改可变单元格”为自动求解生成的数据所在单元格位置;“遵守约束”为约束条件,即在进行人口因素分析后制定的本期限制规范值,这些规范指标有环比(与上月相比的增长率)、同比(与去年同月相比的增长率)、差值(修正值与原实际值的差),如,北京市A地区的月稳定人口数据正常,则其差值指标为0,B地区的月稳定人口数据异常,且与上月相比波动范围在2%以内,则令其环比小于等于2%。约束条件可以有多个,且需要满足无约束变量为非负数,需要同时满足可得到可行解。
本发明建立的规划求解优化模型,以对实际值的修正幅度最小为目标函数,考虑修正前后的总和保持不变、本期环比同比需满足的约束条件建立规划求解;具体包含以下步骤:
步骤1:以修正值和原始值的差值百分比绝对值描述修正幅度,定义修正幅度最小为目标函数:
;
步骤2:设置约束条件:
其中,和/>表示需要修正的原始序列值,/>和/>分别对应上月同期值,/>和/>是修正后的新序列值。
而在上述实施例中说明了进行动态预测,具体地,在得到k+1时刻的预测值后,将原始数列中的/>去掉,加入k+1时刻的实际数据/>,或者通过规划求解修正后的新实际值 />,构成新的原始数列/>, />=,将新的原始序列带入预测模型实现实时动态预测。
图2示出了本发明一种人口数据质量检验系统的框图。
如图2所示,本发明公开了一种人口数据质量检验系统,包括存储器和处理器,所述存储器中包括人口数据质量检验方法程序,所述人口数据质量检验方法程序被所述处理器执行时实现如下步骤:
采集用户信令数据,基于所述信令数据获取用户对应的行动轨迹数据;
基于所述行动轨迹数据确定工作居住点,以筛选得到日稳定用户;
基于所述日稳定用户结合预设的时间段统计自然月内对应的月稳定用户,其中,所述时间段基于用户输入数据动态变化;
基于所述月稳定用户作为历史数据输入到灰色预测模型来进行预测得到当月的人口数据稳定数值。
需要说明的是,于本实施例中,由于手机信令信息可以反映出当前手机用户在连续时间段内,不同时间点所在的空间位置,因此可以利用每月各区域稳定用户的历史值来定量预测各区域当前月份对应的稳定用户数值,具体地,利用三大运营商的信令数据,在每个规范后的区域内,对每个用户IMSI所有发生切换的基站扇区信息进行采集,从而可以基于IMSI获取到手机用户实时轨迹信息,进而确定所述行动轨迹数据,而后基于所述行动轨迹数据来确定用户每天的工作和居住地点得到所述工作居住点,以此得到所述日稳定用户,在所述日稳定用户的基础之上,统计自然月内累计满足一半及以上天数的用户确定为月稳定用户,在得到每月各区域稳定用户的数值之后,将当前的月稳定用户作为历史数值输入到灰色预测模型来预测当月的人口数据稳定数值,其中,基于历史值建立所述灰色预测模型,并通过规划求解修正异常值来建立动态预测过程,使得优化后的灰色预测模型的预测精度得以提高,从而可以保证人口数据的预测质量。
根据本发明实施例,所述采集用户信令数据,基于所述信令数据获取用户对应的行动轨迹数据,具体包括:
获取在规定区域内,每个用户IMSI所切换的基站扇区信息,其中,所述基站扇区信息包括扇区位置数据以及进出扇区时间数据;
基于所述基站扇区信息获取当前手机用户实时轨迹信息,并接入目标消息系统中订阅当前用户对应的所述用户信令数据,从而获取用户对应的所述行动轨迹数据,其中,所述目标消息系统包括Kafka消息系统。
需要说明的是,上述实施例中说明了可以基于用户IMSI来识别行动轨迹,于本实施例中,具体地,在规定区域内,通过运营商的信令数据来获取每个用户IMSI所切换的基站扇区信息,具体包括扇区位置数据以及进出扇区时间数据,进而可以基于所述基站扇区信息获取当前手机用户对应的实时轨迹信息,使用Spark Streaming接入Kafka消息系统以订阅实时信令数据得到所述用户信令数据,从而可以基于用户信令数据来识别获取手机用户每天的行动轨迹。
根据本发明实施例,所述基于所述行动轨迹数据确定工作居住点,以筛选得到日稳定用户,具体包括:
基于所述行动轨迹数据确定当前用户每天停留时间最长的目标地点群;
基于所述目标地点群结合工作时间以及居住时间确定当前用户对应的工作地点以及居住地点,从而基于所述工作地点以及所述居住地点得到所述工作居住点;
剔除未满足日稳定用户条件的用户IMSI信息以筛选得到所述日稳定用户,其中,所述日稳定用户条件包括确定所述工作居住点的用户。
需要说明的是,于本实施例中,由于用户在每个扇区停留的时长不同,因此可以基于所述行动轨迹数据确定当前用户每天停留时间最长的目标地点群,其中,所述目标地点群为用户在不同扇区对应的停留时间最长的点,因此,可以基于停留时间来获取用户在不同扇区对应的地点,相应地,再结合工作时间以及居住时间可以确定当前用户对应的工作地点以及居住地点,例如,工作时间为“7:00-19:00”,而居住时间为“21:00-7:00”,一天以“24h”为计,由于存在游客或者其他出差人员,在不同的扇区之间不断变换自己的位置,因此这类用户不满足日稳定用户,则进行剔除,从而可以基于工作地点以及所述居住地点来得到所述工作居住点,并且,确定得到所述工作居住点的用户为所述日稳定用户。
根据本发明实施例,所述基于所述日稳定用户结合预设的时间段统计自然月内对应的月稳定用户,具体包括:
基于所述时间段统计自然月内满足当前时间段要求的日稳定用户作为所述月稳定用户;
对未满足当前时间段要求的所述日稳定用户进行数据清洗,其中,所述数据清洗的方式包括删除用户以及补充用户数据。
需要说明的是,于本实施例中,所述时间段一般取为自然月的一半天数及以上,即表明在日稳定用户的基础上,只要满足了在自然月内累计满足一半天数即可以将当前日稳定用户作为所述月稳定用户,其中,由于可能存在信令丢失等情况,导致日稳定用户未能够满足当前时间段要求,因此还需要对未满足当前时间段要求的所述日稳定用户进行数据清洗,其中,所述数据清洗的方式包括删除用户以及补充用户数据,删除一些短期出差的外来人口用户,以及补充一些信令缺失的本地人口用户,以此完善数据来源的准确性。
根据本发明实施例,所述方法还包括基于预测得到的所述人口数据稳定数值与当月实际人口数据值进行误差比较,以基于误差结果筛选得到异常值。
需要说明的是,于本实施例中,通过对比所述人口数据稳定数值与所述实际人口数据值之间的误差百分比大小来检验本期人口数据是否正常,其中,误差百分比一般定为“3%”,如果受不可抗力因素或者节假日等因素的影响,误差百分比则会相应升高,排除不可抗力因素和节假日等因素后,再次定位得到数据异常值(即误差百分比远大于“3%”),此时利用规划求解对异常值进行修正,在满足当期人口波动的前提下实现修正幅度最小。
根据本发明实施例,所述方法还包括规划求解并修正所述异常值以更新动态预测过程。
需要说明的是,于本实施例中,更新动态预测过程即运用的是级比生成算子生成数列,通过对原始数据的整理寻找数据的规律,其中,灰色预测是一种对含有不确定因素的系统进行预测的方法,灰色预测通过鉴别系统因素之间发展趋势的相异程度,即进行关联分析,并对原始数据进行生成处理来寻找系统变动的规律,生成有较强规律性的数据序列,然后建立相应的微分方程模型,从而预测事物未来发展趋势的状况,用等时距观测到的反映预测对象特征的一系列数量值构造灰色预测模型,预测未来某一时刻的特征量,或达到某一特征量的时间。
值得一提的是,所述方法还包括建立所述灰色预测模型,具体包括:
基于原始序列进行一阶累加后生成新的累加序列;
计算得到所述累加序列对应的灰导数;
建立灰微分方程,基于所述灰微分方程得到所述灰色预测模型。
需要说明的是,于本实施例中,对原始数据进行处理后,得到预测前的原始序列为:,/> ,k=2,3,...,n为序列/>的级比;将原始序列进行一阶累加后生成新的累加序列/>,,其中:/>, i=1,2,...,n在一阶累加数列的基础上,求取X (1)的灰导数d(k),其中,/>,建立GM(1 ,1)灰微分方程:/>,其中,α为发展灰度,反应/>和/>是如何变化的;μ为内生控制灰度(灰作用量),反应数据之前的变化关系。 为求解α和μ,令/>为待估向量,可以利用离散的数据序列建立近似的微分方程进行拟合,由最小二乘法计算求解。
值得一提的是,所述方法还包括求取紧邻权值作为白化背景值。
需要说明的是,于本实施例中,求取紧邻权值作为白化背景值,其中,,k=2,3,...,n,进一步地,将GM(1 ,1)灰微分方程中灰导数的时刻视为连续的时间变量t,将其白化为白微分方程并求解,求解时微分方程的初始值取预测值与实际值离差平方和最小的点,并选取使离差平方和最小的生成系数生成紧邻权值数列。之后通过累减得到预测数据/>。得到预测值后对比预测值与实际值的误差百分比筛选出异常数据。
值得一提的是,所述方法还包括在原始序列不通过级比检验时,通过平移转换使得原始序列满足检验,进而继续构建所述灰色预测模型。
需要说明的是,于本实施例中,当序列的级比满足/> 时,序列/>可做GM(1,1)建模,对于不通过级比检验的序列,则进行“平移转换”,平移转换后的所有级比值都位于区间/> 内,即序列满足级比检验,适合构建灰色预测模型。
值得一提的是,关于规划求解,其是假设分析的一种,即根据约束条件,求达成目标单元格的变量值,“规划求解”调整决策变量单元格中的值以符合约束条件单元格上的限制,并在目标单元格中产生想要的结果,本发明运用规划求解的目的是在得到预测值后,对比筛选出实际值/>中的异常值,批量自动修正其中的异常值,得到新的实际值/>。
具体地,本发明的规划求解方法为非线性内点法,将对参与计算目标单元格和约束单元格中的公式的一组单元格(称为决策变量单元格或简称为变量单元格)进行处理:“设置目标”在已知数据总和无误的前提下,设置目标为北京市本期的稳定人数总和,其为一个定值;“通过更改可变单元格”为自动求解生成的数据所在单元格位置;“遵守约束”为约束条件,即在进行人口因素分析后制定的本期限制规范值,这些规范指标有环比(与上月相比的增长率)、同比(与去年同月相比的增长率)、差值(修正值与原实际值的差),如,北京市A地区的月稳定人口数据正常,则其差值指标为0,B地区的月稳定人口数据异常,且与上月相比波动范围在2%以内,则令其环比小于等于2%。约束条件可以有多个,且需要满足无约束变量为非负数,需要同时满足可得到可行解。
本发明建立的规划求解优化模型,以对实际值的修正幅度最小为目标函数,考虑修正前后的总和保持不变、本期环比同比需满足的约束条件建立规划求解;具体包含以下步骤:
步骤1:以修正值和原始值的差值百分比绝对值描述修正幅度,定义修正幅度最小为目标函数:
;
步骤2:设置约束条件:
其中,和/>表示需要修正的原始序列值,/>和/>分别对应上月同期值,/>和/>是修正后的新序列值。
而在上述实施例中说明了进行动态预测,具体地,在得到k+1时刻的预测值后,将原始数列中的/>去掉,加入k+1时刻的实际数据/>,或者通过规划求解修正后的新实际值 />,构成新的原始数列/>, />=,将新的原始序列带入预测模型实现实时动态预测。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括一种人口数据质量检验方法程序,所述人口数据质量检验方法程序被处理器执行时,实现如上述任一项所述的一种人口数据质量检验方法的步骤。
本发明公开的一种人口数据质量检验方法、系统和可读存储介质,通过规划求解修正异常值,可减少人为修正造成的主观误差,并且将新的修正值作为新原始序列不断地更新预测模型,从而提高人口数据质量预测的精度、保证数据检验的准确性。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种人口数据的质量检验方法,其特征在于,包括以下步骤:
采集用户信令数据,基于所述信令数据获取用户对应的行动轨迹数据;
基于所述行动轨迹数据确定工作居住点,以筛选得到日稳定用户;
基于所述日稳定用户结合预设的时间段统计自然月内对应的月稳定用户,其中,所述时间段基于用户输入数据动态变化;
基于所述月稳定用户作为历史数据输入到灰色预测模型来进行预测得到当月的人口数据稳定数值。
2.根据权利要求1所述的一种人口数据的质量检验方法,其特征在于,所述采集用户信令数据,基于所述信令数据获取用户对应的行动轨迹数据,具体包括:
获取在规定区域内,每个用户IMSI所切换的基站扇区信息,其中,所述基站扇区信息包括扇区位置数据以及进出扇区时间数据;
基于所述基站扇区信息获取当前手机用户实时轨迹信息,并接入目标消息系统中订阅当前用户对应的所述用户信令数据,从而获取用户对应的所述行动轨迹数据,其中,所述目标消息系统包括Kafka消息系统。
3.根据权利要求1所述的一种人口数据的质量检验方法,其特征在于,所述基于所述行动轨迹数据确定工作居住点,以筛选得到日稳定用户,具体包括:
基于所述行动轨迹数据确定当前用户每天停留时间最长的目标地点群;
基于所述目标地点群结合工作时间以及居住时间确定当前用户对应的工作地点以及居住地点,从而基于所述工作地点以及所述居住地点得到所述工作居住点;
剔除未满足日稳定用户条件的用户IMSI信息以筛选得到所述日稳定用户,其中,所述日稳定用户条件包括确定所述工作居住点的用户。
4.根据权利要求3所述的一种人口数据的质量检验方法,其特征在于,所述基于所述日稳定用户结合预设的时间段统计自然月内对应的月稳定用户,具体包括:
基于所述时间段统计自然月内满足当前时间段要求的日稳定用户作为所述月稳定用户;
对未满足当前时间段要求的所述日稳定用户进行数据清洗,其中,所述数据清洗的方式包括删除用户以及补充用户数据。
5.根据权利要求1所述的一种人口数据的质量检验方法,其特征在于,所述方法还包括基于预测得到的所述人口数据稳定数值与当月实际人口数据值进行误差比较,以基于误差结果筛选得到异常值。
6.根据权利要求5所述的一种人口数据的质量检验方法,其特征在于,所述方法还包括规划求解并修正所述异常值以更新动态预测过程。
7.一种人口数据的质量检验系统,其特征在于,包括存储器和处理器,所述存储器中包括人口数据的质量检验方法程序,所述人口数据的质量检验方法程序被所述处理器执行时实现如下步骤:
采集用户信令数据,基于所述信令数据获取用户对应的行动轨迹数据;
基于所述行动轨迹数据确定工作居住点,以筛选得到日稳定用户;
基于所述日稳定用户结合预设的时间段统计自然月内对应的月稳定用户,其中,所述时间段基于用户输入数据动态变化;
基于所述月稳定用户作为历史数据输入到灰色预测模型来进行预测得到当月的人口数据稳定数值。
8.根据权利要求7所述的一种人口数据的质量检验系统,其特征在于,所述采集用户信令数据,基于所述信令数据获取用户对应的行动轨迹数据,具体包括:
获取在规定区域内,每个用户IMSI所切换的基站扇区信息,其中,所述基站扇区信息包括扇区位置数据以及进出扇区时间数据;
基于所述基站扇区信息获取当前手机用户实时轨迹信息,并接入目标消息系统中订阅当前用户对应的所述用户信令数据,从而获取用户对应的所述行动轨迹数据,其中,所述目标消息系统包括Kafka消息系统。
9.根据权利要求7所述的一种人口数据的质量检验系统,其特征在于,所述基于所述行动轨迹数据确定工作居住点,以筛选得到日稳定用户,具体包括:
基于所述行动轨迹数据确定当前用户每天停留时间最长的目标地点群;
基于所述目标地点群结合工作时间以及居住时间确定当前用户对应的工作地点以及居住地点,从而基于所述工作地点以及所述居住地点得到所述工作居住点;
剔除未满足日稳定用户条件的用户IMSI信息以筛选得到所述日稳定用户,其中,所述日稳定用户条件包括确定所述工作居住点的用户。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种人口数据的质量检验方法程序,所述人口数据的质量检验方法程序被处理器执行时,实现如权利要求1至6中任一项所述的一种人口数据的质量检验方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310813565.0A CN116567547B (zh) | 2023-07-05 | 2023-07-05 | 人口数据质量检验方法、系统和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310813565.0A CN116567547B (zh) | 2023-07-05 | 2023-07-05 | 人口数据质量检验方法、系统和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116567547A true CN116567547A (zh) | 2023-08-08 |
CN116567547B CN116567547B (zh) | 2023-12-01 |
Family
ID=87496810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310813565.0A Active CN116567547B (zh) | 2023-07-05 | 2023-07-05 | 人口数据质量检验方法、系统和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116567547B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151312A (zh) * | 2023-10-31 | 2023-12-01 | 北京融信数联科技有限公司 | 基于bp神经网络模型的公园日游客流量预测方法与系统 |
CN117177184A (zh) * | 2023-10-30 | 2023-12-05 | 北京融信数联科技有限公司 | 基于手机信令的机场日活跃用户预测方法、系统和介质 |
CN117473327A (zh) * | 2023-12-26 | 2024-01-30 | 中电科新型智慧城市研究院有限公司 | 区域人口模型训练方法及区域人口预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120115505A1 (en) * | 2010-11-09 | 2012-05-10 | Motoharu Miyake | System and method for population tracking, counting, and movement estimation using mobile operational data and/or geographic information in mobile network |
CN111026738A (zh) * | 2019-11-08 | 2020-04-17 | 福建新大陆软件工程有限公司 | 区域人口监控方法、系统、电子设备及存储介质 |
CN115034524A (zh) * | 2022-08-11 | 2022-09-09 | 北京融信数联科技有限公司 | 基于手机信令的工作居住人口预测方法、系统和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116031888B (zh) * | 2023-03-27 | 2023-07-28 | 国网安徽省电力有限公司潜山市供电公司 | 基于动态负荷预测的潮流优化方法、系统及存储介质 |
-
2023
- 2023-07-05 CN CN202310813565.0A patent/CN116567547B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120115505A1 (en) * | 2010-11-09 | 2012-05-10 | Motoharu Miyake | System and method for population tracking, counting, and movement estimation using mobile operational data and/or geographic information in mobile network |
CN111026738A (zh) * | 2019-11-08 | 2020-04-17 | 福建新大陆软件工程有限公司 | 区域人口监控方法、系统、电子设备及存储介质 |
CN115034524A (zh) * | 2022-08-11 | 2022-09-09 | 北京融信数联科技有限公司 | 基于手机信令的工作居住人口预测方法、系统和存储介质 |
Non-Patent Citations (1)
Title |
---|
孙华芬 等: "金属非金属露天矿山高陡边坡监测预警预报理论及应用", 冶金工业出版社, pages: 146 - 78 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117177184A (zh) * | 2023-10-30 | 2023-12-05 | 北京融信数联科技有限公司 | 基于手机信令的机场日活跃用户预测方法、系统和介质 |
CN117151312A (zh) * | 2023-10-31 | 2023-12-01 | 北京融信数联科技有限公司 | 基于bp神经网络模型的公园日游客流量预测方法与系统 |
CN117473327A (zh) * | 2023-12-26 | 2024-01-30 | 中电科新型智慧城市研究院有限公司 | 区域人口模型训练方法及区域人口预测方法 |
CN117473327B (zh) * | 2023-12-26 | 2024-04-26 | 中电科新型智慧城市研究院有限公司 | 区域人口模型训练方法及区域人口预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116567547B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116567547B (zh) | 人口数据质量检验方法、系统和可读存储介质 | |
CN101442762B (zh) | 网络性能分析以及网络故障定位方法和装置 | |
CN116993227A (zh) | 一种基于人工智能的供热分析评估方法、系统及存储介质 | |
Zhang et al. | Multi-objective programming for energy system based on the decomposition of carbon emission driving forces: A case study of Guangdong, China | |
CN117575858B (zh) | 一种智能排课系统的管理方法、系统及存储介质 | |
Porteiro et al. | Short term load forecasting of industrial electricity using machine learning | |
US11381635B2 (en) | Method of operating a server apparatus for delivering website content, server apparatus and device in communication with server apparatus | |
CN112785067A (zh) | 数据预测方法及装置、设备、存储介质 | |
CN104254083B (zh) | 预测业务热点的方法及装置 | |
CN118245822B (zh) | 相似集合预报优化方法、装置、设备及介质 | |
CN111105050B (zh) | 风机维护计划的生成方法、装置、设备及存储介质 | |
CN115048451A (zh) | 一种基于业务与数据一体化的体系构建方法及系统 | |
CN116805203B (zh) | 基于物联网的施工管理方法及系统 | |
CN117056591B (zh) | 基于动态预测的电力缴费渠道智能推荐方法及系统 | |
CN118134141A (zh) | 一种分布式储能的微能源网的能源分配方法及系统 | |
CN116977091A (zh) | 个股投资组合的确定方法、装置、电子设备及可读存储介质 | |
CN117014324A (zh) | 域名信息监控方法、装置及电子设备 | |
CN114048886A (zh) | 基于神经网络的有效泊位组合预测方法、终端及存储介质 | |
CN113793162A (zh) | 物流数据处理方法及装置、存储介质、设备 | |
CN115062858B (zh) | 用户投诉行为预测方法、装置、设备及存储介质 | |
JP2020166529A (ja) | 消費電力予測システム、方法およびプログラム | |
CN114169730B (zh) | 一种基于机器学习的城市垃圾分类工作的评估方法及系统 | |
CN116703248A (zh) | 数据审核方法、装置、电子设备及计算机可读存储介质 | |
Oluwagbemiga et al. | Comprehensive Review on Modelling and Optimization of Budget Allocation for Procurement of Alternative Gas Sources in Power Plant Industry | |
CN118607827A (zh) | 基于深度学习的电力用户行为预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |