CN113723585A - 人口预测方法、装置、电子设备和存储介质 - Google Patents
人口预测方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113723585A CN113723585A CN202110368269.5A CN202110368269A CN113723585A CN 113723585 A CN113723585 A CN 113723585A CN 202110368269 A CN202110368269 A CN 202110368269A CN 113723585 A CN113723585 A CN 113723585A
- Authority
- CN
- China
- Prior art keywords
- information
- feature
- time
- characteristic
- population
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Human Resources & Organizations (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了人口预测方法、装置、电子设备和存储介质,涉及数据处理技术领域中的人工智能、深度学习技术领域。具体实现方案为:获取与目标时间相关的第一特征;获取与目标空间相关的第二特征;根据预设的深度学习网络对所述第一特征和所述第二特征进行特征融合处理,生成多源特征表征信息;根据与所述多源特征表征信息对应的人口训练数据和预设的损失函数训练所述深度学习网络进行人口预测。
Description
技术领域
本申请涉及数据处理技术领域中的人工智能、深度学习技术领域,尤其涉及一种人口预测方法、装置、电子设备和存储介质。
背景技术
借助实时性强、精准度高的人口预测技术,在进行与人口有关的决策时,会给出准确的结果,例如:精准的广告投放、收益高的店铺选址等。
相关技术中,通常采用单一数据源进行人口预测,但是单一数据源噪声大、特征弱、难以准确地建模与实际人口的关系。
发明内容
本申请提供了一种用于人口预测的方法、装置、设备以及存储介质。
根据本申请的第一方面,提供了一种人口预测方法,包括:
获取与目标时间相关的第一特征;
获取与目标空间相关的第二特征;
根据预设的深度学习网络对所述第一特征和所述第二特征进行特征融合处理,生成多源特征表征信息;
根据与所述多源特征表征信息对应的人口训练数据和预设的损失函数训练所述深度学习网络进行人口预测。
根据本申请的第二方面,提供了一种人口预测装置,包括:
第一获取模块,用于获取与目标时间相关的第一特征;
第二获取模块,用于获取与目标空间相关的第二特征;
第一生成模块,用于根据预设的深度学习网络对所述第一特征和所述第二特征进行特征融合处理,生成多源特征表征信息;
训练模块,用于根据与所述多源特征表征信息对应的人口训练数据和预设的损失函数训练所述深度学习网络进行人口预测。
根据本申请的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器有可悲所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,已使所述至少一个处理器能够执行本申请的第一方面所述的人口预测方法。
根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本申请的第一方面所述的人口预测方法。
根据本申请的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面所述的人口预测方法。
上述提供的技术方案,至少具有如下有益技术效果:
分别提取目标时间相关和目标空间相关的特征。经过特征提取,可以挖掘特征和人口数量更深层的关系,从而获取准确的人口预测结果。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一个实施例的人口预测方法的流程图;
图2是根据本申请第二个实施例的人口预测方法的流程图;
图3是根据本申请第三个实施例的人口预测方法的流程图;
图4是根据本申请第四个实施例的人口预测框架图;
图5是根据本申请第四个实施例的深度学习网络的结构示意图;
图6是根据本申请一个实施例的人口预测装置的结构框图;
图7是根据本申请另一个实施例的人口预测装置的结构框图;
图8是根据本申请又一个实施例的人口预测装置的结构框图;
图9是根据本申请又一个实施例的人口预测装置的结构框图;
图10是用来实现本申请实施例的人口预测方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请第一个实施例的人口预测方法的流程图。
如图1所示,该人口预测方法可以包括:
步骤101,获取与目标时间相关的第一特征。
在各种各样的数据中,有些数据随时间的变化较为明显,进而,可以从这些数据中获取与目标时间相关的第一特征,其中,目标时间可以为进行人口预测的时间点或时间段。根据不同的应用场景,可以选取符合场景需要的数据特征作为第一特征。为了更清楚地说明第一特征的具体内容,举例说明如下:
示例一,从报点信息中提取与目标时间相关的历史报点方差、实时报点人数、报点活跃人数中的一个或多个的组合。
在本申请一些实施例中,报点信息可以是应用程序的报点,在获得用户授权的情况下,应用程序可以上报信息。报点信息中存在多个时间点或一定时间段内的报点数据,可以根据目标时间从报点信息中提取报点数据。根据该报点数据可以计算出历史报点方差、实时报点人数、报点活跃人数中的任一或多个。
示例二,从订单信息中提取与目标时间相关的订单地址、订单用户数量中的一个或多个的组合。
可以理解地,订单信息也可以反映人口数量。在本申请一些实施例中,订单信息包括但不限于物流货物的订单、实体商铺的订单中的任一种。从订单信息中可以抽取得到与目标时间相关的订单信息。订单信息中通常包括订单地址、订单用户数量等信息。
示例三,从基站信息中提取与目标时间相关的基站实时到访人数。
可以理解地,基站信息也可以反映人口数量。在本申请一些实施例中,由于手机和基站之间会有通讯,且基站会记录下与基站进行通讯的人数,因此第一特征还可以包括从基站信息中提取的与目标时间相关的基站实时到访人数。
不同的信息通常适用于不同的场景,举例而言,报点信息对于住宅区和写字楼人口预测的影响较大;订单信息对于公交站和商圈人口预测的影响较大。基站信息则是可以使人口预测的实时性更强。本申请的一些实施例中,通过从所述三种信息中提取第一特征的方法将这三种信息联合了起来,消除了单一数据源存在的偏差,提高了人口预测精度。
步骤102,获取与目标空间相关的第二特征。
在各种各样的数据中,有些数据随空间的变化较为明显,进而,可以从这些数据中获取与目标空间相关的第一特征,其中,目标空间可以为进行人口预测的区域点或区域块。根据不同的应用场景,可以选取符合场景需要的数据特征作为第二特征。为了更清楚地说明第二特征的具体内容,举例说明如下:
示例一,从地块信息中提取目标空间的区域面积和/或区域周围房价。
地块信息可以是目标空间中地块相关的数据,地块信息中通常可以提取出区域面积和/或区域房价。其中,区域面积可以是地块的面积,也可以是地块内的建筑面积;区域房价可以是该地块内及周围的所有小区平均房价。
示例二,从交通信息中提取目标空间距离公共交通设施的最近距离。
可以理解地,交通也是影响人口数量的因素之一,在本申请一些实施例中,可以从交通信息中提取目标空间距离公共交通设施的最近距离。该距离包括但不限于直线距离、步行距离、车程距离中的任一种或多种。该公共交通设施包括但不限于:公交站、地铁站、地铁站、公路中的任一种或多种。举例而言,还可以将最近距离设置为一个定值,距离目标空间在该定值范围内的公共交通设施数量也可以认为是目标空间距离公共交通设施的最近距离的一个指标。
示例三,从人口普查信息中提取目标空间的人口数据。
可以理解地,人口普查信息也可以反映人口数量,在本申请一些实施例中,可以根据人口普查信息提取目标空间的人口数据。目标空间的人口数据可以为区域内人口数据的总和。
通过从获取第二特征,统一了颗粒度,从而提高了人口预测精度。
步骤103,根据预设的深度学习网络对第一特征和第二特征进行特征融合处理,生成多源特征表征信息。
在本申请一些实施例中,可以根据具体的应用场景需要选择合适的深度学习网络,该深度学习网络包括但不限于:多层前馈神经网络、两层神经网络中、多层感知机的任一种。可以将第一特征和第二特征作为预设的深度学习网络的输入,通过该深度学习网络对第一特征和第二特征进行融合处理,通过融合多个弱相关特征,挖掘出了多个弱相关特征的高阶相关性,解决了时间维度复杂、空间区域差异大的问题。该深度学习网络的输出是一个向量,该向量既有时间属性特征又有区域属性特征,可以称为多源特征表征信息。
步骤104,根据与多源特征表征信息对应的人口训练数据和预设的损失函数训练深度学习网络进行人口预测。
在本申请一些实施例中,对应该深度学习网络,可以预设一个损失函数,该损失函数包括但不限于:0-1损失函数、Log-Cosh损失函数中的任一种。可以理解地,第一特征和第二特征会对应一个人口训练数据,该人口训练数据与真实值之间的误差满足精准度需求。可以将第一特征和第二特征对应的多源特征表征信息作为深度学习网络的输入,第一特征和第二特征对应的人口训练数据作为深度学习网络的输出,根据人口训练数据和预设的损失函数对深度学习网络进行训练,所述深度学习网络经过训练之后可以进行人口预测。
根据本申请实施例的人口预测方法,获取第一特征和第二特征,获取的数据分别关于时间和区域完成了颗粒度的统一,使得模型的输入数据更加贴近目标时间和目标空间,从而使模型的人口预测结果更加精准。获取第一特征和第二特征之后,将第一特征和第二特征进行融合,从而可以挖掘出各个弱特征的高阶相关性,得到多元特征表征信息,解决了数据源数量少造成的噪声大、特征弱、包含信息量有限的问题,从而根据多源特征表征信息可以准确地建模与人口数量的关系,也可以使模型的人口预测结果更加精准。
本申请的第二实施例中,基于上述实施例,为了更好地体现时间和空间的特征,可以针对第一特征和第二特征分别生成时间融合特征信息和空间融合特征信息。为了更清楚地说明该方法,可以基于上述各实施例的人口预测方法,使用实施例二具体说明该方法。可选地,步骤103具体操作可以为步骤201-205。
为了更清楚地说明,可以通过图2具体说明,图2是根据本申请第二个实施例的人口预测方法的流程图,具体包括:
步骤201,根据预设的时序特征神经网络和第一模型参数对第一特征进行融合,生成时间融合特征信息。
在本申请一些实施例中,可以先预设时序特征神经网络网络,该时序特征神经网络包括但不限于:多层前馈神经网络、两层神经网络中的任一种。通过训练,可以得到该时序特征神经网络对应的第一模型参数。可以理解地,可以将第一特征作为时序特征神经网络的输入,根据第一模型参数,会输出一个向量,该向量可以称为时间融合特征信息。
举例而言,第一特征中可以包含:从报点信息中提取的报点数据从订单信息中提取的订单数据从基站信息中提取的基站数据预设的时序特征神经网络可以为多层神经网络ft,第一模型参数为θt,时间融合特征信息为Et,时间融合特征信息Et的计算公式如下:
步骤202,根据预设的空间特征神经网络和第二模型参数对第二特征进行融合,生成空间融合特征信息。
在本申请一些实施例中,可以先预设空间特征神经网络网络,该空间特征神经网络包括但不限于:多层前馈神经网络、两层神经网络中的任一种。通过训练,可以得到该空间特征神经网络对应的第二模型参数。可以理解地,可以将第二特征作为时序特征神经网络的输入,根据第二模型参数,会输出一个向量,该向量可以理解为空间融合特征信息。
举例而言,第二特征中可以包含:从地块信息中提取的区域面积Xa和区域房价Xp、从交通信息中提取的公共交通设施的最近距离Xd,预设的空间特征神经网络可以为多层神经网络fs,第二模型参数为θs,空间融合特征信息为Es,空间融合特征信息Es的计算公式如下:
Es=fs([Xt;Xo;Xm]|θs)
步骤203,根据预设的特征融合网络和第三模型参数对时间融合特征信息和空间融合特征信息进行融合,生成时空融合特征信息,并将时空融合特征信息作为多源特征表征信息。
在本申请一些实施例中,可以预设特征融合网络,该特征融合网络包括但不限于:多层前馈神经网络、两层神经网络、多层感知机中的任一种。通过训练可以得到该特征融合网络和第三模型参数,可以将时间融合特征和空间融合特征作为该特征融合网络的输入,该模型会输出一个向量,该向量即为时空融合特征信息,该时空融合特征信息可以作为多源特征表征信息。
举例而言,特征融合网络为ffusion,第三模型参数为θfusion,时间融合特征信息为Et,空间融合特征信息为Es,时空融合特征信息为Efusion,时空融合特征信息Efusion的计算公式如下:
Efusion=ffusion([Et;Es]|θfusion)
基于上述实施例,进一步地,在一些应用场景下,还可以将时空融合特征信息和时空编码信息拼接的结果作为多源特征表征信息。
具体地,步骤204,对目标时间和目标空间进行编码处理,生成时空编码信息。
举例而言,目标时间、目标空间可以是比第一特征、第二特征颗粒度更粗的特征。例如,目标时间可以是每个月的四个周中的一个,目标空间可以是北京市、上海市、南京市等城市信息中的一个。对目标时间和目标空间的编码处理可以是one-hot编码处理,例如,当对目标时间为每个月四个周中的一个时,对该目标时间进行编码处理时,第一周的编码为[1,0,0,0]、第二周的编码为[0,1,0,0]、第三周的编码为[0,0,1,0]第四周的编码为[0,0,0,1]。可以对目标空间也进行类似的编码处理。在本申请一些实施例中,还可以预先训练一个独热特征神经网络,得到独热模型参数,该独热特征神经网络包括但不限于:多层前馈神经网络、两层神经网络中的任一种,将目标时间和目标空间的编码作为输入,输出为时空编码信息。
举例而言,目标时间的编码处理为Xw,目标空间的编码处理为Xc,独热模型参数为θc,独热特征神经网络为fc,时空编码信息为Ec。时空编码信息为Ec的计算公式为:
Ec=fc([Xw;Xc]|θc)
步骤205,对时空融合特征信息和时空编码信息进行拼接处理,并将拼接结果作为多源特征表征信息。
举例而言,时空融合特征信息和时空编码信息都可以提升人口预测的精准度,但是时空编码信息的颗粒度比较粗,所以可以采取向后融合的方法,将时空融合特征信息和时空编码信息进行首尾拼接处理,即可以得到多源特征表征信息。
举例而言,时空融合特征信息为Efusion,时空编码信息为Ec,多源特征表征信息为Eall,多源特征表征信息Eall的计算公式为:
Eall=[Efusion;Ec]
根据本申请实施例的人口预测方法,使用神经网络分别将第一特征和第二特征进行融合,得到对应的时间融合特征信息和空间融合特征信息,然后使用神经网络将时间融合特征信息和空间融合特征信息进行融合,得到时空融合特征信息。在进行人口预测时,通常分别从时间和空间两个角度进行考虑。在本申请的一些实施例中,运用神经网络,根据时间相关的多个弱特征生成时间融合特征信息,进一步挖掘出了时间相关弱特征和人口数量的关系;根据空间相关的多个弱特征生成空间融合特征信息,进一步挖掘出了空间相关弱特征和人口数量的关系。并且根据时间融合特征信息和时空融合特征信息,生成时空融合特征信息,综合时间和空间两方面进行人口预测,可以使人口预测结果更加精准。
本申请的第三实施例中,基于上述实施例,为了使人口预测更精准,鲁棒性更强,设定了区间分类损失函数和回归损失函数。为了更清楚说明该技术手段,可以基于上述各实施例的人口预测方法,用实施例四具体说明该技术手段。在本申请的一些实施例中,还包括,步骤301-303。
如图3所示,图3是根据本申请第四个实施例的人口预测方法的流程图,具体包括:
步骤301,根据预设的回归预测误差对人口训练数据进行区间分类处理,获取区间分类损失函数。
举例而言,回归预测误差包括但不限于:平均绝对百分比误差、平均绝对误差中的任一种,区间分类损失函数包括但不限于:均方误差、均方根误差中的任一种。
在本申请一些实施例中,回归预测误差可以为MAPE(Mean Absolute PercentageError,平均绝对百分比误差),区间分类损失函数可以为MSE(Mean Square Error,均方误差),为人口预测值,Y为人口真实值,计算MAPE的公式为:
从计算MSE的公式中,可以看出,优化MSE等价于优化MAPE,因此在本实施例中,优化回归预测误差和优化区间分类损失函数不会冲突。
在本申请的一些实施例中,人口预测问题属于深度学习中的回归问题,可以根据预设的回归预测误差对人口训练数据进行处理,将该回归问题转化为区间预测问题,转化的过程包括:
步骤一,根据人口训练数据,将人口数量分为多个区间,并且设定一个分类误差阈值。
步骤二,在每个区间内设定一个区间代表值,该区间内的人口数量和区间代表值进行计算得到MAPE,该MAPE和分类误差阈值相比较。在该MAPE小于分类误差阈值的情况下,完成转化;在该MAPE大于分类误差阈值的情况下,对区间和/或分类误差阈值进行调整,直到该MAPE小于分类误差阈值。
在完成区间分类处理之后,可以采用负似然对数损失函数作为该区间分类损失函数。
通常,人工智能模型需要对准确率进行验证,常用的准确率的计算方法为整体的MAPE,整体的MAPE通常为每个人口预测结果对应的MAPE的平均值,整体的MAPE通常会因为小值预测得高而造成整体的MAPE偏高,不能真实地反映当下模型的训练效果。因此,在本申请的一些实施例中,可以计算满足需求的MAPE的人口预测在整体人口预测中的占比,并以该占比作为人口预测结果的准确率。
步骤302,获取与人口训练数据对应的回归损失函数。
在本申请一些实施例中,进行回归预测时,使用的回归损失函数包括但不限于:MSE、绝对值损失函数中的任一种。
步骤303,根据区间分类损失函数和回归损失函数生成预设的损失函数。
在本申请一些实施例中,预设的损失函数可以由区间分类损失函数和回归损失函数经过算数运算生成,该算数运算包括但不限于:乘法、加权求和中的任一种。
举例而言,分类损失函数为Lc,回归损失函数为Lr,α为调节参数,预设的损失函数为L,计算预设的损失函数的公式为:
L=Lr+αLc
在实际应用中,可以根据经验对α进行调节,得到训练模型效果满足需求的L。
根据本申请实施例的人口预测方法,将人口预测分为区间分类处理和回归处理,并且在区间分类损失函数和回归损失函数的共同约束下对深度学习网络进行训练,可以防止该深度学习网络陷入局部最优,避免过分关注小值的优化而提升整体MAPE,造成的模型过拟合。
为了更清楚地说明本申请实施例的人口预测方法,基于上述实施例,本申请还提出了第四实施例,为了更清楚地说明该实施例,可以结合图4进行说明,图4是根据本申请第五实施例的人口预测框架图。
如图4所示,时间属性数据包括:报点信息、订单信息、基站信息;区域属性数据包括地块信息、交通信息、人口普查。将时间属性数据和空间属性数据按照区域进行聚合。从经过区域聚合的时间属性数据中提取出第一特征,该第一特征包括:历史报点方差、实时报点人数、报点活跃人数、订单地址、订单用户、基站实时到访人数。从经过区域聚合的区域属性数据中提取出第二特征,该第二特征包括:区域面积、周围房价、最近公交站距离、最近地铁站距离、周围地铁站数目、最近公路距离、人口数量。
可选地,深度学习网络的输入还可以包括时间编码和区域编码。训练时,将该第一特征和第二特征作为深度学习网络的输入,入口训练数据作为该深度学习网络的输出,并且根据区间分类损失函数和回归损失函数对该深度学习网络进行训练。应用时,将第一特征和第二特征输入训练好的深度学习网络,该深度学习网络即可输出预测人口。
为了更清楚说明该深度学习网络,可以结合图5进行说明,图5是根据本申请第五实施例的深度学习网络的结构示意图。
如图5所示,该深度学习网络包括六个网络。具体为,将第一特征输入时序特征神经网络,该时序特征神经网络的输出为时间融合特征信息,将第二特征输入空间特征神经网络,该空间特征神经网络的输出为空间融合特征信息。将时间融合特征信息和空间融合特征信息输入特征融合网络,得到时空融合特征信息。将时间编码和区域编码输入编码融合网络,得到时空编码信息。将时空融合特征信息和时空编码信息进行拼接,该拼接即为特征融合,得到多源特征表征信息。将该多源特征表征信息分别输入回归神经网络和分类神经网络,分别得到回归预测结果和区间分类结果,可以取回归预测结果作为最终的人口预测。
其中,时序特征神经网络、空间特征神经网络、特征融合网络、编码融合网络可以是基于多层神经网络训练得到的;回归神经网络、分类神经网络可以是基于单层神经网络训练得到的。
根据本申请实施例的人口预测方法,通过区域聚合,获取了目标空间和目标时间相关的数据。采用多个弱相关数据对人口数量进行预测,挖掘了弱相关数据的高阶相关性,采用了区间分类损失函数和回归损失函数同时对深度学习网络进行训练,避免了该深度学习网络陷入局部最优,产生模型过拟合。
根据本申请的实施例,本申请还提供了一种人口预测装置。
图6是根据本申请一个实施例的人口预测装置的结构框图。如图6所示,该人口预测装置600可以包括:第一获取模块610,第二获取模块620,第一生成模块630,训练模块640。
具体地,第一获取模块610,用于获取与目标时间相关的第一特征。
第二获取模块620,用于获取与目标空间相关的第二特征。
第一生成模块630,用于根据预设的深度学习网络对第一特征和第二特征进行特征融合处理,生成多源特征表征信息。
训练模块640,用于根据与多源特征表征信息对应的人口训练数据和预设的损失函数训练深度学习网络进行人口预测。
在本申请一些实施例中,如图7所示,图7是根据本申请另一个实施例的人口预测装置的结构框图,该人口预测装置700中,第一生成模块730包括:第一生成单元731,第二生成单元732,融合单元733。
具体地,第一生成单元731,用于根据预设的时序特征神经网络和第一模型参数对第一特征进行融合,生成时间融合特征信息。
第二生成单元732,用于根据预设的空间特征神经网络和第二模型参数对第二特征进行融合,生成空间融合特征信息。
融合单元733,用于根据预设的特征融合网络和第三模型参数对时间融合特征信息和空间融合特征信息进行融合,生成时空融合特征信息,并将时空融合特征信息作为多源特征表征信息。
其中,图7中710、720、740和图6中610、620、640具有相同功能和结构。
在本申请一些实施例中,如图8所述,图8是根据本申请又一实施例的人口预测装置的结构框图,该人口预测装置800中第一生成模块830还包括:第三生成单元834,拼接单元835。
具体地,第三生成单元834,用于对目标时间和目标空间进行编码处理,生成时空编码信息。
拼接单元835,用于对时空融合特征信息和时空编码信息进行拼接处理,并将拼接结果作为多源特征表征信息。
其中,图8中810、820、840和图7中710、720、740具有相同功能和结构;图8中831-833和图7中731-733具有同样功能和结构。
在本申请一些实施例中,如图9所示,图9是根据本申请又一个实施例的人口预测装置的结构框图,该人口预测装置900还可以包括:第三获取模块950,第四获取模块960,第二生成模块970。
具体地,第三获取模块950,用于根据预设的回归预测误差对人口训练数据进行区间分类处理,获取区间分类损失函数。
第四获取模块960,用于获取与人口训练数据对应的回归损失函数。
第二生成模块970,用于根据区间分类损失函数和回归损失函数生成预设的损失函数。
其中图9中910-940和图8中810-840具有同样功能和结构。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处不做详细阐述说明。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本申请的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如人口预测方法。例如,在一些实施例中,人口预测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的人口预测方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行人口预测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
根据本申请实施例的人口预测方法,获取第一特征和第二特征,获取的数据分别关于时间和区域完成了颗粒度的统一,使得模型的输入数据更加贴近目标时间和目标空间,从而使模型的人口预测结果更加精准。提取出第一特征和第二特征之后,将第一特征和第二特征进行融合,从而可以挖掘出各个弱特征的高阶相关性,得到多元特征表征信息,解决了数据源数量少造成的噪声大、特征弱、包含信息量有限的问题,从而根据多源特征表征信息可以准确地建模与人口数量的关系,也可以使模型的人口预测结果更加精准。
第一特征数据中,报点信息、订单信息、基站信息受到市场份额和网络情况等条件的影响,不能直接地反映实时人口数量,只能从侧面反映人口数量。本申请的一些实施例中,通过从所述三种信息中提取第一特征的方法将这三种信息联合了起来,消除了单一数据源存在的偏差。提高了人口预测精度,通过获取第二特征,统一了颗粒度,提高了人口预测精度。
使用神经网络分别将第一特征和第二特征进行融合,得到对应的时间融合特征信息和空间融合特征信息,然后使用神经网络将时间融合特征信息和空间融合特征信息进行融合,得到时空融合特征信息。在进行人口预测时,通常分别从时间和空间两个角度进行考虑。本申请实施例运用神经网络,分别根据时间相关的多个弱特征生成时间融合特征信息,进一步挖掘出了时间相关弱特征和人口数量的关系;根据空间相关的多个弱特征生成空间融合特征信息,进一步挖掘出了空间相关弱特征和人口数量的关系。并且根据时间融合特征信息和时空融合特征信息,生成时空融合特征信息,综合时间和空间两方面进行人口预测,可以使人口预测结果更加精准。
将人口预测分为区间分类处理和回归处理,并且在区间分类损失函数和回归损失函数的共同约束下对深度学习网络进行训练,可以防止该深度学习网络陷入局部最优,避免过分关注小值的优化而提升整体MAPE,造成的模型过拟合。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (15)
1.一种人口预测方法,其特征在于,所述方法包括:
获取与目标时间相关的第一特征;
获取与目标空间相关的第二特征;
根据预设的深度学习网络对所述第一特征和所述第二特征进行特征融合处理,生成多源特征表征信息;
根据与所述多源特征表征信息对应的人口训练数据和预设的损失函数训练所述深度学习网络进行人口预测。
2.如权利要求1所述的方法,其特征在于,所述获取与目标时间相关的第一特征,包括:
从报点信息中提取与所述目标时间相关的历史报点方差、实时报点人数、报点活跃人数中的一个或多个的组合,和/或,
从订单信息中提取与所述目标时间相关的订单地址、订单用户数量中的一个或多个的组合,和/或,
从基站信息中提取与所述目标时间相关的基站实时到访人数。
3.如权利要求1所述的方法,其特征在于,所述获取与目标空间相关的第二特征,包括:
从地块信息中提取所述目标空间的区域面积和/或区域周围房价,和/或,
从交通信息中提取所述目标空间距离公共交通设施的最近距离,和/或,
从人口普查信息中提取所述目标空间的人口数据。
4.如权利要求1所述的方法,其特征在于,所述根据预设的深度学习网络对所述第一特征和所述第二特征进行特征融合处理,生成多源特征表征信息,包括:
根据预设的时序特征神经网络和第一模型参数对所述第一特征进行融合,生成时间融合特征信息;
根据预设的空间特征神经网络和第二模型参数对所述第二特征进行融合,生成空间融合特征信息;
根据预设的特征融合网络和第三模型参数对所述时间融合特征信息和所述空间融合特征信息进行融合,生成时空融合特征信息,并将所述时空融合特征信息作为所述多源特征表征信息。
5.如权利要求4所述的方法,其特征在于,还包括:
对所述目标时间和所述目标空间进行编码处理,生成时空编码信息;
对所述时空融合特征信息和所述时空编码信息进行拼接处理,并将拼接结果作为所述多源特征表征信息。
6.如权利要求1-5任一所述的方法,其特征在于,还包括:
根据预设的回归预测误差对所述人口训练数据进行区间分类处理,获取区间分类损失函数;
获取与所述人口训练数据对应的回归损失函数;
根据所述区间分类损失函数和所述回归损失函数生成所述预设的损失函数。
7.一种人口预测装置,其特征在于,所述装置包括:
第一获取模块,用于获取与目标时间相关的第一特征;
第二获取模块,用于获取与目标空间相关的第二特征;
第一生成模块,用于根据预设的深度学习网络对所述第一特征和所述第二特征进行特征融合处理,生成多源特征表征信息;
训练模块,用于根据与所述多源特征表征信息对应的人口训练数据和预设的损失函数训练所述深度学习网络进行人口预测。
8.如权利要求7所述的装置,其特征在于,所述第一获取模块,具体用于:
从报点信息中提取与所述目标时间相关的历史报点方差、实时报点人数、报点活跃人数中的一个或多个的组合,和/或,
从订单信息中提取与所述目标时间相关的订单地址、订单用户数量中的一个或多个的组合,和/或,
从基站信息中提取与所述目标时间相关的基站实时到访人数。
9.如权利要求7所述的方法,其特征在于,所述第二获取模块,具体用于:
从地块信息中提取所述目标空间的区域面积和/或区域周围房价,和/或,
从交通信息中提取所述目标空间距离公共交通设施的最近距离,和/或,
从人口普查信息中提取所述目标空间的人口数据。
10.如权利要求7所述的方法,其特征在于,所述第一生成模块,包括:
第一生成单元,用于根据预设的时序特征神经网络和第一模型参数对所述第一特征进行融合,生成时间融合特征信息;
第二生成单元,用于根据预设的空间特征神经网络和第二模型参数对所述第二特征进行融合,生成空间融合特征信息;
融合单元,用于根据预设的特征融合网络和第三模型参数对所述时间融合特征信息和所述空间融合特征信息进行融合,生成时空融合特征信息,并将所述时空融合特征信息作为所述多源特征表征信息。
11.如权利要求10所述的方法,其特征在于,还包括:
第三生成单元,用于对所述目标时间和所述目标空间进行编码处理,生成时空编码信息;
拼接单元,用于对所述时空融合特征信息和所述时空编码信息进行拼接处理,并将拼接结果作为所述多源特征表征信息。
12.如权利要求7-11任一所述的方法,其特征在于,还包括:
第三获取模块,用于根据预设的回归预测误差对所述人口训练数据进行区间分类处理,获取区间分类损失函数;
第四获取模块,用于获取与所述人口训练数据对应的回归损失函数;
第二生成模块,用于根据所述区间分类损失函数和所述回归损失函数生成所述预设的损失函数。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110368269.5A CN113723585A (zh) | 2021-04-06 | 2021-04-06 | 人口预测方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110368269.5A CN113723585A (zh) | 2021-04-06 | 2021-04-06 | 人口预测方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113723585A true CN113723585A (zh) | 2021-11-30 |
Family
ID=78672625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110368269.5A Pending CN113723585A (zh) | 2021-04-06 | 2021-04-06 | 人口预测方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723585A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328654A (zh) * | 2021-12-10 | 2022-04-12 | 北京融信数联科技有限公司 | 一种基于大数据的人口统计方法、系统和可读存储介质 |
-
2021
- 2021-04-06 CN CN202110368269.5A patent/CN113723585A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328654A (zh) * | 2021-12-10 | 2022-04-12 | 北京融信数联科技有限公司 | 一种基于大数据的人口统计方法、系统和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Suryani et al. | Dynamic simulation model of air cargo demand forecast and terminal capacity planning | |
CN113240936B (zh) | 停车区域推荐方法、装置、电子设备和介质 | |
CN112561191A (zh) | 预测模型的训练、预测方法、装置、设备、程序和介质 | |
CN112652036A (zh) | 道路数据的处理方法、装置、设备及存储介质 | |
CN105719221A (zh) | 针对多任务的路径协同规划方法和装置 | |
EP4123595A2 (en) | Method and apparatus of rectifying text image, training method and apparatus, electronic device, and medium | |
CN115390161A (zh) | 基于人工智能的降水预测方法及装置 | |
Noursalehi et al. | Predictive decision support platform and its application in crowding prediction and passenger information generation | |
WO2022252843A1 (zh) | 时空数据处理模型的训练方法、装置、设备及存储介质 | |
CN116028730A (zh) | 搜索资源异常识别方法、装置及电子设备 | |
CN113723585A (zh) | 人口预测方法、装置、电子设备和存储介质 | |
US20240169462A1 (en) | Online ride-hailing information processing method, device and computer storage medium | |
CN112287503B (zh) | 用于交通需求预测的动态空间网络构建方法 | |
CN103678322A (zh) | 一种样本数据的整合系统及方法 | |
CN116070385B (zh) | 一种境外矿产资源供应链风险自动识别方法及系统 | |
CN115660728B (zh) | 一种机票销售订单预测方法、装置、电子设备和存储介质 | |
CN114742280B (zh) | 路况预测方法及相应的模型训练方法、装置、设备及介质 | |
CN113806585B (zh) | 一种获取路段通行时长的方法、装置、电子设备及存储介质 | |
CN114095390B (zh) | 区域内对象流量的预测方法、装置、设备及存储介质 | |
CN113112311B (zh) | 训练因果推断模型的方法、信息提示方法以装置 | |
CN114329238A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN114742263B (zh) | 负荷预测方法、装置、电子设备及存储介质 | |
CN115345716B (zh) | 订单履约时长的预估方法、系统、介质及电子设备 | |
US11686590B2 (en) | Correcting speed estimations using aggregated telemetry data | |
US20200364809A1 (en) | Hybrid price presentation strategy using a probabilistic hotel demand forecast model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |