CN113177806A - 一种信息处理方法、装置及设备 - Google Patents

一种信息处理方法、装置及设备 Download PDF

Info

Publication number
CN113177806A
CN113177806A CN202110542156.2A CN202110542156A CN113177806A CN 113177806 A CN113177806 A CN 113177806A CN 202110542156 A CN202110542156 A CN 202110542156A CN 113177806 A CN113177806 A CN 113177806A
Authority
CN
China
Prior art keywords
information
value
parcel
influence factor
plot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110542156.2A
Other languages
English (en)
Inventor
孟鸿程
杨晓雅
刘宗禹
李雪纯
匡济
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Shanghai ICT Co Ltd
CM Intelligent Mobility Network Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Shanghai ICT Co Ltd
CM Intelligent Mobility Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Shanghai ICT Co Ltd, CM Intelligent Mobility Network Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110542156.2A priority Critical patent/CN113177806A/zh
Publication of CN113177806A publication Critical patent/CN113177806A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供了一种信息处理方法、装置及设备,其中,信息处理方法包括:获取交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息;根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;其中,所述交通出行数据信息包括:用户职住地数据信息和用户移动轨迹链路位置数据信息中的任意项;所述第一地块价值影响因素信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项。本方案很好的解决了现有技术中针对地块价值的预测模型建立的信息处理方案精度低的问题。

Description

一种信息处理方法、装置及设备
技术领域
本发明涉及信息处理技术领域,尤其涉及一种信息处理方法、装置及设备。
背景技术
目前,针对地块价值的评估有多种方案;比如:基于大数据的城市板块商业价值的评估方法,具体通过板块人口密度、交通便利性和综合消费力的总和获取综合商业价值,其中交通便利性通过板块人口的通勤时长和通勤距离计算。再比如:一种基于大数据及智能决策机制的工业地块估计方法,通过综合多种影响因素构建模型,其中的交通因素是指土地所处位置的交通便利性。
由上可知,在现有的地块价值评估方法中,通过综合多种影响因素分析地块价值,建立一套分析方法或一个评价模型,所采用的交通因素是交通便利性,包括周边交通站点和通勤状况等信息。
但是,所考虑的因素仍然不够全面,并且所建立的评价模型(即预测模型)的预测精度较低。
也就是,现有技术中针对地块价值的预测模型建立的信息处理方案存在精度低等问题。
发明内容
本发明的目的在于提供一种信息处理方法、装置及设备,以解决现有技术中针对地块价值的预测模型建立的信息处理方案精度低的问题。
为了解决上述技术问题,本发明实施例提供一种信息处理方法,包括:
获取交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息;
根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;
其中,所述交通出行数据信息包括:用户职住地数据信息和用户移动轨迹链路位置数据信息中的任意项;
所述第一地块价值影响因素信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项。
可选的,所述根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型,包括:
根据所述交通出行数据信息,得到第二地块价值影响因素信息;
根据所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;
其中,所述第二地块价值影响因素信息包括:地块停留属性信息和地块途经属性信息中的任意项。
可选的,所述根据所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型,包括:
将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集;
根据所述训练集,采用第一方式构建至少两种类型的地块价值预测模型;
根据所述测试集和评价指标,从所述至少两种类型的地块价值预测模型中得到目标预测模型;
其中,所述第一方式包括利用栈式自编码器构建神经网络得到预测模型的方式。
可选的,在将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集之前,还包括:
根据地块属性信息,对所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息进行分类;
所述将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息划分为训练集和测试集,包括:
将分类后的所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为针对各地块属性类别的训练集和测试集;
其中,所述地块属性信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项。
可选的,所述评价指标包括均方根误差和平均绝对百分比误差中的至少一项。
本发明实施例还提供了一种信息处理装置,包括:
第一获取模块,用于获取交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息;
第一建立模块,用于根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;
其中,所述交通出行数据信息包括:用户职住地数据信息和用户移动轨迹链路位置数据信息中的任意项;
所述第一地块价值影响因素信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项。
可选的,所述根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型,包括:
根据所述交通出行数据信息,得到第二地块价值影响因素信息;
根据所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;
其中,所述第二地块价值影响因素信息包括:地块停留属性信息和地块途经属性信息中的任意项。
可选的,所述根据所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型,包括:
将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集;
根据所述训练集,采用第一方式构建至少两种类型的地块价值预测模型;
根据所述测试集和评价指标,从所述至少两种类型的地块价值预测模型中得到目标预测模型;
其中,所述第一方式包括利用栈式自编码器构建神经网络得到预测模型的方式。
可选的,还包括:
第一分类模块,用于在将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集之前,根据地块属性信息,对所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息进行分类;
所述将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息划分为训练集和测试集,包括:
将分类后的所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为针对各地块属性类别的训练集和测试集;
其中,所述地块属性信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项。
可选的,所述评价指标包括均方根误差和平均绝对百分比误差中的至少一项。
本发明实施例还提供了一种信息处理设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器执行所述程序时实现上述的信息处理方法。
本发明实施例还提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的信息处理方法中的步骤。
本发明的上述技术方案的有益效果如下:
上述方案中,所述信息处理方法通过获取交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息;根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;其中,所述交通出行数据信息包括:用户职住地数据信息和用户移动轨迹链路位置数据信息中的任意项;所述第一地块价值影响因素信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项;能够实现结合交通出行数据等因素以确定更优的预测模型,这样考虑了更全面的因素、提升了预测模型的预测精度,也就是提升了对应信息处理方案的精度,很好的解决了现有技术中针对地块价值的预测模型建立的信息处理方案精度低的问题。
附图说明
图1为本发明实施例的信息处理方法流程示意图;
图2为本发明实施例的信息处理方法具体实现流程示意图一;
图3为本发明实施例的信息处理方法具体实现流程示意图二;
图4为本发明实施例的信息处理装置结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的技术中针对地块价值的预测模型建立的信息处理方案精度低的问题,提供一种信息处理方法,如图1所示,包括:
步骤11:获取交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息。
交通出行数据可实现为城市人口交通出行轨迹数据;本发明实施例中,步骤11具体可以包括:根据终端信令数据信息或网络定位数据信息,获取交通出行数据信息。
进一步的,在根据终端信令数据信息或网络定位数据信息,获取交通出行数据信息之前,还可以包括:对所述终端信令数据信息或网络定位数据信息进行异常数据处理;其中,所述异常数据包括漂移数据和乒乓数据中的任意项。
这样能够进一步提升后续得到的预测模型的预测精度。
步骤12:根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;其中,所述交通出行数据信息包括:用户职住地数据信息和用户移动轨迹链路位置数据信息中的任意项;所述第一地块价值影响因素信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项。
本发明实施例提供的所述信息处理方法通过获取交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息;根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;其中,所述交通出行数据信息包括:用户职住地数据信息和用户移动轨迹链路位置数据信息中的任意项;所述第一地块价值影响因素信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项;能够实现结合交通出行数据等因素以确定更优的预测模型,这样考虑了更全面的因素、提升了预测模型的预测精度,也就是提升了对应信息处理方案的精度,很好的解决了现有技术中针对地块价值的预测模型建立的信息处理方案精度低的问题。
具体的,这样可实现从交通出行数据(可包括居民交通出行数据)中提取可能影响地块价值的因素,并结合其他因素建立基于交通大数据的地块价值预测模型,分析交通出行数据对地块价值预测模型的影响;进而实现通过本方案中建立的地块价值预测模型能够更准确的预测地块价值。
本发明实施例中,所述根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型,包括:根据所述交通出行数据信息,得到第二地块价值影响因素信息;根据所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;其中,所述第二地块价值影响因素信息包括:地块停留属性信息和地块途经属性信息中的任意项。
这样能够考虑更多方面的因素以得到精度更高的地块价值预测模型。
本发明实施例中,所述根据所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型,包括:将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集;根据所述训练集,采用第一方式构建至少两种类型的地块价值预测模型;根据所述测试集和评价指标,从所述至少两种类型的地块价值预测模型中得到目标预测模型;其中,所述第一方式包括利用栈式自编码器构建神经网络得到预测模型的方式。
其中,在构建地块价值预测模型时具体可利用网格搜索(Grid Search)确定最优参数(即目标参数信息)。
这样可以进一步得到精度更高的地块价值预测模型。
本发明实施例中,在将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集之前,还包括:针对所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,进行数据清洗及数据标准化处理。
其中,数据清洗具体可包括:设定阈值剔除异常值(如某地块消费品价格超过相邻地块价格两倍以上则剔除)或通过聚类识别异常数据(如通过K-means聚类将原始数据分簇,对某些远偏离平均水平的簇进行删除);数据标准化处理具体可包括:可采用Z-score方法进行标准化处理,使各指标处于同一数量级上。
这样能够保证数据的精准性和统一性。
进一步的,在将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集之前,还包括:根据地块属性信息,对所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息进行分类;所述将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息划分为训练集和测试集,包括:将分类后的所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为针对各地块属性类别的训练集和测试集;其中,所述地块属性信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项。
这样可以实现根据地块不同属性建立不同的模型,以进一步提升后续的预测模型的预测精度。
本发明实施例中,所述评价指标可包括均方根误差和平均绝对百分比误差中的至少一项。
下面对本发明实施例提供的所述信息处理方法进行进一步说明。
针对上述技术问题,考虑到交通出行数据对地块价值的影响,具体包括地块常住人口数量、途经该地块人次、停留人次和总停留时间等数据,可将交通出行数据作为地块价值评估的输入变量进行预测;本发明实施例提供了一种信息处理方法,具体可实现为一种基于交通大数据的地块价值预测模型的构建方案,如图2所示,本发明实施例提供的方案具体可包括:
步骤21:获取交通出行数据;
具体的:基于手机信令数据(上述终端信令数据的一种具体实现)或网络定位数据获取城市人口交通出行轨迹数据(对应于上述交通出行数据信息),包括(但不限于)用户职住地等静态属性数据和用户移动轨迹链路位置数据等动态属性数据。
更具体的,涉及以下:
(1)预处理位置数据。
基于手机信令数据获取交通出行轨迹数据(即上述城市人口交通出行轨迹数据)时,需进行漂移数据和乒乓数据等异常数据处理;基于网络定位数据也需进行漂移数据处理。
手机信号可能从附近的基站突然切换到位置较远的基站,并在一定时间后切换回来,即发生了信号漂移。设立阈值L,若某点(即某条数据所对应的地理位置)与相邻点(即所述某条数据的相邻数据所对应的地理位置)之间的距离超过L且该点的两个相邻点间距小于2L,则该点为漂移点,将该记录(即该点对应的那条数据)删除,完成漂移数据处理。
信令数据可能出现在两个及以上基站之间频繁切换的现象,即乒乓切换。如果按时间上相邻的基站记录排序,每次扫描连续两点,若某次扫描的起始点与之后切换的结束点位置相同,且切换发生两次以上,则可能发生乒乓切换现象。设立阈值t,若所有相邻点时间差小于t,则标记为乒乓切换点。对乒乓切换点保留第一点和最后一点,其余进行删除处理。
(2)获取用户职住地数据。
其中,可以通过累积时间法获取手机用户职住地信息。
设立阈值T1,设立比例阈值P1,在某月中,用户在某点某日夜间(如19点到次日9点)停留时长超过阈值T1的总天数与该月总天数的比例超过阈值P1,则判定该用户为该点的常住人口,判定该点为居住地点;
设立阈值T2,设立比例阈值P2,在某月中,用户在某点某日日间(9点到19点)停留时长超过阈值T2的总天数与该月总天数的比例超过阈值P2,则判定该用户为该点的工作人口,判定该点为工作地点。
其中,T1、T2、P1、P2的选择可以基于相关文献研究或统计数据的指标,结合该城市居民平均工作时间和作息规律进行表征。
(3)获取用户移动轨迹链路位置数据。
设立阈值T3,在某点停留时长超过该阈值则标记为停留点。对于连续记录中基站位置未发生变化的数据,仅保留其初始点和结束点,其他数据删除,以初始点和结束点的时间记录之差作为停留时长。
其中,T3的设置需综合考虑用户的行程速度确定,例如以一定时间段内停留时长的75位百分数确定停留时长的阈值。
由于手机信令数据为手机(终端的一种具体实现)按照上网和/或通话等事件类型主动上报或按照固定时间周期被动上报其位置数据,包含了用户从开机到关机全量的基站位置数据,而该数据量过于庞大,为了减小系统的存储量和输入模型的计算量,又不失去能够体现用户移动出行的特点,采取上述方法保留用户的停留点位置信息,并按照时间顺序依次组成用户移动轨迹链路位置数据。
(4)获取最终出行轨迹数据(即上述城市人口交通出行轨迹数据)。
可通过IMSI(国际移动用户识别码)将用户移动轨迹链路位置数据和用户职住地属性进行关联,组成城市人口交通出行轨迹数据(包含职住地、停留点和途经点等),从而使其位置数据具有可解释性,便于分析用户通勤特征。
其中,用户移动轨迹链路位置数据和用户职住地属性数据都包含有用户IMSI字段,可通过该字段将数据表进行合并,具体可以基于Python利用NumPy和Pandas包完成合并。
步骤22:从交通出行数据中提取影响地块价值的因素,获取其他影响地块价值的数据;
具体的,可利用交通出行轨迹数据获取各城市地块交通出行数据,包括地块常住人口数量、途经该地块人次、停留人次和停留时间等,同时获取其他影响地块价值的数据以及土地价格数据。其他影响地块价值的数据包括地块功能属性、地块交通属性和地块消费属性等数据。
更具体的,涉及以下:
(1)获取可能影响地块价值的交通因素数据。
确定城市地块划分方法或需求,划分城市地块。若利用手机信令数据获取交通出行数据,则可根据基站位置构建泰森多边形确定基站覆盖范围,根据泰森多边形与各地块的面积比例将人数分配至不同地块。根据基站服务的泰森多边形落在不同地块内的面积比例确定该基站在不同地块人数的分配,统计地块内所有泰森多边形分配的人数作为该地块的总人数。
基于交通出行数据提取各地块常住人口数量、工作人口数量、途经该地块人次、停留人次和总停留时间等可能影响地块价值的因素。
(2)获取其他影响地块价值的数据,包括地块功能属性、地块交通属性和地块消费属性等。
本发明实施例中,可以从数据库渠道获取其他影响地块价值的数据,影响地块价值数据包括地块功能属性、地块交通属性和地块消费属性等。
其中:地块功能属性可包含:地块人口密度、地块周边设施(商场、医院和/或学区等)。地块交通属性可包含:地块通勤特征(平均通勤时长、平均通勤距离和/或驻留途径人次)、地块交通便利特征(公交和/或地铁站点个数)。地块消费属性可包含:地块常驻人口消费能力指数、周末和/或节假日外来人口消费指数(消费数据也可由手机信令B域画像数据得到,例如用话费、流量、ARPU(每用户平均收入,Average Revenue Per User)和/或DOU(平均每户每月上网流量,Dataflow Of Usage)等)。
(3)获取所有影响地块价值的数据。
具体的,影响地块价值的因素包含以下特征,如表1所示。
表1:地块价值影响因素
Figure BDA0003072216110000101
Figure BDA0003072216110000111
(4)获取地块价值数据。
地块价值可以直接通过网络渠道采用平均房价或租金等数据等表征。
步骤23:构建地块价值预测模型(对应于得到上述目标预测模型);
具体的:建立地块价值预测模型,可以根据地块不同属性(如商业、住宅和/或工业)建立不同的模型(对应于上述在将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集之前,根据地块属性信息,对所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息进行分类;将分类后的所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为针对各地块属性类别的训练集和测试集;根据所述训练集,采用第一方式构建至少两种类型的地块价值预测模型等)。关于地块价值预测模型构建流程可如图3所示,包括:
步骤31:根据自变量和因变量进行数据预处理(对应于上述针对所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,行数据清洗及数据标准化处理);自变量可包括地块功能属性(包括人口状况、地块周边设施、用地属性、周边企业信息等)、地块交通属性(包括人口消费能力、地块消费品价格等)以及由交通出行数据得到的职住人口数量、途径该地块人次、停留人次、总停留时间等;因变量包括地块价值(对应于上述实际地块价值信息);
具体可包括:数据清洗及数据标准化处理。
关于数据清洗,可设定阈值剔除异常值(如某地块消费品价格超过相邻地块价格两倍以上则剔除)或通过聚类识别异常数据(如通过K-means聚类将原始数据分簇,对某些远偏离平均水平的簇进行删除);关于数据标准化处理,可采用Z-score方法进行标准化处理,使各指标处于同一数量级上。
其中,Z-score标准化方式可如下:
Figure BDA0003072216110000121
其中,x为原始数据,x′为标准化后数据,μ为原始数据的平均值,σ为原始数据的标准差。
步骤32:数据划分;具体的划分训练集和测试集(对应于上述将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集)。
本发明实施例中,可随机将数据集(即上述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息)划分为训练集和测试集,其中可80%为训练集,20%为测试集。训练集用于训练模型,测试集用于评估模型可靠性。
步骤33:模型训练;
具体可理解为,构建地块价值预测模型(对应于上述根据所述训练集,采用第一方式构建至少两种类型的地块价值预测模型)。
具体的,以地块价值为因变量,基于交通出行数据获取的影响因素及其他数据为自变量,构建地块价值预测模型。其中,自变量和因变量数据可采取不同时间段数据,例如选择某月的影响因素数据为自变量,次月的地块价值为因变量。
本发明实施例中,可以建立多个预测模型(对应于上述至少两种类型的地块价值预测模型)并进行训练。其中可包括分类模型和回归模型,具体可包括多元线性回归模型、支持向量机或者集成学习模型。以XGBoost为例,利用Python调入xgboost包,设置学习率eta=0.2,最大深度max_depth=6,其他参数选择默认值,直接进行训练。
具体的,本发明实施例中可以采用栈式自编码器构建神经网络进行地块价值预测(即构建预测模型,对应于采用上述第一方式构建地块价值预测模型)。
更具体的,可利用地块价值影响因素数据作为输入数据训练第一个隐藏层,获得相关权重参数,之后利用该隐藏层作为下一个自编码器的输入,训练第二个隐藏层,依次类推,最后构建自编码器神经网络模型。
本发明实施例中,可在栈式自编码器的顶层加入预测层构成栈式自编码神经网络预测模型,且利用监督学习的方法对栈式自编码器构建的深层神经网络进行微调,以使栈式自编码器学习到输入数据特征的最佳表示。之后可将栈式自编码模型各层参数的预训练结果作为初始权值,反向传播所有层的权重参数,计算整体网络的误差代价函数,通过梯度下降法,反复迭代更新网络参数,使得网络整体的误差代价函数达到最小,并完成训练。
本发明实施例中,可利用网格搜索(Grid Search)确定最优参数,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集(属于训练集)上精度最高的参数。
其中,地块价值预测的栈式自编码神经网络模型需要两个超参数,隐藏层数量和隐藏层中的神经元数目,可通过使用Python scikit-learn包中的GridSearchCV进行网格搜索,确定不同参数选择下的评价指标值,确定最优的隐藏层数量和每层的神经元数目。在进行网格搜索时,对不同参数的效果需要进行验证,这里可以采用K折交叉验证(K-foldCross Validation)方法。将训练集随机分为K份,每次选择其中的K-1份作为训练集,剩下的一份作为验证集,验证在当前所选参数下模型的性能。
最后以预测性能最好的参数作为模型参数,并将预测值进行反归一化,获得预测的地块价值。
步骤34:计算模型评价指标;
步骤35:选择最优模型;
具体就是,根据评价指标选择最优模型(对应于上述根据所述测试集和评价指标,从所述至少两种类型的地块价值预测模型中得到目标预测模型)。
关于模型指标可选择为均方根误差(Root mean square error,RMSE)和平均绝对百分比误差(Mean absolute percentage error,MAPE)。对应公式如下,其中yi表示真实地块价值,
Figure BDA0003072216110000131
表示预测地块价值(具体可为yi对应的预测地块价值),n表示yi的个数,也可以是
Figure BDA0003072216110000132
的个数。
Figure BDA0003072216110000133
Figure BDA0003072216110000141
将步骤33训练完成的模型用于测试集中的自变量,比较模型输出和因变量之间的差异,求解不同模型的RMSE和MAPE,可选择两项数值都较小的模型作为最终的地块价值预测模型(即最优模型)。
由上可知,本发明实施例提供的方案涉及:采用从居民交通出行数据(全生命周期出行链)中提取地块价值影响因素的方案,达到综合交通大数据和其他数据以增加地块价值预测模型全面性的技术效果。
具体的,通过手机信令数据或网络定位数据获取居民交通出行数据,从中提取影响地块价值的因素并构建预测模型,能够量化交通对地块价值的影响。
综上,本发明实施例提供的方案能够:基于手机信令数据和网络定位数据获取居民交通出行数据,从居民交通出行数据中提取可能影响地块价值的因素,并结合其他因素建立基于交通大数据的地块价值预测模型,分析交通出行数据对地块价值预测模型的影响。
本发明实施例还提供了一种信息处理装置,如图4所示,包括:
第一获取模块41,用于获取交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息;
第一建立模块42,用于根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;
其中,所述交通出行数据信息包括:用户职住地数据信息和用户移动轨迹链路位置数据信息中的任意项;
所述第一地块价值影响因素信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项。
本发明实施例提供的所述信息处理装置通过获取交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息;根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;其中,所述交通出行数据信息包括:用户职住地数据信息和用户移动轨迹链路位置数据信息中的任意项;所述第一地块价值影响因素信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项;能够实现结合交通出行数据等因素以确定更优的预测模型,这样考虑了更全面的因素、提升了预测模型的预测精度,也就是提升了对应信息处理方案的精度,很好的解决了现有技术中针对地块价值的预测模型建立的信息处理方案精度低的问题。
本发明实施例中,所述根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型,包括:根据所述交通出行数据信息,得到第二地块价值影响因素信息;根据所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;其中,所述第二地块价值影响因素信息包括:地块停留属性信息和地块途经属性信息中的任意项。
其中,所述根据所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型,包括:将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集;根据所述训练集,采用第一方式构建至少两种类型的地块价值预测模型;根据所述测试集和评价指标,从所述至少两种类型的地块价值预测模型中得到目标预测模型;其中,所述第一方式包括利用栈式自编码器构建神经网络得到预测模型的方式。
进一步的,所述的信息处理装置,还包括:第一分类模块,用于在将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集之前,根据地块属性信息,对所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息进行分类;所述将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息划分为训练集和测试集,包括:将分类后的所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为针对各地块属性类别的训练集和测试集;其中,所述地块属性信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项。
本发明实施例中,所述评价指标包括均方根误差和平均绝对百分比误差中的至少一项。
其中,上述信息处理方法的所述实现实施例均适用于该信息处理装置的实施例中,也能达到相同的技术效果。
本发明实施例还提供了一种信息处理设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;所述处理器执行所述程序时实现上述的信息处理方法。
其中,上述信息处理方法的所述实现实施例均适用于该信息处理设备的实施例中,也能达到相同的技术效果。
本发明实施例还提供了一种可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的信息处理方法中的步骤。
其中,上述信息处理方法的所述实现实施例均适用于该可读存储介质的实施例中,也能达到相同的技术效果。
需要说明的是,此说明书中所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。
本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述原理前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种信息处理方法,其特征在于,包括:
获取交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息;
根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;
其中,所述交通出行数据信息包括:用户职住地数据信息和用户移动轨迹链路位置数据信息中的任意项;
所述第一地块价值影响因素信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项。
2.根据权利要求1所述的信息处理方法,其特征在于,所述根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型,包括:
根据所述交通出行数据信息,得到第二地块价值影响因素信息;
根据所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;
其中,所述第二地块价值影响因素信息包括:地块停留属性信息和地块途经属性信息中的任意项。
3.根据权利要求2所述的信息处理方法,其特征在于,所述根据所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型,包括:
将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集;
根据所述训练集,采用第一方式构建至少两种类型的地块价值预测模型;
根据所述测试集和评价指标,从所述至少两种类型的地块价值预测模型中得到目标预测模型;
其中,所述第一方式包括利用栈式自编码器构建神经网络得到预测模型的方式。
4.根据权利要求3所述的信息处理方法,其特征在于,在将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集之前,还包括:
根据地块属性信息,对所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息进行分类;
所述将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息划分为训练集和测试集,包括:
将分类后的所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为针对各地块属性类别的训练集和测试集;
其中,所述地块属性信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项。
5.根据权利要求3所述的信息处理方法,其特征在于,所述评价指标包括均方根误差和平均绝对百分比误差中的至少一项。
6.一种信息处理装置,其特征在于,包括:
第一获取模块,用于获取交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息;
第一建立模块,用于根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;
其中,所述交通出行数据信息包括:用户职住地数据信息和用户移动轨迹链路位置数据信息中的任意项;
所述第一地块价值影响因素信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项。
7.根据权利要求6所述的信息处理装置,其特征在于,所述根据所述交通出行数据信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型,包括:
根据所述交通出行数据信息,得到第二地块价值影响因素信息;
根据所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型;
其中,所述第二地块价值影响因素信息包括:地块停留属性信息和地块途经属性信息中的任意项。
8.根据权利要求7所述的信息处理装置,其特征在于,所述根据所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,建立地块价值预测模型,包括:
将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集;
根据所述训练集,采用第一方式构建至少两种类型的地块价值预测模型;
根据所述测试集和评价指标,从所述至少两种类型的地块价值预测模型中得到目标预测模型;
其中,所述第一方式包括利用栈式自编码器构建神经网络得到预测模型的方式。
9.根据权利要求8所述的信息处理装置,其特征在于,还包括:
第一分类模块,用于在将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为训练集和测试集之前,根据地块属性信息,对所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息进行分类;
所述将所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息划分为训练集和测试集,包括:
将分类后的所述第二地块价值影响因素信息、第一地块价值影响因素信息以及对应的实际地块价值信息,划分为针对各地块属性类别的训练集和测试集;
其中,所述地块属性信息包括:地块功能属性信息、地块交通属性信息和地块消费属性信息中的任意项。
10.根据权利要求8所述的信息处理装置,其特征在于,所述评价指标包括均方根误差和平均绝对百分比误差中的至少一项。
11.一种信息处理设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序;其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的信息处理方法。
12.一种可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述的信息处理方法中的步骤。
CN202110542156.2A 2021-05-18 2021-05-18 一种信息处理方法、装置及设备 Pending CN113177806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110542156.2A CN113177806A (zh) 2021-05-18 2021-05-18 一种信息处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110542156.2A CN113177806A (zh) 2021-05-18 2021-05-18 一种信息处理方法、装置及设备

Publications (1)

Publication Number Publication Date
CN113177806A true CN113177806A (zh) 2021-07-27

Family

ID=76929304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110542156.2A Pending CN113177806A (zh) 2021-05-18 2021-05-18 一种信息处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113177806A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242747A1 (en) * 2014-02-26 2015-08-27 Nancy Packes, Inc. Real estate evaluating platform methods, apparatuses, and media
CN108960893A (zh) * 2018-06-06 2018-12-07 深圳市和讯华谷信息技术有限公司 基于大数据的城市板块商业价值的评估方法和装置
CN109345035A (zh) * 2018-10-31 2019-02-15 平安直通咨询有限公司 房屋价值预测方法、装置、计算机设备和存储介质
CN109376936A (zh) * 2018-10-31 2019-02-22 平安直通咨询有限公司 房屋价值预测方法、装置、计算机设备和存储介质
CN109523068A (zh) * 2018-10-31 2019-03-26 平安直通咨询有限公司 房屋价值预测方法、装置、计算机设备和存储介质
CN110033312A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 房价预测模型的生成方法、装置、设备及存储介质
CN111882356A (zh) * 2020-07-28 2020-11-03 成都智库二八六一信息技术有限公司 一种要素量化和可视化评估房屋价格的方法
CN111951059A (zh) * 2020-08-24 2020-11-17 深圳禾略贝塔信息科技有限公司 一种房地产估值方法、装置、终端以及可读存储介质
CN112465561A (zh) * 2020-12-09 2021-03-09 中国科学院空天信息创新研究院 用于房产估值的模型建立方法、装置、介质及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242747A1 (en) * 2014-02-26 2015-08-27 Nancy Packes, Inc. Real estate evaluating platform methods, apparatuses, and media
CN108960893A (zh) * 2018-06-06 2018-12-07 深圳市和讯华谷信息技术有限公司 基于大数据的城市板块商业价值的评估方法和装置
CN109345035A (zh) * 2018-10-31 2019-02-15 平安直通咨询有限公司 房屋价值预测方法、装置、计算机设备和存储介质
CN109376936A (zh) * 2018-10-31 2019-02-22 平安直通咨询有限公司 房屋价值预测方法、装置、计算机设备和存储介质
CN109523068A (zh) * 2018-10-31 2019-03-26 平安直通咨询有限公司 房屋价值预测方法、装置、计算机设备和存储介质
CN110033312A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 房价预测模型的生成方法、装置、设备及存储介质
CN111882356A (zh) * 2020-07-28 2020-11-03 成都智库二八六一信息技术有限公司 一种要素量化和可视化评估房屋价格的方法
CN111951059A (zh) * 2020-08-24 2020-11-17 深圳禾略贝塔信息科技有限公司 一种房地产估值方法、装置、终端以及可读存储介质
CN112465561A (zh) * 2020-12-09 2021-03-09 中国科学院空天信息创新研究院 用于房产估值的模型建立方法、装置、介质及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
夏小棠: "《基于手机数据的城市居民通勤出行特征识别及仿真研究》", 31 May 2018 *
廖锟: "基于手机信令数据的区域住房价格与居民出行特性相关性研究", 《中国优秀硕士学位论文全文数据库工程科技II辑》 *

Similar Documents

Publication Publication Date Title
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
Jahani et al. Improving official statistics in emerging markets using machine learning and mobile phone data
CN111582948B (zh) 一种基于手机信令数据与poi兴趣点的个体行为分析方法
CN111985710A (zh) 一种公交乘客出行站点预测方法、存储介质及服务器
CN110415091A (zh) 商店及商品推荐方法、装置、设备及可读存储介质
CN111028016A (zh) 销量数据预测方法、装置以及相关设备
CN107527240B (zh) 一种运营商行业产品口碑营销效果鉴定系统及方法
CN115086880B (zh) 一种出行特征识别方法、装置、设备及存储介质
CN108304935A (zh) 机器学习模型训练方法、装置和计算机设备
CN107666649A (zh) 个人财产状态评估方法及装置
Bachir et al. Using mobile phone data analysis for the estimation of daily urban dynamics
CN112949784B (zh) 一种居民出行链模型构建方法及居民出行链获取方法
CN116437291A (zh) 一种基于手机信令的文化圈规划方法和系统
CN115100395A (zh) 一种融合poi预分类和图神经网络的城市街区功能分类方法
Cui et al. Perspectives on stability and mobility of transit passenger's travel behaviour through smart card data
CN116528282B (zh) 覆盖场景识别方法、装置、电子设备和可读存储介质
Bosker et al. Regional income evolution in South Africa after apartheid
Rodríguez-Rueda et al. Origin–Destination matrix estimation and prediction from socioeconomic variables using automatic feature selection procedure-based machine learning model
CN113516302B (zh) 业务风险分析方法、装置、设备及存储介质
CN113177806A (zh) 一种信息处理方法、装置及设备
CN114611622A (zh) 一种利用手机数据识别跨城通勤人群的方法
Ayesha et al. User localization based on call detail record
CN115599985A (zh) 目标客户识别方法和系统、电子设备及可读存储介质
CN115965137B (zh) 特定对象关联性预测方法、系统、终端及存储介质
Xia et al. Predicting human mobility using sina weibo check-in data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210727

RJ01 Rejection of invention patent application after publication