CN115510056A - 一种利用手机信令数据进行宏观经济分析的数据处理系统 - Google Patents

一种利用手机信令数据进行宏观经济分析的数据处理系统 Download PDF

Info

Publication number
CN115510056A
CN115510056A CN202211033894.5A CN202211033894A CN115510056A CN 115510056 A CN115510056 A CN 115510056A CN 202211033894 A CN202211033894 A CN 202211033894A CN 115510056 A CN115510056 A CN 115510056A
Authority
CN
China
Prior art keywords
index
data
economic
space
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211033894.5A
Other languages
English (en)
Other versions
CN115510056B (zh
Inventor
张勇
毕然
魏亮
钱浩祺
林美玉
姜卜榕
彭杜
吴力波
施正昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Academy of Information and Communications Technology CAICT
Original Assignee
China Academy of Information and Communications Technology CAICT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Academy of Information and Communications Technology CAICT filed Critical China Academy of Information and Communications Technology CAICT
Priority to CN202211033894.5A priority Critical patent/CN115510056B/zh
Publication of CN115510056A publication Critical patent/CN115510056A/zh
Application granted granted Critical
Publication of CN115510056B publication Critical patent/CN115510056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种利用手机信令数据进行宏观经济分析的数据处理系统,其特征在于,包括:数据预处理平台、数据深加工平台和指数生成平台,其中,所述数据预处理平台用于对原始数据进行预处理,包括:去标识化、缺失值填补、轨迹补齐、基站网格化和GIS信息映射,生成原始表;所述数据深加工平台用于根据所述原始表统计不同空间层级的人群聚集特征,统计不同空间层级的点对点人群流动特征;以及用于基于轨迹构建移动模式分类数据库,构建人群居住、工作与休闲模式OD数据库,生成中间表;所述指数生成平台用于根据所述中间表构建三大细分指数,对所述三大细分指数进行加权,构建经济动力总指数,生成指数表。

Description

一种利用手机信令数据进行宏观经济分析的数据处理系统
技术领域
本发明涉及手机信令数据技术领域,特别涉及一种利用手机信令数据进行宏观经济分析的数据处理系统。
背景技术
伴随着智能手机的普及与发展,手机信令因其能大量收集用户的高频位置与行为数据,成为了轨迹分析的绝佳数据来源渠道之一(Williams等,2015)。截至2017年,我国手机用户普及率达到了102.5/100人,这意味着有大规模的数据支持研究和决策,为人类时空行为的深入分析提供了可行性(Wesolowski等,2013)。相较于搜索引擎 (Askitas和Zimmermann,2009;Smith,2016)、社交媒体(Llorente等,2015)、政府行政数据(Guerreroand Lopez,2017)等,手机信令时空连续性更强,覆盖样本范围也更为全面。现有大量的研究表明,手机信令数据可以很好地提取人群个体的移动轨迹并挖掘其时空活动特征,并应用于交通监控、城市规划、疾病防控等方面。例如:利用手机信令数据建立用户特征提取模型,从用户不同出行状态触发附近基站产生的时空轨迹数据,判定用户状态与时空特征,并研究区域通道客流出行次数、方向不均匀性等特征指标(李和石,2019)。部分研究利用运营商数据(李,2019)从群体和个体两个角度对用户的空间分布、移动距离、回旋半径以及停留时间进行了分析。同时结合POI,对不同基站的覆盖区域进行了功能划分,使密集城区被分为不同的功能区,以此对用户的移动轨迹进行语义化建模,挖掘用户个体在不同功能区内的频繁移动模式。通过手机信令构建时空“风险源”模型,实现了全中国范围内新冠感染的相对频率预测和高风险地区识别(Jia和Lu等,2020)。
在大数据时代,依赖于手机信令这一新颖的数据源可以用来补充或替代传统数据,以改进人类行为研究,从而使人的行为模式得以揭示(Llorente等,2015)。用于分析手机数据的方法可能因数据类型和研究目的而异,包括传统的数据挖掘技术,如聚类方法和基于规则的算法,以及创新的计算技术,如机器学习等方法。为了检测或标记这些活动,可以首先根据常识和知识设置一些规则(Wang等,2018)。例如,人为地划分工作时间和非工作时间,以区分一个人是否在工作。考虑到手机数据的细粒度特性,人类行为的移动性也可以更加细致。甚至可以通过计算位置信息和相应的速度,从手机数据中推断出人群活动所采用的交通工具,如汽车和步行等。为了进一步应用于挖掘宏观经济指数,上述的行为特征可以结合更多的因素,如通过与LBS数据和GIS 数据的匹配,确定个体在工厂、园区、商圈等区域的活动特征。而这种变化的表现取决于区域划分的明确性和功能的相对稳定性。因此,当涉及到更加广泛的领域时,上述前置条件将变得难以成立;与个体的简单位置信息相比,其在特定区域的整体行为模式则更具说服力,即当特定事件(如大规模解雇)发生时,人们的行为会发生相应的变化,但由于社会经济条件的不同,事件的选择可能也会因国家而异。上述解决方案仍局限于对行为与经济事实关系的研究,但没有揭示行为本身的规律,缺乏普遍性。
依托大数据基础设施建设与分析算法的不断改进,利用手机信令数据能够构建具有极强时效性的经济指标,及时反映经济运行状态。目前,常见的经济指数,诸如:商品指数、新兴市场经济指数(Miranda和Riera,2001)、社会经济职业指数(Ganzeboom 等,1992)、标度现象指数(Mantegna和Stanley,1995)等,由于调研需要耗费大量的人力物力,数据获取来源成本高,所以难以进行基于大规模的全样本指数模型构建。而抽样导致的潜在估计偏差,以及指数时效性低、更新周期慢,也是传统经济指数的不足之处。与此同时,伴随着人们生活方式的不断变化,新行业的兴起与发展,出差、外卖、夜间经济、人口流动等新型经济指数的关注度也越来越高。因此,迫切需要通过对个体自身的移动时空规律进行研究,来为宏观经济运行提供一种新的分类、识别和量化的方法。
现有的任何指标体系(尤其是基于单一数据源)都无法完整揭示经济社会的运行态势。近年来,随着智能手机与通信技术的快速发展,位置大数据因其样本覆盖面广、时效性高以及采集成本低的特点,而被广泛应用于对人群出行规律的研究。基于手机信令数据所构建的指数,能够着重反映人这一重要经济生产要素变动对经济运行的影响。
对宏观经济进行分析,目前大多采用官方统计数据作为数据源,例如地方经济年鉴、经济普查数据、人口调查数据等等。面对当今复杂的社会经济发展形势,官方统计数据存在较为严重的缺陷和不足,主要体现在时效性与颗粒度无法同时得到满足。一方面这种数据源在分析结果上不可避免的存在时间滞后,难以做到实时分析,削弱了宏观经济分析结果在经济规划中的参考价值。另一方面这种数据源在颗粒度上难以做到精细化,比如针对特定的地理范围,例如商圈、工业园区、居民区,或者针对特定的经济类型,例如外卖经济、网络经济、夜间经济,数据源很难满足经济分析的要求。
产生这种缺陷和不足根本原因在于采用的静态数据源属于非实时性数据,解决方法就是采用实时性数据替代非实时性数据作为宏观经济分析的数据源和数据处理方法。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种利用手机信令数据进行宏观经济分析的数据处理系统,以解决背景技术中所提到的问题,克服现有技术中存在的不足。
为了实现上述目的,本发明的实施例提供一种利用手机信令数据进行宏观经济分析的数据处理系统,包括:数据预处理平台、数据深加工平台和指数生成平台,其中,
所述数据预处理平台用于对原始数据进行预处理,包括:去标识化、缺失值填补、轨迹补齐、基站网格化和GIS信息映射,生成原始表;
所述数据深加工平台用于根据所述原始表统计不同空间层级的人群聚集特征,统计不同空间层级的点对点人群流动特征;以及用于基于轨迹构建移动模式分类数据库,构建人群居住、工作与休闲模式OD数据库,生成中间表;
所述指数生成平台用于根据所述中间表构建三大细分指数,对所述三大细分指数进行加权,构建经济动力总指数,生成指数表。
进一步,所述数据预处理平台进行基于GIS信息耦合的空间处理,包括:基于兴趣点的指数和基于区域轮廓的指数构建;
(1)基于兴趣点的指数构建
在GIS中,结合POI信息,对空间进行网格化预处理,采用网格化方法对空间信息进行预处理,以加速数据的处理与分析速度;
(2)基于区域轮廓的指数构建
基于兴趣点的指数构建方法,对具有区域特征的数据,需要基于区域轮廓来进行。
进一步,所述数据深加工平台进行基于用户行为数据的聚类分析:采用多维高斯混合模型来对用户观测数据集进行聚类,并给用户行为打上标签。
进一步,所述指数生成平台构建指数,包括:时空迁徙指数、常住人口指数、出行强度指数、商圈繁荣指数、外卖经济指数、夜间经济指数、开工指数、差旅指数和就业指数。
进一步,所述时空迁徙指数是信令数据的最基础应用,利用信令数据提供的全样本人群位置信息、构建省际间、城际间的月度人口流动指数;在GIS信息空间处理中,已经提取出的全国各个省份的火车站与机场的GIS轮廓;基于此,确定人群由火车站与机场的跨地区的空间迁徙路径,区分人群流动路径中的迁入迁出地;最后通过计算一个自然月内跨地区的人次数,得到相应的时空迁徙指数;
所述常住人口指数需要在人口流动数据的基础之上,通过时空频繁模式挖掘出人群驻留特征,对常住人口进行识别,构建每个省级、地市级的月度常住人口指数;人群驻留特征有赖于职住模型,即通过统计不同空间层级的人群聚集特征,用户居住地根据夜间用户信令基站特征分别确定,用户工作地则根据工作时段用户信令基站特征分别确定,基于前述的职住模型,确定用户的夜间活动的地理位置分布,计算一个自然月内地区常住的人数;由于存在一人多号的现象,根据手机号绑定的信息剔除重复统计人口,最终得到常住人口指数;
所述出行强度指数:城市内出行强度是在更微观的空间尺度上展现人物的移动特征,根据信令数据提供的时空信息,统计人群的出行情况,构建城市内周度和月度平均出行强度指数,指数反映出小时级的出行强度情况。根据信令数据所聚合出来的人员驻留点信息,判断两个驻留点之间为一次出行;而后,通过上述时间约束,计算对应网格中每小时的人员出行情况,进而得到出行强度指数。
进一步,所述商圈繁荣指数:在GIS信息空间处理中,完成对POI区域的识别,商圈繁荣指数利用地理信息系统的POI中的商圈信息,并以此作为相应商圈的空间约束,在空间约束内有驻留信息的人判断为产生了经济业务活动,而后基于该空间约束,计算对应网格中的分时段人流情况与驻留情况,最后形成省级与市级的日度、周度与月度频率商圈繁荣指数。
所述外卖经济指数:用户主动呼叫电话按时段形成一个六维特征向量,根据基于用户行为数据的聚类分析,采用GMM对训练集用户的六维特征向量进行拟合,通过ICL-BLC指标确定最优聚类数量,根据用餐高峰时段的号码呼出进行分析,标明其中三类符合外卖员的用餐高峰时段主动呼叫的特征;最后基于前述预训练好的模型,对待识别用户进行识别,并且统计各区域的活跃外卖员数量,进而构建省级与城市级的日度频率外卖经济指数。
进一步,所述夜间经济指数:通过手机信令数据所提供的时间与空间信息,对夜间经济的集中时间段于集中空间分布进行测算,进而构建夜间经济活跃程度指数;夜间经济指数包括省级与市级的日度、周度与月度频率指数。
进一步,所述开工指数:信令数据对工商业企业的从业人员状态进行分析,分析判断某个地区的工业生产或者商业活动的动态变化,以此为基础构建开工指数,该开工指数包括省级与市级的日度、周度与月度频率指数;基于GIS信息耦合的空间处理所获取的国家级经济开发区以及大型发电厂的轮廓作为空间约束,在空间约束内有驻留信息的人判定为参与了生产活动,而后通过上述时间约束与空间约束,计算对应网格中每天的人员驻留情况,得到开工指数。
进一步,所述差旅指数是通过对人群出行模式以及驻留行为进行分析,从而识别出人群的出差轨迹,构建出差指数;出差指数包括省级与市级的日度、周度与月度频率指数;根据基于GIS信息耦合空间处理所获取的机场与火车站的轮廓作为空间约束,在空间约束内有驻留信息的人判定为具有差旅行为;通过上述时间约束与空间约束,计算对应网格中每天的人员驻留情况,得到差旅指数。
进一步,所述就业指数为:统计手机用户驻留位置的月度分布情况,然后,根据基于用户行为数据的聚类分析,采用GMM对该分布序列进行拟合,并利用“居住地-工作地”特征分析标记了拟合出的类别的就业与非就业两个状态;最后基于前述预训练好的模型,对待识别用户进行识别,并按照不同的时间窗口统计各区域的就业群体比例,构建省级与市级的就业指数。
本发明基于单一数据源对微观个体出行行为进行详尽刻画,并利用大数据分析技术对个体出行模式进行准确分类。本发明在现有研究基础上,利用信令数据对个体出行轨迹进行分析,并基于出行轨迹信息对个体状态进行分析并对出行模式进行分类,得到的结果将充分反映出微观个体出行行为的异质性特征。
其次,本发明对微观个体的出行模式进行整合分析,构建宏观经济“动力”指数来对传统统计体系从覆盖性和时效性上进行完善和补充。在每个微观个体的出行模式得到准确分类之后,本发明通过分析不同出行模式所反映和蕴含的行为特征,构建具有不同经济内涵的宏观经济“动力指数”,在经过多源数据校准和验证的基础上,对传统统计指标体系进行完善和补充,且构建的指数均具有较高的时效性,能满足实时决策的需求。
本发明实施例的利用手机信令数据进行宏观经济分析的数据处理系统,需要基于经济学和社会学理论与客观经验总结,从微观用户拥有的数百种潜在的行为模式中,准确挑选出与宏观经济运行情况最相关的行为指标与代表性地理信息标签。利用全样本手机信令数据并结合机器学习与大数据分析方法,对用户行为模式进行无监督分类,并在有限先验信息的情况下,对用户所属分类类别进行有效和准确的区分。
本发明通过解决上述两个技术关键点,能够实现快速分析数据结构和抽取有效经济活动特征信息,并利用标准化指数构建方法构建相应的宏观经济指标。本发明与已有技术的主要区别点,在于不仅仅考虑手机信令数据所包含的原始经纬度信息以及轨迹信息,还在此基础上考虑更多加总性统计信息(如基站通信频次)、通话统计信息(如分时段主叫频次) 以及地理位置信息(基于兴趣点加工的网格化地理信息),全方位地对用户人群的行为模式和特征进行分析,是一个多维度的数据评价与宏观经济分析体系。
1)手机信令数据是一种具备全面性、真实性、实时性、连续性的数据源,利用手机信令数据作为数据源进行宏观经济分析,可以避免非实时性数据源的缺陷和不足。本发明基于经济学和社会学理论,在轨迹信息基础上,着重分析人群的出行模式特征以及通信行为模式特征,使得指标构建具有坚实的经济学与社会学理论支撑;通过巧妙的建模设计,采用无监督聚类方法对上述人群行为模式进行模式分类和特征提取;结合全量地理信息数据对手机信令数据进行网格化聚合,并采取高效率的信息检索与指标生成算法,来构建宏观经济分析指标。
1)本发明生成的指标体系与现实宏观经济及未来新兴经济发展方向高度契合,适用于对宏观经济提供具有高时效性的分析与趋势预判;
2)本发明的技术方法能够有效提取人群行为模式特征,并对不同人群进行标签化分类,效果达到先进水平;
3)本发明所生成的指标体系具有高度的时空可比性,在横向空间与纵向时间维度具有高度一致性与可比性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的利用手机信令数据进行宏观经济分析的数据处理系统的流程图;
图2为根据本发明实施例的宏观经济动力指数构成的示意图;
图3为根据本发明实施例的利用手机信令数据进行宏观经济分析的数据处理系统的示意图;
图4为根据本发明实施例的GIS中北京市POI示例图;
图5为对图4结合POI信息的空间网格化预处理的示意图;
图6为根据本发明实施例的北京首都国际机场为例的区域GIS轮廓提取图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明旨在使用全国手机信令数据,并充分利用数据所反映出的微观个体的移动特征,基于经济学理论与大数据分析技术,构建一套具更实时、更完整、更高效的中国宏观经济评价指标,称为中国宏观经济动力指数。中国宏观经济动力指数本质是一个基于手机信令数据所得到的宏观经济指标体系,具体由三个指数模块组成:人口流动指数、城市生活指数以及经济发展指数,每个指数模块中则包含若干细分指数,具体如图2所示。
如图1和图3所示,利用手机信令数据进行宏观经济分析的数据处理系统,包括:数据预处理平台1、数据深加工平台2和指数生成平台3。
数据预处理平台1用于对原始数据进行预处理,包括:去标识化、缺失值填补、轨迹补齐、基站网格化和GIS信息映射,生成原始表。为了充分保障个人信息安全,数据预处理平台1对原始数据首先进行去标识化处理,所有处理后数据不再具备个人标识,已不属于个人信息。这些数据再进行后续处理;
具体的,数据预处理平台1进行基于GIS信息耦合的空间处理,包括:基于兴趣点的指数和基于区域轮廓的指数构建。
具体的,不同的经济事件可以通过用户个体是否在特定地区驻留而反映出来,此时,不同空间位置的特殊属性是用来进行经济事件是否发生的重要数据基础。在构建本中国宏观经济动力指数时,所采用的GIS信息耦合的空间处理可以分为基于兴趣点(Point ofInterest,简称POI)的指数构建和基于区域轮廓的指数构建。
(1)基于兴趣点的指数构建
在地理信息系统(GIS)中,一个POI可以是一个居民住宅区、一个购物广场、一个餐馆或是其他各类具有显著区别度的地理位置。如图4所示,深色点表示北京市的餐饮、大型购物广场以及休闲娱乐三类POI,红色点则表示居民小区点和宾馆住宿两类POI位置。
而后,结合POI信息,对空间进行网格化预处理。采用网格化方法对空间信息进行预处理,可以加速数据的处理与分析速度。如图5所示,在该过程中,将空间分割成矩形网格,经纬度上的分辨率均为0.001度,即每个网格约为111米×111米。通过网格图层重叠,确定了每个网格中的POI分布情况。
(2)基于区域轮廓的指数构建
基于“兴趣点”的指数构建方法的优势在于能够对具有大量位置特征的POI数据进行有效信息预处理,但是对于那些对区域特征具有高精确度要求的特定问题,则必须要基于区域轮廓来进行,参考图6。
本发明完成了全国各个省份的火车站与机场的GIS轮廓提取,如表1所示。
表1
Figure BDA0003818156330000081
数据深加工平台2用于根据原始表统计不同空间层级的人群聚集特征,统计不同空间层级的点对点人群流动特征;以及用于基于轨迹构建移动模式分类数据库,构建人群居住、工作与休闲模式OD数据库,生成中间表。
具体的,数据深加工平台2进行基于用户行为数据的聚类分析:采用多维高斯混合模型来对用户观测数据集进行聚类,并给用户行为打上标签。
下面对基于用户行为数据的聚类分析进行说明。
当微观个体数量达到大数据级别时,就无法通过简单的观测来对不同个体进行分类,需要引进大数据算法来进行个体的分类与预测。由于每一个微观个体的当前状态未知,该问题是机器学习中的一个典型无监督聚类问题。考虑到每个个体的行为规律存在一定的随机性,因此本项目选择多维高斯混合模型(Gaussian Mixture Model,GMM)来对整个手机用户观测数据集进行聚类,并给用户行为打上标签。
指数生成平台3用于根据中间表构建三大细分指数,对三大细分指数进行加权,构建经济动力总指数,生成指数表。
具体的,指数生成平台3构建指数,包括:时空迁徙指数、常住人口指数、出行强度指数、商圈繁荣指数、外卖经济指数、夜间经济指数、开工指数、差旅指数和就业指数。
(1)时空迁徙指数
该指数是信令数据的最基础应用,利用信令数据提供的全样本人群位置信息,构建省际间、城际间的月度人口流动指数。首先,在GIS信息空间处理中,已经提取出的全国各个省份的火车站与机场的GIS轮廓。然后基于此,确定人群经由火车站与机场的跨地区(城市/省份)的空间迁徙路径,区分人群流动路径中的迁入迁出地。最后,通过计算一个自然月内跨地区(城市/省份)的人次数,得到相应的时空迁徙指数。
(2)常住人口指数
常住人口指数需要在人口流动数据的基础之上,通过时空频繁模式挖掘出人群驻留特征,从而对常住人口进行识别,构建每个省级、地市级的月度常住人口指数。人群驻留特征有赖于职住模型,即通过统计不同空间层级的人群聚集特征,用户居住地根据夜间用户信令基站分布特征确定,用户工作地则根据工作时段(工作日9:00至18:00)用户信令基站分布特征确定。基于前述的职住模型,确定用户的夜间活动(居住)的地理位置分布,计算一个自然月内地区(城市/省份)常住的人数。由于存在一人多号的现象,还需要进一步根据手机号绑定的身份证等信息剔除重复统计人口,最终得到常住人口指数。
(3)出行强度指数
城市内出行强度是在更微观的空间尺度上展现人群的移动特征,根据信令数据提供的时空信息,统计人群的出行情况,构建城市内周度和月度平均出行强度指数,指数反映出小时级的出行强度情况。根据信令数据所聚合出来的人员驻留点信息,判断两个驻留点之间为一次出行。而后,通过上述时间约束,计算对应网格中每小时的人员出行情况,进而得到出行强度指数。
(4)商圈繁荣指数
GIS信息空间处理中,已经完成了对POI区域的识别。商圈繁荣指数利用地理信息系统(GIS)的POI中的商圈信息,并以此作为相应商圈的空间约束,在空间约束内有驻留信息的人判定为产生了经济业务活动。而后,基于该空间约束,计算对应网格中的分时段人流情况与驻留情况。最后形成省级与市级的日度、周度与月度频率商圈繁荣指数。
(5)外卖经济指数
外卖经济逐渐繁荣是我国当下社会经济运行中的一个新鲜事务,也是一个重要的发展趋势。首先,统计用户每天在9:00-10:59、11:00-12:59、13:00-14:59、15:00-16:59、17:00-18:59 和19:00-20:59六个时段的主叫占比,每个用户形成一个六维特征向量。然后,根据基于用户行为数据的聚类分析,采用GMM对训练集用户的六维特征向量进行拟合,通过ICL-BIC 指标确定最优聚类数量。而后根据用餐高峰时段的号码呼出进行分析,进一步标明了其中三类符合外卖员的用餐高峰时段主动呼叫的特征。最后,基于前述预训练好的模型,对待识别用户进行识别,并且统计各区域的活跃外卖员数量(即被模型归入前述三类),进而构建省级与城市级的日度频率外卖经济指数。
(6)夜间经济指数
通过手机信令数据所提供的时间与空间信息,可以对夜间经济的集中时间段于集中空间分布进行测算,进而构建夜间经济活跃程度指数。夜间经济指数包括省级与市级的日度、周度与月度频率指数。
根据较宽泛的定义,夜间经济包含18点后至次日凌晨6点间所发生的第三产业所涉及的商务活动,这是夜间经济的时间约束。因此工作日下班时间所发生的包括聚餐、休闲和娱乐等在内的活动也被包含进夜间经济的范畴。根据基于GIS信息耦合的空间处理所获取的餐饮、大型购物广场以及休闲娱乐三类POI,并以此作为相应商圈的空间约束,在空间约束内有驻留信息的人判定为产生了经济业务活动。而后,通过上述时间约束与空间约束,计算对应网格中的夜间时段人流情况与驻留情况,进而得到夜间经济指数。
(7)开工指数
信令数据能够对工商业企业的从业人员状态进行分析,从而分析判断某个地区的工业生产或者是商业活动的动态变化,以此为基础构建开工指数。开工指数包含省级与市级的日度、周度与月度频率指数。根据基于GIS信息耦合的空间处理所获取的国家级经济开发区以及大型发电厂的轮廓作为空间约束,在空间约束内有驻留信息的人判定为参与了生产活动。而后,通过上述时间约束与空间约束,计算对应网格中每天的人员驻留情况,进而得到开工指数。
(8)差旅指数
差旅指数主要的方法是通过对人群出行模式(主要是高铁与飞机两类)以及驻留行为 (用以区分商务活动还是旅游探亲)进行分析,从而识别出人群的出差轨迹,构建出差指数。出差指数包含省级与市级的日度、周度与月度频率指数。根据基于GIS信息耦合的空间处理所获取的机场与火车站的轮廓作为空间约束,在空间约束内有驻留信息的人判定为具有差旅行为。而后,通过上述时间约束与空间约束,计算对应网格中每天的人员驻留情况,进而得到差旅指数。
(9)就业指数
信令数据能够提供每一个个体的时空信息。首先,本发明统计了手机用户驻留位置的月度分布情况。然后,根据基于用户行为数据的聚类分析,采用GMM对该分布序列进行拟合,并利用“居住地-工作地”特征分析标记了拟合出的类别的就业与非就业两个状态。最后,基于前述预训练好的模型,对待识别用户进行识别,并按照不同的时间窗口(周度、月度等)统计各区域的就业群体比例,从而构建省级与市级的就业指数。
本发明基于单一数据源对微观个体出行行为进行详尽刻画,并利用大数据分析技术对个体出行模式进行准确分类。本发明在现有研究基础上,利用信令数据对个体出行轨迹进行分析,并基于出行轨迹信息对个体状态进行分析并对出行模式进行分类,得到的结果将充分反映出微观个体出行行为的异质性特征。
其次,本发明对微观个体的出行模式进行整合分析,构建宏观经济“动力”指数来对传统统计体系从覆盖性和时效性上进行完善和补充。在每个微观个体的出行模式得到准确分类之后,本发明通过分析不同出行模式所反映和蕴含的行为特征,构建具有不同经济内涵的宏观经济“动力指数”,在经过多源数据校准和验证的基础上,对传统统计指标体系进行完善和补充,且构建的指数均具有较高的时效性,能满足实时决策的需求。
本发明实施例的利用手机信令数据进行宏观经济分析的数据处理系统,需要基于经济学和社会学理论与客观经验总结,从微观用户拥有的数百种潜在的行为模式中,准确挑选出与宏观经济运行情况最相关的行为指标与代表性地理信息标签。利用全样本手机信令数据并结合机器学习与大数据分析方法,对用户行为模式进行无监督分类,并在有限先验信息的情况下,对用户所属分类类别进行有效和准确的区分。
本发明通过解决上述两个技术关键点,能够实现快速分析数据结构和抽取有效经济活动特征信息,并利用标准化指数构建方法构建相应的宏观经济指标。本发明与已有技术的主要区别点,在于不仅仅考虑手机信令数据所包含的原始经纬度信息以及轨迹信息,还在此基础上考虑更多加总性统计信息(如基站通信频次)、通话统计信息(如分时段主叫频次) 以及地理位置信息(基于兴趣点加工的网格化地理信息),全方位地对用户人群的行为模式和特征进行分析,是一个多维度的数据评价与宏观经济分析体系。
1)手机信令数据是一种具备全面性、真实性、实时性、连续性的数据源,利用手机信令数据作为数据源进行宏观经济分析,可以避免非实时性数据源的缺陷和不足。本发明基于经济学和社会学理论,在轨迹信息基础上,着重分析人群的出行模式特征以及通信行为模式特征,使得指标构建具有坚实的经济学与社会学理论支撑;通过巧妙的建模设计,采用无监督聚类方法对上述人群行为模式进行模式分类和特征提取;结合全量地理信息数据对手机信令数据进行网格化聚合,并采取高效率的信息检索与指标生成算法,来构建宏观经济分析指标。
1)本发明生成的指标体系与现实宏观经济及未来新兴经济发展方向高度契合,适用于对宏观经济提供具有高时效性的分析与趋势预判;
2)本发明的技术方法能够有效提取人群行为模式特征,并对不同人群进行标签化分类,效果达到先进水平;
3)本发明所生成的指标体系具有高度的时空可比性,在横向空间与纵向时间维度具有高度一致性与可比性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
本领域技术人员不难理解,本发明包括上述说明书的发明内容和具体实施方式部分以及附图所示出的各部分的任意组合,限于篇幅并为使说明书简明而没有将这些组合构成的各方案一一描述。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims (10)

1.一种利用手机信令数据进行宏观经济分析的数据处理系统,其特征在于,包括:数据预处理平台、数据深加工平台和指数生成平台,其中,
所述数据预处理平台用于对原始数据进行预处理,包括:去标识化、缺失值填补、轨迹补齐、基站网格化和GIS信息映射,生成原始表;
所述数据深加工平台用于根据所述原始表统计不同空间层级的人群聚集特征,统计不同空间层级的点对点人群流动特征;以及用于基于轨迹构建移动模式分类数据库,构建人群居住、工作与休闲模式OD数据库,生成中间表;
所述指数生成平台用于根据所述中间表构建三大细分指数,对所述三大细分指数进行加权,构建经济动力总指数,生成指数表。
2.如权利要求1所述的利用手机信令数据进行宏观经济分析的数据处理系统,其特征在于,所述数据预处理平台进行基于GIS信息耦合的空间处理,包括:基于兴趣点的指数和基于区域轮廓的指数构建;
(1)基于兴趣点的指数构建
在GIS中,结合POI信息,对空间进行网格化预处理,采用网格化方法对空间信息进行预处理,以加速数据的处理与分析速度;
(2)基于区域轮廓的指数构建
基于兴趣点的指数构建方法,对具有区域特征的数据,需要基于区域轮廓来进行。
3.如权利要求1所述的利用手机信令数据进行宏观经济分析的数据处理系统,其特征在于,所述数据深加工平台进行基于用户行为数据的聚类分析:采用多维高斯混合模型来对用户观测数据集进行聚类,并给用户行为打上标签。
4.如权利要求1所述的利用手机信令数据进行宏观经济分析的数据处理系统,其特征在于,所述指数生成平台构建指数,包括:时空迁徙指数、常住人口指数、出行强度指数、商圈繁荣指数、外卖经济指数、夜间经济指数、开工指数、差旅指数和就业指数。
5.如权利要求4所述的利用手机信令数据进行宏观经济分析的数据处理系统,其特征在于,
所述时空迁徙指数是信令数据的最基础应用,利用信令数据提供的全样本人群位置信息、构建省际间、城际间的月度人口流动指数;在GIS信息空间处理中,已经提取出的全国各个省份的火车站与机场的GIS轮廓;基于此,确定人群由火车站与机场的跨地区的空间迁徙路径,区分人群流动路径中的迁入迁出地;最后通过计算一个自然月内跨地区的人次数,得到相应的时空迁徙指数;
所述常住人口指数需要在人口流动数据的基础之上,通过时空频繁模式挖掘出人群驻留特征,对常住人口进行识别,构建每个省级、地市级的月度常住人口指数;人群驻留特征有赖于职住模型,即通过统计不同空间层级的人群聚集特征,用户居住地根据夜间用户信令基站特征分别确定,用户工作地则根据工作时段用户信令基站特征分别确定,基于前述的职住模型,确定用户的夜间活动的地理位置分布,计算一个自然月内地区常住的人数;由于存在一人多号的现象,根据手机号绑定的信息剔除重复统计人口,最终得到常住人口指数;
所述出行强度指数:城市内出行强度是在更微观的空间尺度上展现人物的移动特征,根据信令数据提供的时空信息,统计人群的出行情况,构建城市内周度和月度平均出行强度指数,指数反映出小时级的出行强度情况。根据信令数据所聚合出来的人员驻留点信息,判断两个驻留点之间为一次出行;而后,通过上述时间约束,计算对应网格中每小时的人员出行情况,进而得到出行强度指数。
6.如权利要求4所述的利用手机信令数据进行宏观经济分析的数据处理系统,其特征在于,
所述商圈繁荣指数:在GIS信息空间处理中,完成对POI区域的识别,商圈繁荣指数利用地理信息系统的POI中的商圈信息,并以此作为相应商圈的空间约束,在空间约束内有驻留信息的人判断为产生了经济业务活动,而后基于该空间约束,计算对应网格中的分时段人流情况与驻留情况,最后形成省级与市级的日度、周度与月度频率商圈繁荣指数。
所述外卖经济指数:用户主动呼叫电话按时段形成一个六维特征向量,根据基于用户行为数据的聚类分析,采用GMM对训练集用户的六维特征向量进行拟合,通ICL-BLC指标确定最优聚类数量,根据用餐高峰时段的号码呼出进行分析,标明其中三类符合外卖员的用餐高峰时段主动呼叫的特征;最后基于前述预训练好的模型,对待识别用户进行识别,并且统计各区域的活跃外卖员数量,进而构建省级与城市级的日度频率外卖经济指数。
7.如权利要求4所述的利用手机信令数据进行宏观经济分析的数据处理系统,其特征在于,
所述夜间经济指数:通过手机信令数据所提供的时间与空间信息,对夜间经济的集中时间段于集中空间分布进行测算,进而构建夜间经济活跃程度指数;夜间经济指数包括省级与市级的日度、周度与月度频率指数。
8.如权利要求4所述的利用手机信令数据进行宏观经济分析的数据处理系统,其特征在于,
所述开工指数:信令数据对工商业企业的从业人员状态进行分析,分析判断某个地区的工业生产或者商业活动的动态变化,以此为基础构建开工指数,该开工指数包括省级与市级的日度、周度与月度频率指数;基于GIS信息耦合的空间处理所获取的国家级经济开发区以及大型发电厂的轮廓作为空间约束,在空间约束内有驻留信息的人判定为参与了生产活动,而后通过上述时间约束与空间约束,计算对应网格中每天的人员驻留情况,得到开工指数。
9.如权利要求4所述的利用手机信令数据进行宏观经济分析的数据处理系统,其特征在于,
所述差旅指数是通过对人群出行模式以及驻留行为进行分析,从而识别出人群的出差轨迹,构建出差指数;出差指数包括省级与市级的日度、周度与月度频率指数;根据基于GIS信息耦合空间处理所获取的机场与火车站的轮廓作为空间约束,在空间约束内有驻留信息的人判定为具有差旅行为;通过上述时间约束与空间约束,计算对应网格中每天的人员驻留情况,得到差旅指数。
10.如权利要求4所述的利用手机信令数据进行宏观经济分析的数据处理系统,其特征在于,
所述就业指数为:统计手机用户驻留位置的月度分布情况,然后,根据基于用户行为数据的聚类分析,采用GMM对该分布序列进行拟合,并利用“居住地-工作地”特征分析标记了拟合出的类别的就业与非就业两个状态;最后基于前述预训练好的模型,对待识别用户进行识别,并按照不同的时间窗口统计各区域的就业群体比例,构建省级与市级的就业指数。
CN202211033894.5A 2022-08-26 2022-08-26 一种利用手机信令数据进行宏观经济分析的数据处理系统 Active CN115510056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211033894.5A CN115510056B (zh) 2022-08-26 2022-08-26 一种利用手机信令数据进行宏观经济分析的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211033894.5A CN115510056B (zh) 2022-08-26 2022-08-26 一种利用手机信令数据进行宏观经济分析的数据处理系统

Publications (2)

Publication Number Publication Date
CN115510056A true CN115510056A (zh) 2022-12-23
CN115510056B CN115510056B (zh) 2023-10-13

Family

ID=84501843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211033894.5A Active CN115510056B (zh) 2022-08-26 2022-08-26 一种利用手机信令数据进行宏观经济分析的数据处理系统

Country Status (1)

Country Link
CN (1) CN115510056B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117202106A (zh) * 2023-10-19 2023-12-08 北京融信数联科技有限公司 基于信令数据的区域空间场所属性标注方法、系统和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112383875A (zh) * 2020-06-28 2021-02-19 中国信息通信研究院 一种数据处理方法及电子设备
CN112990654A (zh) * 2021-02-03 2021-06-18 北京大学 基于人口流动数据的城乡基础设施系统协同规划方法
WO2021237812A1 (zh) * 2020-05-29 2021-12-02 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据且含个人属性修正的城市出行方式综合识别方法
CN113891252A (zh) * 2021-09-18 2022-01-04 苏州规划设计研究院股份有限公司 基于手机信令数据的轨道客流全程od提取方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021237812A1 (zh) * 2020-05-29 2021-12-02 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据且含个人属性修正的城市出行方式综合识别方法
CN112383875A (zh) * 2020-06-28 2021-02-19 中国信息通信研究院 一种数据处理方法及电子设备
CN112990654A (zh) * 2021-02-03 2021-06-18 北京大学 基于人口流动数据的城乡基础设施系统协同规划方法
CN113891252A (zh) * 2021-09-18 2022-01-04 苏州规划设计研究院股份有限公司 基于手机信令数据的轨道客流全程od提取方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
丁延勇,谢语秋,叶梦: "基于多源时空大数据的城市规划研究——以杭州市下城区为例", 地理信息世界, pages 25 - 28 *
张昆蔚,毕然: "一种利用手机信令数据进行宏观经济分析的数据处理系统", 信息通信技术与政策 *
甄茂成;党安荣;阚长城;: "基于大数据与网络分析的长三角城市群识别研究", 上海城市规划, no. 06 *
魏亮: "信息通信行业电信网络诈骗防范治理体系分析", 中国信息安全 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117202106A (zh) * 2023-10-19 2023-12-08 北京融信数联科技有限公司 基于信令数据的区域空间场所属性标注方法、系统和介质
CN117202106B (zh) * 2023-10-19 2024-05-14 北京融信数联科技有限公司 基于信令数据的区域空间场所属性标注方法、系统和介质

Also Published As

Publication number Publication date
CN115510056B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
Thuillier et al. Clustering weekly patterns of human mobility through mobile phone data
Zheng et al. Spatial–temporal travel pattern mining using massive taxi trajectory data
Li et al. Transportation mode identification with GPS trajectory data and GIS information
CN105718946A (zh) 一种基于地铁刷卡数据的乘客出行行为分析方法
CN105206048A (zh) 一种基于交通od数据的城市居民群体换乘模式发现系统及方法
CN107656987A (zh) 一种基于lda模型的地铁站点功能挖掘方法
CN110796337B (zh) 一种评价城市公交站点服务可达性的系统
CN113569977B (zh) 一种基于手机信令数据的出行目的识别方法
Xu et al. Understanding vehicular routing behavior with location-based service data
Xue et al. Multi-source data-driven identification of urban functional areas: A case of Shenyang, China
Cao et al. Understanding metropolitan crowd mobility via mobile cellular accessing data
CN112000755A (zh) 一种基于手机信令数据的区域出行廊道识别方法
CN109254984B (zh) 基于od数据感知城市动态结构演化规律的可视分析方法
CN115510056B (zh) 一种利用手机信令数据进行宏观经济分析的数据处理系统
ZHAO et al. Big data-driven residents’ travel mode choice: a research overview
Qin et al. Travel trajectories analysis based on call detail record data
Guo et al. An algorithm for analyzing the city residents' activity information through mobile big data mining
CN110399919A (zh) 一种人类出行稀疏轨迹数据插值重构方法
CN114666738A (zh) 基于手机信令的国土空间规划方法和系统
Zhou et al. Analysis of public transit trip chain of commuters based on mobile phone data and GPS data
CN111833229B (zh) 一种基于地铁依赖度的出行行为时空分析方法及装置
Yang et al. Travel Behavior Characteristics Analysis Technology Based on Mobile Phone Location Data: Methodology and Empirical Research
Ling et al. Mining travel behaviors of tourists with mobile phone data: A case study in Hainan
Sun et al. Identification of recurrent congestion in main trunk road based on grid and analysis on influencing factors
LI et al. Analysis of Crowd Spatial Activities Based on Software Development Kit (SDK) Data [J]

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant