CN113095539A

CN113095539A - 一种识别特定人群最优衡量指标的方法及装置

Info

Publication number: CN113095539A
Application number: CN202010639096.1A
Authority: CN
Inventors: 宋广文; 柳林; 吴雨菡; 肖露子; 龙冬平
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2021-07-09

Abstract

本发明公开了一种识别特定人群最优衡量指标的方法及装置，该方法包括：步骤S1，根据变量特点，划分时空单元网格；步骤S2，获取相关事件数据，对数据进行地理编码，提取单元网格的相关事件数量和有动机的特定对象数据集，并计算单元网格中心点到最近相关部门的距离，生成监督者数据集；步骤S3，获取人口大数据，并将其分四大类，构建人群活动量四大衡量指标，并基于划分的网格单元衡量人群活动量汇总到网格单元；步骤S4，将获得的特定对象和监督者数据集分配到网格单元中，并与人群活动量有效融合，得到负二项回归模型的变量集；步骤S5，基于变量集将特定人群指标纳入模型，并对比不同模型的拟合度，得到识别特定人群最优衡量指标。

Description

一种识别特定人群最优衡量指标的方法及装置

技术领域

本发明涉及相关事件风险预测技术领域，特别是涉及一种识别特定人群最优衡量指标的方法及装置。

背景技术

目前城市的配套设施日益完善，人与人、人与场所的交互越来越复杂，如何将人的活动、城市设施与某些相关现象关联，寻找最优的特定人群衡量方法，从而合理配置安全事务的资源，制定相关事件防控方案以减少相关事件的发生，成为相关事件防控的重要议题。

特定人群指代潜在相关人群，它是日常活动理论的三大主体之一。当下对特定人群的评估常用人口大数据进行衡量，已有的运用人口大数据进行的研究常在较小的空间和时间的尺度估计活动人群的存在，但是活动人口不等同于遭受相关事件风险群体，因此活动人口不一定是特定人群的最佳指标；其次，活动人口的时间动态变化仍没有解决，目前大多数研究由于现有数据的局限性，仍使用静态数据表示一天或一周中的活动人口变化，并未充分讨论时间变化的影响，因此，考虑衡量指标的具体值在一天和一周的变化是本发明的关键所在；第三，关于相关事件和活动人口的研究没有考虑到有动机的特定人和监管，这两个要素是日常活动理论的三大主题中的关键概念。

负二项回归模型(Negative binomial regression model)是一种定量分析方法，现在已被广泛应用于多个相关事件分析的研究中。因为相关事件数据具有过度离散的特征，而负二项回归模型允许数据存在过度离散型，因此，它对于离散变量具有更好的评价效果。

整体而言，国内外关于特定人群的研究仍存在不足之处，无法较好地动态衡量日常活动理论中的活动的特定人群。因此，如何动态衡量相关事件风险的特定群体，解决特定人群日常活动的衡量指标是一个亟待解决的问题。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种识别特定人群最优衡量指标的方法及装置，以实现对日常活动的潜在相关人群动态衡量，解决相关事件研究中的地理环境不确定性的问题，提高特定对象行为预测的准确度。

为达上述及其它目的，本发明提出一种识别特定人群最优衡量指标的方法，包括如下步骤：

步骤S1，根据所确定的涉及特定人群指标的变量特点，划分时空单元网格；

步骤S2，获取相关事件数据，对相关事件数据进行地理编码，提取单元网格的相关事件数量和生成有动机的数据集，同时计算单元网格中心点到最近相关部门的距离，生成监督者数据集；

步骤S3，获取人口大数据，并将其分为居住人口、手机用户、出租车乘客、地铁人流量四大类，以构建人群活动量四大衡量指标，并基于步骤S1划分的网格单元，利用泰森多边形和空间叠加等方法衡量人群活动量，汇总到它们所在的网格单元；

步骤S4，将步骤S2获得的特定对象数据集和监督者数据集分配到构建的网格单元中，并与步骤S3得到的人群活动量有效融合，从而得到负二项回归模型的变量集；

步骤S5，基于步骤S4得到的变量集，将特定人群指标分别纳入负二项回归模型，并通过对比不同模型的拟合度，从而得到识别特定人群最优衡量指标。

优选地，于步骤S1中，对时间单元网格用区分固定数量大小相等的时间间隔；对空间单元网格根据空间精度和地理编码的需要，划分为预设大小的网格。

优选地，于步骤S2中，采用Geocoding API对相关事件数据进行编码，根据可信度相关参数、地理编码等级等规则对编码结果进行整理，最后通过基于系统聚类与随机森林的分类优化模型，将多平台编码结果分类处理、优化，生成有动机的特定对象数据集；通过城市地图获取相关部门所在地坐标，获取监督者数据集。

优选地，步骤S2进一步包括：

步骤S200，获取相关事件数据，所述相关事件数据包括具体相关事件的数据和相关人员的抓获数据，相关事件数据包括相关部门接收报告数据、相关人员直接前往相关部门报告或打当地相关部门电话报告的所有数据；

步骤S201，对相关事件数据进行地理编码，获取相应的坐标，并进一步将案件点汇总到的1平方公里的网格单元，生成有动机的特定对象数据集；

步骤S202，获取相关部门坐标，计算单元网格中心点到最近相关部门的距离，生成监督者数据集。

优选地，如果网格单元内有相关部门，则该网格单元与最近的相关部门的距离编码为0，如果网格单元内无相关部门，则到相关部门的距离是指网格单元的质心和最近的相关部门之间的距离，最终生成监督者数据集。

优选地，步骤S3进一步包括：

步骤S300，基于人口普查的居住统计数据、用户基站汇总数据、出租车轨迹提取的乘客起讫点汇总数据以及地铁站进出站刷卡汇总数据，分别获得居住人口、手机用户、出租车乘客、地铁人流量四类人口数据，并对上述四种数据进行单独处理，构建衡量人群活动量衡量指标；

步骤S301，对于居住人口数据，将网格单元和社区单元进行空间叠加，并计算相交区域的面积；

步骤S302，对于手机用户数据，以信号塔位置为种子创建了泰森多边形，对于泰森多边形内的手机用户，其信号都将与种子信号塔产生联系，随后，将泰森多边形与网格单元相交，并且根据位于网格内部的泰森多边形面积的比例将手机用户数分配给每个网格单元；

步骤S303，对于出租车乘客数据，通过获取一段时间的出租车GPS数据，根据状态的转换，确定每次旅程的起点和目的地。最终将起点和终点的数据汇总到它们所在的网格单元；

步骤S304，对于地铁人流量数据，以地铁站作为种子创建泰森多边形，即假设乘客会选择最近的地铁站，将服务缓冲区与泰森多边形相交的区域作为该地铁站的实际服务区域，将网格单元格与实际服务区域相交，再将每个地铁站的乘客量按服务面积等比例分配给特定的单元格，加总后即可获得该单元格内的地铁乘客数量。

优选地，于步骤S4中，基于网格单元，将步骤S3中的衡量人群活动量的四大指标分别与步骤S2得到的特定对象数据集和监督者数据集基于空间单元进行汇总，进而得到负二项回归模型的数据集。

优选地，步骤S5进一步包括：

步骤S500，基于步骤S4得到的数据集，将特定人群指标单独纳入负二项模型中，并将有动机的特定对象及其邻近的区域的特定对象数量、监管作为控制变量，得到AIC、BIC值；

步骤S501，根据步骤S500得到的AIC\BIC值，对比不同模型的拟合优度。

优选地，步骤S5海包括：

步骤S502，采用自举法对原始样本重复S次自举，并计算每次数据集最优模型的频率分布。

为达到上述目的，本发明还提供一种识别特定人群最优衡量指标的装置，包括：

划分时空分析单元，用于根据所确定的涉及特定人群指标的变量特点，划分时空单元网格；

地理编码单元，用于获取相关事件数据，对相关事件数据进行地理编码，提取单元网格的相关事件数量和生成有动机的特定对象数据集，同时计算单元网格中心点到最近相关部门的距离，生成监督者数据集；

人群活动量衡量指标构建单元，用于获取人口大数据，并将其分为居住人口、手机用户、出租车乘客、地铁人流量四大类，以构建人群活动量四大衡量指标，并基于划分时空分析单元划分的网格单元，利用泰森多边形和空间叠加等方法衡量人群活动量，汇总到它们所在的网格单元；

融合单元，用于将地理编码单元获得的特定对象数据集和监督者数据集分配到构建的网格单元中，并与人群活动量衡量指标构建单元得到的人群活动量有效融合，从而得到负二项回归模型的变量集；

模型拟合度对比单元，基于融合单元得到的变量集，将特定人群指标分别纳入负二项模型，并通过对比不同模型的拟合度，从而得到识别特定人群最优衡量指标。

现有技术相比，本发明一种识别特定人群最优衡量指标的方法及装置将特定对象数量、到最近相关部门的距离作为固定变量，然后把居住人口、手机用户、出租车乘客、地铁人流量分别和前述固定变量一起放进负二项回归模型中，根据AIC或BIC值的大小确定最优衡量指标(AIC或BIC值的越小，说明那个指标越好)，与传统的衡量活动人群相比，本发明能够实现对日常活动的潜在相关人群动态衡量，以解决相关事件研究中的地理环境不确定性的问题，提高特定对象行为预测的准确度，让事务决策者对事务的动态变化有更好的掌握和判断。

附图说明

图1为本发明一种识别特定人群最优衡量指标的方法的步骤流程图；

图2为本发明一种识别特定人群最优衡量指标的装置的系统架构图；

图3为本发明实施例中识别特定人群最优衡量指标的方法的流程示意图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种识别特定人群最优衡量指标的方法的步骤流程图。如图 1所示，本发明一种识别特定人群最优衡量指标的方法，包括如下步骤：

步骤S1，根据所确定的涉及特定人群指标的变量特点，划分时空单元网格。具体地，对时间单元网格用区分固定数量大小相等的时间间隔；空间单元网格根据空间精度和地理编码的需要，划分为1km×1km的网格。

在本发明具体实施例中，所确定的涉及特定人群指标的变量共有四个不同变量：手机用户、出租车乘客、地铁乘客、居住人口。另外，基于特定对象居住地点和相关部门地点生成特定对象数据集和监管者数据集。本发明中，特定人群指标主要是自不同的政府部门、公司或其它公共来源。

具体地，时间单元网格用区分固定数量大小相等的时间间隔，例如将一天划分为五个三小时间隔：7-10小时，10-13小时，13-16小时，16-19小时和19-22 小时。空间单元网格根据空间精度和地理编码的需要，划分为1km×1km的网格。，也可根据需要划分不同的时间段或空间分析单元网格。

步骤S2，获取相关事件数据，对相关事件数据进行地理编码，提取单元网格的相关事件数量和生成有动机的特定对象数据集，同时计算单元网格中心点到最近相关部门的距离，生成监督者数据集。在本发明具体实施例中，采用 Geocoding API对相关事件数据进行编码，根据可信度相关参数、地理编码等级等规则对编码结果进行整理，最后通过基于系统聚类与随机森林的分类优化模型，将多平台编码结果分类处理、优化，生成有动机的特定对象数据集；通过城市地图获取相关部门所在地坐标，计算单元网格中心点到最近相关部门的距离，生成监督者数据集。

具体地，步骤S2进一步包括：

步骤S200，获取相关事件数据，所述相关事件数据包括具体相关事件的数据和相关人员的抓获数据。相关事件数据包括相关部门接收报告数据、相关人员直接前往相关部门报告或打当地相关部门电话报告的所有数据，每起相关事件数据均包含了相关事件发生的日期和大致的时间地点，地点信息包括具体地址和案件所属的相关部门。相关人员的抓获数据集记录内容包括案件的发生日期、特定对象的家庭地址和相关事件发生地点。

步骤S201，对相关事件数据进行地理编码，获取相应的坐标，并进一步将案件点汇总到的1平方公里的网格单元，生成有动机的特定对象数据集。除了相关事件之外，将所有特定对象的居住地均经过地理编码并汇总到相应的网格中，居住在某单元网格的特定对象数量代表了该区域有动机动作、能动作的相关人员。在本发明中，每个网格周边的特定对象数量是居住在八个相邻网格单元的特定对象数量的总和。在本发明具体实施例中，所述地理编码为基于相关事件发生的地址批量生成地理坐标，例如分别调用高德地图，百度地图api的坐标拾取器功能，然后对生成的坐标结果进行优化。

步骤S202，获取相关部门坐标，计算单元网格中心点到最近相关部门的距离，生成监督者数据集。在本发明中，相关部门是基层的治安单位，其所在坐标通过城市地图获得，并对相关部门进行地理编码，如果网格单元内有相关部门，则该网格单元与最近的相关部门的距离编码为0，如果网格单元内无相关部门，则到相关部门的距离是指网格单元的质心和最近的相关部门之间的距离，最终生成监督者数据集。

步骤S3，获取人口大数据，并将其分为居住人口、手机用户、出租车乘客、地铁人流量四大类，以构建人群活动量四大衡量指标，并基于步骤S1划分的网格单元，利用泰森多边形和空间叠加等方法衡量人群活动量，汇总到它们所在的网格单元。

具体地，步骤S3进一步包括：

步骤S300，基于人口普查的居住统计数据、用户基站汇总数据、出租车轨迹提取的乘客起讫点汇总数据以及地铁站进出站刷卡汇总数据，分别获得居住人口、手机用户、出租车乘客、地铁人流量四类人口数据，并对上述四种数据进行单独处理，构建衡量人群活动量衡量指标。

步骤S301，对于居住人口数据，将网格单元和社区单元进行空间叠加，并计算相交区域的面积。随后，按相交面积占社区面积的比例来进行人口分配，再将分配到的居住人口相加汇总来估计每个网格单元的居住人口。具体地说，居住人口数据集中有每一个社区的居住人口。为了计算每个网格单元的居住人口，将网格单元和社区单元进行空间叠加，并计算相交区域的面积。随后，按相交面积占社区面积的比例来进行人口分配，再将分配到的居住人口相加汇总来估计每个网格单元的居住人口。

步骤S302，对于手机用户数据，以信号塔位置为种子创建了泰森多边形(也称为Voronoi多边形)，对于泰森多边形内的手机用户，它的信号都将与种子信号塔产生联系，随后，将泰森多边形与网格单元相交，并且根据位于网格内部的泰森多边形面积的比例将手机用户数分配给每个网格单元。具体地说，手机信令数据包括所有涉及到与信号塔建立关系的数据，本发明以信号塔位置为种子创建泰森多边形，将泰森多边形与网格单元相交，并且根据位于网格内部的泰森多边形面积的比例将手机用户数分配给每个网格单元。

步骤S303，对于出租车乘客数据，通过获取一段时间的出租车GPS数据，根据状态的转换，确定每次旅程的起点和目的地。最终将起点和终点的数据汇总到它们所在的网格单元。具体地，出租车乘客用来表示城市人口的户外活动量，本发明采取了一整周的出租车GPS数，原始出租车数据包括出租车位置的经纬度以及载客状态，然后根据状态的转换，确定每次旅程的起点和目的地。最终将起点和终点的数据汇总到它们所在的网格单元。

步骤S4，将步骤S2获得的特定对象数据集和监督者数据集分配到构建的网格单元中，并与步骤S3得到的人群活动量有效融合，从而得到分析模型(即负二项回归模型)的变量集。具体地说，基于网格单元，将步骤S3中的衡量人群活动量的四大指标分别与步骤S2得到的特定对象数据集和监督者数据集基于空间单元(时空单元网格中的空间网格单元)进行汇总，进而得到分析模型的数据集，即将各个变量，按单元格汇总起来，得到分析模型的数据集。

步骤S5，基于步骤S4得到的变量集，将汇总后的特定人群指标分别纳入已考虑特定对象和监管者影响的负二项回归模型，并通过对比不同模型的拟合度，从而得到识别特定人群最优衡量指标，即将步骤S4得到的四个结果分别纳入负二项回归模型，通过对比不同模型(不同结果纳入该模型后得到的不同模型)的拟合度，从而得到识别特定人群最优衡量指标。

具体地，步骤S5进一步包括：

步骤S500，将步骤S4得到的特定人群指标单独纳入负二项模型中，并将有动机的特定对象及其邻近的区域的特定对象数量、监管(与最近相关部门的距离)作为控制变量，得到AIC、BIC值。

负二项回归模型是泊松模型的延伸，它在衡量离散型的因变量有较好的效果。负二项分布是一个连续的混合泊松分布，y的边际分布就是一个具有闭合形式的泊松－伽马混合分布，它们的概率密度函数是：

其中，Г是一个伽马积分，它设定了积分参数的阶乘；μ＝E(y)，α是伽马分布的方差参数，当α趋向于0时(没有过度离散)，负二项模型就变成了泊松模型。AIC值(Akaike’sInformation Criterion)被认为是对比多个非嵌套负二项模型拟合优度的合适基准。AIC的值越小，模型拟合效果越好。

步骤S502，为严格对比模型拟合效果的差异，除了AIC、BIC值外，采用自举法对原始样本(原始事务数据)重复S次自举，并计算每次数据集最优模型的频率分布。

图2为本发明一种识别特定人群最优衡量指标的装置的系统架构图。如图 2所示，本发明一种识别特定人群最优衡量指标的装置，包括：

划分时空分析单元201，用于根据变量特点，划分时空单元网格。具体地，对时间单元网格用区分固定数量大小相等的时间间隔；空间单元网格根据空间精度和地理编码的需要，划分为1km×1km的网格。

在本发明具体实施例中，所确定的涉及特定人群指标的变量共有七个不同变量：手机用户、出租车乘客、地铁乘客、居住人口。这些变量的数据来自不同的政府部门、公司或其它公共来源。根据上述变量特点进行时空网格单元的划分。

时间单元网格用区分固定数量大小相等的时间间隔，将一天划分为五个三小时间隔：7-10小时，10-13小时，13-16小时，16-19小时和19-22小时。空间单元网格根据空间精度和地理编码的需要，划分为1km×1km的网格，共205 个。

地理编码单元202，用于获取相关事件数据，对相关事件数据进行地理编码，提取单元网格的相关事件数量和生成有动机的特定对象数据集，同时计算单元网格中心点到最近相关部门的距离，生成监督者数据集。在本发明具体实施例中，采用Geocoding API对相关事件数据进行编码，根据可信度相关参数、地理编码等级等规则对编码结果进行整理，最后通过基于系统聚类与随机森林的分类优化模型，将多平台编码结果分类处理、优化，生成有动机的特定对象数据集；通过城市地图获取相关部门所在地坐标，并计算单元网格中心点到最近相关部门的距离，生成监督者数据集。

具体地，地理编码单元202进一步包括：

相关事件数据获取模块，用于获取相关事件数据，所述相关事件数据包括具体相关事件的数据和相关人员的抓获数据。相关事件数据包括相关部门接收报告数据、相关人员直接前往相关部门报告或打当地相关部门电话报告的所有数据，每起相关事件数据均包含了相关事件发生的日期和大致的时间地点，地点信息包括具体地址和案件所属的相关部门。相关人员的抓获数据集记录内容包括相关事件的发生日期、特定对象的家庭地址和相关事件发生地点。

相关事件数据编码模块，用于对相关事件数据进行地理编码，获取相应的坐标，并进一步将案件点汇总到的1平方公里的网格单元，生成有动机的特定对象数据集。除了相关事件之外，将所有特定对象的居住地均经过地理编码并汇总到相应的网格中，居住在某单元网格的特定对象数量代表了该区域有动机动作、能动作的相关人员。在本发明中，每个网格周边的特定对象数量是居住在八个相邻网格单元的特定对象数量的总和。

相关部门地理编码模块，用于获取相关部门坐标，计算单元网格中心点到最近相关部门的距离，生成监督者数据集。在本发明中，相关部门是基层的治安单位，所在坐标通过城市地图获得，并对相关部门进行地理编码，如果网格单元内有相关部门，则该网格单元与最近的相关部门的距离编码为0，如果网格单元内无相关部门，则到相关部门的距离是指网格单元的质心和最近的相关部门之间的距离，最终生成监督者数据集。

人群活动量衡量指标构建单元203，用于获取人口大数据，并将其分为居住人口、手机用户、出租车乘客、地铁人流量四大类，以构建人群活动量四大衡量指标，并基于划分时空分析单元201划分的网格单元，利用泰森多边形和空间叠加等方法衡量人群活动量，汇总到它们所在的网格单元。

具体地，人群活动量衡量指标构建单元203基于人口普查的居住统计数据、用户基站汇总数据、出租车轨迹提取的乘客起讫点汇总数据以及地铁站进出站刷卡汇总数据，分别获得居住人口、手机用户、出租车乘客、地铁人流量四类人口数据，并对上述四种数据进行单独处理，构建衡量人群活动量衡量指标。其中：

对于居住人口数据，将网格单元和社区单元进行空间叠加，并计算相交区域的面积。随后，按相交面积占社区面积的比例来进行人口分配，再将分配到的居住人口相加汇总来估计每个网格单元的居住人口。具体地说，居住人口数据集中有每一个社区的居住人口。为了计算每个网格单元的居住人口，将网格单元和社区单元进行空间叠加，并计算相交区域的面积。随后，按相交面积占社区面积的比例来进行人口分配，再将分配到的居住人口相加汇总来估计每个网格单元的居住人口。

对于手机用户数据，以信号塔位置为种子创建了泰森多边形(也称为Voronoi 多边形)，对于泰森多边形内的手机用户，它的信号都将与种子信号塔产生联系，随后，将泰森多边形与网格单元相交，并且根据位于网格内部的泰森多边形面积的比例将手机用户数分配给每个网格单元。具体地说，手机信令数据包括所有涉及到与信号塔建立关系的数据，本发明以信号塔位置为种子创建泰森多边形，将泰森多边形与网格单元相交，并且根据位于网格内部的泰森多边形面积的比例将手机用户数分配给每个网格单元。

对于出租车乘客数据，通过获取一段时间的出租车GPS数据，根据状态的转换，确定每次旅程的起点和目的地。最终将起点和终点的数据汇总到它们所在的网格单元。具体地，出租车乘客用来表示城市人口的户外活动量，本发明采取了一整周的出租车GPS数，原始出租车数据包括出租车位置的经纬度以及载客状态，然后根据状态的转换，确定每次旅程的起点和目的地。最终将起点和终点的数据汇总到它们所在的网格单元。

对于地铁人流量数据，以地铁站作为种子创建泰森多边形，即假设乘客会选择最近的地铁站，将服务缓冲区与泰森多边形相交的区域作为该地铁站的实际服务区域，将网格单元格与实际服务区域相交，再将每个地铁站的乘客量按服务面积等比例分配给特定的单元格，加总后即可获得该单元格内的地铁乘客数量。

融合单元204，用于将地理编码单元202获得的特定对象数据集和监督者数据集分配到构建的网格单元中，并与人群活动量衡量指标构建单元203得到的人群活动量有效融合，从而得到分析模型(即负二项回归模型)的变量集。具体地说，基于网格单元，将人群活动量衡量指标构建单元203中的衡量人群活动量的四大指标分别与步骤地理编码单元202得到的特定对象数据集和监督者数据集进行数据融合，再把这些变量放进负二项回归模型中，进行不同指标的模型拟合度对比。

模型拟合度对比单元205，基于负二项模型对比四种不同的衡量指标，即将融合单元204得到的特定人群指标分别纳入负二项模型，并通过对比不同模型的拟合度，从而得到识别特定人群最优衡量指标。

具体地，模型拟合度对比单元205将融合单元204得到的特定人群分别纳入已考虑特定对象和监管者影响的负二项模型中(即特定人群作为模型变量)，并将有动机的特定对象及其邻近的区域的特定对象数量、监管(与最近相关部门的距离)作为控制变量，得到AIC和/或BIC值。

其中，Г是一个伽马积分，它设定了积分参数的阶乘；μ＝E(y)，α是伽马分布的方差参数，当α趋向于0时(没有过度离散)，负二项模型就变成了泊松模型。AIC、BIC分别是衡量统计模型拟合优良度的一种标准，其中AIC值 (Akaike’s Information Criterion)被认为是对比多个非嵌套负二项模型拟合优度的合适基准，一般来说，AIC的值越小，模型拟合效果越好。具体地，AIC 计算公式为：

AIC＝2k+n ln(RSS/n)

其中，k是参数的数量，n为观察数，RSS为残差平方和。

根据得到的AIC\BIC值，对比不同模型的拟合优度。

优选地，为严格对比模型拟合效果的差异，除了AIC、BIC值外，模型拟合度对比单元205还采用自举法对原始样本重复S次自举，并计算每次数据集最优模型的频率分布。

实施例

在本实施例中，如图3所示，本发明之一种识别特定人群最优衡量指标的方法的流程如下：

步骤1，根据变量特点进行时空网格单元的划分。

本实施例中，共有四个不同变量：手机用户、出租车乘客、地铁乘客、居住人口，这些变量数据来自不同的政府部门、公司或其它公共来源。根据上述变量特点进行时空网格单元的划分。

步骤2，获取相关事件数据。获取的相关事件数据包括具体相关事件的数据和相关人员的抓获数据。例如，相关事件数据是由ZG市相关部门提供的2014 年1月至2014年12月的相关事件数据，包括相关部门接收报告数据、相关人员直接前往相关部门报告或打当地相关部门电话报告的所有数据，每起相关事件数据均包含了相关事件发生的日期和大致的时间地点，地点信息包括具体地址和相关事件所属的相关部门。相关人员的抓获数据集的是2014年6月1日至2016年5月30日期间抓获的相关人员数据，记录内容包括相关事件的发生日期、特定对象的家庭地址和相关事件发生地点。

步骤3，对步骤2获取的相关事件数据和相关部门地理编码：①相关事件进行地理编码，获取相应的坐标，并进一步将案件点汇总到的1平方公里的网格单元。除了相关事件之外，所有特定对象(2014年因一次或多次相关事件被抓获)的居住地均经过地理编码并汇总到相应的网格中。居住在某单元网格的特定对象数量代表了该区域有动机动作、能动作的相关人员。每个网格周边的特定对象数量是居住在八个相邻网格单元的特定对象数量的总和。②相关部门是中国基层的治安单位，所在坐标通过城市地图获得，并对相关部门进行地理编码。如果网格单元内有相关部门，则该网格单元与最近的相关部门的距离编码为0，如果网格单元内无相关部门，则到相关部门的距离是指网格单元的质心和最近的相关部门之间的距离。最终生成监督者数据集

步骤4，构建衡量人群活动量四大指标：

①居住人口：例如采用第六次ZG城市的人口普查数据，该数据集中有每一个社区的居住人口。为了计算每个网格单元的居住人口，将网格单元和社区单元进行空间叠加，并计算相交区域的面积。随后，按相交面积占社区面积的比例来进行人口分配，再将分配到的居住人口相加汇总来估计每个网格单元的居住人口。例如，完全位于网格单元内的人口普查单元的权重是1，则将该社区的总体人口全部分配给该网格单元。但是，若某社区单元只有一半的面积位于网格单元格内，则该人口普查单元被赋予0.50的权重，即只有一半的人口被分配给网格单元格。

②手机用户：手机用户数据由一家主要移动电话服务的提供商提供。手机的地理数据以信号塔的信令信息为基础，每个信号塔均汇总了2G和3G网络的手机匿名用户的总数。手机进行通讯时，通常会连接到最近的信号塔。手机信令数据包括所有涉及到与信号塔建立关系的数据，例如互联网搜索、短信发送、打电话等。本实施例的手机数据是从2016年5月12日至18日(其中5月14 日至15日是周末)的一整周的逐小时统计数据。在ZG城市中心地区，基站密度相当高，基站塔的平均距离是500米。为了将手机用户数量汇集到每个网格单元中，本研究以信号塔位置为种子创建了泰森多边形(也称Voronoi多边形)。对于泰森多边形内的手机用户，它的信号都将与种子信号塔产生联系。随后，将泰森多边形与网格单元相交，并且根据位于网格内部的泰森多边形面积的比例将手机用户数分配给每个网格单元。

③出租车乘客：出租车是ZG市一种较常见的公共交通方式。全市约有2 万辆出租车，全部都装有GPS设备。尽管出租车属于不同的公司，但所有GPS 信息都会汇集到交通局。在本发明中，出租车乘客量用来表示城市人口的户外活动量。本发明采取一整周的出租车GPS数据(2014年3月23日至29日，3 月23日是周日，3月29日是周六)，原始出租车数据包括出租车位置的经纬度以及载和目的地(“2”到“1”)。起点和终点的数据被汇集到它们所在的网格单元。

④地铁人流量：地铁乘客数据数据集合了2014年3月3日至9日(3月8 日至9日是周末)每小时和每个地铁站进入和离开地铁站的乘客人数。为了将地铁乘客量汇总到网格单元，本实施例将地铁站的服务半径设为1.5km，即假设距离地铁站1.5km以内的人都有可能去乘坐该地铁。与手机数据的处理程序类似，地铁站作为种子来创建泰森多边形，即假设乘客会选择最近的地铁站。接着，将服务缓冲区与泰森多边形相交的区域则是该地铁站的实际服务区域。接着，按照同样的方法，将单元格与实际服务区域相交，再将每个地铁站的乘客量按服务面积等比例分配给特定的单元格，加总后即可获得该单元格内的地铁乘客数量。

步骤5，融合特定对象数据集、监督数据集和目标人群：基于网格单元，将步骤4中的衡量人群活动量的四大指标分别与步骤3得到的特定对象数据集和监督者数据集进行空间叠置，进而得到三者耦合后的区域，这一区域即为特定人群。

步骤6，将步骤5得到的特定人群分别单独纳入负二项模型中，并将有动机的特定对象及其邻近的区域的特定对象数量、监管(与最近相关部门的距离) 作为控制变量，得到AIC和BIC值，并对比不同模型的拟合优度。

步骤7，考虑到模型的残差存在空间自相关会违反观测独立性的基本原则，研究采用Queen邻接矩阵减少空间自相关。在估计模型之后比较了“空模型”的残差自相关和全模型的残差自相关。

步骤8，为严格对比模型拟合效果的差异，除了AIC、BIC值外，本实施例采用自举法对原始样本重复S次自举，并计算每次数据集最优模型的频率分布。

本发明通过融合相关事件数据和人口大数据等多源时空数据，对衡量人群活动量的指标进行了优化对比。相比传统的静态的人群活动量衡量方式，本发明提供了动态的四大衡量方式以充分衡量目标群体，进而得出识别特定人群的最优衡量指标。

本发明基于负二项回归模型，对比四大衡量人群活动量的方式预测和解释相关事件空间分布的效果，以解决相关事件研究中的地理环境不确定性的问题，提高特定对象行为预测的准确度，让事务决策者对事务的动态变化有更好的掌握和判断。

综上所述，本发明一种识别特定人群最优衡量指标的方法及装置将特定对象数量、到最近相关部门的距离作为固定变量，然后把居住人口、手机用户、出租车乘客、地铁人流量分别和前述固定变量一起放进负二项回归模型中，根据AIC或BIC值的大小确定最优衡量指标(AIC或BIC值的越小，说明那个指标越好)，与传统的衡量活动人群相比，本发明能够实现对日常活动的潜在相关人群动态衡量，以解决相关事件研究中的地理环境不确定性的问题，提高特定对象行为预测的准确度，让事务决策者对事务的动态变化有更好的掌握和判断。本发明可应用于动态衡量日常活动中的潜在相关人群。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种识别特定人群最优衡量指标的方法，包括如下步骤：

步骤S2，获取相关事件数据，对相关事件数据进行地理编码，提取单元网格的相关事件数量和生成有动机的特定对象数据集，同时计算单元网格中心点到最近相关部门的距离，生成监督者数据集；

2.如权利要求1所述的一种识别特定人群最优衡量指标的方法，其特征在于：于步骤S1中，对时间单元网格用区分固定数量大小相等的时间间隔；对空间单元网格根据空间精度和地理编码的需要，划分为预设大小的网格。

3.如权利要求2所述的一种识别特定人群最优衡量指标的方法，其特征在于：于步骤S2中，采用Geocoding API对相关事件数据进行编码，根据可信度相关参数、地理编码等级等规则对编码结果进行整理，最后通过基于系统聚类与随机森林的分类优化模型，将多平台编码结果分类处理、优化，生成有动机的特定对象数据集；通过城市地图获取相关部门所在地坐标，获取监督者数据集。

4.如权利要求3所述的一种识别特定人群最优衡量指标的方法，其特征在于，步骤S2进一步包括：

步骤S200，获取相关事件数据，所述相关事件数据包括具体相关事件的数据和相关人员的抓获数据，所述相关事件数据包括相关部门接收报告数据、相关人员直接前往相关部门报告或打当地相关部门电话报告的所有数据；

步骤S201，对相关事件数据进行地理编码，获取相应的坐标，并进一步将案件点汇总到1平方公里的网格单元，生成有动机的特定对象数据集；

5.如权利要求4所述的一种识别特定人群最优衡量指标的方法，其特征在于：若网格单元内有相关部门，则该网格单元与最近的相关部门的距离编码为0；若网格单元内无相关部门，则该网格单元到相关部门的距离是指网格单元的质心和最近的相关部门之间的距离，最终生成监督者数据集。

6.如权利要求4所述的一种识别特定人群最优衡量指标的方法，其特征在于，步骤S3进一步包括：

7.如权利要求6所述的一种识别特定人群最优衡量指标的方法，其特征在于：于步骤S4中，基于网格单元，将步骤S3中的衡量人群活动量的四大指标分别与步骤S2得到的特定对象数据集和监督者数据集基于空间单元进行汇总，进而得到负二项回归模型的数据集。

8.如权利要求7所述的一种识别特定人群最优衡量指标的方法，其特征在于，步骤S5进一步包括：

步骤S500，基于步骤S4得到的数据集，将经步骤S4汇总后的特定人群指标纳入负二项回归模型中，并将有动机的特定对象及其邻近的区域的特定对象数量、监管作为控制变量，得到AIC、BIC值；

9.如权利要求8所述的一种识别特定人群最优衡量指标的方法，其特征在于，步骤S5海包括：

10.一种识别特定人群最优衡量指标的装置，包括：

模型拟合度对比单元，基于融合单元得到的变量集，将汇总后的特定人群指标纳入负二项模型，并通过对比不同模型的拟合度，从而得到识别特定人群最优衡量指标。