CN110347760B - 一种用于失踪人群时空定位服务的数据分析方法 - Google Patents

一种用于失踪人群时空定位服务的数据分析方法 Download PDF

Info

Publication number
CN110347760B
CN110347760B CN201910463886.6A CN201910463886A CN110347760B CN 110347760 B CN110347760 B CN 110347760B CN 201910463886 A CN201910463886 A CN 201910463886A CN 110347760 B CN110347760 B CN 110347760B
Authority
CN
China
Prior art keywords
missing
arrival
block
probability
city
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910463886.6A
Other languages
English (en)
Other versions
CN110347760A (zh
Inventor
姚尧
刘一飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201910463886.6A priority Critical patent/CN110347760B/zh
Publication of CN110347760A publication Critical patent/CN110347760A/zh
Application granted granted Critical
Publication of CN110347760B publication Critical patent/CN110347760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Remote Sensing (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用于失踪人群时空定位服务的数据分析方法,包括:通过已有失踪人口数据构建初始数据集;对初始数据集中的数据进行数据筛选和预处理,提取出用于进行分类的指标,得到样本数据集;对样本数据集中的数据进行进一步细化分类,并进行分类标号,得到用于模型构建的假设空间组;传入假设空间组中的各假设空间,构建各独立预测模型;根据各独立预测模型的结果精度,基于统计方法创建综合预测模型,可给出失踪者可能到达的城市列表和对应城市的概率。利用这一模型,仅需提供失踪者性别、身高、出生日期、失踪日期和失踪位置描述,可获知失踪者可能到达的城市,能够为寻找失踪者提供帮助。

Description

一种用于失踪人群时空定位服务的数据分析方法
技术领域
本发明涉及数据分析技术领域,具体涉及一种用于失踪人群时空定位服务的数据分析方法。
背景技术
人工智能界认为机器学习是人工智能领域中最能体现智能的一个分支之一。它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。机器学习所研究的主要内容是关于计算机上从数据中产生模型的算法。将经验数据提供给它,它就能通过这些数据产生模型。在面临新的情况发生时,模型就能够提供给相应的判断。
随机森林是一类常见的机器学习方法,是一个包含了多颗多个决策树的分类器。它的优点有:对于不平衡的分类资料集来说,它可以平衡误差;对于很多种资料,它可以产生高准确度的分类器;在决定类别时,它能够评估变数的重要性等。现今,相关的理论和技术均以完善。在充足数据集的支持下,利用机器学习的随机森林方法能够较好解决各种分类问题。
在中国,失踪人口的非法收养(包括失踪和被拐卖)是一直存在影响社会稳定和家庭稳定的关键公共安全问题。前人对失踪人口的非法收养问题研究较少,对于非法收养的节点城市和关键路径进行了识别和定位。这一研究是从宏观尺度对人口非法收养网络进行的分析,有效说明了失踪人口的转移路径的整体情况,但没有对贩卖个例可能到达的位置进行有效的评估,为寻亲家庭提供直接的建议。
发明内容
本发明要解决的技术问题在于,针对上述目前缺少对失踪人口去向预测的相关方法的技术问题,提供一种用于失踪人群时空定位服务的数据分析方法解决上述技术缺陷。
一种用于失踪人群时空定位服务的数据分析方法,包括:
S1、根据已有失踪人口数据构建初始数据集;
S2、对初始数据集中的数据进行数据筛选和预处理,提取得到用于进行分类的指标以构成样本数据集;
S3、对样本数据集中的数据进行进一步细化分类,并进行分类标号,得到用于模型构建的假设空间组;
S4、根据分别传入假设空间组中的各假设空间,来分别构建独立预测模型;
S5、按照独立预测模型的结果精度,基于统计方法创建综合预测模型,可给出失踪者可能到达的城市列表和对应城市的概率。
进一步的,S1中所述失踪人口数据,包括失踪者性别、身高、出生日期、失踪日期、失踪位置描述和到达位置描述;所述的初始数据集,包括失踪者性别、身高、出生日期、失踪日期、失踪位置描述和到达位置描述字段;所述的构建过程,是将上述失踪人口数据中的对应内容添加到初始数据集的对应字段中。
进一步的,S2中所述对初始数据集中的数据进行数据筛选和预处理过程,是将无效数据从数据集中剔除,无效数据包括缺失数据项的数据条目,以及数据内容不合法的数据条目;S2中提取得到的用于进行分类的指标包括失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份、到达区块、转移相对距离和转移相对方位。
进一步的,S2中提取出用于进行分类的指标的方法包括:
S21、将初始数据集中的失踪者性别、身高对应填入样本数据集中的性别、失踪时身高字段中;
S22、结合出生日期和失踪日期提取出失踪者失踪时的年龄、失踪年份和失踪月份填入样本数据集中的相应字段中;
S23、计算失踪位置和到达位置之间的相对距离和方位的关系,得到转移到达地相对于失踪地的距离和方位,填写入样本数据集中的相应字段中;
S24、根据失踪位置描述和到达位置描述信息,得到失踪区块和到达区块,填写入样本数据集中的相应字段中。
进一步的,S24中所述失踪区块与到达区块为对全国按照经纬网划分出的区块,划分的方式是:从数据集中描述的失踪位置描述和到达位置描述的经纬度中,找到最西南和最东北方向的两个点作为对角线,等分对全国划分区块并进行标号,然后按照全部数据中的失踪位置描述和到达位置描述,将其归纳入对应的区块之中。
进一步的,S3中所述对样本数据集中的数据进行进一步细化分类过程,具体的,不同字段分类指标如下:对于失踪省份和到达省份,按照我国省级行政区名称进行对应的划分,每个省级行政区归为一类;对于失踪区块和到达区块,按照S24中的区块标号进行分类;对于失踪年份,每隔5年作为一种分类类型;对于失踪月份,按照3月到5月、6月到8月、9月到11月、12月到2月分为四类;失踪者性别按照男、女分为两类;失踪者身高和失踪者年龄数据按照自然间断点分割法将年龄分为20类,而身高分为6类;相对转移距离数据按照自然间断点分割法划分为20类;相对转移方位分为北、东北、东、东南、南、西南、西、西北,共8类。
进一步的,所述转移相对方位分类中方位的确定,以失踪位置为原点,正北方向为0度,顺时针到到达方位的向量夹角进行参考,方位对应的角度值范围是:北:337.5-22.5度;东北:22.5-67.5度;东:67.5-112.5度;东南:112.5-157.5度;南:157.5-202.5度;西南:202.5-247.5度;西:247.5-292.5度;西北:292.5-337.5度。
进一步的,S4中所述模型构建的假设空间组共包含四个假设空间,每个假设空间的属性分别为:a、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份;b、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达区块;c、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、转移相对距离;d、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份、到达区块、转移相对方位。
进一步的,S4中所述分别传入假设空间组中的各假设空间,构建独立预测模型过程,共构建出了四个独立预测模型,分别为:a、通过失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高预测得到到达省份;b、通过失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高预测得到到达区块;c、通过失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高预测得到转移相对距离;d、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份、到达区块预测得到转移相对方位;所述的四个独立预测模型计算得到的结果为预测内容的发生概率值,使用者可以获知在每一个预测模型的预测下,失踪者可能到达的省份、区块、转移相对距离和转移相对方位的分类编号和对应的概率。
进一步的,S5中所述基于统计方法创建综合预测模型的构建过程与方法包括:
S51、在上述独立预测模型中,预测得到失踪者到达的距离范围和方位范围,结合传入的失踪位置,得到一个固定的扇形区域,利用初始数据集中的所有数据,计算出这一扇形区域覆盖的到达城市;
S52、设S51中确定的扇形区域中覆盖了n个样本集中出现过的到达城市,分别标记为城市1,城市2,...,城市n,在样本集中,其在样本集出现的频数分别为
Figure GDA0003057980660000041
Figure GDA0003057980660000042
则认定到达这一区域后,进入城市i的可能性为城市i的出现概率
Figure GDA0003057980660000043
则有
Figure GDA0003057980660000044
S53、类似地,根据到达省份和到达区块确定得到到达某一省份或区块后,进入某一城市的可能性,将到达某一省份后,进入某一城市i的可能性记为
Figure GDA0003057980660000045
将到达某一区块后,进入某一城市i的可能性记为
Figure GDA0003057980660000046
其计算方式同S52,得到进入某一直线距离区间和方位区间确定的区域后,或进入某一省份后,以及进入某一区块后,最终到达某个城市的可能性;
S54、根据预测模型的直接独立预测结果,得到到达方位、到达距离范围、到达省份和到达区块的概率,利用到达方位和到达距离范围的概率,求解得到到达区域的概率,由于到达方位概率Prdire和到达距离Prdist概率是相互独立的,因此需用概率乘法法则计算并确定到达区域的概率Prregion,即
Prregion=Prdire·Prdist
到达省份概率Prprov和到达区块概率Prblock能够在预测模型的结果中直接得到;
S55、在得到达区域、到达区块和到达省份的概率值后,根据独立事件下的条件概率模型,计算得到在区域预测模型下,到达某城市的概率
Figure GDA0003057980660000047
在省份预测模型下,到达某城市的概率
Figure GDA0003057980660000048
在区块预测模型下,到达某城市的概率
Figure GDA0003057980660000049
记录区域独立预测模型的整体精度为OAregion=OAdire·OAdist,省份独立预测模型的整体精度为OAprov,区块独立预测模型的整体精度为OAblock,计算以区域预测模型下的到达城市i的概率:
Figure GDA00030579806600000410
得到在某一独立预测模型下,到达某城市的概率;
S56、将上述得到的到达城市概率按照不同预测模型的Kappa系数进行加权,能够得到不同预测模型的比重,进而得到最终的到达城市预测模型,区域、省份和区块的Kappa系数分别记为Kapparegion,Kappaprov,Kappablock,则最终到达某一城市的总概率Prcity
Figure GDA00030579806600000411
与现有技术相比,本发明优势在于:国内外目前对于失踪人口去向预测的相关研究较少,所存在的失踪者去向分析也仅停留在宏观尺度,没有对于失踪个例进行预测分析的方法或成果。而本发明弥补了这一方面的空白,提出了一种失踪者个例去向的预测方法,并在经验误差的检测中得到了较高精度。利用这一模型预测得到的最终结果为精确到城市级别的失踪者可能所在的位置。它能够为公共安全机构和有寻找失踪者需求的人群在地理位置方面提供更加准确和有效的参考。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明一种用于失踪人群时空定位服务的数据分析方法流程图;
图2为本发明数据预处理得到的假设空间示意图;
图3为本发明模型训练过程的流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
一种用于失踪人群时空定位服务的数据分析方法,如图1所示,包括:
S1、根据已有失踪人口数据构建初始数据集;
失踪人口数据至少包括失踪者性别、身高、出生日期、失踪日期、失踪位置描述和到达位置描述。所述的初始数据集,至少包含失踪者性别、身高、出生日期、失踪日期、失踪位置描述和到达位置描述字段。所述的构建过程,实质为将上述失踪人口数据中的对应内容添加到初始数据集的对应字段中。对于失踪者的身高,其误差需要在10厘米之内;对于失踪者的失踪日期,其误差需要在一个月内;对于失踪者失踪位置描述和到达位置描述,其内容需要精确到县级行政区。
S2、对初始数据集中的数据进行数据筛选和预处理,提取得到用于进行分类的指标以构成样本数据集;
提取得到的用于进行分类的指标及样本数据集字段包含失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份、到达区块、转移相对距离和转移相对方位。
需要对失踪人口数据提取出用于进行分类的指标,其过程为:
S21、将初始数据集中的失踪者性别、身高对应填入样本数据集中的性别、失踪时身高字段中;
S22、结合出生日期和失踪日期提取出失踪者失踪时的年龄、失踪年份和失踪月份填入样本数据集中的相应字段中;
S23、计算失踪位置和到达位置之间的相对距离和方位的关系,得到转移到达地相对于失踪地的距离和方位,填写入样本数据集中的相应字段中;
S24、根据失踪位置描述和到达位置描述信息,得到失踪区块和到达区块,填写入样本数据集中的相应字段中。
为了对失踪者的位置进行补充性描述,避免在省份边界位置的预测造成误差,本发明提出了区块的概念:对全国按照经纬网划分出的区块。划分的方式为,从数据集中描述的失踪位置描述和到达位置描述的经纬度中,找到最西南和最东北方向的两个点作为对角线,等分对全国划分区块并进行标号。一般划分为16等分。然后,按照全部数据中的失踪位置描述和到达位置描述,将其归纳入对应的区块之中。
S3、对样本数据集中的数据进行进一步细化分类,并进行分类标号,得到用于模型构建的假设空间组;
对样本数据集中的数据进行进一步细化分类过程,不同字段分类指标如下:对于失踪省份和到达省份,按照我国省级行政区名称进行对应的划分,每个省级行政区归为一类;对于失踪区块和到达区块,按照权利要求7中所述的区块标号进行分类;对于失踪年份,从1980年之后,每隔5年作为一种分类类型;对于失踪月份,按照3月到5月、6月到8月、9月到11月、12月到2月分为四类;失踪者性别按照男、女分为两类;失踪者身高和失踪者年龄数据按照自然间断点分割法将年龄分为20类,而身高分为6类;相对转移距离数据按照自然间断点分割法划分为20类;相对转移方位分为北、东北、东、东南、南、西南、西、西北,共8类。转移相对方位分类中方位的确定,以失踪位置为原点,正北方向为0度,顺时针到到达方位的向量夹角进行参考,方位对应的角度值范围如下所描述:北:337.5-22.5度;东北:22.5-67.5度;东:67.5-112.5度;东南:112.5-157.5度;南:157.5-202.5度;西南:202.5-247.5度;西:247.5-292.5度;西北:292.5-337.5度。
S4、根据分别传入假设空间组中的各假设空间,来分别构建独立预测模型;
在完成样本数据集的分类细化工作后,得到的结果可以进行假设空间的构建。模型构建的假设空间组共包含四个假设空间,如图2所示,每个假设空间的属性分别为:
(1)失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份;
(2)失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达区块;
(3)失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、转移相对距离;
(4)失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份、到达区块、转移相对方位。
使用机器学习的随机森林方法,分别传入四个假设空间,构建得到四个独立预测模型。独立预测模型计算得到的结果均为预测内容的发生概率值。使用者可以获知在每一个预测模型的预测下,失踪者可能到达的省份、区块、转移相对距离和转移相对方位的分类编号和对应的概率。
S5、按照独立预测模型的结果精度,基于统计方法创建综合预测模型,可给出失踪者可能到达的城市列表和对应城市的概率。
在得到四个独立预测模型后,结合各模型经一致性检验得到的的总体精度和Kappa系数,进一步构建基于统计方法创建综合预测模型。如图3所示,综合预测模型的构建过程如下:
S51、在上述独立预测模型中,预测得到失踪者到达的距离范围和方位范围,结合传入的失踪位置,可得到一个固定的扇形区域。利用初始数据集中的所有数据,可计算出这一扇形区域覆盖的到达城市。
S52、设S51中确定的扇形区域中覆盖了n个样本集中出现过的到达城市,分别标记为城市1,城市2,...,城市n,在样本集中,其在样本集出现的频数分别为
Figure GDA0003057980660000071
Figure GDA0003057980660000072
则认定到达这一区域后,进入城市i的可能性为城市i的出现概率
Figure GDA0003057980660000073
则有
Figure GDA0003057980660000074
S53、类似地,可根据到达省份和到达区块确定得到到达某一省份或区块后,进入某一城市的可能性。将到达某一省份后,进入某一城市i的可能性记为
Figure GDA0003057980660000075
将到达某一区块后,进入某一城市i的可能性记为
Figure GDA0003057980660000076
其计算方式同S52中的描述。由此,可以得到进入某一直线距离区间和方位区间确定的区域后,或进入某一省份后,以及进入某一区块后,最终到达某个城市的可能性。
S54、根据预测模型的直接独立预测结果,可以获知到达方位、到达距离范围、到达省份和到达区块的概率。利用到达方位和到达距离范围的概率,可以求解得到到达区域的概率,由于到达方位概率Prdire和到达距离Prdist概率是相互独立的,因此需用概率乘法法则计算并确定到达区域的概率Prregion,即
Prregion=Prdire·Prdist,
而到达省份概率Prprov和到达区块概率Prblock能够在预测模型的结果中直接得到。
S55、在得到达区域、到达区块和到达省份的概率值后,根据独立事件下的条件概率模型,可计算得到在区域预测模型下,到达某城市的概率
Figure GDA0003057980660000081
在省份预测模型下,到达某城市的概率
Figure GDA0003057980660000082
在区块预测模型下,到达某城市的概率
Figure GDA0003057980660000083
由于不同的独立预测模型预测结果都有偏差,以预测过程中一致性检测的总体精度进行衡量,记录区域独立预测模型的整体精度为OAregion=OAdire·OAdist,省份独立预测模型的整体精度为OAprov,区块独立预测模型的整体精度为OAblock。以区域预测模型下的到达城市i的概率计算为例,
Figure GDA0003057980660000084
由此,可以得到在某一独立预测模型下,到达某城市的概率。
S56、将上述得到的到达城市概率按照不同预测模型的Kappa系数进行加权,能够得到不同预测模型的比重,进而得到最终的到达城市预测模型。区域、省份和区块的Kappa系数分别记为Kapparegion,Kappaprov,Kappablock,则最终到达某一城市的总概率Prcity
Figure GDA0003057980660000085
根据这一基于统计方法创建综合预测模型,可以得到的结果按照到达城市的概率值降序排序,并给出全部预测得到的对应城市和概率值。
本发明结合失踪人口志愿者数据库,利用机器学习的随机方法,构建了一种用于失踪人群时空定位服务的数据分析模型,以个体为基本尺度,将非法收养人员的信息开展进一步的时空分析,以挖掘失踪人口的转移路径、当前位置及其驱动因素。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (9)

1.一种用于失踪人群时空定位服务的数据分析方法,其特征在于,包括:
S1、根据已有失踪人口数据构建初始数据集;
S2、对初始数据集中的数据进行数据筛选和预处理,提取得到用于进行分类的指标以构成样本数据集;
S3、对样本数据集中的数据进行进一步细化分类,并进行分类标号,得到用于模型构建的假设空间组;
S4、根据分别传入假设空间组中的各假设空间,来分别构建独立预测模型;
S5、按照独立预测模型的结果精度,基于统计方法创建综合预测模型,可给出失踪者可能到达的城市列表和对应城市的概率;
S5中所述基于统计方法创建综合预测模型的构建过程与方法包括:
S51、在上述独立预测模型中,预测得到失踪者到达的距离范围和方位范围,结合传入的失踪位置,得到一个固定的扇形区域,利用初始数据集中的所有数据,计算出这一扇形区域覆盖的到达城市;
S52、设S51中确定的扇形区域中覆盖了n个样本集中出现过的到达城市,分别标记为城市1,城市2,...,城市n,在样本集中,其在样本集出现的频数分别为
Figure FDA0003057980650000011
Figure FDA0003057980650000012
则认定到达这一区域后,进入城市i的可能性为城市i的出现概率
Figure FDA0003057980650000013
则有
Figure FDA0003057980650000014
S53、类似地,根据到达省份和到达区块确定得到到达某一省份或区块后,进入某一城市的可能性,将到达某一省份后,进入某一城市i的可能性记为
Figure FDA0003057980650000015
将到达某一区块后,进入某一城市i的可能性记为
Figure FDA0003057980650000016
其计算方式同S52,得到进入某一直线距离区间和方位区间确定的区域后,或进入某一省份后,以及进入某一区块后,最终到达某个城市的可能性;
S54、根据预测模型的直接独立预测结果,得到到达方位、到达距离范围、到达省份和到达区块的概率,利用到达方位和到达距离范围的概率,求解得到到达区域的概率,由于到达方位概率Prdire和到达距离Prdist概率是相互独立的,因此需用概率乘法法则计算并确定到达区域的概率Prregion,即
Prregion=Prdire·Prdist
到达省份概率Prprov和到达区块概率Prblock能够在预测模型的结果中直接得到;
S55、在得到达区域、到达区块和到达省份的概率值后,根据独立事件下的条件概率模型,计算得到在区域预测模型下,到达某城市的概率
Figure FDA0003057980650000022
在省份预测模型下,到达某城市的概率
Figure FDA0003057980650000023
在区块预测模型下,到达某城市的概率
Figure FDA0003057980650000024
记录区域独立预测模型的整体精度为OAregion=OAdire·OAdist,省份独立预测模型的整体精度为OAprov,区块独立预测模型的整体精度为OAblock,计算以区域预测模型下的到达城市i的概率:
Figure FDA0003057980650000025
得到在某一独立预测模型下,到达某城市的概率;
S56、将上述得到的到达城市概率按照不同预测模型的Kappa系数进行加权,能够得到不同预测模型的比重,进而得到最终的到达城市预测模型,区域、省份和区块的Kappa系数分别记为Kapparegion,Kappaprov,Kappablock,则最终到达某一城市的总概率Prcity
Figure FDA0003057980650000021
2.根据权利要求1所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,S1中所述失踪人口数据,包括失踪者性别、身高、出生日期、失踪日期、失踪位置描述和到达位置描述;所述的初始数据集,包括失踪者性别、身高、出生日期、失踪日期、失踪位置描述和到达位置描述字段;所述的构建过程,是将上述失踪人口数据中的对应内容添加到初始数据集的对应字段中。
3.根据权利要求1所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,S2中所述对初始数据集中的数据进行数据筛选和预处理过程,是将无效数据从数据集中剔除,无效数据包括缺失数据项的数据条目,以及数据内容不合法的数据条目;S2中提取得到的用于进行分类的指标包括失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份、到达区块、转移相对距离和转移相对方位。
4.根据权利要求1所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,S2中提取出用于进行分类的指标的方法包括:
S21、将初始数据集中的失踪者性别、身高对应填入样本数据集中的性别、失踪时身高字段中;
S22、结合出生日期和失踪日期提取出失踪者失踪时的年龄、失踪年份和失踪月份填入样本数据集中的相应字段中;
S23、计算失踪位置和到达位置之间的相对距离和方位的关系,得到转移到达地相对于失踪地的距离和方位,填写入样本数据集中的相应字段中;
S24、根据失踪位置描述和到达位置描述信息,得到失踪区块和到达区块,填写入样本数据集中的相应字段中。
5.根据权利要求4所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,S24中所述失踪区块与到达区块为对全国按照经纬网划分出的区块,划分的方式是:从数据集中描述的失踪位置描述和到达位置描述的经纬度中,找到最西南和最东北方向的两个点作为对角线,等分对全国划分区块并进行标号,然后按照全部数据中的失踪位置描述和到达位置描述,将其归纳入对应的区块之中。
6.根据权利要求1所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,S3中所述对样本数据集中的数据进行进一步细化分类过程,具体的,不同字段分类指标如下:对于失踪省份和到达省份,按照我国省级行政区名称进行对应的划分,每个省级行政区归为一类;对于失踪区块和到达区块,按照S24中的区块标号进行分类;对于失踪年份,每隔5年作为一种分类类型;对于失踪月份,按照3月到5月、6月到8月、9月到11月、12月到2月分为四类;失踪者性别按照男、女分为两类;失踪者身高和失踪者年龄数据按照自然间断点分割法将年龄分为20类,而身高分为6类;相对转移距离数据按照自然间断点分割法划分为20类;相对转移方位分为北、东北、东、东南、南、西南、西、西北,共8类。
7.根据权利要求6所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,所述转移相对方位分类中方位的确定,以失踪位置为原点,正北方向为0度,顺时针到到达方位的向量夹角进行参考,方位对应的角度值范围是:北:337.5-22.5度;东北:22.5-67.5度;东:67.5-112.5度;东南:112.5-157.5度;南:157.5-202.5度;西南:202.5-247.5度;西:247.5-292.5度;西北:292.5-337.5度。
8.根据权利要求1所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,S4中所述模型构建的假设空间组共包含四个假设空间,每个假设空间的属性分别为:a、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份;b、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达区块;c、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、转移相对距离;d、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份、到达区块、转移相对方位。
9.根据权利要求1所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,S4中所述分别传入假设空间组中的各假设空间,构建独立预测模型过程,共构建出了四个独立预测模型,分别为:a、通过失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高预测得到到达省份;b、通过失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高预测得到到达区块;c、通过失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高预测得到转移相对距离;d、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份、到达区块预测得到转移相对方位;所述的四个独立预测模型计算得到的结果为预测内容的发生概率值,使用者可以获知在每一个预测模型的预测下,失踪者可能到达的省份、区块、转移相对距离和转移相对方位的分类编号和对应的概率。
CN201910463886.6A 2019-05-30 2019-05-30 一种用于失踪人群时空定位服务的数据分析方法 Active CN110347760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910463886.6A CN110347760B (zh) 2019-05-30 2019-05-30 一种用于失踪人群时空定位服务的数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910463886.6A CN110347760B (zh) 2019-05-30 2019-05-30 一种用于失踪人群时空定位服务的数据分析方法

Publications (2)

Publication Number Publication Date
CN110347760A CN110347760A (zh) 2019-10-18
CN110347760B true CN110347760B (zh) 2021-07-09

Family

ID=68174392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910463886.6A Active CN110347760B (zh) 2019-05-30 2019-05-30 一种用于失踪人群时空定位服务的数据分析方法

Country Status (1)

Country Link
CN (1) CN110347760B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834669A (zh) * 2015-03-18 2015-08-12 广西师范学院 一种基于时空语义转移矩阵的疑犯多阶位置预测方法
CN105426553A (zh) * 2016-01-15 2016-03-23 四川农业大学 一种基于智能设备的目标实时跟踪预警方法以及系统
CN107992530A (zh) * 2017-11-14 2018-05-04 北京三快在线科技有限公司 信息推荐方法及电子设备
CN108108455A (zh) * 2017-12-28 2018-06-01 广东欧珀移动通信有限公司 目的地的推送方法、装置、存储介质及电子设备
CN108596398A (zh) * 2018-05-03 2018-09-28 哈尔滨工业大学 基于条件随机场与Stacking算法的时间序列预测方法和装置
CN109241227A (zh) * 2018-09-03 2019-01-18 四川佳联众合企业管理咨询有限公司 基于stacking集成学习算法的时空数据预测建模方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6895126B2 (en) * 2000-10-06 2005-05-17 Enrico Di Bernardo System and method for creating, storing, and utilizing composite images of a geographic location

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834669A (zh) * 2015-03-18 2015-08-12 广西师范学院 一种基于时空语义转移矩阵的疑犯多阶位置预测方法
CN105426553A (zh) * 2016-01-15 2016-03-23 四川农业大学 一种基于智能设备的目标实时跟踪预警方法以及系统
CN107992530A (zh) * 2017-11-14 2018-05-04 北京三快在线科技有限公司 信息推荐方法及电子设备
CN108108455A (zh) * 2017-12-28 2018-06-01 广东欧珀移动通信有限公司 目的地的推送方法、装置、存储介质及电子设备
CN108596398A (zh) * 2018-05-03 2018-09-28 哈尔滨工业大学 基于条件随机场与Stacking算法的时间序列预测方法和装置
CN109241227A (zh) * 2018-09-03 2019-01-18 四川佳联众合企业管理咨询有限公司 基于stacking集成学习算法的时空数据预测建模方法

Also Published As

Publication number Publication date
CN110347760A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
Ali et al. A data-driven approach for multi-scale GIS-based building energy modeling for analysis, planning and support decision making
González-García et al. Embedding environmental, economic and social indicators in the evaluation of the sustainability of the municipalities of Galicia (northwest of Spain)
AU2005232219B2 (en) Forecasting based on geospatial modeling
Jakaria et al. Smart weather forecasting using machine learning: a case study in tennessee
Poonawala et al. Singapore in motion: Insights on public transport service level through farecard and mobile data analytics
Ghaemi et al. LaSVM-based big data learning system for dynamic prediction of air pollution in Tehran
CN108717676A (zh) 基于多数据融合的不同尺度下的职住空间评价方法及系统
Liu et al. A Bayesian approach to residential property valuation based on built environment and house characteristics
CN110989044A (zh) 空气质量分指数级别概率预报方法、装置、设备及存储介质
Zhang et al. Social media meets big urban data: A case study of urban waterlogging analysis
CN116308958A (zh) 基于移动终端的碳排放在线检测预警系统及方法
CN116796904A (zh) 一种轨道交通新线客流预测方法、系统、电子设备及介质
Chen et al. An analysis of movement patterns between zones using taxi GPS data
CN115032720A (zh) 基于随机森林的多模式集成预报在地面气温预报中的应用
CN111460044B (zh) 地理位置数据处理方法及装置
CN110347760B (zh) 一种用于失踪人群时空定位服务的数据分析方法
CN111008730B (zh) 基于城市空间结构的人群聚集度预测模型构建方法及装置
Huang et al. Understanding spatio-temporal mobility patterns for seniors, child/student and adult using smart card data
Rosmera et al. Housing market segmentation and the spatially varying house prices
CN106779181A (zh) 一种基于线性回归因子非负矩阵分解模型的医疗机构推荐方法
CN116070385A (zh) 一种境外矿产资源供应链风险自动识别方法及系统
CN112650949B (zh) 基于多源特征融合协同过滤的区域poi需求识别方法
CN115829163A (zh) 基于多模式集成的长江中下游流域径流预测方法和系统
CN108957594A (zh) 一种商遥卫星轨道总云量预报修正方法及修正系统
CN111506879A (zh) 一种基于多源感知数据的人口空间化测算方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant