CN112712112A - 区域流动人口识别方法、装置、设备及介质 - Google Patents
区域流动人口识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112712112A CN112712112A CN202011589698.7A CN202011589698A CN112712112A CN 112712112 A CN112712112 A CN 112712112A CN 202011589698 A CN202011589698 A CN 202011589698A CN 112712112 A CN112712112 A CN 112712112A
- Authority
- CN
- China
- Prior art keywords
- floating population
- user
- regional
- users
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007667 floating Methods 0.000 title claims abstract description 168
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012549 training Methods 0.000 claims description 56
- 238000004080 punching Methods 0.000 claims description 21
- 230000006399 behavior Effects 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012800 visualization Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/021—Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供一种区域流动人口识别方法、装置、设备及介质。该方法包括:获取多个用户的位置轨迹数据;将多个位置轨迹数据输入到第一区域流动人口识别模型中,输出多个用户标签,其中,用户标签与位置轨迹数据一一对应;根据多个用户标签,确定多个用户中为区域流动人口的目用户。根据本申请实施例,可以对区域内人口属性有更细致和精确的划分,进而更加准确地识别区域流动人口。
Description
技术领域
本申请涉及大数据分析技术领域,尤其涉及区域流动人口识别方法、装置、设备及介质。
背景技术
目前,工作、搬家、旅游等原因导致人们区域内频繁流动性强,因而在城市或区县级别的人口统计和旅游统计等大数据实施项目中需要准确地剔除该区域的流动人口,所以流动人口的准确识别是至关重要的。
然而,现在有三种关于区域流动人口识别的方法:第一种方法是凭经验和常识设定停留时间阈值,当用户在区域内逗留时间低于设定的停留时间阈值时,即该用户为流动人口。第二种方法是基于通过互联网问卷调查、电话访问等方式采集的样本数据进行分析建模找出流动人口的共性特征,符合共性特征的人口即为流动人口。第三种方法是利用最能体现人口特征的电信行为识别流动人口。
上述三种关于区域流动人口识别的方法都存在没有科学依据、计算量巨大、优化精度不足的问题。因此,如何准确简便地识别区域流动人口是一个亟待解决的问题。
发明内容
本申请实施例提供一种区域流动人口识别方法、装置、设备及介质,能够对区域内人口属性有更细致和精确的划分,进而可以更加准确地识别区域内的流动人口。
第一方面,本申请实施例提供一种区域流动人口识别方法,方法包括:获取多个用户的位置轨迹数据;将多个位置轨迹数据输入到第一区域流动人口识别模型中,输出多个用户标签,其中,用户标签与位置轨迹数据一一对应;根据多个用户标签,确定多个用户中为区域流动人口的目标用户。
在第一方面的一些实施例中,获取多个用户的位置轨迹数据,包括:获取预设地区的各个区域的基站信息、预设统计周期内用户在预设地区的各个区域的用户打卡记录;根据用户打卡记录确定多个用户;根据基站信息和用户打卡记录确定多个用户对应的位置轨迹数据。
在第一方面的一些实施例中,在将多个位置轨迹数据输入到第一区域流动人口识别模型中,输出多个用户标签之前,包括:获取指标字段数据;将指标字段数据进行标准化处理,得到新指标字段数据;根据新指标字段数据利用聚类算法将位置轨迹数据进行聚类,得到多个聚类结果;计算多个聚类结果的相似度;根据相似度对多个聚类结果进行评估,得到最佳聚类结果;将最佳聚类结果输入到预先训练的区域流动人口识别模型,得到第一训练区域流动识别人口模型。
在第一方面的一些实施例中,指标字段数据包括:区域内最长基站打点时间、区域内基站打点总时长、区域内基站最早打点时间、区域内最晚基站打点时间、区域内基站打点个数、区域内打点总距离和区域内最早打点基站与最晚打点基站间距离。
在第一方面的一些实施例中,在根据多个用户标签,确定多个用户中为区域流动人口的目标用户之后,包括:确定目标用户的行为特征;根据目标用户的行为特征利用标准差法确定用户是否为区域流动人口。
在第一方面的一些实施例中,在获取多个用户的位置轨迹数据之前,方法还包括:获取多个训练样本,其中,训练样本包括用户的位置轨迹数据;针对每个训练样本分别执行以下步骤:将训练样本输入到待训练的区域人口识别模型,得到识别结果;判断是否满足预设的训练停止条件;在不满足预设的训练停止条件的情况下,利用识别结果和训练样本的标签数据,调整区域流动人口识别模型的模型参数,将多个新的训练样本输入到调整后的区域流动人口识别模型,直至满足预设的训练停止条件,得到训练后的区域流动人口识别模型,其中,训练样本的标签数据包括训练样本是否为区域流动人口的判断结果。
第二方面,本申请实施例提供了一种区域流动人口识别装置,装置包括:获取模块,用于获取多个用户的位置轨迹数据;处理模块,用于将多个位置轨迹数据输入到第一区域流动人口识别模型中,输出多个用户标签,其中,用户标签与位置轨迹数据一一对应;确定模块,用于根据多个用户标签,确定多个用户中为区域流动人口的目标用户。
在第二方面的一些实施例中,获取模块具体用于:获取预设地区的各个区域的基站信息、预设统计周期内用户在预设地区的各个区域的用户打卡记录;根据用户打卡记录确定多个用户;根据基站信息和用户打卡记录确定多个用户对应的位置轨迹数据。
第三方面,提供一种区域流动人口识别设备,包括:存储器,用于存储计算机程序指令;
处理器,用于读取并运行存储器中存储的计算机程序指令,以执行第一方面或第一方面的任一可选的实施方式提供的区域流动人口识别方法。
第四方面,提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或第一方面的任一可选的实施方式提供的区域流动人口识别方法。
本申请实施例的区域流动人口识别方法、装置、设备及介质,通过获取多个用户的位置轨迹数据,然后将多个位置轨迹数据输入到第一区域流动人口识别模型中,输出多个位置轨迹数据中每一个位置轨迹数据对应的用户标签,最后根据多个用户标签,确定多个用户中为区域流动人口的目标用户。根据本申请实施例,可以对区域内人口属性有更细致和精确的划分,进而更加准确地识别区域流动人口。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种区域流动人口识别方法的流程示意图;
图2是本申请实施例提供的另一种区域流动人口识别方法的流程示意图;
图3是本申请实施例提供的一种聚类结果为7类的组内均值分布雷达图;
图4是本申请实施例提供的一种聚类结果为5类的组内均值分布雷达图;
图5是本申请实施例提供的一种评估聚类效果的可视化示意图;
图6是本申请实施例提供的又一种区域流动人口识别方法的流程示意图;
图7是本申请实施例提供的一种区域流动人口识别装置的结构示意图;
图8是本申请实施例提供的一种区域流动人口识别设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和 B,单独存在B这三种情况。
一般情况下,在城市/区县级别的人口统计、旅游统计等大数据实施项目内,需要准确剔除过路人口,以减少对统计数据精准性的影响,提高数据分析研究的可靠性。目前关于城市/区县流动人口识别主要有三个方法:
(1)、凭经验和常识设定停留时间阈值,即逗留时长低于停留时间阈值时,则认为是城市/区县的流动人口。
(2)、基于互联网问卷调查、电话访问等方式来采集样本数据,通过分析问卷调查、电话访问结果中属于流动人口的答案并建模找出其共性特征,后续识别中满足这些特征即认为是流动人口。
(3)、从商业逻辑着手,分析最能体现流动人口特征的电信行为,作为流动人口识别模型的参数标准,从而为精确识别流动人口提供依据,最后对全量用户按这些关键特征指标进行聚类分析得到流动人口。
然而,第一类方案存在着没有科学依据,验证数据耗时长的缺点,第二类方案存在样本数量众多时存在数据量暴增的问题,耗时耗力、效率低下的问题,第三类方案存在基于电信行为特征对用户进行聚类分析,流动人口本身极具不稳定性,且流动用户特征也会因人而异,加上外界因素的影响,会导致用户电信行为的波动性,对于识别的准确性有较大的挑战性,并且流动客户还有其他比较显著的空间特征,如春节返乡等,仅通过电信行为来分析,片面且精度不足的问题。
因此,为了解决上述问题,本申请实施例提供的区域流动人口识别方法采用了一种高斯混合模型(Gaussian Mixture Model,GMM),利用多个高斯分布函数的线性组合,基于用户空间轨迹及驻留时间拟合出任意类型的分布,使用期望最大算法(Expectation-Maximization algorithm,EM)进行训练,求出具有明显差异的多个聚类类型,采用聚类评估指数算法 (Calinski-Harabaz,CH)进行聚类效果评估,CH指数通过计算类中各点与类中心的距离平方和来度量类内的紧密度,通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度,CH指标由分离度与紧密度的比值得到。从而,CH越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果。根据综合均值分布雷达图所示的聚类结果以及类内均值,最大值及最小值等统计数据,根据组内特征对每一类别进行属性定义,以期对区域内人口属性有更细致和精确的划分,进而可以更加准确地识别区域内流动人口。
综上所述,为了解决现有的区域流动人口识别方法中存在的识别流动人口的准确性不高的问题,本申请实施例提供了一种区域流动人口识别方法、装置、设备介质。
下面结合附图对本申请实施例提供的技术方案进行详细的描述。
图1是本申请实施例提供的一种区域流动人口识别方法的流程示意图。
本申请实施例提供的区域流动人口识别,执行主体可以是区域流动人口识别装置,或是该区域流动人口识别装置中用于执行区域流动人口识别方法的控制模块。如图1所示,该区域流动人口识别方法可以包括以下步骤:
S101,获取多个用户的位置轨迹数据。
具体地,位置轨迹数据是指用户在预设统计周期内的位置轨迹。
S102,将多个位置轨迹数据输入到第一区域流动人口识别模型中,输出多个用户标签。
具体地,第一区域流动人口识别模型是经训练后的用于判断用户是否为区域内流动人口的区域流动人口识别模型。用户标签指的是表明用户是否为区域流动人口的信息标签,其中,用户标签与位置轨迹数据是一一对应的。示例性的,用户标签分为“0”和“1”,其中,“0”为区域内流动人口的标签,“1”为不是区域内流动人口的标签,此处不作过多限定。
S103,根据多个用户标签,确定多个用户中为区域流动人口的目标用户。
具体地,目标用户是用户中为区域内流动人口的用户。目标用户可以通过多个用户标签确定多个用户中为区域流动人口而得到的。
本申请实施例的区域流动人口识别方法、装置、设备及介质,通过获取多个用户的位置轨迹数据,然后将多个位置轨迹数据输入到第一区域流动人口识别模型中,输出多个位置轨迹数据中每一位置轨迹数据对应的用户标签,最后根据多个用户标签,确定多个用户中为区域流动人口的目标用户。根据本申请实施例,可以对区域内人口属性有更细致和精确的划分,进而更加准确地识别区域流动人口。
图2是本申请实施例提供的另一种区域流动人口识别方法的流程示意图。
如图2所示,该区域流动人口识别方法可以包括以下步骤:
S201,得到预先训练的区域流动人口识别模型。
具体地,得到预先训练的区域流动人口识别模型首先需要获取多个训练样本,并且训练样本中包括用户的位置轨迹数据,将每一个训练样本输入到待训练的区域人口识别模型,得到识别结果,然后判断是否满足预设的训练停止条件,在不满足预设的训练停止条件的情况下,利用识别结果和训练样本的标签数据,调整区域流动人口识别模型的模型参数,然后将多个新的训练样本输入到调整后的区域流动人口识别模型,直至满足预设的训练停止条件,得到训练后的区域流动人口识别模型,其中,训练样本的标签数据包括训练样本是否为区域流动人口的判断结果。其中,预设的训练停止条件可以包括其他样本的识别结果与真实数据相同,此处不作过多描述。
在一个实施例中,可以提取南京A区,B区,C区,D区,E区,F区, G区,H区,I区,J区,K区所有移动用户2020年3月1日-3月8日位置轨迹数据作为样本数据。提取南京G区2020年3月1日-3月8日所有移动用户作为训练样本,利用训练样本按照上述方式训练待训练的区域流动人口识别模型,将每一个训练样本输入到待训练的区域人口识别模型,得到识别结果,在不满足预设的训练停止条件的情况下,利用识别结果和训练样本的标签数据,调整区域流动人口识别模型的模型参数,然后将多个新的训练样本输入到调整后的区域流动人口识别模型,直至满足预设的训练停止条件,得到训练后的区域流动人口识别模型。
S202,获取预设地区的各个区域的基站信息,预设统计周期内用户在预设地区的各个区域的用户打卡记录。
具体地,各个区域的用户打卡记录是指用户携带的移动终端与基站之间的无线网络连接在基站中会有的相应的记录。
S203,根据用户打卡记录确定多个用户。
具体地,根据用户的用户打卡记录进行去重处理后得到的用户。示例性的,在统计经过南京市A区的用户的时候,用户C在10:00的时候在 A区的基站中有打卡记录,在13:00的时候在A区的基站中也有一次打卡记录,经过去重处理,则得到一个用户。
S204,根据基站信息和用户打卡记录确定多个用户对应的位置轨迹数据。
具体地,按照时间顺序根据各个区域内基站信息与用户的用户打卡记录确定多个用户对应的位置轨迹数据。
S205,获取指标字段数据。
具体地,指标字段数据是根据数据预研结果和项目背景研究得到的流动人口与常住人口之间在指标数据中存在较大差异的指标字段数据。指标字段数据包括区域内最长基站打点时间、区域内基站打点总时长、区域内基站最早打点时间、区域内最晚基站打点时间、区域内基站打点个数、区域内打点总距离和区域内最早打点基站与最晚打点基站间距离。具体地,指标字段数据及其对应的指标代号如表1所示:
表1指标字段数据表
指标名称 | 指标代号 |
区域内最长基站打点时间 | Max_dur |
区域内基站打点总时长 | Sum_dur |
区域内基站最早打点时间 | Min_time |
区域内基站最晚打点时间 | Max_time |
区域内基站打点个数(踢重) | Jizhan_count |
区域内打点总距离 | All_dis |
区域内最早打点基站与最晚打点基站间距离 | Max_min_dis |
S206,将指标字段数据进行标准化处理,得到新指标字段数据。
具体地,标准化处理是指对指标字段数据进行清洗整和,对于存在缺失值的变量填补缺失值,示例性的,当指标区域内基站最早打点时间及区域内基站最晚打点时间如有缺失则进行删除该条记录处理,除此两个指标之外的其余指标如存在缺失值时可以用“0”填补。此处不作过多限制。除此之外,标准化处理还指对具有不同单位和均值的数据段进行处理,得到格式一样的数据段。可以利用z-score标准化方法将数据进行处理,具体公式如下:
x*=(x-u)/σ (1)
其中,x是指标字段数据,u为样本均值,σ是样本标准差。
示例性的,当样本均值为80,标准差是10,当x为90时,x*=(90- 80)/10=1,依此来调整指标字段数据。
通过对指标字段数据的标准化处理得到新指标字段数据。
S207,得到多个聚类结果。
具体地,聚类结果是指将用户分为若干类型的结果,根据新指标字段数据利用聚类算法将得到的多个用户的位置轨迹数据进行聚类,可以得到多个聚类结果,例如,聚类结果可以包括聚类数是7,聚类数是5。。其中,聚类算法可以使用高斯混合模型的最大期望聚类算法。
S208,计算多个聚类结果的相似度。
具体地,相似度是指以若干特定的相对指标为统一尺度,得出聚类结果在各个指标字段数据上与标准值的相似度,可以利用CH指数计算多个聚类结果的相似度。此处不作过多限定。
S209,根据相似度对多个聚类结果进行评估,得到最佳聚类结果。
具体地,最佳聚类结果是指用于区域流动人口识别最合适的聚类结果,当相似度越高的时候,聚类结果的效果越好。
在一个实施例中,当聚类数为7的时候,相似度最大,故从聚类效果来看,聚类数为7,类内相似度最高,类间差异性最大,效果其次为5类及6类,然后再结合聚类后每类的可解释性对聚类效果进行判断,得到最佳聚类效果。根据图3和图4所示的聚类结果均值分布雷达图可知,区域内移动总距离以及区域总逗留时间这两个指标在聚类上的区分度较为明显,且7类聚类雷达图效果与5类聚类雷达图效果相似,由于聚类数越多,模型的可解释性越低,故模型最终选取5类为最终分类结果。
在另一个实施例中,也可用多维标度分析可视化观察相似性,并从分布和聚集来初步评估聚类效果的好坏,如图5所示,将多维指标根据距离矩阵投影到二维坐标上,在保留对象间原始距离关系的同时,可视化观察 (投影后)点的相似性,从分布和聚集来初步评估模型的聚类效果。其中,图形可视化工具可以采用python中的t-SNE包,t-SNE是一种集降维与可视化于一体的技术,t-SNE可将样本点间的相似度关系转化为概率,在原空间(高维空间)中转化为基于高斯分布的概率,在嵌入空间(二维空间) 中转化为基于t分布的概率。这使得t-SNE不仅可以关注局部(SNE只关注相邻点之间的相似度映射而忽略了全局之间的相似度映射,使得可视化后的边界不明显),还关注全局,使可视化效果更好,簇内不会过于集中,簇间边界明显。
S210,得到第一训练区域流动人口识别模型。
具体地,第一区域流动人口识别模型是经训练后的用于判断用户是否为区域内流动人口的区域流动人口识别模型。第一训练区域流动人口识别模型是通过将最佳聚类结果输入到预先训练的区域流动人口识别模型得到的。
S211,输出多个用户标签。
具体地,用户标签是根据聚类后每类的可解释性设定的标签,可以将用户标签分为“0”和“1”,其中,“0”为区域内流动人口的标签,“1”为不是区域内流动人口的标签,也可以将用户标签分为“流动人口”和“非流动人口”等等,此处不作过多限定。
在一个实施例中,当最佳聚类结果是聚类数为5时,如图4所示,得到图中的每一类的可解释性的定义,具体如下:
0类:区域内单个基站最长逗留时间较长,区域内最早打点时间均值及最晚打点时间均值符合正常通勤上下班时间,在区域内移动总距离符合正常通勤距离,可定义为区域内正常工作用户。
1类:区域内单个基站最长逗留时间较长,且区域内总逗留时长较长,区域内最早打点时间符合正常起床时间,区域内最晚打点时间符合最晚到家时间,在区域内移动总距离符合正常通勤距离,可定义为区域内正常居住用户。
2类:区域内单个基站逗留时间较长,相较于1类用户,2类用户区域内最早打点时间更早,最晚打点时间更晚,区域内移动距离较于1类更大,区域内总逗留时长更长,可定义为区域内居住兼工作用户。
3类:区域内单个基站逗留时间短,区域内总逗留时间短,区域内最早最晚打点距离长,符合区域内流动人口行为特征,可定义为区域内流动人口。
4类:区域内单个基站逗留时间较为平均,区域内打点总时长较长,区域内基站打点总个数较多,区域内移动总距离较长,可定义为区域内移动上班用户(如快递,外卖,司机等)。
因此,可将3类用户定义为黑名单用户,用标签0进行标识,其他0, 1、2、4、为白名单用户,统一标识为1,以此将用户分为0,1两类用户。
S212,确定多个用户中为区域流动人口的目标用户。
具体地,可以根据第一区域流动人口识别模型输出的多个用户的用户标签,确定目标用户,目标用户即是区域流动人口。
在一个实施例中,当用户于城市各个区域内的区域流动人口识别结果均为流动人口,则判定该用户为该城市的流动人口。例如,如用户A于 2020年3月3日在南京G区,D区,F区均有打点,且根据第一区域流动人口识别模型识别出用户A为G区,D区,F区流动人口,则用户A为 2020年3月3日的南京流动人口。
在另一个实施例中,运用已知真实样本数据进行区域流动人口真实性的验证,比如,区域流动人口识别结果与真实情况核实的方式为:假设样本用户A被模型识别为2020年3月7日的B区,D区,E区流动人口。根据用户A反应的真实情况为,当日其从G区家中出发,至M路进行电脑维修,根据行程路线途经B区,D区及E区,由此可得模型数据结果与真实情况一致。
运用已知真实样本数据进行2020年3月1日-2020年3月8日全南京范围流动人口识别,得到的区域流动人口识别结果与真实情况基本一致 (非完全一致的原因为:由于部分基站位于区域与区域的边界处,故虽然部分同事真实情况反应未经过某些区域,由于边界基站归属模糊的原因,导致被识别为该区域的流动人口。)
宏观上,根据3月1日-3月8日每日区识别出非流动人口数与数据库中常驻人口表2月常驻人口数进行比对,数据量级一致,则表明利用该区域流动人口识别方法识别区域流动人口具有较高的准确性。
图6是本申请实施例提供的又一种区域流动人口识别方法的流程示意图。
如图6所示,该区域流动人口识别方法可以包括以下步骤:
S601,确定多个用户中为区域流动人口的目标用户。具体内容参见步骤S212,此处不再赘述。
S602,确定目标用户的行为特征。
具体地,行为特征是根据指标字段数据在识别区域流动人口时重要程度较高的指标字段数据。
S603,根据目标用户的行为特征利用标准差法确定用户是否为区域流动人口。
在一个实施例中,假设在计算南京市流动人口相关指标数据简单数据分析中得知,用户总逗留时长指标重要程度较高。根据计算得,用户在南京市内总逗留时长均值在1000秒左右,根据总逗留时长均值及标准差,运用正态分布3σ原理,具体原理如下:
在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴,而 3σ原则如下:
数值分布在(μ-σ,μ+σ)中的概率为0.6826;
数值分布在(μ-2σ,μ+2σ)中的概率为0.9544;
数值分布在(μ-3σ,μ+3σ)中的概率为0.9974;
即Y的取值几乎全部集中在(μ-3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.3%.
故后续进行简便的城市流动人口取值时,可以根据城市内逗留总时长均值+3*标准差,即2.3小时。由于城市内逗留总时长均值根据计算为1000 秒,标准差为2426秒,其中,相关数据通过运营商数据计算得出,根据三倍标准差公式得区域流动人口在区域内逗留时长最大值为 1000+3*2426=8278秒,故约等于2.3小时。由于逗留时长为非负值,故最小值为0),则可以根据区域流动人口在区域内逗留时长的最大值判断用户是否为区域内流动人口,即低于该逗留时长则为区域内流动人口。
通过该区域流动人口识别方法,根据已经确认为区域流动人口的目标用户确认目标用户的行为特征,再根据标准差法和目标用户的行为特征确定用户是否为区域流动人口,从而可以得到确定区域流动人口的简便路径,在保证数据结果的准确性的同时提供另一种快速取数的方式。
图7是本申请实施例提供的一种区域流动人口识别装置的结构示意图。
如图7所示,该区域流动人口识别装置700可以包括:获取模块710、处理模块720和确定模块730。
获取模块710,用于获取多个用户的位置轨迹数据;
处理模块720,用于将多个位置轨迹数据输入到第一区域流动人口识别模型中,输出多个用户标签,其中,用户标签与位置轨迹数据一一对应;
确定模块730,用于根据多个用户标签,确定多个用户中为区域流动人口的目标用户;
在一些实施例中,获取模块710具体用于:获取预设地区的各个区域的基站信息、预设统计周期内用户在预设地区的各个区域的用户打卡记录;根据用户打卡记录确定多个用户;根据基站信息和用户打卡记录确定多个用户对应的位置轨迹数据。
在一些实施例中,处理模块720还用于:获取指标字段数据;将指标字段数据进行标准化处理,得到新指标字段数据;根据新指标字段数据利用聚类算法将位置轨迹数据进行聚类,得到多个聚类结果;计算多个聚类结果的相似度;根据相似度对多个聚类结果进行评估,得到最佳聚类结果将最佳聚类结果输入到预先训练的区域流动人口识别模型,得到第一训练区域流动人口识别模型。
在一些实施例中,指标字段数据包括:区域内最长基站打点时间、区域内基站打点总时长、区域内基站最早打点时间、区域内最晚基站打点时间、区域内基站打点个数、区域内打点总距离和区域内最早打点基站与最晚打点基站间距离。
在一些实施例中,确定模块730还用于:确定目标用户的行为特征;根据目标用户的行为特征利用标准差法确定用户是否为区域流动人口。
在一些实施例中,获取模块710还用于:获取多个训练样本,其中,训练样本包括用户的位置轨迹数据;针对每个训练样本分别执行以下步骤:将训练样本输入到待训练的区域人口识别模型,得到识别结果;判断是否满足预设的训练停止条件;在不满足预设的训练停止条件的情况下,利用识别结果和训练样本的标签数据,调整区域流动人口识别模型的模型参数,将多个新的训练样本输入到调整后的区域流动人口识别模型,直至满足预设的训练停止条件,得到训练后的区域流动人口识别模型,其中,训练样本的标签数据包括训练样本是否为区域流动人口的判断结果。
图8是本申请实施例提供的一种区域流动人口识别设备的结构示意图。
如图8所示,本实施例中的区域流动人口识别设备800包括输入设备 801、输入接口802、中央处理器803、存储器804、输出接口805、以及输出设备806。其中,输入接口802、中央处理器803、存储器804、以及输出接口805通过总线810相互连接,输入设备801和输出设备806分别通过输入接口802和输出接口805与总线810连接,进而与信息获取设备 800的其他组件连接。
具体地,输入设备801接收来自外部的输入信息,并通过输入接口 802将输入信息传送到中央处理器803;中央处理器803基于存储器804中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器804中,然后通过输出接口805将输出信息传送到输出设备806;输出设备806将输出信息输出到信息获取设备 800的外部供用户使用。
在一个实施例中,图8所示的区域流动人口识别设备800包括:存储器804,用于存储程序;处理器803,用于运行存储器中存储的程序,以执行本申请实施例提供的图1、图2和图6所示实施例的方法。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本申请实施例提供的图1、图2和图6所示实施例的方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体地步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ApplicationSpecificIntegrated Circuit,ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、只读存储器(Read-Only Memory,ROM)、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(Radio Frequency,RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种区域流动人口识别方法,其特征在于,包括:
获取多个用户的位置轨迹数据;
将所述多个位置轨迹数据输入到第一区域流动人口识别模型中,输出多个用户标签,其中,所述用户标签与所述位置轨迹数据一一对应;
根据所述多个用户标签,确定所述多个用户中为区域流动人口的目标用户。
2.根据权利要求1所述的方法,其特征在于,所述获取多个用户的位置轨迹数据,包括:
获取预设地区的各个区域的基站信息、预设统计周期内用户在预设地区的各个区域的用户打卡记录;
根据所述用户打卡记录确定多个用户;
根据所述基站信息和所述用户打卡记录确定所述多个用户对应的位置轨迹数据。
3.根据权利要求1所述的方法,其特征在于,在所述将所述多个位置轨迹数据输入到第一区域流动人口识别模型中,输出多个用户标签之前,包括:
获取指标字段数据;
将所述指标字段数据进行标准化处理,得到新指标字段数据;
根据所述新指标字段数据利用聚类算法将所述位置轨迹数据进行聚类,得到多个聚类结果;
计算所述多个聚类结果的相似度;
根据相似度对所述多个聚类结果进行评估,得到最佳聚类结果;
将所述最佳聚类结果输入到预先训练的区域流动人口识别模型,得到第一训练区域流动人口识别模型。
4.根据权利要求3所述的方法,其特征在于,所述指标字段数据包括:区域内最长基站打点时间、区域内基站打点总时长、区域内基站最早打点时间、区域内最晚基站打点时间、区域内基站打点个数、区域内打点总距离和区域内最早打点基站与最晚打点基站间距离。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述多个用户标签,确定所述多个用户中为区域流动人口的目标用户之后,包括:
确定目标用户的行为特征;
根据所述目标用户的行为特征利用标准差法确定用户是否为区域流动人口。
6.根据权利要求1所述的方法,其特征在于,在所述获取多个用户的位置轨迹数据之前,所述方法还包括:
获取多个训练样本,其中,所述训练样本包括用户的位置轨迹数据;
针对每个训练样本分别执行以下步骤:
将训练样本输入到待训练的区域人口识别模型,得到识别结果;
判断是否满足预设的训练停止条件;在不满足所述预设的训练停止条件的情况下,利用所述识别结果和所述训练样本的标签数据,调整所述区域流动人口识别模型的模型参数,将多个新的训练样本输入到调整后的区域流动人口识别模型,直至满足预设的训练停止条件,得到训练后的区域流动人口识别模型,其中,所述训练样本的标签数据包括所述训练样本是否为区域流动人口的判断结果。
7.一种区域流动人口识别装置,其特征在于,所述装置包括:
获取模块,用于获取多个用户的位置轨迹数据;
处理模块,用于将所述多个位置轨迹数据输入到第一区域流动人口识别模型中,输出多个用户标签,其中,所述用户标签与所述位置轨迹数据一一对应;
确定模块,用于根据所述多个用户标签,确定所述多个用户中为区域流动人口的目标用户。
8.根据权利要求7所述的装置,其特征在于,所述获取模块具体用于:
获取预设地区的各个区域的基站信息、预设统计周期内用户在预设地区的各个区域的用户打卡记录;
根据所述用户打卡记录确定多个用户;
根据所述基站信息和所述用户打卡记录确定所述多个用户对应的位置轨迹数据。
9.一种区域流动人口识别设备,其特征在于,所述设备包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行权利要求1-6任意一项权利要求所述的区域流动人口识别方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1-6任意一项权利要求所述的区域流动人口识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011589698.7A CN112712112A (zh) | 2020-12-28 | 2020-12-28 | 区域流动人口识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011589698.7A CN112712112A (zh) | 2020-12-28 | 2020-12-28 | 区域流动人口识别方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112712112A true CN112712112A (zh) | 2021-04-27 |
Family
ID=75546126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011589698.7A Pending CN112712112A (zh) | 2020-12-28 | 2020-12-28 | 区域流动人口识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112712112A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486984A (zh) * | 2021-08-02 | 2021-10-08 | 智慧足迹数据科技有限公司 | 基于信令数据识别用户类型的方法及相关装置 |
CN113556698A (zh) * | 2021-07-21 | 2021-10-26 | 智慧足迹数据科技有限公司 | 基于手机信令的信息聚类方法、装置、设备及介质 |
CN113688961A (zh) * | 2021-10-27 | 2021-11-23 | 南通智大信息技术有限公司 | 一种基于聚焦模式的特殊人群追踪方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130181993A1 (en) * | 2012-01-13 | 2013-07-18 | Fiona Elizabeth HERRING | Place heat geometries |
CN106096631A (zh) * | 2016-06-02 | 2016-11-09 | 上海世脉信息科技有限公司 | 一种基于手机大数据的流动人口分类识别分析方法 |
CN110868689A (zh) * | 2019-11-25 | 2020-03-06 | 智慧足迹数据科技有限公司 | 常住人口确定方法、装置和电子设备 |
CN111026738A (zh) * | 2019-11-08 | 2020-04-17 | 福建新大陆软件工程有限公司 | 区域人口监控方法、系统、电子设备及存储介质 |
CN111615054A (zh) * | 2020-05-25 | 2020-09-01 | 和智信(山东)大数据科技有限公司 | 人口分析方法及装置 |
-
2020
- 2020-12-28 CN CN202011589698.7A patent/CN112712112A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130181993A1 (en) * | 2012-01-13 | 2013-07-18 | Fiona Elizabeth HERRING | Place heat geometries |
CN106096631A (zh) * | 2016-06-02 | 2016-11-09 | 上海世脉信息科技有限公司 | 一种基于手机大数据的流动人口分类识别分析方法 |
CN111026738A (zh) * | 2019-11-08 | 2020-04-17 | 福建新大陆软件工程有限公司 | 区域人口监控方法、系统、电子设备及存储介质 |
CN110868689A (zh) * | 2019-11-25 | 2020-03-06 | 智慧足迹数据科技有限公司 | 常住人口确定方法、装置和电子设备 |
CN111615054A (zh) * | 2020-05-25 | 2020-09-01 | 和智信(山东)大数据科技有限公司 | 人口分析方法及装置 |
Non-Patent Citations (3)
Title |
---|
孔扬鑫 等: "基于手机轨迹数据的人口流动分析", 《计算机应用》, vol. 36, no. 1, pages 44 - 51 * |
孟东霞;何志强;安英博;: "基于电信大数据的流入人口统计研究", 无线互联科技, no. 19 * |
宋能辉 等: "《机器学习实战:基于Scikit-Learn、Keras和TensorFlow 原书第2版》", 31 October 2020, 机械工业出版社, pages: 226 - 228 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113556698A (zh) * | 2021-07-21 | 2021-10-26 | 智慧足迹数据科技有限公司 | 基于手机信令的信息聚类方法、装置、设备及介质 |
CN113486984A (zh) * | 2021-08-02 | 2021-10-08 | 智慧足迹数据科技有限公司 | 基于信令数据识别用户类型的方法及相关装置 |
CN113486984B (zh) * | 2021-08-02 | 2022-05-17 | 智慧足迹数据科技有限公司 | 基于信令数据识别用户类型的方法及相关装置 |
CN113688961A (zh) * | 2021-10-27 | 2021-11-23 | 南通智大信息技术有限公司 | 一种基于聚焦模式的特殊人群追踪方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112712112A (zh) | 区域流动人口识别方法、装置、设备及介质 | |
CN110245981B (zh) | 一种基于手机信令数据的人群类型识别方法 | |
CN107577688B (zh) | 基于媒体信息采集的原创文章影响力分析系统 | |
CN106919957B (zh) | 处理数据的方法及装置 | |
CN108806301B (zh) | 一种公交车辆信息的自动识别方法 | |
CN105678457A (zh) | 基于地点挖掘的用户行为评估方法 | |
CN115086880B (zh) | 一种出行特征识别方法、装置、设备及存储介质 | |
CN112560829B (zh) | 人群数量确定方法、装置、设备及存储介质 | |
CN111796957B (zh) | 基于应用日志的交易异常根因分析方法及系统 | |
WO2022237213A1 (zh) | 一种居民出行链模型构建方法及居民出行链获取方法 | |
CN113822366A (zh) | 业务指标异常检测方法及装置、电子设备、存储介质 | |
CN112185108B (zh) | 基于时空特征的城市路网拥堵模式识别方法、设备及介质 | |
CN116485020B (zh) | 一种基于大数据的供应链风险识别预警方法、系统及介质 | |
CN112052848B (zh) | 街区标注中样本数据的获取方法及装置 | |
CN111210158B (zh) | 目标地址确定方法、装置、计算机设备和存储介质 | |
CN113792981A (zh) | 效率统计方法、装置及计算机可读存储介质 | |
Chen et al. | An analysis of movement patterns between zones using taxi GPS data | |
Nair et al. | Call detail record-based traffic density analysis using global K-means clustering | |
CN113158084A (zh) | 移动轨迹数据处理的方法、装置、计算机设备及存储介质 | |
CN112699955A (zh) | 一种用户分类方法、装置、设备及存储介质 | |
CN111222923A (zh) | 一种判断潜在客户的方法及装置、电子设备和存储介质 | |
CN114611622B (zh) | 一种利用手机数据识别跨城通勤人群的方法 | |
CN112488236B (zh) | 一种集成的无监督学生行为聚类方法 | |
CN116992267B (zh) | 一种基于信令数据的区域人口性别识别方法及系统 | |
CN114756660B (zh) | 自然灾害事件的抽取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |