CN116156416A - 基于信令数据的职住地提取方法及装置 - Google Patents
基于信令数据的职住地提取方法及装置 Download PDFInfo
- Publication number
- CN116156416A CN116156416A CN202111402652.4A CN202111402652A CN116156416A CN 116156416 A CN116156416 A CN 116156416A CN 202111402652 A CN202111402652 A CN 202111402652A CN 116156416 A CN116156416 A CN 116156416A
- Authority
- CN
- China
- Prior art keywords
- user
- stay
- time period
- residence
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/20—Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/023—Services making use of location information using mutual or relative location information between multiple location based services [LBS] targets or of distance thresholds
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/025—Services making use of location information using location based information parameters
Abstract
本申请提供一种基于信令数据的职住地提取方法及装置。所述方法包括:基于用户信令数据,划分用户工作时间段和用户居家时间段;根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地;对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地。本申请实施例提供的基于信令数据的职住地提取方法,有效保证了提取用户职住地的准确性,同时降低了数据处理的复杂程度,使得本申请实施例提供的基于信令数据的职住地提取方法及装置能被广泛应用。
Description
技术领域
本申请涉及数据分析处理技术领域,具体涉及一种基于信令数据的职住地提取方法、装置、电子设备、及计算机程序产品。
背景技术
用户的职住地提取,或职住地分析,即为识别用户的工作地点和居住地点。能准确获取用户的职住地将有助于疫情防控、精准营销、城市规划等各个领域。
一些现有的用户职住地提取方法会基于用户的手机信令数据来对固定时间段内每个用户的定位数据进行聚类分析,如此计算量巨大,无法适用于大数据分析,而且在长时间的跨度下,用户可能不只是处于工作状态和居家状态,还可能常去某个兴趣点娱乐,这会造成数据有大量噪音,并且导致较差的聚类结果,使得所提取的用户职住地不够准确。
发明内容
本申请实施例提供一种基于信令数据的职住地提取方法,用以解决提取用户职住地不够准确的技术问题。
第一方面,本申请实施例提供一种基于信令数据的职住地提取方法,包括:
基于用户信令数据,划分用户工作时间段和用户居家时间段;
根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地;
对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地。
在一个实施例中,所述基于用户信令数据,划分用户工作时间段和用户居家时间段,包括:
基于用户信令数据,预设初始用户工作及居家时间段;
通过随机算法为所述初始用户工作及居家时间段新增时间段或删减时间段,得到变化用户工作及居家时间段;
根据在所述变化用户工作及居家时间段内的用户停留点数据及停留点停留时长数据,筛选出划分时间点,利用所述划分时间点划分所述变化用户工作及居家时间段,得到最终用户工作时间段和最终用户居家时间段。
在一个实施例中,所述根据在所述变化用户工作及居家时间段内的用户停留点数据及停留点停留时长数据,筛选出划分时间点,利用所述划分时间点划分所述变化用户工作及居家时间段,得到最终用户工作时间段和最终用户居家时间段,包括:
根据在所述变化用户工作及居家时间段内的用户停留点数据及停留点停留时长数据,筛选出符合第一预设停留条件的若干候选划分时间点;
在若干候选划分时间点中,筛选出符合第二预设停留条件的候选划分时间点作为最终划分时间点;
利用所述最终划分时间点划分所述变化用户工作及居家时间段,得到最终用户工作时间段和最终用户居家时间段。
在一个实施例中,所述第一预设停留条件为停留点停留时长超过一小时;所述第二预设停留条件为停留点停留时长最小。
在一个实施例中,所述根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地,包括:
根据用户一天在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选出用户一天分别在所述用户工作时间段内和所述所述用户居家时间段内符合第三预设停留条件的若干工作停留点和若干居家停留点;
合并用户多天在所述用户工作时间段内和在所述用户居家时间段内的若干所述工作停留点和若干所述居家停留点,得到若干合并工作停留点和若干合并居家停留点;
根据若干所述合并工作停留点和若干所述合并居家停留点的停留点停留时长数据和停留次数数据,筛选得到所述第一工作地和所述第一居住地。
在一个实施例中,所述根据若干所述合并工作停留点和若干所述合并居家停留点的停留点停留时长数据和停留次数数据,筛选得到所述第一工作地和所述第一居住地,具体为:
分别对若干所述合并工作停留点和若干所述合并居家停留点的停留点停留时长值和停留次数进行加权求和评分,根据评分结果筛选得到所述第一工作地和所述第一居住地。
在一个实施例中,所述对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地,包括:
根据若干所述合并工作停留点和若干所述合并居家停留点的评分结果,得到若干所述合并工作停留点之间和若干所述合并居家停留点之间的评分差异值;
当若干所述合并工作停留点之间的评分差异值和若干所述合并居家停留点之间的评分差异值均大于预设阈值时,将若干所述合并工作停留点的评分结果中最高的一个作为所述第一工作地,且将若干所述合并居家停留点的评分结果中最高的一个作为所述第一居住地;
当若干所述合并工作停留点之间的评分差异值和若干所述合并居家停留点之间的评分差异值中的至少一个小于或等于预设阈值时,将若干所述合并工作停留点和/或若干所述合并居家停留点对应的用户标记为异常用户。
第二方面,本申请实施例提供一种一种基于信令数据的职住地提取装置,包括:
时间段划分模块,用于:基于用户信令数据,划分用户工作时间段和用户居家时间段;
第一工作地和第一居住地筛选模块,用于:根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地;
最终工作地和最终居住地得到模块,用于:对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的基于信令数据的职住地提取方法的步骤。
第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的基于信令数据的职住地提取方法的步骤。
本申请实施例提供的基于信令数据的职住地提取方法及装置,能够对不同的用户分别划分用户工作时间段和用户居家时间段,然后直接根据在用户工作时间段内和在用户居家时间段内的用户停留点数据及停留点停留时长数据,先筛选得到第一工作地和第一居住地,然后再对第一工作地和第一居住地进行分布检验,得到最终工作地和最终居住地,使得有效保证了提取用户职住地的准确性,同时降低了数据处理的复杂程度,使得本申请实施例提供的基于信令数据的职住地提取方法及装置能被广泛应用。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的基于信令数据的职住地提取方法的流程示意图;
图2是本申请实施例提供的基于信令数据的职住地提取装置的结构示意图;
图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供一种基于信令数据的职住地提取方法的流程示意图。
参照图1,本申请实施例提供一种基于信令数据的职住地提取方法,可以包括:
S110、基于用户信令数据,划分用户工作时间段和用户居家时间段;
S120、根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地;
S130、对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地。
需要说明的是,用户信令数据,或称手机信令数据,是由手机用户在发生通话、发短信或移动位置等事件时,被运营商的通信基站捕获并记录的数据,内容包括用户的当前经纬度、接入或离开基站的时间等,具有实时性强、精度高、覆盖范围广等特点。因此通过信令数据提取用户的职住地是一种高效的、可行的途径。
需要说明的是,本申请实施例提供一种基于信令数据的职住地提取方法的执行主体可以是终端侧设备,例如数据处理器等等。
在步骤S110中,终端侧设备会基于用户信令数据,划分用户工作时间段和用户居家时间段。
需要说明的是,用户信令数据可以根据用户的轨迹,在用户经过的通信基站上获得;或者,用户信令数据也可以从用于存储用户信令数据的数据库中获取。
由于用户的工作类型各种各样,例如有些用户的工作时间是固定的朝九晚五,但有些用户的工作时间可能是不定时的,而且不同用户的生活习惯可能也有所不同,本申请实施例提供一种基于信令数据的职住地提取方法可以根据用户信令数据,为不同的用户划分用户工作时间段和用户居家时间段,更加人性化,而且能够提高后续提取用户职住地的准确性。
在步骤S120中,终端侧设备会根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地。
需要说明的是,用户停留点数据可能包括用户停留点数量信息、用户停留点位置信息、用户停留点次数信息等。
关于筛选第一工作地和第一居住地,例如,可以按照停留点停留时长的长久度来筛选在用户工作时间段内和在用户居家时间段内的的用户停留点作为第一工作地和第一居住地,又或者,例如,可以结合用户停留点次数信息和停留点停留时长的长久度,结合不同的数据能够筛选得到准确度更高的第一工作地和第一居住地。
在步骤S130中,终端侧设备会对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地。
第一工作地和第一居住地是在用户轨迹中的若干停留点中筛选所得的,那么它们的位置关系应该满足一定的分布。需要说明的是,分布有可能是卡方分布、T分布、F分布等等,对于不同的分布可以采用不同的检验方法,例如卡方检验、T检验、以及F检验等等。如此,经过分布检验后的得到的最终工作地和最终居住地的精准度能够得到有效保证。
本申请实施例提供的基于信令数据的职住地提取方法,能够对不同的用户分别划分用户工作时间段和用户居家时间段,然后直接根据在用户工作时间段内和在用户居家时间段内的用户停留点数据及停留点停留时长数据,先筛选得到第一工作地和第一居住地,然后再对第一工作地和第一居住地进行分布检验,得到最终工作地和最终居住地,使得有效保证了提取用户职住地的准确性,同时降低了数据处理的复杂程度,使得本申请实施例提供的基于信令数据的职住地提取方法能被广泛应用。
在一个实施例中,步骤S110可以包括:
基于用户信令数据,预设初始用户工作及居家时间段;
通过随机算法为所述初始用户工作及居家时间段新增时间段或删减时间段,得到变化用户工作及居家时间段;
根据在所述变化用户工作及居家时间段内的用户停留点数据及停留点停留时长数据,筛选出划分时间点,利用所述划分时间点划分所述变化用户工作及居家时间段,得到最终用户工作时间段和最终用户居家时间段。
具体地,所述根据在所述变化用户工作及居家时间段内的用户停留点数据及停留点停留时长数据,筛选出划分时间点,利用所述划分时间点划分所述变化用户工作及居家时间段,得到最终用户工作时间段和最终用户居家时间段,可以包括:
根据在所述变化用户工作及居家时间段内的用户停留点数据及停留点停留时长数据,筛选出符合第一预设停留条件的若干候选划分时间点;
在若干候选划分时间点中,筛选出符合第二预设停留条件的候选划分时间点作为最终划分时间点;
利用所述最终划分时间点划分所述变化用户工作及居家时间段,得到最终用户工作时间段和最终用户居家时间段。
更具体地,所述第一预设停留条件为停留点停留时长超过一小时;所述第二预设停留条件为停留点停留时长最小。另外,所述第一预设停留条件和所述第二预设停留条件也可以根据实际需求设置。
为了更清晰地描述步骤S110的细化流程,以下进行举例说明。
设随机算法的计算次数k=0,预设初始用户工作及居家时间段为:
dayall=
{0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24},
表达式里面的数字代表二十四制小时,表示该小时的00:00-59:59时间段),随机算法的停滞系数t=0。
如此,可以将预设初始用户工作及居家时间段预先分为初始用户工作时间段和初始用户居家时间段。
例如,设初始用户工作时间段为:
dayk={7,8,9,10,11,12,13,14,15,16,17,18},
初始用户居家时间段为:
nightk={19,20,21,22,23,24,0,1,2,3,4,5,6}。
随后,通过随机算法在[7,18]范围内生成一个随机整数d,在[19,24]与[0,6]范围内生成一个随机整数n。
如果d在dayk中存在,则day′ k=dayk delete d,否则day′ k=dayk add d,如果n在nightk中存在,则night′ k=nightk delete n,否则night′ k=nightk add n。
其中,day′ k=dayk delete d表示在初始用户工作时间段dayk中删除时间段d,得到新的初始用户工作时间段day′ k;day′ k=dayk add d表示在初始用户工作时间段dayk中增加时间段d,得到新的初始用户工作时间段day′ k;night′ k=nightk delete n表示在初始用户居家时间段nightk中删除时间段n,得到新的初始用户居家时间段night′ k;night′ k=nightk add n表示在初始用户居家时间段nightk中增加时间段n,得到新的初始用户居家时间段night′ k。
随后,分别计算localsd、locals′ d、localsn、locals′ n。
其中,localsd表示用户在dayk时间段内停留超过一个小时的用户停留点的数量;locals′ d表示用户在day′ k时间段内停留超过一个小时的用户停留点的数量;localsn表示用户在nightk时间段内停留超过一个小时的用户停留点的数量;locals′ d表示用户在night′ k时间段内停留超过一个小时的用户停留点的数量。
如果locals′ d<localsd或者night′ k<nightk,则dayk=day′ k,nightk=night′ k,并且k=k+1,t=0;否则记录t=t+1。
如果t>24,则输出dayk和nightk,表示dayk代表的时间段为最终用户工作时间段以及nightk代表的时间段为最终用户居家时间段,否则重新生成随机整数d和n,继续后续的计算步骤直至满足输出条件。
需要说明的是,最终得到的最终用户居家时间段的时间长度往往会比最终用户工作时间段的时间长度长,这是合理的,因为除去通勤及活动时间,绝大部分用户的居家时间会长于工作时间。
本申请实施例提供的基于信令数据的职住地提取方法,在通过随机算法为初始用户工作及居家时间段新增时间段或删减时间段得到的变化用户工作及居家时间段中准确提取划分时间点,能够得到精度更高的最终用户工作时间段和最终用户居家时间段,有效保证了后续提取用户职住地的准确性。
在一个实施例中,所述根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地,包括:
根据用户一天在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选出用户一天分别在所述用户工作时间段内和所述所述用户居家时间段内符合第三预设停留条件的若干工作停留点和若干居家停留点;
合并用户多天在所述用户工作时间段内和在所述用户居家时间段内的若干所述工作停留点和若干所述居家停留点,得到若干合并工作停留点和若干合并居家停留点;
根据若干所述合并工作停留点和若干所述合并居家停留点的停留点停留时长数据和停留次数数据,筛选得到所述第一工作地和所述第一居住地。
具体地,其中所述的第三预设停留条件可以是停留点停留时长大于预设阈值。
具体地,所述根据若干所述合并工作停留点和若干所述合并居家停留点的停留点停留时长数据和停留次数数据,筛选得到所述第一工作地和所述第一居住地,可以为:
分别对若干所述合并工作停留点和若干所述合并居家停留点的停留点停留时长值和停留次数进行加权求和评分,根据评分结果筛选得到所述第一工作地和所述第一居住地。
需要说明的是,终端侧设备在执行步骤S120之前,可以先执行步骤S100:
清洗用户信令数据。
由于通信基站的覆盖会有所交叉,并且当用户处于某两个通信基站的边缘时,用户接入通信基站的信号会在不同的通信基站之间反复出现。因此基于用户信令数据提取第一工作地和第一居住地前,优选进行用户信令数据的清洗。
具体地,清洗用户信令数据的过程可以包括如下步骤:
针对每个用户的每日记录,生成locallist,locallist表示用户每日记录列表。
locallist中会包含locallist.id、locallist.time、locallist.st、和locallist.et等信息,其中locallist.id表示用户当日的用户信令数据中出现的通信基站的id(身份),locallist.time表示用户接入对应通信基站(locallist.id)的累计时长,单位为小时,locallist.st表示接入对应通信基站(locallist.id)的时间点,locallist.et表示离开对应通信基站(locallist.id)的时间点。
生成空列表Tlocallist,并利用经纬度计算每两个通信基站之间的欧式距离。
同样,Tlocallist中会包含Tlocallist.id、Tlocallist.time、Tlocallist.st、和Tlocallist.et等信息。
如果某两个通信基站(例如A通信基站和B通信基站)之间的经纬度欧式距离小于阀值Ω,并且A通信基站的locallist.time是B通信基站locallist.time的两倍以上,则Tlocallist.id等于A通信基站的精度和维度拼合而成的字符串,对应的Tlocallist.time等于A通信基站的locallist.time加B通信基站的locallist.time。
如果A通信基站和B通信基站之间的经纬度欧式距离小于阀值Ω,并且满足:
|A通信基站的locallist.time减去B通信基站的locallist.time|<pmin{A通信基站的locallist.time,B通信基站的locallist.time},
则Tlocallist.id=A通信基站的经纬度与B通信基站的经纬度的均值合成的字符串,对应的Tlocallist.time等于A通信基站的locallist.time加上B通信基站的locallist.time。同时Tlocallist.st等于min{A通信基站的locallist.st,B通信基站的locallist.st},Tlocallist.et等于max{A通信基站的locallist.et,B通信基站的locallist.et}。
输出步骤二得到的Tlocallist,作为清洗后的用户信令数据。
需要说明的是,清洗用户信令数据主要是合并通信基站的用户信令数据,合并大致分为两种形式:当用户在相邻的A通信基站和B通信基站中都出现,并且在A通信基站的停留点停留时长远超在B通信基站的停留点停留时长的时候,大概率用户的目的地是A通信基站,对于B通信基站可能只是路过或者短暂逗留,因此会将B通信基站的用户信令数据合并到A通信基站的用户信令数据中;而当用户在相邻的A通信基站和B通信基站中都出现,并且在A通信基站的停留点停留时长和在B通信基站的停留点停留时长的差异极小时,说明用户处于A通信基站和B通信基站的中间位置,因此取在A通信基站和B通信基站的经纬度的中点的、并且在加总两个通信基站的时间后的用户信令数据作为清洗后的用户信令数据。
但是,有一些用户的经停地点有可能跨越时间范围,例如用户在A通信基站从8:30滞留至9:30,从19:30滞留至22:30,而最终用户工作段为day={9,10,11,14,15,16},最终用户居家时间段为night={20,23,24,0,1,2,3,4,5,6},此时用户的Tlocallist需要进行如下计算:
遍历Tlocallist,读出每一条记录;
如果Tlocallist.st和Tlocallist.et不包含在day(或night)中,则删除该记录。
如果Tlocallist.st和Tlocallist.et仅有1个在day(或night)中,则生成新记录,新纪录的id和原记录的id一致。如果Tlocallist.st在day(或night)中,则新纪录的Tlocallist.st和原纪录一致,而新纪录Tlocallist.et等于原记录Tlocallist.et距离day(或night)相邻边界的最小值;如果Tlocallist.et在day(或night)中,则新纪录的Tlocallist.et和原纪录一致,而新纪录Tlocallist.st等于原记录Tlocallist.st距离day(或night)相邻边界的最大值。同时,新纪录的Tlocallist.time等于新纪录的Tlocallist.st减去新纪录的Tlocallist.et。然后删除原记录,并返回。
如果Tlocallist.st和Tlocallist.et涵盖了day(或night)的某个时间段,则生成新纪录,新纪录的id和原记录的id一致,新纪录Tlocallist.et等于原记录Tlocallist.et距离day(或night)相邻边界的最小值,新纪录Tlocallist.st等于原记录Tlocallist.st距离day(或night)相邻边界的最大值。新纪录的Tlocallist.time等于新纪录的Tlocallist.st减去新纪录的Tlocallist.et。然后删除原记录,并返回。
按照以上步骤,上述例子中用户在A通信基站的工作时间的Tlocallist.st=9,Tlocallist.et=9:30,Tlocallist.time=0.5;用户在A通信基站的居家时间的Tlocallist.st=20,Tlocallist.et=20:59,Tlocallist.time=1。
使用清洗后的用户信令数据能够减少后续提取用户职住地的噪声,提高提取精度。
执行完步骤S100后,为了更清晰地描述步骤S120的细化流程,继续以步骤S100的例子继续说明S120的执行,具体包括如下步骤:
针对每个用户生成空列表Nlocallist,Nlocallist中会包含Nlocallist.id、Nlocallist.time、Nlocallist.st、和Nlocallist.et等信息。其中Nlocallist.id表示用户停留点的经纬度组合成的id(身份),Nlocallist.time表示对应Nlocallist.id的停留点停留时长,Nlocallist.co为该id在计算时间段内出现的次数。
读入用户某日的Tlocallist,根据day(或night)生成新的Tlocallist。
先对Tlocallist中的相同的通信基站id进行合并,并且加总对应的Tlocallist.time。查找其中Tlocallist.time最大的三个值对应的通信基站id,如C通信基站id、D通信基站id、E通信基站id,判断C通信基站id、D通信基站id、E通信基站id是否在Nlocallist.id中出现,如果C通信基站id在Nlocallist.id中出现,则对应id的Nlocallist.time等于Nlocallist.time加上C通信基站的Tlocallist.time,同时,对应的Nlocallist.co加1;如果D通信基站id、E通信基站id在Nlocallist.id中没有出现,则新增D通信基站id和E通信基站id到Nlocallist.id,对应的Nlocallist.time等于D通信基站(或E通信基站)的Tlocallist.time,同时对应的Nlocallist.co等于0(步骤二)。
读取所需所有日期的Tlocallist,返回上一步(步骤二),直到计算完所有的日期。
生成新列表Slocallist,其中Slocallist.id表示用户停留点的经纬度组合成的id,Slocallist.score表示对应通信基站id的评分。
Slocallist.score可以通过如下表达式进行计算:
Slocallist.score=α×Nlocallist.co+β×Tlocallist.time (1),
其中α和β为调节参数,可以根据计算的日期数量来确定。
筛选Slocallist列表中评分前三高的Slocallist.score,记为Slocal,Slocal中记录有评分对应的Slocallist.id。
在Slocal中选择评分最高的Slocallist.score对应的id(id是经纬度合并成的字符串),拆分成经纬度,作为用户的第一居住地(或第一工作地)。
需要说明的是,提取第一工作地和提取第一居住地的步骤是一致的,区别仅在于步骤二中,对不属于最终用户工作时间段内或最终用户居家时间段内的通信基站的记录进行剔除。
本申请实施例提供的基于信令数据的职住地提取方法,先根据用户一天在用户工作时间段内和在用户居家时间段内的用户停留点数据及停留点停留时长数据,得到符合第三预设停留条件的若干工作停留点和若干居家停留点,再合并用户多天在用户工作时间段内和在用户居家时间段内的若干所述工作停留点和若干所述居家停留点,得到若干合并工作停留点和若干合并居家停留点,最后再根据若干合并工作停留点和若干合并居家停留点的停留点停留时长数据和停留次数数据,精确筛选得到第一工作地和第一居住地,计算过程简单,对运行本申请实施例提供的基于信令数据的职住地提取方法的系统要求低,使得能适用于大数据分析,进一步保证用户职住地的提取精度。
在一个实施例中,所述对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地,包括:
根据若干所述合并工作停留点和若干所述合并居家停留点的评分结果,得到若干所述合并工作停留点之间和若干所述合并居家停留点之间的评分差异值;
当若干所述合并工作停留点之间的评分差异值和若干所述合并居家停留点之间的评分差异值均大于预设阈值时,将若干所述合并工作停留点的评分结果中最高的一个作为所述第一工作地,且将若干所述合并居家停留点的评分结果中最高的一个作为所述第一居住地;
当若干所述合并工作停留点之间的评分差异值和若干所述合并居家停留点之间的评分差异值中的至少一个小于或等于预设阈值时,将若干所述合并工作停留点和/或若干所述合并居家停留点对应的用户标记为异常用户。
具体地,评分差异值可以通过下述表达式进行计算得到:
其中dscore表示评分差异值,max(Slocal)表示在Slocal中评分最高的通信基站的评分,sum(Slocal)表示Slocal中的通信基站的评分的总和。
针对被标记为异常用户的用户,可以对其再次执行步骤S120和S130,直到异常用户占总体用户的比例达到可接受的范围(例如小于10%)。一般而言,dscore的范围为[1/3,1),可以取预设阈值Ф=1/2来对异常用户再次进行检验。
本申请实施例提供的基于信令数据的职住地提取方法,在步骤S120得到第一工作地和所述第一居住地后,步骤S130还会对第一工作地和所述第一居住地进行分布检验,得到精确度足够高的最终工作地和最终居住地,以保证提取用户职住地的质量。
下面对本申请实施例提供的基于信令数据的职住地提取装置进行描述,下文描述的基于信令数据的职住地提取装置与上文描述的基于信令数据的职住地提取方法可相互对应参照。
图2为本申请实施例提供一种基于信令数据的职住地提取装置的结构示意图。
参照图2,本申请实施例提供一种基于信令数据的职住地提取装置,可以包括:
时间段划分模块210,用于:基于用户信令数据,划分用户工作时间段和用户居家时间段;
第一工作地和第一居住地筛选模块220,用于:根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地;
最终工作地和最终居住地得到模块230,用于:对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地。
在一个实施例中,所述时间段划分模块210包括:
初始用户工作及居家时间段预设子模块,用于:基于用户信令数据,预设初始用户工作及居家时间段;
变化用户工作及居家时间段得到模块,用于:通过随机算法为所述初始用户工作及居家时间段新增时间段或删减时间段,得到变化用户工作及居家时间段;
最终用户工作时间段和最终用户居家时间段得到子模块,用于:根据在所述变化用户工作及居家时间段内的用户停留点数据及停留点停留时长数据,筛选出划分时间点,利用所述划分时间点划分所述变化用户工作及居家时间段,得到最终用户工作时间段和最终用户居家时间段。
在一个实施例中,所述最终用户工作时间段和最终用户居家时间段得到子模块包括:
候选划分时间点得到子模块,用于:根据在所述变化用户工作及居家时间段内的用户停留点数据及停留点停留时长数据,筛选出符合第一预设停留条件的若干候选划分时间点;
最终划分时间点得到子模块,用于:在若干候选划分时间点中,筛选出符合第二预设停留条件的候选划分时间点作为最终划分时间点;
最终用户工作时间段和最终用户居家时间段得到子模块,用于:利用所述最终划分时间点划分所述变化用户工作及居家时间段,得到最终用户工作时间段和最终用户居家时间段。
在一个实施例中,所述第一预设停留条件为停留点停留时长超过一小时;所述第二预设停留条件为停留点停留时长最小。
在一个实施例中,所述第一工作地和第一居住地筛选模块220包括:
工作停留点和居家停留点筛选子模块,用于:根据用户一天在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选出用户一天分别在所述用户工作时间段内和所述所述用户居家时间段内符合第三预设停留条件的若干工作停留点和若干居家停留点;
合并工作停留点和合并居家停留点得到子模块,用于:合并用户多天在所述用户工作时间段内和在所述用户居家时间段内的若干所述工作停留点和若干所述居家停留点,得到若干合并工作停留点和若干合并居家停留点;
第一工作地和第一居住地得到子模块,用于:根据若干所述合并工作停留点和若干所述合并居家停留点的停留点停留时长数据和停留次数数据,筛选得到所述第一工作地和所述第一居住地。
在一个实施例中,所述第一工作地和第一居住地得到子模块具体用于:
分别对若干所述合并工作停留点和若干所述合并居家停留点的停留点停留时长值和停留次数进行加权求和评分,根据评分结果筛选得到所述第一工作地和所述第一居住地。
在一个实施例中,所述最终工作地和最终居住地得到模块230包括:
评分差异值得到子模块,用于:根据若干所述合并工作停留点和若干所述合并居家停留点的评分结果,得到若干所述合并工作停留点之间和若干所述合并居家停留点之间的评分差异值;
第一评分差异值比对子模块,用于:当若干所述合并工作停留点之间的评分差异值和若干所述合并居家停留点之间的评分差异值均大于预设阈值时,将若干所述合并工作停留点的评分结果中最高的一个作为所述第一工作地,且将若干所述合并居家停留点的评分结果中最高的一个作为所述第一居住地;
第二评分差异值比对子模块,用于:当若干所述合并工作停留点之间的评分差异值和若干所述合并居家停留点之间的评分差异值中的至少一个小于或等于预设阈值时,将若干所述合并工作停留点和/或若干所述合并居家停留点对应的用户标记为异常用户。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)810、通信接口(Communication Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的计算机程序,以执行基于信令数据的职住地提取方法的步骤,例如包括:
基于用户信令数据,划分用户工作时间段和用户居家时间段;
根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地;
对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的基于信令数据的职住地提取方法的步骤,例如包括:
基于用户信令数据,划分用户工作时间段和用户居家时间段;
根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地;
对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地。
另一方面,本申请实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行上述各实施例所提供的基于信令数据的职住地提取方法的步骤,例如包括:
基于用户信令数据,划分用户工作时间段和用户居家时间段;
根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地;
对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种基于信令数据的职住地提取方法,其特征在于,包括:
基于用户信令数据,划分用户工作时间段和用户居家时间段;
根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地;
对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地。
2.根据权利要求1所述的基于信令数据的职住地提取方法,其特征在于,所述基于用户信令数据,划分用户工作时间段和用户居家时间段,包括:
基于用户信令数据,预设初始用户工作及居家时间段;
通过随机算法为所述初始用户工作及居家时间段新增时间段或删减时间段,得到变化用户工作及居家时间段;
根据在所述变化用户工作及居家时间段内的用户停留点数据及停留点停留时长数据,筛选出划分时间点,利用所述划分时间点划分所述变化用户工作及居家时间段,得到最终用户工作时间段和最终用户居家时间段。
3.根据权利要求2所述的基于信令数据的职住地提取方法,其特征在于,所述根据在所述变化用户工作及居家时间段内的用户停留点数据及停留点停留时长数据,筛选出划分时间点,利用所述划分时间点划分所述变化用户工作及居家时间段,得到最终用户工作时间段和最终用户居家时间段,包括:
根据在所述变化用户工作及居家时间段内的用户停留点数据及停留点停留时长数据,筛选出符合第一预设停留条件的若干候选划分时间点;
在若干候选划分时间点中,筛选出符合第二预设停留条件的候选划分时间点作为最终划分时间点;
利用所述最终划分时间点划分所述变化用户工作及居家时间段,得到最终用户工作时间段和最终用户居家时间段。
4.根据权利要求3所述的基于信令数据的职住地提取方法,其特征在于,所述第一预设停留条件为停留点停留时长超过一小时;所述第二预设停留条件为停留点停留时长最小。
5.根据权利要求1-4任一项所述的基于信令数据的职住地提取方法,其特征在于,所述根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地,包括:
根据用户一天在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选出用户一天分别在所述用户工作时间段内和所述所述用户居家时间段内符合第三预设停留条件的若干工作停留点和若干居家停留点;
合并用户多天在所述用户工作时间段内和在所述用户居家时间段内的若干所述工作停留点和若干所述居家停留点,得到若干合并工作停留点和若干合并居家停留点;
根据若干所述合并工作停留点和若干所述合并居家停留点的停留点停留时长数据和停留次数数据,筛选得到所述第一工作地和所述第一居住地。
6.根据权利要求5所述的基于信令数据的职住地提取方法,其特征在于,所述根据若干所述合并工作停留点和若干所述合并居家停留点的停留点停留时长数据和停留次数数据,筛选得到所述第一工作地和所述第一居住地,具体为:
分别对若干所述合并工作停留点和若干所述合并居家停留点的停留点停留时长值和停留次数进行加权求和评分,根据评分结果筛选得到所述第一工作地和所述第一居住地。
7.根据权利要求6所述的基于信令数据的职住地提取方法,其特征在于,所述对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地,包括:
根据若干所述合并工作停留点和若干所述合并居家停留点的评分结果,得到若干所述合并工作停留点之间和若干所述合并居家停留点之间的评分差异值;
当若干所述合并工作停留点之间的评分差异值和若干所述合并居家停留点之间的评分差异值均大于预设阈值时,将若干所述合并工作停留点的评分结果中最高的一个作为所述第一工作地,且将若干所述合并居家停留点的评分结果中最高的一个作为所述第一居住地;
当若干所述合并工作停留点之间的评分差异值和若干所述合并居家停留点之间的评分差异值中的至少一个小于或等于预设阈值时,将若干所述合并工作停留点和/或若干所述合并居家停留点对应的用户标记为异常用户。
8.一种基于信令数据的职住地提取装置,其特征在于,包括:
时间段划分模块,用于:基于用户信令数据,划分用户工作时间段和用户居家时间段;
第一工作地和第一居住地筛选模块,用于:根据在所述用户工作时间段内和在所述用户居家时间段内的用户停留点数据及停留点停留时长数据,筛选得到第一工作地和第一居住地;
最终工作地和最终居住地得到模块,用于:对所述第一工作地和所述第一居住地进行分布检验,得到最终工作地和最终居住地。
9.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于信令数据的职住地提取方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于信令数据的职住地提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111402652.4A CN116156416A (zh) | 2021-11-19 | 2021-11-19 | 基于信令数据的职住地提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111402652.4A CN116156416A (zh) | 2021-11-19 | 2021-11-19 | 基于信令数据的职住地提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116156416A true CN116156416A (zh) | 2023-05-23 |
Family
ID=86354955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111402652.4A Pending CN116156416A (zh) | 2021-11-19 | 2021-11-19 | 基于信令数据的职住地提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116156416A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117336683A (zh) * | 2023-12-01 | 2024-01-02 | 北京航空航天大学 | 基于信令数据的大规模人员典型停留地识别方法及系统 |
-
2021
- 2021-11-19 CN CN202111402652.4A patent/CN116156416A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117336683A (zh) * | 2023-12-01 | 2024-01-02 | 北京航空航天大学 | 基于信令数据的大规模人员典型停留地识别方法及系统 |
CN117336683B (zh) * | 2023-12-01 | 2024-02-13 | 北京航空航天大学 | 基于信令数据的大规模人员典型停留地识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109828967B (zh) | 一种伴随关系获取方法、系统、设备、存储介质 | |
CN111858937A (zh) | 一种虚假地址信息识别的方法及装置 | |
CN111510368B (zh) | 家庭群组识别方法、装置、设备及计算机可读存储介质 | |
CN116156416A (zh) | 基于信令数据的职住地提取方法及装置 | |
CN106202126A (zh) | 一种用于物流监控的数据分析方法和装置 | |
CN114125154B (zh) | 外呼策略参数调整方法、装置、计算机设备及存储介质 | |
CN110990455A (zh) | 大数据识别房屋性质的方法与系统 | |
CN108804507A (zh) | 用户的住址位置确定方法及系统 | |
CN111148045A (zh) | 用户行为周期提取方法及设备 | |
CN111949696A (zh) | 一种全要素关联分析方法及装置 | |
CN112199388A (zh) | 陌电识别方法、装置、电子设备及存储介质 | |
CN110765221A (zh) | 时空轨迹数据的管理方法和装置 | |
CN111198972A (zh) | 用户职住地识别方法、装置、控制设备及存储介质 | |
CN113094412B (zh) | 一种身份识别方法、装置、电子设备以及存储介质 | |
CN112269940A (zh) | 数据处理方法及装置 | |
CN111127065B (zh) | 用户职住地的获取方法和装置 | |
CN113963536A (zh) | 通过手机信令数据识别居民惯常环境和出行目的的方法 | |
CN113742344A (zh) | 电力系统数据的索引方法及装置 | |
CN109783559B (zh) | 房产交易数据的获取方法、装置、电子设备以及存储介质 | |
CN113347574B (zh) | 一种确定常驻地的方法和装置 | |
CN114723205A (zh) | 传染病接触者识别方法、装置及终端 | |
CN111079026B (zh) | 一种确定人物印象数据的方法、存储介质和装置 | |
CN112165456B (zh) | 一种劫持流量识别方法、装置及电子设备 | |
CN111242147A (zh) | 一种亲密联系人和频繁活跃区域识别的方法及装置 | |
CN115965137B (zh) | 特定对象关联性预测方法、系统、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |