CN115086878B - 基于手机信令的用户行动轨迹获取方法、系统和存储介质 - Google Patents

基于手机信令的用户行动轨迹获取方法、系统和存储介质 Download PDF

Info

Publication number
CN115086878B
CN115086878B CN202210920955.3A CN202210920955A CN115086878B CN 115086878 B CN115086878 B CN 115086878B CN 202210920955 A CN202210920955 A CN 202210920955A CN 115086878 B CN115086878 B CN 115086878B
Authority
CN
China
Prior art keywords
user
data
base station
signaling
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210920955.3A
Other languages
English (en)
Other versions
CN115086878A (zh
Inventor
于笑博
成立立
杨占军
张广志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beiling Rongxin Datalnfo Science and Technology Ltd
Original Assignee
Beiling Rongxin Datalnfo Science and Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beiling Rongxin Datalnfo Science and Technology Ltd filed Critical Beiling Rongxin Datalnfo Science and Technology Ltd
Priority to CN202210920955.3A priority Critical patent/CN115086878B/zh
Publication of CN115086878A publication Critical patent/CN115086878A/zh
Application granted granted Critical
Publication of CN115086878B publication Critical patent/CN115086878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W64/00Locating users or terminals or network equipment for network management purposes, e.g. mobility management
    • H04W64/006Locating users or terminals or network equipment for network management purposes, e.g. mobility management with additional information processing, e.g. for direction or speed determination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开的一种基于手机信令的用户行动轨迹获取方法、系统和存储介质,其中方法包括:获取目标用户群中每个用户的信令数据;基于所述信令数据采集预设时间段内每个用户对应的基站数据,其中,所述基站数据包括基站位置信息、进出基站时间信息;基于预设的数据清洗机制对采集到的所述基站数据进行数据清洗作业;待所述数据清洗作业完成后,获取所述信令数据在基站内的停留时间,以得到用户行动轨迹链。本发明可以获取手机用户的行动轨迹,能准确反映在连续时间段内,不用时间点手机用户所在的空间位置,为定量描述区域内人群流动轨迹提供了可能。

Description

基于手机信令的用户行动轨迹获取方法、系统和存储介质
技术领域
本发明涉及大数据分析技术领域,更具体的,涉及一种基于手机信令的用户行动轨迹获取方法、系统和存储介质。
背景技术
据工信部统计数据显示,截至2021年9月底,三大运营商移动电话用户累计16.359亿户,比上年末净增4185万,比上年同期增长2.2%;2021年底,我国累计建成并开通5G基站142.5万个,5G基站占比超全球70%。
随着我国移动通信事业的快速发展,移动通信工具成为不可或缺的工具。随着实名制的应用,人-机-号的一一对应关系也逐步建立,手机用户只要发生开关机、通话、短信、位置更新和切换基站行为都会记录下信令数据(Mobile Signal Data),即通过手机用户在基站之间的信息交换来确定用户的空间位置,能相对准确的记录人流的时空轨迹。越来越多的各级部门选择将移动大数据信息应用于城市发展建设,探索产业调控、功能布局与人口发展的关系,定期跟踪把握人口流动,及时预警区域人口变化趋势。
发明内容
本发明的目的是提供一种基于手机信令的用户行动轨迹获取方法、系统和存储介质,可以获取手机用户的行动轨迹,能准确反映在连续时间段内,不用时间点手机用户所在的空间位置,为定量描述区域内人群流动轨迹提供了可能。
本发明第一方面提供了一种基于手机信令的用户行动轨迹获取方法,包括以下步骤:
获取目标用户群中每个用户的信令数据;
基于所述信令数据采集预设时间段内每个用户对应的基站数据,其中,所述基站数据包括基站位置信息、进出基站时间信息;
基于预设的数据清洗机制对采集到的所述基站数据进行数据清洗作业;
待所述数据清洗作业完成后,获取所述信令数据在基站内的停留时间,以得到用户行动轨迹链。
本方案中,所述基于预设的数据清洗机制对采集到的所述基站数据进行数据清洗作业,具体包括:
对所述基站数据中的缺失信令进行插值补偿;
对所述基站数据中同一用户的所述信令数据进行时间切割,以获取同一用户在不同基站的所述信令数据;
对所述基站数据作规范化处理,剔除非逻辑数据或调整所述非逻辑数据为逻辑可用数据。
本方案中,所述获取目标用户群中每个用户的信令数据具体包括:
基于所述目标用户群中的用户手机运营商获取所述信令数据;
基于预设的数据采集装置获取所述信令数据。
本方案中,所述基于所述信令数据采集预设时间段内每个用户对应的基站数据,具体包括:
以自然日为单位得到第一采集时间段与第二采集时间段;
基于所述第一采集时间段内的第一信令数据采集用户IMSI在当前时间段内对应的第一基站数据,其中,所述第一基站数据包括所述基站位置信息与所述进出基站时间信息;
基于所述第二采集时间段内的第二信令数据采集用户IMSI在当前时间段内对应的第二基站数据,其中,所述第二基站数据包括所述基站位置信息与所述进出基站时间信息。
本方案中,所述待所述数据清洗作业完成后,获取所述信令数据在基站内的停留时间,以得到用户行动轨迹链,具体包括:
以目标时间为单位获取用户在自然日内的参考值,其中,所述参考值包括Lac值与Ci值,所述Lac值表示用户手机网络制式,所述Ci值表示基站编号;
合并相同所述参考值的相邻目标时间,以得到所述停留时间,并基于所述Ci值获取所述用户行动轨迹链。
本方案中,所述方法还包括基于所述行动轨迹链利用预设算法获取用户的特定位置:
将所述停留时间值按照时长降序排列以得到基站编号排序;
提取所述第一信令数据中排序第一的所述基站编号的位置作为工作地;
提取所述第二信令数据中排序第一的所述基站编号的位置作为居住地。
本发明第二方面还提供一种基于手机信令的用户行动轨迹获取系统,包括存储器和处理器,所述存储器中包括基于手机信令的用户行动轨迹获取方法程序,所述基于手机信令的用户行动轨迹获取方法程序被所述处理器执行时实现如下步骤:
获取目标用户群中每个用户的信令数据;
基于所述信令数据采集预设时间段内每个用户对应的基站数据,其中,所述基站数据包括基站位置信息、进出基站时间信息;
基于预设的数据清洗机制对采集到的所述基站数据进行数据清洗作业;
待所述数据清洗作业完成后,获取所述信令数据在基站内的停留时间,以得到用户行动轨迹链。
本方案中,所述基于预设的数据清洗机制对采集到的所述基站数据进行数据清洗作业,具体包括:
对所述基站数据中的缺失信令进行插值补偿;
对所述基站数据中同一用户的所述信令数据进行时间切割,以获取同一用户在不同基站的所述信令数据;
对所述基站数据作规范化处理,剔除非逻辑数据或调整所述非逻辑数据为逻辑可用数据。
本方案中,所述获取目标用户群中每个用户的信令数据具体包括:
基于所述目标用户群中的用户手机运营商获取所述信令数据;
基于预设的数据采集装置获取所述信令数据。
本方案中,所述基于所述信令数据采集预设时间段内每个用户对应的基站数据,具体包括:
以自然日为单位得到第一采集时间段与第二采集时间段;
基于所述第一采集时间段内的第一信令数据采集用户IMSI在当前时间段内对应的第一基站数据,其中,所述第一基站数据包括所述基站位置信息与所述进出基站时间信息;
基于所述第二采集时间段内的第二信令数据采集用户IMSI在当前时间段内对应的第二基站数据,其中,所述第二基站数据包括所述基站位置信息与所述进出基站时间信息。
本方案中,所述待所述数据清洗作业完成后,获取所述信令数据在基站内的停留时间,以得到用户行动轨迹链,具体包括:
以目标时间为单位获取用户在自然日内的参考值,其中,所述参考值包括Lac值与Ci值,所述Lac值表示用户手机网络制式,所述Ci值表示基站编号;
合并相同所述参考值的相邻目标时间,以得到所述停留时间,并基于所述Ci值获取所述用户行动轨迹链。
本方案中,所述方法还包括基于所述行动轨迹链利用预设算法获取用户的特定位置:
将所述停留时间值按照时长降序排列以得到基站编号排序;
提取所述第一信令数据中排序第一的所述基站编号的位置作为工作地;
提取所述第二信令数据中排序第一的所述基站编号的位置作为居住地。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括机器的一种基于手机信令的用户行动轨迹获取方法程序,所述基于手机信令的用户行动轨迹获取方法程序被处理器执行时,实现如上述任一项所述的一种基于手机信令的用户行动轨迹获取方法的步骤。
本发明公开的一种基于手机信令的用户行动轨迹获取方法、系统和存储介质,可以获取手机用户的行动轨迹,能准确反映在连续时间段内,不用时间点手机用户所在的空间位置,为定量描述区域内人群流动轨迹提供了可能。
附图说明
图1示出了本发明一种基于手机信令的用户行动轨迹获取方法的流程图;
图2示出了本发明一种基于手机信令的用户行动轨迹获取系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
于本申请中,手机信令信息具有以下特点:一是大样本、覆盖范围广、用户持有率高,能更好反映人流行为的时空规律;二是匿名数据,安全性好,没有任何个人属性信息,不涉及个人隐私;三是非自愿数据,用户被动提供信息无法干预调查结果;四是具有动态实时性和连续性,能准确反映在连续时间区段内,不同时间点手机用户所在的空间位置。
基于本申请的方法可以定期跟踪把握人口流动,及时预警区域人口变化趋势,能够根据手机信令信息反映在连续时间段内,不用时间点手机用户所在的空间位置,定量描述区域内人群流动的轨迹。
图1示出了本申请一种基于手机信令的用户行动轨迹获取方法的流程图。
如图1所示,本申请公开了一种基于手机信令的用户行动轨迹获取方法,包括以下步骤:
S102,获取目标用户群中每个用户的信令数据;
S104,基于所述信令数据采集预设时间段内每个用户对应的基站数据,其中,所述基站数据包括基站位置信息、进出基站时间信息;
S106,基于预设的数据清洗机制对采集到的所述基站数据进行数据清洗作业;
S108,待所述数据清洗作业完成后,获取所述信令数据在基站内的停留时间,以得到用户行动轨迹链。
需要说明的是,首先获取所述目标用户群中对应用户的所述信令数据,而后可以基于所述信令数据采集当前每个用户在所述预设时间段内的所在的所述基站位置信息以及所述进出基站时间信息,以得到所述基站数据,所述预设时间段可以为 “当天7:00-19:00”和/或“当天21:00-次日7:00”(以一天24小时计算),在获取到所述基站数据后,对所述基站数据进行数据清洗,包括通过添加缺失数据、划分重叠数据和删除重复数据等清洗机制对数据进行清洗,待所述数据清洗作业完成后,在所述信令数据中的time标签数据以“5”分钟为单位向上取整,得到time_in和time_out两个字段,计算两个字段的时间差来获取所述信令数据在基站内的停留时间,基于停留的不同基站获取对应用户的活动范围和活动轨迹,即对应得到所述用户行动轨迹链,所述用户行动轨迹链包括所述活动范围和所述活动轨迹。
根据本发明实施例,所述基于预设的数据清洗机制对采集到的所述基站数据进行数据清洗作业,具体包括:
对所述基站数据中的缺失信令进行插值补偿;
对所述基站数据中同一用户的所述信令数据进行时间切割,以获取同一用户在不同基站的所述信令数据;
对所述基站数据作规范化处理,剔除非逻辑数据或调整所述非逻辑数据为逻辑可用数据。
需要说明的是,对进出基站的缺失信令进行插值补偿,为保证数据的完整性,如果用户在统计时间段内只有进入某扇区时间而没有离开该扇区时间,或者只有离开某扇区时间而没有进入该扇区时间,则需要对缺失数据进行插补,插补时间点是该统计时间段的起始时间和结束时间。例如A用户在“5月1日23:00:00”进入扇区X,在“5月2日7:00:00”离开扇区X,且A用户进入扇区Y的时间为“5月2日23:00:00”,而离开的时间为“5月3日的 7:00:00”,当采集“5月2日”A用户的信息时将缺失进入扇区X的时间点和离开扇区Y的时间点,因此需要插补进入扇区X的时间为“5月2日的00:00:00”,离开扇区Y的时间点为“5月2日23:59:59”。
对有时间重叠的重复信令进行划分时间段,即对所述基站数据中同一用户的所述信令数据进行时间切割,若在有重复时间段内出现该用户在两个完全不同的基站,则需要利用后一个基站的进入时间点作为切割的时间,将其划分为两个时间段。例如该用户在“5月1日10:00:00-10:30:00”在扇区A,但是在“5月1日10:25:00-10:50:00”在扇区B,应当以“5月1日10:25:00”为划分时间点,将重复区域区别开。
对所述基站数据作规范化处理,即对不规范数据或非逻辑数据进行调整。例如时间表示为“20220501000000”,但突然出现某一个数据时间表示为“2022年5月1日00时00分00秒”,这类不规范数据就要被调整为规范数据“20220501000000”;对不规范数据进行规范化处理,对非逻辑数据进行剔除或者调整为符合前后逻辑的可利用数据。
根据本发明实施例,所述获取目标用户群中每个用户的信令数据具体包括:
基于所述目标用户群中的用户手机运营商获取所述信令数据;
基于预设的数据采集装置获取所述信令数据。
需要说明的是,获取所述信令数据的方式可以通过所述手机运营商来获取,在国内运营商包括人们熟知的中国移动、中国电信和中国联通,同时也可以基于所述数据采集装置获取,即使用Spark Streaming接入Kafka消息系统来获取所述信令数据。
根据本发明实施例,所述基于所述信令数据采集预设时间段内每个用户对应的基站数据,具体包括:
以自然日为单位得到第一采集时间段与第二采集时间段;
基于所述第一采集时间段内的第一信令数据采集用户IMSI在当前时间段内对应的第一基站数据,其中,所述第一基站数据包括所述基站位置信息与所述进出基站时间信息;
基于所述第二采集时间段内的第二信令数据采集用户IMSI在当前时间段内对应的第二基站数据,其中,所述第二基站数据包括所述基站位置信息与所述进出基站时间信息。
需要说明的是,与上述实施例中说明,所述预设时间段可以为 “当天7:00-19:00”和/或“当天21:00-次日7:00”,相应地,所述第一采集时间段为“当天7:00-19:00”,所述第二采集时间段“当天21:00-次日7:00”,基于两个采集时间段采集用户IMSI在对应时间段内的所述基站数据,其中,IMSI(International Mobile Subscriber Identity)表示利用MD5加密方式对手机用户的手机号码信息进行加密。
根据本发明实施例,所述待所述数据清洗作业完成后,获取所述信令数据在基站内的停留时间,以得到用户行动轨迹链,具体包括:
以目标时间为单位获取用户在自然日内的参考值,其中,所述参考值包括Lac值与Ci值,所述Lac值表示用户手机网络制式,所述Ci值表示基站编号;
合并相同所述参考值的相邻目标时间,以得到所述停留时间,并基于所述Ci值获取所述用户行动轨迹链。
需要说明的是,取所述目标时间为“5”分钟,以每“5”分钟为单位获取所述Lac值和所述Ci值,其中,所述Lac值表示用户手机网络制式,所述Ci值表示基站编号,若相邻时间的所述Lac值和所述Ci值相同,则将两条或两条以上的信令进行合并,并将time_in与time_out同时进行合并,在此基础之上,计算得到所述停留时间,而后通过所述基站编号Ci值来获取当前用户对应的活动范围和活动轨迹,以此得到所述行动轨迹链。
根据本发明实施例,所述方法还包括基于所述行动轨迹链利用预设算法获取用户的特定位置:
将所述停留时间值按照时长降序排列以得到基站编号排序;
提取所述第一信令数据中排序第一的所述基站编号的位置作为工作地;
提取所述第二信令数据中排序第一的所述基站编号的位置作为居住地。
需要说明的是,取所述预设算法为哈希算法,结合所述哈希算法,提取所述第一信令数据中所述停留时长最大值所对应的所述Ci值为该IMSI手机用户的所述工作地;提取所述第二信令数据中所述停留时长最大值所对应的所述Ci值为该IMSI手机用户的所述居住地。
值得一提的是,所述方法还包括基于识别到的用户行动轨迹进行职业类型判断,具体包括:
提取所述用户行动轨迹中出现次数最多的工作地点进行判断,其中,
若所述工作地点为写字楼,则判断用户对应的所述职业类型为公司职员;
若所述工作地点为餐馆,则判断用户对应的所述职业类型为服务业从事人员;
若所述工作地点为地铁站,则判断用户对应的所述职业类型为地铁工作人员。
需要说明的是,由于用户的行动轨迹被获知,因此可以基于所述用户行动轨迹进行对应用户的职业类型进行画像,提取在所述第一信令数据中出现次数最多的工作地点来判断当前用户的职业类型,例如用户在第一采集时间段内对应的信令数据显示其一直在A写字楼内,那么该用户的职业类型被判断为公司职员。
值得一提的是,所述方法还包括提取所述职业类型为服务业从事人员的行动轨迹进行二次判断,具体包括:
提取预设的就餐高峰时间内服务业从事人员的用户行动轨迹进行判断,其中,
若所述用户行动轨迹超出所述餐馆预设距离内的次数大于或等于预设阈值,则判断所述用户对应的职业类型为外卖员;
若所述用户行动轨迹超出所述餐馆预设距离内的次数小于预设阈值,则判断所述用户对应的职业类型为餐馆工作人员。
需要说明的是,对于餐馆的所述服务业从事人员,取所述就餐高峰时间为“10:30-14:00”,在这一时间段内需要对这类人员进行二次判断以细化职业类型,去所述预设距离为“2km”米,所述预设阈值为“1”次,相应地,由于外卖员的工作类型导致其需要在各个餐馆取餐再送餐,因此在就餐高峰时间内设定所述预设距离为“2”米,以此来区分外卖员和餐馆工作人员。
值得一提的是,所述方法还包括基于所述轨迹链作时间切分。
需要说明的是,在流入时刻为“当日21:00”,而流出时刻为“次日7:00”的所述轨迹链无需时间切分,但若流入和流出时间并不是“当日21:00”和“次日7:00”,则选择将包含这两个时刻的时间段进行切分,划分成以“当日21:00”开始和以“次日7:00”结束的时刻,结合哈希算法,选取所述停留时长最大值所对应的所述Ci值为该IMSI手机用户的所述居住地。
值得一提的是,所述方法还包括:
获取所述信令数据的用户属性进行判断,其中,
若至少两个所述信令数据的用户属性为同一属性,则任取其中一个手机信令作为所述信令数据。
需要说明的是,由于用户可能存在手机,无论该手机的运营商是否一致,但是每个手机信令对应的用户属性都是一致的,因此,为了减少数据资源计算不必要的浪费,对同一用户的不同信令数据进行剔除筛选以减小计算量,保证计算效率。
图2示出了本发明一种基于手机信令的用户行动轨迹获取系统的框图。
如图2所示,本发明公开了一种基于手机信令的用户行动轨迹获取系统,包括存储器和处理器,所述存储器中包括基于手机信令的用户行动轨迹获取方法程序,所述基于手机信令的用户行动轨迹获取方法程序被所述处理器执行时实现如下步骤:
获取目标用户群中每个用户的信令数据;
基于所述信令数据采集预设时间段内每个用户对应的基站数据,其中,所述基站数据包括基站位置信息、进出基站时间信息;
基于预设的数据清洗机制对采集到的所述基站数据进行数据清洗作业;
待所述数据清洗作业完成后,获取所述信令数据在基站内的停留时间,以得到用户行动轨迹链。
需要说明的是,首先获取所述目标用户群中对应用户的所述信令数据,而后可以基于所述信令数据采集当前每个用户在所述预设时间段内的所在的所述基站位置信息以及所述进出基站时间信息,以得到所述基站数据,所述预设时间段可以为 “当天7:00-19:00”和/或“当天21:00-次日7:00”(以一天24小时计算),在获取到所述基站数据后,对所述基站数据进行数据清洗,包括通过添加缺失数据、划分重叠数据和删除重复数据等清洗机制对数据进行清洗,待所述数据清洗作业完成后,在所述信令数据中的time标签数据以“5”分钟为单位向上取整,得到time_in和time_out两个字段,计算两个字段的时间差来获取所述信令数据在基站内的停留时间,基于停留的不同基站获取对应用户的活动范围和活动轨迹,即对应得到所述用户行动轨迹链,所述用户行动轨迹链包括所述活动范围和所述活动轨迹。
根据本发明实施例,所述基于预设的数据清洗机制对采集到的所述基站数据进行数据清洗作业,具体包括:
对所述基站数据中的缺失信令进行插值补偿;
对所述基站数据中同一用户的所述信令数据进行时间切割,以获取同一用户在不同基站的所述信令数据;
对所述基站数据作规范化处理,剔除非逻辑数据或调整所述非逻辑数据为逻辑可用数据。
需要说明的是,对进出基站的缺失信令进行插值补偿,为保证数据的完整性,如果用户在统计时间段内只有进入某扇区时间而没有离开该扇区时间,或者只有离开某扇区时间而没有进入该扇区时间,则需要对缺失数据进行插补,插补时间点是该统计时间段的起始时间和结束时间。例如A用户在“5月1日23:00:00”进入扇区X,在“5月2日7:00:00”离开扇区X,且A用户进入扇区Y的时间为“5月2日23:00:00”,而离开的时间为“5月3日的 7:00:00”,当采集“5月2日”A用户的信息时将缺失进入扇区X的时间点和离开扇区Y的时间点,因此需要插补进入扇区X的时间为“5月2日的00:00:00”,离开扇区Y的时间点为“5月2日23:59:59”。
对有时间重叠的重复信令进行划分时间段,即对所述基站数据中同一用户的所述信令数据进行时间切割,若在有重复时间段内出现该用户在两个完全不同的基站,则需要利用后一个基站的进入时间点作为切割的时间,将其划分为两个时间段。例如该用户在“5月1日10:00:00-10:30:00”在扇区A,但是在“5月1日10:25:00-10:50:00”在扇区B,应当以“5月1日10:25:00”为划分时间点,将重复区域区别开。
对所述基站数据作规范化处理,即对不规范数据或非逻辑数据进行调整。例如时间表示为“20220501000000”,但突然出现某一个数据时间表示为“2022年5月1日00时00分00秒”,这类不规范数据就要被调整为规范数据“20220501000000”;对不规范数据进行规范化处理,对非逻辑数据进行剔除或者调整为符合前后逻辑的可利用数据。
根据本发明实施例,所述获取目标用户群中每个用户的信令数据具体包括:
基于所述目标用户群中的用户手机运营商获取所述信令数据;
基于预设的数据采集装置获取所述信令数据。
需要说明的是,获取所述信令数据的方式可以通过所述手机运营商来获取,在国内运营商包括人们熟知的中国移动、中国电信和中国联通,同时也可以基于所述数据采集装置获取,即使用Spark Streaming接入Kafka消息系统来获取所述信令数据。
根据本发明实施例,所述基于所述信令数据采集预设时间段内每个用户对应的基站数据,具体包括:
以自然日为单位得到第一采集时间段与第二采集时间段;
基于所述第一采集时间段内的第一信令数据采集用户IMSI在当前时间段内对应的第一基站数据,其中,所述第一基站数据包括所述基站位置信息与所述进出基站时间信息;
基于所述第二采集时间段内的第二信令数据采集用户IMSI在当前时间段内对应的第二基站数据,其中,所述第二基站数据包括所述基站位置信息与所述进出基站时间信息。
需要说明的是,与上述实施例中说明,所述预设时间段可以为 “当天7:00-19:00”和/或“当天21:00-次日7:00”,相应地,所述第一采集时间段为“当天7:00-19:00”,所述第二采集时间段“当天21:00-次日7:00”,基于两个采集时间段采集用户IMSI在对应时间段内的所述基站数据,其中,IMSI(International Mobile Subscriber Identity)表示利用MD5加密方式对手机用户的手机号码信息进行加密。
根据本发明实施例,所述待所述数据清洗作业完成后,获取所述信令数据在基站内的停留时间,以得到用户行动轨迹链,具体包括:
以目标时间为单位获取用户在自然日内的参考值,其中,所述参考值包括Lac值与Ci值,所述Lac值表示用户手机网络制式,所述Ci值表示基站编号;
合并相同所述参考值的相邻目标时间,以得到所述停留时间,并基于所述Ci值获取所述用户行动轨迹链。
需要说明的是,取所述目标时间为“5”分钟,以每“5”分钟为单位获取所述Lac值和所述Ci值,其中,所述Lac值表示用户手机网络制式,所述Ci值表示基站编号,若相邻时间的所述Lac值和所述Ci值相同,则将两条或两条以上的信令进行合并,并将time_in与time_out同时进行合并,在此基础之上,计算得到所述停留时间,而后通过所述基站编号Ci值来获取当前用户对应的活动范围和活动轨迹,以此得到所述行动轨迹链。
根据本发明实施例,所述方法还包括基于所述行动轨迹链利用预设算法获取用户的特定位置:
将所述停留时间值按照时长降序排列以得到基站编号排序;
提取所述第一信令数据中排序第一的所述基站编号的位置作为工作地;
提取所述第二信令数据中排序第一的所述基站编号的位置作为居住地。
需要说明的是,取所述预设算法为哈希算法,结合所述哈希算法,提取所述第一信令数据中所述停留时长最大值所对应的所述Ci值为该IMSI手机用户的所述工作地;提取所述第二信令数据中所述停留时长最大值所对应的所述Ci值为该IMSI手机用户的所述居住地。
值得一提的是,所述方法还包括基于识别到的用户行动轨迹进行职业类型判断,具体包括:
提取所述用户行动轨迹中出现次数最多的工作地点进行判断,其中,
若所述工作地点为写字楼,则判断用户对应的所述职业类型为公司职员;
若所述工作地点为餐馆,则判断用户对应的所述职业类型为服务业从事人员;
若所述工作地点为地铁站,则判断用户对应的所述职业类型为地铁工作人员。
需要说明的是,由于用户的行动轨迹被获知,因此可以基于所述用户行动轨迹进行对应用户的职业类型进行画像,提取在所述第一信令数据中出现次数最多的工作地点来判断当前用户的职业类型,例如用户在第一采集时间段内对应的信令数据显示其一直在A写字楼内,那么该用户的职业类型被判断为公司职员。
值得一提的是,所述方法还包括提取所述职业类型为服务业从事人员的行动轨迹进行二次判断,具体包括:
提取预设的就餐高峰时间内服务业从事人员的用户行动轨迹进行判断,其中,
若所述用户行动轨迹超出所述餐馆预设距离内的次数大于或等于预设阈值,则判断所述用户对应的职业类型为外卖员;
若所述用户行动轨迹超出所述餐馆预设距离内的次数小于预设阈值,则判断所述用户对应的职业类型为餐馆工作人员。
需要说明的是,对于餐馆的所述服务业从事人员,取所述就餐高峰时间为“10:30-14:00”,在这一时间段内需要对这类人员进行二次判断以细化职业类型,去所述预设距离为“2km”米,所述预设阈值为“1”次,相应地,由于外卖员的工作类型导致其需要在各个餐馆取餐再送餐,因此在就餐高峰时间内设定所述预设距离为“2”米,以此来区分外卖员和餐馆工作人员。
值得一提的是,所述方法还包括基于所述轨迹链作时间切分。
需要说明的是,在流入时刻为“当日21:00”,而流出时刻为“次日7:00”的所述轨迹链无需时间切分,但若流入和流出时间并不是“当日21:00”和“次日7:00”,则选择将包含这两个时刻的时间段进行切分,划分成以“当日21:00”开始和以“次日7:00”结束的时刻,结合哈希算法,选取所述停留时长最大值所对应的所述Ci值为该IMSI手机用户的所述居住地。
值得一提的是,所述方法还包括:
获取所述信令数据的用户属性进行判断,其中,
若至少两个所述信令数据的用户属性为同一属性,则任取其中一个手机信令作为所述信令数据。
需要说明的是,由于用户可能存在手机,无论该手机的运营商是否一致,但是每个手机信令对应的用户属性都是一致的,因此,为了减少数据资源计算不必要的浪费,对同一用户的不同信令数据进行剔除筛选以减小计算量,保证计算效率。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于手机信令的用户行动轨迹获取方法程序,所述基于手机信令的用户行动轨迹获取方法程序被处理器执行时,实现如上述任一项所述的一种基于手机信令的用户行动轨迹获取方法的步骤。
本发明公开的一种基于手机信令的用户行动轨迹获取方法、系统和存储介质,可以获取手机用户的行动轨迹,能准确反映在连续时间段内,不用时间点手机用户所在的空间位置,为定量描述区域内人群流动轨迹提供了可能。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (4)

1.一种基于手机信令的用户行动轨迹获取方法,其特征在于,包括以下步骤:
获取目标用户群中每个用户的信令数据;
基于所述信令数据采集预设时间段内每个用户对应的基站数据,其中,所述基站数据包括基站位置信息、进出基站时间信息;
基于预设的数据清洗机制对采集到的所述基站数据进行数据清洗作业;
待所述数据清洗作业完成后,获取所述信令数据在基站内的停留时间,以得到用户行动轨迹链;
所述基于预设的数据清洗机制对采集到的所述基站数据进行数据清洗作业,具体包括:
对所述基站数据中的缺失信令进行插值补偿;
对所述基站数据中同一用户的所述信令数据进行时间切割,以获取同一用户在不同基站的所述信令数据;
对所述基站数据作规范化处理,剔除非逻辑数据或调整所述非逻辑数据为逻辑可用数据;
所述基于所述信令数据采集预设时间段内每个用户对应的基站数据,具体包括:
以自然日为单位得到第一采集时间段与第二采集时间段;
基于所述第一采集时间段内的第一信令数据采集用户IMSI在当前时间段内对应的第一基站数据,其中,所述第一基站数据包括所述基站位置信息与所述进出基站时间信息;
基于所述第二采集时间段内的第二信令数据采集用户IMSI在当前时间段内对应的第二基站数据,其中,所述第二基站数据包括所述基站位置信息与所述进出基站时间信息;
所述方法还包括基于识别到的用户行动轨迹进行职业类型判断,具体包括:
提取所述用户行动轨迹中出现次数最多的工作地点进行判断,其中,
若所述工作地点为写字楼,则判断用户对应的所述职业类型为公司职员;
若所述工作地点为餐馆,则判断用户对应的所述职业类型为服务业从事人员;
若所述工作地点为地铁站,则判断用户对应的所述职业类型为地铁工作人员;
所述方法还包括提取所述职业类型为服务业从事人员的行动轨迹进行二次判断,具体包括:
提取预设的就餐高峰时间内服务业从事人员的用户行动轨迹进行判断,其中,
若所述用户行动轨迹超出所述餐馆预设距离内的次数大于或等于预设阈值,则判断所述用户对应的职业类型为外卖员;
若所述用户行动轨迹超出所述餐馆预设距离内的次数小于预设阈值,则判断所述用户对应的职业类型为餐馆工作人员;
所述待所述数据清洗作业完成后,获取所述信令数据在基站内的停留时间,以得到用户行动轨迹链,具体包括:
以目标时间为单位获取用户在自然日内的参考值,其中,所述参考值包括Lac值与Ci值,所述Lac值表示用户手机网络制式,所述Ci值表示基站编号;
合并相同所述参考值的相邻目标时间,以得到所述停留时间,并基于所述Ci值获取所述用户行动轨迹链;
所述方法还包括基于所述行动轨迹链利用预设算法获取用户的特定位置:
将所述停留时间值按照时长降序排列以得到基站编号排序;
提取所述第一信令数据中排序第一的所述基站编号的位置作为工作地;
提取所述第二信令数据中排序第一的所述基站编号的位置作为居住地;
所述方法还包括基于所述轨迹链作时间切分;
所述方法还包括:
获取所述信令数据的用户属性进行判断,其中,
若至少两个所述信令数据的用户属性为同一属性,则任取其中一个手机信令作为所述信令数据。
2.根据权利要求1所述的一种基于手机信令的用户行动轨迹获取方法,其特征在于,所述获取目标用户群中每个用户的信令数据具体包括:
基于所述目标用户群中的用户手机运营商获取所述信令数据;
基于预设的数据采集装置获取所述信令数据。
3.一种基于手机信令的用户行动轨迹获取系统,其特征在于,包括存储器和处理器,所述存储器中包括基于手机信令的用户行动轨迹获取方法程序,所述基于手机信令的用户行动轨迹获取方法程序被所述处理器执行时实现如下步骤:
获取目标用户群中每个用户的信令数据;
基于所述信令数据采集预设时间段内每个用户对应的基站数据,其中,所述基站数据包括基站位置信息、进出基站时间信息;
基于预设的数据清洗机制对采集到的所述基站数据进行数据清洗作业;
待所述数据清洗作业完成后,获取所述信令数据在基站内的停留时间,以得到用户行动轨迹链;
所述基于预设的数据清洗机制对采集到的所述基站数据进行数据清洗作业,具体包括:
对所述基站数据中的缺失信令进行插值补偿;
对所述基站数据中同一用户的所述信令数据进行时间切割,以获取同一用户在不同基站的所述信令数据;
对所述基站数据作规范化处理,剔除非逻辑数据或调整所述非逻辑数据为逻辑可用数据;
所述基于所述信令数据采集预设时间段内每个用户对应的基站数据,具体包括:
以自然日为单位得到第一采集时间段与第二采集时间段;
基于所述第一采集时间段内的第一信令数据采集用户IMSI在当前时间段内对应的第一基站数据,其中,所述第一基站数据包括所述基站位置信息与所述进出基站时间信息;
基于所述第二采集时间段内的第二信令数据采集用户IMSI在当前时间段内对应的第二基站数据,其中,所述第二基站数据包括所述基站位置信息与所述进出基站时间信息;
所述方法还包括基于识别到的用户行动轨迹进行职业类型判断,具体包括:
提取所述用户行动轨迹中出现次数最多的工作地点进行判断,其中,
若所述工作地点为写字楼,则判断用户对应的所述职业类型为公司职员;
若所述工作地点为餐馆,则判断用户对应的所述职业类型为服务业从事人员;
若所述工作地点为地铁站,则判断用户对应的所述职业类型为地铁工作人员;
所述方法还包括提取所述职业类型为服务业从事人员的行动轨迹进行二次判断,具体包括:
提取预设的就餐高峰时间内服务业从事人员的用户行动轨迹进行判断,其中,
若所述用户行动轨迹超出所述餐馆预设距离内的次数大于或等于预设阈值,则判断所述用户对应的职业类型为外卖员;
若所述用户行动轨迹超出所述餐馆预设距离内的次数小于预设阈值,则判断所述用户对应的职业类型为餐馆工作人员;
所述待所述数据清洗作业完成后,获取所述信令数据在基站内的停留时间,以得到用户行动轨迹链,具体包括:
以目标时间为单位获取用户在自然日内的参考值,其中,所述参考值包括Lac值与Ci值,所述Lac值表示用户手机网络制式,所述Ci值表示基站编号;
合并相同所述参考值的相邻目标时间,以得到所述停留时间,并基于所述Ci值获取所述用户行动轨迹链;
所述方法还包括基于所述行动轨迹链利用预设算法获取用户的特定位置:
将所述停留时间值按照时长降序排列以得到基站编号排序;
提取所述第一信令数据中排序第一的所述基站编号的位置作为工作地;
提取所述第二信令数据中排序第一的所述基站编号的位置作为居住地;
所述方法还包括基于所述轨迹链作时间切分;
所述方法还包括:
获取所述信令数据的用户属性进行判断,其中,
若至少两个所述信令数据的用户属性为同一属性,则任取其中一个手机信令作为所述信令数据。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种基于手机信令的用户行动轨迹获取方法程序,所述基于手机信令的用户行动轨迹获取方法程序被处理器执行时,实现如权利要求1至2中任一项所述的一种基于手机信令的用户行动轨迹获取方法的步骤。
CN202210920955.3A 2022-08-02 2022-08-02 基于手机信令的用户行动轨迹获取方法、系统和存储介质 Active CN115086878B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210920955.3A CN115086878B (zh) 2022-08-02 2022-08-02 基于手机信令的用户行动轨迹获取方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210920955.3A CN115086878B (zh) 2022-08-02 2022-08-02 基于手机信令的用户行动轨迹获取方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN115086878A CN115086878A (zh) 2022-09-20
CN115086878B true CN115086878B (zh) 2023-04-28

Family

ID=83242297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210920955.3A Active CN115086878B (zh) 2022-08-02 2022-08-02 基于手机信令的用户行动轨迹获取方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN115086878B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117177184A (zh) * 2023-10-30 2023-12-05 北京融信数联科技有限公司 基于手机信令的机场日活跃用户预测方法、系统和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111417075A (zh) * 2018-12-18 2020-07-14 北京融信数联科技有限公司 一种基于移动通信大数据的用户工作地识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109495856B (zh) * 2018-12-18 2021-08-10 成都方未科技有限公司 一种基于大数据的手机用户类型标记方法
CN111372194B (zh) * 2018-12-25 2021-12-14 北京融信数联科技有限公司 一种手机换卡用户智能化识别方法
CN111615061B (zh) * 2020-05-09 2022-02-15 国家计算机网络与信息安全管理中心山东分中心 移动终端轨迹数据的去噪方法及装置
CN113891252B (zh) * 2021-09-18 2024-02-02 苏州规划设计研究院股份有限公司 基于手机信令数据的轨道客流全程od提取方法及系统
CN113963536A (zh) * 2021-10-19 2022-01-21 海南波罗密信息科技有限公司 通过手机信令数据识别居民惯常环境和出行目的的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111417075A (zh) * 2018-12-18 2020-07-14 北京融信数联科技有限公司 一种基于移动通信大数据的用户工作地识别方法

Also Published As

Publication number Publication date
CN115086878A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN105205155B (zh) 一种大数据犯罪同伙的筛查系统和方法
CN103188705A (zh) 一种对批量投诉进行告警定位的方法和告警定位装置
CN113543178B (zh) 基于用户感知的业务优化方法、装置、设备及存储介质
CN109391513B (zh) 一种基于大数据的网络感知智能预警与提升方法
CN103906112B (zh) 通信网络性能的分析方法与系统
CN100589606C (zh) 一种短消息查询分析系统及方法
US9305110B2 (en) Method and arrangement for supporting analysis of social networks in a communication network
CN103002479B (zh) 移动网络用户通信质量关注系统
EP3132592A1 (en) Method and system for identifying significant locations through data obtainable from a telecommunication network
CN108243421B (zh) 伪基站识别方法及系统
CN115086878B (zh) 基于手机信令的用户行动轨迹获取方法、系统和存储介质
CN112383875B (zh) 一种数据处理方法及电子设备
CN108632746A (zh) 一种确定区域人流量的方法
CN104113869A (zh) 一种基于信令数据的潜在投诉用户预测方法及系统
CN107889210B (zh) 楼宇用户定位方法和系统
Sekimoto et al. Real-time people movement estimation in large disasters from several kinds of mobile phone data
CN102149113B (zh) 一种移动用户感知量化方法
CN102546272B (zh) 信息泄露检测方法、装置及系统
CN102045697B (zh) 一种确定目标用户的系统和方法
CN116761185A (zh) 一种基于信令预测日活跃用户的方法、系统及介质
CN112073495A (zh) 一种便于信息统合的智慧城管物联网应用系统
CN103916870A (zh) 四网协同综合分析系统及方法
CN112019691A (zh) 一种电力咨询智能回复方法
EP2169992B1 (fr) Détection de comportements anormaux d'utilisateurs de terminaux mobiles dans un réseau de télécommunications
CN109348490A (zh) 一种识别干扰铁路lte网络的邻接载波的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant