CN111367896A - 基于大数据的用户个性化活动图谱构建方法 - Google Patents
基于大数据的用户个性化活动图谱构建方法 Download PDFInfo
- Publication number
- CN111367896A CN111367896A CN201811591612.7A CN201811591612A CN111367896A CN 111367896 A CN111367896 A CN 111367896A CN 201811591612 A CN201811591612 A CN 201811591612A CN 111367896 A CN111367896 A CN 111367896A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- sector
- time
- base station
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供一种基于大数据的用户个性化活动图谱构建方法,采集一个时间段内每个用户的移动轨迹信息,对用户活动轨迹进行纵向和横向两个维度的挖掘分析并得出量化结果,从中发现某特定用户经常活动而其他用户并不经常去的区域,从而直观展示出某特定用户不同于其他用户的活动特征。
Description
技术领域
本发明属于移动大数据挖掘及应用技术领域,具体涉及一种基于移动大数据的用户个性化活动图谱的构建方法。
背景技术
随着智能手机的普及,促进了移动大数据技术的发展。移动大数据中蕴含了丰富的信息,包括移动用户的出行活动信息。用户的出行活动信息具有重要的利用价值。如,通过发现并掌握移动用户的活动共性,可以服务于城市规划、旅游开发、交通建设等领域;通过用户的个性化活动信息,可用于商业领域的个性化服务、精准营销,以及安保、刑侦、反恐等领域。目前通过移动运营商的信令数据,可以较容易发现并掌握群体用户的活动共性。而对每个用户的活动特性,因其具有多样新、分散性,目前还没有有效的方法进行规模化挖掘。
发明内容
本发明的目的在于针对目前移动用户个性化活动信息难以挖掘的问题,提供一种基于移动大数据的用户个性化活动图谱构建方法,从移动大数据中将用户的个性化活动信息挖掘并直观展现出来。
本发明的技术方案如下:
一种基于大数据的用户个性化活动图谱构建方法,其特征在于包括以下步骤:
(1)数据采集:利用电信运营商的信令数据,在一个时间段内,对一个用户群中每个用户IMSI识别号所在的基站扇区位置、进出扇区时间信息进行采集,并进行数据清洗;
(2)数据预处理:对进出基站缺失信令进行插值补偿;
(3)匹配每个基站对应的经纬度坐标,基于坐标系转换公式将经纬度数据栅格化,得到每段驻留区域的栅格化坐标值;
(4)统计每个用户在所有栅格中出现的次数和驻留时长PF,PF按天取均值,并归一化;
(5)统计在对应位置某一群体用户的停留时长或访问频次GF,GF值按人天取均值,并归一化;
(6)将每个用户的PF值与对应的GF值的比值,得到该特定用户的个性化活动权值PF-IGF;
(7)活动图谱构建:将每个用户的PF-IGF值填充至栅格区域中,形成用户的个性化活动图谱。
本发明基于移动轨迹大数据,使用机器学习和数据挖掘算法,可以对用户活动轨迹进行纵向(同一用户在不同区域活动)和横向(不同用户在同一区域活动)两个维度的挖掘分析并得出量化结果,将用户的移动轨迹直观展示出来,从中发现某特定用户经常活动而其他用户并不经常去的区域,从而发现某特定用户不同于其他用户的活动特征。
附图说明
图1是本发明的方法流程图。
具体实施方式
本发明设计了三个参数PF、GF及IGF,其中PF(Person Frequency)表示某个特定手机用户在某个时空位置的停留时长或访问频次,PF值越大代表着该手机用户在某个特定的区域内的停留时间或访问频次越大,反之,表示停留时间或访问频次越小;GF(GroupFrequency)表示在上述特定用户活动区域内,其他手机用户(一个群体)的停留时长或访问频次,GF值越大表示在该区域中的其他手机用户的平均停留时间或访问频次越大,反之,平均停留时间或访问频次越小;IGF(Inverse Group Frequency)则是PF与GF的比值,PF越大、GF越小,则IGF值越大。IGF可以发现某特定用户经常访问特定时空位置,同时其他用户并未如此热衷该区域,从而体现该用户的个性化行为特征。换言之,某人在某位置的PF-IGF高,则表示该位置可以相当程度地“代表”或“刻画”该用户的行为轨迹特征。
图1是本发明的实现方法流程图。具体过程如下:
(1)数据采集:利用电信运营商的信令数据,在一个时间段内,对一个用户群中的每个用户IMSI识别号在一定时间段内所在的基站位置、进出基站时间信息进行采集,并进行数据清洗。通过数据清洗,删除重复信息、纠正存在的错误,并提供数据一致性。
上述时间段,可以天为单位,采集一天(24小时)的数据。也可以更长时间段如一周、或更短时间段如1小时为计时单位。
所述的用户群,可以任意选定,是选定研究范围内的一个移动用户群体。
通过数据清洗,删除重复信息、纠正存在的错误,并提供数据一致性。
(2)数据预处理:对进出基站缺失信令进行插值补偿。
为保证数据的完整性,如果用户在统计时间段内只有进入某扇区时间而没有离开该扇区时间,或者只有离开某扇区时间而没有进入该扇区时间,则需要对缺失数据进行插补,插补时间点是该统计时间段的起始时间和结束时间。
例如A用户在5月1日23:00:00进入扇区X,在5月2日7:00:00离开扇区X,且A用户进入扇区Y的时间为5月2日23:00:00,而离开的时间为5月3日的7:00:00,当采集5月2日A用户的信息时将缺失进入扇区X的时间点和离开扇区Y的时间点,因此需要插补进入扇区X的时间为5月2日的00:00:00,离开扇区Y的时间点为5月2日23:59:59。
(3)匹配每个基站对应的经纬度坐标,基于坐标系转换公式将经纬度数据栅格化,得到每段驻留区域的栅格化坐标值。
在手机信令背景下可以直接使用基站LAC-CI作为时空位置,那么反映的是一个带有特定朝向和宽度的扇区区域,使用栅格化坐标值可以直观反映每个区域的具体位置。
(4)统计每个用户在每个栅格中出现的次数和驻留时长PF,PF按天取均值;
(5)统计所述群体所有用户在每个栅格中的停留时长或访问频次GF,GF值按人天取均值;
(6)将每个用户的PF值与所述GF值归一化,计算PF与GF的比值,得到该特定用户的个性化活动权值PF-IGF;
(7)活动图谱构建:将每个用户的PF-IGF值填充至栅格区域中,从而形成用户的个性化活动图谱。
以下通过一个具体实施例对本发明的方法进一步说明。
假设我们选定了15个手机用户作为一个研究群体,分别为imsi1到imsi15。利用电信运营商的信令数据,得到每个用户在一天(24小时)内,在lacci1至lacci5五个基站中每个基站的进出时间或驻留时长;
上述数据中,有可能只有某用户进入某个基站的时间而没有离开时间,或只有离开某基站的时间而没有进入该基站的时间,故对缺失数据进行差值补偿。
分别统计用户imsi1在每个基站的出现的次数或驻留时长,得到imsi1在lacci1至lacci5的5个PF值;
分别统计所有15个用户在每个基站出现的总次数或总时长的平均值,得到该群体在lacci1至lacci5的5个GF值;
用imsi1的每个PF值,分别除以对应的每个GF值,得到imsi1对应lacci1至lacci5的5个PF-IGF值。
采用同样的方法,分别计算imsi2到imsi15的PF-IGF值。得到15组PF-IGF值,如下表1所示:
index | lacci1 | lacci2 | lacci3 | lacci4 | lacci5 |
imsi1 | 0.21 | 1.93 | 0.01 | 1.02 | 1.40 |
imsi2 | 0.52 | 0.54 | 1.00 | 1.19 | 0.90 |
imsi3 | 0.35 | 1.52 | 0.37 | 0.24 | 0.29 |
imsi4 | 0.24 | 0.69 | 0.47 | 0.71 | 0.28 |
imsi5 | 1.24 | 0.05 | 0.67 | 1.31 | 1.82 |
imsi6 | 1.96 | 1.40 | 1.11 | 0.38 | 0.65 |
imsi7 | 1.26 | 0.47 | 1.18 | 0.35 | 1.10 |
imsi8 | 0.98 | 0.85 | 0.02 | 0.37 | 0.24 |
imsi9 | 2.23 | 0.21 | 0.50 | 0.64 | 0.25 |
imsi10 | 0.01 | 1.58 | 0.06 | 0.77 | 0.51 |
imsi11 | 0.73 | 0.77 | 0.92 | 0.47 | 0.62 |
imsi12 | 0.91 | 1.61 | 0.07 | 1.64 | 0.40 |
imsi13 | 0.28 | 0.56 | 0.30 | 0.40 | 1.29 |
imsi14 | 1.08 | 0.47 | 0.70 | 1.69 | 0.10 |
imsi15 | 0.56 | 0.89 | 0.57 | 0.12 | 0.71 |
表1:15个手机用户在五个基站的PF-IGF
通过上表可以看出,imsi1在lacci2和lacci5驻留时长或访问频次明显高于大多数用户,表示imsi1对上述两地兴趣较高,而在lacci1驻留时长或访问频次明显低于大多数用户,而对lacci3则几乎没有驻留或访问。同样对其他用户也可以通过上表发现其行为轨迹特征。
Claims (3)
1.一种基于大数据的用户个性化活动图谱构建方法,其特征在于包括以下步骤:
(1)数据采集:利用电信运营商的信令数据,在一个时间段内,对一个用户群中每个用户IMSI识别号所在的基站扇区位置、进出扇区时间信息进行采集,并进行数据清洗;
(2)数据预处理:对进出基站缺失信令进行插值补偿;
(3)匹配每个基站对应的经纬度坐标,基于坐标系转换公式将经纬度数据栅格化,得到每段驻留区域的栅格化坐标值;
(4)统计每个用户在所有栅格中出现的次数和驻留时长PF,PF按天取均值,并归一化;
(5)统计在对应位置某一群体用户的停留时长或访问频次GF,GF值按人天取均值,并归一化;
(6)将每个用户的PF值与对应的GF值的比值,得到该特定用户的个性化活动权值PF-IGF;
(7)活动图谱构建:将每个用户的PF-IGF值填充至栅格区域中,形成用户的个性化活动图谱。
2.根据权利要求1所述的基于大数据的用户个性化活动图谱构建方法,其特征在于:步骤(1)中所述的时间段按天为单位;所述的用户群,是选定研究范围内的多个移动用户。
3.根据权利要求1所述的基于大数据的用户个性化活动图谱构建方法,其特征在于:步骤(2)所述的对进出基站缺失信令进行插值补偿,具体方法是:如果用户在统计时间段内只有进入某扇区的时间而没有离开该扇区的时间,或者只有离开某扇区的时间而没有进入该扇区的时间,则需要对缺失数据进行插补,插补时间点是该统计时间段的起始时间和结束时间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811591612.7A CN111367896A (zh) | 2018-12-25 | 2018-12-25 | 基于大数据的用户个性化活动图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811591612.7A CN111367896A (zh) | 2018-12-25 | 2018-12-25 | 基于大数据的用户个性化活动图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111367896A true CN111367896A (zh) | 2020-07-03 |
Family
ID=71208137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811591612.7A Withdrawn CN111367896A (zh) | 2018-12-25 | 2018-12-25 | 基于大数据的用户个性化活动图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111367896A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112218235A (zh) * | 2020-09-17 | 2021-01-12 | 上海市政工程设计研究总院(集团)有限公司 | 一种基于手机信令数据的市域组团间出行路径识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011253315A (ja) * | 2010-06-01 | 2011-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 滞在目的推定装置、方法及びプログラム |
CN104965913A (zh) * | 2015-07-03 | 2015-10-07 | 重庆邮电大学 | 一种基于gps地理位置数据挖掘的用户分类方法 |
CN107529135A (zh) * | 2016-06-20 | 2017-12-29 | 同济大学 | 基于智能设备数据的用户活动类型判别方法 |
CN108509434A (zh) * | 2017-02-23 | 2018-09-07 | 中国移动通信有限公司研究院 | 一种群体用户的挖掘方法及装置 |
-
2018
- 2018-12-25 CN CN201811591612.7A patent/CN111367896A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011253315A (ja) * | 2010-06-01 | 2011-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 滞在目的推定装置、方法及びプログラム |
CN104965913A (zh) * | 2015-07-03 | 2015-10-07 | 重庆邮电大学 | 一种基于gps地理位置数据挖掘的用户分类方法 |
CN107529135A (zh) * | 2016-06-20 | 2017-12-29 | 同济大学 | 基于智能设备数据的用户活动类型判别方法 |
CN108509434A (zh) * | 2017-02-23 | 2018-09-07 | 中国移动通信有限公司研究院 | 一种群体用户的挖掘方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112218235A (zh) * | 2020-09-17 | 2021-01-12 | 上海市政工程设计研究总院(集团)有限公司 | 一种基于手机信令数据的市域组团间出行路径识别方法 |
CN112218235B (zh) * | 2020-09-17 | 2024-03-08 | 上海市政工程设计研究总院(集团)有限公司 | 一种基于手机信令数据的市域组团间出行路径识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Another tale of two cities: Understanding human activity space using actively tracked cellphone location data | |
CN102682041B (zh) | 用户行为识别设备及方法 | |
CN103116696B (zh) | 基于稀疏采样的手机定位数据的人员常驻地点识别方法 | |
US20170032291A1 (en) | Bus Planning Method Using Mobile Communication Data Mining | |
CN111582948B (zh) | 一种基于手机信令数据与poi兴趣点的个体行为分析方法 | |
Toole et al. | The path most traveled: Travel demand estimation using big data resources | |
CN102332210B (zh) | 基于手机定位数据的实时城市道路交通流数据提取方法 | |
CN104484993B (zh) | 用于交通小区划分的手机信令信息的处理方法 | |
CN110020221B (zh) | 职住分布确认方法、装置、服务器及计算机可读存储介质 | |
CN110572813A (zh) | 一种基于移动大数据的手机用户行为相似度分析方法 | |
CN105513351A (zh) | 一种基于大数据的交通出行特征数据提取方法 | |
CN105354196A (zh) | 信息推送方法和信息推送装置 | |
CN106339716A (zh) | 一种基于加权欧氏距离的移动轨迹相似度匹配方法 | |
CN107194525A (zh) | 一种基于手机信令的城市中心评估方法 | |
CN104239556A (zh) | 基于密度聚类的自适应轨迹预测方法 | |
CN102609616A (zh) | 一种基于手机定位数据的动态人口分布密度检测方法 | |
CN104156489A (zh) | 基于司机轨迹进行司机常驻点挖掘的方法 | |
CN109684373A (zh) | 基于出行和话单数据分析的重点关系人发现方法 | |
WO2014012927A1 (en) | Method and system for traffic estimation | |
CN109034187A (zh) | 一种用户家庭工作地址挖掘流程 | |
CN104765808A (zh) | 一种群体轨迹的挖掘方法及系统 | |
CN105072591A (zh) | 一种基于移动终端的个性化信息推送方法及系统 | |
CN107908636A (zh) | 一种利用社交媒体挖掘人类活动时空模式的方法 | |
CN112738729A (zh) | 一种用手机信令数据判别探亲返乡游客的方法及系统 | |
CN111104468B (zh) | 一种基于语义轨迹推断用户活动的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200703 |
|
WW01 | Invention patent application withdrawn after publication |