CN114501420A - 一种利用手机信令数据识别家庭关系的方法 - Google Patents
一种利用手机信令数据识别家庭关系的方法 Download PDFInfo
- Publication number
- CN114501420A CN114501420A CN202210217274.0A CN202210217274A CN114501420A CN 114501420 A CN114501420 A CN 114501420A CN 202210217274 A CN202210217274 A CN 202210217274A CN 114501420 A CN114501420 A CN 114501420A
- Authority
- CN
- China
- Prior art keywords
- user
- night
- family
- residence
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W8/00—Network data management
- H04W8/18—Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
- H04W8/183—Processing at user equipment or user record carrier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/021—Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/023—Services making use of location information using mutual or relative location information between multiple location based services [LBS] targets or of distance thresholds
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/025—Services making use of location information using location based information parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W64/00—Locating users or terminals or network equipment for network management purposes, e.g. mobility management
- H04W64/003—Locating users or terminals or network equipment for network management purposes, e.g. mobility management locating network equipment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W8/00—Network data management
- H04W8/18—Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
- H04W8/186—Processing of subscriber group data
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
一种利用手机信令数据识别家庭关系的方法属于交通运输领域。家庭数据往往通过人工手段获取,存在调查周期长、调查范围小和耗费巨大等缺点。本发明根据手机信令数据识别出用户的居住地,并计算用户间的居住地距离,当两用户居住地间距离满足阈值条件时,对用户间的通话特征进行提取,包括夜间居住地相同的天数、通话天数、夜间通话频率和晚高峰通话频率等;根据夜间居住地相同的天数和通话天数两个指标,利用决策树初步将用户间关系分为两个类别:非家庭关系和可能存在家庭关系两大类;基于可能存在家庭关系的群体和少量已知关系的用户间的通话特征,利用KNN方法进一步判断该群体中用户间的关系。本发明可准确推测手机用户间的家庭关系。
Description
技术领域
本发明属于交通运输技术领域。利用手机信令数据准确推算手机用户之间的家庭关系,可进一步用于通勤空间特征、出行规律分析等。
背景技术
家庭是分析交通出行规律或通勤空间特征的重要单元结构,该数据往往通过人口普查或交通出行调查等人工手段获取,如居民出行调查。人工调查内容虽较为全面,但存在调查周期长、调查范围小和耗费巨大资源等缺点,尤其疫情期间,该方式存在重大安全风险。
手机信令数据是用户对外通信时,手机与附近的基站进行连接产生的数据,它具有时间上连续、空间上完整、覆盖范围广、细粒度高等优势,弥补了人工调查中周期长、调查范围小等缺陷,采用手机信令数据进行解析,获取信令数据中用户间家庭关系,为职住空间特征分析、城市规划方案的制定提供依据。手机信令数据包含用户唯一标识码、时间戳、基站编号、经度、纬度和通话对象等信息,如表1所示。
表1:手机信令数据信息
发明内容
本发明提出一种利用手机信令数据准确识别家庭关系的方法,家庭关系的识别可弥补人口普查以及交通调查方式中周期长的缺陷,同时该家庭关系可支持城市通勤空间特征分析等,为城市的发展规划提供依据。
具体实现方法如下:
定义待计算的全部手机信令数据集为U={U1,U2…Ui},Ui表示用户i的手机信令数据集,Ui={ui,1,ui,2…ui,j},ui,j表示用户i的第j条手机信令数据,ui,j={U_IDi,Ti,j,LONi,j,LATi,j,AREAi,j,CUi,j},其中,U_IDi、Ti,j、LONi,j、LATi,j、AREAi,j、CUi,j分别表示用户i第j条手机信令数据的用户唯一标识码、数据产生的时间戳、通讯基站经度、通讯基站纬度、基站所属交通小区和通讯对象编码。
具体步骤如下:
步骤1:数据预处理:定义夜间时段为当日20:00:00—23:59:59和次日00:00:00—7:00:00,对用户Ui的信令数据按事件发生时间先后排序,提取Ti,j在夜间范围内的数据记录,根据定义的夜间序列,根据用户信令数据的时间将数据与相应的夜间时段对应,构建夜间数据集合B={Bi,1,Bi,2…Bi,m},Bi,m表示在第m个夜间时段用户Ui的手机信令数据构成的集合;
步骤2:居住地位置识别:计算用户Ui的夜间居住地,以B为对象,第m个夜间内,用户连接基站所属交通小区AREAi,j的停留时长,一定周期内,通过对相同基站所属交通小区的夜间停留时间进行累加,选取停留时长最大的基站所属交通小区,作为用户Ui的居住地,记为 和分别代表居住地的经度和纬度,即夜间停留时长最大的基站所属交通小区的质心坐标;
步骤3:居住地距离比较:分别对其余所有用户Q={Q1,Q2,...,Qn},i≠n,n为自然数,且n>0,进行居住地判断,即循环步骤1和步骤2中操作,并分别计算集合Q与用户Ui的居住地间直线距离其中为用户Qn的居住地位置信息,即用户Qn夜间停留时长最大的基站所属交通小区的质心坐标,取出D中元素小于1KM的用户,形成该用户的数据集Z,同时构建用户对集合其中,v为自然数,且v>0,n为自然数,且n>0,指用户Qv与用户Ui的唯一标识码连接起来的用户对;D中元素大于或等于1KM的用户则认为无家庭关系;
步骤5:利用决策树的分类规则,去除不可能具有家庭关系的用户,根据的特征集合P中的夜间居住地相同的天数和通话天数两个指标进行判断,当两用户的夜间居住地相同的天数为0时,两用户间不可能存在居住上的家庭关系,当夜间居住地相同的天数大于0时,若两用户间在一定周期内的通话天数大于0时,则认为两用户间“可能存在家庭关系”,否则为非家庭关系,基于此,提取出“可能存在家庭关系”的用户对的特征集合,f为自然数,且f>0,v为自然数,且v>0,GfUi指用户对
步骤6:基于KNN算法的家庭关系分类:根据人工样本中已知的家庭用户对和非家庭用户对,利用同样的方法构建用户对特征集合W,同时标定用户对的关系,n为自然数,且n>0,SaHa指用户对Laa指用户对之间的家庭关系标签,对“可能存在家庭关系”的用户对特征集合f为自然数,且f>0,v为自然数,且v>0,进一步使用KNN算法进行分类,过程如下:
(1)首先,计算“可能存在家庭关系”的用户对特征集合f为自然数,且f>0,v为自然数,且v>0,与已知标签的集合W中的之间的欧氏距离,计算公式为构建欧式距离集合E={E1,E2,...,Ea},Ea表示用户对与用户对之间的欧氏距离;
(2)将欧式距离集合E按照距离值的大小进行递增排序;
(3)选取前3个样本,确定前3个样本所在类别出现的频率并输出出现频率最高的类别;
本发明具有以下有益效果:
该发明的基础数据来源于手机信令数据,相对依靠传统的人工调查手段,该方法无须另外布置采集设备,具有覆盖人群范围大、时间上连续和空间上完整的特点,为挖掘家庭关系提供全方位支撑。
附图说明
图1.夜间范围示意图
图2.决策树过程示意图
图3.本方法流程示意图
具体实施方式
下面结合附图对本发明详细描述其具体实施过程。以某地区手机信令数据为例进行说明,如表2。
表2:手机信令数据
具体步骤如下:
步骤1:数据预处理:定义夜间时段为当日20:00:00—23:59:59和次日00:00:00—7:00:00,对用户Ui的信令数据按事件发生时间先后排序,提取Ti,j在夜间范围内的数据记录,根据定义的夜间序列(见附图1),根据用户信令数据的时间将数据与相应的夜间时段对应,构建夜间数据集合B={Bi,1,Bi,2…Bi,m},Bi,m表示在第m个夜间时段用户Ui的手机信令数据构成的集合,以用户U1=“3916”为例,表3展示了第一个夜间时段(B1,1)的手机信令数据集;
表3:夜间手机信令数据
步骤2:居住地位置识别:计算用户Ui的夜间居住地,以B为对
象,第m个夜间内,用户连接基站所属交通小区AREAi,j的停留时长,一定周期内,通过对相同基站所属交通小区的夜间停留时间进行累加,选取停留时长最大的基站所属交通小区,作为用户Ui的居住地,记为 和分别代表居住地的经度和纬度,即夜间停留时长最大的基站所属交通小区的质心坐标,以用户U1=“3916”为例,经计算其停留时长最大的基站所属交通小区(AREA=“4177”)的质心坐标为(即居住地):
步骤3:居住地距离比较:分别对其余所有用户Q={Q1,Q2,...,Qn}i≠n,n为自然数,且n>0,进行居住地判断,即循环步骤1和步骤
2中操作,并分别计算集合Q与用户Ui的居住地间直线距离其中为用户Qn的居住地位置信息,即用户Qn夜间停留时长最大的基站所属交通小区的质心坐标,取出D中元素小于1KM的用户,形成该用户的数据集Z,同时构建用户对集合其中,v为自然数,且v>0,n为自然数,且n>0,指用户Qv与用户Ui的唯一标识码连接起来的用户对,对用户Q2、Q3、Q4,即对U_ID=“1333”、“2924”、“1005”进行居住地判断,经计算用户Q2、Q3、Q4的夜间停留时长最大的基站所属交通小区的质心坐标(即居住地)分别为 经计算Q2与U1之间的直线距离为0.8KM,Q3与U1之间的直线距离为0KM,Q4与U1之间的直线距离为1.9KM,D={0.8,0,1.9},用户对之间的距离不满足条件,因此构建用户对
步骤5:利用决策树的分类规则,去除不可能具有家庭关系的用户,根据决策树规则,当夜间居住地相同的天数等于0时,两用户间为非家庭关系,因此,用户对属于“非家庭关系”一类,同理,用户对属于“可能存在家庭关系”一类,提取出用户对的特征集合,即
(2)将欧式距离集合E按照距离值的大小进行递增排序为E={1.4,3.2,3.6,3.6};
表4特征集合W
最后应说明的是:以上示例仅用以说明本发明而并非限制本发明所描述的技术方案;因此,尽管本说明书参照上述的示例对本发明已进行了详细的说明,但是,本领域的普通技术人员应当理解,仍然可以对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种利用手机信令数据识别家庭关系的方法,其特征在于包括以下步骤:
步骤1:数据预处理:定义夜间时段为当日20:00:00—23:59:59和次日00:00:00—7:00:00,对用户Ui的信令数据按事件发生时间先后排序,提取Ti,j在夜间范围内的数据记录,根据定义的夜间序列,根据用户信令数据的时间将数据与相应的夜间时段对应,构建夜间数据集合B={Bi,1,Bi,2...Bi,m},Bi,m表示在第m个夜间时段用户Ui的手机信令数据构成的集合;
步骤2:居住地位置识别:计算用户Ui的夜间居住地,以B为对象,第m个夜间内,用户连接基站所属交通小区AREAi,j的停留时长,一定周期内,通过对相同基站所属交通小区的夜间停留时间进行累加,选取停留时长最大的基站所属交通小区,作为用户Ui的居住地,记为 和分别代表居住地的经度和纬度,即夜间停留时长最大的基站所属交通小区的质心坐标;
步骤3:居住地距离比较:分别对其余所有用户Q={Q1,Q2,...,Qn},i≠n,n为自然数,且n>0,进行居住地判断,即循环步骤1和步骤2中操作,并分别计算集合Q与用户Ui的居住地间直线距离其中为用户Qn的居住地位置信息,即用户Qn夜间停留时长最大的基站所属交通小区的质心坐标,取出D中元素小于1KM的用户,形成该用户的数据集Z,同时构建用户对集合其中,v为自然数,且v>0,n为自然数,且n>0,指用户Qv与用户Ui的唯一标识码连接起来的用户对;D中元素大于或等于1KM的用户则认为无家庭关系;
步骤5:利用决策树的分类规则,去除不可能具有家庭关系的用户,根据的特征集合P中的夜间居住地相同的天数和通话天数两个指标进行判断,当两用户的夜间居住地相同的天数为0时,两用户间不可能存在居住上的家庭关系,当夜间居住地相同的天数大于0时,若两用户间在一定周期内的通话天数大于0时,则认为两用户间“可能存在家庭关系”,否则为非家庭关系,基于此,提取出“可能存在家庭关系”的用户对的特征集合,f为自然数,且f>0,v为自然数,且v>0,GfUi指用户对
步骤6:基于KNN算法的家庭关系分类:根据人工样本中已知的家庭用户对和非家庭用户对,利用同样的方法构建用户对特征集合W,同时标定用户对的关系,n为自然数,且n>0,SaHa指用户对Laa指用户对之间的家庭关系标签,对“可能存在家庭关系”的用户对特征集合f为自然数,且f>0,v为自然数,且v>0,进一步使用KNN算法进行分类,过程如下:
(1)首先,计算“可能存在家庭关系”的用户对特征集合f为自然数,且f>0,v为自然数,且v>0,与已知标签的集合W中的之间的欧氏距离,计算公式为构建欧式距离集合E={E1,E2,...,Ea},Ea表示用户对与用户对之间的欧氏距离;
(2)将欧式距离集合E按照距离值的大小进行递增排序;
(3)选取前3个样本,确定前3个样本所在类别出现的频率并输出出现频率最高的类别;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210217274.0A CN114501420A (zh) | 2022-03-06 | 2022-03-06 | 一种利用手机信令数据识别家庭关系的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210217274.0A CN114501420A (zh) | 2022-03-06 | 2022-03-06 | 一种利用手机信令数据识别家庭关系的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114501420A true CN114501420A (zh) | 2022-05-13 |
Family
ID=81486818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210217274.0A Pending CN114501420A (zh) | 2022-03-06 | 2022-03-06 | 一种利用手机信令数据识别家庭关系的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114501420A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570184A (zh) * | 2016-11-11 | 2017-04-19 | 同济大学 | 从手机信令数据提取游憩‑居住联系数据集的方法 |
WO2018153292A1 (zh) * | 2017-02-24 | 2018-08-30 | 腾讯科技(深圳)有限公司 | 社交圈子的生成方法、装置及存储介质 |
CN109829497A (zh) * | 2019-01-31 | 2019-05-31 | 清华四川能源互联网研究院 | 一种基于监督学习的台区用户识别及判别方法 |
CN110337059A (zh) * | 2018-03-30 | 2019-10-15 | 中国联合网络通信集团有限公司 | 一种用户家庭关系的分析算法、服务器及网络系统 |
CN114143207A (zh) * | 2020-08-14 | 2022-03-04 | 中国移动通信集团广东有限公司 | 一种家庭用户识别方法和电子设备 |
-
2022
- 2022-03-06 CN CN202210217274.0A patent/CN114501420A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570184A (zh) * | 2016-11-11 | 2017-04-19 | 同济大学 | 从手机信令数据提取游憩‑居住联系数据集的方法 |
WO2018153292A1 (zh) * | 2017-02-24 | 2018-08-30 | 腾讯科技(深圳)有限公司 | 社交圈子的生成方法、装置及存储介质 |
CN110337059A (zh) * | 2018-03-30 | 2019-10-15 | 中国联合网络通信集团有限公司 | 一种用户家庭关系的分析算法、服务器及网络系统 |
CN109829497A (zh) * | 2019-01-31 | 2019-05-31 | 清华四川能源互联网研究院 | 一种基于监督学习的台区用户识别及判别方法 |
CN114143207A (zh) * | 2020-08-14 | 2022-03-04 | 中国移动通信集团广东有限公司 | 一种家庭用户识别方法和电子设备 |
Non-Patent Citations (1)
Title |
---|
李飞成: "基于移动通信交往圈的家庭用户识别研究", 《中国优秀硕士学位论文数据库》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Another tale of two cities: Understanding human activity space using actively tracked cellphone location data | |
CN110245981B (zh) | 一种基于手机信令数据的人群类型识别方法 | |
CN107247938B (zh) | 一种高分辨率遥感影像城市建筑物功能分类的方法 | |
CN111582948B (zh) | 一种基于手机信令数据与poi兴趣点的个体行为分析方法 | |
CN107977673B (zh) | 一种基于大数据的经济活动人口识别方法 | |
CN109495856B (zh) | 一种基于大数据的手机用户类型标记方法 | |
CN111737605A (zh) | 一种基于手机信令数据的出行目的识别方法及装置 | |
CN109189917B (zh) | 一种融合景观和社会特征的城市功能区划分方法及系统 | |
CN105307121B (zh) | 一种信息处理方法及装置 | |
CN111950937A (zh) | 一种基于融合时空轨迹的重点人员风险评估方法 | |
CN112215666A (zh) | 一种基于手机定位数据的不同出行活动目的特征识别方法 | |
CN110351664B (zh) | 基于手机信令的用户活动空间识别方法 | |
CN111294742B (zh) | 基于信令cdr数据识别伴随手机号码的方法与系统 | |
CN106951828B (zh) | 一种基于卫星影像和网络的城市区域功能属性的识别方法 | |
CN111813835A (zh) | 一种基于手机信令和poi数据的公共活动中心识别系统 | |
CN114741612B (zh) | 一种基于大数据的消费习惯分类方法、系统和存储介质 | |
CN112738729B (zh) | 一种用手机信令数据判别探亲返乡游客的方法及系统 | |
CN112001829A (zh) | 一种基于手机信令数据的人口分布判断方法 | |
CN111125285A (zh) | 一种基于物种空间分布关系的动物地理区划方法 | |
CN110472775A (zh) | 一种系列案件疑犯落脚点预测方法 | |
CN113449111A (zh) | 基于时空语义知识迁移的社会治理热点话题自动识别方法 | |
CN112949784B (zh) | 一种居民出行链模型构建方法及居民出行链获取方法 | |
CN113256978A (zh) | 一种城市拥堵地区的诊断方法、系统及储存介质 | |
CN114501420A (zh) | 一种利用手机信令数据识别家庭关系的方法 | |
CN111970685B (zh) | 一种大数据环境下一人多卡识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |