CN111343581B - 一种基于距离的一人多号移动用户识别方法 - Google Patents
一种基于距离的一人多号移动用户识别方法 Download PDFInfo
- Publication number
- CN111343581B CN111343581B CN201811555597.0A CN201811555597A CN111343581B CN 111343581 B CN111343581 B CN 111343581B CN 201811555597 A CN201811555597 A CN 201811555597A CN 111343581 B CN111343581 B CN 111343581B
- Authority
- CN
- China
- Prior art keywords
- imsi
- time point
- distance
- time
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/06—Authentication
Abstract
本发明提供一种基于距离的一人多号移动用户识别方法,利用电信运营商信令数据,对每个IMSI识别号所在的基站位置、进出小区时间信息进行采集并存储;每次读取一个IMSI对,根据基站的经纬度,计算两两IMSI之间的距离;按照时间顺序将采集的原始信令数据转化为运行轨迹的距离,按照距离信息确定IMSI对之间的轨迹相似性,将在一定时间周期内超过一定次数被判断为同一轨迹的IMSI对认定为一人多号。
Description
技术领域
本发明涉及移动通信技术领域,具体涉及一种利用移动通信大数据对一人多号用户进行识别的方法。
背景技术
鉴于统计人口信息的重要性,目前已衍生出很多种间接估计人口信息的方法。比如地区生活必需品消费量的变化来估算人口数量,如用电量法、用水量法、食盐销售量法等。这些方法的缺陷在于获取的数据精度不高,且有一定滞后性,成本也比较高,无法快速准确获取区域人口数据信息。另外基本的人口普查、人口抽查以及少数省市不定时的专题性人口调查,也是获取人口信息的方法。但总体来说,缺乏针对人口信息的快速动态监测的有效方法与方案,这已成为各级政府在进行科学决策和采取应急行动时的主要制约因素之一。同时伴随着我国人口流动日益频繁,城市人口分布及结构正面临重大变迁,而及时掌握人口信息的手段却仍然十分有限。
鉴于当前城市人口调控需求,以及随着移动通信规模的不断扩大以及技术的不断发展,大规模通信数据特别是轨迹数据的存储已实现,因此以移动通信大数据分析为研究手段对城市人口规模及流动情况进行估算已成为可能。统计部门需要运用大数据开展人口数据的动态监测,完善现有的人口监测体系,探索产业调控、功能布局与人口发展之间的关系,并实现定期追踪掌握疏解人口流向,及时预警区域人口变化趋势。相比于传统的研究方法,基于大数据统计及人口监测将具有更高的可信度和准确性。
目前电信运营商在面对日益激烈的市场竞争压力时,不断降低移动通信资费并不断推出新的促销方式,以推动移动用户数量的增长,因此一人多卡甚至一人多机、多运营商现象日益增多,在基于通信大数据进行人口统计和监测的过程中,对一人双(多)卡用户的识别是目前遇到的一类突出问题。而现有的方法和系统中没有有效的手段对多卡用户进行判断识别,会造成一定的统计误差。对这一问题的有效解决,可以大大增加通信大数据进行人口统计的准确性。
发明内容
本发明的目的在于提供一种基于距离的一人多号(卡/机)用户识别方法,解决通信数据中的一人多卡情况影响大数据人口统计分析准确性的问题。
为实现上述目的,本发明采用以下技术方案:
一种基于距离的一人多号移动用户识别方法,其特征在于:
(1)数据采集:利用电信运营商信令数据,对每个IMSI识别号所在的基站位置、进出基站时间点信息进行采集并存储;
(2)数据筛选:每次读取一个IMSI对,设为a IMSI和b IMSI,作为待确定的一人多号对;在一定时间段内,按时间点先后排序,分别得到这两个IMSI的各个时间点以及在各个时间点所对应的基站位置的数据;
(3)距离计算:根据每个具体基站所对应的经纬度,计算两个IMSI在各时间点下的距离,计算方法如下:
(31)先找到a IMSI的一个时间点t,再找到b IMSI在t时间点前的最后一个时间点t1以及在t时间点后的第一个时间点t2;
(32)对应出a IMSI在时间点t所在位置的经纬度,以及b IMSI在时间点t1和t2时的位置经纬度;
(33)分别计算出a IMSI在t时间点和b IMSI在t1时间点时的距离,以及a IMSI在t时间点和b IMSI在t2时间点时的距离,计算公式如下:
Dis1[t]=R*acos(sinpi(y1/180)*sinpi(y2/180)+cospi(y1/180)*cospi(y2/180)*cospi((x1-x2)/180));
公式中R表示地球半径;Dis1[t]表示a IMSI在t时刻与b IMSI在该时刻前的最后一个时间点t1的距离;x1、x2分别表示两个lac-ci的经度,y1、y2分别表示两个lac-ci的纬度,lac-ci表示一个区域中某基站覆盖的小区;
同理可以计算出a IMSI在t时刻与b IMSI在该时刻后的第一个时间点t2的距离Dis2[t];
同时,计算出两个时间差:
Time1[t]=t-t1;Time2[t]=t2-t;
(34)计算a IMSI在t时间点下和b IMSI在t1时间点的距离阈值Disthr1[t]和最大距离Dismax1[t]:
Disthr1[t]=Speedthr*Time1[t];
Dismax1[t]=Speedmax*Time1[t];
这里Speedthr表示速度阈值,设为10公里/小时;Speedmax表示最大速度,设为20公里/小时;
同理,计算出a IMSI在t时间点下和b IMSI在t2时间点的距离阈值Disthr2[t]和最大距离Dismax2[t];
(4)按照上述步骤(3)的方法进行循环计算,分别计算出a IMSI在各个时间点i下与b IMSI最接近的两个时间点的距离Dis1[i]和Dis2[i],以及两个距离阈值Disthr1[i]和Disthr2[i],两个最大距离值Dismax1[i]和Dismax2[i];
(5)根据上述计算得到的距离值、距离阈值、和最大距离值,进行一人多号判断:
(51)如果在任意时间点i,距离Dis1[i]和Dis2[i]分别大于Dismax1[i]和Dismax2[i],则直接判断该对IMSI为非同一轨迹,即非一人多号;否则,进一步按以下步骤(52)进行置信度判断;
(52)如果距离Dis1[i]小于或等于距离阈值Disthr1[i]时,按以下公式计算似然值L1[i]:
L1[i]=1-(Dis1[i]/Disthr1[i])*α;
如果距离Dis1[i]大于距离阈值Disthr1[i],而小于或等于最大距离Dismax1[i]时,则似然值L1[i]按以下公式计算:
L1[i]=(1-α)-(Dis1[i]/Dismax1[i])*0.1;
上述公式中,α为经验值,默认为α=0.6;
同理,计算出似然值L2[i];
计算出一对IMSI在各时间点上似然值的均值;
进一步,设定一个阈值β,β=0.8;
如果一对IMSI在各时间点上的似然值的均值小于阈值β,则认为该对IMSI为非同一轨迹,认定为非一人多号;
如果一对IMSI在各时间点上的似然值的均值大于等于阈值β,则认为该对IMSI在所述的时间段内为同一轨迹;设定一个包含有多个连续的所述时间段的时间周期,如果该对IMSI在该时间周期内有大于设定数量的时间段被判定为同一轨迹,则认定该对IMSI为一人多号。
本发明通过位置间的距离来估算不同的IMSI对之间的轨迹相似性,进而对一人多号现象进行判断,较好的实现了一人多号用户的筛选,对利用通讯大数据进行人口统计和监测的做法提供了有利支持。
具体实施方式
本发明的具体实现方式如下:
(1)数据采集:利用电信运营商信令数据,根据每个IMSI识别号的轨迹数据,对每个IMSI所在的基站位置、进出小区时间信息进行采集并存储。
本发明所采用的数据来自移动运营商的信令数据,包括:用户手机号码-IMSI(国际移动用户识别码:International Mobile Subscriber Identification Number);位置区识别码lac:用于标识不同的位置区;基站编号ci:与位置区识别码(lac)结合,以lac-ci表示一个区域中某基站覆盖的小区;IMSI进入基站的时间、离开该基站的时间;
(2)数据筛选:每次读取一个IMSI对,设为a IMSI和b IMSI,作为待确定的一人多号对;在一定时间段内,按时间点先后排序,分别得到这两个IMSI的各个时间点以及在各个时间点所对应的基站位置的数据;所述的时间段,一般设定为为1天(24小时),所述时间点来自于所使用的轨迹数据。
(3)距离计算:根据每个具体基站所对应的经纬度,计算两个IMSI在各时间点下的距离,计算方法如下:
(31)先找到a IMSI的一个时间点t,再找到b IMSI在t时间点前的最后一个时间点t1以及在t时间点后的第一个时间点t2;
(32)对应出a IMSI在时间点t所在位置的经纬度,以及b IMSI在时间点t1和t2时的位置经纬度;
(33)分别计算出a IMSI在t时间点和b IMSI在t1时间点时的距离,以及a IMSI在t时间点和b IMSI在t2时间点时的距离,计算公式如下:
Dis1[t]=R*acos(sinpi(y1/180)*sinpi(y2/180)+cospi(y1/180)*cospi(y2/180)*cospi((x1-x2)/180));
公式中R表示地球半径;Dis1[t]表示a IMSI在t时刻与b IMSI在该时刻前的最后一个时间点t1的距离;x1、x2分别表示两个lac-ci的经度,y1、y2分别表示两个lac-ci的纬度;
同理可以计算出a IMSI在t时刻与b IMSI在该时刻后的第一个时间点t2的距离Dis2[t];
同时,计算出两个时间差:
Time1[t]=t-t1;Time2[t]=t2-t;
(34)计算a IMSI在t时间点下和b IMSI在t1时间点的距离阈值Disthr1[t]和最大距离Dismax1[t]:
Disthr1[t]=Speedthr*Time1[t];
Dismax1[t]=Speedmax*Time1[t];
这里Speedthr表示速度阈值,设为10公里/小时;Speedmax表示最大速度,设为20公里/小时;
同理,计算出a IMSI在t时间点下和b IMSI在t2时间点的距离阈值Disthr2[t]和最大距离Dismax2[t];
(4)按照上述步骤(3)的方法进行循环计算,分别计算出a IMSI在各个时间点i下与b IMSI最接近的两个时间点的距离Dis1[i]和Dis2[i],以及两个距离阈值Disthr1[i]和Disthr2[i],两个最大距离值Dismax1[i]和Dismax2[i];
(5)根据上述计算得到的距离值、距离阈值、和最大距离值,进行一人多号判断:
(51)如果在任意时间点i,距离Dis1[i]和Dis2[i]分别大于Dismax1[i]和Dismax2[i],则直接判断该对IMSI为非同一轨迹,即非一人多号;否则,进一步按以下步骤(52)进行置信度判断;
(52)如果距离Dis1[i]小于或等于距离阈值Disthr1[i]时,按以下公式计算似然值L1[i]:
L1[i]=1-(Dis1[i]/Disthr1[i])*α;
如果距离Dis1[i]大于距离阈值Disthr1[i],而小于或等于最大距离Dismax1[i]时,则似然值L1[i]按以下公式计算:
L1[i]=(1-α)-(Dis1[i]/Dismax1[i])*0.1;
上述公式中,α为经验值,默认为α=0.6;
同理,计算出似然值L2[i];
计算出一对IMSI在各时间点上似然值的均值;
进一步,设定一个阈值β,根据经验值,β取值为0.8;
如果一对IMSI在各时间点上的似然值的均值小于阈值β,则认为该对IMSI为非同一轨迹,认定为非一人多号;
如果一对IMSI在各时间点上的似然值的均值大于等于阈值β,则认为该对IMSI在所述的时间段内为同一轨迹;设定一个包含有多个连续的所述时间段的时间周期,如果该对IMSI在该时间周期内有大于设定数量的时间段被判定为同一轨迹,则认定该对IMSI为一人多号。
上述时间周期以1个月(30天)为例,所述时间段设定为1天(24小时);如果存在一组IMSI,在该月中超过一定天数(设定为10天以上)被认定为同一轨迹,则该组IMSI可视为一人多号。
Claims (2)
1.一种基于距离的一人多号移动用户识别方法,其特征在于:
(1)数据采集:利用电信运营商信令数据,对每个IMSI识别号所在的基站位置、进出基站时间点信息进行采集并存储;
(2)数据筛选:每次读取一个IMSI对,设为a IMSI和b IMSI,作为待确定的一人多号对;在一定时间段内,按时间点先后排序,分别得到这两个IMSI的各个时间点以及在各个时间点所对应的基站位置的数据;
(3)距离计算:根据每个具体基站所对应的经纬度,计算两个IMSI在各时间点下的距离,计算方法如下:
(31)先找到a IMSI的一个时间点t,再找到b IMSI在t时间点前的最后一个时间点t1以及在t时间点后的第一个时间点t2;
(32)对应出a IMSI在时间点t所在位置的经纬度,以及b IMSI在时间点t1和t2时的位置经纬度;
(33)分别计算出a IMSI在t时间点和b IMSI在t1时间点时的距离,以及a IMSI在t时间点和b IMSI在t2时间点时的距离,计算公式如下:
Dis1[t]=R*acos(sinpi(y1/180)*sinpi(y2/180)+cospi(y1/180)*cospi(y2/180)*cosp i((x1-x2)/180));
公式中R表示地球半径;Dis1[t]表示aIMSI在t时刻与b IMSI在该时刻前的最后一个时间点t1的距离;x1、x2分别表示两个lac-ci的经度,y1、y2分别表示两个lac-ci的纬度,lac-ci表示一个区域中某基站覆盖的小区;
同理可以计算出a IMSI在t时刻与b IMSI在该时刻后的第一个时间点t2的距离Dis2[t];
同时,计算出两个时间差:
Time1[t]=t-t1;Time2[t]=t2-t;
(34)计算a IMSI在t时间点下和b IMSI在t1时间点的距离阈值Disthr1[t]和最大距离Dismax1[t]:
Disthr1[t]=Speedthr*Time1[t];
Dismax1[t]=Speedmax*Time1[t];
这里Speedthr表示速度阈值,设为10公里/小时;Speedmax表示最大速度,设为20公里/小时;
同理,计算出a IMSI在t时间点下和b IMSI在t2时间点的距离阈值Disthr2[t]和最大距离Dismax2[t];
(4)按照上述步骤(3)的方法进行循环计算,分别计算出a IMSI在各个时间点i下与bIMSI最接近的两个时间点的距离Dis1[i]和Dis2[i],以及两个距离阈值Disthr1[i]和Disthr2[i],两个最大距离值Dismax1[i]和Dismax2[i];
(5)根据上述计算得到的距离值、距离阈值、和最大距离值,进行一人多号判断:
(51)如果在任意时间点i,距离Dis1[i]和Dis2[i]分别大于Dismax1[i]和Dismax2[i],则直接判断该对IMSI为非同一轨迹,即非一人多号;否则,进一步按以下步骤(52)进行置信度判断;
(52)如果距离Dis1[i]小于或等于距离阈值Disthr1[i]时,按以下公式计算似然值L1[i]:
L1[i]=1-(Dis1[i]/Disthr1[i])*α;
如果距离Dis1[i]大于距离阈值Disthr1[i],而小于或等于最大距离Dismax1[i]时,则似然值L1[i]按以下公式计算:
L1[i]=(1-α)-(Dis1[i]/Dismax1[i])*0.1;
上述公式中,α为经验值,默认为α=0.6;
同理,计算出似然值L2[i];
计算出一对IMSI在各时间点上似然值的均值;
进一步,设定一个阈值β,β=0.8;
如果一对IMSI在各时间点上的似然值的均值小于阈值β,则认为该对IMSI为非同一轨迹,认定为非一人多号;
如果一对IMSI在各时间点上的似然值的均值大于等于阈值β,则认为该对IMSI在所述的时间段内为同一轨迹;设定一个包含有多个连续的所述时间段的时间周期,如果该对IMSI在一个时间周期内有大于设定数量的时间段被判定为同一轨迹,则认定该对IMSI为一人多号。
2.根据权利要求1所述的基于距离的一人多号移动用户识别方法,其特征在于:步骤(2)中所述的时间段,具体为24小时;步骤(52)中所述的时间周期为30天,一对IMSI在一个时间周期内有大于设定数量的时间段被判定为同一轨迹,则认定该对IMSI为一人多号,具体是指一对IMSI在30天内被判定为同一轨迹的天数大于10天,则认定该对IMSI为一人多号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811555597.0A CN111343581B (zh) | 2018-12-18 | 2018-12-18 | 一种基于距离的一人多号移动用户识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811555597.0A CN111343581B (zh) | 2018-12-18 | 2018-12-18 | 一种基于距离的一人多号移动用户识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111343581A CN111343581A (zh) | 2020-06-26 |
CN111343581B true CN111343581B (zh) | 2021-12-14 |
Family
ID=71186834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811555597.0A Active CN111343581B (zh) | 2018-12-18 | 2018-12-18 | 一种基于距离的一人多号移动用户识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111343581B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114071347B (zh) * | 2020-07-28 | 2024-04-09 | 中移(苏州)软件技术有限公司 | 一种多信令轨迹的时空匹配方法及装置 |
CN112040413B (zh) * | 2020-08-06 | 2023-06-20 | 杭州数梦工场科技有限公司 | 用户轨迹计算方法、装置及电子设备 |
CN111970685B (zh) * | 2020-10-23 | 2021-01-15 | 上海世脉信息科技有限公司 | 一种大数据环境下一人多卡识别方法 |
CN115915103A (zh) * | 2022-11-10 | 2023-04-04 | 中国联合网络通信集团有限公司 | 识别双卡槽终端双卡状态的方法、装置、设备及介质 |
CN116056067B (zh) * | 2023-01-09 | 2024-04-19 | 中国联合网络通信集团有限公司 | 一种终端识别方法、装置、服务器及存储介质 |
CN117150319A (zh) * | 2023-10-30 | 2023-12-01 | 北京艾瑞数智科技有限公司 | 一种一人多号的识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103841550A (zh) * | 2012-11-21 | 2014-06-04 | 中国移动通信集团吉林有限公司 | 一种识别一人多卡用户的方法及装置 |
CN104504771A (zh) * | 2015-01-01 | 2015-04-08 | 河北联合大学 | 学生自由跑步监督系统及方法 |
EP3142393A1 (en) * | 2015-09-14 | 2017-03-15 | BASE Company | Method and system for obtaining demographic information |
CN108322891A (zh) * | 2018-01-11 | 2018-07-24 | 江苏欣网视讯软件技术有限公司 | 基于用户手机信令数据的区域拥堵识别方法 |
-
2018
- 2018-12-18 CN CN201811555597.0A patent/CN111343581B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103841550A (zh) * | 2012-11-21 | 2014-06-04 | 中国移动通信集团吉林有限公司 | 一种识别一人多卡用户的方法及装置 |
CN104504771A (zh) * | 2015-01-01 | 2015-04-08 | 河北联合大学 | 学生自由跑步监督系统及方法 |
EP3142393A1 (en) * | 2015-09-14 | 2017-03-15 | BASE Company | Method and system for obtaining demographic information |
CN108322891A (zh) * | 2018-01-11 | 2018-07-24 | 江苏欣网视讯软件技术有限公司 | 基于用户手机信令数据的区域拥堵识别方法 |
Non-Patent Citations (1)
Title |
---|
人口的时空分布模拟及其在灾害与风险管理中的应用;梁亚婷等;《灾害学》;20151020;第30卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111343581A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111343581B (zh) | 一种基于距离的一人多号移动用户识别方法 | |
CN111436017B (zh) | 一种基于聚类算法的手机用户一人多卡识别方法 | |
CN107040894B (zh) | 一种基于手机信令数据的居民出行od获取方法 | |
CN108322891B (zh) | 基于用户手机信令的交通区域拥堵识别方法 | |
CN110245981B (zh) | 一种基于手机信令数据的人群类型识别方法 | |
CN107045673B (zh) | 基于堆模型融合的公共自行车流量变化量预测方法 | |
CN106878951B (zh) | 用户轨迹分析方法及系统 | |
CN106912015B (zh) | 一种基于移动网络数据的人员出行链识别方法 | |
CN106931974B (zh) | 基于移动终端gps定位数据记录计算个人通勤距离的方法 | |
CN111681421B (zh) | 基于手机信令数据的对外客运枢纽集疏空间分布分析方法 | |
CN108415975B (zh) | 基于bdch-dbscan的出租车载客热点识别方法 | |
CN107018493A (zh) | 一种基于连续时序马尔科夫模型的地理位置预测方法 | |
CN111653099B (zh) | 基于手机信令数据的公交客流od获取方法 | |
CN105682025A (zh) | 基于移动信令数据的用户驻留地识别方法 | |
CN106339716A (zh) | 一种基于加权欧氏距离的移动轨迹相似度匹配方法 | |
CN109272032A (zh) | 出行方式识别方法、装置、计算机设备和存储介质 | |
CN110598917B (zh) | 一种基于路径轨迹的目的地预测方法、系统及存储介质 | |
CN114486764B (zh) | 基于全光谱水质分析仪的农业面源污染监测系统 | |
CN110727714A (zh) | 融合时空聚类和支持向量机的居民出行特征提取方法 | |
CN109034187A (zh) | 一种用户家庭工作地址挖掘流程 | |
CN109992605A (zh) | 基于手机信令数据的人口识别方法及系统 | |
CN106339769A (zh) | 一种面向移动社会网络的用户出行预测方法 | |
CN110460962A (zh) | 轨道交通用户识别方法和装置 | |
CN111417075B (zh) | 一种基于移动通信大数据的用户工作地识别方法 | |
CN112637781B (zh) | 一种基于基站轨迹的用户通行方式判别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A distance based mobile user identification method for one person with multiple numbers Effective date of registration: 20220408 Granted publication date: 20211214 Pledgee: Haidian Beijing science and technology enterprise financing Company limited by guarantee Pledgor: Beijing Finance Union Technology Co.,Ltd. Registration number: Y2022110000079 |