CN112073971A - 基于话单的伪基站轨迹追踪方法及装置 - Google Patents
基于话单的伪基站轨迹追踪方法及装置 Download PDFInfo
- Publication number
- CN112073971A CN112073971A CN202010971124.XA CN202010971124A CN112073971A CN 112073971 A CN112073971 A CN 112073971A CN 202010971124 A CN202010971124 A CN 202010971124A CN 112073971 A CN112073971 A CN 112073971A
- Authority
- CN
- China
- Prior art keywords
- base station
- pseudo base
- pseudo
- ticket
- influenced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000000638 solvent extraction Methods 0.000 claims abstract description 8
- 238000005192 partition Methods 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 18
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 206010010947 Coordination abnormal Diseases 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W64/00—Locating users or terminals or network equipment for network management purposes, e.g. mobility management
- H04W64/003—Locating users or terminals or network equipment for network management purposes, e.g. mobility management locating network equipment
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
基于话单的伪基站轨迹追踪装置涉及信息技术领域,本发明由由数据采集分类模块集合和伪基站实时追踪模块集合两部分组成;数据采集分类模块集合由话单清洗器、特征数据提取器、受伪基站影响的正规基站信息存储器、密度聚类算法模块、受伪基站影响的正规基站分区模块和伪基站轨迹模型库组成;伪基站实时追踪模块集合由时间片段聚类器、伪基站位置计算器和伪基站轨迹点去噪引擎组成。本发明提高了伪基站轨迹的实时性和准确性,具备海量数据分析能力。
Description
技术领域
本发明涉及信息技术领域,特别涉及到数据处理在移动通信领域的安全应用。
背景技术
随着手机等移动终端的普及,移动互联网的快速发展,人们时时刻刻都在使用移动终端进行通话、发短信等行为。然而移动终端在给人们带来便利的同时,伴随而来的是日益猖獗的骚扰电话、广告、诈骗短信等违法信息,严重影响了人们的正常工作和生活,甚至给用户带来了经济损失。其中骚扰严重以及安全风险较大的是伪基站。
伪基站:当前实施电信诈骗手段中常用到的一种高科技设备。伪基站能够搜取以其为中心、一定半径范围内的手机卡信息,并任意冒用他人手机号码强行向用户手机发送诈骗、广告推销等短信息,从而达到发送者想达到的目的。
伪基站的主要特点包括:
伪基站设备启动:首先通过加大发射功率等手段,干扰和屏蔽一定范围内的运营商信号;手机用户的信号被伪基站屏蔽后,手机会发送自动搜索周围基站的信号,此信号被伪基站的信令监测系统获取后,伪基站能够根据获取的号码的IMSI等信息并根据这些信息向目标用户下发想要发送的短信。
伪基站设备运行的特点:有效范围内用户手机的信号将被强制连接到该设备上,导致手机短时期无法正常使用运营商提供的服务,手机用户一般会暂时脱网8~12秒后恢复正常,部分手机则必须开关机才能重新入网。此外,它还会导致手机用户频繁地更新位置,使得该区域的无线网络资源紧张并出现网络拥塞现象,影响用户的正常通信。
伪基站伪装:能把发送号码显示为任意的号码,既可以是一个看着很正常的手机号,也可以是“110”、“10086”、“95533”这样的我们熟知的特服号,还可以是“106XXXXXX”这样的端口号,或者是邮箱,带有很强的欺骗性,使手机用户误以为真的是公安、银行等单位发来的短信。据公安部相关负责人介绍,如果被别有用心的组织或个人利用,冒用公众服务号码或权威部门名义编造发送虚假信息,造成的社会影响难以估量。
伪基站隐蔽性:伪基站发送信息具有极强的隐蔽性和极强的流动性。为了躲避执法部门的执法,发送人员经常将伪基站设备放置在汽车内,只需驾车缓慢行驶或将车停在特定区域,就可以实施短信诈骗或广告推销。载有伪基站的交通工具在速度不高于60千米每小时的情况下,都可以正常工作。
伪基站易购买,伪基站设备生产极为简单,主要由一套主机和控制用的笔记本电脑组成。据深圳无线电管理委员会工作人员介绍,这些零件在深圳大小电子元器件市场都有,“只要懂技术就可以组装,最基础的成本可能只要几千元钱。”在淘宝网上,一台简易的伪基站设备价格约需5万元。
伪基站难跟踪:由于操作伪基站的人员,都是通过背包或者车,实时移动,以及不定时的开机,给公安等部门的打击带来了相当大的困难。
目前跟踪伪基站的轨迹方法主要有人工举报、传统的数据分析。人工举报:当人们接受到垃圾短信、骚扰电话、广告的时候,人为的将这些信息通过网站举报或者通过电话举报的方式将信息上报到有关部门,再由有关部门进行处置。由于伪基站时有时无,位置实时变动;人工上报的延时等,因此该方法追踪轨迹效率不高。
传统数据分析:传统数据分析是基于小批量的异常数据进行数据判别,使用的技术比较传统,而伪基站的数据往往存在于海量的话单数据中,因此传统技术不能对海量数据进行实时分析。针对现有技术对伪基站发现和跟踪延时严重,效率低下,准确度低的特点。提出本发明的基于话单的伪基站轨迹追踪方法及装置,通过对话单数据的采集和聚类,将受到伪基站影响的正规基站进行分区,再根据受伪基站影响的基站的分区对伪基站进行类型定义并给出所定义类型的伪基站的轨迹模型,然后通过对话单的实时处理采取时间片段聚类的方法计算时间片段内被伪基站影响的正规基站,通过时间片段内被伪基站影响的正规基站定位伪基站的类型引入伪基站轨迹模型,在伪基站轨迹模型中计算伪基站的位置,最后通过伪基站轨迹点去噪引擎去除伪基站轨迹的噪音点,本发明提高了伪基站轨迹的实时性和准确性,具备海量数据分析能力。
现有技术说明
CDR话单:通信术语,指原始通信记录信息,又可以称之为详单、CDR“Call DetailRecord”呼叫详细记录。
CDR话单的主要字段包括:
Time of call connection,RRC连接时的时间,格式:yyyy年mm月dd日hh时mm分ss秒;
Call Setup Time per sections,呼叫建立时长;
Call Type呼叫类型,取值范围[0..7]:
0,EMERGENCY,紧急呼叫;
1,HIGH_PRIORITY_ACCESS,高优先级接入;
2,MT_ACCESS;被叫接入,如响应寻呼;
3,MO_SIGNALLING,发送信令,如附着、位置更新、随机接入等;
4,MO_DATA,移动始端数据,上行有需要传送时,如发生视频、图片;
5,DELAY_TOLERANT_ACCESS,R10中新增原因,延迟容忍接入;
6,备用;
7,备用;
Call Release Cause呼叫释放原因,记录呼叫失败的原因:
RRC Cause:
[RRC_SETUP_FAILURE_REJ,RRC_SETUP_FAILURE_TIMEOUT];
UE_CONTEXT Cause:
main reason主要原因:
1,无线原因:弱覆盖,重叠覆盖,干扰,恶劣的无线环境;
2,传输原因:查看是否存在S1链路告警,查看目标小区的所在的核心网IP地址是多少,然后拿目标基站ENBID来对核心网做PING包测试,查看该目标小区的时延和丢包率是否异常(一般情况下平均时延一定要低于8ms,且不能有丢包现象,误块率不得超过10%)如果异常则肯定是传输方面出现了问题;
3,enNas:NAS_LAYER NAS层;
4,enProtcl:PROTO_LAYER;
5,enMisc:MISC_LAYER;
detail reason:
enRadioNw
0,UNSPECIFIED;
1,TX2RELOCOVERALL_EXPIRY;
2,SUCCESSFUL_HANDOVER:切换成功;
3,RELEASE_DUE_TO_E-UTRAN_GENERATED_REASON:由于E-UTRAN的释放产生的原因;
4,HANDOVER_CANCELLED:切换取消;
5,PARTIAL_HANDOVER:路径切换转移;
6,HANDOVER_FAILURE_IN_TARGET_EPC/ENB_OR_TARGET_SYSTEM:源基站向目标基站或者目标系统切换失败.造成源小区向目标小区切换失败主要有以下几种原因:
基站是否存在故障,邻区是否存在漏配,参数配置是否合理,如系统内的A3,A4,A5门限设置是否合理,系统间的B1,B2设置是否合理,小区个体偏移CIO等参数设置是否合理;PCI规划是否合理,宏站3公里范围内不得存在相同的PCI否则会造成PCI混淆,如果是异厂家需要核查;基站是否存在干扰.目标小区是否异常,如目标小区是否存在告警或者已经负荷,拥塞,传输闪断等;无线参数配置是否与核心网参数配置相同,举例:无线地面参数配置的TAC与核心网配置的TAC一定要一直,否则无法切换入成功;
7,HANDOVER_TARGET_NOT_ALLOWED:目标小区不被允许切换入,目标小区可能存在拥塞,闪断,或者基站级CPU负荷告警,核查周边小区与源小区是否存在相同的PCI,无线侧参数可能设置出现问题,切换关系是否设置为禁止切换。
DBSCAN,Density-Based Spatial Clustering of Applications with Noise是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
DBSCAN中的几个定义:
E邻域:给定对象半径为E内的区域称为该对象的E邻域;
核心对象:如果给定对象E邻域内的样本点数大于等于MinPts,则称该对象为核心对象;直接密度可达:对于样本集合D,如果样本点q在p的E邻域内,并且p为核心对象,那么对象q从对象p直接密度可达;
密度可达:对于样本集合D,给定一串样本点p1,p2…pn,p=p1,q=pn,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达;
密度相连:存在样本集合D中的一点o,如果对象o到对象p和对象q都是密度可达的,那么p和q密度相联;可以发现,密度可达是直接密度可达的传递闭包,并且这种关系是非对称的。密度相连是对称关系。DBSCAN目的是找到密度相连对象的最大集合;
Eg:假设半径E=3,MinPts=3,点p的E邻域中有点{m,p,p1,p2,o},点m的E邻域中有点{m,q,p,m1,m2},点q的E邻域中有点{q,m},点o的E邻域中有点{o,p,s},点s的E邻域中有点{o,s,s1};那么核心对象有p,m,o,s;q不是核心对象,因为它对应的E邻域中点数量等于2,小于MinPts=3;点m从点p直接密度可达,因为m在p的E邻域内,并且p为核心对象;点q从点p密度可达,因为点q从点m直接密度可达,并且点m从点p直接密度可达;点q到点s密度相连,因为点q从点p密度可达,并且s从点p密度可达。
发明内容
鉴于现有技术的不足,本发明提供的基于话单的伪基站轨迹追踪方法及装置由数据采集分类模块集合和伪基站实时追踪模块集合两部分组成;数据采集分类模块集合由话单清洗器、特征数据提取器、受伪基站影响的正规基站信息存储器、密度聚类算法模块、受伪基站影响的正规基站分区模块和伪基站轨迹模型库组成;伪基站实时追踪模块集合由时间片段聚类器、伪基站位置计算器和伪基站轨迹点去噪引擎组成;
话单清洗器负责读取CDR话单并过滤并删除CDR话单中格式内容出错的话单,判断格式内容出错的标准包括:CDR话单中时间格式不对为格式内容出错的CDR话单,CDR话单中有不该存在的字符为格式内容出错的CDR话单,CDR话单中出现与字段应有内容不符的字段内容时为格式内容出错的CDR话单,CDR话单中核心字段值为空的CDR话单为格式内容出错的CDR话单,CDR话单中特殊字段中只含数字却出现中英文编码的CDR话单为格式内容出错的CDR话单;话单清洗器负责去除重复的CDR话单;话单清洗器负责去除地域值出错的CDR话单;经过话单清洗器处理过的话单传送给特征数据提取器;
特征数据提取器负责提取受到伪基站影响的话单,通过受到伪基站影响的话单确定受到伪基站影响的正常基站;提取受到伪基站影响的话单的方法包括:
当CDR话单中的号码在已经掌握的伪基站异常号码库中时,判断该CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器进行存储;伪基站异常号码库为本发明的装置长期积累的伪基站异常号码的集合;
当CDR话单中的网络类型为正常网络类型之外的类型时,判断该CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器进行存储;
正常网络类型包括:移动GSM:0x1;联通GSM:0x2;电信CDMA1x:0x3;移动TD-SCDMA:0x4;联通WCDMA:0x5;电信CDMA2000:0x6;电信CDMA2000分组域:0x07;移动LTE:0x08;联通LTE:0x09;电信LTE:0x0a;
当CDR话单中小区位置信息不合规时,判断该CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器进行存储;小区位置信息不合规的判断规则包括:规则1,源LAC与目标LAC值一样,则正常位置更新异常,判断小区位置信息不合规;规则2,源LAC值不是当地LAC,判断小区位置信息不合规;规则3,源LAC不是相邻区域的LAC值,判断小区位置信息不合规;规则4,源LAC值为65534,判断小区位置信息不合规;
当CDR话单中位置更新不合规时,判断该CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器进行存储;判断位置更新不合规的方法包括:计算第一个5分钟内,单基站出现了N次以上的位置更新话单数据,监测第二个5分钟内到第四个5分钟内单基站共出现的位置更新话单数据为M次,当M小于等于N的20分之1时,则认为该位置的基站信息受到了伪基站的干扰,则判断单基站第一个5分钟内的CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器进行存储;
受伪基站影响的正规基站信息存储器负责存储所有正规基站的位置信息和编码,受伪基站影响的正规基站信息存储器将收到的受伪基站影响的话单与正规基站的位置信息和编码进行基站信息匹配,对基站编码匹配正规基站的受伪基站影响的话单进行基站位置信息的矫正,生成矫正后的受伪基站影响的话单;受伪基站影响的正规基站信息存储器对基站编码不能匹配正规基站的受伪基站影响的话单进行舍弃;受伪基站影响的正规基站信息存储器将矫正后的受伪基站影响的话单发送给密度聚类算法模块;
密度聚类算法模块负责将收到的矫正后的受伪基站影响的话单中的基站编码和位置信息输入DBSCAN密度聚类算法,生成聚类簇;DBSCAN密度聚类算法具体为:输入样本集D=(x1,x2,...,xm)(x1,x2,...,xm),邻域参数(∈,MinPts)(∈,MinPts),样本距离度量方式,输出:
簇划分C;
步骤2,对于j=1,2,...m,按下面的步骤找出所有的核心对象:
1)通过距离度量方式,找到样本xjxj的∈∈-邻域子样本集N∈(xj)N∈(xj);
2)如果子样本集样本个数满足|N∈(xj)|≥MinPts|N∈(xj)|≥MinPts,将样本xjxj加入核心对象样本集合:Ω=Ω∪{xj}Ω=Ω∪{xj};
步骤4,在核心对象集合ΩΩ中,随机选择一个核心对象oo,初始化当前簇核心对象队列Ωcur={o}Ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合Ck={o}Ck={o},更新未访问样本集合Γ=Γ-{o}Γ=Γ-{o};
步骤6,在当前簇核心对象队列ΩcurΩcur中取出一个核心对象o′o′,通过邻域距离阈值∈∈找出所有的∈∈-邻域子样本集N∈(o′)N∈(o′),令Δ=N∈(o′)∩ΓΔ=N∈(o′)∩Γ,更新当前簇样本集合Ck=Ck∪ΔCk=Ck∪Δ,更新未访问样本集合Γ=Γ-ΔΓ=Γ-Δ,更新Ωcur=Ωcur∪(Δ∩Ω)-o′Ωcur=Ωcur∪(Δ∩Ω)-o′,转入步骤5;
输出结果为:簇划分C={C1,C2,...,Ck}{C1,C2,...,Ck};
受伪基站影响的正规基站分区模块将密度聚类算法模块生成的每个聚类簇划分为一个单独的受伪基站影响的正规基站分区,每个单独的受伪基站影响的正规基站分区包括该分区的所有正规基站的编码和位置信息;
伪基站轨迹模型库根据每个单独的受伪基站影响的正规基站分区定义一个不重复的伪基站轨迹编号,用伪基站轨迹编号标示单独的受伪基站影响的正规基站分区生成伪基站轨迹模型,将所有具备伪基站轨迹编号的单独的受伪基站影响的正规基站分区生成伪基站轨迹模型库;由特征数据提取器将实时提取到的受到伪基站影响的话单发送给时间片段聚类器,由时间片段聚类器提取时间片段内的受到伪基站影响的话单中的基站编码和基站位置信息生成时间片段聚类信息,并将时间片段聚类信息发送给伪基站位置计算器;
伪基站位置计算器将时间片段聚类信息在伪基站轨迹模型库中通过基站编码进行查询匹配,当时间片段聚类信息中的基站编码被伪基站轨迹模型库中的特定伪基站轨迹模型中的基站编码全包含时,使用该特定伪基站轨迹模型进行伪基站定位的背景模型;伪基站位置计算器根据时间片段聚类信息中的受伪基站影响的话单中的正常基站位置计算伪基站的位置,算法如下:已知两点经纬度,求取两点距离,当距离不远时,可用平面近似算法;设经度为a度,纬度为b度,A点经纬度为A=(a1,b1),B点经纬度为B=(a2,b2),则AB两点沿东西方向上的距离为:
AB两点沿南北方向上的距离:
其中R为地球半径,可取6371.004千米或6371km,AB两点的直线距离可估算为:
Trail={{(a11,b11),(a12,b12)...,(a1k,b1k)},...{(aj1,bj1),(aj2,bj2)...,(ajk,bjk)}}
其中dAB表示地图上任意两点的距离;
Trail表示轨迹模型中上一时间点每一个轨迹的集合;
trailDis表示实时任意一点和轨迹模型中所有轨迹的距离的最小距离;
total=n;
其中total代表某一时间段,某一伪基站影响正常基站的个数;lat、lng分别代表受影响正常基站的经纬度;X代表某一伪基站在某一时刻的X轴;Y代表某一伪基站在某一时刻的Y轴;Z代表某一伪基站在某一时刻的Z轴;lastlng代表某一时刻伪基站的经度;lastlat代表某一时刻伪基站的维度;
由伪基站轨迹点去噪引擎根据伪基站移动速度将超出伪基站移动速度范围内的伪基站轨迹点噪音去除,伪基站移动速度范围的计算方法如下:
lastLocation代表该伪基站上一时刻的位置信息;
thistLocation代表该伪基站此时的位置信息;
aDis代表该伪基站在该时间段移动的实际距离;
tMinDis代表该伪基站在该时间段理论移动的最小距离;
tMaxDis代表该伪基站在该时间段理论移动的最大距离;
fiveminutesMinDis代表伪基站5分钟移动的最小距离;
fiveminutesMaxDis代表伪基站5分钟内移动的最大距离;
bestDis代表伪基站5分钟移动的最佳距离;
fiveminutesMinDis=1.6km/h,
fiveminutesMaxDis=24km/h,tMinDis=((thisTime-lastTime)/5)*fiveminutesMinDis,
tMaxDis=((thisTime-lastTime)/5)*fiveminutesMaxDis;
当伪基站轨迹点处于(tMinDis,tMaxDis)这个区间则符合伪基站移动的轨迹点;当伪基站轨迹点超出(tMinDis,tMaxDis)区间范围时,伪基站轨迹去噪引擎抛弃该伪基站轨迹点。
有益效果
本发明通过对话单数据的采集和聚类,将受到伪基站影响的正规基站进行分区,再根据受伪基站影响的基站的分区对伪基站进行类型定义并给出所定义类型的伪基站的轨迹模型,然后通过对话单的实时处理采取时间片段聚类的方法计算时间片段内被伪基站影响的正规基站,通过时间片段内被伪基站影响的正规基站定位伪基站的类型引入伪基站轨迹模型,在伪基站轨迹模型中计算伪基站的位置,最后通过伪基站轨迹点去噪引擎去除伪基站轨迹的噪音点,本发明提高了伪基站轨迹的实时性和准确性,具备海量数据分析能力。
附图说明
图1是本发明的系统结构图。
具体实施方式
参看图1,基于话单的伪基站轨迹追踪方法及装置由数据采集分类模块集合A和伪基站实时追踪模块集合B两部分组成;数据采集分类模块集合A由话单清洗器1、特征数据提取器2、受伪基站影响的正规基站信息存储器3、密度聚类算法模块4、受伪基站影响的正规基站分区模块5和伪基站轨迹模型库6组成;伪基站实时追踪模块集合B由时间片段聚类器7、伪基站位置计算器8和伪基站轨迹点去噪引擎9组成;
话单清洗器1负责读取CDR话单并过滤并删除CDR话单中格式内容出错的话单,判断格式内容出错的标准包括:CDR话单中时间格式不对为格式内容出错的CDR话单,CDR话单中有不该存在的字符为格式内容出错的CDR话单,CDR话单中出现与字段应有内容不符的字段内容时为格式内容出错的CDR话单,CDR话单中核心字段值为空的CDR话单为格式内容出错的CDR话单,CDR话单中特殊字段中只含数字却出现中英文编码的CDR话单为格式内容出错的CDR话单;话单清洗器1负责去除重复的CDR话单;话单清洗器1负责去除地域值出错的CDR话单;经过话单清洗器1处理过的话单传送给特征数据提取器2;
特征数据提取器2负责提取受到伪基站影响的话单,通过受到伪基站影响的话单确定受到伪基站影响的正常基站;提取受到伪基站影响的话单的方法包括:
当CDR话单中的号码在已经掌握的伪基站异常号码库中时,判断该CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器3进行存储;伪基站异常号码库为本发明的装置长期积累的伪基站异常号码的集合;
当CDR话单中的网络类型为正常网络类型之外的类型时,判断该CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器3进行存储;
正常网络类型包括:移动GSM:0x1;联通GSM:0x2;电信CDMA1x:0x3;移动TD-SCDMA:0x4;联通WCDMA:0x5;电信CDMA2000:0x6;电信CDMA2000分组域:0x07;移动LTE:0x08;联通LTE:0x09;电信LTE:0x0a;
当CDR话单中小区位置信息不合规时,判断该CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器3进行存储;小区位置信息不合规的判断规则包括:规则1,源LAC与目标LAC值一样,则正常位置更新异常,判断小区位置信息不合规;规则2,源LAC值不是当地LAC,判断小区位置信息不合规;规则3,源LAC不是相邻区域的LAC值,判断小区位置信息不合规;规则4,源LAC值为65534,判断小区位置信息不合规;
当CDR话单中位置更新不合规时,判断该CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器3进行存储;判断位置更新不合规的方法包括:计算第一个5分钟内,单基站出现了N次以上的位置更新话单数据,监测第二个5分钟内到第四个5分钟内单基站共出现的位置更新话单数据为M次,当M小于等于N的20分之1时,则认为该位置的基站信息受到了伪基站的干扰,则判断单基站第一个5分钟内的CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器进行存储;
受伪基站影响的正规基站信息存储器3负责存储所有正规基站的位置信息和编码,受伪基站影响的正规基站信息存储器3将收到的受伪基站影响的话单与正规基站的位置信息和编码进行基站信息匹配,对基站编码匹配正规基站的受伪基站影响的话单进行基站位置信息的矫正,生成矫正后的受伪基站影响的话单;受伪基站影响的正规基站信息存储器3对基站编码不能匹配正规基站的受伪基站影响的话单进行舍弃;受伪基站影响的正规基站信息存储器3将矫正后的受伪基站影响的话单发送给密度聚类算法模块4;基站位置信息矫正的原因是有些CDR话单由于数据的原因,无对应的经纬度信息;
密度聚类算法模块4负责将收到的矫正后的受伪基站影响的话单中的基站编码和位置信息输入DBSCAN密度聚类算法,生成聚类簇;DBSCAN密度聚类算法具体为:输入样本集D=(x1,x2,...,xm)(x1,x2,...,xm),邻域参数(∈,MinPts)(∈,MinPts),样本距离度量方式,输出:簇划分C;
步骤2,对于j=1,2,...m,按下面的步骤找出所有的核心对象:
1)通过距离度量方式,找到样本xjxj的∈∈-邻域子样本集N∈(xj)N∈(xj);
2)如果子样本集样本个数满足|N∈(xj)|≥MinPts|N∈(xj)|≥MinPts,将样本xjxj加入核心对象样本集合:Ω=Ω∪{xj}Ω=Ω∪{xj};
步骤4,在核心对象集合ΩΩ中,随机选择一个核心对象oo,初始化当前簇核心对象队列Ωcur={o}Ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合Ck={o}Ck={o},更新未访问样本集合Γ=Γ-{o}Γ=Γ-{o};
步骤6,在当前簇核心对象队列ΩcurΩcur中取出一个核心对象o′o′,通过邻域距离阈值∈∈找出所有的∈∈-邻域子样本集N∈(o′)N∈(o′),令Δ=N∈(o′)∩ΓΔ=N∈(o′)∩Γ,更新当前簇样本集合Ck=Ck∪ΔCk=Ck∪Δ,更新未访问样本集合Γ=Γ-ΔΓ=Γ-Δ,更新Ωcur=Ωcur∪(Δ∩Ω)-o′Ωcur=Ωcur∪(Δ∩Ω)-o′,转入步骤5;
输出结果为:簇划分C={C1,C2,...,Ck}{C1,C2,...,Ck};
受伪基站影响的正规基站分区模块5将密度聚类算法模块生成的每个聚类簇划分为一个单独的受伪基站影响的正规基站分区,每个单独的受伪基站影响的正规基站分区包括该分区的所有正规基站的编码和位置信息;
伪基站轨迹模型库6根据每个单独的受伪基站影响的正规基站分区定义一个不重复的伪基站轨迹编号,用伪基站轨迹编号标示单独的受伪基站影响的正规基站分区生成伪基站轨迹模型,将所有具备伪基站轨迹编号的单独的受伪基站影响的正规基站分区生成伪基站轨迹模型库;由特征数据提取器2将实时提取到的受到伪基站影响的话单发送给时间片段聚类器7,由时间片段聚类器7提取时间片段内的受到伪基站影响的话单中的基站编码和基站位置信息生成时间片段聚类信息,并将时间片段聚类信息发送给伪基站位置计算器8;
伪基站位置计算器8将时间片段聚类信息在伪基站轨迹模型库6中通过基站编码进行查询匹配,当时间片段聚类信息中的基站编码被伪基站轨迹模型库6中的特定伪基站轨迹模型中的基站编码全包含时,使用该特定伪基站轨迹模型进行伪基站定位的背景模型;伪基站位置计算器8根据时间片段聚类信息中的受伪基站影响的话单中的正常基站位置计算伪基站的位置,算法如下:已知两点经纬度,求取两点距离,当距离不远时,可用平面近似算法;设经度为a度,纬度为b度,A点经纬度为A=(a1,b1),B点经纬度为B=(a2,b2),则AB两点沿东西方向上的距离为:
AB两点沿南北方向上的距离:
其中R为地球半径,可取6371.004千米或6371km,AB两点的直线距离可估算为:
Trail={{(a11,b11),(a12,b12)...,(a1k,b1k)},...{(aj1,bj1),(aj2,bj2)...,(ajk,bjk)}}
其中dAB表示地图上任意两点的距离;
Trail表示轨迹模型中上一时间点每一个轨迹的集合;
trailDis表示实时任意一点和轨迹模型中所有轨迹的距离的最小距离;
total=n;
其中total代表某一时间段,某一伪基站影响正常基站的个数;lat、lng分别代表受影响正常基站的经纬度;X代表某一伪基站在某一时刻的X轴;Y代表某一伪基站在某一时刻的Y轴;Z代表某一伪基站在某一时刻的Z轴;lastlng代表某一时刻伪基站的经度;lastlat代表某一时刻伪基站的维度;
由伪基站轨迹点去噪引擎9根据伪基站移动速度将超出伪基站移动速度范围内的伪基站轨迹点噪音去除,伪基站移动速度范围的计算方法如下:
lastLocation代表该伪基站上一时刻的位置信息;
thistLocation代表该伪基站此时的位置信息;
aDis代表该伪基站在该时间段移动的实际距离;
tMinDis代表该伪基站在该时间段理论移动的最小距离;
tMaxDis代表该伪基站在该时间段理论移动的最大距离;
fiveminutesMinDis代表伪基站5分钟移动的最小距离;
fiveminutesMaxDis代表伪基站5分钟内移动的最大距离;
bestDis代表伪基站5分钟移动的最佳距离;
通过上面的规则引擎,能有效去除伪基站轨迹中的噪音点。通过大量的实验证明,伪基站在发送干扰信息的时候,一般都是通过背包或者驾车的形式进行移动发送干扰信息,并且移动的速度介于10km/h到120km/小时,因此fiveminutesMinDis=1.6km/h,fiveminutesMaxDis=24km/h,tMinDis=((thisTime-lastTime)/5)*fiveminutesMinDis,tMaxDis=((thisTime-lastTime)/5)*fiveminutesMaxDis。有这些参数就可以计算出伪基站的移动距离,若是介于(tMinDis,tMaxDis)这个区间则符合伪基站移动的轨迹点,若是不满足条件则不符合伪基站移动的轨迹点。当伪基站轨迹点处于(tMinDis,tMaxDis)这个区间则符合伪基站移动的轨迹点;当伪基站轨迹点超出(tMinDis,tMaxDis)区间范围时,伪基站轨迹去噪引擎抛弃该伪基站轨迹点。
Claims (1)
1.基于话单的伪基站轨迹追踪装置,其特征在于由数据采集分类模块集合和伪基站实时追踪模块集合两部分组成;数据采集分类模块集合由话单清洗器、特征数据提取器、受伪基站影响的正规基站信息存储器、密度聚类算法模块、受伪基站影响的正规基站分区模块和伪基站轨迹模型库组成;伪基站实时追踪模块集合由时间片段聚类器、伪基站位置计算器和伪基站轨迹点去噪引擎组成;
话单清洗器负责读取CDR话单并过滤并删除CDR话单中格式内容出错的话单,判断格式内容出错的标准包括:CDR话单中时间格式不对为格式内容出错的CDR话单,CDR话单中有不该存在的字符为格式内容出错的CDR话单,CDR话单中出现与字段应有内容不符的字段内容时为格式内容出错的CDR话单,CDR话单中核心字段值为空的CDR话单为格式内容出错的CDR话单,CDR话单中特殊字段中只含数字却出现中英文编码的CDR话单为格式内容出错的CDR话单;话单清洗器负责去除重复的CDR话单;话单清洗器负责去除地域值出错的CDR话单;经过话单清洗器处理过的话单传送给特征数据提取器;
特征数据提取器负责提取受到伪基站影响的话单,通过受到伪基站影响的话单确定受到伪基站影响的正常基站;提取受到伪基站影响的话单的方法包括:
当CDR话单中的号码在已经掌握的伪基站异常号码库中时,判断该CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器进行存储;伪基站异常号码库为本发明的装置长期积累的伪基站异常号码的集合;
当CDR话单中的网络类型为正常网络类型之外的类型时,判断该CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器进行存储;
正常网络类型包括:移动GSM:0x1;联通GSM:0x2;电信CDMA1x:0x3;移动TD-SCDMA:0x4;联通WCDMA:0x5;电信CDMA2000:0x6;电信CDMA2000分组域:0x07;移动LTE:0x08;联通LTE:0x09;电信LTE:0x0a;
当CDR话单中小区位置信息不合规时,判断该CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器进行存储;小区位置信息不合规的判断规则包括:规则1,源LAC与目标LAC值一样,则正常位置更新异常,判断小区位置信息不合规;规则2,源LAC值不是当地LAC,判断小区位置信息不合规;规则3,源LAC不是相邻区域的LAC值,判断小区位置信息不合规;规则4,源LAC值为65534,判断小区位置信息不合规;
当CDR话单中位置更新不合规时,判断该CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器进行存储;判断位置更新不合规的方法包括:计算第一个5分钟内,单基站出现了N次以上的位置更新话单数据,监测第二个5分钟内到第四个5分钟内单基站共出现的位置更新话单数据为M次,当M小于等于N的20分之1时,则认为该位置的基站信息受到了伪基站的干扰,则判断单基站第一个5分钟内的CDR话单为受伪基站影响的话单,提取受伪基站影响的话单的内容发送给受伪基站影响的正规基站信息存储器进行存储;
受伪基站影响的正规基站信息存储器负责存储所有正规基站的位置信息和编码,受伪基站影响的正规基站信息存储器将收到的受伪基站影响的话单与正规基站的位置信息和编码进行基站信息匹配,对基站编码匹配正规基站的受伪基站影响的话单进行基站位置信息的矫正,生成矫正后的受伪基站影响的话单;受伪基站影响的正规基站信息存储器对基站编码不能匹配正规基站的受伪基站影响的话单进行舍弃;受伪基站影响的正规基站信息存储器将矫正后的受伪基站影响的话单发送给密度聚类算法模块;
密度聚类算法模块负责将收到的矫正后的受伪基站影响的话单中的基站编码和位置信息输入DBSCAN密度聚类算法,生成聚类簇;DBSCAN密度聚类算法具体为:输入样本集D=(x1,x2,...,xm)(x1,x2,...,xm),邻域参数(∈,MinPts)(∈,MinPts),样本距离度量方式,输出:簇划分C;
步骤2,对于j=1,2,...m,按下面的步骤找出所有的核心对象:
1)通过距离度量方式,找到样本xjxj的∈∈-邻域子样本集N∈(xj)N∈(xj);
2)如果子样本集样本个数满足|N∈(xj)|≥MinPts|N∈(xj)|≥MinPts,将样本xjxj加入核心对象样本集合:Ω=Ω∪{xj}Ω=Ω∪{xj};
步骤4,在核心对象集合ΩΩ中,随机选择一个核心对象oo,初始化当前簇核心对象队列Ωcur={o}Ωcur={o},初始化类别序号k=k+1,初始化当前簇样本集合Ck={o}Ck={o},更新未访问样本集合Γ=Γ-{o}Γ=Γ-{o};
步骤6,在当前簇核心对象队列ΩcurΩcur中取出一个核心对象o′o′,通过邻域距离阈值∈∈找出所有的∈∈-邻域子样本集N∈(o′)N∈(o′),令Δ=N∈(o′)∩ΓΔ=N∈(o′)∩Γ,更新当前簇样本集合Ck=Ck∪ΔCk=Ck∪Δ,更新未访问样本集合Γ=Γ-ΔΓ=Γ-Δ,更新Ωcur=Ωcur∪(Δ∩Ω)-o′Ωcur=Ωcur∪(Δ∩Ω)-o′,转入步骤5;
输出结果为:簇划分C={C1,C2,...,Ck}{C1,C2,...,Ck};
受伪基站影响的正规基站分区模块将密度聚类算法模块生成的每个聚类簇划分为一个单独的受伪基站影响的正规基站分区,每个单独的受伪基站影响的正规基站分区包括该分区的所有正规基站的编码和位置信息;
伪基站轨迹模型库根据每个单独的受伪基站影响的正规基站分区定义一个不重复的伪基站轨迹编号,用伪基站轨迹编号标示单独的受伪基站影响的正规基站分区生成伪基站轨迹模型,将所有具备伪基站轨迹编号的单独的受伪基站影响的正规基站分区生成伪基站轨迹模型库;由特征数据提取器将实时提取到的受到伪基站影响的话单发送给时间片段聚类器,由时间片段聚类器提取时间片段内的受到伪基站影响的话单中的基站编码和基站位置信息生成时间片段聚类信息,并将时间片段聚类信息发送给伪基站位置计算器;
伪基站位置计算器将时间片段聚类信息在伪基站轨迹模型库中通过基站编码进行查询匹配,当时间片段聚类信息中的基站编码被伪基站轨迹模型库中的特定伪基站轨迹模型中的基站编码全包含时,使用该特定伪基站轨迹模型进行伪基站定位的背景模型;伪基站位置计算器根据时间片段聚类信息中的受伪基站影响的话单中的正常基站位置计算伪基站的位置,算法如下:已知两点经纬度,求取两点距离,当距离不远时,可用平面近似算法;设经度为a度,纬度为b度,A点经纬度为A=(a1,b1),B点经纬度为B=(a2,b2),则AB两点沿东西方向上的距离为:
AB两点沿南北方向上的距离:
其中R为地球半径,可取6371.004千米或6371km,AB两点的直线距离可估算为:
Trail={{(a11,b11),(a12,b12)...,(a1k,b1k)},...,{(aj1,bj1),(aj2,bj2)...,(ajk,bjk)}}
其中dAB表示地图上任意两点的距离;
Trail表示轨迹模型中上一时间点每一个轨迹的集合;
trailDis表示实时任意一点和轨迹模型中所有轨迹的距离的最小距离;
total=n;
其中total代表某一时间段,某一伪基站影响正常基站的个数;lat、lng分别代表受影响正常基站的经纬度;X代表某一伪基站在某一时刻的X轴;Y代表某一伪基站在某一时刻的Y轴;Z代表某一伪基站在某一时刻的Z轴;lastlng代表某一时刻伪基站的经度;lastlat代表某一时刻伪基站的维度;
由伪基站轨迹点去噪引擎根据伪基站移动速度将超出伪基站移动速度范围内的伪基站轨迹点噪音去除,伪基站移动速度范围的计算方法如下:
lastLocation代表该伪基站上一时刻的位置信息;
thistLocation代表该伪基站此时的位置信息;
aDis代表该伪基站在该时间段移动的实际距离;
tMinDis代表该伪基站在该时间段理论移动的最小距离;
tMaxDis代表该伪基站在该时间段理论移动的最大距离;
fiveminutesMinDis代表伪基站5分钟移动的最小距离;
fiveminutesMaxDis代表伪基站5分钟内移动的最大距离;
bestDis代表伪基站5分钟移动的最佳距离;
fiveminutesMinDis=1.6km/h,
fiveminutesMaxDis=24km/h,tMinDis=((thisTime-lastTime)/5)*fiveminutesMinDis,
tMaxDis=((thisTime-lastTime)/5)*fiveminutesMaxDis;
当伪基站轨迹点处于(tMinDis,tMaxDis)这个区间则符合伪基站移动的轨迹点;当伪基站轨迹点超出(tMinDis,tMaxDis)区间范围时,伪基站轨迹去噪引擎抛弃该伪基站轨迹点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010971124.XA CN112073971A (zh) | 2020-09-16 | 2020-09-16 | 基于话单的伪基站轨迹追踪方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010971124.XA CN112073971A (zh) | 2020-09-16 | 2020-09-16 | 基于话单的伪基站轨迹追踪方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112073971A true CN112073971A (zh) | 2020-12-11 |
Family
ID=73696425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010971124.XA Pending CN112073971A (zh) | 2020-09-16 | 2020-09-16 | 基于话单的伪基站轨迹追踪方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112073971A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113490143A (zh) * | 2021-07-19 | 2021-10-08 | 北京工业大学 | 一种错误基站和重复基站筛查修正的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105578434A (zh) * | 2015-12-17 | 2016-05-11 | 北京奇虎科技有限公司 | 一种检测伪基站运动轨迹的方法及服务器 |
CN106851652A (zh) * | 2016-12-30 | 2017-06-13 | 菏泽泰康工贸有限公司 | 基于移动轨迹定位的全频段通讯伪基站侦测方法及装置 |
CN110213724A (zh) * | 2019-05-17 | 2019-09-06 | 国家计算机网络与信息安全管理中心 | 一种伪基站运动轨迹的识别方法 |
CN110248365A (zh) * | 2018-03-07 | 2019-09-17 | 中南大学 | 一种伪基站短信时空分布模式可视化分析方法 |
WO2020113519A1 (zh) * | 2018-12-06 | 2020-06-11 | 深圳市欢太科技有限公司 | 伪基站的识别方法、装置、移动终端及存储介质 |
-
2020
- 2020-09-16 CN CN202010971124.XA patent/CN112073971A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105578434A (zh) * | 2015-12-17 | 2016-05-11 | 北京奇虎科技有限公司 | 一种检测伪基站运动轨迹的方法及服务器 |
CN106851652A (zh) * | 2016-12-30 | 2017-06-13 | 菏泽泰康工贸有限公司 | 基于移动轨迹定位的全频段通讯伪基站侦测方法及装置 |
CN110248365A (zh) * | 2018-03-07 | 2019-09-17 | 中南大学 | 一种伪基站短信时空分布模式可视化分析方法 |
WO2020113519A1 (zh) * | 2018-12-06 | 2020-06-11 | 深圳市欢太科技有限公司 | 伪基站的识别方法、装置、移动终端及存储介质 |
CN110213724A (zh) * | 2019-05-17 | 2019-09-06 | 国家计算机网络与信息安全管理中心 | 一种伪基站运动轨迹的识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113490143A (zh) * | 2021-07-19 | 2021-10-08 | 北京工业大学 | 一种错误基站和重复基站筛查修正的方法 |
CN113490143B (zh) * | 2021-07-19 | 2022-11-29 | 北京工业大学 | 一种错误基站和重复基站筛查修正的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | FBS-Radar: Uncovering Fake Base Stations at Scale in the Wild. | |
Kamel et al. | A misbehavior authority system for sybil attack detection in c-its | |
CN103648096B (zh) | 一种非法基站入侵的快速检测与定位方法 | |
CN103763690B (zh) | 检测伪基站向移动终端发送短信息的方法和装置 | |
US9165288B2 (en) | Inferring relationships based on geo-temporal data other than telecommunications | |
CN104244253B (zh) | 识别伪基站的方法和装置 | |
Fiadino et al. | Steps towards the extraction of vehicular mobility patterns from 3G signaling data | |
CN105513156B (zh) | 一种基于搭载gps和地图信息的智能终端进行巡检工作的方法 | |
CN108924759B (zh) | 识别移动发生器的方法、装置及系统 | |
CN103796241A (zh) | 一种基于终端上报信息判断和定位伪基站的方法 | |
CN108574934B (zh) | 一种伪基站定位方法和装置 | |
US8364147B2 (en) | System and method for determining commonly used communication terminals and for identifying noisy entities in large-scale link analysis | |
CN105307119A (zh) | 一种基于rssi基站信号估计的伪基站定位方法 | |
CN107872767A (zh) | 一种网约车刷单行为识别方法和识别系统 | |
CN106899948B (zh) | 伪基站发现方法、系统、终端及服务器 | |
CN106102001A (zh) | 可疑犯罪移动终端的筛选方法和系统 | |
CN109859426A (zh) | 一种社区安防管理系统 | |
CN107172622B (zh) | 伪基站短信的识别和分析方法、装置及系统 | |
CN107155186A (zh) | 一种伪基站定位方法和装置 | |
CN106102082A (zh) | 一种嫌疑号码确定方法、装置、系统 | |
CN114339767B (zh) | 一种信令检测方法、装置、电子设备及存储介质 | |
CN112073971A (zh) | 基于话单的伪基站轨迹追踪方法及装置 | |
CN106792710A (zh) | 基于用户终端位置识别伪基站的方法及装置 | |
CN105848230B (zh) | 一种判断机动车路面竞速的方法和系统 | |
CN111277552B (zh) | 一种对直径信令安全威胁识别的方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |