CN110933662A - 一种基于数据挖掘的时空伴随关系分析方法和系统 - Google Patents

一种基于数据挖掘的时空伴随关系分析方法和系统 Download PDF

Info

Publication number
CN110933662A
CN110933662A CN201911309596.2A CN201911309596A CN110933662A CN 110933662 A CN110933662 A CN 110933662A CN 201911309596 A CN201911309596 A CN 201911309596A CN 110933662 A CN110933662 A CN 110933662A
Authority
CN
China
Prior art keywords
imei
base station
target
identification code
base stations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911309596.2A
Other languages
English (en)
Other versions
CN110933662B (zh
Inventor
邢磊
黄剑
姚志强
张磊
张辉极
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201911309596.2A priority Critical patent/CN110933662B/zh
Publication of CN110933662A publication Critical patent/CN110933662A/zh
Application granted granted Critical
Publication of CN110933662B publication Critical patent/CN110933662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/18Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
    • H04W8/20Transfer of user or subscriber data
    • H04W8/205Transfer to or from user equipment or user record carrier
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/26Network addressing or numbering for mobility support
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • H04W88/06Terminal devices adapted for operation in multiple networks or having at least two operational modes, e.g. multi-mode terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请公开了一种基于数据挖掘的时空伴随关系分析方法和系统。基于同一双卡移动设备的IMEI识别码规则获得各个双卡移动设备IMEI信号数据库;当两个或者两个以上的基站捕获到多组在较短时间区间内上报的归属同一双卡移动设备的IMEI信号数据时,将该两个或者两个以上的基站认定为具有相邻关系的基站,从而构建具有相邻关系的相邻基站组;遍历目标基站及相邻基站组中的属于目标基站的相邻基站的IMEI信号数据,查找与目标对象IMEI识别码存在时间交互差值的交互对象IMEI识别码,进一步获得目标对象的伴随对象。该方案通过提取IMEI信号数据库和相邻基站组,利用目标基站和目标基站的伴随基站获取目标对象的伴随对象。

Description

一种基于数据挖掘的时空伴随关系分析方法和系统
技术领域
本申请涉及通信领域中的数据挖掘分析技术领域,具体涉及一种基于数据挖掘的时空伴随关系分析方法和系统。
背景技术
当两个以上对象表现出相同或者相似的运动模式,并且该模式维持了较长的时间,则该模式被认为是伴随模式。在一起逛街的一群朋友可以形成伴随模式,乘坐同一辆公交车的乘客也可以是一种伴随模式。单目标伴随是伴随模式的一种特殊情况,就是在已知一个目标的时空轨迹后计算和已知目标轨迹相似的其他目标,这种伴随模式的发掘在特定领域有着重要的意义。
通常情况下不管伴随的对象是人或者是车辆,由于车辆是人驾驶的,也可以认为是对象是人的伴随。时空伴随需要综合时间维度和空间维度,依靠运营商的移动电话基站信号数据,可以比较全面且精确的定位对象的运动模式。基于基站数据的伴随一般有两种思路,一种是基于经纬度的伴随,是在明确知道每个基站精确经纬度的前提下,使用GEOHASH算法的方式处理,但是在实际的使用情况下,基站的经纬度数据经常存在不全或者误报,因此对伴随精准度造成较大的影响。另一种无需依靠经纬度,只需根据基站的信号数据挖掘伴随对象,这种方法依靠运营商的lacci(大小区编号)数据,伴随结果也相对精确,但是存在较大的问题是跨运营商伴随的痛点,也就是移动用户只能伴随其他的移动用户,移动用户是伴随不到联通用户或者电信用户的。因此迫切需要一种方法,分析出同一个小区域内(比如1公里范围内)不同运营商基站的汇聚情况,从而解决跨运营商伴随的问题。
发明内容
本申请的目的在于提出了一种基于数据挖掘的时空伴随关系分析方法和系统,通过各个同一双卡移动设备的IMEI识别码,获取归属不同的移动通信运营商的相邻基站信息,解决跨运营商基站获取伴随关系的问题。
第一方面,本申请实施例提供了一种基于数据挖掘的时空伴随关系分析方法,该方法包括:
S1:基于同一双卡移动设备的IMEI识别码规则,从各移动通信运营商中获取包括各个双卡移动设备的IMEI识别码的双卡移动设备IMEI信号数据库;
S2:响应于当两个或者两个以上的基站捕获到多组在较短时间区间内上报的归属同一双卡移动设备的IMEI信号数据时,将该两个或者两个以上的基站认定为具有相邻关系的基站,从而构建具有相邻关系的相邻基站组;
S3:遍历全部基站的IMEI信号数据,查找目标对象IMEI识别码,获取出现目标对象IMEI识别码对应的目标基站;
S4:遍历目标基站及相邻基站组中的属于目标基站的相邻基站的IMEI信号数据,查找与目标对象IMEI识别码存在时间交互差值的交互对象IMEI识别码,选定交互对象IMEI识别码出现次数大于第一阈值的交互对象为目标对象的伴随对象。
在该方法中,先通过具有双SIM卡的移动设备的IMEI数据获取IMEI数据库,利用同一双卡移动设备开机时,分别向所属运营商的基站上报数据的特性,获取各个基站的具有相邻关系的移动通信运营商的相邻基站信息,在获取目标对象的各个目标基站的前提下,遍历全部目标基站和目标基站的相邻基站,获得在时间交互差值内的交互对象的IMEI识别码,并选定IMEI识别码出现次数大于第一阈值的IMEI识别码的对应交互对象作为伴随对象。
在一些具体实施例中,在S2步骤中的较短时间区间的长度为[5s-10s]范围内。时间区间的设置可以避免,由于双卡移动设备对不同运营商的SIM卡的识别时间差异或者由于障碍物的存在延长所属基站的接收上报信号等造成的时间误差。
在一些具体实施例中,在S2步骤中的多组为超过3组。通过对多组同一双卡移动设备的验证,使得获取的相邻基站组数据更精准。
在一些具体实施例中,在S4步骤中的时间交互差值取自[0s-5s]范围内。时间交互差值的设置可以有效避免由于不同运营商的基站捕获IMEI信号数据能力的差异而造成捕获时间上的差值情况。
在一些具体实施例中,在S4步骤中的第一阈值取自[3次-8次]范围内。第一阈值的设置,有效避免因为偶然时间的概率,而影响伴随号码的提取准确性。
在一些具体实施例中,S4步骤后将目标对象的移动轨迹转化为带有时间单位的捕获到目标对象IMEI识别码的目标基站集合序列Tr具体表示为:
Tr={<cr1,t1>,<cr2,t2>,…,<crn,tn>}
其中,crn表示为在时间单位tn中捕获目标对象IMEI识别码的目标基站集合,n为自然数。目标基站集合序列的设置,可以直观且准确地分析目标对象的移动轨迹,便于后续分析目标对象的社交关系。
在一些具体实施例中,其特征在于,在S4步骤后还包括将伴随对象的移动轨迹转化为带有相同时间单位的捕获到伴随对象IMEI识别码的伴随基站集合序列To,具体表示为:
To={<co1,t1>,<co2,t2>,…,<con,tn>}
其中,n表示为在时间单位tn中捕获伴随对象的IMEI识别码的伴随基站集合,n为自然数。伴随基站集合序列的设置,便于与目标基站集合序列进行相似度比对,进一步获得伴随对象与目标对象可能存在的社交关系中的亲密程度。
在一些具体实施例中,在时间单位tn中目标基站集合和伴随基站集合应当满足大于第二阈值的条件,具体第二阈值表示如下:
Figure BDA0002324151120000041
在一些具体实施例中,第二阈值取自[0.3-1.0]范围内。第二阈值的设置,便于精准获得目标基站集合序列和伴随基站集合序列中的目标基站集合和伴随基站集合。
第二方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述实施例的方法。
第三方面,本申请实施例提供了一种用于话单分析通联特征的系统,该系统包括:
IMEI数据库单元:配置用于基于同一双卡移动设备的IMEI识别码规则,从各移动通信运营商中获取包括各个双卡移动设备的IMEI识别码的双卡移动设备IMEI信号数据库;
相邻基站单元:配置用于响应于当两个或者两个以上的基站捕获到多组在较短时间区间内上报的归属同一双卡移动设备的IMEI信号数据时,将该两个或者两个以上的基站认定为具有相邻关系的基站,从而构建具有相邻关系的相邻基站组;
目标对象单元:配置用于遍历全部基站的IMEI信号数据,查找目标对象IMEI识别码,获取出现目标对象IMEI识别码对应的目标基站;
伴随对象单元:配置用于遍历目标基站及相邻基站组中的属于目标基站的相邻基站的IMEI信号数据,查找与目标对象IMEI识别码存在时间交互差值的交互对象IMEI识别码,选定交互对象IMEI识别码出现次数大于第一阈值的交互对象为目标对象的伴随对象。
本申请提供的一种基于数据挖掘的时空伴随关系分析方法和系统。其中,先通过具有双SIM卡的移动设备的IMEI数据获取IMEI数据库,利用同一双卡移动设备开机时,分别向区域范围内的所属运营商基站上报数据的特性,获取具有相邻关系且归属于不同移动通信运营商的相邻基站信息,在获取目标基站的前提下,遍历目标基站和目标基站的相邻基站,获取交互对象IMEI识别码出现次数大于第一阈值的交互对象为目标对象的伴随对象。该方案利用双卡移动设备获取不同移动通信运营商的相邻基站信息,从而打破不同运营商之间数据存在壁垒的痛点,将不同运营商基站的上报信息数据汇聚,获得目标对象的伴随模式,有效地解决了伴随业务应用中遇到的数据壁垒问题,完善了基础数据,丰富了解决方案,提高了数据精确度。同时在交通规划等特定领域都有广泛的应用。此外,本申请中产生的中间数据还可以作为数据业务的适用于目标对象社交分析等其他场景应用。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请实施例中的基于数据挖掘的时空伴随关系分析方法的流程图;
图2是根据本申请实施例中的基于数据挖掘的时空伴随关系分析方法整体示意图;
图3是根据本申请实施例中的双卡手机IMEI识别码的提取流程图;
图4是根据本申请实施例中的相邻基站组的提取流程图;
图5是根据本申请实施例中的跨运营商单目标伴随对象提取流程图;
图6是根据本申请实施例中的一种基于数据挖掘的时空伴随关系分析的系统的示意性结构框图;
图7适于用来实现本申请实施例的电子设备的计算机系统的结构示意图;
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了根据本申请实施例中的用于话单分析通联特征的方法的流程图。如图1所示,该方法包括汇总IMEI数据库,获取相邻基站、选定目标对象和获得伴随对象的步骤。
在步骤S1中:基于同一双卡移动设备的IMEI识别码规则,从各移动通信运营商中获取包括各个双卡移动设备的IMEI识别码的双卡移动设备IMEI信号数据库。
在该步骤中,从移动、电信、联通三大运营商的数据中通过同一双卡移动手机上的IMEI识别码规则,和手机开机时通过IMEI向所属运营商基站上报数据的特性,获取各个双卡移动手机上的两个IMEI识别码,从而获得双卡移动手机的IMEI信号数据库。
在一些具体实施例中,同一双卡移动设备的IMEI识别码规则为前14位编码相同且后三位编码不同。IMEI识别码相当于双卡移动设备的身份证号码,一般情况下,同一部移动设备的IMEI识别码应当是连号或者仅后三位不同。
在一些具体实施例中,同一双卡移动设备的IMEI识别码分别为17位连续识别码。同一双卡移动设备的IMEI识别码为连号的情况较为常见。
在一些具体实施例中,当具有双SIM卡的双卡移动设备开机时,利用双卡移动设备上的两个IMEI识别码分别向其归属的运营商基站上报信号。凭借双卡移动设备开机时,分别向所属运营商的基站上报信号的特点,可以获取在一定区域内的不同运营商的基站分布情况。
在步骤S2中:响应于当两个或者两个以上的基站捕获到多组在较短时间区间内上报的归属同一双卡移动设备的IMEI信号数据时,将该两个或者两个以上的基站认定为具有相邻关系的基站,从而构建具有相邻关系的相邻基站组。
在该步骤中,双卡移动手机的IMEI信号数据库,可以通过利用两个或者两个以上的基站在较短时间区间捕获到的IMEI信号数据,利用双卡移动手机的IMEI信号数据库,排查出是否属于同一双卡移动手机,如果为同一双卡移动手机的IMEI发出的,可以确定该两个或者两个以上的基站具有相邻关系的基站,从而构建具有相邻关系的相邻基站组。为了保证相邻基站组判断的准确性,设置当多组同一双卡移动手机通过基站验证后,才符合相邻基站组的判断标准。
在一些具体实施例中,S2步骤中的较短时间区间的长度为[5s-10s]。单个基站的某一时刻出现双卡移动手机的一个IMEI信号数据,在该时刻的前后5s-10s内其他基站也出现该双卡移动手机的另一个IMEI信号数据,便可认定该两个或者两个以上的基站是具有相邻关系的基站。
在一些具体实施例中,在S2步骤中的多组为超过3组。多组同一双卡移动设备的引入可以提高相邻基站组的精准度。
在步骤S3中:遍历全部基站的IMEI信号数据,查找目标对象IMEI识别码,获取出现目标对象IMEI识别码对应的目标基站。
在该步骤中,通过遍历全部的基站的IMEI信号数据,查找目标对象的IMEI识别码,若目标对象为单卡移动手机,则查找该单卡移动手机的单个IMEI识别码,若目标对象为双卡移动手机,则查找该双卡移动手机的两个IMEI识别码,并获得目标对象的IMEI识别码对应的目标基站。
在步骤S4中:遍历目标基站及相邻基站组中的属于目标基站的相邻基站的IMEI信号数据,查找与目标对象IMEI识别码存在时间交互差值的交互对象IMEI识别码,选定交互对象IMEI识别码出现次数大于第一阈值的交互对象为目标对象的伴随对象。
在该步骤中,遍历全部的目标基站和全部目标基站的相邻基站上的IMEI信号数据,找寻与目标对象IMEI识别码存在时间交互差值的交互对象的IMEI识别码,引入第一阈值,进而判断该交互对象的IMEI识别码出现的次数,从而判定该交互对象是否为伴随对象。
在一些具体实施例中,在S4步骤中的时间交互差值取自[0s-5s]范围内。时间交互差值的设置可以避免因为不同运营商基站接收信号或者遮挡物等的影响,扩大交互对象的搜索范围。
在一些具体实施例中,在S4步骤中的第一阈值取自[3次-8次]范围内。第一阈值的设置避免偶然或者随机的概率,提高伴随对象的精准度。
在一些具体的实施例中,S3步骤中的目标基站可定义为带有时间单位的目标基站集合序列Tr,具体表示为:
Tr={<cr1,t1>,<cr2,t2>,…,<crn,tn>}
其中,crn表示为在时间单位tn中捕获目标对象IMEI识别码的目标基站集合,n为自然数。
当将伴随时间延伸到一天、一个月或者一季度时,针对某特定人群在某个固定时段进行伴随关系分析,引入目标基站集合序列,可以更直观有效地表示目标对象移动轨迹,用于分析目标对象的规律性运动模式。
在一些优选的实施例中,在S4步骤后还包括将伴随对象的IMEI识别码对应的伴随基站定义为带有时间单位的伴随基站集合序列To,具体表示为:
To={<co1,t1>,<co2,t2>,…,<con,tn>}
其中,con表示为在时间单位tn中捕获伴随对象的IMEI识别码的伴随基站集合,n为自然数。
因为目标基站集合序相对应地引入伴随基站集合,用于表示在与目标对象处于相同时间单位的伴随对象的数据,用于分析该伴随对象与目标对象的亲密关系。
在一些优选的实施例中,目标基站集合和伴随基站集合应当满足大于第二阈值的条件,具体第二阈值表示如下:
Figure BDA0002324151120000081
每个时间单位内的目标基站集合可能对应一个或多个伴随基站集合,在相同时间单位内伴随基站集合中的属于目标基站或者目标基站的相邻基站的基站个数与目标基站集合中的目标基站个数的比例大于第二阈值时,才符合伴随对象的移动轨迹要求。
在一些优选的实施例中,第二阈值取自[0.3-1.0]范围内。第二阈值的设置便于精准获得目标基站集合序列和伴随基站集合序列中的目标基站集合和伴随基站集合。
继续参考图2,其示出了根据基于数据挖掘的时空伴随关系分析方法整体示意图。如图200所示,本申请的整体思路包括分析获取双卡移动手机的IMEI识别号201,根据同一双卡移动手机的两个IMEI识别号在开机时,向所属运营商的基站上报IMEI信号数据,从而挖掘不同运营商相邻基站分布202,在获取各个双卡移动手机的IMEI信号数据库和获知不同运营商相邻基站的分布情况下,进行单目标的跨运营商伴随分析203。
由于基站的伴随方法通常不依赖于具体的经纬度数据,而是根据手机与基站的信号交互来分析多个号码之间的伴随关系,但是由于不同运营商的基站是分开建设的,数据也不能共享,导致不同运营商之间的伴随关系无法分析出来,比如移动用户只能分析出移动用户的伴随关系,无法获取电信和联通用户的伴随关系。
本申请为了解决跨运营商伴随这一问题而提出一种基于数据挖掘的时空伴随关系分析方法,该方法的大概流程是基于海量移动通信运营商数据,挖掘双卡移动手机用户的IMEI识别号,并借助双卡手机基站信号数据查找出归属不同运营商基站的相邻关系,在获取各个双卡移动手机用户的IMEI识别号的和不同运营商之间相邻基站的情况下,利用单目标伴随方法,也就解决了跨运营商伴随的问题。双卡移动手机的IMEI数据,各个设备生产商也有,但是我们不可能去找每一家手机生产商去收集这些数据,所以只能从现有运营商数据去获取这些数据。在推导出各个双卡移动手机IMEI识别码后,可以分析双卡手机IMEI基站信号数据推导出具有相邻关系的基站数据,再利用相邻基站数据,解决单目标伴随中跨运营商的问题。由于计算数据量大,吞吐量高,需借助数据仓库离线计算引擎进行数据运算。
继续参考图3,其示出了根据本申请实施例中的双卡手机IMEI识别码的提取流程图。具体流程包括以下步骤:
步骤301:汇聚各大运营商数据,并在数据仓库中查找较短时间差范围内的IMEI信号数据。
步骤302:判断所属较短时间差范围内的IMEI信号数据是否为手机开机后上报IMEI信号数据,若“是”,则执行步骤303,若“否”,则执行步骤304。
步骤303:根据同一双卡移动设备的IMEI识别码规则,判断是否符合IMEI识别码前14位相同,仅后3位不同,或者IMEI识别码为连号的要求,若“是”,则执行步骤305,若“否”则执行步骤304。
步骤304:过滤掉不满足要求的IMEI信号数据。
步骤305:将被认定为有双卡手机关系的IMEI识别码,保留并存储到数据库。
在一些具体的实施例中,IMEI(International Mobile Equipment Identity)是国际移动设备识别码的缩写。俗称“手机串号”、“手机串码”、“手机序列号”,用于在GSM移动网络中识别每一部独立的手机,相当于手机的身份证号码,利用IMEI识别码用于标识一台手机设备。双卡手机(山寨手机除外)都有两个不同的IMEI识别码,并且这两个IMEI识别码具有一定的规则,一般是连号或者是后仅有后三位不同。
在一些具体的实施例中,双卡移动手机在开机后会用两个IMEI识别码分别给所属的运营商基站上报数据,通常这两个IMEI上报的时间是同一时刻或者较短时间差内,利用以上特性,先从汇聚各大运营商数据的数据仓库中查找某个区域较短时间差范围内时开机的IMEI号码,并用相邻IMEI或者仅有后三位号不同的IMEI这一规则去过滤,这样我们就获取到了具有双卡手机标识的IMEI组数据。
在一些具体的实施例中,较短时间差值范围可取自[0s-5s]范围内。
继续参考图4,其示出了根据本申请实施例中的相邻基站组的提取流程图。具体流程包括以下步骤:
步骤401:从数据仓库查询有双卡手机关系的IMEI数据的基站上报数据。
步骤402:判断两个或者两个以上的基站捕获归属同一双卡移动设备的IMEI信号数据的上报时间差是否符合时间区间的长度的要求,若“是”,则执行步骤403,若“否”,则执行步骤404。
步骤403:存储符合时间区间长度的这组基站的,设置第三阈值,为这组基站被双卡移动手机IMEI验证的次数。
步骤404:过滤掉不符合时间区间长度的这组基站数据。
步骤405:判断验证次数是否满足大于第三阈值的条件,若“是”,则存储相邻关系的基站;若“否”,则执行步骤404。
在一些具体的实施例中,时间区间长度可设置为[5s-10s]的范围内。
在一些具体的实施例中,第三阈值可设置为3组,当大于或者等于第三阈值的多组同一双卡移动设备被验证后,则相邻基站组数据将更加精准。
在一些具体的实施例中,利用双卡移动手机IMEI数据库做支撑,由于双卡移动用户每天都会移动的(即时一天都不活动,最近的基站信息也会被验证),一个移动用户一天内就能漫游出很多组基站数据,拉长时间到一个月,活动范围扩充到一个市区,用户扩展到每一个运营商用户(每个用户的活动轨迹每天不一样),这样这个数据规模是非常可观的,可以汇聚这些数据到数仓。利用这些用户基站信号交互数据,统计所有有双卡移动手机关系的IMEI的信号上报数据并统计时间,如果上报时间相同或者时间差很小而且是不同运营商的基站(同一运营商的基站也可以记录,比如人群较密集的地方同一运营商可能会部署多个基站),则这组IMEI上报的两个基站可能是相邻关系。记录这个相邻关系的被验证次数(也就是两个基站相邻关系被多少组有双卡手机关系的IMEI验证成功过),积累一定时间(经验值是1个月左右,当然越长效果越好)和空间的数据(比如全市或者某个区)后淘汰验证次数较少(这个次数通常是根据统计数据设定的阈值)的基站组,这样我们就获取到了具有相邻关系的基站数据。
继续参考图5,其示出了根据本申请实施例中的跨运营商单目标伴随对象提取流程图。具体流程包括以下步骤:
步骤501:遍历全部基站,查询目标对象的IMEI识别码在某个时间段出现在对应基站的数据。
步骤502:遍历全部目标对象的每个目标基站,查找每个目标基站上同一时间或者有一定时间差的IMEI识别码。
步骤503:遍历目标对象的每个基站的有相邻关系的相邻基站,查找相邻基站上同一时间或者有时间差的IMEI识别码并与上一步的结果并集。
步骤504:分析步骤502和步骤503这两步的并集数据,记录每个IMEI识别码出现的次数并设置第一阈值。
步骤505:判断每个IMEI识别码验证次数是否满足大于第一阈值的条件,若“是”,则该IMEI识别号为目标对象的伴随号码;若“否”,则执行步骤506。
步骤506:过滤掉这组IMEI识别号。
在一些具体的实施例中,查找相邻基站上有时间差值设置在0s-5s的时间区间即可。
在一些具体的实施例中,第一阈值可设置为取自[3次-8次]的范围内,可以避免目标对象和伴随对象之间的伴随行为的偶然性。
在一些具体的实施例中,当确认出各大运营商基站的各个基站的相邻基站信息后跨基站的伴随方法相对容易。首先查询出目标对象某个时间段内的目标基站信号数据,然后遍历每个目标基站,查找和目标对象同一时间或者较短时间差内的和目标基站有信号交互的对象IMEI信号数据,再去遍历与每个目标基站具有相邻关系的相邻基站,查询出其相邻基站在同一时间或者较短时间差有信号交互的对象,然后统计汇总每个目标基站和每个目标基站的相邻基站的上报对象IMEI信号数据情况,将IMEI信号数据重合点较多的则为有可能是和目标有伴随关系的对象。
在一些具体的实施例中,可以利用目标基站提取目标对象的移动路径,并对路径进行分类与识别,当目标对象的移动轨迹转化为带有时间单位的捕获到目标对象IMEI识别码的目标基站集合序列Tr具体表示为:
Tr={<cr1,t1>,<cr2,t2>,…,<crn,tn>}
其中,crn表示为在时间单位tn中捕获目标对象IMEI识别码的目标基站集合,n为自然数。目标基站集合序列的设置,可以直观且准确地分析目标对象的移动轨迹,便于后续分析目标对象的社交关系。
在一些具体的实施例中,可以从伴随基站提取目标对象的伴随对象的移动路径,当获取到目标对象的规律性的移动轨迹后,根据伴随对象的移动轨迹与目标对象的规律性移动轨迹相似程度的比对,可以进一步判断出目标对象与伴随对象社交关系。将伴随对象的移动轨迹转化为带有相同时间单位的捕获到伴随对象IMEI识别码的伴随基站集合序列To,具体表示为:
To={<co1,t1>,<co2,t2>,…,<con,tn>}
其中,con表示为在时间单位tn中捕获伴随对象的IMEI识别码的伴随基站集合,n为自然数。伴随基站集合序列的设置,便于与目标基站集合序列进行相似度比对,进一步获得伴随对象与目标对象可能存在的社交关系中的亲密程度。
在一些具体的实施例中,在时间单位tn中目标基站集合和伴随基站集合应当满足大于第二阈值的条件,具体第二阈值表示如下:
Figure BDA0002324151120000131
在一些具体的实施例中,第二阈值被设置为取自[0.3-1.0]范围内。第二阈值的设置,便于精准获得目标基站集合序列和伴随基站集合序列中的目标基站集合和伴随基站集合。
此外,本申请还提出了一种基于数据挖掘的时空伴随关系分析的系统。其中如图6所示,时空伴随关系分析系统600包括IMEI数据库单元601、相邻基站单元602和目标对象单元603和伴随对象单元604。通过IMEI数据库单元601获取各个双卡移动设备的IMEI识别码数据库,相邻基站单元602进一步利用IMEI识别码数据库并结合双卡移动手机开机后通过IMEI向所属的运营商基站上报数据的特性获得各大运营商的基站相邻信息,利用目标对象单元603获取出现过目标对象的IMEI信号数据的目标基站,进而伴随对象单元604遍历所有目标对象基站和目标基站的相邻基站,获取目标对象的伴随对象的信息。
下面参考图7,其示出了适于用来实现本申请实施例的电子设备的计算机系统700的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也可以根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括IMEI数据库单元、相邻基站单元、目标对象单元和伴随对象单元。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,IMEI数据库单元单元还可以被描述为“基于同一双卡移动设备的IMEI识别码规则,从各移动通信运营商中获取包括各个双卡移动设备的IMEI识别码的双卡移动设备IMEI信号数据库”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:基于同一双卡移动设备的IMEI识别码规则,从各移动通信运营商中获取包括各个双卡移动设备的IMEI识别码的双卡移动设备IMEI信号数据库;响应于当两个或者两个以上的基站捕获到多组在较短时间区间内上报的归属同一双卡移动设备的IMEI信号数据时,将该两个或者两个以上的基站认定为具有相邻关系的基站,从而构建具有相邻关系的相邻基站组;遍历全部基站的IMEI信号数据,查找目标对象IMEI识别码,获取出现目标对象IMEI识别码对应的目标基站;遍历目标基站及相邻基站组中的属于目标基站的相邻基站的IMEI信号数据,查找与目标对象IMEI识别码存在时间交互差值的交互对象IMEI识别码,选定交互对象IMEI识别码出现次数大于第一阈值的交互对象为目标对象的伴随对象。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种基于数据挖掘的时空伴随关系分析方法,其特征在于,所述方法包括:
S1:基于同一双卡移动设备的IMEI识别码规则,从各移动通信运营商中获取包括各个双卡移动设备的IMEI识别码的双卡移动设备IMEI信号数据库;
S2:响应于当两个或者两个以上的基站捕获到多组在较短时间区间内上报的归属同一双卡移动设备的IMEI信号数据时,将该两个或者两个以上的基站认定为具有相邻关系的基站,从而构建具有相邻关系的相邻基站组;
S3:遍历全部所述基站的IMEI信号数据,查找目标对象IMEI识别码,获取出现所述目标对象IMEI识别码对应的目标基站;
S4:遍历所述目标基站及所述相邻基站组中的属于所述目标基站的相邻基站的IMEI信号数据,查找与所述目标对象IMEI识别码存在时间交互差值的交互对象IMEI识别码,选定所述交互对象IMEI识别码出现次数大于第一阈值的所述交互对象为目标对象的伴随对象。
2.根据权利要求1所述的一种基于数据挖掘的时空伴随关系分析方法,其特征在于,在所述S2步骤中的所述较短时间区间的长度为[5s-10s]。
3.根据权利要求1所述的一种基于数据挖掘的时空伴随关系分析方法,其特征在于,在所述S2步骤中的所述多组为超过3组。
4.根据权利要求1所述的一种基于数据挖掘的时空伴随关系分析方法,其特征在于,在所述S4步骤中的所述时间交互差值取自[0s-5s]范围内。
5.根据权利要求1所述的一种基于数据挖掘的时空伴随关系分析方法,其特征在于,在所述S4步骤中的所述第一阈值取自[3次-8次]范围内。
6.根据权利要求1所述的一种基于数据挖掘的时空伴随关系分析方法,其特征在于,所述S4步骤后将目标对象的移动轨迹转化为带有时间单位的捕获到所述目标对象IMEI识别码的目标基站集合序列Tr具体表示为:
Tr={<cr1,t1>,<cr2,t2>,…,<crn,tn>}
其中,crn表示为在时间单位tn中捕获目标对象IMEI识别码的目标基站集合,n为自然数。
7.根据权利要求6所述的一种基于数据挖掘的时空伴随关系分析方法,其特征在于,在所述S4步骤后还包括将伴随对象的移动轨迹转化为带有相同所述时间单位的捕获到所述伴随对象IMEI识别码的伴随基站集合序列To,具体表示为:
To={<co1,t1>,<co2,t2>,…,<con,tn>}
其中,con表示为在时间单位tn中捕获伴随对象的IMEI识别码的伴随基站集合,n为自然数。
8.根据权利要求7所述的一种基于数据挖掘的时空伴随关系分析方法,其特征在于,在时间单位tn中所述目标基站集合和所述伴随基站集合应当满足大于第二阈值的条件,具体第二阈值表示如下:
Figure FDA0002324151110000021
9.根据权利要求8所述的一种基于数据挖掘的时空伴随关系分析方法,其特征在于,所述第二阈值取自[0.3-1.0]范围内。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
11.一种基于数据挖掘的时空伴随关系分析的系统,其特征在于,所述系统包括:
IMEI数据库单元:配置用于基于同一双卡移动设备的IMEI识别码规则,从各移动通信运营商中获取包括各个双卡移动设备的IMEI识别码的双卡移动设备IMEI信号数据库;
相邻基站单元:配置用于响应于当两个或者两个以上的基站捕获到多组在较短时间区间内上报的归属同一双卡移动设备的IMEI信号数据时,将该两个或者两个以上的基站认定为具有相邻关系的基站,从而构建具有相邻关系的相邻基站组;
目标对象单元:配置用于遍历全部所述基站的IMEI信号数据,查找目标对象IMEI识别码,获取出现所述目标对象IMEI识别码对应的目标基站;
伴随对象单元:配置用于遍历所述目标基站及所述相邻基站组中的属于所述目标基站的相邻基站的IMEI信号数据,查找与所述目标对象IMEI识别码存在时间交互差值的交互对象IMEI识别码,选定所述交互对象IMEI识别码出现次数大于第一阈值的所述交互对象为目标对象的伴随对象。
CN201911309596.2A 2019-12-18 2019-12-18 一种基于数据挖掘的时空伴随关系分析方法和系统 Active CN110933662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911309596.2A CN110933662B (zh) 2019-12-18 2019-12-18 一种基于数据挖掘的时空伴随关系分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911309596.2A CN110933662B (zh) 2019-12-18 2019-12-18 一种基于数据挖掘的时空伴随关系分析方法和系统

Publications (2)

Publication Number Publication Date
CN110933662A true CN110933662A (zh) 2020-03-27
CN110933662B CN110933662B (zh) 2022-07-15

Family

ID=69863152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911309596.2A Active CN110933662B (zh) 2019-12-18 2019-12-18 一种基于数据挖掘的时空伴随关系分析方法和系统

Country Status (1)

Country Link
CN (1) CN110933662B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586586A (zh) * 2020-05-14 2020-08-25 深圳力维智联技术有限公司 一种追踪方法和系统
CN113780407A (zh) * 2021-09-09 2021-12-10 恒安嘉新(北京)科技股份公司 一种数据检测方法、装置、电子设备及存储介质
CN117177185A (zh) * 2023-11-02 2023-12-05 中国信息通信研究院 一种基于手机通信数据的号码伴随辅助识别方法
CN113780407B (zh) * 2021-09-09 2024-06-11 恒安嘉新(北京)科技股份公司 一种数据检测方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933150A (zh) * 2015-06-24 2015-09-23 长沙引擎信息科技有限公司 基于手机识别号确定伴随号码的方法及系统
WO2015140848A1 (ja) * 2014-03-18 2015-09-24 日本電気株式会社 制御装置、基地局装置、無線端末、及び隣接関係テーブルの更新方法
CN109165237A (zh) * 2018-08-28 2019-01-08 新华三大数据技术有限公司 伴随对象确定方法、装置以及电子设备
CN109756887A (zh) * 2018-12-28 2019-05-14 深圳市名通科技股份有限公司 高铁伴随移动端识别方法、装置及计算机可读存储介质
CN109828967A (zh) * 2018-12-03 2019-05-31 深圳市北斗智能科技有限公司 一种伴随关系获取方法、系统、设备、存储介质
CN109947793A (zh) * 2019-03-20 2019-06-28 深圳市北斗智能科技有限公司 伴随关系的分析方法、装置和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015140848A1 (ja) * 2014-03-18 2015-09-24 日本電気株式会社 制御装置、基地局装置、無線端末、及び隣接関係テーブルの更新方法
CN104933150A (zh) * 2015-06-24 2015-09-23 长沙引擎信息科技有限公司 基于手机识别号确定伴随号码的方法及系统
CN109165237A (zh) * 2018-08-28 2019-01-08 新华三大数据技术有限公司 伴随对象确定方法、装置以及电子设备
CN109828967A (zh) * 2018-12-03 2019-05-31 深圳市北斗智能科技有限公司 一种伴随关系获取方法、系统、设备、存储介质
CN109756887A (zh) * 2018-12-28 2019-05-14 深圳市名通科技股份有限公司 高铁伴随移动端识别方法、装置及计算机可读存储介质
CN109947793A (zh) * 2019-03-20 2019-06-28 深圳市北斗智能科技有限公司 伴随关系的分析方法、装置和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王保全等: "类自动车牌识别轨迹数据的伴随车辆组挖掘", 《计算机应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586586A (zh) * 2020-05-14 2020-08-25 深圳力维智联技术有限公司 一种追踪方法和系统
CN113780407A (zh) * 2021-09-09 2021-12-10 恒安嘉新(北京)科技股份公司 一种数据检测方法、装置、电子设备及存储介质
CN113780407B (zh) * 2021-09-09 2024-06-11 恒安嘉新(北京)科技股份公司 一种数据检测方法、装置、电子设备及存储介质
CN117177185A (zh) * 2023-11-02 2023-12-05 中国信息通信研究院 一种基于手机通信数据的号码伴随辅助识别方法
CN117177185B (zh) * 2023-11-02 2024-03-26 中国信息通信研究院 一种基于手机通信数据的号码伴随辅助识别方法

Also Published As

Publication number Publication date
CN110933662B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN107423434B (zh) 一种基于话单数据的潜在社会关系网络的挖掘方法
CN107040894A (zh) 一种基于手机信令数据的居民出行od获取方法
US20150237596A1 (en) Automatic detection of device type for filtering of data
CN104902438A (zh) 一种基于移动通信终端分析客流特征信息的统计方法及其系统
Fiadino et al. Steps towards the extraction of vehicular mobility patterns from 3G signaling data
CN110933662B (zh) 一种基于数据挖掘的时空伴随关系分析方法和系统
CN105513339A (zh) 一种车辆轨迹分析方法和设备
CN112770265B (zh) 一种行人身份信息获取方法、系统、服务器和存储介质
CN112954626A (zh) 手机信令数据分析方法、装置、电子设备及存储介质
CN110662212B (zh) 一种基于大数据的手机终端识别方法
CN104598543B (zh) 一种社交匹配数据挖掘系统
CN104780555A (zh) 基于信号强度的位置信息提示方法及装置
CN112863195B (zh) 车辆状态的确定方法及装置
US10419885B2 (en) Communication device and method, and computer program product for associating a mobile telephony identifier and a computer network identifier
CN113194474A (zh) 伪基站的定位方法、装置、电子设备及可读存储介质
CN110933601B (zh) 目标区域确定方法、装置、设备和介质
CN111444182A (zh) 一种数据管理方法和装置
CN111935637A (zh) 一种人流量分析方法、存储介质及处理器
KR20200061666A (ko) 인구 안내 서비스 제공방법 및 장치
Kwon et al. A novel location prediction scheme based on trajectory data
CN111324741B (zh) 用户关系识别方法、装置、设备及介质
CN106330592A (zh) 一种测试通讯模块网络性能的方法、系统及装置
CN113409018B (zh) 人流密度确定方法、装置、设备及存储介质
CN111064796B (zh) 伴随关系的分析方法及装置、分析模型的训练方法
CN101996486A (zh) 一种获取交通信息的方法、系统和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant