CN110944290B - 一种伴随关系的分析方法及装置 - Google Patents

一种伴随关系的分析方法及装置 Download PDF

Info

Publication number
CN110944290B
CN110944290B CN201911211381.7A CN201911211381A CN110944290B CN 110944290 B CN110944290 B CN 110944290B CN 201911211381 A CN201911211381 A CN 201911211381A CN 110944290 B CN110944290 B CN 110944290B
Authority
CN
China
Prior art keywords
acquisition
imsi
mac
data
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911211381.7A
Other languages
English (en)
Other versions
CN110944290A (zh
Inventor
梁秀钦
林晓明
齐云飞
丁杰超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhizhi Heshu Technology Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911211381.7A priority Critical patent/CN110944290B/zh
Publication of CN110944290A publication Critical patent/CN110944290A/zh
Application granted granted Critical
Publication of CN110944290B publication Critical patent/CN110944290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2101/00Indexing scheme associated with group H04L61/00
    • H04L2101/60Types of network addresses
    • H04L2101/618Details of network addresses
    • H04L2101/622Layer-2 addresses, e.g. medium access control [MAC] addresses
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2101/00Indexing scheme associated with group H04L61/00
    • H04L2101/60Types of network addresses
    • H04L2101/618Details of network addresses
    • H04L2101/654International mobile subscriber identity [IMSI] numbers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种伴随关系的分析方法及装置,包括:获取第一采集数据表和第二采集数据表;所述第一采集数据表包括至少一条第一采集数据,所述第一采集数据包括物理地址MAC以及所述MAC对应的采集时间和采集地点;所述第二采集数据表包括至少一条第二采集数据,所述第二采集数据包括国际移动用户识别码IMSI以及所述IMSI对应的采集时间和采集地点;将所述第一采集数据表中的MAC与第二采集数据表中的IMSI两两配对,得到待选伴随关联对;针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对。

Description

一种伴随关系的分析方法及装置
技术领域
本申请涉及数据分析领域,具体而言,涉及一种伴随关系的分析方法及装置。
背景技术
在公安场景,需要根据一种或多种轨迹确定实体之间在一定的时空范围内是否存在伴随关系,以确定一个或多个案件相关人员的行动轨迹。在移动互联网普及的今天,最能作为参考的实体就是手机。
现有技术中,Wifi围栏和电子围栏都是一种有效的采集设备信息的技术。但是这两种设备提供的是不同的服务,同时因为隐私问题,两种设备都不能采集到额外的手机信息,即,Wifi围栏技术只能采集手机的MAC(Media Access Control Address,媒体存取控制位址,又叫物理地址),电子围栏技术只能采集手机的IMSI(International MobileSubscriber Identity,国际移动用户识别码)。由于MAC和IMSI的采集技术不同,寻找MAC和IMSI之间的伴随关系缺乏成熟的方法能保证分析的结果能达到理想的精确率和召回率。
发明内容
有鉴于此,本申请的目的在于提供一种伴随关系的分析方法及装置,用于解决现有技术中如何根据不同识别码的采集数据确定实体伴随关系的问题。
第一方面,本申请实施例提供了一种伴随关系的分析方法,该方法包括:
获取第一采集数据表和第二采集数据表;所述第一采集数据表包括至少一条第一采集数据,所述第一采集数据包括物理地址MAC以及所述MAC对应的采集时间和采集地点;所述第二采集数据表包括至少一条第二采集数据,所述第二采集数据包括国际移动用户识别码IMSI以及所述IMSI对应的采集时间和采集地点;
将所述第一采集数据表中的MAC与第二采集数据表中的IMSI两两配对,得到待选伴随关联对;
针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对。
根据第一方面,本申请实施例提供了第一方面的第一种可能的实施方案,其中,在所述获取第一采集数据表和第二采集数据表之后,还包括:
将所述第一采集数据表中包含有相同MAC的第一采集数据进行合并,得到不同MAC对应的采集数据表;
将所述第二采集数据表中包含有相同IMSI的第一采集数据进行合并,得到不同IMSI对应的采集数据表。
根据第一方面,本申请实施例提供了第一方面的第二种可能的实施方案,其中,所述针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对,包括:
针对每一个所述待选伴随关联对,从所述第一采集数据表中提取当前待选伴随关联对中MAC对应的所有第一采集数据,以将提取的结果作为第一验证数据,并从所述第二采集数据表中提取当前待选伴随关联对中IMSI对应的所有第二采集数据,以将提取的结果作为第二验证数据;
确定采集地点相同的第一验证数据与第二验证数据的采集时间间隔;
确定所述采集时间间隔小于预设时间间隔出现的次数;
判断所述次数与所述第一验证数据中MAC的采集次数的比值和所述次数与所述第二验证数据中IMSI的采集次数的比值是否都达到第一预设比值;
若都达到第一预设比值,则确定第一验证数据中的MAC与第二验证数据中的IMSI为目标伴随关联对。
根据第一方面,本申请实施例提供了第一方面的第三种可能的实施方案,其中,所述针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对,包括:
针对每一个所述待选伴随关联对,从所述第一采集数据表中提取当前待选伴随关联对中MAC对应的所有第一采集数据,以将提取的结果作为第三验证数据,并从所述第二采集数据表中提取当前待选伴随关联对中IMSI对应的所有第二采集数据,以将提取的结果作为第四验证数据;
确定采集地点相同的第三验证数据与第四验证数据的采集时间间隔;
确定所述采集时间间隔小于预设时间间隔的地点数;
判断所述地点数与所述第三验证数据中MAC的采集地点数的比值和所述地点数与所述第四验证数据中IMSI的采集地点数的比值是否都达到第二预设比值;
若都达到第二预设比值,则确定第三验证数据中的MAC与第四验证数据中的IMSI为目标伴随关联对。
根据第一方面,本申请实施例提供了第一方面的第四种可能的实施方案,其中,在所述针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对之后,还包括:
根据所述目标伴随关联对中MAC与IMSI的采集时间和采集地点,确定所述目标伴随关联对对应的目标设备的轨迹。
第二方面,本申请实施例提供了一种伴随关系的分析装置,该装置包括:
获取模块,用于获取第一采集数据表和第二采集数据表;所述第一采集数据表包括至少一条第一采集数据,所述第一采集数据包括物理地址MAC以及所述MAC对应的采集时间和采集地点;所述第二采集数据表包括至少一条第二采集数据,所述第二采集数据包括国际移动用户识别码IMSI以及所述IMSI对应的采集时间和采集地点;
配对模块,用于将所述第一采集数据表中的MAC与第二采集数据表中的IMSI两两配对,得到待选伴随关联对;
分析模块,用于针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对。
根据第二方面,本申请实施例提供了第二方面的第一种可能的实施方案,其中,所述分析模块,包括:
提取单元,用于针对每一个所述待选伴随关联对,从所述第一采集数据表中提取当前待选伴随关联对中MAC对应的所有第一采集数据,以将提取的结果作为第一验证数据,并从所述第二采集数据表中提取当前待选伴随关联对中IMSI对应的所有第二采集数据,以将提取的结果作为第二验证数据;
时间单元,用于确定采集地点相同的第一验证数据与第二验证数据的采集时间间隔;
确定单元,用于确定所述采集时间间隔小于预设时间间隔出现的次数;
判断单元,用于判断所述次数与所述第一验证数据中MAC的采集次数的比值和所述次数与所述第二验证数据中IMSI的采集次数的比值是否都达到第一预设比值;若都达到第一预设比值,则确定第一验证数据中的MAC与第二验证数据中的IMSI为目标伴随关联对。
根据第二方面,本申请实施例提供了第二方面的第二种可能的实施方案,其中,在所述分析模块之后,还包括:
轨迹模块,用于根据所述目标伴随关联对中MAC与IMSI的采集时间和采集地点,确定所述目标伴随关联对对应的目标设备的轨迹。
第三方面,本申请实施例提供了一种计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面及其可能的实施方案中任一项所述的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面及其可能的实施方案中任一项所述的方法的步骤。
本申请实施例提出的一种伴随关系的分析方法,通过获取第一采集数据表和第二采集数据表,再针对每一个第一采集数据表中的MAC与第二采集数据表中的IMSI两两配对得到的待选伴随关联对,分析并判断其中的MAC对应的第一采集数据和IMSI对应的第二采集数据是否满足预设关系,以确定目标伴随关联对,提高了伴随关系分析的准确率的同时,也提高了伴随关系分析的召回率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种伴随关系的分析方法的流程示意图;
图2为本申请实施例提供的一种伴随关系的分析方法的流程示意图;
图3为本申请实施例提供的一种伴随关系的分析方法的流程示意图;
图4为本申请实施例提供的一种伴随关系的分析装置的结构示意图;
图5为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
伴随分析是针对公安场景中一种或多种轨迹完成实体之间在一定的时空范围内是否有伴随关系的分析,Wifi围栏和电子围栏都是一种有效的采集设备信息的技术,但是这两种设备提供的是不同的服务,同时因为隐私问题,两种设备都不能采集到额外的移动终端信息,即,Wifi围栏技术只能采集移动终端的MAC(Media Access Control Address,媒体存取控制位址,又叫物理地址),电子围栏技术只能采集移动终端的IMSI(InternationalMobile Subscriber Identity,国际移动用户识别码)。如何得到同时具备高精确率和高召回率的MAC与IMSI的伴随关联关系是本申请实施例要解决的难题。
本申请实施例提供了一种伴随关系的分析方法,如图1所示,包括以下步骤S101-S103:
步骤S101、获取第一采集数据表和第二采集数据表;上述第一采集数据表包括至少一条第一采集数据,上述第一采集数据包括物理地址MAC以及上述MAC对应的采集时间和采集地点;上述第二采集数据表包括至少一条第二采集数据,上述第二采集数据包括国际移动用户识别码IMSI以及上述IMSI对应的采集时间和采集地点;
步骤S102、将上述第一采集数据表中的MAC与第二采集数据表中的IMSI两两配对,得到待选伴随关联对;
步骤S103、针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对。
具体地,上述第一采集数据表和第二采集数据表都是来自某一指定区域内的采集设备在某一指定时间段内采集的。
第一采集数据表中有一条或多条MAC的第一采集数据,每一条第一采集数据中都包含了该条第一采集数据的采集对象的MAC、采集时间和采集地点。同理第二采集数据表中有一条或多条IMSI的第二采集数据,每一条第二采集数据中都包含了该条第二采集数据的采集对象的IMSI、采集时间和采集地点。
由于第一采集数据表中可能存在多条第一采集数据中的MAC是相同的,第二采集数据表中可能存在多条第二采集数据中的IMSI是相同的,因此需要先对所有MAC和IMSI进行两两配对,组成待选伴随关联对,保证每一个MAC与每一个IMSI都有相对应的待选伴随关联对。
以每一个待选伴随关联对中的MAC从第一采集数据库中筛选该MAC对应的第一采集数据,每一个待选伴随关联对中的IMSI从第二采集数据库中筛选该IMSI对应的第二采集数据,然后根据筛选出的第一采集数据和第二采集数据进行伴随关系分析,将满足预设关系的待选伴随关联对确定为目标伴随关联对。其中对于筛选出的第一采集数据和第二采集数据的伴随分析,是由强规则引擎和机器学习算法协同来实现的。
本申请实施例提出的一种伴随关系的分析方法,通过获取第一采集数据表和第二采集数据表,再针对每一个第一采集数据表中的MAC与第二采集数据表中的IMSI两两配对得到的待选伴随关联对,分析并判断其中的MAC对应的第一采集数据和IMSI对应的第二采集数据是否满足预设关系,以确定目标伴随关联对,提高了伴随关系分析的准确率的同时,也提高了伴随关系分析的召回率。
在一可选的实施例中,在上述步骤S101、获取第一采集数据表和第二采集数据表之后,还包括:
步骤1011、将上述第一采集数据表中包含有相同MAC的第一采集数据进行合并,得到不同MAC对应的采集数据表;
步骤1012、将上述第二采集数据表中包含有相同IMSI的第一采集数据进行合并,得到不同IMSI对应的采集数据表。
具体地,获取到的第一采集数据表和第二采集数据表中都是零散的采集数据,为了方便后续对于相同MAC和相同IMSI的采集时间和采集地点的使用,在获取到第一采集数据表和第二采集数据表后,立即对第一采集数据表和第二采集数据表进行整理拆分。将第一采集数据表中包含相同MAC的第一采集数据合并,对于同一MAC的第一采集数据,由于MAC相同,所以只需要对采集时间以及对应的采集地点进行罗列整理,得到不同MAC对应的采集数据表。同理,将第二采集数据表中包含相同IMSI的第一采集数据合并,对于同一IMSI的第一采集数据,由于IMSI相同,所以只需要对采集时间以及对应的采集地点进行罗列整理,得到不同IMSI对应的采集数据表。
在一可选的实施例中,上述步骤S103、针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对,如图2所示,该方法包括:
步骤S1031、针对每一个上述待选伴随关联对,从上述第一采集数据表中提取当前待选伴随关联对中MAC对应的所有第一采集数据,以将提取的结果作为第一验证数据,并从上述第二采集数据表中提取当前待选伴随关联对中IMSI对应的所有第二采集数据,以将提取的结果作为第二验证数据;
步骤S1032、确定采集地点相同的第一验证数据与第二验证数据的采集时间间隔;
步骤S1033、确定上述采集时间间隔小于预设时间间隔出现的次数;
步骤S1034、判断上述次数与上述第一验证数据中MAC的采集次数的比值和上述次数与上述第二验证数据中IMSI的采集次数的比值是否都达到第一预设比值;
若都达到第一预设比值,则确定第一验证数据中的MAC与第二验证数据中的IMSI为目标伴随关联对。
具体地,为了对每一个待选伴随关联对中的MAC和IMSI进行伴随关系分析,需要从第一采集数据表和第二采集数据表中将当前待选伴随关联对中的MAC和IMSI对应的采集数据提取出来,得到第一验证数据和第二验证数据。
然后以第一验证数据和第二验证数据中携带的采集地点为依据,将第一验证数据和第二验证数据按采集地点进行分组。对于每个组中的第一验证数据和第二验证数据,计算每一个第一验证数据和每一个第二验证数据的采集时间间隔,也就是,每一个第一验证数据中的采集时间与每一个第二验证数据中的采集时间的差值。
由于不同区域的采集设备性能、采集设备之间的位置关系等条件的不同,造成不同区域对于伴随关系的判断标准不同,根据第一采集数据表和第二采集数据表的数据来源的采集区域,设定对应的预设时间间隔作为判断在该采集区域中判断MAC和IMSI在任一采集地点伴随的条件,当在任一采集地点上述时间间隔在预设时间间隔的范围内时,则确定在该采集地点上述MAC和IMSI是伴随状态。并统计上述MAC和IMSI满足上述伴随的条件的次数。
但待定伴随关系对中的MAC和IMSI存在偶然在指定时间段内于指定采集区域中的一个或几个采集地点出现的时间间隔在预设时间间隔内。为了尽可能减小该类偶然事件对伴随关系分析的结果的影响,需要以上述次数分别与MAC的第一验证数据的个数(也就是第一验证数据中MAC的采集次数)和IMSI的第二验证数据的个数(也就是第二验证数据中IMSI的采集次数)做比,来确定得到的两个比值是否都达到第一预设比值。当得到的两个比值都达到了第一预设比值的时候,就可以排除该待定伴随关系对是上述偶然事件的情况,确定为上述待选伴随关系对中的MAC和IMSI是目标伴随关系对。第一预设比值是根据历史采集数据进行的数据分析验证后得到的,也可以根据需求设定成任意值。
本申请实施例所提供的伴随关系的分析方法,除对于MAC与IMSI的伴随关系的分析以外,同样适用于MAC与MAC的伴随关系分析和IMSI与IMSI的伴随关系分析。
在实际使用本申请实施例提供的方法时,可以通过规则引擎和机器学习方法进行模型训练以得到伴随关系分析模型,伴随关系分析模型训练方法如下:
对训练模型中的规则引擎和机器学习方法进行设定,根据预设时间间隔设定规则引擎,例如,设定规则引擎为一天内在相同地点出现的时间间隔小于3秒;根据预设比值设定机器学习方法,例如,当前MAC的验证数据的个数与规则引擎计算出的次数的比值和当前IMSI的验证数据的个数与规则引擎计算出的次数的比值同时大于90%时则确定当前MAC和当前IMSI为伴随关系对。
获取多个已确定为伴随关系的正样本伴随关系对对应的样本验证数据,以及多个已确定为非伴随关系的负样本伴随关机对对应的样本验证数据。
将上述多个正样本伴随关系对对应的样本验证数据输入到训练模型中进行正训练,得到的伴随关系对的个数与正样本伴随关系对的个数做比较,得到正训练准确率,若正训练准确率未达到预设准确率,则重新对训练模型进行正训练;若正训练准确率达到预设准确率则确认完成训练模型的正训练。
将上述多个负样本伴随关系对对应的样本验证数据输入到训练模型中进行负训练,得到的伴随关系对的个数与负样本伴随关系对的个数做比较,得到负训练准确率,若负训练准确率未达到预设准确率,则重新对训练模型进行负训练;若负训练准确率达到预设准确率则确认完成训练模型的负训练。
当上述训练模型的正训练和负训练都完成时,确定训练模型为伴随关系分析模型。与上述伴随关系的分析方法相同,该伴随关系分析模型的训练方法也同样适用于MAC与MAC的伴随关系分析模型的训练和IMSI与IMSI的伴随关系分析模型的训练。
本申请实施例提出的一种伴随关系的分析方法,通过确定采集时间间隔小于预设时间间隔出现的次数,并以第一预设比值对确定的次数与第一验证数据中MAC的采集次数的比值和确定的次数与上述第二验证数据中IMSI的采集次数的比值进行验证,将验证成功的第一验证数据中的MAC与第二验证数据中的IMSI作为目标伴随关联对,提高了伴随关系分析的准确率的同时,也提高了伴随关系分析的召回率。
在一可选的实施例中,上述步骤S103、针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对,如图3所示,该方法包括:
步骤S1035、针对每一个上述待选伴随关联对,从上述第一采集数据表中提取当前待选伴随关联对中MAC对应的所有第一采集数据,以将提取的结果作为第三验证数据,并从上述第二采集数据表中提取当前待选伴随关联对中IMSI对应的所有第二采集数据,以将提取的结果作为第四验证数据;
步骤S1036、确定采集地点相同的第三验证数据与第四验证数据的采集时间间隔;
步骤S1037、确定上述采集时间间隔小于预设时间间隔的地点数;
步骤S1038、判断上述地点数与上述第三验证数据中MAC的采集地点数的比值和上述地点数与上述第四验证数据中IMSI的采集地点数的比值是否都达到第二预设比值;
若都达到第二预设比值,则确定第三验证数据中的MAC与第四验证数据中的IMSI为目标伴随关联对。
具体地,为了对每一个待选伴随关联对中的MAC和IMSI进行伴随关系分析,需要从第一采集数据表和第二采集数据表中将当前待选伴随关联对中的MAC和IMSI对应的采集数据提取出来,得到第三验证数据和第四验证数据。
然后以第三验证数据和第四验证数据中携带的采集地点为依据,将第三验证数据和第四验证数据按采集地点进行分组。对于每个组中的第三验证数据和第四验证数据,计算每一个第三验证数据和每一个第四验证数据的采集时间间隔,也就是,每一个第三验证数据中的采集时间与每一个第四验证数据中的采集时间的差值。
由于不同区域的采集设备性能、采集设备之间的位置关系等条件的不同,造成不同区域对于伴随关系的判断标准不同,根据第一采集数据表和第二采集数据表的数据来源的采集区域,设定对应的预设时间间隔作为判断在该采集区域中判断MAC和IMSI在任一采集地点伴随的条件,当在任一采集地点上述时间间隔在预设时间间隔的范围内时,则确定在该采集地点上述MAC和IMSI是伴随状态。并统计上述MAC和IMSI满足上述伴随的条件的采集地点数。
但待定伴随关系对中的MAC和IMSI存在偶然在指定时间段内于指定采集区域中的一个或几个采集地点出现的时间间隔在预设时间间隔内。为了尽可能减小该类偶然事件对伴随关系分析的结果的影响,需要以上述采集地点数分别与MAC的第三验证数据中的不同采集地点数(也就是第三验证数据中MAC的采集采集地点数)和IMSI的第四验证数据的不同采集地点数(也就是第四验证数据中IMSI的采集采集地点数)做比,来确定得到的两个比值是否都达到第二预设比值。当得到的两个比值都达到了第二预设比值的时候,就可以排除该待定伴随关系对是上述偶然事件的情况,确定为上述待选伴随关系对中的MAC和IMSI是目标伴随关系对。第二预设比值是根据历史采集数据进行的数据分析验证后得到的,也可以根据需求设定成任意值。
本申请实施例所提供的伴随关系的分析方法,除对于MAC与IMSI的伴随关系的分析以外,同样适用于MAC与MAC的伴随关系分析和IMSI与IMSI的伴随关系分析。
在实际使用本申请实施例提供的方法时,可以通过规则引擎和机器学习方法进行模型训练以得到伴随关系分析模型,伴随关系分析模型训练方法如下:
对训练模型中的规则引擎和机器学习方法进行设定,根据预设时间间隔设定规则引擎,例如,设定规则引擎为一天内在相同地点出现的时间间隔小于3秒;根据预设比值设定机器学习方法,例如,当前MAC的验证数据中的不同采集地点数与规则引擎计算出的地点数的比值和当前IMSI的验证数据中的不同采集地点数与规则引擎计算出的地点数的比值同时大于90%时则确定当前MAC和当前IMSI为伴随关系对。
获取多个已确定为伴随关系的正样本伴随关系对对应的样本验证数据,以及多个已确定为非伴随关系的负样本伴随关机对对应的样本验证数据。
将上述多个正样本伴随关系对对应的样本验证数据输入到训练模型中进行正训练,得到的伴随关系对的伴随地点数与正样本伴随关系对的伴随地点数做比较,得到正训练准确率,若正训练准确率未达到预设准确率,则重新对训练模型进行正训练;若正训练准确率达到预设准确率则确认完成训练模型的正训练。
将上述多个负样本伴随关系对对应的样本验证数据输入到训练模型中进行负训练,得到的伴随关系对的伴随地点数与负样本伴随关系对的伴随地点数做比较,得到负训练失误地点数,若负训练失误地点数未在预设误差地点数内,则重新对训练模型进行负训练;若负训练失误地点数在预设误差地点数内则确认完成训练模型的负训练。
当上述训练模型的正训练和负训练都完成时,确定训练模型为伴随关系分析模型。与上述伴随关系的分析方法相同,该伴随关系分析模型的训练方法也同样适用于MAC与MAC的伴随关系分析模型的训练和IMSI与IMSI的伴随关系分析模型的训练。
本申请实施例提出的一种伴随关系的分析方法,通过确定采集时间间隔小于预设时间间隔的地点数,并以第二预设比值对确定的地点数与第三验证数据中MAC的采集地点数的比值和确定的地点数与第四验证数据中IMSI的采集地点数的比值进行验证,将验证成功的第三验证数据中的MAC与第四验证数据中的IMSI确定为目标伴随关联对,提高了伴随关系分析的准确率的同时,也提高了伴随关系分析的召回率。
在一可选的实施例中,在上述步骤S103、针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对之后,还包括:
步骤104、根据上述目标伴随关联对中MAC与IMSI的采集时间和采集地点,确定上述目标伴随关联对对应的目标设备的轨迹。
具体地,上述目标伴随关联对所关联的MAC对应的移动终端和IMSI对应的移动终端之间的关系存在两种情况:
1)当该目标伴随关联对中MAC对应的移动终端和IMSI对应的移动终端是同一移动终端,但由于某些采集地点可能只有一种采集设备,所以有部分采集地点只有MAC或IMSI的采集数据。判定是该种情况的依据是目标伴随关联对中不存在任一组采集时间相同或相近且采集地点不同的MAC的采集数据和IMSI的采集数据。那么根据上述目标设备的轨迹是根据该目标伴随关联对中MAC与IMSI的采集时间和采集地点,按照采集时间的先后顺序对采集地点进行连接得到的轨迹;
2)当该目标伴随关联对中MAC对应的移动终端和IMSI对应的移动终端是不同移动终端。判定是该种情况的依据是目标伴随关联对中存在任一组采集时间相同或相近且采集地点不同的MAC的采集数据和IMSI的采集数据。那么根据上述目标设备的轨迹是根据该目标伴随关联对中MAC与IMSI的采集时间和采集地点,按照采集时间的先后顺序对采集地点进行分别连接得到的MAC轨迹和IMSI轨迹。
本申请实施例提供了一种伴随关系的分析装置,如图4所示,该装置包括:
获取模块40,用于获取第一采集数据表和第二采集数据表;上述第一采集数据表包括至少一条第一采集数据,上述第一采集数据包括物理地址MAC以及上述MAC对应的采集时间和采集地点;上述第二采集数据表包括至少一条第二采集数据,上述第二采集数据包括国际移动用户识别码IMSI以及上述IMSI对应的采集时间和采集地点;
配对模块41,用于将上述第一采集数据表中的MAC与第二采集数据表中的IMSI两两配对,得到待选伴随关联对;
分析模块42,用于针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对。
在一可选的实施例中,上述分析模块42,包括:
提取单元421,用于针对每一个上述待选伴随关联对,从上述第一采集数据表中提取当前待选伴随关联对中MAC对应的所有第一采集数据,以将提取的结果作为第一验证数据,并从上述第二采集数据表中提取当前待选伴随关联对中IMSI对应的所有第二采集数据,以将提取的结果作为第二验证数据;
时间单元422,用于确定采集地点相同的第一验证数据与第二验证数据的采集时间间隔;
确定单元423,用于确定上述采集时间间隔小于预设时间间隔出现的次数;
判断单元424,用于判断上述次数与上述第一验证数据中MAC的采集次数的比值和上述次数与上述第二验证数据中IMSI的采集次数的比值是否都达到第一预设比值;若都达到第一预设比值,则确定第一验证数据中的MAC与第二验证数据中的IMSI为目标伴随关联对。
在一可选的实施例中,在上述分析模块42之后,还包括:
轨迹模块43,用于根据上述目标伴随关联对中MAC与IMSI的采集时间和采集地点,确定上述目标伴随关联对对应的目标设备的轨迹。
对应于图1中的一种伴随关系的分析方法,本申请实施例还提供了一种计算机设备500,如图5所示,该设备包括存储器501、处理器502及存储在该存储器501上并可在该处理器502上运行的计算机程序,其中,上述处理器502执行上述计算机程序时实现上述一种伴随关系的分析方法。
具体地,上述存储器501和处理器502能够为通用的存储器和处理器,这里不做具体限定,当处理器502运行存储器501存储的计算机程序时,能够执行上述一种伴随关系的分析方法,解决了现有技术中如何根据不同识别码的采集数据确定实体伴随关系的问题。
对应于图1中的一种伴随关系的分析方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述一种伴随关系的分析方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述一种伴随关系的分析方法,解决了现有技术中如何根据不同识别码的采集数据确定实体伴随关系的问题,本申请实施例提出的一种伴随关系的分析方法,通过获取第一采集数据表和第二采集数据表,再针对每一个第一采集数据表中的MAC与第二采集数据表中的IMSI两两配对得到的待选伴随关联对,分析并判断其中的MAC对应的第一采集数据和IMSI对应的第二采集数据是否满足预设关系,以确定目标伴随关联对,提高了伴随关系分析的准确率的同时,也提高了伴随关系分析的召回率。
在本申请所提供的实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种伴随关系的分析方法,其特征在于,包括:
获取第一采集数据表和第二采集数据表;所述第一采集数据表包括至少一条第一采集数据,所述第一采集数据包括物理地址MAC以及所述MAC对应的采集时间和采集地点;所述第二采集数据表包括至少一条第二采集数据,所述第二采集数据包括国际移动用户识别码IMSI以及所述IMSI对应的采集时间和采集地点;
将所述第一采集数据表中的MAC与第二采集数据表中的IMSI两两配对,得到待选伴随关联对;
针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对;
其中,所述判断待选伴随关联对中的MAC与IMSI是否满足预设关系,根据以下至少一种数据进行:所述待选伴随关联对中的MAC和IMSI在相同采集地点下采集时间间隔小于预设时间间隔出现的次数,和所述待选伴随关联对中的MAC和IMSI在相同采集地点下采集时间间隔小于预设时间间隔的地点数;
所述针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对,包括:
针对每一个所述待选伴随关联对,从所述第一采集数据表中提取当前待选伴随关联对中MAC对应的所有第一采集数据,以将提取的结果作为第一验证数据,并从所述第二采集数据表中提取当前待选伴随关联对中IMSI对应的所有第二采集数据,以将提取的结果作为第二验证数据;
确定采集地点相同的第一验证数据与第二验证数据的采集时间间隔;
确定所述采集时间间隔小于预设时间间隔出现的次数;
判断所述次数与所述第一验证数据中MAC的采集次数的比值和所述次数与所述第二验证数据中IMSI的采集次数的比值是否都达到第一预设比值;
若都达到第一预设比值,则确定第一验证数据中的MAC与第二验证数据中的IMSI为目标伴随关联对。
2.根据权利要求1所述的方法,其特征在于,在所述获取第一采集数据表和第二采集数据表之后,还包括:
将所述第一采集数据表中包含有相同MAC的第一采集数据进行合并,得到不同MAC对应的采集数据表;
将所述第二采集数据表中包含有相同IMSI的第一采集数据进行合并,得到不同IMSI对应的采集数据表。
3.根据权利要求1所述的方法,其特征在于,所述针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对,包括:
针对每一个所述待选伴随关联对,从所述第一采集数据表中提取当前待选伴随关联对中MAC对应的所有第一采集数据,以将提取的结果作为第三验证数据,并从所述第二采集数据表中提取当前待选伴随关联对中IMSI对应的所有第二采集数据,以将提取的结果作为第四验证数据;
确定采集地点相同的第三验证数据与第四验证数据的采集时间间隔;
确定所述采集时间间隔小于预设时间间隔的地点数;
判断所述地点数与所述第三验证数据中MAC的采集地点数的比值和所述地点数与所述第四验证数据中IMSI的采集地点数的比值是否都达到第二预设比值;
若都达到第二预设比值,则确定第三验证数据中的MAC与第四验证数据中的IMSI为目标伴随关联对。
4.根据权利要求1所述的方法,其特征在于,在所述针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对之后,还包括:
根据所述目标伴随关联对中MAC与IMSI的采集时间和采集地点,确定所述目标伴随关联对对应的目标设备的轨迹。
5.一种伴随关系的分析装置,其特征在于,包括:
获取模块,用于获取第一采集数据表和第二采集数据表;所述第一采集数据表包括至少一条第一采集数据,所述第一采集数据包括物理地址MAC以及所述MAC对应的采集时间和采集地点;所述第二采集数据表包括至少一条第二采集数据,所述第二采集数据包括国际移动用户识别码IMSI以及所述IMSI对应的采集时间和采集地点;
配对模块,用于将所述第一采集数据表中的MAC与第二采集数据表中的IMSI两两配对,得到待选伴随关联对;
分析模块,用于针对每一个待选伴随关联对中的MAC对应的第一采集数据和IMSI对应的第二采集数据进行分析,判断待选伴随关联对中的MAC与IMSI是否满足预设关系,得到目标伴随关联对;
其中,所述判断待选伴随关联对中的MAC与IMSI是否满足预设关系,根据以下至少一种数据进行:所述待选伴随关联对中的MAC和IMSI在相同采集地点下采集时间间隔小于预设时间间隔出现的次数,和所述待选伴随关联对中的MAC和IMSI在相同采集地点下采集时间间隔小于预设时间间隔的地点数;
所述分析模块,包括:
提取单元,用于针对每一个所述待选伴随关联对,从所述第一采集数据表中提取当前待选伴随关联对中MAC对应的所有第一采集数据,以将提取的结果作为第一验证数据,并从所述第二采集数据表中提取当前待选伴随关联对中IMSI对应的所有第二采集数据,以将提取的结果作为第二验证数据;
时间单元,用于确定采集地点相同的第一验证数据与第二验证数据的采集时间间隔;
确定单元,用于确定所述采集时间间隔小于预设时间间隔出现的次数;
判断单元,用于判断所述次数与所述第一验证数据中MAC的采集次数的比值和所述次数与所述第二验证数据中IMSI的采集次数的比值是否都达到第一预设比值;若都达到第一预设比值,则确定第一验证数据中的MAC与第二验证数据中的IMSI为目标伴随关联对。
6.根据权利要求5所述的装置,其特征在于,在所述分析模块之后,还包括:
轨迹模块,用于根据所述目标伴随关联对中MAC与IMSI的采集时间和采集地点,确定所述目标伴随关联对对应的目标设备的轨迹。
7.一种计算机设备, 包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-4中任一项所述的方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-4中任一项所述的方法的步骤。
CN201911211381.7A 2019-12-02 2019-12-02 一种伴随关系的分析方法及装置 Active CN110944290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911211381.7A CN110944290B (zh) 2019-12-02 2019-12-02 一种伴随关系的分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911211381.7A CN110944290B (zh) 2019-12-02 2019-12-02 一种伴随关系的分析方法及装置

Publications (2)

Publication Number Publication Date
CN110944290A CN110944290A (zh) 2020-03-31
CN110944290B true CN110944290B (zh) 2021-09-10

Family

ID=69908729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911211381.7A Active CN110944290B (zh) 2019-12-02 2019-12-02 一种伴随关系的分析方法及装置

Country Status (1)

Country Link
CN (1) CN110944290B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586586B (zh) * 2020-05-14 2022-05-20 深圳力维智联技术有限公司 一种追踪方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109828967A (zh) * 2018-12-03 2019-05-31 深圳市北斗智能科技有限公司 一种伴随关系获取方法、系统、设备、存储介质
CN109947793A (zh) * 2019-03-20 2019-06-28 深圳市北斗智能科技有限公司 伴随关系的分析方法、装置和存储介质
CN109992604A (zh) * 2019-01-09 2019-07-09 武汉白虹软件科技有限公司 一种陆路查缉信息化系统及查缉方法
CN110493368A (zh) * 2019-08-21 2019-11-22 北京明略软件系统有限公司 设备标识的匹配方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL224483A (en) * 2013-01-29 2017-03-30 Verint Systems Ltd System and method for geography-based association of cellular identifiers and local wireless network identifiers
CN107393310A (zh) * 2017-09-11 2017-11-24 山东创惠电子科技有限责任公司 全制式车辆特征识别与手机热点管控采集比对系统及应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109828967A (zh) * 2018-12-03 2019-05-31 深圳市北斗智能科技有限公司 一种伴随关系获取方法、系统、设备、存储介质
CN109992604A (zh) * 2019-01-09 2019-07-09 武汉白虹软件科技有限公司 一种陆路查缉信息化系统及查缉方法
CN109947793A (zh) * 2019-03-20 2019-06-28 深圳市北斗智能科技有限公司 伴随关系的分析方法、装置和存储介质
CN110493368A (zh) * 2019-08-21 2019-11-22 北京明略软件系统有限公司 设备标识的匹配方法及装置

Also Published As

Publication number Publication date
CN110944290A (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
CN111614690B (zh) 一种异常行为检测方法及装置
CN106980573B (zh) 一种构建测试用例请求对象的方法、装置及系统
CN106934627B (zh) 一种电商行业作弊行为的检测方法及装置
WO2017071126A1 (zh) 触屏用户按键行为模式构建与分析系统及其身份识别方法
CN107341220B (zh) 一种多源数据融合方法和装置
CN107798541B (zh) 一种用于在线业务的监控方法及系统
CN106713579B (zh) 一种电话号码识别方法及装置
CN107665289B (zh) 一种运营商数据的处理方法及系统
CN107515915A (zh) 基于用户行为数据的用户标识关联方法
CN106776901B (zh) 数据提取方法、装置及系统
CN110060087B (zh) 异常数据的检测方法、装置和服务器
CN110944290B (zh) 一种伴随关系的分析方法及装置
CN113989859B (zh) 一种防刷机设备指纹相似度识别方法和装置
Jiang et al. Camera fingerprint: A new perspective for identifying user's identity
CN108764369A (zh) 基于数据融合的人物识别方法、装置和计算机存储介质
CN108650145A (zh) 一种家庭宽带WiFi下手机号码特征自动提取方法
CN107220262B (zh) 信息处理方法和装置
CN108171053B (zh) 一种规则发现的方法以及系统
EP3451611A1 (en) Method and apparatus for setting mobile device identifier
CN111915378A (zh) 用户属性预测方法、装置、计算机设备及存储介质
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN113051601A (zh) 敏感数据识别方法、装置、设备和介质
CN113011503B (zh) 一种电子设备的数据取证方法、存储介质及终端
CN112818150B (zh) 一种图片内容审核方法、装置、设备和介质
CN112100294A (zh) 一种面向网络平台的用户关系分析方法、装置及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220602

Address after: 15, second floor, east side of clean coal workshop, No. 68, Shijingshan Road, Shijingshan District, Beijing 100043 (cluster registration)

Patentee after: Beijing Zhizhi Heshu Technology Co.,Ltd.

Address before: No.310, building 4, courtyard 8, Dongbei Wangxi Road, Haidian District, Beijing

Patentee before: MININGLAMP SOFTWARE SYSTEMS Co.,Ltd.