CN111064796B - 伴随关系的分析方法及装置、分析模型的训练方法 - Google Patents

伴随关系的分析方法及装置、分析模型的训练方法 Download PDF

Info

Publication number
CN111064796B
CN111064796B CN201911323931.4A CN201911323931A CN111064796B CN 111064796 B CN111064796 B CN 111064796B CN 201911323931 A CN201911323931 A CN 201911323931A CN 111064796 B CN111064796 B CN 111064796B
Authority
CN
China
Prior art keywords
appearance
data
identity
same
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911323931.4A
Other languages
English (en)
Other versions
CN111064796A (zh
Inventor
梁秀钦
罗华刚
李迪民
齐云飞
丁杰超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911323931.4A priority Critical patent/CN111064796B/zh
Publication of CN111064796A publication Critical patent/CN111064796A/zh
Application granted granted Critical
Publication of CN111064796B publication Critical patent/CN111064796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2101/00Indexing scheme associated with group H04L61/00
    • H04L2101/60Types of network addresses
    • H04L2101/618Details of network addresses
    • H04L2101/622Layer-2 addresses, e.g. medium access control [MAC] addresses
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2101/00Indexing scheme associated with group H04L61/00
    • H04L2101/60Types of network addresses
    • H04L2101/618Details of network addresses
    • H04L2101/654International mobile subscriber identity [IMSI] numbers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种伴随关系的分析方法、分析模型的训练方法及装置。该分析方法包括:获取多个感知设备采集到的在预设时间段内出现在各感知设备的采集范围内的电子设备的身份标识、出现时间和出现地点,作为身份标识的原始数据;确定同一身份标识的出现时间与出现地点的规律;根据所述出现时间与出现地点的规律对所述原始数据进行填补,得到所述身份标识的填补数据;分别提取所述原始数据和所述填补数据中的所述身份标识的出现特征;根据所述原始数据和所述填补数据分别对应的所述身份标识的出现特征确定所述身份标识之间的伴随关系。该分析方法提高了伴随关系分析的准确性。

Description

伴随关系的分析方法及装置、分析模型的训练方法
技术领域
本申请涉及信息技术领域,具体而言,涉及一种伴随关系的分析方法及装置、分析模型的训练方法。
背景技术
伴随关系分析是针对公安场景,根据一种或多种轨迹分析实体之间在一定的时空范围内是否有伴随关系。
在现有技术中,使用规则引擎定义规则,然后将满足规则的MAC(Media AccessControl Address,媒体存储控制地址)号和MAC号、IMSI(International MobileSubscriber Identity,国际移动用户识别码)和IMSI号对找到,还有MAC号和IMSI号伴随的关系找出来。因为MAC和IMSI都是通过同时采集附近范围内的所有的相关设备的信息得到的,使用规则引擎找出来的MAC-MAC、IMSI-IMSI、MAC-IMSI对都是多对多不相关的数据集。规则引擎找出来的数据很难兼顾精确率和召回率,很难定义合适的规则以满足实际使用需求。
可见,现有技术的伴随关系的分析方式中,数据处理的方式不太贴合实际,进而准确率不高。
发明内容
本申请实施例的目的在于提供一种伴随关系的分析方法及装置、分析模型的训练方法,用以提高伴随关系分析的准确性。
第一方面,本申请实施例提供一种伴随关系的分析方法,包括:获取多个感知设备采集到的在预设时间段内出现在各感知设备的采集范围内的电子设备的身份标识、出现时间和出现地点,作为身份标识的原始数据;确定同一身份标识的出现时间与出现地点的规律;根据所述出现时间与出现地点的规律对所述原始数据进行填补,得到所述身份标识的填补数据;分别提取所述原始数据和所述填补数据中的所述身份标识的出现特征;根据所述原始数据和所述填补数据分别对应的所述身份标识的出现特征确定所述身份标识之间的伴随关系。
在本申请实施例中,当采集到身份标识的原始数据后,确定同一身份标识的出现时间和出现地点的规律,对原始数据进行填补,得到身份标识的填补数据,然后再基于原始数据和填补数据得到身份标识的出现特征,进而根据出现特征确定身份标识之间的伴随关系。与现有技术相比,基于感知设备采集到的数据,检测数据的规律性,对于有规律性的数据,合理的填补数据,使数据更贴合实际;基于原始数据和补充后的数据提取出现特征,进而确定伴随关系。从时间序列的规律入手,数据贴合实际,基于出现特征进行伴随关系分析,提高伴随关系分析的准确性。
作为一种可能的实现方式,确定同一身份标识的出现时间与出现地点的规律,包括:确定同一身份标识在相同的出现地点对应的出现时间;对应的,根据所述出现时间与出现地点的规律对所述原始数据进行填补,得到所述身份标识的填补数据,包括:根据同一身份标识在相同的出现地点对应的出现时间检测该身份标识在所述相同的出现地点是否有缺失的出现时间;若所述同一身份标识在所述相同的出现地点有缺失的出现时间,在所述缺失的出现时间处填补与所述出现地点对应的出现时间。
在本申请实施例中,在分析出现时间与出现地点的出现规律时,可以是确定同一身份标识在相同的出现地点对应的出现时间,进而在填补数据时,可以检测在对应的出现地点处,是否有缺失的出现时间,如果有,就可以进行填补,避免因外界因素导致的数据缺失问题。
作为一种可能的实现方式,所述身份标识包括:MAC和IMSI,分别提取所述原始数据和所述填补数据中的所述身份标识的出现特征,包括:提取所述原始数据中MAC和IMSI的第一出现特征;所述第一出现特征包括:MAC和IMSI分别的出现地点数量;MAC和IMSI在预设的第一时间间隔内在同一出现地点出现的出现地点数量;提取所述填补数据中MAC和IMSI的第二出现特征;所述第二出现特征包括:在预设的第二时间间隔内,MAC和IMSI出现在相同的出现地点的次数以及所述相同的出现地点的数量;所述第二时间间隔小于所述第一时间间隔。
在本申请实施例中,在提取出现特征时,该出现特征可以是出现地点的特征,也可以是出现时间与出现地点结合的特征,保证提取出的出现特征能够更全面的体现身份标识的出现特点,使最终的伴随关系分析结果更准确。
作为一种可能的实现方式,根据所述原始数据和所述填补数据分别对应的所述身份标识的出现特征确定所述身份标识之间的伴随关系,包括:获取预先存储的伴随关系确定规则;将所述确定规则以及所述原始数据和所述填补数据分别对应的所述身份标识的出现特征反馈给用户;接收所述用户输入的所述身份标识之间的伴随关系。
在本申请实施例中,在根据出现特征确定伴随关系时,可以将确定规则和出现特征一并反馈给用户,使用户快速的确定出身份标识之间的伴随关系。
第二方面,本申请实施例提供一种伴随关系的分析方法,包括:获取多个感知设备采集到的在预设时间段内出现在各感知设备的采集范围内的电子设备的身份标识、出现时间和出现地点,作为身份标识的原始数据;确定同一身份标识的出现时间与出现地点的规律;根据所述出现时间与出现地点的规律对所述原始数据进行填补,得到所述身份标识的填补数据;分别提取所述原始数据和所述填补数据中的所述身份标识的出现特征;将所述身份标识的出现特征输入到预先训练好的分析模型中,得到所述身份标识之间的伴随关系。
在本申请实施例中,基于感知设备采集到的数据,检测数据的规律性,对于有规律性的数据,合理的填补数据,使数据更贴合实际;基于原始数据和补充后的数据提取出现特征,将出现特征输入到预先训练好的分析模型中,进而得到身份标识之间的伴随关系。从时间序列的规律入手,数据贴合实际,基于出现特征和预先训练好的分析模型进行伴随关系分析,提高伴随关系分析的准确性。
第三方面,本申请实施例提供一种分析模型的训练方法,包括:获取利用第一方面以及第一方面任意一种可能的实现方式所述的方法得到的所述原始数据和所述填补数据分别对应的所述身份标识的出现特征、所述身份标识之间的伴随关系;基于所述身份标识之间的伴随关系对所述原始数据和所述填补数据分别对应的所述身份标识的出现特征进行筛选,得到筛选后的数据;根据所述筛选后的数据中的身份标识之间的伴随关系为所述筛选后的数据中的身份标识打上标签,得到样本数据;基于所述样本数据对初始的分析模型进行训练,得到训练好的分析模型。
在本申请实施例中,在利用第一方面以及第一方面任意一种可能的实现方式所述的方法得到原始数据和填补数据分别对应的身份标识的出现特征、身份标识之间的伴随关系后,还可以利用这些数据进行分析模型的训练,使训练好的模型可用于对伴随关系的预测分析。
作为一种可能的实现方式,根据所述筛选后的数据中的身份标识之间的伴随关系为所述筛选后的数据中的身份标识打上标签,包括:根据所述筛选后的数据中的身份标识之间的伴随关系为确定具有伴随关系的身份标识打上第一标签;根据所述筛选后的数据中的身份标识之间的伴随关系为不确定具有伴随关系的身份标识打上第二标签。
在本申请实施例中,在为数据打标签时,可以分为确定具有伴随关系的第一标签,和不确定具有伴随关系的第二标签,使样本数据更丰富,提高训练得到的分析模型的准确率和召回率。
第四方面,本申请实施例提供一种伴随关系的分析装置,所述装置包括用于实现第一方面以及第一方面任意一种可能的实现方式中所述的方法的功能模块。
第五方面,本申请实施例提供一种伴随关系的分析装置,所述装置包括用于实现第二方面所述的方法的功能模块。
第六方面,本申请实施例提供一种分析模型的训练装置,所述装置包括用于实现第三方面以及第三方面任意一种可能的实现方式中所述的方法的功能模块。
第七方面,本申请实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如第一方面以及第一方面任意一种可能的实现方式、第二方面以及第三方面以及第三方面任意一种可能的实现方式中所述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的伴随关系的分析方法的流程图;
图2为本申请实施例提供的伴随关系的分析装置的功能模块结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请实施例所提供的技术方案应用于公安场景,可应用于公安机构的信息处理系统或者数据处理系统,在该信息处理系统或者数据处理系统中,可供各类数据的查询,也可供伴随关系的查询。对于该信息处理系统或者数据处理系统,可通过服务器与客户端或者服务器与浏览器的系统结构实现。浏览器或者客户端作为人机交互平台,在浏览器或者客户端上,可以接收用户发起的各类请求或者上传的各种数据等,然后将请求或者数据发送给服务器,服务器进行处理,得到对应的处理结果,然后反馈给浏览器或者客户端,浏览器或者客户端再反馈给用户。对于服务器来说,既可以存储数据,也可以接收数据,还可以处理数据,例如:可以接收客户端或者浏览器发送的数据,还可以接收数据采集设备采集的数据等。
进一步的,本申请实施例所涉及的伴随关系分析指的是实体的ID(Identitydocument,身份标识)之间的伴随关系分析。伴随关系可以代表两个实体之间具有关联,例如两个人可能具有某种关系,是同一个案件中的共同作案人等。对于实体,是指事件中的个体,如人或者人的所属物,例如:人的手机、车等。对于这些实体来说,可以由身份标识来区分,如人可以通过姓名和身份证号区分;如手机可以通过硬件地址和物理地址等进行区分。在公安的办案场景中,通常需要对不同的涉案人员之间的关系进行分析,在分析这些关系时,就可以借助实体的身份标识之间的关系来进行分析。比如,公安业务人员在线索分析和情报分析中,通过一个实体能够完成基于这个实体来扩展其他相关实体,这些实体之间的关系是能够确定他们之前的亲密度。这个对情报人员分析提供了有力的帮助。
基于上述应用场景,接下来请参照图1,为本申请实施例提供的伴随关系的分析方法的流程图,该分析方法包括:
步骤101:获取多个感知设备采集到的在预设时间段内出现在各感知设备的采集范围内的电子设备的身份标识、出现时间和出现地点,作为身份标识的原始数据。
步骤102:确定同一身份标识的出现时间与出现地点的规律。
步骤103:根据出现时间与出现地点的规律对原始数据进行填补,得到身份标识的填补数据。
步骤104:分别提取原始数据和填补数据中的身份标识的出现特征。
步骤105:根据原始数据和填补数据分别对应的身份标识的出现特征确定身份标识之间的伴随关系。
与现有技术相比,基于感知设备采集到的数据,检测数据的规律性,对于有规律性的数据,合理的填补数据,使数据更贴合实际;基于原始数据和补充后的数据提取出现特征,进而确定伴随关系。从时间序列的规律入手,数据贴合实际,基于出现特征进行伴随关系分析,提高伴随关系分析的准确性。
接下来结合前述实施例中介绍的应用场景对步骤101-步骤105的实施方式进行介绍。
在步骤101中,对于身份标识的原始数据,是多个感知设备采集到的在预设时间段内出现在各感知设备的采集范围内的电子设备的身份标识、出现时间和出现地点。对于电子设备,人通常都会携带手机,因此,可以通过感知设备采集手机的身份标识,对于手机的身份标识,可以包括:MAC和IMSI。MAC地址也称为局域网地址(LAN Address),MAC位址,以太网地址(Ethernet Address)或物理地址(Physical Address),它是一个用来确认网络设备位置的位址,每一个手机都有一个唯一的MAC地址。IMSI是用于区分蜂窝网络中不同用户的、在所有蜂窝网络中不重复的识别码。因此,当用户通过手机开启了无线上网或者蜂窝移动数据上网功能时,就可以采集到这两种身份标识,且采集到的不同的手机的身份标识的都是不同的。
对于感知设备,可以通过Wifi围栏技术和电子围栏技术实现。Wifi围栏和电子围栏都是有效的采集设备信息的技术。但是这两种设备提供的是不同的服务,同时因为隐私问题,两种设备都不能采集到额外的手机信息。Wifi围栏采集手机的MAC号,电子围栏采集手机的IMSI号。在公安机构部署围栏时,可以根据所要监控的范围进行部署。例如:甲地点需要进行监控,那么就在甲地点部署Wifi围栏和电子围栏,使部署的Wifi围栏和电子围栏能够采集到甲地点这一片范围内的设备信息。在将感知设备部署好以后,Wifi围栏技术和电子围栏可以自动采集设备信息,进而可以直接获取到Wifi围栏和电子围栏所采集到的信息。
此外,对于预设时间段,因为只要有设备信息,感知设备就会一直采集这些信息,为了便于伴随关系的分析,可以只获取在预设时间段内的相关数据。例如:某一个周;某一个月等。
进一步的,对于Wifi围栏和电子围栏,当有电子设备出现在其采集范围内时,会采集电子设备的身份信息,并根据采集时间和自身所处的地点生成对应的Wifi围栏和电子围栏数据,进而可以直接获取到该Wifi围栏和电子围栏数据。举例来说,请参照表1和表2,分别为Wifi围栏数据样例和电子围栏数据样例。
MAC STARTTIME(时间) LOCATION(地点)
DA:A1:19:17:AC:12 2019-08-06 16:20:13 地点ID1
DA:A5:11:19:AC:10 2019-08-05 16:20:12 地点ID2
表1
IMSI STARTTIME(时间) LOCATION(地点)
460003111370161 2019-08-06 16:20:10 地点ID1
460001211370160 2019-08-05 16:19:11 地点ID2
表2
在表1和表2中,地点都可以通过地点ID(Identity,标识)表示,地点ID在Wifi围栏和电子围栏部署时便可确定,每个Wifi围栏和电子围栏的地点ID都是唯一的。此外,在表1和表2的数据中,对于Wifi围栏和电子围栏来说,时间和地点都是采集时间和采集地点,但对于身份标识来说,同时也是出现时间和出现地点,为了便于理解,本申请实施例中都以身份标识的出现时间和出现地点来进行描述。可理解的,由部署在多处的Wifi围栏和电子围栏分别采集到的数据可以组成身份标识的原始数据。
进一步的,在获取到原始数据后,可以实施步骤102,确定同一身份标识的出现时间与出现地点的规律。所谓规律性,可以指同一个手机在不同天内在相同的时间出现在同一个地方。比如,MAC1在一个月的21个工作日内,有19个工作日都在9点到10点间出现在了地点A,那么可以判断MAC1在工作日的9点到10点是有规律的。又比如,MAC2在一个月的9天周末里面,有三天在8点到9点间出现在了地点B,有两天出现在地点C,还有四天没有记录,那么可以判断MAC2在周末的早上8点到9点是不规律的。IMSI数据与MAC数据同理。
因此,步骤102可以包括:确定同一身份标识在相同的出现地点对应的出现时间。
进一步的,在步骤103中,基于确定的规律可以对原始数据进行填补,结合步骤102的实施方式,步骤103可以包括:根据同一身份标识在相同的出现地点对应的出现时间检测该身份标识在所述相同的出现地点是否有缺失的出现时间;若同一身份标识在相同的出现地点有缺失的出现时间,在缺失的出现时间处填补与出现地点对应的出现时间。
所谓缺失性检测,指的是对于一个有规律的数据,在本该按规律出现的情况下,设备没有监测到数据,那么会认为设备采集数据在该时间点有缺失。以前述实施例中的MAC1为例,若MAC1在另外的两个工作日的9点到10点间没有被任何设备监测到,那么可以认为MAC1在9点到10点间应该出现在了A点。假设19个有记录的时间的中位数为9点21分,那么可以假设MAC1在剩下的两个没有记录的工作日的9点21分出现在了A点;若MAC1在另外的两个工作日的9点到10点间被部署在E点的Wifi围栏采集到数据,那就判断MAC1数据在工作日的9点到10点间数据没有缺失,不需要填补。IMSI数据做相同的检测与填补。
进一步的,在得到填补数据后,可以执行步骤104,分别提取原始数据和填补数据中的身份标识的出现特征。对于出现特征,可以理解为身份标识的出现的特点,该出现的特点可以代表电子设备的轨迹信息,对于轨迹信息,指公安收集到的人像卡口轨迹、车辆卡口轨迹、电子围栏轨迹、Wifi围栏轨迹、人证核查核录轨迹等,本申请实施例主要针对Wifi围栏和电子围栏两种轨迹。
作为一种可选的实施方式,当身份标识为MAC和IMSI时,步骤104可以包括:提取原始数据中MAC和IMSI的第一出现特征;第一出现特征包括:MAC和IMSI分别的出现地点数量;MAC和IMSI在预设的第一时间间隔内在同一出现地点出现的出现地点数量;提取填补数据中MAC和IMSI的第二出现特征;第二出现特征包括:在预设的第二时间间隔内,MAC和IMSI出现在相同的出现地点的次数以及相同的出现地点的数量;第二时间间隔小于所述第一时间间隔。
在这种实施方式中,举例来说,基于原始数据的第一出现特征可以包括:MAC和IMSI出现时间间隔小于2分钟的地点数、MAC出现的地点数、IMSI出现的地点数、MAC(局域网地址)和IMSI(国际移动用户识别码)在同一个地点,出现时间间隔小于4秒的次数等。基于填补数据的第二出现特征可以包括:MAC和IMSI在一个月内,相同时间间隔内出现在相同地点的总次数,MAC和IMSI在相同时间间隔内同时出现的地点数等。其中,相同时间间隔可以是一个小时或者更多小时等。
由于原始数据的真实性是可以保证的,而算法基于缺失性填补的数据的真实性是无法保证的,所以在提取特征的时候要分开来提取。最后提取得到的身份标识的出现特征可以如表3所示。其中,第一出现特征和第二出现特征都可以包括多个,因此通过第一出现特征1-n以及第二出现特征1-n表示。
Figure BDA0002326173090000111
表3
进一步的,在步骤104中提取得到身份标识的出现特征后,可以实施步骤105,即根据原始数据和填补数据分别对应的身份标识的出现特征确定身份标识之间的伴随关系。作为一种可选的实施方式,步骤105可以包括:获取预先存储的伴随关系确定规则;将确定规则以及原始数据和填补数据分别对应的身份标识的出现特征反馈给用户;接收用户输入的身份标识之间的伴随关系。
在这种实施方式中,确定规则可以是依据出现特征预设的规则。例如:当MAC和IMSI在同一个地点出现时间间隔小于4秒的次数大于某个值时,可确定对应的MAC和IMSI之间有伴随关系,或者当MAC和IMSI在同一个地点出现时间间隔小于4秒的次数小于某个值时,对应的MAC和IMSI之间是否有伴随关系是不确定的,可确定为可能具有伴随关系等。将该确定规则和出现特征一并反馈给用户,用户可以根据确定规则、出现特征以及经验判断各个身份标识之间是否确定有伴随关系,或者伴随关系待定等。需要注意的是,用户输入的身份标识之间的伴随关系可以是确定为有伴随关系,也可以是不确定是否有伴随关系等。
除了这种实施方式,也可以不由用户来进行确认。系统直接根据预设的确定规则和出现特征对伴随关系进行确定,确定的方式可以是:按照确定规则对各个出现特征进行判断,若某个出现特征满足确定规则,则可确定该出现特征对应的身份标识之间有伴随关系;若某个出现特征不满足确定规则,则可进行不确认的标记,然后反馈给用户由用户来给出一个最终的结果。
此外,在确定伴随关系时,还可以利用外部数据源,例如通过第三方数据库,或者基于互联网手段在线上获取的数据,这些数据可以帮助能更准确的判断身份标识之间的伴随关系,也就是提供更准确的确定依据。
可理解的,对于伴随关系,基于Wifi围栏和电子围栏采集到的数据来看,最后得到的伴随关系,可以是不同的MAC之间的伴随关系,也可以是不同的IMSI之间的伴随关系;还可以是MAC和IMSI之间的伴随关系。即最终的伴随关系包括:MAC-IMSI、MAC-MAC、IMSI-IMSI三种可能的伴随关系。
在步骤105中确定身份标识之间的伴随关系后,还可以根据确定的伴随关系生成对应的实体之间的伴随关系结果。对于伴随关系,可表示为:身份标识1→伴随关系→身份标识2。通过身份标识的伴随关系可确定身份标识对应的实体(电子设备或者电子设备所属的人)之间的伴随关系,通过多个实体和多个实体之间的伴随关系可构成一个完整的关系图谱,这个关系图谱可以提供查询和可视化分析功能。
在本申请实施例中,在通过步骤101-步骤105得到身份标识之间的伴随关系后,还可以利用步骤101-步骤105中得到的原始数据和填补数据以及得到的伴随关系组成样本数据,基于样本数据进行模型训练,使训练好的模型可直接应用于新的身份标识之间的伴随关系的分析。因此,本申请实施例还提供一种分析模型的训练方法,包括:获取通过前述实施例中介绍的伴随关系的分析方法得到的原始数据和填补数据分别对应的身份标识的出现特征、身份标识之间的伴随关系;基于身份标识之间的伴随关系对原始数据和填补数据分别对应的身份标识的出现特征进行筛选,得到筛选后的数据;根据筛选后的数据中的身份标识之间的伴随关系为筛选后的数据中的身份标识打上标签,得到样本数据;基于样本数据对初始的分析模型进行训练,得到训练好的分析模型。
其中,对原始数据和填补数据分别对应的身份标识的出现特征进行筛选可理解为将其中的一些没有价值的数据给筛选掉,例如大量的没有伴随关系的身份标识的出现特征,或者筛选掉填补数据的一些身份标识的出现特征。
进一步的,打标签的过程可以包括:根据筛选后的数据中的身份标识之间的伴随关系为确定具有伴随关系的身份标识打上第一标签;根据筛选后的数据中的身份标识之间的伴随关系为不确定具有伴随关系的身份标识打上第二标签。
对于打标签来说,通过身份标识之间的伴随关系,实际已经知道了有些实体之间是确定了的伴随关系,可打上第一标签,第一标签可以是确定具有伴随关系。打上第一标签的样本数据可以作为正样本数据。进一步的,在除去了正样本数据的数据中,可以打上不确定具有伴随关系的第二标签,打上第二标签的样本数据可以作为负样本数据。
进一步的,利用打好标签的样本数据进行模型训练,得到训练好的分析模型,使训练好的模型可用于对伴随关系的预测分析。在本申请实施例中,分析模型可以是各种预测模型,例如:回归预测模型、组合预测模型以及BP(Back-ProPagation Network,反向传播神经网络)神经网络预测模型等,在此不作限定。
在本申请实施例中,训练好的分析模型可直接用于身份标识之间的伴随关系的预测,结合模型训练的样本数据集的特点,要利用模型进行伴随关系的分析,输入模型的数据需要和样本数据集对应。基于此,本申请实施例还提供一种伴随关系的分析方法,包括:获取多个感知设备采集到的在预设时间段内出现在各感知设备的采集范围内的电子设备的身份标识、出现时间和出现地点,作为身份标识的原始数据;确定同一身份标识的出现时间与出现地点的规律;根据出现时间与出现地点的规律对原始数据进行填补,得到身份标识的填补数据;分别提取原始数据和填补数据中的身份标识的出现特征;将身份标识的出现特征输入到预先训练好的分析模型中,得到身份标识之间的伴随关系。
需要注意的是,在该分析方法中的原始数据和填补数据是与前述实施例中的数据不同的新的数据,但是该原始数据和填补数据的获取方式,以及得到原始数据和填补数据分别对应的身份标识的出现特征的实施方式,都与前述实施例中的实施方式相同,在此不再重复介绍。
可以理解,当有了训练好的分析模型后,在步骤101-步骤104后,就可以直接将对应的数据输入到该分析模型中,直接得到对应的伴随关系分析结果,不需要再根据规则或者由用户来得到伴随关系分析结果。
在本申请实施例中,基于感知设备采集到的数据,检测数据的规律性,对于有规律性的数据,合理的填补数据,使数据更贴合实际;基于原始数据和补充后的数据提取出现特征,将出现特征输入到预先训练好的分析模型中,进而得到身份标识之间的伴随关系。从时间序列的规律入手,数据贴合实际,基于出现特征和预先训练好的分析模型进行伴随关系分析,提高伴随关系分析的准确性。
基于同一发明构思,请参照图2,本申请实施例中还提供一种伴随关系的分析装置200,包括:获取模块201、规律确定模块202、数据填补模块203、特征提取模块204以及伴随关系确定模块205。
获取模块201用于:获取多个感知设备采集到的在预设时间段内出现在各感知设备的采集范围内的电子设备的身份标识、出现时间和出现地点,作为身份标识的原始数据。规律确定模块202用于:确定同一身份标识的出现时间与出现地点的规律。数据填补模块203用于:根据所述出现时间与出现地点的规律对所述原始数据进行填补,得到所述身份标识的填补数据。特征提取模块204用于:分别提取所述原始数据和所述填补数据中的所述身份标识的出现特征。伴随关系确定模块205用于:根据所述原始数据和所述填补数据分别对应的所述身份标识的出现特征确定所述身份标识之间的伴随关系。
可选的,规律确定模块202具体用于:确定同一身份标识在相同的出现地点对应的出现时间。数据填补模块203具体用于:根据同一身份标识在相同的出现地点对应的出现时间检测该身份标识在所述相同的出现地点是否有缺失的出现时间;若所述同一身份标识在所述相同的出现地点有缺失的出现时间,在所述缺失的出现时间处填补与所述出现地点对应的出现时间。
可选的,特征提取模块204具体用于:提取所述原始数据中MAC和IMSI的第一出现特征;所述第一出现特征包括:MAC和IMSI分别的出现地点数量;MAC和IMSI在预设的第一时间间隔内在同一出现地点出现的出现地点数量;提取所述填补数据中MAC和IMSI的第二出现特征;所述第二出现特征包括:在预设的第二时间间隔内,MAC和IMSI出现在相同的出现地点的次数以及所述相同的出现地点的数量;所述第二时间间隔小于所述第一时间间隔。
可选的,伴随关系确定模块205具体用于:获取预先存储的伴随关系确定规则;将所述确定规则以及所述原始数据和所述填补数据分别对应的所述身份标识的出现特征反馈给用户;接收所述用户输入的所述身份标识之间的伴随关系。
基于同一发明构思,本申请实施例中还提供另一种伴随关系的分析装置,包括:
第一获取模块,用于:获取多个感知设备采集到的在预设时间段内出现在各感知设备的采集范围内的电子设备的身份标识、出现时间和出现地点,作为身份标识的原始数据。第一规律确定模块,用于:确定同一身份标识的出现时间与出现地点的规律。第一数据填补模块,用于:根据所述出现时间与出现地点的规律对所述原始数据进行填补,得到所述身份标识的填补数据。第一特征提取模块,用于:分别提取所述原始数据和所述填补数据中的所述身份标识的出现特征。第一伴随关系确定模块,用于:将所述身份标识的出现特征输入到预先训练好的分析模型中,得到所述身份标识之间的伴随关系。
基于同一发明构思,本申请实施例中还提供一种分析模型的训练装置,包括:
第二获取模块,用于:获取通过伴随关系的分析装置200得到的所述原始数据和所述填补数据分别对应的所述身份标识的出现特征、所述身份标识之间的伴随关系。筛选模块,用于:基于所述身份标识之间的伴随关系对所述原始数据和所述填补数据分别对应的所述身份标识的出现特征进行筛选,得到筛选后的数据。标签设置模块,用于根据所述筛选后的数据中的身份标识之间的伴随关系为所述筛选后的数据中的身份标识打上标签,得到样本数据。训练模块,用于基于所述样本数据对初始的分析模型进行训练,得到训练好的分析模型。
可选的,标签设置模块具体用于:根据所述筛选后的数据中的身份标识之间的伴随关系为确定具有伴随关系的身份标识打上第一标签;根据所述筛选后的数据中的身份标识之间的伴随关系为不确定具有伴随关系的身份标识打上第二标签。
前述实施例中的伴随关系的分析方法以及分析模型的训练方法中的各实施方式和具体实例同样适用于上述各种装置,通过前述对伴随关系的分析方法以及分析模型的训练方法的详细描述,本领域技术人员可以清楚的知道各装置的实施方式,所以为了说明书的简洁,在此不再详述。
基于同一发明构思,本申请实施例还提供了一种可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被计算机运行时执行上述任一实施方式的伴随关系的分析方法以及分析模型的训练方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种伴随关系的分析方法,其特征在于,包括:
获取多个感知设备采集到的在预设时间段内出现在各感知设备的采集范围内的电子设备的身份标识、出现时间和出现地点,作为身份标识的原始数据;
确定同一身份标识的出现时间与出现地点的规律;
根据所述出现时间与出现地点的规律对所述原始数据进行填补,得到所述身份标识的填补数据;
分别提取所述原始数据和所述填补数据中的所述身份标识的出现特征;
根据所述原始数据和所述填补数据分别对应的所述身份标识的出现特征确定所述身份标识之间的伴随关系;
确定同一身份标识的出现时间与出现地点的规律,包括:
确定同一身份标识在相同的出现地点对应的出现时间;
对应的,根据所述出现时间与出现地点的规律对所述原始数据进行填补,得到所述身份标识的填补数据,包括:
根据同一身份标识在相同的出现地点对应的出现时间检测该身份标识在所述相同的出现地点是否有缺失的出现时间;
若所述同一身份标识在所述相同的出现地点有缺失的出现时间,在所述缺失的出现时间处填补与所述出现地点对应的出现时间;
其中,所述身份标识包括:MAC和IMSI,分别提取所述原始数据和所述填补数据中的所述身份标识的出现特征,包括:提取所述原始数据中MAC和IMSI的第一出现特征;所述第一出现特征包括:MAC和IMSI分别的出现地点数量;MAC和IMSI在预设的第一时间间隔内在同一出现地点出现的出现地点数量;
提取所述填补数据中MAC和IMSI的第二出现特征;所述第二出现特征包括:在预设的第二时间间隔内,MAC和IMSI出现在相同的出现地点的次数以及所述相同的出现地点的数量;所述第二时间间隔小于所述第一时间间隔。
2.根据权利要求1所述的方法,其特征在于,根据所述原始数据和所述填补数据分别对应的所述身份标识的出现特征确定所述身份标识之间的伴随关系,包括:
获取预先存储的伴随关系确定规则;
将所述确定规则以及所述原始数据和所述填补数据分别对应的所述身份标识的出现特征反馈给用户;
接收所述用户输入的所述身份标识之间的伴随关系。
3.一种伴随关系的分析方法,其特征在于,包括:
获取多个感知设备采集到的在预设时间段内出现在各感知设备的采集范围内的电子设备的身份标识、出现时间和出现地点,作为身份标识的原始数据;
确定同一身份标识的出现时间与出现地点的规律;
根据所述出现时间与出现地点的规律对所述原始数据进行填补,得到所述身份标识的填补数据;
分别提取所述原始数据和所述填补数据中的所述身份标识的出现特征;
将所述身份标识的出现特征输入到预先训练好的分析模型中,得到所述身份标识之间的伴随关系;
确定同一身份标识的出现时间与出现地点的规律,包括:
确定同一身份标识在相同的出现地点对应的出现时间;
对应的,根据所述出现时间与出现地点的规律对所述原始数据进行填补,得到所述身份标识的填补数据,包括:
根据同一身份标识在相同的出现地点对应的出现时间检测该身份标识在所述相同的出现地点是否有缺失的出现时间;
若所述同一身份标识在所述相同的出现地点有缺失的出现时间,在所述缺失的出现时间处填补与所述出现地点对应的出现时间;
其中,所述身份标识包括:MAC和IMSI,分别提取所述原始数据和所述填补数据中的所述身份标识的出现特征,包括:提取所述原始数据中MAC和IMSI的第一出现特征;所述第一出现特征包括:MAC和IMSI分别的出现地点数量;MAC和IMSI在预设的第一时间间隔内在同一出现地点出现的出现地点数量;
提取所述填补数据中MAC和IMSI的第二出现特征;所述第二出现特征包括:在预设的第二时间间隔内,MAC和IMSI出现在相同的出现地点的次数以及所述相同的出现地点的数量;所述第二时间间隔小于所述第一时间间隔。
4.一种分析模型的训练方法,其特征在于,包括:
获取利用权利要求1-2任一项所述的方法得到的所述原始数据和所述填补数据分别对应的所述身份标识的出现特征、所述身份标识之间的伴随关系;
基于所述身份标识之间的伴随关系对所述原始数据和所述填补数据分别对应的所述身份标识的出现特征进行筛选,得到筛选后的数据;
根据所述筛选后的数据中的身份标识之间的伴随关系为所述筛选后的数据中的身份标识打上标签,得到样本数据;
基于所述样本数据对初始的分析模型进行训练,得到训练好的分析模型。
5.根据权利要求4所述的方法,其特征在于,根据所述筛选后的数据中的身份标识之间的伴随关系为所述筛选后的数据中的身份标识打上标签,包括:
根据所述筛选后的数据中的身份标识之间的伴随关系为确定具有伴随关系的身份标识打上第一标签;
根据所述筛选后的数据中的身份标识之间的伴随关系为不确定具有伴随关系的身份标识打上第二标签。
6.一种伴随关系的分析装置,其特征在于,包括:
获取模块,用于:获取多个感知设备采集到的在预设时间段内出现在各感知设备的采集范围内的电子设备的身份标识、出现时间和出现地点,作为身份标识的原始数据;
规律确定模块,用于:确定同一身份标识的出现时间与出现地点的规律;
数据填补模块,用于:根据所述出现时间与出现地点的规律对所述原始数据进行填补,得到所述身份标识的填补数据;
特征提取模块,用于:分别提取所述原始数据和所述填补数据中的所述身份标识的出现特征;
伴随关系确定模块,用于:根据所述原始数据和所述填补数据分别对应的所述身份标识的出现特征确定所述身份标识之间的伴随关系;
规律确定模块具体用于:确定同一身份标识在相同的出现地点对应的出现时间;数据填补模块具体用于:根据同一身份标识在相同的出现地点对应的出现时间检测该身份标识在所述相同的出现地点是否有缺失的出现时间;若所述同一身份标识在所述相同的出现地点有缺失的出现时间,在所述缺失的出现时间处填补与所述出现地点对应的出现时间;
所述身份标识包括:MAC和IMSI,所述特征提取模块,还用于提取所述原始数据中MAC和IMSI的第一出现特征;所述第一出现特征包括:MAC和IMSI分别的出现地点数量;MAC和IMSI在预设的第一时间间隔内在同一出现地点出现的出现地点数量;
提取所述填补数据中MAC和IMSI的第二出现特征;所述第二出现特征包括:在预设的第二时间间隔内,MAC和IMSI出现在相同的出现地点的次数以及所述相同的出现地点的数量;所述第二时间间隔小于所述第一时间间隔。
7.一种伴随关系的分析装置,其特征在于,包括:
第一获取模块,用于:获取多个感知设备采集到的在预设时间段内出现在各感知设备的采集范围内的电子设备的身份标识、出现时间和出现地点,作为身份标识的原始数据;
第一规律确定模块,用于:确定同一身份标识的出现时间与出现地点的规律;
第一数据填补模块,用于:根据所述出现时间与出现地点的规律对所述原始数据进行填补,得到所述身份标识的填补数据;
第一特征提取模块,用于:分别提取所述原始数据和所述填补数据中的所述身份标识的出现特征;
第一伴随关系确定模块,用于:将所述身份标识的出现特征输入到预先训练好的分析模型中,得到所述身份标识之间的伴随关系;
第一规律确定模块具体用于:确定同一身份标识在相同的出现地点对应的出现时间;第一数据填补模块具体用于根据同一身份标识在相同的出现地点对应的出现时间检测该身份标识在所述相同的出现地点是否有缺失的出现时间;若所述同一身份标识在所述相同的出现地点有缺失的出现时间,在所述缺失的出现时间处填补与所述出现地点对应的出现时间;
所述身份标识包括:MAC和IMSI,所述第一特征提取模块,还用于提取所述原始数据中MAC和IMSI的第一出现特征;所述第一出现特征包括:MAC和IMSI分别的出现地点数量;MAC和IMSI在预设的第一时间间隔内在同一出现地点出现的出现地点数量;
提取所述填补数据中MAC和IMSI的第二出现特征;所述第二出现特征包括:在预设的第二时间间隔内,MAC和IMSI出现在相同的出现地点的次数以及所述相同的出现地点的数量;所述第二时间间隔小于所述第一时间间隔。
8.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如权利要求1-5任一项所述的方法。
CN201911323931.4A 2019-12-19 2019-12-19 伴随关系的分析方法及装置、分析模型的训练方法 Active CN111064796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911323931.4A CN111064796B (zh) 2019-12-19 2019-12-19 伴随关系的分析方法及装置、分析模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911323931.4A CN111064796B (zh) 2019-12-19 2019-12-19 伴随关系的分析方法及装置、分析模型的训练方法

Publications (2)

Publication Number Publication Date
CN111064796A CN111064796A (zh) 2020-04-24
CN111064796B true CN111064796B (zh) 2023-03-24

Family

ID=70301322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911323931.4A Active CN111064796B (zh) 2019-12-19 2019-12-19 伴随关系的分析方法及装置、分析模型的训练方法

Country Status (1)

Country Link
CN (1) CN111064796B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104054073A (zh) * 2011-11-15 2014-09-17 起元科技有限公司 数据分群、分段、以及并行化

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE241823T1 (de) * 1999-01-27 2003-06-15 On Guard Plus Ltd System zum erfassen von daten, zum normalisieren, zum verarbeiten von ereignissen und zum kommunizieren und bedienerschnittstelle
EP3187949B1 (en) * 2014-08-27 2024-02-14 Kabushiki Kaisha Toshiba Monitoring control system and data collecting device
US10331156B2 (en) * 2015-03-03 2019-06-25 Leidos, Inc. System and method for big data geographic information system discovery
CN105142164B (zh) * 2015-06-24 2018-10-30 北京邮电大学 待估节点的数据填补方法和装置
CN109947793B (zh) * 2019-03-20 2022-05-31 深圳市北斗智能科技有限公司 伴随关系的分析方法、装置和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104054073A (zh) * 2011-11-15 2014-09-17 起元科技有限公司 数据分群、分段、以及并行化

Also Published As

Publication number Publication date
CN111064796A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN108009844B (zh) 确定广告作弊行为的方法、装置及云服务器
CN104850969B (zh) 执法仪音视频证据警情联动管理系统
CN107040894A (zh) 一种基于手机信令数据的居民出行od获取方法
WO2021027527A1 (zh) 信息处理方法、装置及设备
CN108846911A (zh) 一种考勤方法及装置
CN107086922B (zh) 一种用户行为识别方法和装置
CN102013163A (zh) 使用手机基站数据与营运车辆gps数据进行公交od调查的方法
CN108540755A (zh) 身份识别方法和装置
CN111402471A (zh) 人员处理方式的确定方法及装置、数据处理平台
CN101827180A (zh) 基于话单确定移动终端活动范围的方法、装置及系统
CN106301866A (zh) 目标对象的统计方法和装置
US20120218150A1 (en) Management server, population information calculation management server, non-populated area management method, and population information calculation method
CN107977678A (zh) 用于输出信息的方法和装置
CN101799900A (zh) 一种实现考勤对象管理的方法及系统
CN108388672B (zh) 视频的查找方法、装置及计算机可读存储介质
JP2021518012A (ja) データ処理方法、装置および記憶媒体
CN104598543B (zh) 一种社交匹配数据挖掘系统
CN111064796B (zh) 伴随关系的分析方法及装置、分析模型的训练方法
CN106982284A (zh) 骚扰电话号码的识别方法及装置
CN110807052A (zh) 用户群分类方法、装置、设备及存储介质
CN111935637A (zh) 一种人流量分析方法、存储介质及处理器
CN108268545B (zh) 一种分级的用户标签库的创建的方法和装置
CN111242723B (zh) 用户子女情况判断方法、服务器及计算机可读存储介质
CN110944290B (zh) 一种伴随关系的分析方法及装置
CN113779171A (zh) 对象落脚点的确定方法、装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant