CN109614420B - 一种基于大数据挖掘的虚拟身份关联分析方法 - Google Patents

一种基于大数据挖掘的虚拟身份关联分析方法 Download PDF

Info

Publication number
CN109614420B
CN109614420B CN201811490064.9A CN201811490064A CN109614420B CN 109614420 B CN109614420 B CN 109614420B CN 201811490064 A CN201811490064 A CN 201811490064A CN 109614420 B CN109614420 B CN 109614420B
Authority
CN
China
Prior art keywords
electronic serial
data
physical address
serial number
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811490064.9A
Other languages
English (en)
Other versions
CN109614420A (zh
Inventor
王国锋
刘海滨
庄维维
朱荣亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Sengen Technology Co ltd
Original Assignee
Nanjing Sengen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Sengen Technology Co ltd filed Critical Nanjing Sengen Technology Co ltd
Priority to CN201811490064.9A priority Critical patent/CN109614420B/zh
Publication of CN109614420A publication Critical patent/CN109614420A/zh
Application granted granted Critical
Publication of CN109614420B publication Critical patent/CN109614420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于大数据挖掘的虚拟身份关联分析算法模型,属于大数据挖掘技术领域。该方法包括获取电子串号信息和物理地址信息;对源数据进行清洗处理、规则过滤;并对处理后的数据进行属性分割、特征提取、指标计算;针对样本类别不平衡问题,调整不同类别训练样本;搭建Logistic Regression算法模型,以计算手机物理地址和电子串号之间关系的匹配度,实现虚拟身份的挖掘分析和关联匹配,本发明可以通过轨迹追查,确定犯罪轨迹,对犯罪嫌疑人实施跟踪和追捕,侦破案件,最终达到对犯罪的有效控制和打击。

Description

一种基于大数据挖掘的虚拟身份关联分析方法
技术领域
本发明涉及大数据挖掘领域,更具体地说,是一种基于大数据挖掘的虚拟身份关联分析方法。
背景技术
随着通讯技术的发展和电子设备的普及,手机已融入人们的日常生活,手机的运动轨迹与个人的活动轨迹相伴而生,手机移动轨迹很大程度上可以反映个人的生活习惯和活动范围等有价值的信息。电子串号数据和手机物理地址数据是无线采集终端或移动采集设备捕捉到的并进行处理生成的道路数据。通过对电子串号和物理地址的关联匹配,为某机关部门追查罪犯、快速侦破案件提供技术支持。目前对电子串号和物理地址的虚拟身份关联分析的研究少之甚少,且过去在此领域研究的技术手段和成果还存在很多待优化的地方,故如何高效快速地处理获取后的电子串号和物理地址的庞大轨迹数据成为目前的一大难题。
本发明对无线采集终端的数据,基于大数据挖掘分析,找出有价值的物理地址和电子串号的轨迹信息,根据算法构建出物理地址和电子串号的关联匹配模型,实现虚拟身份的确定和匹配,为某机关部门跟踪抓捕犯罪嫌疑人、打击罪犯提供重要技术支持。
发明内容
针对上述背景技术中所提出的问题,本发明实施例的目的在于提供一种基于大数据挖掘的虚拟身份关联分析方法,通过将采集到的数据进行清洗、筛选,特征构建及提取等处理,建立算法模型,提供了具有关联匹配关系的电子串号和物理地址的虚拟身份信息,为数据关联匹配提供技术支持。
为了实现上述目的,本发明的技术方案如下:
一种基于大数据挖掘的虚拟身份关联分析方法,包括以下步骤:
S1:电子串号及物理地址数据预处理;分别对无线数据采集终端的电子串号和物理地址的脏数据进行处理,如数据去重、缺失值和异常值删除等;
S2:关联数据筛选及存储;将满足筛选规则的数据存储于数据库中;
S3:样本特征构建及提取;对关联数据进行属性分割及结合,构建M个样本特征,并对特征数据进行降维处理,使样本变量维度变为N;
S4:类别不平衡问题处理;采用Fisher判别法调整不同类别训练样本;
S5:建立及优化电子串号与物理地址关联模型;根据算法建立模型,得出电子串号与物理地址的匹配度。
优选的,所述步骤S2中筛选规则具体步骤为:
S201、将时间差范围内(即|t1-t2|<Δt,其中t1和t2分别表示电子串号和物理地址被采集到的时间)采集到的电子串号和物理地址数据中的无线数据采集终端经纬度字段进行匹配,若经纬度一致,则将此组电子串号和物理地址作为匹配对,并转入步骤S202;若不一致,则舍弃;
S202、从预处理后的数据中分别取出匹配对相应的电子串号/物理地址、采集时间、经度和纬度等字段,满足以下条件的匹配对保留作为匹配组并存储:|d1-d2|<dmax且|t1-t2|<tmax,其中d1和d2分别为电子串号和物理地址被采集时无线终端的地理位置,t1和t2分别为其对应的采集时间,dmax和tmax分别为距离的阈值和时间的阈值。
优选的,所述步骤S3中,采用主成分分析(Principal Component Analysis,PCA)对关联数据的M个特征属性进行降维处理,使样本变量维度变为N。
优选的,所述步骤S3中,M>N。
优选的,所述步骤S4具体包括:
S401、将特征提取后的统计数据样本分为正例和反例:当明确电子串号与某个物理地址存在匹配关系时,标记为正例(即类别为1);当明确电子串号与某个物理地址不存在匹配关系时,标记为反例(即类别为0);
S402、样本类别标记后,不同类别的训练例数目差别较大,采用Fisher判别法对数量较多的类别进行过滤,减少因样本类别不平衡对分类器造成的负面影响,提高建模时分类的准确率以及模型假设对数据集的拟合度。
优选的,所述步骤S5具体包括:
S501、运用Logistic Regression算法对处理后的样本集建立模型,并得到参数估计值;
S502、根据得到的参数估计值,计算出每一组电子串号和物理地址的匹配度基数值,并将该基数值映射收敛到区间[0,1],得到最终电子串号和物理地址的匹配度。
与现有技术相比,本发明的有益效果是:本发明提取了所有无线数据采集终端的电子串号和物理地址数据,然后对源数据进行清洗等预处理,并设置一定的筛选规则对数据进行初步过滤,再存储于数据库中。针对数据进行属性分析并设置不同特征对数据进行描述,然后利用PCA进行降维处理。为防止样本中类别不平衡的现象影响建模结果,采用Fisher判别法对样本量较多的类别进行过滤。最后应用Logistic Regression算法建立模型,通过映射收敛得到电子串号与物理地址的匹配度。
本发明针对所有电子串号和物理地址,当客户在系统中输入任意电子串号或物理地址时,系统即可输出与其匹配的物理地址或电子串号,及其匹配度。本发明提供一种基于大数据挖掘的虚拟身份关联分析方法,并对电子串号和物理地址数据进行分析挖掘,改进了传统算法的繁杂,提高了电子串号与物理地址匹配的准确性,也为交通管理带来更有效的数据支持。
附图说明
图1是本发明实施例1中方法的流程框图;
图2是本发明实施例1中方法的具体流程示意图;
图3是本发明实施例2中系统的结构框图。
具体实施方式
下面结合实例对本发明所述的一种基于大数据挖掘的虚拟身份关联分析方法作进一步说明。
以下是本发明所述的最佳实例,并不因此限定本发明的保护范围。
实施例1
图1示出了本发明所述的一种基于大数据挖掘的虚拟身份关联分析方法,包括以下步骤:
S1:电子串号及物理地址数据预处理;分别对无线数据采集终端的电子串号和物理地址的脏数据进行处理,如数据去重、缺失值和异常值删除等;
S2:关联数据筛选及存储;将满足筛选规则的数据存储于数据库中;
S3:样本特征构建及提取;对关联数据进行属性分割及结合,构建M个样本特征,并对特征数据进行降维处理,使样本变量维度变为N;
S4:类别不平衡问题处理;采用Fisher判别法调整不同类别训练样本;
S5:建立及优化电子串号与物理地址关联模型;根据算法建立模型,得出电子串号与物理地址的匹配度。
在本实施例中,图2示出了本发明所述的方法的具体流程步骤,其中,更具体的:
(1)电子串号及物理地址数据预处理;
电子串号数据和手机物理地址数据是无线采集终端或移动采集设备捕捉到的并进行处理生成的道路数据。该步骤主要是对采集到的原始数据进行去重、删除缺失值、删除异常值等清洗处理。
(2)共站匹配
由于电子串号和物理地址是由两个不同的设备采集,故须判断同一时刻采集到的电子串号和物理地址是否处于同一地理位置。根据数据源中的经度和纬度两个字段,将时间差范围内(即|t1-t2|<Δt,其中t1和t2分别表示电子串号和物理地址被采集到的时间)采集到的,且经度和纬度相等的电子串号和物理地址作为一个匹配对。
以上得到的匹配对,从预处理后的数据中分别取出相应的电子串号/物理地址、采集时间、经度和纬度等字段,满足以下条件的匹配对保留作为匹配组并存储:|d1-d2|<dmax且|t1-t2|<tmax,其中d1和d2分别为电子串号和物理地址被采集时无线终端的地理位置,t1和t2分别为其对应的采集时间,dmax和tmax分别为距离的阈值和时间的阈值。
(3)构建样本特征
经(2)筛选后的电子串号和物理地址匹配组,以电子串号、物理地址、电子串号和物理地址3个维度,多个子维度构建M个样本特征,子维度如匹配次数、匹配天数。
(4)样本属性规约
由(3)构建的样本特征,利用PCA降维,去除原样本特征数据的相关性,将样本变量维度由M降为N。
(5)样本类别不平衡处理
经(4)处理后的样本,将电子串号和物理地址明确存在匹配关系的样本,标记类别为1;电子串号和物理地址明确不存在匹配关系的样本,标记类别为0。此时得到的样本,类别为0的样本数据量远远大于类别为1的数据量,即样本存在类别不平衡问题。对类别为0的样本进行“欠采样”处理,运用Fisher判别法进行过滤,删除部分反类样例。
(6)建立模型,计算电子串号和物理地址的匹配度
经(5)处理后的数据,作为建立模型的样本,运用Logistic Regression算法得到模型的参数估计值。由参数估计值,可计算出每一组电子串号和物理地址的匹配度基数值,将该基数值映射收敛到区间[0,1],得到最终电子串号和物理地址的匹配度。
实施例2
图3示出了根据实施例1中所述方法进行电子串号和物理地址匹配度计算的系统,包括存储模块1、判断模块2、样本处理模块3、关联分析模块4、结果解析模块5;
所述存储模块1用于管理采集的原始电子串号数据和物理地址数据,以及判断模块2、样本处理模块3、关联分析模块4和结果解析模块5中所产生的数据;
所述判断模块2用于判断电子串号与物理地址是否符合筛选规则;
所述样本处理模块3用于构建电子串号和物理地址的多维度特征样本,并过滤掉部分反类样例;
所述关联分析模块4用于基于Logistic Regression算法计算电子串号和物理地址的匹配度;
所述结果解析模块5,用于将计算得到的匹配度结果解析并存储。
综上所述,本发明提供了一种基于大数据挖掘的虚拟身份关联分析方法,属于大数据挖掘技术领域。该方法包括获取电子串号信息和物理地址信息;对源数据进行清洗处理、规则过滤;并对处理后的数据进行属性分割、特征提取、指标计算;针对样本类别不平衡问题,调整不同类别训练样本;搭建Logistic Regression算法模型,以计算手机物理地址和电子串号之间关系的匹配度,实现虚拟身份(电子串号-物理地址)的挖掘分析和关联匹配,该技术方案通过分析电子串号轨迹与物理地址轨迹,将电子串号与物理地址的关系联系了起来,并通过时间、空间两个维度实现了虚拟身份的匹配,在案件分析处理中,可以通过轨迹追查,确定犯罪轨迹,对犯罪嫌疑人实施跟踪和追捕,侦破案件,最终达到对犯罪的有效控制和打击。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于大数据挖掘的虚拟身份关联分析方法,其特征在于,包括以下步骤:
S1:电子串号及物理地址数据预处理;分别对无线数据采集终端的电子串号和物理地址的脏数据进行处理;
S2:关联数据筛选及存储;将满足筛选规则的数据存储于数据库中;
S3:样本特征构建及提取;对关联数据进行属性分割及结合,构建M个样本特征,并对特征数据进行降维处理,使样本变量维度变为N;
S4:类别不平衡问题处理;采用Fisher判别法调整不同类别训练样本;
S5:建立及优化电子串号与物理地址关联模型;根据算法建立模型,得出电子串号与物理地址的匹配度;
所述步骤S2中筛选规则具体步骤为:
S201、将时间差范围内采集到的电子串号和物理地址数据中的无线数据采集终端经纬度字段进行匹配,若经纬度一致,则将此组电子串号和物理地址作为匹配对,并转入步骤S202;若不一致,则舍弃;
S202、从预处理后的数据中分别取出匹配对相应的电子串号/物理地址、采集时间、经度和纬度字段,满足以下条件的匹配对保留作为匹配组并存储:|d1-d2|<dmax且|t1-t2|<tmax,其中d1和d2分别为电子串号和物理地址被采集时无线终端的地理位置,t1和t2分别为其对应的采集时间,dmax和tmax分别为距离的阈值和时间的阈值;
所述步骤S3中,采用主成分分析(Principal Component Analysis,PCA)对关联数据的M个特征属性进行降维处理,使样本变量维度变为N;
所述步骤S3中,M>N;
所述步骤S4具体包括:
S401、将特征提取后的统计数据样本分为正例和反例:当明确电子串号与某个物理地址存在匹配关系时,标记为正例;当明确电子串号与某个物理地址不存在匹配关系时,标记为反例;
S402、样本类别标记后,不同类别的训练例数目差别较大,采用Fisher判别法对数量较多的类别进行过滤,减少因样本类别不平衡对分类器造成的负面影响,提高建模时分类的准确率以及模型假设对数据集的拟合度;
所述步骤S5具体包括:
S501、运用Logistic Regression算法对处理后的样本集建立模型,并得到参数估计值;
S502、根据得到的参数估计值,计算出每一组电子串号和物理地址的匹配度基数值,并将该基数值映射收敛到区间[0,1],得到最终电子串号和物理地址的匹配度。
2.一种用于实现权利要求1所述的基于大数据挖掘的虚拟身份关联分析方法的系统,其特征在于,包括存储模块(1)、判断模块(2)、样本处理模块(3)、关联分析模块(4)以及结果解析模块(5);
所述存储模块(1)用于管理采集的原始电子串号数据和物理地址数据,以及判断模块(2)、样本处理模块(3)、关联分析模块(4)和结果解析模块(5)中所产生的数据;
所述判断模块(2)用于判断电子串号与物理地址是否符合筛选规则;
所述样本处理模块(3)用于构建电子串号和物理地址的多维度特征样本,并过滤掉部分反类样例;
所述关联分析模块(4)用于基于Logistic Regression算法计算电子串号和物理地址的匹配度;
所述结果解析模块(5),用于将计算得到的匹配度结果解析并存储。
CN201811490064.9A 2018-12-06 2018-12-06 一种基于大数据挖掘的虚拟身份关联分析方法 Active CN109614420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811490064.9A CN109614420B (zh) 2018-12-06 2018-12-06 一种基于大数据挖掘的虚拟身份关联分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811490064.9A CN109614420B (zh) 2018-12-06 2018-12-06 一种基于大数据挖掘的虚拟身份关联分析方法

Publications (2)

Publication Number Publication Date
CN109614420A CN109614420A (zh) 2019-04-12
CN109614420B true CN109614420B (zh) 2020-08-21

Family

ID=66007198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811490064.9A Active CN109614420B (zh) 2018-12-06 2018-12-06 一种基于大数据挖掘的虚拟身份关联分析方法

Country Status (1)

Country Link
CN (1) CN109614420B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163261B (zh) * 2019-04-28 2024-06-21 平安科技(深圳)有限公司 不平衡数据分类模型训练方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105323253A (zh) * 2015-11-17 2016-02-10 腾讯科技(深圳)有限公司 一种身份验证方法及装置
CN105869224A (zh) * 2015-01-19 2016-08-17 北京艾博纳信息技术有限公司 一种基于智能终端 wlan 的课堂签到方法和系统
CN107195060A (zh) * 2017-07-07 2017-09-22 东峡大通(北京)管理咨询有限公司 一种智能车锁、智能车锁的控制系统及方法
CN107770805A (zh) * 2016-08-22 2018-03-06 腾讯科技(深圳)有限公司 终端的标识信息的判定方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161048A (zh) * 2015-03-27 2016-11-23 深圳市携网科技有限公司 审计终端及具有该审计终端的无线审计系统
CN105022999B (zh) * 2015-07-12 2019-06-04 上海微桥电子科技有限公司 一种人码伴随实时采集系统
CN106899827A (zh) * 2015-12-17 2017-06-27 杭州海康威视数字技术股份有限公司 图像数据采集、查询、视频监控方法、设备及系统
CN107404408B (zh) * 2017-08-30 2020-05-22 北京邮电大学 一种虚拟身份关联识别方法及装置
CN108897996B (zh) * 2018-06-05 2022-05-10 北京市商汤科技开发有限公司 标识信息关联方法及装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869224A (zh) * 2015-01-19 2016-08-17 北京艾博纳信息技术有限公司 一种基于智能终端 wlan 的课堂签到方法和系统
CN105323253A (zh) * 2015-11-17 2016-02-10 腾讯科技(深圳)有限公司 一种身份验证方法及装置
CN107770805A (zh) * 2016-08-22 2018-03-06 腾讯科技(深圳)有限公司 终端的标识信息的判定方法及装置
CN107195060A (zh) * 2017-07-07 2017-09-22 东峡大通(北京)管理咨询有限公司 一种智能车锁、智能车锁的控制系统及方法

Also Published As

Publication number Publication date
CN109614420A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN109284380A (zh) 基于大数据分析的非法用户识别方法及装置、电子设备
CN109634946B (zh) 一种基于大数据挖掘的轨迹智能匹配关联分析方法
CN105244031A (zh) 说话人识别方法和装置
CN105550583A (zh) 基于随机森林分类方法的Android平台恶意应用检测方法
CN109190588A (zh) 一种人口分类的方法及装置
CN106228554B (zh) 基于多属性约简的模糊粗糙集煤粉尘图像分割方法
CN112308001A (zh) 一种智慧社区的数据分析方法及人员追踪方法、系统
CN111159243B (zh) 用户类型识别方法、装置、设备及存储介质
CN106843941B (zh) 信息处理方法、装置和计算机设备
CN106778851B (zh) 基于手机取证数据的社交关系预测系统及其方法
CN106295547A (zh) 一种图像比对方法及图像比对装置
CN111866196B (zh) 一种域名流量特征提取方法、装置、设备及可读存储介质
CN115759640B (zh) 一种智慧城市的公共服务信息处理系统及方法
CN111274338A (zh) 一种基于移动大数据的预出境用户识别方法
CN111753642B (zh) 一种确定关键帧的方法及装置
CN115563196A (zh) 一种基于多源数据增强对象信息价值的方法及系统
CN114049508B (zh) 一种基于图片聚类和人工研判的诈骗网站识别方法及系统
CN112241458A (zh) 文本的知识结构化处理方法、装置、设备和可读存储介质
CN109614420B (zh) 一种基于大数据挖掘的虚拟身份关联分析方法
CN114140663A (zh) 一种基于多尺度注意力学习网络的害虫识别方法及系统
CN110990617A (zh) 一种图片标记方法、装置、设备及存储介质
CN109657703B (zh) 基于时空数据轨迹特征的人群分类方法
CN109194622B (zh) 一种基于特征效率的加密流量分析特征选择方法
US11984196B2 (en) Community assignments in identity by descent networks and genetic variant origination
CN112199388A (zh) 陌电识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210000 building De, yunshangcheng, ningshuang Road, Yuhuatai District, Nanjing City, Jiangsu Province

Applicant after: Nanjing sengen Technology Co.,Ltd.

Address before: Room 303-9, Building 30, Fengzhan Road, Yuhuatai District, Nanjing City, Jiangsu Province

Applicant before: NANJING SENGEN TECHNOLOGY DEVELOPMENT Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Virtual Identity Association Analysis Method Based on Big Data Mining

Granted publication date: 20200821

Pledgee: Zijin Branch of Nanjing Bank Co.,Ltd.

Pledgor: Nanjing sengen Technology Co.,Ltd.

Registration number: Y2024980018124