CN109766956B

CN109766956B - 基于快递大数据的异常检测方法

Info

Publication number: CN109766956B
Application number: CN201910205353.8A
Authority: CN
Inventors: 於志文; 张曼; 任思源; 郭斌
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-07-19
Filing date: 2019-03-18
Publication date: 2022-08-23
Anticipated expiration: 2039-03-18
Also published as: CN109766956A

Abstract

本发明涉及一种基于快递大数据的异常检测方法，该方法以用户快递数据为基础，根据专家经验从统计、时间和地理三方面特征分析用户的历史寄递行为，发现正常用户与嫌疑用户之间的行为差异，将无监督异常检测方法和有监督分类算法巧妙地结合，进而用于嫌疑人的识别。本发明首先采用无监督异常检测方法剔除正常用户，能够缩小正负类数据不平衡问题，但仍存在较高的误检率，进一步使用有监督分类方法对异常用户进行识别，能够有效地降低误检率。

Description

基于快递大数据的异常检测方法

技术领域

本发明利用用户历史快递数据解析公共安全问题，涉及到统计学的各种分析方法及数据挖掘的主要任务之一—异常检测。具体地说，以用户的历史快递数据为基础，针对用快递方式实施犯罪的某一类犯罪行为，从统计、时间和地理三方面特征进行了详细的分析，进而采用异常检测方法识别嫌疑人。

背景技术

近年来，随着网络购物的逐渐兴起，越来越多的人通过快递进行物品的邮递，它是推动流通方式转型和消费升级的重要产物。但是在给社会公众带来巨大便捷的同时，也伴随着难以控制的流动性风险，给公共安全带来严峻的挑战。例如，偷窃的赃物通过快递方式进行销赃，利用快递方式运输毒品、爆炸物等危险物品。目前，在公共安全领域利用快递数据分析用户行为特征的研究并没有开展，还停留在个案的简单分析阶段。往往是在案发后，根据案情的实际需要进行邮件检查，进而发现犯罪嫌疑人。通过分析历史快递记录中用户的寄递行为规律，不难发现嫌疑人与正常用户之间存在着明显的差异，举例来说，嫌疑人寄件时间主要集中在晚上20:00左右，而正常用户则选择在18:00左右；利用现有的技术和方法，对快递数据进行分析挖掘，得出用户行为特征的分析结果，进而对犯罪嫌疑人进行识别检测，这样可以更好地为侦察办案和情报信息工作服务，使得预防犯罪成为可能。

专利CN200910027374.1公开了一种基于改进CURE聚类算法的无监督异常检测方法和系统。该检测方法包括步骤：对训练集进行聚类，将异常行为数据与正常行为数据分类；对已经分类的数据进行标记；根据标记为正常行为的数据进行建模，其建模算法为基于超矩形的建模算法；将待检测数据与正常行为模型进行对比，判断是否为异常数据。专利CN201410810860.1公开了一种网络异常检测方法，包括：第一步骤，用于根据待检测网络来确定将被聚类的MIB数据的属性，生成属性向量X；第二步骤，用于对预定时间内的MIB数据进行采样；第三步骤，用于对采集到的MIB数据执行聚类分析处理；第四步骤，用于对聚类分析处理结果执行进行孤立点检测。在第四步骤中，将聚类分析处理结果中成员数目小于指定阈值的聚类判断为孤立事件，而且判断孤立事件所对应的时间内发生了网络异常。这些专利的不足之处就是忽略了正负类数据的不平衡问题，并且存在较高的误检率。只有缩小负类的数量，在实施分类算法时才不会导致结果偏向占比较大的负类，实验结果的准确性才会提高。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于快递大数据的异常检测方法，首先采用无监督异常检测方法剔除正常用户，能够缩小正负类数据不平衡问题，但仍存在较高的误检率，进一步使用有监督分类方法对异常用户进行识别，能够有效地降低误检率。

技术方案

一种基于快递大数据的异常检测方法，其特征在于步骤如下：

步骤1：对大量的真实快递记录进行预处理，预处理包括数据清洗、数据补全，脱敏、地址经纬度转换和物品分类；

步骤2：结合专家经验知识提取统计学特征、时间特征和地理特征；

步骤3：基于提取的统计学特征，使用比较分析法研究用户长期的寄递行为规律，并发掘它们之间的差异性；

步骤4：基于提取的时间特征，使用比较分析法研究用户的寄递行为时间规律，并发掘它们之间的差异性；

步骤5：基于提取的地理特征，使用比较分析法研究用户寄递行为活动规律，并发掘它们之间的差异性；

步骤6：基于以上提取的特征，使用无监督异常检测方法计算平均路径长度来估计样本的异常得分，将异常得分低的用户进行删除；

步骤7：对于步骤6中剩余的研究对象，一部分是异常用户，另一部分是误判的正常用户，进一步使用分类方法对嫌疑人进行识别。

步骤3中所述的统计学特征反映了用户长期寄递的行为规律，包括寄件量、收件人个数、寄件物品的种类数、物品重量的众数及方差。

步骤4中所述的时间特征反映用户的时间活动规律，包括寄件量最大的月份、寄件时间和相邻时间间隔。

步骤5中所述的地理特征反映用户的行为活动规律，包括寄件地址与收件地址的平均距离、用户常驻地址周边的POI数量以及用户的活动半径。

步骤6中所述的无监督异常检测方法采用的是IForest算法。

步骤7中所述的分类方法采用的是Naive Bayes或Decision Tree算法。

有益效果

本发明提出的一种基于快递大数据的异常检测方法，在该方法中，更加全面的利用了用户历史的快递数据，从统计、时间和地理三方面特征进行分析，发现了正常用户与嫌疑用户的寄递行为差异，然后巧妙地将无监督异常检测方法与有监督的分类算法进行结合，不仅能缩小正负类数据数量差异，还可以有效的降低误检率。

本发明通过将无监督异常检测方法与有监督分类方法巧妙结合起来用于检测快递数据中的异常用户，不仅能够缩小正负类数据不平衡问题，还能够有效地降低误检率，使得识别准确率更高。

附图说明

图1为本发明实施例提供的一种基于快递大数据异常检测方法的流程图；

图2为本发明实施例提供的一种基于快递大数据异常检测方法中部分统计学特征分布图；

图3为本发明实施例提供的一种基于快递大数据异常检测方法中部分时间特征分布图；

图4为本发明实施例提供的一种基于快递大数据异常检测方法中部分地理特征分布图；

图5为本发明实施例提供的一种基于快递大数据异常检测方法中具体方案的流程图。

具体实施方式

现结合实施例、附图对本发明作进一步描述：

为了能够识别出利用快递方式实施犯罪的某一类犯罪嫌疑人，本发明提供一种基于快递大数据的异常检测方法，该方法以用户快递数据为基础，根据专家经验从统计、时间和地理三方面特征分析用户的历史寄递行为，发现正常用户与嫌疑用户之间的行为差异，将无监督异常检测方法和有监督分类算法巧妙地结合，进而用于嫌疑人的识别。

为实现上述目的，本发明提供了如下方案：

一种基于快递大数据的异常检测方法，包括以下骤：

S1、对大量的真实快递记录进行预处理。

S2、结合专家经验知识提取统计学特征、时间特征和地理特征。

S3、基于提取的统计学特征，使用比较分析法研究用户长期的寄递行为规律，并发掘它们之间的差异性。

S4、基于提取的时间特征，使用比较分析法研究用户的寄递行为时间规律，并发掘它们之间的差异性。

S5、基于提取的地理特征，使用比较分析法研究用户寄递行为活动规律，并发掘它们之间的差异性。

S6、建立异常检测模型，该模型主要分为两步：

第一步：过滤正常用户；

第二步：嫌疑人识别；

进一步地，一种基于快递大数据的异常检测方法S1中用户的历史快递记录预处理，主要包括数据清洗、数据补全，脱敏、地址经纬度转换和物品分类等过程。在经过数据预处理之后还包含四部分信息，分别是快递信息、寄件信息、收件信息、物品信息。快递信息指的是快递的运单号、寄件时间、快递公司名称等，寄件信息包括寄件人姓名、寄件人电话号码以及寄件人地址，收件信息对应于寄件信息；物品信息包括物品名称、物品重量等。

进一步地，一种基于快递大数据的异常检测方法S3中的统计特征，包含每位用户一年的寄件量、收件人个数、寄件物品的种类数、物品重量的众数及方差等，可用于反映用户长时间的寄递行为规律。

进一步地，一种基于快递大数据的异常检测方法S4中的时间特征，是每位用户选择寄递包裹的时间，它反映了用户的时间活动规律。可以从不同角度进行分析，例如寄件量最大的月份、寄件时间(小时)和相邻时间间隔等。

进一步地，一种基于快递大数据的异常检测方法S5中的地理特征，包含每一位用户寄件地址与收件地址的平均距离、用户常驻地址周边的POI数量以及用户的活动半径。

进一步地，一种基于快递大数据的异常检测方法S6包含两个子步骤：

S61：所述的无监督异常检测方法采用的是IForest(Isolated Forest)算法，IForest使用了一种特殊的策略划分特征空间，那些密度很高的簇被划分很多次才会停止，但那些密度很低的点很早就停到一个子空间里。划分完之后，开始从头到尾遍历，计算平均路径长度，进而估计异常的得分。为了缩小正负类数据的不平衡，利用这一步可以去除异常得分低的正常用户。

使用无监督的异常检测方法(孤立森林(IForest))过滤部分正常用户。IForest采用一种递归的方法划分特征空间，直到所有的子空间都只有一个实例或者树的高度达到上限时，然后从根节点到叶子结点进行遍历，并根据公式c(n)＝2H(n-1)-(2(n-1)/n)计算平均路径长度，然后根据公式

估计异常得分，当平均路径长度趋向于0时，异常得分为1，表示绝对的异常；当平均路径长度趋向于n-1时，异常得分为0，表示为正常。通过调整调整污染指数(异常的数量占总数量的比例)得到不同的异常得分。当污染指数过大时，能够准确的识别出异常，但同时伴随的一个问题是导致较高的误检率；而当污染指数过小时，不能很好的识别出与正常特征相似的异常用户，考虑这一步的目的是过滤掉正常的用户，于是允许一些正常的用户被误检为异常用户，因此污染指数可以稍微大一些。

S62：在S61之后，研究对象变为真正的嫌疑用户和被误判为嫌疑用户的正常用户，但仍然存在问题是出现了较高的误检率。为了解决这个问题，采用常见的分类算法识别嫌疑用户，进一步降低误检率。假设有M个研究对象，用{(x_i,f_i)|i＝1,2,...,M}表示，x_i表示一位用户，f_i则表示该用户所对应的类别，即当f_i＝1时表示嫌疑用户，当f_i＝0时则表示正常用户。所述的有监督分类方法采用的是NB(Naive Bayes)或DT(Decision Tree)算法，可以进一步对嫌疑人和正常用户进行分类，用于嫌疑人的识别。

实施例

S1、选取西安市2016.06-2017.06期间所有的顺丰数据，数据覆盖从西安(包括咸阳)寄出和寄往西安的所有快递记录，共14708006条。其中，原始数据字段共130个，经过数据清洗、去除重复项等处理之后保留字段23个，经过剩余5881166条记录。另外，为了保护用户的隐私信息，所有用户真实信息均经过处理，号码经过MD5加密转化为定长无序字符串，仅用于标识一个虚拟用户而不具体到任何真实用户。经过数据预处理后快递数据样例主要包含四个部分：a.快递信息：寄件时间和运单号；b.寄件人信息：寄件人姓名、寄件人手机号码与寄件地址；c.收件人信息：收件人姓名、收件人手机号码与收件地址；d.物品信息：邮寄物品所属类型，物品的重量。

S2、根据专家经验从统计、时间和地理三方面特征分析用户的历史寄递行为，发现正常用户与嫌疑用户之间的行为差异，分别对这些用户的寄递行为进行分析研究。

S3、综合S2的分析规律，提取统计、时间和地理三类特征，统计其寄递行为的变化规律，如图2，图3，图4所示，通过分析不难发现嫌疑人与正常用户之间存在着明显的差异。

S4、基于S3的分析结果，建立异常检测模型，如图5所示。首先建立无监督异常模型用于剔除部分正常用户，目的是解决正负类不平衡问题，此时，研究对象变为真正的嫌疑用户和被误判为嫌疑用户的正常用户。然后建立有监督的分类模型进一步识别嫌疑人，同时，该方法能够有效降低误检率。

S5、通过对比分析单纯的利用分类方法、无监督异常检测方法对嫌疑人进行识别。本发明提供的方法能够弥补分类方法与无监督异常检测方法的不足之处，并且充分利用二者之间的优势实现嫌疑人的识别，且有较高的准确性。

Claims

1.一种基于快递大数据的异常检测方法，其特征在于步骤如下：

步骤1：对大量的真实快递记录进行预处理，在经过数据预处理之后还包含四部分信息，分别是快递信息、寄件信息、收件信息、物品信息；所述的预处理包括数据清洗、数据补全，脱敏、地址经纬度转换和物品分类；

步骤2：提取统计学特征、时间特征和地理特征；

2.根据权利要求1所述的一种基于快递大数据的异常检测方法，其特征在于步骤3中所述的统计学特征反映了用户长期寄递的行为规律，包括寄件量、收件人个数、寄件物品的种类数、物品重量的众数及方差。

3.根据权利要求1所述的一种基于快递大数据的异常检测方法，其特征在于步骤4中所述的时间特征反映用户的时间活动规律，包括寄件量最大的月份、寄件时间和相邻时间间隔。

4.根据权利要求1所述的一种基于快递大数据的异常检测方法，其特征在于步骤5中所述的地理特征反映用户的行为活动规律，包括寄件地址与收件地址的平均距离、用户常驻地址周边的POI数量以及用户的活动半径。

5.根据权利要求1所述的一种基于快递大数据的异常检测方法，其特征在于步骤6中所述的无监督异常检测方法采用的是IForest算法。

6.根据权利要求1所述的一种基于快递大数据的异常检测方法，其特征在于步骤7中所述的分类方法采用的是Naive Bayes或Decision Tree算法。