CN109766956B - 基于快递大数据的异常检测方法 - Google Patents

基于快递大数据的异常检测方法 Download PDF

Info

Publication number
CN109766956B
CN109766956B CN201910205353.8A CN201910205353A CN109766956B CN 109766956 B CN109766956 B CN 109766956B CN 201910205353 A CN201910205353 A CN 201910205353A CN 109766956 B CN109766956 B CN 109766956B
Authority
CN
China
Prior art keywords
user
behavior
consignment
detection method
express
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910205353.8A
Other languages
English (en)
Other versions
CN109766956A (zh
Inventor
於志文
张曼
任思源
郭斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Publication of CN109766956A publication Critical patent/CN109766956A/zh
Application granted granted Critical
Publication of CN109766956B publication Critical patent/CN109766956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于快递大数据的异常检测方法,该方法以用户快递数据为基础,根据专家经验从统计、时间和地理三方面特征分析用户的历史寄递行为,发现正常用户与嫌疑用户之间的行为差异,将无监督异常检测方法和有监督分类算法巧妙地结合,进而用于嫌疑人的识别。本发明首先采用无监督异常检测方法剔除正常用户,能够缩小正负类数据不平衡问题,但仍存在较高的误检率,进一步使用有监督分类方法对异常用户进行识别,能够有效地降低误检率。

Description

基于快递大数据的异常检测方法
技术领域
本发明利用用户历史快递数据解析公共安全问题,涉及到统计学的各种分析方法及数据挖掘的主要任务之一—异常检测。具体地说,以用户的历史快递数据为基础,针对用快递方式实施犯罪的某一类犯罪行为,从统计、时间和地理三方面特征进行了详细的分析,进而采用异常检测方法识别嫌疑人。
背景技术
近年来,随着网络购物的逐渐兴起,越来越多的人通过快递进行物品的邮递,它是推动流通方式转型和消费升级的重要产物。但是在给社会公众带来巨大便捷的同时,也伴随着难以控制的流动性风险,给公共安全带来严峻的挑战。例如,偷窃的赃物通过快递方式进行销赃,利用快递方式运输毒品、爆炸物等危险物品。目前,在公共安全领域利用快递数据分析用户行为特征的研究并没有开展,还停留在个案的简单分析阶段。往往是在案发后,根据案情的实际需要进行邮件检查,进而发现犯罪嫌疑人。通过分析历史快递记录中用户的寄递行为规律,不难发现嫌疑人与正常用户之间存在着明显的差异,举例来说,嫌疑人寄件时间主要集中在晚上20:00左右,而正常用户则选择在18:00左右;利用现有的技术和方法,对快递数据进行分析挖掘,得出用户行为特征的分析结果,进而对犯罪嫌疑人进行识别检测,这样可以更好地为侦察办案和情报信息工作服务,使得预防犯罪成为可能。
专利CN200910027374.1公开了一种基于改进CURE聚类算法的无监督异常检测方法和系统。该检测方法包括步骤:对训练集进行聚类,将异常行为数据与正常行为数据分类;对已经分类的数据进行标记;根据标记为正常行为的数据进行建模,其建模算法为基于超矩形的建模算法;将待检测数据与正常行为模型进行对比,判断是否为异常数据。专利CN201410810860.1公开了一种网络异常检测方法,包括:第一步骤,用于根据待检测网络来确定将被聚类的MIB数据的属性,生成属性向量X;第二步骤,用于对预定时间内的MIB数据进行采样;第三步骤,用于对采集到的MIB数据执行聚类分析处理;第四步骤,用于对聚类分析处理结果执行进行孤立点检测。在第四步骤中,将聚类分析处理结果中成员数目小于指定阈值的聚类判断为孤立事件,而且判断孤立事件所对应的时间内发生了网络异常。这些专利的不足之处就是忽略了正负类数据的不平衡问题,并且存在较高的误检率。只有缩小负类的数量,在实施分类算法时才不会导致结果偏向占比较大的负类,实验结果的准确性才会提高。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于快递大数据的异常检测方法,首先采用无监督异常检测方法剔除正常用户,能够缩小正负类数据不平衡问题,但仍存在较高的误检率,进一步使用有监督分类方法对异常用户进行识别,能够有效地降低误检率。
技术方案
一种基于快递大数据的异常检测方法,其特征在于步骤如下:
步骤1:对大量的真实快递记录进行预处理,预处理包括数据清洗、数据补全,脱敏、地址经纬度转换和物品分类;
步骤2:结合专家经验知识提取统计学特征、时间特征和地理特征;
步骤3:基于提取的统计学特征,使用比较分析法研究用户长期的寄递行为规律,并发掘它们之间的差异性;
步骤4:基于提取的时间特征,使用比较分析法研究用户的寄递行为时间规律,并发掘它们之间的差异性;
步骤5:基于提取的地理特征,使用比较分析法研究用户寄递行为活动规律,并发掘它们之间的差异性;
步骤6:基于以上提取的特征,使用无监督异常检测方法计算平均路径长度来估计样本的异常得分,将异常得分低的用户进行删除;
步骤7:对于步骤6中剩余的研究对象,一部分是异常用户,另一部分是误判的正常用户,进一步使用分类方法对嫌疑人进行识别。
步骤3中所述的统计学特征反映了用户长期寄递的行为规律,包括寄件量、收件人个数、寄件物品的种类数、物品重量的众数及方差。
步骤4中所述的时间特征反映用户的时间活动规律,包括寄件量最大的月份、寄件时间和相邻时间间隔。
步骤5中所述的地理特征反映用户的行为活动规律,包括寄件地址与收件地址的平均距离、用户常驻地址周边的POI数量以及用户的活动半径。
步骤6中所述的无监督异常检测方法采用的是IForest算法。
步骤7中所述的分类方法采用的是Naive Bayes或Decision Tree算法。
有益效果
本发明提出的一种基于快递大数据的异常检测方法,在该方法中,更加全面的利用了用户历史的快递数据,从统计、时间和地理三方面特征进行分析,发现了正常用户与嫌疑用户的寄递行为差异,然后巧妙地将无监督异常检测方法与有监督的分类算法进行结合,不仅能缩小正负类数据数量差异,还可以有效的降低误检率。
本发明通过将无监督异常检测方法与有监督分类方法巧妙结合起来用于检测快递数据中的异常用户,不仅能够缩小正负类数据不平衡问题,还能够有效地降低误检率,使得识别准确率更高。
附图说明
图1为本发明实施例提供的一种基于快递大数据异常检测方法的流程图;
图2为本发明实施例提供的一种基于快递大数据异常检测方法中部分统计学特征分布图;
图3为本发明实施例提供的一种基于快递大数据异常检测方法中部分时间特征分布图;
图4为本发明实施例提供的一种基于快递大数据异常检测方法中部分地理特征分布图;
图5为本发明实施例提供的一种基于快递大数据异常检测方法中具体方案的流程图。
具体实施方式
现结合实施例、附图对本发明作进一步描述:
为了能够识别出利用快递方式实施犯罪的某一类犯罪嫌疑人,本发明提供一种基于快递大数据的异常检测方法,该方法以用户快递数据为基础,根据专家经验从统计、时间和地理三方面特征分析用户的历史寄递行为,发现正常用户与嫌疑用户之间的行为差异,将无监督异常检测方法和有监督分类算法巧妙地结合,进而用于嫌疑人的识别。
为实现上述目的,本发明提供了如下方案:
一种基于快递大数据的异常检测方法,包括以下骤:
S1、对大量的真实快递记录进行预处理。
S2、结合专家经验知识提取统计学特征、时间特征和地理特征。
S3、基于提取的统计学特征,使用比较分析法研究用户长期的寄递行为规律,并发掘它们之间的差异性。
S4、基于提取的时间特征,使用比较分析法研究用户的寄递行为时间规律,并发掘它们之间的差异性。
S5、基于提取的地理特征,使用比较分析法研究用户寄递行为活动规律,并发掘它们之间的差异性。
S6、建立异常检测模型,该模型主要分为两步:
第一步:过滤正常用户;
第二步:嫌疑人识别;
进一步地,一种基于快递大数据的异常检测方法S1中用户的历史快递记录预处理,主要包括数据清洗、数据补全,脱敏、地址经纬度转换和物品分类等过程。在经过数据预处理之后还包含四部分信息,分别是快递信息、寄件信息、收件信息、物品信息。快递信息指的是快递的运单号、寄件时间、快递公司名称等,寄件信息包括寄件人姓名、寄件人电话号码以及寄件人地址,收件信息对应于寄件信息;物品信息包括物品名称、物品重量等。
进一步地,一种基于快递大数据的异常检测方法S3中的统计特征,包含每位用户一年的寄件量、收件人个数、寄件物品的种类数、物品重量的众数及方差等,可用于反映用户长时间的寄递行为规律。
进一步地,一种基于快递大数据的异常检测方法S4中的时间特征,是每位用户选择寄递包裹的时间,它反映了用户的时间活动规律。可以从不同角度进行分析,例如寄件量最大的月份、寄件时间(小时)和相邻时间间隔等。
进一步地,一种基于快递大数据的异常检测方法S5中的地理特征,包含每一位用户寄件地址与收件地址的平均距离、用户常驻地址周边的POI数量以及用户的活动半径。
进一步地,一种基于快递大数据的异常检测方法S6包含两个子步骤:
S61:所述的无监督异常检测方法采用的是IForest(Isolated Forest)算法,IForest使用了一种特殊的策略划分特征空间,那些密度很高的簇被划分很多次才会停止,但那些密度很低的点很早就停到一个子空间里。划分完之后,开始从头到尾遍历,计算平均路径长度,进而估计异常的得分。为了缩小正负类数据的不平衡,利用这一步可以去除异常得分低的正常用户。
使用无监督的异常检测方法(孤立森林(IForest))过滤部分正常用户。IForest采用一种递归的方法划分特征空间,直到所有的子空间都只有一个实例或者树的高度达到上限时,然后从根节点到叶子结点进行遍历,并根据公式c(n)=2H(n-1)-(2(n-1)/n)计算平均路径长度,然后根据公式
Figure BDA0001998801850000061
估计异常得分,当平均路径长度趋向于0时,异常得分为1,表示绝对的异常;当平均路径长度趋向于n-1时,异常得分为0,表示为正常。通过调整调整污染指数(异常的数量占总数量的比例)得到不同的异常得分。当污染指数过大时,能够准确的识别出异常,但同时伴随的一个问题是导致较高的误检率;而当污染指数过小时,不能很好的识别出与正常特征相似的异常用户,考虑这一步的目的是过滤掉正常的用户,于是允许一些正常的用户被误检为异常用户,因此污染指数可以稍微大一些。
S62:在S61之后,研究对象变为真正的嫌疑用户和被误判为嫌疑用户的正常用户,但仍然存在问题是出现了较高的误检率。为了解决这个问题,采用常见的分类算法识别嫌疑用户,进一步降低误检率。假设有M个研究对象,用{(xi,fi)|i=1,2,...,M}表示,xi表示一位用户,fi则表示该用户所对应的类别,即当fi=1时表示嫌疑用户,当fi=0时则表示正常用户。所述的有监督分类方法采用的是NB(Naive Bayes)或DT(Decision Tree)算法,可以进一步对嫌疑人和正常用户进行分类,用于嫌疑人的识别。
实施例
S1、选取西安市2016.06-2017.06期间所有的顺丰数据,数据覆盖从西安(包括咸阳)寄出和寄往西安的所有快递记录,共14708006条。其中,原始数据字段共130个,经过数据清洗、去除重复项等处理之后保留字段23个,经过剩余5881166条记录。另外,为了保护用户的隐私信息,所有用户真实信息均经过处理,号码经过MD5加密转化为定长无序字符串,仅用于标识一个虚拟用户而不具体到任何真实用户。经过数据预处理后快递数据样例主要包含四个部分:a.快递信息:寄件时间和运单号;b.寄件人信息:寄件人姓名、寄件人手机号码与寄件地址;c.收件人信息:收件人姓名、收件人手机号码与收件地址;d.物品信息:邮寄物品所属类型,物品的重量。
S2、根据专家经验从统计、时间和地理三方面特征分析用户的历史寄递行为,发现正常用户与嫌疑用户之间的行为差异,分别对这些用户的寄递行为进行分析研究。
S3、综合S2的分析规律,提取统计、时间和地理三类特征,统计其寄递行为的变化规律,如图2,图3,图4所示,通过分析不难发现嫌疑人与正常用户之间存在着明显的差异。
S4、基于S3的分析结果,建立异常检测模型,如图5所示。首先建立无监督异常模型用于剔除部分正常用户,目的是解决正负类不平衡问题,此时,研究对象变为真正的嫌疑用户和被误判为嫌疑用户的正常用户。然后建立有监督的分类模型进一步识别嫌疑人,同时,该方法能够有效降低误检率。
S5、通过对比分析单纯的利用分类方法、无监督异常检测方法对嫌疑人进行识别。本发明提供的方法能够弥补分类方法与无监督异常检测方法的不足之处,并且充分利用二者之间的优势实现嫌疑人的识别,且有较高的准确性。

Claims (6)

1.一种基于快递大数据的异常检测方法,其特征在于步骤如下:
步骤1:对大量的真实快递记录进行预处理,在经过数据预处理之后还包含四部分信息,分别是快递信息、寄件信息、收件信息、物品信息;所述的预处理包括数据清洗、数据补全,脱敏、地址经纬度转换和物品分类;
步骤2:提取统计学特征、时间特征和地理特征;
步骤3:基于提取的统计学特征,使用比较分析法研究用户长期的寄递行为规律,并发掘它们之间的差异性;
步骤4:基于提取的时间特征,使用比较分析法研究用户的寄递行为时间规律,并发掘它们之间的差异性;
步骤5:基于提取的地理特征,使用比较分析法研究用户寄递行为活动规律,并发掘它们之间的差异性;
步骤6:基于以上提取的特征,使用无监督异常检测方法计算平均路径长度来估计样本的异常得分,将异常得分低的用户进行删除;
步骤7:对于步骤6中剩余的研究对象,一部分是异常用户,另一部分是误判的正常用户,进一步使用分类方法对嫌疑人进行识别。
2.根据权利要求1所述的一种基于快递大数据的异常检测方法,其特征在于步骤3中所述的统计学特征反映了用户长期寄递的行为规律,包括寄件量、收件人个数、寄件物品的种类数、物品重量的众数及方差。
3.根据权利要求1所述的一种基于快递大数据的异常检测方法,其特征在于步骤4中所述的时间特征反映用户的时间活动规律,包括寄件量最大的月份、寄件时间和相邻时间间隔。
4.根据权利要求1所述的一种基于快递大数据的异常检测方法,其特征在于步骤5中所述的地理特征反映用户的行为活动规律,包括寄件地址与收件地址的平均距离、用户常驻地址周边的POI数量以及用户的活动半径。
5.根据权利要求1所述的一种基于快递大数据的异常检测方法,其特征在于步骤6中所述的无监督异常检测方法采用的是IForest算法。
6.根据权利要求1所述的一种基于快递大数据的异常检测方法,其特征在于步骤7中所述的分类方法采用的是Naive Bayes或Decision Tree算法。
CN201910205353.8A 2018-07-19 2019-03-18 基于快递大数据的异常检测方法 Active CN109766956B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018107976658 2018-07-19
CN201810797665 2018-07-19

Publications (2)

Publication Number Publication Date
CN109766956A CN109766956A (zh) 2019-05-17
CN109766956B true CN109766956B (zh) 2022-08-23

Family

ID=66459503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910205353.8A Active CN109766956B (zh) 2018-07-19 2019-03-18 基于快递大数据的异常检测方法

Country Status (1)

Country Link
CN (1) CN109766956B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214863B (zh) * 2018-08-27 2021-08-03 西北工业大学 一种基于快递数据预测城市房屋需求的方法
CN112861895B (zh) * 2019-11-27 2023-11-03 北京京东振世信息技术有限公司 一种异常物品的检测方法和装置
CN111369339A (zh) * 2020-03-02 2020-07-03 深圳索信达数据技术有限公司 一种基于过采样改进svdd的银行客户交易行为异常识别方法
CN112801189A (zh) * 2021-01-29 2021-05-14 上海寻梦信息技术有限公司 经纬度异常检测方法、装置、电子设备和存储介质
CN113935696B (zh) * 2021-12-14 2022-04-08 国家邮政局邮政业安全中心 一种寄递行为异常分析方法、系统、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561878A (zh) * 2009-05-31 2009-10-21 河海大学 基于改进cure聚类算法的无监督异常检测方法和系统
CN103052022A (zh) * 2011-10-17 2013-04-17 中国移动通信集团公司 基于移动行为的用户稳定点发现方法和系统
CN103886068A (zh) * 2014-03-20 2014-06-25 北京国双科技有限公司 用于互联网用户行为分析的数据处理方法和装置
CN104200076A (zh) * 2014-08-19 2014-12-10 钟亚平 一种运动员运动损伤风险预警方法
CN104268665A (zh) * 2014-08-28 2015-01-07 广东电网公司电力科学研究院 一种管理系统用户行为分析方法
CN104462184A (zh) * 2014-10-13 2015-03-25 北京系统工程研究所 一种基于双向抽样组合的大规模数据异常识别方法
CN105224872A (zh) * 2015-09-30 2016-01-06 河南科技大学 一种基于神经网络聚类的用户异常行为检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909468B2 (en) * 2015-02-27 2021-02-02 Verizon Media Inc. Large-scale anomaly detection with relative density-ratio estimation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561878A (zh) * 2009-05-31 2009-10-21 河海大学 基于改进cure聚类算法的无监督异常检测方法和系统
CN103052022A (zh) * 2011-10-17 2013-04-17 中国移动通信集团公司 基于移动行为的用户稳定点发现方法和系统
CN103886068A (zh) * 2014-03-20 2014-06-25 北京国双科技有限公司 用于互联网用户行为分析的数据处理方法和装置
CN104200076A (zh) * 2014-08-19 2014-12-10 钟亚平 一种运动员运动损伤风险预警方法
CN104268665A (zh) * 2014-08-28 2015-01-07 广东电网公司电力科学研究院 一种管理系统用户行为分析方法
CN104462184A (zh) * 2014-10-13 2015-03-25 北京系统工程研究所 一种基于双向抽样组合的大规模数据异常识别方法
CN105224872A (zh) * 2015-09-30 2016-01-06 河南科技大学 一种基于神经网络聚类的用户异常行为检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Anomaly Detection of Malicious Users’ Behaviors for Web Applications Based on Web Logs;Yang Gao 等;《2017 17th IEEE International Conference on Communication Technology》;20171231;第1352-1355页 *
User Behavior Anomaly Detection for Application Layer DDoS Attacks;Maryam M. Najafabadi 等;《2017 IEEE International Conference on Information Reuse and Integration》;20171231;第154-161页 *
一种采用UWB定位系统进行行为识别的方法;马荟 等;《计算机工程与应用》;20121231;第48卷(第14期);第208-213页 *
用户行为异常检测模型;郑红艳 等;《计算机系统应用》;20091231(第8期);第190-192页 *

Also Published As

Publication number Publication date
CN109766956A (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
CN109766956B (zh) 基于快递大数据的异常检测方法
CN107577688B (zh) 基于媒体信息采集的原创文章影响力分析系统
CN105550583B (zh) 基于随机森林分类方法的Android平台恶意应用检测方法
Ektefa et al. Intrusion detection using data mining techniques
CN108874927B (zh) 基于超图和随机森林的入侵检测方法
CN103795612B (zh) 即时通讯中的垃圾和违法信息检测方法
Joshi et al. Crime analysis using K-means clustering
CN111045847A (zh) 事件审计方法、装置、终端设备以及存储介质
CN108009690B (zh) 一种基于模块度最优化的地面公交扒窃团体自动检测方法
CN111556016B (zh) 一种基于自动编码器的网络流量异常行为识别方法
CN109284626A (zh) 面向差分隐私保护的随机森林算法
CN104809393B (zh) 一种基于流行度分类特征的托攻击检测算法
CN111695597B (zh) 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统
CN108833139B (zh) 一种基于类别属性划分的ossec报警数据聚合方法
CN110046889B (zh) 一种异常行为主体的检测方法、装置及服务器
CN107145778B (zh) 一种入侵检测方法及装置
CN111507385B (zh) 一种可扩展的网络攻击行为分类方法
Agarwal et al. Comparison of machine learning approaches in the prediction of terrorist attacks
CN106506528A (zh) 一种大数据环境下的网络安全分析系统
CN113627521A (zh) 基于孤立森林法的物流无人机异常行为智能识别方法
CN111079427A (zh) 一种垃圾邮件识别方法及系统
CN111898385A (zh) 一种地震灾害评估方法及系统
CN115222303A (zh) 基于大数据的行业风险数据分析方法、系统及存储介质
CN105337842B (zh) 一种与内容无关的垃圾邮件过滤方法
CN105930430B (zh) 一种基于非累积属性的实时欺诈检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant