CN106528850A - 基于机器学习聚类算法的门禁数据异常检测方法 - Google Patents
基于机器学习聚类算法的门禁数据异常检测方法 Download PDFInfo
- Publication number
- CN106528850A CN106528850A CN201611061709.8A CN201611061709A CN106528850A CN 106528850 A CN106528850 A CN 106528850A CN 201611061709 A CN201611061709 A CN 201611061709A CN 106528850 A CN106528850 A CN 106528850A
- Authority
- CN
- China
- Prior art keywords
- data
- record
- gate inhibition
- machine learning
- card
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 23
- 238000001514 detection method Methods 0.000 title claims abstract description 19
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 10
- 230000005856 abnormality Effects 0.000 claims abstract description 17
- 238000004140 cleaning Methods 0.000 claims abstract description 5
- 230000005764 inhibitory process Effects 0.000 claims description 45
- 238000000034 method Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 8
- 230000007306 turnover Effects 0.000 claims description 7
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 4
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 230000001680 brushing effect Effects 0.000 claims 2
- 239000000284 extract Substances 0.000 claims 2
- 238000004458 analytical method Methods 0.000 abstract description 10
- 230000006399 behavior Effects 0.000 abstract description 10
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000003542 behavioural effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008676 import Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Computer Security & Cryptography (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及门禁技术领域,特别涉及一种基于机器学习聚类算法的门禁数据异常检测方法,步骤一,清洗社区门禁系统的刷卡记录数据;步骤二,对清洗后的数据进行特征提取;步骤三,基于机器学习的聚类算法,分析所提取的门禁记录特征,将所有数据点划分到具有不同异常度的类中。本发明的有益效果是:可以有效检测社区进出人员的行为特征,大幅增强社区门禁系统数据的综合分析和应用能力,有利于提高社区安全管理水平。
Description
技术领域
本发明涉及门禁技术领域,特别涉及一种基于机器学习聚类算法的门禁数据异常检测方法。
背景技术
大数据分析技术与社会化行为数据的结合在近年来得到了飞速发展,这一方面得益于大数据平台的持续发展,比如开源的Hadoop、Spark、Hbase等分布式计算、存储框架的成熟。这些新技术伴随着互联网行业的爆发,已经被广泛应用于服务器的恶意请求分析、垃圾邮件过滤、购物推荐、图像识别等领域。基于机器学习的聚类、分类、回归等算法借助分布式大数据平台和工具的威力使得人们有能力对不断增长的数据规模进行深度分析。
另一方面,得益于多种类型的传感器被大量应用于检测和收集社会化行为数据,可供分析的数据资源空前丰富。怎样从所获得的数据中挖掘出社会化行为的规律、特征及其他深度信息,成为一个具有相当高研究价值的问题。已有的应用比较成熟的领域有医疗疾病治疗、人类基因编码分析、交通导航等。而在非商业领域,新技术推进的步伐并不是很快,比如对出入社区门禁人员的异常刷卡行为的监测方面,门禁记录数据的分析利用仍处于初级阶段,仅限于记录社区人员和来访人员的进出门禁情况,用以统计常住人口和来访人员。而且门禁系统自身的运行效率和状态往往受到人为管理水平不稳定和门禁设备不够完善等缺陷的约束,对记录的进一步挖掘和利用极其匮乏。
发明内容
为了解决上述发明问题,本发明提供了一种基于机器学习聚类算法的门禁数据异常检测方法,实现对门禁记录数据的自动分类,根据每类中记录的数量值可以合理给出异常度的定义,其中记录数量最少的类即为最异常类。
具体地,为达到上述目的,本发明提出了基于机器学习聚类算法的门禁记录异常度分析方法,内容包括:
步骤1、数据清洗:清除原始门禁记录中的无效数据。原始门禁记录中因违规管理(多人同时使用一张门卡进出门禁等情况)、设备功能不完善(设备采样率设置不合理或异常)等问题,出现个别门卡刷卡次数远高于多数门卡、短时内重复刷卡等情况,进而表现为门禁记录中的无效数据。数据清洗的方法为:统计门禁记录中每个门卡号的刷卡次数和刷卡时间序列,删除刷卡次数超过某个阈值(例如每日刷卡次数排名前十)的门卡号记录,再删除相邻刷卡时间间隔小于某个阈值(例如30秒)的记录。经此处理,得到可进一步分析的有效门禁记录数据。
步骤2、提取门禁记录的刷卡行为特征。特征提取是整个方法中最关键的一步,所提取的特征需能够合理反映门禁刷卡行为是否存在异常。经步骤1清洗之后的单条门禁记录的存储格式为(Index,ID,time,gateflag),其中Index为刷卡记录的序号,ID为门卡号,time为刷卡时间,gateflag为进出门禁的标识,gateflag=1表示进入小区,gateflag=0表示离开小区。可以预见,与一个门卡是否存在异常相关联的因素至少包含:一天内的刷卡次数、刷卡时间分布、进出门禁的比例。基于此,统计在一天内单个门卡在0-5时、6-11时、12-17时、18-23时四个时间段内的刷卡次数,记为n1、n2、n3、n4,将原门禁记录格式转化为(ID,n1,n2,n3,n4,gateflag),新格式能表征前述与门卡异常度相关联的三个因素,即为所提取的门禁记录刷卡行为特征。
步骤3、基于机器学习的聚类分析。一个中等规模社区的门禁系统经过三个月到半年时间将累积产生几十万到上百万条记录,此数据规模适合采用机器学习方法。所采用的K均值聚类算法的核心思想:将步骤2得到的特征记录投射到特征空间中,每条记录对应为空间中的一点,将空间中的所有数据点按照距离远近进行分类,最终所有的数据点都被划分到与其最近的类中。
聚类计算需要人为设定合理的类数量,一个简单的办法是考虑数据点与所对应类的中心的距离,当将所有数据点划分到n个类时,计算所有数据点与其类心距离的总和,该值随着分类数量增加而逐渐减少,在n达到某一个阈值时,再增加分类数量不会明显减小总距离,这个阈值即可设为最终的分类数量。
步骤4、定义异常度、抽取异常刷卡行为。通过K均值方法可以将记录数据划分到n个类中,有两种方法定义数据的异常度,一是计算每个数据点距离所有数据中心的距离,值越大表示该点异常度越高,二是按照每一类的数据量定义异常度,类内数据点越少表示该类越异常。因为第一种方法计算量较大,所以本发明采用第二种方法,数据点最少的类中的记录即为异常刷卡行为。
本发明实施例的有益效果是:深度挖掘出社区门禁信息,能够得到异常记录,是加强社区安全管理的有力工具。开创性地运用机器学习技术,与常规的人工搜索相比,能够更精准地得到数据中的异常信息,尤其适用于动态递增的海量数据情况。根据由计算得到的异常度,能有效判断任一记录的安全等级。由历史纪录提炼出的数据模型,可实时处理新出现的记录,实时判断该记录的异常度。
附图说明
图1为本发明实施例的基于机器学习聚类算法的门禁数据异常检测方法流程图。
图2为本发明实施例的异常类计算结果。
具体实施方式
实施例1
参见图1与图2,本发明提供一种基于机器学习聚类算法的门禁数据异常检测方法。
以某社区的真实门禁数据为例,详细描述本发明的操作步骤。
步骤1、数据清洗。原始数据记录的时间跨度为三个月,典型的刷卡记录如下:
表1 社区门禁刷卡原始记录示例
记录序号 | 卡号 | 刷卡时间 | 进出标识 |
8079 | 00234521 | 2016-03-18 21:45:32 | 1 |
8100 | 00237453 | 2016-03-19 13:18:26 | 1 |
8314 | 00235419 | 2016-03-19 13:33:47 | 1 |
8682 | 00230173 | 2016-03-19 14:11:27 | 0 |
8802 | 00232517 | 2016-03-19 14:19:13 | 1 |
表中第一列为每条记录对应的序号;第二列为门卡号;第三列为刷卡时间;第四列为进出门禁的方向标识,“1”表示出,“0”表示进。
门禁系统因为存在管理疏漏,经常出现管理人员使用同一张卡打开门禁的情况,所以原始数据中存在个别门卡号刷卡次数过多;同时门禁系统的刷卡设备存在采样率设置不当或采样不稳定等问题,间断性地出现在短时内(比如10秒)多次记录同一刷卡行为,导致原始记录中存在一定量的冗余。由这些因素导致的无效记录信息,需要通过统计分析进行排除,采用开源的Apache Spark进行数据清洗操作,代码如下。
//导入时间处理相关的三个库,对原始记录中的时间格式进行调整
import java.sql.Timestamp
import java.text.SimpleDateFormat
import java.util.Date
//导入原始数据,并对数据进行初步解析
val input=sc.textFile("dir/to/data.csv")
.map{x=>x.split(",")}
.map{x=>(x(2),(x(3),x(1),x(4),x(0)))}
//转换数据中的时间格式
val residents=input
.map{case(x,(y,z,g,h))=>(x,List(Timestamp.valueOf(y).getTime.toString,z,g,h))}
.cache
//检索刷卡次数最多的门卡号
val residentCount=residents.countByKey.toList
.sortBy{case(id,count)=>count}
.reverse
//删除出现次数过多、时间间隔过小的记录
val perIdInfor=residents.groupByKey.map{case(id,other)=>{var temp1=other.toList.sortBy{x=>x(0).toLong};(id,temp1)}}
val reducedRecords=perIdInfor
.map{
case(id,other)=>{
var temp2=List(other(0));
for(i<-0 to other.length-2){
if(other(i)(2).toInt!=other(i+1)(2).toInt){
var temp3=temp2:::List(other(i+1));
temp2=temp3;
}else{
if(other(i+1)(0).toLong-other(i)(0).toLong>300000){
var temp3=temp2:::List(other(i+1));
temp2=temp3;
}
}
};
(id,(temp2.length,temp2))
}
}
步骤2、特征提取。原始数据以每一次刷卡记录为一条数据,而我们关心的是同一门卡号在一天内的总体刷卡行为,所以需要对清洗后的数据按天进行划分,并统计一天内同一门卡号的刷卡行为,代码如下:
val reducedData=reducedRecords
.flatMapValues{case(n,records)=>records}
//以天为单位统计单个门卡号的记录,并提取其在0-5时、6-11时、12-17时、18-23时四个时间段上刷卡次数作为特征。
val refDate=Timestamp
.valueOf("1970-01-01 00:00:00")
.getTime
val perDayData=reducedData
.map{case(id,other)=>{
var dayGap=(other(0).toLong-refDate)/86400000;
var quartDayNum=(other(0).toLong-refDate)/21600000%4;
(id++"#"++dayGap.toString,List(dayGap.toString,quartDayNum.toString,other(1),other(2),other(3)))}}
val perIdDayData=perDayData.groupByKey
val perDayFeature=perIdDayData
.map{case(id,other)=>{
var tempOther=other
.toList;
var flagOne=other
.toList.map(x=>x(3).toInt).sum;
var q0=other.toList.filter(x=>x(1).toInt==0).length;
var q1=other.toList.filter(x=>x(1).toInt==1).length;
var q2=other.toList.filter(x=>x(1).toInt==2).length;
var q3=tempOther.length-q0-q1-q2;
(id,List(q0,q1,q2,q3,flagOne*1.0/tempOther.length))}}
在上述代码中,将以(ID,time,gateflag)格式存储的记录转变为(ID,特征)的格式。将全天时间根据当地时区分为0-5时、6-11时、12-17时、18-23时四个时间段,分别统计单个ID在一天内在前述四个时间段内的刷卡次数,相应记为n1、n2、n3、n4。经此处理,原记录转变为(ID,n1,n2,n3,n4,gateflag)的格式,其中特征项n1、n2、n3、n4能同时体现某个ID在某一天内的刷卡时间分布特征和刷卡次数特征,特征项gateflag能体现该ID进出门禁的方向特征。
步骤3、聚类分析。聚类算法分析中需要人工设定分类数目K,所选定的K值需使得分类结果趋于稳定。判断分类结果质量的一种方法是计算所有数据点与相应类心的距离平均值。为此,在下面所示的代码中定义了distToCentroid函数用以计算该距离,并在K值范围5-40内分别计算平均距离,通过比对不同K值的平均距离,以选定合理的K值,在本实例中,最终选定的K=30。
def distance(a:Vector,b:Vector)={
math.sqrt(a.toArray.zip(b.toArray)
.map(p=>p._1-p._2)
.map(d=>d*d)
.sum)}
def distToCentroid(datum:Vector,model:KMeansModel)={
val cluster=model.predict(datum);
val centroid=model.clusterCenters(cluster);
distance(centroid,datum)}
import org.apache.spark.rdd._
def clusteringScore(data:RDD[Vector],k:Int)={
val kmeans=new KMeans();
kmeans.setK(k);
val model=kmeans.run(data);
data.map(datum=>distToCentroid(datum,model)).mean()}
(5 to 40 by 5)
.map(k=>(k,clusteringScore(K_data,k)))
.foreach(println)
需要注意的是,上述代码仅用于选取K值,一旦该值给定,这些代码将不再使用,不包含在生产代码中。
选定K值后,下一步工作是对数据进行机器学习,代码如下。
val kmeans=new KMeans()
kmeans.setK(30)
val model=kmeans.run(K_data)
步骤4、结果提取。使用上述机器学习获得的聚类模型,应用于所有数据记录,可得到每一记录的归属类,并统计每一类的记录数量。代码如下。
//计算每个数据点所属的类,并统计类内的数据点数量。
val cluster_feature=
feature.map{case(label,datum)
=>val cluster=model.predict(datum);
(cluster,label,datum)}
val clusterCounts=
cluster_feature.map{case(x,y,z)=>x}
.countByValue.map{case(x,y)=>(y,x)}
.toList.sortBy{case(x,y)=>x}
然后统计记录数量最小的类,这些类即是需要查找的异常类,代码如下。
val abnormalCluster=clusterCounts.take(selected_K/5)
val abnormalRecords=
abnormalCluster.map{case(count,cluster)
=>cluster_feature.filter{case(c,label,datum)
=>c==cluster}.collect}
val abnormalData=abnormalRecords.flatMap(x=>x.toList)
//抽取异常类中的记录
val abnormalID=
abnormalData.map{case(cluster,id,vector)
=>(id.slice(0,18),cluster)}
val abnormalID_2=
sc.makeRDD(abnormalID).repartition(1)
.countByKey.toList.sortBy{case(id,count)
=>count}.reverse
步骤5、结果验证。K均值分析得到的聚类结果如图2所示。
类内记录数量直接与异常度关联,类22的异常度最高,类11的异常度最低。本实例中选取所有类的1/5作为异常类输出,即为类22、27、2、26、15和19,由上面可见,这6个类的记录总数并不是很多,较合理地定义了异常类。随机选取类22和11中个5条记录,以验证分类质量。结果如下表所示。
表2 类22中的记录示例
ID | 0-5时(次) | 6-11时(次) | 12-17时(次) | 18-23时(次) | “出”占比 |
1 | 0 | 0 | 7 | 8 | 0.53 |
2 | 0 | 1 | 5 | 9 | 0.4 |
3 | 0 | 0 | 7 | 6 | 0.46 |
4 | 3 | 0 | 10 | 6 | 0.42 |
5 | 0 | 0 | 5 | 7 | 0.5 |
表3 类11中的记录示例
ID | 0-5时(次) | 6-11时(次) | 12-17时(次) | 18-23时(次) | “出”占比 |
1 | 0 | 0 | 0 | 1 | 1 |
2 | 0 | 0 | 0 | 1 | 0 |
3 | 0 | 0 | 0 | 1 | 0 |
4 | 0 | 0 | 0 | 1 | 0 |
5 | 0 | 0 | 0 | 1 | 0 |
表2表示异常的刷卡行为包括下午和晚上的多次刷卡,表3表示最正常的刷卡行为是晚上出现的单次刷卡。这里需要进一步解释为什么最正常的刷卡行为出现在下班之后,而不是早上上班时,原因是早上上班人流较集中,一次刷卡,多人可以一起出门禁,多数人都不用刷卡,而晚上下班时,分散的陆陆续续的刷卡较多。通过简单的对比,能够说明此聚类分析结果的质量较好。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于机器学习聚类算法的门禁数据异常检测方法,包括用于存储门禁记录的数据库,其特征在于:
步骤一,清洗社区门禁系统的刷卡记录数据;删除门禁记录中的重复数据和高频数据;
步骤二,对清洗后的数据进行特征提取;提取每个门卡号单日内的分时段刷卡次数和进出门禁的比例作为特征;
步骤三,基于机器学习的聚类算法,分析所提取的门禁记录特征,将所有数据点划分到具有不同异常度的类中;
步骤四,定义异常度、抽取异常刷卡行为。
2.根据权利要求1所述的基于机器学习聚类算法的门禁数据异常检测方法,其特征在于,所述步骤一中删除门禁记录中的重复数据和高频数据的方法包括:
步骤S1,设定每日刷卡次数阈值与刷卡时间间隔阈值;
步骤S2,从数据库中读取并统计门禁记录中每个门卡号的刷卡次数和刷卡时间序列;
步骤S3,对每个门卡号记录中大于刷卡次数阈值,小于刷卡时间间隔阈值的刷卡记录进行清除。
3.根据权利要求1所述的基于机器学习聚类算法的门禁数据异常检测方法,其特征在于,所述步骤二对清洗后的数据进行特征提取的方法包括:
首先,对于所述步骤一清洗过的数据,确定刷卡数据的基础格式为(Index,ID,time,gateflag),其中Index为刷卡记录的序号,ID为门卡号,time为刷卡时间,gateflag为进出门禁的标识;gateflag=1表示进入小区,gateflag=0表示离开小区;
然后,确定进行特征提取的特征格式为(ID,n1,n2,n3,n4,gateflag),其中n1、n2、n3、n4分别为四个不同时段的刷卡次数;
最后,将每个门卡对应的刷卡数据由基础格式转换为特征格式。
4.根据权利要求3所述的基于机器学习聚类算法的门禁数据异常检测方法,其特征在于,所述特征格式(ID,n1,n2,n3,n4,gateflag)中,n1对应的时段为0-5时,n2对应的时段为6-11时,n3对应的时段为12-17时,n4对应的时段为18-23时。
5.根据权利要求1所述的基于机器学习聚类算法的门禁数据异常检测方法,其特征在于,所述步骤三中的机器学习聚类分析为机器学习的K均值聚类算法。
6.根据权利要求5所述的基于机器学习聚类算法的门禁数据异常检测方法,其特征在于,将所述步骤二得到的特征记录投射到特征空间中,每条记录对应为空间中的一点,将空间中的所有数据点按照距离远近进行分类,最终所有的数据点都被划分到与其最近的类中。
7.根据权利要求5所述的基于机器学习聚类算法的门禁数据异常检测方法,其特征在于,所述K均值聚类算法中,建立的聚类模型中,其类数量的确定方法为根据数据点与所对应类的中心的距离,将所有数据点划分到n个类,计算所有数据点与其类心距离的总和,该值随着分类数量增加而逐渐减少,在n达到阈值时,再增加分类数量不会明显减小总距离,这个阈值即设为最终的分类数量。
8.根据权利要求5所述的基于机器学习聚类算法的门禁数据异常检测方法,其特征在于,所述步骤四中异常度的定义方法为,通过K均值方法将记录数据划分到n个类中,计算每个数据点距离所有数据中心的距离,值越大表示该点异常度越高。
9.根据权利要求5所述的基于机器学习聚类算法的门禁数据异常检测方法,其特征在于,所述步骤四中异常度的定义方法为,通过K均值方法将记录数据划分到n个类中,按照每一类的数据量定义异常度,类内数据点越少表示该类越异常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611061709.8A CN106528850B (zh) | 2016-11-28 | 2016-11-28 | 基于机器学习聚类算法的门禁数据异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611061709.8A CN106528850B (zh) | 2016-11-28 | 2016-11-28 | 基于机器学习聚类算法的门禁数据异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106528850A true CN106528850A (zh) | 2017-03-22 |
CN106528850B CN106528850B (zh) | 2019-09-27 |
Family
ID=58357467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611061709.8A Active CN106528850B (zh) | 2016-11-28 | 2016-11-28 | 基于机器学习聚类算法的门禁数据异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106528850B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038593A (zh) * | 2017-04-06 | 2017-08-11 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于防伪溯源系统的异常数据处理方法及系统 |
CN107844798A (zh) * | 2017-09-29 | 2018-03-27 | 上海元卓信息科技有限公司 | 一种基于机器学习的海量数据中检测异常值的方法 |
CN109784636A (zh) * | 2018-12-13 | 2019-05-21 | 中国平安财产保险股份有限公司 | 欺诈用户识别方法、装置、计算机设备及存储介质 |
CN111144424A (zh) * | 2019-12-27 | 2020-05-12 | 中通服公众信息产业股份有限公司 | 一种基于聚类算法的人员特征检分析方法 |
CN114840728A (zh) * | 2022-07-04 | 2022-08-02 | 江苏九比特信息系统有限公司 | 一种基于多参数融合的出入口核验管理系统及方法 |
US11943244B2 (en) | 2021-06-22 | 2024-03-26 | International Business Machines Corporation | Anomaly detection over high-dimensional space |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050102069A1 (en) * | 2003-10-10 | 2005-05-12 | Achim Mueller | Vehicle data bus system |
CN105933647A (zh) * | 2016-04-20 | 2016-09-07 | 武汉凯乐华芯集成电路有限公司 | 一种智能交互门禁控制方法及系统 |
-
2016
- 2016-11-28 CN CN201611061709.8A patent/CN106528850B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050102069A1 (en) * | 2003-10-10 | 2005-05-12 | Achim Mueller | Vehicle data bus system |
CN105933647A (zh) * | 2016-04-20 | 2016-09-07 | 武汉凯乐华芯集成电路有限公司 | 一种智能交互门禁控制方法及系统 |
Non-Patent Citations (1)
Title |
---|
郑伟平 等: ""电子门禁数据挖掘与应用方法"", 《警察技术》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038593A (zh) * | 2017-04-06 | 2017-08-11 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于防伪溯源系统的异常数据处理方法及系统 |
CN107038593B (zh) * | 2017-04-06 | 2020-07-21 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于防伪溯源系统的异常数据处理方法及系统 |
CN107844798A (zh) * | 2017-09-29 | 2018-03-27 | 上海元卓信息科技有限公司 | 一种基于机器学习的海量数据中检测异常值的方法 |
CN107844798B (zh) * | 2017-09-29 | 2021-05-14 | 上海元卓信息科技有限公司 | 一种基于机器学习的海量数据中检测异常值的方法 |
CN109784636A (zh) * | 2018-12-13 | 2019-05-21 | 中国平安财产保险股份有限公司 | 欺诈用户识别方法、装置、计算机设备及存储介质 |
CN111144424A (zh) * | 2019-12-27 | 2020-05-12 | 中通服公众信息产业股份有限公司 | 一种基于聚类算法的人员特征检分析方法 |
US11943244B2 (en) | 2021-06-22 | 2024-03-26 | International Business Machines Corporation | Anomaly detection over high-dimensional space |
CN114840728A (zh) * | 2022-07-04 | 2022-08-02 | 江苏九比特信息系统有限公司 | 一种基于多参数融合的出入口核验管理系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106528850B (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106528850B (zh) | 基于机器学习聚类算法的门禁数据异常检测方法 | |
CN104794192B (zh) | 基于指数平滑、集成学习模型的多级异常检测方法 | |
CN110400215B (zh) | 面向企业家族的小微企业信用评估模型构建方法及系统 | |
CN111127105A (zh) | 用户分层模型构建方法及系统、运营分析方法及系统 | |
CN104036360A (zh) | 一种基于磁卡考勤行为的用户数据处理系统及处理方法 | |
CN109558962A (zh) | 预测电信用户流失的装置、方法和存储介质 | |
CN110288824B (zh) | 基于Granger causality路网早晚高峰拥堵状况和传播机制分析方法 | |
CN107274066B (zh) | 一种基于lrfmd模型的共享交通客户价值分析方法 | |
CN109767269A (zh) | 一种游戏数据的处理方法和装置 | |
CN110889092A (zh) | 一种基于轨道交易数据的短时大型活动周边轨道站点客流量预测方法 | |
CN114266455A (zh) | 一种基于知识图谱的可视化企业风险评估方法 | |
CN113435627A (zh) | 基于工单轨迹信息的电力客户投诉预测方法及装置 | |
CN114493686A (zh) | 一种运营内容生成推送方法及装置 | |
CN109918544B (zh) | 基于粗糙集的职务犯罪社会关系网络智能分析方法及系统 | |
CN110990384B (zh) | 一种大数据平台bi分析方法 | |
Kirshners et al. | Combining clustering and a decision tree classifier in a forecasting task | |
CN110837504A (zh) | 一种工控系统异常系统事件识别方法 | |
CN113538011B (zh) | 一种电力系统中非在册联系信息与在册用户的关联方法 | |
CN114155096A (zh) | 基于三部图的银行侦测网络赌博资金非法转移行为的方法 | |
CN111324509A (zh) | 一种对应用沉迷的识别方法和装置 | |
CN112348257A (zh) | 一种多源数据融合与时序分析驱动的选举预测方法 | |
Xu et al. | Big data analytics toward intelligent mobile service provisions of customer relationship management in e-commerce | |
CN111369394A (zh) | 基于大数据的景区客流量统计评估系统及方法 | |
CN117370448B (zh) | 品牌数字资产洞察分析方法 | |
CN117271905B (zh) | 基于人群画像的侧向需求分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |