CN109657547A - 一种基于伴随模型的异常轨迹分析方法 - Google Patents
一种基于伴随模型的异常轨迹分析方法 Download PDFInfo
- Publication number
- CN109657547A CN109657547A CN201811347044.6A CN201811347044A CN109657547A CN 109657547 A CN109657547 A CN 109657547A CN 201811347044 A CN201811347044 A CN 201811347044A CN 109657547 A CN109657547 A CN 109657547A
- Authority
- CN
- China
- Prior art keywords
- data
- personnel
- algorithm
- risk
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 45
- 238000004458 analytical method Methods 0.000 title claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 73
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000005065 mining Methods 0.000 claims abstract description 11
- 238000012512 characterization method Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 16
- 238000007596 consolidation process Methods 0.000 claims description 8
- 230000001788 irregular Effects 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 2
- 241001269238 Data Species 0.000 abstract description 5
- 230000005856 abnormality Effects 0.000 abstract description 3
- 238000009412 basement excavation Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013209 evaluation strategy Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000007618 network scheduling algorithm Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Tourism & Hospitality (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Primary Health Care (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于伴随模型的异常轨迹分析方法,包括以下步骤:视频结构化系统进行人脸识别,得到人脸视频数据并进行预处理,然后通过频繁模型挖掘算法针对伴随人员进行伴随分析挖掘,得到伴随关系数据和伴随风险系数,伴随风险系数大于伴随人员风险阈值记录为风险伴随人员;通过无监督学习算法针对风险伴随人员的伴随关系数据进行伴随轨迹异常检测,基于风险伴随人员的异常轨迹通过自动特征工程算法训练有监督学习模型并进行风险伴随人员异常轨迹分析。本发明基于人脸视频结构化数据,结合伴随分析模型,在考虑人员伴随关系的基础上,通过异常轨迹检测算法分析异常轨迹,克服了仅从时间和位置角度构建模型在准确性和应用性较差的局限。
Description
技术领域
本发明属于视频数据处理技术领域,具体涉及一种基于伴随模型的异常轨迹分析方法。
背景技术
公安信息智能感知是依据在一定时空下的犯罪特点和治安情况,运用人工智能背景下机器学习的理论和方法,通过对警情信息进行分类、甄别、分析、预判,对可能发生犯罪和导致社会动乱的各种要素及其所呈现出来的征兆进行严密监测,对其发展趋势、危害程度进行准确预测,捕捉警讯,及时预警,超前防范,形成有效防控犯罪发生和重大恶性案件爆发的一套运行机制。传统的作战技法无法及时还原违法犯罪行为轨迹,而目前常用采用的积分预警模型是相关行业专家根据已有经验综合打分获得,这种方法的缺点是过多的依赖于先验知识,而忽略了潜在的影响因素。
重点人员异常轨迹分析是公安智能感知机制中的重要应用课题,尤其是结合伴随关系进行重点人员异常轨迹检测,在公安激战法中具有较大的应用价值。目前来说,公安实战应用中对人员伴随情况的异常轨迹分析,主要依靠人工回放视频的方式来进行轨迹事后还原,分析效率较低。而部分地方已构建视频结构化数据分析平台,基于人脸视频结构化数据,使用规则和机器学习算法实现伴随关系异常轨迹检测分析。其中,规则系统主要依赖专家经验,存在一定的主观因素,且难免疏漏。基于机器学习算法的异常轨迹检测相对规则系统具有更好的客观性及准确性。基于机器学习算法的伴随关系异常轨迹检测技术包括监督性学习和无监督性学习两类算法,该方案常用的监督性学习包括逻辑回归、神经网络、支持向量机以及随机森林等算法;该方案常用到的无监督学习包括PCA、密度聚类、关联规则、LOF、孤立森林以及关系网络等算法。
虽然以上这些方法在异常轨迹检测应用中取得一定效果,但仍然存在以下问题:
(1)通常基于视频结构化数据对人员异常轨迹分析,基本上从时间和位置角度构建模型,没有考虑到人员之间的伴随关系(即目标人员在不同时间下与一个到多个不等人员的同行伴随情况),从而降低了分析精度,在实战应用中大打折扣。
(2)基于视频结构化数据,在人员异常轨迹检测阶段,轨迹相似度的计算往往面临轨迹长度不等和轨迹间断不连续问题,传统的轨迹相似度计算方法,如常用的DTW(DynamicTime Warping,动态时间归整)算法,时间复杂度较高,计算效率低下,难以满足实际需要。
(3)基于视频结构化数据,数据量通常较大,且数据通常分布不均匀,传统的异常轨迹检测技术,如DBSCAN密度聚类,计算系统开销大,计算效率低下,聚类质量较差。
(4)当历史信息积累到一定程度,适合使用监督性学习实现异常轨迹检测。然而使用轨迹数据进行特征构造和特征选择比较复杂,传统的轨迹训练特征选择主要依靠建模人员经验,建模难度较高,无法做到特征的自动选择,而基层业务人员无机器学习基础,在基层实战应用中难以实现模型调优。
发明内容
本发明的目的在于:解决上述现有技术中的不足,提供一种基于伴随模型的异常轨迹分析方法,基于伴随分析与异常轨迹综合分析,提高异常轨迹检测精度;在无监督学习异常检测阶段,使用FastDTW和改进的密度聚类技术,降低系统开销,提高计算性能;在监督学习阶段使用自动特征工程技术,解决轨迹特征选择困难问题,提高模型分析效率和质量。
为了实现上述目的,本发明采用的技术方案为:
一种基于伴随模型的异常轨迹分析方法,包括以下步骤:
步骤一:视频结构化系统进行人脸识别,得到人脸视频数据并进行预处理;
步骤二:预设伴随人员风险阈值,然后通过频繁模型挖掘算法针对伴随人员进行伴随分析挖掘,得到伴随关系数据和伴随风险系数,若伴随风险系数大于伴随人员风险阈值,记录为风险伴随人员;
步骤三:通过无监督学习算法针对风险伴随人员的伴随关系数据进行伴随轨迹异常检测,得到风险伴随人员的异常轨迹;
步骤四:基于风险伴随人员的异常轨迹通过自动特征工程算法训练有监督学习模型,通过有监督学习模型进行风险伴随人员异常轨迹分析。
进一步的,上述的步骤一具体包括以下步骤:
步骤101:视频结构化系统进行人脸识别,得到人脸视频数据并进行预处理;
步骤102:通过分布式计算、实时计算和流式计算,生成人脸视频结构化数据和人脸图像数据并存储。
进一步的,上述的步骤101包括视频结构化系统获取各个监控点的视频图像数据,然后进行数据接入、数据转换、数据加载和数据清洗。
进一步的,上述的人脸视频结构化数据支持第三方接入,所述的人脸视频结构化数据通过关系型数据库或非关系型数据库存储,所述的人脸图像数据通过图像数据库存储。
进一步的,上述的步骤二具体包括以下步骤:
步骤201:预设人员伴随关系的最小支持度;
步骤202:通过频繁模型挖掘算法计算满足最小支持度的关联关系;
步骤203:根据满足最小支持度的关联关系计算伴随系数;
步骤204:根据伴随系数和伴随关系数据通过风险权重模型计算伴随风险系数。
进一步的,上述的步骤三具体包括以下步骤:
步骤301:识别不规则轨迹并进行相似度的度量;
步骤302:基于轨迹相似度矩阵通过密度聚类算法进行异常轨迹检测分析。
进一步的,上述的步骤301中通过FastDTW算法识别不规则轨迹并进行相似度的度量,所述FastDTW算法具体为:
步骤401:对原始的时间序列进行数据抽象,将长度为N的时间序列规约为长度为M的表述方式,所述的M<N,得到粗粒度数据点,所述粗粒度数据点为其对应的若干个细粒度数据点的平均值,所述的细粒度数据点为两个原始的时间序列X和Y在坐标轴为(i,j)组成的坐标系中,对应的规整路径所经历的坐标方格,所述的规整路径距离为两个长度不等时间序列之间相似的点组成的路径距离之和,所述的规整路径距离用于衡量两个时间序列之间的相似性;
步骤402:在粗粒度上对时间序列运行DTW算法,得到经过粗粒度化处理后的归整路径经过的方格;
步骤403:将在粗粒度上得到的归整路径经过的方格细粒度化到细粒度的时间序列上,并在细粒度的空间内横向、竖向和/或斜向扩展K个粒度,K为半径参数,所述的K取值为1或2。
进一步的,上述的步骤302中密度聚类算法为改进的DBSCAN密度聚类算法,所述改进的DBSCAN密度聚类算法中先将原始数据按照分布密集程度划分为若干个数据区,并行选取各数据区的Eps值。
进一步的,上述的步骤四中通过自动特征工程算法训练无监督学习模型具体包括缺失值处理、异常值处理、离散变量处理、数据标准化、特征子集选择、模型训练和评估检验。
由于采用了上述技术方案,本发明的有益效果是:
本发明基于人脸视频结构化数据,结合伴随分析模型,在考虑人员伴随关系的基础上,再使用异常轨迹检测算法进行人员异常轨迹分析,克服了仅从时间和位置角度构建模型在准确性和应用性较差的局限,分析结果更加精准可靠。
本发明基于人脸视频结构化数据,在使用无监督学习模型对伴随人员进行异常轨迹检测阶段,轨迹相似度的计算往往面临轨迹长度不等和轨迹间断不连续问题,本方案使用改进的FastDTW算法,克服了传统轨迹相似度计算效率低下和精度不高的问题,为进一步使用算法做异常轨迹检测打好基础。
本发明基于人脸视频结构化数据,在进行相似度计算后,使用改进的DBSCAN密度聚类算法进行伴随人员异常轨迹检测,解决了传统密度聚类模型在海量数据、以及数据分布差异较大的情况下计算系统开销大,计算效率低下,聚类质量较差的问题。
本发明基于人脸视频结构化数据,当历史信息积累到一定程度,在使用监督性学习模型阶段,使用自动特征工程技术,解决轨迹特征选择困难问题,业务人员在模型应用阶段可很少需要建模专家参与,让模型更好服务于业务人员,更精准和快速地捕捉到伴随人员异常轨迹。
附图说明
图1为本发明的整体实施流程示意图。
图2为本发明的人脸视频结构化数据准备架构示意图。
具体实施方式
参照附图1-2,对本发明的实施方式做具体的说明。
一种基于伴随模型的异常轨迹分析方法,包括以下步骤:
步骤一:视频结构化系统进行人脸识别,得到人脸视频数据并进行预处理;
步骤二:预设伴随人员风险阈值,然后通过频繁模型挖掘算法针对伴随人员进行伴随分析挖掘,得到伴随关系数据和伴随风险系数,若伴随风险系数大于伴随人员风险阈值,记录为风险伴随人员;
步骤三:通过无监督学习算法针对风险伴随人员的伴随关系数据进行伴随轨迹异常检测,得到风险伴随人员的异常轨迹;
步骤四:基于风险伴随人员的异常轨迹通过自动特征工程算法训练有监督学习模型,通过有监督学习模型进行风险伴随人员异常轨迹分析。
本实施例公开了一种基于人脸视频结构化数据的伴随异常轨迹分析方法,该方法的实现主要包括以下步骤:首先,利用人脸视频结构化数据分析平台,实现数据采集、存储、计算和人脸识别;其次,基于频繁模式挖掘技术实现人员伴随关系挖掘;然后,基于伴随关系,使用无监督异常轨迹检测技术,实现伴随人员异常轨迹检测;最后,基于不断积累的伴随关系和被验证的异常信息,使用监督学习技术实现异常轨迹检测分析。
本实施例解决了公安应用中传统激战法伴随异常轨迹检测效率低下问题;基于伴随分析与异常轨迹综合分析,提高异常轨迹检测精度;在无监督学习异常检测阶段,使用FastDTW和改进的密度聚类技术,提高计算性能;在监督学习阶段使用自动特征工程技术,解决轨迹特征选择困难问题,提高模型分析效率和质量。
进一步的,上述的步骤一具体包括以下步骤:
步骤101:视频结构化系统进行人脸识别,得到人脸视频数据并进行预处理;
步骤102:通过分布式计算、实时计算和流式计算,结合图像识别、深度学习、语义分析等机器学习技术,实现人脸识别,生成人脸视频结构化数据和人脸图像数据并存储。
进一步的,上述的步骤101包括视频结构化系统获取各个监控点的视频图像数据,然后进行数据接入、数据转换、数据加载和数据清洗。
接入的数据包括卡口数据、视频设备监控数据、电警数据等;数据转换为视频数据到图片数据的转换;数据加载包括视频数据、图像数据的加载;数据清洗包括图像分割、人脸图像降噪、图像的标准化。
进一步的,上述的人脸视频结构化数据支持第三方接入,所述的人脸视频结构化数据通过关系型数据库或非关系型数据库存储,所述的人脸图像数据通过图像数据库存储。
人脸视频结构化数据的生成和存储:支持第三方接入,数据存储包括人脸视频结构化数据和人脸图像数据,人脸视频结构化数据支持关系型数据库和非关系型数据库存储,支持Hbase、Hive、Mysql、Oracle等存储组件;人脸图像数据使用图像数据库进行存储,支持Noe4j等图像数据库的存储。
进一步的,上述的步骤二具体包括以下步骤:
步骤201:预设人员伴随关系的最小支持度;
步骤202:通过频繁模型挖掘算法计算满足最小支持度的关联关系;
步骤203:根据满足最小支持度的关联关系计算伴随系数;
步骤204:根据伴随系数和伴随关系数据通过风险权重模型计算伴随风险系数。
首先,使用频繁模式挖掘技术,找出满足最小支持度的关联关系(组合),即人员的伴随关系。频繁挖掘技术算法分为宽度优先搜索算法和深度优先搜索算法,区分的依据是搜索策略的不同。宽度优先搜索算法采用自低向上地逐层搜索整个搜索空间,而深度优先搜索算法采用逐个分枝对整个搜索空间进行搜索。相对于其他频繁模式挖掘算法,Eclat算法采用垂直数据表示的形式,仅需要1次数据库扫描,具有搜索快速性,且通过交叉计数来计算支持度,所得结果具有高效性。
Eclat算法建立在概念格理论的基础上,概念格是进行数据挖掘和规则提取的有力工具。该算法利用前缀等价关系划分搜索空间,每个搜索空间定义为一个概念格,划分出来的子空间又称为子概念格。在每个子概念格上,各自采用自底向上的搜索方法独立产生频繁项集。算法过程简述如下:
1)首先对数据库进行一次遍历,生成项对应的事务集;
2)将所有项作为一个集合,求该集合的子集;
3)对每个子集中的项对应的事务集合求交集;
4)交集中元素个数大于阈值的集合,即为频繁项集。
其次,基于伴随关系计算伴随系数。所谓伴随系数,就是所包含的人员组合在伴随人员组合中所占权重,可细分为两个伴随系数。假设人员伴随组合为ZH={{A,B},{A,B,C,F},{A,B,D,E,H},{B,C},{A,B},{…}},定义广义伴随系数为GC,狭义伴随系数为XC,该系数既可以作为监督性学习模型的特征输入参数,也可以作为非监督性异常轨迹检测的重要参考。
GC=该伴随组合的出现次数/所有伴随组合的次数
XC=该伴随组合的出现次数/包含该伴随组合的所有伴随集合
最后,匹配伴随位置信息和时间信息,实现伴随关系综合分析。将人员伴随的经纬度位置信息、所属区域、是否重点地区、抓拍时间等信息进行关联,结合广义伴随系数、狭义伴随系数、以及伴随的时间段、出现频率,关联人数,使用权重模型,计算伴随人员风险系数BSR,然后再对BSR达到一定阀值的伴随人员开展异常轨迹分析工作。
进一步的,上述的步骤三具体包括以下步骤:
步骤301:识别不规则轨迹并进行相似度的度量;
步骤302:基于轨迹相似度矩阵通过密度聚类算法进行异常轨迹检测分析。
进一步的,上述的步骤301中通过FastDTW算法识别不规则轨迹并进行相似度的度量,所述FastDTW算法具体为:
步骤401:对原始的时间序列进行数据抽象,将长度为N的时间序列规约为长度为M的表述方式,所述的M<N,得到粗粒度数据点,所述粗粒度数据点为其对应的若干个细粒度数据点的平均值,所述的细粒度数据点为两个原始的时间序列X和Y在坐标轴为(i,j)组成的坐标系中,对应的规整路径所经历的坐标方格,所述的规整路径距离为两个长度不等时间序列之间相似的点组成的路径距离之和,所述的规整路径距离用于衡量两个时间序列之间的相似性;
步骤402:在粗粒度上对时间序列运行DTW算法,得到经过粗粒度化处理后的归整路径经过的方格;
步骤403:将在粗粒度上得到的归整路径经过的方格细粒度化到细粒度的时间序列上,并在细粒度的空间内横向、竖向和/或斜向扩展K个粒度,K为半径参数,所述的K取值一般为1或2。
标准的DTW距离的计算不受到轨迹点数是否相同的限制,计算公式为:
其中,DTW(A,B)表示使用DTW算法计算出的轨迹A、B之间的距离。给定轨迹A<a1,a2,...an>和轨迹B<b1,b2,...bm>,Head(A)表示a1,Rest(A)表示<a2,a3...an>。
由于标准DTW算法复杂度为O(N2)。当两个时间序列都比较长时,DTW算法效率比较慢,不能满足需求,为此,本文使用FastDTW算法进行改进,改进后模型的复杂度为O(N),改进方法如下:
(1)粗粒度化。亦即首先对原始的时间序列进行数据抽象,数据抽象可以迭代执行多次1/1->1/2->1/4->1/16,粗粒度数据点是其对应的多个细粒度数据点的平均值;
(2)投影。在较粗粒度上对时间序列运行DTW算法;
(3)细粒度化。将在较粗粒度上得到的归整路径经过的方格进一步细粒度化到较细粒度的时间序列上。除了进行细粒度化之外,我们还额外的在较细粒度的空间内额外向外(横向,竖向,斜向)扩展K个粒度,K为半径参数,一般取为1或者2。
进一步的,上述的步骤302中密度聚类算法为改进的DBSCAN密度聚类算法,所述改进的DBSCAN密度聚类算法中先将原始数据按照分布密集程度划分为若干个数据区,并行选取各数据区的Eps值。
在对不规则轨迹进行相似度的度量的基础上,下面基于相似度矩阵,使用改进的DBSCAN密度聚类技术,实现伴随人员异常轨迹检测,克服传统DBSCAN模型计算系统开销大,以及当空间聚类的密度不均匀且聚类间距离相差很大时,聚类的质量较差的问题,本方案对DBSCAN输入参数进行改进。
通常对DBSCAN算法输入参数Eps(聚类半径)的设定依靠经验,当数据密度相差较大和类间距离分布不均匀时,很难选取一个合适的Eps值来进行聚类且得到比较准确的结果。现有的通过绘制K距离图的方式选择最优Eps,当Eps值已经比较接近“理想”值,但常有微小差距,最终造成聚类结果的相差很大,可以考虑采用如下方法来加以改善:
(1)可以对所有聚类对象按照从一个簇到另一个簇,按簇边缘-->簇核心-->簇边缘的顺序排序。这样,该对象序列就可以反映出数据空间基于密度的簇结构信息,基于这些信息可以容易地确定合适的Eps值,并随之发现各个簇。
(2)并行化处理。从DBSCAN算法可以看出,全局变量Eps值影响了聚类质量,尤其是数据分布不均匀时。因此,考虑对数据进行划分,每一个划分中的数据分布相对较均匀,根据每个划分中数据的分布密集程度来选取Eps值。这样一方面降低了全局变量Eps值的影响,另一方面由于具有多个划分,因此考虑并行处理,从而提高聚类效率,也降低了DBSCAN算法对内存的较高要求。
(3)增量式处理。当数据增加或者删除时,只考虑其增加或删除的数据所影响到的那些类。这种方法在处理大数据集时非常有效,不需要重新对数据库中的数据进行聚类,只需要对类进行渐进性地更新,修正和加强已发现的类。
基于改进的DBSCAN算法,利用“分而治之”和高效的并行算法思想,克服传统DBSCAN模型计算系统开销大,以及当空间聚类的密度不均匀且聚类间距离相差很大时,聚类的质量较差的问题。
进一步的,上述的步骤四中通过自动特征工程算法训练无监督学习模型具体包括缺失值处理、异常值处理、离散变量处理、数据标准化、特征子集选择、模型训练和评估检验。
缺失值处理:对缺失值处理比较普遍的做法有两种,即删除存在缺失值的个案和对缺失值作插补操作,若缺失占比较低,删除该缺失值个例对建模整体影响不大,可以选择删除存在缺失值的个例;若缺失值占比较高,则可选择对缺失值做插补操作。
异常值处理:对异常值的处理方式一般包括四种,其一为删除含有异常值的记录;其二为将异常值视为缺失值,交给缺失值处理方法来处理;其三为用平均值(中位数)或众数来填充,其四为不做任何处理。
离散变量处理:大部分算法不能直接处理类别变量(离散变量),因此在对数据建模前需对类别变量转化为连续值参与模型训练,对类别变量转化数值有多种方法,如独热编码、风险值编码、类别编码、目标编码等多种编码方式。
数据标准化:该步骤主要是为了消除特征之间量量纲的影响,在基于距离的算法中具有非常重要的意义。支持Min-Max标准化、Z-Score标准化、小数定标标准化、功效系数法标准化等多种标准化算法。
特征子集选择:支持基于搜索策略划分的特征选择方法和基于评价准则划分的特征选择方法,基于搜索策略划分的特征选择方法包括采用全局最优搜索策略的特征选择方法(如广度优先、分支限界搜索、定向搜索、前向后向搜索等)和采用随机搜索的特征选择方法(如随机产生序列选择算法、模拟退火算法和遗传算法等);而基于评价准则划分的特征选择方法包括采用过滤式评价策略的特征选择方法和基于封装式评价策略的特征选择方法。
模型的训练:使用分类器,按比例将数据集分割成训练集和测试集,常用7:3分割方式分割,然后在训练集中分割部分作为验证集合,在验证集上对模型参数进行优化选择。
评估检验:对特定评估指标(如精确率、召回率、F1值、AUC、均方误差、轮库系数等)进行评估检验,确定模型是否满足实际需要,若满务实际需要,则完成建模过程,否则需对前面步骤进行重复执行,直到满足建模效果为止。
Claims (9)
1.一种基于伴随模型的异常轨迹分析方法,其特征在于:包括以下步骤:
步骤一:视频结构化系统进行人脸识别,得到人脸视频数据并进行预处理;
步骤二:预设伴随人员风险阈值,然后通过频繁模型挖掘算法针对伴随人员进行伴随分析挖掘,得到伴随关系数据和伴随风险系数,若伴随风险系数大于伴随人员风险阈值,记录为风险伴随人员;
步骤三:通过无监督学习算法针对风险伴随人员的伴随关系数据进行伴随轨迹异常检测,得到风险伴随人员的异常轨迹;
步骤四:基于风险伴随人员的异常轨迹通过自动特征工程算法训练有监督学习模型,通过有监督学习模型进行风险伴随人员异常轨迹分析。
2.根据权利要求1所述的一种基于伴随模型的异常轨迹分析方法,其特征在于:所述的步骤一具体包括以下步骤:
步骤101:视频结构化系统进行人脸识别,得到人脸视频数据并进行预处理;
步骤102:通过分布式计算、实时计算和流式计算,生成人脸视频结构化数据和人脸图像数据并存储。
3.根据权利要求2所述的一种基于伴随模型的异常轨迹分析方法,其特征在于:所述的步骤101包括视频结构化系统获取各个监控点的视频图像数据,然后进行数据接入、数据转换、数据加载和数据清洗。
4.根据权利要求2所述的一种基于伴随模型的异常轨迹分析方法,其特征在于:所述的人脸视频结构化数据支持第三方接入,所述的人脸视频结构化数据通过关系型数据库或非关系型数据库存储,所述的人脸图像数据通过图像数据库存储。
5.根据权利要求1所述的一种基于伴随模型的异常轨迹分析方法,其特征在于:所述的步骤二具体包括以下步骤:
步骤201:预设人员伴随关系的最小支持度;
步骤202:通过频繁模型挖掘算法计算满足最小支持度的关联关系;
步骤203:根据满足最小支持度的关联关系计算伴随系数;
步骤204:根据伴随系数和伴随关系数据通过风险权重模型计算伴随风险系数。
6.根据权利要求1所述的一种基于伴随模型的异常轨迹分析方法,其特征在于:所述的步骤三具体包括以下步骤:
步骤301:识别不规则轨迹并进行相似度的度量;
步骤302:基于轨迹相似度矩阵通过密度聚类算法进行异常轨迹检测分析。
7.根据权利要求1所述的一种基于伴随模型的异常轨迹分析方法,其特征在于:所述的步骤301中通过FastDTW算法识别不规则轨迹并进行相似度的度量,所述FastDTW算法具体为:
步骤401:对原始的时间序列进行数据抽象,将长度为N的时间序列规约为长度为M的表述方式,所述的M<N,得到粗粒度数据点,所述粗粒度数据点为其对应的若干个细粒度数据点的平均值,所述的细粒度数据点为两个原始的时间序列X和Y在坐标轴为(i,j)组成的坐标系中,对应的规整路径所经历的坐标方格,所述的规整路径距离为两个长度不等时间序列之间相似的点组成的路径距离之和,所述的规整路径距离用于衡量两个时间序列之间的相似性;
步骤402:在粗粒度上对时间序列运行DTW算法,得到经过粗粒度化处理后的归整路径经过的方格;
步骤403:将在粗粒度上得到的归整路径经过的方格细粒度化到细粒度的时间序列上,并在细粒度的空间内横向、竖向和/或斜向扩展K个粒度,K为半径参数,所述的K取值为1或2。
8.根据权利要求1所述的一种基于伴随模型的异常轨迹分析方法,其特征在于:所述的步骤302中密度聚类算法为改进的DBSCAN密度聚类算法,所述改进的DBSCAN密度聚类算法中先将原始数据按照分布密集程度划分为若干个数据区,并行选取各数据区的Eps值。
9.根据权利要求1所述的一种基于伴随模型的异常轨迹分析方法,其特征在于:所述的步骤四中通过自动特征工程算法训练无监督学习模型具体包括缺失值处理、异常值处理、离散变量处理、数据标准化、特征子集选择、模型训练和评估检验。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811347044.6A CN109657547B (zh) | 2018-11-13 | 2018-11-13 | 一种基于伴随模型的异常轨迹分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811347044.6A CN109657547B (zh) | 2018-11-13 | 2018-11-13 | 一种基于伴随模型的异常轨迹分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109657547A true CN109657547A (zh) | 2019-04-19 |
CN109657547B CN109657547B (zh) | 2020-07-07 |
Family
ID=66110902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811347044.6A Active CN109657547B (zh) | 2018-11-13 | 2018-11-13 | 一种基于伴随模型的异常轨迹分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109657547B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347668A (zh) * | 2019-07-04 | 2019-10-18 | 南京航空航天大学 | Ads-b航迹清洗与校准装置 |
CN110457985A (zh) * | 2019-06-05 | 2019-11-15 | 深圳大学 | 基于视频序列的行人再识别方法、装置及计算机设备 |
CN110543907A (zh) * | 2019-08-29 | 2019-12-06 | 交控科技股份有限公司 | 一种基于微机监测功率曲线的故障分类方法 |
CN110837953A (zh) * | 2019-10-24 | 2020-02-25 | 北京必示科技有限公司 | 一种自动化异常实体定位分析方法 |
CN111125279A (zh) * | 2019-11-25 | 2020-05-08 | 深圳市甲易科技有限公司 | 一种应用于轨迹伴随可能性分析的伴随系数计算方法 |
CN111143838A (zh) * | 2019-12-27 | 2020-05-12 | 北京科东电力控制系统有限责任公司 | 数据库用户异常行为检测方法 |
CN111145109A (zh) * | 2019-12-09 | 2020-05-12 | 深圳先进技术研究院 | 基于图像的风力发电功率曲线异常数据识别与清洗方法 |
CN111651484A (zh) * | 2020-05-22 | 2020-09-11 | 华中科技大学 | 基于语义轨迹相似度移动对象伴随关系的分析方法和装置 |
CN111695511A (zh) * | 2020-06-12 | 2020-09-22 | 中国人民公安大学 | 基于城市社区的对象管理方法、装置、机器可读介质及设备 |
CN111832475A (zh) * | 2020-07-10 | 2020-10-27 | 电子科技大学 | 一种基于语义特征的人脸误检筛除方法 |
CN111950937A (zh) * | 2020-09-01 | 2020-11-17 | 上海海事大学 | 一种基于融合时空轨迹的重点人员风险评估方法 |
CN112069964A (zh) * | 2020-08-31 | 2020-12-11 | 天津大学 | 基于图像识别技术的异常人物关系网络挖掘方法 |
CN112269844A (zh) * | 2020-09-24 | 2021-01-26 | 桂林电子科技大学 | 基于大规模轨迹数据的通用伴随模式分布式挖掘方法 |
CN112561948A (zh) * | 2020-12-22 | 2021-03-26 | 中国联合网络通信集团有限公司 | 基于时空轨迹的伴随轨迹识别方法、设备及存储介质 |
CN112800101A (zh) * | 2019-11-13 | 2021-05-14 | 中国信托登记有限责任公司 | 一种基于FP-growth算法异常行为检测方法及应用该方法的模型 |
CN112989606A (zh) * | 2021-03-16 | 2021-06-18 | 上海哥瑞利软件股份有限公司 | 数据算法模型检验方法、系统及计算机存储介质 |
CN113032949A (zh) * | 2020-11-11 | 2021-06-25 | 上海市软件评测中心有限公司 | 一种基于大数据的测试方法 |
CN113779105A (zh) * | 2021-08-11 | 2021-12-10 | 桂林电子科技大学 | 分布式轨迹流伴随模式挖掘方法 |
CN115622730A (zh) * | 2022-08-25 | 2023-01-17 | 支付宝(杭州)信息技术有限公司 | 人脸攻击检测模型的训练方法、人脸攻击检测方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090306943A1 (en) * | 2006-10-05 | 2009-12-10 | North Carolina State University | Methods, systems and computer program products for reduced order model adaptive simulation of complex systems |
CN104899263A (zh) * | 2015-05-22 | 2015-09-09 | 华中师范大学 | 一种基于特定区域的船舶轨迹挖掘分析与监控方法 |
CN105740842A (zh) * | 2016-03-01 | 2016-07-06 | 浙江工业大学 | 基于快速密度聚类算法的无监督人脸识别方法 |
CN106203494A (zh) * | 2016-06-30 | 2016-12-07 | 电子科技大学 | 一种基于内存计算的并行化聚类方法 |
CN108446184A (zh) * | 2018-02-23 | 2018-08-24 | 北京天元创新科技有限公司 | 分析故障根原因的方法和系统 |
-
2018
- 2018-11-13 CN CN201811347044.6A patent/CN109657547B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090306943A1 (en) * | 2006-10-05 | 2009-12-10 | North Carolina State University | Methods, systems and computer program products for reduced order model adaptive simulation of complex systems |
CN104899263A (zh) * | 2015-05-22 | 2015-09-09 | 华中师范大学 | 一种基于特定区域的船舶轨迹挖掘分析与监控方法 |
CN105740842A (zh) * | 2016-03-01 | 2016-07-06 | 浙江工业大学 | 基于快速密度聚类算法的无监督人脸识别方法 |
CN106203494A (zh) * | 2016-06-30 | 2016-12-07 | 电子科技大学 | 一种基于内存计算的并行化聚类方法 |
CN108446184A (zh) * | 2018-02-23 | 2018-08-24 | 北京天元创新科技有限公司 | 分析故障根原因的方法和系统 |
Non-Patent Citations (1)
Title |
---|
陈 鹏 等: "反恐背景下的个人特征数据构成与涉恐个体的挖掘分析", 《情 报 杂 志》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457985A (zh) * | 2019-06-05 | 2019-11-15 | 深圳大学 | 基于视频序列的行人再识别方法、装置及计算机设备 |
CN110347668A (zh) * | 2019-07-04 | 2019-10-18 | 南京航空航天大学 | Ads-b航迹清洗与校准装置 |
CN110347668B (zh) * | 2019-07-04 | 2021-08-24 | 南京航空航天大学 | Ads-b航迹清洗与校准装置 |
CN110543907A (zh) * | 2019-08-29 | 2019-12-06 | 交控科技股份有限公司 | 一种基于微机监测功率曲线的故障分类方法 |
CN110837953A (zh) * | 2019-10-24 | 2020-02-25 | 北京必示科技有限公司 | 一种自动化异常实体定位分析方法 |
CN112800101A (zh) * | 2019-11-13 | 2021-05-14 | 中国信托登记有限责任公司 | 一种基于FP-growth算法异常行为检测方法及应用该方法的模型 |
CN111125279A (zh) * | 2019-11-25 | 2020-05-08 | 深圳市甲易科技有限公司 | 一种应用于轨迹伴随可能性分析的伴随系数计算方法 |
CN111125279B (zh) * | 2019-11-25 | 2024-03-12 | 深圳市甲易科技有限公司 | 一种应用于轨迹伴随可能性分析的伴随系数计算方法 |
CN111145109A (zh) * | 2019-12-09 | 2020-05-12 | 深圳先进技术研究院 | 基于图像的风力发电功率曲线异常数据识别与清洗方法 |
CN111143838A (zh) * | 2019-12-27 | 2020-05-12 | 北京科东电力控制系统有限责任公司 | 数据库用户异常行为检测方法 |
CN111143838B (zh) * | 2019-12-27 | 2022-04-12 | 北京科东电力控制系统有限责任公司 | 数据库用户异常行为检测方法 |
CN111651484A (zh) * | 2020-05-22 | 2020-09-11 | 华中科技大学 | 基于语义轨迹相似度移动对象伴随关系的分析方法和装置 |
CN111651484B (zh) * | 2020-05-22 | 2023-03-28 | 华中科技大学 | 基于语义轨迹相似度移动对象伴随关系的分析方法和装置 |
CN111695511A (zh) * | 2020-06-12 | 2020-09-22 | 中国人民公安大学 | 基于城市社区的对象管理方法、装置、机器可读介质及设备 |
CN111832475A (zh) * | 2020-07-10 | 2020-10-27 | 电子科技大学 | 一种基于语义特征的人脸误检筛除方法 |
CN111832475B (zh) * | 2020-07-10 | 2022-08-12 | 电子科技大学 | 一种基于语义特征的人脸误检筛除方法 |
CN112069964A (zh) * | 2020-08-31 | 2020-12-11 | 天津大学 | 基于图像识别技术的异常人物关系网络挖掘方法 |
CN111950937A (zh) * | 2020-09-01 | 2020-11-17 | 上海海事大学 | 一种基于融合时空轨迹的重点人员风险评估方法 |
CN111950937B (zh) * | 2020-09-01 | 2023-12-01 | 上海海事大学 | 一种基于融合时空轨迹的重点人员风险评估方法 |
CN112269844B (zh) * | 2020-09-24 | 2021-08-06 | 桂林电子科技大学 | 基于大规模轨迹数据的通用伴随模式分布式挖掘方法 |
CN112269844A (zh) * | 2020-09-24 | 2021-01-26 | 桂林电子科技大学 | 基于大规模轨迹数据的通用伴随模式分布式挖掘方法 |
CN113032949A (zh) * | 2020-11-11 | 2021-06-25 | 上海市软件评测中心有限公司 | 一种基于大数据的测试方法 |
CN112561948B (zh) * | 2020-12-22 | 2023-11-21 | 中国联合网络通信集团有限公司 | 基于时空轨迹的伴随轨迹识别方法、设备及存储介质 |
CN112561948A (zh) * | 2020-12-22 | 2021-03-26 | 中国联合网络通信集团有限公司 | 基于时空轨迹的伴随轨迹识别方法、设备及存储介质 |
CN112989606A (zh) * | 2021-03-16 | 2021-06-18 | 上海哥瑞利软件股份有限公司 | 数据算法模型检验方法、系统及计算机存储介质 |
CN113779105A (zh) * | 2021-08-11 | 2021-12-10 | 桂林电子科技大学 | 分布式轨迹流伴随模式挖掘方法 |
CN113779105B (zh) * | 2021-08-11 | 2022-12-13 | 桂林电子科技大学 | 分布式轨迹流伴随模式挖掘方法 |
CN115622730A (zh) * | 2022-08-25 | 2023-01-17 | 支付宝(杭州)信息技术有限公司 | 人脸攻击检测模型的训练方法、人脸攻击检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109657547B (zh) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657547A (zh) | 一种基于伴随模型的异常轨迹分析方法 | |
WO2019237492A1 (zh) | 一种基于半监督学习的异常用电用户检测方法 | |
US20170300546A1 (en) | Method and Apparatus for Data Processing in Data Modeling | |
Oprea et al. | Machine learning classification algorithms and anomaly detection in conventional meters and Tunisian electricity consumption large datasets | |
Li et al. | A supervised clustering and classification algorithm for mining data with mixed variables | |
CN108038081B (zh) | 基于特征函数空间滤值的滑坡灾害logistic回归分析方法 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN116108758A (zh) | 滑坡易发性评价方法 | |
CN117611015B (zh) | 一种建筑工程质量实时监测系统 | |
Salima et al. | Spatial autocorrelation indices | |
Zhang et al. | A review on cluster estimation methods and their application to neural spike data | |
CN115856204A (zh) | 基于三维回声状态网络的掘进工作面瓦斯浓度预测方法 | |
Borges et al. | Time-series features for predictive policing | |
CN116933947A (zh) | 一种基于软投票集成分类器的滑坡易发性预测方法 | |
Cabanes et al. | Unsupervised learning for analyzing the dynamic behavior of online banking fraud | |
Kulik et al. | Modeling geospatial trend changes in vegetation monitoring data | |
CN117350730A (zh) | 一种用于金融交易监管的机器学习算法筛查方法 | |
CN114358167A (zh) | 一种基于主成分分析和极限学习机的滑坡易发性预测模型 | |
Budiyanto et al. | The Prediction of Best-Selling Product Using Naïve Bayes Algorithm (A Case Study at PT Putradabo Perkasa) | |
Sagala et al. | Discovering the optimal number of crime cluster using elbow, Silhouette, gap statistics, and NbClust methods | |
Ghaedi et al. | Improving Electricity Theft Detection using Combination of Improved Crow Search Algorithm and Support Vector Machine | |
Kalinowski et al. | The adaptive spatio-temporal clustering method in classifying direct labor costs for the manufacturing industry | |
Pursche et al. | Identification of overtemperature disturbances in industrial food refrigeration processes | |
Ali et al. | GIS-based multi-scale residential building energy modeling using a data-driven approach | |
CN118052558B (zh) | 基于人工智能的风控模型决策方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |