CN113553239A - 异常数据检测方法及相关装置 - Google Patents
异常数据检测方法及相关装置 Download PDFInfo
- Publication number
- CN113553239A CN113553239A CN202110850422.8A CN202110850422A CN113553239A CN 113553239 A CN113553239 A CN 113553239A CN 202110850422 A CN202110850422 A CN 202110850422A CN 113553239 A CN113553239 A CN 113553239A
- Authority
- CN
- China
- Prior art keywords
- data
- abnormal
- track
- detected
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Remote Sensing (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Train Traffic Observation, Control, And Security (AREA)
Abstract
本申请提供的异常数据检测方法及相关装置中,数据处理设备通过多种异常检测算法从待检测数据中确定出与各异常检测算法相对应的异常数据集;然后,将多个异常数据集进行融合,以获得待检测数据中的异常数据。如此,结合多个异常检测算法之间的互补优势,将检测出的多个异常数据集进行融合,以达到提高检测精度的目的。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种异常数据检测方法及相关装置。
背景技术
异常数据检测方法,可以用于从大量数据中发掘出异常数据,该异常数据往往对应这异常事件。例如,通过异常数据检测方法分析用户或者车辆的出行时的轨迹数据,当检测到异常的轨迹数据时,则往往意味着用户或者车辆的出行出现了异常情况。
然而,发明人研究发现,相关的异常数据检测方法存在过于单一或者需要进行数据标注等问题,导致检测出的异常数据存在较大的方差。
发明内容
为了克服现有技术中的至少一个不足,本实施例提供一种异常数据检测方法及相关装置,包括:
第一方面,本实施例提供一种异常数据检测方法,应用于数据处理设备,所述方法包括:
获取待检测数据;
通过多种异常检测算法从所述待检测数据中确定出多个异常数据集;
将所述多个异常数据集进行融合,获得所述待检测数据中的异常数据。
第二方面,本实施例提供一种异常数据检测装置,应用于数据处理设备,所述异常数据检测装置包括:
数据获取模块,用于获取待检测数据;
异常检测模块,用于通过多种异常检测算法从所述待检测数据中确定出多个异常数据集;
数据融合模块,用于将所述多个异常数据集进行融合,获得所述待检测数据中的异常数据。
第三方面,本实施例提供一种数据处理设备,所述数据处理设备包括处理器以及存储介质,所述存储介质存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述的异常数据检测方法。
第五方面,本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的异常数据检测方法。
第六方面,本实施例提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现所述的异常数据检测方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请实施例提供的异常数据检测方法及相关装置中,数据处理设备通过多种异常检测算法从待检测数据中确定出与各异常检测算法相对应的异常数据集;然后,将多个异常数据集进行融合,以获得待检测数据中的异常数据。如此,结合多个异常检测算法之间的互补优势,将检测出的多个异常数据集进行融合,以达到提高检测精度的目的。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的数据处理设备的结构示意图;
图2为本申请实施例提供的异常数据检测方法的流程图;
图3为本申请实施例提供的步骤S103的子步骤;
图4为本申请实施例提供的异常数据检测装置的结构是意图。
图标:120-存储器;130-处理器;140-通信装置;201-数据获取模块;202-异常检测模块;203-数据融合模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
相关的异常检测方法,主要包括基于聚类的无监督算法以及基于神经网络算法的有监督算法。其中,基于聚类的无监督算法过于单一,且对待检测数据的质量要求较高。而基于神经网络算法的有监督算法同样对于待检测数据的质量和数量要求较高,且由于其属于有监督学习,因此,数据标注的投入量以及标注质量会直接影响到最终的检测精度。
鉴于此,为了至少部分解决上述问题,本实施例提供一种应用于数据处理设备的异常数据检测方法。该方法中,结合多个异常检测算法之间的互补优势,将检测出的多个异常数据集进行融合,以达到提高检测精度的目的。
其中,该数据处理设备可以是,但不限于服务器以及个人终端等。
当该数据处理设备为服务器时,该服务器的具体类型可以是,但不限于,Web(网站)服务器、FTP(File Transfer Protocol,文件传输协议)服务器、数据处理服务器等。此外,该服务器可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器可以是分布式系统)。在一些实施例中,服务器100相对于用户终端,可以是本地的、也可以是远程的。在一些实施例中,服务器100可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等,或者它们的任意组合。在一些实施例中,服务器100可以在具有一个或多个组件的电子设备上实现。
当数据处理设备为户终端时,该用户终端的具体类型可以是,但不限于,移动终端、平板计算机、膝上型计算机、或机动车辆中的内置设备等,或其任意组合。在一些实施例中,移动终端可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等,或其任意组合。在一些实施例中,智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等,或其任意组合。在一些实施例中,可穿戴设备可包括智能手环、智能鞋带、智能玻璃、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中,智能移动设备可以包括智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏设备、导航设备、或销售点(Point of Sale,POS)设备等,或其任意组合。
为了便于本领域技术人员理解本实施例所提供的异常数据检测方法,下面先对该数据处理设备的硬件结构进行介绍。如图1所示,该数据处理设备可以包括存储器120、处理器130。
该存储器120、处理器130以及其他可能的各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,该存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器120用于存储程序,该处理器130在接收到执行指令后,执行该程序。
该处理器130可能是一种集成电路芯片,具有信号的处理能力,并且,该处理器可以包括一个或多个处理核(例如,单核处理器或多核处理器)。仅作为举例,上述处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、专用指令集处理器(Application SpecificInstruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital SignalProcessor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等,或其任意组合。
请继续参见图1,在一些实施方式中,该数据处理设备还可以包括通信装置。其中,该通信装置140用于通过网络收发数据。网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network,LAN)、广域网(Wide AreaNetwork,WAN)、无线局域网(Wireless Local Area Networks,WLAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、公共电话交换网(Public Switched Telephone Network,PSTN)、蓝牙网络、ZigBee网络、或近场通信(NearField Communication,NFC)网络等,或其任意组合。在一些实施例中,网络可以包括一个或多个网络接入点。例如,网络可以包括有线或无线网络接入点,例如基站和/或网络交换节点,服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。
基于上述介绍,下面结合图2所示的流程图,对该异常数据检测方法的各步骤进行详细阐述。如图2所示,该异常数据检测方法包括:
步骤S101,获取待检测数据。
其中,该待检测数据可以是不同应用场景下所采集的数据。例如,在安防场景中,该待检测数据可以是行人的轨迹数据或者车辆的轨迹数据。在设备健康检测场景中,该待检测数据可以是设备运行过程中的状态数据。
步骤S102,通过多种异常检测算法从待检测数据中确定出多个异常数据集。
步骤S103,将多个异常数据集进行融合,获得待检测数据中的异常数据。
由于不同的异常检测算法之间,其算法原理存在一定的差异,因此,各异常检测算法检测出的异常数据集也会存在一定的差异。本实施例中,将各异常数据集进行融合,以获得待检测数据中的异常数据。其中,融合方式,可以是取集合之间的交集、并集或者其组合。
基于上述设计,本实施例中,数据处理设备通过多种异常检测算法从待检测数据中确定出与各异常检测算法相对应的异常数据集;然后,将多个异常数据集进行融合,以获得待检测数据中的异常数据。如此,结合多个异常检测算法之间的互补优势,将检测出的多个异常数据集进行融合,以达到提高检测精度的目的。
其中,当待检测数据是行人的轨迹数据,而行人出行时的活动范围更为自由,不同于车辆会受到道路以及交通规则的约束,因此,相较于检测车辆轨迹数据中的异常数据,检测行人轨迹数据中的异常数据则更为复杂。
鉴于此,为了从更为复杂的行人轨迹数据中检测出异常数据,本实施例针对行人的轨迹数据,将目标人员位于活动时段的轨迹数据称为第一轨迹数据,将目标人员位于休息时段的轨迹数据称为第二轨迹数据。由于活动时段与休息时段的轨迹数据所具有的行为特征存在极大的差异,表现为休息时段的轨迹数据中,异常数据的特征更为敏感,因此,本实施例中,针对活动时段的第一轨迹数据与休息时段的第二轨迹数据,分别采用不同的异常检测方式。
作为一种实现方式,本实施中可以将当天早上7点至晚上23点称为活动时段,将当前23点至第二天的7点称为休息时段。当然,本领域技术人员可以根据需要进行适当的调整。
针对第一轨迹数据,本实施例则采用上述异常数据检测算法从中发掘异常数据;而针对第二轨迹数据,该数据处理设备则根据第二轨迹数据确定出高频轨迹点;将第二轨迹数据中除高频轨迹点以外的轨迹数据,作为第二轨迹数据中的异常数据。
例如,该数据处理设备可以根据第二轨迹数据,从中确定出目标用户前5个高频出现的地点,作为高频轨迹点;然后,将第二轨迹数据中未出现在高频轨迹点的数据作为第二轨迹数据中的异常数据。
此外,本实施例中,该目标人员的轨迹数据可以源自于目标人员的4G/5G定位数据和/或相机抓拍数据,并将其转换为以经纬度表示的二维数据;然后,按照各轨迹数据采集时间的先后顺序进行排序,将该目标人员的轨迹数据表示为轨迹序列Ptst:
Ptst={...,pi,pi+1,...pj},pi=(xi,yi);
式中,其中pi代表i时刻的经度为xi,纬度为yi的坐标数据。
而理想状态下的轨迹序列为连续、不重复和无缺失的,但受限于实际场景中,目标人员的手机信号会因为遮挡、信号干扰、关机等异常原因出现消失的情况,继而会导致轨迹序列存在或多或少的缺失和不连续的问题。并且,还有可能受运营商基站设备的影响,轨迹序列出现大量连续且重复的数据。
而对于抓拍数据,受限于相机设备的安装点位和设备解析准确度等因素,也会可能会导致轨迹序列存在缺失和重复的问题。
鉴于此,为了减少缺失轨迹数据以及重复轨迹数据对异常检测精度的不利影响,本实施例中,对目标人员在活动时段的原始轨迹数据进行了数据预处理,以获得该目标人员的第一轨迹数据。
作为一种可能的预处理方式,数据处理设备获取目标人员的原始轨迹数据;将原始轨迹数据中的重复数据剔除,获得第一预处理数据;根据第一预处理数据,确定出待填充轨迹点;将待填充轨迹点进行数据填充,获得第一轨迹数据。
而作为一种可能的数据填充方式,本实施例中,针对每个待填充轨迹点,数据处理设备获得目标人员在待填充轨迹点的出现时间;从第一预处理数据中确定出距离出现时间预设时长内的目标轨迹数据;将目标轨迹数据作为待填充轨迹点的轨迹数据,以获得第一轨迹数据。
下面以目标人员活动时段的原始轨迹数据为例,进行示例性说明。假定将原始轨迹数据中的重复数据剔除,所获得的第一预处理数据PtstD表示为:
该数据处理设备基于PtstD做区间等宽离散化,使得区间等宽离散化后的轨迹数据表现为理想轨迹序列PDs所表示的形式:
式中,k表示等距区间长度,例如k=10时,表示相邻轨迹点之间的时间间隔为10分钟;而本领域技术可以根据精度需要对时间间隔的颗粒度进行适当的调整。
由于目标人员在预设时长内的轨迹数据存在偏移量小、重复的特点,因此,假定PtstD中存在一子序列其n<=k。该数据处理设备则直接取作为区间的代表轨迹数据,其含义为i至i+k这个时间段内取最新的一次轨迹数据作为整个区间的轨迹数据。
若[i,i+k]区间的轨迹数据缺失,则需要对该区间的待填充轨迹点进行填充。由于目标人员在最近半小时内的轨迹变动普遍很小,因此,该数据处理设备向前或向后取m个k区间中距离最近的轨迹数据,作为[i,i+k]区间待填充轨迹点的轨迹数据。其中,m的取值受k的约束,例如,如m取3且k取10,那么m*k则为半小时。
根据以上的区间离散原则对PtstD进行预处理后,获得填充后的PtstDK,其表达式为:
此外,本实施例还考虑填充得到的PtstDK可能填充的不够完善,与预设理想序列PDs存在差异,因此,需要进行二次预处理。即上述将目标轨迹数据作为待填充轨迹点的轨迹数据,以获得第一轨迹数据的步骤,其具体实现方式包括:
数据处理设备将填充后的第一预处理数据作为第二预处理数据;然后,统计第二预处理数据相较于预设理想轨迹序列的缺失率;当该缺失率小于或者等于设定缺失阈值时,则使用原始轨迹数据中的众数做进步的填充。其中,众数表示原始轨迹数据中出现频率高于设定频率阈值的轨迹点对应的轨迹数据。以此,使用众数避免填充的轨迹数据被检测为异常数据。
示例性的,继续以上述第二预处理数据PtstDK为例,其相较于预设理想序列PDs的缺失率,可以表示为:
式中,上标cnt表示对应轨迹序列中轨迹数据的数量,Ptnul_per为设定缺失阈值。本实施例中,若该缺失率大于缺失阈值,则表示第二预处理数据PtstDK的缺失情况过于严重,则继续进行填充会导致数据的严重失真,因此,只有在缺失率小于或者等于缺失阈值时,该数据处理设备则使用众数对序列PtstDK做二次填充,将填充后的PtstDK表示为Ptstfull。
基于上述轨迹数据的预处理方式,下面对各异常数据集的融合方式进行详细介绍。
本实施例提供的多个异常检测算法包括箱型图算法、PCA(Principal ComponentAnalysis,主成分分析)异常检测算法以及OCSVM(one-class OCSVM,一类支持向量机)异常检测算法,多个异常数据集包括箱型图算法对应的第一数据集,PCA异常检测算法对应的第二数据集,OCSVM异常检测算法对应的第三数据集。
本实施例中,为了减少异常检测过程中的计算量,先通过降维算法对待检测数据进行了降维处理。其中,该降维算法可以是,但不限于,PCA降维算法,奇异值分解算法、LDA(Linear discriminant Analysis,线性判别分析)算法等。
PCA异常检测算法:PCA异常检测算法是基于PCA降维算法的原理提出的一种异常检测算法。下面先以上述Ptstfull中的第一轨迹数据为例,对PCA降维算法进行介绍。首先,数据处理设备将原始轨迹技术Ptst中的二维轨迹pi=(xi,yi)进行标准化处理。以xi为例,其标准化方式如下:
其中,PCA降维算法属于机器学习中的经典算法,其原理在于,通过保持数据集中对方差贡献最大的特征,从而减少数据集的维度。由于PCA降维算法能解释方差对离群点很敏感,因此,该方法不仅能对多维数据做降维处理,而且可以根据其原理得到PCA异常检测算法,用于检测异常数据。本实施例中,Ptstfull中的第一轨迹数以矩阵的形式可以表示为矩阵a:
基于公式z=ωTa,可以将将原来的矩阵a线性变换转换为一组各个维度都线性无关的低维矩阵z,而ω则为两者间的映射。本实施例中,矩阵a为二维张量,矩阵z为一维张量。
而进行线性变换的时候则需要寻找数据方差尽可能大的投影方向,即方差Var(X)最大化:
由于数据的某特征维度上的投影数据越分散,则代表该特征越重要,这也是PCA算法的一个核心思想,因此,在线性变换选择方向的同时还需要遵循各个投影方向的线性无关性,即遵循选择维度的正交约束条件。
基于上述线性变化的约束条件,数据处理设备获取Ptstfull中第一轨迹数据各特征维度的协方差矩阵Cov(X,Y):
然后,根据Cov(X,Y)求出的特征值和特征向量,按特征值从大到小取前k行组成的矩阵ωT,其中,k即为原始轨迹数据需要降到的维数,本实施例中,k=1。
由PCA降维原理可知,在对其协方差矩阵取特征向量时选择的是最大的特征值对应的特征向量;而应用在异常检测时,起作用的反而是特征值较小的特征向量。原因在于,特征值是样本按照投影方向投影后的方差,当特征值越小的时候代表投影的分布越集中,而这个时异常数据在投影的时候更容易发生投影偏移。因此,异常数据的异常分数S(ai)可以表示为:
式中,vi和λi分别表示第i个特征向量和特征值,S(ai)代表矩阵a中第i个点(行)ai的异常分数。该异常分数越高表示该点对应数据为异常数据的概率越大。
本实施例中,数据处理设备基于上述PCA异常检测算法的原理,按照异常分数从高到低的排序,取前N个点对应的异常数据构成第二数据集。
因此,数据处理设备从Ptstfull的第一轨迹数据中确定出的第二数据集表示为ODpca:
箱型图算法:在统计学中,可以统计待检测数据的正态分布,然后,根据正态分布结果确定异常数据。但是,一些待检测数据(例如,行人或者车辆的轨迹数据)很少服从或近似正态分布,所以无法基于统计学中的3σ原则做进行异常检测。因此,本实施例中,当待检测数据为上述降维成一维的第一轨迹数据选择基于IQR(interquartile range,四分位距)的箱型图算法对进行异常检测,从中确定出第一数据集。其中,第一数据集中的异常数据不满足以下条件:
式中,IQR=Q2-Q1,n在本实施例中的取值可以是1.5,该值越大,得到的统计异常轨迹值越少,基于分位数的性质其增减幅度呈指数衰减。本实施例中,将通过箱型图算法从第一轨迹数据中的确定出的第一数据集表示为ODiqr:
OCSVM异常检测算法:该算法是基于传统SVM模型而提出的一种用于进行异常检测的算法。其中,SVM模型是一种分类模型,其原理在于在众多的决策边界中寻找最合适的决策标界(又名叫超平面),将不同类别的线性可分数据做分隔,而这个最大间隔的决策标界就是模型在训练中要寻找的目标决策标界。而对于线性不可分的数据则会引入核函数算法将其映射到高纬度后,再寻找其目标决策标界。
而OCSVM异常检测算法原理在于,针对正常数据多且异常数据少的数据集,将正常数据作为单类别,通过SVM原理无监督的学习一个紧凑的球形决策边界,球形决策边界之外的数据均为异常数据。具体实现过程中,数据处理设备基于数据集获得一个超球面,然后最小化这个球体的半径或体积,将球体内数据作为正常数据,球体外的数据作为异常数据。需要说明的是,与OCSVM异常检测算法相似的算法还有孤立森林和自编码器等算法。
基于上述获得的第一数据集、第二数据集以及第三数据集,数据处理设备将三个数据集中的异常数据进行融合,以获得待检测数据中的异常数据。而本实施例中,考虑到待检测数据的分布特征,在不同的分布情况下,采取了不同的融合方式,以获得更为准确检测精度。如图3所示,步骤S103包括:
步骤S103-1,获取第一数据集在待检测数据中的占比;
步骤S103-2,判断该占比是否小于或者等于比例阈值;
步骤S103-3,若第一数据集在待检测数据中的占比小于或者等于比例阈值,则将第二数据集与第三数据集之间的交集作为第四数据集;
步骤S103-4,将第一数据集与第四数据集之间的并集,作为待检测数据中的异常数据。
步骤S103-5,若第一数据集在待检测数据中的占比大于比例阈值,则通过PCA异常检测算法在第一约束条件下,从待检测数据集中确定出异常的第二扩展数据集;
其中,第一约束条件为第一正常数据集与第二扩展数据集的交集为空集的情况下,第二扩展数据集中的数据量最大,第一正常数据集包括剔除第一数据集的待检测数据;
步骤S103-6,通过OCSVM异常检测算法在第二约束条件下,从待检测数据集中确定出异常的第三扩展数据集。
其中,第二约束条件为第一正常数据集与第三扩展数据集的交集为空集的情况下,第三扩展数据集中的数据量最大。
步骤S103-7,将第二扩展数据与第三扩展数据集之间的并集,作为待检测数据中的异常数据。
示例性的,继续以上述第一轨迹数据为例。由上述内容可知,第一轨迹数据对应的第一数据集表示为ODiqr,对应的第二数据集表示为ODpca,对应的第三数据集表示为ODocs,本实施例中,按照以下策略进行融合,将第一轨迹数据中的异常数据表示为ODall。
其中,Rtiqr表示第一数据集在待检测数据中的占比,计算表达式为:
Rtiqr=Cnt(ODiqr)/Cnt(Ptstfull);
本实施例中,选取0.25作为比例阈值,当Rtiqr小于或者等于0.25时,融合策略为:
ODall=ODiqr∪(ODpca∩ODocs),s.t.Rtiqr≤0.25;
当Rtiqr大于0.25时,融合策略为:
ODall=ODpca_exd∪ODocs_exd,s.t.Rtiqr>0.25;
式中,ODpca_exd表示第一轨迹数据的第二扩展数据集,ODocs_exd表示第一轨迹数据的第三扩展数据集。
需要说明的是,采用上述融合策略,原因在于,当Rtiqr小于或者等于0.25,说明箱型图算法在检测异常数据时,“误杀”正常数据的该概率较小,因此,第二数据集合ODpca以及第三数据集ODocs的交集可以排除单一算法误杀的正常数据;然后,再与ODiqr取并集,以获得第一轨迹数据中的异常数据ODall。
而Rtiqr大于0.25,说明箱型图算法在检测异常数据时,“误杀”正常数据的该概率较大,因此,采取摒弃第一数据集合ODiqr,然后,在ODpca不与Ptstfull中的正常数据有交集的约束条件下,使得第二扩展数据集ODpca_exd中的数据量最大;继而确定出最大N值。同理,ODocs不与Ptstfull中的正常数据有交集的约束条件下,使得第三扩展数据集ODocs_exd中的数据量最大;继而,确定出超球面最大的半径或体积。
需要说明的,上述比例阈值仅仅是为了便于本领域技术人员理解所提供的示例,本领域技术人员可以根据需要进行适当地调整。
基于与异常数据检测方法相同的发明构思,本实施例还提供相关装置,包括:
本实施例还提供一种异常数据检测装置,应用于数据处理设备。异常数据检测装置包括至少一个可以软件形式存储于存储器中的功能模块。从功能上划分,如图4所示,异常数据检测装置可以包括:
数据获取模块201,用于获取待检测数据。
本实施例中,该数据获取模块201用于实现图2中的步骤S101,关于该数据获取模块201的详细描述,可以参见步骤S101的详细描述。
异常检测模块202,用于通过多种异常检测算法从待检测数据中确定出多个异常数据集。
本实施例中,该异常检测模块202用于实现图2中的步骤S102,关于该异常检测模块202的详细描述,可以参见步骤S102的详细描述。
数据融合模块203,用于将多个异常数据集进行融合,获得待检测数据中的异常数据。
本实施例中,该数据融合模块203用于实现图2中的步骤S103,关于该数据融合模块203的详细描述,可以参见步骤S103的详细描述。
需要说明的是,该异常数据检测装置还可以包括其他软件模块,用于实现异常数据检测方法的其他步骤或者子步骤。同理,数据获取模块201、异常检测模块202以及数据融合模块203同样可以用户实现异常数据检测方法的其他步骤或者子步骤。因此,本申请示例不做具体的限定,可以将异常数据检测装置根据不同的划分标准进行划分。
本实施例还提供一种数据处理设备,数据处理设备包括处理器以及存储介质,存储介质存储有计算机程序,计算机程序被处理器执行时,实现所述的异常数据检测方法。
本实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时,实现权所述的异常数据检测方法。
本实施例还提供一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现所述的异常数据检测方法。
综上所述,本申请实施例提供的异常数据检测方法及相关装置中,数据处理设备通过多种异常检测算法从待检测数据中确定出与各异常检测算法相对应的异常数据集;然后,将多个异常数据集进行融合,以获得待检测数据中的异常数据。如此,结合多个异常检测算法之间的互补优势,将检测出的多个异常数据集进行融合,以达到提高检测精度的目的。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种异常数据检测方法,其特征在于,应用于数据处理设备,所述方法包括:
获取待检测数据;
通过多种异常检测算法从所述待检测数据中确定出多个异常数据集;
将所述多个异常数据集进行融合,获得所述待检测数据中的异常数据。
2.根据权利要求1所述的异常数据检测方法,其特征在于,所述待检测数据为目标人员的第一轨迹数据,所述第一轨迹数据为位于活动时间段的轨迹数据,所述方法还包括:
获取所述目标人员的第二轨迹数据,其中,所述第二轨迹数据为位于休息时段的轨迹数据;
根据所述第二轨迹数据确定出高频轨迹点;
将所述第二轨迹数据中除所述高频轨迹点以外的轨迹数据,作为所述第二轨迹数据中的异常数据。
3.根据权利要求2所述的异常数据检测方法,其特征在于,所述获取待检测数据,包括:
获取所述目标人员的原始轨迹数据;
将所述原始轨迹数据中的重复数据剔除,获得第一预处理数据;
根据所述第一预处理数据,确定出待填充轨迹点;
将所述待填充轨迹点进行数据填充,获得所述第一轨迹数据。
4.根据权利要求3所述的异常数据检测方法,其特征在于,所述将所述待填充轨迹点进行数据填充,获得所述第一轨迹数据以及第二轨迹数据,包括:
针对每个所述待填充轨迹点,获得所述目标人员在所述待填充轨迹点的出现时间;
从所述第一预处理数据中确定出距离所述出现时间预设时长内的目标轨迹数据;
将所述目标轨迹数据作为所述待填充轨迹点的轨迹数据,以获得所述第一轨迹数据以及第二轨迹数据。
5.根据权利要求1所述的异常数据检测方法,其特征在于,所述多种异常检测算法包括箱型图算法、PCA异常检测算法以及OCSVM异常检测算法,所述多个异常数据集包括所述箱型图算法对应的第一数据集,所述PCA异常检测算法对应的第二数据集,所述OCSVM异常检测算法对应的第三数据集,所述将所述多个异常数据集进行融合,获得所述待检测数据中的异常数据,包括:
若第一数据集在所述待检测数据中的占比小于或者等于比例阈值,则将所述第二数据集与所述第三数据集之间的交集作为第四数据集;
将所述第一数据集与所述第四数据集之间的并集,作为所述待检测数据中的异常数据。
6.根据权利要求5所述的异常数据检测方法,其特征在于,所述将所述多个异常数据集进行融合,获得所述待检测数据中的异常数据,还包括:
若所述第一数据集在所述待检测数据中的占比大于所述比例阈值,则通过所述PCA异常检测算法在第一约束条件下,从所述待检测数据集中确定出异常的第二扩展数据集;其中,所述第一约束条件为第一正常数据集与所述第二扩展数据集的交集为空集的情况下,所述第二扩展数据集中的数据量最大,所述第一正常数据集包括剔除所述第一数据集的待检测数据;
以及通过所述OCSVM异常检测算法在第二约束条件下,从所述待检测数据集中确定出异常的第三扩展数据集;其中,所述第二约束条件为所述第一正常数据集与所述第三扩展数据集的交集为空集的情况下,所述第三扩展数据集中的数据量最大;
将所述第二扩展数据与所述第三扩展数据集之间的并集,作为所述待检测数据中的异常数据。
7.一种异常数据检测装置,其特征在于,应用于数据处理设备,所述异常数据检测装置包括:
数据获取模块,用于获取待检测数据;
异常检测模块,用于通过多种异常检测算法从所述待检测数据中确定出多个异常数据集;
数据融合模块,用于将所述多个异常数据集进行融合,获得所述待检测数据中的异常数据。
8.一种数据处理设备,其特征在于,所述数据处理设备包括处理器以及存储介质,所述存储介质存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-6任意一项所述的异常数据检测方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-6任意一项所述的异常数据检测方法。
10.一种计算机程序产品,其特征在于,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1-6任意一项所述的异常数据检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110850422.8A CN113553239B (zh) | 2021-07-27 | 2021-07-27 | 异常数据检测方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110850422.8A CN113553239B (zh) | 2021-07-27 | 2021-07-27 | 异常数据检测方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553239A true CN113553239A (zh) | 2021-10-26 |
CN113553239B CN113553239B (zh) | 2023-02-28 |
Family
ID=78132928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110850422.8A Active CN113553239B (zh) | 2021-07-27 | 2021-07-27 | 异常数据检测方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553239B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374851A (zh) * | 2022-08-19 | 2022-11-22 | 北京市燃气集团有限责任公司 | 一种燃气数据异常检测方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160139977A1 (en) * | 2013-07-01 | 2016-05-19 | Agent Video Intelligence Ltd. | System and method for abnormality detection |
CN109726737A (zh) * | 2018-11-27 | 2019-05-07 | 武汉极意网络科技有限公司 | 基于轨迹的异常行为检测方法及装置 |
CN111507376A (zh) * | 2020-03-20 | 2020-08-07 | 厦门大学 | 一种基于多种无监督方法融合的单指标异常检测方法 |
CN111612038A (zh) * | 2020-04-24 | 2020-09-01 | 平安直通咨询有限公司上海分公司 | 异常用户检测方法及装置、存储介质、电子设备 |
CN111625516A (zh) * | 2020-01-10 | 2020-09-04 | 京东数字科技控股有限公司 | 检测数据状态的方法、装置、计算机设备和存储介质 |
CN111949896A (zh) * | 2020-07-30 | 2020-11-17 | 安徽师范大学 | 基于轨迹大数据的轨迹异常检测方法 |
CN112181792A (zh) * | 2020-09-21 | 2021-01-05 | 苏州浪潮智能科技有限公司 | 一种时序数据异常标注的方法、系统及相关组件 |
WO2021056724A1 (zh) * | 2019-09-23 | 2021-04-01 | 平安科技(深圳)有限公司 | 异常检测方法、装置、电子设备及存储介质 |
CN113011367A (zh) * | 2021-03-31 | 2021-06-22 | 广州大学 | 一种基于目标轨迹的异常行为分析方法 |
-
2021
- 2021-07-27 CN CN202110850422.8A patent/CN113553239B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160139977A1 (en) * | 2013-07-01 | 2016-05-19 | Agent Video Intelligence Ltd. | System and method for abnormality detection |
CN109726737A (zh) * | 2018-11-27 | 2019-05-07 | 武汉极意网络科技有限公司 | 基于轨迹的异常行为检测方法及装置 |
WO2021056724A1 (zh) * | 2019-09-23 | 2021-04-01 | 平安科技(深圳)有限公司 | 异常检测方法、装置、电子设备及存储介质 |
CN111625516A (zh) * | 2020-01-10 | 2020-09-04 | 京东数字科技控股有限公司 | 检测数据状态的方法、装置、计算机设备和存储介质 |
CN111507376A (zh) * | 2020-03-20 | 2020-08-07 | 厦门大学 | 一种基于多种无监督方法融合的单指标异常检测方法 |
CN111612038A (zh) * | 2020-04-24 | 2020-09-01 | 平安直通咨询有限公司上海分公司 | 异常用户检测方法及装置、存储介质、电子设备 |
CN111949896A (zh) * | 2020-07-30 | 2020-11-17 | 安徽师范大学 | 基于轨迹大数据的轨迹异常检测方法 |
CN112181792A (zh) * | 2020-09-21 | 2021-01-05 | 苏州浪潮智能科技有限公司 | 一种时序数据异常标注的方法、系统及相关组件 |
CN113011367A (zh) * | 2021-03-31 | 2021-06-22 | 广州大学 | 一种基于目标轨迹的异常行为分析方法 |
Non-Patent Citations (1)
Title |
---|
孙娜 等: "增量式SVM的数据流异常检测模型", 《计算机工程与应用》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115374851A (zh) * | 2022-08-19 | 2022-11-22 | 北京市燃气集团有限责任公司 | 一种燃气数据异常检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113553239B (zh) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280477B (zh) | 用于聚类图像的方法和装置 | |
CN109005173B (zh) | 一种基于交通流密度差异的车联网异常入侵检测方法 | |
You et al. | A fatigue driving detection algorithm based on facial motion information entropy | |
CN112668480B (zh) | 头部姿态角检测方法、装置、电子设备及存储介质 | |
CN108491720B (zh) | 一种应用识别方法、系统以及相关设备 | |
CN111612038B (zh) | 异常用户检测方法及装置、存储介质、电子设备 | |
CN108876509B (zh) | 利用poi分析用户标签的方法及系统 | |
CN110689043A (zh) | 一种基于多重注意力机制的车辆细粒度识别方法及装置 | |
CN114666162A (zh) | 一种流量检测方法、装置、设备及存储介质 | |
EP3349142A1 (en) | Information processing device and method | |
CN112434566B (zh) | 客流统计方法、装置、电子设备及存储介质 | |
EP3706095A1 (en) | Evaluation device, evaluation system, vehicle, and program | |
CN113553239B (zh) | 异常数据检测方法及相关装置 | |
CN114187565A (zh) | 一种同行人员确定方法、电子设备和存储介质 | |
JP7348243B2 (ja) | 交通流監視測定システムのテスト方法、装置及び機器 | |
CN114972941A (zh) | 被遮挡车辆三维检测的决策融合方法、装置及电子设备 | |
Hu et al. | Detecting socially abnormal highway driving behaviors via recurrent graph attention networks | |
US20230410522A1 (en) | Information processing apparatus, control method, and program | |
JP2013164748A (ja) | 状態推定装置、状態推定方法及びプログラム | |
CN114297034A (zh) | 云平台监控方法及云平台 | |
CN116097321A (zh) | 用于面部特征信息生成的方法和系统 | |
Li et al. | Fine traffic congestion detection with hierarchical description | |
Luca et al. | Anomaly detection using the Poisson process limit for extremes | |
CN112784789B (zh) | 识别道路的交通流量的方法、装置、电子设备和介质 | |
CN111142688B (zh) | 一种基于移动终端数据识别终端用户换机的方法和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |