CN110264722A - 信息采集设备中异常设备的筛选方法及系统 - Google Patents

信息采集设备中异常设备的筛选方法及系统 Download PDF

Info

Publication number
CN110264722A
CN110264722A CN201910593533.8A CN201910593533A CN110264722A CN 110264722 A CN110264722 A CN 110264722A CN 201910593533 A CN201910593533 A CN 201910593533A CN 110264722 A CN110264722 A CN 110264722A
Authority
CN
China
Prior art keywords
information
vehicle
time
data
warping apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910593533.8A
Other languages
English (en)
Inventor
郝敬全
王玉伟
李善宝
李占强
马述杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taihua Wisdom Industry Group Co Ltd
Original Assignee
Taihua Wisdom Industry Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taihua Wisdom Industry Group Co Ltd filed Critical Taihua Wisdom Industry Group Co Ltd
Priority to CN201910593533.8A priority Critical patent/CN110264722A/zh
Publication of CN110264722A publication Critical patent/CN110264722A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing

Abstract

本申请公开了一种信息采集设备中异常设备的筛选方法及系统,涉及智能交通信息技术领域,包括:采集过车信息;判断过车信息是否为异常设备采集的信息,若过车信息是异常设备采集的信息,则删除过车信息;若过车信息不是异常设备采集的信息,则保存过车信息;对保存的每一个过车信息进行处理;根据数据组内的结构化数据的数量与标准数量的关系判定异常设备。基于大数据准实时的过车信息分析,通过数据组内过车时间的平均值和标准差设定过车时间的取值范围,将各结构化数据的过车时间与过车时间的取值范围进行比较,即可快速判定该结构化数据对应的设备是否为正常设备,根据现有数据进行时间异常设备的判定,有利于降低逐个设备排查判定的工作量。

Description

信息采集设备中异常设备的筛选方法及系统
技术领域
本申请涉及智能交通信息技术领域,具体地说,涉及一种信息采集设备中异常设备的筛选方法及系统。
背景技术
智能交通系统是将电子、传感等技术结合在一起的一种交通控制技术,包括交通信息的采集和分析处理等,交通信息采集主要利用部署于各个路段的交通检测器、传感器或者摄像机等设备来获取实时交通流信息,交通信息采集是智能交通系统中最基本的环节,采集到的信息数据的准确性和可靠性将直接影响智能交通系统。
近几年来,图片、视频等作为信息采集的主要手段,但是随着大数据的发展,在线信息采集设备如电子卡口和电子警察等抓拍以及摄像类设备不断增加,由于设备独立时钟设计,对在线采集信息设备时钟校准工作越来越费时费力,导致信息采集时间容易出现较大偏差;另外,随着信息采集量的增加,采集到的信息的时间标准也不一致,如果直接用这些存在较大时间偏差或者时间标准不一致的信息进行交通情况分析,必然会造成分析不准确,给后续工作带来影响,因此,如何在一样的时间标准中,对在线信息采集设备中存在较大时间偏差的设备进行识别,是一个亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种信息采集设备中异常设备的筛选方法及系统,基于大数据准实时的过车信息分析,通过数据组内过车时间的平均值和标准差设定过车时间的取值范围,将各结构化数据的过车时间与过车时间的取值范围进行比较,即可快速判定该结构化数据对应的设备是否为正常设备,根据现有数据进行时间异常设备的判定,有利于降低逐个设备排查判定的工作量。
为了解决上述技术问题,本申请有如下技术方案:
第一方面,本申请提供了一种信息采集设备中异常设备的筛选方法,其特征在于,包括:
采集过车信息,所述过车信息包括过车时间、设备信息和过车信息唯一标识;
将采集到的所述过车信息与异常信息库中存储的异常设备信息进行对比,判断所述过车信息是否为异常设备采集的信息,若所述过车信息是异常设备采集的信息,则删除所述过车信息;若所述过车信息不是异常设备采集的信息,则保存所述过车信息;
对保存的每一个所述过车信息进行处理,形成多个结构化数据,将所述结构化数据存储至存储系统中,所述结构化数据包括过车时间;
设置定时时间和标准数量,每隔定时时间,选取预定时间内的结构化数据作为一个数据组,比较数据组内的结构化数据的数量与标准数量的关系:
若所述数据组内的所述结构化数据的数量小于所述标准数量,则将所述数据组内的每一个所述结构化数据的过车时间加预定时间,形成新的过车时间,将所述数据组中的所述结构化数据加入下一预定时间内的数据组中;
若所述数据组内的所述结构化数据的数量大于等于所述标准数量,则计算所有结构化数据的过车时间的平均值μ和标准差σ;根据所述平均值μ和标准差σ设定过车时间的取值范围;遍历所述结构化数据,若所述结构化数据的过车时间不在所述取值范围内,则判定所述结构化数据对应的设备为异常设备,将所述异常设备的设备信息存储到异常信息库中;若所述结构化数据的过车时间在所述取值范围内,则判定所述结构化数据对应的设备为正常设备。
可选地,其中:
对所述结构化数据设定过期时间,在所述过期时间后,所述结构化数据自动删除。
可选地,其中:
所述采集过车信息,具体为:图像采集系统推送所述过车信息到筛选系统。
可选地,其中:
所述采集过车信息,具体为:筛选系统从图像采集系统准实时拉取所述过车信息。
可选地,其中:
所述标准数量为1000。
可选地,其中:
所述根据所述平均值μ和标准差σ设定过车时间的取值范围,具体为:设定过车时间为t,根据信息采集设备的时间准确率,选择t的取值范围为:μ-nσ≤t≤μ+nσ,其中,n为正整数且1≤n≤3。
可选地,其中:
所述定时时间小于所述过期时间,所述过期时间等于所述预定时间。
可选地,其中:
所述预定时间和所述过期时间为60s,所述定时时间为50s。
第二方面,本申请提供了一种信息采集设备中异常设备的筛选系统,其特征在于,包括:
信息采集模块,用于采集过车信息,所述过车信息包括过车时间、设备信息和过车信息唯一标识;
异常信息库,用于存储异常设备信息;
对比模块,用于将采集到的所述过车信息与异常信息库中存储的异常设备信息进行对比,判断所述过车信息是否为异常设备采集的信息,若所述过车信息是异常设备采集的信息,则删除所述过车信息;若所述过车信息不是异常设备采集的信息,则存储所述过车信息;
处理模块,用于对存储的每一个所述过车信息进行处理,形成多个结构化数据;
存储模块,用于保存所述结构化数据,所述结构化数据包括过车时间;
异常设备判定模块,用于依次选取预定时间内的所述结构化数据作为一个数据组,判断所述数据组内的所述结构化数据的数量是否满足要求,还用于设置定时时间和标准数量,每隔所述定时时间,比较所述数据组内的所述结构化数据的数量与所述标准数量的关系:若所述数据组内的所述结构化数据的数量小于所述标准数量,则将所述数据组内的每一个所述结构化数据的过车时间加预定时间,形成新的过车时间,将所述数据组中的所述结构化数据加入下一预定时间内的数据组中;若所述数据组内的所述结构化数据的数量大于等于所述标准数量,则计算所有结构化数据的过车时间的平均值μ和标准差σ;还用于根据所述平均值μ和标准差σ设定过车时间的取值范围,遍历所述结构化数据,若所述结构化数据的过车时间不在所述取值范围内,则判定所述结构化数据对应的设备为异常设备,将所述异常设备的设备信息存储到异常信息库;若所述结构化数据的过车时间在所述取值范围内,则判定所述结构化数据对应的设备为正常设备。
可选地,其中:
所述异常设备判定模块,还用于设定过车时间为t,根据信息采集设备的时间准确率,选择t的取值范围为:μ-nσ≤t≤μ+nσ,其中,n为正整数且1≤n≤3。
与现有技术相比,本申请所述的信息采集设备中异常设备的筛选方法及系统,达到了如下效果:
(1)本申请提供的一种信息采集设备中异常设备的筛选方法及系统,通过将采集到的过车信息与异常信息存储的异常设备信息进行对比,过滤掉前面的筛选过程中已经筛选出的异常设备采集到的过车信息,而只保存正常设备采集到的过车信息用于后续筛选,可以避免无效数据参与计算,不仅能够降低后续异常设备判定过程中的复杂度,还能够提高异常设备的判定准确率。
(2)本申请提供的一种信息采集设备中异常设备的筛选方法及系统,通过分析固定时间段内的数据组中结构化数据的数量,判断该数据组是否满足判定条件,将不满足判定条件的数据组中的结构化数据的过车时间推迟预定时间,使其参与下一个数据组的计算,从而能够避免对不满足判定条件的数据组无法进行异常判定的问题,还能够保持对数据组内的过车时间的分布范围不产生影响,有利于提高异常判定的准确率。
(3)本申请提供的一种信息采集设备中异常设备的筛选方法及系统,对于满足判定条件的数据组,将数据组内的所有结构化数据的过车时间平均值μ和标准差σ通过正态分布的方式设定过车时间的取值范围,将各结构化数据的过车时间与过车时间的取值范围进行比较,即可判定该结构化数据对应的设备是否为正常设备,能够根据现有数据进行时间异常设备的判定,有利于降低逐个设备排查判定的工作量。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1所示为本申请实施例所提供的信息采集设备中异常设备的筛选方法的一种流程图;
图2所示为本申请实施例所提供的判定异常设备的一种流程图;
图3所示为本申请实施例所提供的信息采集设备中异常设备的筛选系统的一种结构示意图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
近几年来,图片、视频等作为信息采集的主要手段,但是随着大数据的发展,在线信息采集设备如电子卡口和电子警察等抓拍以及摄像类设备不断增加,由于设备独立时钟设计,对在线采集信息设备时钟校准工作越来越费时费力,导致信息采集时间容易出现较大偏差;另外,随着信息采集量的增加,采集到的信息的时间标准也不一致,如果直接用这些存在较大时间偏差或者时间标准不一致的信息进行交通情况分析,必然会造成分析不准确,给后续工作带来影响,因此,如何在一样的时间标准中,对在线信息采集设备中存在较大时间偏差的设备进行识别,是一个亟待解决的问题。
有鉴于此,本发明提供了一种信息采集设备中异常设备的筛选方法及系统,基于大数据准实时的过车信息分析,通过数据组内过车时间的平均值和标准差设定过车时间的取值范围,将各结构化数据的过车时间与过车时间的取值范围进行比较,即可快速判定该结构化数据对应的设备是否为正常设备,根据现有数据进行时间异常设备的判定,有利于降低逐个设备排查判定的工作量。
以下结合附图和具体实施例进行详细说明。
图1所示为本申请实施例所提供的信息采集设备中异常设备的筛选方法的一种流程图,图2所示为本申请实施例所提供的判定异常设备的一种流程图,请参见图1和图2,本申请实施例所提供的信息采集设备中异常设备的筛选方法,包括:
步骤10:采集过车信息,过车信息包括过车时间、设备信息和过车信息唯一标识;
步骤20:将采集到的过车信息与异常信息库中存储的异常设备信息进行对比,判断过车信息是否为异常设备采集的信息,若过车信息是异常设备采集的信息,则删除过车信息;若过车信息不是异常设备采集的信息,则保存过车信息;
步骤30:对保存的每一个过车信息进行处理,形成多个结构化数据,将结构化数据存储至存储系统中,结构化数据包括过车时间;
步骤40:设置定时时间和标准数量,每隔定时时间,选取预定时间内的结构化数据作为一个数据组,比较数据组内的结构化数据的数量与标准数量的关系:
若数据组内的结构化数据的数量小于标准数量,则将数据组内的每一个结构化数据的过车时间加预定时间,形成新的过车时间,将数据组中的结构化数据加入下一预定时间内的数据组中;
若数据组内的结构化数据的数量大于等于标准数量,则计算所述数据组内所有结构化数据的过车时间的平均值μ和标准差σ;根据平均值μ和标准差σ设定过车时间的取值范围;遍历所述数据组内的结构化数据,若结构化数据的过车时间不在取值范围内,则判定结构化数据对应的设备为异常设备,将异常设备的设备信息存储到异常信息库中;若结构化数据的过车时间在取值范围内,则判定结构化数据对应的设备为正常设备。
具体地,请参见图1,本申请实施例所提供的信息采集设备中异常设备的筛选方法中,通过步骤10采集过车信息,采集到的过车信息包括过车时间即采集时间、信息采集设备的设备信息和过车信息唯一标识等,其中信息采集设备的设备信息可以为设备的编号;通过步骤20将采集到的过车数据与异常信息库存储的异常设备信息进行对比,例如查询异常数据库中存储的已有异常设备的编号并与采集到的过车信息中的设备编号进行对比,若异常数据库中存储有采集到的过车信息中的设备编号,则说明该设备编号对应的设备为异常设备,将该设备对应的过车信息删除;若异常数据库中未查询到采集到的过车信息设备编号,则说明在前面的筛选过程中,该设备编号对应的设备为正常设备,保存该过车信息,如此,先过滤掉前面的筛选过程中已经筛选出的异常设备采集到的过车信息,而只保存正常设备采集到的过车信息用于后续筛选,可以避免无效数据参与计算,不仅能够降低后续筛选过程中的计算复杂度,还能够提高计算准确率;通过步骤30,对保存了的所有过车信息进行数据提取,提取每一个过车信息包含的设备编号、过车时间以及筛选系统获得过车信息的时间,并将提取到的信息组装成结构化数据,将结构化数据作为value值存储到key-value存储系统中,例如redis存储系统,存储时将过车信息唯一标识作为key值,由于key-value存储系统是一种以key值唯一对应一个value值的分布式存储系统,因此,当需要查询过车信息中包含的各个具体信息时,通过key值即可进行快速查询,能够提供较高的查询效率和准确率。
需要说明的是,选择redis存储系统仅仅为本申请的一种示例性选择,在其他一些实施方式中,还可以选择MemcacheDB、Tokyo Tyrant作为存储系统,本申请对此不做具体限定。当然,选择key-value存储系统也仅仅是本实施例中提供的一种结构化数据的存储方法,在其他的一些实施例中,可以将结构化数据存储至其他类型的存储系统中,本申请对此不做具体限定。
请继续参见图1和图2,将过车信息生成结构化数据后,通过步骤40,通过结构化数据进行设备异常的判断,首先设置定时时间和标准数量,每隔定时时间,选取预定时间内的结构化数据作为一个数据组,然后对数据组内的结构化数据的数量与标准数量进行比较,如果该数据组内的结构化数据的数量小于设定的标准数量,则说明该数据组不满足判定条件,不再对该数据组对应的设备进行异常判定,但为了使该组结构化数据能够参与下一次计算,将该数据组内的所有结构化数据的过车时间加预定时间,也就是说,使该数据组中的所有结构化数据的过车时间推迟预定时间,因此,在对下一预定时间内的数据组进行判定时,可以使该数据组内的结构化数据也参与计算;如果该数据组内的结构化数据的数量大于等于标准数量,该数据组满足异常判定条件,计算该数据组内所有结构化数据的过车时间的平均值μ和标准差σ,并根据平均值μ和标准差σ设定该数据组内的结构化数据的过车时间的取值范围,遍历该数据组内的结构化数据,如果结构化数据的过车时间不在取值范围内,则判定该结构化数据对应的设备为异常设备,将异常设备的设备信息存储到异常信息库中,便于下一次筛选使用;若结构化数据的过车时间在取值范围内,则判定结构化数据对应的设备为正常设备。
本申请通过分析固定时间段内的数据组中结构化数据的数量,判断该数据组是否满足判定条件,将不满足判定条件的数据组中的结构化数据的过车时间推迟预定时间,使其参与下一个数据组的计算,从而能够避免对不满足判定条件的数据组无法进行异常判定的问题,还能够保持对数据组内的过车时间的分布范围不产生影响,有利于提高异常判定的准确率;对于满足判定条件的数据组,将数据组内的所有结构化数据的过车时间平均值μ和标准差σ通过正态分布的方式设定过车时间的取值范围,将各结构化数据的过车时间与过车时间的取值范围进行比较,即可判定该结构化数据对应的设备是否为正常设备,能够根据现有数据进行时间异常设备的判定,有利于降低逐个设备排查判定的工作量。
可选地,对结构化数据设定过期时间,在过期时间后,结构化数据自动删除。具体地,进行异常设备筛选时,对结构化数据设定过期时间,在设定的过期时间后,结构化数据自动删除,如此,不仅可以减少无效数据对存储空间的占用,在形成数据组时,还能够避免结构化数据的误选取,从而有利于保障数据组中结构化数据的准实时性。需要说明的是,当数据组中的结构化数据的数量不满足异常判定条件时,将该数据组中的结构化数据的过车时间推迟60s,同时将该数据组内的结构化数据的过期时间重置为60s,使该组数据中的结构化数据能够参与下一个数据组的计算,从而能够避免对不满足判定条件的数据组无法进行异常判定的问题,还能够保持对数据组内的过车时间的分布范围不产生影响,有利于提高异常判定的准确率;当然,设定过期时间,使结构化数据在过期时间后自动删除,仅仅是本申请在本实施例中的一种实施方式,在其他实施例中,也可以不对结构化数据设定过期时间,即不删除结构化数据,本申请对此不做限定。
可选地,采集过车信息,具体为:图像采集系统推送过车信息到筛选系统。具体地,进行过车信息采集时,图像采集系统实时推送过车信息到筛选系统,能够保障信息采集的及时性。
可选地,采集过车信息,具体为:筛选系统从图像采集系统准实时拉取过车信息。具体地,进行过车信息采集时,筛选系统从图像采集系统准实时拉取大量过车信息,如此,不仅能够保障数据的及时性,还能够保障预定时间内的数据组中结构化数据的数量,从而有利于提高设备异常判定的及时性和准确性。
可选地,标准数量为1000。具体地,本实施例中设定标准数量为1000,也就是说,数据组中结构化数据的数量小于1000,则不满足异常判定条件,数据组中结构化数据的数量大于等于1000,则满足异常判定条件。需要说明的是,标准数量为1000,仅为本申请在本实施例中的一种实施方式,在其他实施例中,标准数量可以设定为其他值,本申请对此不做具体限定,但是值得注意的是,标准数量的数值不能过小,一个数据组中包含尽量多的结构化数据,更能保障与正态分布相关计算值的准确性,同时,由于受现实中一个数据组内结构化数据数量的制约,标准数据的数量也不能太大。
可选地,根据平均值μ和标准差σ设定过车时间的取值范围,具体为:设定过车时间为t,根据信息采集设备的时间准确率,选择t的取值范围为:μ-nσ≤t≤μ+nσ,其中,n为正整数且1≤n≤3。具体地,对于满足异常判定条件的数据组,利用正态分布的方式设定过车时间t的取值范围,将数据组内所有结构化数据的过车时间的平均值μ作为正态分布的第一个参数,即期望值,标准差σ作为正态分布的第二个参数,考虑到设备整体时间基本维持在期望值附近,计算时取±nσ内的数据定为合理范围内的时间偏差,因此,设定t的取值范围为μ-nσ≤t≤μ+nσ,其中,n为正整数且1≤n≤3,当n取3时,拟合3σ准则,数值分布在(μ-σ,μ+σ)中的概率为0.6827,数值分布在(μ-2σ,μ+2σ)中的概率为0.9545,数值分布在(μ-3σ,μ+3σ)中的概率为0.9973,但过车时间的具体取值范围标准需要根据估算的整体设备的时间准确率选择,例如,假设一组数据中只存在少量时间异常的设备或者只存在随机误差,则将过车时间超出(μ-3σ,μ+3σ)范围的设备判定为时间异常的设备;若一组数据中存在较多时间异常的设备,则可根据设备的时间准确率选择将过车时间超出(μ-2σ,μ+2σ)或者(μ-2σ,μ+2σ)范围的设备判定为时间异常的设备,本申请对比不做限定。
可选地,定时时间小于过期时间,过期时间等于预定时间。具体地,本实施例中设置过期时间等于预定时间,且定时时间小于过期时间,如此,可以使得数据组中的计算数据在有一定的冗余的情况下,保障所有数据都能够参与计算,从而有利于提高异常设备的判定准确率。
可选地,预定时间和过期时间为60s,定时时间为50s。具体地,本实施例中设置预定时间和过期时间为60s,定时时间为50s,也就是说,每50s进行一次数据组内结构化数据的数量与标准数量的比较,当数据组中的结构化数据的数量不满足异常判定条件时,将该数据组中的结构化数据的过车时间推迟60s,并将该数据组内的结构化数据的过期时间重置为60s,使该组数据中的结构化数据能够参与下一个数据组的计算,从而能够避免对不满足判定条件的数据组无法进行异常判定的问题,还能够保持数据组内的过车时间分布在60s内,趋近于一个时间点,有利于提高异常判定的准确率;同时,还满足定时时间小于过期时间,可以使得数据组中的计算数据在有一定的冗余的情况下,保障所有数据都能够参与计算,从而有利于提高异常设备的判定准确率。
需要说明的是,预定时间和过期时间为60s、定时时间为50s仅仅是本申请在本实施例中的实施方式,在其他实施例中,预定时间、过期时间为和定时时间也可以为其他值,本申请对此不做具体限定,但过期时间和预定时间的取值也不能太大,尽量使一个数据组内的结构化数据趋近于一个时间点,越趋近于一个时间点,可以使得正态分布的误差越小,同时,定时时间也不能太短,保障对数据组计算时有足够多的结构化数据能够参与计算,有利于提高异常设备判定的准确性。
基于同一发明构思,本申请还提供一种信息采集设备中异常设备的筛选系统,图3所示为本申请实施例所提供的信息采集设备中异常设备的筛选系统的一种结构示意图,请参见图3,本申请实施例所提供的信息采集设备中异常设备的筛选系统200包括:
信息采集模块210,用于采集过车信息,过车信息包括过车时间、设备信息和过车信息唯一标识;
异常信息库230,用于存储异常设备信息;
对比模块220,用于将采集到的过车信息与异常信息库230中存储的异常设备信息进行对比,判断过车信息是否为异常设备采集的信息,若过车信息是异常设备采集的信息,则删除过车信息;若过车信息不是异常设备采集的信息,则存储过车信息;
处理模块240,用于对存储的每一个过车信息进行处理,形成多个结构化数据;
存储模块250,用于保存结构化数据,结构化数据包括过车时间;
异常设备判定模块260,用于依次选取预定时间内的结构化数据作为一个数据组,判断数据组内的结构化数据的数量是否满足要求,还用于设置定时时间和标准数量,每隔定时时间,比较数据组内的结构化数据的数量与标准数量的关系:若数据组内的结构化数据的数量小于标准数量,则将数据组内的每一个结构化数据的过车时间加预定时间,形成新的过车时间,将数据组中的结构化数据加入下一预定时间内的数据组中;若数据组内的结构化数据的数量大于等于标准数量,则计算所有结构化数据的过车时间的平均值μ和标准差σ;还用于根据平均值μ和标准差σ设定过车时间的取值范围;遍历结构化数据,若结构化数据的过车时间不在取值范围内,则判定结构化数据对应的设备为异常设备,将异常设备的设备信息存储到异常信息库230;若结构化数据的过车时间在取值范围内,则判定结构化数据对应的设备为正常设备。
具体地,请参见图1和图3,本申请实施例所提供的信息采集设备中异常设备的筛选系统,包括:信息采集模块210、异常信息库230、对比模块220、处理模块240和异常设备判定模块260,信息采集模块210用于采集过车信息,采集到的过车信息包括过车时间,也就是采集时间、信息采集设备的设备信息和过车信息唯一标识等,其中信息采集设备的设备信息可以为设备的编号。异常信息库230中存储有异常设备的信息;对比模块220与信息采集模块210连接,将采集到的过车信息与异常信息库230中的信息进行对比,例如查询异常信息库230中存储的已有异常设备的编号并与采集到的过车信息中的设备编号进行对比,若异常信息库230中存储有采集到的过车信息中的设备编号,则说明该设备编号对应的设备为异常设备,将该设备对应的过车信息删除;若异常信息库230中未查询到采集到的过车信息设备编号,则说明在前面的筛选过程中,该设备编号对应的设备为正常设备,保存该过车信息,如此,先过滤掉前面的筛选过程中已经筛选出的异常设备采集到的过车信息,而只保存正常设备采集到的过车信息用于后续筛选,可以避免无效数据参与计算,不仅能够降低后续筛选过程中的计算复杂度,还能够提高计算准确率。
请继续参见图1和图3,处理模块240与对比模块220连接,通过对比模块220筛选出需要保存的过车信息后,处理模块240对保存了的所有过车信息进行数据提取,提取每一个过车信息包含的设备编号、过车时间以及筛选系统获得过车信息的时间,并将提取到的信息组装成结构化数据。存储模块250,将处理模块240生成的结构化数据作为value值存储到key-value存储系统中,例如redis存储系统,存储时将过车信息唯一标识作为key值,由于key-value存储系统是一种以key值唯一对应一个value值的分布式存储系统,因此,当需要查询过车信息中包含的各个具体信息时,通过key值即可进行快速查询,能够提供较高的查询效率和准确率。
需要说明的是,选择redis存储系统仅仅为本申请的一种示例性选择,在其他一些实施方式中,还可以选择MemcacheDB、Tokyo Tyrant作为存储系统,本申请对此不做具体限定。当然,选择key-value存储系统也仅仅是本实施例中提供的一种结构化数据的存储方法,在其他的一些实施例中,可以将结构化数据存储至其他类型的存储系统中,本申请对此不做具体限定。
请继续参见图1和图2,异常设备判定模块260,通过结构化数据进行设备异常的判断,首先设置定时时间和标准数量,每隔定时时间,选取预定时间内的结构化数据作为一个数据组,然后对数据组内的结构化数据的数量与标准数量进行比较,如果该数据组内的结构化数据的数量小于设定的标准数量,则说明该数据组不满足判定条件,不再对该数据组对应的设备进行异常判定,但为了使该组结构化数据能够参与下一次计算,将该数据组内的所有结构化数据的过车时间加预定时间,也就是说,使该数据组中的所有结构化数据的过车时间推迟预定时间,因此,在对下一预定时间内的数据组进行判定时,可以使该数据组内的结构化数据也参与计算;如果该数据组内的结构化数据的数量大于等于标准数量,该数据组满足异常判定条件,计算该数据组内所有结构化数据的过车时间的平均值μ和标准差σ,并根据平均值μ和标准差σ设定该数据组内的结构化数据的过车时间的取值范围,遍历该数据组内的结构化数据,如果结构化数据的过车时间不在取值范围内,则判定该结构化数据对应的设备为异常设备,将异常设备的设备信息存储到异常信息库230中,便于下一次筛选使用;若结构化数据的过车时间在取值范围内,则判定结构化数据对应的设备为正常设备。
本申请通过分析固定时间段内的数据组中结构化数据的数量,判断该数据组是否满足判定条件,将不满足判定条件的数据组中的结构化数据的过车时间推迟预定时间,使其参与下一个数据组的计算,从而能够避免对不满足判定条件的数据组无法进行异常判定的问题,还能够保持对数据组内的过车时间的分布范围不产生影响,有利于提高异常判定的准确率;对于满足判定条件的数据组,将数据组内的所有结构化数据的过车时间平均值μ和标准差σ通过正态分布的方式设定过车时间的取值范围,将各结构化数据的过车时间与过车时间的取值范围进行比较,即可判定该结构化数据对应的设备是否为正常设备,能够根据现有数据进行时间异常设备的判定,有利于降低逐个设备排查判定的工作量。
可选地,异常设备判定模块260,还用于设定过车时间为t,根据信息采集设备的时间准确率,选择t的取值范围为:μ-nσ≤t≤μ+nσ,其中,n为正整数且1≤n≤3。具体地,对于满足异常判定条件的数据组,异常设备判定模块260利用正态分布的方式设定过车时间t的取值范围,将数据组内所有结构化数据的过车时间的平均值μ作为正态分布的第一个参数,即期望值,标准差σ作为正态分布的第二个参数,考虑到设备整体时间基本维持在期望值附近,计算时取±nσ内的数据定为合理范围内的时间偏差,因此,设定t的取值范围为μ-nσ≤t≤μ+nσ,其中,n为正整数且1≤n≤3,n的具体取值需要根据估算的整体设备的时间准确率计算,例如,当n取3时,根据3σ准则,数值分布在(μ-σ,μ+σ)中的概率为0.6827,数值分布在(μ-2σ,μ+2σ)中的概率为0.9545,数值分布在(μ-3σ,μ+3σ)中的概率为0.9973,即过车时间超出(μ-3σ,μ+3σ)范围的判定为时间异常的设备。
通过以上各实施例可知,本申请存在的有益效果是:
(1)本申请提供的一种信息采集设备中异常设备的筛选方法及系统,通过将采集到的过车信息与异常信息库中存储的异常设备信息进行对比,过滤掉前面的筛选过程中已经筛选出的异常设备采集到的过车信息,而只保存正常设备采集到的过车信息用于后续筛选,可以避免无效数据参与计算,不仅能够降低后续异常设备判定过程中的复杂度,还能够提高异常设备的判定准确率。
(2)本申请提供的一种信息采集设备中异常设备的筛选方法及系统,通过分析固定时间段内的数据组中结构化数据的数量,判断该数据组是否满足判定条件,将不满足判定条件的数据组中的结构化数据的过车时间推迟预定时间,使其参与下一个数据组的计算,从而能够避免对不满足判定条件的数据组无法进行异常判定的问题,还能够保持对数据组内的过车时间的分布范围不产生影响,有利于提高异常判定的准确率。
(3)本申请提供的一种信息采集设备中异常设备的筛选方法及系统,对于满足判定条件的数据组,将数据组内的所有结构化数据的过车时间平均值μ和标准差σ通过正态分布的方式设定过车时间的取值范围,将各结构化数据的过车时间与过车时间的取值范围进行比较,即可快速判定该结构化数据对应的设备是否为正常设备,能够根据现有数据进行时间异常设备的判定,有利于降低逐个设备排查判定的工作量。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (10)

1.一种信息采集设备中异常设备的筛选方法,其特征在于,包括:
采集过车信息,所述过车信息包括过车时间、设备信息和过车信息唯一标识;
将采集到的所述过车信息与异常信息库中存储的异常设备信息进行对比,判断所述过车信息是否为异常设备采集的信息,若所述过车信息是异常设备采集的信息,则删除所述过车信息;若所述过车信息不是异常设备采集的信息,则保存所述过车信息;
对保存的每一个所述过车信息进行处理,形成多个结构化数据,将所述结构化数据存储至存储系统中,所述结构化数据包括过车时间;
设置定时时间和标准数量,每隔定时时间,选取预定时间内的结构化数据作为一个数据组,比较数据组内的结构化数据的数量与标准数量的关系:
若所述数据组内的所述结构化数据的数量小于所述标准数量,则将所述数据组内的每一个所述结构化数据的过车时间加预定时间,形成新的过车时间,将所述数据组中的所述结构化数据加入下一预定时间内的数据组中;
若所述数据组内的所述结构化数据的数量大于等于所述标准数量,则计算所有结构化数据的过车时间的平均值μ和标准差σ;根据所述平均值μ和标准差σ设定过车时间的取值范围;遍历所述结构化数据,若所述结构化数据的过车时间不在所述取值范围内,则判定所述结构化数据对应的设备为异常设备,将所述异常设备的设备信息存储到异常信息库中;若所述结构化数据的过车时间在所述取值范围内,则判定所述结构化数据对应的设备为正常设备。
2.根据权利要求1所述的信息采集设备中异常设备的筛选方法,其特征在于,对所述结构化数据设定过期时间,在所述过期时间后,所述结构化数据自动删除。
3.根据权利要求1所述的信息采集设备中异常设备的筛选方法,其特征在于,所述采集过车信息,具体为:图像采集系统推送所述过车信息到筛选系统。
4.根据权利要求1所述的信息采集设备中异常设备的筛选方法,其特征在于,所述采集过车信息,具体为:筛选系统从图像采集系统准实时拉取所述过车信息。
5.根据权利要求1所述的信息采集设备中异常设备的筛选方法,其特征在于,所述标准数量为1000。
6.根据权利要求1所述的信息采集设备中异常设备的筛选方法,其特征在于,所述根据所述平均值μ和标准差σ设定过车时间的取值范围,具体为:设定过车时间为t,根据信息采集设备的时间准确率,选择t的取值范围为:μ-nσ≤t≤μ+nσ,其中,n为正整数且1≤n≤3。
7.根据权利要求2所述的信息采集设备中异常设备的筛选方法,其特征在于,所述定时时间小于所述过期时间,所述过期时间等于所述预定时间。
8.根据权利要求7所述的信息采集设备中异常设备的筛选方法,其特征在于,所述预定时间和所述过期时间为60s,所述定时时间为50s。
9.一种信息采集设备中异常设备的筛选系统,其特征在于,包括:
信息采集模块,用于采集过车信息,所述过车信息包括过车时间、设备信息和过车信息唯一标识;
异常信息库,用于存储异常设备信息;
对比模块,用于将采集到的所述过车信息与异常信息库中存储的异常设备信息进行对比,判断所述过车信息是否为异常设备采集的信息,若所述过车信息是异常设备采集的信息,则删除所述过车信息;若所述过车信息不是异常设备采集的信息,则存储所述过车信息;
处理模块,用于对存储的每一个所述过车信息进行处理,形成多个结构化数据;
存储模块,用于保存所述结构化数据,所述结构化数据包括过车时间;
异常设备判定模块,用于依次选取预定时间内的所述结构化数据作为一个数据组,判断所述数据组内的所述结构化数据的数量是否满足要求,还用于设置定时时间和标准数量,每隔所述定时时间,比较所述数据组内的所述结构化数据的数量与所述标准数量的关系:若所述数据组内的所述结构化数据的数量小于所述标准数量,则将所述数据组内的每一个所述结构化数据的过车时间加预定时间,形成新的过车时间,将所述数据组中的所述结构化数据加入下一预定时间内的数据组中;若所述数据组内的所述结构化数据的数量大于等于所述标准数量,则计算所有结构化数据的过车时间的平均值μ和标准差σ;还用于根据所述平均值μ和标准差σ设定过车时间的取值范围,遍历所述结构化数据,若所述结构化数据的过车时间不在所述取值范围内,则判定所述结构化数据对应的设备为异常设备,将所述异常设备的设备信息存储到异常信息库;若所述结构化数据的过车时间在所述取值范围内,则判定所述结构化数据对应的设备为正常设备。
10.根据权利要求9所述的信息采集设备中异常设备的筛选系统,其特征在于,所述异常设备判定模块,还用于设定过车时间为t,根据信息采集设备的时间准确率,选择t的取值范围为:μ-nσ≤t≤μ+nσ,其中,n为正整数且1≤n≤3。
CN201910593533.8A 2019-07-03 2019-07-03 信息采集设备中异常设备的筛选方法及系统 Pending CN110264722A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910593533.8A CN110264722A (zh) 2019-07-03 2019-07-03 信息采集设备中异常设备的筛选方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910593533.8A CN110264722A (zh) 2019-07-03 2019-07-03 信息采集设备中异常设备的筛选方法及系统

Publications (1)

Publication Number Publication Date
CN110264722A true CN110264722A (zh) 2019-09-20

Family

ID=67924020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910593533.8A Pending CN110264722A (zh) 2019-07-03 2019-07-03 信息采集设备中异常设备的筛选方法及系统

Country Status (1)

Country Link
CN (1) CN110264722A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131210A (zh) * 2020-09-16 2020-12-25 珠海格力电器股份有限公司 一种数据识别方法、装置、服务器及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104868465A (zh) * 2014-02-26 2015-08-26 云南电力调度控制中心 基于模糊机会约束的电力系统网架重构优化方法
CN106021567A (zh) * 2016-05-31 2016-10-12 中国农业大学 一种基于Hadoop的海量矢量数据划分方法及系统
CN107146409A (zh) * 2017-06-01 2017-09-08 东方网力科技股份有限公司 路网中设备检测时间异常的识别和真实时差估算方法
CN107358195A (zh) * 2017-07-11 2017-11-17 成都考拉悠然科技有限公司 基于重建误差的非特定异常事件检测及定位方法、计算机
CN107506388A (zh) * 2017-07-27 2017-12-22 浙江工业大学 一种面向Spark并行计算框架的迭代式数据均衡优化方法
JP6304874B2 (ja) * 2014-02-19 2018-04-04 三菱重工機械システム株式会社 車線制御システム、車線制御方法、及びプログラム
CN107967323A (zh) * 2017-11-24 2018-04-27 泰华智慧产业集团股份有限公司 基于大数据进行异常出行车辆分析的方法及系统
CN108052628A (zh) * 2017-12-19 2018-05-18 河北省科学院应用数学研究所 道岔启动电流检测方法、系统及终端设备
CN108429649A (zh) * 2018-03-23 2018-08-21 国家计算机网络与信息安全管理中心 基于多次单类型采集结果的综合异常判断的系统
CN108574839A (zh) * 2017-03-08 2018-09-25 杭州海康威视数字技术股份有限公司 一种卡口设备异常检测方法及装置
CN108775914A (zh) * 2018-05-07 2018-11-09 青岛海信网络科技股份有限公司 一种交通设备检测方法及检测设备
CN109118806A (zh) * 2017-06-26 2019-01-01 杭州海康威视系统技术有限公司 一种设备异常检测方法、装置及系统
CN109213654A (zh) * 2018-07-05 2019-01-15 北京奇艺世纪科技有限公司 一种异常检测方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6304874B2 (ja) * 2014-02-19 2018-04-04 三菱重工機械システム株式会社 車線制御システム、車線制御方法、及びプログラム
CN104868465A (zh) * 2014-02-26 2015-08-26 云南电力调度控制中心 基于模糊机会约束的电力系统网架重构优化方法
CN106021567A (zh) * 2016-05-31 2016-10-12 中国农业大学 一种基于Hadoop的海量矢量数据划分方法及系统
CN108574839A (zh) * 2017-03-08 2018-09-25 杭州海康威视数字技术股份有限公司 一种卡口设备异常检测方法及装置
CN107146409A (zh) * 2017-06-01 2017-09-08 东方网力科技股份有限公司 路网中设备检测时间异常的识别和真实时差估算方法
CN109118806A (zh) * 2017-06-26 2019-01-01 杭州海康威视系统技术有限公司 一种设备异常检测方法、装置及系统
CN107358195A (zh) * 2017-07-11 2017-11-17 成都考拉悠然科技有限公司 基于重建误差的非特定异常事件检测及定位方法、计算机
CN107506388A (zh) * 2017-07-27 2017-12-22 浙江工业大学 一种面向Spark并行计算框架的迭代式数据均衡优化方法
CN107967323A (zh) * 2017-11-24 2018-04-27 泰华智慧产业集团股份有限公司 基于大数据进行异常出行车辆分析的方法及系统
CN108052628A (zh) * 2017-12-19 2018-05-18 河北省科学院应用数学研究所 道岔启动电流检测方法、系统及终端设备
CN108429649A (zh) * 2018-03-23 2018-08-21 国家计算机网络与信息安全管理中心 基于多次单类型采集结果的综合异常判断的系统
CN108775914A (zh) * 2018-05-07 2018-11-09 青岛海信网络科技股份有限公司 一种交通设备检测方法及检测设备
CN109213654A (zh) * 2018-07-05 2019-01-15 北京奇艺世纪科技有限公司 一种异常检测方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131210A (zh) * 2020-09-16 2020-12-25 珠海格力电器股份有限公司 一种数据识别方法、装置、服务器及存储介质

Similar Documents

Publication Publication Date Title
US9921936B2 (en) Method and system for IT resources performance analysis
CN108846365B (zh) 视频中打架行为的检测方法、装置、存储介质及处理器
CN101281593B (zh) 智能视频监控事件检索方法及系统
CN103942811B (zh) 分布式并行确定特征目标运动轨迹的方法与系统
CN109615572B (zh) 基于大数据的人员亲密度分析的方法及系统
CN106792456A (zh) 数据分析系统和方法
JP2019502191A (ja) サービス呼び出し情報処理の方法及びデバイス
CN113065474B (zh) 行为识别方法、装置及计算机设备
CN110490905A (zh) 一种基于YOLOv3和DSST算法的目标跟踪方法
CN111353352A (zh) 异常行为检测方法及装置
CN105426862B (zh) 基于rfid、定位技术与视频技术的分析方法及其系统
CN113440789B (zh) 一种多人跳绳测试智能计数方法及系统
DE102015204598A1 (de) System zum Bereitstellen von Informationen, die mit einem Fahrzeugfehler verknüpft sind, einem Benutzer
CN110866692A (zh) 一种预警信息的生成方法、生成装置及可读存储介质
CN107784649A (zh) 基于图像识别的芯棒测试远程报警系统及方法
CN111881320A (zh) 一种视频查询方法、装置、设备及可读存储介质
CN110264722A (zh) 信息采集设备中异常设备的筛选方法及系统
CN111985452A (zh) 一种人员活动轨迹及落脚点的自动生成方法及系统
CN109919064A (zh) 一种轨道交通车厢内实时人数统计方法和装置
CN106021857A (zh) 一种健康诊断系统及方法
CN110991241B (zh) 异常识别方法、设备及计算机可读介质
CN116486277A (zh) 遥感载荷图像判读方法及遥感载荷快视系统
CN108286972A (zh) 导航电子地图数据的智能查错方法和装置及混合导航系统
CN113962216A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN110730342B (zh) 一种视频质量分析方法、装置、服务器及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190920