发明内容
本发明的目的在于提供一种基于大数据的信息管理系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于大数据的信息管理系统,包括:
数据获取模块,所述数据获取模块用于获取各个传感器传递的传感器数据;
数据关联量筛选模块,所述数据关联量筛选模块用于获取每个传感器数据对应的数据关联量,并通过数据关联量分别对应的数值对该传感器数据的准确性进行判断,初步筛选出获取的异常传感器数据;
数据自变量筛选模块,所述数据自变量筛选模块获取数据关联量筛选模块初步筛选出的异常传感器数据,根据每个异常传感器数据对应的传感器的历史数据变化情况,对初步筛选出的异常传感器数据进行二次筛选,进一步确认出异常传感器数据,得到二次异常传感器数据集合;
异常数据校准模块,所述异常数据校准模块根据历史数据对二次异常传感器数据集合中的各个异常数据进行校准。
本发明在对传感器数据进行异常判断时,从该传感器数据的关联量及该传感器数据对应传感器自身的历史数据变化情况进行分析,即相当于从传感器对应环境的变化情况(关联量变化情况、自变量变化情况)进行综合考虑,进而对不断调节对该传感器数据的异常评判标准,使得对该传感器数据的异常判断结果更加准确,并根据该传感器数据的异常判断结果及异常判断过程对关联量及自变量的历史数据变化情况,实现对异常的传感器数据的校准,进而实现对传感器数据的有效管理。
进一步的,所述数据获取模块获取的传感器数据来源于多种传感器,每种传感器至少包含一个传感器,传感器设置于设备上,用于检测设备的运行情况,一个设备至少包含一种传感器,
各个传感器每隔第一单位时间t0检测一次设备,得到一个传感器数据,同时记录该传感器数据对应的时间,
对各个设备进行编号,
分别为各个传感器设置编号,将第a类传感器中的第b个传感器对应的编号记为a-b,
将相同种类的传感器编号录入到同一个空白集合中,将第a类传感器对应的集合记为Aa,
将同一设备上的传感器对应的编号录入到同一个空白集合中,将第c个设备对应的集合记为Sc。
本发明数据获取模块设置各个传感器每隔第一单位时间t0检测一次设备是为了确保各个传感器获取的数据个数统一,进而便于后续对传感器数据进行异常分析;获取出传感器对应的集合时,Aa与Sc中包含的元素对应的传感器编号可能出现重叠情况,其原因是Aa与Sc分别对应两种对传感器的划分标准,Aa对应的是传感器的种类,Sc对应的是设备对应的传感器,如此设置是为了得到后续内容中传感器数据对应的第一关联传感器及第二关联传感器,进而实现对传感器数据的异常判断及校准。
进一步的,所述数据关联量筛选模块获取每个传感器数据对应的关联量的方法包括以下步骤:
S1.1、获取每个传感器数据所属传感器对应的第一关联传感器及第二关联传感器,
所述第一关联传感器为该传感器数据所属传感器编号对应设备相应的集合中其他传感器编号分别对应的传感器,
所述第二关联传感器为该传感器数据所属传感器编号对应的传感器种类中其他传感器编号分别对应的传感器;
S1.2、获取每个传感器数据对应的时间t;
S1.3、分别获取S1.2中时间为t的传感器数据对应的各个第一关联传感器及第二关联传感器在时间t时分别对应的传感器数据;
S1.4、根据S1.3中各个第一关联传感器在时间t时对应的传感器数据构成该传感器数据的第一关联传感器数据集合,
根据S1.3中各个第二关联传感器在时间t时对应的传感器数据构成该传感器数据的第二关联传感器数据集合,
该传感器数据对应的关联量包括该传感器数据的第一关联传感器数据集合中各元素分别对应的传感器数据及该传感器数据的第二关联传感器数据集合中各元素分别对应的传感器数据。
本发明数据关联量筛选模块获取传感器数据对应的第一关联传感器及第二关联传感器,是为了后续对该传感器数据进行异常判断,对第一关联传感器相应的数据与第二关联传感器相应的数据的分析方法是不同的(第一关联传感器对应后续的第一拟合曲线,第一关联传感器对应后续的第二拟合曲线,两者的结合对应后续的第三拟合曲线),因此需要提前对此进行划分。
进一步的,所述数据关联量筛选模块通过数据关联量分别对应的数值对该传感器数据的准确性进行判断的方法包括以下步骤:
S2.1、获取某个传感器数据对应的传感器编号,记为a1-b1,获取该传感器数据对应的设备编号c1及时间t1,
a1-b1对应的第一关联传感器为集合Sc1去除掉a1-b1的各个编号分别对应的传感器,将a1-b1对应的第一关联传感器的集合记为集合S1c1,
a1-b1对应的第二关联传感器为集合Aa1去除掉a1-b1的各个编号分别对应的传感器,将a1-b1对应的第二关联传感器的集合记为集合A1c1;
S2.2、获取该传感器数据对应的第一关联传感器数据集合及第二关联传感器数据集合;
S2.3、计算历史数据中相对于时间t1的前第二单位时间t2内,集合S1c1中第n个元素对应的传感器与编号为a1-b1的传感器在相同时间分别对应传感器数据的比值的集合,记为比值集合D1c1n;
S2.4、计算历史数据中相对于时间t1的前第二单位时间t2内,集合A1c1中第n个元素对应的传感器与编号为a1-b1的传感器在相同时间分别对应传感器数据的比值的集合,记为比值集合E1c1n;
S2.5、根据获取的n为不同值时,比值集合D1c1n及比值集合E1c1n中的各个元素对应的比值及该比值相应的时间T,先对得到的各个比值进行归一化处理,得到归一化处理后的各个处理结果与相应的T在平面直角坐标系中构成的坐标点,
所述T等于t1与该比值对应时间的差值,所述坐标点中横坐标为T,纵坐标为T对应的归一化处理后的处理结果;
S2.6、根据S2.5中得到的各个坐标点进行线性拟合处理,分别得到第一拟合曲线、第二拟合曲线及第三拟合曲线;
S2.7、计算T为0时,第一拟合曲线、第二拟合曲线及第三拟合曲线分别对应的值Q1、Q2、Q3,并根据Q1、Q2、Q3判断该传感器数据是否异常;
对得到的各个比值进行归一化处理的方法包括以下步骤:
S2.5.1、获取各个比值对应的传感器的种类;
S2.5.2、查询数据库,获取各个比值对应的传感器种类在数据库中相应的归一系数,比值中对应的两个传感器相应的种类相同时,对应的归一系数为1;
S2.5.3、将每个比值除以该比值对应的归一系数,分别得到各个比值对应的归一化处理后的处理结果。
本发明数据关联量筛选模块在对传感器数据进行初步筛选时,获取该传感器数据对应的第一关联传感器数据集合及第二关联传感器数据集合,是为了得到第一拟合曲线、第二拟合曲线及第三拟合曲线,进而通过相应的拟合曲线,对该传感器数据进行异常判断;获取集合A1c1中第n个元素对应的传感器与编号为a1-b1的传感器在相同时间分别对应传感器数据的比值的集合,是因为考虑到在同一设备上,相同时间对应的传感器的工作环境条件是相同的,进而同一设备上某两个传感器数据的比值是相对稳定的,即使工作环境发生变化,其两者对应的数值也是同时相对发生变化的,两者均会受到影响,进而采用该方式对传感器数据进行分析时相对较精确的;获取集合A1c1中第n个元素对应的传感器与编号为a1-b1的传感器在相同时间分别对应传感器数据的比值的集合,是因为同一种类的传感器监测数据是在一定程度上的,时间发生变化,则传感器对应的大环境也在发生变化,通过同类传感器数据的变化情况能够反应出该传感器数据的一个总体变化趋势,对判断该传感器数据的异常情况是有借鉴意义的;对得到的各个比值进行归一化处理,是因为由于同一设备上的各个传感器分别对应的传感器种类可能不同,而不同种类的传感器对数据的监测范围可能存在较大的差异,器对应的比值之间可能相差甚大,这对后续线性拟合会造成麻烦,使得坐标点相对分散,拟合的结果出现加大的偏差,因此采用该方式进行处理,是为了使得到的坐标点有效的集中起来,便于精准获取线性拟合结果;得到第一拟合曲线、第二拟合曲线及第三拟合曲线,是为了根据不同的参考数据获取不同的线性拟合结果,每个线性拟合结果均是具有参考意义的,进而根据某一时间不同的线性拟合结果分别对应的值,得到该时间该传感器数据对应的理想波动范围;计算T为0时,第一拟合曲线、第二拟合曲线及第三拟合曲线分别对应的值Q1、Q2、Q3,是因为T等于t1与该比值对应时间的差值,当T等于0时,即表示当前时间相应的线性拟合曲线中该传感器对应的理想值,进而根据理想值与该传感器数据之间的差异情况,判断出该传感器数据的异常情况。
进一步的,所述分别得到第一拟合曲线、第二拟合曲线及第三拟合曲线的方法包括以下步骤:
S2.6.1、在S2.5中的平面直角坐标系中分别用颜色p1标出比值集合D1c1n中各个元素对应的坐标点、用颜色p2标出比值集合E1c1n中的各个元素对应的坐标点;
S2.6.2、参照数据库中线性拟合方程模型,
对平面直角坐标系中颜色p1对应的坐标点进行线性拟合,得到第一拟合曲线,
对平面直角坐标系中颜色p2对应的坐标点进行线性拟合,得到第二拟合曲线,
对平面直角坐标系中颜色p1及颜色p2对应的坐标点进行线性拟合,得到第三拟合曲线,
进行线性拟合时,分别采用数据库中不同的线性拟合方程模型对相应颜色标出的坐标点进行拟合,并分别计算出相应颜色标出的各个坐标点到每个拟合结果的距离之和,选取最小距离和对应的拟合结果为相应的拟合曲线。
本发明在进行线性拟合的过程中,将比值集合D1c1n中各个元素对应的坐标点与比值集合E1c1n中的各个元素对应的坐标点用不同的颜色进行标记,是为了对相应的坐标点进行分析,避免在进行线性拟合时,将线性拟合对应的坐标点弄混,进而使得线性拟合结果出现偏差;采用数据库中不同的线性拟合方程模型对相应颜色标出的坐标点进行拟合,是为了实现线性拟合方程模型的多样化,进而使得线性拟合结果更加贴合实际情况;计算出相应颜色标出的各个坐标点到每个拟合结果的距离之和,是为了实现对线性拟合方程模型的匹配筛选。
进一步的,所述根据Q1、Q2、Q3判断该传感器数据是否异常的方法包括以下步骤:
S2.7.1、获取Q1、Q2及Q3中的最小值{Q1,Q2,Q3}min及最大值{Q1,Q2,Q3}max;
S2.7.2、得到该传感器数据对应的理想波动范围,记为[{Q1,Q2,Q3}min,{Q1,Q2,Q3}max],[{Q1,Q2,Q3}min,{Q1,Q2,Q3}max]表示大于等于{Q1,Q2,Q3}min且小于等于{Q1,Q2,Q3}max的区间;
S2.7.3、计算该传感器数据对应的理想波动范围的区间长度L,并将L乘上该传感器数据对应传感器编号的异常调节系数e,得到该传感器数据的异常判定区间的区间长度,所述不同编号的传感器对应的异常调节系数不同,所述e通过数据库查询获得,
所述L={Q1,Q2,Q3}max-{Q1,Q2,Q3}min,
S2.7.4、得到该传感器数据的异常判定区间[R1,R2],所述[R1,R2]表示大于等于R1且小于等于R2的区间,
S2.7.5、将1与该传感器数据的异常判定区间[R1,R2]进行比较,
当1在[R1,R2]内时,判定该传感器数据为正常传感器数据,
当1不在[R1,R2]内时,判定该传感器数据为异常传感器数据。
本发明Q1、Q2及Q3均为线性拟合中该传感器数据对应的理想数值,因此,通过最小值{Q1,Q2,Q3}min及最大值{Q1,Q2,Q3}max,能够得到该传感器数据对应的理想波动范围;而实际情况中,数据对应的实际情况与理想情况可能是会存在偏差的,这个需要结合对偏差的容忍情况(异常调节系数),不同的传感器对应的对偏差的容忍情况是不同的,因此通过异常调节系数调节后的异常判定区间[R1,R2]才是该传感器数据能够被接受的范围;获取R1、R2时,计算
是为了确保得到的异常判定区间[R1,R2]完全覆盖对应的理想波动范围,且异常判定区间[R1,R2]与理想波动范围的中心点对应的值相同;将1与该传感器数据的异常判定区间[R1,R2]进行比较,是因为[R1,R2]是通过其他传感器与该传感器数据对应的传感器的相应时间的数据的比值获取的,且比值中对应的两个传感器相应的种类相同时,对应的归一系数为1,因此,在与该传感器数据的异常判定区间[R1,R2]进行比较时,不能直接选取该传感器数据,而是该传感器数据与该传感器数据的比值,即1。
进一步的,所述数据自变量筛选模块对初步筛选出的异常传感器数据进行二次筛选的方法包括以下步骤:
S4.1、获取初步筛选出的每个异常传感器数据对应传感器编号;
S4.2、获取计算历史数据中相对于时间t1的前第二单位时间t2内,每个异常传感器数据对应传感器中相邻两个数据比值的集合,记为集合F1,所述相邻两个数据比值等于后一个传感器数据与前一个传感器数据的商;
S4.3、根据集合F1中的各个元素对应的比值及该比值相应的时间T1,得到该比值与相应的T1在平面直角坐标系中构成的坐标点;
S4.4、根据S2.5中得到的各个坐标点进行线性拟合处理,得到第四拟合曲线;
S4.5、计算T1为0时,第四拟合曲线对应的值Q4,计算Q4与1之间的偏差值W,所述W等于Q4-1的绝对值;
S4.6、将偏差值W与第一预设值g进行比较,
当偏差值W大于等于第一预设值g时,判定初步筛选中的该异常数据二次异常,
当偏差值W小于第一预设值g时,判定初步筛选中的该异常数据假异常,不对其进行处理;
S4.7、将二次异常的传感器数据逐个录入到一个空白集合中,得到二次异常传感器数据集合。
本发明数据自变量筛选模块主要是采用线性拟合的方式判断该传感器数据对应的传感器在不同时间自身数据的变化情况。
进一步的,所述异常数据校准模块包括关联量校准模块及自变量校准模块,
所述关联量校准模块根据二次异常传感器数据集合中的各个异常数据对应的关联量的历史数据,对二次异常传感器数据集合中的各个异常数据进行校准,将异常数据对应的校准量记为关联量校准量;
所述自变量校准模块根据二次异常传感器数据集合中的各个异常数据对应传感器相应的历史数据,对二次异常传感器数据集合中的各个异常数据进行校准,将异常数据对应的校准量记为自变量校准量。
所述关联量校准模块得到关联量校准量的方法包括以下步骤:
S5.1、获取二次异常传感器数据集合中的各个异常数据分别对应的异常判定区间,将二次异常传感器数据集合中的第n个异常数据对应的异常判定区间记为[R1n,R2n];
S5.2、获取1分别与R1n、R2n的差的绝对值;
S5.3、获取S5.2中所得的两个绝对值的最小值,将所得最小值记为|[R1n,R2n]|min,将该最小值对应的差值记为[R1n,R2n]min,将二次异常传感器数据集合中的第n个异常数据与[R1n,R2n]min相乘,所得乘积为二次异常传感器数据集合中第n个异常数据对应的关联量校准量Hn;
所述自变量校准模块得到自变量校准量的方法包括以下步骤:
S6.1、获取二次异常传感器数据集合中第n个异常数据对应的偏差值,记为Wn;
S6.2、计算Wn与第一预设值g的差值,记为Wn-g;
S6.3、将二次异常传感器数据集合中的第n个异常数据与Wn-g相乘,
当Wn对应的Q4-1大于0时,所得乘积为二次异常传感器数据集合中第n个异常数据对应的自变量校准量H1n;
当Wn对应的Q4-1小于0时,所得乘积的相反数为二次异常传感器数据集合中第n个异常数据对应的自变量校准量H1n。
本发明异常数据校准模块在获取该传感器数据的关联量校准量及自变量校准量时,结合对该传感器数据异常判断过程中得到的中间量,进而得到相应部分对应的校准值,两个校准量是从两个角度进行分析获取的,在一定程度上在具有参考作用的同时,也具有相应的片面性,因此在获取最终校准量的过程中,需要对两者进行综合考虑,即采用加权的方式,得到最终的校准量。
进一步的,所述异常数据校准模块得到最终校准量的过程中,
二次异常传感器数据集合中第n个异常数据对应的最终校准量等于Hn*k+H1n*k1,
其中,k表示第一校准系数,k1表示第二校准系数。
一种基于大数据的信息管理方法,所述方法包括以下步骤:
S1、通过数据获取模块获取各个传感器传递的传感器数据;
S2、通过数据关联量筛选模块获取每个传感器数据对应的数据关联量,并通过数据关联量分别对应的数值对该传感器数据的准确性进行判断,初步筛选出获取的异常传感器数据;
S3、通过数据自变量筛选模块获取数据关联量筛选模块初步筛选出的异常传感器数据,根据每个异常传感器数据对应的传感器的历史数据变化情况,对初步筛选出的异常传感器数据进行二次筛选,进一步确认出异常传感器数据,得到二次异常传感器数据集合;
S4、在异常数据校准模块中,根据历史数据对二次异常传感器数据集合中的各个异常数据进行校准。
与现有技术相比,本发明所达到的有益效果是:本发明从多个角度对传感器数据的异常情况进行分析,结合设备上传感器数据的变化情况及获取的传感器数据对应的传感器在历史上数据中自身的变化情况,使得在对传感器数据的异常判断上适应性更强,且异常判定的结果更加准确,同时在对异常数据的处理上,能够兼顾关联传感器的数据变化情况及自身传感器的数据变化情况,使得校准结果更加贴合理想情况,校准结果更加精准。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图4,本发明提供技术方案:一种基于大数据的信息管理系统,包括:
数据获取模块,所述数据获取模块用于获取各个传感器传递的传感器数据;
数据关联量筛选模块,所述数据关联量筛选模块用于获取每个传感器数据对应的数据关联量,并通过数据关联量分别对应的数值对该传感器数据的准确性进行判断,初步筛选出获取的异常传感器数据;
数据自变量筛选模块,所述数据自变量筛选模块获取数据关联量筛选模块初步筛选出的异常传感器数据,根据每个异常传感器数据对应的传感器的历史数据变化情况,对初步筛选出的异常传感器数据进行二次筛选,进一步确认出异常传感器数据,得到二次异常传感器数据集合;
异常数据校准模块,所述异常数据校准模块根据历史数据对二次异常传感器数据集合中的各个异常数据进行校准。
本发明在对传感器数据进行异常判断时,从该传感器数据的关联量及该传感器数据对应传感器自身的历史数据变化情况进行分析,即相当于从传感器对应环境的变化情况(关联量变化情况、自变量变化情况)进行综合考虑,进而对不断调节对该传感器数据的异常评判标准,使得对该传感器数据的异常判断结果更加准确,并根据该传感器数据的异常判断结果及异常判断过程对关联量及自变量的历史数据变化情况,实现对异常的传感器数据的校准,进而实现对传感器数据的有效管理。
所述数据获取模块获取的传感器数据来源于多种传感器,每种传感器至少包含一个传感器,传感器设置于设备上,用于检测设备的运行情况,一个设备至少包含一种传感器,
各个传感器每隔第一单位时间t0检测一次设备,得到一个传感器数据,同时记录该传感器数据对应的时间,
对各个设备进行编号,
分别为各个传感器设置编号,将第a类传感器中的第b个传感器对应的编号记为a-b,
将相同种类的传感器编号录入到同一个空白集合中,将第a类传感器对应的集合记为Aa,
将同一设备上的传感器对应的编号录入到同一个空白集合中,将第c个设备对应的集合记为Sc。
本发明数据获取模块设置各个传感器每隔第一单位时间t0检测一次设备是为了确保各个传感器获取的数据个数统一,进而便于后续对传感器数据进行异常分析;获取出传感器对应的集合时,Aa与Sc中包含的元素对应的传感器编号可能出现重叠情况,其原因是Aa与Sc分别对应两种对传感器的划分标准,Aa对应的是传感器的种类,Sc对应的是设备对应的传感器,如此设置是为了得到后续内容中传感器数据对应的第一关联传感器及第二关联传感器,进而实现对传感器数据的异常判断及校准。
所述数据关联量筛选模块获取每个传感器数据对应的关联量的方法包括以下步骤:
S1.1、获取每个传感器数据所属传感器对应的第一关联传感器及第二关联传感器,
所述第一关联传感器为该传感器数据所属传感器编号对应设备相应的集合中其他传感器编号分别对应的传感器,
所述第二关联传感器为该传感器数据所属传感器编号对应的传感器种类中其他传感器编号分别对应的传感器;
S1.2、获取每个传感器数据对应的时间t;
S1.3、分别获取S1.2中时间为t的传感器数据对应的各个第一关联传感器及第二关联传感器在时间t时分别对应的传感器数据;
S1.4、根据S1.3中各个第一关联传感器在时间t时对应的传感器数据构成该传感器数据的第一关联传感器数据集合,
根据S1.3中各个第二关联传感器在时间t时对应的传感器数据构成该传感器数据的第二关联传感器数据集合,
该传感器数据对应的关联量包括该传感器数据的第一关联传感器数据集合中各元素分别对应的传感器数据及该传感器数据的第二关联传感器数据集合中各元素分别对应的传感器数据。
本发明数据关联量筛选模块获取传感器数据对应的第一关联传感器及第二关联传感器,是为了后续对该传感器数据进行异常判断,对第一关联传感器相应的数据与第二关联传感器相应的数据的分析方法是不同的(第一关联传感器对应后续的第一拟合曲线,第一关联传感器对应后续的第二拟合曲线,两者的结合对应后续的第三拟合曲线),因此需要提前对此进行划分。
所述数据关联量筛选模块通过数据关联量分别对应的数值对该传感器数据的准确性进行判断的方法包括以下步骤:
S2.1、获取某个传感器数据对应的传感器编号,记为a1-b1,获取该传感器数据对应的设备编号c1及时间t1,
a1-b1对应的第一关联传感器为集合Sc1去除掉a1-b1的各个编号分别对应的传感器,将a1-b1对应的第一关联传感器的集合记为集合S1c1,
a1-b1对应的第二关联传感器为集合Aa1去除掉a1-b1的各个编号分别对应的传感器,将a1-b1对应的第二关联传感器的集合记为集合A1c1;
本实施例中若某传感器数据对应的传感器的编号为01-02,
若设备001包含的传感器编号为01-02、03-01及05-04,则01-02对应的第一关联传感器的集合为S1001={03-01、05-04};
若第01类的传感器包含的传感器编号为01-02、01-01及01-03,则01-02对应的第二关联传感器的集合为A101={01-01、01-03}。
S2.2、获取该传感器数据对应的第一关联传感器数据集合及第二关联传感器数据集合;
S2.3、计算历史数据中相对于时间t1的前第二单位时间t2内,集合S1c1中第n个元素对应的传感器与编号为a1-b1的传感器在相同时间分别对应传感器数据的比值的集合,记为比值集合D1c1n;
本实施例中若某传感器数据对应的传感器的编号为01-02,t1等于第3秒,t2等于2秒,t0等于1秒,
则历史数据中相对于第3秒的前2秒内,集合S1001中第1个元素对应的传感器(编号为03-01的传感器)与编号为01-02的传感器在相同时间分别对应传感器数据的比值的集合中包含两个元素:
分别为编号为03-01的传感器与编号为01-02的传感器在第1秒时分别对应传感器数据的比值,及编号为03-01的传感器与编号为01-02的传感器在第2秒时分别对应传感器数据的比值;
则历史数据中相对于第3秒的前2秒内,集合S1001中第2个元素对应的传感器(编号为05-04的传感器)与编号为01-02的传感器在相同时间分别对应传感器数据的比值的集合中包含两个元素:
分别为编号为05-04的传感器与编号为01-02的传感器在第1秒时分别对应传感器数据的比值,及编号为05-04的传感器与编号为01-02的传感器在第2秒时分别对应传感器数据的比值。
S2.4、计算历史数据中相对于时间t1的前第二单位时间t2内,集合A1c1中第n个元素对应的传感器与编号为a1-b1的传感器在相同时间分别对应传感器数据的比值的集合,记为比值集合E1c1n;
S2.5、根据获取的n为不同值时,比值集合D1c1n及比值集合E1c1n中的各个元素对应的比值及该比值相应的时间T,先对得到的各个比值进行归一化处理,得到归一化处理后的各个处理结果与相应的T在平面直角坐标系中构成的坐标点,
所述T等于t1与该比值对应时间的差值,所述坐标点中横坐标为T,纵坐标为T对应的归一化处理后的处理结果;
S2.6、根据S2.5中得到的各个坐标点进行线性拟合处理,分别得到第一拟合曲线、第二拟合曲线及第三拟合曲线;
S2.7、计算T为0时,第一拟合曲线、第二拟合曲线及第三拟合曲线分别对应的值Q1、Q2、Q3,并根据Q1、Q2、Q3判断该传感器数据是否异常;
对得到的各个比值进行归一化处理的方法包括以下步骤:
S2.5.1、获取各个比值对应的传感器的种类;
S2.5.2、查询数据库,获取各个比值对应的传感器种类在数据库中相应的归一系数,比值中对应的两个传感器相应的种类相同时,对应的归一系数为1;
S2.5.3、将每个比值除以该比值对应的归一系数,分别得到各个比值对应的归一化处理后的处理结果。
本发明数据关联量筛选模块在对传感器数据进行初步筛选时,获取该传感器数据对应的第一关联传感器数据集合及第二关联传感器数据集合,是为了得到第一拟合曲线、第二拟合曲线及第三拟合曲线,进而通过相应的拟合曲线,对该传感器数据进行异常判断;获取集合A1c1中第n个元素对应的传感器与编号为a1-b1的传感器在相同时间分别对应传感器数据的比值的集合,是因为考虑到在同一设备上,相同时间对应的传感器的工作环境条件是相同的,进而同一设备上某两个传感器数据的比值是相对稳定的,即使工作环境发生变化,其两者对应的数值也是同时相对发生变化的,两者均会受到影响,进而采用该方式对传感器数据进行分析时相对较精确的;获取集合A1c1中第n个元素对应的传感器与编号为a1-b1的传感器在相同时间分别对应传感器数据的比值的集合,是因为同一种类的传感器监测数据是在一定程度上的,时间发生变化,则传感器对应的大环境也在发生变化,通过同类传感器数据的变化情况能够反应出该传感器数据的一个总体变化趋势,对判断该传感器数据的异常情况是有借鉴意义的;对得到的各个比值进行归一化处理,是因为由于同一设备上的各个传感器分别对应的传感器种类可能不同,而不同种类的传感器对数据的监测范围可能存在较大的差异,器对应的比值之间可能相差甚大,这对后续线性拟合会造成麻烦,使得坐标点相对分散,拟合的结果出现加大的偏差,因此采用该方式进行处理,是为了使得到的坐标点有效的集中起来,便于精准获取线性拟合结果;得到第一拟合曲线、第二拟合曲线及第三拟合曲线,是为了根据不同的参考数据获取不同的线性拟合结果,每个线性拟合结果均是具有参考意义的,进而根据某一时间不同的线性拟合结果分别对应的值,得到该时间该传感器数据对应的理想波动范围;计算T为0时,第一拟合曲线、第二拟合曲线及第三拟合曲线分别对应的值Q1、Q2、Q3,是因为T等于t1与该比值对应时间的差值,当T等于0时,即表示当前时间相应的线性拟合曲线中该传感器对应的理想值,进而根据理想值与该传感器数据之间的差异情况,判断出该传感器数据的异常情况。
所述分别得到第一拟合曲线、第二拟合曲线及第三拟合曲线的方法包括以下步骤:
S2.6.1、在S2.5中的平面直角坐标系中分别用颜色p1标出比值集合D1c1n中各个元素对应的坐标点、用颜色p2标出比值集合E1c1n中的各个元素对应的坐标点;
S2.6.2、参照数据库中线性拟合方程模型,
对平面直角坐标系中颜色p1对应的坐标点进行线性拟合,得到第一拟合曲线,
对平面直角坐标系中颜色p2对应的坐标点进行线性拟合,得到第二拟合曲线,
对平面直角坐标系中颜色p1及颜色p2对应的坐标点进行线性拟合,得到第三拟合曲线,
进行线性拟合时,分别采用数据库中不同的线性拟合方程模型对相应颜色标出的坐标点进行拟合,并分别计算出相应颜色标出的各个坐标点到每个拟合结果的距离之和,选取最小距离和对应的拟合结果为相应的拟合曲线。
本发明在进行线性拟合的过程中,将比值集合D1c1n中各个元素对应的坐标点与比值集合E1c1n中的各个元素对应的坐标点用不同的颜色进行标记,是为了对相应的坐标点进行分析,避免在进行线性拟合时,将线性拟合对应的坐标点弄混,进而使得线性拟合结果出现偏差;采用数据库中不同的线性拟合方程模型对相应颜色标出的坐标点进行拟合,是为了实现线性拟合方程模型的多样化,进而使得线性拟合结果更加贴合实际情况;计算出相应颜色标出的各个坐标点到每个拟合结果的距离之和,是为了实现对线性拟合方程模型的匹配筛选。
所述根据Q1、Q2、Q3判断该传感器数据是否异常的方法包括以下步骤:
S2.7.1、获取Q1、Q2及Q3中的最小值{Q1,Q2,Q3}min及最大值{Q1,Q2,Q3}max;
S2.7.2、得到该传感器数据对应的理想波动范围,记为[{Q1,Q2,Q3}min,{Q1,Q2,Q3}max],[{Q1,Q2,Q3}min,{Q1,Q2,Q3}max]表示大于等于{Q1,Q2,Q3}min且小于等于{Q1,Q2,Q3}max的区间;
S2.7.3、计算该传感器数据对应的理想波动范围的区间长度L,并将L乘上该传感器数据对应传感器编号的异常调节系数e,得到该传感器数据的异常判定区间的区间长度,所述不同编号的传感器对应的异常调节系数不同,所述e通过数据库查询获得,
所述L={Q1,Q2,Q3}max-{Q1,Q2,Q3}min,
S2.7.4、得到该传感器数据的异常判定区间[R1,R2],所述[R1,R2]表示大于等于R1且小于等于R2的区间,
S2.7.5、将1与该传感器数据的异常判定区间[R1,R2]进行比较,
当1在[R1,R2]内时,判定该传感器数据为正常传感器数据,
当1不在[R1,R2]内时,判定该传感器数据为异常传感器数据。
本实施例中若某传感器数据对应的传感器的编号为01-02,Q1等于1.1,Q2等于0.9,Q3等于1.2,该传感器数据对应传感器编号的异常调节系数e=1.4;
则{1.1,0.9,1.2}min=0.9,{1.1,0.9,1.2}max=1.2,
该传感器数据对应的理想波动范围为[0.9,1.2],
理想波动范围的区间长度L=1.2-0.9=0.3;
即该传感器数据的异常判定区间[R1,R2]等于[0.84,1.26]。
本发明Q1、Q2及Q3均为线性拟合中该传感器数据对应的理想数值,因此,通过最小值{Q1,Q2,Q3}min及最大值{Q1,Q2,Q3}max,能够得到该传感器数据对应的理想波动范围;而实际情况中,数据对应的实际情况与理想情况可能是会存在偏差的,这个需要结合对偏差的容忍情况(异常调节系数),不同的传感器对应的对偏差的容忍情况是不同的,因此通过异常调节系数调节后的异常判定区间[R1,R2]才是该传感器数据能够被接受的范围;获取R1、R2时,计算
是为了确保得到的异常判定区间[R1,R2]完全覆盖对应的理想波动范围,且异常判定区间[R1,R2]与理想波动范围的中心点对应的值相同;将1与该传感器数据的异常判定区间[R1,R2]进行比较,是因为[R1,R2]是通过其他传感器与该传感器数据对应的传感器的相应时间的数据的比值获取的,且比值中对应的两个传感器相应的种类相同时,对应的归一系数为1,因此,在与该传感器数据的异常判定区间[R1,R2]进行比较时,不能直接选取该传感器数据,而是该传感器数据与该传感器数据的比值,即1。
所述数据自变量筛选模块对初步筛选出的异常传感器数据进行二次筛选的方法包括以下步骤:
S4.1、获取初步筛选出的每个异常传感器数据对应传感器编号;
S4.2、获取计算历史数据中相对于时间t1的前第二单位时间t2内,每个异常传感器数据对应传感器中相邻两个数据比值的集合,记为集合F1,所述相邻两个数据比值等于后一个传感器数据与前一个传感器数据的商;
S4.3、根据集合F1中的各个元素对应的比值及该比值相应的时间T1,得到该比值与相应的T1在平面直角坐标系中构成的坐标点;
S4.4、根据S2.5中得到的各个坐标点进行线性拟合处理,得到第四拟合曲线;
S4.5、计算T1为0时,第四拟合曲线对应的值Q4,计算Q4与1之间的偏差值W,所述W等于Q4-1的绝对值;
S4.6、将偏差值W与第一预设值g进行比较,
当偏差值W大于等于第一预设值g时,判定初步筛选中的该异常数据二次异常,
当偏差值W小于第一预设值g时,判定初步筛选中的该异常数据假异常,不对其进行处理;
S4.7、将二次异常的传感器数据逐个录入到一个空白集合中,得到二次异常传感器数据集合。
本发明数据自变量筛选模块主要是采用线性拟合的方式判断该传感器数据对应的传感器在不同时间自身数据的变化情况。
所述异常数据校准模块包括关联量校准模块及自变量校准模块,
所述关联量校准模块根据二次异常传感器数据集合中的各个异常数据对应的关联量的历史数据,对二次异常传感器数据集合中的各个异常数据进行校准,将异常数据对应的校准量记为关联量校准量;
所述自变量校准模块根据二次异常传感器数据集合中的各个异常数据对应传感器相应的历史数据,对二次异常传感器数据集合中的各个异常数据进行校准,将异常数据对应的校准量记为自变量校准量。
所述关联量校准模块得到关联量校准量的方法包括以下步骤:
S5.1、获取二次异常传感器数据集合中的各个异常数据分别对应的异常判定区间,将二次异常传感器数据集合中的第n个异常数据对应的异常判定区间记为[R1n,R2n];
S5.2、获取1分别与R1n、R2n的差的绝对值;
S5.3、获取S5.2中所得的两个绝对值的最小值,将所得最小值记为|[R1n,R2n]|min,将该最小值对应的差值记为[R1n,R2n]min,将二次异常传感器数据集合中的第n个异常数据与[R1n,R2n]min相乘,所得乘积为二次异常传感器数据集合中第n个异常数据对应的关联量校准量Hn;
本实施例中若某传感器数据对应的传感器的编号为01-03,该传感器数据的异常判定区间等于[0.8,0.98],该传感器数据等于30,
由于1-0.8=0.2,1-0.98=0.02,且0.22的绝对值小于0.2的绝对值,
因此,该传感器数据对应的关联量校准值等于0.02*30=0.6;
若某传感器数据对应的传感器的编号为01-04,该传感器数据的异常判定区间等于[1.05,1.26],该传感器数据等于20,
由于1-1.05=-0.05,1-1.26=-0.26,且-0.05的绝对值小于-0.26的绝对值,
因此,该传感器数据对应的关联量校准值等于-0.05*20=-1。
所述自变量校准模块得到自变量校准量的方法包括以下步骤:
S6.1、获取二次异常传感器数据集合中第n个异常数据对应的偏差值,记为Wn;
S6.2、计算Wn与第一预设值g的差值,记为Wn-g;
S6.3、将二次异常传感器数据集合中的第n个异常数据与Wn-g相乘,
当Wn对应的Q4-1大于0时,所得乘积为二次异常传感器数据集合中第n个异常数据对应的自变量校准量H1n;
当Wn对应的Q4-1小于0时,所得乘积的相反数为二次异常传感器数据集合中第n个异常数据对应的自变量校准量H1n。
本发明异常数据校准模块在获取该传感器数据的关联量校准量及自变量校准量时,结合对该传感器数据异常判断过程中得到的中间量,进而得到相应部分对应的校准值,两个校准量是从两个角度进行分析获取的,在一定程度上在具有参考作用的同时,也具有相应的片面性,因此在获取最终校准量的过程中,需要对两者进行综合考虑,即采用加权的方式,得到最终的校准量。
所述异常数据校准模块得到最终校准量的过程中,
二次异常传感器数据集合中第n个异常数据对应的最终校准量等于Hn*k+H1n*k1,
其中,k表示第一校准系数,k1表示第二校准系数;
本发明的校准方式为将该传感器数据对应的传感器在后续获取的数据减小Hn*k+H1n*k1。
一种基于大数据的信息管理方法,所述方法包括以下步骤:
S1、通过数据获取模块获取各个传感器传递的传感器数据;
S2、通过数据关联量筛选模块获取每个传感器数据对应的数据关联量,并通过数据关联量分别对应的数值对该传感器数据的准确性进行判断,初步筛选出获取的异常传感器数据;
S3、通过数据自变量筛选模块获取数据关联量筛选模块初步筛选出的异常传感器数据,根据每个异常传感器数据对应的传感器的历史数据变化情况,对初步筛选出的异常传感器数据进行二次筛选,进一步确认出异常传感器数据,得到二次异常传感器数据集合;
S4、在异常数据校准模块中,根据历史数据对二次异常传感器数据集合中的各个异常数据进行校准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。