发明内容
为解决上述技术问题,提供一种用于信息系统数据融合的数据处理方法,本技术方案解决了上述背景技术中提出的由于多个传感器收集数据的侧重性不同,在各自业务系统中对相同“主数据”的数据项定义和数据内容存在不同,同义不同名和同名不同码等情况比较普遍,给数据融合汇聚带来困难,容易将不同类的数据汇总融合的问题。
为达到以上目的,本发明采用的技术方案为:
一种用于信息系统数据融合的数据处理方法,包括:
在信息系统中建立数据类型判定模型,传感器收集信息系统中待融合的至少一个数据组,对待融合的数据组进行特征提取,对提取的特征进行识别,进行数据组类别判断,对于类别判断的数据组进行格式统一处理,在中心节点进行数据集成融合。
优选的,所述建立数据类型判定模型包括以下步骤:
从信息系统中获取至少一个样本数据组,设置至少一个分类,同类型的样本数据组归属于同一分类;
对每组数据进行特征提取,得到每组数据的集中趋势和每组数据的离散程度;
对于同一分类下的样本数据组,计算其互相之间的集中趋势比值和离散程度比值,得到至少一个集中趋势比值和离散程度比值,至少一个集中趋势比值和离散程度比值归属于同一分类;
取归属于同一分类下的集中趋势比值的最大值和最小值,组合形成该分类的集中趋势比值的范围区间;
取归属于同一分类下的离散程度比值的最大值和最小值,组合形成该分类的离散程度比值的范围区间;
将每个分类与其对应的集中趋势比值的范围区间和离散程度比值的范围区间配对为分类判别组;
所有分类对应的分类判别组汇总形成数据类型判定模型。
优选的,所述对待融合的数据组进行特征提取包括以下步骤:
计算待融合的数据组中的数据的平均值,根据方差公式计算待融合的数据组中数据的方差;
设置所述方差为待融合的每组数据的集中趋势,为集中趋势赋予趋势识别码;
将待融合的数据组中的每个数据均与待融合的数据组中其余的数据配对,得到至少一个配对组;
计算待融合的数据组的每个配对组中的两个数据的差的绝对值,累加所有配对组中的两个数据的差的绝对值,得到离散值;
设置所述离散值为待融合的每组数据的离散程度,为离散程度赋予离散识别码;
方差公式如下:
其中,D为方差,n为数据组中数据的个数,xi为数据的值,a为数据组中数据的平均值。
优选的,所述对提取的特征进行识别包括以下步骤:
获取每组数据的集中趋势和离散程度,将集中趋势和离散程度统一转化为二进制表示;
根据集中趋势的趋势识别码识别趋势识别码对应的数据为集中趋势;
根据离散程度的离散识别码识别离散识别码对应的数据为离散程度。
优选的,所述数据组类别判断包括以下步骤:
从数据类型判定模型中调用分类判别组一,获取分类判别组一中的集中趋势比值的范围区间和离散程度比值的范围区间;
计算识别出的待融合的数据组的集中趋势与样本数据组的集中趋势均值的比值一;
计算识别出的待融合的数据组的离散程度与样本数据组的离散程度均值的比值二;
比较比值一是否属于集中趋势比值的范围区间;
比较比值二是否属于离散程度比值的范围区间;
若比值一属于集中趋势比值的范围区间且比值二属于离散程度比值的范围区间,则调用分类判别组一中的分类,设置所述分类为第一分类,将数据组归属于所述第一分类中;
若比值一不属于集中趋势比值的范围区间或比值二不属于离散程度比值的范围区间,则调用数据类型判定模型中剩余的分类判别组;
在剩余的分类判别组中找到分类判别组二,所述分类判别组二满足于数据组的比值一属于分类判别组二的集中趋势比值的范围区间且数据组的比值二属于分类判别组二的离散程度比值的范围区间,调用分类判别组二中的分类,设置所述分类为第二分类,将数据组归属于所述第二分类中。
优选的,所述对于类别判断的数据组进行格式统一处理包括以下步骤:
获取待融合的数据组中的数据,获取数据组归属的第三分类,获取所述第三分类下的数据组的数据类型;
按照第三分类下的数据组的数据类型,转换数据组中的数据为同一数据类型。
优选的,所述在中心节点进行数据集成融合包括以下步骤:
在中心节点生成数据融合表单,融合表单中设置至少一个数据存储节点;
获取待融合的数据组归属的第三分类,获取所述第三分类下的全体数据组;
从第三分类下的全体数据组中选取目标数据组,计算目标数据组的集中趋势与样本数据组的集中趋势均值的比值三;
计算目标数据组的离散程度与样本数据组的离散程度均值的比值四;
计算待融合的数据组的比值一与目标数据组比值三的差的绝对值一;
计算待融合的数据组的比值二与目标数据组比值四的差的绝对值二;
叠加绝对值一和绝对值二得到判断和,将判断和与目标数据组配对;
目标数据组遍历第三分类下的全体数据组,得到至少一个判断和;
选取最小的判断和,将与最小的判断和对应的目标数据组一与待融合的数据组关联;
按第三分类下的全体数据组原有的顺序存储至融合表单中的数据存储节点中,在目标数据组一的相邻位置的数据存储节点存储待融合的数据组。
与现有技术相比,本发明的有益效果在于:
通过设置数据类型判定模型,对待融合的数据组进行特征提取,对提取的特征进行识别,根据数据类型判定模型进行数据组类别判断,能统一数据的格式,将数据智能识别归类,将数据汇总融合至对应分类的数据中,解决了数据融合存在的同义不同名和同名不同码等情况,给数据融合汇聚带来方便,且其归类误差小,不会将不同类的数据汇总融合,能保证融合的信息的可用性。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。
参照图1-4所示,一种用于信息系统数据融合的数据处理方法,包括:
在信息系统中建立数据类型判定模型,传感器收集信息系统中待融合的至少一个数据组,对待融合的数据组进行特征提取,对提取的特征进行识别,进行数据组类别判断,对于类别判断的数据组进行格式统一处理,在中心节点进行数据集成融合。
建立数据类型判定模型包括以下步骤:
从信息系统中获取至少一个样本数据组,设置至少一个分类,同类型的样本数据组归属于同一分类;
对每组数据进行特征提取,得到每组数据的集中趋势和每组数据的离散程度;
对于同一分类下的样本数据组,计算其互相之间的集中趋势比值和离散程度比值,得到至少一个集中趋势比值和离散程度比值,至少一个集中趋势比值和离散程度比值归属于同一分类;
计算其互相之间的集中趋势比值和离散程度比值具体如下:
取同一分类下的样本数据组一,计算样本数据组一的集中趋势与其余样本数据组的集中趋势比值,计算样本数据组一的离散程度与其余样本数据组的离散程度比值;
取同一分类下的样本数据组二,计算样本数据组二的集中趋势与其余样本数据组的集中趋势比值,计算样本数据组二的离散程度与其余样本数据组的离散程度比值;
取同一分类下的样本数据组三,计算样本数据组三的集中趋势与其余样本数据组的集中趋势比值,计算样本数据组三的离散程度与其余样本数据组的离散程度比值;
继续计算同一分类下的剩余样本数据组,分别计算剩余样本数据组与其余样本数据组的集中趋势比值和离散程度比值;
汇总所有的集中趋势比值和离散程度比值,得到至少一个集中趋势比值和离散程度比值;
取归属于同一分类下的集中趋势比值的最大值和最小值,组合形成该分类的集中趋势比值的范围区间,最大值作为集中趋势比值的范围区间的右端点,最小值作为集中趋势比值的范围区间的左端点;
取归属于同一分类下的离散程度比值的最大值和最小值,组合形成该分类的离散程度比值的范围区间,最大值作为离散程度比值的范围区间的右端点,最小值作为离散程度比值的范围区间的左端点;
将每个分类与其对应的集中趋势比值的范围区间和离散程度比值的范围区间配对为分类判别组;
所有分类对应的分类判别组汇总形成数据类型判定模型。
对待融合的数据组进行特征提取包括以下步骤:
计算待融合的数据组中的数据的平均值,根据方差公式计算待融合的数据组中数据的方差;
设置所述方差为待融合的每组数据的集中趋势,为集中趋势赋予趋势识别码;
将待融合的数据组中的每个数据均与待融合的数据组中其余的数据配对,得到至少一个配对组;
计算待融合的数据组的每个配对组中的两个数据的差的绝对值,累加所有配对组中的两个数据的差的绝对值,得到离散值;
设置所述离散值为待融合的每组数据的离散程度,为离散程度赋予离散识别码;
方差公式如下:
其中,D为方差,n为数据组中数据的个数,xi为数据的值,a为数据组中数据的平均值;
采用方差作为待融合的每组数据的集中趋势,方差越大,则集中趋势越大,方差越小,则集中趋势越小;
采用离散值作为待融合的每组数据的离散程度,离散值越大,则离散程度越大,离散值越小,则离散程度越小。
对提取的特征进行识别包括以下步骤:
获取每组数据的集中趋势和离散程度,将集中趋势和离散程度统一转化为二进制表示;
根据集中趋势的趋势识别码识别趋势识别码对应的数据为集中趋势;
根据离散程度的离散识别码识别离散识别码对应的数据为离散程度。
数据组类别判断包括以下步骤:
从数据类型判定模型中调用分类判别组一,获取分类判别组一中的集中趋势比值的范围区间和离散程度比值的范围区间;
计算识别出的待融合的数据组的集中趋势与样本数据组的集中趋势均值的比值一;
计算识别出的待融合的数据组的离散程度与样本数据组的离散程度均值的比值二;
比较比值一是否属于集中趋势比值的范围区间;
比较比值二是否属于离散程度比值的范围区间;
若比值一属于集中趋势比值的范围区间且比值二属于离散程度比值的范围区间,则调用分类判别组一中的分类,设置所述分类为第一分类,将数据组归属于所述第一分类中;
若比值一不属于集中趋势比值的范围区间或比值二不属于离散程度比值的范围区间,则调用数据类型判定模型中剩余的分类判别组;
在剩余的分类判别组中找到分类判别组二,所述分类判别组二满足于数据组的比值一属于分类判别组二的集中趋势比值的范围区间且数据组的比值二属于分类判别组二的离散程度比值的范围区间,调用分类判别组二中的分类,设置所述分类为第二分类,将数据组归属于所述第二分类中;
其判断依据是样本数据组所涵盖的分类包括了所有分类,融合的数据组必然归属于其中一个分类,当待融合的数据组归属于其中一个分类时,则待融合的数据组的集中趋势与样本数据组的集中趋势均值的比值一必然属于给分类的集中趋势比值的范围区间,且融合的数据组的离散程度与样本数据组的离散程度均值的比值二必然属于给分类的离散程度比值的范围区间,因此,可以由此,对数据组的类型进行判断。
对于类别判断的数据组进行格式统一处理包括以下步骤:
获取待融合的数据组中的数据,获取数据组归属的第三分类,获取所述第三分类下的数据组的数据类型;
按照第三分类下的数据组的数据类型,转换数据组中的数据为同一数据类型。
在中心节点进行数据集成融合包括以下步骤:
在中心节点生成数据融合表单,融合表单中设置至少一个数据存储节点;
获取待融合的数据组归属的第三分类,获取所述第三分类下的全体数据组;
从第三分类下的全体数据组中选取目标数据组,计算目标数据组的集中趋势与样本数据组的集中趋势均值的比值三;
计算目标数据组的离散程度与样本数据组的离散程度均值的比值四;
计算待融合的数据组的比值一与目标数据组比值三的差的绝对值一;
计算待融合的数据组的比值二与目标数据组比值四的差的绝对值二;
叠加绝对值一和绝对值二得到判断和,将判断和与目标数据组配对;
目标数据组遍历第三分类下的全体数据组,得到至少一个判断和;
选取最小的判断和,将与最小的判断和对应的目标数据组一与待融合的数据组关联;
按第三分类下的全体数据组原有的顺序存储至融合表单中的数据存储节点中,在目标数据组一的相邻位置的数据存储节点存储待融合的数据组;
在融合时,原有的数据位置保持不变,但待融合的数据组的位置未确定,因此,计算并选取最小的判断和,将与最小的判断和对应的目标数据组一与待融合的数据组关联,因为,二者必然是关联性最强的数据,因此,融合时,二者相邻设置,由于目标数据组一的位置确定,因此,待融合的数据组的融合位置得以确定。
综上所述,本发明的优点在于:通过设置数据类型判定模型,对待融合的数据组进行特征提取,对提取的特征进行识别,根据数据类型判定模型进行数据组类别判断,能统一数据的格式,将数据智能识别归类,将数据汇总融合至对应分类的数据中,解决了数据融合存在的同义不同名和同名不同码等情况,给数据融合汇聚带来方便,且其归类误差小,不会将不同类的数据汇总融合,能保证融合的信息的可用性。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。