数据关联性分析方法及系统、可读存储介质
技术领域
本发明涉及数据统计及分析应用技术领域,具体涉及一种数据关联性分析方法及系统和一种可读存储介质。
背景技术
政务资源信息系统及共享平台包含的业务子系统众多,其涉及到的业务字段更多,且不同的业务字段分散在各自不同子系统的不同数据表中。难以确定不同平台或不同系统中的数据之间是否有关联,而且分辨及快速掌握哪些数据是关键业务数据也较为困难。操作人员不能确定各业务系统数据在整体系统中的重要程度如何,为各业务系统信息整合、相互间信息交换与共享及信息资源合理布局等工作的有效进行增添了障碍或降低了效率。
发明内容
本发明实施例旨在提供一种数据分析方法和系统、一种可读存储介质,以解决现有技术中难以对多系统中的多种数据进行关联性判断,整合数据难度大和效率低的技术问题。
本发明提供一种数据关联性分析方法,包括如下步骤:
获取待分析数据对象,所述待分析数据对象来自于不同的业务且对应于同一时间段,每一所述待分析数据对象具有特定的字段点;
根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果;
根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数绝对值;
根据所述社会网络关系矩阵绘制出不同业务之间的强相关业务的社会网络结构图,计算及排名出选到的各业务各字段点在所述社会网络结构中的中心度和中心势;
根据所述中心度对所述社会网络结构中的业务进行重要度排名;根据所述中心势确定所述社会网络结构中各业务的总体整合度。
可选地,上述的数据关联性分析方法中,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是连续型数据时选择对应的Pearson相关系数计算模型,所述Pearson相关系数计算模型为:
其中,σX和σY分别表示X,Y两个变量的标准差;Cov(X,Y)表示X,Y两个变量的协方差,且X,Y两个变量的标准差均不等于零。
可选地,上述的数据关联性分析方法中,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是分类有序型数据时选择对应的Spearman相关系数计算模型,所述Spearman相关系数计算模型为:
其中,m为等级个数;d为二列成对变量的等级差数。
可选地,上述的数据关联性分析方法中,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是分类无序型数据时选择对应的相关系数Kendall计算模型,所述Kendall计算模型为:
其中,n表示同类统计对象的个数;number of concordant pairs表示同序对的数量,number of discordant pairs表示异序对的数量。
可选地,上述的数据关联性分析方法中,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,其中包含如下步骤:
根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的初始相关系数;
选择适当的回归预测模型对所述初始相关系数做回归拟合,通过检验及基于计算的预测误差做筛选,以得到所述相关系数和所述相关性计算结果。
可选地,上述的数据关联性分析方法中,选择适当的回归预测模型对所述初始相关系数做回归拟合,通过检验及基于计算的预测误差做筛选,以得到所述相关系数和所述相关性计算结果的步骤中:
所述回归预测模型包括曲线估计模型和机器学习模型,所述曲线估计模型包括一次函数关系、非线性三次函数关系和对数函数关系,所述机器学习模型包括随机森林回归、支持向量机回归及神经网络回归。
可选地,上述的数据关联性分析方法中,根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数的步骤中:
若两个字段点之间的相关系数大于设定阈值,则判定两个字段点两两强显性相关,两个字段点对应的待分析数据对象为两两强显性相关。
本发明还提供一种数据关联性分析系统,包括至少一个处理器和至少一个存储器,至少一个所述存储器中存储有程序指令,至少一个所述处理器读取所述程序指令后执行以上任一项所述的数据关联性分析方法。
本发明还提供一种可读存储介质,所述存储介质中存储有程序指令,计算机读取所述程序指令后执行以上任一项所述的数据关联性分析方法。
与现有技术相比,本发明实施例提供的上述技术方案至少具有以下有益效果:本发明实施例提供的数据关联性分析方法及系统、可读存储介质,其方法中,将社会网络分析引入业务管理信息系统的众多数据资源的分析中,将各业务系统中不同业务的数据对象的字段点作为节点将其组成复杂的整体网来看待,社会实体为不同系统大节点、其涉及的众多的业务数据指标及其指标涉及到的各个参数为小节点,来分析各系统各业务指标各业务字段之间的关系。本发明有助于推动信息资源的精简及整合,明了不同平台或系统间业务数据的联动性,发现业务关系及问题并指导及改善相关工作,实现平台或系统间的跨业务应用及信息资源的跨平台或系统共享。
附图说明
图1为本发明一个实施例所述数据关联性分析方法的流程图;
图2为本发明一个实施例所述待分析数据对象相关分析汇总表;
图3为本发明一个实施例所述实际工作场景分析得到的社会网络结构图的一种表现形式;
图4为本发明一个实施例所述实际工作场景分析得到的社会网络结构图的另一种表现形式。
具体实施方式
下面将结合附图进一步说明本发明实施例。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明的简化描述,而不是指示或暗示所指的装置或组件必需具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。其中,术语“第一位置”和“第二位置”为两个不同的位置。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个组件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明以下实施例中涉及到的技术名词及其含义主要包括:
(1)相关性,是指两个变量的关联程度。一般地,从散点图上可以观察到两个变量有以下三种关系之一:两变量正相关、负相关或不相关。简单来说,如果两个变量的值同时高或者同时低,那么这两个变量正相关。如果一个变量的高值对应于另一个变量的低值,且该变量的低值对应于另一个变量的高值,那么这两个变量负相关。如果两个变量间没有关系,即一个变量的变化对另一变量没有明显影响,那么这两个变量不相关。相关系数是反应变量之间关系密切程度的统计指标,相关系数的取值区间在1到-1之间。1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量不相关。数据越趋近于0表示相关关系越弱。简单相关系数:又叫相关系数或线性相关系数,一般用字母r表示,用来度量两个变量X和Y间的线性关系。
其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。
其中rxy表示样本相关系数,Sxy表示样本协方差,Sx表示X的样本标准差,Sy表示y的样本标准差。下面分别是Sxy协方差和Sx和Sy标准差的计算公式。由于是样本协方差和样本标准差,因此分母使用的是n-1。
(2)信息资源管理,是现代信息技术特别是以计算机和现代通信技术为核心的信息技术的应用所催生的一种新型信息管理理论,有狭义定义和广义定义之分。狭义的信息资源管理是指对信息本身即信息内容实施管理的过程。广义的信息资源管理是指对信息内容及与信息内容相关的资源如设备、设施、技术、投资、信息人员等进行管理的过程。
(3)信息整合,是依据信息化发展趋势,在一定组织的领导下,实现对信息资源序列化、共享化、调化,进而实现信息资源配置最优化、拓宽信息资源应用领域和最大化挖掘信息价值的管理过程。信息整合共享与利用是实现信息资源有效管理的重要途径。
(4)共享数据,对应用信息系统而言,常常要考虑其“功能”,从本质上来说,一个应用信息系统完成的其实并不是什么“功能”,而是接收数据输入进行处理,并产生相应的输出或是改变系统自身的状态。假如存在两个(或是两个以上)的处理过程具有相同的数据输入,那么我们称这两个(或是两个以上)处理过程具有“共享数据”。共享数据的集合就是那些相同的输入数据。
(5)社会网络,是社会行动者及其之间关系的集合。如果将社会行动者看成节点,那么社会网络即是这些节点及其之间连线组成的集合。社会行动者可以是任何一个个人或社会实体,行动者信息可以静态也可以是动态。从方法论的角度上讲,行动者之间的关系是社会网络分析最重要的内容。可以通过构建个体网络模型,或整体网络模型,从不同的关系角度研究社会现象和社会结构,可以包含政治、经济、文化等各个方面。社会网络根据网络行动者的类别可分类为人际关系网,城市网,国家网等。进一步根据行动者关系的内涵,可将其分类为贸易网,营销同盟网,情感关系网等。
(6)社会网络分析,提供一系列的方法,包括个体网,局域网及整体网模型的研究,通过不同网络统计量的分析,揭示网络的整体结构,以及隐藏于其中的其他网络属性。社会网络分析,首先确定网络结构,并确定各网络节点的位置和意义。网络结构是由各个网络节点及其关系构成的复杂结构,一般包括以下几个构成要素:
①节点:社会网络分析中的节点具有层次性,从个体到群体。节点通常具有自然属性和社会属性,根据携带信息量,说服能力和联系能力这几个要素,可以把在知识共享过程的社会网络节点划分为信息专家、联系人和信息推送人。
②关系:社会网络中的节点具有不同属性和特点,根据这些属性特点可以把这些节点联系起来组成网络。因此,关系是社会网络分析研究的重点。关系在本质上都具有内容、方向、强度和主被动关系等特点。
③网络大小:社会网络的大小,用来描述网络的节点数量。网络规模的大小由网络节点的数量决定。
④网络密度:指网络中节点的实际连接数量与这些节点的理论上最大可能连接数的比率。社会网络密度反映一个网络的紧密程度,密度越大,说明这个网络越紧密,这个网络中的多联系节点越多,孤立节点越少,反之则说明网络越松。在人与人组成的网络中就表明人与人之间的关系越淡薄。相关研究表明,网络密度过高或过低都不利于社会网络进行知识共享。
⑤网络强度:网络强度反映的是网络中节点之间联系频度和关系强弱程度。社会网络的强度越强,说明组成这个网络的节点之间联系越多,关系越稳定,因此这个网络更紧凑也更稳定。
⑥中心性:Bavelas在上世纪40年代末期最先提出了中心性这个概念,后来的学者Leavitt和Freeman等都对中心性理论发展做出了很大贡献。目前对网络的分析可以从个体中心网和社会中心网的角度出发,中心性也被分为点中心性和网络中心性。在图论(GraphTheory)与网络分析(Network Analysis)中,中心性(Centrality)是判定网络中节点重要性的指标,是节点重要性的量化。
实施例1
本实施例提供一种数据关联性分析方法,如图1所示,包括如下步骤:
S1:获取待分析数据对象,所述待分析数据对象来自于不同的业务且对应于同一时间段,每一所述待分析数据对象具有特定的字段点;本步骤中,从数据中心获取到各自系统指定的某段期间或自所有系统上线以来的所有需要分析的业务数据作为待分析对象,所选择的数据位于同一时间段内。
S2:根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同所述字段点的统计值两两之间的相关系数得到相关性计算结果;以同企业关联的各业务系统涉及到的指标数据为例,以分散的多系统业务数据为基础,基于企业ID和企业名称把各系统的数据关联起来,得到所有企业的各系统相关业务字段值及经过加工转换的业务数据指标值,计算来自不同系统指定期间的关联到的企业业务数据之间的相关系数,按照数据的计量层次,可以将统计数据分为定类数据、定序数据、定距数据与定比数据。其中有些变量比如行业分类、设备类别等的数据含有字母字符,需要把他们分别转化为数字类别分类再进行定类数据相关性的分析。根据不同数据类型的业务数据选取不同的相关系数计算方法。不同类型的变量之间相关系数计算模型选择可参见表1所示。
表1-不同类型的变量之间相关系数计算模型选择
数据类型 |
连续型 |
分类(有序)型 |
分类(无序)型 |
计量层次分类变量类型 |
定距变量/定比变量 |
定序变量 |
定类变量 |
定距变量/定比变量 |
Pearson |
Spearman |
Kendall |
定序变量 |
|
Spearman |
Kendall |
定类变量 |
|
|
Kendall |
(1)参见表1,所述待分析数据对象的字段点的特性字段变量有连续型数据时选择对应的Pearson相关系数计算模型,所述Pearson相关系数计算模型为:
其中,σX和σY分别表示X,Y两个变量的标准差;Cov(X,Y)表示X,Y两个变量的协方差,且X,Y两个变量的标准差均不等于零。
以同企业关联的各业务系统涉及到的指标数据为例,以分散的多系统业务数据为基础,基于企业ID和企业名称把各系统的数据关联起来,得到所有企业的各系统相关业务字段值及经过加工转换的业务数据指标值,计算来自不同系统指定期间的关联到的这些业务值或指标值之间的相关系数确定是否显性强相关。针对不同的系统数据选择X值和Y值的确定方式,有的是直接取自对应业务表的字段值,有的是取自对应业务表有效数据中根据各企业ID汇总每家企业此业务的记录条数,有的是取自对应业务表有效数据根据各企业ID合计此业务各企业记录发生的总额。具体每个指标如何从所指定的表或字段中调出,可参考图2对应的相关点关系表中的“取值逻辑”列。
(2)所述待分析数据对象的字段点的特性字段变量有分类有序型数据时选择对应的Spearman相关系数计算模型,所述Spearman相关系数计算模型为:
其中,m为等级个数;d为二列成对变量的等级差数。
(3)所述待分析数据对象的字段点的特性字段变量有分类无序型数据时选择对应的相关系数Kendall计算模型,所述Kendall计算模型为:
其中,n表示同类统计对象的个数;number of concordant pairs表示同序对的数量,number of discordant pairs表示异序对的数量。
S3:根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数绝对值;根据计算结果,经过汇总、核实比较后选取两两强显性相关的不同系统业务指标或表字段。具体地,可参考表2,表2中所给出的参数值仅是示例性的,具体的矩阵中的行数、列数以及其所选择的变量是根据实际情况来选择的。
表2-社会网络关系矩阵
S4:根据所述社会网络关系矩阵绘制出不同业务之间的强相关业务的社会网络结构图,计算及排名出选到的各业务各字段点在所述社会网络结构中的中心度和中心势;根据各系统可选的强显性相关两两业务字段,构建基于相关性的各业务系统及指标的社会网络关系矩阵,其中各向量间的关系值为其相关系数绝对值。本步骤中,以社会网络关系矩阵为数据源,用相关SNA分析工具UCINET和NetDraw构建网络模型,绘制出各系统间强相关业务的社会网络结构图,计算及排名出选到的各系统各字段点在这个由各系统组成的整体网中的中心度和中心势。中心度与中心势是基于现有社会网络分析软件工具UCINET计算得出的;绘制的网络结构图是基于画图软件NetDraw绘出的。中心度算法及中心度算法分类有多种,UCINET软件自带算法设置的点度中心度为加权度。
当前主要的度量指标有点度中心性(Degree Centrality)、接近中心性/亲密中心性(Closeness Centrality)和中介中心性/中间中心性(Between Centrality)等。
在无向图(Undirected Graph)中,点度中心度测量网络中一个节点与所有其它节点的直接联系总数,记为CD(ni),本发明中为一个节点与所有其它直接相连的节点的显性相关系绝对值加总数。点度中心势即网络整体中心度,表明了网络整体的“紧凑度”,记为CD。其计算公式分别如下:
式中CD(n*)表示最大的节点中心度。
中间中心度:中间性(Betweenness),指标衡量了网络中各节点作为“桥梁”的能力,无向图标准化中间性公式:
式中:
gjk——节点i到节点j的捷径数;
gjk(ni)——节点j到达节点k的途径上有节点i的捷径数。
根据网络属性、权重和方向等,中心度算法可以分为基于有向网络的算法和基于无向图网络的算法、基于加权网络和基于无权网络的算法等。
S5:根据所述中心度对所述社会网络结构中的业务进行重要度排名;根据所述中心势确定所述社会网络结构中各业务的总体整合度。中心度是代表网络中个体节点地位的网络统计量。中心势是网络整体集中化程度的统计量。中心度(势)又分为度数中心度(势)、中间中心度(势)和接近中心度(势),分别代表了个体或网络整体的核心集权地位、中间人地位及独立性地位等网络特性。基于中心度(点度中心度、中间中心度、接近中心度)值对整体网中所有业务点进行排名,以了解各点在整体网中不同分析角度的重要程度如何;以及基于中心势分析整体网的一致性或总体整合度,中心势越高,说明中心度较大的节点对其他节点具有较强控制力,节点分布比较集中,有较强的信息传递能力,整个网络内各系统之间的联系足够紧密,跨系统应用交流互动频繁。通过分析各业务系统各业务指标的重要性及哪些业务指标数据在整个系统网络中是关键点,为实际业务后续优化及有效管理与服务提供参考。
另外,本步骤中具体可以包括:根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的初始相关系数;选择适当的回归预测模型对所述初始相关系数做回归拟合,通过检验及基于计算的预测误差做筛选,以得到所述相关系数和所述相关性计算结果。所述回归模型选择曲线估计模型和机器学习模型,所述曲线估计模型包括一次函数关系、非线性三次函数关系和对数函数关系,所述机器学习模型包括随机森林回归、支持向量机回归及神经网络回归。以上回归预测模型可以依据现有技术实现,本发明实施例中不再详细描述。
具体地,可以将结果汇总至数据表中,如图2所示的表格。如图2,数据表中记录数据来自于哪一业务系统以及对应于哪一业务类型,其中在每一业务类型下对应的个案总数,涉及到的关联表的名称,确定的关联字段选择的相关系数的形式以及计算得到的相关系数值和回归预测模型等。第1组数据中,关联表ZF_O_ZFJC_JCJL、关联字段avgjcjl的数据对象与关联表AQY_O_SP_T49、关联字段aqy的数据对象之间的相关系数值为0.22,取其绝对值0.22记入表2相关系数矩阵。相应地,能够计算任意两个待分析对象的相关系数绝对值,根据实际情况对图2所示的表格的行数进行调整,可以增加系统如专职安全员系统、隐患排查系统、重大危险源系统等。
根据上述步骤的到的不同系统之间的关联度可以采用如图3和图4所示的社会网络分析图来展现,图3和图4中所示出的是不同的系统在社会网络分析图中以节点的形式出现,其中节点的大小即可表示节点在整个网络中的中心度大小,不同节点之间的连线的粗细程度可以代表二者之间相关系数的绝对值的大小。
结合图3和图4,对各业务节点重新组成的整体网分析如下:
(1)点度中心度,在社会网络中,一个节点与其他有直接联系的节点越多,该节点就越处于此整体网中心地位。即中心度越高,在整个网络中相关联的节点越多,此节点越重要,此节点在整体网中的参与度也越高。执法系统和台账系统在此整体网中处于最重要的位置,参与度最高。
(2)点度中心势,表示整个网络图的一致性或总体整合度。整个网络的中心势为20%,说明关联和共享的网络环境相对比较良好,也有进一步改善的空间。中心势越高,说明中心度较大的节点对其他节点具有较强控制力,节点分布比较集中,有较强的信息传递能力。也说明整个网络内各系统之间的联系足够紧密,交流互动频繁。
(3)中间中心度,如果一个节点处在各交网网络的路径上(处于各交通要道上),因其可控制与其他节点信息交互所以可以认为此节点在整个网络中处于重要地位,其测量的是此节点对整个网络资源信息的控制程度。经过隐患排查系统和安全员检查次数两节点的短路径最多,即隐患排查系统和安全员检查次数对整体网的数据信息相对控制程度最高,在整个网络上的权利比较大,能够在较大程度上控制业务数据流转的进行。
(4)接近中心度,表示在整个网络中与其他节点之间的接近程度。考察一个节点传播信息数据时不靠其他节点的程度。越是与其他节点接近,在信息传播中越不依赖其他节点。行政执法系统和专职安全员系统在信息传播中依赖其他系统节点的程度较低,即其受其他节点影响较小,是整个网络中的重心点。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。