CN110990777A - 数据关联性分析方法及系统、可读存储介质 - Google Patents

数据关联性分析方法及系统、可读存储介质 Download PDF

Info

Publication number
CN110990777A
CN110990777A CN201910592394.7A CN201910592394A CN110990777A CN 110990777 A CN110990777 A CN 110990777A CN 201910592394 A CN201910592394 A CN 201910592394A CN 110990777 A CN110990777 A CN 110990777A
Authority
CN
China
Prior art keywords
data
correlation coefficient
correlation
analyzed
field points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910592394.7A
Other languages
English (en)
Other versions
CN110990777B (zh
Inventor
侯占杰
周轶
季学伟
方理平
李燕
张艳艳
陈明
陈晓岚
刘耀峰
梅楠
张维
侯烺祎
贾娜莉
刘艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tianzhihua Software System Technology Co Ltd
Beijing Academy Of Safety Science And Technology
Original Assignee
Beijing Tianzhihua Software System Technology Co Ltd
Beijing Academy Of Safety Science And Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tianzhihua Software System Technology Co Ltd, Beijing Academy Of Safety Science And Technology filed Critical Beijing Tianzhihua Software System Technology Co Ltd
Priority to CN201910592394.7A priority Critical patent/CN110990777B/zh
Publication of CN110990777A publication Critical patent/CN110990777A/zh
Application granted granted Critical
Publication of CN110990777B publication Critical patent/CN110990777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的数据关联性分析方法及系统、可读存储介质,根据待分析数据对象的字段点的特性选择对应的相关系数计算模型,计算在同一时间段内不同的字段点两两之间的相关系数,以得到两两强显性相关的字段点及待分析数据对象,构建社会网络关系矩阵,绘制出不同业务之间的强相关业务的社会网络结构图,计算及排名出选到的各业务各字段点在所述社会网络结构中的中心度和中心势;根据中心度对社会网络结构中的业务进行重要度排名;根据中心势确定社会网络结构中各业务的总体整合度。本发明提供的以上方案,将社会网络分析引入业务管理信息系统的众多数据资源的分析中,推动信息资源的精简及整合,明了不同平台或系统间业务数据的联动性。

Description

数据关联性分析方法及系统、可读存储介质
技术领域
本发明涉及数据统计及分析应用技术领域,具体涉及一种数据关联性分析方法及系统和一种可读存储介质。
背景技术
政务资源信息系统及共享平台包含的业务子系统众多,其涉及到的业务字段更多,且不同的业务字段分散在各自不同子系统的不同数据表中。难以确定不同平台或不同系统中的数据之间是否有关联,而且分辨及快速掌握哪些数据是关键业务数据也较为困难。操作人员不能确定各业务系统数据在整体系统中的重要程度如何,为各业务系统信息整合、相互间信息交换与共享及信息资源合理布局等工作的有效进行增添了障碍或降低了效率。
发明内容
本发明实施例旨在提供一种数据分析方法和系统、一种可读存储介质,以解决现有技术中难以对多系统中的多种数据进行关联性判断,整合数据难度大和效率低的技术问题。
本发明提供一种数据关联性分析方法,包括如下步骤:
获取待分析数据对象,所述待分析数据对象来自于不同的业务且对应于同一时间段,每一所述待分析数据对象具有特定的字段点;
根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果;
根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数绝对值;
根据所述社会网络关系矩阵绘制出不同业务之间的强相关业务的社会网络结构图,计算及排名出选到的各业务各字段点在所述社会网络结构中的中心度和中心势;
根据所述中心度对所述社会网络结构中的业务进行重要度排名;根据所述中心势确定所述社会网络结构中各业务的总体整合度。
可选地,上述的数据关联性分析方法中,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是连续型数据时选择对应的Pearson相关系数计算模型,所述Pearson相关系数计算模型为:
Figure BDA0002116492410000021
其中,σX和σY分别表示X,Y两个变量的标准差;Cov(X,Y)表示X,Y两个变量的协方差,且X,Y两个变量的标准差均不等于零。
可选地,上述的数据关联性分析方法中,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是分类有序型数据时选择对应的Spearman相关系数计算模型,所述Spearman相关系数计算模型为:
Figure BDA0002116492410000022
其中,m为等级个数;d为二列成对变量的等级差数。
可选地,上述的数据关联性分析方法中,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是分类无序型数据时选择对应的相关系数Kendall计算模型,所述Kendall计算模型为:
Figure BDA0002116492410000023
其中,n表示同类统计对象的个数;number of concordant pairs表示同序对的数量,number of discordant pairs表示异序对的数量。
可选地,上述的数据关联性分析方法中,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,其中包含如下步骤:
根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的初始相关系数;
选择适当的回归预测模型对所述初始相关系数做回归拟合,通过检验及基于计算的预测误差做筛选,以得到所述相关系数和所述相关性计算结果。
可选地,上述的数据关联性分析方法中,选择适当的回归预测模型对所述初始相关系数做回归拟合,通过检验及基于计算的预测误差做筛选,以得到所述相关系数和所述相关性计算结果的步骤中:
所述回归预测模型包括曲线估计模型和机器学习模型,所述曲线估计模型包括一次函数关系、非线性三次函数关系和对数函数关系,所述机器学习模型包括随机森林回归、支持向量机回归及神经网络回归。
可选地,上述的数据关联性分析方法中,根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数的步骤中:
若两个字段点之间的相关系数大于设定阈值,则判定两个字段点两两强显性相关,两个字段点对应的待分析数据对象为两两强显性相关。
本发明还提供一种数据关联性分析系统,包括至少一个处理器和至少一个存储器,至少一个所述存储器中存储有程序指令,至少一个所述处理器读取所述程序指令后执行以上任一项所述的数据关联性分析方法。
本发明还提供一种可读存储介质,所述存储介质中存储有程序指令,计算机读取所述程序指令后执行以上任一项所述的数据关联性分析方法。
与现有技术相比,本发明实施例提供的上述技术方案至少具有以下有益效果:本发明实施例提供的数据关联性分析方法及系统、可读存储介质,其方法中,将社会网络分析引入业务管理信息系统的众多数据资源的分析中,将各业务系统中不同业务的数据对象的字段点作为节点将其组成复杂的整体网来看待,社会实体为不同系统大节点、其涉及的众多的业务数据指标及其指标涉及到的各个参数为小节点,来分析各系统各业务指标各业务字段之间的关系。本发明有助于推动信息资源的精简及整合,明了不同平台或系统间业务数据的联动性,发现业务关系及问题并指导及改善相关工作,实现平台或系统间的跨业务应用及信息资源的跨平台或系统共享。
附图说明
图1为本发明一个实施例所述数据关联性分析方法的流程图;
图2为本发明一个实施例所述待分析数据对象相关分析汇总表;
图3为本发明一个实施例所述实际工作场景分析得到的社会网络结构图的一种表现形式;
图4为本发明一个实施例所述实际工作场景分析得到的社会网络结构图的另一种表现形式。
具体实施方式
下面将结合附图进一步说明本发明实施例。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明的简化描述,而不是指示或暗示所指的装置或组件必需具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。其中,术语“第一位置”和“第二位置”为两个不同的位置。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个组件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明以下实施例中涉及到的技术名词及其含义主要包括:
(1)相关性,是指两个变量的关联程度。一般地,从散点图上可以观察到两个变量有以下三种关系之一:两变量正相关、负相关或不相关。简单来说,如果两个变量的值同时高或者同时低,那么这两个变量正相关。如果一个变量的高值对应于另一个变量的低值,且该变量的低值对应于另一个变量的高值,那么这两个变量负相关。如果两个变量间没有关系,即一个变量的变化对另一变量没有明显影响,那么这两个变量不相关。相关系数是反应变量之间关系密切程度的统计指标,相关系数的取值区间在1到-1之间。1表示两个变量完全线性相关,-1表示两个变量完全负相关,0表示两个变量不相关。数据越趋近于0表示相关关系越弱。简单相关系数:又叫相关系数或线性相关系数,一般用字母r表示,用来度量两个变量X和Y间的线性关系。
相关系数定义式:
Figure BDA0002116492410000041
其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。
相关系数的计算公式原理是:
Figure BDA0002116492410000042
其中rxy表示样本相关系数,Sxy表示样本协方差,Sx表示X的样本标准差,Sy表示y的样本标准差。下面分别是Sxy协方差和Sx和Sy标准差的计算公式。由于是样本协方差和样本标准差,因此分母使用的是n-1。
Sxy样本协方差计算公式:
Figure BDA0002116492410000043
Sx样本标准差计算公式:
Figure BDA0002116492410000044
Sy样本标准差计算公式:
Figure BDA0002116492410000051
(2)信息资源管理,是现代信息技术特别是以计算机和现代通信技术为核心的信息技术的应用所催生的一种新型信息管理理论,有狭义定义和广义定义之分。狭义的信息资源管理是指对信息本身即信息内容实施管理的过程。广义的信息资源管理是指对信息内容及与信息内容相关的资源如设备、设施、技术、投资、信息人员等进行管理的过程。
(3)信息整合,是依据信息化发展趋势,在一定组织的领导下,实现对信息资源序列化、共享化、调化,进而实现信息资源配置最优化、拓宽信息资源应用领域和最大化挖掘信息价值的管理过程。信息整合共享与利用是实现信息资源有效管理的重要途径。
(4)共享数据,对应用信息系统而言,常常要考虑其“功能”,从本质上来说,一个应用信息系统完成的其实并不是什么“功能”,而是接收数据输入进行处理,并产生相应的输出或是改变系统自身的状态。假如存在两个(或是两个以上)的处理过程具有相同的数据输入,那么我们称这两个(或是两个以上)处理过程具有“共享数据”。共享数据的集合就是那些相同的输入数据。
(5)社会网络,是社会行动者及其之间关系的集合。如果将社会行动者看成节点,那么社会网络即是这些节点及其之间连线组成的集合。社会行动者可以是任何一个个人或社会实体,行动者信息可以静态也可以是动态。从方法论的角度上讲,行动者之间的关系是社会网络分析最重要的内容。可以通过构建个体网络模型,或整体网络模型,从不同的关系角度研究社会现象和社会结构,可以包含政治、经济、文化等各个方面。社会网络根据网络行动者的类别可分类为人际关系网,城市网,国家网等。进一步根据行动者关系的内涵,可将其分类为贸易网,营销同盟网,情感关系网等。
(6)社会网络分析,提供一系列的方法,包括个体网,局域网及整体网模型的研究,通过不同网络统计量的分析,揭示网络的整体结构,以及隐藏于其中的其他网络属性。社会网络分析,首先确定网络结构,并确定各网络节点的位置和意义。网络结构是由各个网络节点及其关系构成的复杂结构,一般包括以下几个构成要素:
①节点:社会网络分析中的节点具有层次性,从个体到群体。节点通常具有自然属性和社会属性,根据携带信息量,说服能力和联系能力这几个要素,可以把在知识共享过程的社会网络节点划分为信息专家、联系人和信息推送人。
②关系:社会网络中的节点具有不同属性和特点,根据这些属性特点可以把这些节点联系起来组成网络。因此,关系是社会网络分析研究的重点。关系在本质上都具有内容、方向、强度和主被动关系等特点。
③网络大小:社会网络的大小,用来描述网络的节点数量。网络规模的大小由网络节点的数量决定。
④网络密度:指网络中节点的实际连接数量与这些节点的理论上最大可能连接数的比率。社会网络密度反映一个网络的紧密程度,密度越大,说明这个网络越紧密,这个网络中的多联系节点越多,孤立节点越少,反之则说明网络越松。在人与人组成的网络中就表明人与人之间的关系越淡薄。相关研究表明,网络密度过高或过低都不利于社会网络进行知识共享。
⑤网络强度:网络强度反映的是网络中节点之间联系频度和关系强弱程度。社会网络的强度越强,说明组成这个网络的节点之间联系越多,关系越稳定,因此这个网络更紧凑也更稳定。
⑥中心性:Bavelas在上世纪40年代末期最先提出了中心性这个概念,后来的学者Leavitt和Freeman等都对中心性理论发展做出了很大贡献。目前对网络的分析可以从个体中心网和社会中心网的角度出发,中心性也被分为点中心性和网络中心性。在图论(GraphTheory)与网络分析(Network Analysis)中,中心性(Centrality)是判定网络中节点重要性的指标,是节点重要性的量化。
实施例1
本实施例提供一种数据关联性分析方法,如图1所示,包括如下步骤:
S1:获取待分析数据对象,所述待分析数据对象来自于不同的业务且对应于同一时间段,每一所述待分析数据对象具有特定的字段点;本步骤中,从数据中心获取到各自系统指定的某段期间或自所有系统上线以来的所有需要分析的业务数据作为待分析对象,所选择的数据位于同一时间段内。
S2:根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同所述字段点的统计值两两之间的相关系数得到相关性计算结果;以同企业关联的各业务系统涉及到的指标数据为例,以分散的多系统业务数据为基础,基于企业ID和企业名称把各系统的数据关联起来,得到所有企业的各系统相关业务字段值及经过加工转换的业务数据指标值,计算来自不同系统指定期间的关联到的企业业务数据之间的相关系数,按照数据的计量层次,可以将统计数据分为定类数据、定序数据、定距数据与定比数据。其中有些变量比如行业分类、设备类别等的数据含有字母字符,需要把他们分别转化为数字类别分类再进行定类数据相关性的分析。根据不同数据类型的业务数据选取不同的相关系数计算方法。不同类型的变量之间相关系数计算模型选择可参见表1所示。
表1-不同类型的变量之间相关系数计算模型选择
数据类型 连续型 分类(有序)型 分类(无序)型
计量层次分类变量类型 定距变量/定比变量 定序变量 定类变量
定距变量/定比变量 Pearson Spearman Kendall
定序变量 Spearman Kendall
定类变量 Kendall
(1)参见表1,所述待分析数据对象的字段点的特性字段变量有连续型数据时选择对应的Pearson相关系数计算模型,所述Pearson相关系数计算模型为:
Figure BDA0002116492410000071
其中,σX和σY分别表示X,Y两个变量的标准差;Cov(X,Y)表示X,Y两个变量的协方差,且X,Y两个变量的标准差均不等于零。
以同企业关联的各业务系统涉及到的指标数据为例,以分散的多系统业务数据为基础,基于企业ID和企业名称把各系统的数据关联起来,得到所有企业的各系统相关业务字段值及经过加工转换的业务数据指标值,计算来自不同系统指定期间的关联到的这些业务值或指标值之间的相关系数确定是否显性强相关。针对不同的系统数据选择X值和Y值的确定方式,有的是直接取自对应业务表的字段值,有的是取自对应业务表有效数据中根据各企业ID汇总每家企业此业务的记录条数,有的是取自对应业务表有效数据根据各企业ID合计此业务各企业记录发生的总额。具体每个指标如何从所指定的表或字段中调出,可参考图2对应的相关点关系表中的“取值逻辑”列。
(2)所述待分析数据对象的字段点的特性字段变量有分类有序型数据时选择对应的Spearman相关系数计算模型,所述Spearman相关系数计算模型为:
Figure BDA0002116492410000072
其中,m为等级个数;d为二列成对变量的等级差数。
(3)所述待分析数据对象的字段点的特性字段变量有分类无序型数据时选择对应的相关系数Kendall计算模型,所述Kendall计算模型为:
Figure BDA0002116492410000081
其中,n表示同类统计对象的个数;number of concordant pairs表示同序对的数量,number of discordant pairs表示异序对的数量。
S3:根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数绝对值;根据计算结果,经过汇总、核实比较后选取两两强显性相关的不同系统业务指标或表字段。具体地,可参考表2,表2中所给出的参数值仅是示例性的,具体的矩阵中的行数、列数以及其所选择的变量是根据实际情况来选择的。
表2-社会网络关系矩阵
Figure BDA0002116492410000082
S4:根据所述社会网络关系矩阵绘制出不同业务之间的强相关业务的社会网络结构图,计算及排名出选到的各业务各字段点在所述社会网络结构中的中心度和中心势;根据各系统可选的强显性相关两两业务字段,构建基于相关性的各业务系统及指标的社会网络关系矩阵,其中各向量间的关系值为其相关系数绝对值。本步骤中,以社会网络关系矩阵为数据源,用相关SNA分析工具UCINET和NetDraw构建网络模型,绘制出各系统间强相关业务的社会网络结构图,计算及排名出选到的各系统各字段点在这个由各系统组成的整体网中的中心度和中心势。中心度与中心势是基于现有社会网络分析软件工具UCINET计算得出的;绘制的网络结构图是基于画图软件NetDraw绘出的。中心度算法及中心度算法分类有多种,UCINET软件自带算法设置的点度中心度为加权度。
当前主要的度量指标有点度中心性(Degree Centrality)、接近中心性/亲密中心性(Closeness Centrality)和中介中心性/中间中心性(Between Centrality)等。
在无向图(Undirected Graph)中,点度中心度测量网络中一个节点与所有其它节点的直接联系总数,记为CD(ni),本发明中为一个节点与所有其它直接相连的节点的显性相关系绝对值加总数。点度中心势即网络整体中心度,表明了网络整体的“紧凑度”,记为CD。其计算公式分别如下:
Figure BDA0002116492410000091
Figure BDA0002116492410000092
式中CD(n*)表示最大的节点中心度。
中间中心度:中间性(Betweenness),指标衡量了网络中各节点作为“桥梁”的能力,无向图标准化中间性公式:
Figure BDA0002116492410000093
式中:
gjk——节点i到节点j的捷径数;
gjk(ni)——节点j到达节点k的途径上有节点i的捷径数。
根据网络属性、权重和方向等,中心度算法可以分为基于有向网络的算法和基于无向图网络的算法、基于加权网络和基于无权网络的算法等。
S5:根据所述中心度对所述社会网络结构中的业务进行重要度排名;根据所述中心势确定所述社会网络结构中各业务的总体整合度。中心度是代表网络中个体节点地位的网络统计量。中心势是网络整体集中化程度的统计量。中心度(势)又分为度数中心度(势)、中间中心度(势)和接近中心度(势),分别代表了个体或网络整体的核心集权地位、中间人地位及独立性地位等网络特性。基于中心度(点度中心度、中间中心度、接近中心度)值对整体网中所有业务点进行排名,以了解各点在整体网中不同分析角度的重要程度如何;以及基于中心势分析整体网的一致性或总体整合度,中心势越高,说明中心度较大的节点对其他节点具有较强控制力,节点分布比较集中,有较强的信息传递能力,整个网络内各系统之间的联系足够紧密,跨系统应用交流互动频繁。通过分析各业务系统各业务指标的重要性及哪些业务指标数据在整个系统网络中是关键点,为实际业务后续优化及有效管理与服务提供参考。
另外,本步骤中具体可以包括:根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的初始相关系数;选择适当的回归预测模型对所述初始相关系数做回归拟合,通过检验及基于计算的预测误差做筛选,以得到所述相关系数和所述相关性计算结果。所述回归模型选择曲线估计模型和机器学习模型,所述曲线估计模型包括一次函数关系、非线性三次函数关系和对数函数关系,所述机器学习模型包括随机森林回归、支持向量机回归及神经网络回归。以上回归预测模型可以依据现有技术实现,本发明实施例中不再详细描述。
具体地,可以将结果汇总至数据表中,如图2所示的表格。如图2,数据表中记录数据来自于哪一业务系统以及对应于哪一业务类型,其中在每一业务类型下对应的个案总数,涉及到的关联表的名称,确定的关联字段选择的相关系数的形式以及计算得到的相关系数值和回归预测模型等。第1组数据中,关联表ZF_O_ZFJC_JCJL、关联字段avgjcjl的数据对象与关联表AQY_O_SP_T49、关联字段aqy的数据对象之间的相关系数值为0.22,取其绝对值0.22记入表2相关系数矩阵。相应地,能够计算任意两个待分析对象的相关系数绝对值,根据实际情况对图2所示的表格的行数进行调整,可以增加系统如专职安全员系统、隐患排查系统、重大危险源系统等。
根据上述步骤的到的不同系统之间的关联度可以采用如图3和图4所示的社会网络分析图来展现,图3和图4中所示出的是不同的系统在社会网络分析图中以节点的形式出现,其中节点的大小即可表示节点在整个网络中的中心度大小,不同节点之间的连线的粗细程度可以代表二者之间相关系数的绝对值的大小。
结合图3和图4,对各业务节点重新组成的整体网分析如下:
(1)点度中心度,在社会网络中,一个节点与其他有直接联系的节点越多,该节点就越处于此整体网中心地位。即中心度越高,在整个网络中相关联的节点越多,此节点越重要,此节点在整体网中的参与度也越高。执法系统和台账系统在此整体网中处于最重要的位置,参与度最高。
(2)点度中心势,表示整个网络图的一致性或总体整合度。整个网络的中心势为20%,说明关联和共享的网络环境相对比较良好,也有进一步改善的空间。中心势越高,说明中心度较大的节点对其他节点具有较强控制力,节点分布比较集中,有较强的信息传递能力。也说明整个网络内各系统之间的联系足够紧密,交流互动频繁。
(3)中间中心度,如果一个节点处在各交网网络的路径上(处于各交通要道上),因其可控制与其他节点信息交互所以可以认为此节点在整个网络中处于重要地位,其测量的是此节点对整个网络资源信息的控制程度。经过隐患排查系统和安全员检查次数两节点的短路径最多,即隐患排查系统和安全员检查次数对整体网的数据信息相对控制程度最高,在整个网络上的权利比较大,能够在较大程度上控制业务数据流转的进行。
(4)接近中心度,表示在整个网络中与其他节点之间的接近程度。考察一个节点传播信息数据时不靠其他节点的程度。越是与其他节点接近,在信息传播中越不依赖其他节点。行政执法系统和专职安全员系统在信息传播中依赖其他系统节点的程度较低,即其受其他节点影响较小,是整个网络中的重心点。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种数据关联性分析方法,其特征在于,包括如下步骤:
获取待分析数据对象,所述待分析数据对象来自于不同的业务且对应于同一时间段,每一所述待分析数据对象具有特定的字段点;
根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果;
根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数绝对值;
根据所述社会网络关系矩阵绘制出不同业务之间的强相关业务的社会网络结构图,计算及排名出选到的各业务各字段点在所述社会网络结构中的中心度和中心势;
根据所述中心度对所述社会网络结构中的业务进行重要度排名;根据所述中心势确定所述社会网络结构中各业务的总体整合度。
2.根据权利要求1所述的数据关联性分析方法,其特征在于,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是连续型数据时选择对应的Pearson相关系数计算模型,所述Pearson相关系数计算模型为:
Figure RE-RE-FDA0002156890900000011
其中,σX和σY分别表示X,Y两个变量的标准差;Cov(X,Y)表示X,Y两个变量的协方差,且X,Y两个变量的标准差均不等于零。
3.根据权利要求1所述的数据关联性分析方法,其特征在于,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是分类有序型数据时选择对应的Spearman相关系数计算模型,所述Spearman相关系数计算模型为:
Figure RE-FDA0002156890900000021
其中,m为等级个数;d为二列成对变量的等级差数。
4.根据权利要求1所述的数据关联性分析方法,其特征在于,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,在此步骤中,所述待分析数据对象的字段点的特性字段变量是分类无序型数据时选择对应的相关系数Kendall计算模型,所述Kendall计算模型为:
Figure RE-FDA0002156890900000022
其中,n表示同类统计对象的个数;number of concordant pairs表示同序对的数量,number of discordant pairs表示异序对的数量。
5.根据权利要求1-4任一项所述的数据关联性分析方法,其特征在于,根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的相关系数得到相关性计算结果,其中包含如下步骤:
根据所述待分析数据对象的字段点的特性选择对应的相关系数计算模型,根据所述相关系数计算模型计算在所述时间段内不同的所述字段点两两之间的初始相关系数;
选择适当的回归预测模型对所述初始相关系数做回归拟合,通过检验及基于计算的预测误差做筛选,以得到所述相关系数和所述相关性计算结果。
6.根据权利要求5所述的数据关联性分析方法,其特征在于,选择适当的回归预测模型对所述初始相关系数做回归拟合,通过检验及基于计算的预测误差做筛选,以得到所述相关系数和所述相关性计算结果的步骤中:
所述回归预测模型包括曲线估计模型和机器学习模型,所述曲线估计模型包括一次函数关系、非线性三次函数关系和对数函数关系,所述机器学习模型包括随机森林回归、支持向量机回归及神经网络回归。
7.根据权利要求6所述的数据关联性分析方法,其特征在于,根据所述相关性计算结果得到两两强显性相关的字段点,确定两两强显性相关的待分析数据对象,依据两两强显性相关的待分析数据对象构建社会网络关系矩阵,所述社会网络关系矩阵中各向量间的关系值为对应的相关系数的步骤中:
若两个字段点之间的相关系数大于设定阈值,则判定两个字段点两两强显性相关,两个字段点对应的待分析数据对象为两两强显性相关。
8.一种数据关联性分析系统,其特征在于,包括至少一个处理器和至少一个存储器,至少一个所述存储器中存储有程序指令,至少一个所述处理器读取所述程序指令后执行权利要求1-7任一项所述的数据关联性分析方法。
9.一种可读存储介质,其特征在于,所述存储介质中存储有程序指令,计算机读取所述程序指令后执行权利要求1-7任一项所述的数据关联性分析方法。
CN201910592394.7A 2019-07-03 2019-07-03 数据关联性分析方法及系统、可读存储介质 Active CN110990777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910592394.7A CN110990777B (zh) 2019-07-03 2019-07-03 数据关联性分析方法及系统、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910592394.7A CN110990777B (zh) 2019-07-03 2019-07-03 数据关联性分析方法及系统、可读存储介质

Publications (2)

Publication Number Publication Date
CN110990777A true CN110990777A (zh) 2020-04-10
CN110990777B CN110990777B (zh) 2022-03-18

Family

ID=70081592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910592394.7A Active CN110990777B (zh) 2019-07-03 2019-07-03 数据关联性分析方法及系统、可读存储介质

Country Status (1)

Country Link
CN (1) CN110990777B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597505A (zh) * 2020-06-17 2020-08-28 南方电网科学研究院有限责任公司 一种电力网络中用电用户的相关性分析方法和相关装置
CN113342830A (zh) * 2021-07-08 2021-09-03 银联商务股份有限公司 一种数据处理方法及装置
CN117424901A (zh) * 2023-10-13 2024-01-19 国网湖北省电力有限公司荆州供电公司 一种基于ims的核心网云化技术信息管理系统
CN118644346A (zh) * 2024-08-16 2024-09-13 大连瀚闻资讯有限公司 一种基于数据关联性优化的货物贸易数据模拟分析方法及可视化系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389372B1 (en) * 1999-06-29 2002-05-14 Xerox Corporation System and method for bootstrapping a collaborative filtering system
CN101084496A (zh) * 2004-05-04 2007-12-05 波士顿咨询集团公司 用于选择、分析以及将相关数据库记录可视化为网络的方法和设备
US20100121849A1 (en) * 2008-11-13 2010-05-13 Buzzient, Inc. Modeling social networks using analytic measurements of online social media content
CN103399932A (zh) * 2013-08-06 2013-11-20 武汉大学 一种基于语义社会网络本体分析技术的情境识别方法
CN104199828A (zh) * 2014-07-26 2014-12-10 复旦大学 一种基于事务日志数据的社会网络构建方法
CN104516954A (zh) * 2014-12-15 2015-04-15 公安部第一研究所 一种可视化取证分析系统
CN104965940A (zh) * 2015-05-31 2015-10-07 重庆大学 城镇公共空间的社会网络模型构建方法
CN108038790A (zh) * 2017-11-24 2018-05-15 东华大学 一种内外数据融合的态势分析系统
CN108140025A (zh) * 2015-05-26 2018-06-08 阿雅斯迪公司 用于图形生成的结果分析
CN108920826A (zh) * 2018-06-29 2018-11-30 华中科技大学 一种从建筑信息模型设计过程生成及分析社会网络的方法
CN109104731A (zh) * 2018-07-04 2018-12-28 广东海格怡创科技有限公司 小区场景类别划分模型的构建方法、装置和计算机设备
CN109376610A (zh) * 2018-09-27 2019-02-22 南京邮电大学 视频监控中基于图像概念网络的行人不安全行为检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389372B1 (en) * 1999-06-29 2002-05-14 Xerox Corporation System and method for bootstrapping a collaborative filtering system
CN101084496A (zh) * 2004-05-04 2007-12-05 波士顿咨询集团公司 用于选择、分析以及将相关数据库记录可视化为网络的方法和设备
US20100121849A1 (en) * 2008-11-13 2010-05-13 Buzzient, Inc. Modeling social networks using analytic measurements of online social media content
CN103399932A (zh) * 2013-08-06 2013-11-20 武汉大学 一种基于语义社会网络本体分析技术的情境识别方法
CN104199828A (zh) * 2014-07-26 2014-12-10 复旦大学 一种基于事务日志数据的社会网络构建方法
CN104516954A (zh) * 2014-12-15 2015-04-15 公安部第一研究所 一种可视化取证分析系统
CN108140025A (zh) * 2015-05-26 2018-06-08 阿雅斯迪公司 用于图形生成的结果分析
CN104965940A (zh) * 2015-05-31 2015-10-07 重庆大学 城镇公共空间的社会网络模型构建方法
CN108038790A (zh) * 2017-11-24 2018-05-15 东华大学 一种内外数据融合的态势分析系统
CN108920826A (zh) * 2018-06-29 2018-11-30 华中科技大学 一种从建筑信息模型设计过程生成及分析社会网络的方法
CN109104731A (zh) * 2018-07-04 2018-12-28 广东海格怡创科技有限公司 小区场景类别划分模型的构建方法、装置和计算机设备
CN109376610A (zh) * 2018-09-27 2019-02-22 南京邮电大学 视频监控中基于图像概念网络的行人不安全行为检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
苏冬蔚等: "商业银行社会网络与微型金融可持续发展", 《经济研究》 *
陈兰兰: "基于社会网络分析和共词分析的国内关联数据研究", 《图书情报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597505A (zh) * 2020-06-17 2020-08-28 南方电网科学研究院有限责任公司 一种电力网络中用电用户的相关性分析方法和相关装置
CN111597505B (zh) * 2020-06-17 2023-05-26 南方电网科学研究院有限责任公司 一种电力网络中用电用户的相关性分析方法和相关装置
CN113342830A (zh) * 2021-07-08 2021-09-03 银联商务股份有限公司 一种数据处理方法及装置
CN117424901A (zh) * 2023-10-13 2024-01-19 国网湖北省电力有限公司荆州供电公司 一种基于ims的核心网云化技术信息管理系统
CN117424901B (zh) * 2023-10-13 2024-07-23 国网湖北省电力有限公司荆州供电公司 一种基于ims的核心网云化技术信息管理系统
CN118644346A (zh) * 2024-08-16 2024-09-13 大连瀚闻资讯有限公司 一种基于数据关联性优化的货物贸易数据模拟分析方法及可视化系统

Also Published As

Publication number Publication date
CN110990777B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN110990777B (zh) 数据关联性分析方法及系统、可读存储介质
Valverde et al. Self-organization versus hierarchy in open-source social networks
Liu et al. Data mining feature selection for credit scoring models
Baloui Jamkhaneh et al. Inspection error and its effects on single sampling plans with fuzzy parameters
CN107679719A (zh) 一种复杂电网电能质量知识云监测与评价系统和方法
CN117786131B (zh) 一种产业链安全监测分析方法、介质及设备
Ciflikli et al. Enhancing product quality of a process
Zhang et al. A spatial fuzzy influence diagram for modelling spatial objects’ dependencies: A case study on tree-related electric outages
Alamsyah et al. Mapping Organization Knowledge Network and Social Media Based Reputation Management
CN112633621B (zh) 一种基于paas平台的电网企业管理决策系统和方法
Dogan A process-centric performance management in a call center
Leydesdorff Dynamic and evolutionary updates of classificatory schemes in scientific journal structures
Jerome et al. Anomaly detection and classification using a metric for determining the significance of failures: Case study: mobile network management data from LTE network
Firestone Knowledge Management metrics development: A technical approach
Globa et al. QOS of data networks analyzing based on the fuzzy knowledge base
Wang et al. Evolution of technology dependence among leading semiconductor companies
Smith et al. Network analysis and the study of international trade and investment
Chen et al. [Retracted] Logistics Service Supply Chain Model Applying Artificial Intelligence and Big Data Analysis
Tsugawa et al. On the robustness of centrality measures against link weight quantization in social networks
Ashenagar et al. Forming a well-connected team of experts based on a social network graph: a novel weighting approach
CN116719665B (zh) 一种气象数值模式异常状态的智能判识方法
Chen et al. Research of E-commerce Resource Allocation Method Based on Clustering
Minichilli et al. Board activity in large Italian companies: A behavioural perspective
Hernandez et al. Innovation Competitiveness in Software Industry
Xiao et al. Relationship between Stock Market Dynamic Linkage and Risk Conduction Based on Animal Infectious Disease Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 101100 No. 1, yard 9, Hong'an street, Tongzhou District, Beijing (C2 property building, administrative office area)

Applicant after: Beijing Academy of emergency management science and technology

Applicant after: Beijing tianzhihua Software System Technology Co., Ltd

Address before: Building 4, yard 57, Yunhe East Street, Tongzhou District, Beijing 100744

Applicant before: BEIJING ACADEMY OF SAFETY SCIENCE AND TECHNOLOGY

Applicant before: Beijing tianzhihua Software System Technology Co., Ltd

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant