CN106874686A

CN106874686A - 指标关系网构建方法

Info

Publication number: CN106874686A
Application number: CN201710122799.5A
Authority: CN
Inventors: 夏粟; 夏一粟; 刘红跃
Original assignee: Beijing Beijing Hoze Data Technology Co Ltd
Current assignee: Beijing Beijing Hoze Data Technology Co Ltd
Priority date: 2017-03-03
Filing date: 2017-03-03
Publication date: 2017-06-20

Abstract

本发明提供了一种指标关系网构建方法，包括：步骤1，收集同一时间段内所有管理指标的数据；步骤2，计算所述管理指标中的两个指标之间的关联程度，并输出具有强关联关系的指标对；步骤3，检验所述指标对内的两个指标之间的因果关系，并根据因果关系赋予该指标对相关性的影响方向。通过本发明中的指标关系网构建方法建立的医院管理指标关系网，在某个指标出现异常时，利用该关系网可以自动定位导致异常的根源指标，当出现异常时可追溯异常的根本原因，不需要人工根据业务关系梳理异常的原因；此外，当某个指标异常时，我们可以根据该关系网预测由它指向的其他指标可能会出项异常，在该异常引发更严重的问题之前及时控制并解决。

Description

指标关系网构建方法

技术领域

本发明涉及指标异常预测领域，特别是一种指标关系网构建方法。

背景技术

现有技术中，当医院管理指标关系网中的某个指标出现异常时，需要人工根据业务关系梳理异常的原因，不但需要依靠管理者的经验，而且无法及时地预测出由它指向的哪些其他指标可能会出项异常，常常会导致更严重的问题。

发明内容

本发明提供了一种指标关系网构建方法，以解决现有技术中需要人工根据业务关系梳理异常的原因，无法及时地预测出由它指向的哪些其他指标可能会出项异常，以致导致更严重后果的问题。

为解决上述问题，作为本发明的一个方面，提供了一种指标关系网构建方法，包括：步骤1，收集同一时间段内所有管理指标的数据；步骤2，计算所述管理指标中的两个指标之间的关联程度，并输出具有强关联关系的指标对；步骤3，检验所述指标对内的两个指标之间的因果关系，并根据因果关系赋予该指标对相关性的影响方向。

优选地，所述步骤2包括：步骤21，对所有管理指标的数据进行标准化处理；步骤22，在所有管理指标中选取一个指标为参考数列，将其余的管理指标作为比较数列；步骤23，计算所述参考数列与比较数列之间的关联系数；步骤24，计算参考数列与比较数列之间的关联度；步骤25，检查是否所有的管理指标都做过参考数列，若否，重复步骤22-24，若是，则转到步骤26；步骤26，根据步骤22-25得到所有管理指标中两两指标间的关联度；步骤27，设定指标对关联度阈值；步骤28：根据关联度阈值和管理指标中两两指标间的关联度确定具有强关联关系的指标对。

优选地，所述步骤23中的关联系数采用下式计算得到：

其中，

ρ∈(0，∞)，称为分辨系数

Y＝{Y(k)|k＝1,2,Λ,n}为参考数列；

Xi＝{Xi(k)|k＝1,2,Λ,n}为比较数列,其中，i＝1,2,Λ,m。

优选地，所述步骤24通过下式计算关联度：

其中，r_i为关联度，ξ_i(k)为关联系数，n为数列的长度。

优选地，所述步骤28中，如果两个管理指标之间的关联度大于等于关联度阈值，则确定这两个管理指标之间存在强关联关系。

优选地，所述步骤3包括：步骤31，获取具有强关联关系的两个管理指标x和y；步骤32，检验x是否为y的原因；步骤33，检验y是否为x的原因；步骤34，重复步骤31至33，直到检验完所有具有强关联关系的指标因果关系。

优选地，所述步骤3或步骤4采用下述方法确定一个管理指标是否为另一个管理指标的原因：步骤a，取其中一个管理指标A，将A对所有A的滞后项At-1，At-2，…，At-q和另一个管理指标B做回归；步骤b，计算步骤a回归结果的残差平方和RSS_R；步骤c，将A对所有A的滞后项At-1，At-2，…，At-q和另一个管理指标B以及B的滞后项做回归；步骤d，计算步骤c回归结果的残差平方和RSS_UR；步骤e，零假设是B的滞后项不属于此回归；步骤f，用F检验检验步骤e的零假设；步骤g，根据步骤f的检验结果判断B是否为A的原因。

优选地，步骤e采用下式进行检验：

它遵循自由度为q和(n-k)的F分布，其中，n是样本容量，q等于滞后项B的个数，即有约束回归方程中待估参数的个数，k是无约束回归中待估参数的个数。

优选地，步骤g包括：如果在选定的显著性水平α上计算的F值超过临界Fα值，则拒绝零假设，这样滞后B项就属于此回归，表明B是A的原因。

通过本发明中的指标关系网构建方法建立的医院管理指标关系网，在某个指标出现异常时，利用该关系网可以自动定位导致异常的根源指标，当出现异常时可追溯异常的根本原因，不需要人工根据业务关系梳理异常的原因；此外，当某个指标异常时，我们可以根据该关系网预测由它指向的其他指标可能会出项异常，在该异常引发更严重的问题之前及时控制并解决。

附图说明

图1示意性地示出了本发明的整体流程图；

图2示意性地示出了步骤2的流程图；

图3示意性地示出了步骤3的流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

本发明提供了一种指标关系网构建方法，其可用于学校、银行等具有复杂指标体系的系统。该方法包括以下步骤：

步骤1，收集同一时间段内所有管理指标的数据；

步骤2，计算所述管理指标中的两个指标之间的关联程度，并输出具有强关联关系的指标对；例如，可通过灰色关联分析法、线性相关、秩相关、余弦、皮尔逊相关性、欧式距离等方法计算关联程度。

步骤3，检验所述指标对内的两个指标之间的因果关系，并根据因果关系赋予该指标对相关性的影响方向。即，由判断出的因果关系赋予两个指标的指向性，由原因指标指向结果指标。

通过本发明中的指标关系网构建方法建立的医院管理指标关系网，其意义在于：当某个指标出现异常时，利用该关系网可以自动定位导致异常的根源指标，当出现异常时可追溯异常的根本原因，不需要人工根据业务关系梳理异常的原因；此外，当某个指标异常时，我们可以根据该关系网预测由它指向的其他指标可能会出项异常，在该异常引发更严重的问题之前及时控制并解决。

优选地，所述步骤2包括：

步骤21，对所有管理指标的数据进行标准化处理；

步骤22，在所有管理指标中选取一个指标为参考数列，将其余的管理指标作为比较数列；

步骤23，计算所述参考数列与比较数列之间的关联系数；

步骤24，计算参考数列与比较数列之间的关联度；

步骤25，检查是否所有的管理指标都做过参考数列，若否，重复步骤22-24，若是，则转到步骤26；

步骤26，根据步骤22-25得到所有管理指标中两两指标间的关联度；

步骤27，设定指标对关联度阈值。以医院为例，可根据医院内已知的具有确定关系的关联度来确定，例如，已知的医院门诊量和门诊收入是具有强关联关系的，那么我们定义的关联度阈值要小于门诊量和门诊收入的关联度。

步骤28：根据关联度阈值和管理指标中两两指标间的关联度确定具有强关联关系的指标对。

例如：给出已出初值化的序列如下：

x₀＝(1,1.1,2,2.25,3,4)

x₁＝(1,1.166,1.834,2,2.314,3)

x₂＝(1,1.125,1.075,1.375,1.625,1.75)

x₃＝(1,1,0.7,0.8,0.9,1.2)

可按下述方式分三步计算关联系数：

步骤(1)：求差序列

各个时刻x_i与x₀的绝对差如下

步骤(2)：求两级最小差与最大差

步骤(3)：算关联系数

将数据代入关联系数计算公式，得

作关联系数ξ₁(k)在各个时刻的值的集合，得关联系数序ξ₁

ξ₁＝(ξ₁(1),ξ₁(2),ξ₁(3),ξ₁(4),ξ₁(5),ξ₁(6))＝(1,0.955,0.894,0.848,0.679,0.583)同理有

ξ₂＝(ξ₂(1),ξ₂(2),ξ₂(3),ξ₂(4),ξ₂(5),ξ₂(6))＝(1,0.982,0.602,0.615,0.797,0.383)

ξ₃＝(ξ₃(1),ξ₃(2),ξ₃(3),ξ₃(4),ξ₃(5),ξ₃(6))＝(1,0.933,0.52,0,49,0.4,0.34)

优选地，所述步骤23中的关联系数采用下式计算得到：

其中，

ρ∈(0，∞)，称为分辨系数

其中，y为参考数列，xi为比较数列，y(k)为参考数列中的第k个值，xi(k)为比较数列中的第k个值。例如y＝(2，1，4，3，2)，那么y(1)＝2,y(2)＝1,y(3)＝4,…

假设k＝1，2，…，n，i＝1，2，…，m，先求出当i＝1时，计算y(1)-x1(1),y(2)-x1(2),…,y(n)-x1(n)这n个值中的最小值，记为a1，同理当i＝2时，计算y(1)-x2(1),y(2)-x2(2),…,y(n)-x2(n)这n个值中的最小值，记为a2，同理得到a3，a4，…，am，再计算a1，a2，…，am的最小值即为的值。

优选地，所述步骤24通过下式计算关联度：

其中，r_i为关联度，ξ_i(k)为关联系数，n为数列的长度(优选地，可以是y的长度，也可以是xi的长度，因为y和xi的长度是相同的)。

优选地，所述步骤3包括：

步骤31，获取具有强关联关系的两个管理指标x和y；

步骤32，检验x是否为y的原因；

步骤33，检验y是否为x的原因；

步骤34，重复步骤31至33，直到检验完所有具有强关联关系的指标因果关系。

优选地，所述步骤3或步骤4采用下述方法确定一个管理指标是否为另一个管理指标的原因：

步骤a，取其中一个管理指标A，将A对所有A的滞后项At-1，At-2，…，At-q和另一个管理指标B做回归；

步骤b，计算步骤a回归结果的残差平方和RSS_R；

步骤c，将A对所有A的滞后项At-1，At-2，…，At-q和另一个管理指标B以及B的滞后项做回归；

步骤d，计算步骤c回归结果的残差平方和RSS_UR；

步骤e，零假设是B的滞后项不属于此回归；

步骤f，用F检验检验步骤e的零假设；

需要说明的是，步骤e-f根据一定假设条件由样本推断总体，具体做法是：根据问题的需要对所研究的总体作某种假设，即为零假设，此处的零假设是B的滞后项不属于此回归，也就是B不是A的格兰杰原因，F统计量是检验线性回归的参数的显著性的，若通过F统计量的检验B的滞后项会明显的影响A则B的滞后项的系数不为零，及B的滞后项属于此回归。

其中，格兰杰因果关系的定义为：若在包含了变量A,B的过去信息的条件下，对变量B的预测效果要优于只单独由B的过去信息对B进行的预测效果，即变量A有助于解释变量B的将来变化，则认为变量A是引致变量B的格兰杰原因。F统计量是统计学上的定义，此处用F统计量来检验线性回归参数的显著性。

步骤g，根据步骤f的检验结果判断B是否为A的原因。例如，A和B通过灰色关联分析法确定是否强关联，若强关联，则需要A和B哪个是因，哪个是果，或者是互为因果。如果实际中A是B的因，若B出现异常，可以进一步根据因果关系网找到出现异常的根本原因。

优选地，步骤e采用下式进行检验：

优选地，步骤g包括：如果在选定的显著性水平α上计算的F值超过临界Fα值，则拒绝零假设，这样滞后B项就属于此回归，表明B是A的原因。也就是说，α表示原假设为真时，拒绝原假设的概率，1-α为置信度或置信水平，其表明了区间估计的可靠性。

本发明步骤3最终建立的关系网是有向图，而步骤2输出的强关联关系是无向图，步骤2输出的只是关系对及关系对的关联强度，计算两两指标间的关联度，超过关联度阈值的两个指标具有强关联关系，输出这两个指标对及对应的关联度，而小于关联度阈值的指标认为不存在强关联关系。

步骤2输出的结果类似下面：

Node	Node	关联度
			指标1	指标4	0.65
指标1	指标7	0.84
			指标2	指标3	0.66
指标2	指标4	0.69
			…	…	…

上表中两个node没有方向性。有了强因果关系后，指标关系网变为了有向图，

source	Target	关联度
			指标1	指标4	0.65
指标1	指标7	0.84
			指标2	指标3	0.66
指标2	指标4	0.69
			…	…	…

上表中source和Target是有方向性的，由source指向Target。

无向图解决的问题是某个指标和哪些指标是相关的，相关的强度是多少，无向图解决的是某个指标出现问题时，找根源时，是需要找到哪些指标是指向该指标的。有了上述强因果关系列表就有了关系网。其中，关系网是从图的展示的层面说的，关系列表是从图的数据存储层面说的。

有了这个管理指标关系网，当某个指标出现异常时，利用该关系网可以自动定位导致异常的根源指标，不需要人工根据业务关系梳理异常的原因，还有当某个指标异常时，我们可以根据该关系网预测由它指向的其他指标可能会出项异常，在该异常引发更严重的问题之前及时控制并解决。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种指标关系网构建方法，其特征在于，包括：

步骤1，收集同一时间段内所有管理指标的数据；

步骤2，计算所述管理指标中的两个指标之间的关联程度，并输出具有强关联关系的指标对；

步骤3，检验所述指标对内的两个指标之间的因果关系，并根据因果关系赋予该指标对相关性的影响方向。

2.根据权利要求1所述的指标关系网构建方法，其特征在于，所述步骤2包括：

步骤21，对所有管理指标的数据进行标准化处理；

步骤23，计算所述参考数列与比较数列之间的关联系数；

步骤24，计算参考数列与比较数列之间的关联度；

步骤27，设定指标对关联度阈值；

3.根据权利要求2所述的指标关系网构建方法，其特征在于，所述步骤23中的关联系数采用下式计算得到：

ξ_{i} (k) = \frac{\min_{i} \min_{k} | y (k) - x_{i} (k) | + ρ \max_{i} \max_{k} | y (k) - x_{i} (k) |}{| y (k) - x_{i} (k) | + ρ \max_{i} \max_{k} | y (k) - x_{i} (k) |}

其中，y(k)为参考数列，x_i(k)为比较数列，ρ∈(0，∞)为分辨系数，k是数列的每一个值，i是取每一个比较数列。

4.根据权利要求3所述的指标关系网构建方法，其特征在于，所述步骤24通过下式计算关联度：

r_{i} = \frac{1}{n} Σ_{k = 1}^{n} ξ_{i} (k), k = 1, 2, Λ, n

其中，r_i为关联度，ξ_i(k)为关联系数，n为数列的长度。

5.根据权利要求4所述的指标关系网构建方法，其特征在于，所述步骤28中，如果两个管理指标之间的关联度大于等于关联度阈值，则确定这两个管理指标之间存在强关联关系。

6.根据权利要求1所述的指标关系网构建方法，其特征在于，所述步骤3包括：

步骤31，获取具有强关联关系的两个管理指标x和y；

步骤32，检验x是否为y的原因；

步骤33，检验y是否为x的原因；

7.根据权利要求6所述的指标关系网构建方法，其特征在于，所述步骤3或步骤4采用下述方法确定一个管理指标是否为另一个管理指标的原因：

步骤b，计算步骤a回归结果的残差平方和RSS_R；

步骤d，计算步骤c回归结果的残差平方和RSS_UR；

步骤e，零假设是B的滞后项不属于此回归；

步骤f，用F检验检验步骤e的零假设；

步骤g，根据步骤f的检验结果判断B是否为A的原因。

8.根据权利要求7所述的指标关系网构建方法，其特征在于，步骤e采用下式进行检验：

F = \frac{({RSS}_{R} - {RSS}_{U R}) / q}{{RSS}_{U R} / (n - k)}

9.根据权利要求7所述的指标关系网构建方法，其特征在于，步骤g包括：

如果在选定的显著性水平α上计算的F值超过临界Fα值，则拒绝零假设，这样滞后B项就属于此回归，表明B是A的原因。