CN109871396A

CN109871396A - 多样本考评数据的归一化融合方法

Info

Publication number: CN109871396A
Application number: CN201910094578.0A
Authority: CN
Inventors: 肖勇
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: CETC 10 Research Institute; Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-06-11

Abstract

本发明公开的一种多样本考评数据的归一化融合方法，旨在提供一种更加便捷快速，考评更加公平、公正、客观的归一化融合方法，本发明通过下述技术方案予以实现：筛选样本数据、计算每个样本的相关参数；并判断样本是否符合正态分布，对样本进行处理；通过正态分布密度函数以及积分函数，计算样本中每个数据的概率积分值；创建新样本数据表，设定新样本的平均值和标准差；运用概率统计算法对各样本数据进行处理，利用概率积分函数的反函数重新计算所有数据在新样本中归一化后的数据；将所有分散的样本数据融合在一个新的集合中，按照数据大小统一排序。从而实现所有不同打分样本的数据按归一化以后的分值进行统一排序。

Description

多样本考评数据的归一化融合方法

技术领域

本发明涉及一种应用概率统计学的归一化方法，具体说本发明涉及一种对多个考评数据样本进行融合，消除多个考评数据样本标准不一致，以及主观因素的影响，实现多样本考评数据的归一化融合方法。

背景技术

绩效考评是企业人力资源管理的重要手段之一，它关系到企业人才队伍的建设，以及企业的发展。管理者通过定期对员工的绩效考评，及时了解和掌握员工的能力以及发展情况，以便在人力资源管理上做出及时调整。很多企业通过绩效考评来对员工进行考核和评价，并用考评结果直接决定员工的绩效收入，但效果并不好。原因是，企业在考评的过程中，以分组的方式，对员工进行单一打分，最后将各组员工按分值大小统一排序。这样的考评方式因主观因素影响，致使每组打分的标准不同，最后在排序的过程中就会出现不公平的现象。传统的绩效考评方法是按角色分组考评，各组考评者分别对本组成员进行综合打分，最后将各组成员统一按分值排序。这样的考评方式单一，且多为“印象分”、“关系分”或者“偏见分”，最后由于考评者主观因素影响，各组考评标准不一致，使本组整体分值偏高或偏低，各组无法客观的统一排序。

在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和数量级。当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。因此，为了保证结果的可靠性，需要对原始指标数据进行标准化处理。考评数据标准化(归一化)处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的标准和不同的量纲，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。

考评数据分析之前，通常需要先将数据归一化(normalization)，利用归一化后的数据进行数据分析。考评数据归一化就是将不同量纲样本的数据，经过变换，使各指标处于同一数量级，适合进行综合对比评价。归一化就是要把需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内，使数值的绝对值变成某种相对值关系。首先归一化是为了后面数据处理的方便，其次是保正数据的标准化，使之处于同一标准进行分析。考评数据标准化处理主要包括考评数据同趋化处理和无量纲化处理两个方面。考评数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。数据无量纲化处理主要解决考评数据的可比性，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的，为了能够将指标参与评价计算，需要对指标进行规范化处理，通过函数变换将其数值映射到某个数值区间。

考评数据标准化的方法有很多种，常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理，原始数据均转换为无量纲化指标测评值，即各指标值都处于同一个数量级别上，才可以进行综合测评分析。z-score规范化也称零-均值规范化。Z-score标准化方法基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。z-score标准化方法适用于属性A的最大值和最小值未知的情况，或有超出取值范围的离群数据的情况。这种方法给予原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化。小数定标规范化是通过移动属性A的小数点位置来实现的。按小数定标标准化方法是通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x使用decimalscaling标准化到x'的计算方法。

归一化数据的归一化目的是将不同量纲和不同数量级大小的数据转变成可以相互进行数学运算的具有相同量纲和相同数量级的具有可比性的数据。归一化的具体作用是归纳统一样本的统计分布性。在数据处理中，不同的样本数据往往具有不同的分布范围，线性回归是一种回归分析技术，回归分析本质上就是一个函数估计的问题(函数估计包括参数估计和非参数估计)，就是找出因变量和自变量之间的因果关系。回归分析的因变量应该是连续变量，若因变量为离散变量，则问题转化为分类问题。

考评数据统计分析，由于量纲和标准不同的存在，使其计算结果会不同。因此，亟需一种能将多个考评分样本进行数据归一化融合的方法。

发明内容

为了将多个考评分样本进行客观的综合排序，本发明提出了一种更加便捷快速，考评更加公平、公正、客观的多样本考评数据的归一化融合方法。

本发明实现上述目的，本发明提供的一种多样本考评数据的归一化融合方法，其特征在于包括如下步骤：首先读入考评样本数据、筛选样本数据、计算每个样本中的相关参数，包括平均值、标准差；判断样本的相关参数是否符合正态分布，对数据的有效性进行预处理；通过正态分布密度函数，以及其积分函数，计算样本中每个数据的概率积分值；创建新考评样本数据表，设定新样本数据的平均值和标准差；根据数据在归一化前后样本中概率积分不变的原理，运用概率统计算法将多个考评数据样本进行数据归一化融合，然后按照新样本设定的标准差和平均值，以及已知的概率积分值，利用概率积分函数的反函数，重新计算所有数据在新样本中归一化后的数据；将所有分散的样本数据融合在一个新的集合中，对新的数据集合按照数据大小进行统一排序。从而实现所有不同打分样本的数据融合按归一化以后的分值进行统一排序。

本发明相比于现有技术具有如下有益效果。

考评数据处理更加便捷快速。本发明采用筛选样本数据、创建新考评样本数据表，对数据的有效性进行预处理，运用概率统计算法将多个考评数据样本进行数据归一化融合，通过归一化后的数据处在同一标准中，使得同一标准的数据处理更加便捷快速。

考评更加公平、公正、客观。本发明运用概率统计算法，将多个考评数据样本进行数据归一化融合。计算每个数据在原样本中的相关参数，根据数据在归一化前后样本中概率积分不变的原理。按照设定新样本的参数，利用概率积分函数的反函数，重新计算所有数据在新样本中归一化后的数据，将所有分散的样本数据融合在一个新的集合中，按照数据大小统一排序。通过归一化处理，使所有样本数据映射到一个统一的新标准集合中，避免了不同考评标准计算产生的巨大影响。同时，消除主观因素影响，使考评更加公平、公正、客观。

附图说明

图1为本发明多样本考评数据的归一化融合数据处理流程图。

图2为本发明归一化算法的流程图。

以下结合附图，对本发明上述的和另外的技术特征和优点做更详细的说明。此处所描述的具体实施例仅仅用以解释本发明，并不用以限定本发明。

具体实施方式

参阅图1。根据本发明，首先读入考评样本数据、筛选样本数据、计算每个样本中的相关参数，包括平均值、标准差；判断样本的相关参数是否符合正态分布，对数据的有效性进行预处理；通过正态分布密度函数，以及其积分函数，计算样本中每个数据的概率积分值；创建新考评样本数据表，设定新样本数据的平均值和标准差；根据数据在归一化前后样本中概率积分不变的原理，运用概率统计算法将多个考评数据样本进行数据归一化融合，然后按照新样本设定的标准差和平均值，以及已知的概率积分值，利用概率积分函数的反函数，重新计算所有数据在新样本中归一化后的数据；将所有分散的样本数据融合在一个新的集合中，对新的数据集合按照数据大小进行统一排序。从而实现所有不同打分样本的数据融合按归一化以后的分值进行统一排序。

在以下描述的可选实施例中，采用如下步骤：

步骤1：首先读入考评数据，判断数据格式是否满足要求，分析考评数据样本是否满足中间分值数据集中，高低分值数据偏少的情况，样本是否符合正态分布。

步骤2：对数据的有效性进行预处理后，计算所有考评数据样本的相关参数，平均值μ，标准差σ两个参数。

步骤3：根据每个样本计算的平均值μ，标准差σ，利用正态分布密度函数，以及其积分函数，计算对应数据概率积分值，计算的概率积分值，而不是概率值。

步骤4：创建一个新的归一化考评数据样本，为新样本设定平均值，以及标准差；根据设定的归一化样本参数，以及已知的概率积分值，通过概率累积函数的反函数，计算归一化以后的新考评数据。

参阅图2。计算各样本的平均值、标准差：首先对样本进行数据有效性筛选，分析样本数据是否满足正态分布的特点，判断数据有效性，其样本数据特点须满足：中间分值数据集中，偏大或偏小的数据较少，对样本进行数据有效性筛选后构建样本数据表1、样本数据表2，对样本数据表1(样本数据A)、样本数据表2(样本数据B)，进行数据归一化融合处理，计算各样本的平均值μ，标准差σ。

表1样本数据A

M	A1	A2	A3	A4	A5	A6	A7	A8	A9	A10	A11	A12
													Y	96	92	87.5	86	86	85	84.5	82	81	80	78	65
G	0.95	0.87	0.70	0.63	0.63	0.58	0.55	0.42	0.36	0.31	0.22	0.01
													X	83.37	82.28	81.06	80.66	80.66	80.38	80.25	79.57	79.30	79.03	78.49	74.96

表2样本数据B

M	B1	B2	B3	B4	B5	B6	B7	B8	B9	B10	B11	B12
													Y	9.5	8.5	8.2	8.2	8.0	7.8	7.8	7.7	7.5	7.2	7.0	6.8
G	0.99	0.82	0.69	0.69	0.59	0.47	0.47	0.41	0.31	0.18	0.11	0.07
													X	84.74	81.87	81.01	81.01	80.43	79.86	79.86	79.57	78.99	78.13	77.56	76.98

注：表中M表示名称，Y表示原始数据，X表示新数据，G表示概率积分值。

表3样本数据融合排序表

1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16
																B1	A1	A2	B2	A3	B3	B4	A4	A5	B5	A6	A7	B6	B7	A8	B8
84.74	83.37	82.28	81.87	81.06	81.01	81.01	80.66	80.66	80.43	80.38	80.25	79.86	79.86	79.57	79.57

计算样本中各数据的概率积分：利用正态分布密度函数以及其积分函数计算样本中各数据对应的概率积分值，如样本数据表中的第三行，为计算所得各数据在样本中的概率积分值；式中，e为自然常数、x表示样本中的数据、t表示积分变量。

设定新样本的平均值、标准差：创建新样本数据，并设定新样本参数，如平均值为80，标准差为2；

按照新样本相关参数，计算归一化后的新数据：根据设定的新样本参数，以及已知的各数据概率积分值，利用概率积分函数的反函数计算各样本数据归一化后的新数据，如样本数据表中的第四行，为归一化后的新数据，式中，t表示积分变量。

首先读入考评样本数据，构建样本数据表1、样本数据表2；观察样本数据(Y行)，具有中间分值数据集中，偏大或偏小的数据较少的特点，符合正态分布；

计算样本的平均值

计算样本的标准差

利用计算样本各数据的概率积分，如G行为各数据的概率积分值；

创建一个如表3所示，包含所有原样本A1-A12，B1-B12的新集合样本，并设定新样本的平均值为80，标准差为2；利用计算归一化后的数据，如表3中的第三行数据，为归一化后的新数据。表3中，通过计算归一化后的新数据，融合了两个不同标准的样本数据，并进行统一排序。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改、甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种多样本考评数据的归一化融合方法，其特征在于包括如下步骤：首先读入考评样本数据、筛选样本数据、计算每个样本中的相关参数，包括平均值、标准差；判断样本的相关参数是否符合正态分布，对数据的有效性进行预处理；通过正态分布密度函数，以及其积分函数，计算样本中每个数据的概率积分值；创建新考评样本数据表，设定新样本数据的平均值和标准差；根据数据在归一化前后样本中概率积分不变的原理，运用概率统计算法将多个考评数据样本进行数据归一化融合，然后按照新样本设定的标准差和平均值，以及已知的概率积分值，利用概率积分函数的反函数，重新计算所有数据在新样本中归一化后的数据；将所有分散的样本数据融合在一个新的集合中，对新的数据集合按照数据大小进行统一排序；

从而实现所有不同打分样本的数据融合按归一化以后的分值进行统一排序。

2.如权利要求1所述的多样本考评数据的归一化融合方法，其特征在于：读入考评数据，判断数据格式是否满足要求，分析考评数据样本是否满足中间分值数据集中，高低分值数据偏少的情况，样本是否符合正态分布。

3.如权利要求2所述的多样本考评数据的归一化融合方法，其特征在于：对数据的有效性进行预处理后，计算所有考评数据样本的相关参数，平均值μ，标准差σ两个参数。

4.如权利要求3所述的多样本考评数据的归一化融合方法，其特征在于：根据每个样本计算的平均值μ，标准差σ，利用正态分布密度函数，以及其积分函数，计算对应数据概率积分值。

5.如权利要求4所述的多样本考评数据的归一化融合方法，其特征在于：创建一个新的归一化考评数据样本，为新样本设定平均值，以及标准差；根据设定的新样本参数，以及已知的概率积分值，通过概率累积函数的反函数，计算归一化以后的新考评数据。

6.如权利要求5所述的多样本考评数据的归一化融合方法，其特征在于：在计算各样本的平均值、标准差中，对样本进行数据有效性筛选后构建样本数据表1、样本数据表2，并进行数据归一化融合处理，计算各样本的平均值μ，标准差σ。

7.如权利要求6所述的多样本考评数据的归一化融合方法，其特征在于：在计算样本中各数据的概率积分中，利用正态分布密度函数以及其积分函数计算样本中各数据对应的概率积分值，式中，e为自然常数、x表示样本中的数据、t表示积分变量。

8.如权利要求7所述的多样本考评数据的归一化融合方法，其特征在于：在计算样本中每个数据的概率积分值后，创建新样本，并设定新样本的平均值、标准差，如设定新样本平均值为80，标准差为2。

9.如权利要求8所述的多样本考评数据的归一化融合方法，其特征在于：按照新样本相关参数，计算归一化后的新数据，根据设定的新样本参数，以及已知的各数据概率积分值，利用概率积分函数的反函数计算各样本数据归一化后的新数据，如样本数据表中的第四行，为归一化后的新数据。

10.如权利要求9所述的多样本考评数据的归一化融合方法，其特征在于计算样本的平均值μ_A＝83.58，μ_B＝7.85；计算样本的标准差σ_A＝7.38，σ_B＝0.7；利用计算样本各数据的概率积分，创建一个并包含了所有原样本A1-A12，B1-B12的新集合样本，利用计算归一化后的数据。