CN106855884A

CN106855884A - 数据相关性的识别方法及装置

Info

Publication number: CN106855884A
Application number: CN201611202418.6A
Authority: CN
Inventors: 江颖; 黄仕玲; 吴国斌; 张馨; 钟山
Original assignee: Guangzhou Wislife Intelligent Technology Co Ltd
Current assignee: Guangzhou Wislife Intelligent Technology Co Ltd
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2017-06-16

Abstract

本发明公开了一种数据相关性的识别方法及装置，方法包括：读取csv格式的数据文件并输入数据；csv格式的数据文件包含影响变量和目标变量，影响变量分为连续型的影响变量和离散型的影响变量；采取众数的方法对输入的数据进行缺失值补全；采用卡方分裂算法对连续型的影响变量做离散化处理，得到离散型的影响变量；计算出每个离散型的影响变量中各个属性的信息熵；依据目标变量中坏样本占总体的比例和好样本占总体的比例，计算出每个离散型的影响变量对于目标变量的相关程度；按照相关程度从大到小的顺序进行排列，输出相关程度计算结果列表。本发明能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间。

Description

数据相关性的识别方法及装置

技术领域

本发明涉及数据相关性识别领域，特别涉及一种数据相关性的识别方法及装置。

背景技术

在衡量影响变量对目标变量的相关密切程度时，传统的方法是根据影响变量与目标变量之间的相关性分析，从而衡量影响变量对目标变量的相关密切程度。由于数据类型又分为连续型和离散型，传统方法中主要是针对影响变量和目标变量都为连续型数据的情形，而对于离散型数据很难计算它们之间的相关密切程度，由于不能计算离散型数据之间的相关密切程度，造成传统的相关性的识别方法使用受限。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间的数据相关性的识别方法及装置。

本发明解决其技术问题所采用的技术方案是：构造一种数据相关性的识别方法，包括如下步骤：

A)读取csv格式的数据文件并输入数据；所述csv格式的数据文件包含影响变量和目标变量，所述影响变量分为连续型的影响变量和离散型的影响变量；

B)采取众数的方法对输入的所述数据进行缺失值补全；

C)采用卡方分裂算法对所述连续型的影响变量做离散化处理，得到离散型的影响变量；

D)计算出每个所述离散型的影响变量中各个属性的信息熵；

E)依据所述目标变量中坏样本占总体的比例和好样本占总体的比例，计算出每个所述离散型的影响变量对于所述目标变量的相关程度；

F)按照相关程度从大到小的顺序进行排列，输出相关程度计算结果列表。

在本发明所述的数据相关性的识别方法中，所述步骤A)进一步包括：

A1)读取所述csv格式的数据文件，并判断是否找到所述csv格式的数据文件，如是，执行步骤A2)；否则，退出；

A2)校验输入的所述数据是否具有所述目标变量且所述目标变量为二元变量，如是，执行步骤B)；否则，报错后返回步骤A1)。

在本发明所述的数据相关性的识别方法中，所述步骤E)中相关程度的计算公式为iv＝(ln(p1/p0))×(p1-p0)，其中，iv为离散型的影响变量对于目标变量的相关程度，p1为坏样本占总体的比例，p0为好样本占总体的比例。

在本发明所述的数据相关性的识别方法中，所述csv格式的数据文件的最后一列为所述目标变量。

在本发明所述的数据相关性的识别方法中，每个所述离散型的影响变量中属性的个数小于或等于6。

本发明还涉及一种实现上述数据相关性的识别方法的装置，其特征在于，包括：

文件读取单元：用于读取csv格式的数据文件并输入数据；所述csv格式的数据文件包含影响变量和目标变量，所述影响变量分为连续型的影响变量和离散型的影响变量；

缺失值补全单元：用于采取众数的方法对输入的所述数据进行缺失值补全；

离散化处理单元：用于采用卡方分裂算法对所述连续型的影响变量做离散化处理，得到离散型的影响变量；

信息熵计算单元：用于计算出每个所述离散型的影响变量中各个属性的信息熵；

相关程度计算单元：用于依据所述目标变量中坏样本占总体的比例和好样本占总体的比例，计算出每个所述离散型的影响变量对于所述目标变量的相关程度；

排列输出单元：用于按照相关程度从大到小的顺序进行排列，输出相关程度计算结果列表。

在本发明所述的装置中，所述文件读取单元进一步包括：

读取判断模块：用于读取所述csv格式的数据文件，并判断是否找到所述csv格式的数据文件，如是，进入校验模块；否则，退出；

校验模块：用于校验输入的所述数据是否具有所述目标变量且所述目标变量为二元变量，如是，进入所述缺失值补全单元；否则，报错后返回所述读取判断模块。

在本发明所述的装置中，所述相关程度计算单元中相关程度的计算公式为iv＝(ln(p1/p0))×(p1-p0)，其中，iv为离散型的影响变量对于目标变量的相关程度，p1为坏样本占总体的比例，p0为好样本占总体的比例。

在本发明所述的装置中，所述csv格式的数据文件的最后一列为所述目标变量。

在本发明所述的装置中，每个所述离散型的影响变量中属性的个数小于或等于6。

实施本发明的数据相关性的识别方法及装置，具有以下有益效果：由于采用卡方分裂算法对所述连续型的影响变量做离散化处理，得到离散型的影响变量；然后计算出每个离散型的影响变量中各个属性的信息熵；依据目标变量中坏样本占总体的比例和好样本占总体的比例，计算出每个离散型的影响变量对于目标变量的相关程度；其能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明数据相关性的识别方法及装置一个实施例中方法的流程图；

图2为所述实施例中读取csv格式的数据文件并输入数据的具体流程图；

图3为所述实施例中装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明数据相关性的识别方法及装置实施例中，其数据相关性的识别方法的流程图如图1所示。图1中，该数据相关性的识别方法包括如下步骤：

步骤S01读取csv格式的数据文件并输入数据：本步骤中，读取csv格式的数据文件，并输入数据。该csv格式的数据文件包含影响变量和目标变量，影响变量分为连续型的影响变量和离散型的影响变量。值得一提的是，可以将该csv格式的数据文件的最后一列作为目标变量，也就是固定csv格式的数据文件的最后一列为目标变量(y)，当y为0时表示坏样本，当y为1时表示好样本。当然，在本实施例的另外一些情况下，也可以将csv格式的数据文件的其他列作为目标变量。

步骤S02采取众数的方法对输入的数据进行缺失值补全：本步骤主要是进行数据预处理，具体的，本步骤中，采取众数的方法对输入的数据进行缺失值补全。

步骤S03采用卡方分裂算法对连续型的影响变量做离散化处理，得到离散型的影响变量：本步骤中，采用卡方分裂算法对连续型的影响变量做离散化处理，这样就得到离散型的影响变量。

步骤S04计算出每个离散型的影响变量中各个属性的信息熵：本步骤中，计算出每个离散型的影响变量中各个属性的信息熵，比如：离散型的影响变量是性别，属性就包括男和女。值得一提的是，本实施例中，每个离散型的影响变量划分的变量不超过6个，也相当于每个离散型的影响变量中属性的个数小于或等于6，比如将性别划分为2个：男和女；将年龄划分为6个，分别是：0-18、19-24、25-30、31-40、40-60、60以上。本步骤中实际就是计算每个离散型的影响变量中各个区间的信息熵。

步骤S05依据目标变量中坏样本占总体的比例和好样本占总体的比例，计算出每个离散型的影响变量对于目标变量的相关程度：本步骤中，依据目标变量中坏样本占总体的比例和好样本占总体的比例，计算出每个离散型的影响变量对于目标变量的相关程度。优选的，该步骤中相关程度的计算公式为iv＝(ln(p1/p0))×(p1-p0)，其中，iv为离散型的影响变量对于目标变量的相关程度，p1为坏样本占总体的比例，p0为好样本占总体的比例。

步骤S06按照相关程度从大到小的顺序进行排列，输出相关程度计算结果列表：本步骤中，按照相关程度从大到小的顺序进行排列，然后将相关程度计算结果列表进行输出。

本发明的方法对比传统的相关性分析，改善了传统技术不能处理离散型变量的缺点，并且能够计算出各个离散型的影响变量的有效区间，使得用户能够更加直观地知道该离散型的影响变量的强有效区间。因此可知，本发明的方法能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间。

对于本实施例而言，上述步骤S01还可进一步细化，其细化后的流程图如图2所示。图2中，上述步骤S01进一步包括：

步骤S101读取csv格式的数据文件，并判断是否找到csv格式的数据文件：本步骤中，读取csv格式的数据文件，并判断是否找到csv格式的数据文件，如果判断的结果为是，则执行步骤S103；否则，执行步骤S102。

步骤S102退出：如果上述步骤S101的判断结果为否，即未找到sv格式的数据文件，则执行本步骤。本步骤中，直接退出流程。

步骤S103校验输入的数据是否具有目标变量且目标变量为二元变量：如果上述步骤S101的判断结果为是，即找到了csv格式的数据文件，则执行本步骤。本步骤中，校验输入的数据是否符合要求，即是校验输入的数据是否具有目标变量，且该目标变量是否为二元变量(即0、1)，本步骤中，如果判断的结果为是，则执行步骤S02；否则，执行步骤S104。

步骤S104报错：如果上述步骤S103的判断结果为否，则执行本步骤。本步骤中，进行报错。执行完本步骤，返回步骤S101。这就完成了对输入数据的校验，通过校验，可以提高识别的精度。

本实施例还涉及一种实现上述数据相关性的识别方法的装置，其结构示意图如图3所示。图3中，该装置包括文件读取单元1、缺失值补全单元2、离散化处理单元3、信息熵计算单元4、相关程度计算单元5和排列输出单元6，其中，文件读取单元1用于读取csv格式的数据文件并输入数据；上述csv格式的数据文件包含影响变量和目标变量，该影响变量分为连续型的影响变量和离散型的影响变量；csv格式的数据文件的最后一列为目标变量。当然，在本实施例的另外一些情况下，也可以将csv格式的数据文件的其他列作为目标变量。

本实施例中，缺失值补全单元2用于采取众数的方法对输入的数据进行缺失值补全；离散化处理单元3用于采用卡方分裂算法对连续型的影响变量做离散化处理，得到离散型的影响变量；信息熵计算单元4用于计算出每个离散型的影响变量中各个属性的信息熵；每个离散型的影响变量中属性的个数小于或等于6。

本实施例中，相关程度计算单元5用于依据目标变量中坏样本占总体的比例和好样本占总体的比例，计算出每个离散型的影响变量对于目标变量的相关程度；相关程度计算单元5中相关程度的计算公式为iv＝(ln(p1/p0))×(p1-p0)，其中，iv为离散型的影响变量对于目标变量的相关程度，p1为坏样本占总体的比例，p0为好样本占总体的比例。排列输出单元6用于按照相关程度从大到小的顺序进行排列，输出相关程度计算结果列表。

本发明的装置对比传统的相关性分析，改善了传统技术不能处理离散型变量的缺点，并且能够计算出各个离散型的影响变量的有效区间，使得用户能够更加直观地知道该离散型的影响变量的强有效区间。因此可知，本发明的方法能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间。

本实施例中，文件读取单元1进一步包括读取判断模块11和校验模块12；其中，读取判断模块11用于读取csv格式的数据文件，并判断是否找到csv格式的数据文件，如是，进入校验模块12；否则，退出；校验模块12用于校验输入的数据是否具有目标变量且目标变量为二元变量，如是，进入缺失值补全单元2；否则，报错后返回读取判断模块11。这就完成了对输入数据的校验，通过校验，可以提高识别的精度。

总之，本发明能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间，其不仅适用于连续型的影响变量，还适用于离散型的影响变量，应用范围较为广泛。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据相关性的识别方法，其特征在于，包括如下步骤：

B)采取众数的方法对输入的所述数据进行缺失值补全；

D)计算出每个所述离散型的影响变量中各个属性的信息熵；

2.根据权利要求1所述的数据相关性的识别方法，其特征在于，所述步骤A)进一步包括：

3.根据权利要求1或2所述的数据相关性的识别方法，其特征在于，所述步骤E)中相关程度的计算公式为iv＝(ln(p1/p0))×(p1-p0)，其中，iv为离散型的影响变量对于目标变量的相关程度，p1为坏样本占总体的比例，p0为好样本占总体的比例。

4.根据权利要求1或2所述的数据相关性的识别方法，其特征在于，所述csv格式的数据文件的最后一列为所述目标变量。

5.根据权利要求1所述的数据相关性的识别方法，其特征在于，每个所述离散型的影响变量中属性的个数小于或等于6。

6.一种实现如权利要求1所述的数据相关性的识别方法的装置，其特征在于，包括：

7.根据权利要求6所述的实现如权利要求1所述的数据相关性的识别方法的装置，其特征在于，所述文件读取单元进一步包括：

8.根据权利要求6或7所述的实现如权利要求1所述的数据相关性的识别方法的装置，其特征在于，所述相关程度计算单元中相关程度的计算公式为iv＝(ln(p1/p0))×(p1-p0)，其中，iv为离散型的影响变量对于目标变量的相关程度，p1为坏样本占总体的比例，p0为好样本占总体的比例。

9.根据权利要求6或7所述的实现如权利要求1所述的数据相关性的识别方法的装置，其特征在于，所述csv格式的数据文件的最后一列为所述目标变量。

10.根据权利要求6所述的实现如权利要求1所述的数据相关性的识别方法的装置，其特征在于，每个所述离散型的影响变量中属性的个数小于或等于6。