CN106855884A - 数据相关性的识别方法及装置 - Google Patents

数据相关性的识别方法及装置 Download PDF

Info

Publication number
CN106855884A
CN106855884A CN201611202418.6A CN201611202418A CN106855884A CN 106855884 A CN106855884 A CN 106855884A CN 201611202418 A CN201611202418 A CN 201611202418A CN 106855884 A CN106855884 A CN 106855884A
Authority
CN
China
Prior art keywords
variation
data
degree
target variable
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611202418.6A
Other languages
English (en)
Inventor
江颖
黄仕玲
吴国斌
张馨
钟山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Wislife Intelligent Technology Co Ltd
Original Assignee
Guangzhou Wislife Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Wislife Intelligent Technology Co Ltd filed Critical Guangzhou Wislife Intelligent Technology Co Ltd
Priority to CN201611202418.6A priority Critical patent/CN106855884A/zh
Publication of CN106855884A publication Critical patent/CN106855884A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种数据相关性的识别方法及装置,方法包括:读取csv格式的数据文件并输入数据;csv格式的数据文件包含影响变量和目标变量,影响变量分为连续型的影响变量和离散型的影响变量;采取众数的方法对输入的数据进行缺失值补全;采用卡方分裂算法对连续型的影响变量做离散化处理,得到离散型的影响变量;计算出每个离散型的影响变量中各个属性的信息熵;依据目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个离散型的影响变量对于目标变量的相关程度;按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。本发明能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间。

Description

数据相关性的识别方法及装置
技术领域
本发明涉及数据相关性识别领域,特别涉及一种数据相关性的识别方法及装置。
背景技术
在衡量影响变量对目标变量的相关密切程度时,传统的方法是根据影响变量与目标变量之间的相关性分析,从而衡量影响变量对目标变量的相关密切程度。由于数据类型又分为连续型和离散型,传统方法中主要是针对影响变量和目标变量都为连续型数据的情形,而对于离散型数据很难计算它们之间的相关密切程度,由于不能计算离散型数据之间的相关密切程度,造成传统的相关性的识别方法使用受限。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间的数据相关性的识别方法及装置。
本发明解决其技术问题所采用的技术方案是:构造一种数据相关性的识别方法,包括如下步骤:
A)读取csv格式的数据文件并输入数据;所述csv格式的数据文件包含影响变量和目标变量,所述影响变量分为连续型的影响变量和离散型的影响变量;
B)采取众数的方法对输入的所述数据进行缺失值补全;
C)采用卡方分裂算法对所述连续型的影响变量做离散化处理,得到离散型的影响变量;
D)计算出每个所述离散型的影响变量中各个属性的信息熵;
E)依据所述目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个所述离散型的影响变量对于所述目标变量的相关程度;
F)按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。
在本发明所述的数据相关性的识别方法中,所述步骤A)进一步包括:
A1)读取所述csv格式的数据文件,并判断是否找到所述csv格式的数据文件,如是,执行步骤A2);否则,退出;
A2)校验输入的所述数据是否具有所述目标变量且所述目标变量为二元变量,如是,执行步骤B);否则,报错后返回步骤A1)。
在本发明所述的数据相关性的识别方法中,所述步骤E)中相关程度的计算公式为iv=(ln(p1/p0))×(p1-p0),其中,iv为离散型的影响变量对于目标变量的相关程度,p1为坏样本占总体的比例,p0为好样本占总体的比例。
在本发明所述的数据相关性的识别方法中,所述csv格式的数据文件的最后一列为所述目标变量。
在本发明所述的数据相关性的识别方法中,每个所述离散型的影响变量中属性的个数小于或等于6。
本发明还涉及一种实现上述数据相关性的识别方法的装置,其特征在于,包括:
文件读取单元:用于读取csv格式的数据文件并输入数据;所述csv格式的数据文件包含影响变量和目标变量,所述影响变量分为连续型的影响变量和离散型的影响变量;
缺失值补全单元:用于采取众数的方法对输入的所述数据进行缺失值补全;
离散化处理单元:用于采用卡方分裂算法对所述连续型的影响变量做离散化处理,得到离散型的影响变量;
信息熵计算单元:用于计算出每个所述离散型的影响变量中各个属性的信息熵;
相关程度计算单元:用于依据所述目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个所述离散型的影响变量对于所述目标变量的相关程度;
排列输出单元:用于按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。
在本发明所述的装置中,所述文件读取单元进一步包括:
读取判断模块:用于读取所述csv格式的数据文件,并判断是否找到所述csv格式的数据文件,如是,进入校验模块;否则,退出;
校验模块:用于校验输入的所述数据是否具有所述目标变量且所述目标变量为二元变量,如是,进入所述缺失值补全单元;否则,报错后返回所述读取判断模块。
在本发明所述的装置中,所述相关程度计算单元中相关程度的计算公式为iv=(ln(p1/p0))×(p1-p0),其中,iv为离散型的影响变量对于目标变量的相关程度,p1为坏样本占总体的比例,p0为好样本占总体的比例。
在本发明所述的装置中,所述csv格式的数据文件的最后一列为所述目标变量。
在本发明所述的装置中,每个所述离散型的影响变量中属性的个数小于或等于6。
实施本发明的数据相关性的识别方法及装置,具有以下有益效果:由于采用卡方分裂算法对所述连续型的影响变量做离散化处理,得到离散型的影响变量;然后计算出每个离散型的影响变量中各个属性的信息熵;依据目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个离散型的影响变量对于目标变量的相关程度;其能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据相关性的识别方法及装置一个实施例中方法的流程图;
图2为所述实施例中读取csv格式的数据文件并输入数据的具体流程图;
图3为所述实施例中装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明数据相关性的识别方法及装置实施例中,其数据相关性的识别方法的流程图如图1所示。图1中,该数据相关性的识别方法包括如下步骤:
步骤S01读取csv格式的数据文件并输入数据:本步骤中,读取csv格式的数据文件,并输入数据。该csv格式的数据文件包含影响变量和目标变量,影响变量分为连续型的影响变量和离散型的影响变量。值得一提的是,可以将该csv格式的数据文件的最后一列作为目标变量,也就是固定csv格式的数据文件的最后一列为目标变量(y),当y为0时表示坏样本,当y为1时表示好样本。当然,在本实施例的另外一些情况下,也可以将csv格式的数据文件的其他列作为目标变量。
步骤S02采取众数的方法对输入的数据进行缺失值补全:本步骤主要是进行数据预处理,具体的,本步骤中,采取众数的方法对输入的数据进行缺失值补全。
步骤S03采用卡方分裂算法对连续型的影响变量做离散化处理,得到离散型的影响变量:本步骤中,采用卡方分裂算法对连续型的影响变量做离散化处理,这样就得到离散型的影响变量。
步骤S04计算出每个离散型的影响变量中各个属性的信息熵:本步骤中,计算出每个离散型的影响变量中各个属性的信息熵,比如:离散型的影响变量是性别,属性就包括男和女。值得一提的是,本实施例中,每个离散型的影响变量划分的变量不超过6个,也相当于每个离散型的影响变量中属性的个数小于或等于6,比如将性别划分为2个:男和女;将年龄划分为6个,分别是:0-18、19-24、25-30、31-40、40-60、60以上。本步骤中实际就是计算每个离散型的影响变量中各个区间的信息熵。
步骤S05依据目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个离散型的影响变量对于目标变量的相关程度:本步骤中,依据目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个离散型的影响变量对于目标变量的相关程度。优选的,该步骤中相关程度的计算公式为iv=(ln(p1/p0))×(p1-p0),其中,iv为离散型的影响变量对于目标变量的相关程度,p1为坏样本占总体的比例,p0为好样本占总体的比例。
步骤S06按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表:本步骤中,按照相关程度从大到小的顺序进行排列,然后将相关程度计算结果列表进行输出。
本发明的方法对比传统的相关性分析,改善了传统技术不能处理离散型变量的缺点,并且能够计算出各个离散型的影响变量的有效区间,使得用户能够更加直观地知道该离散型的影响变量的强有效区间。因此可知,本发明的方法能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间。
对于本实施例而言,上述步骤S01还可进一步细化,其细化后的流程图如图2所示。图2中,上述步骤S01进一步包括:
步骤S101读取csv格式的数据文件,并判断是否找到csv格式的数据文件:本步骤中,读取csv格式的数据文件,并判断是否找到csv格式的数据文件,如果判断的结果为是,则执行步骤S103;否则,执行步骤S102。
步骤S102退出:如果上述步骤S101的判断结果为否,即未找到sv格式的数据文件,则执行本步骤。本步骤中,直接退出流程。
步骤S103校验输入的数据是否具有目标变量且目标变量为二元变量:如果上述步骤S101的判断结果为是,即找到了csv格式的数据文件,则执行本步骤。本步骤中,校验输入的数据是否符合要求,即是校验输入的数据是否具有目标变量,且该目标变量是否为二元变量(即0、1),本步骤中,如果判断的结果为是,则执行步骤S02;否则,执行步骤S104。
步骤S104报错:如果上述步骤S103的判断结果为否,则执行本步骤。本步骤中,进行报错。执行完本步骤,返回步骤S101。这就完成了对输入数据的校验,通过校验,可以提高识别的精度。
本实施例还涉及一种实现上述数据相关性的识别方法的装置,其结构示意图如图3所示。图3中,该装置包括文件读取单元1、缺失值补全单元2、离散化处理单元3、信息熵计算单元4、相关程度计算单元5和排列输出单元6,其中,文件读取单元1用于读取csv格式的数据文件并输入数据;上述csv格式的数据文件包含影响变量和目标变量,该影响变量分为连续型的影响变量和离散型的影响变量;csv格式的数据文件的最后一列为目标变量。当然,在本实施例的另外一些情况下,也可以将csv格式的数据文件的其他列作为目标变量。
本实施例中,缺失值补全单元2用于采取众数的方法对输入的数据进行缺失值补全;离散化处理单元3用于采用卡方分裂算法对连续型的影响变量做离散化处理,得到离散型的影响变量;信息熵计算单元4用于计算出每个离散型的影响变量中各个属性的信息熵;每个离散型的影响变量中属性的个数小于或等于6。
本实施例中,相关程度计算单元5用于依据目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个离散型的影响变量对于目标变量的相关程度;相关程度计算单元5中相关程度的计算公式为iv=(ln(p1/p0))×(p1-p0),其中,iv为离散型的影响变量对于目标变量的相关程度,p1为坏样本占总体的比例,p0为好样本占总体的比例。排列输出单元6用于按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。
本发明的装置对比传统的相关性分析,改善了传统技术不能处理离散型变量的缺点,并且能够计算出各个离散型的影响变量的有效区间,使得用户能够更加直观地知道该离散型的影响变量的强有效区间。因此可知,本发明的方法能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间。
本实施例中,文件读取单元1进一步包括读取判断模块11和校验模块12;其中,读取判断模块11用于读取csv格式的数据文件,并判断是否找到csv格式的数据文件,如是,进入校验模块12;否则,退出;校验模块12用于校验输入的数据是否具有目标变量且目标变量为二元变量,如是,进入缺失值补全单元2;否则,报错后返回读取判断模块11。这就完成了对输入数据的校验,通过校验,可以提高识别的精度。
总之,本发明能改善传统技术不能处理离散型变量的缺点、用户能够更加直观地知道影响变量的强有效区间,其不仅适用于连续型的影响变量,还适用于离散型的影响变量,应用范围较为广泛。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据相关性的识别方法,其特征在于,包括如下步骤:
A)读取csv格式的数据文件并输入数据;所述csv格式的数据文件包含影响变量和目标变量,所述影响变量分为连续型的影响变量和离散型的影响变量;
B)采取众数的方法对输入的所述数据进行缺失值补全;
C)采用卡方分裂算法对所述连续型的影响变量做离散化处理,得到离散型的影响变量;
D)计算出每个所述离散型的影响变量中各个属性的信息熵;
E)依据所述目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个所述离散型的影响变量对于所述目标变量的相关程度;
F)按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。
2.根据权利要求1所述的数据相关性的识别方法,其特征在于,所述步骤A)进一步包括:
A1)读取所述csv格式的数据文件,并判断是否找到所述csv格式的数据文件,如是,执行步骤A2);否则,退出;
A2)校验输入的所述数据是否具有所述目标变量且所述目标变量为二元变量,如是,执行步骤B);否则,报错后返回步骤A1)。
3.根据权利要求1或2所述的数据相关性的识别方法,其特征在于,所述步骤E)中相关程度的计算公式为iv=(ln(p1/p0))×(p1-p0),其中,iv为离散型的影响变量对于目标变量的相关程度,p1为坏样本占总体的比例,p0为好样本占总体的比例。
4.根据权利要求1或2所述的数据相关性的识别方法,其特征在于,所述csv格式的数据文件的最后一列为所述目标变量。
5.根据权利要求1所述的数据相关性的识别方法,其特征在于,每个所述离散型的影响变量中属性的个数小于或等于6。
6.一种实现如权利要求1所述的数据相关性的识别方法的装置,其特征在于,包括:
文件读取单元:用于读取csv格式的数据文件并输入数据;所述csv格式的数据文件包含影响变量和目标变量,所述影响变量分为连续型的影响变量和离散型的影响变量;
缺失值补全单元:用于采取众数的方法对输入的所述数据进行缺失值补全;
离散化处理单元:用于采用卡方分裂算法对所述连续型的影响变量做离散化处理,得到离散型的影响变量;
信息熵计算单元:用于计算出每个所述离散型的影响变量中各个属性的信息熵;
相关程度计算单元:用于依据所述目标变量中坏样本占总体的比例和好样本占总体的比例,计算出每个所述离散型的影响变量对于所述目标变量的相关程度;
排列输出单元:用于按照相关程度从大到小的顺序进行排列,输出相关程度计算结果列表。
7.根据权利要求6所述的实现如权利要求1所述的数据相关性的识别方法的装置,其特征在于,所述文件读取单元进一步包括:
读取判断模块:用于读取所述csv格式的数据文件,并判断是否找到所述csv格式的数据文件,如是,进入校验模块;否则,退出;
校验模块:用于校验输入的所述数据是否具有所述目标变量且所述目标变量为二元变量,如是,进入所述缺失值补全单元;否则,报错后返回所述读取判断模块。
8.根据权利要求6或7所述的实现如权利要求1所述的数据相关性的识别方法的装置,其特征在于,所述相关程度计算单元中相关程度的计算公式为iv=(ln(p1/p0))×(p1-p0),其中,iv为离散型的影响变量对于目标变量的相关程度,p1为坏样本占总体的比例,p0为好样本占总体的比例。
9.根据权利要求6或7所述的实现如权利要求1所述的数据相关性的识别方法的装置,其特征在于,所述csv格式的数据文件的最后一列为所述目标变量。
10.根据权利要求6所述的实现如权利要求1所述的数据相关性的识别方法的装置,其特征在于,每个所述离散型的影响变量中属性的个数小于或等于6。
CN201611202418.6A 2016-12-23 2016-12-23 数据相关性的识别方法及装置 Pending CN106855884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611202418.6A CN106855884A (zh) 2016-12-23 2016-12-23 数据相关性的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611202418.6A CN106855884A (zh) 2016-12-23 2016-12-23 数据相关性的识别方法及装置

Publications (1)

Publication Number Publication Date
CN106855884A true CN106855884A (zh) 2017-06-16

Family

ID=59126436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611202418.6A Pending CN106855884A (zh) 2016-12-23 2016-12-23 数据相关性的识别方法及装置

Country Status (1)

Country Link
CN (1) CN106855884A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423600A (zh) * 2022-08-22 2022-12-02 前海飞算云创数据科技(深圳)有限公司 数据筛选方法、装置、介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423600A (zh) * 2022-08-22 2022-12-02 前海飞算云创数据科技(深圳)有限公司 数据筛选方法、装置、介质及电子设备
CN115423600B (zh) * 2022-08-22 2023-08-04 前海飞算云创数据科技(深圳)有限公司 数据筛选方法、装置、介质及电子设备

Similar Documents

Publication Publication Date Title
US8600119B2 (en) Method and apparatus to relate biometric samples to target FAR and FRR with predetermined confidence levels
US10360540B2 (en) Fuel measurement for fleet vehicles
CN108182433A (zh) 一种表计读数识别方法及系统
CN105631060A (zh) 一种汽车底盘悬架系统静载荷分析数据处理方法
CN109754320A (zh) 一种账户利息校对方法和装置
CN106815725A (zh) 一种交易验证方法和装置
CN102681936B (zh) 一种针对金融系统测试结果的验证方法及装置
CN116167860A (zh) 对账处理方法、装置、电子设备及存储介质
CN106855884A (zh) 数据相关性的识别方法及装置
CN111681071A (zh) 子费用数据生成系统及方法、存储介质和电子设备
CN106682938A (zh) 大数据精准营销模型的构建方法及装置
CN107741906A (zh) 货币基金系统自动化测试方法、装置、设备及存储介质
CN110263239A (zh) 一种发票识别的方法、装置、存储介质及计算机设备
CN110097443A (zh) 一种基于经济事务分类的账务处理方法及其系统
CN104123436A (zh) 一种准确可靠的期间核查方法
CN110084694A (zh) 一种基于数据处理的订单分配方法及相关设备
CN106250755A (zh) 用于生成验证码的方法及装置
CN107451875A (zh) 发票处理方法和装置
CN113447881A (zh) 智能电能表的测量方法、装置及终端设备
Ben Belgacem et al. A penalized Robin approach for solving a parabolic equation with nonsmooth Dirichlet boundary conditions
CN117149618A (zh) 一种软件质量评价方法、装置、终端及存储介质
CN115512488B (zh) 一种基于灵活费率电能表的分时电费计算方法及装置
CN114858482B (zh) 一种车身耐撞性的检测方法及装置
CN109710840A (zh) 文章内容深度的评估方法及装置
CN113989949A (zh) 电子不停车收费etc支付方法、装置、服务器及介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170616