CN108536794A - 符合泊松分布的有序多分类变量的数据规格化方法 - Google Patents
符合泊松分布的有序多分类变量的数据规格化方法 Download PDFInfo
- Publication number
- CN108536794A CN108536794A CN201810281245.4A CN201810281245A CN108536794A CN 108536794 A CN108536794 A CN 108536794A CN 201810281245 A CN201810281245 A CN 201810281245A CN 108536794 A CN108536794 A CN 108536794A
- Authority
- CN
- China
- Prior art keywords
- attribute
- data
- equal
- poisson distribution
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000010606 normalization Methods 0.000 claims abstract description 51
- 239000000126 substance Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 6
- 238000005065 mining Methods 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 abstract 1
- 238000007418 data mining Methods 0.000 description 10
- 238000007781 pre-processing Methods 0.000 description 5
- 210000002700 urine Anatomy 0.000 description 5
- OBHRVMZSZIDDEK-UHFFFAOYSA-N urobilinogen Chemical compound CCC1=C(C)C(=O)NC1CC1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(CC3C(=C(CC)C(=O)N3)C)N2)CCC(O)=O)N1 OBHRVMZSZIDDEK-UHFFFAOYSA-N 0.000 description 4
- IOVCWXUNBOPUCH-UHFFFAOYSA-M Nitrite anion Chemical compound [O-]N=O IOVCWXUNBOPUCH-UHFFFAOYSA-M 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000000265 leukocyte Anatomy 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 239000002784 hot electron Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000000941 radioactive substance Substances 0.000 description 1
- 238000009666 routine test Methods 0.000 description 1
- 239000013049 sediment Substances 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000002485 urinary effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明的符合泊松分布的有序多分类变量的数据规格化方法,设数据样本的属性A符合泊松分布,属性A的m个类别经自然编码后的原始值分别为v1、v2、…、vm,vi、vj∈Z且vi≠vj,1≤i≤m,1≤j≤m,样本中属性A的总数量记为N,属性A中类别k下的数量记为nk;有序多分类变量的属性A规格化后的数据值v′k通过公式(1)进行求取:其中,1≤k≤m,
Description
技术领域
本发明涉及一种数据规格化方法,更具体的说,尤其涉及一种的符合泊松分布的有序多分类变量的数据规格化方法。
背景技术
数据规格化是数据预处理的基本过程之一。在医疗、警务、海洋等大数据应用背景下,经常遇到有序多分类变量。这些变量不符合正态分布,使用零均值等现有常规的数据规格化方法,会影响数据挖掘算法的效果。本发明专利对符合泊松分布的有序多分类变量进行分析,有针对性的提出新的数据规格化计算方法,使该类数据规格化效果更好。
现实世界数据库中常常包含许多不完整、不一致、冗余或含有噪声、异常值的数据,因此数据预处理是数据挖掘和知识发现过程中必不可少的重要步骤。数据预处理,指通过数据清洗、数据集成、数据转换、数据规约等方法步骤,为数据挖掘的内核算法提供更有针对性的可用数据,从而有效提高数据挖掘的效率和质量。数据预处理过程之一,数据转换(data transformation),主要是对数据进行规格化(normalization)操作,有时也称归一化。
数据规格化就是将一个属性取值范围投射到一个特定范围之内,以消除数值型属性因大小不一或量纲不同而造成的挖掘结果的偏差。在正式进行数据挖掘之前,尤其是使用基于对象距离的挖掘算法时,如神经网络、最近邻分类、聚类等,必须进行数据规格化。采用规格化后的数据不仅有助于确保数据挖掘的正确性,消除因属性取值范围不同而导致对数据挖掘结果的影响,还有助于提高挖掘算法的速度和效率。
目前数据规格化方法包括:最大最小规格化方法、零均值规格化方法、十基数变换规格化方法、非线性变换规格化方法等。十基数变换规格化方法,通过移动属性值的小数点位置来进行数据规格化,适用于因量纲数量级影响数据挖掘的情况。非线性变换规格化方法通过log、正切等数学函数进行数据规格化,适用于数据分布符合非线性函数曲线的情况。实际应用中被经常使用的规格化方法是最大最小规格化方法、零均值规格化方法,在常用的语言程序(如Matlab、R)或机器学习库(如scikit-learn)中均有函数可方便实现。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种符合泊松分布的有序多分类变量的数据规格化方法。
本发明的符合泊松分布的有序多分类变量的数据规格化方法,设数据样本的属性A符合泊松分布,属性A具有m个类别,属性A的m个类别经自然编码后的原始值分别为v1、v2、…、vm,vi、vj∈Z且vi≠vj,1≤i≤m,1≤j≤m,即属性A的原始值为m个正整数的集合;样本中属性A的总数量记为N,属性A中类别k下的数量记为nk,1≤k≤m,则满足
其特征在于,有序多分类变量的属性A规格化后的数据值vk'通过公式(1)进行求取:
其中,1≤k≤m,为属性A中m个类别原始值的均值,其通过如下公式进行求取:
本发明的符合泊松分布的有序多分类变量的数据规格化方法,属性A的m个类别经自然编码后的原始值v1、v2、…、vm分别为1、2、…、m;医学上某项检查利用物质浓度的分区间标定结果作为数据样本时,原始值v1=1表示检测结果为阴性。
本发明的有益效果是:本发明的符合泊松分布的有序多分类变量的数据规格化方法,摒弃了采用最大最小规格化方法、零均值规格化方法对符合泊松分布的有序多分类变量进行处理,通过实践和总结,提出了一种全新的对符合泊松分布的有序多分类变量进行规格化的方法,使得处理后的变量可应用在如神经网络、最近邻分类、聚类等基于对象距离的挖掘算法中,有益效果显著,适于应用推广。
具体实施方式
下面结合实施例对本发明作进一步说明。
为了说明本发明的数据规格化方法与现有数据处理方法的区别,首先对最大最小规格化方法和零均值规格化方法进行详细说明。
最大最小规格化方法,是对属性的原始数据进行一种线性转换。假设minA和maxA为属性A的最小和最大值,属性A的原始数据值为v,规格化后数据值为v',规格化后的区间为[new_minA,new_maxA],即v'∈[new_minA,new_maxA],则v'由公式(3)进行计算:
该方法保留了原来数据中存在的关系,但是当属性A出现新的输入值在原数据值域之外时,将引起系统出错,导致规格化效果变差。
零均值规格化方法,是根据属性A的均值和方差进行规格化,属性A的原始数据值为v,规格化后数据值为v',则v'由公式(4)进行计算:
其中,和σA分别为属性A的均值和标准差。该方法假设属性A的原始数据分布可以近似为高斯分布,否则规格化的效果会变差。零均值规格化方法是最常用的数据规格化方法。
在大数据挖掘中,有些符合泊松分布的数据使用以上数据规格化方法均不合适,特别是对于一些“有序多分类变量”而言。例如,在医学数据预处理中,尿常规检测数据的很多属性,如白细胞、亚硝酸盐、尿胆原、蛋白质等,通常得到的检测结果是“阴性(-)、微量(+-)、少量(+)、中量(++)、大量(+++)”等一系列指标值。这些指标值代表的检验科医生使用传统的尿沉渣检验法或尿干化学仪,对尿液标本进行检测后,对标本里各属性代表物质浓度的分区间标定结果。该类属性无法按数据自然大小当作连续型变量处理,通常按照因变量影响由小到大的顺序编码为“1、2、3、……”的自然数。此时若使用零均值规格化公式(4)计算v',分母的方差值通常很小(一般小于0.1),阳性指标的属性值v'会出现较大的特异性,有时还会超出正态分布z值表的取值范围,从而对数据挖掘算法产生影响。针对这样的属性数据,现有常规的数据规格化方法不再适用。如采用本发明中的方法进行数据规格化,将会取得比其他规格化方法更好的效果。
泊松分布是最重要的离散分布之一,当一个随机事件,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数k就服从泊松分布P,用公式(5)计算:
其中固定参数λ是一个正数,P代表单位时间(或单位面积)内随机事件的平均发生率。泊松分布在数据处理领域应用十分广泛,许多随机现象都服从或近似服从泊松分布,如社会生活中,对服务的各种要求,如某电话交换台收到的呼叫数、来到某公共汽车站的乘客数等都近似服从泊松分布;物理学中,放射性物质发射出的粒子数、热电子的发射数等都服从泊松分布;另外,机器出现的故障、各类事故、自然灾害等也都服从泊松分布。因此泊松分布在运筹学、管理科学中占有很突出的地位。因此,本专利发明的数据规格化方法在医疗、警务、海洋大数据等诸多方面都有着广泛的应用基础。
以尿常规检测的白细胞、亚硝酸盐、尿胆原、蛋白质等属性为例,这些属性数据满足以下三个条件:(1)在健康人群中该属性指标为阳性是小概率事件;(2)在健康人群中该属性指标是否为阳性是独立的,不同人之间不相互影响;(3)从中长期看,标准量级的健康人群(比如每万人)该指标为阳性的数量(可能代表某些疾病的发生率)是稳定的。因此,这些属性数据从统计学讲,都是具有增量平稳性的独立增量随机过程,符合泊松分布,其通过以下方法进行数据规格化处理:
设数据样本的属性A符合泊松分布,属性A具有m个类别,属性A的m个类别经自然编码后的原始值分别为v1、v2、…、vm,vi、vj∈Z且vi≠vj,1≤i≤m,1≤j≤m,即属性A的原始值为m个正整数的集合;样本中属性A的总数量记为N,属性A中类别k下的数量记为nk,1≤k≤m,则满足
其特征在于,有序多分类变量的属性A规格化后的数据值v′k通过公式(1)进行求取:
其中,1≤k≤m,为属性A中m个类别原始值的均值,其通过如下公式进行求取:
属性A的m个类别经自然编码后的原始值v1、v2、…、vm可分别取为1、2、…、m;医学上某项检查利用物质浓度的分区间标定结果作为数据样本时,原始值v1=1表示检测结果为阴性。
下面以科研工作中实际采集的一个小样本数据进行计算举例比较说明,样本符合泊松分布的有序多分类变量,样本数据如表1所示。
表1
表1中为尿常规检测的白细胞指标,可见为阴性(-)的为133人,其编码后原始值为1;为阳性(+-)的为11人,其编码后原始值为2;为阳性(+)的为4人,其编码后的原始值为3;为阳性(++)的为1人,其编码后的原始值为4;为阳性(+++)的为1人,其编码后的原始值为5。如果采用公式(4)的零均值规格化方法对编码后的原始值进行处理,其获取的规格化后属性值v′分别为-0.308043034248、1.46912831718、3.24629966862、5.02347102005、6.80064237148。
采用本发明的数据规格化方法进行处理时,当k=1,即属性类别为阴性(-)时,规格化后的v′1通过以下公式求取:
当k=2时:
通过同样的方法,可求得v′3、v′4、v′5的值分别为0.647152574068608、2.628294180533355、2.652104511088709。
本发明的规格化方法,更适于对符合泊松分布的有序多分类变量进行规格化处理,其处理后的数据更适于应用在如神经网络、最近邻分类、聚类等基于对象距离的挖掘算法中。
Claims (2)
1.一种符合泊松分布的有序多分类变量的数据规格化方法,设数据样本的属性A符合泊松分布,属性A具有m个类别,属性A的m个类别经自然编码后的原始值分别为v1、v2、…、vm,vi、vj∈Z且vi≠vj,1≤i≤m,1≤j≤m,即属性A的原始值为m个正整数的集合;样本中属性A的总数量记为N,属性A中类别k下的数量记为nk,1≤k≤m,则满足
其特征在于,有序多分类变量的属性A规格化后的数据值v′k通过公式(1)进行求取:
其中,1≤k≤m,为属性A中m个类别原始值的均值,其通过如下公式进行求取:
2.根据权利要求1所述的符合泊松分布的有序多分类变量的数据规格化方法,其特征在于:属性A的m个类别经自然编码后的原始值v1、v2、…、vm分别为1、2、…、m;医学上某项检查利用物质浓度的分区间标定结果作为数据样本时,原始值v1=1表示检测结果为阴性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810281245.4A CN108536794A (zh) | 2018-04-02 | 2018-04-02 | 符合泊松分布的有序多分类变量的数据规格化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810281245.4A CN108536794A (zh) | 2018-04-02 | 2018-04-02 | 符合泊松分布的有序多分类变量的数据规格化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108536794A true CN108536794A (zh) | 2018-09-14 |
Family
ID=63482198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810281245.4A Pending CN108536794A (zh) | 2018-04-02 | 2018-04-02 | 符合泊松分布的有序多分类变量的数据规格化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108536794A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140348286A1 (en) * | 2004-09-24 | 2014-11-27 | Lawrence Livermore National Security, Llc | Neutron detection using poisson distribution comparison independent of count rate based on correlation signals |
CN104517040A (zh) * | 2014-12-31 | 2015-04-15 | 青岛海信网络科技股份有限公司 | 一种基于ic卡数据公交车辆车内拥挤程度计算方法 |
CN106504029A (zh) * | 2016-11-08 | 2017-03-15 | 山东大学 | 一种基于客户群体行为分析的加油站销量预测方法 |
CN107402381A (zh) * | 2017-07-11 | 2017-11-28 | 西北工业大学 | 一种迭代自适应的多机动目标跟踪方法 |
-
2018
- 2018-04-02 CN CN201810281245.4A patent/CN108536794A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140348286A1 (en) * | 2004-09-24 | 2014-11-27 | Lawrence Livermore National Security, Llc | Neutron detection using poisson distribution comparison independent of count rate based on correlation signals |
CN104517040A (zh) * | 2014-12-31 | 2015-04-15 | 青岛海信网络科技股份有限公司 | 一种基于ic卡数据公交车辆车内拥挤程度计算方法 |
CN106504029A (zh) * | 2016-11-08 | 2017-03-15 | 山东大学 | 一种基于客户群体行为分析的加油站销量预测方法 |
CN107402381A (zh) * | 2017-07-11 | 2017-11-28 | 西北工业大学 | 一种迭代自适应的多机动目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
李学丰等: "《岩石裂隙组构的定量测定》", 《岩石力学与工程学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105426762B (zh) | 一种android应用程序恶意性的静态检测方法 | |
CN112199415A (zh) | 一种数据特征预处理的方法及其实现系统和应用 | |
CN109459399B (zh) | 一种光谱水质cod、浊度检测方法 | |
CN110309199B (zh) | 一种面向非正态分布水质观测数据的幂变换分析方法 | |
CN115691722B (zh) | 医疗数据检测的质控方法、装置、设备、介质及程序产品 | |
CN111582406A (zh) | 一种电力设备状态监测数据聚类方法和系统 | |
CN110987866A (zh) | 一种汽油性质评价方法及装置 | |
CN111125186B (zh) | 一种基于调查问卷的数据处理方法及系统 | |
Hruby | Using similarity measures in benthic impact assessments | |
CN109948738B (zh) | 涂装烘干室的能耗异常检测方法、装置 | |
CN114595728A (zh) | 一种基于自监督学习的信号去噪方法 | |
CN114464319A (zh) | 一种基于慢特征分析和深度神经网络的ams易感性评估系统 | |
Rahman | Lotka's law and authorship distribution in nutrition research in Bangladesh | |
WO2014157750A1 (ko) | 하수처리장 유출수질의 상태에 대한 원인인자 제공장치 및 방법 | |
CN116432088B (zh) | 一种复合光学薄膜层厚智能监测方法及系统 | |
CN110807174B (zh) | 一种基于统计分布的污水厂厂群出水分析及异常识别方法 | |
CN106960218B (zh) | 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统 | |
CN105550646A (zh) | 基于对数梯度直方图的广义光照不变人脸特征描述方法 | |
CN108536794A (zh) | 符合泊松分布的有序多分类变量的数据规格化方法 | |
CN110706004B (zh) | 一种基于层次聚类的农田重金属污染物溯源方法 | |
Subrahmaniam et al. | Robustness of the linear discriminant function to nonnormality: Edgeworth series distribution | |
Šulc et al. | Internal evaluation criteria for categorical data in hierarchical clustering: optimal number of clusters determination | |
CN116933166A (zh) | 一种面向脑卒中非平衡数据集的分类方法及系统 | |
Sharma et al. | Detection of white blood cells using optimized qgwo | |
Bhargavi et al. | A COMPARATIVE STUDY FOR STATISTICAL OUTLIER DETECTION USING COLON CANCER DATA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180914 |
|
RJ01 | Rejection of invention patent application after publication |