CN110309199B - 一种面向非正态分布水质观测数据的幂变换分析方法 - Google Patents

一种面向非正态分布水质观测数据的幂变换分析方法 Download PDF

Info

Publication number
CN110309199B
CN110309199B CN201910550362.0A CN201910550362A CN110309199B CN 110309199 B CN110309199 B CN 110309199B CN 201910550362 A CN201910550362 A CN 201910550362A CN 110309199 B CN110309199 B CN 110309199B
Authority
CN
China
Prior art keywords
transformation
water quality
value
likelihood function
quality observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910550362.0A
Other languages
English (en)
Other versions
CN110309199A (zh
Inventor
赵铜铁钢
陈浩玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910550362.0A priority Critical patent/CN110309199B/zh
Publication of CN110309199A publication Critical patent/CN110309199A/zh
Priority to PCT/CN2020/078258 priority patent/WO2020258918A1/zh
Application granted granted Critical
Publication of CN110309199B publication Critical patent/CN110309199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Algebra (AREA)
  • Fuzzy Systems (AREA)
  • Public Health (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • General Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Computing Systems (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种面向非正态分布水质观测数据的幂变换分析方法,首先分别计算通过不同的正态变换方法对水质观测数据进行正态变换处理后对应参数的估计值,设置具体的衡量指标并进行计算和比对,从而根据水质观测的数据特征选择最优的正态变换方法,使得变换后的数据具有更好的正态性,最后经最优变换方法进行正态变换处理后的水质观测数据作为输入数据进行水质观测的统计分析,提升了分析的效果。本发明方法能使得变换后的数据具有更好的正态性,便于进一步的数据分析,解决了由于选择的变换方法不适应水厂观测变量自身特征导致数据的变换效果差等问题。

Description

一种面向非正态分布水质观测数据的幂变换分析方法
技术领域
本发明涉及环境工程技术领域,尤其涉及一种面向非正态分布水质观测数据的幂变换分析方法。
背景技术
水质观测序列的挖掘和统计分析,往往要求数据呈正态分布,而实际操作中,很多原始水质序列不呈正态分布,需要在不丢失信息的前提下进行数据的正态变换。
目前常用于水质序列的变换方法为对数变换,而水厂实际运行中,一些变量经对数变换后仍是偏态分布,尤其是负偏态数据,经对数变换后反而会增加其偏度。同时,由于污水处理厂进出水观测变量多、序列长且分布不一,单一类型的变换并不适用于所有的观测变量序列;而通过分析人员的主观判断对不同的变换方法进行选择时,由于选择标准不一,难以根据水厂观测变量自身特征选择最合适的变换方法,导致变换后的数据也无法满足常用数据挖掘和统计分析所要求的线性、方差齐性和正态性的要求,利用这些变换后的数据进行实际分析应用时丢失数据的一些重要性质,影响了分析效果。
发明内容
本发明为解决现有的非正态分布水质观测数据进行数据变换时,由于选择的变换方法不适应水厂观测变量自身特征导致数据的变换效果差等问题,提供了一种面向非正态分布水质观测数据的幂变换分析方法。
为实现以上发明目的,而采用的技术手段是:
一种面向非正态分布水质观测数据的幂变换分析方法,包括以下步骤:
S1.获取非正态分布的水质观测数据,分别计算通过不同的正态变换方法对水质观测数据进行正态变换处理后对应参数的估计值,对应参数的估计值包括:进行正态变换处理后,水质观测数据分布的均值、标准差以及变换参数;
S2.对于步骤S1中所述的不同的正态变换方法,分别计算每种正态变换方法相对应的最小负对数似然函数值、AIC值及BIC值;
S3.根据计算得到的最小负对数似然函数值、AIC值及BIC值,与预设的选择标准进行比对,根据比对结果从所述不同的正态变换方法中选择得到最优变换方法;
S4.将经所述最优变换方法进行正态变换处理后的水质观测数据作为输入数据进行水质观测的统计分析,将统计分析得到的结果进行逆变换,从而得到最终的分析结果,降低了分析过程的复杂性,提高了分析的准确性。
上述方案中,首先分别计算通过不同的正态变换方法对水质观测数据进行正态变换处理后对应参数的估计值,设置具体的衡量指标并进行计算和比对,从而根据水质观测的数据特征选择最优的正态变换方法,使得变换后的数据具有更好的正态性,最后经最优变换方法进行正态变换处理后的水质观测数据作为输入数据进行水质观测的统计分析,提升了分析的效果。
优选的,步骤S1中所述不同的正态变换方法包括有恒等变换、对数变换、Box-Cox变换及Yeo-Johnson变换。
优选的,步骤S1中所述的估计参数采用最大似然函数的方法,并采用下山单纯形法进行求解。
优选的,所述步骤S1中计算通过Box-Cox变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:
定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;
若x中各项均为正数,则Box-Cox变换的函数形式为:
Figure BDA0002105323610000021
若x中存在xi≤0,则对整个水质观测数据序列进行平移ε,使xi+ε>0,对应的Box-Cox变换的函数形式如下:
Figure BDA0002105323610000022
其中变换参数λ通过最大似然法进行估计;
定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:
Figure BDA0002105323610000031
x的密度为:
Figure BDA0002105323610000032
其中,J(λ;x)为变换的雅可比矩阵:
Figure BDA0002105323610000033
Figure BDA0002105323610000034
若x中各项均为正数,获取对数似然函数为:
Figure BDA0002105323610000035
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:
Figure BDA0002105323610000036
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L;
若x中存在xi≤0,获取对数似然函数为:
Figure BDA0002105323610000037
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:
Figure BDA0002105323610000038
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L。
优选的,所述步骤S1中计算通过Yeo-Johnson变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:
定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;
则Yeo-Johnson变换的函数形式为:
Figure BDA0002105323610000041
其中变换参数λ通过最大似然法进行估计;
定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:
Figure BDA0002105323610000042
x的密度为:
Figure BDA0002105323610000043
其中,J(λ;x)为变换的雅可比矩阵:
Figure BDA0002105323610000044
Figure BDA0002105323610000045
Figure BDA0002105323610000046
获取对数似然函数为:
Figure BDA0002105323610000051
其中,sgn(·)为符号函数,当其中的变量xi为正时取值为1,当其中的变量取值xi为负时为-1,否则取值为0;
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2)后,得到:
Figure BDA0002105323610000052
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L。
优选的,根据计算得到的最小负对数似然函数值、AIC值及BIC值,首先选出最小负对数似然函数值、AIC值及BIC值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法,否则认为原始的水质观测数据满足正态性假设,不对其进行变换,结束本步骤;
若最小负对数似然函数值、AIC值及BIC值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法有多个,则其中最低的BIC值所对应的正态变换方法为最优变换方法;
其中最小负对数似然函数值表示为-L;
AIC值表示为:AIC=2k-2ln(L);
其中k是估计的参数数量,L是最大似然函数值;
BIC值表示为:B IC=ln(n)k-2ln(L);
其中k是估计的参数数量,L是最大似然函数值,n为水质观测数据的个数。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法通过对水质观测数据自身的携带信息确定变换参数,设置具体的衡量指标在多种正态变换方法中进行计算和比对,从而根据水质观测的数据特征选择最优的正态变换方法,最后经最优变换方法将序列转入一个服从或近似服从正态分布函数的空间内,得到与原序列相应的新序列,以排除数据序列中可能的非线性、异方差性和非正态性;通过幂变换方法直接对数据进行变换,变换后变量序列相对于原始值的序列不会改变,也就没有改变变量中某个特定值的概率密度,变换过程通过将原序列进行收敛或发散实现变量整体分布的改变。本发明方法能使得变换后的数据具有更好的正态性,便于进一步的数据分析,解决了由于选择的变换方法不适应水厂观测变量自身特征导致数据的变换效果差等问题。
附图说明
图1为本发明方法的总流程图。
图2为本发明中使用的Box-Cox变换方法在不同参数下的变换效果图。
图3为本发明中使用的Yeo-Johnson变换方法在不同参数下的变换效果图。
图4为实施例2中原始水质观测序列的Q-Q图。
图5为实施例2中经Box-Cox变换后水质观测序列的Q-Q图。
图6为实施例2中经Yeo-Johnson变换后水质观测序列的Q-Q图。
图7为实施例2中经对数变换后水质观测序列的Q-Q图。
图8为实施例2中原始水质观测序列的示意图。
图9为实施例2中经对数变换后水质观测序列的示意图。
图10为实施例2中原始水质观测数据的分布图。
图11为实施例2中经对数变换后水质观测数据分布图。
图12为实施例2中逆变换后的水质观测数据与原始水质观测数据的关系图。
图13为实施例2中自回归统计分析结果经逆变换所得序列与原始水质观测序列对比示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一种面向非正态分布水质观测数据的幂变换分析方法,包括以下步骤:
S1.获取非正态分布的水质观测数据,分别计算通过不同的正态变换方法对水质观测数据进行正态变换处理后对应参数的估计值,对应参数的估计值包括:进行正态变换处理后,水质观测数据分布的均值、标准差以及变换参数;其中本实施例1中,不同的正态变换方法包括有恒等变换、对数变换、Box-Cox变换及Yeo-Johnson变换;其中估计参数采用最大似然函数的方法,并采用下山单纯形法进行求解;
对于Box-Cox变换,步骤S1中计算通过Box-Cox变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:
定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;
若x中各项均为正数,则Box-Cox变换的函数形式为:
Figure BDA0002105323610000071
若x中存在xi≤0,则对整个水质观测数据序列进行平移ε,使xi+ε>0,对应的Box-Cox变换的函数形式如下:
Figure BDA0002105323610000072
其中变换参数λ通过最大似然法进行估计;
定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:
Figure BDA0002105323610000073
x的密度为:
Figure BDA0002105323610000074
其中,J(λ;x)为变换的雅可比矩阵:
Figure BDA0002105323610000075
Figure BDA0002105323610000076
若x中各项均为正数,获取对数似然函数为:
Figure BDA0002105323610000081
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:
Figure BDA0002105323610000082
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L;
若x中存在xi≤0,获取对数似然函数为:
Figure BDA0002105323610000083
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:
Figure BDA0002105323610000084
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L。
对于Yeo-Johnson变换,步骤S1中计算通过Yeo-Johnson变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:
定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;
则Yeo-Johnson变换的函数形式为:
Figure BDA0002105323610000085
其中变换参数λ通过最大似然法进行估计;
定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:
Figure BDA0002105323610000086
x的密度为:
Figure BDA0002105323610000091
其中,J(λ;x)为变换的雅可比矩阵:
Figure BDA0002105323610000092
Figure BDA0002105323610000093
Figure BDA0002105323610000094
获取对数似然函数为:
Figure BDA0002105323610000095
其中,sgn(·)为符号函数,当其中的变量xi为正时取值为1,当其中的变量取值xi为负时为-1,否则取值为0;
令其中的logσ=s,μ/σ=v,同时去掉常数项(-n log(2π)/2)后,得到:
Figure BDA0002105323610000096
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L。
S2.对于步骤S1中所述的不同的正态变换方法,分别计算每种正态变换方法相对应的最小负对数似然函数值、AIC值及BIC值;
S3.根据计算得到的最小负对数似然函数值、AIC值及BIC值,与预设的选择标准进行比对,根据比对结果从所述不同的正态变换方法中选择得到最优变换方法;具体如下:
根据计算得到的最小负对数似然函数值、AIC值及BIC值,首先选出最小负对数似然函数值、AIC值及BIC值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法,否则认为原始的水质观测数据满足正态性假设,不对其进行变换,结束本步骤;
若最小负对数似然函数值、AIC值及BIC值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法有多个,则其中最低的BIC值所对应的正态变换方法为最优变换方法;
定义估计参数时采用最大似然函数的方法获得的最大似然函数值为L,
则负对数似然函数值表示为-L
AIC值表示为:A IC=2k-2ln(L)
其中k是估计的参数数量,L是最大似然函数值;
BIC值表示为:B IC=ln(n)k-2ln(L)
其中k是估计的参数数量,L是最大似然函数值,n为水质观测数据的个数。
S4.将经所述最优变换方法进行正态变换处理后的水质观测数据作为输入数据进行水质观测的统计分析,将统计分析得到的结果进行逆变换,从而得到最终的分析结果;记统计分析后获得的序列为z={z1,...,zm},其逆变换序列为
Figure BDA0002105323610000101
其中对于经Box-Cox变换后的水质观测数据的逆变换形式如下:
对于Box-Cox单参数变换,即变换时没有对水质观测数据进行平移:
Figure BDA0002105323610000102
其中
Figure BDA0002105323610000103
为逆变换后的水质数据,zi为经Box-Cox变换后的水质数据,λ为变换参数;
对于Box-Cox双参数变换,即变换时对整个水质观测数据序列平移了ε:
Figure BDA0002105323610000104
其中
Figure BDA0002105323610000105
为逆变换后的水质数据,zi为经Box-Cox变换后的水质数据,λ为变换参数;
其中对于经Yeo-Johnson变换后的水质观测数据的逆变换形式如下:
Figure BDA0002105323610000111
其中
Figure BDA0002105323610000112
为逆变换后的水质数据,zi为经Yeo-Johnson变换后的水质数据,λ为变换参数。
不同参数的Box-Cox变换及Yeo-Johnson变换效果分别如图2、3所示,两者对变量偏度的改变明显,在一定程度上甚至会改变偏移的方向。本发明采取对观测变量同时进行不同变换,选取合适的变换方法,获得便于实际统计分析计算的变换结果。
实施例2
本实施例2基于实施例1的方法进行实验,以某污水处理厂入水化学需氧量(COD)日观测序列为实验数据,该水质观测序列长度为655日,相关统计参数如表1所示;
Figure BDA0002105323610000113
表1
根据表1对数正态分布及正态分布K-S检验pvalue,可以认为该序列服从对数正态分布,作为输入的非正态分布的水质观测数据水观测序列,分别对这些数据进行恒等、Box-Cox、Yeo-Johnson和对数变换参数估计,获得不同的变换结果。另外本实施例2还进一步根据变换结果绘制quantile-quantile图(Q-Q图),Q-Q图采用图形的方法鉴别样本数据是否近似于正态分布,通过Q-Q图可以比较直观的获取数据分布信息,其主要用于辅助判断变换效果。Q-Q图上的点(x,y)反映出其中一个样本数据的经验分布的分位数和正态分布的相同分位数,若Q-Q图上的点近似一条对角直线,则可认为数据点呈正态分布。本实施例2变换后水质观测序列的Q-Q图如图4-7所示,变换参数估计结果如表2所示;其中表格中的Log项指对数变换,nllf指负对数似然函数值。
Parameter Identity Log Box-Cox Yeo-Johnson
λ / / 0.57 0.04
μ 398.41 5.89 50.91 6.72
σ 182.82 0.45 14.06 0.58
nllf 3,739.07 3,663.61 3,687.02 3,663.46
AIC 7,478.14 7,327.23 7,376.05 7,328.92
BIC 7,478.14 7,327.23 7,380.53 7,333.41
表2
由图4-7和表2可以得出,相比于原始的水质观测数据,即表格中的Identity项,经Box-Cox、Yeo-Johnson和对数变换后,数据的负对数似然函数值、AIC和BIC值均有所降低,其中对数变换的BIC值是所有变换方法中最低的,为7327.23,故采用对数变换作为最优变换方法对水质观测数据进行变换。
采用对数变换作为最优变换方法,对原始水质观测序列进行变换,得到的变换序列如图9所示,与图8的原始水质观测序列相比,整体波动更为平稳。通过图10和图11得到,变换后水质观测序列分布正态性得到明显提高,直接对变换序列进行逆变换后,绘制原始水质观测序列与逆变换序列散点图,如图12所示,逆变换后的数据与原始数据完全一致,说明变换过程并不会丢失原始数据信息。对变换后序列进行时间序列自回归分析,发现该水厂COD序列存在显著的自相关性,对该拟合结果进行逆变换,所得逆变换序列与原始序列对比结果如图13所示;从图13可以看到,自回归拟合序列结果基本消除了原始序列中存在的噪声,同时能够较好地概括原始序列的存在的变化趋势,利用该逆变换序列,可以进一步预测该水厂未来入水COD的变化趋势。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种面向非正态分布水质观测数据的幂变换分析方法,其特征在于:包括以下步骤:
S1.获取非正态分布的水质观测数据,分别计算通过不同的正态变换方法对水质观测数据进行正态变换处理后对应参数的估计值,对应参数的估计值包括:进行正态变换处理后,水质观测数据分布的均值、标准差以及变换参数;
S2.对于步骤S1中所述的不同的正态变换方法,分别计算每种正态变换方法相对应的最小负对数似然函数值、AIC值及BIC值;
S3.根据计算得到的最小负对数似然函数值、AIC值及BIC值,与预设的选择标准进行比对,根据比对结果从所述不同的正态变换方法中选择得到最优变换方法;
S4.将经所述最优变换方法进行正态变换处理后的水质观测数据作为输入数据进行水质观测的统计分析,将统计分析得到的结果进行逆变换,从而得到最终的分析结果;
步骤S1中所述不同的正态变换方法包括有恒等变换、对数变换、Box-Cox变换及Yeo-Johnson变换。
2.根据权利要求1所述的面向非正态分布水质观测数据的幂变换分析方法,其特征在于,步骤S1中所述的参数的估计值采用最大似然函数的方法,并采用下山单纯形法进行求解。
3.根据权利要求2所述的面向非正态分布水质观测数据的幂变换分析方法,其特征在于,所述步骤S1中计算通过Box-Cox变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:
定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;
若x中各项均为正数,则Box-Cox变换的函数形式为:
Figure FDA0003191337530000011
若x中存在xi≤0,则对整个水质观测数据序列进行平移ε,使xi+ε>0,对应的Box-Cox变换的函数形式如下:
Figure FDA0003191337530000021
其中变换参数λ通过最大似然法进行估计;
定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:
Figure FDA0003191337530000022
x的密度为:
Figure FDA0003191337530000023
其中,J(λ;x)为变换的雅可比矩阵:
Figure FDA0003191337530000024
Figure FDA0003191337530000025
若x中各项均为正数,获取对数似然函数为:
Figure FDA0003191337530000026
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:
Figure FDA0003191337530000027
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L;
若x中存在xi≤0,获取对数似然函数为:
Figure FDA0003191337530000031
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:
Figure FDA0003191337530000032
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L。
4.根据权利要求2所述的面向非正态分布水质观测数据的幂变换分析方法,其特征在于,所述步骤S1中计算通过Yeo-Johnson变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:
定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;
则Yeo-Johnson变换的函数形式为:
Figure FDA0003191337530000033
其中变换参数λ通过最大似然法进行估计;
定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:
Figure FDA0003191337530000034
x的密度为:
Figure FDA0003191337530000035
其中,J(λ;x)为变换的雅可比矩阵:
Figure FDA0003191337530000041
Figure FDA0003191337530000042
Figure FDA0003191337530000043
获取对数似然函数为:
Figure FDA0003191337530000044
其中,sgn(·)为符号函数,当其中的变量xi为正时取值为1,当其中的变量取值xi为负时为-1,否则取值为0;
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2)后,得到:
Figure FDA0003191337530000045
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L。
5.根据权利要求1~4任一项所述的面向非正态分布水质观测数据的幂变换分析方法,其特征在于,根据计算得到的最小负对数似然函数值、AIC值及BIC值,首先选出最小负对数似然函数值、AIC值及BIC值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法,否则认为原始的水质观测数据满足正态性假设,不对其进行变换,结束本步骤;
若最小负对数似然函数值、AIC值及BIC值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法有多个,则其中最低的BIC值所对应的正态变换方法为最优变换方法;
其中最小负对数似然函数值表示为-L;
AIC值表示为:AIC=2k-2ln(L);
其中k是估计的参数数量,L是最大似然函数值;
BIC值表示为:BIC=ln(n)k-2ln(L);
其中k是估计的参数数量,L是最大似然函数值,n为水质观测数据的个数。
CN201910550362.0A 2019-06-24 2019-06-24 一种面向非正态分布水质观测数据的幂变换分析方法 Active CN110309199B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910550362.0A CN110309199B (zh) 2019-06-24 2019-06-24 一种面向非正态分布水质观测数据的幂变换分析方法
PCT/CN2020/078258 WO2020258918A1 (zh) 2019-06-24 2020-03-06 一种面向非正态分布水质观测数据的幂变换分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910550362.0A CN110309199B (zh) 2019-06-24 2019-06-24 一种面向非正态分布水质观测数据的幂变换分析方法

Publications (2)

Publication Number Publication Date
CN110309199A CN110309199A (zh) 2019-10-08
CN110309199B true CN110309199B (zh) 2021-09-28

Family

ID=68076514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910550362.0A Active CN110309199B (zh) 2019-06-24 2019-06-24 一种面向非正态分布水质观测数据的幂变换分析方法

Country Status (2)

Country Link
CN (1) CN110309199B (zh)
WO (1) WO2020258918A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309199B (zh) * 2019-06-24 2021-09-28 中山大学 一种面向非正态分布水质观测数据的幂变换分析方法
CN111259554B (zh) * 2020-01-20 2022-03-15 山东大学 推土机变矩变速装置螺栓装配大数据检测方法及系统
CN114239294B (zh) * 2021-12-21 2024-07-02 中国人民解放军国防科技大学 基于原点矩偏导的k分布杂波参数估计方法和装置
CN114626008B (zh) * 2022-03-15 2023-03-21 中铁二院工程集团有限责任公司 一种基于幂相关随机过程的铁路路基沉降预测方法和装置
CN116955993B (zh) * 2023-08-24 2024-03-12 中国长江电力股份有限公司 一种混凝土性态多元时序监测数据补全方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7925460B2 (en) * 2007-12-12 2011-04-12 Xerox Corporation System and method for improving print shop operability
CN102855757B (zh) * 2012-03-05 2014-05-21 浙江大学 基于排队检测器信息瓶颈状态识别方法
CN104899419A (zh) * 2015-04-28 2015-09-09 清华大学 一种淡水水体中氮和/或磷含量检测的方法
CN110309199B (zh) * 2019-06-24 2021-09-28 中山大学 一种面向非正态分布水质观测数据的幂变换分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A new family of power transformations to improve normality;Yeo, I.K;《Biometrika》;20001231;第87卷(第4期);全文 *
年降水量数据的正态变换方法对比分析;陈学君;《干旱气象》;20120930;第30卷(第3期);全文 *

Also Published As

Publication number Publication date
CN110309199A (zh) 2019-10-08
WO2020258918A1 (zh) 2020-12-30

Similar Documents

Publication Publication Date Title
CN110309199B (zh) 一种面向非正态分布水质观测数据的幂变换分析方法
CN107315884B (zh) 一种基于线性回归的建筑能耗建模方法
CN111199016A (zh) 一种基于DTW的改进K-means的日负荷曲线聚类方法
CN111144440A (zh) 一种专变用户日电力负荷特征的分析方法及装置
CN110442911B (zh) 一种基于统计机器学习的高维复杂系统不确定性分析方法
CN101833501A (zh) 一种基于新增需求的代码变更量量化评估方法及其系统
CN102567536A (zh) 一种基于数据统计学的关键绩效指标分析方法
CN112257958A (zh) 一种电力饱和负荷预测方法及装置
CN103995985B (zh) 基于Daubechies小波变换和弹性网的故障检测方法
CN117592510A (zh) 一种基于安全约束的负荷预测方法与系统
CN117575412A (zh) 用于装药质量预测的模型训练方法、装置、设备和介质
CN111429979A (zh) 一种基于支持向量机分位数回归的钢材力学性能预测方法
Zhang et al. On Mendelian randomization analysis of case-control study
Fu et al. Two-sample test for stochastic block models via maximum entry-wise deviation
CN111583990B (zh) 一种结合稀疏回归和淘汰规则的基因调控网络推断方法
Vutov et al. Multiple multi‐sample testing under arbitrary covariance dependency
CN108664807A (zh) 基于随机采样及模体压缩的差分隐私dna模体识别的方法
CN114781166A (zh) 基于加权概率慢特征模型的污水处理过程软测量方法
Hui et al. Causal relationship analysis of high-dimensional time series based on quantile factor model
Hanna Some information measures for testing stochastic models
Cui A long-term electrical power load forecasting model based on grey feed-back modification
CN107609348B (zh) 高通量转录组数据样本分类数目估计方法
Malyarets et al. Assesment the development of the commodity structure a country’s exports and imports (case study of Ukraine)
CN112631255B (zh) 一种基于变分自编码器模型的污水处理过程故障监测方法
CN116862292B (zh) 一种“水-能-碳”关联分析方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant