CN110309199B - 一种面向非正态分布水质观测数据的幂变换分析方法 - Google Patents
一种面向非正态分布水质观测数据的幂变换分析方法 Download PDFInfo
- Publication number
- CN110309199B CN110309199B CN201910550362.0A CN201910550362A CN110309199B CN 110309199 B CN110309199 B CN 110309199B CN 201910550362 A CN201910550362 A CN 201910550362A CN 110309199 B CN110309199 B CN 110309199B
- Authority
- CN
- China
- Prior art keywords
- transformation
- water quality
- value
- likelihood function
- quality observation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 126
- 230000009466 transformation Effects 0.000 title claims abstract description 116
- 238000004458 analytical method Methods 0.000 title claims abstract description 22
- 238000011426 transformation method Methods 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000007619 statistical method Methods 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000007476 Maximum Likelihood Methods 0.000 claims description 26
- 238000006243 chemical reaction Methods 0.000 claims description 20
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 10
- 238000013501 data transformation Methods 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000010865 sewage Substances 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013485 heteroscedasticity test Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Algebra (AREA)
- Fuzzy Systems (AREA)
- Public Health (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Computing Systems (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开了一种面向非正态分布水质观测数据的幂变换分析方法,首先分别计算通过不同的正态变换方法对水质观测数据进行正态变换处理后对应参数的估计值,设置具体的衡量指标并进行计算和比对,从而根据水质观测的数据特征选择最优的正态变换方法,使得变换后的数据具有更好的正态性,最后经最优变换方法进行正态变换处理后的水质观测数据作为输入数据进行水质观测的统计分析,提升了分析的效果。本发明方法能使得变换后的数据具有更好的正态性,便于进一步的数据分析,解决了由于选择的变换方法不适应水厂观测变量自身特征导致数据的变换效果差等问题。
Description
技术领域
本发明涉及环境工程技术领域,尤其涉及一种面向非正态分布水质观测数据的幂变换分析方法。
背景技术
水质观测序列的挖掘和统计分析,往往要求数据呈正态分布,而实际操作中,很多原始水质序列不呈正态分布,需要在不丢失信息的前提下进行数据的正态变换。
目前常用于水质序列的变换方法为对数变换,而水厂实际运行中,一些变量经对数变换后仍是偏态分布,尤其是负偏态数据,经对数变换后反而会增加其偏度。同时,由于污水处理厂进出水观测变量多、序列长且分布不一,单一类型的变换并不适用于所有的观测变量序列;而通过分析人员的主观判断对不同的变换方法进行选择时,由于选择标准不一,难以根据水厂观测变量自身特征选择最合适的变换方法,导致变换后的数据也无法满足常用数据挖掘和统计分析所要求的线性、方差齐性和正态性的要求,利用这些变换后的数据进行实际分析应用时丢失数据的一些重要性质,影响了分析效果。
发明内容
本发明为解决现有的非正态分布水质观测数据进行数据变换时,由于选择的变换方法不适应水厂观测变量自身特征导致数据的变换效果差等问题,提供了一种面向非正态分布水质观测数据的幂变换分析方法。
为实现以上发明目的,而采用的技术手段是:
一种面向非正态分布水质观测数据的幂变换分析方法,包括以下步骤:
S1.获取非正态分布的水质观测数据,分别计算通过不同的正态变换方法对水质观测数据进行正态变换处理后对应参数的估计值,对应参数的估计值包括:进行正态变换处理后,水质观测数据分布的均值、标准差以及变换参数;
S2.对于步骤S1中所述的不同的正态变换方法,分别计算每种正态变换方法相对应的最小负对数似然函数值、AIC值及BIC值;
S3.根据计算得到的最小负对数似然函数值、AIC值及BIC值,与预设的选择标准进行比对,根据比对结果从所述不同的正态变换方法中选择得到最优变换方法;
S4.将经所述最优变换方法进行正态变换处理后的水质观测数据作为输入数据进行水质观测的统计分析,将统计分析得到的结果进行逆变换,从而得到最终的分析结果,降低了分析过程的复杂性,提高了分析的准确性。
上述方案中,首先分别计算通过不同的正态变换方法对水质观测数据进行正态变换处理后对应参数的估计值,设置具体的衡量指标并进行计算和比对,从而根据水质观测的数据特征选择最优的正态变换方法,使得变换后的数据具有更好的正态性,最后经最优变换方法进行正态变换处理后的水质观测数据作为输入数据进行水质观测的统计分析,提升了分析的效果。
优选的,步骤S1中所述不同的正态变换方法包括有恒等变换、对数变换、Box-Cox变换及Yeo-Johnson变换。
优选的,步骤S1中所述的估计参数采用最大似然函数的方法,并采用下山单纯形法进行求解。
优选的,所述步骤S1中计算通过Box-Cox变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:
定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;
若x中各项均为正数,则Box-Cox变换的函数形式为:
若x中存在xi≤0,则对整个水质观测数据序列进行平移ε,使xi+ε>0,对应的Box-Cox变换的函数形式如下:
其中变换参数λ通过最大似然法进行估计;
定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:
x的密度为:
其中,J(λ;x)为变换的雅可比矩阵:
若x中各项均为正数,获取对数似然函数为:
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L;
若x中存在xi≤0,获取对数似然函数为:
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L。
优选的,所述步骤S1中计算通过Yeo-Johnson变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:
定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;
则Yeo-Johnson变换的函数形式为:
其中变换参数λ通过最大似然法进行估计;
定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:
x的密度为:
其中,J(λ;x)为变换的雅可比矩阵:
获取对数似然函数为:
其中,sgn(·)为符号函数,当其中的变量xi为正时取值为1,当其中的变量取值xi为负时为-1,否则取值为0;
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2)后,得到:
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L。
优选的,根据计算得到的最小负对数似然函数值、AIC值及BIC值,首先选出最小负对数似然函数值、AIC值及BIC值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法,否则认为原始的水质观测数据满足正态性假设,不对其进行变换,结束本步骤;
若最小负对数似然函数值、AIC值及BIC值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法有多个,则其中最低的BIC值所对应的正态变换方法为最优变换方法;
其中最小负对数似然函数值表示为-L;
AIC值表示为:AIC=2k-2ln(L);
其中k是估计的参数数量,L是最大似然函数值;
BIC值表示为:B IC=ln(n)k-2ln(L);
其中k是估计的参数数量,L是最大似然函数值,n为水质观测数据的个数。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法通过对水质观测数据自身的携带信息确定变换参数,设置具体的衡量指标在多种正态变换方法中进行计算和比对,从而根据水质观测的数据特征选择最优的正态变换方法,最后经最优变换方法将序列转入一个服从或近似服从正态分布函数的空间内,得到与原序列相应的新序列,以排除数据序列中可能的非线性、异方差性和非正态性;通过幂变换方法直接对数据进行变换,变换后变量序列相对于原始值的序列不会改变,也就没有改变变量中某个特定值的概率密度,变换过程通过将原序列进行收敛或发散实现变量整体分布的改变。本发明方法能使得变换后的数据具有更好的正态性,便于进一步的数据分析,解决了由于选择的变换方法不适应水厂观测变量自身特征导致数据的变换效果差等问题。
附图说明
图1为本发明方法的总流程图。
图2为本发明中使用的Box-Cox变换方法在不同参数下的变换效果图。
图3为本发明中使用的Yeo-Johnson变换方法在不同参数下的变换效果图。
图4为实施例2中原始水质观测序列的Q-Q图。
图5为实施例2中经Box-Cox变换后水质观测序列的Q-Q图。
图6为实施例2中经Yeo-Johnson变换后水质观测序列的Q-Q图。
图7为实施例2中经对数变换后水质观测序列的Q-Q图。
图8为实施例2中原始水质观测序列的示意图。
图9为实施例2中经对数变换后水质观测序列的示意图。
图10为实施例2中原始水质观测数据的分布图。
图11为实施例2中经对数变换后水质观测数据分布图。
图12为实施例2中逆变换后的水质观测数据与原始水质观测数据的关系图。
图13为实施例2中自回归统计分析结果经逆变换所得序列与原始水质观测序列对比示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一种面向非正态分布水质观测数据的幂变换分析方法,包括以下步骤:
S1.获取非正态分布的水质观测数据,分别计算通过不同的正态变换方法对水质观测数据进行正态变换处理后对应参数的估计值,对应参数的估计值包括:进行正态变换处理后,水质观测数据分布的均值、标准差以及变换参数;其中本实施例1中,不同的正态变换方法包括有恒等变换、对数变换、Box-Cox变换及Yeo-Johnson变换;其中估计参数采用最大似然函数的方法,并采用下山单纯形法进行求解;
对于Box-Cox变换,步骤S1中计算通过Box-Cox变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:
定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;
若x中各项均为正数,则Box-Cox变换的函数形式为:
若x中存在xi≤0,则对整个水质观测数据序列进行平移ε,使xi+ε>0,对应的Box-Cox变换的函数形式如下:
其中变换参数λ通过最大似然法进行估计;
定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:
x的密度为:
其中,J(λ;x)为变换的雅可比矩阵:
若x中各项均为正数,获取对数似然函数为:
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L;
若x中存在xi≤0,获取对数似然函数为:
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L。
对于Yeo-Johnson变换,步骤S1中计算通过Yeo-Johnson变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:
定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;
则Yeo-Johnson变换的函数形式为:
其中变换参数λ通过最大似然法进行估计;
定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:
x的密度为:
其中,J(λ;x)为变换的雅可比矩阵:
获取对数似然函数为:
其中,sgn(·)为符号函数,当其中的变量xi为正时取值为1,当其中的变量取值xi为负时为-1,否则取值为0;
令其中的logσ=s,μ/σ=v,同时去掉常数项(-n log(2π)/2)后,得到:
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L。
S2.对于步骤S1中所述的不同的正态变换方法,分别计算每种正态变换方法相对应的最小负对数似然函数值、AIC值及BIC值;
S3.根据计算得到的最小负对数似然函数值、AIC值及BIC值,与预设的选择标准进行比对,根据比对结果从所述不同的正态变换方法中选择得到最优变换方法;具体如下:
根据计算得到的最小负对数似然函数值、AIC值及BIC值,首先选出最小负对数似然函数值、AIC值及BIC值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法,否则认为原始的水质观测数据满足正态性假设,不对其进行变换,结束本步骤;
若最小负对数似然函数值、AIC值及BIC值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法有多个,则其中最低的BIC值所对应的正态变换方法为最优变换方法;
定义估计参数时采用最大似然函数的方法获得的最大似然函数值为L,
则负对数似然函数值表示为-L
AIC值表示为:A IC=2k-2ln(L)
其中k是估计的参数数量,L是最大似然函数值;
BIC值表示为:B IC=ln(n)k-2ln(L)
其中k是估计的参数数量,L是最大似然函数值,n为水质观测数据的个数。
S4.将经所述最优变换方法进行正态变换处理后的水质观测数据作为输入数据进行水质观测的统计分析,将统计分析得到的结果进行逆变换,从而得到最终的分析结果;记统计分析后获得的序列为z={z1,...,zm},其逆变换序列为
其中对于经Box-Cox变换后的水质观测数据的逆变换形式如下:
对于Box-Cox单参数变换,即变换时没有对水质观测数据进行平移:
对于Box-Cox双参数变换,即变换时对整个水质观测数据序列平移了ε:
其中对于经Yeo-Johnson变换后的水质观测数据的逆变换形式如下:
不同参数的Box-Cox变换及Yeo-Johnson变换效果分别如图2、3所示,两者对变量偏度的改变明显,在一定程度上甚至会改变偏移的方向。本发明采取对观测变量同时进行不同变换,选取合适的变换方法,获得便于实际统计分析计算的变换结果。
实施例2
本实施例2基于实施例1的方法进行实验,以某污水处理厂入水化学需氧量(COD)日观测序列为实验数据,该水质观测序列长度为655日,相关统计参数如表1所示;
表1
根据表1对数正态分布及正态分布K-S检验pvalue,可以认为该序列服从对数正态分布,作为输入的非正态分布的水质观测数据水观测序列,分别对这些数据进行恒等、Box-Cox、Yeo-Johnson和对数变换参数估计,获得不同的变换结果。另外本实施例2还进一步根据变换结果绘制quantile-quantile图(Q-Q图),Q-Q图采用图形的方法鉴别样本数据是否近似于正态分布,通过Q-Q图可以比较直观的获取数据分布信息,其主要用于辅助判断变换效果。Q-Q图上的点(x,y)反映出其中一个样本数据的经验分布的分位数和正态分布的相同分位数,若Q-Q图上的点近似一条对角直线,则可认为数据点呈正态分布。本实施例2变换后水质观测序列的Q-Q图如图4-7所示,变换参数估计结果如表2所示;其中表格中的Log项指对数变换,nllf指负对数似然函数值。
Parameter | Identity | Log | Box-Cox | Yeo-Johnson |
λ | / | / | 0.57 | 0.04 |
μ | 398.41 | 5.89 | 50.91 | 6.72 |
σ | 182.82 | 0.45 | 14.06 | 0.58 |
nllf | 3,739.07 | 3,663.61 | 3,687.02 | 3,663.46 |
AIC | 7,478.14 | 7,327.23 | 7,376.05 | 7,328.92 |
BIC | 7,478.14 | 7,327.23 | 7,380.53 | 7,333.41 |
表2
由图4-7和表2可以得出,相比于原始的水质观测数据,即表格中的Identity项,经Box-Cox、Yeo-Johnson和对数变换后,数据的负对数似然函数值、AIC和BIC值均有所降低,其中对数变换的BIC值是所有变换方法中最低的,为7327.23,故采用对数变换作为最优变换方法对水质观测数据进行变换。
采用对数变换作为最优变换方法,对原始水质观测序列进行变换,得到的变换序列如图9所示,与图8的原始水质观测序列相比,整体波动更为平稳。通过图10和图11得到,变换后水质观测序列分布正态性得到明显提高,直接对变换序列进行逆变换后,绘制原始水质观测序列与逆变换序列散点图,如图12所示,逆变换后的数据与原始数据完全一致,说明变换过程并不会丢失原始数据信息。对变换后序列进行时间序列自回归分析,发现该水厂COD序列存在显著的自相关性,对该拟合结果进行逆变换,所得逆变换序列与原始序列对比结果如图13所示;从图13可以看到,自回归拟合序列结果基本消除了原始序列中存在的噪声,同时能够较好地概括原始序列的存在的变化趋势,利用该逆变换序列,可以进一步预测该水厂未来入水COD的变化趋势。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (5)
1.一种面向非正态分布水质观测数据的幂变换分析方法,其特征在于:包括以下步骤:
S1.获取非正态分布的水质观测数据,分别计算通过不同的正态变换方法对水质观测数据进行正态变换处理后对应参数的估计值,对应参数的估计值包括:进行正态变换处理后,水质观测数据分布的均值、标准差以及变换参数;
S2.对于步骤S1中所述的不同的正态变换方法,分别计算每种正态变换方法相对应的最小负对数似然函数值、AIC值及BIC值;
S3.根据计算得到的最小负对数似然函数值、AIC值及BIC值,与预设的选择标准进行比对,根据比对结果从所述不同的正态变换方法中选择得到最优变换方法;
S4.将经所述最优变换方法进行正态变换处理后的水质观测数据作为输入数据进行水质观测的统计分析,将统计分析得到的结果进行逆变换,从而得到最终的分析结果;
步骤S1中所述不同的正态变换方法包括有恒等变换、对数变换、Box-Cox变换及Yeo-Johnson变换。
2.根据权利要求1所述的面向非正态分布水质观测数据的幂变换分析方法,其特征在于,步骤S1中所述的参数的估计值采用最大似然函数的方法,并采用下山单纯形法进行求解。
3.根据权利要求2所述的面向非正态分布水质观测数据的幂变换分析方法,其特征在于,所述步骤S1中计算通过Box-Cox变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:
定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;
若x中各项均为正数,则Box-Cox变换的函数形式为:
若x中存在xi≤0,则对整个水质观测数据序列进行平移ε,使xi+ε>0,对应的Box-Cox变换的函数形式如下:
其中变换参数λ通过最大似然法进行估计;
定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:
x的密度为:
其中,J(λ;x)为变换的雅可比矩阵:
若x中各项均为正数,获取对数似然函数为:
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L;
若x中存在xi≤0,获取对数似然函数为:
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2),得到:
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L。
4.根据权利要求2所述的面向非正态分布水质观测数据的幂变换分析方法,其特征在于,所述步骤S1中计算通过Yeo-Johnson变换对水质观测数据进行正态变换处理后对应参数的估计值的具体步骤为:
定义获取得到的非正态分布的水质观测数据序列为x={x1,x2,...,xn},λ为变换参数,y={y1,y2,...,yn}为输出序列;
则Yeo-Johnson变换的函数形式为:
其中变换参数λ通过最大似然法进行估计;
定义经过变换后,水质观测数据服从均值为μ,方差为σ2的正态分布,则变换后输出的第i个水质观测数据yi的密度为:
x的密度为:
其中,J(λ;x)为变换的雅可比矩阵:
获取对数似然函数为:
其中,sgn(·)为符号函数,当其中的变量xi为正时取值为1,当其中的变量取值xi为负时为-1,否则取值为0;
令其中的logσ=s,μ/σ=v,同时去掉常数项(-nlog(2π)/2)后,得到:
对上式的对数似然函数取负值,然后采用数值法求解使对数似然函数的函数值最小的参数组合,得到最小负对数似然函数值-L,则最大似然函数值为L。
5.根据权利要求1~4任一项所述的面向非正态分布水质观测数据的幂变换分析方法,其特征在于,根据计算得到的最小负对数似然函数值、AIC值及BIC值,首先选出最小负对数似然函数值、AIC值及BIC值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法,否则认为原始的水质观测数据满足正态性假设,不对其进行变换,结束本步骤;
若最小负对数似然函数值、AIC值及BIC值三者同时低于原始水质观测数据的对应参数值所对应的正态变换方法有多个,则其中最低的BIC值所对应的正态变换方法为最优变换方法;
其中最小负对数似然函数值表示为-L;
AIC值表示为:AIC=2k-2ln(L);
其中k是估计的参数数量,L是最大似然函数值;
BIC值表示为:BIC=ln(n)k-2ln(L);
其中k是估计的参数数量,L是最大似然函数值,n为水质观测数据的个数。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910550362.0A CN110309199B (zh) | 2019-06-24 | 2019-06-24 | 一种面向非正态分布水质观测数据的幂变换分析方法 |
PCT/CN2020/078258 WO2020258918A1 (zh) | 2019-06-24 | 2020-03-06 | 一种面向非正态分布水质观测数据的幂变换分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910550362.0A CN110309199B (zh) | 2019-06-24 | 2019-06-24 | 一种面向非正态分布水质观测数据的幂变换分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110309199A CN110309199A (zh) | 2019-10-08 |
CN110309199B true CN110309199B (zh) | 2021-09-28 |
Family
ID=68076514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910550362.0A Active CN110309199B (zh) | 2019-06-24 | 2019-06-24 | 一种面向非正态分布水质观测数据的幂变换分析方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110309199B (zh) |
WO (1) | WO2020258918A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309199B (zh) * | 2019-06-24 | 2021-09-28 | 中山大学 | 一种面向非正态分布水质观测数据的幂变换分析方法 |
CN111259554B (zh) * | 2020-01-20 | 2022-03-15 | 山东大学 | 推土机变矩变速装置螺栓装配大数据检测方法及系统 |
CN114239294B (zh) * | 2021-12-21 | 2024-07-02 | 中国人民解放军国防科技大学 | 基于原点矩偏导的k分布杂波参数估计方法和装置 |
CN114626008B (zh) * | 2022-03-15 | 2023-03-21 | 中铁二院工程集团有限责任公司 | 一种基于幂相关随机过程的铁路路基沉降预测方法和装置 |
CN116955993B (zh) * | 2023-08-24 | 2024-03-12 | 中国长江电力股份有限公司 | 一种混凝土性态多元时序监测数据补全方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7925460B2 (en) * | 2007-12-12 | 2011-04-12 | Xerox Corporation | System and method for improving print shop operability |
CN102855757B (zh) * | 2012-03-05 | 2014-05-21 | 浙江大学 | 基于排队检测器信息瓶颈状态识别方法 |
CN104899419A (zh) * | 2015-04-28 | 2015-09-09 | 清华大学 | 一种淡水水体中氮和/或磷含量检测的方法 |
CN110309199B (zh) * | 2019-06-24 | 2021-09-28 | 中山大学 | 一种面向非正态分布水质观测数据的幂变换分析方法 |
-
2019
- 2019-06-24 CN CN201910550362.0A patent/CN110309199B/zh active Active
-
2020
- 2020-03-06 WO PCT/CN2020/078258 patent/WO2020258918A1/zh active Application Filing
Non-Patent Citations (2)
Title |
---|
A new family of power transformations to improve normality;Yeo, I.K;《Biometrika》;20001231;第87卷(第4期);全文 * |
年降水量数据的正态变换方法对比分析;陈学君;《干旱气象》;20120930;第30卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110309199A (zh) | 2019-10-08 |
WO2020258918A1 (zh) | 2020-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309199B (zh) | 一种面向非正态分布水质观测数据的幂变换分析方法 | |
CN107315884B (zh) | 一种基于线性回归的建筑能耗建模方法 | |
CN111199016A (zh) | 一种基于DTW的改进K-means的日负荷曲线聚类方法 | |
CN111144440A (zh) | 一种专变用户日电力负荷特征的分析方法及装置 | |
CN110442911B (zh) | 一种基于统计机器学习的高维复杂系统不确定性分析方法 | |
CN101833501A (zh) | 一种基于新增需求的代码变更量量化评估方法及其系统 | |
CN102567536A (zh) | 一种基于数据统计学的关键绩效指标分析方法 | |
CN112257958A (zh) | 一种电力饱和负荷预测方法及装置 | |
CN103995985B (zh) | 基于Daubechies小波变换和弹性网的故障检测方法 | |
CN117592510A (zh) | 一种基于安全约束的负荷预测方法与系统 | |
CN117575412A (zh) | 用于装药质量预测的模型训练方法、装置、设备和介质 | |
CN111429979A (zh) | 一种基于支持向量机分位数回归的钢材力学性能预测方法 | |
Zhang et al. | On Mendelian randomization analysis of case-control study | |
Fu et al. | Two-sample test for stochastic block models via maximum entry-wise deviation | |
CN111583990B (zh) | 一种结合稀疏回归和淘汰规则的基因调控网络推断方法 | |
Vutov et al. | Multiple multi‐sample testing under arbitrary covariance dependency | |
CN108664807A (zh) | 基于随机采样及模体压缩的差分隐私dna模体识别的方法 | |
CN114781166A (zh) | 基于加权概率慢特征模型的污水处理过程软测量方法 | |
Hui et al. | Causal relationship analysis of high-dimensional time series based on quantile factor model | |
Hanna | Some information measures for testing stochastic models | |
Cui | A long-term electrical power load forecasting model based on grey feed-back modification | |
CN107609348B (zh) | 高通量转录组数据样本分类数目估计方法 | |
Malyarets et al. | Assesment the development of the commodity structure a country’s exports and imports (case study of Ukraine) | |
CN112631255B (zh) | 一种基于变分自编码器模型的污水处理过程故障监测方法 | |
CN116862292B (zh) | 一种“水-能-碳”关联分析方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |