CN117132177B - 基于多重假设检验的径流预报模型构建和径流预报方法 - Google Patents
基于多重假设检验的径流预报模型构建和径流预报方法 Download PDFInfo
- Publication number
- CN117132177B CN117132177B CN202311371137.3A CN202311371137A CN117132177B CN 117132177 B CN117132177 B CN 117132177B CN 202311371137 A CN202311371137 A CN 202311371137A CN 117132177 B CN117132177 B CN 117132177B
- Authority
- CN
- China
- Prior art keywords
- predictor
- predictors
- data
- runoff
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 180
- 238000010276 construction Methods 0.000 title claims abstract description 34
- 238000013277 forecasting method Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims description 79
- 230000006870 function Effects 0.000 claims description 44
- 238000012216 screening Methods 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 26
- 238000012163 sequencing technique Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000001174 ascending effect Effects 0.000 claims description 8
- 230000000295 complement effect Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及水文预报技术领域,公开了基于多重假设检验的径流预报模型构建和径流预报方法,径流预报模型构建方法基于各预报因子对应假设检验p值的排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对不同预报因子进行筛选,得到关键预报因子,筛选得到的关键预报因子的准确性更高,使得最终基于目标关键因子集合构建得到的径流预报模型的预报精度更高。
Description
技术领域
本发明涉及水文预报技术领域,具体涉及基于多重假设检验的径流预报模型构建和径流预报方法。
背景技术
基于数据驱动的中长期径流预报方法一般采用大气环流、海温指数等多个全球水文-气象因子作为径流预报的预报因子,与径流之间进行关系拟合构建径流预报模型,基于构建的径流预报模型进而实现径流的中长期预报。然而,由于中长期水文预报使用的数据时间尺度较大,导致数据样本较少。对于高维预报因子,数据样本较少时无法建立有效的预报模型。因此,如何从预报因子中筛选出关键预报因子,降低预报因子的维度,对于提升径流预报模型的预报精度至关重要。
相关技术中,一般是通过计算每个预报因子与径流变化数据之间的条件互信息,条件互信息用于表征两个变量之间的关联度,将每个预报因子对应的条件互信息与预设关联度阈值进行比较,将条件互信息大于预设关联度阈值的预报因子作为关键预报因子。然而,预设关联度阈值一般是基于人为经验确定的,基于预设阈值筛选进行关键预报因子筛选,可能会将一些非关键预报因子错误的筛选为关键预报因子,使得筛选结果的准确性较差。由于筛选后得到的关键预报因子的准确性较差,会导致构建得到的模型的预报精度较低。
发明内容
有鉴于此,本发明提供了一种基于多重假设检验的径流预报模型构建和径流预报方法,以解决相关技术中由于筛选得到的关键预报因子的准确性较差导致构建得到的模型的预报精度较低的问题。
第一方面,本发明提供了一种基于多重假设检验的径流预报模型构建方法,该方法包括:获取多个不同预报因子数据以及径流数据;分别计算不同预报因子数据与径流数据之间条件互信息的二阶近似值;基于不同预报因子数据与径流数据之间条件互信息的二阶近似值建立不同预报因子分别对应的假设检验,确定各预报因子对应假设检验的检验统计量信息;基于不同预报因子分别对应的检验统计量信息以及预设检验统计量分布确定各预报因子对应的假设检验p值;按照升序的方式对各预报因子对应的假设检验p值进行排序,得到排序结果;基于排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对不同预报因子中的关键预报因子进行筛选,得到目标关键预报因子集合;基于目标关键预报因子集合与径流数据构建径流预报模型。
本发明提供的基于多重假设检验的径流预报模型构建,基于同预报因子数据与径流数据之间条件互信息的二阶近似值确定不同预报因子分别对应的假设检验,进而确定各预报因子对应假设检验的检验统计量信息;基于各预报因子的检验统计量信息以及预设检验统计量分布确定对应预报因子的假设检验p值,对不同预报因子分别对应的假设检验p值进行排序,得到排序结果;基于排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对各预报因子的是否为关键预报因子的假设进行多重假设检验,筛选到不同预报因子中的关键预报因子,基于关键预报因子组成的目标关键因子集合构建径流预报模型。本发明提供的方法,基于各预报因子对应假设检验p值的排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对不同预报因子的进行筛选,得到关键预报因子,筛选得到的关键预报因子的准确性更高,使得最终基于目标关键因子集合构建得到的径流预报模型的预报精度更高。
在一种可选的实施方式中,基于排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对不同预报因子中的关键预报因子进行筛选,得到目标关键预报因子集合的步骤,包括:基于预设阳性错误发现率控制方法、多个不同预报因子数量以及各预报因子对应的假设检验p值,确定不同预报因子分别对应的第一阳性错误发现率;基于排序结果、不同预报因子分别对应的第一阳性错误发现率以及预设显著性水平确定多个不同预报因子中的至少一个关键预报因子,并将关键预报因子纳入关键预报因子集合中;基于关键预报因子确定剩余的预报因子;基于预设阳性错误发现率控制方法、剩余的预报因子数量以及各剩余的预报因子对应的假设检验p值,确定不同剩余的预报因子分别对应的第二阳性错误发现率;基于排序结果、不同剩余的预报因子分别对应的第二阳性错误发现率以及预设显著性水平确定剩余的预报因子中的至少一个关键预报因子,并将关键预报因子纳入关键预报因子集合中;返回确定剩余的预报因子的步骤,直至剩余的预报因子中不存在关键预报因子,得到目标关键因子集合。
本可选实施方式提供的方法,在提高预报因子筛选结果可信度的同时,提高了筛选效率。
在一种可选的实施方式中,基于排序结果、不同预报因子分别对应的第一阳性错误发现率以及预设显著性水平确定多个不同预报因子中的至少一个关键预报因子的步骤,包括:令k=1,基于排序结果将第1个预报因子对应的第一阳性错误发现率与预设显著性水平进行比对,得到第一比对结果;当第1个预报因子对应的第一阳性错误发现率小于预设显著性水平,则确定第1个预报因子为关键预报因子;令k=k+1,基于排序结果将第k+1个预报因子对应的第一阳性错误发现率与预设显著性水平进行比对,得到第二比对结果;当第k+1个预报因子对应的第一阳性错误发现率小于预设显著性水平,则确定第k+1个预报因子为关键预报因子;返回令k=k+1的步骤,直至第k+1个预报因子为非关键预报因子,得到多个不同预报因子中的关键预报因子。
本可选实施方式提供的方法,有效提高了多重假设检验时,关键预报因子的筛选效率。
在一种可选的实施方式中,基于预设阳性错误发现率控制方法、多个不同预报因子数量以及各预报因子对应的假设检验p值,确定不同预报因子分别对应的第一阳性错误发现率的步骤,包括:基于各预报因子对应的假设检验p值确定不同预报因子分别对应的拒绝域;基于各预报因子对应的拒绝域、预设阳性错误发现率控制方法以及多个不同预报因子数量确定不同预报因子分别对应的第一阳性错误发现率。
本可选实施方式提供的方法,通过预设阳性错误发现率控制方法对多种假设检验的错误率进行校正,提高了关键预报因子的筛选精度。
在一种可选的实施方式中,分别计算不同预报因子数据与径流数据之间条件互信息的二阶近似值的步骤,包括:计算每个预报因子数据与径流数据之间对应的第一频数估计密度函数值;计算每个预报因子数据分别与其他预报因子数据之间对应的第二频数估计密度函数值,其他预报因子为多个预报因子中除当前预报因子以外的预报因子;计算每个预报因子数据、其他预报因子数据以及径流数据之间的第三频数估计密度函数值;基于不同预报因子分别对应的第一频数估计密度函数、第二频数估计密度函数以及第三频数估计密度函数确定不同预报因子数据与径流数据之间条件互信息的二阶近似值。
本可选实施方式提供的方法,在计算不同预报因子数据与径流数据之间的条件互信息时,考虑了各预报因子与其它预报因子之间的相关关系,使得后续基于条件互信息筛选得到的关键预报因子中的冗余因子较少。
在一种可选的实施方式中,基于目标关键预报因子集合与径流数据构建径流预报模型的步骤,包括:将目标关键预报因子集合中每个关键预报因子数据与径流数据进行关联,得到关联数据集;基于关联数据集对预设模型进行训练,直至满足预设模型精度要求,得到径流预报模型。
第二方面,本发明提供了一种径流预报方法,获取目标不同关键预报因子数据;将目标不同预报因子数据输入到预先构建的径流预报模型中,使得径流预报模型输出对应的径流变化信息,径流预报模型通过第一方面或其对应的任一实施方式的基于多重假设检验的径流预报模型构建方法构建得到。
本发明提供的径流预报方法,利用基于多重假设检验的径流预报模型构建方法构建得到径流预报模型进行径流预报,使得预报结果更为准确。
第三方面,本发明提供了一种基于多重假设检验的径流预报模型构建装置,该装置包括:第一获取模块,用于获取多个不同预报因子数据以及径流数据;计算模块,用于分别计算不同预报因子数据与径流数据之间条件互信息的二阶近似值;第一确定模块,用于基于不同预报因子数据与径流数据之间条件互信息的二阶近似值建立不同预报因子分别对应的假设检验,确定各预报因子对应假设检验的检验统计量信息;第二确定模块,用于基于不同预报因子分别对应的检验统计量信息以及预设检验统计量分布确定各预报因子对应的假设检验p值;排序模块,用于按照升序的方式对各预报因子对应的假设检验p值进行排序,得到排序结果;筛选模块,用于基于排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对各预报因子的是否为关键预报因子的假设进行多重假设检验,得到目标关键预报因子集合;构建模块,用于基于目标关键预报因子集合与径流数据构建径流预报模型。
在一种可选的实施方式中,筛选模块包括:第一确定子模块,用于基于预设阳性错误发现率控制方法、多个不同预报因子数量以及各预报因子对应的假设检验p值,确定不同预报因子分别对应的第一阳性错误发现率;第二确定子模块,用于基于排序结果、不同预报因子分别对应的第一阳性错误发现率以及预设显著性水平确定多个不同预报因子中的至少一个关键预报因子,并将关键预报因子纳入关键预报因子集合中;第三确定子模块,用于基于关键预报因子确定剩余的预报因子;第四确定子模块,用于基于预设阳性错误发现率控制方法、剩余的预报因子数量以及各剩余的预报因子对应的假设检验p值,确定不同剩余的预报因子分别对应的第二阳性错误发现率;第五确定子模块,用于基于排序结果、不同剩余的预报因子分别对应的第二阳性错误发现率以及预设显著性水平确定剩余的预报因子中的至少一个关键预报因子,并将关键预报因子纳入关键预报因子集合中;第六确定子模块,用于返回确定剩余的预报因子的步骤,直至剩余的预报因子中不存在关键预报因子,得到目标关键因子集合。
在一种可选的实施方式中,第二确定子模块包括:第一比对单元,用于令k=1,基于排序结果将第1个预报因子对应的第一阳性错误发现率与预设显著性水平进行比对,得到第一比对结果;第一确定单元,用于当第1个预报因子对应的第一阳性错误发现率小于预设显著性水平,则确定第1个预报因子为关键预报因子;第二比对单元,用于令k=k+1,基于排序结果将第k+1个预报因子对应的第一阳性错误发现率与预设显著性水平进行比对,得到第二比对结果;第二确定单元,用于当第k+1个预报因子对应的第一阳性错误发现率小于预设显著性水平,则确定第k+1个预报因子为关键预报因子;第三确定单元,用于返回令k=k+1的步骤,直至第k+1个预报因子为非关键预报因子,得到多个不同预报因子中的关键预报因子。
在一种可选的实施方式中,第一确定子模块包括:第四确定单元,用于基于各预报因子对应的假设检验p值确定不同预报因子分别对应的拒绝域;第五确定单元,用于基于各预报因子对应的拒绝域、预设阳性错误发现率控制方法以及多个不同预报因子数量确定不同预报因子分别对应的第一阳性错误发现率。
在一种可选的实施方式中,计算模块包括:第一计算子模块,用于计算每个预报因子数据与径流数据之间对应的第一频数估计密度函数值;第二计算子模块,用于计算每个预报因子数据分别与其他预报因子数据之间对应的第二频数估计密度函数值,其他预报因子为多个预报因子中除当前预报因子以外的预报因子;第二计算子模块,用于计算每个预报因子数据、其他预报因子数据以及径流数据之间的第三频数估计密度函数值;第七确定子模块,用于基于不同预报因子分别对应的第一频数估计密度函数、第二频数估计密度函数以及第三频数估计密度函数确定不同预报因子数据与径流数据之间条件互信息的二阶近似值。
第四方面,本发明提供了一种径流预报装置,该装置包括:第二获取模块,用于获取目标不同关键预报因子数据;第三确定模块,用于将目标不同预报因子数据输入到预先构建的径流预报模型中,使得径流预报模型输出对应的径流变化信息,径流预报模型通过上述第一方面或其对应的任一实施方式的基于多重假设检验的径流预报模型构建方法构建得到。
第五方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的基于多重假设检验的径流预报模型构建方法,或执行上述第二方面的径流预报方法。
第六方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的基于多重假设检验的径流预报模型构建方法,或执行上述第二方面的径流预报方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的基于多重假设检验的径流预报模型构建方法的流程示意图;
图2是根据本发明实施例的另一基于多重假设检验的径流预报模型构建方法的流程示意图;
图3是根据本发明实施例的又一基于多重假设检验的径流预报模型构建方法的流程示意图;
图4是根据本发明实施例的径流预报方法的流程示意图;
图5是根据本发明实施例的基于多重假设检验的径流预报模型构建装置的结构框图;
图6是根据本发明实施例的径流预报装置的结构框图;
图7是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,一般是通过计算每个预报因子与径流变化数据之间的条件互信息,将每个预报因子对应的条件互信息与预设阈值进行比较,将条件互信息大于预设阈值的预报因子作为关键预报因子。然而,预设阈值一般是基于人为经验确定的,使得筛选得到的关键预报因子的可信度较低;基于筛选后得到的关键预报因子构建径流预报模型,会导致构建得到的模型的预报精度较低。
有鉴于此,本发明实施例提供了一种基于多重假设检验的径流预报模型构建方法,可以应用于一处理器,实现径流预报模型的构建。本发明实施例提供的方法,基于各预报因子对应假设检验p值的排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对不同预报因子的进行筛选,得到关键预报因子,筛选得到的关键预报因子的准确性更高,使得最终基于目标关键因子集合构建得到的径流预报模型的预报精度更高。
根据本发明实施例,提供了一种基于多重假设检验的径流预报模型构建方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种基于多重假设检验的径流预报模型构建方法,可用于上述的处理器,图1是根据本发明实施例的基于多重假设检验的径流预报模型构建方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,获取多个不同预报因子数据以及径流数据。
示例性地,预报因子可以包括但不限于大气环流、海温指数等多个全球水文-气象因子;径流数据为径流变化数据;本申请实施例中,为了实现中长期水文预报,不同预报因子数据对应的第一时段和径流数据对应的第二时段不同,第一时段早于第二时段,例如:第一时段可以是A年的前半年,第二时段可以是A年的后半年。本申请实施例中,可以利用等宽法将原始径流以及原始预报因子的连续数据进行离散化处理,得到多个不同预报因子数据以及径流数据;对于径流指定箱子个数为/>,将/>划分为等差的/>个区间。若原始径流的取值落在区间/>的范围内,将/>的取值重新记为/>。对于预报因子/>,指定每个预报因子划分区间的个数为/>,将所有的预报因子划分为等差的/>个区间,若/>的取值落入区间/>,将/>的取值分别记为/>。
步骤S102,分别计算不同预报因子数据与径流数据之间条件互信息的二阶近似值。
示例性地,可以基于各预报因子数据与径流数据之间的二阶互信息计算得到对应预报因子数据与径流数据之间的条件互信息。本申请实施例中,在给定已筛选的关键预报因子下标集合的条件下,计算/>的补集/>中待筛选的预报因子/>与径流/>之间的条件互信息/>的二阶近似值/>。其中,/>,/>,/>。的计算方式如下式所示:
其中,是/>下标集对应的预报因子以及/>与/>之间的互信息,是/>下标集对应的预报因子与/>之间的互信息;/>是考虑/>与/>的交互信息的二阶互信息;/>的计算过程如下式所示:
其中,表示关键预报因子下标集合/>中的任一预报因子数据,/>表示/>的补集中待筛选的预报因子数据,/>表示径流数据,/>表示考虑/>与/>的交互信息的二阶互信息,/>表示/>和/>之间的一阶互信息,/>表示/>和/>之间的一阶互信息,/>表示/>和/>之间的一阶互信息;
为了同时考虑预报因子与径流之间的互信息以及预报因子之间的交互信息,也为了简化运算,记 =/>来近似替代/>,以下简称/>为条件互信息/>的二阶近似,/>可以通过下式计算得到:
通过上式可以计算得到各预报因子分别对应条件互信息的二阶近似值。
步骤S103,基于不同预报因子数据与径流数据之间条件互信息的二阶近似值建立不同预报因子分别对应的假设检验,确定各预报因子对应假设检验的检验统计量信息。
示例性地,基于不同预报因子数据与径流数据之间条件互信息的二阶确定各预报因子对应的检验统计量信息,便于后续对的假设检验。本申请实施例中,检验统计量信息可以用来表示,其中,/>为预报因子/>对应的条件互信息,/>为对应预报因子数据的样本个数。对于给定的关键预报因子下标集合/>,/>之外的预报因子共/>个,对于待筛选的所有/>个预报因子/>,/>,同时考虑多个假设检验,即多重假设检验,对应的假设检验如下:
原假设:给定/>的条件下,/>与/>独立;
备择假设:给定/>的条件下,/>与/>不独立。
步骤S104,基于不同预报因子分别对应的检验统计量信息以及预设检验统计量分布确定各预报因子对应的假设检验p值。
示例性地,预设检验统计量分布可以是卡方分布,基于各预报因子的检验统计量信息以及预设检验统计量分布,可以确定对应预报因子的假设检验p值,该假设检验p值用于表征原假设成立的概率。
步骤S105,按照升序的方式对各预报因子对应的假设检验p值进行排序,得到排序结果。
示例性地,按照从小到大的方式对各预报因子对应的假设检验p值进行排序,得到排序结果。
步骤S106,基于排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对不同预报因子中的关键预报因子进行筛选,得到目标关键预报因子集合。
示例性地,预设阳性错误发现率控制方法是一种能够控制多重假设检验控制阳性错误发现率(Positive false discovery rate,pFDR)的控制算法,本申请实施例中,预设阳性错误发现率控制方法可以包括但不限于q-value控制算法;预设显著性水平可以根据实际需求确定;本申请实施例中,对于所有的个假设检验,若存在原假设被错误拒绝的问题,即存在预报因子与径流实际上独立,但是被判定不独立,即该预报因子被错误判定为关键预报因子,则认为多重假设检验存在错误发现率的问题。定义/>个预报因子中被错误判定为关键预报因子的个数为V,所有被拒绝的检验个数为R,即经过检验被筛选出来的关键预报因子个数为R,则对应此时的阳性错误发现率/>为:
利用预设阳性错误发现率控制方法对各预报因子对应的假设检验p值进行校正,基于校正结果和预设显著性水平进行关键预报因子筛选。本申请实施例中,将作为每个检验的检验统计量,在原假设成立时,即给定/>的条件下,/>与/>独立,则此时的服从自由度/>的卡方分布,即:
其中;
上式中,为集合/>中元素的个数,/>为预报因子离散取值的个数,/>为径流离散取值的个数。
步骤S107,基于目标关键预报因子集合与径流数据构建径流预报模型。
示例性地,本申请实施例中,基于目标关键预报因子集合中各关键预报因子的数据以及径流数据构建得到径流预报模型,得到的径流预报模型可以准确进行中长期径流预报。
本实施例提供的基于多重假设检验的径流预报模型构建方法,基于各预报因子对应假设检验p值的排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对不同预报因子的进行筛选,得到关键预报因子,筛选得到的关键预报因子的准确性更高,使得最终基于目标关键因子集合构建得到的径流预报模型的预报精度更高。
在本实施例中提供了一种基于多重假设检验的径流预报模型构建方法,可用于上述的处理器,图2是根据本发明实施例的基于多重假设检验的径流预报模型构建方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取多个不同预报因子数据以及径流数据。详细请参见图1所示实施例的步骤S101,在此不再赘述。
步骤S202,分别计算不同预报因子数据与径流数据之间条件互信息的二阶近似值。详细请参见图1所示实施例的步骤S102,在此不再赘述。
步骤S203,基于不同预报因子数据与径流数据之间条件互信息的二阶近似值建立不同预报因子分别对应的假设检验,确定各预报因子对应假设检验的检验统计量信息。详细请参见图1所示实施例的步骤S103,在此不再赘述。
步骤S204,基于不同预报因子分别对应的检验统计量信息以及预设检验统计量分布确定各预报因子对应的假设检验p值。详细请参见图1所示实施例的步骤S104,在此不再赘述。
步骤S205,按照升序的方式对各预报因子对应的假设检验p值进行排序,得到排序结果。详细请参见图1所示实施例的步骤S105,在此不再赘述。
步骤S206,基于排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对不同预报因子中的关键预报因子进行筛选,得到目标关键预报因子集合。详细请参见图1所示实施例的步骤S106,在此不再赘述。
具体地,上述步骤S206包括:
步骤S2061,基于预设阳性错误发现率控制方法、多个不同预报因子数量以及各预报因子对应的假设检验p值,确定不同预报因子分别对应的第一阳性错误发现率。
在一些可选的实施方式中,上述步骤S2061包括:
步骤b1,基于各预报因子对应的假设检验p值确定不同预报因子分别对应的拒绝域。示例性地,本申请实施例中,对于给定的关键预报因子下标集合,/>之外的预报因子共/>个,对于待筛选的所有/>个预报因子/>,/>,同时考虑多个假设检验,即多重假设检验,对应的假设检验如下:
原假设:给定/>的条件下,/>与/>独立;
备择假设:给定/>的条件下,/>与/>不独立;
将作为每个检验的检验统计量,在原假设成立时,即给定/>的条件下,/>与/>独立,则此时的/>服从自由度/>的卡方分布,即:
其中;
上式中,为集合/>中元素的个数,/>为预报因子离散取值的个数,/>为径流离散取值的个数。排序后的假设检验p值对应的假设检验为/>。假设/>个预报因子中,非关键预报因子的比例为/>,关键预报因子的比例为/>=1-/>,即满足。各预报因子分别对应的拒绝域由该预报因子的假设检验p值确定,得到对应预报因子的拒绝域/>(代表区间/>,/>,其中,/>等于对应预报因子的假设检验p值)。
步骤b2,基于各预报因子对应的拒绝域、预设阳性错误发现率控制方法以及多个不同预报因子数量确定不同预报因子分别对应的第一阳性错误发现率。示例性地,本申请实施例中,若检验的,则拒绝该假设检验,即认为该检验下对应的预报因子为关键预报因子,则对应此时的/>值满足:
对此,由于原假设成立的假设检验,其检验的值服从/>均匀分布,所以 =/>。若/>大于/>,该/>值对应的假设检验的原假设成立,所以对于给定的,估计/>以及/>如下:
其中,假设成立的检验个数,落在拒绝域/>内被拒绝的假设检验个数,考虑到/>,是/>的一个下界,其中/>,所以最终估计/>为:
基于确定不同预报因子分别对应的第一阳性错误发现率。
步骤S2062,基于排序结果、不同预报因子分别对应的第一阳性错误发现率以及预设显著性水平确定多个不同预报因子中的至少一个关键预报因子,并将关键预报因子纳入关键预报因子集合中。
示例性地,将各预报因子对应的第一阳性错误发现率与预设显著性水平比对,将第一阳性错误发现率小于预显著性水平的预报因子作为关键预报因子。本申请实施例中,对于给定的,控制/>,寻找合适的/>,/>表示拒绝的假设检验的个数,使得:
近似可以得到:
所以q-value控制算法最终计算的如下:
其中,表示非关键预报因子的比例,/>为预设显著性水平,/>从1开始到/>进行判断。记上述/>个假设检验拒绝的原假设有/>个,则将这/>个检验对应的关键预报因子/>记为/>。
在一些可选的实施方式中,上述步骤S2062包括:
步骤a1,令k=1,基于排序结果将第1个预报因子对应的第一阳性错误发现率与预设显著性水平进行比对,得到第一比对结果。示例性地,k表示操作步骤的标识。
步骤a2,当第1个预报因子对应的第一阳性错误发现率小于预设显著性水平,则确定第1个预报因子为关键预报因子;
步骤a3,令k=k+1,基于排序结果将第k+1个预报因子对应的第一阳性错误发现率与预设显著性水平进行比对,得到第二比对结果;
步骤a4,当第k+1个预报因子对应的第一阳性错误发现率小于预设显著性水平,则确定第k+1个预报因子为关键预报因子;
步骤a5,返回令k=k+1的步骤,直至第k+1个预报因子为非关键预报因子,得到多个不同预报因子中的关键预报因子。
示例性的,本申请实施例中,根据排序结果依次将每个预报因子的与预设显著性水平进行比对,直至第k+1个预报因子为非关键预报因子。
步骤S2063,基于关键预报因子确定剩余的预报因子。基于多个不同预报因子以及已经确定的关键预报因子,可以得到剩余的预报因子。
步骤S2064,基于预设阳性错误发现率控制方法、剩余的预报因子数量以及各剩余的预报因子对应的假设检验p值,确定不同剩余的预报因子分别对应的第二阳性错误发现率。
示例性地,基于剩余的预报因子数量、预设阳性错误发现率控制方法以及各剩余的预报因子对应的假设检验p值确定第二阳性错误发现率,具体确定方法与第一阳性错误发现率的确定方法相同。
步骤S2065,基于排序结果、不同剩余的预报因子分别对应的第二阳性错误发现率以及预设显著性水平确定剩余的预报因子中的至少一个关键预报因子,并将关键预报因子纳入关键预报因子集合中。
示例性地,将筛选到的关键预报因子纳入关键因子集合中。
步骤S2066,返回确定剩余的预报因子的步骤,直至剩余的预报因子中不存在关键预报因子,得到目标关键因子集合。
示例性地,本申请实施例中,记上述个假设检验拒绝的原假设有/>个,则将这/>个检验对应的关键预报因子下标集合记为记为/>。若/>, 则停止关键预报因子筛选,将/>作为最终的关键预报因子集;若/>,则将/>作为一个新的关键预报因子下标集纳入关键预报因子下标集,更新/>,令/>,筛选剩余的预报因子中的关键预报因子。最终获得关键预报因子下标集合/>,则对应的/>则为径流预报所需的关键预报因子。
步骤S207,基于目标关键预报因子集合与径流数据构建径流预报模型。详细请参见图1所示实施例的步骤S107,在此不再赘述。
在本实施例中提供了一种基于多重假设检验的径流预报模型构建方法,可用于上述的处理器,图3是根据本发明实施例的基于多重假设检验的径流预报模型构建方法的流程图,如图3所示,该流程包括如下步骤:
步骤S301,获取多个不同预报因子数据以及径流数据。详细请参见图1所示实施例的步骤S101,在此不再赘述。
步骤S302,分别计算不同预报因子数据与径流数据之间条件互信息的二阶近似值。详细请参见图1所示实施例的步骤S102,在此不再赘述。
具体地,上述步骤S307包括:
步骤S3021,计算每个预报因子数据与径流数据之间对应的第一频数估计密度函数值;
步骤S3022,计算每个预报因子数据分别与其他预报因子数据之间对应的第二频数估计密度函数值,其他预报因子为多个预报因子中除当前预报因子以外的预报因子;
步骤S3023,计算每个预报因子数据、其他预报因子数据以及径流数据之间的第三频数估计密度函数值;
步骤S3024,基于不同预报因子分别对应的第一频数估计密度函数、第二频数估计密度函数以及第三频数估计密度函数确定不同预报因子数据与径流数据之间条件互信息的二阶近似值。
示例性地,本申请实施例中,基于频数估计密度函数值可以计算得到和,计算过程如下式所示:
其中,为预报因子/>和预报因子/>之间的第一频数估计密度函数值,为预报因子/>和径流之间的第二频数估计密度函数值,/>为预报因子/>、预报因子/>以及径流之间的第三频数估计密度函数值,其他的变量的含义同理;
其中频数估计密度函数的计算公式如下:
其中,表示样本个数,其他变量的含义参见上文对应内容的描述,此处不再赘述。
对于离散取值的预报因子以及径流数据,利用其频数估计密度函数以及/>,进而计算一阶互信息/>以及/>,最终计算得到/>。
步骤S303,基于不同预报因子数据与径流数据之间条件互信息的二阶近似值建立不同预报因子分别对应的假设检验,确定各预报因子对应假设检验的检验统计量信息。详细请参见图1所示实施例的步骤S103,在此不再赘述。
步骤S304,基于不同预报因子分别对应的检验统计量信息以及预设检验统计量分布确定各预报因子对应的假设检验p值。详细请参见图1所示实施例的步骤S104,在此不再赘述。
步骤S305,按照升序的方式对各预报因子对应的假设检验p值进行排序,得到排序结果。详细请参见图1所示实施例的步骤S105,在此不再赘述。
步骤S306,基于排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对不同预报因子中的关键预报因子进行筛选,得到目标关键预报因子集合。详细请参见图1所示实施例的步骤S106,在此不再赘述。
步骤S307,基于目标关键预报因子集合与径流数据构建径流预报模型。详细请参见图1所示实施例的步骤S107,在此不再赘述。
具体地,上述步骤S307包括:
步骤S3071,将目标关键预报因子集合中每个关键预报因子数据与径流数据进行关联,得到关联数据集。
步骤S3072,基于关联数据集对预设模型进行训练,直至满足预设模型精度要求,得到径流预报模型。示例性地,本申请实施例中,预设模型可以包括但不限于机器学习模型。
在本实施例中提供了一种径流预报方法,可用于上述的处理器,图4是根据本发明实施例的径流预报方法的流程图,如图4所示,该流程包括如下步骤:
步骤S401,获取目标不同关键预报因子数据。示例性地,本申请实施例中,目标不同关键预报因子对应的数据可以是目标时段的关键预报因子对应的数据,目标时段可以是任一历史时段。
步骤S402,将目标不同预报因子数据输入到预先构建的径流预报模型中,使得径流预报模型输出对应的径流变化信息,径流预报模型通过上述实施例中的基于多重假设检验的径流预报模型构建方法构建得到。示例性地,输入给径流预报模型输入目标时段的关键预报因子数据,使得模型输出待预测时段的径流变化信息。
在本实施例中还提供了一种基于多重假设检验的径流预报模型构建装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种基于多重假设检验的径流预报模型构建装置,如图5所示,包括:
第一获取模块501,用于获取多个不同预报因子数据以及径流数据;
计算模块502,用于分别计算不同预报因子数据与径流数据之间条件互信息的二阶近似值;
第一确定模块503,用于基于不同预报因子数据与径流数据之间条件互信息的二阶近似值建立不同预报因子分别对应的假设检验,确定各预报因子对应假设检验的检验统计量信息;
第二确定模块504,用于基于不同预报因子分别对应的检验统计量信息以及预设检验统计量分布确定各预报因子对应的假设检验p值;
排序模块505,用于按照升序的方式对各预报因子对应的假设检验p值进行排序,得到排序结果;
筛选模块506,用于基于排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对不同预报因子中的关键预报因子进行筛选,得到目标关键预报因子集合;
构建模块507,用于基于目标关键预报因子集合与径流数据构建径流预报模型。
在一些可选的实施方式中,筛选模块506包括:
第一确定子模块,用于基于预设阳性错误发现率控制方法、多个不同预报因子数量以及各预报因子对应的假设检验p值,确定不同预报因子分别对应的第一阳性错误发现率;
第二确定子模块,用于基于排序结果、不同预报因子分别对应的第一阳性错误发现率以及预设显著性水平确定多个不同预报因子中的至少一个关键预报因子,并将关键预报因子纳入关键预报因子集合中;
第三确定子模块,用于基于关键预报因子确定剩余的预报因子;
第四确定子模块,用于基于预设阳性错误发现率控制方法、剩余的预报因子数量以及各剩余的预报因子对应的假设检验p值,确定不同剩余的预报因子分别对应的第二阳性错误发现率;
第五确定子模块,用于基于排序结果、不同剩余的预报因子分别对应的第二阳性错误发现率以及预设显著性水平确定剩余的预报因子中的至少一个关键预报因子,并将关键预报因子纳入关键预报因子集合中;
第六确定子模块,用于返回确定剩余的预报因子的步骤,直至剩余的预报因子中不存在关键预报因子,得到目标关键因子集合。
在一些可选的实施方式中,第二确定子模块包括:
第一比对单元,用于令k=1,基于排序结果将第1个预报因子对应的第一阳性错误发现率与预设显著性水平进行比对,得到第一比对结果;
第一确定单元,用于当第1个预报因子对应的第一阳性错误发现率小于预设显著性水平,则确定第1个预报因子为关键预报因子;
第二比对单元,用于令k=k+1,基于排序结果将第k+1个预报因子对应的第一阳性错误发现率与预设显著性水平进行比对,得到第二比对结果;
第二确定单元,用于当第k+1个预报因子对应的第一阳性错误发现率小于预设显著性水平,则确定第k+1个预报因子为关键预报因子;
第三确定单元,用于返回令k=k+1的步骤,直至第k+1个预报因子为非关键预报因子,得到多个不同预报因子中的关键预报因子。
在一些可选的实施方式中,第一确定子模块包括:
第四确定单元,用于基于各预报因子对应的假设检验p值确定不同预报因子分别对应的拒绝域;
第五确定单元,用于基于各预报因子对应的拒绝域、预设阳性错误发现率控制方法以及多个不同预报因子数量确定不同预报因子分别对应的第一阳性错误发现率。
在一些可选的实施方式中,计算模块502包括:
第一计算子模块,用于计算每个预报因子数据与径流数据之间对应的第一频数估计密度函数值;
第二计算子模块,用于计算每个预报因子数据分别与其他预报因子数据之间对应的第二频数估计密度函数值,其他预报因子为多个预报因子中除当前预报因子以外的预报因子;
第二计算子模块,用于计算每个预报因子数据、其他预报因子数据以及径流数据之间的第三频数估计密度函数值;
第七确定子模块,用于基于不同预报因子分别对应的第一频数估计密度函数、第二频数估计密度函数以及第三频数估计密度函数确定不同预报因子数据与径流数据之间条件互信息的二阶近似值。
在一些可选的实施方式中,构建模块507包括:
关联子模块,用于将目标关键预报因子集合中每个关键预报因子数据与径流数据进行关联,得到关联数据集;
训练子模块,用于基于关联数据集对预设模型进行训练,直至满足预设模型精度要求,得到径流预报模型。
本实施例提供一种径流预报装置,如图6所示,包括:
第二获取模块601,用于获取目标不同关键预报因子数据;
第三确定模块602,用于将目标不同预报因子数据输入到预先构建的径流预报模型中,使得径流预报模型输出对应的径流变化信息,径流预报模型通过上述实施例中的基于多重假设检验的径流预报模型构建方法构建得到。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本实施例中的基于多重假设检验的径流预报模型构建装置或径流预报装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific IntegratedCircuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
本发明实施例还提供一种计算机设备,具有上述图5所示的基于多重假设检验的径流预报模型构建装置,具有上述图6所示的径流预报装置。
请参阅图7,图7是本发明可选实施例提供的一种计算机设备的结构示意图,如图7所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,存储器20存储有可由至少一个处理器10执行的指令,以使至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括通信接口30,用于该计算机设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (15)
1.一种基于多重假设检验的径流预报模型构建方法,其特征在于,所述方法包括:
获取多个不同预报因子数据以及径流数据;
分别计算不同预报因子数据与所述径流数据之间条件互信息的二阶近似值;
所述分别计算不同预报因子数据与所述径流数据之间条件互信息的二阶近似值的步骤,包括:
所述预报因子数据与径流数据之间条件互信息的二阶近似值通过下式确定:
其中,表示已筛选的关键预报因子下标集合,/>表示关键预报因子下标集合/>中的任一预报因子数据,/>表示/>的补集/>中待筛选的预报因子数据,/>表示径流数据,表示/>的补集/>中待筛选的预报因子数据/>与径流数据/>之间条件互信息的二阶近似值,/>,1,…,/>,/>,/>;/>是考虑/>与/>的交互信息的二阶互信息,/>表示/>和/>之间的一阶互信息;
基于所述不同预报因子数据与所述径流数据之间条件互信息的二阶近似值建立不同预报因子分别对应的假设检验,确定各预报因子对应假设检验的检验统计量信息;
基于不同预报因子分别对应的检验统计量信息以及预设检验统计量分布确定各预报因子对应的假设检验p值;
按照升序的方式对所述各预报因子对应的假设检验p值进行排序,得到排序结果;
基于所述排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对不同预报因子中的关键预报因子进行筛选,得到目标关键预报因子集合;
基于目标关键预报因子集合与所述径流数据构建径流预报模型。
2.根据权利要求1所述的方法,其特征在于,基于所述排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对不同预报因子中的关键预报因子进行筛选,得到目标关键预报因子集合的步骤,包括:
基于预设阳性错误发现率控制方法、多个不同预报因子数量以及各预报因子对应的假设检验p值,确定不同预报因子分别对应的第一阳性错误发现率;
基于所述排序结果、所述不同预报因子分别对应的第一阳性错误发现率以及所述预设显著性水平确定所述多个不同预报因子中的至少一个关键预报因子,并将所述关键预报因子纳入关键预报因子集合中;
基于所述关键预报因子确定剩余的预报因子;
基于预设阳性错误发现率控制方法、剩余的预报因子数量以及各剩余的预报因子对应的假设检验p值,确定不同剩余的预报因子分别对应的第二阳性错误发现率;
基于所述排序结果、所述不同剩余的预报因子分别对应的第二阳性错误发现率以及所述预设显著性水平确定所述剩余的预报因子中的至少一个关键预报因子,并将所述关键预报因子纳入关键预报因子集合中;
返回确定剩余的预报因子的步骤,直至剩余的预报因子中不存在关键预报因子,得到目标关键因子集合。
3.根据权利要求2所述的方法,其特征在于,基于所述排序结果、所述不同预报因子分别对应的第一阳性错误发现率以及所述预设显著性水平确定所述多个不同预报因子中的至少一个关键预报因子的步骤,包括:
令k=1,基于所述排序结果将第1个预报因子对应的第一阳性错误发现率与所述预设显著性水平进行比对,得到第一比对结果;
当所述第1个预报因子对应的第一阳性错误发现率小于所述预设显著性水平,则确定第1个预报因子为关键预报因子;
令k=k+1,基于所述排序结果将第k+1个预报因子对应的第一阳性错误发现率与所述预设显著性水平进行比对,得到第二比对结果;
当所述第k+1个预报因子对应的第一阳性错误发现率小于所述预设显著性水平,则确定第k+1个预报因子为关键预报因子;
返回令k=k+1的步骤,直至第k+1个预报因子为非关键预报因子,得到多个不同预报因子中的关键预报因子。
4.根据权利要求2所述的方法,其特征在于,基于预设阳性错误发现率控制方法、多个不同预报因子数量以及各预报因子对应的假设检验p值,确定不同预报因子分别对应的第一阳性错误发现率的步骤,包括:
基于所述各预报因子对应的假设检验p值确定不同预报因子分别对应的拒绝域;
基于各预报因子对应的拒绝域、预设阳性错误发现率控制方法以及多个不同预报因子数量确定不同预报因子分别对应的第一阳性错误发现率。
5.根据权利要求1所述的方法,其特征在于,分别计算不同预报因子数据与所述径流数据之间条件互信息的二阶近似值的步骤,包括:
计算每个预报因子数据与所述径流数据之间对应的第一频数估计密度函数值;
计算每个预报因子数据分别与其他预报因子数据之间对应的第二频数估计密度函数值,其他预报因子为多个预报因子中除当前预报因子以外的预报因子;
计算每个预报因子数据、其他预报因子数据以及所述径流数据之间的第三频数估计密度函数值;
基于不同预报因子分别对应的第一频数估计密度函数、第二频数估计密度函数以及第三频数估计密度函数确定所述不同预报因子数据与所述径流数据之间条件互信息的二阶近似值。
6.根据权利要求1所述的方法,其特征在于,基于目标关键预报因子集合与所述径流数据构建径流预报模型的步骤,包括:
将目标关键预报因子集合中每个关键预报因子数据与所述径流数据进行关联,得到关联数据集;
基于关联数据集对预设模型进行训练,直至满足预设模型精度要求,得到所述径流预报模型。
7.一种径流预报方法,其特征在于,所述方法包括:
获取目标不同关键预报因子数据;
将所述目标不同预报因子数据输入到预先构建的径流预报模型中,使得所述径流预报模型输出对应的径流变化信息,所述径流预报模型通过如权利要求1至6任一项所述的基于多重假设检验的径流预报模型构建方法构建得到。
8.一种基于多重假设检验的径流预报模型构建装置,其特征在于,所述装置包括:
第一获取模块,用于获取多个不同预报因子数据以及径流数据;
计算模块,用于分别计算不同预报因子数据与所述径流数据之间条件互信息的二阶近似值;
所述预报因子数据与径流数据之间条件互信息的二阶近似值通过下式确定:
其中,表示已筛选的关键预报因子下标集合,/>表示关键预报因子下标集合/>中的任一预报因子数据,/>表示/>的补集/>中待筛选的预报因子数据,/>表示径流数据,表示/>的补集/>中待筛选的预报因子数据/>与径流数据/>之间条件互信息的二阶近似值,/>,1,…,/>,/>,/>;/>是考虑/>与/>的交互信息的二阶互信息,/>表示/>和/>之间的一阶互信息;
第一确定模块,用于基于所述不同预报因子数据与所述径流数据之间条件互信息的二阶近似值建立不同预报因子分别对应的假设检验,确定各预报因子对应假设检验的检验统计量信息;
第二确定模块,用于基于不同预报因子分别对应的检验统计量信息以及预设检验统计量分布确定各预报因子对应的假设检验p值;
排序模块,用于按照升序的方式对所述各预报因子对应的假设检验p值进行排序,得到排序结果;
筛选模块,用于基于所述排序结果、各预报因子对应的假设检验p值、预设阳性错误发现率控制方法以及预设显著性水平,对不同预报因子中的关键预报因子进行筛选,得到目标关键预报因子集合;
构建模块,用于基于目标关键预报因子集合与所述径流数据构建径流预报模型。
9.根据权利要求8所述的装置,其特征在于,所述筛选模块包括:
第一确定子模块,用于基于预设阳性错误发现率控制方法、多个不同预报因子数量以及各预报因子对应的假设检验p值,确定不同预报因子分别对应的第一阳性错误发现率;
第二确定子模块,用于基于所述排序结果、所述不同预报因子分别对应的第一阳性错误发现率以及所述预设显著性水平确定所述多个不同预报因子中的至少一个关键预报因子,并将所述关键预报因子纳入关键预报因子集合中;
第三确定子模块,用于基于所述关键预报因子确定剩余的预报因子;
第四确定子模块,用于基于预设阳性错误发现率控制方法、剩余的预报因子数量以及各剩余的预报因子对应的假设检验p值,确定不同剩余的预报因子分别对应的第二阳性错误发现率;
第五确定子模块,用于基于所述排序结果、所述不同剩余的预报因子分别对应的第二阳性错误发现率以及所述预设显著性水平确定所述剩余的预报因子中的至少一个关键预报因子,并将所述关键预报因子纳入关键预报因子集合中;
第六确定子模块,用于返回确定剩余的预报因子的步骤,直至剩余的预报因子中不存在关键预报因子,得到目标关键因子集合。
10.根据权利要求9所述的装置,其特征在于,所述第二确定子模块包括:
第一比对单元,用于令k=1,基于所述排序结果将第1个预报因子对应的第一阳性错误发现率与所述预设显著性水平进行比对,得到第一比对结果;
第一确定单元,用于当所述第1个预报因子对应的第一阳性错误发现率小于所述预设显著性水平,则确定第1个预报因子为关键预报因子;
第二比对单元,用于令k=k+1,基于所述排序结果将第k+1个预报因子对应的第一阳性错误发现率与所述预设显著性水平进行比对,得到第二比对结果;
第二确定单元,用于当所述第k+1个预报因子对应的第一阳性错误发现率小于所述预设显著性水平,则确定第k+1个预报因子为关键预报因子;
第三确定单元,用于返回令k=k+1的步骤,直至第k+1个预报因子为非关键预报因子,得到多个不同预报因子中的关键预报因子。
11.根据权利要求9所述的装置,其特征在于,第一确定子模块包括:
第四确定单元,用于基于所述各预报因子对应的假设检验p值确定不同预报因子分别对应的拒绝域;
第五确定单元,用于基于各预报因子对应的拒绝域、预设阳性错误发现率控制方法以及多个不同预报因子数量确定不同预报因子分别对应的第一阳性错误发现率。
12.根据权利要求8所述的装置,其特征在于,所述计算模块包括:
第一计算子模块,用于计算每个预报因子数据与所述径流数据之间对应的第一频数估计密度函数值;
第二计算子模块,用于计算每个预报因子数据分别与其他预报因子数据之间对应的第二频数估计密度函数值,其他预报因子为多个预报因子中除当前预报因子以外的预报因子;
第二计算子模块,用于计算每个预报因子数据、其他预报因子数据以及所述径流数据之间的第三频数估计密度函数值;
第七确定子模块,用于基于不同预报因子分别对应的第一频数估计密度函数、第二频数估计密度函数以及第三频数估计密度函数确定所述不同预报因子数据与所述径流数据之间条件互信息的二阶近似值。
13.一种径流预报装置,其特征在于,所述装置包括:
第二获取模块,用于获取目标不同关键预报因子数据;
第三确定模块,用于将所述目标不同预报因子数据输入到预先构建的径流预报模型中,使得所述径流预报模型输出对应的径流变化信息,所述径流预报模型通过如权利要求1至6任一项所述的基于多重假设检验的径流预报模型构建方法构建得到。
14.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至6中任一项所述的基于多重假设检验的径流预报模型构建方法,或执行如权利要求7所述的径流预报方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至6中任一项所述的基于多重假设检验的径流预报模型构建方法,或执行如权利要求7所述的径流预报方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311371137.3A CN117132177B (zh) | 2023-10-23 | 2023-10-23 | 基于多重假设检验的径流预报模型构建和径流预报方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311371137.3A CN117132177B (zh) | 2023-10-23 | 2023-10-23 | 基于多重假设检验的径流预报模型构建和径流预报方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117132177A CN117132177A (zh) | 2023-11-28 |
CN117132177B true CN117132177B (zh) | 2024-01-30 |
Family
ID=88861305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311371137.3A Active CN117132177B (zh) | 2023-10-23 | 2023-10-23 | 基于多重假设检验的径流预报模型构建和径流预报方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117132177B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379110A (zh) * | 2017-11-21 | 2021-09-10 | 中国水利水电科学研究院 | 一种中长期径流预报结果趋势检验方法 |
CN113592144A (zh) * | 2021-06-28 | 2021-11-02 | 清华大学 | 一种中长期径流概率预报方法及系统 |
CN116805439A (zh) * | 2023-06-27 | 2023-09-26 | 武汉大学 | 一种基于人工智能和大气环流机制的干旱预报方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110895726B (zh) * | 2019-10-16 | 2021-09-24 | 大连理工大学 | 一种考虑预报误差降低水库洪水起调水位的预报调度方法 |
-
2023
- 2023-10-23 CN CN202311371137.3A patent/CN117132177B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379110A (zh) * | 2017-11-21 | 2021-09-10 | 中国水利水电科学研究院 | 一种中长期径流预报结果趋势检验方法 |
CN113592144A (zh) * | 2021-06-28 | 2021-11-02 | 清华大学 | 一种中长期径流概率预报方法及系统 |
CN116805439A (zh) * | 2023-06-27 | 2023-09-26 | 武汉大学 | 一种基于人工智能和大气环流机制的干旱预报方法及系统 |
Non-Patent Citations (4)
Title |
---|
基于互信息的软测量变量选择;杨慧中;章军;陶洪峰;;控制工程(第04期);全文 * |
杨慧中 ; 章军 ; 陶洪峰 ; .基于互信息的软测量变量选择.控制工程.2012,(第04期),全文. * |
神经网络径流预报模型中基于互信息的预报因子选择方法;赵铜铁钢;杨大文;;水力发电学报(第01期);全文 * |
赵铜铁钢 ; 杨大文 ; .神经网络径流预报模型中基于互信息的预报因子选择方法.水力发电学报.(第01期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117132177A (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107040397B (zh) | 一种业务参数获取方法及装置 | |
CN110008080B (zh) | 基于时间序列的业务指标异常检测方法、装置和电子设备 | |
CN111950738A (zh) | 机器学习模型优化效果评估方法、装置、终端及存储介质 | |
CN110083475B (zh) | 一种异常数据的检测方法及装置 | |
CN111797320A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN110705598A (zh) | 智能模型管理方法、装置、计算机设备及存储介质 | |
CN111340233B (zh) | 机器学习模型的训练方法及装置、样本处理方法及装置 | |
Fithian et al. | Semiparametric exponential families for heavy-tailed data | |
WO2021139335A1 (zh) | 物理机销售数据预测方法、装置、计算机设备及存储介质 | |
CN112131274A (zh) | 时间序列异常点的检测方法、装置、设备及可读存储介质 | |
CN111178537A (zh) | 一种特征提取模型训练方法及设备 | |
CN112632179A (zh) | 模型构建方法、装置、存储介质及设备 | |
CN114662602A (zh) | 一种离群点检测方法、装置、电子设备及存储介质 | |
CN110364263B (zh) | 基于专家权威与病例信度结合的治疗方案推荐方法和系统 | |
CN115391561A (zh) | 图网络数据集的处理方法、装置、电子设备、程序及介质 | |
CN114330090A (zh) | 一种缺陷检测方法、装置、计算机设备和存储介质 | |
CN117132177B (zh) | 基于多重假设检验的径流预报模型构建和径流预报方法 | |
CN113962874A (zh) | 母线负荷模型的训练方法、装置、设备及存储介质 | |
CN112508308A (zh) | 一种数据处理方法、装置、设备及可读存储介质 | |
CN111783883A (zh) | 一种异常数据的检测方法及装置 | |
CN117132176B (zh) | 基于预报因子筛选的径流预报模型构建和径流预报方法 | |
CN112528500B (zh) | 一种场景图构造模型的评估方法及评估设备 | |
CN115423159A (zh) | 光伏发电预测方法、装置及终端设备 | |
CN117114523B (zh) | 基于条件互信息的径流预报模型构建和径流预报方法 | |
CN115185649A (zh) | 资源调度的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |