CN113673574B - 一种用于出水变量预测的软测量方法、装置及介质 - Google Patents
一种用于出水变量预测的软测量方法、装置及介质 Download PDFInfo
- Publication number
- CN113673574B CN113673574B CN202110843484.6A CN202110843484A CN113673574B CN 113673574 B CN113673574 B CN 113673574B CN 202110843484 A CN202110843484 A CN 202110843484A CN 113673574 B CN113673574 B CN 113673574B
- Authority
- CN
- China
- Prior art keywords
- data
- marked
- subset
- obtaining
- unlabeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000691 measurement method Methods 0.000 title claims abstract description 23
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 38
- 239000010865 sewage Substances 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 8
- 239000003550 marker Substances 0.000 claims description 29
- 238000005259 measurement Methods 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 12
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 7
- 229910052760 oxygen Inorganic materials 0.000 description 7
- 239000001301 oxygen Substances 0.000 description 7
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000010802 sludge Substances 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229910052698 phosphorus Inorganic materials 0.000 description 2
- 239000011574 phosphorus Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 241000364483 Lipeurus epsilon Species 0.000 description 1
- 238000005273 aeration Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004062 sedimentation Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种用于出水变量预测的软测量方法、装置及介质,其中方法包括:污水处理数据划分为标记数据集和未标记数据集;计算标记数据集中任两组数据之间的差异性距离,根据差异性距离计算标记数据集中每组数据的结构熵;根据结构熵对标记数据集进行聚类处理,获得m个标记数据子集;根据差异性距离将未标记数据集中每一个未标记数据划分到对应的标记数据子集,根据标记数据子集获取未标记数据对应的出变量;根据新的标记数据更新标记数据子集;根据新的标记数据子集构建预测模型;获取测试数据,根据测试数据获取对应的预测模型进行预测,获得预测值。本发明通过结构熵聚类的处理,提高了预测精度和效率,可应用于污水处理技术领域。
Description
技术领域
本发明涉及污水处理技术领域,尤其涉及一种用于出水变量预测的软测量方法、装置及介质。
背景技术
在污水处理过程中,软测量方法被广泛地应用于重要但却不易测量的出水变量,如总氮(Total Nitrogen)、总磷(Total Phosphorus)、生物需氧量(Biochemical OxygenDemand)、化学需氧量(Chemical Oxygen Demand)等的预测问题。随着工业技术的发展,污水处理的过程日趋复杂,我们对于这些重要出水变量的预测要求也在不断地提高。然而,传统软测量方法对具有强烈波动和非线性的出水变量的预测结果并不理想。此外,由于恶劣的工作环境、高昂的运行和维护成本,导致收集的数据不完整,输入和输出变量存在严重的不平衡。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种用于出水变量预测的软测量方法、装置及介质。
本发明所采用的技术方案是:
一种用于出水变量预测的软测量方法,包括以下步骤:
获取污水处理数据,将污水处理数据划分为标记数据集L和未标记数据集U;
计算标记数据集L中任两组数据之间的差异性距离,根据差异性距离计算标记数据集L中每组数据的结构熵Ei;
根据结构熵Ei对标记数据集L进行聚类处理,获得m个标记数据子集L1,L2,…Lm;
根据差异性距离将未标记数据集U中每一个未标记数据xu划分到对应的标记数据子集Li,根据标记数据子集Li获取未标记数据xu对应的出变量获得新的标记数据/>
根据新的标记数据更新标记数据子集Li,获得新的标记数据子集L′1,L′2,…,L′m;
根据新的标记数据子集构建预测模型fi;
获取测试数据xt,根据测试数据xt获取对应的预测模型进行预测,获得预测值
进一步地,在获取污水处理数据的步骤后,还包括以下步骤:
对污水处理数据进行归一化处理;
其中,归一化处理的公式如下:
xmin和xmax分别代表这组数据中的最小值和最大值,x和分别表示原始数据和归一化处理后的数据。
进一步地,差异性距离通过以下公式计算获得:
d(xi,xj)=(l-s(xi,xj))/l
d(xi,xj)表示xi和xj两个数据的差异性距离,s是xi和xj的相似度,l是输入变量的维度;
θ(xip,xjp)表示数据xi和xj在第p维度上的相似性:
其中,r表示相似性的限度;
结构熵Ei通过以下公式计算获得:
Ei表示数据xi的结构熵;
其中,Dij表示xi和xj的差异性距离, 是整个标记数据集L的平均差异性距离。
进一步地,所述根据结构熵Ei对标记数据集L进行聚类处理,获得m个标记数据子集L1,L2,…Lm,包括:
将标记数据集L中每组数据的结构熵Ei进行升序排列,获取前m个结构熵Ei对应的数据作为m个聚类中心li;
根据差异性距离将标记数据集L中每组数据划分到对应的聚类中心,聚类获得标记数据子集L1,L2,…Lm。
进一步地,所述根据差异性距离将未标记数据集U中每一个未标记数据xu划分到对应的标记数据子集Li,包括:
计算未标记数据xu和每一个聚类中心的差异性距离,获取差异性距离最小的聚类中心对应的标记数据子集Li,将未标记数据xu划分到所述标记数据子集Li;
所述根据标记数据子集Li获取未标记数据xu对应的出变量获得新的标记数据包括:
计算未标记数据xu与标记数据子集Li中各组数据的差异性距离,获取差异性距离小于预设阈值的若干个标记数据,计算若干个标记数据的平均值作为未标记数据xu对应的出变量获得新的标记数据/>
进一步地,所述根据新的标记数据更新标记数据子集Li,获得新的标记数据子集L′1,L′2,…,L′m,包括:
将新的标记数据对标记数据子集Li进行扩充,获得新的标记数据子集L′1,L′2,…,L′m;
其中,
。
进一步地,所述根据新的标记数据子集构建预测模型fi,包括:
根据新的标记数据子集L′1,L′2,…,L′m,利用偏最小二乘算法建立预测模型f1,f2,…,fm;
其中,
fi=PLS(L′i)i=1,2,…,m
进一步地,所述获取测试数据xt,根据测试数据xt获取对应的预测模型进行预测,获得预测值包括:
计算测试数据xt和每一个聚类中心的差异性距离,获取差异性距离最小的聚类中心对应的标记数据子集L′i;
获取标记数据子集L′i对应的偏最小二乘预测模型fi,对测试数据xt进行预测,获得预测值
本发明所采用的另一技术方案是:
一种用于出水变量预测的软测量装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明通过结构熵聚类的处理,能够充分地分析数据间的结构信息,快速地确定聚类中心,避免了反复迭代计算的过程,提高了聚类效率;另外,将原本复杂的非线性预测问题转化为简单的线性预测问题,利于后续的建模和预测。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种用于出水变量预测的软测量方法的流程示意图;
图2是本发明实施例中活性污泥污水处理厂的结构简图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
如图1所示,本实施例提供一种用于出水变量预测的软测量方法,包括以下步骤:
S1、获取污水处理数据,将污水处理数据划分为标记数据集L和未标记数据集U。
对污水处理过程中现有传感器收集的数据(即污水处理数据),并将其分类:标记数据集L和未标记数据集U。在本实施例中,同时包含输入和输出变量的数据集合被记为标记数据集L=(xl,yl),其中xl是输入变量,yl是输出变量;仅包含输入变量的数据集合被记为未标记数据集U=xu,其中xu是输入变量。
在一些可选的实施例中,为了提高数据的处理效率,可采用matlab中的mapminmax函数将数据归一化处理:
这里,xmin和xmax分别代表这组数据中的最小值和最大值,x和分别表示原始数据和归一化处理后的数据。
S2、计算标记数据集L中任两组数据之间的差异性距离,根据差异性距离计算标记数据集L中每组数据的结构熵Ei。
在本实施例中,预先定义一种差异性度量方法,用来计算高维度数据之间的差异性距离d。根据差异性距离d计算标记数据集L中每组数据的结构熵Ei。
其中,定义的差异性度量:
d(xi,xj)=(l-s(xi,xj))/l
其中d(xi,xj)表示xi和xj两个数据的差异性距离,s是xi和xj的相似度,l是输入变量的维度。
其中,θ(xip,xjp)表示数据xi和xj在第p维度上的相似性:
其中,r表示相似性的限度。
计算标记数据集L中每组数据的结构熵:
其中,Ei表示数据xi的结构熵。
其中,Dij表示xi和xj的差异性距离, 是整个标记数据集L的平均差异性距离。
S3、根据结构熵Ei对标记数据集L进行聚类处理,获得m个标记数据子集L1,L2,…Lm。
应用结构熵聚类方法对标记数据集聚类处理:首先,将标记数据集L中每组数据的结构熵Ei降序排列,寻找熵值最小的样本点作为聚类中心li。根据高斯分布的假设,聚类中心的个数m为数据总数的5‰。然后,根据差异性距离判断标记数据集L中每组数据属于哪一组聚类中心,并聚类得到标记数据子集:L1,L2,…Lm。
需要注意的是:根据结构熵的性质,熵值最小的样本点不一定适合作为聚类中心。实际上,我们设置一个限度Q,当结构熵聚类处理完成时,如果标记数据子集Li的样本数未能超过Q,则表示该点不适合作为聚类中心,将其剔除并添加一个新的聚类中心重新对标记数据集L进行聚类处理。
S4、根据差异性距离将未标记数据集U中每一个未标记数据xu划分到对应的标记数据子集Li,根据标记数据子集Li获取未标记数据xu对应的出变量获得新的标记数据/>
计算未标记数据xu和每一个聚类中心的差异性距离,并取距离最小的聚类中心li,则u属于标记数据子集Li。然后,计算xu与Li中各组数据的差异性距离,并设置距离上限ω。当距离小于等于ω时,说明xu与该组数据具有极高的相似性;当距离大于ω时,说明xu与该组数据相似性较差。因此,未标记数据xu的输出变量yu可以由这些相似性较高的标记数据的平均值计算得到,并记为
需要注意的是:如果xu与Li中各组数据的距离均大于上限ω,则说明现有的标记数据中没有与xu相似性较高的数据组。因此,xu的输出变量yu只能通过模型估计得到。同样地,记为
S5、根据新的标记数据更新标记数据子集Li,获得新的标记数据子集L′1,L′2,…,L′m。
将新得到的标记数据用来扩充原有的标记数据子集L1,L2,…Lm,得到新的标记数据子集L′1,L′2,…,L′m:
S6、根据新的标记数据子集构建预测模型fi。
对最终的标记数据子集L′1,L′2,…,L′m利用偏最小二乘算法建立预测模型f1,f2,…,fm:
fi=PLS(L′i)i=1,2,…,m
S7、获取测试数据xt,根据测试数据xt获取对应的预测模型进行预测,获得预测值
首先计算测试数据xt和每一个聚类中心的差异性距离,并取距离最小的聚类中心li,则xt属于标记数据子集L′i;然后用由该子集L′i建立的偏最小二乘预测模型fi计算预测值
以下结合具体实施例对上述方法进行详细的解释说明。
本实施例以一个简单的活性污泥污水处理厂为例,有机物和营养物可以得到有效地去除,具体的工艺流程图如图2所示。活性污泥污水处理系统由预处理池、初始反应池、曝气池和二沉池四个部分组成。该污水处理厂每天的污水处理量为3.5×103m3,其过程包含了38个变量,数据的采样率为1天,共收集了400天的污水处理数据。其中,前200天的数据集记为标记数据,用于建立模型;后200天的数据记为未标记数据,用来训练和验证模型。在38个变量中,出水过程中的生物需氧量(BOD)是污水排放时的重要指标,难以测量。在本实施例中,将生物需氧量作为输出变量,其余变量作为输入变量,使用本实施例提出的基于结构熵聚类的半监督软测量方法,实现对活性污泥污水处理厂重要出水指标生物需氧量的有效预测。具体的实施步骤如下:
步骤1:对污水处理过程中现有传感器收集的数据,并将其分类:标记数据集L和未标记数据集U。
在一些可选的实施例中,为了提高数据的处理效率,采用matlab中的mapminmax函数将数据归一化处理。
在本实施例中,将同时包含输入和输出变量的数据集合记为标记数据集L=(xl,yl);仅包含输入变量的数据集合记为未标记数据集U=xu。其中,标记数据集L∈R200×38,xl∈R200×37,yl∈R200×1,未标记数据集U∈R200×37,xu∈R200×37。
步骤2:定义一种差异性度量方法,用来计算高维度数据之间的差异性距离d:
d(xi,xj)=(l-s(xi,xj))/l
其中d(xi,xj)表示xi和xj两个数据的差异性度量距离,s是xi和xj的相似度,输入变量的维度l=37。
其中,θ(xip,xjp)表示数据xi和xj在第p维度上的相似性:
其中,相似性的限度r=0.01。
步骤3:计算标记数据集L中每组数据的结构熵Ei:
其中,Ei表示数据xi的结构熵。
其中,Dij表示xi和xj的差异性度量距离,整个标记数据集L的平均差异性度量距离/>
步骤4:应用结构熵聚类方法对标记数据集聚类处理,将其分为m个标记数据子集L1,L2,…Lm。
其中,步骤4具体包括步骤A1-A2:
A1、将标记数据集L中每组数据的结构熵Ei降序排列,寻找熵值最小的样本点作为聚类中心li。根据高斯分布的假设,聚类中心的个数m为数据总数的5‰。m=2,标记数据子集应为L1,L2。
A2、根据差异性度量距离判断标记数据集L中每组数据属于哪一组聚类中心,并聚类得到标记数据子集:L1,L2。
需要注意的是:根据结构熵的性质,熵值最小的样本点不一定适合作为聚类中心。实际上,设置一个限度Q=50,当结构熵聚类处理完成时,如果标记数据子集Li的样本数为超过Q,将其剔除并添加一个新的聚类中心重新对标记数据集L进行聚类处理。
步骤5:判断每一个未标记数据xu属于哪一个标记数据子集Li,并应用混合的半监督标记方法对未标记数据补充输出变量
计算未标记数据xu和每一个聚类中心的距离d1,d2,并取距离最小的标记中心li对应的标记数据子集Li,xu属于标记数据子集Li。然后,计算xu与Li中各组数据的距离,并设置距离上限ω=0.1。当距离小于等于ω时,说明xu与该组数据具有极高的相似性;当距离大于ω时,说明xu与该组数据相似性较差。因此,未标记数据xu的输出变量yu可以由这些相似性较高的标记数据的平均值计算得到,并记为
需要注意的是:如果xu与Li中各组数据的距离均大于上限ω,则说明现有的标记数据中没有与xu相似性较高的数据组。因此,xu的输出变量yu只能通过模型估计得到。同样地,记为
步骤6:将新得到的标记数据用来扩充原有的标记数据子集L1,L2,得到新的标记数据子集L′1,′2:
步骤7:直到所有的未标记数据都被用来扩充原有的标记数据子集后,对最终的标记数据子集L′1,L′2,利用偏最小二乘算法建立预测模型f1,f2:
fi=PLS(L′i),i=1,2
步骤8:判断测试数据xt属于哪一个标记数据子集L′i,并用由该子集建立偏最小二乘预测模型fi计算预测值
其中,步骤8包括步骤B1-B2:
B1、计算测试数据xt和每一个聚类中心的距离,并取距离最小的聚类中心对应的标记数据子集L′i,xt属于标记数据子集L′i;
B2、用由该子集L′i建立的偏最小二乘预测模型fi计算预测值
综上所述,本实施例方法相对于现有技术,具有如下有益效果:
(1)本实施例通过差异性度量方法,能够对高纬度数据通过分析同一维度中各数据间的差异性得到更合理的距离,减少离群值的负面影响。
(2)本实施例通过结构熵聚类方法,能够充分地分析数据间的结构信息,快速地确定聚类中心,避免了反复迭代计算的过程,提高了聚类效率。
(3)本实施例通过结构熵聚类的处理,将原本复杂的非线性预测问题转化为简单的线性预测问题,利于后续的建模和预测;实现了污水厂出水变量的有效预测,值得推广。
(4)本实施例应用混合的半监督标记方法,对未标记数据补充输出变量,充分考虑了标记数据的影响,极大地提升了未标记数据的利用精度和利用率。
本实施例还提供了一种用于出水变量预测的软测量装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图1所示方法。
本实施例的一种用于出水变量预测的软测量装置,可执行本发明方法实施例所提供的一种用于出水变量预测的软测量方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种用于出水变量预测的软测量方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (9)
1.一种用于出水变量预测的软测量方法,其特征在于,包括以下步骤:
获取污水处理数据,将污水处理数据划分为标记数据集L和未标记数据集U;
计算标记数据集L中任两组数据之间的差异性距离,根据差异性距离计算标记数据集L中每组数据的结构熵Ei;
根据结构熵Ei对标记数据集L进行聚类处理,获得m个标记数据子集L1,L2,…Lm;
根据差异性距离将未标记数据集U中每一个未标记数据xu划分到对应的标记数据子集Li,根据标记数据子集Li获取未标记数据xu对应的出水变量获得新的标记数据/>
根据新的标记数据更新标记数据子集Li,获得新的标记数据子集L′1,L′2,…,L′m;
根据新的标记数据子集构建预测模型fi;
获取测试数据xt,根据测试数据xt获取对应的预测模型进行预测,获得预测值
差异性距离通过以下公式计算获得:
d(xi,xj)=l-s(xi,xj))/l
d(xi,xj)表示xi和xj两个数据的差异性距离,s(xi,xj)表示xi和xj的相似度,l是输入变量的维度;
θ(xip,xjp)表示数据xi和xj在第p维度上的相似性:
其中,r表示相似性的限度;
结构熵Ei通过以下公式计算获得:
Ei表示数据xi的结构熵;
其中,dij表示d(xi,xj), 是整个标记数据集L的平均差异性距离。
2.根据权利要求1所述的一种用于出水变量预测的软测量方法,其特征在于,在获取污水处理数据的步骤后,还包括以下步骤:
对污水处理数据进行归一化处理;
其中,归一化处理的公式如下:
xmin和xmax分别代表这组数据中的最小值和最大值,x和分别表示原始数据和归一化处理后的数据。
3.根据权利要求1所述的一种用于出水变量预测的软测量方法,其特征在于,所述根据结构熵Ei对标记数据集L进行聚类处理,获得m个标记数据子集L1,L2,…Lm,包括:
将标记数据集L中每组数据的结构熵Ei进行升序排列,获取前m个结构熵Ei对应的数据作为m个聚类中心li;
根据差异性距离将标记数据集L中每组数据划分到对应的聚类中心,聚类获得标记数据子集L1,L2,…Lm。
4.根据权利要求1所述的一种用于出水变量预测的软测量方法,其特征在于,所述根据差异性距离将未标记数据集U中每一个未标记数据xu划分到对应的标记数据子集Li,包括:
计算未标记数据xu和每一个聚类中心的差异性距离,获取差异性距离最小的聚类中心对应的标记数据子集Li,将未标记数据xu划分到所述标记数据子集Li;
所述根据标记数据子集Li获取未标记数据xu对应的出水变量获得新的标记数据包括:
计算未标记数据xu与标记数据子集Li中各组数据的差异性距离,获取差异性距离小于预设阈值的若干个标记数据,计算若干个标记数据的平均值作为未标记数据xu对应的出水变量获得新的标记数据/>
5.根据权利要求1所述的一种用于出水变量预测的软测量方法,其特征在于,所述根据新的标记数据更新标记数据子集Li,获得新的标记数据子集L′1,L′2,…,L′m,包括:
将新的标记数据对标记数据子集Li进行扩充,获得新的标记数据子集L′1,L′2,…,L′m;其中,
。
6.根据权利要求1所述的一种用于出水变量预测的软测量方法,其特征在于,所述根据新的标记数据子集构建预测模型fi,包括:
根据新的标记数据子集L′1,L′2,…,L′m,利用偏最小二乘算法建立预测模型f1,f2,…,fm;
其中,
fi=PLS(L′i)i=1,2,…,m。
7.根据权利要求1所述的一种用于出水变量预测的软测量方法,其特征在于,所述获取测试数据xt,根据测试数据xt获取对应的预测模型进行预测,获得预测值包括:
计算测试数据xt和每一个聚类中心的差异性距离,获取差异性距离最小的聚类中心对应的标记数据子集L′i;
获取标记数据子集L′i对应的偏最小二乘预测模型fi,对测试数据xt进行预测,获得预测值
8.一种用于出水变量预测的软测量装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-7任一项所述方法。
9.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110843484.6A CN113673574B (zh) | 2021-07-26 | 2021-07-26 | 一种用于出水变量预测的软测量方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110843484.6A CN113673574B (zh) | 2021-07-26 | 2021-07-26 | 一种用于出水变量预测的软测量方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113673574A CN113673574A (zh) | 2021-11-19 |
CN113673574B true CN113673574B (zh) | 2023-12-05 |
Family
ID=78540164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110843484.6A Active CN113673574B (zh) | 2021-07-26 | 2021-07-26 | 一种用于出水变量预测的软测量方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673574B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101779A (zh) * | 2020-09-15 | 2020-12-18 | 南京智慧航空研究院有限公司 | 基于主客观结合的结构熵权法机场场面运行综合评价系统 |
CN112381221A (zh) * | 2020-10-28 | 2021-02-19 | 华南理工大学 | 一种基于半监督学习的污水监测的多输出软测量方法 |
-
2021
- 2021-07-26 CN CN202110843484.6A patent/CN113673574B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101779A (zh) * | 2020-09-15 | 2020-12-18 | 南京智慧航空研究院有限公司 | 基于主客观结合的结构熵权法机场场面运行综合评价系统 |
CN112381221A (zh) * | 2020-10-28 | 2021-02-19 | 华南理工大学 | 一种基于半监督学习的污水监测的多输出软测量方法 |
Non-Patent Citations (2)
Title |
---|
基于改进JIT算法的软测量建模及其在污水处理中的应用;刘乙奇等;华南理工大学学报(自然科学版);第39卷(第5期);第55-67页 * |
基于最小熵正则化的半监督分类;刘小兰等;华南理工大学学报(自然科学版);第38卷(第1期);第87-91页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113673574A (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Si et al. | Model-based clustering for RNA-seq data | |
Wang et al. | A novel method of statistical line loss estimation for distribution feeders based on feeder cluster and modified XGBoost | |
Zheng et al. | SENSE: Siamese neural network for sequence embedding and alignment-free comparison | |
CN103971133B (zh) | 基于案例推理的钢板表面缺陷的自动识别方法 | |
Jiang et al. | DEPP: deep learning enables extending species trees using single genes | |
CN114091603A (zh) | 一种空间转录组细胞聚类、分析方法 | |
CN116486902A (zh) | 一种基于基因调控网络识别驱动调控因子的方法 | |
Safder et al. | Investigating machine learning applications for effective real-time water quality parameter monitoring in full-scale wastewater treatment plants | |
Jiang et al. | DACE: a scalable DP-means algorithm for clustering extremely large sequence data | |
Celik et al. | Biological cartography: Building and benchmarking representations of life | |
Frontistis et al. | Machine learning implementation in membrane bioreactor systems: progress, challenges, and future perspectives: a review | |
Yin et al. | An improved hierarchical clustering algorithm based on the idea of population reproduction and fusion | |
Agapito et al. | A python clustering analysis protocol of genes expression data sets | |
CN113673574B (zh) | 一种用于出水变量预测的软测量方法、装置及介质 | |
Darvish et al. | Needle: a fast and space-efficient prefilter for estimating the quantification of very large collections of expression experiments | |
CN112801222A (zh) | 基于二分类模型的多分类方法、装置、电子设备及介质 | |
Li et al. | Fuzzy K-Means Incremental Clustering Based on K-Center and Vector Quantization. | |
CN115618083A (zh) | 一种面向多源异构数据归一化的方法及装置 | |
Nguyen et al. | Efficient agglomerative hierarchical clustering for biological sequence analysis | |
Wang et al. | Machine learning and ensemble learning for transcriptome data: principles and advances | |
Ma et al. | EnsembleKQC: an unsupervised ensemble learning method for quality control of single cell RNA-seq sequencing data | |
Wei et al. | An adaboost-based intelligent driving algorithm for heavy-haul trains | |
CN113792794A (zh) | 一种基于膜算法的特征选择方法 | |
Islam et al. | Leveraging cell-cell similarity for high-performance spatial and temporal cellular mappings from gene expression data | |
Popic et al. | GATTACA: lightweight metagenomic binning with compact indexing of kmer counts and minhash-based panel selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |