CN114512191A - 一种基于迁移成分分析的青霉素浓度预测方法 - Google Patents

一种基于迁移成分分析的青霉素浓度预测方法 Download PDF

Info

Publication number
CN114512191A
CN114512191A CN202210050335.9A CN202210050335A CN114512191A CN 114512191 A CN114512191 A CN 114512191A CN 202210050335 A CN202210050335 A CN 202210050335A CN 114512191 A CN114512191 A CN 114512191A
Authority
CN
China
Prior art keywords
data
component analysis
penicillin
model
source domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210050335.9A
Other languages
English (en)
Inventor
熊伟丽
周阅昇
马君霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202210050335.9A priority Critical patent/CN114512191A/zh
Publication of CN114512191A publication Critical patent/CN114512191A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Physiology (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于迁移成分分析的青霉素浓度预测方法,包括:采用迁移成分分析处理已知工况数据与待测工况数据,定义已知工况数据为源域,待测工况数据为目标域;基于高斯混合模型将经过处理的源域数据进行聚类划分,并利用偏最小二乘回归与对应标签数据建立子模型的集成模型;将处理后的目标域数据通过子模型的集成模型进行青霉素浓度预测。本发明可以提升青霉素浓度预测精度,有效适应工况变化,在待测数据与建模数据分布不同时,仍能保持良好的预测精度。

Description

一种基于迁移成分分析的青霉素浓度预测方法
技术领域
本发明涉及生工、深度学习的技术领域,尤其涉及一种基于迁移成分分析的青霉素浓度预测方法。
背景技术
青霉素浓度是青霉素发酵过程中非常重要的过程变量,准确检测其值是优化控制、提高产量的关键。但青霉素浓度传感器测量成本很高,离线化验耗时较久,因此软测量技术为其提供了有效的解决方案。
近年来常用的软测量建模方法有偏最小二乘法、支持向量机法、人工神经网络法等等。其中偏最小二乘法通过将历史过程数据从高维度数据空间映射到相应的低维度数据空间,分别获取自变量和因变量互相正交的特征向量,再建立自变量与因变量的特征向量间的线性回归关系来预测青霉素浓度,是一种实施简单,精度较佳的基础软测量方法。针对青霉素发酵过程的阶段性特点,可引入集成学习策略改进,利用高斯混合模型先对数据进行聚类,以有效提取过程多阶段特征,再利用集成学习进行子模型的融合,具有比基础模型更好的模型精度。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的技术问题是:现有软测量模型要求待测数据与建模数据特征分布一致,然而在青霉素发酵过程中,不能简单假定每次发酵都处于相同的工况下,补料、环境变化等因素都会使工况发生变化,不同工况下得到的过程数据,其分布并不一定相同,从而使已有的软测量模型预测精度下降。
为解决上述技术问题,本发明提供如下技术方案:采用迁移成分分析处理已知工况数据与待测工况数据,定义所述已知工况数据为源域,所述待测工况数据为目标域;基于高斯混合模型将经过处理的源域数据进行聚类划分,并利用偏最小二乘回归与对应标签数据建立子模型的集成模型;将处理后的目标域数据通过所述子模型的集成模型进行青霉素浓度预测。
作为本发明所述的基于迁移成分分析的青霉素浓度预测方法的一种优选方案,其中:所述子模型的集成模型建立过程包括,利用迁移成分分析获取最优特征映射矩阵,适配所述源域与目标域数据的边缘分布:(X's,X't)=TCA(Xs,Xt),其中X's,X't为适配后的新源域数据与新目标域数据;结合青霉素发酵过程分为三个阶段的机理特点,使用所述高斯混合模型对所述新源域数据进行聚类划分,得到三个子类X's1、X's2、X's3;与所述偏最小二乘回归结合对各子类及其标签(X's1,Ys1)、(X's2,Ys2)、(X's3,Ys3)建立软测量模型;计算待测样本X't属于各子类的概率,以概率融合方法作为子模型融合策略,将所述待测样本X't代入集成软测量模型中得到最终预测结果Yt
作为本发明所述的基于迁移成分分析的青霉素浓度预测方法的一种优选方案,其中:所述迁移成分分析的过程包括,定义已知青霉素过程数据为源域Ds={Xs,Ys},其中Xs为源域样本数据集,Ys为源域标签数据集,待测青霉素数据为目标域Dt={Xt},其中Xt为目标域样本数据集,目标域标签数据未知;TCA基于源域和目标域样本的边缘概率分布不同的情况,即P(Xs)≠P(Xt),定义存在一个特征映射φ,使映射后的两域间边缘概率分布一致,即P(φ(Xs))≈P(φ(Xt));为求解所述特征映射φ,所述TCA利用最大均值差异来度量源域与目标域之间的距离。
作为本发明所述的基于迁移成分分析的青霉素浓度预测方法的一种优选方案,其中:所述度量源域与目标域之间的距离的计算公式包括,
Figure BDA0003473748290000021
其中,n1为源域样本个数,n2为目标域样本个数,xsi∈Xs,xtj∈Xt,||.||H表示再生核希尔伯特空间范数。
作为本发明所述的基于迁移成分分析的青霉素浓度预测方法的一种优选方案,其中:还包括,将展开后的内积转化为核矩阵形式,则公式dist(Xs,Xt)表示为:
dist(Xs,Xt)=tr(KL)
Figure BDA0003473748290000022
其中,Ks,s、Kt,t、Ks,t、Kt,s分别为源域、目标域及两域间的核矩阵,且K(i,j)=[φ(xi)Tφ(xj)],L为度量矩阵,其计算表达式为:
Figure BDA0003473748290000031
将核矩阵分解为K=(KK-1/2)(K-1/2K),同时定义低维矩阵
Figure BDA0003473748290000032
将核映射转化到m维空间上(m<n1+n2),则转化后的核矩阵表示为:
Figure BDA0003473748290000033
其中,
Figure BDA0003473748290000034
优化对象由K转化为W;
将式
Figure BDA0003473748290000035
代入式dist(Xs,Xt)中得:
dist(Xs,Xt)=tr(WTKLKW)
在最小化两域间距离即式dist(Xs,Xt)=tr(WTKLKW)时,引入正则化项tr(WTW)控制W矩阵的复杂度,约束项是数据的散度,对映射后的数据WTK而言,是其协方差矩阵WTKHKW,
Figure BDA0003473748290000036
其中I表示单位矩阵,1表示n1+n2行的全1列向量;
综上,得到所述TCA的优化目标为:
Figure BDA0003473748290000037
s.t.WTKHKW=Im
其中,μ为权衡因子;
通过求解所述TCA的优化目标的公式,得到最优映射矩阵W,完成对源域与目标域特征数据空间的映射。
作为本发明所述的基于迁移成分分析的青霉素浓度预测方法的一种优选方案,其中:当所述高斯混合模型用于数据聚类分析时,通过若干不同权重的高斯成分的融合来近似逼近任意数据分布。
作为本发明所述的基于迁移成分分析的青霉素浓度预测方法的一种优选方案,其中:定义数据矩阵为x,所述高斯混合模型的概率密度函数为:
Figure BDA0003473748290000038
其中,x的维度决定g(x)的维度,g(x)是高斯函数,K是GMM中高斯成分的个数,ωi是混合权重,0≤ωi≤1,该数值决定了第i个高斯函数在GMM中的权重,μi和∑i表示第i个高斯函数的均值矩阵与协方差矩阵,定义θ={θ12,…,θK}={μ1,∑1,…,μK,∑K}为GMM参数集。
作为本发明所述的基于迁移成分分析的青霉素浓度预测方法的一种优选方案,其中:还包括,第i个高斯函数表达式为:
Figure BDA0003473748290000041
若x={x1,x2,…,xn}为N维训练样本集,令Θ={{ω11,∑1},…,{ωKK,∑K}};
构造对数似然函数如下式所示:
Figure BDA0003473748290000042
则参数估计问题转化成:
Figure BDA0003473748290000043
通过期望最大化算法求解以上问题的各参数,E步骤根据贝叶斯公式计算,后验概率
Figure BDA0003473748290000044
为:
Figure BDA0003473748290000045
其中,
Figure BDA0003473748290000046
t表示第t次迭代,xq表示新来样本;
M步骤根据概率更新高斯参数:
Figure BDA0003473748290000047
Figure BDA0003473748290000048
Figure BDA0003473748290000049
其中,
Figure BDA00034737482900000410
分别表示当经过t+1次迭代后,第i个高斯分量各自的先验概率、均值向量与协方差矩阵;
所述EM算法通过不断进行E步骤和M步骤对参数进行迭代,直到对数似然函数收敛到阈值,得到对应的后验概率和高斯参数,完成对训练样本的聚类。
本发明的有益效果:本发明可以提升青霉素浓度预测精度,有效适应工况变化,在待测数据与建模数据分布不同时,仍能保持良好的预测精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例提供的一种基于迁移成分分析的青霉素浓度预测方法的软测量建模流程示意图;
图2为本发明一个实施例提供的一种基于迁移成分分析的青霉素浓度预测方法的同一工况下青霉素浓度预测结果示意图;
图3为本发明一个实施例提供的一种基于迁移成分分析的青霉素浓度预测方法的变工况下青霉素浓度预测结果示意图;
图4为本发明一个实施例提供的一种基于迁移成分分析的青霉素浓度预测方法的青霉素浓度预测结果示意图;
图5为本发明一个实施例提供的一种基于迁移成分分析的青霉素浓度预测方法的各组实验预测误差对比示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1,为本发明的一个实施例,提供了一种基于迁移成分分析的青霉素浓度预测方法,包括:
S1:采用迁移成分分析处理已知工况数据与待测工况数据,定义已知工况数据为源域,待测工况数据为目标域。
S2:基于高斯混合模型将经过处理的源域数据进行聚类划分,并利用偏最小二乘回归与对应标签数据建立子模型的集成模型。
S3:将处理后的目标域数据通过子模型的集成模型进行青霉素浓度预测。
需要说明的是,S1~S3步骤具体包括:
为解决青霉素发酵过程中因建模数据与待测数据存在分布差异而预测结果不佳的实际问题,本发明利用迁移学习的思想,基于迁移成分分析方法对已知数据信息进行充分利用并加以迁移,改善了软测量模型对不同分布数据预测的泛化能力,提高预测精度。同时结合发酵过程分为菌体生长期、青霉素分泌期与菌体自溶期三阶段的机理特点,使用高斯混合模型进行集成建模。综合上述分析,提出基于迁移成分分析的子模型集成软测量建模策略,如附图1所示。
设青霉素发酵过程源域、目标域数据分别为Ds={Xs,Ys}和Dt={Xt},基于迁移成分分析的多模型集成软测量建模步骤为:
(1)利用迁移成分分析获取最优特征映射矩阵,适配源域与目标域数据的边缘分布:(X's,X't)=TCA(Xs,Xt),其中X's,X't为适配后的新源域数据与新目标域数据;
(2)结合青霉素发酵过程分为三个阶段的机理特点,使用高斯混合模型对新源域数据进行聚类划分,得到三个子类X's1、X's2、X's3
(3)与偏最小二乘回归结合对各子类及其标签(X's1,Ys1)、(X's2,Ys2)、(X's3,Ys3)建立软测量模型;
(4)计算待测样本X't属于各子类的概率,以概率融合方法作为子模型融合策略,将待测样本X't代入集成软测量模型中得到最终预测结果Yt
其中,迁移成分分析属于基于特征的迁移学习方法,通过求解使领域间距离最小,同时最大程度保留其内部属性的特征映射,来适配不同领域间的边缘分布;具体的,迁移成分分析的过程包括:
定义已知青霉素过程数据为源域Ds={Xs,Ys},其中Xs为源域样本数据集,Ys为源域标签数据集,待测青霉素数据为目标域Dt={Xt},其中Xt为目标域样本数据集,目标域标签数据未知;
TCA基于源域和目标域样本的边缘概率分布不同的情况,即P(Xs)≠P(Xt),定义存在一个特征映射φ,使映射后的两域间边缘概率分布一致,即P(φ(Xs))≈P(φ(Xt));
为求解特征映射φ,TCA利用最大均值差异来度量源域与目标域之间的距离,即:
Figure BDA0003473748290000071
其中,n1为源域样本个数,n2为目标域样本个数,xsi∈Xs,xtj∈Xt,||.||H表示再生核希尔伯特空间范数。
将展开后的内积转化为核矩阵形式,则公式dist(Xs,Xt)表示为:
dist(Xs,Xt)=tr(KL)
Figure BDA0003473748290000081
其中,Ks,s、Kt,t、Ks,t、Kt,s分别为源域、目标域及两域间的核矩阵,且K(i,j)=[φ(xi)Tφ(xj)],L为度量矩阵,其计算表达式为:
Figure BDA0003473748290000082
将核矩阵分解为K=(KK-1/2)(K-1/2K),同时定义低维矩阵
Figure BDA0003473748290000083
将核映射转化到m维空间上(m<n1+n2),则转化后的核矩阵表示为:
Figure BDA0003473748290000084
其中,
Figure BDA0003473748290000085
优化对象由K转化为W;
将式
Figure BDA0003473748290000086
代入式dist(Xs,Xt)中得:
dist(Xs,Xt)=tr(WTKLKW)
在最小化两域间距离即式dist(Xs,Xt)=tr(WTKLKW)时,引入正则化项tr(WTW)控制W矩阵的复杂度,约束项是数据的散度,对映射后的数据WTK而言,是其协方差矩阵WTKHKW,
Figure BDA0003473748290000087
其中I表示单位矩阵,1表示n1+n2行的全1列向量;
综上,得到TCA的优化目标为:
Figure BDA0003473748290000088
s.t.WTKHKW=Im
其中,μ为权衡因子;
通过求解TCA的优化目标的公式,得到最优映射矩阵W,完成对源域与目标域特征数据空间的映射。
进一步的,高斯混合模型(Gaussian Mixture Model,GMM)是一种概率统计学模型,当其用于数据聚类分析时,本质上是通过若干不同权重的高斯成分的融合来近似逼近任意数据分布。
具体的,定义数据矩阵为x,高斯混合模型的概率密度函数为:
Figure BDA0003473748290000091
其中,x的维度决定g(x)的维度,g(x)是高斯函数,K是GMM中高斯成分的个数,ωi是混合权重,0≤ωi≤1,该数值决定了第i个高斯函数在GMM中的权重,μi和∑i表示第i个高斯函数的均值矩阵与协方差矩阵,定义θ={θ12,…,θK}={μ1,∑1,…,μK,∑K}为GMM参数集。
第i个高斯函数表达式为:
Figure BDA0003473748290000092
若x={x1,x2,…,xn}为N维训练样本集,令Θ={{ω11,∑1},…,{ωKK,∑K}};
构造对数似然函数如下式所示:
Figure BDA0003473748290000093
则参数估计问题转化成:
Figure BDA0003473748290000094
通过期望最大化算法求解以上问题的各参数,E步骤根据贝叶斯公式计算,后验概率
Figure BDA0003473748290000095
为:
Figure BDA0003473748290000096
其中,
Figure BDA0003473748290000097
t表示第t次迭代,xq表示新来样本;
M步骤根据概率更新高斯参数:
Figure BDA0003473748290000098
Figure BDA0003473748290000099
Figure BDA00034737482900000910
其中,
Figure BDA00034737482900000911
分别表示当经过t+1次迭代后,第i个高斯分量各自的先验概率、均值向量与协方差矩阵;
其中,EM算法包括E步骤和M步骤,E步骤是期望步,M步骤是极大步,通过不断进行E步骤和M步骤对参数进行迭代,直到对数似然函数收敛到阈值,得到对应的后验概率和高斯参数,完成对训练样本的聚类。
实施例2
参照图2~5为本发明另一个实施例,该实施例不同于第一个实施例的是,提供了一种基于迁移成分分析的青霉素浓度预测方法的验证测试,为对本方法中采用的技术效果加以验证说明,本实施例采用传统技术方案与本发明方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
实验数据通过Pensim仿真平台获取,该平台以Birol机理模型为内核,考虑了多种与实际青霉素发酵过程相关的变量,已广泛应用于过程建模与检测领域;辅助变量选择实际生产过程中容易检测的曝气量、冷却水流速、二氧化碳量、溶解氧量和pH值;主导变量选择难以在线测量的青霉素浓度。
设定发酵时间为400h,采样间隔为0.2h,训练集和测试集均取1000组。为了模拟工况变化,仿真中固定其他初始条件为默认值,在初始基质浓度为5、10、15的情况下,生成三组不同的过程数据,分别定义为工况1、工况2、工况3,为量化预测精度,本实施例采用均方根误差(Root Mean Squared Error,RMSE)、平均绝对误差(Mean Absolute Error,MAE)和相关指数(R-Square,R2)三种指标来进行比较。其计算公式为:
Figure BDA0003473748290000101
Figure BDA0003473748290000102
Figure BDA0003473748290000103
本实施例结合实施例1中的迁移成分分析与高斯混合模型进行软测量建模,能进一步提高青霉素浓度预测精度的效果。在同一工况下进行算法仿真:采用工况1数据作为源域建模数据与目标域待测数据的数据源,分别以局部加权偏最小二乘(LWPLS)、集成偏最小二乘(GMM-PLS)和本发明提出的TCA-GMM-PLS进行对比,三种指标计算结果如表1,预测结果如附图2所示。
表1:同一工况下三种模型预测结果表。
LWPLS GMM-PLS TCA-GMM-PLS
RMSE 0.0324 0.0278 0.0062
MAE 0.0199 0.0211 0.0042
R2 0.9950 0.9963 0.9998
对比实验表明同一工况下数据,通过三种模型均得到了比较好的预测结果,其中本发明具有更高的预测精度,相比传统软测量策略对青霉素浓度的预测误差更小。
进一步的,针对工况改变时,传统软测量模型的性能明显下降的问题,本发明针对性选用了实施例1中的迁移成分分析。不同工况下进行仿真对比:附图3给出了由工况1作为源域建模数据,工况3作为目标域预测青霉素浓度时,三种软测量方法的实验结果。表2是三种建模方法进行预测的指标计算结果。
表2:变工况下三种模型预测结果表。
LWPLS GMM-PLS TCA-GMM-PLS
RMSE 0.1390 0.0599 0.0464
MAE 0.0860 0.0455 0.0261
R2 0.9093 0.9832 0.9899
实验结果表明当工况发生了变化时,传统软测量模型的性能明显下降,预测结果较差;GMM-PLS由于考虑了青霉素发酵多阶段特性,具有一定的预测精度;而本发明基于TCA与GMM的建模策略,仍具有良好的预测结果,说明了所提模型的泛化能力与鲁棒性能的提升。
更进一步的,本发明整体提高了青霉素发酵过程软测量模型的稳定性与适应性。附图4给出各工况数据分别作为源域建模数据及目标域待测数据的青霉素浓度预测结果,“工况1-工况3”表示工况1作为建模数据集,工况3作为待测数据集;附图5则对比了各个情况下不同方法的预测误差,本发明提出的方法预测误差均为其中最小。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于迁移成分分析的青霉素浓度预测方法,其特征在于,包括:
采用迁移成分分析处理已知工况数据与待测工况数据,定义所述已知工况数据为源域,所述待测工况数据为目标域;
基于高斯混合模型将经过处理的源域数据进行聚类划分,并利用偏最小二乘回归与对应标签数据建立子模型的集成模型;
将处理后的目标域数据通过所述子模型的集成模型进行青霉素浓度预测。
2.如权利要求1所述的基于迁移成分分析的青霉素浓度预测方法,其特征在于:所述子模型的集成模型建立过程包括,
利用迁移成分分析获取最优特征映射矩阵,适配所述源域与目标域数据的边缘分布:(X′s,X′t)=TCA(Xs,Xt),其中X′s,X′t为适配后的新源域数据与新目标域数据;
结合青霉素发酵过程分为三个阶段的机理特点,使用所述高斯混合模型对所述新源域数据进行聚类划分,得到三个子类X′s1、X′s2、X′s3
与所述偏最小二乘回归结合对各子类及其标签(X′s1,Ys1)、(X′s2,Ys2)、(X′s3,Ys3)建立软测量模型;
计算待测样本X′t属于各子类的概率,以概率融合方法作为子模型融合策略,将所述待测样本X′t代入集成软测量模型中得到最终预测结果Yt
3.如权利要求2所述的基于迁移成分分析的青霉素浓度预测方法,其特征在于:所述迁移成分分析的过程包括,
定义已知青霉素过程数据为源域Ds={Xs,Ys},其中Xs为源域样本数据集,Ys为源域标签数据集,待测青霉素数据为目标域Dt={Xt},其中Xt为目标域样本数据集,目标域标签数据未知;
TCA基于源域和目标域样本的边缘概率分布不同的情况,即P(Xs)≠P(Xt),定义存在一个特征映射φ,使映射后的两域间边缘概率分布一致,即P(φ(Xs))≈P(φ(Xt));
为求解所述特征映射φ,所述TCA利用最大均值差异来度量源域与目标域之间的距离。
4.如权利要求1~3任一所述的基于迁移成分分析的青霉素浓度预测方法,其特征在于:所述度量源域与目标域之间的距离的计算公式包括,
Figure FDA0003473748280000021
其中,n1为源域样本个数,n2为目标域样本个数,xsi∈Xs,xtj∈Xt,||.||H表示再生核希尔伯特空间范数。
5.如权利要求4所述的基于迁移成分分析的青霉素浓度预测方法,其特征在于:还包括,
将展开后的内积转化为核矩阵形式,则公式dist(Xs,Xt)表示为:
dist(Xs,Xt)=tr(KL)
Figure FDA0003473748280000022
其中,Ks,s、Kt,t、Ks,t、Kt,s分别为源域、目标域及两域间的核矩阵,且K(i,j)=[φ(xi)Tφ(xj)],L为度量矩阵,其计算表达式为:
Figure FDA0003473748280000023
将核矩阵分解为K=(KK-1/2)(K-1/2K),同时定义低维矩阵
Figure FDA0003473748280000024
将核映射转化到m维空间上(m<n1+n2),则转化后的核矩阵表示为:
Figure FDA0003473748280000025
其中,
Figure FDA0003473748280000026
优化对象由K转化为W;
将式
Figure FDA0003473748280000027
代入式dist(Xs,Xt)中得:
dist(Xs,Xt)=tr(WTKLKW)
在最小化两域间距离即式dist(Xs,Xt)=tr(WTKLKW)时,引入正则化项tr(WTW)控制W矩阵的复杂度,约束项是数据的散度,对映射后的数据WTK而言,是其协方差矩阵WTKHKW,
Figure FDA0003473748280000028
其中I表示单位矩阵,1表示n1+n2行的全1列向量;
综上,得到所述TCA的优化目标为:
Figure FDA0003473748280000029
s.t.WTKHKW=Im
其中,μ为权衡因子;
通过求解所述TCA的优化目标的公式,得到最优映射矩阵W,完成对源域与目标域特征数据空间的映射。
6.如权利要求1所述的基于迁移成分分析的青霉素浓度预测方法,其特征在于:当所述高斯混合模型用于数据聚类分析时,通过若干不同权重的高斯成分的融合来近似逼近任意数据分布。
7.如权利要求1或6所述的基于迁移成分分析的青霉素浓度预测方法,其特征在于:定义数据矩阵为x,所述高斯混合模型的概率密度函数为:
Figure FDA0003473748280000031
其中,x的维度决定g(x)的维度,g(x)是高斯函数,K是GMM中高斯成分的个数,ωi是混合权重,0≤ωi≤1,该数值决定了第i个高斯函数在GMM中的权重,μi和∑i表示第i个高斯函数的均值矩阵与协方差矩阵,定义θ={θ12,...,θK}={μ1,∑1,...,μK,∑K}为GMM参数集。
8.如权利要求7所述的基于迁移成分分析的青霉素浓度预测方法,其特征在于:还包括,
第i个高斯函数表达式为:
Figure FDA0003473748280000032
若x={x1,x2,...,xn}为N维训练样本集,令Θ={{ω11,∑1},...,{ωKK,∑K}};
构造对数似然函数如下式所示:
Figure FDA0003473748280000033
则参数估计问题转化成:
Figure FDA0003473748280000034
通过期望最大化算法求解以上问题的各参数,E步骤根据贝叶斯公式计算,后验概率
Figure FDA0003473748280000035
为:
Figure FDA0003473748280000036
其中,
Figure FDA0003473748280000037
t表示第t次迭代,xq表示新来样本;
M步骤根据概率更新高斯参数:
Figure FDA0003473748280000041
Figure FDA0003473748280000042
Figure FDA0003473748280000043
其中,
Figure FDA0003473748280000044
分别表示当经过t+1次迭代后,第i个高斯分量各自的先验概率、均值向量与协方差矩阵;
所述EM算法通过不断进行E步骤和M步骤对参数进行迭代,直到对数似然函数收敛到阈值,得到对应的后验概率和高斯参数,完成对训练样本的聚类。
CN202210050335.9A 2022-01-17 2022-01-17 一种基于迁移成分分析的青霉素浓度预测方法 Pending CN114512191A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210050335.9A CN114512191A (zh) 2022-01-17 2022-01-17 一种基于迁移成分分析的青霉素浓度预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210050335.9A CN114512191A (zh) 2022-01-17 2022-01-17 一种基于迁移成分分析的青霉素浓度预测方法

Publications (1)

Publication Number Publication Date
CN114512191A true CN114512191A (zh) 2022-05-17

Family

ID=81549987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210050335.9A Pending CN114512191A (zh) 2022-01-17 2022-01-17 一种基于迁移成分分析的青霉素浓度预测方法

Country Status (1)

Country Link
CN (1) CN114512191A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115730734A (zh) * 2022-11-29 2023-03-03 广东工业大学 一种基于迁移成分回归的生产线与装备的预测方法
CN116484723A (zh) * 2023-03-31 2023-07-25 昆明理工大学 一种基于动态多层域自适应的发酵过程软测量建模方法
CN116561710A (zh) * 2023-05-12 2023-08-08 西咸新区大熊星座智能科技有限公司 基于数据空间转化的焊接参数迁移学习预测方法
CN117171140A (zh) * 2023-10-25 2023-12-05 勾股科技(北京)有限公司 一种数据迁移方法及装置
CN116484723B (zh) * 2023-03-31 2024-05-31 昆明理工大学 一种基于动态多层域自适应的发酵过程软测量建模方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115730734A (zh) * 2022-11-29 2023-03-03 广东工业大学 一种基于迁移成分回归的生产线与装备的预测方法
CN115730734B (zh) * 2022-11-29 2023-08-08 广东工业大学 一种基于迁移成分回归的生产线与装备的预测方法
CN116484723A (zh) * 2023-03-31 2023-07-25 昆明理工大学 一种基于动态多层域自适应的发酵过程软测量建模方法
CN116484723B (zh) * 2023-03-31 2024-05-31 昆明理工大学 一种基于动态多层域自适应的发酵过程软测量建模方法
CN116561710A (zh) * 2023-05-12 2023-08-08 西咸新区大熊星座智能科技有限公司 基于数据空间转化的焊接参数迁移学习预测方法
CN116561710B (zh) * 2023-05-12 2024-02-02 西咸新区大熊星座智能科技有限公司 基于数据空间转化的焊接参数迁移学习预测方法
CN117171140A (zh) * 2023-10-25 2023-12-05 勾股科技(北京)有限公司 一种数据迁移方法及装置

Similar Documents

Publication Publication Date Title
CN114512191A (zh) 一种基于迁移成分分析的青霉素浓度预测方法
Gutmann et al. Noise-contrastive estimation of unnormalized statistical models, with applications to natural image statistics.
Sigrist Gaussian process boosting
Shang et al. Dual space latent representation learning for unsupervised feature selection
Murakami et al. Scalable GWR: A linear-time algorithm for large-scale geographically weighted regression with polynomial kernels
CN113259331B (zh) 一种基于增量学习的未知异常流量在线检测方法及系统
KR20210021147A (ko) 베이지안 최적화를 수행하기 위한 시스템 및 방법
Bonassi et al. Bayesian learning from marginal data in bionetwork models
CN111126575A (zh) 基于机器学习的气体传感器阵列混合气体检测方法及装置
CN103440512A (zh) 一种基于张量局部保持投影的大脑认知状态的识别方法
CN114169442B (zh) 基于双原型网络的遥感图像小样本场景分类方法
Kügler Moment fitting for parameter inference in repeatedly and partially observed stochastic biological models
CN110598636B (zh) 一种基于特征迁移的舰船目标识别方法
WO2023280316A1 (zh) 一种基于改进型XGBoost类方法的数据分析方法、定价方法以及相关设备
US20240126829A1 (en) Unsupervised feature selection method based on latent space learning and manifold constraints
CN116341097B (zh) 一种基于新型高维代理模型的跨音速机翼优化设计方法
Wang et al. Time-weighted kernel-sparse-representation-based real-time nonlinear multimode process monitoring
CN111753461A (zh) 潮汐水位修正方法、目标余水位获取方法、装置和设备
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
Ferwerda et al. KRLS: A Stata package for kernel-based regularized least squares
CN117497038A (zh) 一种基于核方法的快速优化培养基配方的方法
US20230140696A1 (en) Method and system for optimizing parameter intervals of manufacturing processes based on prediction intervals
CN116150638A (zh) 基于簇置信度的深度聚类集成方法、装置、设备和介质
Kaziska Functional analysis of variance, discriminant analysis, and clustering in a manifold of elastic curves
CN116415177A (zh) 一种基于极限学习机的分类器参数辨识方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination