CN113449866B - 燃料乙醇发酵过程工业知识图谱构建方法 - Google Patents
燃料乙醇发酵过程工业知识图谱构建方法 Download PDFInfo
- Publication number
- CN113449866B CN113449866B CN202110722594.7A CN202110722594A CN113449866B CN 113449866 B CN113449866 B CN 113449866B CN 202110722594 A CN202110722594 A CN 202110722594A CN 113449866 B CN113449866 B CN 113449866B
- Authority
- CN
- China
- Prior art keywords
- variables
- ethanol
- fermentation process
- yeast
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 title claims abstract description 305
- 238000000855 fermentation Methods 0.000 title claims abstract description 91
- 230000004151 fermentation Effects 0.000 title claims abstract description 91
- 239000000446 fuel Substances 0.000 title claims abstract description 52
- 238000010276 construction Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims abstract description 120
- 238000004519 manufacturing process Methods 0.000 claims abstract description 46
- 230000001364 causal effect Effects 0.000 claims abstract description 45
- 240000004808 Saccharomyces cerevisiae Species 0.000 claims abstract description 43
- 238000012216 screening Methods 0.000 claims abstract description 9
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 claims description 45
- JVTAAEKCZFNVCJ-UHFFFAOYSA-N lactic acid Chemical compound CC(O)C(O)=O JVTAAEKCZFNVCJ-UHFFFAOYSA-N 0.000 claims description 34
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical compound CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 claims description 27
- 235000000346 sugar Nutrition 0.000 claims description 25
- 239000004310 lactic acid Substances 0.000 claims description 17
- 235000014655 lactic acid Nutrition 0.000 claims description 17
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 claims description 16
- 239000008103 glucose Substances 0.000 claims description 16
- KDYFGRWQOYBRFD-UHFFFAOYSA-N Succinic acid Natural products OC(=O)CCC(O)=O KDYFGRWQOYBRFD-UHFFFAOYSA-N 0.000 claims description 11
- NRDGOJQPHWAEES-RKDXNWHRSA-N (2r)-2,6-diamino-n-[(2r)-1-amino-5-[[amino(nitramido)methylidene]amino]-1-oxopentan-2-yl]hexanamide Chemical compound NCCCC[C@@H](N)C(=O)N[C@@H](C(N)=O)CCCN=C(N)N[N+]([O-])=O NRDGOJQPHWAEES-RKDXNWHRSA-N 0.000 claims description 9
- 229930091371 Fructose Natural products 0.000 claims description 9
- 239000005715 Fructose Substances 0.000 claims description 9
- RFSUNEUAIZKAJO-ARQDHWQXSA-N Fructose Chemical compound OC[C@H]1O[C@](O)(CO)[C@@H](O)[C@@H]1O RFSUNEUAIZKAJO-ARQDHWQXSA-N 0.000 claims description 9
- WQZGKKKJIJFFOK-VFUOTHLCSA-N beta-D-glucose Chemical compound OC[C@H]1O[C@@H](O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-VFUOTHLCSA-N 0.000 claims description 9
- KDYFGRWQOYBRFD-NUQCWPJISA-N butanedioic acid Chemical compound O[14C](=O)CC[14C](O)=O KDYFGRWQOYBRFD-NUQCWPJISA-N 0.000 claims description 9
- 238000004587 chromatography analysis Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000035784 germination Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 150000008163 sugars Chemical class 0.000 description 2
- 239000002028 Biomass Substances 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- DGOBMKYRQHEFGQ-UHFFFAOYSA-L acid green 5 Chemical compound [Na+].[Na+].C=1C=C(C(=C2C=CC(C=C2)=[N+](CC)CC=2C=C(C=CC=2)S([O-])(=O)=O)C=2C=CC(=CC=2)S([O-])(=O)=O)C=CC=1N(CC)CC1=CC=CC(S([O-])(=O)=O)=C1 DGOBMKYRQHEFGQ-UHFFFAOYSA-L 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000002551 biofuel Substances 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000003398 denaturant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 239000002803 fossil fuel Substances 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000001384 succinic acid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Preparation Of Compounds By Using Micro-Organisms (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
Abstract
本发明公开了一种燃料乙醇发酵过程工业知识图谱构建方法,属于工业生物发酵过程智能制造领域。该方法分为三个阶段:首先需要采集燃料乙醇生产过程中的液化过程、酒母过程和发酵过程的数据,根据采集到的数据,构建并优化一个出罐乙醇体积比的预测模型,根据此模型初步筛选影响燃料乙醇生产过程的重要特征;然后以这些特征为根源,寻找上级生产阶段中与它们有明显因果关系的变量,直到每个生产阶段所有符合条件的变量被找到;最后以知识图谱的形式呈现找到的关键变量及其之间的因果关系程度。
Description
技术领域
本发明属于工业生物发酵过程智能制造领域,涉及在工业生物发酵过程中,一种燃料乙醇发酵过程工业知识图谱构建方法,以便对关键变量的控制并提高燃料乙醇生产的质量和效率。
背景技术
随着全球工业化的快速发展和社会经济的迅猛增长,传统能源煤矿、石油等化石燃料逐渐短缺,相伴而生的环境污染问题也不可忽视。燃料乙醇作为绿色、可再生的生物燃料,正在取代一次燃料的地位。燃料乙醇是体积分数在99.5%以上的无水乙醇,主要通过以生物质为原料经生物发酵作用等途径获得,它不添加变性剂,可作为燃料使用,是一种可再生资源,也是一种清洁的高辛烷值燃料,其燃烧性能和传统燃料相似。
燃料乙醇的美好前景决定了其在工业燃料生产领域的重要地位,其生产质量和效率也因此成为各方关注的焦点。燃料乙醇发酵制法的生产过程复杂,它涉及到拌料液化、酒母和发酵过程中大量需监测的变量以及多种物理和化学反应,其机理复杂,各变量的反应及数据采集工作不同程度地有所滞后,是一种具有多变量、纯滞后、非线性和强耦合的复杂被控对象。要保证燃料乙醇的高质高效生产,出罐乙醇体积比是一个关键指标,如果能够找到影响该关键指标的重要变量,通过连锁反应,即可在一定程度上从根源对整个燃料乙醇生产过程进行监测和控制。此策略的思路是根据燃料乙醇生产过程中的过程变量建立出罐乙醇体积比的软测量模型,先由模型筛选重要变量,再按照不同生产阶段的时间顺序,在可能对这些重要变量产生决定性影响的变量中继续筛选,直到在处于生产过程较早阶段且相对容易控制的液化环节中找到最可能影响后续过程的重要变量,最终将重要变量及其之间的影响关系以工业知识图谱的形式展现。燃料乙醇生产工厂的操作人员可以由知识图谱查看关键变量,对变量监控和机理分析有一定帮助。
XGBoost(eXtreme Gradient Boosting)树形模型是数据驱动的开源框架,在SHAP(SHapley Additive exPlanations)方法的特征选择指导下可以有效构建软测量模型并得到对出罐乙醇体积比影响最大的变量。以这些变量为根基,用基于评分的因果关系发现算法FGES(Fast Greedy Equivalence Search)追根溯源,在燃料乙醇生产的各个阶段中找到其他决定性变量。根据上述信息,可以构建燃料乙醇发酵过程关键指标的工业知识图谱。
发明内容
本发明的目的是针对燃料乙醇发酵过程构建一个包含各阶段重要变量的工业知识图谱,为工厂操作人员提供关键变量及其相互影响关系的参考,提高燃料乙醇生产的质量和效率,同时也对生产机理有一定启发和验证作用。
基于上述目的,本发明提供一种燃料乙醇发酵过程工业知识图谱构建方法,包含以下三个阶段:获取燃料乙醇生产过程历史数据,构建并优化预测模型;提取出罐乙醇体积比和各生产阶段中重要变量的因果关系及其对应权重值;绘制能准确表示此关系的工业知识图谱,用于对关键变量的控制并提高燃料乙醇生产的质量和效率。
针对构建并优化预测模型阶段,本发明建立一个燃料乙醇生产过程中出罐乙醇体积比的软测量模型,具体步骤如下:
(1)获取燃料乙醇生产过程中液化过程、酒母过程和发酵过程的生产历史数据;
(2)构建基于XGBoost框架的预测模型并训练;XGBoost模型的目标函数如下:
其中,l为损失函数,t为迭代轮数,Ω(ft)为正则项,constant为常数项,ft(xi)表示一个新的子模型,即回归树。经过泰勒展开近似并省去每次迭代过程中的常数损失函数后,目标函数可化简为:
其中分别代表上一轮迭代中损失函数的一阶偏导数和二阶偏导数。
(3)使用网格搜索方法,调整步骤(2)中预测模型的参数,确定最佳参数并重新训练模型;
(4)利用SHAP方法分析步骤(3)所得模型各特征的重要性,以此为标准,得到筛选后的特征;单个特征的SHAP重要性计算公式为:
其中S为模型中使用的特征的子集,j为该特征的编号,x1,…,xp为特征的向量,p为特征的数量,为S的权重,val(S)为S的预测值;
(5)根据步骤(4)的特征筛选结果,重新构建、训练模型并再次确定最优参数。查看各特征的重要性。
本发明所述燃料乙醇发酵过程工业知识图谱构建方法中,所述生产历史数据,针对液化过程,包含pH、干物、粘度、DP4+、DP3、DP2、葡萄糖、果糖、琥珀酸、乳酸、甘油、乙酸、乙醇、色谱还原糖、色谱总糖、DE、GI和SI等变量数据;针对酒母过程,包含pH、干物、酵母数、出芽率、死亡率、DP4+、DP3、DP2、葡萄糖、果糖、琥珀酸、乳酸、甘油、乙酸、乙醇、色谱还原糖、色谱总糖、乙醇/甘油和乙醇体积比等变量数据;针对发酵过程,包含发酵8小时、24小时和40小时共三组变量,每组变量包含DP4+、DP3、DP2、葡萄糖、果糖、琥珀酸、乳酸、甘油、乙酸、乙醇、色谱还原糖、色谱总糖、乙醇/甘油和乙醇体积比等变量数据;另有出罐乙醇体积比数据。
进一步地,本发明所述燃料乙醇发酵过程工业知识图谱构建方法中,所述构建基于XGBoost框架的预测模型并训练,将生产历史数据中除出罐乙醇体积比外的变量作为自变量,出罐乙醇体积比作为因变量。参数参考常用值和经验值进行选择,暂不对自变量做筛选。
更进一步地,本发明所述燃料乙醇发酵过程工业知识图谱构建方法中,所述调整参数使用网格搜索方法,给模型的各个参数在一定范围内设置可能的预选值,在此范围内将各参数组合成参数组,分别训练,多次模拟建模,从而在其中选定最优者。
更进一步地,本发明所述燃料乙醇发酵过程工业知识图谱构建方法中,所述利用SHAP方法筛选特征,分析特征对预测结果产生的影响,通过计算在预测中每个特征的贡献来确定该特征的重要程度。按特征重要性顺序,每次保留一定数量的特征,舍弃其余特征,多次建模,选定最优者后完成特征筛选。
更进一步地,本发明所述燃料乙醇发酵过程工业知识图谱构建方法中,所述重新构建、训练模型并再次确定最优参数,将利用SHAP方法筛选后的特征作为模型自变量,再次使用网格搜索方法调整参数。建模完成后用SHAP方法查看特征重要程度,删除其中属于发酵过程的组变量(8h、24h和40h)中的同名重复特征。记录其余特征和对应的重要性数值。
针对提取出罐乙醇体积比和各生产阶段中重要变量的因果关系及其对应权重值阶段,本发明考虑燃料乙醇生产过程的发生顺序,提出提取变量因果关系及其对应权重值的方法,具体步骤如下:
(1)提取液化过程、酒母过程和发酵过程中的变量和出罐乙醇体积比之间的影响作用;
(2)分别提取针对酒母过程和发酵过程、液化过程和发酵过程、液化过程和酒母过程中的变量之间的因果信息和对应权重值。
进一步地,本发明所述燃料乙醇发酵过程工业知识图谱构建方法中,所述提各生产阶段的变量与出罐乙醇体积比之间的影响作用,使用利用SHAP方法筛选出的特征作为影响出罐乙醇体积比的重要指标,由此确定因果信息,权重值即基于SHAP方法记录好的重要性数值。
更进一步地,本发明所述燃料乙醇发酵过程工业知识图谱构建方法中,所述分别提取不同生产阶段间变量的因果关系和对应权重值,使用基于评分的因果关系发现算法FGES和SEM BIC评分准则分析因果关系,并考虑约束条件:变量之间的因果关系必须按时间顺序定向,同一生产阶段的变量不能互为因果。具体步骤如下:
①针对酒母过程和发酵过程,分析前者中的全部变量和利用SHAP方法筛选出的特征中属于后者阶段的变量,得到酒母过程中的重要指标及其对应的因果信息和多次迭代后得到的权重值;
②针对液化过程和发酵过程,分析前者中的全部变量和利用SHAP方法筛选出的特征中属于后者的阶段变量,得到液化过程中影响发酵过程的重要指标及其对应的因果信息和多次迭代后得到的权重值;
③针对液化过程和酒母过程,分析前者中的全部变量和利用SHAP方法筛选出的特征中属于后者的变量及步骤①得到的酒母过程的重要指标,得到液化过程中影响酒母过程的重要指标及其对应的因果信息和多次迭代后得到的权重值。
针对绘制能准确表示因果关系的工业知识图谱阶段,本发明构建一个工业知识图谱。使用Networkx开源软件包,将前述步骤所得的因果信息和对应权重值以工业知识图谱的形式展现,具体步骤如下:
(1)将因果信息所涉及的变量作为工业知识图谱的节点,按出罐乙醇体积比、发酵过程变量、酒母过程变量和液化过程变量的顺序由中心向外排列,形成多层圆环形结构,同一生产阶段的变量节点位于同一层内;
(2)根据变量间的因果关系和对应的权重值,用有向线段连接各个节点,并将对应的权重值标注在有向线段上。若权重值为利用SHAP方法得到的重要性数值,则需在有向线段上额外注明;
(3)调整节点大小、位置、颜色和形状等属性,使图谱结构的节点名称显示完整、连线清晰、层次分明。
附图说明
图1是一个燃料乙醇发酵过程中重要指标工业知识图谱(L:液化阶段;DY:酒母阶段;F:发酵阶段)。
具体实施方式
下面进一步说明本发明所述技术方案。
针对构建并优化预测模型阶段,步骤(1)获取燃料乙醇生产过程中液化过程、酒母过程和发酵过程的生产历史数据。针对液化过程,包含pH、干物、粘度、DP4+、DP3、DP2、葡萄糖、果糖、琥珀酸、乳酸、甘油、乙酸、乙醇、色谱还原糖、色谱总糖、DE、GI和SI等变量数据;针对酒母过程,包含pH、干物、酵母数、出芽率、死亡率、DP4+、DP3、DP2、葡萄糖、果糖、琥珀酸、乳酸、甘油、乙酸、乙醇、色谱还原糖、色谱总糖、乙醇/甘油和乙醇体积比等变量数据;针对发酵过程,包含发酵8小时、24小时和40小时共三组变量,每组变量包含DP4+、DP3、DP2、葡萄糖、果糖、琥珀酸、乳酸、甘油、乙酸、乙醇、色谱还原糖、色谱总糖、乙醇/甘油和乙醇体积比等变量数据;另有出罐乙醇体积比作为因变量,其余全部特征作为自变量。自变量共79个,因变量1个,数据样本647个。
步骤(2)构建基于XGBoost框架的预测模型并训练。参数参考常用值和经验值进行选择。部分重要参数设置如下:booster=’gbtree’、colsample_bytree=0.7、subsample=0.7、eval_metric=’rmse’、gamma=0.1、importance_type=’gain’、learning_rate=0.1、max_depth=5、min_child_weight=1、objective=’reg:squarederror’。XGBoost模型的目标函数如下:
其中,l为损失函数,t为迭代轮数,Ω(ft)为正则项,constant为常数项,ft(xi)表示一个新的子模型,即回归树。经过泰勒展开近似并省去每次迭代过程中的常数损失函数后,目标函数可化简为:
其中分别代表上一轮迭代中损失函数的一阶偏导数和二阶偏导数。
步骤(3)用网格搜索方法调整模型参数。给每个待调整参数在一定范围内设置预选值,先粗略调整再精细调整。调整后的重要参数如下:colsample_bytree=0.6、subsample=0.7、gamma=0.1、learning_rate=0.01、max_depth=4、min_child_weight=7。
步骤(4)利用SHAP方法分析步骤(3)所得模型各特征的重要性,以此为标准,得到筛选后的特征共8个:色谱总糖(发酵24h)、乙醇(发酵40h)、乙醇(发酵24h)、色谱总糖(发酵40h)、葡萄糖(发酵40h)、乳酸(发酵40h)、乙醇_体积比(发酵40h)、乙醇(发酵8h)。
步骤(5)根据步骤(4)的特征筛选结果,重新构建、训练模型并再次确定最优参数。调整后的重要参数如下:colsample_bytree=0.5、subsample=0.7、gamma=0.14、learning_rate=0.01、max_depth=3、min_child_weight=3。用SHAP方法查看各个特征的重要性。单个特征的SHAP重要性计算公式为:
其中S为模型中使用的特征的子集,j为该特征的编号,x1,…,xp为特征的向量,p为特征的数量,为S的权重,val(S)为S的预测值。删除发酵阶段同名特征后,剩余特征和对应的SHAP重要性为:色谱总糖(发酵24h):0.084641、乙醇(发酵40h):0.083796、葡萄糖(发酵40h):0.059419、乳酸(发酵40h):0.042199。
针对提取出罐乙醇体积比和各生产阶段中重要变量的因果关系及其对应权重值阶段,步骤(1)得到直接影响出罐乙醇体积比的重要特征和权重值:色谱总糖(发酵24h):0.084641、乙醇(发酵40h):0.083796、葡萄糖(发酵40h):0.059419、乳酸(发酵40h):0.042199。
步骤(2)分别提取针对酒母过程和发酵过程、液化过程和发酵过程、液化过程和酒母过程中的变量之间的因果信息和对应权重值。以针对酒母过程和发酵过程为例,在算法执行前手动排除由发酵变量指向酒母变量的因果关系。FGES的数学模型为:
maxf(Graph,D)s.t.Gragh∈Ω,GraghI=C
其中f为SEM BIC评分函数,Graph为将要输出的有向无环图,D为输入数据,Ω为结构空间,C为约束条件,这里指的是搜索到的结构应该满足结构是无环的。SEM BIC评分函数的公式为:
BIC=ck ln(N)-2ln(L)
其中c是惩罚折扣,k是模型参数个数,N是样本容量,L是模型的极大似然函数值。经过FGES算法200轮迭代后,排除误判的同一阶段变量之间的因果信息,得到如下因果信息和对应权重值:死亡率(酒母)→乙醇(发酵40h):0.5970、死亡率(酒母)→乳酸(发酵40h):0.7463、死亡率(酒母)→葡萄糖(发酵40h):0.7413、DP4+(酒母)→色谱总糖(发酵24h):0.7264、DP4+(酒母)→葡萄糖(发酵40h):0.5174、琥珀酸(酒母)→色谱总糖(发酵24h):0.5373、葡萄糖(酒母)→乙醇(发酵40h):0.8806、pH(酒母)→乳酸(发酵40h):0.6617、乳酸(酒母)→乳酸(发酵40h):1.0000。其余两部分的因果信息和对应权重值用相同的方法提取。
针对绘制能准确表示因果关系的工业知识图谱阶段,步骤(1)生成以因果信息涉及的每个变量名称命名的结点,以出罐乙醇体积比、发酵过程变量、酒母过程变量和液化过程变量的顺序由中心向外排列。
步骤(2)用有向线段连接各个节点表示因果关系。色谱总糖(发酵24h)、乙醇(发酵40h)、葡萄糖(发酵40h)和乳酸(发酵40h)4个变量与出罐乙醇体积比之间的权重值额外注明,表示该权重值是基于SHAP方法的重要性数值。
步骤(3)调整节点大小、位置、颜色和形状等属性,将出罐乙醇体积比、发酵过程变量、酒母过程变量和液化过程变量对应节点的颜色参数依次设为‘green’、‘limegreen’、‘lightgreen’和‘linen’。所有节点形状参数设为‘D’。
本发明采用XGBoost框架和SHAP方法相结合的方式构建出罐乙醇体积比的预测模型并提取重要特征,随后采用FGES算法提取重要特征与其他上级变量之间的因果关系,使用Networkx开源软件包构建燃料乙醇生产过程重要指标的工业知识图谱。
Claims (6)
1.燃料乙醇发酵过程工业知识图谱构建方法,其特征在于,包含以下三个阶段:获取生产历史数据,构建并优化预测模型;提取出罐乙醇体积比和各生产阶段中重要变量的因果关系及其对应权重值;绘制能准确表示此关系的工业知识图谱;以应用于对关键变量的控制并提高燃料乙醇生产的质量和效率;
在预测模型的构建和优化阶段,包括步骤:
(1)获取燃料乙醇生产过程中液化过程、酒母过程和发酵过程的生产历史数据;
(2)构建基于XGBoost框架的预测模型并训练;
XGBoost模型的目标函数如下:
其中,l为损失函数,t为迭代轮数,Ω(ft)为正则项,constant为常数项,ft(xi)表示一个新的子模型,即回归树;经过泰勒展开近似并省去每次迭代过程中的常数损失函数后,目标函数可化简为:
其中分别代表上一轮迭代中损失函数的一阶偏导数和二阶偏导数;
(3)使用网格搜索方法,调整步骤(2)中预测模型的参数,确定最佳参数并重新训练模型;
(4)利用SHAP方法分析步骤(3)所得模型各特征的重要性,以此为标准,得到筛选后的特征;单个特征的SHAP重要性计算公式为:
其中S为模型中使用的特征的子集,j为该特征的编号,x1,…,xp为特征的向量,p为特征的数量,为S的权重,val(S)为S的预测值;
(5)根据步骤(4)的特征筛选结果,重新构建、训练模型并再次确定最优参数;查看各特征的重要性;
在提取因果关系和对应权重值阶段,包含步骤:
(21)提取液化过程、酒母过程和发酵过程中的变量和出罐乙醇体积比之间的影响作用;
(22)分别提取针对酒母过程和发酵过程、液化过程和发酵过程、液化过程和酒母过程中的变量之间的因果关系和对应权重值;
步骤(21)提取各生产阶段的变量与出罐乙醇体积比之间的影响作用,使用利用SHAP方法筛选出的特征作为影响出罐乙醇体积比的重要指标,由此确定因果信息,权重值即基于SHAP方法记录好的重要性数值;
步骤(22)分别提取不同生产阶段间变量的因果关系和对应权重值,使用基于评分的因果关系发现算法FGES和SEM BIC评分准则分析因果关系,并考虑约束条件:变量之间的因果关系必须按时间顺序定向,同一生产阶段的变量不能互为因果;具体步骤如下:
①针对酒母过程和发酵过程,分析前者中的全部变量和利用SHAP方法筛选出的特征中属于后者阶段的变量,得到酒母过程中的重要指标及其对应的因果信息和多次迭代后得到的权重值;
②针对液化过程和发酵过程,分析前者中的全部变量和利用SHAP方法筛选出的特征中属于后者的阶段变量,得到液化过程中影响发酵过程的重要指标及其对应的因果信息和多次迭代后得到的权重值;
③针对液化过程和酒母过程,分析前者中的全部变量和利用SHAP方法筛选出的特征中属于后者的变量及步骤①得到的酒母过程的重要指标,得到液化过程中影响酒母过程的重要指标及其对应的因果信息和多次迭代后得到的权重值;
在工业知识图谱绘制阶段,使用Networkx开源软件包,基于上述所得因果信息和对应权重值,包括步骤:
(31)将因果信息所涉及的变量作为工业知识图谱的节点,按出罐乙醇体积比、发酵过程变量、酒母过程变量和液化过程变量的顺序由中心向外排列,形成多层圆环形结构,同一生产阶段的变量节点位于同一层内;
(32)根据变量间的因果关系和对应的权重值,用有向线段连接各个节点,并将对应的权重值标注在有向线段上;若权重值基于步骤(22)得到,注明权重值为基于SHAP方法的重要性数值;
(33)调整节点大小、位置、颜色和形状属性,使图谱结构的节点名称显示完整、连线清晰、层次分明。
2.根据权利要求1所述的燃料乙醇发酵过程工业知识图谱构建方法,其特征在于,步骤(1)中所述的燃料乙醇生产数据,针对液化过程,包含pH、干物、粘度、DP4+、DP3、DP2、葡萄糖、果糖、琥珀酸、乳酸、甘油、乙酸、乙醇、色谱还原糖、色谱总糖、DE、GI和SI等变量数据;针对酒母过程,包含pH、干物、酵母数、出芽率、死亡率、DP4+、DP3、DP2、葡萄糖、果糖、琥珀酸、乳酸、甘油、乙酸、乙醇、色谱还原糖、色谱总糖、乙醇/甘油和乙醇_体积比等变量数据;针对发酵过程,包含发酵8小时、24小时和40小时共三组变量,每组变量包含DP4+、DP3、DP2、葡萄糖、果糖、琥珀酸、乳酸、甘油、乙酸、乙醇、色谱还原糖、色谱总糖、乙醇/甘油和乙醇_体积比等变量数据;另有出罐乙醇体积比数据。
3.根据权利要求1所述的燃料乙醇发酵过程工业知识图谱构建方法,其特征在于,步骤(2)中,所述构建基于XGBoost框架的预测模型,参数参考常用值和经验值进行选择,不对输入特征做筛选。
4.根据权利要求1所述的燃料乙醇发酵过程工业知识图谱构建方法,其特征在于,步骤(3)中,网格搜索法主要是给模型的各个参数设置预选值,在预选值范围内将各参数组合训练,多次模拟建模,从而在其中选定最优者。
5.根据权利要求1所述的燃料乙醇发酵过程工业知识图谱构建方法,其特征在于,步骤(4)中,使用SHAP方法筛选特征;按特征重要性顺序,每次保留一定数量的特征,舍弃其余特征,多次建模,选定最优者后完成特征筛选。
6.根据权利要求1所述的燃料乙醇发酵过程工业知识图谱构建方法,其特征在于,步骤(5)中,将步骤(4)所述筛选后的特征作为模型输入,再次使用网格搜索法调整参数;建模完成后用SHAP方法查看特征重要性,删除其中发酵过程三组变量中同名的特征;记录其余特征和对应的重要性数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110722594.7A CN113449866B (zh) | 2021-06-28 | 2021-06-28 | 燃料乙醇发酵过程工业知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110722594.7A CN113449866B (zh) | 2021-06-28 | 2021-06-28 | 燃料乙醇发酵过程工业知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449866A CN113449866A (zh) | 2021-09-28 |
CN113449866B true CN113449866B (zh) | 2024-03-29 |
Family
ID=77813619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110722594.7A Active CN113449866B (zh) | 2021-06-28 | 2021-06-28 | 燃料乙醇发酵过程工业知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449866B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116523040A (zh) * | 2023-04-28 | 2023-08-01 | 华东理工大学 | 基于神经网络实现青霉素发酵过程知识图谱构建的方法、装置、处理器及其计算机存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460167A (zh) * | 2020-03-19 | 2020-07-28 | 平安国际智慧城市科技股份有限公司 | 基于知识图谱定位排污对象的方法及相关设备 |
CN112002379A (zh) * | 2020-08-03 | 2020-11-27 | 华东理工大学 | 基于数据驱动燃料乙醇发酵罐中乙醇浓度的在线预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8571689B2 (en) * | 2006-10-31 | 2013-10-29 | Rockwell Automation Technologies, Inc. | Model predictive control of fermentation in biofuel production |
-
2021
- 2021-06-28 CN CN202110722594.7A patent/CN113449866B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460167A (zh) * | 2020-03-19 | 2020-07-28 | 平安国际智慧城市科技股份有限公司 | 基于知识图谱定位排污对象的方法及相关设备 |
CN112002379A (zh) * | 2020-08-03 | 2020-11-27 | 华东理工大学 | 基于数据驱动燃料乙醇发酵罐中乙醇浓度的在线预测方法 |
Non-Patent Citations (1)
Title |
---|
改进和声搜索算法的近红外光谱特征变量选择;张磊;丁香乾;宫会丽;吴丽君;白晓莉;罗林;;光谱学与光谱分析(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113449866A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Babazadeh et al. | A benders-local branching algorithm for second-generation biodiesel supply chain network design under epistemic uncertainty | |
CN110751094A (zh) | 一种基于gee综合遥感影像和深度学习方法的作物估产技术 | |
CN110990784B (zh) | 一种基于梯度提升回归树的烟支通风率预测方法 | |
CN113449866B (zh) | 燃料乙醇发酵过程工业知识图谱构建方法 | |
CN102495937A (zh) | 一种基于时间序列的预测方法 | |
CN104008143A (zh) | 基于数据挖掘的职业能力指标体系构建方法 | |
CN109214591B (zh) | 一种木本植物地上生物量预测方法及系统 | |
CN105893669A (zh) | 一种基于数据挖掘的全局仿真性能预测方法 | |
CN117634693A (zh) | 一种基于能源数据的碳排放预测方法 | |
CN114626640A (zh) | 基于特征工程和lstm神经网络的天然气负荷预测方法及系统 | |
CN106651199A (zh) | 基于决策树方法的蒸汽管网调度规则系统 | |
CN115936177A (zh) | 一种基于神经网络的光伏输出功率预测方法及系统 | |
CN109816166B (zh) | 一种地源热泵系统性能预测方法 | |
CN118138495A (zh) | 一种基于物联网的环保监测管理系统 | |
CN113282747B (zh) | 一种基于自动机器学习算法选择的文本分类方法 | |
CN108537581B (zh) | 基于gmdh选择性组合的能源消费量时间序列预测方法及装置 | |
CN102184450A (zh) | 一种多孔介质燃烧器燃烧优化的建模方法 | |
CN113393051A (zh) | 基于深度迁移学习的配电网投资决策方法 | |
CN107808245A (zh) | 基于改进决策树方法的管网调度系统 | |
CN111126827A (zh) | 一种基于bp人工神经网络的投入产出核算模型构建方法 | |
CN116451826A (zh) | 一种基于改进长短期记忆神经网络的光伏发电预测方法 | |
CN116865232A (zh) | 一种基于风速误差修正的中长期风电功率预测方法及系统 | |
CN114879281A (zh) | 一种基于深度学习的降水量预测方法 | |
CN109884893A (zh) | 一种多工序变量间动态时滞估计方法 | |
Yuan et al. | Modeling method for photosynthetic rate based on error compensation ELM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |