CN117854612B

CN117854612B - 基于长短期记忆网络的大豆蛋白酸沉工序在线检测的方法

Info

Publication number: CN117854612B
Application number: CN202410036786.6A
Authority: CN
Inventors: 杨丽伟; 孟华锋; 张志民; 毕恩行
Original assignee: Shandong Jiahua Grease Co ltd
Current assignee: Shandong Jiahua Grease Co ltd
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-06-04
Anticipated expiration: 2044-01-10
Also published as: CN117854612A

Abstract

本发明属于大豆蛋白生产技术领域，尤其涉及一种基于长短期记忆网络的大豆蛋白酸沉工序在线检测的方法。本发明利用现有传感器测量大豆蛋白酸沉工序中的温度值、pH值、酸液流量、电机转速、粘度、蛋白浓度等参数值，利用随机森林算法寻找对酸沉率有关联的特征值，使其作为长短期记忆网络的输入值，形成对酸沉率的预测，进而实现酸沉率的在线检测，从而对后续的电机转速、酸液流量以及pH值进行控制，进而确保酸沉工序的稳定性。

Description

基于长短期记忆网络的大豆蛋白酸沉工序在线检测的方法

技术领域

本发明属于大豆蛋白生产技术领域，尤其涉及一种基于长短期记忆网络的大豆蛋白酸沉工序在线检测的方法。

背景技术

大豆分离蛋白(Soybean Protein Isolate，SPI)是以脱脂豆粕为原料制备而成的一种植物蛋白产品，总蛋白质含量高于90％，因具有良好的保水性、乳化性、吸油性和凝胶性等广泛用作食品添加剂和食品原料。

目前，国内外大多数大豆分离蛋白生产厂家采用的是碱溶酸沉法。这种工艺主要是利用稀碱溶液使低温脱脂豆粕中的蛋白质溶解出来，离心除去不溶性固体残渣，再利用酸将提取液的pH值调至4.6左右，使蛋白质组分沉淀，然后再经过离心、水洗、中和、灭菌和喷雾干燥等工艺得到大豆分离蛋白粉。

其中，酸沉过程是用稀HCl将大豆分离蛋白提取液的pH值调至其等电点4.6左右，使蛋白质发生沉淀，然后离心除去上清液。在酸沉工序中，要注意控制加酸的速度以及搅拌速度，以防止蛋白溶液局部pH值变化太大而引起蛋白质的变性。同时，在大豆蛋白的酸沉工序中，其酸沉率是其生产的一个重要指标，而受限于现有技术，酸沉率的检测需要取样后去化验室进行检测，这种检测方式不仅效率低下且很难实现对酸沉工序的参数的及时调整，无法保证生产质量的一致性。

发明内容

本发明针对现有酸沉工序缺乏酸沉率在线检测的技术问题，提出一种方法简单、操作方便且可以在现有的基础上实现对酸沉率在线确定的基于长短期记忆网络的大豆蛋白酸沉工序在线检测的方法。

为了达到上述目的，本发明采用的技术方案为，本发明提供一种基于长短期记忆网络的大豆蛋白酸沉工序在线检测的方法，包括以下步骤：

a、首先基于时间序列获取酸沉工序中温度值、pH值、酸液流量、电机转速、粘度、蛋白浓度以及酸沉率的特征数据，构建样本；

b、对样本内特征数据进行清洗、转化以及归一化处理；

c、对样本内与酸沉率相关的特征数据进行特征选择；

d、对于选择的特征进行数据集划分，构建训练集和验证集；

e、根据划分后的数据集进行酸沉率软测量模型的训练；

f、最后，将训练好的酸沉率软测量模型进行酸沉工序中酸沉率的在线检测；

其中，所述e步骤中，酸沉率软测量模型的具体操作办法为：

e1、首先长短期记忆网络的输入层和输出层个数进行确定，同时明确粒子群算法的粒子速度、位置以及种群数的值；

e2、随机生成粒子种群X(α、β、δ)，其中，α代表长短期记忆网络的迭代次数、β代表长短期记忆网络的学习率、δ代表长短期记忆网络中隐含层神经元节点数；

e3、对适应度函数、惯性因子、加速因子进行明确，通过对最优粒子适应度值、惯性因子、加速因子进行明确，对粒子速度、位置进行更新，其中，所述适应度函数函数为

其中，n为预测值总个数、为粒子算法预测值、y_i为酸沉率真实值；

所述惯性因子确定公式为：

其中，ω_t为第t次迭代的惯性权值、ω_ini为初始惯性权值、ω_end为迭代至最大进化代数时的惯性权值、T_max为最大迭代次数、T_al为已经迭代完的次数，X_ad为当前粒子适应度值、X_avg为当前所有粒子适应度的平均值、X_min为当前所有粒子适应度的；

所述加速因子的确定公式为：

其中，t为当前迭代次数、c_1s为学习因子c₁的初始迭代值、c_1e为学习因子c₁的初始迭代值终止迭代值、c_2s为学习因子c₂的初始迭代值、c_2e为学习因子c₂的初始迭代值终止迭代值，其中，c_1s＝c_2e＝2.5，c_1e＝c_2s＝0.5；

e4、当粒子群算法达到最大迭代次数，明确最优粒子种群位置并获得相应参数后，将其作为长短期记忆网络的超参数值进行训练。

作为优选，所述c步骤中，采用随机森林算法对特征数据进行特征选择。

作为优选，所述c步骤中，通过人工水母搜索算法优化随机森林算法的参数值。

作为优选，所述c步骤中，具体操作办法为：

c1、首先将样本按照7:3的比例，分为训练集和测试集；

c2、然后，初始化水母种群，每个人工水母由一个三维向量组成，设置为Y_i(l、m、n)，其中，l为随机森林中决策树的棵数、m为随机森林中决策树最大深度、n为随机森林中分枝时考虑的最大特征数，同时，构造水母均匀分布总群并设定水母群数量、最大迭代次数；

c3、以随机森林的AUC作为水母搜索算法的适应度值，计算每条人工水母当下所处环境的食物数量与位置，将最优状态时对应的水母个体位置保留在食物库F中；

c4、根据人工水母的跟随洋流以及水母群内部运动的行为在随机森林参数空间内进行搜索，通过比较食物量大小，更新水母的位置；

c5、判断人工水母搜索算法是否达到最大迭代次数，若达到了设定的阈值，

得到最佳(l、m、n)，本轮优化结束，否则，跳转至步骤c4进行迭代；

c6、利于所得到的最佳(l、m、n)在训练集上训练随机森林模型；

c7、利用测试集进行测试，得到所需特征类型。

作为优选，所述人工水母搜索算法控制参数c(t)的确定公式为：

其中，t_w为当前迭代次数、T_wmax为最大迭代次数。

与现有技术相比，本发明的优点和积极效果在于，

1、本发明提供一种基于长短期记忆网络的大豆蛋白酸沉工序在线检测的方法，利用现有传感器测量大豆蛋白酸沉工序中的温度值、pH值、酸液流量、电机转速、粘度、蛋白浓度等参数值，利用随机森林算法寻找对酸沉率有关联的特征值，使其作为长短期记忆网络的输入值，形成对酸沉率的预测，进而实现酸沉率的在线检测，从而对后续的电机转速、酸液流量以及pH值进行控制，进而确保酸沉工序的稳定性。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合实施例对本发明做进一步说明。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开说明书的具体实施例的限制。

实施例1，本实施例提供一种基于长短期记忆网络的大豆蛋白酸沉工序在线检测的方法

由于现有技术中，无法对大豆分离蛋白酸沉工序中的酸沉率进行检测，只能依靠取样后的人工检测，这种滞后的检测方式无法对pH值、酸液流量以及搅拌速度进行控制，从而使得在现有技术中，仅通过pH值对酸沉工序进行控制调整，这就导致后续所得的大豆蛋白的产品质量不一，而软测量技术通过建立关键过程变量(主导变量)与在线易测变量(辅助变量)之间的数学模型，这样，利用软测量技术来对酸沉率进行预测，就可以实现对pH值、酸液流量以及搅拌速度的实时控制，从而确保产品的最终质量。

由于无法确定与酸沉率有关的易测变量有哪些，为此，在本实施例中，首先基于时间序列获取酸沉工序中温度值、pH值、酸液流量、电机转速、粘度、蛋白浓度以及酸沉率的特征数据，由于需要验证，为此，还需要对酸沉工序进行实时取样，以获得酸沉率，以便方便验证。

由于传感器故障、冗余、物质技术等原因，采集数据时常常遇到数据缺失、异常值、数据准确性、工作环境等问题，为此，需要对获得的数据进行清洗、转化以及归一化处理。由于数据的处理属于现有数据的常规操作，为此，在本实施例中，不加详细描述。

考虑到并不是所有类型的数据都与酸沉率相关，而将所有输入变量都作为辅助变量，将导致大的计算负担，较易发生过拟合现象，导致软测量模型预测性能较差。为此，需要对样本内与酸沉率相关的特征数据进行特征选择。选择好需要的辅助变量后，可以使建模花费时间减少；对过程描述的信息放在主要辅助变量上；模型性能得到改善；此外，所需辅助变量数量减少，意味着过程控制系统需要较少的硬件传感器，降低成本，增加系统的可用性。

选择所需要特征的方法有很多，比如，数学分析法、灰度关联层次分析法等方法，考虑到特征之间存在关联性，即pH、酸液滴加速度、搅拌速度等存在相关关联、相互影响且其关系可能是非线性的，为此，在本实施例中，选择随机森林算法对特征数据进行特征选择。随机森林具有易于使用、可处理具有高度相关性、非线性关系和混杂特征的数据等优点，并且可以直接评估无序离散和连续变量的影响，非常适合应对复杂、高维数据库的功能选择需要。但随机森林也有可能存在易受噪声或样本不平衡等问题，为此，为了避免随机森林在预测过程中对于各决策参数的选择上的主观干扰，在本实施例中，通过人工水母搜索算法优化随机森林算法的参数值。具体说：

首先将样本按照7:3的比例，随机分为训练集和测试集。

然后，初始化水母种群，每个人工水母由一个三维向量组成，设置为Y_i(l、m、n)，其中，l为随机森林中决策树的棵数、m为随机森林中决策树最大深度、n为随机森林中分枝时考虑的最大特征数，而l、m、n就是随机森林中，所需要的参数。同时，构造水母均匀分布总群并设定水母群数量、最大迭代次数。

以随机森林的AUC作为水母搜索算法的适应度值，计算每条人工水母当下所处环境的食物数量与位置，将最优状态时对应的水母个体位置保留在食物库F中。

在水母种群中，水母分别有两种运动方式：主动运动和被动运动。水母种群刚成形时，多数水母进行被动运动，经过一段时间后，它们逐渐进行主动运动。为了能够始终决定水母的运动形式，引入了时间控制机制。这不仅能够控制水母种群的运动形式，还能够控制水母种群朝洋流的运动方向。

引入时间控制机制来模拟这种情况，该机制包括一个时间控制函数c(t)和一个常数c₀，用于调节水母在跟随洋流和水母群内部运动之间的运动。在本实施例中，人工水母搜索算法控制参数c(t)的确定公式为：

其中，t_w为当前迭代次数、T_wmax为最大迭代次数。常数c₀则取值在(0，4]之间。

根据人工水母的跟随洋流以及水母群内部运动的行为在随机森林参数空间内进行搜索，通过比较食物量大小，更新水母的位置，水母的更新公式选用人工水母搜索算法的更新公式即可，即：

X_i(t+1)＝X_i(t)+γ*rand(0,1)*(U_b-L_b)

判断人工水母搜索算法是否达到最大迭代次数，若达到了设定的阈值，得到最佳(l、m、n)，本轮优化结束，否则，继续进行迭代。利于所得到的最佳(l、m、n)在训练集上训练随机森林模型；

最后，利用测试集进行测试，得到所需特征类型，在本实施例中，所需要的特征类型为温度值、pH值、酸液流量、电机转速以及蛋白浓度这五个特征数据。

然后，对于选择的特征进行数据集划分，重新构建训练集和验证集。根据划分后的数据集进行酸沉率软测量模型的训练。目前，软测量所用的模型主要有神经网络、支持向量机以及高斯过程，考虑到酸沉率的在时间序列上前后关联程度较强，为此，在本实施例中，选择长短期记忆网络，即LSTM，LSTM的优势在于能够将上一时刻的输出与当前时刻的网络输入相互关联，而不是每个时刻简单的将输入映射到当前输出上。

考虑到在LSTM模型参数更新的过程中，其不同的参数更新模型会影响模型的收敛速度、预测精度、计算时间等，因此不同优化算法对网络有重要影响，在本实施例中，采用粒子群算法对其参数进行更新，具体的说：

首先长短期记忆网络的输入层和输出层个数进行确定，同时明确粒子群算法的粒子速度、位置以及种群数的值。

然后，随机生成粒子种群X(α、β、δ)，其中，α代表长短期记忆网络的迭代次数、β代表长短期记忆网络的学习率、δ代表长短期记忆网络中隐含层神经元节点数。

对适应度函数、惯性因子、加速因子进行明确，通过对最优粒子适应度值、惯性因子、加速因子进行明确，对粒子速度、位置进行更新，其中，适应度函数函数为

所述惯性因子确定公式为：

其中，ω_t为第t次迭代的惯性权值、ω_ini为初始惯性权值、ω_end为迭代至最大进化代数时的惯性权值、T_max为最大迭代次数、T_al为已经迭代完的次数，X_ad为当前粒子适应度值、X_avg为当前所有粒子适应度的平均值、X_min为当前所有粒子适应度的，ω的值反映了建模的寻优程度，ω值越大，探索新区域的能力越强，全局寻优能力越强，但是局部寻优能力越弱。反之，全局寻优能力越弱，局部寻优能力强。为此，在本实施例中，将其与迭代次数、适应度的平均值等相关联，使其采用线性递减权值策略，加快算法的快速收敛。

加速因子的确定公式为：

其中，t为当前迭代次数、c_1s为学习因子c₁的初始迭代值、c_1e为学习因子c₁的初始迭代值终止迭代值、c_2s为学习因子c₂的初始迭代值、c_2e为学习因子c₂的初始迭代值终止迭代值，其中，c_1s＝c_2e＝2.5，c_1e＝c_2s＝0.5；加速因子表示粒子更新位置和速度时受到个体信息和种群信息影响的大小，当c1为0时，粒子只受到种群信息的影响，粒子将会迅速向全局最优值靠近，很可能出现陷入局部最优等情况，为此，在本实施例中，用异步线性改变学习因子参数的策略来调整加速因子。

当粒子群算法达到最大迭代次数，明确最优粒子种群位置并获得相应参数后，将其作为长短期记忆网络的超参数值进行训练。

最后，将训练好的酸沉率软测量模型进行酸沉工序中酸沉率的在线检测。

通过上述方法，有效的利用现有可以测量的辅助变量实现了对酸沉率这个主变量的预测，进而为后续的实时控制提供了帮助。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域，但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于长短期记忆网络的大豆蛋白酸沉工序在线检测的方法，其特征在于，包括以下步骤：

b、对样本内特征数据进行清洗、转化以及归一化处理；

c、对样本内与酸沉率相关的特征数据进行特征选择；

d、对于选择的特征进行数据集划分，构建训练集和验证集；

e、根据划分后的数据集进行酸沉率软测量模型的训练；

其中，所述e步骤中，酸沉率软测量模型的具体操作办法为：

所述惯性因子确定公式为：

所述加速因子的确定公式为：

e4、当粒子群算法达到最大迭代次数，明确最优粒子种群位置并获得相应参数后，将其作为长短期记忆网络的超参数值进行训练，

其中，所述c步骤中，采用随机森林算法对特征数据进行特征选择，所述c步骤中，通过人工水母搜索算法优化随机森林算法的参数值，所述c步骤中，具体操作办法为：

c1、首先将样本按照7:3的比例，分为训练集和测试集；

c7、利用测试集进行测试，得到所需特征类型，

其中，所述人工水母搜索算法控制参数c(t)的确定公式为：

其中，t_w为当前迭代次数、T_wmax为最大迭代次数。