CN112614550B

CN112614550B - 一种基于神经网络的分子筛x射线衍射图谱峰位置的预测方法

Info

Publication number: CN112614550B
Application number: CN202011495983.2A
Authority: CN
Inventors: 杜文莉; 钱锋; 钟伟民; 彭鑫
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2024-03-15
Anticipated expiration: 2040-12-17
Also published as: CN112614550A

Abstract

本发明涉及分子筛催化剂工艺领域，更具体的说，涉及一种基于神经网络的分子筛X射线衍射图谱峰位置的预测方法。本发明提出的预测方法，包括以下步骤：S1、获取原始样本数据，构建原始数据集；S2、对分子筛的原始数据集进行筛查；S3、在筛选后的数据集中，得到具有唯一性的操作工况及对应的表征图谱；S4、提取XRD表征图谱中的峰位置信息；S5、构造用于模型训练的结构化数据，并将整个数据集划分为训练集和验证集；S6、建立并训练神经网络模型，得到两个预测模型进行产物的XRD峰的预测。本发明只需要历史存储的合成数据便可进行建模，预测精度高，从而有针对性的对实验操作工况条件进行改动，减少实验成本，提升合成实验的效率。

Description

一种基于神经网络的分子筛X射线衍射图谱峰位置的预测方法

技术领域

本发明涉及分子筛催化剂工艺领域，更具体的说，涉及一种基于神经网络的分子筛X射线衍射图谱峰位置的预测方法。

背景技术

分子筛已广泛用于催化裂化、加氢裂化、汽油和柴油加氢改质等石油化工过程,是石油化工行业中应用最广的催化材料。

合成具有高效的分子筛催化剂能产生巨大的经济效益，而高通量合成系统以其高实验吞吐量被用于分子筛的实验研究和开发。

现有技术中，实验操作条件的改变对其产物的影响必须通过具体的分子筛实验进行验证，这样造成了实验成本的增加。

因此，目前亟需一种预测方法对不同实验操作工况下，分子筛合成产物进行预测。分子筛合成产物可以通过其分子筛X射线衍射图谱峰位置信息进行表征，现有技术对于分子筛X射线衍射图谱的峰位置难以进行有效准确预测。

发明内容

本发明的目的是提供一种基于神经网络的分子筛X射线衍射图谱峰位置的预测方法，解决现有技术对于分子筛X射线衍射图谱的峰位置难以进行有效准确预测的问题。

为了实现上述目的，本发明提供了一种基于神经网络的分子筛X射线衍射图谱峰位置的预测方法，包括以下步骤：

S1、获取原始样本数据，构建原始数据集，所述样本数据包括分子筛实验操作工况数据及XRD表征数据；

S2、对分子筛的原始数据集进行筛查，剔除异常数据得到筛选后的数据集；

S3、在筛选后的数据集中，对不同操作工况条件下的输入数据进行整理，遍历整个数据集，得到具有唯一性的操作工况及对应的表征图谱；

S4、根据峰提取的阈值，提取XRD表征图谱中的峰位置信息；

S5、将不同操作工况条件的输入数据和输出数据的峰位置进行对齐，构造用于模型训练的结构化数据，并将整个数据集划分为训练集和验证集；

S6、建立并训练神经网络模型，得到两个预测模型进行产物的XRD峰的预测，所述神经网络模型为六层全连接神经，所述预测模型包括第一模型和第二模型，第一模型用于预测峰位置，第二模型用于判断对应输出位置是否为峰位置。

在一实施例中，所述步骤S1中：

所述分子筛实验操作工况数据，包含分子筛合成的原料种类和含量，以及整个反应温度、反应时间和搅拌数据；

所述分子筛表征数据，包括XRD衍射仪扫描范围内的扫过角度及其对应强度所生成的对应二维数据。

在一实施例中，所述步骤S1中：

所述分子筛实验操作工况数据和分子筛XRD表征数据一一配对，丢弃缺少其中一项的样本数据。

在一实施例中，所述步骤S2中，进一步包括以下步骤：

S21、剔除因为反应仪器异常造成温度或压力偏离设定值的样本数据；

S22、剔除XRD表征图谱表现为大且宽的峰对应的无定形的分子筛样本数据。

在一实施例中，所述步骤S3中的唯一性的操作工况及对应的表征图谱，是指一个操作工况条件对应一个XRD表征图谱数据。

在一实施例中，所述步骤S3，进一步包括以下步骤：

S31、对整个筛选后的数据集进行遍历，比较不同样本数据的操作工况条件是否一致，如果一致则将样本数据聚为一类；

S32、遍历所有包含多个样本的类别，如果同一类中的XRD表征图谱一致，采取多个图谱取平均的方法作为该类样本数据所对应的表征图谱，如果同一类的XRD表征图谱有差异，随机挑取其中一个作为该类样本数据所对应的表征图谱。

在一实施例中，所述步骤S4，进一步包括以下步骤：

S41、对XRD表征图谱采用高斯滤波进行平滑，消除XRD表征图谱的峰中的细小毛刺噪声；

S42、搜寻整个XRD表征图谱中的极大值点，作为峰位置的初步数据；

S43、遍历峰位置的初步数据，剔除掉峰所在位置强度值小于最大峰强度阈值的峰。

在一实施例中，所述步骤S5，进一步包括以下步骤：

S51、统计数据集中出现过的原料种类数n_source，对原料数据采用one-hot编码形式，每种原料对应一个特征维度，一个样本数据的原料数据表现为n_source*1的向量，其中，该样本数据中使用过的原料位置的值置为具体的用量数值，未用到的原料位置处数据置0；

S52、对XRD表征图谱中的峰数据进行对齐，统计数据集中出现的最多的峰数量n_peak，对于每个样本数据，将步骤S4中得到的峰位置信息，从大到小排列后，依次与前一位做差值得到增量表示的峰数据，并依次置于n_peak*1维的向量中，其中不足n_peak位的后面位置置0；

S53、对输入数据和输出数据进行归一化处理，随机划分数据集，其中，一部分数据用作训练集，另一部分数据用作验证集。

在一实施例中，所述步骤S6，进一步包括以下步骤：

S61、建立神经网络模型，利用随机梯度下降方法优化其网络损失Loss，对应表达式为：

Loss＝Loss_reg×W；

其中，Loss_reg为模型输出与真实值的mse误差；

W为使网络有偏向训练的超参数；

W为n_batch*n_peak的向量，n_batch为一次训练时的样本数，n_peak为W的列维度，与对齐后的峰位置数据维度对应；

S62、训练神经网络模型，当训练集训练神经网络模型达到预设次数时，进行验证集的误差测试，当验证集误差上升时停止训练，保存该神经网络模型；

S63、分别设置w_valid值，重复S61-S62两次，建立两个预测模型，预测模型包括第一模型和第二模型，其中，w_valid为真实有峰位置的部分权重，置零的位置权重值为1-w_valid；

S64、进行X射线衍射图谱峰位置的前向预测时，第一模型中的输出值作为预测的峰位置，根据第二模型的输出是否大于给定阈值判断该输出位置是否有峰存在。

在一实施例中，所述步骤S53，划分数据集中的80％用作训练集，20％用作验证集。

在一实施例中，所述步骤S61，神经网络模型的隐层单元数统一设置为128；

所述步骤S63，w_valid分别设置为第一参数和第二参数，建立第一模型和第二模型，所述第一参数的取值范围为0.8～1，所述第二参数的取值范围为0.4～0.6。

本发明提供的基于神经网络的分子筛X射线衍射图谱峰位置的预测方法，相比于传统的正交实验等方法，采用的建模方法只需要历史存储的合成数据便可进行建模，并且达到很好的预测精度，可以对未开始的实验预测其产物XRD衍射峰位置，从而有针对性的对实验操作工况条件进行改动，减少了不必要实验的成本，也为新的分子筛的合成提供一定的合成指导。

附图说明

本发明上述的以及其他的特征、性质和优势将通过下面结合附图和实施例的描述而变的更加明显，在附图中相同的附图标记始终表示相同的特征，其中：

图1揭示了根据本发明一实施例的基于神经网络的分子筛X射线衍射图谱峰位置的预测方法流程图；

图2揭示了根据本发明一实施例的依据XRD原始csv数据绘制的图谱样例图；

图3揭示了根据本发明一实施例的仪器异常样本的实例图；

图4揭示了根据本发明一实施例的宽大峰异常样本的实例图；

图5揭示了根据本发明一实施例的一致的XRD图谱样本对比图；

图6揭示了根据本发明一实施例的不一致的XRD图谱样本对比图；

图7揭示了根据本发明一实施例的XRD图谱平滑前后的对比图；

图8揭示了根据本发明一实施例的阈值筛选前后提取的峰对比图；

图9揭示了根据本发明一实施例的神经网络模型的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释发明，并不用于限定发明。

高通量合成系统以其高实验吞吐量被用于分子筛的实验研究和开发，储存在高通量系统中的大量分子筛合成数据，可以借由神经网络算法识别蕴含在数据中的本质模式和特征能力并进行预测指导。

图1揭示了根据本发明一实施例的基于神经网络的分子筛X射线衍射图谱峰位置的预测方法流程图，图2揭示了根据本发明一实施例的依据XRD原始csv数据绘制的图谱样例图，如图1和图2所示的基于神经网络的分子筛X射线衍射图谱峰位置的预测方法，具体包括以下步骤

S1、获取原始样本数据，构建原始数据集，所述样本数据包括分子筛实验操作工况数据及XRD(X射线衍射图谱)表征数据；

S4、根据峰提取的阈值，提取XRD表征图谱中的峰位置信息；

下面具体对本发明的每一步骤进行说明。

S1、获取原始样本数据，构建原始数据集。

获取一系列实验批次的分子筛实验操作工况数据及XRD表征数据作为原始样本数据，构建原始数据集。

所述分子筛实验操作工况数据，包含分子筛合成的原料种类和含量，以及整个反应温度、反应时间和搅拌数据。

所述分子筛的XRD表征数据，包括XRD衍射仪得到的在仪器扫描范围内的扫过角度与其对应强度，其所生成的对应二维数据。

更进一步的，分子筛实验操作工况数据和分子筛XRD表征数据要一一配对，并丢弃掉缺少其中一项的样本数据。

在本实施例中，将操作条件的反应数据和XRD表征数据，按实验批次整理到对应文件夹下，并丢弃掉缺少其中一项的样本。

XRD原始表征数据可以绘制为两列代表扫过角度和强度的csv文件的XRD表征图谱，其绘制图像如图2所示，图2揭示了根据本发明一实施例的依据XRD原始csv数据绘制的图谱样例图。

CSV是一种通用的、相对简单的文件格式，被用户、商业和科学广泛应用。

S2、异常数据剔除。

对分子筛的原始数据集进行筛查，剔除掉异常的样本数据，得到新的筛选后的数据集。

进一步的，步骤S2具体包含以下步骤：

S21、剔除因为反应仪器异常造成温度或压力偏离设定值的样本；

S22、剔除XRD表征图谱表现为大且宽的峰，即无定形的分子筛样本。

S3、唯一性数据整理，整合相同输入项数据。

在步骤S2的筛选后的数据集中，对不同操作工况条件下的输入数据进行整理，遍历整个数据集，得到具有唯一性的操作工况及对应的表征图谱，保证数据集中每个样本操作工况条件的唯一性。

所述的唯一性的操作工况及对应的表征图谱，指在分子筛合成数据里，保证一个操作工况，即实验操作条件下，对应一个XRD表征图谱。

进一步的，步骤S3具体包含以下步骤：

S31、对整个数据集进行遍历，比较不同样本数据的操作工况条件是否一致，如果一致则将样本数据聚为一类，否则视为另一类；

S32、为保证同一个操作工况条件对应一个表征图谱，遍历S31中的所有包含多个样本(大于等于二)的类别。

图5揭示了根据本发明一实施例的一致的XRD图谱样本对比图，如果同一类中的XRD表征图谱基本一致，采取多个图谱取平均的方法作为该类样本数据所对应的表征图谱。

图6揭示了根据本发明一实施例的不一致的XRD图谱样本对比图，如果同一类的XRD图谱有较大差异，随机挑取其中一个作为该类样本数据所对应的表征图谱。

需要说明的是，表征图谱一致性判断，并不一定要完全一致，允许有一定微调。S4、峰位置提取。

给定峰提取的阈值，提取出XRD表征图谱中的峰位置信息。

将XRD表征图谱中的峰位置提取出来，作为神经网络模型的输出数据。

进一步的，步骤S4具体包含以下步骤：

S41、对XRD表征图谱的原始数据采用高斯滤波进行平滑，消除XRD峰中的细小毛刺噪声；

S43、遍历S42中的峰位置数据，剔除掉峰所在位置强度值小于最大峰强度阈值的峰。

更进一步的，剔除掉峰所在位置强度值小于最大峰强度阈值10％的峰。

S5、数据对齐与格式整理，将原始数据转化成结构化的用于训练的格式。

将不同操作工况条件的数据集作为输入数据，与输出数据的峰位置信息进行对齐，构造用于模型训练的结构化数据，并将整个数据集划分为训练集和验证集。

进一步的，步骤S5具体包含以下步骤：

S51、统计数据集中出现过的原料种类数n_source，对原料数据采用one-hot编码形式，每种原料对应一个特征维度，一个样本的原料数据表现为n_source*1的向量；

其中，该样本数据中使用过的原料位置的值置为具体的用量数值，未用到的原料位置处数据置0。

one-hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

S52、对XRD表征图谱中的峰数据进行对齐。

统计数据集中最多的峰数量n_peak，对于每个样本数据，将步骤S4中得到的峰位置信息，从大到小排列后，依次与前一位做差值，得到增量表示的峰数据，并依次置于n_peak*1维的向量中，其中不足n_peak位的后面位置置0；

S53、对输入数据和输出数据进行归一化处理，随机划分数据集，其中，80％用作训练集，20％用作验证集。

归一化处理，是本领域较为常用的处理算法，一般是指将数据的数值空间从最大到最小区间转换到0～1区间，具体操作为对于每个样本的每个特征维度，减去该位置的最小值后，再除以转换后数据的最大值。

S6、模型建立、训练并预测。

构造训练神经网络模型，得到两个预测模型进行产物的XRD峰的预测，预测模型包括第一模型和第二模型，分别用于训练峰位置的值预测以及判断是否为输出峰。

所述神经网络模型结构，为六层全连接神经网络。

进一步的，步骤S6具体包含以下步骤：：

S61、建立神经网络模型，采用六层全连接网络结构，利用随机梯度下降方法优化其网络损失Loss，对应表达式为：

Loss＝Loss_reg×W

其中，Loss_reg为模型输出与真实值的mse均方误差；

W为使网络有偏向训练的超参数；

W为n_batch*n_peak的向量，n_batch为一次训练时的样本数，n_peak为W的列维度，与对齐后的峰位置数据维度对应。

更进一步的，隐层单元数统一设置为128。

S62、训练神经网络模型，当训练集训练神经网络模型达到预设次数时，进行验证集的误差测试，当验证集误差上升时停止训练，保存该神经网络模型。

本实施例中，预设次数为50代。

S63、将w_valid分别设置为第一参数0.9999和第二参数0.5，重复S61-S62两次(有且只有两次)，建立两个预测模型，得到的预测模型包括第一模型和第二模型，其中，w_valid为真实有峰位置的部分权重，置零的位置权重值为1-w_valid。

第一参数的取值范围为0.8～1，第二参数的取值范围为0.4～0.6。

S64、进行X射线衍射图谱峰位置的前向预测时，根据第二模型的输出是否大于给定阈值判断该输出位置是否有峰存在，并取第一模型中的输出值作为预测的峰位置。

这两个模型的作用，第一模型预测峰的具体位置，第二模型判断该对应的位置上的输出是否有效，即是否有峰。

在未进行实验的条件下，可以依据所述步骤S6得到的神经网络模型，进行产物XRD峰的预测，从而为合成实验提供一定的指导，提高分子筛的合成效率。

下面通过实施例对本发明进行具体描述。

实施例1

以下通过高通量分子筛存储的历史数据建模实施例来说明本发明提出的基于神经网络的分子筛X射线衍射图谱峰位置的预测方法，具体包括以下步骤：

步骤S1：从高通量分子筛数据库获得历史存储的实验操作数据和XRD表征数据，保证每个实验批次之间的一一对应性。

每一个样本有独一的标识符，例如100501-A2。

其中，100501代表一组实验的批次，A代表所反应的容器，共八个，2代表实验次数。

原始数据集包含6486个样本数据实例。

步骤S2：剔除掉两类异常数据，样本容量降低到5848。

图3揭示了根据本发明一实施例的仪器异常样本的实例图，图4揭示了根据本发明一实施例的宽大峰异常样本的实例图，剔除的两类数据示例如图3、图4所示，图3为实际温度工况和设定温度工况不一致，图4为XRD表征数据为宽且大的峰。

步骤S3：整理出现同一操作工况的多个实验样本数据，得到一一对应的操作工况条件和XRD表征图谱数据，样本总量降低到4366。

步骤S4：提取XRD表征图谱中的峰位置。

首先采用长度为11，标准差为1的高斯滤波核进行一次平滑，图7揭示了根据本发明一实施例的XRD图谱平滑前后的对比图。

平滑后，首先找出XRD表征图谱中的极大值点，并以10％的阈值筛除，图8揭示了根据本发明一实施例的阈值筛选前后提取的峰对比图，得到峰位置数据。

步骤S5：整理原料数据，共含有32种原料，温度数据为最终设定值和反应时间的2维数据，搅拌数据的维度为3维，则输入数据为32+2+3＝37维。

整理峰数据，最多出现的峰数量为29个，则峰数据维度为29维。

将输入数据和输出数据对齐后标准化处理，按20％的比例将数据集划分成训练集和验证集。

其中，训练集容量为3493，验证集容量为873。

步骤S6：构建训练的神经网络模型，神经网络模型的网络结构如图9所示，神经网络模型的网络结构，包括六层全连接层，隐层单元数统一设置为128，其中，输入数据维度in_dim为37，输出数据维度out_dim为29。

以w_valid＝0.9999和0.5分别训练，建立第一模型和第二模型，设置最大训练代数为20000。

其中，第一模型在6000代处验证集误差开始上升，保存模型，第二模型在8000代处验证集误差开始上升，保存模型。

进行X射线衍射图谱峰位置的前向预测时，第一模型中的输出值作为预测的峰位置，根据第二模型的输出是否大于给定阈值判断该输出位置是否有峰存在。

本发明提出了一种基于神经网络的分子筛XRD峰位置预测建模方法，利用历史存储的分子筛合成实验数据，建立从操作工况条件到XRD峰位置的数据模型，预测分子筛XRD峰位置为新的实验提供指导方向，提升合成实验的效率。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

上述实施例是提供给熟悉本领域内的人员来实现或使用本发明的，熟悉本领域的人员可在不脱离本发明的发明思想的情况下，对上述实施例做出种种修改或变化，因而本发明的保护范围并不被上述实施例所限，而应该是符合权利要求书提到的创新性特征的最大范围。

Claims

1.一种基于神经网络的分子筛X射线衍射图谱峰位置的预测方法，其特征在于，包括以下步骤：

S4、根据峰提取的阈值，提取XRD表征图谱中的峰位置信息；

S6、建立并训练神经网络模型，得到两个预测模型进行产物的XRD峰的预测，所述神经网络模型为六层全连接神经，所述预测模型包括第一模型和第二模型，第一模型用于预测峰位置，第二模型用于判断对应输出位置是否为峰位置；

其中，所述步骤S1中：

所述分子筛XRD表征数据，包括XRD衍射仪扫描范围内的扫过角度及其对应强度所生成的对应二维数据；

所述步骤S3中的唯一性的操作工况及对应的表征图谱，是指一个操作工况条件对应一个XRD表征图谱；

所述步骤S3，进一步包括以下步骤：

S32、遍历所有包含多个样本的类别，如果同一类中的XRD表征图谱一致，采取多个图谱取平均的方法作为该类样本数据所对应的表征图谱，如果同一类的XRD表征图谱有差异，随机挑取其中一个作为该类样本数据所对应的表征图谱；

所述步骤S5，进一步包括以下步骤：

S53、对输入数据和输出数据进行归一化处理，随机划分数据集，其中，一部分数据用作训练集，另一部分数据用作验证集；

所述步骤S6，进一步包括以下步骤：

Loss＝Loss_reg×W；

其中，Loss_reg为模型输出与真实值的均方误差；

W为使网络有偏向训练的超参数；

W为n_batch*n_peak的向量，n_batch为一次训练时的样本数，n_peak为W的列维度，与对齐后的峰位置数据的维度对应；

2.根据权利要求1所述的基于神经网络的分子筛X射线衍射图谱峰位置的预测方法，其特征在于，所述步骤S1中：

3.根据权利要求1所述的基于神经网络的分子筛X射线衍射图谱峰位置的预测方法，其特征在于，所述步骤S2中，进一步包括以下步骤：

4.根据权利要求1所述的基于神经网络的分子筛X射线衍射图谱峰位置的预测方法，其特征在于，所述步骤S4，进一步包括以下步骤：

5.根据权利要求1所述的基于神经网络的分子筛X射线衍射图谱峰位置的预测方法，其特征在于：

所述步骤S61，神经网络模型的隐层单元数统一设置为128；

所述步骤S63，w_valid分别设置为第一参数和第二参数，建立第一模型和第二模型，第一参数的取值范围为0.8～1，第二参数的取值范围为0.4～0.6。