CN112348360A

CN112348360A - 一种基于大数据技术的中药生产工艺参数分析系统

Info

Publication number: CN112348360A
Application number: CN202011230463.9A
Authority: CN
Inventors: 谢志坚; 张敬海; 王珍玉; 赵飞飞; 张贺
Original assignee: Cr Sanjiu Zaozhuang Pharmaceutical Co ltd
Current assignee: Cr Sanjiu Zaozhuang Pharmaceutical Co ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-09
Anticipated expiration: 2040-11-06
Also published as: CN112348360B

Abstract

一种基于大数据技术的中药生产工艺参数分析系统，包括参数确定模块、数据收集模块、数据预处理模块和生产质量指标预测模块，所述参数确定模块用于确定中药生产的生产工艺参数和质量指标参数，所述数据收集模块用于收集所述生产工艺参数数据以及所述生产工艺参数对应的质量指标参数数据，所述数据预处理模块用于对收集到的生产工艺参数进行预处理，所述质量指标预测模块建立根据生产工艺参数数据对中药生产的质量指标进行预测的模型。本发明的有益效果：基于大数据技术和数据挖掘方法对中药生产的历史数据进行分析，利用BP神经网络建立生产质量指标预测模型进行中药生产质量的预测，实现了生产工艺参数的优化和质量指标的提高。

Description

一种基于大数据技术的中药生产工艺参数分析系统

技术领域

本发明创造涉及大数据领域，具体涉及一种基于大数据技术的中药生产工艺参数分析系统。

背景技术

在中药的智能生产中，为了提高中药生产的质量指标就需要对中药生产过程中的生产工艺参数不断的优化，以此保证生产工艺的稳定性和产品质量的可靠性。目前对于生产工艺的优化还处于初始阶段，常用方法是在实验环境下通过设计对比实验，得到最优的生产工艺参数方案呢，然后移植到生产环境中，为了完成对比实验，往往需要巨大的人力物力投入。随着中药智能制造的发展，目前可以获取大规模生产数据，而且这些实际生产数据与实验室的实验数据相比拥有更多的实际意义，里面包含了大量生产过程中遇到的极端情况。利用生产数据经由数据挖掘建立质量指标预测模型优化工艺，代替通过实际对比实验优化工艺的方法，是未来的一个趋势，也是一个待解决的问题。

发明内容

针对上述问题，本发明旨在提供一种基于大数据技术的中药生产工艺参数分析系统。

本发明创造的目的通过以下技术方案实现：

一种基于大数据技术的中药生产工艺参数分析系统，包括参数确定模块、数据收集模块、数据预处理模块和质量指标预测模块，所述参数确定模块包括质量指标确定单元和生产工艺参数确定单元，所述质量指标确定单元用于确定中药生产规定的质量指标参数，所述生产工艺参数确定单元用于确定影响所述质量指标参数的生产工艺参数，所述数据收集模块用于收集所述生产工艺参数数据以及所述生产工艺参数数据对应的质量指标参数数据，所述数据预处理模块用于对收集到的生产工艺参数数据进行预处理，去除生产工艺参数数据中的噪声数据，所述质量指标预测模块利用预处理后的生产工艺参数数据和其所对应的质量指标参数数据对BP神经网络进行训练，从而建立根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的BP神经网络模型。

优选地，所述数据预处理模块用于对收集到的生产工艺参数数据进行聚类，并根据聚类结果去除所述生产工艺参数数据中的噪声数据，具体为：

将收集的生产工艺参数数据组成的数据集表示为X，设R(X)表示数据集X中数据对应的局部邻域半径，采用迭代的方式确定R(X)的值，具体为：

设R(X，r)表示数据集X中的数据在第r次迭代时对应的邻域半径，且R(X，r)＝R(X，0)+r，其中，r表示当前的迭代次数，且r的初始取值为0，r的增长步长设置为1，R(X，0)表示数据集X中的数据的初始邻域半径，设x_i表示数据集X中的第i个数据，且x_i为D维数据，D为生产工艺参数确定单元确定的生产工艺参数的种类数，d_min(x_i)表示数据x_i和数据集X中的数据之间的最小欧式距离值，即

则

其中，max表示取最大值，mid表示取中值，x_j表示数据集X中的第j个数据，|x_j-x_i|表示数据x_i和数据x_j之间的欧式距离，定义

表示数据集X在第r次迭代时的统计系数，且

的表达式为：

其中，设Ω(x_i，r)表示数据x_i在第r次迭代时的邻域，且Ω(x_i，r)为以数据x_i为中心、以R(X，r 为半径的球形区域，定义δ(x_i，r)表示数据x_i在邻域Ω(x_i，r)中的邻域统一系数，且

其中，

表示邻域Ω(x_i，r)中的第e个数据，M(x_i，r)表示邻域Ω(x_i，r)中的数据量，

表示数据x_i和数据

对应的判断函数，且

其中，d(X)为给定的距离检测阈值，且

ρ(x_i，r)表示邻域统一系数δ(x_i，r)对应的邻域统计系数，

M(X)表示数据集X中的数据量；

当数据集X在第r次迭代时的统计系数

满足

时，令r＝r+1，继续按照上述方法计算数据集X在新的迭代次数时的统计系数；当数据集X在第r次迭代时的统计系数

满足

且

时，选取第(r-1)次迭代时的邻域半径R(X，r-1)的值作为局部邻域半径R(X)的值。

优选地，设Ω(x_i)表示数据x_i的局部邻域，且Ω(x_i)为以数据x_i为中心、以R(X)为半径的球形区域，设置第一数据子集N₁(X)和第二数据子集N₂(X)，设δ(x_i)表示数据x_i在局部邻域Ω(x_i)中的邻域统一系数，且

其中，x_i，a表示局部邻域Ω(x_i)中的第a个数据，κ(x_i，x_i，a)表示数据x_i和数据x_i，a对应的判断函数，且

M(x_i)表示局部邻域Ω(x_i)中的数据量，当数据x_i满足δ(x_i)＝1时，则将数据x_i加入到第一数据子集N₁(X)中，当数据x_i满足δ(x_i)＜1时，则将数据x_i加入到第二数据子集N₂(X)中；

在第一数据子集N₁(X)中选取局部邻域内具有最多数据量的数据为第一个聚类参量数据，设x_l表示第一数据子集N₁(X)中的第l个数据，且

即x_l为在第一数据子集N₁(X)中选取的第一个聚类参量数据，将所述聚类参量数据x_l所在的类记为c₁，并将聚类参量数据x_l在第一数据子集N₁(X)和数据集X中都删除，其中，x_b表示第一数据子集N₁(X)中的第b个数据，设Ω(x_b)表示数据x_b的局部邻域，且Ω(x_b)为以数据x_b为中心、以R(X)为半径的球形区域，M(x_b)表示局部邻域Ω(x_b)中的数据量；根据选取的聚类参量数据x_l在数据集X中采用迭代的方式筛选出属于类c₁的数据，具体为：

设Ω′(x_l，t)表示聚类参量数据x_l在第t次筛选时对应的筛选邻域，且Ω′(x_l，t)为以聚类参量数据x_l为中心、以R′(x_l，t)为半径的球形区域，其中，R′(x_l，t)表示聚类参量数据x_l在第t次筛选时的筛选邻域半径，且R′(x_l，t)＝R(X)+t，t表示当前的筛选次数，t的初始取值为0，且t的增长步长设置为d(x_l)，其中，d(x_l)表示聚类参量数据x_l在筛选时对应的增长步长，且

Ω(x_l)表示聚类参量数据x_l的局部邻域，且Ω(x_l)为以聚类参量数据x_l为中心、以R(X)为半径的球形区域，x_l，p表示局部邻域Ω(x_l)中的第p个数据，M(x_l)表示局部邻域Ω(x_l)中的数据量；设N′(x_l，t)表示数据集X中剩余的且处于筛选邻域Ω′(x_l，t)内的数据组成的数据集合，对集合N′(x_l，t)中的数据进行筛选，设

表示集合N′(x_l，t)中的第m个数据，当数据

满足

时，则将数据

加入到类c₁中，并将数据

从数据集X和其所处的数据子集中都删除；当数据

满足

时，定义

表示聚类参量数据x_l和数据

之间的类检测系数，当

时，则

的表达式为：

当

时，则

的表达式为：

其中，

表示局部邻域Ω(x_l)的密度检测系数，α(x_l)表示局部邻域Ω(x_l)的邻域检测系数，x_l，q表示局部邻域Ω(x_l)中的第q个数据，

表示数据

的局部邻域，且

为以数据

为中心、以R(X)为半径的球形区域，

表示局部邻域

中的数据量，

表示局部邻域

的密度检测系数，

表示局部邻域

的邻域检测系数，

表示局部邻域

中的第n个数据，

表示聚类参量数据x_l和数据

之间的数据检测系数，

表示局部邻域

的第二邻域检测系数，

表示数据

和数据

对应的判断函数，且

表示局部邻域

中的第s个数据，

表示数据

和数据

对应的判断函数，且

表示聚类参量数据x_l和数据

之间的第二数据检测系数；

给定类检测阈值C(θ)，C(θ)的值可以取0.2，当

时，则将数据

加入到类c₁中，并将数据

在数据集X和其所在的数据子集中都删除，当

时，则不将数据

加入到类c₁中，并将数据

在数据集X和其所在的数据子集中保留；当对集合N′(x_l，t)中的数据筛选完成后，并且在集合N′(x_l，t)中筛选出了属于类c₁的数据时，则聚类参量数据x_l进行下一次的筛选，即令t+d(x_l)，设Ω′(x_l，t+d(x))表示聚类参量数据x_l在下一次筛选时的筛选邻域，N′(x_l，t+d(x_l))表示数据集X中剩余的且属于筛选邻域Ω′(x_l，t+d(x_l))的数据组成的集合，按照上述方法对集合N′(x_l，t+d(x_l))中的数据进行筛选，从而筛选出属于类c₁的数据，当在集合N′(x_l，t+d(x_l))中没有筛选出属于类c₁的数据时，则停止迭代筛选，此时的类c₁即为聚类所得的第一个类；

继续在第一数据子集N₁(X)剩余的数据中选取局部邻域内具有最多数据量的数据为第二个聚类参量数据，将所述第二个聚类参量数据所在的类记为c₂，并将选取的第二个聚类参量数据在第一数据子集N₁(X)和数据集X中都删除；按照上述方法根据选取的第二个聚类参量数据在数据集X剩余的数据中采用迭代的方式筛选出属于类c₂的数据；

按照上述方法选取聚类参量数据，并按照上述方法根据选取的聚类参量数据在数据集X剩余的数据中采用迭代的方式筛选出属于当前类的数据，直到第一数据子集N₁(X)中剩余的数据为零时停止聚类参量数据的选取，此时，如果第二数据子集N₂(X)中还存在剩余数据时，则判定此时第二数据子集N₂(X)中剩余的数据为噪声数据，将这些噪声数据在收集的生产工艺参数数据中删除。

优选地，所述质量指标预测模块根据预处理后的生产工艺参数数据和其对应的质量指标参数数据对BP神经网络进行训练，获取根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的BP神经网络模型。

优选地，采用粒子群算法对质量指标预测模块采用的BP神经网络的初始权值和阈值进行优化。

本发明创造的有益效果：

基于大数据技术和数据挖掘方法对中药生产的历史数据进行分析，利用BP神经网络建立根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的模型，实现了生产工艺参数的优化和质量指标的提高；设置数据预处理模块用于对收集的生产工艺参数数据进行聚类处理，并根据聚类结果去除生产工艺参数数据中的噪声数据，从而在利用所述生产工艺参数数据训练BP神经网络时，能够减少噪声数据的影响，从而有效的提高训练所得的BP神经网络模型在预测质量指标参数数据时的准确性；提出了利用改进的粒子群算法优化BP神经网络的初始权值和阈值，有效的提高了BP神经网络的预测精度。

附图说明

利用附图对发明创造作进一步说明，但附图中的实施例不构成对本发明创造的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是本发明结构示意图。

具体实施方式

结合以下实施例对本发明作进一步描述。

参见图1，本实施例的一种基于大数据技术的中药生产工艺参数分析系统，包括参数确定模块、数据收集模块、数据预处理模块和质量指标预测模块，所述参数确定模块包括质量指标确定单元和生产工艺参数确定单元，所述质量指标确定单元用于确定中药生产规定的质量指标参数，所述生产工艺参数确定单元用于确定影响所述质量指标参数的生产工艺参数，所述数据收集模块用于收集所述生产工艺参数数据以及所述生产工艺参数数据对应的质量指标参数数据，所述数据预处理模块用于对收集到的生产工艺参数数据进行预处理，去除生产工艺参数数据中的噪声数据，所述质量指标预测模块利用预处理后的生产工艺参数数据和其所对应的质量指标参数数据对BP神经网络进行训练，从而建立根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的BP神经网络模型。

优选地，所述参数确定模块采用专家经验的方法确定中药生产的生产工艺参数。

本优选实施例基于大数据技术和数据挖掘方法对中药生产的历史数据进行分析，利用BP神经网络建立根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的模型，实现了生产工艺参数的优化和质量指标的提高；设置数据预处理模块用于对收集的生产工艺参数数据进行聚类处理，并根据聚类结果去除生产工艺参数数据中的噪声数据，从而在利用所述生产工艺参数数据训练BP神经网络时，能够减少噪声数据的影响，从而有效的提高训练所得的BP神经网络模型在预测质量指标参数数据时的准确性；提出了利用改进的粒子群算法优化BP神经网络的初始权值和阈值，有效的提高了BP神经网络的预测精度。

设R(X，r)表示数据集X中的数据在第r次迭代时对应的邻域半径，且R(X，r)＝R(X，0)+r，其中，r表示当前的迭代次数，且r的初始值为0，r的增长步长设置为1，R(X，0)表示数据集X中的数据的初始邻域半径，设x_i表示数据集X中的第i个数据，且x_i为D维数据，D为生产工艺参数确定单元确定的生产工艺参数的种类数，d_min(x_i)表示数据x_i和数据集X中的数据之间的最小欧式距离值，即

则

表示数据集X在第r次迭代时的统计系数，且

的表达式为：

其中，设Ω(x_i，r)表示数据x_i在第r次迭代时的邻域，且Ω(x_i，r)为以数据x_i为中心、以R(X，r)为半径的球形区域，定义δ(x_i，r)表示数据x_i在邻域Ω(x_i，r)中的邻域统一系数，且

其中，

表示数据x_i和数据

对应的判断函数，且

其中，d(X)为给定的距离检测阈值，且

ρ(x_i，r)表示邻域统一系数δ(x_i，r)对应的邻域统计系数，

M(X)表示数据集X中的数据量；

当数据集X在第r次迭代时的统计系数

满足

满足

且

本优选实施例在对收集的生产工艺参数数据进行去噪处理时，首先对所述生产工艺参数数据进行聚类处理，通过将生产工艺参数数据中的正常数据聚合到各自类的过程中，识别出生产工艺参数数据中的噪声数据；在对所述生产工艺参数数据进行聚类时，本优选实施例提出一种新的聚类算法，提出的聚类算法在聚类的初始阶段，采用迭代的方式确定收集的生产工艺参数数据集中数据的局部邻域半径，通过定义的邻域统一系数来衡量数据和当前邻域中数据的相似度，通过定义的数据集在当前迭代时的统计系数来衡量在当前邻域半径的条件下，数据集中各数据和其当前邻域中数据的相似度，最后使得根据数据集在当前迭代时的统计系数确定的局部邻域半径保证了数据集中各数据和其局部邻域中的数据都较为相似，为接下来的聚类奠定了基础。

表示集合N′(x_l，t)中的第m个数据，当数据

满足

时，则将数据

加入到类c₁中，并将数据

从数据集X和其所处的数据子集中都删除；当数据

满足

时，定义

表示聚类参量数据x_l和数据

之间的类检测系数，当

时，则

的表达式为：

当

时，则

的表达式为：

其中，

表示局部邻域Ω(x_l)的密度检测系数，α(x_l)表示局部邻域Ω(x_l)的邻域检测系数，x_l，q表示局部邻域Ω(x_l)中的第q个数据，M(x_l)表示局部邻域Ω(x_l)中的数据量，

表示数据

的局部邻域，且

为以数据

为中心、以R(X)为半径的球形区域，

表示局部邻域

中的数据量，

表示局部邻域

的密度检测系数，

表示局部邻域

的邻域检测系数，

表示局部邻域

中的第n个数据，

表示聚类参量数据x_l和数据

之间的数据检测系数，

表示局部邻域

的第二邻域检测系数，

表示数据

和数据

对应的判断函数，且

表示局部邻域

中的第s个数据，

表示数据

和数据

对应的判断函数，且

表示聚类参量数据x_l和数据

之间的第二数据检测系数；

给定类检测阈值C(θ)，C(θ)的值可以取0.2，当

时，则将数据

加入到类c₁中，并将数据

在数据集X和其所在的数据子集中都删除，当

时，则不将数据

加入到类c₁中，并将数据

本优选实施例提出的新的聚类算法在对所述生产工艺参数数据进行聚类时，根据数据在局部邻域中的邻域统一系数将数据集中的数据分为第一数据子集合第二数据子集，第一数据子集中的数据和其局部邻域中的数据都较为相似，而第二数据子集中的数据和其局部邻域内的数据存在一定的区别，即第二数据子集中的数据可能为类的边界数据或者为噪声数据，根据上述特性，根据局部密度越高的数据越大概率为聚类中心的特性在第一数据子集中选取局部邻域内具有最多数据量的数据为第一个聚类参量数据，根据选取的聚类参量数据采用迭代的方式筛选出数据集中和所述聚类参量数据处于同一类的数据，在对数据进行筛选时，定义类检测系数用于衡量聚类参量数据和待筛选数据是否处于同一类，当待筛选数据处于第一数据子集时，表明该待筛选数据和其局部邻域中邻域数据具有较高的相似性，即所述待筛选数据和其局部邻域中的数据较大概率处于同一类，此时，可以通过对局部邻域进行检测来确定所述聚类参量数据和待筛选数据是否处于同一类，类检测系数中的密度检测系数能够有效的反应聚类参量数据和待筛选数据所处类中数据密度的相似性，类检测系数中的邻域检测系数能够有效的反应聚类参量数据和待筛选数据所处类中数据分布尺寸的相似性，类检测系数中的数据检测系数能够有效的反应聚类参量数据和待筛选数据所处类的数据之间的相似性，即类检测系数越小，聚类参量数据和待筛选数据所处的类越大概率为同一个；当待筛选数据处于第二数据子集时，表明该待筛选数据可能为类的边界数据也可能为噪声数据，此时，类检测系数利用邻域检测系数和数据检测系数来衡量这两个数据所处类的数据分布尺寸的相似性和数据之间的相似性时，仅在待筛选数据的局部邻域中选取和待筛选数据较为相似的数据参与计算，从而能够有效的筛选出类的边界数据，避免将噪声数据作为边界数据归入类中的情况，从而提高了噪声检测的准确度；在筛选的过程中，采用迭代的方式逐步扩大筛选范围，当前筛选邻域中筛选出属于当前类的数据时继续扩大筛选邻域的范围，而当前筛选邻域中没有筛选出属于当前类的数据时，即停止对数据集中其他的数据的筛选，从而能够有效的在数据集中筛选出当前类的数据的同时，减少筛选的数据量，从而提高聚类的速度；按照上述聚类完成后，所述第二数据子集中剩余的数据即表明其无论在数据分布尺寸还是数据值方面都和数据集中的其他数据具有较小相似性，从而能够判定所述第二数据子集中剩余的数据为噪声数据，将判定为噪声数据的数据在所述收集的生产工艺参数数据中删除，从而能够有效的避免噪声数据对接下来BP神经网络模型训练的影响；即综上所述，相较于传统的聚类算法，本优选实施例提出的新的聚类算法在聚类过程中能够有效的避免将噪声数据作为正常数据加入到类中的情况，并且能够适应于不同数据密度和不同分布尺寸的类的聚合，具有较好的聚类准确度，从而使得根据聚类结果检测数据集中存在的噪声具有较好的噪声检测精度。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于大数据技术的中药生产工艺参数分析系统，其特征是，包括参数确定模块、数据收集模块、数据预处理模块和质量指标预测模块，所述参数确定模块包括质量指标确定单元和生产工艺参数确定单元，所述质量指标确定单元用于确定中药生产规定的质量指标参数，所述生产工艺参数确定单元用于确定影响所述质量指标参数的生产工艺参数，所述数据收集模块用于收集所述生产工艺参数数据以及所述生产工艺参数数据对应的质量指标参数数据，所述数据预处理模块用于对收集到的生产工艺参数数据进行预处理，去除生产工艺参数数据中的噪声数据，所述质量指标预测模块利用预处理后的生产工艺参数数据和其所对应的质量指标参数数据对BP神经网络进行训练，从而建立根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的BP神经网络模型。

2.根据权利要求1所述的一种基于大数据技术的中药生产工艺参数分析系统，其特征是，所述数据预处理模块用于对收集到的生产工艺参数数据进行聚类，并根据聚类结果去除所述生产工艺参数数据中的噪声数据，具体为：

设R(X，r)表示数据集X中的数据在第r次迭代时对应的邻域半径，且R(X，r)＝R(X，0)+r，其中，r表示当前的迭代次数，且r的初始取值为0，r的增长步长设置为1，R(X，0)表示数据集X中数据的初始邻域半径，设x_i表示数据集X中的第i个数据，且x_i为D维数据，D为生产工艺参数确定单元确定的生产工艺参数的种类数，d_min(x_i)表示数据x_i和数据集X中的数据之间的最小欧式距离值，即

则

表示数据集X在第r次迭代时的统计系数，且

的表达式为：

其中，设Ω(x_i，r)表示数据x_i在第r次迭代时的邻域，且Ω(x_i，r)为以数据x_i为中心、以R(X，r)为半径的球形区域，定义δ(x_i，r)表示数据x_i在邻域Ω(x_i，r)中的邻域统一系数，且δ(x_i，r)＝

其中，

表示数据x_i和数据

对应的判断函数，且

其中，d(X)为给定的距离检测阈值，且

ρ(x_i，r)表示邻域统一系数δ(x_i，r)对应的邻域统计系数，

M(X)表示数据集X中的数据量；

当数据集X在第r次迭代时的统计系数

满足

满足

且

3.根据权利要求2所述的一种基于大数据技术的中药生产工艺参数分析系统，其特征是，设Ω(x_i)表示数据x_i的局部邻域，且Ω(x_i)为以数据x_i为中心、以R(X)为半径的球形区域，设置第一数据子集N₁(X)和第二数据子集N₂(X)，设δ(x_i)表示数据x_i在局部邻域Ω(x_i)中的邻域统一系数，且

表示集合N′(x_l，t)中的第m个数据，当数据

满足

时，则将数据

加入到类c₁中，并将数据

从数据集X和其所处的数据子集中都删除；当数据

满足

时，定义

表示聚类参量数据x_l和数据

之间的类检测系数，当

时，则

的表达式为：

当

时，则

的表达式为：

其中，

表示数据

的局部邻域，且

为以数据

为中心、以R(X)为半径的球形区域，

表示局部邻域

中的数据量，

表示局部邻域

的密度检测系数，

表示局部邻域

的邻域检测系数，

表示局部邻域

中的第n个数据，

表示聚类参量数据x_l和数据

之间的数据检测系数，

表示局部邻域

的第二邻域检测系数，

表示数据

和数据

对应的判断函数，且

表示局部邻域

中的第s个数据，

表示数据

和数据

对应的判断函数，且

表示聚类参量数据x_l和数据

之间的第二数据检测系数；

给定类检测阈值C(θ)，C(θ)的值可以取0.2，当

时，则将数据

加入到类c₁中，并将数据

在数据集X和其所在的数据子集中都删除，当

时，则不将数据

加入到类c₁中，并将数据

在数据集X和其所在的数据子集中保留；当对集合N′(x_l，t)中的数据筛选完成后，并且在集合N′(x_l，t)中筛选出了属于类c₁的数据时，则聚类参量数据x_l进行下一次迭代的筛选，即令t+d(x_l)，设Ω′(x_l，t+d(x))表示聚类参量数据x_l在下一次筛选时的筛选邻域，N′(x_l，t+d(x_l))表示数据集X中剩余的且属于筛选邻域Ω′(x_l，t+d(x_l))的数据组成的集合，按照上述方法对集合N′(x_l，t+d(x_l))中的数据进行筛选，从而筛选出属于类c₁的数据，当在集合N′(x_l，t+d(x_l))中没有筛选出属于类c₁的数据时，则停止迭代筛选，此时的类c₁即为聚类所得的第一个类；

按照上述方法选取聚类参量数据，并按照上述方法根据选取的聚类参量数据在数据集X剩余的数据中采用迭代的方式筛选出属于当前类的数据，直到第一数据子集N₁(X)中剩余的数据为零时停止聚类参量数据的选取，此时，如果第二数据子集N₂(X)中还存在剩余数据时，则判定此时第二数据子集N₂(X)中剩余的数据为噪声数据，将这些噪声数据在所述收集的生产工艺参数数据中删除。

4.根据权利要求3所述的一种基于大数据技术的中药生产工艺参数分析系统，其特征是，所述质量指标预测模块根据预处理后的生产工艺参数数据和其对应的质量指标参数数据对BP神经网络进行训练，获取根据生产工艺参数数据对中药生产的质量指标参数数据进行预测的BP神经网络模型。

5.根据权利要求4所述的一种基于大数据技术的中药生产工艺参数分析系统，其特征是，采用粒子群算法对质量指标预测模块采用的BP神经网络的初始权值和阈值进行优化。