CN105740467B

CN105740467B - 一种C-Mn钢工业大数据的挖掘方法

Info

Publication number: CN105740467B
Application number: CN201610127406.5A
Authority: CN
Inventors: 刘振宇; 吴思炜; 周晓光; 曹光明; 陈其源; 任家宽
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2016-03-07
Filing date: 2016-03-07
Publication date: 2019-02-05
Anticipated expiration: 2036-03-07
Also published as: CN105740467A

Abstract

本发明提出一种C‑Mn钢工业大数据的挖掘方法，属于钢铁工业生产和数据统计建模的交叉技术领域，该方法包括数据样本选取、钢卷归并、相似工艺聚类和训练数据均匀化；本发明通过选择多个钢牌号的数据，使数据样本中包含了较为全面的参数信息，反映出更客观的物理冶金规律，使模型具有更广泛的适用性；通过对检测钢坯成分的判断和采用聚类的方法，将相似工艺的多组数据校正为一组数据，精简数据量，删除冗余数据；在此过程中剔除了异常数据，减小了误差，使数据的规律性更为显著；通过统计训练数据三种力学性能的分布，调整了训练数据的分布均衡性；采用均衡的数据训练神经网络，可以使网络模型学习到均衡的信息，提高了模型的规律性和准确性。

Description

一种C-Mn钢工业大数据的挖掘方法

技术领域

本发明属于钢铁工业生产和数据统计建模的交叉技术领域，具体涉及一种C-Mn钢工业大数据的挖掘方法。

背景技术

在C-Mn钢的工业生产中会采集到大量的生产数据，技术人员可以通过这些数据包含的信息建立力学性能预测模型，但是如果将原始生产数据不经处理直接应用，则会产生很多问题。首先，原始生产数据中存在着大量的冗余数据，过多的冗余数据会增大建模的计算量，同时导致规律性不够显著；一般情况下，每炉钢水通常可以生产出若干钢卷，在检测力学性能时，会从每块钢卷切取若干样品；如果这部分钢卷都用来生产同一厚度规格的板带材，采取同一轧制工艺，则每一炉钢锭会对应多组数据；因此这些数据所包含的信息都是相同或相近的，在数据建模中应用大量包含相同信息的数据会增大建模的计算量；由于出钢记号的工艺标准是以区间的形式制定的，实际工艺受生产线设备能力的约束，故采集到的数据呈离散状态分布。工艺参数在数值上微小的波动是实际生产操作中误差允许范围内的，这些数据也可视为包含相同或相近信息的数据，同样会增大建模的计算量。其次，由于检测误差和工业系统中人工干预的存在，如果将生产线采集到的原始数据不经过处理直接用于建模，其分析结果很容易出现偏离事实的畸变；此外，工业数据通常分布不均衡，这样的数据无法反应客观全面的信息，导致建立的模型所包含的特征倾向于数据集中的区域的特征；比如采用神经网络建立力学性能模型时(图5)，分析屈服强度随C含量的变化曲线，当C含量高于0.1％后，则会出现屈服强度随着C含量的增加而降低的现象；同样的，在分析终轧厚度和卷取温度时也会发生违背物理冶金学规律的现象；这是因为原始数据分布不均匀，信噪比低，同时生产中存在过多的人工反馈调节导致数据规律被埋没；因此在应用神经网络建模前需要开发出一系列方法挖掘出C-Mn钢工业大数据中蕴含的合理的物理冶金关系；只有采用正确的成分工艺性能对应关系的数据才能建立反映正确物理冶金关系的模型，从而有助于在之后的力学性能目标值逆向优化计算中得到正确的工艺；因此对于C-Mn钢生产大数据的蕴含成分工艺性能关系的准确挖掘是力学性能工艺优化的重要基础。

通过检索国家知识产权局数据库及SOOPAT数据库，目前针对C-Mn钢工业大数据的挖掘方法并没有相关专利发表；目前文献中钢铁生产数据建模主要是采用单钢种进行建模，由于单钢种生产工艺的单一性，导致数据分布集中于轧钢工艺的设定的目标值，这样选取的数据无法包括全面的工艺信息，导致模型适用性差；文献中的数据挖掘方法也过于简单，通常只包含有数据加载和数据清洗两个步骤，而且数据清洗方法较为单调，没有考虑C-Mn实际生产的工艺特征，往往不能满足用户需求，导致数据挖掘的结果不理想，直接影响到建模的准确性和有效性。

发明内容

针对现有技术的不足，本发明提出一种C-Mn钢工业大数据的挖掘方法，该方法保证神经网络学习到均衡的信息，提高泛化能力，采用钢卷归并和相似工艺聚类的方法将数据进行精简，剔除误差值，去除冗余数据，减小建模时计算量，使数据呈现出显著的规律性，达到提高方法的适用性和准确性的目的。

一种C-Mn钢工业大数据的挖掘方法，包括以下步骤：

步骤1、选取相同系列不同强度级别钢牌号数据，包括：成分含量参数：C含量、Si含量和Mn含量；工艺参数：精轧出口温度、终轧温度、终轧厚度和卷取温度；力学性能参数：屈服强度、抗拉强度和延伸率；

步骤2、对数据中的空缺值进行填补；

步骤3、根据每条数据的成分含量进行同一炉的钢卷归并，具体步骤如下：

步骤3-1、根据数据中C含量、Si含量和Mn的含量选出来源于同一炉钢的数据，即C含量、Si含量和Mn含量相同，则判定这些数据来源于同一炉钢；

步骤3-2、在来源于同一炉钢的数据中，进一步选取在工艺参数平均值波动范围内的数据，获得其对应的力学性能参数；

步骤3-3、对获得的力学性能参数进行整条异常数据剔除处理，再将处理后的所有数据中各参数求取平均值，用平均值替代对应组的数据，完成钢卷归并；

步骤4、对钢卷归并后的各条数据进行相似工艺聚类，具体步骤如下：

步骤4-1、设置聚类分组数，对C含量、Si含量、Mn含量、终轧厚度和卷取温度进行分层聚类；

步骤4-2、判断分层聚类后的每一组数据中C含量最大值与最小值之间的差值、Si含量最大值与最小值之间的差值、Mn含量最大值与最小值之间的差值、终轧厚度最大值与最小值之间的差值、卷取温度最大值与最小值之间的差值，是否在各自的设定范围内，若是，则执行步骤4-3，否则返回执行步骤4-1；

步骤4-3、对分层聚类后每一组数据进行整条异常数据剔除处理，再将处理后的所有数据中各参数求取平均值，用平均值替代对应组的数据，完成工艺聚类；

步骤5、判断是否有工艺聚类后的任意两条数据中存在：C含量₁≥C含量₂，Si含量₁≥Si含量₂，Mn含量₁≥Mn含量₂，终轧厚度₁≤终轧厚度₂，卷取温度₁≤卷取温度₂，屈服强度₁＝屈服强度₂的情况，若有，则求取该两条数据的平均值，用平均值替代该两条数据，并执行步骤6；否则直接执行步骤6；

步骤6、根据数据中屈服强度、抗拉强度和延伸率的最大频数构建多目标优化函数，将多目标优化函数的解作为每组数据的复制倍数，完成对数据的均匀化处理；

步骤7、将均匀化处理后的数据中C含量、Si含量、Mn含量、精轧出口温度、终轧温度、终轧厚度和卷取温度作为BP神经网络的输入，将屈服强度、抗拉强度和延伸率作为BP神经网络的输出，完成BP神经网络的训练；

步骤8、在实际工艺设计时，所需成分含量参数和工艺参数输入BP神经网络中，获得预测的力学性能值；

步骤9、将预测的力学性能值与设定的目标值进行比较，具体如下：

若预测值小于目标值，则步骤8输入BP神经网络中的成分含量参数和工艺参数不能满足需求，赋予目标值一个大的常数值；

若预测值在目标值和p倍的目标值之间，p＞1，则步骤8输入BP神经网络中的成分含量参数和工艺参数为最优方案；

若预测值大于p倍的目标值，则步骤8输入BP神经网络中的成分含量参数和工艺参数为次优方案；

步骤10、根据步骤9的比较结果构建目标函数，搜索此目标函数的最优解集，该解集即为生产目标力学性能的钢种的轧制工艺方案，根据该方案对钢材进行轧制。

步骤2所述的对数据中的空缺值进行填补，具体为：若成分含量参数和工艺参数缺失，则剔除该条数据，若其他数据缺失，则采用相邻数据平均值代替。

步骤3-2所述的平均值波动范围，具体为：终轧厚度平均值的±0.5mm，卷取温度平均值的±20℃。

步骤3-3所述的对获得的力学性能参数进行整条异常数据剔除处理和步骤4-3所述的对分层聚类后每一组数据进行整条异常数据剔除处理，具体为：判断一组数据的数目是否超过30组，若是，则统计屈服强度分布，根据拉衣达准则，剔除力学性能在大于3倍均方差的数据；否则，根据基于中位数的格拉布斯准则剔除大于格拉布斯临界值的数据。

步骤6所述的根据数据中屈服强度、抗拉强度和延伸率的最大频数构建多目标优化函数，具体公式如下：

其中，F表示多目标优化函数，n表示区间数，i＝1......n，YS_i表示第i区间的屈服强度，TS_i表示第i区间的抗拉强度，EL_i表示第i区间的延伸率，YS_max表示屈服强度的最大频数，TS_max表示抗拉强度的最大频数，EL_max表示延伸率的最大频数；

采用NSGA-II算法对该多目标优化函数进行优化，求F的最小值，即为每组数据的复制倍数。

步骤10所述的根据步骤9的比较结果构建目标函数，搜索此目标函数最小值的最优解集，具体为：

目标函数公式如下：

其中，f^j表示目标函数，x_j表示每组工艺参数带入神经网络模型得到的预测值，X_j表示预设力学性能目标值；j＝1，2，3分别对应于屈服强度、抗拉强度和延伸率；M为一常量，可取5000～1000000；μ和p为系数，对于屈服强度和抗拉强度8＜μ＜12，1＜p＜1.5；对于延伸率80＜μ＜120，1＜p＜2；

采用NSGA-II算法搜索目标函数最小值的最优解集，该解集即为生产目标力学性能的钢种的轧制工艺方案。

本发明优点：

(1)数据样本选取。通过选择成分含量和工艺参数存在差别的多个钢牌号的数据，使数据样本中包含了较为全面的成分含量和工艺参数信息，弥补了单钢种成分含量和工艺数据范围过于狭窄的缺点，同时保证所建立的模型能够反映出更客观的物理冶金规律，使模型具有更广泛的适用性；

(2)钢卷归并。通过对检测钢坯成分的判断，将每一炉钢坯所对应的多组数据校正为一组数据，精简了数据量，删除包含相同信息的冗余数据，使建模的计算量大大减少；同时，在此过程中剔除了异常数据，减小了误差，使数据的规律性更为显著；

(3)相似工艺聚类。结合物理冶金原理和对生产数据的分析，选择出影响C-Mn钢的力学性能的主要工艺参数为C含量、Si含量、Mn含量、终轧厚度和卷取温度；通过对C-Mn钢生产过程中主要工艺参数的计算，采用聚类的方法，将相似工艺的多组数据校正为一组数据，精简了数据量，删除包含相同或相近信息的冗余数据，使建模的计算量大大减小；同时，在此过程中剔除了异常数据，减小了误差，使数据的规律性更为显著；

(4)训练数据均匀化。通过统计训练数据三种力学性能的分布，结合多目标优化算法，调整了训练数据的分布均衡性。采用均衡的数据训练神经网络，可以使网络模型学习到均衡的信息，提高了模型的规律性和准确性。

附图说明

图1为本发明一种实施例的C-Mn钢工业大数据的挖掘方法流程图；

图2为本发明一种实施例的拉衣达准则剔除边界数据示意图；

图3为本发明一种实施例的基于中位数的格拉布斯准则剔除异常点示意图；

图4为本发明一种实施例的数据挖掘前和数据挖掘后力学性能数据对比图，其中，图(a)为数据挖掘前力学性能数据对比图，图(b)为数据挖掘后力学性能数据对比图；

图5为本发明一种实施例的屈服强度随输入神经元变化曲线图，其中，图(a)为C含量随输入神经元变化曲线图，图(b)为终轧厚度随输入神经元变化曲线图，图(c)为卷取温度随输入神经元变化曲线图。

具体实施方式

下面结合附图对本发明一种实施例做进一步说明。

本发明实施例中，C-Mn钢工业大数据的挖掘方法，方法流程图如图l所示，包括以下步骤：

本发明实施例中，成分含量必须包括C含量、Si含量、Mn含量，工艺参数必须包括终轧厚度和卷取温度，力学性能包括屈服强度、抗拉强度和延伸率；次要参数为中间坯厚度，粗轧出口温度等；其他参数可以根据需要任意添加，在计算过程中只有求平均值时参与计算，其他情况不参与计算；依据选择同类别不同强度级别钢种的原则，本发明实施例中，采用SPHC、HP295、SAE1006、Q195多个牌号钢的生产数据作为数据样本。

步骤2、对数据中的空缺值进行填补；

本发明实施例中，通过计算机寻找空缺数据，如果是轧辊辊径数据缺失，则采用相邻数据平均值代替；如果数据中成分含量及主要工艺(终轧厚度和卷取温度)记录不完整的数据，则将此类数据剔除；本发明实施例中最终得到完整数据共7679组；依次针对屈服强度、抗拉强度和延伸率进行数据挖掘，下面以屈服强度为例；

本发明实施例中，如果主要工艺参数相近，即终轧厚度与平均值之差在±0.5mm，卷取温度与平均值之差在±20℃，则可判定这些数据是采取同一种工艺生产，如表1中数据；选择这些数据，统计数目；

表1钢卷归并处理前

本发明实施例中，某一组数据数目超过30组，统计屈服强度分布，如图2；根据拉衣达准则，剔除力学性能在3倍均方差以外的数据；某一组数目少于30组，根据基于中位数的格拉布斯准则剔除掉大于格拉布斯临界值的数据，如图3；两种剔除异常值方案的显著度均选择0.01；异常数据剔除后，将剩余数据平均化处理，即用一组数据代替同一炉钢卷数据；

本发明实施例中，表1中第6、7组屈服强度值经过判断为异常数据，将整条数据予以剔除，对于剩余数据采用一组平均值代替，如表2：

表2钢卷归并处理后

本发明实施例中，选择C-Mn钢生产过程中的关键工艺参数(C含量、Si含量、Mn含量、终轧厚度和卷取温度)数据，设置聚类分组数为300组，计算其马氏距离，采用基于马氏距离的方法将多维数据进行分层聚类；

本发明实施例中，相似工艺聚类处理前数据，如表3：

表3相似工艺聚类处理前

本发明实施例中，设定每一类别主要工艺参数上下界数值差值范围控制在：C含量≤0.01mass％、Si含量≤0.1mass％、Mn含量≤0.06mass％、终轧厚度≤0.6mm、卷取温度≤20℃；

本发明实施例中，此处剔除的方式与步骤3-3相同，即工艺参数聚类之后，确定每一组工艺参数下的数据数目，根据每组数据数目的不同选择不同的剔除异常数据方案；如果钢卷数大于30组，屈服强度数据分布为正态分布，则采用拉依达准则剔除异常数据；如果钢卷数小于30组，则采用基于中位数的格拉布斯准则剔除异常数据，显著度选取0.01；异常数据剔除后，将剩余数据平均化处理。用一组数据代替整组工艺相近数据；

本发明实施例中，表3中第1组屈服强度值经过判断为异常数据，将整条数据予以剔除，对于剩余数据采用一组平均值代替，如表4：

表4相似工艺聚类处理后

本发明实施例中，通过查找数据，发现数据中存在具有此类特征的某两组数据，其中C含量1＞C含量2，Si含量1＞Si含量2，Mn含量1＞Mn含量2，终轧厚度1＜终轧厚度2，卷取温度l＜卷取温度2，屈服强度1＝屈服强度2，如表5；这类数据的存在是不符合物理冶金原理的，因此需要加以修正；这类数据的产生往往是由于生产过程中工艺的波动造成的，通常数值变化幅度不大；考虑到数据波动会影响所建立模型的逻辑关系，因此将这两组数据用其平均值替代，结果如表6；

表5逻辑修正处理前

表6逻辑修正处理后

本发明实施例中，完成对每个力学性能指标的数据挖掘，得到数据529组；将数据挖掘前和数据挖掘后的数据进行对比，可以看到数据在数量上有了很大的精简，去除了含有重复信息的冗余数据，这为数据后期建模减小了计算量，同时数据的规律性更为显著；

本发明实施例中，如图4中图(a)和图(b)所示，随着工艺序号的由小到大，其对应的力学性能按照物理冶金原理是增加的；但是由于工业生产中数据的波动，以及力学性能检测带来的误差，会导致规律性不显著；如屈服强度中7、8组，11、12、13组和14、15、16、17组，抗拉强度中1、2组，5、6组以及9、10、11组，延伸率中1、2、3组，6、7、8组和11、12、13组工艺下的力学性能数据统计出的规律性不够显著，甚至有些工艺数据在局部力学性能是减小的，经过一系列数据挖掘，可以剔除数据中的异常数据，使工艺数据和力学性能之间呈现出显著的规律性，同时修正误差；

本发明实施例中，受钢材生产实际工艺的限制，所采集到的工艺数据都是离散的，不均匀的；随着不同生产工艺数据的增多，这种不均匀性越来越明显；用不均匀分布的数据样本训练神经网络模型，可能导致预测规律之间不连贯，而对于数据量较少的处在边缘的数据，由于其出现频率较低，在神经网络训练时学习到的信息较弱，也会影响到模型的准确性；因此可以通过统计每个区间力学性能值的频数分布，选择出频数出现最高的力学性能区间，以此频数为标准；通过程序对其它频数较低数据组进行复制，增加数据数目，保证在神经网络训练时所有数据可以被均匀学习；

本发明实施例中，将数据分为两组训练数据和一组测试数据；将原始的7679组数据直接作为未经过数据挖掘的模型的训练数据；将经过数据挖掘的529组数据按照近似4∶1分为424组训练数据和105组测试数据两部分；分别将两组数据作均匀化处理，以训练数据为例，将训练数据分为20个区间，分别统计屈服强度、抗拉强度和延伸率得到其最大频数分别为55、47和44，则多目标优化目标函数为：

本发明实施例中，采用NSGA-II算法对此多目标优化函数进行优化，求F的最小值，多目标优化问题的解为每组数据的复制倍数；优化问题解的边界[0.5，1.05*max([YS_max，TS_max，EL_max])]，本发明实施例中取[0.5，57.75]，且解为整数；本发明实施例中，屈服强度处在220-230MPa段的数据较少，则将其按照一定值整体复制该组数据，使其数目增大到F取得最小值为止，此时对应的各区间数据复制比例为最优化问题的最优解，任选多组最优解中的一组作为均匀化采用的数据复制比例系数；

本发明实施例中，采用均匀化后的952组数据作为经过数据挖掘建模的训练数据，238组数据作为模型的测试数据；神经网络建模采用基于贝叶斯正则化方法的BP神经网络，一个隐藏层，4个隐藏神经元，分别选取C含量、Si含量、Mn含量、精轧出口温度、终轧温度、终轧厚度和卷取温度作为输入神经元，屈服强度、抗拉强度和延伸率作为输出神经元；

具体为：

目标函数公式如下：

其中，f^j表示目标函数，x_j表示每组工艺参数带入神经网络模型得到的预测值，X_j表示预设力学性能目标值；j＝1，2，3分别对应于屈服强度、抗拉强度和延伸率；M为一常量，可取1000000；μ和p为系数，对于屈服强度和抗拉强度8＜μ＜12，1＜p＜1.5；对于延伸率80＜μ＜120，1＜p＜2；

本发明实施例中，结合模型的适用范围及产品标准要求确定轧制工艺参数(目标函数解)的上下限，即为目标函数解的空间；采用NSGA-II算法搜索此目标函数最小值的最优解集，解集即为生产目标力学性能为X_j的钢种的轧制工艺设计方案；此部分为现有的公知常识部分，不作具体阐述；

本发明实施例中，以屈服强度为例比较数据挖掘的效果：

表7是数据挖掘前和数据挖掘后所建立模型预测结果对比；可以看出两者在精度上没有明显的差别，仅仅屈服强度精度有从94.12％提高到96.64％；

表7预测精度对比

表8是数据处理前和数据处理后所建立的两个模型的预测误差比较；对于屈服强度和抗拉强度，经过数据处理所建立的模型预测数据误差平均值和均方差变小，准确率提高；对于延伸率，经过数据处理后预测误差平均值变小，均方差不变；主要原因是数据处理过程中采用了将数据分布均匀化的处理方法；未经过均匀化处理的数据建立的模型对边缘数据预测的误差所致，由于训练数据分布较为集中，从而模型对边缘数据信息学习较少，导致对边缘数据预测误差较大；而经过数据处理后，训练数据分布较为均匀，使模型能学习到全面的数据信息，预测能力有所改善；

表8预测误差比较

图5为模型预测的屈服强度与输入工艺参数的变化曲线；为了比较两种情况下模型的规律性，图5中的散点是在其他工艺相近情况下选取不同C含量、终轧厚度和卷取温度的实际生产检测的屈服强度的数据；

图5中图(a)中，在其他生产工艺相近的前提下，随着碳含量的增加，屈服强度增加；钢中的C含量低时，一般组织由铁素体和珠光体组成，淬火后为板条马氏体，屈服强度较低；随着钢中C含量增高，组织一般由渗碳体和珠光体组成，淬火后多为片状马氏体，屈服强度增高。而数据处理前所建立的模型，由于原始数据中存在较多的误差值，碳含量高于0.1后数据稀少，各个输入参数之间误差相互影响等因素共同作用下，导致屈服强度随着C含量的增加先增加后降低，偏离了物理冶金规律；

图5中图(b)直观的反映了钢板厚度对屈服强度的影响。在成分和卷取温度一定的前提下，随着钢板厚度的增大其屈服强度降低；中间坯厚度相同时，不同的终轧厚度对应着不同的压下量。因此在中间坯厚度一定的前提下，终轧厚度越小，其总压下量越大，大的压下率产生大量的形变，形变提高了储能，由此形核率增加，再结晶奥氏体晶粒尺寸减小，另一方面大量的位错缠结增大了位错开动的阻力，使屈服强度增大；此外，终轧厚度越小，带钢运行的速度越快，冷却速度增大，获得的铁素体晶粒尺寸较小，产生细晶强化。经过数据处理的模型的屈服强度随着终轧厚度的变化规律一致，拟合效果较好，而数据处理前所建立的模型由于数据规律混乱和屈服强度检测误差的影响导致在厚度较小时出现错误的规律；

卷取温度对屈服强度的影响如图5中图(c)所示，随着卷取温度的升高，屈服强度呈现降低的趋势；这是因为大多数先共析铁素体的形核及长大在卷取温度下的缓慢冷却条件下完成，可以近似认为是等温转变过程；卷取温度对产品组织性能的影响可理解为是对转变温度的影响。卷取温度较高时，铁素体晶粒粗大均匀，这是由于铁素体过冷度较低，形核点少，主要集中在原奥氏体晶粒的晶界处，而铁素体的长大速度较快所致；当卷取温度低时，铁素体形核数增多，长大速度减慢，铁素体晶粒尺寸变小，同时珠光体趋于弥散细小。随卷取温度的降低，铁素体晶粒细化，针状铁素体的数量逐渐增多，珠光体含量增加，片层间距也逐渐减小。因此，随着卷取温度的降低，屈服强度增大。在数据处理前所建立的模型中，当卷取温度高于610℃后，随着卷取温度的升高，屈服强度升高。这是由于各影响因素数据间的相互干扰，异常点较多同时边缘数据较少导致拟合出现错误的规律。在经过一系列数据处理后，优化了训练数据，使其符合物理冶金规律；由此可见，数据处理是采用钢铁大数据建立正确物理冶金模型中十分关键的一个环节。

Claims

1.一种C-Mn钢工业大数据的挖掘方法，其特征在于，包括以下步骤：

步骤2、对数据中的空缺值进行填补；

2.根据权利要求1所述的C-Mn钢工业大数据的挖掘方法，其特征在于，步骤2所述的对数据中的空缺值进行填补，具体为：若成分含量参数和工艺参数缺失，则剔除该条数据，若其他数据缺失，则采用相邻数据平均值代替。

3.根据权利要求1所述的C-Mn钢工业大数据的挖掘方法，其特征在于，步骤3-2所述的平均值波动范围，具体为：终轧厚度平均值的±0.5mm，卷取温度平均值的±20℃。

4.根据权利要求1所述的C-Mn钢工业大数据的挖掘方法，其特征在于，步骤3-3所述的对获得的力学性能参数进行整条异常数据剔除处理和步骤4-3所述的对分层聚类后每一组数据进行整条异常数据剔除处理，具体为：判断一组数据的数目是否超过30组，若是，则统计屈服强度分布，根据拉衣达准则，剔除力学性能在大于3倍均方差的数据；否则，根据基于中位数的格拉布斯准则剔除大于格拉布斯临界值的数据。

5.根据权利要求1所述的C-Mn钢工业大数据的挖掘方法，其特征在于，步骤6所述的根据数据中屈服强度、抗拉强度和延伸率的最大频数构建多目标优化函数，具体公式如下：

6.根据权利要求1所述的C-Mn钢工业大数据的挖掘方法，其特征在于，步骤10所述的根据步骤9的比较结果构建目标函数，搜索此目标函数最小值的最优解集，具体为：

目标函数公式如下：