一种酱油定量分析模型的建立方法
技术领域
本发明属于化学计量学领域,具体涉及一种构建定量分析模型方法,还涉及一种定量检测待测样品的方法及系统。
背景技术
光谱分析是无损分析中的重要分支,因为检测过程无接触和零化学试剂消耗,在食品、药品行业得到广泛应用。此外,快速和高通量也是光谱分析的共有特点,化学计量学算法可在光谱信号(紫外光谱、近红外光谱、拉曼光谱、高光谱等)与化学指标结果之间建立函数关系(即分析模型),当获取到新样本光谱信号时,利用所建分析模型可以直接计算出新样本的性质或组成信息。
光谱分析模型的建立通常利用多元线性回归(MLR)、主成分回归(PCR)、偏最小二乘回归(PLS)、人工神经网络(ANN)等建模方法。在建模中,用于建立分析模型的数据集称为校正集,其内部样本的选择直接决定所建分析模型的适用性和准确性。一般要求校正集样本的特征范围覆盖可能出现的待测样本,即校正集中的样本应包含未来待测样本中可能存在的所有化学组成。因而传统分析模型的校正集中样本数量都比较多,依据稳健性要求从数百到数千不等,但这样的校正集内样本之间一般会存在较大的差异,特别是当样本光谱具有非线性特征响应的时候,大多数情况下将会导致校正模型的适用性和准确性下降。
酱油属于发酵产物,即使投放物料配比一致,在不同温湿度和光照条件下发酵,得到的酱油其理化组成仍会有较大的差异,而且当使用频率较高时,光谱仪部件会发生老化,因此,采用光谱分析法对酱油进行定量检测时,需要定期将近红外分析模型计算出的预测值与传统分析方法(如气相方法、液相方法等)结果进行比对,当比对结果不理想时,就需要及时进行模型维护。由于样本和化学指标种类繁多,目前尚无通用的模型维护方法和流程。分析模型的维护时长不固定且需要足够的先验知识,是光谱分析尤其是近红外光谱分析技术中保持使用连续性的主要障碍。
发明内容
本发明提供一种构建定量分析模型方法,包括:
采集待测样本的光谱图;
利用分类模型确定待测样本的类型;
在原始校正集中提取所有与待测样本类型相同的校正样本,形成临时判据集;
计算临时判据集中每个校正样本与待测样本之间的距离;
判断距离小于阈值距离的校正样本的数量是否小于E,若数量小于E个,则中止计算;若数量大于或等于E,则将距离小于阈值距离的校正样本按照距离从小到大排序,选取距离待测样本最近的前E个光谱,形成临时校正集;
利用临时校正集构建定量分析模型,用于所述预测待测样本的定量检测值,
其中E为大于10的自然数,例如20~150。
在一个实施方案中,E为50。
在一个实施方案中,所述的分类模型通过二次判别分析法利用原始校正集构建而成。
优选地,所述的分类模型的构建方法包括:
采集校正样本的光谱图,形成原始校正集;
对光谱图进行预处理,以便对所采集的光谱图进行优化;
对预处理后的每个校正样本的光谱图进行主成分分析,形成主成分空间,以实现降维;
对降维后的每个校正样本的光谱图进行分类并标记;
然后通过二次判别分析法利用降维后的原始校正集构建分类模型。
在一个实施方案中,在采集待测样本的光谱图后,还包括:
对光谱图进行预处理,以便对所采集的光谱图进行优化;
将预处理后的光谱图投影到主成分空间,以实现降维;
然后再根据降维后的光谱图,利用分类模型确定待测样本的类型。
在一个实施方案中,计算临时判据集中每个校正样本与待测样本之间的距离的方法包括:
计算待测样本的光谱图在第一主成分子空间中与临时判据集中每个样本的距离,得到第一距离;
计算待测样本的光谱图在第二主成分子空间中与临时判据集中每个样本的距离,得到第二距离;
取第一距离和第二距离的算术平均值作为临时判据集中每个校正样本在主成分空间下与待测样本之间的距离,其中:
第一主成分子空间由主成分空间中的第一、二、三个主成分形成,第二主成分子空间由主成分空间中的第二、三、四个主成分形成。
在一个实施方案中,利用临时校正集构建定量分析模型的方法为偏最小二乘法。
在一个实施方案中,所述阈值距离依据定量分析方法的准确度确定。
在一个实施方案中,所述光谱图为近红外光谱图。
在一个实施方案中,所述近红外光谱图的谱区范围为780nm~2492nm。
在另一个实施方案中,所述近红外光谱图的谱区范围为780nm~2490nm
在一个实施方案中,所述距离为欧式距离、马氏距离、曼哈顿距离、余弦距离、汉明距离或标准化欧式距离,优选为欧式距离。
在一个实施方案中,对光谱图进行预处理包括以下处理方式中的至少一种:
对光谱图进行平滑处理,以消除不规则的随机噪声对光谱图的影响,使光谱图更为平滑;
对光谱图进行导数校正处理,以消除非化学性因素对光谱图造成的影响,同时放大光谱的微小变化;
对光谱图进行中心化处理,以消除因基线漂移对光谱图造成的影响;
对光谱图进行标准化处理,以消除量纲对光谱图造成影响。
在一个实施方案中,对光谱图进行平滑处理包括:采用Savitzky-Golay卷积平滑算法对光谱图进行处理。
在一个实施方案中,对光谱图进行导数校正处理包括:采用二阶差分求导对光谱图进行处理。
在一个实施方案中,对光谱图进行标准化处理包括采用均值标准化对光谱图进行处理。
在一个实施方案中,对光谱图进行预处理包括:采用Savitzky-Golay卷积平滑算法对光谱图进行处理,
采用二阶差分求导对光谱图进行处理,和
采用均值标准化对光谱图进行处理。
在一个实施方案中,所述校正样本或待测样本为酱油。
本发明还提供一种定量检测待测样本(例如酱油)的方法,包括:
采集待测样本的光谱图;
使用本发明所述的构建定量分析模型的方法构建定量分析模型,
将待测样本的光谱图代入所述定量分析模型,得到待测样本的定量检测结果。
本发明的有益效果
本发明提供的构建定量分析模型的方法,可以通过待测样本的光谱特征判断待测样本的类型,并实时构建高特异性的定量分析模型,从而提高定量分析的预测精度,降低模型维护频率和难度,进一步的,当校正样本集的样本组成足以覆盖物料日常波动时,该方法可以免除模型维护工作,保证检测工作的准确性和连续性。
应用本发明提供的定量检测待测样本的方法,可以针对待测样本的光谱特征实时建立定量分析模型,从而达到更高的预测精度和更低的模型维护频率,在定量检测前无需人工选择适用的定量分析模型。此外,在校正样本库所含样本基本覆盖物料日常品质波动的情况下,可以达到无需人工维护模型的目的。
该定量检测待测样本的方法可以用于定量检测酱油,预测精度高,模型维护频率和难度下降,并且当校正样本集的样本组成足以覆盖物料日常波动时,该方法可以免除模型维护工作,保证检测工作的准确性和连续性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术中描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的构建定量分析模型的方法的一个实施例的流程示意图;
图2为本发明的定量检测待测样本的方法的一个实施例的流程示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,说明本发明的示例性实施例。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合各个附图和实施例对本发明的技术方案进行多方面的描述。
本文中的“第一”、“第二”等,为描述上相区别,并没有其它特殊的含义。
图1为本发明的构建定量分析模型的方法的一个实施例的流程示意图,其中:
步骤1,采集待测样本的光谱图。
可选地,在采集待测样本的光谱图后,还包括:
对光谱图进行预处理,以便对所采集的光谱图进行优化;
将预处理后的光谱图投影到主成分空间,以实现降维;
然后再根据降维后的光谱图进行步骤2,确定待测样本的类型。
步骤2,利用分类模型确定待测样本的类型。
所述的分类模型可以通过二次判别分析法利用原始校正集构建而成。
具体地,所述的分类模型的构建方法可包括:
采集校正样本的光谱图,形成原始校正集;
对光谱图进行预处理,以便对所采集的光谱图进行优化;
对预处理后的每个校正样本的光谱图进行主成分分析,形成主成分空间,以实现降维;
对降维后的每个校正样本的光谱图进行分类并标记;
然后通过二次判别分析法利用降维后的原始校正集构建分类模型。
步骤3,在原始校正集中提取所有与待测样本类型相同的校正样本,形成临时判据集。
步骤4,计算临时判据集中每个校正样本与待测样本之间的距离。
例如,所述距离为欧式距离、马氏距离、曼哈顿距离、余弦距离、汉明距离或标准化欧式距离,优选为欧式距离。
优选地,计算临时判据集中每个校正样本与待测样本之间的距离的方法包括:
计算待测样本的光谱图在第一主成分子空间中与临时判据集中每个样本的距离,得到第一距离;
计算待测样本的光谱图在第二主成分子空间中与临时判据集中每个样本的距离,得到第二距离;
取第一距离和第二距离的算术平均值作为临时判据集中每个校正样本在主成分空间下与待测样本之间的距离,其中:
第一主成分子空间由主成分空间中的第一、二、三个主成分形成,第二主成分子空间由主成分空间中的第二、三、四个主成分形成。
步骤5,判断距离小于阈值距离的校正样本的数量是否小于E,若数量小于E个,则该待测样本为离群样本,此时需要中止计算,采用化学基准方法进行检测;若数量大于或等于E,则将距离小于阈值距离的校正样本按照距离从小到大排序,选取距离待测样本最近的前E个光谱,形成临时校正集。其中E为大于10的自然数,例如20~150。所述阈值距离可以依据定量分析方法的准确度确定。
步骤6,利用临时校正集构建定量分析模型,用于所述预测待测样本的定量检测值。
优选地,采用偏最小二乘法构建定量分析模型。
例如,对光谱图进行预处理包括以下处理方式中的至少一种:
对光谱图进行平滑处理,以消除不规则的随机噪声对光谱图的影响,使光谱图更为平滑;
对光谱图进行导数校正处理,以消除非化学性因素对光谱图造成的影响,同时放大光谱的微小变化;
对光谱图进行中心化处理,以消除因基线漂移对光谱图造成的影响;
对光谱图进行标准化处理,以消除量纲对光谱图造成影响。
例如可以采用Savitzky-Golay卷积平滑算法对光谱图进行处理,采用二阶差分求导对光谱图进行处理,采用均值标准化对光谱图进行处理。
优选地,所述光谱图可以为近红外光谱图。优选的谱区范围为780nm~2492nm。
在一个实施方案中,所述距离为欧式距离、马氏距离、曼哈顿距离、余弦距离、汉明距离或标准化欧式距离,优选为欧式距离。
优选地,所述校正样本或待测样本为酱油。
本发明提供的构建定量分析模型的方法,可以通过待测样本的光谱特征判断待测样本的类型,并实时构建高特异性的定量分析模型,从而提高定量分析的预测精度,降低模型维护频率和难度,进一步的,当光谱集的样本组成足以覆盖物料日常波动时,该方法可以免除模型维护工作,保证检测工作的准确性和连续性。
本发明提供的构建定量分析模型的方法可以用于酱油定量分析模型的构建。
本发明的另一个实施例提供一种定量检测待测样本的方法,包括:
步骤1,采集待测样本的光谱图;
步骤2,使用本发明所述的构建定量分析模型的方法构建定量分析模型,
步骤3,将待测样本的光谱图代入所述定量分析模型,得到待测样本的定量检测结果。
图2为本发明的定量检测待测样本的方法的一个具体实施例的流程示意图。其中:
步骤1,采集待测样本的光谱图。
可选地,在采集待测样本的光谱图后,还包括:
对光谱图进行预处理,以便对所采集的光谱图进行优化;
将预处理后的光谱图投影到主成分空间,以实现降维;
然后再根据降维后的光谱图进行分类,确定待测样本的类型。
例如,对光谱图进行预处理包括以下处理方式中的至少一种:
对光谱图进行平滑处理,以消除不规则的随机噪声对光谱图的影响,使光谱图更为平滑;
对光谱图进行导数校正处理,以消除非化学性因素对光谱图造成的影响,同时放大光谱的微小变化;
对光谱图进行中心化处理,以消除因基线漂移对光谱图造成的影响;
对光谱图进行标准化处理,以消除量纲对光谱图造成影响。
例如可以采用Savitzky-Golay卷积平滑算法对光谱图进行处理,采用二阶差分求导对光谱图进行处理,采用均值标准化对光谱图进行处理。
优选地,所述光谱图可以为近红外光谱图。优选的谱区范围为780nm~2492nm。
步骤2-1,利用分类模型确定待测样本的类型。
步骤2-2,在原始校正集中提取所有与待测样本类型相同的校正样本,形成临时判据集。
步骤2-3,计算临时判据集中每个校正样本与待测样本之间的距离。
例如,所述距离为欧式距离、马氏距离、曼哈顿距离、余弦距离、汉明距离或标准化欧式距离,优选为欧式距离。
优选地,计算临时判据集中每个校正样本与待测样本之间的距离的方法包括:
计算待测样本的光谱图在第一主成分子空间中与临时判据集中每个样本的距离,得到第一距离;
计算待测样本的光谱图在第二主成分子空间中与临时判据集中每个样本的距离,得到第二距离;
取第一距离和第二距离的算术平均值作为临时判据集中每个校正样本在主成分空间下与待测样本之间的距离,其中:
第一主成分子空间由主成分空间中的第一、二、三个主成分形成,第二主成分子空间由主成分空间中的第二、三、四个主成分形成。
步骤2-4,判断距离小于阈值距离的校正样本的数量是否小于E,若数量小于E个,则该待测样本为离群样本,此时需要中止计算,采用化学基准方法进行检测;若数量大于或等于E,则将距离小于阈值距离的校正样本按照距离从小到大排序,选取距离待测样本最近的前E个光谱,形成临时校正集。其中E为大于10的自然数,例如20~150。所述阈值距离可以依据定量分析方法的准确度确定。
步骤2-5,利用临时校正集构建定量分析模型,用于所述预测待测样本的定量检测值。优选地,采用偏最小二乘法构建定量分析模型。
步骤3,将待测样本的光谱图代入所述定量分析模型,得到待测样本的定量检测结果。
应用本发明提供的定量检测待测样本的方法,可以针对待测样本的光谱特征实时建立定量分析模型,从而达到更高的预测精度和更低的模型维护频率,在定量检测前无需人工选择适用的定量分析模型。此外,在校正样本库所含样本基本覆盖物料日常品质波动的情况下,可以达到无需人工维护模型的目的。
该定量检测待测样本的方法可以用于定量检测酱油,预测精度高,模型维护频率和难度下降,并且当校正样本集的样本组成足以覆盖物料日常波动时,该方法可以免除模型维护工作,保证检测工作的准确性和连续性。
下面通过一个具体示例对本发明进行说明。该示例采用本发明所述的定量检测待测样本的方法对酱油中的苯甲酸进行定量检测,同时设置对照组,采用化学基准方法对酱油样本中的苯甲酸进行定量检测。化学基准方法参见《GB 5009.28-2016食品安全国家标准食品中苯甲酸、山梨酸和糖精钠的测定》。
原始校正样本来自四个生抽品种,包括生抽A、生抽B、生抽C、生抽D,校正样本数量情况见表1。
表1原始校正集详情
现有技术中生抽A-D所用近红外定量分析模型均为分别建立四个品种的全局定量分析模型,各个全局定量分析模型对应的校正集中光谱数量如表1所示。
由于环境温湿度、工艺、光谱设备等因素的变化,导致四个品种的全局定量分析模型已经人工维护十余次,维护后的全局定量模型能稳定适用一段时间,但对于历史样本的预测准确度仍然是不理想的。
本示例将四个品种的校正集光谱合并,共计1400个样本光谱,其中随机选出78个光谱(时间覆盖2016年3月至2017年5月)作为待测集(称为Val),剩余1322个光谱作为原始校正集(称为Cal)。
1)首先利用Cal构建分类模型
采集校正样本的近红外光谱图,形成原始校正集。
所用设备为光栅型近红外光谱仪,采集光谱范围为780nm-2490nm。
平均光谱次数:32。
电子增益:Auto。
对光谱图进行以下预处理,以便对所采集的光谱图进行优化。
①Savitzky-Golay卷积平滑处理,窗口宽度为2,多项式阶数为2。Savitzky-Golay卷积平滑处理用以消除不规则的随机噪声对光谱图的影响,使光谱图更为平滑。
②均值标准化处理,以消除量纲对光谱图造成影响,进一步降低噪声。
③二阶差分求导处理,以消除非化学性因素对光谱图造成的影响,同时放大光谱的微小变化。
对预处理后的每个校正样本的光谱图进行主成分分析,形成主成分空间,以实现降维。
对降维后的每个校正样本的光谱图进行分类并标记。
然后通过二次判别分析法利用原始校正集构建分类模型。
2)采集Val中每个待测样本的近红外光谱图。
对光谱图进行以下预处理,以便对所采集的光谱图进行优化。
①Savitzky-Golay卷积平滑处理,窗口宽度为2,多项式阶数为2。Savitzky-Golay卷积平滑处理用以消除不规则的随机噪声对光谱图的影响,使光谱图更为平滑。
②均值标准化处理,以消除量纲对光谱图造成影响,进一步降低噪声。
③二阶差分求导处理,以消除非化学性因素对光谱图造成的影响,同时放大光谱的微小变化。
将预处理后的光谱图投影到主成分空间,以实现降维。
3)根据降维后的光谱图,利用分类模型确定待测样本的类型。
4)在原始校正集中提取所有与待测样本类型相同的校正样本,形成临时判据集。
5)计算临时判据集中每个校正样本与待测样本之间的距离。距离类型采用欧氏距离。计算方法包括:
计算待测样本的光谱图在第一主成分子空间中与临时判据集中每个样本的距离,得到第一距离;
计算待测样本的光谱图在第二主成分子空间中与临时判据集中每个样本的距离,得到第二距离;
取第一距离和第二距离的算术平均值作为临时判据集中每个校正样本在主成分空间下与待测样本之间的距离,其中:
第一主成分子空间由主成分空间中的第一、二、三个主成分形成,第二主成分子空间由主成分空间中的第二、三、四个主成分形成。
6)选取距离小于阈值距离的校正样本,按照距离从小到大排序,选取距离待测样本最近的前E个光谱,形成临时校正集。E为50,阈值距离为0.002。
7)采用偏最小二乘法(主成分数选9),利用临时校正集构建定量分析模型。
8)将待测样本的光谱图代入所述定量分析模型,得到待测样本中苯甲酸的定量检测结果,见表2。
本示例的运算采用Python 2.7实现。
表2
从表2可以看出采用本发明的构建定量分析模型的方法构建实时定量分析模型,对待测样本的定量分析结果进行预测,稳健性较好,对于时间跨度近一年的样本,均无需人工维护。
为了进一步验证本发明的构建定量分析模型的方法的准确性,又取2017年6月至7月共42个样本光谱(校正集Cal中无同时期物料样本光谱),形成Val2,对这42个样本采用本发明的方法构建实时定量分析模型,得到待测样本中苯甲酸的定量检测结果,见表3。
表3
从表3可以看出,采用本发明的构建定量分析模型的方法和定量检测待测样本的方法,对新(时期)样本的定量分析预测能力也较为理想。
以上实施例是对本发明的原理和实施方式进行阐述,但不限于以上使用方法。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。