CN107357805B

CN107357805B - 基于相似度判别法的近红外光谱物质含量索引方法及装置

Info

Publication number: CN107357805B
Application number: CN201710379466.0A
Authority: CN
Inventors: 刘彤; 潘涛; 曾永平; 肖青青; 沈鸿平; 凌亚东
Original assignee: Guangzhou Sondon Network Technology Co ltd
Current assignee: Guangdong Zhongtaxun Technology Co.,Ltd.
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2020-07-17
Anticipated expiration: 2037-05-25
Also published as: CN107357805A

Abstract

本发明公开了一种基于相似度判别法的近红外光谱物质含量索引方法，其包括以下步骤：构建仪器画像步骤：通过仪器画像获取特征信息，并将所述特征信息划分多个标签，获取每个标签的标签权重；含量索引步骤：通过key‑value分布式存储方法创建含量索引表，并根据所述含量索引表以及对应的标签权重通过相似度判别法得到产品成分含量的含量预测值；梯度预测步骤：根据所述含量预测值建立梯度预测值，推送给用户。本发明还公开了执行上述方法的电子设备以及存储上述方法的计算机可读存储介质。本发明通过相似度判别法代替回归分析，从而有效解决台间差问题，实现在不使用模型传递的情况下实现同类仪器间的模型共用。

Description

基于相似度判别法的近红外光谱物质含量索引方法及装置

技术领域

本发明涉及近红外光谱中的定量分析技术领域，具体涉及基于大数据分析技术，使用基于相似度判别法的近红外光谱物质含量索引方法(即不通过传统化学计量学建立回归模型的方法)来预测物质含量信息，从而解决仪器之间的台间差问题。

背景技术

近红外光(NIR)是介于紫外-可见光(UV-Vis)和中红外(MIR)之间的电磁波，其波长范围为700～2500nm。近红外光能反映含氢基团X—H(如C—H、N—H、O—H等)振动的倍频和合频吸收，不同基团(如甲基、亚甲基、苯环等)或同一基团在不同化学环境中的近红外光吸收波长与强度都有明显差别。因此，近红外光非常适用于含氢有机物质的物化参数测量。基于现代化学计量学方法，近红外光谱既可以用于定量分析也可以用于定性分析。

其中，针对定量分析，该技术应用实施过程中需要前期进行一些必要的准备工作，包括：

(1)具有广泛代表性的定标和预测样品集的收集和成份理化定量分析；

(2)定标和预测样品集的近红外光谱采集和光谱解析；

(3)将物质待测理化成份的与(2)中所采光谱建立回归模型(定标模型)；

(4)使用已有定标模型对未知理化成份含量的物质光谱进行实际预测分析。

其中，(2)中由于制造工艺(同一批仪器，或不同批的仪器，由于制造工艺的细微差别而导致的台间差)，环境(仪器受当前环境影响，如温度、湿度等，导致对同一样本获得不同的结果)，仪器损耗(由于使用年限及仪器本身的使用损耗，导致不同仪器之间存在台间差)等问题，使得同一型号同一批次的近红外光谱仪，对同一样本所测量的近红外光谱数据都存在差异，即台间差问题。从而导致(3)中由一台仪器建立的定标模型无法直接在其他仪器上使用。

目前，由于使用该技术的组织或个人大多只使用单台或少量近红外光谱仪进行分析模型的建立，因此，有关台间差问题可使用现代化学计量学中的模型传递方法解决。包括：

1.通过变量的筛选、微分、正交信号校正等预处理方法，和在不同环境测量条件下扩充校正模型以及采用稳健回归等方式过滤光谱中的噪声信息，融合多个局部模型，提高模型抗噪声的能力，已达到校正模型较高的可靠性，鲁棒性的目的。

2.通过数学方法(如直接校正算法，分段直接校正算法，Shenk’s算法等)建立从机(需使用已有定标模型的仪器)和主机(用于建立定标模型的仪器)所测光谱，模型参数，或预测结果之间的函数关系，由此实现模型传递。

模型传递方法虽广泛地应用到台间差问题上，但普遍存在以下缺点：(1)校正计算量过多，无法实现大量模型转移。(2)需要大量的校正样品，支撑模型传递。(3)缺乏动态变化，一旦仪器校正后，模型已经固定。而仪器随着时间的消耗使模型不再准确。(4)用户参与度低，用户与商家的关系只限于买卖关系。因此，当仪器量剧增时，模型传递的方法很难实现，近红外光谱技术也因而无法大批量推广使用。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种基于相似度判别法的近红外光谱物质含量索引方法，其通过对海量样本进行深度挖掘，用相似度判别法代替回归分析，从而有效解决台间差问题，实现在不使用模型传递的情况下实现同类仪器间的模型共用。

本发明的目的之二在于提供一种电子设备，其通过对海量样本进行深度挖掘，用相似度判别法代替回归分析，从而有效解决台间差问题，实现在不使用模型传递的情况下实现同类仪器间的模型共用。

本发明的目的之三在于提供一种计算机可读存储介质，其通过对海量样本进行深度挖掘，用相似度判别法代替回归分析，从而有效解决台间差问题，实现在不使用模型传递的情况下实现同类仪器间的模型共用。

本发明的目的之一采用以下技术方案实现：

一种基于相似度判别法的近红外光谱物质含量索引方法，包括以下步骤：

构建仪器画像步骤：通过仪器画像获取特征信息，并将所述特征信息划分多个标签，获取每个标签的标签权重；

含量索引步骤：通过key-value分布式存储方法创建含量索引表，并根据所述含量索引表以及对应的标签权重通过相似度判别法得到产品成分含量的含量预测值；

梯度预测步骤：根据所述含量预测值建立梯度预测值，推送给用户。

进一步地，所述构建仪器画像步骤包括以下步骤：

步骤11、针对样品中某一种成分的含量，从样品中选取n个样本，并选取m台仪器；

步骤12、通过理化检测获取所述n个样本中该种样品的成分含量，分别记作：y1、y2、…、yn；

步骤13、使用每台仪器对每个样本进行光谱扫描，得到t个标签，每个标签包括n*m个值；

步骤14、对于第1个标签，将扫描每个样本时的特征值作为因变量，将成分含量作为自变量，通过随机方式对数据进行训练集和测试集的划分；

步骤15、基于训练集，使用最小二乘法建立回归模型，使用所述回归模型对测试集中的特征值进行计算得到预测的成分含量值；

步骤16、将测试集中的预测的成分含量值与对应的真实成分含量进行比较，求出预测标准偏差SEP；

步骤17、重复步骤14-16，直至所有的标签对应的预测标准偏差都计算完毕，计算得到的预测标准偏差SEP分别记作s1、s2、…、st；

步骤18、通过步骤12计算得到该种样品的成分含量均值y0＝(y1+y2+…+yn)/n；

步骤19、结合步骤17和步骤18得到每个标签的标签权重，每个标签的标签权重分别记作w1、w2、…、wt，其中：

步骤110、根据所述标签权重生成该种成分含量的权重向量(w1，w2，…，wt)。

进一步地，所述含量索引步骤包括以下步骤：

步骤21、依据样品的不同条件将样品分为不同类别；所述样品的不同条件包括样品的品种、生长环境、产地、收集时间、供应商、处理方式；

步骤22、对步骤21中所分的第一类别，以仪器画像中的t个标签作为用于含量索引的一系列属性值(a1，a2，…，an)，以样品的成分含量作为索引结果的记录值，即所述记录值为y1、y2、…、yn；

步骤23、以每个系列属性值为key，以其对应的记录值为value，即构成n个key与其对应value的数据对，将每个数据对均直接存入数据库中；

步骤24、重复步骤22-23，直至所有类别中的数据对均存入数据库中，所述数据库构成含量索引表；

步骤25、通过含量索引表中的系列属性值集合(a1，a2，…，an)*t与对应的t组标签进行相似度判别分析；对系列属性值集合(a1，a2，…，an)*t进行定义，定义第一个标签对应的系列属性值为(a11，a12，…，a1n)，第i个标签(ai1，ai2，…，ain)，1≤i≤t，则针对第i个标签，其与对应的第i个系列属性值(ai1，ai2，…，ain)进行相似度判别分析，得到第i个标签对应的相似度(zi1，zi2，…，zin)；

步骤26、从标签权重向量(w1，w2，…，wt)选取第i个标签对应的标签权重wi，求第i个标签对应的加权后的相似度集(zi1*wi，zi2*wi，…，zin*wi)；

步骤27、将所有标签对应的加权后的相似度集组合在一起，构成完整的加权相似度矩阵Z_w：

步骤28、对加权相似度矩阵Z_w进行列相加，得到含量索引表中key对应的加权相似度组合(zw1，zw2，…，zwn)，即第一个key对应zw1，第二个key对应zw2，第n个key类型对应zwn；其中，zw1＝z11*w1+z21*w2+…+zt1*wt；zw1＝z12*w1+z22*w2+…+zt2*wt；zwn＝z1n*w1+z2n*w2+…+ztn*wt；

步骤29、将加权相似度组合(zw1，zw2，…，zwn)由大到小排序，并得到将由大到小排序的加权相似度组合(zw1，zw2，…，zwn)对应的属性值key的由大至小排序得到属性值key的排序组合K_zw＝[k1，k2，…，kn].sort(reverse＝True)，最好的属性值K_best＝max[k1，k2，…，kn]，其中，属性值key中的k1对应加权相似度组合中的zw1，属性值key中的kn对应加权相似度组合中的zwn；

步骤210、按有序的K_zw从含量索引表中依次查出每个属性值key对应的记录值，得到一组由由优至劣的含量预测值Y_predict＝[y1，y2，…，yn].sort(reverse＝True)其中，含量预测值Y_predict中的y1与排序组合K_zw中的k1对应，含量预测值Y_predict中的yn与排序组合K_zw中的kn对应。

进一步地，所述梯度预测步骤为：

从所述含量预测值Y_predict选取前x个值建立梯度预测值Y_x推送给用户，所述x为用户接收推荐值数量，Y_x＝(y1'，y2'，…，yx')，其中，y1'为含量预测值Y_predict的最大值；y2'为含量预测值Y_predict中除y1'外的最大值。

进一步地，所述方法还包括索引优化步骤：依据用户从梯度预测值中选择的特定预测值，对所述含量索引表进行更新；

所述索引优化步骤包括以下步骤：

步骤41、以y0'为记录值，以用户检测时的仪器画像作为系列属性值(a1，a2，…，an)，所述y0'为用户从Y_x＝(y1'，y2'，…，yx')中选择的任意一个；

步骤42、将y0'和系列属性值(a1，a2，…，an)加入到该类别样品的该种成分的记录值和属性值中，即y0'已被加入含量索引表中，完成该类别样品的该种成分的仪器画像、含量索引表和记录值的更新，更新后可被用于样品成分含量的预测。

本发明的目的之二采用以下技术方案实现：

一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成有一个或多个处理器执行，所述程序包括用于执行以下方法的步骤：

进一步地，所述构建仪器画像步骤包括以下步骤：

进一步地，所述含量索引步骤包括以下步骤：

进一步地，所述程序还包括用于执行以下方法的步骤：

索引优化步骤：依据用户从梯度预测值中选择的特定预测值，对所述含量索引表进行更新；

所述梯度预测步骤为：

从所述含量预测值Y_predict选取前x个值建立梯度预测值Yx推送给用户，所述x为用户接收推荐值数量，Yx＝(y1'，y2'，…，yx')，其中，y1'为含量预测值Ypredict的最大值；y2'为含量预测值Ypredict中除y1'外的最大值；

所述索引优化步骤包括以下步骤：

本发明的目的之三采用以下技术方案实现：

一种计算机可读存储介质，所述存储介质上存储有计算机程序，其中，所述计算机程序使得计算机执行上述的基于相似度判别法的近红外光谱物质含量索引方法。

相比现有技术，本发明的有益效果在于：

为解决以上提到仪器数量剧增时产生的一系列问题，发明一种基于大数据的通过相似度判别法进行分析的近红外光谱物质含量索引技术。该发明采取对海量样本进行深度挖掘的思想，用相似度判别法代替回归分析，并结合互联网+理念，从而有效解决台间差问题，实现在不使用模型传递的情况下实现同类仪器间的模型共用。

由于仪器处于不同环境，以及仪器自身的内部损耗等诸多问题，模型在检测仪器的整个生命周期都可能是一个动态变化的过程，所以需根据仪器自状况，结合用户反馈信息，建立起一个能自主学习、不断成长的新型光谱检测体系。从而打破企业与用户传统的仪器售卖关系，以光谱检测为渠道，建立起与用户的长期关联，让用户成为平台的使用者兼建设者。

附图说明

图1为本发明提供的基于相似度判别法的近红外光谱物质含量索引方法的流程示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例

请参照图1所示，基于相似度判别法的近红外光谱物质含量索引方法的技术主要由仪器画像技术，含量索引技术(通过相似度判别法实现)，梯度预测技术，索引优化技术组成。

1、仪器画像技术

仪器每进行一次光谱采集工作，都会产生一个仪器画像，每个仪器画像都包含了一系列用于描述此次光谱采集的“标签”，而每个“标签”都代表了计算机去认识和描述仪器的一个角度，即该仪器在不同维度上的特征信息(例如与该仪器相关的光谱数据(最重要)、环境数据、出厂参数、动态参数、地理信息、所有者信息、使用记录、使用反馈记录等)。为仪器打上“标签”可让计算机能够程序化处理与仪器相关的信息，以及通过算法、模型来“理解”仪器，从而实现为每台仪器的每次光谱采集进行定制化预测。

在构建仪器画像时，所能获取的所有特征信息都将作为一个“标签”，该“标签”将在含量索引技术中被应用。每个代表不同特征信息的“标签”都将被赋予一个个性化的权重，该权重将在梯度预测技术中被应用。权重的训练方法如下：

1.1、针对某种样品的某种成分含量，选取有代表性的样本n个，选取仪器m台。

1.2、通过理化检测获取这n个样本该种成分的含量(y1，y2，…，yn)。

1.3、设可获取的“标签”(特征值，如光谱、温度、湿度、…)数量为t个。

1.4、使用每台仪器对每个样品进行光谱扫描，获取t组“标签”，每组n*m个值。

1.5、对于第1组“标签”将扫描每个样品时的特征(m1，m2，…，mn)作为因变量，将成分含量(y1，y2，…，yn)作为自变量，并通过随机的方式对数据进行训练集和测试集的划分。

1.6、基于训练集，使用最小二乘法LS(当“标签”为光谱时，使用偏最小二乘法PLS)建立回归模型，使用该回归模型对测试集中的特征值进行计算，得到预测的成分含量值。

1.7、将测试集中被预测出的成分含量值与对应的真实成分含量进行比较，求出预测标准偏差SEP。

1.8、重复1.5-1.7，直到t个“标签”的SEP(s1，s2，…st)都计算完毕。

1.9、求成分含量均值y0＝(y1+y2+…+yn)/n

1.10、对于每个“标签”，权重为：

1.11、生成该种样品成分的权重向量(w1，w2，…，wt)。

1.12、对于不同样品相同成分、不同样品不同成分、相同样品不同的成分，重复1.1-1.11求“标签”权重。

2、含量索引技术

该技术将仪器画像(每次光谱采集时生成一个仪器画像)与被采集光谱的样品成分含量相匹配，建立含量索引表，而建立索引表的工作可由此种仪器的使用者们共同完成。仪器画像及含量索引表的对应关系(数学模型)创建后，需在实践中来不断地完善及优化，丰富其深度及广度，才能让计算机越来越精确地理解仪器画像及物质含量之间关系。

相似度判别法–含量索引表的建立方式如下：

2.1、根据样品的品种、生长环境、产地、收集时间、供应商、处理方式等条件对样品分为不同类别。

2.2、对2.1中所分的类别一，以仪器画像中的“标签”(设有t个标签)作为用于索引的一系列属性值((a1，a2，…，an)*t组)，以样品成分含量作为索引结果的记录值(y1，y2，…，yn，设有n条记录)。

2.3、以属性值为key，以记录值为value，将这n条key，value对直接存入hbase中。

2.4、对于其余每种类别，重复2.2-2.3，在索引表中填充数据。

相似度判别法–含量索引表的预测方式如下：

2.5、对于某类别物质，若存在某成分含量索引记录(y1，y2，…，yn设有n条记录)，及“标签”权重(w1，w2，…，wt)。可对未知含量的同类别物质进行光谱采集，得到一系列用于预测仪器画像“标签”。

2.6、通过索引表中的属性值集合((a1，a2，…，an)*t组)与对应的t组“标签”进行相似度判别分析，此处选择使用修正余弦相似度算法进行计算。

2.7、针对t组“标签”中的“标签一”，可与第一组(a1，a2，...，an)进行相似度值，求得n个相似度(z1，z2，...，zn)。

2.8、从权重向量中选取第一个值w1，求得加权后的相似度集，(z1w1，z2w1，...，znw1)。

2.9、对于t组“标签”中的剩余部分，重复2.7-2.8步直到获取完整的加权相似度矩阵Z_w。

Z_w＝[z1w1 z2w1 ... znw1]

[z1w2 z2w2 ... znw2]

[... ... ... ...]

[z1wt z2wt ... znwt]

2.10、对于n条记录，对t组加权相似度求和，即对Z_w进行列相加，得到该类别物质在索引表中属性值(key)的加权相似度组合(zw1，zw2，...，zwn)，若zw1，zw2，...，zw中有相等值，则将两条记录的加权相似度相加后赋予其中一条记录，并删除另一条记录。

【例】若zw3＝zw4，则(zw1，zw2，zw3+zw4，zw5，...，zwn)。

2.11、将对应的key按照该组合由大至小排序，K_zw＝[k1，k2，...，kn].sort(reverse＝True)，系统认为最好的属性值(key)，K_best＝max[k1，k2，...，kn]

2.12、按有序的K_zw查出对应的记录值(value)组合，可得一组由优至劣的含量预测值Y_predict。

3、梯度预测技术

从实际出发，在索引表中直接给出一个系统认为最精确的记录值是不理智的，样品未知，光谱异常，操作失误，仪器故障等问题都将对预测结果产生严重影响。因此，一组弹性更大的结果要比我们认为精准的单一结果更容易被用户接受。在检测环节，该发明不与传统近红外光谱检测技术类似，即在检测阶段给出一个单一的预测结果，而是一组由优至劣的梯度预测值Y_predict(步骤2.12)。

梯度预测的推送步骤如下：

1.设梯度预测值Y_predict集中有n条记录，已由进行了由优至劣的排序。Y_predict＝(y1'，y2'，…，yn')，y1'为系统认为的最优解。

2.将排名在前的x个值推送给用户，x为用户接收推荐值数量，可自由设定，建议默认值为10。Y_x＝(y1'，y2'，…，yx')，y1'为系统认为的最优解。

4、索引优化技术

更进一步说，若用户可以告知系统他更倾向于预测值集合中的哪个结果，能有效协助系统的自主学习，从而使索引表内的数据与模型是可更新的、可不断完善的。

然而，在数据量日益递增的情况下，索引表内的仪器画像，以及与其对应的类别模型和记录值的数量都会愈加庞大，所获取的数据也是良莠不齐。无论是输入错误的信息，无法预知的仪器故障，或是用户随意给出的反馈数据，都会对系统的预测效果及自主学习能力造成影响，因此还需要结合ETL技术对数据进行清洗、转换、集成。不涉及相关ETL技术，本发明仅针对索引表内无信息错漏的情况。索引优化技术就是通过用户给出的反馈信息对索引表内的仪器画像、类别模型、记录值进行重新训练与更新，用户的每次带反馈检测都会启动索引表内某类别物质的某种成分的动态更新步骤。

索引优化的动态更新步骤如下：

4.1、用户给出反馈，即在预测值集合Y_x(y1'，y2'，…，yx')中选择出他认为最好的预测值y0'。

4.2、以y0'作为记录值，以用户检测时的仪器画像(a1，a2，…，at)作为属性值。

4.3、将y0'及(a1，a2，…，at)加入该类别物质的该种成分的属性值集与记录值集中，记录值y0'已被填充到含量索引表中。

4.4、该类别物质的该种成分的仪器画像、含量索引表、记录值都已完成更新，可被用于物质含量预测。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种基于相似度判别法的近红外光谱物质含量索引方法，其特征在于包括以下步骤：

2.如权利要求1所述基于相似度判别法的近红外光谱物质含量索引方法，其特征在于：所述构建仪器画像步骤包括以下步骤：

3.如权利要求2所述基于相似度判别法的近红外光谱物质含量索引方法，其特征在于：所述含量索引步骤包括以下步骤：

4.如权利要求3所述基于相似度判别法的近红外光谱物质含量索引方法，其特征在于：所述梯度预测步骤为：

5.如权利要求4所述基于相似度判别法的近红外光谱物质含量索引方法，其特征在于：所述方法还包括索引优化步骤：依据用户从梯度预测值中选择的特定预测值，对所述含量索引表进行更新；

所述索引优化步骤包括以下步骤：

6.一种电子设备，其特征在于包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成有一个或多个处理器执行，所述程序包括用于执行以下方法的步骤：

7.如权利要求6所述电子设备，其特征在于：所述构建仪器画像步骤包括以下步骤：

8.如权利要求7所述电子设备，其特征在于：所述含量索引步骤包括以下步骤：

9.如权利要求8所述电子设备，其特征在于：

所述程序还包括用于执行以下方法的步骤：

所述梯度预测步骤为：

所述索引优化步骤包括以下步骤：

10.一种计算机可读存储介质，其特征在于：所述存储介质上存储有计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-5任意一项所述的基于相似度判别法的近红外光谱物质含量索引方法。