发明内容
本发明提供一种基于工业杀菌剂毒性检测的计算机数据分析方法,以解决现有的受到环境温度的影响,因此难以进行准确的测定的问题,所采用的技术方案具体如下:
本发明一个实施例提供了一种基于工业杀菌剂毒性检测的计算机数据分析方法,该方法包括以下步骤:
获取多组不同浓度下可电离杀菌剂标准溶液的色谱序列;
根据所有浓度的色普序列获取所有色谱序列的匹配序列,从低浓度到高浓度的匹配序列元素相连,对所有相邻浓度的匹配序列元素相连得到每个离子的时间链,令每个时间链的相邻元素值做差得到每个离子的变化时间链序列,对所有离子的变化时间链序列进行聚类得到多个类别;
对每个类别的每个时间链序列构成第一输入向量,根据每个类比的公共因子向量和第一输入向量的特殊因子向量得到每个时间链的公共特征占比;
对于每个类别中的所有时间链,将所有时间链中相同位置的元素取出,将所有时间链每一个相同位置的元素组合得到一个元素序列,所有时间链的相同位置的元素组合成多个元素序列,记为每个类别中的多个第二输入向量,根据第二输入向量得到第二输入向量的特殊因子向量,根据第二输入向量的特殊因子向量得到特殊标量序列,根据特殊标量序列与标准浓度序列的余弦相似度以及每个时间链的公共特征占比得到每个时间链的重要程度,根据时间链的重要程度得到特征波段;
根据特征波段得到实际可电离杀菌剂的浓度,获取实际可电离杀菌剂有害离子的浓度判断是否具有毒性。
优选的,所述对所有离子的变化时间链序列进行聚类得到多个类别的方法为:
根据得到的所有变化时间链序列,计算任意两个变化时间链序列的余弦相似度,计算每个变化时间链与其余变化时间链的余弦相似度的相似度和,将相似度和排名前十,且任意两个之间的相似度小于0.4的序列作为聚类中心,根据聚类中心利用k-means聚类算法对所有变化时间链序列进行聚类,聚类时以变化时间链和聚类中心最大的相似度值作为一类,得到多个类别。
优选的,所述根据每个类比的公共因子向量和第一输入向量的特殊因子向量得到每个时间链的公共特征占比的方法为:
对每个类别中的所有第一输入向量进行因子分析得到每个类别的公共因子向量和特殊因子向量,计算每个第一输入向量的公共因子向量的熵值以及每个第一输入向量的特殊因子向量的熵值,令每个输入向量的公共因子向量的熵值比上所述输入向量公共因子向量熵值与特殊因子向量熵值的和得到每个时间链的公共特征占比。
优选的,所述根据第二输入向量的特殊因子向量得到特殊标量序列的方法为:
对于每个类别中的所有第二输入向量通过因子分析得到对应的特殊因子向量,获得每个特殊因子向量的熵值,将得到的所有特殊因子向量的熵值构成的序列为特殊标量序列。
优选的,所述每个时间链的重要程度计算方法为:
式中,
表示每个类别中时间链与浓度的相关程度,通过每个类别的特殊标量序列与标准浓度序列的余弦相似度获取,s表示类别中每个时间链的公共特征占比,K可以表示每个时间链,即对应离子的重要程度。
优选的,所述根据时间链的重要程度得到特征波段的方法为将所有时间链重要程度最高的预设数量个时间链对应离子的波段作为特征波段。
本发明的有益效果是:本发明针对传统方法采用余弦相似度计算可电离杀菌剂浓度存在较大误差的问题,首先通过计算DTW匹配得到不同浓度下的各个离子对应关系,有助于减少计算结果的误差,然后通过因子分析提取公共因子,将公共特征占比较大的波段进行保留,有助于保持数据的真实性,避免误差的干扰,将特殊因子变化与浓度变化相关性大的保留波段作为特征波段,特征波段可以表示浓度变化过程中对浓度变化敏感的波段,有助于提高神经网络结果的精确性。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的一种基于工业杀菌剂毒性检测的计算机数据分析方法流程图,该方法包括以下步骤:
步骤S001、获取多个不同浓度的杀菌剂标准溶液,采集获得对应的色谱序列。
传统方法采用余弦相似度对实际色谱曲线的浓度进行估计,但余弦相似度对两个序列中元素的顺序没有要求,即如果两个序列中的元素顺序不同,计算得到的余弦相似度也相同,例如:[1 1 1]与[0.9 1 1]的余弦相似度为a,[1 1 1]与[1 0.9 1]的余弦相似度也为a,但实际色谱曲线中的保留曲线的先后关系不同,表示不同物质,因此余弦相似度计算存在较大误差。
本实施例的目的是对实际可电离杀菌剂的浓度进行检测,但传统的余弦相似度计算方法一方面由于本身计算方式的限制,在计算色谱序列相似性时存在较大误差,同时由于波段数量较多,其中存在很多对浓度计算起不到作用,甚至增大误差的波段,让这些波段也参与到浓度计算过程中,容易导致计算结果的偏差,因此本专利通过对特征波段进行选取的方式,选择与浓度变化的相关性较大的波段,即特征波段参与到实际可电离杀菌剂的浓度的计算过程中,即得到了良好的初始数据后,有助于提高计算结果的可靠性和精度。
要对实际的未知浓度的可电离杀菌剂色谱曲线计算得到对应浓度,首先需要从已知浓度的色谱曲线中提取相关波段,进而进行未知的浓度的计算,因此首先需要获得多个浓度下的可电离杀菌剂的色谱序列,本实施例设定为100个不同浓度的可电离杀菌剂,具体过程如下:
首先配置不同浓度的可电离杀菌剂标准溶液,采用高效液相色谱仪对可电离杀菌剂标准溶液进行测定,得到色谱序列,所述色谱图的横坐标表示时间,纵坐标表示响应值。
色谱仪测定浓度采用的是柱色谱法,柱色谱法是一种以分配平衡为机理的分配方法。色谱体系包含两个相,一个是固定相,一个是流动相。当两相相对运动时,反复多次地利用混合物中所含各组分分配平衡性质的差异,最后达到彼此分离的目的。它是纯化和分离有机或无机物的一种常用方法。其中固定相极性大于流动相的色谱为正相色谱,相反的为反相色谱。根据相似相溶原理:混合物中在固定相中溶解度大的物质后出柱,保留时间长,难被洗脱。
不同浓度色谱图中的同种离子,不一定在同一个时间位置,但由于色谱分离原理,不同离子被分离出来的先后顺序是固定的,因此得到不同浓度溶液的色谱序列。
需要说明的是,杀菌剂溶液中离子的保留时间获取为本领域技术人员熟知的技术手段,并且结合现有技术对色谱信号的处理,色谱峰的变形和重叠现象均不影响后续对色谱序列的分析。
根据不同浓度的可电离杀菌剂按照浓度大小进行排序得到标准浓度序列。
步骤S002、对相邻浓度的色谱序列通过DTW匹配获取时间链,再对时间链进行聚类得到多个类别。
首先,在色谱分离过程中,样品中的离子与流动相中对应离子进行交换,在一个短的时间,样品离子会附着在固定相中的固定电荷上。由于各种样品待测离子和固定相树脂间的亲和力不同,吸附在固定相上的离子和流动相的离子发生竞争交换反应,各种离子按先后顺序被洗脱出来,由于浓度不同,同一物质被洗脱出来的时间不同,例子浓度越大,被洗脱出来的时间越长,因此同种离子在不同浓度溶液中的保留时间不同,需要通过计算不同浓度中的匹配得到表示同种物质在不同浓度中的时间链,所述时间链是指:例如:在10%浓度的溶液中,a离子的保留时间为9.5min,在20%浓度的溶液中,a离子的保留时间为12min,则9.5-12形成a离子的时间链。
计算得到每个离子的时间链的过程如下:
DTW是一种匹配距离计算方法,是对趋势距离进行计算,所述趋势可以简单理解为:每个元素与周围元素的大小关系及大小程度的一致性,一致性越大,趋势越相近,匹配距离也就越小,而对于不同浓度中的同种元素来说,所述的先后顺序的一致性即为DTW中的趋势一致性,因此通过DTW计算每个离子的时间链。这里的计算需要用到的只是计算过程中的两个序列的匹配关系。
进一步的,对相邻浓度的色谱序列计算DTW匹配,首先通过计算可以得到如图2所示的匹配关系,如图2所示上面那条折线对应A浓度的色谱序列曲线,下面那条折线对应B浓度的色谱序列曲线,序列中元素对应关系为:{[a0:b0、b1] [a1:b2][a2、a3:b3][a4 b4]}。将对应关系序列中的每个对称之为匹配对,例如:[a0:b0、b1]就是一个匹配对,表示A曲线中的a0对应B曲线中的b0和b1之间的片段;得到匹配关系后,发现匹配对中有一对一的匹配对,也有一对多和多对一的匹配对,对于一对一的匹配对,直接可以得到时间链,例如:块[a1:b2]对应的时间链为:t(a1)-t(b2),其中t(a1)表示a1对应的时间,t(b2)表示b2对应的时间;对于一对多和多对一的匹配对,将多中的最后一个元素对应时间与一对应时间形成匹配链,例如:块[a0:b0、b1]中a0为匹配中的一,b0、b1为匹配中的多,b1为多中的最后一个元素,因此得到的时间链为:a0-b1。
通过对所有相邻浓度的色谱序列进行计算,可以得到多个时间链。得到的每个时间链可以表示不同的离子元素。
浓度变化过程中,每种离子都有自己的变化,哪种离子的变化与浓度变化的相关程度大是需要计算的,由于离子种类较多,首先通过分类方法得到类别,然后每个类别计算与浓度变化的相关性,减少计算量。
得到多个时间链后,计算每个时间链的变化时间链,将每个时间链中的后一个元素与前一个元素的差值形成的元素作为变化时间链中的元素,例如:得到的时间链为:5–9-12-13-15,对应的变化时间链为:4-3-1-2。变化时间链表示在浓度发生变化时,离子浓度的变化程度。不同离子在不同浓度下的变化程度不同。
得到变化时间链后,通过变化时间链序列的相似性对时间链进行分类,所述变化时间链序列是指将变化时间链变为序列形式,例如: 变化时间链4-3-1-2 对应的变化时间链序列为:[4 3 1 2]。所述相似度用余弦相似性,两条变化时间链相似度越大,表示这两种离子在不同浓度溶液下的变化趋势相同,具体分类方法为:
计算得到任意两个变化时间链序列的相似度后,计算每个序列与其它所有序列的相似度和,将相似度和排名前十,且任意两个之间的相似度小于0.4的序列作为聚类中心,其中每个聚类中心与其余序列的差异较大,以这些聚类中心聚类时可以更快速的将不同类别序列进行分类,通过k-means聚类得到多个类别,将每个变化时间链序列与聚类中心的余弦相似度最大的分为一类,同一类别内序列的相似度较大,不同类别内序列的相似度较小。例如:a、b、c、d、e、f、g、h、i、j的相似度和逐渐减小,其中a和b的相似度小于0.4,b和d的相似度小于0.4,则得到的初始聚类中心为:a、c、e、f、g、h、i、j。
通过序列相似性的计算,得到了多个类别,同一类别的在浓度变化过程中的保留时间的变化相近,不同类别的在浓度变化过程中的保留时间的变化相差较大。
步骤S003、根据不同类别的因子分析得到特征波段。
首先,由于每个类别的特殊因子与浓度序列的相关性越大,说明该类别中的波段越能反映浓度变化信息,有助于在可电离杀菌剂浓度变化时,提供可以确定未知浓度可电离杀菌剂的浓度的有关信息。
因子分析是对多个输入向量进行分析,得到这些输入向量的公共特征和每个输入向量的特殊特征的方法,所述公共特征可以表示这些输入向量相同的、共有的特征,用公共因子向量表示,每个输入向量的特殊特征表示的是每个输入向量的独有特征,用特殊因子向量表示。
由于在浓度检测过程中存在误差,而误差分布是没有规律的,例如:基线噪声等的影响,因此首先通过因子分析计算每个类别中的公共因子的占比,占比越大,受到的误差影响越小。同一类别相近,因此公共特征占比较大,同时特殊特征与浓度序列的相关性越大,对应类别的特征波段越能表示浓度变化中的变化特征。
首先将每个类别的每个时间链序列作为第一输入向量通过因子分析得到所述类别的公共因子向量以及所述类别中每个时间链的特殊因子向量。首先可以计算得到每个输入向量的公共特征占比,计算公式如下:
式中,u表示的是某个类别对应的公共因子向量序列的熵值,v表示的是某个输入向量对应的特殊因子向量的熵值,因此计算得到的s表示的是每个时间链公共因子向量对应信息的占比,即共有特征的占比。占比越大,表示误差越小。
每个类别中有多个时间链,将每个时间链中的相同位置的元素取出来形成多个序列,称之为第一元素序列,第二元素序列,…,第n元素序列,n为时间链的长度也可以看作是标准浓度序列的长度,将所述的多个序列称为第二输入向量,通过因子分析得到对应的特殊因子向量,其中每个第二输入向量为每个类别在同一浓度下不同离子的响应值,其进行因子分析后得到每个第二输入向量的特殊因子向量,该特殊因子向量的熵值就表示每个类别中所有离子在相同浓度下的依赖值,因此计算多个特殊因子向量与标准浓度序列的相关性。特殊因子向量形成的向量序列与浓度对应的标量序列的相关性越大,对应波段对浓度变化越敏感,即越能反映浓度变化;
由于一个是向量序列,一个是标量序列,难以直接计算相似度,因此首先将每个特殊因子向量转化为标量,由于向量熵值可以表示特殊因子向量的信息含量的多少,因此通过熵值与标量分别形成的特殊标量序列与标准浓度序列计算相似度,将每个特殊因子向量对应序列的熵值作为对应的标量,将每个类别中所有时间链的特殊因子向量对应的标量构成特殊标量序列,然后计算特殊标量序列与标准浓度序列的余弦相似度m,进而可以计算得到每个时间链的重要程度,所述重要程度的计算过程如下:
式中,m表示特殊标量序列与标准浓度序列的余弦相似度,s表示类别中每个时间链的公共特征占比,
可以表示每个时间链,即对应离子的重要程度,其中m越大表示在每个类别中该离子越具有代表性,s越大也表示该时间链特征占比越大,因此K越大,离子对应的时间链的重要程度越大。由于每个时间链对应一种离子,而每种离子对应的是哪个波段可以在色谱仪中得到,因此即得到了对应的特征波段数据。将重要程度最高预设数量个离子对应的波段提取出来,本申请以预设阈值等于10为例进行叙述,实施者可根据具体实施场景进行设置,提取出的波段就是特征波段,特征波段可以大幅降低计算量,提取具有代表性的波段即可,大大减少了计算量。
步骤S004、得到实际杀菌剂浓度,并判断毒性。
在实际色谱曲线上得到特征波段对应的色谱图中的元素位置,进而得到每个位置元素的重要程度,形成一个序列,称之为重要程度序列,将所述重要程度序列和实际的色谱序列数据作为浓度神经网络的输入,进而得到实际可电离杀菌剂的浓度。
所述浓度神经网络为FC网络的训练过程如下:
(1)使用的数据集为色谱序列和对应的重要程度序列数据集,色谱数据需要人为标注,对每种数据的浓度进行标注。其它参数为现有技术,不再赘述。
(2)网络的任务是回归,所有使用的loss函数为均方差损失函数。
对训练后的网络输入对应重要程度序列和特征波段的色谱序列得到实际可电离杀菌剂的浓度。
得到实际可电离杀菌剂的浓度后,根据色谱峰的峰面积进行外标法定量,得到每种有害离子的浓度,本实施例中给定超标阈值为R(mol/L)在此以氯离子为例,氯离子的临界范围为R=4%,如果浓度超标,则该离子的毒性超标,不能在当前环境下使用。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。