CN110110743B - 一种七类质谱谱图自动识别系统与方法 - Google Patents
一种七类质谱谱图自动识别系统与方法 Download PDFInfo
- Publication number
- CN110110743B CN110110743B CN201910234026.5A CN201910234026A CN110110743B CN 110110743 B CN110110743 B CN 110110743B CN 201910234026 A CN201910234026 A CN 201910234026A CN 110110743 B CN110110743 B CN 110110743B
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- mass spectrum
- layer
- mass
- fitting angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/478—Contour-based spectral representations or scale-space representations, e.g. by Fourier analysis, wavelet analysis or curvature scale-space [CSS]
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N27/00—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
- G01N27/62—Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8624—Detection of slopes or peaks; baseline correction
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8675—Evaluation, i.e. decoding of the signal into analytical information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8624—Detection of slopes or peaks; baseline correction
- G01N2030/8648—Feature extraction not otherwise provided for
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01J—ELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
- H01J49/00—Particle spectrometers or separator tubes
- H01J49/26—Mass spectrometers or separator tubes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Pathology (AREA)
- Immunology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Library & Information Science (AREA)
- Crystallography & Structural Chemistry (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Electrochemistry (AREA)
- Medical Informatics (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统与方法,包括云服务器平台端和用户平台端。云服务器平台端进行质谱谱图类型分类模型建立、谱图数据特征提取与卷积神经网络训练建模;用户平台端用于上传质谱谱图、实验条件与设备数据,根据质谱谱图类型分类模型或质谱谱图信息库直接筛查比对识别质谱谱图所属类别,基于云服务器平台端训练得到的神经网络模型自动对比判别农药类型与名称,将比对结果反馈给用户。本发明解决了用户购买标准品的限制,并且使用不受地点限制,可自动、快速准确地对农药残留进行鉴定。
Description
技术领域
本发明属于农药检测领域,涉及一种农药及化学污染物谱图自动比对识别系统与方法,尤其是一种基于云平台的农药及化学污染物质谱谱图的智能比对识别系统与方法。
背景技术
农药残留检测技术是保障食品安全方面至关重要的研究内容。世界各国的科学家长期致力于食品中农药残留检测技术的研究。较早的农残检测是基于气相色谱进行的,农药种类相对较少通常为几种或十几种,而气相色谱-质谱(GC-MS)技术的应用,使待测农药的种类增加到了几十种以上。气相色谱-串联质谱(GC-MS/MS)技术的应用,则使食品中农药残留的检测上升到新的台阶,待测农药的种类在200种左右。与此同时,液相色谱-串联质谱(LC-MS/MS)技术由于在检测极性较强和热不稳定性农药方面具有优于GC-MS和GC-MS/MS技术的优势也得到了广泛的应用。作为互补技术,研究人员也常将两者同时用于农药残留的检测。自2001年之后,与GC和LC相关的质谱检测技术已然成为农药多残留检测的主导技术。
据报道,目前世界常用的农药已经超过1000种,而且还在不断增加。面对如此种类繁多,性质各异的农药,以及各种复杂的样品基质,应用低分辨质谱开展目标化合物的常规检测已经不能满足实际需求。高分辨质谱的应用使低分辨质谱遇到的问题迎刃而解,其中具有代表性的是飞行时间质谱(TOF)和轨道离子阱质谱(Orbitrap)。本发明中涉及的高分辨质谱:液相色谱-四极杆-飞行时间质谱(LC-Q-TOFMS)、气相色谱-四极杆-飞行时间质谱(GC-Q-TOFMS)、线性离子阱—电场回旋共振轨道阱组合质谱 (LC-LTQ-Orbitrap)、液相色谱-四极杆-静电场轨道阱质谱(LC-Q-Orbitrap)和气相色谱-四极杆-静电场轨道阱质谱(GC-Q-Orbitrap),其在农药多残留检测方面的最大优势就是可以在全扫描模式下提供足够的灵敏度,并获得尽可能多的化合物信息,同时,可以使化合物进一步得到确证。
上述质谱技术的应用,存在两方面需要解决的问题,一是,方法建立过程中需要参考标准品的质谱信息,二是,对于检测结果的确证需要与标准质谱图进行比对,这点对高分辨质谱尤为重要。在实际工作中,要想获得标准的质谱图,要么使用标准品自行采集,要么使用仪器公司提供的商业质谱图,但是这些都需要投入大量的人力、物力或财力,局限性相对较大。这也是一直困扰分析工作者的难题之一。
发明内容
为解决上述问题,本发明应用主流的质谱仪器:液相色谱-串联质谱(LC-MS/MS)、气相色谱-串联质谱(GC-MS/MS)、液相色谱-四极杆-飞行时间质谱(LC-Q-TOFMS)、气相色谱-四极杆-飞行时间质谱(GC-Q-TOFMS)、线性离子阱-电场回旋共振轨道阱组合质谱(LTQ-Orbitrap)、液相色谱-四极杆-静电场轨道阱质谱(LC-Q-Orbitrap)、气相色谱-四极杆-静电场轨道阱质谱(GC-Q-Orbitrap),为每种农药在数据库中建立了一张电子身份证,利用图像处理技术获取谱图信息,应用深度卷积神经网络为已检测的图谱分类建模,将图像模型系统放到后台云服务器端,用户登录系统在浏览器端上传其检测农药残留谱图,利用该智能比对系统和方法可以方便地获知所检测的数据是哪种农药。
本发明提供了一种基于云平台的农药及化学污染物谱图比对识别系统与方法,能够实现农药及化学污染物快速准确的比对识别,所述系统包括云服务器平台端、用户平台端;
其中所述云服务器平台端包括:
谱图获取部,用于获取质谱谱图;
谱图参数获取部,用于获取与质谱谱图对应的实验环境、实验条件、实验参数数据;
谱图设备获取部,用于获取与质谱谱图对应的谱图检测设备信息;
谱图预处理部,用于对所获取的质谱谱图进行纵向拼接、预处理,并提取谱图特征;
谱图分类模型部,用于获取质谱谱图内部最高峰值所在像素点处的拟合角度变化值,建立质谱谱图分类模型;
农药种类分类模型部,用于使用神经网络模型对所提取的谱图特征、谱图检测设备信息、实验参数数据进行训练,得到能够识别农药及化学污染物种类和/或名称的分类模型;
所述用户平台端包括:
谱图数据上传部,用于向系统上传待检测的质谱谱图、谱图说明数据和实验参数数据;
谱图预处理部,用于对待检测的质谱谱图进行纵向拼接、预处理,并提取质谱谱图特征;
谱图类型识别部,用于根据质谱谱图内部最高峰值所在像素点处的拟合角度变化值对质谱谱图进行分类;
谱图识别部,用于将所提取的谱图特征、谱图说明数据和实验参数数据输入所述农药种类分类模型,识别出对应的农药及化学污染物种类和/或名称。
优选地,
所述神经网络模型为逐层细化卷积神经网络模型,其设计或使用方法为:将经过预处理的各类谱图输入逐层细化卷积神经网络中训练谱图分类模型。经过预处理后,输入逐层细化卷积神经网络进行训练的谱图的尺寸为1×1×1626×1626,各参数的含义依次为:在训练集中每次选择一个样本用来更新权值,输入图像的通道数为1(二值图像),输入图像的大小为1626×1626(高×宽)。
第一个卷积层Conv1使用尺寸为11×11×1的卷积核,表示每次卷积运算后,卷积核移动4个像素点,边缘补充像素p为0,表示不对图像边缘进行填充,经过Conv1层的运算后,输出特征图,该特征图反映了谱图的边缘轮廓等信息。使用Relu激活函数对卷积后的结果进行映射,控制数据的范围。接下来,局部响应归一化层LRN1对卷积层Conv1输出的特征数据进行归一化,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强模型的泛化能力,经过该层的计算后,特征图的尺寸不变。之后,池化层Pool1使用尺寸为3×3×64的核对LRN1层输出的特征图进行最大池化,通过采样减少计算量和参数个数。
卷积层Conv2-Conv5分别对其上一层输出的特征图进行相应的卷积运算,卷积核尺寸逐层减小,分别为9×9×64,7×7×128,5×5×256,3×3×512,其中64,128,256, 512分别相应卷积层使用的卷积核数量,使用的卷积核数量越多,得到的特征维度越高,经过逐层的卷积运算后,低层特征被抽象成为更高维更细化的卷积激活特征,各个卷积层中的步长以及边缘补充像素大小如图3所示。局部响应归一化层LRN2对卷积层 Conv2输出的特征数据进行归一化。池化层Pool2-Pool5分别使用尺寸为3×3×128, 3×3×256,3×3×512,3×3×512的核对其上一层输出的特征图进行最大池化。
全连接层Fc6将Conv5输出的局部特征进行连接,Fc6-Fc8三个全连接层在训练过程中通过学习全部的权重来筛选在分类任务中表现好的特征,并将特征送入 Softmax-loss层。Dropout层Dop6与Drop7分别用于Fc6与Fc7的计算结果中,随机禁用一部分隐藏层的节点,加快训练速度并防止过拟合。Softmax-loss层相当于一个分类器,计算得到损失函数的值。在训练过程中,使用随机梯度下降算法更新权值并设置初始学习率为0.0001,通过最小化损失函数逐步提高分类效果,并得到分类效果较好的逐层细化卷积神经网络分类模型。
优选地,
所述谱图包括质谱图和/或色谱图。
优选地,
所述谱图包括:液相色谱-串联质谱图、气相色谱-串联质谱图、液相色谱-四极杆-飞行时间质谱图、气相色谱-四极杆-飞行时间质谱图、线性离子阱-电场回旋共振轨道阱组合质谱图、液相色谱-四极杆-静电场轨道阱质谱图、气相色谱-四极杆-静电场轨道阱质谱图的一种或多种。
优选地,
所述质谱谱图分类模型部根据谱图内部最高峰值所在像素点处的角度变化值分类:液相色谱—串联质谱图中的离子流色谱图的拟合角度变化值范围为x11—x12,四个碰撞能量下离子质谱图的拟合角度变化值范围为x13—x14;液相色谱—四极杆—飞行时间质谱中的离子流色谱图的拟合角度变化值范围为x21—x22,四个碰撞能量下离子质谱图的拟合角度值均为x23;线性离子阱—电场回旋共振轨道阱组合质谱图中的离子色谱图的拟合角度变化值为x31—x32,电离模式全扫描质谱图的拟合角度值均为x33;气相色谱—串联质谱图一级质谱图拟合角度变化值为x41,四个碰撞能量下离子质谱图的拟合角度值为x43;液相色谱-四极杆-静电场轨道阱质谱中的离子流色谱图的拟合角度变化值为 x51,碎片离子质谱图的拟合角度值为x53;气相色谱—四极杆—飞行时间质谱图中的质谱图的拟合角度值为x61;气相色谱-四极杆-静电场轨道阱质谱总离子色谱图的拟合角度变化值为x71—x72,电离模式全扫描质谱图的拟合角度值均为x73。其中,x11—x73的取值范围为0°—40°。
优选地,
所述质谱谱图分类模型部将质谱谱图灰度图转化为二值图,并将图像值赋予二维矩阵;根据矩阵值,判断图像高峰值(即图谱最高峰值)所在像素点的位置(即矩阵的行和列),以此为中心向左下和右下一定区域范围遍历,获取相对应矩阵值为1的矩阵的行与列,并记忆存储后拟合高峰处图像角度。
优选地,
所述质谱谱图内部最高峰所在像素点处的角度变化值通过梯度矢量计算。在直线或曲线附近,梯度矢量垂直于该直线或曲线,角度可由梯度矢量的方位变化计算得到。曲线上某点的梯度矢量是过该点的曲线片段的垂直线,用该点附近的一小段线段来代替曲线片段,计算出该线段的垂直线作为梯度矢量。该点附近的线段用邻域链长来确定,链长不同,计算出来的梯度矢量也略有差别。梯度矢量的方位就是它的角度大小。
优选地,
设Pn={p1,…,pn}是曲线或直线上的有序点集。Ln={l1,…,ln}是直线或曲线上有序点附近的一小段线段,li(i=1,…,n)表示以点pi为中心,邻域链长为m,即连接点pi-m和pi+m之间的线段。在本系统中,可将m的值设定为1~5之间的数值。Sn={s1,…,sn}表示线段li的垂直线的斜率的集合。An={a1,…,an}表示点pi附近li的垂直线的角度集,ai范围在[0,360°]。
点pi(xi,yi)附近线段li(连接点pi-m(xi-m,yi-m)和点pi+m(xi+m,yi+m))的斜率为: gi=(yi+m-yi-m)/(xi+m-xi-m)
线段li的垂直线的斜率为(-1/gi),即
si=-(xi+m-xi-m)/(yi+m-yi-m)
ai的计算方式如表2所示。
表2
优选地,
所述谱图识别部在将待检测质谱谱图输入到所述分类模型前,还根据所述质谱谱图说明数据、实验参数和质谱谱图的数量从现有的质谱谱图库中筛选出可能与待检测质谱谱图类别相同的质谱谱图数据,对每幅待检测质谱谱图提取其Fc7层特征,并与从库中筛选出的所有类别预处理后的质谱谱图的Fc7层特征进行余弦相似度计算,找到与当前待检测质谱谱图相似程度最高的谱图,并判断其相似度是否高于50%,若相似度高于 50%,则成功识别出用户输入的质谱谱图。
优选地,
所述余弦相似度计算采用以下方式:
其中,Ai表示谱图A的第i个特征值,Bi表示谱图B的第i个特征值,dn表示特征的总维数。
相应地,本发明还提出了一种基于云平台的农药及化学污染物七类质谱谱图识别方法,其包括:
在云服务器平台端获取质谱谱图,并获取与质谱谱图对应的实验环境、实验条件、实验参数数据;
获取与质谱谱图对应的谱图检测设备信息;
对所获取的质谱谱图进行纵向拼接、预处理,并提取谱图特征;
获取质谱谱图内部最高峰值所在像素点处的拟合角度变化值,建立质谱谱图分类模型;
使用神经网络模型对所提取的质谱谱图特征、谱图检测设备信息、实验参数数据进行训练,得到能够识别农药及化学污染物种类和/或名称的农药种类分类模型;
在用户平台端向系统上传待检测的质谱谱图、质谱谱图说明数据和实验参数数据;
对待检测的质谱谱图进行纵向拼接、预处理并提取质谱谱图特征;
根据质谱谱图内部最高峰值所在像素点处的拟合角度变化值对质谱谱图进行分类;
将所提取的质谱谱图特征、质谱谱图说明数据和实验参数数据输入所述农药种类分类模型,识别出对应的农药及化学污染物种类和/或名称。
本发明所提出的基于云平台的农药及化学污染物谱图比对识别方法,其在云服务器平台端进行谱图分类模型建立、谱图数据特征提取与卷积神经网络训练建模,用户平台端用于用户上传质谱谱图和实验条件与设备数据,并根据云服务器平台端的质谱谱图分类模型识别质谱谱图类型,基于云服务器平台端训练得到的神经网络模型自动对比判别农药类型与名称,并将比对结果反馈给用户。该系统解决了用户购买标准品的限制,并且系统的使用不受地点限制,可快速准确地对农药及化学污染物进行检测。
本发明的有益效果:
1.本发明涵盖了液相色谱-串联质谱LC-MS/MS(605种)、气相色谱-串联质谱 GC-MS/MS(619种)、液相色谱-四极杆-飞行时间质谱LC-Q-TOFMS(510种)、气相色谱-四极杆-飞行时间质谱GC-Q-TOFMS(753种)、线性离子阱-电场回旋共振轨道阱组合质谱LC-LTQ-Orbitrap(378种)、液相色谱-四极杆-静电场轨道阱质谱LC-Q-Orbitrap (570种)和气相色谱-四极杆-静电场轨道阱质谱GC-Q-Orbitrap(664种)七类色谱- 质谱主流技术,为1200多种农药化学污染物建立了独有的电子身份证信息:质谱信息数据库(精确质量数、同位素分布、同位素丰度)和质谱特征谱图数据库(总离子流色谱图和不同能量碰撞下的碎片离子质谱图)等色谱-质谱分析鉴定的必要参数,为研发高通量农药多残留检测技术奠定了理论和方法基础,具有技术创新性,是当前最精确、灵敏可靠的检测技术,可以实现最大单次农药集群检测的唯一精准侦测技术。
2.本发明可实现世界常用1200多种农药化学污染物质谱谱图智能匹配、比对识别、定性。按照化合物组成成分分类检索,包括有机卤素农药、有机磷农药、拟除虫菊酯农药、氨基甲酸酯农药、有机氮农药、有机硫农药等;可以按照农药功能分类检索,包括杀虫剂、杀菌剂、除草剂、杀螨剂、杀线虫剂、昆虫生长调节剂、植物生长调节剂,以及多氯联苯、多环芳烃等持久性环境污染物;也可以按照农药毒性检索,包括微毒、低毒、中毒、高毒、剧毒,以及违禁农药等。对于已知化合物的鉴定,可通过色谱-质谱图集快速获取该化合物的分子结构及不同条件下的碎片离子等全面的色谱-质谱信息。据此,可以科学、合理、快速建立检测鉴定方法,保障目标物检测鉴定结果的准确可靠。
3.本发明可实现未知化合物的鉴定识别。根据本发明指定色谱-质谱条件下对未知物进行测定,获取其精确质量数、总离子流图和二级碎片离子质谱图等色谱质谱信息;再通过与系统信息比对,即可快速准确定性该未知化合物。
4.本发明可实现对同一化合物在不同仪器上的确证,提高了鉴定确证能力。对复杂基质中农药化学污染物残留的检测,经常受到共萃取基质的干扰,容易出现假阳性结果,有时需要不同类型的仪器进行确证。本发明包含7类不同的色谱-质谱仪器多种条件下的色谱-质谱图,互补扩展了应用范围,与实际工作接轨,参考性强。
5.本发明高分辨质谱标准质谱图,为农药多残留检测结果的确证提供了依据,无需购买大量实物参考标准品自行采集质谱图,实现了谱图检索、对照的智能化、自动化,节省了农药残留分析的成本,也提高了市场化快速检测的能力。同时,为农药及化学污染物的分析检测带来极大地便利,使得分析工作者在建立方法时有了参考依据,在确证结果时有了查询工具,具有非常重要的使用价值和较高的经济效益。
6.本发明实现了谱图数据的电子化和数据检索的自动化,开发了较完整的具有我国完全自主知识产权的世界领先的农药信息与农残检测数据库,不仅是对世界色谱-质谱学的重大贡献,而且对我国的农残分析、食品安全和环境安全检测、进出口检验检疫具有非常重大的科学意义和社会意义。
7.通过本发明色谱-质谱信息库的整合、开发与利用,将快速提高我国农残留实验室的建设,整体提升农药鉴定、农残检测业行水平和检测效率,具有很高的社会意义。检索系统的构建,将大大提升样品的数据分析能力和农药鉴定能力,提升目标农药的筛查侦测能力,具有很好的推广应用前景和经济价值。
8.本发明具有四大功能:农药残留新检测技术研发的指导书、未知化合物鉴定的参考书、技术培训的教科书和日常业务的工具书。当这种世界常用农药化学污染物七类色谱-质谱谱图自动识别系统建立成型后,这四大功能将发挥更大作用。
附图说明
图1为本发明的质谱谱图比对系统的系统结构图;
图2为本发明的逐层细化的卷积神经网络层次结构图;
图3为本发明一实施例的一级质谱图;
图4为本发明一实施例相应碰撞能量下子离子质谱图;
图5为本发明一实施例的总离子流色谱图;
图6为本发明一实施例的相应碰撞能量下子离子质谱图;
图7为本发明一实施例的提取离子色谱图;
图8为本发明一实施例的相应碰撞能量下子离子质谱图;
图9为本发明一实施例的[M+H]+提取离子色谱图;
图10为本发明一实施例的[M+H]+的二级质谱图;
图11为本发明一实施例的提取离子流色谱图;
图12为本发明一实施例的[M+H]+、[M+NH4]+和[M+Na]+典型的一级质谱图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明基于云平台的农药及化学污染物谱图比对系统的示意图;所述系统包括云服务器平台端和用户平台端,其中用户平台端包括用户注册模块、用户登录模块、用户检索模块、谱图数据上传模块、质谱谱图预处理模块、质谱谱图类型识别和质谱谱图识别模块;云服务器平台端包括谱图设备信息获取模块、谱图参数获取模块、质谱谱图获取模块、质谱谱图信息库、质谱谱图预处理模块、质谱谱图分类模型模块和农药种类分类模块。
在云服务器平台端,质谱谱图获取模块接收用户上传的质谱谱图,谱图设备获取模块接收用户上传的谱图设备信息,谱图参数获取模块接收用户上传的实验环境、实验条件、实验参数等信息;其中用户上传的谱图可以是质谱图或提取离子流色谱图;图3 至图12示出了本发明能够处理的谱图的多个示例,本领域技术人员应当理解,该些谱图仅是对本发明谱图对比系统所能处理的谱图类型的示意性举例,本发明所能处理的谱图包括但不限于此。
优选地,本发明实施例中的原始谱图包括7类质谱谱图,包括液相色谱-串联质谱图、气相色谱-串联质谱图、液相色谱-四极杆-飞行时间质谱图、气相色谱-四极杆-飞行时间质谱图、线性离子阱-电场回旋共振轨道阱组合质谱图、液相色谱-四极杆-静电场轨道阱质谱图、气相色谱-四极杆-静电场轨道阱质谱图。
质谱谱图预处理模块可对接收的质谱谱图进行预处理以符合处理要求,具体地,所述谱图预处理包括对质谱谱图进行竖向拼接、对数变换、伽玛校正、直方图均衡化、以及对谱图进行旋转、平移、缩放等几何变换,并对预处理后的质谱谱图进行特征提取;
优选地,所述质谱谱图分类模型模块根据质谱谱图内部最高峰值所在像素点处的角度变化值分类:液相色谱—串联质谱图中的离子流色谱图的拟合角度变化值范围为x11—x12,四个碰撞能量下离子质谱图的拟合角度变化值范围为x13—x14;液相色谱—四极杆—飞行时间质谱中的离子流色谱图的拟合角度变化值范围为x21—x22,四个碰撞能量下离子质谱图的拟合角度值均为x23;线性离子阱—电场回旋共振轨道阱组合质谱图中的离子色谱图的拟合角度变化值为x31—x32,电离模式全扫描质谱图的拟合角度值均为x33;气相色谱—串联质谱图一级质谱图拟合角度变化值为x41,四个碰撞能量下离子质谱图的拟合角度值为x43;液相色谱-四极杆-静电场轨道阱质谱中的离子流色谱图的拟合角度变化值为x51,碎片离子质谱图的拟合角度值为x53;气相色谱—四极杆—飞行时间质谱图中的质谱图的拟合角度值为x61;气相色谱-四极杆-静电场轨道阱质谱总离子色谱图的拟合角度变化值为x71—x72,电离模式全扫描质谱图的拟合角度值均为x73。其中, x11—x73的取值范围为0°—40°。
质谱谱图分类模型模块将质谱谱图灰度图转化为二值图,并将图像值赋予二维矩阵;根据矩阵值,判断图像高峰值(即图谱最高峰值)所在像素点的位置(即矩阵的行和列),以此为中心向左下和右下一定区域范围遍历,获取相对应矩阵值为1的矩阵的行与列,并记忆存储后拟合高峰处图像角度。
农药种类分类模型模块对农药种类、检测设备类别、实验参数、质谱谱图特征及农药名称等进行分类模型训练,得到逐层细化卷积神经网络训练模型以用于用户平台端的农药及化学污染物谱图比对和农药检测。云服务器平台端还包括一质谱谱图信息库,其存储有谱图类型、农药名称、农药种类及其相对应的谱图谱图等数据,可供用户平台端根据谱图类型和/或农药名称、和/或农药种类进行相应的质谱谱图的查询。
在用户平台端,用户通过用户注册模块和用户登录模块进行系统注册并登录系统;其中,用户注册功能提供不同权限的注册,用户可注册为具有上传信息(例如上传训练样本等)权限的用户,也可注册为仅具有查询权限的用户;用户注册后系统管理员对用户注册信息进行审核,审核通过后方可登录系统使用。
当用户注册、登录成功后,为获得所检测农药物质的信息,利用谱图数据上传模块向系统上传待检测的质谱谱图、谱图说明数据和实验参数数据;其中,谱图说明数据包括实验设备信息、谱图类型等,实验参数数据包括实验环境、实验条件、实验参数等信息。具体地,用户在上传待检测的质谱谱图时可单张谱图上传,也可多张谱图同时上传,上传的谱图可以是本技术领域中常用的任意的谱图格式。
在用户上传待检测的质谱谱图后,质谱谱图预处理模块对所述质谱谱图进行预处理,包括对质谱谱图进行竖向拼接、对数变换、伽玛校正,直方图均衡化、以及旋转、平移、缩放等几何变换,并对预处理后的谱图进行特征提取。
质谱谱图类型识别模块将质谱谱图预处理模块提取的谱图输入质谱谱图分类模型进行匹配识别。
质谱谱图识别模块读取云服务器平台端存储的已训练好的逐层细化卷积神经网络模型,并将质谱谱图预处理模块提取的谱图特征、谱图说明数据和实验参数数据等输入上述卷积神经网络模型进行匹配识别,从而得到与待检测质谱谱图对应的农药种类和农药名称。
根据本发明的又一优选方式,所述质谱谱图识别模块在将待检测质谱谱图输入到所述分类模型前,还根据所述质谱谱图说明数据、实验参数和质谱谱图的数量从现有的质谱谱图库中筛选出可能与待检测质谱谱图类别相同的质谱谱图数据,减少相似度比较的次数,进一步降低分类模型的运算量。具体地,对每幅待检测质谱谱图提取其Fc7层特征,并与从库中筛选出的所有类别预处理后的质谱谱图的Fc7层特征进行余弦相似度计算,找到与当前待检测质谱谱图相似程度最高的谱图,并判断其相似度是否高于50%,若相似度高于50%,则成功识别出用户输入的质谱谱图的类别。其中,所述余弦相似度计算采用以下方式:
其中,Ai表示谱图A的第i个特征值,Bi表示谱图B的第i个特征值,dn表示特征的总维数。
根据本发明提供的上述基于云平台的农药及化学污染物谱图比对系统,其在云服务器平台端利用样本数据训练逐层细化卷积神经网络模型,用户平台端接收用户上传的质谱谱图和实验参数信息,并利用上述神经网络模型识别与用户上传的质谱谱图对应的农药种类和名称,该系统能够自动地对待检测质谱谱图进行识别,无需人工在大量的谱图标准图中进行查找比对,可快速地获取与待检测谱图对应的农药及化学污染物种类和名称,提高了农药残留检测的效率和准确性。
图2示出了本发明的逐层细化卷积神经网络(Layer-by-Layer RefinementNetwork, LbLReNet)的网络结构。农药的质谱图以及离子质谱图都是内容比较稀疏的谱图,而对于稀疏的数据,当使用比较小的卷积核时,局部感受域比较小,卷积操作无法表示其特征,若采用较大的卷积核则会导致复杂度极大的增加。因此本发明设计了“逐层细化网络”的卷积神经网络结构。具体地,本发明的逐层细化卷积神经网络结构共包含5个卷积层以及ReLU激活函数层、局部响应归一化层、Pool层、全连接层;其中,低层的卷积层关注谱图的轮廓边缘信息,随着层数增高,卷积核尺寸逐层减小,卷积层将低层特征抽象成为更高维更细化的卷积激活特征。此外,局部响应归一化层(Local Response Norm,LRN)对卷积后的结果进行归一化,归一化之后,变量的方差相同,所以会对于模型的训练起到加速的作用。Pool层通过采样减少了计算量和参数个数,改变了输出的维度。全连接(FC)层将以前的局部特征进行连接,并将这些特征送入softmax分类器中,用于训练分类器。Dropout随机禁用一部分隐藏层的节点,加快训练速度并防止过拟合。
根据本发明所提出的上述逐层细化卷积神经网络结构,其根据农药检测谱图的特点,为该神经网络结构设计5层卷积层及其对应的ReLU激活函数,结合LRN层、Pool层、 FC层加速模型的训练速度,具有模型训练速度快、准确性高的特点,可用于准确快速地对农药残留种类进行识别。
表1示出了本发明的逐层细化卷积神经网络的参数图。其中,将经过预处理的谱图图像输入逐层细化卷积神经网络中,输入谱图图像的尺寸为1×1×1626×1626,各参数的含义依次为:在训练集中每次选择一个样本用来更新权值,输入图像的通道数为1(二值图像),输入图像的大小为1626×1626(高×宽)。第一个卷积层Conv1使用尺寸为 11×11×1的卷积核,表示每次卷积运算后,卷积核移动4个像素点,边缘补充像素p为0,表示不对图像边缘进行填充,经过Conv1层的运算后,输出特征图,该特征图反映了谱图的边缘轮廓等信息。使用Relu激活函数对卷积后的结果进行映射,控制数据的范围。接下来,局部响应归一化层LRN1对卷积层Conv1输出的特征数据进行归一化,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强模型的泛化能力,经过该层的计算后,特征图的尺寸不变。之后,池化层Pool1使用尺寸为3×3×64的核对LRN1层输出的特征图进行最大池化,通过采样减少计算量和参数个数。卷积层Conv2-Conv5分别对其上一层输出的特征图进行相应的卷积运算,卷积核尺寸逐层减小,分别为9×9×64,7×7×128,5×5×256, 3×3×512,其中64,128,256,512分别相应卷积层使用的卷积核数量,使用的卷积核数量越多,得到的特征维度越高,经过逐层的卷积运算后,低层特征被抽象成为更高维更细化的卷积激活特征,各个卷积层中的步长以及边缘补充像素大小如附图3所示。局部响应归一化层LRN2对卷积层Conv2输出的特征数据进行归一化。池化层Pool2-Pool5 分别使用尺寸为3×3×128,3×3×256,3×3×512,3×3×512的核对其上一层输出的特征图进行最大池化。全连接层Fc6将Conv5输出的局部特征进行连接,Fc6-Fc8三个全连接层在训练过程中通过学习全部的权重来筛选在分类任务中表现好的特征,并将特征送入 Softmax-loss层。Dropout层Dop6与Drop7分别用于Fc6与Fc7的计算结果中,随机禁用一部分隐藏层的节点,加快训练速度并防止过拟合。Softmax-loss层相当于一个分类器,计算得到损失函数的值。在训练过程中,使用随机梯度下降算法更新权值并设置初始学习率为0.0001,通过最小化损失函数逐步提高分类效果,得到分类效果较好的逐层细化卷积神经网络分类模型。本领域技术人员可以理解,上述谱图尺寸、卷积核尺寸等参数仅是示例性的,可以根据系统实际的需要进行适应性改变。
表1
以上所描述的系统和方法的实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助前台和后台两种方式来实现。上述描述前台部分仅包含图谱对比识别软件、图谱类型识别方法;后台部分仅包含训练识别谱图模型和建立谱图类型判别方法。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法,若使系统能够识别更多的谱图,还需要获取更多的谱图类型和谱图数量进行分类和建模。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
Claims (12)
1.一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统,其特征在于,包括云服务器平台端、用户平台端;
所述云服务器平台端包括:
谱图获取部,用于获取质谱谱图;
谱图参数获取部,用于获取与质谱谱图对应的实验环境、实验条件、实验参数数据;
谱图设备获取部,用于获取与质谱谱图对应的谱图检测设备信息;
谱图预处理部,用于对所获取的质谱谱图进行纵向拼接、预处理,并提取谱图特征;农药种类分类模型部,使用神经网络模型对所提取的质谱谱图特征、谱图检测设备信息、实验参数数据进行训练,得到能够识别农药及化学污染物种类和/或名称的分类模型;
所述用户平台端包括:
谱图数据上传部,用于向系统上传待检测的质谱谱图、谱图说明数据和实验参数数据;
谱图预处理部,用于对待检测的质谱谱图进行纵向拼接、预处理,并提取谱图特征;谱图识别部,用于将所提取的质谱谱图特征、谱图说明数据和实验参数数据上传输入所述农药种类分类模型,识别出对应的农药及化学污染物种类和/或名称;
所述农药种类分类模型部使用的神经网络模型为逐层细化卷积神经网络模型,其设计/使用方法为:
质谱谱图经过预处理后,输入逐层细化卷积神经网络进行训练的质谱谱图的尺寸为1×1×1626×1626,各参数的含义依次为:在训练集中每次选择一个样本用来更新权值,输入图像的通道数为1,输入图像的大小为1626×1626;
第一个卷积层Conv1使用尺寸为11×11×1的卷积核,表示每次卷积运算后,卷积核移动4个像素点,边缘补充像素p为0,表示不对图像边缘进行填充,经过Conv1层的运算后,输出特征图,该特征图反映了质谱谱图的边缘轮廓信息;使用Relu激活函数对卷积后的结果进行映射,控制数据的范围;接下来,局部响应归一化层LRN1对卷积层Conv1输出的特征数据进行归一化,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强模型的泛化能力,经过该层的计算后,特征图的尺寸不变;之后,池化层Pool1使用尺寸为3×3×64的核对LRN1层输出的特征图进行最大池化,通过采样减少计算量和参数个数;
卷积层Conv2-Conv5分别对其上一层输出的特征图进行相应的卷积运算,卷积核尺寸逐层减小,分别为9×9×64,7×7×128,5×5×256,3×3×512,其中64,128,256,512分别对应卷积层使用的卷积核数量,经过逐层的卷积运算后,低层特征被抽象成为更高维更细化的卷积激活特征,局部响应归一化层LRN2对卷积层Conv2输出的特征数据进行归一化;池化层Pool2-Pool5分别使用尺寸为3×3×128,3×3×256,3×3×512,3×3×512的核对其上一层输出的特征图进行最大池化;
全连接层Fc6将Conv5输出的局部特征进行连接,Fc6-Fc8三个全连接层在训练过程中通过学习全部的权重来筛选在分类任务中表现好的特征,并将特征送入Softmax-loss层;Dropout层Dop6与Drop7分别用于Fc6与Fc7的计算结果中,随机禁用一部分隐藏层的节点,加快训练速度并防止过拟合;Softmax-loss层计算得到损失函数的值;
在训练过程中,使用随机梯度下降算法更新权值并设置初始学习率为0.0001,通过最小化损失函数逐步提高分类效果,得到分类效果较好的逐层细化卷积神经网络分类模型。
2.根据权利要求1所述的一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统,其特征在于,
所述云平台服务器端还包括:质谱谱图分类模型部,根据获取质谱谱图内部最高峰值所在像素点处的拟合角度变化值,建立质谱谱图分类模型;
所述用户平台端还包括:质谱谱图类型识别部,根据所述质谱谱图分类模型计算的质谱谱图内部最高峰值所在像素点处的拟合角度变化值,获取对质谱谱图进行分类的结果。
3.根据权利要求2所述的一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统,其特征在于,所述云平台服务器端还包括质谱谱图信息库,所述用户平台端还包括用户检索部;所述质谱谱图类型识别部在将待检测谱图输入到所述质谱谱图分类模型前,利用所述用户检索部对所述质谱谱图说明数据、实验参数和质谱谱图的数量从所述质谱谱图信息库中筛选出可能与待检测质谱谱图类别相同的质谱谱图数据,对每幅待检测质谱谱图提取其Fc7层特征,并与从库中筛选出的所有类别预处理后的质谱谱图的Fc7层特征进行余弦相似度计算,找到与当前待检测质谱谱图相似程度最高的质谱谱图,并判断其相似度是否高于50%,若相似度高于50%,则成功识别出用户输入的质谱谱图。
4.根据权利要求2所述的一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统,其特征在于,所述质谱谱图分类模型部根据质谱谱图内部最高峰值所在像素点处的角度变化值进行分类时:液相色谱-串联质谱图中的离子流色谱图的拟合角度变化值范围为x11-x12,四个碰撞能量下离子质谱图的拟合角度变化值范围为x13-x14;液相色谱-四极杆-飞行时间质谱中的离子流色谱图的拟合角度变化值范围为x21-x22,四个碰撞能量下离子质谱图的拟合角度值均为x23;线性离子阱-电场回旋共振轨道阱组合质谱图中的离子色谱图的拟合角度变化值为x31-x32,电离模式全扫描质谱图的拟合角度值均为x33;气相色谱-串联质谱图一级质谱图拟合角度变化值为x41,四个碰撞能量下离子质谱图的拟合角度值为x43;液相色谱-四极杆-静电场轨道阱质谱中的离子流色谱图的拟合角度变化值为x51,碎片离子质谱图的拟合角度值为x53;气相色谱-四极杆-飞行时间质谱图中的质谱图的拟合角度值为x61;气相色谱-四极杆-静电场轨道阱质谱总离子色谱图的拟合角度变化值为x71-x72,电离模式全扫描质谱图的拟合角度值均为x73;其中,x11-x73的取值范围为0°-40°。
5.根据权利要求2所述的一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统,其特征在于,所述质谱谱图分类模型部获取质谱谱图内部最高峰值所在像素点处的拟合角度变化值通过梯度矢量计算得到:在直线或曲线附近,梯度矢量垂直于该直线或曲线,角度由梯度矢量的方位变化计算得到;曲线上某点的梯度矢量是过该点的曲线片段的垂直线,用该点附近的一小段线段来代替曲线片段,计算出该线段的垂直线作为梯度矢量,该点附近的线段用邻域链长来确定,梯度矢量的方位就是其角度大小。
6.根据权利要求5所述的一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统,其特征在于,所述质谱谱图内部最高峰值所在像素点处的拟合角度变化值的计算方法包括如下:
设Pn={p1,...,pn}是曲线或直线上的有序点集,Ln={l1,...,ln}是直线或曲线上有序点附近的一小段线段,li(i=1,...,n)表示以点pi为中心,邻域链长为m,即连接点pi-m和pi+m之间的线段,Sn={s1,...,sn}表示线段li的垂直线的斜率的集合,An={a1,...,an}表示点pi附近li的垂直线的角度集,ai范围在[0,360°];
点pi(xi,yi)附近线段li的斜率为:
gi=(yi+m-yi-m)/(xi+m-xi-m);其中,线段li是连接点pi-m(xi-m,yi-m)和点pi+m(xi+m,yi+m)之间的线段;
线段li的垂直线的斜率为(-1/gi),即
si=-(xi+m-xi-m)/(yi+m-yi-m);
ai的计算方式:在斜率不存在时,ai=π/2,在斜率为0时,ai=π,在斜率大于0时,ai=arctanki,在斜率小于0时,ai=π+arctanki;ki表示斜率。
7.根据权利要求1-6任一项所述的一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统,其特征在于,所述质谱图包括液相色谱-串联质谱图、气相色谱-串联质谱图、液相色谱-四极杆-飞行时间质谱图、气相色谱-四极杆-飞行时间质谱图、线性离子阱-电场回旋共振轨道阱组合质谱图、液相色谱-四极杆-静电场轨道阱质谱图、气相色谱-四极杆-静电场轨道阱质谱图的一种或多种。
8.根据权利要求7所述的一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统,其特征在于,所述质谱谱图还可以是提取离子流色谱图。
9.一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别方法,其特征在于,
在云服务器平台端:
获取质谱谱图,并获取与质谱谱图对应的实验环境、实验条件、实验参数数据;
获取与质谱谱图对应的谱图检测设备信息;
对所获取的质谱谱图进行纵向拼接、预处理,并提取谱图特征;
获取质谱谱图内部最高峰值所在像素点处的拟合角度变化值,建立质谱谱图分类模型;
使用神经网络模型对所提取的质谱谱图特征、谱图检测设备信息、实验参数数据进行训练,得到能够识别农药及化学污染物种类和/或名称的农药种类分类模型;
在用户平台端:
向云服务器平台端上传待检测的质谱谱图、谱图说明数据和实验参数数据;
对待检测的质谱谱图进行纵向拼接、预处理并提取质谱谱图特征;
接收云服务器平台端返回的质谱谱图分类结果;
将所提取的谱图特征、谱图说明数据和实验参数数据上传至云服务器平台端的农药种类分类模型,接收识别出的对应的农药及化学污染物种类和/或名称;
所述神经网络模型为逐层细化卷积神经网络模型,其设计/使用方法为:
谱图经过预处理后,输入逐层细化卷积神经网络进行训练的谱图的尺寸为1×1×1626×1626,各参数的含义依次为:在训练集中每次选择一个样本用来更新权值,输入图像的通道数为1,输入图像的大小为1626×1626;
第一个卷积层Conv1使用尺寸为11×11×1的卷积核,表示每次卷积运算后,卷积核移动4个像素点,边缘补充像素p为0,表示不对图像边缘进行填充,经过Conv1层的运算后,输出特征图,该特征图反映谱图的边缘轮廓信息;使用Relu激活函数对卷积后的结果进行映射,控制数据的范围;接下来,局部响应归一化层LRN1对卷积层Conv1输出的特征数据进行归一化,对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强模型的泛化能力,经过该层的计算后,特征图的尺寸不变;之后,池化层Pool1使用尺寸为3×3×64的核对LRN1层输出的特征图进行最大池化,通过采样减少计算量和参数个数;
卷积层Conv2-Conv5分别对其上一层输出的特征图进行相应的卷积运算,卷积核尺寸逐层减小,分别为9×9×64,7×7×128,5×5×256,3×3×512,其中64,128,256,512分别对应卷积层使用的卷积核数量,经过逐层的卷积运算后,低层特征被抽象成为更高维更细化的卷积激活特征,局部响应归一化层LRN2对卷积层Conv2输出的特征数据进行归一化;池化层Pool2-Pool5分别使用尺寸为3×3×128,3×3×256,3×3×512,3×3×512的核对其上一层输出的特征图进行最大池化;
全连接层Fc6将Conv5输出的局部特征进行连接,Fc6-Fc8三个全连接层在训练过程中通过学习全部的权重来筛选在分类任务中表现好的特征,并将特征送入Softmax-loss层;Dropout层Dop6与Drop7分别用于Fc6与Fc7的计算结果中,随机禁用一部分隐藏层的节点,加快训练速度并防止过拟合;Softmax-loss层计算得到损失函数的值;
在训练过程中,使用随机梯度下降算法更新权值并设置初始学习率为0.0001,通过最小化损失函数逐步提高分类效果,得到分类效果较好的逐层细化卷积神经网络分类模型。
10.根据权利要求9一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别方法,其特征在于,所述建立质谱谱图分类模型时根据质谱谱图内部最高峰值所在像素点处的角度变化值进行分类:液相色谱-串联质谱图中的离子流色谱图的拟合角度变化值范围为x11-x12,四个碰撞能量下离子质谱图的拟合角度变化值范围为x13-x14;液相色谱-四极杆-飞行时间质谱中的离子流色谱图的拟合角度变化值范围为x21-x22,四个碰撞能量下离子质谱图的拟合角度值均为x23;线性离子阱-电场回旋共振轨道阱组合质谱图中的离子色谱图的拟合角度变化值为x31-x32,电离模式全扫描质谱图的拟合角度值均为x33;气相色谱-串联质谱图一级质谱图拟合角度变化值为x41,四个碰撞能量下离子质谱图的拟合角度值为x43;液相色谱-四极杆-静电场轨道阱质谱中的离子流色谱图的拟合角度变化值为x51,碎片离子质谱图的拟合角度值为x53;气相色谱-四极杆-飞行时间质谱图中的质谱图的拟合角度值为x61;气相色谱-四极杆-静电场轨道阱质谱总离子色谱图的拟合角度变化值为x71-x72,电离模式全扫描质谱图的拟合角度值均为x73;其中,x11-x73的取值范围为0°-40°。
11.根据权利要求9一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别方法,其特征在于,所述获取谱图内部最高峰值所在像素点处的拟合角度变化值时通过梯度矢量计算得到:在直线或曲线附近,梯度矢量垂直于该直线或曲线,角度由梯度矢量的方位变化计算得到;曲线上某点的梯度矢量是过该点的曲线片段的垂直线,用该点附近的一小段线段来代替曲线片段,计算出该线段的垂直线作为梯度矢量,该点附近的线段用邻域链长来确定,梯度矢量的方位就是其角度大小;
计算方法如下:
设Pn={p1,...,pn}是曲线或直线上的有序点集,Ln={l1,...,ln}是直线或曲线上有序点附近的一小段线段,li(i=1,...,n)表示以点pi为中心,邻域链长为m,即连接点pi-m和pi+m之间的线段,Sn={s1,...,sn}表示线段li的垂直线的斜率的集合,An={a1,...,an}表示点pi附近li的垂直线的角度集,ai范围在[0,360°];
点pi(xi,yi)附近线段li的斜率为:
gi=(yi+m-yi-m)/(xi+m-xi-m);其中,线段li是连接点pi-m(xi-m,yi-m)和点pi+m(xi+m,yi+m)之间的线段;
线段li的垂直线的斜率为(-1/gi),即
si=-(xi+m-xi-m)/(yi+m-yi-m);
ai的计算方式:在斜率不存在时,ai=π/2,在斜率为0时,ai=π,在斜率大于0时,ai=arctanki,在斜率小于0时,ai=π+arctanki;ki表示斜率。
12.根据权利要求9一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别方法,其特征在于,所述用户接收云服务器平台端返回的质谱谱图分类结果的方法包括:根据所述质谱谱图说明数据、实验参数和质谱谱图的数量从云平台服务器端的质谱谱图信息库中直接筛选得到分类结果;
对每幅待检测质谱谱图提取其Fc7层特征,与从信息库中筛选出的所有类别预处理后的质谱谱图的Fc7层特征进行余弦相似度计算,找到与当前待检测质谱谱图相似程度最高的质谱谱图,并判断其相似度是否高于50%,若相似度高于50%,则成功识别出用户输入的质谱谱图类型。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910234026.5A CN110110743B (zh) | 2019-03-26 | 2019-03-26 | 一种七类质谱谱图自动识别系统与方法 |
EP19921232.5A EP3951653A4 (en) | 2019-03-26 | 2019-05-06 | CLOUD PLATFORM BASED AUTOMATIC IDENTIFICATION SYSTEM AND PROCESS FOR SEVEN TYPES OF MASS SPECTROGRAMS OF COMMONLY USED PESTICIDES AND CHEMICAL POLLUTANTS AROUND THE WORLD |
PCT/CN2019/085612 WO2020191857A1 (zh) | 2019-03-26 | 2019-05-06 | 一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统与方法 |
JP2021556378A JP2022529207A (ja) | 2019-03-26 | 2019-05-06 | クラウドプラットフォームに基づいて世界の一般的な農薬及び化学汚染物質の7種類の質量スペクトルを自動的に識別するシステム及び方法 |
US16/475,348 US11340201B2 (en) | 2019-03-26 | 2019-05-06 | Cloud-platform based automatic identification system and method of seven types of mass spectrums for pesticides and chemical pollutants commonly used in the world |
GB2113218.8A GB2595625A (en) | 2019-03-26 | 2021-05-06 | Cloud platform-based automatic identification system and method for seven types of mass spectrograms of commonly used pesticides and chemical pollutants |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910234026.5A CN110110743B (zh) | 2019-03-26 | 2019-03-26 | 一种七类质谱谱图自动识别系统与方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110110743A CN110110743A (zh) | 2019-08-09 |
CN110110743B true CN110110743B (zh) | 2019-12-31 |
Family
ID=67484574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910234026.5A Active CN110110743B (zh) | 2019-03-26 | 2019-03-26 | 一种七类质谱谱图自动识别系统与方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11340201B2 (zh) |
EP (1) | EP3951653A4 (zh) |
JP (1) | JP2022529207A (zh) |
CN (1) | CN110110743B (zh) |
GB (1) | GB2595625A (zh) |
WO (1) | WO2020191857A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062411A (zh) * | 2019-11-06 | 2020-04-24 | 北京大学 | 从质谱数据中识别多种化合物的方法、装置和设备 |
EP4127706A1 (en) * | 2020-03-27 | 2023-02-08 | Ventana Medical Systems, Inc. | Computer implemented method for identifying at least one peak in a mass spectrometry response curve |
CN111814864A (zh) * | 2020-07-03 | 2020-10-23 | 北京中计新科仪器有限公司 | 一种质谱分析数据人工智能云平台系统及数据分析方法 |
CN111610281B (zh) * | 2020-07-14 | 2022-06-10 | 北京行健谱实科技有限公司 | 基于气相色谱质谱谱库鉴定的云平台构架的操作方法 |
CN112505133B (zh) * | 2020-12-28 | 2023-09-12 | 黑龙江莱恩检测有限公司 | 一种基于深度学习的质谱检测方法 |
CN112924523A (zh) * | 2021-01-28 | 2021-06-08 | 中国农业科学院农产品加工研究所 | 具快速萃取功能的农药残留检测用质谱检测系统及方法 |
CN112730275B (zh) * | 2021-02-04 | 2023-06-30 | 华东理工大学 | 显微光谱成像系统、农药检测系统及其方法 |
CN113203850B (zh) * | 2021-03-24 | 2024-08-20 | 柳州东风容泰化工股份有限公司 | 一种氯代苯酚的生物活性检测方法及装置 |
CN113780430B (zh) * | 2021-09-14 | 2024-05-24 | 天津国科医疗科技发展有限公司 | 一种基于Hopfield模型的三重四极杆质谱仪谱图分类方法 |
CN113971747B (zh) * | 2021-12-24 | 2022-04-26 | 季华实验室 | 拉曼光谱数据处理方法、装置、设备与可读存储介质 |
CN114420222B (zh) * | 2022-03-29 | 2022-08-05 | 北京市疾病预防控制中心 | 一种基于分布式流式处理的碎片离子化合物结构的快速确认方法 |
CN114755357A (zh) * | 2022-04-14 | 2022-07-15 | 武汉迈特维尔生物科技有限公司 | 一种色谱质谱自动积分方法、系统、设备、介质 |
CN115144457B (zh) * | 2022-06-27 | 2023-03-24 | 中验科学仪器(福建)有限公司 | 一种便携式质谱分析仪、分析方法以及终端 |
CN115950993B (zh) * | 2023-03-15 | 2023-07-25 | 福建德尔科技股份有限公司 | 氟氮混合气中氟含量的测试方法 |
CN116597227B (zh) * | 2023-05-29 | 2024-08-30 | 广东省麦思科学仪器创新研究院 | 质谱图解析方法、装置、设备及存储介质 |
CN117077004B (zh) * | 2023-08-18 | 2024-02-23 | 中国科学院华南植物园 | 物种鉴定方法、系统、设备及存储介质 |
CN117169406A (zh) * | 2023-11-02 | 2023-12-05 | 启东泓昱生物医药有限公司 | 基于成分分析的药品质量检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823008A (zh) * | 2014-03-14 | 2014-05-28 | 北京市疾病预防控制中心 | 构建液相色谱-质谱数据库检测未知毒物的方法 |
CN104764843A (zh) * | 2015-02-27 | 2015-07-08 | 潍坊出入境检验检疫局综合技术服务中心 | 一种利用负化学源质谱数据库对含电负性元素农药检测的方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5218529A (en) * | 1990-07-30 | 1993-06-08 | University Of Georgia Research Foundation, Inc. | Neural network system and methods for analysis of organic materials and structures using spectral data |
CA2298181C (en) * | 2000-02-02 | 2006-09-19 | Dayan Burke Goodnough | Non-targeted complex sample analysis |
KR101260566B1 (ko) * | 2007-10-10 | 2013-05-06 | 엠케이에스 인스트루먼츠, 인코포레이티드 | 사중극 또는 비행시간형 질량 분석기를 이용한 화학적 이온화 반응 또는 양자 전이 반응 질량 분석법 |
JP5757270B2 (ja) * | 2012-04-26 | 2015-07-29 | 株式会社島津製作所 | クロマトグラフ質量分析用データ処理装置 |
US10153146B2 (en) * | 2014-03-28 | 2018-12-11 | Wisconsin Alumni Research Foundation | High mass accuracy filtering for improved spectral matching of high-resolution gas chromatography-mass spectrometry data against unit-resolution reference databases |
TWI613445B (zh) * | 2016-04-01 | 2018-02-01 | 行政院農業委員會農業藥物毒物試驗所 | 搭配質譜影像分析檢驗農藥殘留之方法及其系統 |
JP6844912B2 (ja) * | 2017-02-28 | 2021-03-17 | 株式会社ハウス食品分析テクノサービス | イメージング質量分析法による異物の混入時期判別方法 |
CN107103571B (zh) * | 2017-04-17 | 2018-07-31 | 中国检验检疫科学研究院 | 基于高分辨质谱、互联网和数据科学的农药残留侦测数据平台及侦测报告自动生成方法 |
CN108760909A (zh) * | 2017-04-17 | 2018-11-06 | 中国检验检疫科学研究院 | 一种食用农产品农药残留非靶标、多指标、快速侦测的电子化方法 |
CN108414610A (zh) * | 2018-05-09 | 2018-08-17 | 南开大学 | 一种基于单颗粒气溶胶质谱仪和ART-2a神经网络法的综合污染源成分谱构建方法 |
US11457554B2 (en) * | 2019-10-29 | 2022-10-04 | Kyndryl, Inc. | Multi-dimension artificial intelligence agriculture advisor |
-
2019
- 2019-03-26 CN CN201910234026.5A patent/CN110110743B/zh active Active
- 2019-05-06 JP JP2021556378A patent/JP2022529207A/ja active Pending
- 2019-05-06 US US16/475,348 patent/US11340201B2/en active Active
- 2019-05-06 EP EP19921232.5A patent/EP3951653A4/en not_active Withdrawn
- 2019-05-06 WO PCT/CN2019/085612 patent/WO2020191857A1/zh unknown
-
2021
- 2021-05-06 GB GB2113218.8A patent/GB2595625A/en not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823008A (zh) * | 2014-03-14 | 2014-05-28 | 北京市疾病预防控制中心 | 构建液相色谱-质谱数据库检测未知毒物的方法 |
CN104764843A (zh) * | 2015-02-27 | 2015-07-08 | 潍坊出入境检验检疫局综合技术服务中心 | 一种利用负化学源质谱数据库对含电负性元素农药检测的方法 |
Also Published As
Publication number | Publication date |
---|---|
US11340201B2 (en) | 2022-05-24 |
EP3951653A1 (en) | 2022-02-09 |
WO2020191857A1 (zh) | 2020-10-01 |
US20220050092A1 (en) | 2022-02-17 |
EP3951653A4 (en) | 2023-04-26 |
JP2022529207A (ja) | 2022-06-20 |
GB2595625A (en) | 2021-12-01 |
CN110110743A (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110743B (zh) | 一种七类质谱谱图自动识别系统与方法 | |
Xie et al. | A deep-learning-based real-time detector for grape leaf diseases using improved convolutional neural networks | |
CN107451614B (zh) | 基于空间坐标与空谱特征融合的高光谱分类方法 | |
Cheriyadat | Unsupervised feature learning for aerial scene classification | |
CN105956612B (zh) | 基于主动学习和半监督学习的高光谱图像分类方法 | |
CN109376574A (zh) | 基于cnn的可拒判雷达hrrp目标识别方法 | |
CN113971815B (zh) | 基于奇异值分解特征增强的少样本目标检测方法 | |
Vishnu et al. | Spectral material mapping using hyperspectral imagery: a review of spectral matching and library search methods | |
CN104268556A (zh) | 一种基于核低秩表示图和空间约束的高光谱图像分类方法 | |
CN107895136B (zh) | 一种煤矿区域识别方法及系统 | |
CN104374739A (zh) | 一种基于近红外定性分析的种子品种真实性鉴别方法 | |
CN112766161B (zh) | 基于集成约束多示例学习的高光谱目标检测方法 | |
Liu et al. | Classification of urban hyperspectral remote sensing imagery based on optimized spectral angle mapping | |
Franceschi et al. | Self‐organizing maps: A versatile tool for the automatic analysis of untargeted imaging datasets | |
CN111222545A (zh) | 基于线性规划增量学习的图像分类方法 | |
Lee et al. | A multi-layer perceptron-based approach for early detection of BSR disease in oil palm trees using hyperspectral images | |
CN110110789A (zh) | 一种基于多谱图信息融合技术的中草药品质鉴别方法 | |
Yang et al. | Experimental analysis and evaluation of wide residual networks based agricultural disease identification in smart agriculture system | |
CN107203779A (zh) | 基于空谱信息保持的高光谱降维方法 | |
CN117789038B (zh) | 一种基于机器学习的数据处理与识别模型的训练方法 | |
CN103955711A (zh) | 一种成像光谱目标识别分析中的模式识别方法 | |
CN111896609B (zh) | 一种基于人工智能分析质谱数据的方法 | |
Chen et al. | Convolutional neural network-based pure paint pigment identification using hyperspectral images | |
CN109447009B (zh) | 基于子空间核范数正则化回归模型的高光谱图像分类方法 | |
CN116363503A (zh) | 基于目标-背景重构偏差的高光谱遥感图像目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |