一种基于图像识别的色谱图自动分析方法
技术领域
本发明涉及色谱数据分析领域,特别涉及一种基于图像识别的色谱图自动分析方法。
背景技术
气相色谱质谱联用仪(GCMS),广泛应用于环保行业、电子行业、纺织品行业、石油化工、香精香料行业、医药行业、农业及食品安全等领域;环境中有机污染物分析(空气、水质、土壤中污染分析);农残、兽残、药残分析;香精香料香气成分分析;纺织品行业中的有害物质检测。
GCMS结合了气相色谱和质谱的特性,在分析数据的自动采集和分析方面,气相色谱质谱联用仪(GCMS)已经是各类检测机构用于化学研究和有机物分析的仪器,在试样中鉴别不同物质的方法,它通过色谱柱将化合物分离开,各组分按时间顺序进入离子源,所产生的离子经质谱仪不断进行扫描测量,得到各化合物的总离子色谱图和对应的特征谱图文件。
现有的GCMS色谱图检测算法,通常是针对常规峰型的检测,对于特殊的峰型的检测会存在识别准确率较低以及漏检的问题。
发明内容
为了克服现有技术的上述缺点与不足,本发明的目的在于提供一种基于图像识别的色谱图自动分析方法,解决了传统算法在特殊色谱上识别准确率较低以及漏检的问题,提高算法检测性能,同时摆脱谱图需要人工二次分析的限制,实现谱图自动化定性定量分析。
本发明的目的通过以下技术方案实现:
一种基于图像识别的色谱图自动分析方法,包括以下步骤:
S1对标准谱图库中的目标化合物的谱图样本,根据目标化合物的性质,对样本进行分类标注,得到目标化合物的分类样本集;所述分类包括色谱峰的峰型类别、图谱特征类别、峰特殊形态类别中的一种以上;
S2 YOLOv5模型的建立:
S21将分类样本集中的样本划分为训练集和验证集;
S22使用YOLOv5骨干网络对训练集内的样本进行多尺度特征提取,得到多尺度特征图,然后对多尺度特征图进行多尺度特征融合,得到训练样本的特征;
S23根据目标化合物的性质,建立一个或多个YOLOv5检测模型;所述YOLOv5检测模型包括色谱峰的峰型类别检测模型、图谱特征类别检测模型、峰特殊形态类别检测模型中的一种以上;
S24将步骤S22得到的训练样本的特征输入参数设置后的一个或多个YOLOv5模型进行训练,得到一个或多个目标检测模型;
S3待检测的色谱图像的识别分析:
S31对待检测色谱图像进行多尺度特征提取,得到待检测色谱图像的特征;
S32将待检测色谱图像的特征同时输入到一个或多个训练好的目标检测模型,获取检测模型针对待检测色谱图像而输出的目标物标识框、置信度以及类别信息;根据目标物标识框所限定的图像区域,收集其识别类别、匹配度以及目标物标识框坐标信息;
S33将YOLOv5模型识别得到的待检测的图像的色谱峰的识别匹配度、保留时间偏差、浓度与预设条件进行比较,将满足以下任一条件的色谱峰判定为阴性:
谱峰的识别匹配度低于预设值;
谱峰与标准物质谱峰的保留时间偏差大于预设值;
谱峰定量浓度低于预设值;
S34删除阴性的色谱峰;
S35对识别到的色谱峰进行定量分析:
计算色谱峰的浓度值;通过目标检测模型的识别结果,计算识别到的色谱峰的保留时间、匹配度以及标示框坐标;
S4最后将化合物的分析结果输出。
优选的,步骤S1中所述峰型类别包括单峰、群峰、油包峰中的一种以上。
优选的,步骤S1中所述图谱特征包括色谱峰全峰、色谱峰的某一部分中的一种以上。
优选的,步骤S1中还包括数据增强步骤:
将分类样本集中的多张不同的色谱图像进行拼接,将分类样本集更新为拼接后的色谱图像的集合。
优选的,所述拼接包括随机缩放、随机裁剪和随机排布方式中的一种以上。
优选的,步骤S22所述对多尺度特征图进行多尺度特征融合,具体为:
通过FPN和PAN结构对多尺度特征图进行多尺度特征融合。
优选的,所述浓度通过对色谱峰的面积换算得到。
优选的,步骤S35之后还进行以下步骤:
对漏检的色谱峰进行积分重构,再通过校正曲线计算出漏检的色谱峰的浓度值;所述漏检的色谱峰为目标检测模型检测到的且现有资料未记载的色谱峰。
优选的,所述目标检测模型在训练过程中使用梯度下降算法进行学习。
优选的,步骤S4所述分析结果,具体包括:
化合物浓度值、保留时间、匹配度以及标示框坐标。
与现有技术相比,本发明具有以下优点和有益效果:
(1)本发明基于图像识别的色谱图自动分析方法,实现了色谱图的自动化分析,是在分析软件的基础上运用神经网络和计算机视觉算法,将人工操作分析软件进行谱峰数据处理的经验整合到神经网络中,让其接替人工进行软件操作,数据判断,摆脱了需要工程师人工分析的限制,不但能提高数据分析效率,提高实验室测试产能,还能节约人力成本。
(2)本发明的基于图像识别的色谱图自动分析方法,无需对色谱进行去噪,无需进行基线校准、无需对原始图像进行灰度处理,可同时适用各种特殊峰型的检测。
(3)本发明的基于图像识别的色谱图自动分析方法,识别准确率较高,解决了现有技术中的漏检的问题。
附图说明
图1为本发明的实施例的基于图像识别的色谱图自动分析方法的流程图。
具体实施方式
下面结合实施例,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例的基于图像识别的色谱图自动分析方法,包括以下步骤:
S1对目标化合物的标准谱图库进行学习:
S11对标准谱图库中的目标化合物的谱图样本,根据目标化合物的性质,对样本进行分类标注,得到目标化合物的分类样本集;所述分类包括色谱峰的峰型类别、图谱特征类别、峰特殊形态类别中的一种以上;
所述峰型类别包括:单峰、群峰、油包峰;
所述图谱特征为:色谱峰全峰以及色谱峰的某一部分都可以选取作为其用于识别的图谱特征,如色谱峰左侧部分、色谱峰的右侧部分、色谱峰的上部分、色谱峰的下部分,具体选取部分根据当前色谱峰可能表现的复杂程度进行选用或调整选用部位;如对邻苯二甲酸二异壬酯(简称DINP)的图谱进行特征选取:选用DINP的整峰作为第一个识别特征、左半侧作为二个特征、选用峰右半侧作为第三个特征;
S12数据增强:将分类样本集中多张不同的色谱图像,按照随机缩放、随机裁剪和随机排布等的方式进行拼接,将分类样本集更新为拼接后的色谱图像的集合。
S2建立YOLOv5模型:
S21将分类样本集中的谱图样本,按7:3的比例进行划分为训练集和验证集;
S22使用YOLOv5骨干网络对训练集内的样本进行多尺度特征提取,得到多尺度特征图,然后通过FPN和PAN结构对图像对多尺度特征图进行多尺度特征融合,实现包含浅层、中层以及高层信息的特征融合,得到训练样本的特征;
S23根据目标化合物的性质,建立一个或多个YOLOv5检测模型;所述YOLOv5检测模型包括峰型类别检测模型、图谱特征类别检测模型以及峰特殊形态检测模型中的一个以上;如对DEHP,即邻苯二甲酸二(2-乙基己基)酯这种化合物构建其检测模型,会对其同时建立DEHP提取离子色谱图全峰检测模型、DEHP提取离子色谱图左半侧峰特征检测模型、DEHP极小状态峰特殊形态检测模型,其中DEHP的提取离子色谱图为其定性离子和定量离子叠加构成的色谱图;提取离子色谱图的离子使用种类及数量,视当前化合物的性质而定;
本实施例的YOLOV5检测模型结构包括输入端、Backbone、Neck、Prediction四部分。输入端:数据增强、自适应描框计算、自适应图片缩放;Backbone:Focus结构(对特征图进行切片操作),CSP结构(增强CNN学习能力,来源于CSPNet网络结构);Neck:FPN+PAN结构,加强网络特征融合的能力;输出端:GIOU_Loss(Bounding box的损失函数),nms非极大值抑制(目标检测的后处理过程中,针对很多目标框的筛选);
利用图谱特征类别检测模型得到的信息进行分析,根据目标检测化合物的性质,将图谱特征分为强代表性特征和弱代表性特征,对于强代表性特征,该图谱特征的检出可判定为对该待测化合物目标色谱峰的检出;对于弱代表性特征时,则需要目标待测色谱峰同时满足多个弱代表性特征的检出时,才可判定对该待测化合物目标色谱峰的检出;
S24将步骤S22得到的训练样本的特征输入参数设置后的YOLOv5模型进行训练,得到目标检测模型;训练过程中使用梯度下降算法进行学习;本实施例的YOLOv5模型根据不同化合物的色谱图的复杂程度调整网络的具体深度和特征图宽度;对复杂程度低的特征使用小网络进行检测识别;对于复杂程度高的特征,其检测网络来源于对原最小检测网络加深和加宽。
S3待检测的色谱图像的识别分析:
S31对待检测色谱图像进行多尺度特征提取,得到待检测色谱图像的特征;
S32将待检测色谱图像的特征输入至训练好的目标检测模型中,获取目标检测模型针对目标图像输出的目标物标识框、置信度以及类别信息;根据目标物标识框所限定的图像区域,收集其识别类别、匹配度以及目标物标识框坐标信息;
S33将YOLOv5模型识别得到的待检测的图像的色谱峰的识别匹配度、保留时间偏差以及浓度与预设条件进行比较,将满足以下任一条件的色谱峰判定为阴性:
谱峰的识别匹配度低于预设值;
谱峰与标准物质谱峰的保留时间偏差大于预设值;
谱峰定量浓度低于预设值;
其中,浓度由通过校准曲线对色谱峰的面积换算得到;
其中,所述的保留时间偏差,由标准物质中的目标化合物出峰时间的计算比较得到,标准物质中的目标化合物和待检测色谱峰的保留时间通过识别模型返回的标示框坐标换算得到;
S34删除阴性的色谱峰;
S35对识别到的色谱峰进行定量分析:
通过校正曲线计算色谱峰的浓度值;通过检测模型的识别结果,计算收集其识别到的色谱峰的保留时间、匹配度以及标示框坐标;
S36对漏检的色谱峰进行积分重构,再通过校正曲线计算出漏检的色谱峰的浓度值;
其中,所述漏检的色谱峰为目标检测模型检测到的且现有资料未记载的色谱峰;
所述的积分重构具体为:对需要积分但又未进行积分的色谱峰进行积分、对积分不完整/积分超过预定范围的色谱峰进行积分调整、对不需要积分但已进行积分的色谱峰去除积分;
S4最后将化合物的分析结果输出;所述的分析结果,包含化合物浓度值、保留时间、匹配度以及标示框坐标。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。