CN116502130B - 一种藻源嗅味特征识别方法 - Google Patents
一种藻源嗅味特征识别方法 Download PDFInfo
- Publication number
- CN116502130B CN116502130B CN202310752287.2A CN202310752287A CN116502130B CN 116502130 B CN116502130 B CN 116502130B CN 202310752287 A CN202310752287 A CN 202310752287A CN 116502130 B CN116502130 B CN 116502130B
- Authority
- CN
- China
- Prior art keywords
- smell
- data
- algae
- macs
- organic matter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000195493 Cryptophyta Species 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000005416 organic matter Substances 0.000 claims abstract description 41
- 238000002826 magnetic-activated cell sorting Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000013145 classification model Methods 0.000 claims abstract description 13
- 238000010801 machine learning Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims description 40
- 238000004458 analytical method Methods 0.000 claims description 25
- 238000007637 random forest analysis Methods 0.000 claims description 21
- 238000012706 support-vector machine Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 6
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 claims description 5
- 241000207199 Citrus Species 0.000 claims description 4
- 235000020971 citrus fruits Nutrition 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 229910052717 sulfur Inorganic materials 0.000 claims description 4
- 239000011593 sulfur Substances 0.000 claims description 4
- DSSYKIVIOFKYAU-XCBNKYQSSA-N (R)-camphor Chemical compound C1C[C@@]2(C)C(=O)C[C@@H]1C2(C)C DSSYKIVIOFKYAU-XCBNKYQSSA-N 0.000 claims description 3
- 229940025250 camphora Drugs 0.000 claims description 2
- 239000010238 camphora Substances 0.000 claims description 2
- 239000000463 material Substances 0.000 abstract description 3
- 239000000126 substance Substances 0.000 description 21
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 8
- 150000001875 compounds Chemical class 0.000 description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 description 4
- 238000002290 gas chromatography-mass spectrometry Methods 0.000 description 4
- 230000001953 sensory effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 229910021529 ammonia Inorganic materials 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- -1 cleaners Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 241000723346 Cinnamomum camphora Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 239000005864 Sulphur Substances 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 229960000846 camphor Drugs 0.000 description 1
- 229930008380 camphor Natural products 0.000 description 1
- 235000013351 cheese Nutrition 0.000 description 1
- 238000009614 chemical analysis method Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 229940088679 drug related substance Drugs 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 235000019581 fat taste sensations Nutrition 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 239000003205 fragrance Substances 0.000 description 1
- 238000004817 gas chromatography Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 238000001819 mass spectrum Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002304 perfume Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A50/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
- Y02A50/20—Air quality improvement or preservation, e.g. vehicle emission control or emission reduction by using catalytic converters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种藻源嗅味特征识别方法,包括以下步骤:获取藻源致嗅有机物数据及质谱图数据;获取藻源致嗅有机物数据对应的MACCS有机物分子指纹和质谱图数据对应的MACCS分子指纹;采用藻源致嗅有机物嗅味类别数据中训练集对应的MACCS有机物分子指纹分别对不同机器学习模型进行训练,获得最优嗅味分类模型;采用嗅味阈值数据中训练集对应的MACCS有机物分子指纹分别对不同机器学习模型进行训练,获得最优嗅味阈值预测模型;将待测藻源致嗅有机物数据输入模型中,即可输出藻源致嗅有机物嗅味识别结果。本发明具有成本低廉、简便而快速、节省大量人力、物力和财力等特点。
Description
技术领域
本发明属于污染源识别检测领域,特别涉及一种藻源嗅味特征识别方法。
背景技术
藻源致嗅有机物识别的重要性在于:确定污染源,进而采取相应的控制和治理措施,避免环境污染的进一步扩散和加重。通过监测致嗅有机物浓度的变化实现环境预警与保护。目前,常见的嗅味识别检测方法主要有以下三种:
(1)人类感官评估检测:为最常见的嗅味识别方法之一,使用受试者进行感官评估。这些评估可以是定性的(即“好闻”或“不好闻”)或定量的(即使用数值评分来描述气味的强度、品质和持久性等)。该方法适用于许多领域,例如食品、香水、清洁剂、化妆品等,但是受试者的主观感受和个体差异会影响评估结果的准确性。
(2)电子鼻识别检测:电子鼻是一种基于化学传感器的嗅味检测技术,其工作原理类似于人类嗅觉系统。电子鼻由多个化学传感器和模式识别算法组成,当气味分子与传感器表面接触时,会引起传感器阻抗的变化。模式识别算法会对传感器阵列产生的信号进行分析和处理,从而识别气味分子的种类和浓度。该方法具有响应速度快、样品处理简单、具有较好的重现性和稳定性、可同时检测多个气味成分等优点,但同时也存在检测灵敏度较低、选择性和准确性受限、不能确定具体的化学成分等缺点。该方法适用于食品、药品、环境等领域中常见的气味成分的检测,如咖啡、奶酪、动物粪便等。
(3)气相色谱-质谱联用(GC-MS)识别检测:气相色谱-质谱联用是一种基于化学分离和检测的技术,它通过将样品挥发成气体,并利用气相色谱将混合物中的化学物质分离开来,再利用质谱对分离后的化学物质进行鉴定和定量分析。GC-MS能够对复杂的化学成分进行快速、精确的分析和鉴定,具有高灵敏度和高选择性、能够确定气味物质的化学成分、定量精度高等优点。因此在嗅味物质识别中具有很高的应用价值,但同时也存在分析过程复杂、需要样品处理、响应速度较慢、设备昂贵等缺点。该方法适用于各种嗅味物质的检测和鉴定,包括水、空气、土壤中的有机物质、化工产品等。
尽管现有的嗅味识别方法在某些方面已经取得了长足的进展,但仍然存在一些问题和挑战:例如,人类感官评估检测方法中,感观分析法依赖专业人员进行闻测,主观性强,重复性差,且容易产生嗅觉疲劳;电子鼻识别检测的化学分析法中,实验条件严苛,处理过程复杂,大多数现有技术都需要对样品进行处理或分离,需要一定的时间,无法实现实时监测,且水体中包含多种有机物,难以检测;气相色谱-质谱联用(GC-MS)识别检测中,使用的某些嗅味识别技术的设备成本较高,不适用于大规模的应用场景,并且难以确定复杂水体中嗅味来源等。
对于真实水体,难以确定其中的嗅味有机物。非靶向分析技术可以用于分析水中的复杂有机物,通过质谱数据(MS1和MS2光谱),可以获得数千个分子特征。其中,MS1光谱可以提供有关分子的亲水性和元素组成的信息,而MS2光谱可以用于识别和标记许多已知的气味剂的分子片段。
鉴于此,本发明提供了一种藻源嗅味特征识别方法以解决上述技术问题。
发明内容
针对上述现有技术存在的问题,本发明的目的在于提供了一种藻源嗅味特征识别方法,该方法具有成本低廉、简便而快速、可节省大量的人力、物力和财力等特点。
为了实现上述目的,本发明采用了如下技术方案:
一种藻源嗅味特征识别方法,包括以下步骤:
S1、获取藻源致嗅有机物数据以及质谱图数据,其中,所述藻源致嗅有机物数据包括藻源致嗅有机物嗅味类别数据和嗅味阈值数据,并分别将藻源致嗅有机物嗅味类别数据和嗅味阈值数据各自划分为测试集和训练集;
S2、获取藻源致嗅有机物数据对应的MACCS有机物分子指纹和质谱图数据对应的MACCS分子指纹,并将质谱图数据对应的MACCS分子指纹作为隐藏测试集;
S3、以嗅味类别作为标签,以精确度、召回率作为评价指标,采用藻源致嗅有机物嗅味类别数据中训练集对应的MACCS有机物分子指纹分别对若干个机器学习模型进行训练,并使用隐藏测试集进行模型验证,获得最优嗅味分类模型;
S4、以嗅味阈值作为标签,以R2、RMSE得分作为评价指标,采用嗅味阈值数据中训练集对应的MACCS有机物分子指纹分别对若干个机器学习模型进行训练,并使用隐藏测试集进行模型验证,获得最优嗅味阈值预测模型;
S5、将待测藻源致嗅有机物数据输入最优嗅味分类模型和最优嗅味阈值预测模型中,即可输出藻源致嗅有机物嗅味识别结果。
优选地,所述获取藻源致嗅有机物数据对应的MACCS有机物分子指纹,具体步骤为:通过藻源致嗅有机物的结构获得藻源致嗅有机物数据对应的SMILES,然后将SMILES转化为MACCS有机物分子指纹。
优选地,所述获取质谱图数据对应的MACCS分子指纹,具体步骤为:利用Sirius将质谱图数据转化为MACCS分子指纹,并将质谱图对应的MACCS分子指纹作为隐藏测试集。
优选地,所述步骤S3和S4中,若干个机器学习模型包括随机森林模型(RF)、神经网络模型(NN)和支持向量机模型(SVM)。
优选地,所述嗅味类别包括霉味、氨味、药味、樟脑味、柑橘味、硫磺味、脂肪味。
优选地,还包括S4'、基于SHAP分析方法对最佳嗅味分类预测模型进行解释,得到有机物特征与嗅味类别及嗅味阈值的影响关系,再进行AD分析,确定最佳嗅味分类预测模型和最优嗅味阈值预测模型的适用范围。
与现有技术相比,本发明具备以下有益效果:
(1)本发明中,通过有机物结构直接获取SMILES,基于SMILES得到该物质对应的MACCS指纹,以MACCS指纹作为嗅味类别预测模型和嗅味阈值预测模型的输入特征,能够实现对藻源致嗅有机物的嗅味类别及嗅味阈值的预测;通过Sirius软件将质谱图数据转化为MACCS分子指纹,同样以MACCS分子指纹作为嗅味类别预测模型和嗅味阈值预测模型的输入特征,这里将质谱图转化为分子指纹表示,不仅利用指纹特征同时表达了多种有机物特征,还可以作为模型的标准输入特征,通过直接输入训练好的模型即最优嗅味类别模型和最优嗅味阈值预测模型,实现了对藻源致嗅有机物的嗅味类别及嗅味阈值的预测,适用于非靶向识别过程;且最优模型既有统计意义又有化学意义,能说明有机物分子结构与嗅味之间的相关性,利于嗅味物质的溯源。
(2)本发明具有成本低廉、简便而快速、节省大量的人力、物力和财力等特点。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为藻源致嗅有机物嗅味分类及嗅味阈值预测流程图;
图2为基于随机森林的嗅味分类模型效果(a)训练集(b)测试集(c)隐藏测试集;
图3为三种嗅味阈值预测模型的预测效果:(a)为随机森林模型;(b)为SVM模型;(c)为神经网络模型;
图4基于SHAP分析方法对最佳嗅味分类预测模型进行的模型分析结果图:(a)为柑橘味物质SHAP分析结果;(b)为樟脑味物质SHAP分析结果;(c)为脂肪味物质SHAP分析结果;(d)为氨味物质SHAP分析结果;(e)为霉味物质SHAP分析结果;(f)为药味物质SHAP分析结果;(g)为硫磺味物质SHAP分析结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1
参照图1,本发明实施例提供了一种藻源嗅味特征识别方法,包括以下步骤:
S1、获取藻源致嗅有机物数据以及质谱图数据,其中,藻源致嗅有机物数据包括藻源致嗅有机物嗅味类别数据和嗅味阈值数据,并分别将藻源致嗅有机物嗅味类别数据和嗅味阈值数据各自划分为测试集和训练集;
具体地,对于嗅味,将藻源致嗅有机物数据归类为霉味、氨味、药味、樟脑味、柑橘味、硫磺味、脂肪味7个类别,从大量现有文献中,收集了1403个藻源致嗅有机物嗅味类别数据;对于嗅味阈值数据,取其log值,收集了1280个嗅味阈值数据,并分别将收集的藻源致嗅有机物嗅味类别数据和嗅味阈值数据中的80%的数据组成训练集,20%的数据组成测试集。其中,嗅味类别分析中,训练集数据个数为982个,测试集数据个数为421个;嗅味阈值预测中,训练集数据个数为896个,测试集数据个数为384个。
在实际应用中,由于水体环境的复杂性,难以直接通过仪器准确的识别所有有机物,因此本发明中除了以藻源致嗅有机物数据集作为模型的训练样本外,还收集了质谱图数据,具体地,从MassBank数据库中收集58个质谱图数据,作为隐藏测试集,其中用于嗅味分类和嗅味阈值模型的数据个数分别为16个和41个,以验证模型的适用性。
S2、获取藻源致嗅有机物数据对应的MACCS有机物分子指纹和质谱图数据对应的MACCS分子指纹,并将质谱图数据对应的MACCS分子指纹作为隐藏测试集;
具体地,通过藻源致嗅有机物结构获得分子表示(SMILES),然后将SMILES转化为MACCS有机物分子指纹,获取藻源致嗅有机物数据对应的MACCS有机物分子指纹;
由于质谱图以不同质荷比及相对强度来表征水体中的有机物类别及占比,而利用Sirius软件可进一步将质谱图数据转换为MACCS指纹表示,同时表征多种有机物的特征,并将质谱图对应的MACCS分子指纹作为隐藏测试集;
S3、以嗅味类别作为标签,以精确度、召回率作为评价指标,采用藻源致嗅有机物嗅味类别数据中训练集对应的MACCS有机物分子指纹分别对随机森林(RF)、神经网络(NN)和支持向量机(SVM)
进行训练,并使用藻源致嗅有机物嗅味类别中测试集对训练好的模型效果进行测试,使用隐藏测试集进行模型验证,获得最优嗅味分类模型;具体实验结果见表1-3和图2。
表1嗅味分类训练集模型效果
表2嗅味分类测试集模型效果
由上述表1结果可知,在嗅味分类模型构建的过程中,采用随机森林算法,在训练集上各类别平均精确度和召回率均达到了0.85;采用支持向量机和神经网络算法,在训练集上各类别平均精确度和召回率均达到了0.76。
由上述表2结果可知,在嗅味分类模型构建的过程中,采用随机森林算法,在测试集上各类别平均精确度和召回率均达到了0.77;采用支持向量机算法,在测试集上各类别平均精确度和召回率均达到了0.75;采用神经网络算法,在测试集上各类别平均精确度和召回率均达到了0.73。上述结果表明预测效果最好的模型为随机森林模型,并将训练后的随机森林模型作为最优嗅味分类模型。
表3 嗅味分类隐藏测试集模型效果
由上述表3结果可知,隐藏测试集采用随机森林算法,精确度和召回率分别达到了0.83和0.62;采用支持向量机算法和神经网络算法,精确度和召回率均分别达到了0.80和0.62。上述结果表明在采用随机森林算法时可以准确预测MS2质谱数据。
由图2结果可知,图2(a)为随机森林模型在训练集上的预测结果,各类别平均精确度、召回率均为0.85,图2(b)为随机森林模型在测试集上的预测结果,各类别平均精确度、召回率均为0.77,图2(c)为随机森林模型在隐藏测试集上的预测结果,各类别平均精确度、召回率分别为0.83和0.62。
S4、以嗅味阈值作为标签,以R2、RMSE得分作为评价指标,采用嗅味阈值训练集对应的MACCS有机物分子指纹分别对随机森林(RF)、神经网络(NN)和支持向量机(SVM)进行训练,并使用嗅味阈值数据中测试集对应的MACCS有机物分子指纹对训练好的模型效果进行测试,使用隐藏测试集进行模型验证,获得最优嗅味阈值预测模型;具体结果见图3所示,为三种嗅味阈值预测模型的预测效果:图3(a)为随机森林模型,其在训练集、测试集以及隐藏测试集上的R2得分分别为0.790、0.647、0.600;图3(b)为SVM模型,其在训练集、测试集以及隐藏测试集上的R2得分分别为0.712、0.588、0.546;图3(c)为神经网络模型,其在训练集、测试集以及隐藏测试集上的R2得分分别为0.748、0.576、0.482;结果表明预测效果最好的模型为随机森林模型,并将训练后的随机森林模型作为最优嗅味阈值预测模型。
S4'、基于SHAP分析方法对最优嗅味分类预测模型进行解释,得到有机物特征与嗅味类别及嗅味阈值的影响关系;再进行AD分析,确定模型适用范围。其中,有机物特征与嗅味类别及嗅味阈值的影响关系的实验结果见图4所示,为基于SHAP分析方法对最佳嗅味分类预测模型进行的模型解释分析,横坐标的SHAP值表示对应特征对预测结果的影响程度,纵坐标对应MACCS分子指纹的序号,由图4结果可知,序号89位的分子指纹与4种嗅味类别(柑橘味、脂肪味、霉味、硫味)均具有较强相关性。
再进行AD分析,AD分析结果见下表4和表5。
表4.对最优嗅味分类模型进行AD分析结果
表5对最优嗅味阈值预测模型进行AD分析结果
阈值 | 数量 | R2测试 | RMSE测试 |
0.03 | 10 | 0.647 | 0.968 |
0.04 | 13 | 0.649 | 0.965 |
0.05 | 28 | 0.645 | 0.967 |
由上述表4结果可知,阈值为0.03时,精确度和召回率均达到了0.77,阈值外的化合物数量为3;阈值为0.04时,精确度和召回率均达到了0.77,阈值外的化合物数量为5;阈值为0.05时,精确度和召回率分别达到了0.77和0.76,阈值外的化合物数量为17。结果表明,阈值为0.03时,本发明实施例中的最优嗅味分类模型的预测性能最好,阈值外的化合物数量最少。
由上述表5结果可知,对于嗅味阈值模型,阈值为0.03时,R2和RMSE分别达到了0.647和0.968,阈值外的化合物数量为10;阈值为0.04时,R2和RMSE分别达到了0.649和0.965,阈值外的化合物数量为13;阈值为0.05时,R2和RMSE分别达到了0.645和0.967,阈值外的化合物数量为28。结果表明,阈值为0.04时,本发明实施例中的最优嗅味阈值预测模型的预测性能最好,阈值外的化合物数量最少。
S5、将待测藻源致嗅有机物数据输入最优嗅味分类模型和最优嗅味阈值预测模型中,即可输出藻源致嗅有机物嗅味识别结果。
本发明不局限于上述具体的实施方式,本领域的普通技术人员从上述构思出发,不经过创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。
Claims (6)
1.一种藻源嗅味特征识别方法,其特征在于,包括以下步骤:
S1、获取藻源致嗅有机物数据集以及质谱图数据集,其中,所述藻源致嗅有机物数据集包括藻源致嗅有机物嗅味类别数据和嗅味阈值数据,并分别将藻源致嗅有机物嗅味类别数据和嗅味阈值数据各自划分为测试集和训练集;
S2、获取藻源致嗅有机物数据对应的MACCS有机物分子指纹和质谱图数据对应的MACCS分子指纹,并将质谱图数据对应的MACCS分子指纹作为隐藏测试集;
S3、以嗅味类别作为标签,以精确度、召回率作为评价指标,采用藻源致嗅有机物嗅味类别数据中训练集对应的MACCS有机物分子指纹分别对若干个机器学习模型进行训练,并使用隐藏测试集进行模型验证,获得最优嗅味分类模型;
S4、以嗅味阈值作为标签,以R2、RMSE得分作为评价指标,采用嗅味阈值数据中训练集对应的MACCS有机物分子指纹分别对若干个机器学习模型进行训练,并使用隐藏测试集进行模型验证,获得最优嗅味阈值预测模型;
S5、将待测藻源致嗅有机物数据输入最优嗅味分类模型和最优嗅味阈值预测模型中,即可输出藻源致嗅有机物嗅味识别结果。
2.根据权利要求1所述的一种藻源嗅味特征识别方法,其特征在于,所述获取藻源致嗅有机物数据对应的MACCS有机物分子指纹,具体步骤为:根据藻源致嗅有机物结构获得藻源致嗅有机物数据对应的SMILES,然后将SMILES转化为MACCS有机物分子指纹。
3.根据权利要求1所述的一种藻源嗅味特征识别方法,其特征在于,所述获取质谱图数据对应的MACCS分子指纹,具体步骤为:利用Sirius将质谱图数据转化为MACCS分子指纹,并将质谱图对应的MACCS分子指纹作为隐藏测试集。
4.根据权利要求1所述的一种藻源嗅味特征识别方法,其特征在于,所述步骤S3和S4中,若干个机器学习模型包括随机森林模型、神经网络模型和支持向量机模型。
5.根据权利要求1所述的一种藻源嗅味特征识别方法,其特征在于,所述嗅味类别包括霉味、氨味、药味、樟脑味、柑橘味、硫磺味、脂肪味。
6.根据权利要求1所述的一种藻源嗅味特征识别方法,其特征在于,还包括S4'、基于SHAP分析方法对最佳嗅味分类预测模型进行解释,得到有机物特征与嗅味类别及嗅味阈值的影响关系,再进行AD分析,确定最优嗅味阈值预测模型和最优嗅味阈值预测模型的适用范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310752287.2A CN116502130B (zh) | 2023-06-26 | 2023-06-26 | 一种藻源嗅味特征识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310752287.2A CN116502130B (zh) | 2023-06-26 | 2023-06-26 | 一种藻源嗅味特征识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116502130A CN116502130A (zh) | 2023-07-28 |
CN116502130B true CN116502130B (zh) | 2023-09-15 |
Family
ID=87323437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310752287.2A Active CN116502130B (zh) | 2023-06-26 | 2023-06-26 | 一种藻源嗅味特征识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116502130B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111724868A (zh) * | 2020-05-06 | 2020-09-29 | 嘉兴汇智诚电子科技有限公司 | 一种voc气味评级模型及优化方法 |
CN112992286A (zh) * | 2021-04-13 | 2021-06-18 | 广东工业大学 | 一种物质气味留香值快速获取方法 |
CN113340943A (zh) * | 2021-06-02 | 2021-09-03 | 舟山市自来水有限公司 | 一种基于指纹图谱的水体中嗅味类型和嗅味强度的分析方法 |
WO2021188992A1 (en) * | 2020-03-19 | 2021-09-23 | New York University | Odor comparator |
CN113962380A (zh) * | 2020-07-20 | 2022-01-21 | 广东美的白色家电技术创新中心有限公司 | 嗅味阈值预测方法、装置和家电设备 |
CN114414689A (zh) * | 2022-01-14 | 2022-04-29 | 南京大学 | 一种基于超高效液相色谱高分辨率质谱的全氟化合物非靶向定量方法 |
CN115050428A (zh) * | 2022-06-10 | 2022-09-13 | 华南理工大学 | 基于深度学习融合分子图及指纹的药物性质预测方法及系统 |
CN115329819A (zh) * | 2022-08-24 | 2022-11-11 | 东北电力大学 | 一种用于嗅觉感知数据分析的时空融合数据增强方法 |
CN115691691A (zh) * | 2022-12-03 | 2023-02-03 | 湖南大学 | 一种基于机器学习的新污染物反应活性预测方法 |
CN115795367A (zh) * | 2023-01-29 | 2023-03-14 | 湖南大学 | 基于机器学习的藻华爆发预测方法及应用 |
WO2023035745A1 (zh) * | 2021-09-08 | 2023-03-16 | 汉王科技股份有限公司 | 嗅觉受体筛选、模型训练、酒类产品鉴定的方法与装置 |
CN116008245A (zh) * | 2022-06-23 | 2023-04-25 | 广东省人民医院 | 桑叶拉曼光谱指纹图谱的建立结合机器学习算法在桑叶属地来源鉴定中的应用 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI676940B (zh) * | 2018-08-29 | 2019-11-11 | 國立交通大學 | 以機械學習為基礎之最佳化預測模型的建立與預測結果的取得系統及方法 |
EP3712897A1 (en) * | 2019-03-22 | 2020-09-23 | Tata Consultancy Services Limited | Automated prediction of biological response of chemical compounds based on chemical information |
US20200399558A1 (en) * | 2019-06-21 | 2020-12-24 | The Regents Of The University Of California | Methods for identifying, compounds identified and compositions thereof |
EP4130736A4 (en) * | 2020-03-30 | 2024-05-29 | Ajinomoto Kk | METHOD FOR PREDICTING THE PRESENCE OR ABSENCE OF AROMATIC PROPERTIES OR OLFACTORY RECEPTOR ACTIVATION PROPERTIES IN A SUBSTANCE |
-
2023
- 2023-06-26 CN CN202310752287.2A patent/CN116502130B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021188992A1 (en) * | 2020-03-19 | 2021-09-23 | New York University | Odor comparator |
CN111724868A (zh) * | 2020-05-06 | 2020-09-29 | 嘉兴汇智诚电子科技有限公司 | 一种voc气味评级模型及优化方法 |
CN113962380A (zh) * | 2020-07-20 | 2022-01-21 | 广东美的白色家电技术创新中心有限公司 | 嗅味阈值预测方法、装置和家电设备 |
CN112992286A (zh) * | 2021-04-13 | 2021-06-18 | 广东工业大学 | 一种物质气味留香值快速获取方法 |
CN113340943A (zh) * | 2021-06-02 | 2021-09-03 | 舟山市自来水有限公司 | 一种基于指纹图谱的水体中嗅味类型和嗅味强度的分析方法 |
WO2023035745A1 (zh) * | 2021-09-08 | 2023-03-16 | 汉王科技股份有限公司 | 嗅觉受体筛选、模型训练、酒类产品鉴定的方法与装置 |
CN114414689A (zh) * | 2022-01-14 | 2022-04-29 | 南京大学 | 一种基于超高效液相色谱高分辨率质谱的全氟化合物非靶向定量方法 |
CN115050428A (zh) * | 2022-06-10 | 2022-09-13 | 华南理工大学 | 基于深度学习融合分子图及指纹的药物性质预测方法及系统 |
CN116008245A (zh) * | 2022-06-23 | 2023-04-25 | 广东省人民医院 | 桑叶拉曼光谱指纹图谱的建立结合机器学习算法在桑叶属地来源鉴定中的应用 |
CN115329819A (zh) * | 2022-08-24 | 2022-11-11 | 东北电力大学 | 一种用于嗅觉感知数据分析的时空融合数据增强方法 |
CN115691691A (zh) * | 2022-12-03 | 2023-02-03 | 湖南大学 | 一种基于机器学习的新污染物反应活性预测方法 |
CN115795367A (zh) * | 2023-01-29 | 2023-03-14 | 湖南大学 | 基于机器学习的藻华爆发预测方法及应用 |
Non-Patent Citations (4)
Title |
---|
Molecular insights towards changing behaviors of organic matter in a full-scale water treatment plant using FTICR-MS;Shunkai Xu 等;《Chemosphere》;1-11 * |
Predictive models for the aqueous phase reactivity of inorganic radicals with organic micropollutants;Pin Wang 等;《Chemosphere》;1-8 * |
基于化学指纹图谱的茶树新品系丽早香识别研究;潘建义;成浩;王丽鸳;马军辉;陈香云;;浙江农业学报(第10期);99-104 * |
基于深度学习的藻类混凝去除率预测方法;周石庆 等;《湖南大学学报(自然科学版)》;第49卷(第9期);215-220 * |
Also Published As
Publication number | Publication date |
---|---|
CN116502130A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Recent progress in food flavor analysis using gas chromatography–ion mobility spectrometry (GC–IMS) | |
Garrido-Delgado et al. | Detection of adulteration in extra virgin olive oils by using UV-IMS and chemometric analysis | |
CN106501470B (zh) | 利用味觉系统与电子鼻联合评价芥辣酱风味等级的方法 | |
Biasioli et al. | PTR-MS monitoring of VOCs and BVOCs in food science and technology | |
Di Rosa et al. | Botanical origin identification of Sicilian honeys based on artificial senses and multi-sensor data fusion | |
CN102778442B (zh) | 一种快速鉴别烟用香液料液种类的方法 | |
Giungato et al. | Synergistic approaches for odor active compounds monitoring and identification: State of the art, integration, limits and potentialities of analytical and sensorial techniques | |
CN101470121A (zh) | 一种嵌入式仿生嗅觉气味识别方法及装置 | |
CN101493431A (zh) | 利用电子鼻检测鸡肉新鲜度的方法 | |
Jiang et al. | A novel data fusion strategy based on multiple intelligent sensory technologies and its application in the quality evaluation of Jinhua dry-cured hams | |
Zhang et al. | ‘Sensory analysis’ of Chinese vinegars using an electronic nose | |
Schuhfried et al. | Classification of 7 monofloral honey varieties by PTR-ToF-MS direct headspace analysis and chemometrics | |
CN106841083A (zh) | 基于近红外光谱技术的芝麻油品质检测方法 | |
de Lima et al. | Methods of authentication of food grown in organic and conventional systems using chemometrics and data mining algorithms: A review | |
CN106706546A (zh) | 一种基于红外和拉曼光谱数据的人工智能学习物质分析方法 | |
Pérez-Jiménez et al. | Application of untargeted volatile profiling and data driven approaches in wine flavoromics research | |
CN107300620A (zh) | 一种基于maldi‑tof‑ms的死宰肉鉴别方法及系统 | |
Soh et al. | Development of neural network-based electronic nose for herbs recognition | |
Putri et al. | Rapid analysis of meat floss origin using a supervised machine learning-based electronic nose towards food authentication | |
CN116502130B (zh) | 一种藻源嗅味特征识别方法 | |
Liu et al. | Colorimetric sensor array combined with chemometric methods for the assessment of aroma produced during the drying of tencha | |
CN113340943A (zh) | 一种基于指纹图谱的水体中嗅味类型和嗅味强度的分析方法 | |
CN108362782A (zh) | 一种基于超高效液相质谱串联四级杆飞行时间质谱鉴定五常大米真伪的方法 | |
Ta et al. | Wine component tracing method based on near infrared spectrum fusion machine learning | |
CN111289451B (zh) | 复杂光谱组分浓度定量计算的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |