CN112992286B

CN112992286B - 一种物质气味留香值快速获取方法

Info

Publication number: CN112992286B
Application number: CN202110395911.9A
Authority: CN
Inventors: 刘旗; 骆德汉; 温腾腾; 易海涛
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2023-08-15
Anticipated expiration: 2041-04-13
Also published as: CN112992286A

Abstract

本发明公开了一种物质气味留香值快速获取方法，属于机器嗅觉技术领域。所述方法包括步骤：获取已测留香值物质气味分子的物化特性数据；对物化特性数据预处理，得到训练样本；将所述训练样本输入初始随机森林模型训练；获取待测留香值的物化特性数据；然后进行预处理，得到待测物化特性数据；将所述待测数据输入完成训练随机森林模型，得到留香预测结果值。通过物质气味样本训练随机森林模型，利用完成训练随机森林模型获取目标对象的留香值，相比于现有技术通过人工嗅辩气味在试纸上最大保留天数来确定留香值的方案，避免了测试环境、受试者敏感度因素的影响，能提高物质气味留香值判断的准确度，减少获取留香值的成本。

Description

一种物质气味留香值快速获取方法

技术领域

本发明涉及机器嗅觉技术领域，更具体地，涉及一种物质气味留香值快速获取方法。

背景技术

调香是一门古老的艺术，在现代调香科学诞生前，调香创作几乎完全依赖于调香师的经验以及灵感迸发，为了使调香技艺理论化，解释现有的调香作品以及推演指导调香创作，调香三值理论便应运而生，调香三值理论中的留香值，作用是区分不同物质气味的持久性，是体现物质气味保持时长的一个参数。

现阶段，物质气味留香值的获取方式是通过人工嗅辩手段，根据气味在试纸上可以达到的最大保留天数来确定的。以人工嗅辨的方法获取留香值，耗时长、效率低、工序复杂，同时也易受到如测试环境、实验偏差、受试者敏感度和训练程度等多因素的影响，导致获取的留香值准确度不高；此外，如果需要获取大量化学物质的留香值，需要耗费大量时间和资源。

公开号为CN109541138A公开日：2019-03-29提出的一种香水留香时间加速测试仪及操作方法，通过风扇增大香组分分子的挥发速度，从而实现快速测试香水的留香时间，但通过该方法测定的留香值难以和未加速的实际留香值精确换算，且经过加速后，气味浓度变化加快，使得对留香值判断受到受试者敏感度的影响更大，判断更不精确。

因此，如何避免受到人工主观因素的影响，提高获取物质气味留香值的准确度，减少获取留香值的成本，是本领域亟需解决的技术问题。

发明内容

本发明为克服上述现有技术所述留香值测试受到人工主观因素的影响以及测试留香值成本高的缺陷，提供一种物质气味留香值快速获取方法，技术方案如下：

一种物质气味留香值快速获取方法，包括步骤：

S1、获取若干已测留香值的物质气味分子的物化特性数据；

S2、对步骤S1获取的物化特性数据进行预处理，得到物化特性数据训练样本；

S3、将所述物化特性数据训练样本输入初始随机森林模型进行模型训练，得到完成训练随机森林模型；

S4、获取待测留香值的物质气味分子的物化特性数据；

S5、对步骤S4获取的物化特性数据进行预处理，得到待测物化特性数据；

S6、将所述待测物化特性数据输入所述完成训练随机森林模型，完成训练随机森林模型预测所述待测物化特性数据的留香值。

上述技术方案通过物质气味样本训练随机森林模型，利用完成训练随机森林模型获取目标对象对应的留香值，相比于现有技术通过人工嗅辩气味在试纸上最大保留天数来确定留香值的方案，避免了测试环境、实验偏差、受试者敏感度和训练程度等诸多因素的影响，故能提高物质气味留香值判断的准确度，减少获取留香值的成本；此外，该方法直接根据物质气味分子的相关属性预测留香值，在需要获取大量目标对象的留香值时，可以节省大量时间和资源。

进一步地，步骤S1和步骤S4中，获取所述物化特性数据包括步骤：

S11、通过物质名称查询所述物质气味分子的CAS号；

S12、使用所述CAS号查询所述物质气味分子的SMILES表达式；

S13、通过化学分析软件计算所述SMILES表达式的物化特性数据。

上述技术方案是根据查询到的公开资料分析物质气味的物化特性数据分子描述符，还可以通过GC-MS检测直接获取物质气味分子的物化特性数据。

进一步地，步骤S2和步骤S5所述预处理包括步骤：

S21、剔除所述物化特性数据中一部分含有缺失值的特征；

S22、对步骤S21处理后的所述物化特性数据进行方差过滤；

S23、对步骤S22处理后的所述物化特性数据进行标准化处理；

S24、对步骤S23处理后的所述物化特性数据进行特征选择。

进一步地，步骤S21剔除所述物化特性数据中含有缺失值大于50％的特征，并对剩余的含有缺失值的特征进行中值插补。

进一步地，步骤S23所述标准化处理采用min-max标准化处理。

进一步地，在步骤S2所述预处理过程中，步骤S24所述特征选择采用Boruta特征选择算法，包括步骤：

S241、对所述物化特性数据中所有特征进行Shuffle得到阴影特征，将Shuffle后的阴影特征与物化特性数据的原始特征拼接成特征矩阵；

S242、使用所述特征矩阵作为输入，训练初始随机森林分类模型输出feature_importance；

S243、计算真实特征和阴影特征的Z_score；

S244、在阴影特征中找出最大的Z_score记为Z_max；

S245、将Z_socre大于Z_max的真实特征标记为"重要"，将Z_score小于Z_max的真实特征标记为"不重要"，并且将标记为"不重要"的真实特征标记从特征集合中永久剔除；

S246、重复上述1～5步骤，直到所有特征都被标记为"重要"或者"不重要"；

在步骤S4所述预处理过程中，步骤S24所述特征选择是按照步骤S2经过Boruta特征选择算法保留的特征，对所述物化特性数据中的特征进行筛选。

上述技术方案中，步骤S242所述feature_importance是指特征重要性：即每个特性对留香值的贡献度，也称特征贡献度。它以数值形式来表达，整体特征的贡献度和为1；所述Z_score是指每个特征重要性得分的标准差，所述标准差用作标准化单元处理，单个Z_score的计算方式为：

Z_score＝average_feature_importance/feature_importance的标准差。

进一步地，步骤S3所述模型训练包括步骤：

S31、将步骤S2预处理后的物化特性数据划分为训练集、验证集、测试集；

S32、将所述训练集数据输入所述初始随机森林模型进行模型训练；

S33、将所述验证集数据输入所述初始随机森林模型，寻找最佳的参数，得到完成训练随机森林模型；

S34、将所述测试集数据输入所述完成训练随机森林模型，测试完成训练随机森林模型预测留香值的准确率。

进一步地，步骤S32所述模型训练包括步骤：

S321、用Bagging算法构建子训练集；

S322、对于每个子训练集，生成一棵不剪枝的分类回归树，具体包括步骤：

所述物化特性数据训练样本中共有m个特征，首先给定一个正整数s，使其满足m>s，对于每个内部节点，从m个特征中随机抽取s个特征作为该内部节点的候选特征，在生成整个分类回归树森林的过程中，s不变；然后从s个特征中选出最优的分裂方式对该节点进行分裂；并且使每棵树充分成长，不进行剪枝；

S323、重复执行步骤S321和S322，直到生成n棵分类回归树；

S324、将验证集输入模型，对所述初始随机森林模型进行参数优化，获得训练好的随机森林模型。

进一步地，步骤S33所述参数包括ntrees和max_depth，其中ntrees表示随机森林中分类回归树的数量，max_depth表示分类回归树的深度；步骤S324中，所述验证集采用K折交叉验证法，对模型进行所述参数优化。

进一步地，步骤S6中，预测所述待测物化特性数据的留香值包括步骤：

S61、将未标记的物质气味留香值输入已训练好的随机森林模型，分别得到所述预设随机森林模型中各个分类回归树对应的留香时间预测值；

S62、统计各个分类回归树留香值的预测值，依据所述所述预测值投票数，以票数最多的预测值作为完成训练随机森林模型的留香值预测结果。

上述技术方案中，留香值预测结果为每个样本对应的留香值评分，评分范围为0—100(天)，评分分为为三个等级：1-14天头香,15-60天体香，61-100天基香，分数越大表示该气味留香持久时间越长。

与现有技术相比，本发明技术方案的有益效果是：

附图说明

图1为留香值快速获取方法流程图。

图2为获取物化特性数据流程图。

图3为预处理流程图。

图4为物质气味分子数据表。

图5为留香值快速获取系统架构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本发明提出物质气味留香值快速获取方法，其实施步骤如图1所示，包括如下详细步骤：

S1、获取若干已测留香值的物质气味分子的物化特性数据，所述已测留香值的物质气味分子数据表如图4所示；

图2为获取物化特性数据流程图，具体地，获取所述物化特性数据包括步骤：

S11、通过物质名称查询所述物质气味分子的CAS号；

所述CAS号全称是Chemical Abstracts Service，CAS号是美国化学会的下设组织化学文摘社为每一种化学物质设置的唯一编号，针对特定物质气味的CAS号可在化学数据网站(https://www.chemicalbook.com/)查询获取；

S12、使用所述CAS号查询所述物质气味分子的SMILES表达式；

SMILES表达式是简化分子线性输入规范，全称为Simplified molecular inputline entry specification，SMILES表达式使用ASCII字符串明确描述分子结构；使用所述CAS号到PubChem网站(https://pubchem.ncbi.nlm.nih.gov/)可查询并获取该物质气味的SMILES表达式；

S13、通过化学分析软件计算所述SMILES表达式的物化特性数据；

本实施例中，所述化学分析软件采用Dragon7.0，使用Dragon7.0计算5270维的物化特性数据，在本发明的其他实施例中，可根据实际情况更改获取物化特性数据的维数。

S2、对步骤S1获取的物化特性数据进行预处理，得到物化特性数据训练样本；步骤S1所获取的气味分子的物化特性数据需要做数据预处理，便于更好的进入模型，减小计算资源开销，由于气味分子的特性物化数据由化学分析仪器计算出来，有一些含有缺失值的数据我们要对其进行填补，缺失值较多的要进行删除，并且存在一些特征是几乎没有差别的需要将其进行删除，因为这部分特性对目标样本贡献率特别小，最后进行数据的标准化单元处理和特征选择；

所述预处理流程如图3所示，具体地，包括步骤：

S21、剔除所述物化特性数据中一部分含有缺失值的特征；

剔除所述物化特性数据中含有缺失值大于50％的特征，并对剩余的含有缺失值的特征进行中值插补；气体分子的原始样本物化特性数据具有小样本，高维度，强噪声，非线性的特点，由于原始样本物化特性数据的某些特征维度在指标上缺失较多，本实施例去除了60％以上含有缺失值的特征，将少量缺失的部分进行了中值插补，经过特征剔除后留下了631维特征；

S22、对步骤S21处理后的所述物化特性数据进行方差过滤；

S23、对步骤S22处理后的所述物化特性数据进行标准化处理；所述标准化处理采用min-max标准化处理；考虑到物化特性数据的不同属性值之间可能由于单位不同，有可能不利于进行比较分析，因此采用了min-max标准化处理；

S24、对步骤S23处理后的所述物化特性数据进行特征选择；

所述特征选择采用Boruta特征选择算法，包括步骤：

S243、计算真实特征和阴影特征的Z_score；

其中，Z_score＝average_oob_error/oob_error的标准差；

S244、在阴影特征中找出最大的Z_score记为Z_max；

S245、将Z_socre大于等于Z_max的真实特征标记为"重要"，将Z_score小于Z_max的真实特征标记为"不重要"，并且将标记为"不重要"的真实特征标记从特征集合中永久剔除；

所述模型训练包括步骤：

具体的，包括步骤：

S321、用Bagging算法构建子训练集；

S323、重复执行步骤S321和S322，直到生成n棵分类回归树；

所述参数包括ntrees和max_depth，其中ntrees表示随机森林中分类回归树的数量，max_depth表示分类回归树的深度；步骤S324中，所述验证集采用K折交叉验证法，对模型进行所述参数优化。

S4、获取待测留香值的物质气味分子的物化特性数据；

获取所述物化特性数据包括步骤：

S11、通过物质名称查询所述物质气味分子的CAS号；

S12、使用所述CAS号查询所述物质气味分子的SMILES表达式；

所述预处理包括步骤：

S21、剔除所述物化特性数据中一部分含有缺失值的特征；

剔除所述物化特性数据中含有缺失值大于50％的特征，并对剩余的含有缺失值的特征进行中值插补。

S22、对步骤S21处理后的所述物化特性数据进行方差过滤；

S23、对步骤S22处理后的所述物化特性数据进行标准化处理；

所述标准化处理采用min-max标准化处理；

S24、对步骤S23处理后的所述物化特性数据进行特征选择；

所述特征选择是按照步骤S2经过Boruta特征选择算法保留的特征，对所述物化特性数据中的特征进行筛选，保留Boruta特征选择算法标记为"重要"的特征；

具体的，包括步骤：

本实施例通过对物质气体分子的物化特性数据进行分析，预测留香值，所述物质包括化学物质、香料及香精；对于生理上的嗅觉机制研究表明嗅觉体验是嗅觉系统对物质气味的化学分子进行特异性编码加工的结果，物质气味与分子的轮廓等化学特征存在关联，这也证明气体的分子特性决定了人对物质气味的感知；通过气体的分子特性去预测其留香值，可以将气味特性与感官评价建立关联。

实施例2

一种物质气味留香值快速获取系统，其系统架构图如图5所示，包括：物化特性数据获取模块、数据预处理模块、随机森林模型训练模块、留香值输出模块；所述物化特性获取模块用于获取物质气味分子的物化特性数据，数据预处理模块对物质气味分子的物化特性数据进行预处理，随机森林模型训练模块利用经过预处理的物化特性数据训练随机森林模型，留香值输出模块对于输入的物化特性数据进行留香值预测并输出留香值结果。

所述物化特性数据获取模块包括CAS号查询单元、SMILES查询单元、化学分析单元；所述CAS号查询单元通过物质名称查询该物质对应的CAS号，SMILES查询单元通过CAS号查询该物质的SMILES表达式，化学分析单元对SMILES表达式进行分析获得该物质的物化特性数据。

所述数据预处理模块包括缺失值剔除单元、方差过滤单元、标准化处理单元，特征选择单元；所述缺失值剔除单元对化学分析得到的物化特性数据中的特征缺失值进行剔除，方差过滤单元对剔除缺失值后的物化特性数据进行方差过滤，标准化处理单元对经过方差过滤的物化特性数据进行标准化处理，特征选择单元对标准化处理后的物化特性数据进行特征选择。

所述随机森林模型训练模块包括模型训练单元、参数优化单元、准确率测试单元；首先将预处理后的物化特性数据分为训练集、验证集、测试集，所述训练单元利用训练集训练随机森林模型，所述参数优化单元利用验证集对经过训练的随机森林模型进行参数优化，所述测试单元利用测试集对参数优化后的随机森林模型的准确率进行测试。

所述留香值输出模块包括完成训练随机森林模型；对于待测留香值物质，完成训练随机森林模型利用预处理后的该物质的物化特性数据，对待测物质的留香值进行预测。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种物质气味留香值快速获取方法，其特征在于，包括步骤：

S1、获取若干已测留香值的物质气味分子的物化特性数据；

S4、获取待测留香值的物质气味分子的物化特性数据；

S6、将所述待测物化特性数据输入所述完成训练随机森林模型，完成训练随机森林模型预测所述待测物化特性数据的留香值；

步骤S2和步骤S5所述预处理包括步骤：

S21、剔除所述物化特性数据中一部分含有缺失值的特征；

S22、对步骤S21处理后的所述物化特性数据进行方差过滤；

S23、对步骤S22处理后的所述物化特性数据进行标准化处理；

S24、对步骤S23处理后的所述物化特性数据进行特征选择；

在步骤S2所述预处理过程中，步骤S24所述特征选择采用Boruta特征选择算法，包括步骤：

S243、计算真实特征和阴影特征的Z_score；

S244、在阴影特征中找出最大的Z_score记为Z_max；

S246、重复上述S241～S245步骤，直到所有特征都被标记为"重要"或者"不重要"；

2.根据权利要求1所述的一种物质气味留香值快速获取方法，其特征在于，步骤S1和步骤S4中，获取所述物化特性数据包括步骤：

S11、通过物质名称查询所述物质气味分子的CAS号；

S12、使用所述CAS号查询所述物质气味分子的SMILES表达式；

3.根据权利要求2所述的一种物质气味留香值快速获取方法，其特征在于，步骤S21剔除所述物化特性数据中含有缺失值大于50％的特征，并对剩余的含有缺失值的特征进行中值插补。

4.根据权利要求3所述的一种物质气味留香值快速获取方法，其特征在于，步骤S23所述标准化处理采用min-max标准化处理。

5.根据权利要求1所述的一种物质气味留香值快速获取方法，其特征在于，步骤S3所述模型训练包括步骤：

6.根据权利要求5所述的一种物质气味留香值快速获取方法，其特征在于，步骤S32将所述训练集数据输入所述初始随机森林模型进行模型训练包括步骤：

S321、用Bagging算法构建子训练集；

S323、重复执行步骤S321和S322，直到生成n棵分类回归树；

7.根据权利要求6所述的一种物质气味留香值快速获取方法，其特征在于，步骤S33所述参数包括ntrees和max_depth，其中ntrees表示随机森林中分类回归树的数量，max_depth表示分类回归树的深度；步骤S324中，所述验证集采用K折交叉验证法，对模型进行所述参数优化。

8.根据权利要求1所述的一种物质气味留香值快速获取方法，其特征在于，步骤S6中，预测所述待测物化特性数据的留香值包括步骤：

S61、将未标记的物质气味留香值输入已训练好的随机森林模型，分别得到预设随机森林模型中各个分类回归树对应的留香时间预测值；

S62、统计各个分类回归树留香值的预测值，依据所述预测值投票数，以票数最多的预测值作为完成训练随机森林模型的留香值预测结果。