CN110411955A - 一种基于分子特征预测物质颜色气味的人工智能训练系统 - Google Patents

一种基于分子特征预测物质颜色气味的人工智能训练系统 Download PDF

Info

Publication number
CN110411955A
CN110411955A CN201910636729.0A CN201910636729A CN110411955A CN 110411955 A CN110411955 A CN 110411955A CN 201910636729 A CN201910636729 A CN 201910636729A CN 110411955 A CN110411955 A CN 110411955A
Authority
CN
China
Prior art keywords
color
substance
predicting
smell
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910636729.0A
Other languages
English (en)
Other versions
CN110411955B (zh
Inventor
林浩添
张夏茵
张凯
林铎儒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongshan Ophthalmic Center
Original Assignee
Zhongshan Ophthalmic Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongshan Ophthalmic Center filed Critical Zhongshan Ophthalmic Center
Priority to CN201910636729.0A priority Critical patent/CN110411955B/zh
Publication of CN110411955A publication Critical patent/CN110411955A/zh
Application granted granted Critical
Publication of CN110411955B publication Critical patent/CN110411955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biochemistry (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medicinal Chemistry (AREA)
  • Food Science & Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于分子特征预测物质颜色气味的人工智能训练系统,用于根据训练集训练出基于分子特征预测物质颜色/气味的机器学习模型,所述训练集包括已知颜色/气味的不同分子结构的物质样本,包括:描述符提取模块,用于提取所述物质样本的分子描述符;特性分类模块,用于根据所述物质样本的颜色/气味进行分类;模型训练模块,用于根据所述描述符提取模块所提取物质样本的分子描述符和所述特性分类模块所进行的分类,训练机器学习模型。本发明基于物质的分子描述符与物质的颜色/气味形成之间的关系,训练机器学习模型,从而能较准确地预测物质的颜色/气味。

Description

一种基于分子特征预测物质颜色气味的人工智能训练系统
技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种基于分子特征预测物质颜色气味的人工智能训练系统。
背景技术
物质的颜色及气味都与其本身的理化属性息息相关。目前,关于物质颜色的解释,多集中于电荷迁移、能带理论、晶体的色心论和光的散射等,没有可以精准预测颜色的相关算法。关于物质颜色及气味的关系,既往研究通过人群开展相关实验,结果显示为颜色可以引起的气味强度增加,也就是有色的物质发出的气味更强,但并没有研究者从物质出发解释物质与气味之间的关系。
现有对物质颜色/气味的研究停留于物理和化学理论的解释,仅停留在理论基础,既无法将所有理论相互关联,也无法应用于实际化学试剂的制备、颜料的制作、燃料的制作等。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷(不足),提供一种基于分子特征预测物质颜色气味的人工智能训练系统,基于物质的分子描述符与物质的颜色/气味形成之间的关系,训练机器学习模型,从而能较准确地预测物质的颜色/气味。
本发明采取的技术方案是:
一种基于分子特征预测物质颜色气味的人工智能训练系统,用于根据训练集训练出基于分子特征预测物质颜色/气味的机器学习模型,所述训练集包括已知颜色/气味的不同分子结构的物质样本,包括:
描述符提取模块,用于提取所述物质样本的分子描述符;
特性分类模块,用于根据所述物质样本的颜色/气味进行分类;
模型训练模块,用于根据所述描述符提取模块所提取物质样本的分子描述符和所述特性分类模块所进行的分类,训练机器学习模型。
基于物质的分子描述符与物质的颜色/气味形成之间的关系,可以根据包括已知颜色/气味的物质样本的训练集,训练机器学习模型。当需要预测某物质的颜色/气味时,可以提取该物质的分子描述符并输入训练好的机器学习模型中,得到颜色/气味的分类结果,从而可以预测该物质的颜色/气味。
进一步地,所述人工智能训练系统还包括:
颜色/气味预测模块,用于将所述描述符提取模块所提取物质样本的分子描述符输入所述模型训练模块所训练好的机器学习模型中预测物质的颜色/气味;
预测精度统计模块,用于统计所述颜色/气味预测模块预测物质颜色/气味的精度;
分子描述符筛选模块,用于采用遗传算法并以所述预测精度统计模块所统计的精度作为所述遗传算法的适应度评价函数,筛选出若干个对预测起最大作用的分子描述符。
在通过机器学习模型预测物质的颜色/气味时,并不是所有分子描述符对预测都起作用,有一些分子描述符与物质颜色/气味的形成并没有形成关系。将对预测起最大作用的若干个分子描述符筛选出来,可以无需通过机器学习模型进行预测,直接利用该若干个分子描述符进行预测。将遗传算法与机器学习算法相结合,可以得到对预测有起作用的分子描述符,并从中筛选出若干个对预测起最大作用的分子描述符。
进一步地,所述分子描述符筛选模块,具体用于:
根据所述颜色/气味预测模块预测物质颜色/气味的过程对每个物质进行基因编码;
执行进化过程算法:以所述预测精度统计模块所统计的精度作为所述遗传算法的适应度评价函数评价所述基因编码的适应度,根据所述适应度进行基因编码的选择;
对选择的基因编码进行交叉运算和/或变异运算,继续执行所述进化过程算法,直到满足结束条件,得到进化完的基因编码,根据所述进化完的基因编码筛选出若干个对预测起最大作用的分子描述符。
进一步地,所述分子描述符筛选模块具体用于根据所述颜色/气味预测模块预测物质颜色/气味的过程对每个物质进行基因编码的步骤,具体包括:
采用二进制编码对每个物质进行基因编码,根据所述颜色/气味预测模块预测某个物质的颜色/气味时每个分子描述符是否参与预测,确定该个物质每个分子描述符对应的编码是1或0。
进一步地,所述分子描述符包括组成原子类型、官能团、片段计数、拓扑、几何描述符、三维描述符的其中一种或多种。
进一步地,所述特性分类模块用于根据所述物质样本的颜色进行分类的步骤,具体为:根据所述物质样本的颜色对物质样本分为黄色、白色、橙色、红色、紫色、绿色、蓝色、棕色、琥珀色、灰色、黑色、无色的其中多种。
进一步地,所述特性分类模块用于根据所述物质样本的气味进行分类的步骤,具体为:根据所述物质样本的气味对物质样本分为氨味、芳香味、特征性气味、花味、水果味、温和的、令人愉悦的、令人讨厌的、辛辣味、甜味、无味的其中多种。
进一步地,所述机器学习模型为随机森林模型或深度信念网络模型。
一种基于分子特征预测物质颜色气味的人工智能系统,用于预测待预测物质的颜色/气味,包括:
分子描述符提取模块,用于从待预测物质中提取分子描述符;
颜色/气味预测模块,用于将所述分子描述符提取模块所提取的分子描述符输入如上所述的机器学习模型中,得到颜色预测结果/气味预测结果。
当需要预测某物质的颜色/气味时,可以提取该物质的分子描述符并输入如上所述的训练好的机器学习模型中,得到颜色/气味的分类结果,从而可以预测该物质的颜色/气味。
一种基于分子特征预测物质颜色气味的人工智能系统,用于预测待预测物质的颜色和/或气味,包括:
分子描述符提取模块,用于从待预测物质中提取分子描述符;
颜色/气味预测模块,用于将所述分子描述符提取模块所提取的分子描述符与如上所述的若干个对预测起最大作用的分子描述符进行对比,根据对比结果得到颜色预测结果/气味预测结果。
当需要预测某物质的颜色/气味时,可以提取该物质的分子描述符,将所提取的分子描述符与如上所述的对预测起最大作用的分子描述符进行对比,判断该物质是否具有预测起最大作用的分子描述符的其中一个或多个,从而可以预测该物质的颜色/气味。
与现有技术相比,本发明的有益效果为:
(1)本发明基于物质的分子描述符与物质的颜色/气味形成之间的关系,利用机器学习算法训练出可以预测物质颜色/气味的机器学习模型,从而实现较准确的物质颜色/气味预测;
(2)本发明结合机器学习算法和遗传算法,筛选出对预测起较大作用的若干个分子描述符,通过该若干个分子描述符,可以实现更高效、便捷的物质颜色/气味预测;
(3)本发明实现了物质颜色/气味的较准确预测,可以使得实际化学试剂的制备、颜料的制作、燃料的制作等提供预参考。
附图说明
图1为本实施例1的人工智能训练系统组成图。
图2为本实施例1的训练流程示意图。
图3为本实施例1的23个预测颜色的重要分子描述符。
图4为本实施例1的1至24个预测气味的重要分子描述符。
图5为本实施例1的25至32个预测气味的重要分子描述符。
图6为本实施例1的预测颜色和气味的分子描述符关系图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
如图1所示,本实施例提供一种基于分子特征预测物质颜色气味的人工智能训练系统,用于根据训练集训练出基于分子特征预测物质颜色/气味的机器学习模型,所述训练集包括已知颜色/气味的不同分子结构的物质样本;
所述基于分子特征预测物质颜色气味的人工智能训练系统包括:
描述符提取模块10,用于提取所述物质样本的分子描述符;
特性分类模块20,用于根据所述物质样本的颜色/气味进行分类;
模型训练模块30,用于根据描述符提取模块10所提取物质样本的分子描述符和特性分类模块20所进行的分类,训练机器学习模型。
基于物质的分子描述符与物质的颜色/气味形成之间的关系,可以根据包括已知颜色/气味的物质样本的训练集,训练机器学习模型。当需要预测某物质的颜色/气味时,可以提取该物质的分子描述符并输入训练好的机器学习模型中,得到颜色/气味的分类结果,从而可以预测该物质的颜色/气味。
预测物质的颜色/气味可以使得实际化学试剂的制备、颜料的制作、燃料的制作等提供预参考。
在本实施例中,所述分子描述符包括组成原子类型、官能团、片段计数、拓扑、几何描述符、三维描述符的其中一种或多种。
如图2所示,当训练预测物质颜色的机器学习模型时,其具体实施过程可以为:从Pubchem数据库中获取物质样本,描述符提取模块10提取物质样本的分子描述符,特性分类模块20根据物质样本的颜色进行分类,颜色分类标准可以选取Pubchem数据库的分类标准,将物质样本根据其颜色分为12种(其中物质颜色有争议的,在不同物理状态下显示不同颜色的物质已被排除在外)。以Pubchem数据库中获取1267个物质样本为例,12种颜色及其对应的物质数量分别为:黄色(257个物质)、白色(301个物质)、橙色(31个物质)、红色(16个物质)、紫色(11个物质)、绿色(24个物质)、蓝色(9个物质)、棕色(20个物质)、琥珀色(15个物质)、灰色(6个物质)、黑色(17个物质)、无色(560个物质)。利用综合少数样本过采样技术(SMOTE)处理十二种颜色的物质,以最小化由数据结构失衡引起的错误分类的可能性,使得12种颜色分别变为:黄色(257个物质)、白色(301个物质)、橙色(310个物质)、红色(320个物质)、紫色(330个物质)、绿色(312个物质)、蓝色(270个物质)、棕色(300个物质)、琥珀色(300个物质)、灰色(300个物质)、黑色(306个物质)、无色(560个物质)。
同理,当训练预测物质气味的机器学习模型时,其具体实施过程可以为:从Pubchem数据库中获取物质样本,描述符提取模块10提取物质样本的分子描述符,特性分类模块20根据物质样本的气味进行分类,气味分类标准可以选取Pubchem数据库的分类标准,将物质样本根据其气味分为12类(其中物质气味有争议的,在不同物理状态下显示不同气味的物质已被排除在外)。以Pubchem数据库中获取598个物质样本为例,12类气味及其对应的物质数量分别为:氨味(ammonia,37个物质)、芳香味(aromatic,36个物质)、特征性气味(characteristic,27个物质)、花味(flower,19个物质)、水果味(fruity,29个物质)、温和的(mild,38个物质)、令人愉悦的(pleasant,16个物质)、令人讨厌的(unpleasant,23个物质)、辛辣(spicy,54个物质)、甜味(sweet,30个物质),其他味道(other,127个物质)、无味(odorless,162个物质)。
在本实施例中,所述机器学习模型为随机森林模型或深度信念网络模型。
随机森林是一种用于回归和分类的集成学习方法。在随机森林模型中,每个决策树都是通过对样本和特征的随机抽样来构建的。由于分子描述符的维度很高,每个分子约有5270个分子描述符,而颜色/气味的数据矩阵是稀疏的,所以我们随机森林模型非常适合应用在本实施例中。随机森林模型通过忽略不重要的特征来帮助降低结构数据的维数,然后基于信息量更大的值来确定颜色/气味间的决策边界。
具体实施过程中,随机森林参数mTry(即在每个分割处随机选择的输入变量的数量)可以设置为72(5270个特征的平方根),而另一个随机森林参数nTree(即每个森林决策树的数量)可以设置为1000。
深度信念网络(Deep Belief Network,DBN)是一种由多层受限玻尔兹曼机(RBM)组成的概率生成模型。多层RBM的叠加解决了多层神经网络的训练问题。深度信念网络的整个训练过程包括两个阶段:预训练阶段和微调阶段。预训练阶段:分别单独无监督地训练每一层RBM网络,确保特征向量映射到不同特征空间时,都尽可能多地保留特征信息;微调阶段:在DBN的最后一层设置BP网络,接收RBM的输出特征向量作为它的输入特征向量,有监督地训练实体关系分类器,而且每一层RBM网络只能确保自身层内的权值对该层特征向量映射达到最优,并不是使得整个DBN的特征向量映射达到最优,由此反向传播网络还将错误信息自顶向下传播至每一层RBM,微调整个DBN网络。RBM网络训练模型的过程可以看作对一个深层BP网络权值参数的初始化,使DBN克服了BP网络因随机初始化权值参数而容易陷入局部最优和训练时间长的缺点。
在预测物质颜色/气味时,将该物质提取的分子描述符输入随机森林模型的决策树或者深度信念网络模型的显元中即可。
在本实施例中,所述基于分子特征预测物质颜色气味的人工智能训练系统还包括:
颜色/气味预测模块40,用于将描述符提取模块10所提取物质样本的分子描述符输入模型训练模块30所训练好的机器学习模型中预测物质的颜色/气味;
预测精度统计模块50,用于统计颜色/气味预测模块40预测物质颜色/气味的精度;
分子描述符筛选模块60,用于采用遗传算法并以预测精度统计模块50所统计的精度作为所述遗传算法的适应度评价函数,筛选出若干个对预测起最大作用的分子描述符。
遗传算法是计算数学中用于解决最优化的搜索算法,是进化算法的一种。遗传算法是模拟生物学种的进化论,物种朝着有利于自己的方向发展,这在遗传算法中表现为朝着最优化的方向发展。在进化过程中,遗传算法模拟基因的行为,首先选择有优势的基因,并对基因进行配对,然后等位基因进行交换,并有一定的概率进行基因变异,这就导致了下一代基因的产生,产生新的个体。
特征选择一直是模式识别领域的重要研究方向。特征选择的任务是在若干维特征矢量中选择出一组对分类最有效的特征分量,这样的特征组合有很多,因此需要一个定量的准则(或称判据)来衡量所选特征的可分性。支持向量机相对于传统分类器而言,更适合非线性、小样本和高维数的模式识别问题。
基于遗传算法的特征选择是一种wrapper方法,该算法是以支持向量机分类器的识别率作为特征选择的可分性判断依据。
在通过机器学习模型预测物质的颜色/气味时,并不是所有分子描述符对预测都起作用,有一些分子描述符与物质颜色/气味的形成并没有形成关系。将对预测起最大作用的若干个分子描述符筛选出来,可以无需通过机器学习模型进行预测,直接利用该若干个分子描述符进行预测。通过机器学习模型进行预测,其计算时间长且对计算资源要求高,直接利用若干个重要分子描述符进行预测可以使得预测过程在保证一定准确率的同时,又能满足便捷高效的要求。本实施例将遗传算法与机器学习算法相结合,可以得到对预测有起作用的分子描述符,并从中筛选出若干个对预测起最大作用的分子描述符。
在本实施例中,分子描述符筛选模块60,具体用于:
根据颜色/气味预测模块40预测物质颜色/气味的过程对每个物质进行基因编码;
执行进化过程算法:以预测精度统计模块50所统计的精度作为所述遗传算法的适应度评价函数评价所述基因编码的适应度,根据所述适应度进行基因编码的选择;
对选择的基因编码进行交叉运算和/或变异运算,继续执行所述进化过程算法,直到满足结束条件,得到进化完的基因编码,根据所述进化完的基因编码筛选出若干个对预测起最大作用的分子描述符。
如遗传算法主要包括以下步骤:基因编码、种群初始化、选择运算、交叉运算、变异运算,结束条件判断。
本实施例采用二进制编码对每个物质进行基因编码,根据颜色/气味预测模块40预测某个物质的颜色/气味时每个分子描述符是否参与预测,确定该个物质每个分子描述符对应的编码是1或0。可以是“0”表示在分类中不需要与该位对应的特征,“1”表示在分类中需要与该位对应的特征;也可以是“1”表示在分类中不需要与该位对应的特征,“0”表示在分类中需要与该位对应的特征。
以上述基因编码的作为初始种群,以所述初始种群作为父代种群,对所述父代种群应用交叉运算或变异运算中至少一种运算以及选择运算,直至获得整体适应度满足预设条件的子代种群,从而获得若干个对预测起最大作用的分子描述符。
通过实验,筛选出了23个对预测颜色起最大作用的重要分子描述符,23个分子描述符如图3所示。
通过实验,筛选出了32个对预测气味起最大作用的重要分子描述符,32个分子描述符如图4和图5所示。
如图6所示,在物质颜色和气味的复杂网络分析中(利用皮尔森相关系数绘制),可以发现有29个分子描述符显著地相互关联。分子描述符“RTe+”既是预测颜色最重要的特性,也与预测气味的“B10[S-Br]”、“CATS2D_01_NL”、“SpPos_Dz(i)”、“Mor19p”、“F10[O-B]”、“CATS3D_08_PN”、“SM3_Dz(Z)”描述符相关。
实施例2
本实施例提供一种基于分子特征预测物质颜色气味的人工智能系统,用于预测待预测物质的颜色/气味,包括:
分子描述符提取模块,用于从待预测物质中提取分子描述符;
颜色/气味预测模块,用于将所述分子描述符提取模块所提取的分子描述符输入如实施例1所述的机器学习模型中,得到颜色预测结果/气味预测结果。
当需要预测某物质的颜色/气味时,可以提取该物质的分子描述符并输入如实施例1所述的训练好的机器学习模型中,得到颜色/气味的分类结果,从而可以预测该物质的颜色/气味。
通过实验证明,当通过如实施例1所述的随机森林模型进行物质颜色预测时,四倍交叉验证准确率可达100.00%±0.0%,当通过如实施例1所述的深度信念网络模型进行物质颜色预测时,四倍交叉验证准确率可达100.00%±0.0%;当通过如实施例1所述的随机森林模型进行物质气味预测时,四倍交叉验证准确率可达89.59%±0.46%,当通过如实施例1所述的深度信念网络模型进行物质气味预测时,四倍交叉验证准确率可达89.31±0.01%。
实施例3
本实施例提供一种基于分子特征预测物质颜色气味的人工智能系统,用于预测待预测物质的颜色和/或气味,包括:
分子描述符提取模块,用于从待预测物质中提取分子描述符;
颜色/气味预测模块,用于将所述分子描述符提取模块所提取的分子描述符与如实施例1所述的若干个对预测起最大作用的分子描述符进行对比,根据对比结果得到颜色预测结果/气味预测结果。
当需要预测某物质的颜色/气味时,可以提取该物质的分子描述符,将所提取的分子描述符与如实施例1所述的对预测起最大作用的分子描述符进行对比,判断该物质是否具有预测起最大作用的分子描述符的其中一个或多个,从而可以预测该物质的颜色/气味。
实验表明,通过如图3所示的23个分子描述符进行物质颜色预测,其准确率可达99.90%。通过如图4所示的32个分子描述符进行物质气味预测,其准确率可达89.82%。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于分子特征预测物质颜色气味的人工智能训练系统,用于根据训练集训练出基于分子特征预测物质颜色/气味的机器学习模型,所述训练集包括已知颜色/气味的不同分子结构的物质样本,其特征在于,包括:
描述符提取模块,用于提取所述物质样本的分子描述符;
特性分类模块,用于根据所述物质样本的颜色/气味进行分类;
模型训练模块,用于根据所述描述符提取模块所提取物质样本的分子描述符和所述特性分类模块所进行的分类,训练机器学习模型。
2.根据权利要求1所述的一种基于分子特征预测物质颜色气味的人工智能训练系统,其特征在于,还包括:
颜色/气味预测模块,用于将所述描述符提取模块所提取物质样本的分子描述符输入所述模型训练模块所训练好的机器学习模型中预测物质的颜色/气味;
预测精度统计模块,用于统计所述颜色/气味预测模块预测物质颜色/气味的精度;
分子描述符筛选模块,用于采用遗传算法并以所述预测精度统计模块所统计的精度作为所述遗传算法的适应度评价函数,筛选出若干个对预测起最大作用的分子描述符。
3.根据权利要求2所述的一种基于分子特征预测物质颜色气味的人工智能训练系统,其特征在于,所述分子描述符筛选模块,具体用于:
根据所述颜色/气味预测模块预测物质颜色/气味的过程对每个物质进行基因编码;
执行进化过程算法:以所述预测精度统计模块所统计的精度作为所述遗传算法的适应度评价函数评价所述基因编码的适应度,根据所述适应度进行基因编码的选择;
对选择的基因编码进行交叉运算和/或变异运算,继续执行所述进化过程算法,直到满足结束条件,得到进化完的基因编码,根据所述进化完的基因编码筛选出若干个对预测起最大作用的分子描述符。
4.根据权利要求3所述的一种基于分子特征预测物质颜色气味的人工智能训练系统,其特征在于,所述分子描述符筛选模块具体用于根据所述颜色/气味预测模块预测物质颜色/气味的过程对每个物质进行基因编码的步骤,具体包括:
采用二进制编码对每个物质进行基因编码,根据所述颜色/气味预测模块预测某个物质的颜色/气味时每个分子描述符是否参与预测,确定该个物质每个分子描述符对应的编码是1或0。
5.根据权利要求1至4任一项所述的一种基于分子特征预测物质颜色气味的人工智能训练系统,其特征在于,所述分子描述符包括组成原子类型、官能团、片段计数、拓扑、几何描述符、三维描述符的其中一种或多种。
6.根据权利要求1至4任一项所述的一种基于分子特征预测物质颜色气味的人工智能训练系统,其特征在于,所述特性分类模块用于根据所述物质样本的颜色进行分类的步骤,具体为:根据所述物质样本的颜色对物质样本分为黄色、白色、橙色、红色、紫色、绿色、蓝色、棕色、琥珀色、灰色、黑色、无色的其中多种。
7.根据权利要求1至4任一项所述的一种基于分子特征预测物质颜色气味的人工智能训练系统,其特征在于,所述特性分类模块用于根据所述物质样本的气味进行分类的步骤,具体为:根据所述物质样本的气味对物质样本分为氨味、芳香味、特征性气味、花味、水果味、温和的、令人愉悦的、令人讨厌的、辛辣味、甜味、无味的其中多种。
8.根据权利要求1至4任一项所述的一种基于分子特征预测物质颜色气味的人工智能训练系统,其特征在于,所述机器学习模型为随机森林模型或深度信念网络模型。
9.一种基于分子特征预测物质颜色气味的人工智能系统,用于预测待预测物质的颜色/气味,其特征在于,包括:
分子描述符提取模块,用于从待预测物质中提取分子描述符;
颜色/气味预测模块,用于将所述分子描述符提取模块所提取的分子描述符输入如权利要求1至8任一项所述的机器学习模型中,得到颜色预测结果/气味预测结果。
10.一种基于分子特征预测物质颜色气味的人工智能系统,用于预测待预测物质的颜色和/或气味,其特征在于,包括:
分子描述符提取模块,用于从待预测物质中提取分子描述符;
颜色/气味预测模块,用于将所述分子描述符提取模块所提取的分子描述符与如权利要求2至4任一项所述的若干个对预测起最大作用的分子描述符进行对比,根据对比结果得到颜色预测结果/气味预测结果。
CN201910636729.0A 2019-07-15 2019-07-15 一种基于分子特征预测物质颜色气味的人工智能预测系统 Active CN110411955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910636729.0A CN110411955B (zh) 2019-07-15 2019-07-15 一种基于分子特征预测物质颜色气味的人工智能预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910636729.0A CN110411955B (zh) 2019-07-15 2019-07-15 一种基于分子特征预测物质颜色气味的人工智能预测系统

Publications (2)

Publication Number Publication Date
CN110411955A true CN110411955A (zh) 2019-11-05
CN110411955B CN110411955B (zh) 2022-05-20

Family

ID=68361438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910636729.0A Active CN110411955B (zh) 2019-07-15 2019-07-15 一种基于分子特征预测物质颜色气味的人工智能预测系统

Country Status (1)

Country Link
CN (1) CN110411955B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927763A (zh) * 2021-03-05 2021-06-08 广东工业大学 一种基于电子鼻的气味描述符评级的预测方法
CN113077038A (zh) * 2021-03-31 2021-07-06 中山大学 工业数据特征选择方法、装置、计算机设备和存储介质
CN113113089A (zh) * 2021-04-16 2021-07-13 上海应用技术大学 基于大数据分析的气味识别方法
CN113160906A (zh) * 2021-04-21 2021-07-23 南京信息工程大学 一种MXenes材料稳定性分类系统及其运行方法
CN118609699A (zh) * 2024-08-08 2024-09-06 中国农业科学院农产品加工研究所 基于风味分子结构的食品香气活性成分逸散率预测方法及系统
CN118609699B (zh) * 2024-08-08 2024-10-25 中国农业科学院农产品加工研究所 基于风味分子结构的食品香气活性成分逸散率预测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102235972A (zh) * 2010-04-30 2011-11-09 中测测试有限责任公司 一种光谱测色方法
CN108542385A (zh) * 2018-04-02 2018-09-18 东北电力大学 一种利用嗅觉脑电波进行感官风味物质分类的方法
CN109540978A (zh) * 2018-12-13 2019-03-29 清华大学 气味识别设备
JP2019060870A (ja) * 2017-09-25 2019-04-18 株式会社ユー・エス・イー 匂い表現予測システム、及び匂い表現予測カテゴライズ方法
CN109872299A (zh) * 2018-12-14 2019-06-11 上海源庐加佳信息科技有限公司 一种中医舌色苔色识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102235972A (zh) * 2010-04-30 2011-11-09 中测测试有限责任公司 一种光谱测色方法
JP2019060870A (ja) * 2017-09-25 2019-04-18 株式会社ユー・エス・イー 匂い表現予測システム、及び匂い表現予測カテゴライズ方法
CN108542385A (zh) * 2018-04-02 2018-09-18 东北电力大学 一种利用嗅觉脑电波进行感官风味物质分类的方法
CN109540978A (zh) * 2018-12-13 2019-03-29 清华大学 气味识别设备
CN109872299A (zh) * 2018-12-14 2019-06-11 上海源庐加佳信息科技有限公司 一种中医舌色苔色识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANDREAS KELLER ET AL.: "Predicting human olfactory perception from chemical features of odor molecules", 《SCIENCE》 *
李东 等: "基于遗传算法的随机森林算法优化研究", 《首都师范大学学报( 自然科学版)》 *
赵文宪: "有机物的分子结构与颜色", 《大学化学》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927763A (zh) * 2021-03-05 2021-06-08 广东工业大学 一种基于电子鼻的气味描述符评级的预测方法
CN112927763B (zh) * 2021-03-05 2023-04-07 广东工业大学 一种基于电子鼻的气味描述符评级的预测方法
CN113077038A (zh) * 2021-03-31 2021-07-06 中山大学 工业数据特征选择方法、装置、计算机设备和存储介质
CN113113089A (zh) * 2021-04-16 2021-07-13 上海应用技术大学 基于大数据分析的气味识别方法
CN113160906A (zh) * 2021-04-21 2021-07-23 南京信息工程大学 一种MXenes材料稳定性分类系统及其运行方法
CN113160906B (zh) * 2021-04-21 2024-01-02 南京信息工程大学 一种MXenes材料稳定性分类系统及其运行方法
CN118609699A (zh) * 2024-08-08 2024-09-06 中国农业科学院农产品加工研究所 基于风味分子结构的食品香气活性成分逸散率预测方法及系统
CN118609699B (zh) * 2024-08-08 2024-10-25 中国农业科学院农产品加工研究所 基于风味分子结构的食品香气活性成分逸散率预测方法及系统

Also Published As

Publication number Publication date
CN110411955B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN110411955A (zh) 一种基于分子特征预测物质颜色气味的人工智能训练系统
Janitza et al. An AUC-based permutation variable importance measure for random forests
CN109740154A (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
Kardan et al. A Framework for Capturing Distinguishing User Interaction Behaviors in Novel Interfaces.
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
Tritscher et al. Evaluation of post-hoc XAI approaches through synthetic tabular data
CN104820724B (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
Ismail et al. Behavioural features for mushroom classification
CN109598307A (zh) 数据筛选方法、装置、服务器及存储介质
Umayaparvathi et al. Attribute selection and customer churn prediction in telecom industry
CN106960017A (zh) 电子书分类及其训练方法、装置和设备
CN107315775A (zh) 一种指数计算平台和方法
CN109448842B (zh) 人体肠道微生态失衡的确定方法、装置及电子设备
CN106777987A (zh) 基于水动力、水质和som的河流水量聚类及水质评价方法
Li et al. Representative feature selection of molecular descriptors in QSAR modeling
JP2019060870A (ja) 匂い表現予測システム、及び匂い表現予測カテゴライズ方法
CN108344701A (zh) 基于高光谱技术的石蜡等级定性分类与定量回归方法
Hůla et al. Graph neural networks for scheduling of SMT solvers
Wijaya et al. DeepFruits: efficient citrus type classification using the CNN
CN115598162A (zh) 基于堆叠式模型的土壤重金属含量检测方法
de Sousa Ribeiro Filho et al. Explanations based on Item Response Theory (eXirt): A model-specific method to explain tree-ensemble model in trust perspective
Simon et al. Survey on data mining approach for analysis and prediction of student performance
KR20200132285A (ko) 무차원수를 이용한 데이터 마이닝 시스템 및 방법
Cravioto et al. Analysing factors that influence alumni graduate studies attainment with decision trees
Engels Component-based user guidance in knowledge discovery and data mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant