CN117223061A - 用于预测化学制剂的属性的机器学习 - Google Patents

用于预测化学制剂的属性的机器学习 Download PDF

Info

Publication number
CN117223061A
CN117223061A CN202180097570.5A CN202180097570A CN117223061A CN 117223061 A CN117223061 A CN 117223061A CN 202180097570 A CN202180097570 A CN 202180097570A CN 117223061 A CN117223061 A CN 117223061A
Authority
CN
China
Prior art keywords
mixture
data
predictions
molecules
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180097570.5A
Other languages
English (en)
Inventor
B·K·李
A·维尔奇科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aosimao Laboratory
Original Assignee
Aosimao Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aosimao Laboratory filed Critical Aosimao Laboratory
Publication of CN117223061A publication Critical patent/CN117223061A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

化学制剂属性预测可涉及单独地了解每种分子以及整体地了解混合物。可利用机器学习模型来提取单独和整体数据,以生成混合物的属性的准确预测。属性可包括但不限于嗅觉属性、味道属性、颜色属性、粘度属性和其他商业上、工业上或药学上有益的属性。

Description

用于预测化学制剂的属性的机器学习
相关申请
本申请要求2021年3月25日提交的美国临时专利申请号63/165,781的优先权和权益。美国临时专利申请号63/165,781的全部内容特此通过引用并入。
技术领域
本公开总体上涉及使用机器学习来预测化学制剂的属性。更具体地,本公开涉及使用分子的属性、浓度、组成和相互作用进行的属性预测。
背景技术
绝大多数化学产品不是单分子,而是精心制作的制剂或混合物。化学机器学习领域在能够预测孤立单分子的物理和感知属性方面发展迅速,但在很大程度上忽略了化学制剂。
本领域中的混合模型专注于混合物的感知类似性进行预测,而忽略了其他因素。例如,某些现有方法专注于存储和提供人类获取的关于混合物诸如人类尝过的混合物的属性的数据。所存储的数据依赖于人类获取的数据,这可能导致主观偏差,包括基于数据获取者的不同量表。
发明内容
本公开的实施方案的方面和优点将在以下描述中部分地阐述,或者可从描述中了解到,或者可通过实践这些实施方案了解到。
本公开的一个示例性方面涉及一种用于混合物属性预测的计算机实现的方法。所述方法可包括:由包括一个或多个计算装置的计算系统获得多种分子中的每种分子的相应分子数据以及与所述多种分子的混合物相关联的混合物数据。所述方法可包括:由所述计算装置利用机器学习嵌入模型分别处理所述多种分子中的每种分子的所述相应分子数据以生成每种分子的相应嵌入。所述方法可包括:由所述计算系统利用预测模型处理所述嵌入和所述混合物数据以生成所述多种分子的所述混合物的一个或多个属性预测。在一些实现方式中,所述一个或多个属性预测可至少部分地基于所述嵌入和所述混合物数据。所述方法可包括:由所述计算系统存储所述一个或多个属性预测。
在一些实现方式中,所述混合物数据可描述所述混合物中的每种分子的相应浓度。所述混合物数据可描述混合物的组成。所述预测模型可包括深度神经网络。在一些实现方式中,所述机器学习嵌入模型可包括机器学习图神经网络。所述预测模型可包括被配置来生成关于特定特性的预测的特性特定的模型。所述一个或多个属性预测可至少部分地基于所述多种分子中的一种或多种分子的结合能。在一些实现方式中,所述一个或多个属性预测可包括一个或多个感觉属性预测。所述一个或多个属性预测可包括嗅觉预测。所述一个或多个属性预测可包括催化属性预测。在一些实现方式中,所述一个或多个属性预测可包括能量属性预测。所述一个或多个属性预测可包括目标之间表面活性属性预测。
在一些实现方式中,所述一个或多个属性预测可包括药物属性预测。所述一个或多个属性预测可包括热属性预测。所述预测模型可包括被配置来基于所述混合物数据对所述嵌入进行加权和池化的加权模型,并且所述混合物数据可包括与所述混合物的所述多种分子相关的浓度数据。
在一些实现方式中,所述方法可包括:由所述计算系统获得来自请求计算装置的对具有所请求属性的化学混合物的请求;由所述计算系统确定所述一个或多个属性预测满足所请求属性;以及由所述计算系统向所述请求计算装置提供所述混合物数据。所述一个或多个属性预测可至少部分地基于分子相互作用属性。在一些实现方式中,所述一个或多个属性预测可至少部分地基于受体激活数据。
本公开的另一示例性方面涉及一种计算系统。所述计算系统可包括一个或多个处理器和一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储指令,所述指令当由所述一个或多个处理器执行时致使所述计算系统执行操作。所述操作可包括:获得多种分子的相应分子数据以及与所述多种分子的混合物相关联的混合物数据。在一些实现方式中,所述混合物数据可包括所述多种分子中的每种相应分子的浓度。所述操作可包括:利用嵌入模型针对所述多种分子中的每种分子分别处理所述相应分子数据以生成每种分子的相应嵌入。所述操作可包括:利用机器学习预测模型处理嵌入和混合物数据以生成一个或多个属性预测。所述一个或多个属性预测可至少部分地基于所述嵌入和所述混合物数据。所述操作可包括:存储所述一个或多个属性预测。
本公开的另一示例性方面涉及一个或多个非暂时性计算机可读介质,其共同存储指令,所述指令当由一个或多个处理器执行时致使计算系统执行操作。所述操作可包括:获得多种分子的相应分子数据以及与所述多种分子的混合物相关联的混合物数据。所述操作可包括:利用嵌入模型针对所述多种分子中的每种分子分别处理所述相应分子数据以生成每种分子的相应嵌入。所述操作可包括:利用机器学习预测模型处理嵌入和混合物数据以生成一个或多个属性预测。在一些实现方式中,所述一个或多个属性预测可至少部分地基于所述嵌入和所述混合物数据。所述操作可包括:存储所述一个或多个属性预测。
本公开的其他方面涉及各种系统、设备、非暂时性计算机可读介质、用户界面和电子装置。
参考以下描述和所附权利要求将更好地理解本公开的各种实施方案的这些和其他特征、方面和优点。并入本说明书并且构成本说明书的一部分的附图例示本公开的示例性实施方案,并且连同描述一起用来解释相关原理。
附图说明
针对本领域普通技术一员的实施方案的详细讨论在参考附图的说明书中阐述,在附图中:
图1A描绘根据本公开的示例性实施方案的执行混合物属性预测的示例性计算系统的框图。
图1B描绘根据本公开的示例性实施方案的执行混合物属性预测的示例性计算装置的框图。
图1C描绘根据本公开的示例性实施方案的执行混合物属性预测的示例性计算装置的框图。
图2描绘根据本公开的示例性实施方案的示例性机器学习预测模型的框图。
图3描绘根据本公开的示例性实施方案的示例性属性预测模型系统的框图。
图4描绘根据本公开的示例性实施方案的示例性属性请求系统的框图。
图5描绘根据本公开的示例性实施方案的示例性混合物属性概况的框图。
图6描绘根据本公开的示例性实施方案的执行混合物属性预测的示例性方法的流程图。
图7描绘根据本公开的示例性实施方案的执行属性预测和检索的示例性方法的流程图。
图8描绘根据本公开的示例性实施方案的执行属性预测数据库生成的示例性方法的流程图。
图9A描绘根据本公开的示例性实施方案的示例性进化方法的框图。
图9B描绘根据本公开的示例性实施方案的示例性强化学习方法的框图。
在多个附图中重复的附图标记旨在标识各种实现方式中的相同特征。
具体实施方式
综述
总体上,本公开涉及用于使用机器学习来预测多种化学分子的混合物的一个或多个属性的系统和方法。所述系统和方法可利用已知的单独分子的属性、组成和相互作用来在测试混合物之前预测混合物的属性。此外,机器学习模型可用于利用人工智能技术快速地且有效地预测混合物的属性。所述系统和方法可包括:获得一种或多种分子的分子数据以及与一种或多种分子的混合物相关联的混合物数据。分子数据可包括构成混合物的多种分子中的每种分子的相应分子数据。在一些实现方式中,混合物数据可包括与混合物中的每种分子的浓度以及混合物的整体组成相关的数据。混合物数据可描述混合物的化学制剂。可利用嵌入模型来处理分子数据以生成多个嵌入。可利用嵌入模型来处理每种相应分子的每种相应分子数据,以生成混合物中的每种相应分子的相应嵌入。在一些实现方式中,嵌入可包括描述嵌入数据的单独分子属性的数据。在一些实现方式中,嵌入可以是数字向量。在一些情况下,嵌入可表示图形或分子属性描述。可通过预测模型处理嵌入和混合物数据以生成一个或多个属性预测。一个或多个属性预测可至少部分地基于一个或多个嵌入和混合物数据。属性预测可包括对混合物的味道、气味、着色等的各种预测。在一些实现方式中,所述系统和方法可包括:存储一个或多个属性预测。在一些实现方式中,这些模型中的一个或两个模型可包括机器学习模型。
获得分子数据和混合物数据可包括:接收对包括多种分子中的一种或多种分子的混合物的属性预测的请求。所述请求还可包括一种或多种分子中的每种分子的浓度。所述请求可包括特性特定的属性(例如,感觉属性)或一般的混合物属性。另选地或附加地,获得分子数据和混合物数据可包括采样的形式,诸如随机采样或类别特定的采样。例如,可实现分子混合物的随机采样以对各种混合物的预测进行分类。另选地,类别特定的采样可包括:获得一个类别中的具有已知属性的分子,并且对另一类别中的具有其他已知属性的分子进行采样。
在获得分子数据之后,可利用嵌入模型来处理分子数据以生成多个嵌入。多种分子中的每种分子可接收一个或多个相应嵌入。嵌入可以是属性特征嵌入,所述属性特征嵌入可包括与单独分子属性相关的嵌入数据。例如,第一分子的嵌入可包括描述所述分子的嗅觉属性的嵌入信息。在一些实现方式中,嵌入模型可包括生成每种相应分子的一个或多个嵌入的图神经网络。在一些实现方式中,嵌入可以是向量,并且向量可基于处理的图,其中图描述一种或多种分子。
可通过预测模型利用混合物数据处理一个或多个嵌入以生成一个或多个属性预测。预测模型可包括基于与嵌入相关联的分子的浓度对一个或多个嵌入进行加权。例如,包括具有二比一浓度比的第一分子和第二分子的混合物可包括针对第一分子的嵌入的更重权重,因为第一分子在混合物中具有更高浓度。此外,机器学习预测模型可包括基于混合物数据对嵌入进行加权和池化的加权模型,其中混合物数据可包括与混合物的多种分子相关的浓度数据。
在一些实现方式中,预测模型可以是机器学习预测模型,并且机器学习预测模型可包括特性特定的模型(例如,感觉属性预测模型、能量属性预测模型、热属性预测模型等)。
在生成之后,可存储一个或多个属性预测。预测可存储在属性预测数据库中并且可存储在集中式服务器上。在一些实现方式中,预测可在生成之后提供给计算装置。所存储的预测可被组织成混合物属性预测概况,所述混合物属性预测概况可以可领悟格式包括混合物及其相应属性预测。
可根据请求接收所存储的预测。在一些实现方式中,所存储的预测可以是可容易搜索的。例如,所述系统可接收呈属性搜索查询形式的对特定属性的请求。所述系统可确定所请求的属性是否是混合物的属性预测中的属性中的一个属性。如果所请求的属性在属性预测中,则可将混合物信息提供给请求者。
在一些实现方式中,属性预测可基于一个或多个初始预测,包括但不限于:预测单分子随浓度变化的属性,预测混合物随混合物组成变化的属性,以及预测混合物在混合物的组分相互作用(例如,协同地或竞争地)时的属性。每个预测可由单独模型或单一模型生成。所述系统和方法可依赖于完全可微的算法。在一些实现方式中,所述系统和方法可使用强化学归纳偏差和非凸优化的知识来训练它们的预测模型。此外,可使用梯度下降和混合物数据的数据集来训练机器学习模型。在一些实现方式中,可利用具有标记配对的训练数据集来训练机器学习预测模型。在一些实现方式中,训练数据可包括已知受体激活数据。
在一些实现方式中,所述系统和方法可预测混合物的感知或物理属性。所述方法和系统可涉及显式地对化学真实平衡和竞争性结合动力学进行建模,其中整个算法可以是完全可微的。此实现方式可允许使用强化学归纳偏差,而且还允许使用来自神经网络和机器学习领域的非凸优化的完整工具包。
更具体地,机器学习预测模型可被训练用于浓度依赖性和对混合物进行建模,所述混合物可包括具有竞争性抑制的混合物和具有非竞争性抑制的混合物。浓度依赖性可包括理解单独分子的属性以及基于混合物中的每种分子的浓度来对单独分子的属性加以考虑和加权。
具有竞争性抑制的混合物可包括其中混合物的各种分子竞争来激活受体(例如,竞争来激活气味受体的分子)的混合物。此外,所述系统和方法可考虑具有较高归一化结合能的分子更有可能在较低归一化结合能分子之前触发受体。在一些实现方式中,所述系统可通过向模型添加第二头来考虑具有竞争性抑制的混合物。一个头可对净结合能进行建模,另一个头可对“恰当底物或竞争性抑制剂”倾向得分进行建模,并且这两个头可逐元素相乘。所述系统和方法可包括注意力机制。双头模型可考虑哪种分子激活受体。
具有非竞争性抑制的混合物可包括基于恰当激活结合模式和非竞争性抑制结合模式的累积抑制。
在一些实现方式中,基于浓度的嵌入的加权可以是加权平均。加权可生成单个固定维度的嵌入。在一些实现方式中,浓度可通过非线性传递。在一些实现方式中,加权模型可生成加权图集。此外,在一些实现方式中,可将混合物中的分子的图结构作为加权集传递到神经网络模型,并且可使用处置可变大小的集合输入的机器学习方法来领悟每种分子。例如,可将方法诸如set2vec与图神经网络方法组合。
此外,可将混合物中的分子的图结构嵌入“多图之图”中,其中每个节点表示混合物中的一种分子。边缘可以全部到全部的方式构建(例如,假设所有分子类型可彼此相互作用),或者使用化学先验知识来构建以删减分子之间或多或少可能发生的相互作用。在一些实现方式中,可根据相互作用的可能性对边缘进行加权。然后,可使用标准图神经网络方法以交替方式在分子的原子内和整种分子之间传递消息。
在一些实现方式中,所述系统和方法可包括最近邻插值。最近邻插值可包括枚举N个成分的集合,并且可包括将每个混合物表示为N维向量。向量可表示每个成分的比例。对新颖混合物的预测可涉及根据某一距离量度进行的最近邻查找,之后是对最近邻的感知属性求平均。平均感知属性可以是预测。
另选地或附加地,在一些实现方式中,所述系统和方法可包括通过基于量子力学或基于分子力场的方法进行的直接分子动力学模拟。例如,可使用专用计算机直接对每种分子与推定气味受体或味道受体的相互作用进行建模以用于分子模拟,并且可通过模拟来测量相互作用的强度。可基于所有组分的组合的相互作用来对混合物的感知属性进行建模。
属性预测可包括感觉属性预测(例如,嗅觉属性、味道属性、颜色属性等)。附加地和/或另选地,属性预测可包括催化属性预测、能量属性预测、目标之间表面活性属性预测、药物属性预测、气味质量预测、气味强度预测、颜色预测、粘度预测、润滑属性预测、沸点预测、粘合属性预测、着色属性预测、稳定性预测和热属性预测。例如,属性预测可包括与可有益于电池设计的属性相关的预测,这些属性诸如混合物保持电荷多长时间、混合物可保持多少电荷、放电速率、降解速率、稳定性和整体质量。
本文所公开的系统和方法可应用于生成属性预测以用于多种用途,包括但不限于消费包装商品、香味剂和芳香剂、以及工业应用(诸如染料、油漆、润滑剂)和能源应用(诸如电池设计)。
在一些实施方案中,本文所述的系统和方法可由一个或多个计算装置实现。计算装置可包括一个或多个处理器和一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质存储指令,所述指令当由一个或多个处理器执行时致使计算装置执行操作。所述操作可包括本文所述的各种方法的步骤。
在一些实现方式中,本文所公开的系统和方法可用于闭环开发过程。例如,人类从业者可利用本文所公开的系统和方法来在物理地产生混合物之前预测混合物的属性。在一些实现方式中,所述系统和方法可用于生成具有所预测属性的理论混合物的数据库。人类从业者可利用所生成的数据库来实现计算机辅助混合物设计以获得期望效果。此外,数据库可以是可搜索数据库,所述可搜索数据库可用于筛选所有可能的混合物以标识具有期望的感知和物理属性的混合物。
例如,人类从业者可能正在尝试制造一种新的、强烈的花香芳香剂。人类从业者可向嵌入模型和机器学习预测模型提供理论混合物建议,以输出理论混合物的所预测属性。人类从业者可使用预测来确定是实际生产混合物还是继续配制其他混合物进行测试。在一些实现方式中,响应于确定预测一种或多种混合物具有期望属性,所述系统可向制造系统或用户计算系统发送指令以制造所述一种或多种混合物进行物理测试。
另选地和/或附加地,人类从业者可搜索或筛选已经由一个或多个机器学习模型处理的混合物以生成属性预测。混合物及其相应属性预测可存储在数据库中,以便于筛选或搜索数据。人类从业者可筛选多种混合物以找到具有与期望属性匹配的属性预测的混合物。例如,尝试制造一种新的、强烈的花香芳香剂的人类从业者可筛选数据库以获得预测具有带有花香香调的强烈气味的混合物。
本文所公开的系统和方法的闭环开发过程利用可节省时间并且可节省生产和物理测试混合物的成本。人类从业者可利用机器学习模型筛选数据,以快速从一群可能的候选中消除大量可能的混合物。此外,机器学习模型可预测指示候选混合物的属性,所述候选混合物由于候选混合物具有令人惊讶的累积属性而可能被人类从业者忽视。
在一些实现方式中,用于使用机器学习来预测多种化学分子的混合物的一个或多个属性的系统和方法可用于控制机械和/或提供警报。所述系统和方法可用于控制制造机械以提供更安全的工作环境或者改变混合物的组成以提供期望的输出。此外,在一些实现方式中,可处理属性预测以确定是否需要提供警报。例如,在一些实现方式中,属性预测可包括用于运输服务的车辆的香味的嗅觉属性预测。所述系统和方法可输出空气清新剂、芳香剂或蜡烛替代品的香味概况预测、效力预测和香味寿命预测。然后可处理预测以确定何时应将新产品放置在运输装置中和/或运输装置是否应进行清洁例程。所确定的新产品时间接着可作为警报发送给用户计算装置或者可用于安排自动购买。在另一示例中,运输装置(例如,自主车辆)可被自动召回到设施以进行清洁例程。在另一示例中,可在由机器学习模型生成的属性预测中提供警报以指示对于空间内存在的动物或人来说不安全的环境。例如,如果针对感测到在建筑物内的化学分子的混合物生成缺乏安全性的预测,则可在建筑物中发出音频警报。
在一些实现方式中,所述系统可获取传感器数据以输入到嵌入模型和预测模型中以生成环境的属性预测。例如,所述系统可利用一个或多个传感器来获取与环境中分子的存在和/或浓度相关联的数据。所述系统可处理传感器数据以生成用于嵌入模型和预测模型的输入数据以生成环境的属性预测,所述属性预测可包括对环境的气味或环境的其他属性的一个或多个预测。如果预测包括所确定的令人不愉快的气味,则所述系统可向用户计算装置发送警报以完成清洁服务。在一些实现方式中,所述系统可在确定令人不愉快的气味时绕过警报并且发送对清洁服务的预约请求。
另一示例性实现方式可涉及针对安全预防措施进行的后台处理和/或主动监控。例如,所述系统可记录用户或机器完成的制造步骤,以跟踪所产生的混合物的预测属性,从而确保制造商意识到任何危险。在一些实现方式中,在选择将新分子或混合物添加到正在进行的混合物中时,可通过嵌入模型和预测模型来处理新的潜在混合物以确定新混合物的属性预测。属性预测可包括新混合物是否易燃、有毒、不稳定或有任何危险。如果确定新混合物有任何危险,则可发送警报。另选地和/或附加地,所述系统可控制一个或多个机器来停止和/或遏制所述过程以防止任何潜在的目前或未来危险。
所述系统和方法可应用于其他制造、工业或商业系统,以响应于属性预测而提供自动警报或自动动作。这些应用可包括新混合物产生、处方调整、抵消措施或关于所预测属性的变化的实时警报。
本公开的系统和方法提供多种技术效果和益处。作为一个示例,所述系统和方法可在无需单独地和物理地测试各种分子混合物的情况下提供混合物的属性预测。所述系统和方法可进一步用于生成具有所预测属性的混合物的数据库,所述数据库可以是可容易搜索的,以基于混合物的所预测属性来寻找要在芳香剂、食品、润滑剂等中实现的具有某些属性的混合物。此外,由于考虑到单独分子属性和相互作用属性,所述系统和方法可实现更准确的预测。因此,可提高计算机执行任务(例如,混合物芳香剂预测)的能力。
本公开的系统和方法的另一技术益处是能够快速地且有效地预测混合物属性,这可避免利用人类味道测试和其他物理测试应用来测试混合物的需要。
现在参考附图,将更详细地讨论本公开的示例性实施方案。
示例性装置和系统
图1A描绘根据本公开的示例性实施方案的执行属性预测的示例性计算系统100的框图。系统100包括通过网络180通信地耦接的用户计算装置102、服务器计算系统130和训练计算系统150。
用户计算装置102可以是任何类型的计算装置,诸如例如个人计算装置(例如,膝上型电脑或台式机)、移动计算装置(例如,智能手机或平板电脑)、游戏控制台或控制器、可穿戴计算装置、嵌入式计算装置或任何其他类型的计算装置。
用户计算装置102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理装置(例如,处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是一个处理器或可操作地连接的多个处理器。存储器114可包括一个或多个非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存装置、磁盘等及其组合。存储器114可存储数据116和由处理器112执行以致使用户计算装置102执行操作的指令118。
在一些实现方式中,用户计算装置102可存储或包括一个或多个预测模型120。例如,预测模型120可以是或者可以其他方式包括各种机器学习模型,诸如神经网络(例如,深度神经网络)或其他类型的机器学习模型,包括非线性模型和/或线性模型。神经网络可包括前馈神经网络、循环神经网络(例如,长短期记忆循环神经网络)、卷积神经网络或其他形式的神经网络。参考图2、图3和图6至图8讨论示例性预测模型120。
在一些实现方式中,一个或多个预测模型120可通过网络180从服务器计算系统130接收,存储在用户计算装置存储器114中,然后由一个或多个处理器112使用或以其他方式实现。在一些实现方式中,用户计算装置102可实现单个预测模型120的多个并行实例(例如,以跨混合物组成的多个实例执行并行混合物属性预测)。
更具体地,机器学习预测模型可被训练以获取分子数据和混合物数据并且输出混合物数据所描述的混合物的属性预测。在一些实现方式中,分子数据可在由预测模型处理之前用嵌入模型嵌入。
附加地或另选地,一个或多个预测模型140可包括在服务器计算系统130中或者以其他方式由其存储并实现,所述服务器计算系统根据客户端-服务器关系与用户计算装置102通信。例如,预测模型140可由服务器计算系统140作为网络服务(例如,混合物属性预测服务)的一部分实现。因此,一个或多个模型120可在用户计算装置102处存储和实现,和/或一个或多个模型140可在服务器计算系统130处存储和实现。
用户计算装置102还可包括接收用户输入的一个或多个用户输入部件122。例如,用户输入部件122可以是对用户输入对象(例如,手指或触笔)的触摸敏感的触敏部件(例如,触敏显示屏或触摸板)。触敏部件可用于实现虚拟键盘。其他示例性用户输入部件包括麦克风、传统键盘或用户可用来提供用户输入的其他装置。
服务器计算系统130包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理装置(例如,处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是一个处理器或可操作地连接的多个处理器。存储器134可包括一个或多个非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存装置、磁盘等及其组合。存储器134可存储数据136和由处理器132执行以致使服务器计算系统130执行操作的指令138。
在一些实现方式中,服务器计算系统130包括一个或多个服务器计算装置或者以其他方式由一个或多个服务器计算装置实现。在服务器计算系统130包括多个服务器计算装置的情况下,此类服务器计算装置可根据序列计算架构、并行计算架构或其某一组合来操作。
如上所述,服务器计算系统130可存储或以其他方式包括一个或多个机器学习预测模型140。例如,模型140可以是或者可以其他方式包括各种机器学习模型。示例性机器学习模型包括神经网络或其他多层非线性模型。示例性神经网络包括前馈神经网络、深度神经网络、循环神经网络和卷积神经网络。参考图2、图3和图6至图8讨论示例性模型140。
用户计算装置102和/或服务器计算系统130可借由与通过网络180通信地耦接的训练计算系统150的相互作用来训练模型120和/或140。训练计算系统150可与服务器计算系统130分离或者可以是服务器计算系统130的一部分。
训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何合适的处理装置(例如,处理器核、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是一个处理器或可操作地连接的多个处理器。存储器154可包括一个或多个非暂时性计算机可读存储介质,诸如RAM、ROM、EEPROM、EPROM、闪存装置、磁盘等及其组合。存储器154可存储数据156和由处理器152执行以致使训练计算系统150执行操作的指令158。在一些实现方式中,训练计算系统150包括一个或多个服务器计算装置或者以其他方式由一个或多个服务器计算装置实现。
训练计算系统150可包括模型训练器160,所述模型训练器使用各种训练或学习技术(诸如例如误差反向传播)来训练存储在用户计算装置102和/或服务器计算系统130处的机器学习模型120和/或140。例如,损失函数可通过一个或多个模型反向传播以更新一个或多个模型的一个或多个参数(例如,基于损失函数的梯度)。可使用各种损失函数,诸如均方误差、似然损失、交叉熵损失、合页损失和/或各种其他损失函数。可使用梯度下降技术在多次训练迭代中迭代地更新参数。
在一些实现方式中,执行误差的反向传播可包括执行随时间的截断反向传播。模型训练器160可执行多种泛化技术(例如,权重衰减、中辍等)以提高正在训练的模型的泛化能力。
具体地,模型训练器160可基于训练数据集162来训练预测模型120和/或140。训练数据162可包括例如标记的训练数据,诸如具有已知分子属性标签的分子数据、具有已知组成属性标签的混合物数据以及具有已知相互作用属性标签的混合物数据。
在一些实现方式中,如果用户已同意,则训练示例可由用户计算装置102提供。因此,在此类实现方式中,提供给用户计算装置102的模型120可由训练计算系统150根据从用户计算装置102接收的用户特定的数据来训练。在一些情况下,此过程可称为使模型个性化。
模型训练器160包括用于提供期望功能性的计算机逻辑。模型训练器160可以控制通用处理器的硬件、固件和/或软件来实现。例如,在一些实现方式中,模型训练器160包括存储在存储装置上、加载到存储器中并且由一个或多个处理器执行的程序文件。在其他实现方式中,模型训练器160包括存储在有形计算机可读存储介质诸如RAM硬盘或光介质或磁介质中的一组或多组计算机可执行指令。
网络180可以是任何类型的通信网络,诸如局域网(例如,内联网)、广域网(例如,互联网)或其某一组合,并且可包括任何数量的有线或无线链路。总体上,通过网络180进行的通信可使用广泛多种通信协议(例如,TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如,HTML、XML)和/或保护方案(例如,VPN、安全HTTP、SSL)通过任何类型的有线和/或无线连接来承载。
本说明书中描述的机器学习模型可用于各种任务、应用和/或用例。
在一些实现方式中,本公开的一个或多个机器学习模型的输入可以是图像数据。一个或多个机器学习模型可处理图像数据以生成输出。作为示例,一个或多个机器学习模型可处理图像数据以生成图像识别输出(例如,图像数据的识别、图像数据的潜在嵌入、图像数据的编码表示、图像数据的散列等)。作为另一示例,一个或多个机器学习模型可处理图像数据以生成分子图输出,所述分子图输出接着可由嵌入模型和预测模型处理以生成属性预测。
在一些实现方式中,本公开的一个或多个机器学习模型的输入可以是文本或自然语言数据。一个或多个机器学习模型可处理文本或自然语言数据以生成输出。作为示例,一个或多个机器学习模型可处理自然语言数据以生成搜索查询输出。搜索查询输出可由搜索模型处理以搜索具有特定属性的混合物并且输出具有所述特定属性的一种或多种混合物。作为另一示例,一个或多个机器学习模型可处理文本或自然语言数据以生成分类输出。分类输出可描述具有一个或多个所预测属性的混合物。作为另一示例,一个或多个机器学习模型可处理文本或自然语言数据以生成预测输出。
在一些实现方式中,本公开的一个或多个机器学习模型的输入可以是潜在编码数据(例如,输入的潜在空间表示等)。一个或多个机器学习模型可处理潜在编码数据以生成输出。作为示例,一个或多个机器学习模型可处理潜在编码数据以生成识别输出。作为另一示例,一个或多个机器学习模型可处理图像数据以生成重建输出。作为另一示例,一个或多个机器学习模型可处理潜在编码数据以生成搜索输出。作为另一示例,一个或多个机器学习模型可处理潜在编码数据以生成重新聚类输出。作为另一示例,一个或多个机器学习模型可处理潜在编码数据以生成预测输出。
在一些实现方式中,本公开的一个或多个机器学习模型的输入可以是统计数据。一个或多个机器学习模型可处理统计数据以生成输出。作为示例,一个或多个机器学习模型可处理统计数据以生成识别输出。作为另一示例,一个或多个机器学习模型可处理统计数据以生成预测输出。作为另一示例,一个或多个机器学习模型可处理统计数据以生成分类输出。作为另一示例,一个或多个机器学习模型可处理统计数据以生成分割输出。作为另一示例,一个或多个机器学习模型可处理统计数据以生成分割输出。作为另一示例,一个或多个机器学习模型可处理统计数据以生成可视化输出。作为另一示例,一个或多个机器学习模型可处理统计数据以生成诊断输出。
在一些实现方式中,本公开的一个或多个机器学习模型的输入可以是传感器数据。一个或多个机器学习模型可处理传感器数据以生成输出。作为示例,一个或多个机器学习模型可处理传感器数据以生成识别输出。作为另一示例,一个或多个机器学习模型可处理传感器数据以生成预测输出。作为另一示例,一个或多个机器学习模型可处理传感器数据以生成分类输出。作为另一示例,一个或多个机器学习模型可处理传感器数据以生成分割输出。作为另一示例,一个或多个机器学习模型可处理传感器数据以生成分割输出。作为另一示例,一个或多个机器学习模型可处理传感器数据以生成可视化输出。作为另一示例,一个或多个机器学习模型可处理传感器数据以生成诊断输出。
在一些情况下,输入包括视觉数据,并且任务是计算机视觉任务。在一些情况下,输入包括一个或多个图像的像素数据,并且任务是图像处理任务。例如,图像处理任务可以是图像分类,其中输出是一组得分,每个得分对应于不同对象种类并且表示一个或多个图像描绘属于对象种类的对象的可能性。图像处理任务可以是对象检测,其中图像处理输出标识一个或多个图像中的一个或多个区域,并且针对每个区域,标识所述区域描绘感兴趣对象的可能性。作为另一示例,图像处理任务可以是图像分割,其中图像处理输出针对一个或多个图像中的每个像素定义一组预定类别中的每个类别的相应可能性。作为另一示例,这组类别可以是对象种类。
图1A示出可用于实现本公开的一个示例性计算系统。也可使用其他计算系统。例如,在一些实现方式中,用户计算装置102可包括模型训练器160和训练数据集162。在此类实现方式中,模型120可在用户计算装置102处本地训练和使用。在此类实现方式中的一些中,用户计算装置102可实现模型训练器160以基于用户特定的数据来使模型120个性化。
图1B描绘根据本公开的示例性实施方案执行的示例性计算装置10的框图。计算装置10可以是用户计算装置或服务器计算装置。
计算装置10包括多个应用程序(例如,应用程序1至N)。每个应用程序包含其自己的机器学习库和一个或多个机器学习模型。例如,每个应用程序可包括机器学习模型。示例性应用程序包括文本消息传送应用程序、电子邮件应用程序、听写应用程序、虚拟键盘应用程序、浏览器应用程序等。
如图1B所示,每个应用程序可与计算装置的多个其他部件通信,所述多个其他部件诸如例如一个或多个传感器、上下文管理器、装置状态部件和/或附加部件。在一些实现方式中,每个应用程序可使用API(例如,公共API)与每个装置部件通信。在一些实现方式中,每个应用程序使用的API是特定于所述应用程序的。
图1C描绘根据本公开的示例性实施方案执行的示例性计算装置50的框图。计算装置50可以是用户计算装置或服务器计算装置。
计算装置50包括多个应用程序(例如,应用程序1至N)。每个应用程序与中央智能层通信。示例性应用程序包括文本消息传送应用程序、电子邮件应用程序、听写应用程序、虚拟键盘应用程序、浏览器应用程序等。在一些实现方式中,每个应用程序可使用API(例如,跨所有应用程序的通用API)与中央智能层(以及存储在其中的一个或多个模型)通信。
中央智能层包括多个机器学习模型。例如,如图1C所示,相应机器学习模型(例如,模型)可针对每个应用程序提供并且由中央智能层管理。在其他实现方式中,两个或更多个应用程序可共享单个机器学习模型。例如,在一些实现方式中,中央智能层可为所有应用程序提供单个模型(例如,单个模型)。在一些实现方式中,中央智能层包括在计算装置50的操作系统内或者以其他方式由其实现。
中央智能层可与中央装置数据层通信。中央装置数据层可以是计算装置50的集中式数据存储库。如图1C所示,中央装置数据层可与计算装置的多个其他部件通信,所述多个其他部件诸如例如一个或多个传感器、上下文管理器、装置状态部件和/或附加部件。在一些实现方式中,中央装置数据层可使用API(例如,私有API)与每个装置部件通信。
示例性模型布置
在一些实现方式中,所述系统和方法可包括用于处理数据的图神经网络(GNN)和深度神经网络(DNN)。所述系统和方法可考虑归一化结合能(NBE)和混合物中的分子的浓度,以更好地了解混合物以及混合物可如何起作用。图神经网络(GNN)、深度神经网络(DNN)和归一化结合能(NBE)可标示为它们的相应首字母缩略词,并且浓度可标示为使得X的浓度标示为[X]。
在一些实现方式中,所述系统可包括:将浓度依赖性纳入预测的考虑中,之后对混合物作为整体进行建模。所述系统可包括:通过用GNN处理分子数据以生成分子嵌入来生成分子嵌入(即,molecule_embedding=GNN(molecule))。接着可用DNN处理分子嵌入以生成NBE数据(即,NBE=DNN(molecule_embedding))。接着可由各种层(其可包括softmax层)处理分子的NBE和混合物中的分子的浓度,并且可与所有其他处理过的NBE和混合物中的其他分子的浓度池化以生成受体激活数据(例如,receptor_activations=sum(softmax([NBE+log[M],0])[:-1]))。在一些实现方式中,接着可用DNN处理所生成的受体激活数据以生成感知气味响应数据(即,perceptual_odor_response=DNN(receptor_activations))。另选地和/或附加地,所述系统可将所述过程简化为包括用GNN处理分子数据以生成分子嵌入(即,molecule_embedding=GNN(molecule)),然后可用DNN处理分子嵌入以生成感知气味响应数据(即,perceptual_odor_response=DNN(molecule_embedding))。
在一些实现方式中,所述系统和方法可确定恰当底物得分和/或生成特征向量以帮助对混合物进行建模并生成属性预测。在一些实现方式中,可通过用DNN处理分子嵌入、应用S形激活函数并且连结结果来确定恰当底物得分(例如,proper_substrate_score=concat(sigmoid(DNN(molecule_embedding)),[0]))。类似地,可使用分子的浓度、分子的归一化结合能和softmax激活函数来生成特征向量(例如,OR_vector=softmax([NBE+log[M],0]))。在混合物建模中,接着可使用恰当底物得分和特征向量通过用得分缩放向量来确定受体激活数据,接着对结果求和(例如,receptor_activations=sum(proper_substrate_score*OR_vector))。此外,接着可使用受体激活数据确定感知气味响应数据(例如,perceptual_odor_response=DNN(receptor_activations))。
在一些实现方式中,可将分子的抑制纳入预测的考虑中。例如,所述系统和方法可通过与确定分子的归一化结合能类似的过程来确定与归一化结合能相关的抑制数据。可由GNN处理分子数据以生成分子嵌入,接着可由DNN处理分子嵌入以生成抑制数据,这可标示为inhibition_NBE=DNN(molecule_embedding)。接着可使用抑制数据通过利用包括softmax层的各种层处理每种分子的抑制数据和浓度数据并且对结果求和来确定受体抑制数据(例如,receptor_inhibitions=sum(softmax([inhibition_NBE+log[M],0])[:-1]))。可使用受体激活数据和受体抑制数据计算净受体激活数据(例如,net_receptor_activations=receptor_activations*(1-receptor_inhibitions)),所述净受体激活数据可用于利用DNN生成感知气味响应数据(例如,perceptual_odor_response=DNN(net_receptor_activations))。
在一些实现方式中,可将每个感知气味响应函数和模型纳入混合物的整体属性预测的考虑中。例如,可使用各种函数、架构和模型将浓度依赖性、具有竞争性抑制的混合物和具有非竞争性抑制的混合物纳入整个机器学习预测模型的考虑中。
在一些实现方式中,所述系统和方法可包括用于利用嵌入模型或第一机器学习模型单独处理分子以确定分子的单独属性的专用框架。这些系统和方法可包括或以其他方式利用机器学习模型(例如,图神经网络)结合分子化学结构数据来预测分子的一个或多个感知(例如,嗅觉、味觉、触觉等)属性。特别地,所述系统和方法可基于单种分子的化学结构来预测分子的嗅觉属性(例如,使用标签诸如“甜”、“似松”、“梨”、“腐烂”等表达的人类感知的气味)。此外,在一些实现方式中,机器学习图神经网络可被训练并用于处理以图形方式描述分子的化学结构的图以预测分子的嗅觉属性。特别地,图神经网络可直接对分子的化学结构的图表示进行操作(例如,在图空间内执行卷积)以预测分子的嗅觉属性。作为一个示例,图可包括对应于原子的节点和对应于原子之间的化学键的边缘。因此,本公开的系统和方法可通过使用机器学习模型提供预测先前未估评的分子的气味的预测数据。可例如使用包括分子的描述(例如,分子的结构描述、分子的化学结构的基于图的描述等)的训练数据来训练单独分子机器学习模型,所述分子已经(例如,由专家手动)利用已经针对分子估评的嗅觉属性的描述(例如,气味类别的文本描述,诸如“甜”、“似松”、“梨”、“腐烂”等)标记。
因此,第一机器学习模型或嵌入模型可使用图神经网络进行定量结构-气味关系(QSOR)建模。从图神经网络学习到的嵌入捕获结构与气味之间的底层关系的有意义的气味空间表示。
更特别地,分子的结构与其嗅觉感知属性(例如,如由人类观察到的分子的香味)之间的关系是复杂的,并且迄今为止,通常对此类关系知之甚少。因此,本公开的系统和方法提供用于使用深度学习和未充分利用的数据源来获得对未见分子的嗅觉感知属性的预测,因此允许改进具有期望感知属性的分子的标识和开发,例如,允许开发可用于商业香味剂、芳香剂或化妆品的新化合物,从而提高从单分子预测药物精神作用的专业知识等。
更特别地,根据本公开的一个方面,可训练机器学习模型诸如图神经网络模型以基于分子的化学结构的输入图提供对分子的感知属性(例如,嗅觉属性、味觉属性、触觉属性等)的预测。例如,可例如基于分子的化学结构的标准化描述(例如,简化的分子-输入行-录入系统(SMILES)字符串等)向机器学习模型提供分子的化学结构的输入图结构。机器学习模型可提供包括分子的所预测感知属性的描述的输出,诸如例如描述分子对于人类来说闻起来将像什么的嗅觉感知属性的列表。例如,可提供SMILES字符串,诸如乙酸异戊酯的化学结构的SMILES字符串“O=C(OCCC(C)C)C”,并且机器学习模型可提供所述分子对于人类闻起来将像什么的描述(例如,分子的气味属性的描述,诸如“水果、香蕉、苹果”)作为输出。特别地,在一些实现方式中,响应于接收到SMILES字符串或化学结构的其他描述,所述系统和方法可将字符串转换为以图形方式描述分子的二维结构的图结构,并且可将图结构提供给机器学习模型(例如,所训练的图卷积神经网络和/或其他类型的机器学习模型),所述机器学习模型可根据图结构或源自图结构的特征来预测分子的嗅觉属性。作为二维图的补充或替代,系统和方法可提供用于例如使用量子化学计算来创建分子的三维图表示,以供输入到机器学习模型。
在一些示例中,预测可指示分子是否具有特定期望嗅觉感知质量(例如,目标香味感知等)。在一些实施方案中,预测数据可包括与分子的所预测嗅觉属性相关联的一种或多种类型的信息。例如,分子的预测数据可提供用于将分子分类为一种嗅觉属性种类和/或多种嗅觉属性种类。在一些情况下,种类可包括人类(例如,专家)提供的文本标签(例如,酸、樱桃、似松等)。在一些情况下,种类可包括香味/气味的非文本表示,诸如香味连续体上的位置等。在一些情况下,分子的预测数据可包括描述所预测香味/气味的强度的强度值。在一些情况下,预测数据可包括与所预测嗅觉感知属性相关联的置信度值。
作为分子的具体分类的补充或替代,预测数据可包括数字嵌入,所述数字嵌入允许基于两个或更多个嵌入之间的距离量度来进行类似性搜索、聚类或者两种或更多种分子之间的其他比较。例如,在一些实现方式中,可通过使用三元组训练方案训练机器学习模型来训练机器学习模型以输出可用于度量类似性的嵌入,其中模型被训练来输出在一对类似化学结构(例如,锚示例和正示例)的嵌入空间中更靠近的嵌入,并且输出在一对不同化学结构(例如,锚示例和负示例)的嵌入空间中相距更远的嵌入。此外,这些模型的输出可被配置来由第二机器学习模型处理,以用于预测各种模型的混合物的属性。
因此,在一些实现方式中,本公开的系统和方法可使得不需要生成描述分子的特征向量以供输入到机器学习模型。相反,可直接向机器学习模型提供原始化学结构的图值形式的输入,从而减少进行嗅觉属性预测所需的资源。例如,通过提供用于使用分子的图结构作为机器学习模型的输入,可概念化和评估新分子结构,而不需要实验生产此类分子结构来确定感知属性,由此大大加速评估新分子结构的能力并节省大量资源。
此外,在一些实现方式中,可获得包括多种已知分子的训练数据以提供用于训练一个或多个机器学习模型(例如,图卷积神经网络、其他类型的机器学习模型)以提供分子的嗅觉属性的预测。例如,在一些实施方案中,可使用分子的一个或多个数据集来训练机器学习模型,其中所述数据集可包括每种分子的化学结构以及感知属性的文本描述(例如,由人类专家提供的分子的气味的描述等)。作为一个示例,训练数据可源自于行业列表,诸如例如公开可用的香料行业的化学结构及其对应气味的列表。在一些实施方案中,由于一些感知属性罕见的事实,在训练一个或多个机器学习模型时可采取步骤来平衡常见感知属性和罕见感知属性。
根据本公开的另一方面,在一些实施方案中,所述系统和方法可提供分子结构的改变可如何影响所预测感知属性的指示。稍后可由第二机器学习模型处理这些改变以生成相互作用属性预测,所述相互作用属性预测可用于生成整体混合物属性预测。例如,所述系统和方法可提供分子结构的改变可如何影响特定感知属性的强度、分子结构的改变对于期望感知质量将造成多大的灾难等的指示。在一些实现方式中,所述系统和方法可提供用于添加和/或从分子结构移除一个或多个原子和/或原子团以确定此类添加/移除对一种或多种期望感知属性的影响。例如,可执行对化学结构的迭代和不同改变,然后可评估结果以了解此类改变将如何影响分子的感知属性。作为又一示例,可在输入图的每个节点和/或边缘处评估机器学习模型的分类函数的梯度(例如,相对于特定标签)(例如,借由通过机器学习模型进行的反向传播)以生成灵敏度图(例如,指示输入图的每个节点和/或边缘对于此类特定标签的输出有多重要)。此外,在一些实现方式中,可获得感兴趣的图,可通过向图添加噪声来对类似图进行采样,然后可将每个采样图的所得灵敏度图的平均值视为感兴趣图的灵敏度图。可执行类似技术以确定不同分子结构之间的感知差异。
在一些实现方式中,所述系统和方法可提供用于解释和/或可视化分子结构的哪些方面对其所预测气味质量贡献最大。例如,在一些实现方式中,可生成热图以覆盖分子结构,这提供分子结构的哪些部分对于分子的感知属性最重要和/或分子结构的哪些部分对于分子的感知属性不太重要的指示。在一些实现方式中,可使用指示分子结构的改变将如何影响嗅觉感知的数据生成所述结构对所预测嗅觉质量的贡献如何可视化。例如,如上所述,可使用分子结构的迭代改变(例如,卸开技术等)及其对应结果评估化学结构的哪些部分对嗅觉感知贡献最大。作为另一示例,如上所述,可使用梯度技术生成化学结构的灵敏度图,所述灵敏度图接着可用于产生可视化(例如,呈热图的形式)。
此外,在一些实现方式中,可训练一个或多个机器学习模型以产生将提供一种或多种期望感知属性的分子化学结构的预测(例如,生成将产生特定香味质量的分子化学结构等)。例如,在一些实现方式中,可执行迭代搜索以标识被预测表现出一种或多种期望感知属性(例如,目标香味质量、强度等)的一种或多种所提出的分子。例如,迭代搜索可提出可由一个或多个机器学习模型评估的多种候选分子化学结构。在一个示例中,候选分子结构可通过进化或遗传过程生成。作为另一示例,候选分子结构可由强化学习代理(例如,循环神经网络)生成,所述强化学习代理试图学习最大化奖励的策略,所述奖励是所生成候选分子结构是否表现出一种或多种期望感知属性的函数。
因此,在一些实现方式中,可生成(例如,迭代地生成)描述每种候选分子的化学结构的多个候选分子图结构,以用作机器学习模型的输入。可将每种候选分子的图结构输入到机器学习模型以进行评估。机器学习模型可产生每种候选分子或分子团的预测数据,所述预测数据描述一种或多种候选分子的一种或多种感知属性。接着可将候选分子预测数据与一种或多种期望感知属性进行比较,以确定一种或多种候选分子是否将表现出期望感知属性(例如,可行的分子候选物等)。例如,可执行比较以生成奖励(例如,在强化学习方案中)或确定是保留还是丢弃候选分子(例如,在进化学习方案中)。也可采用强力搜索方法。在可能具有或不具有上述进化或强化学习结构的另外的实现方式中,对表现出一种或多种期望感知属性的候选分子的搜索可被构造为多参数优化问题,其中针对每种期望属性限定对优化的约束。
所述系统和方法可提供用于连同期望嗅觉属性一起预测、标识和/或优化与分子结构相关联的其他属性。例如,一个或多个机器学习模型可预测或标识分子结构的属性,诸如光学属性(例如,透明度、反射性、颜色等)、味觉属性(例如,味道,像“香蕉”、“酸”、“辣”等)、储存稳定性、特定pH水平下的稳定性、可生物降解性、毒性、工业实用性等。
根据本公开的另一方面,本文所述的机器学习模型可用于主动学习技术中,以将候选的广泛范围缩窄为更小的分子或混合物的集合,所述更小的集合然后进行手动评估。根据本公开的其他方面,系统和方法可允许在迭代设计-测试-细化过程中合成具有特定属性的分子和/或混合物。例如,基于来自机器学习模型的预测数据,可提出分子或混合物以用于开发。接着可合成分子或混合物,然后可对分子或混合物进行专门测试。接着可将来自测试的反馈提供回设计阶段,以细化分子以更好地实现期望属性等。
分子属性预测中利用的方法、架构、动机和实践可在其他初始预测中采用或利用,并且可在整体混合物属性预测中利用。
在一些实现方式中,可基于首先确定的属性预测来确定一些属性预测。可通过利用已知的转移属性和非学习的通用描述符(例如,SMILES字符串、Morgan指纹、Dragon描述符等)来确定二次确定的属性预测。这些描述符通常旨在“特征化”分子,而不是传达复杂的结构相互关系。例如,一些现有方法利用通用启发式特征诸如Morgan指纹或Dragon描述符来特征化或表示分子。然而,通用特征化策略通常并不突出与特定任务相关的重要信息,特定任务诸如预测给定物种中的分子的嗅觉或其他感觉属性。例如,Morgan指纹通常被设计用于“查找”类似分子。Morgan指纹通常不包括分子的空间布置。虽然此信息仍然可以是有用的,但是在一些设计案例诸如可受益于空间理解的嗅觉案例中,单独地可能是不充分的。尽管如此,以少量可用训练数据仓促训练的模型不太可能击败Morgan指纹模型。
另一种现有方法是感觉属性的基于物理的建模。例如,基于物理的建模可包括对感觉(例如,嗅觉)受体或感觉相关(例如,嗅觉相关)蛋白质的计算建模。例如,给定嗅觉受体目标的计算模型,有可能运行高通量对接筛选以寻找期望任务的候选分子。然而,这对于某些任务来说可能是复杂的,因为对所有候选的所有可能的相互作用进行建模可能是计算成本高的。此外,感觉表现的基于物理的建模可能需要有关手头任务的明确知识,诸如受体的物理结构、其结合口袋以及化学配体在所述口袋中的定位,所述知识可能不是可容易获得的。此外,虽然分子的一些属性(例如,药物属性、材料属性)可容易地学习,但是可能难以针对一些感觉/感知属性,特别地诸如感觉属性(例如,嗅觉属性),做出预测。这因为某些有香味的化学品的基质诸如乙醇、塑料、洗发水、肥皂、织物等可能影响化学品的所感知气味的事实而更加复杂。例如,与例如皂基相比,相同化学品在乙醇基中可以不同方式被感知。因此,即使对于在一种基质中具有大量可用训练数据的化学品,在另一种基质中也可能只有有限量的数据。
例如,在驱虫剂领域,一些潜在驱除剂可充当拮抗剂或二次抑制剂,并且对每种可能的相互作用进行建模是计算成本高的。另外,仅许多感觉受体的物理结构可能不可用,这使得传统对接模拟可能是不可能的。例如,从驱虫剂筛选的角度来看,用于预测化学属性的现有方法涉及借由详细的分子动力学模拟或结合模式预测来模拟特定分子在受体口袋中的对接。然而,这些方法需要昂贵或难以获取的先前数据以便在新领域发挥作用,诸如要结合的特定受体的晶体结构。由于感知(例如,香味、味道)是数百种受体类型的协同激活的结果,并且已知非常少的参与化学感知的受体的晶体结构,因此此方法通常是不可能的或过于复杂。
本公开的示例性方面可针对这些和其他挑战提供解决方案。根据本公开的一方面,可关于第一感觉预测任务训练机器学习感觉预测模型,并且可使用机器学习感觉预测模型输出与第二感觉预测任务相关联的预测。作为一个示例,第一感觉预测任务可以是比第二感觉预测任务更广泛的感觉预测任务。例如,可关于广泛任务训练模型并且将模型转移到狭窄任务。作为一个示例,第一任务可以是广泛属性任务,并且第二任务可以是具体属性任务(例如,嗅觉)。附加地和/或另选地,第一感觉预测任务可以是与第二感觉预测任务相比有更大量的训练数据可用的任务。附加地和/或另选地,第一感觉预测任务可与第一物种相关联,并且第二感觉预测任务可与第二物种相关联。作为一个示例,第一感觉预测任务可以是人类嗅觉任务。附加地和/或另选地,第二感觉预测任务可以是害虫控制任务,诸如驱蚊任务。
作为一个示例,可训练感觉嵌入模型以针对第一感觉预测任务生成感觉嵌入。感觉嵌入可从第一感觉预测任务诸如从更大的可用数据集学习,使得感觉嵌入特定于第一预测任务(例如,更广泛的任务)。然而,尽管关于第一预测任务进行训练,但根据本公开的示例性方面认识到,此感觉嵌入可捕获对于其他(例如,更狭窄的)感觉预测任务有用的信息。此外,此感觉嵌入可被转移、微调或以其他方式修改,以在另一领域中针对所具有的可用数据少于第一感觉预测任务的第二感觉预测任务(诸如其中机器学习或准确的预测原本会很困难和/或不可能的任务)产生准确的预测。
作为一个示例,可将感觉嵌入模型与第一预测任务模型一起训练。可使用第一预测任务的(例如,标记的)第一预测任务训练数据来训练感觉嵌入模型和第一预测任务模型。例如,可训练感觉嵌入模型以关于第一预测任务产生感觉嵌入。这些感觉嵌入可捕获在第二预测任务中有用的信息。在基于第一预测任务训练数据与第一预测任务模型一起训练感觉嵌入模型之后,可与第二预测任务模型一起使用感觉嵌入模型以输出与第二预测任务相关联的预测。在一些情况下,可基于与第二预测任务相关联的第二预测任务训练数据来进一步细化、微调或以其他方式连续地训练感觉嵌入模型。在一些实现方式中,可针对第二预测任务以比针对第一预测任务更低的训练速率来训练模型,以防止直观地忘却从第一预测任务学习的信息。在一些实现方式中,第二预测任务训练数据的量可小于第一预测任务训练数据的量,诸如如果针对第二预测任务可用的数据比针对第一预测任务可用的数据少。
可例如使用包括第一感觉预测任务的分子和/或混合物的描述(例如,分子的结构描述、分子的化学结构的基于图的描述等)的训练数据来训练机器学习模型,所述分子和/或混合物诸如已经(例如,由专家手动)利用已经针对分子估评的感觉属性(例如,嗅觉属性)的描述(例如,气味类别的文本描述,诸如“甜”、“似松”、“梨”、“腐烂”等)标记的分子。例如,嗅觉分子的这些描述可与例如人类感知有关。接着可使用这些模型进行与第一感觉预测任务不同的第二感觉预测任务。例如,第二感觉预测任务可与非人类感知有关。例如,在一些实现方式中,在不同物种的对分子的感知属性之间转移模型。
以此方式,可将基于大数据集训练的模型转移到具有更小数据集的任务,同时仍然实现高预测性能。特别地,据观察,在针对感觉(例如,嗅觉)预测任务的跨物种的转移学习时,感觉嵌入可使预测质量显著提高。除了甚至域内转移学习之外,这些感觉嵌入还可针对甚至更加不同的质量(诸如跨物种感知)提供改进的性能。这在化学领域尤其出乎意料。例如,在第二预测任务模型处,可将感觉嵌入直接视为输入。接着可关于第二感觉预测任务微调和训练感觉嵌入模型。出乎意料的是,第二感觉预测任务和第一感觉预测任务不需要过于类似。例如,根据本公开的示例性方面,具有足够区别(例如,跨物种、跨领域等)的预测任务仍然可发现益处。
因此,本公开的一些示例性方面旨在提出使用神经网络(诸如图神经网络)进行跨不同领域的嗅觉、味觉和/或其他感觉建模,诸如定量结构-气味关系(QSOR)建模。图神经网络可表示空间信息,这对于嗅觉和/或其他感觉建模可能是重要的。本文所述的系统和方法的示例性实现方式在由嗅觉专家标记的新颖数据集上显著优于现有方法。此外,从图神经网络学习到的感觉嵌入捕获结构与气味之间的底层关系的有意义的气味空间表示。这些学习到的感觉嵌入可出乎意料地应用于除了针对其学习用于生成感觉嵌入的模型的领域之外的领域。例如,基于人类感觉感知数据训练的模型可出乎意料地在人类感觉感知领域之外诸如其他物种的感知和/或其他领域获得期望的结果。例如,使用图神经网络可提供对模型的空间了解,这有利于感觉建模应用。
在一些实现方式中,第一预测任务和/或第二预测任务的预测可指示分子是否具有特定期望感觉质量(例如,目标香味感知等)。在一些实现方式中,预测数据可包括与分子的所预测感觉属性(例如,嗅觉属性)相关联的一种或多种类型的信息。例如,分子的预测数据可提供用于将分子分类为一种感觉属性(例如,嗅觉属性)种类和/或多种感觉属性(例如,嗅觉属性)种类。在一些情况下,种类可包括人类(例如,专家)提供的文本标签(例如,酸、樱桃、似松等)。在一些情况下,种类可包括香味/气味的非文本表示,诸如香味连续体上的位置等。在一些情况下,分子的预测数据可包括描述所预测香味/气味的强度的强度值。在一些情况下,预测数据可包括与所预测嗅觉感知属性相关联的置信度值。作为另一示例,在一些实现方式中,预测数据可描述分子在特定任务(例如,害虫控制任务)中表现得如何。
作为分子的具体分类的补充或替代,预测数据可包括数字感觉嵌入,所述数字感觉嵌入允许基于两个或更多个感觉嵌入之间的距离量度来进行类似性搜索、聚类或者两种或更多种分子之间的其他比较。例如,在一些实现方式中,可通过使用三元组训练方案训练机器学习模型来训练机器学习模型以输出可用于度量类似性的感觉嵌入,其中模型被训练来输出在一对类似化学结构(例如,锚示例和正示例)的感觉嵌入空间中更靠近的感觉嵌入,并且输出在一对不同化学结构(例如,锚示例和负示例)的感觉嵌入空间中相距更远的感觉嵌入。根据本公开的示例性方面,这些输出感觉嵌入甚至可用在不同任务诸如跨物种任务中。
根据本公开的另一方面,可获得包括多种已知分子的训练数据以提供用于训练一个或多个机器学习模型(例如,图卷积神经网络、其他类型的机器学习模型)以提供分子的感觉属性(例如,嗅觉属性)的预测。例如,在一些实施方案中,可使用分子的一个或多个数据集来训练机器学习模型,其中所述数据集包括每种分子的化学结构以及感知属性的文本描述(例如,由人类专家提供的分子的气味的描述等)。作为一个示例,训练数据可源自于公开可用的数据,诸如例如公开可用的化学结构及其对应气味的列表。在一些实施方案中,由于一些感知属性罕见的事实,在训练一个或多个机器学习模型时可采取步骤来平衡常见感知属性和罕见感知属性。根据本公开的示例性方面,可针对第一感觉预测任务提供训练数据,其中训练数据比作为模型的整体目标的第二感觉预测任务更广泛可用。接着可针对第二感觉预测任务基于第二感觉预测任务的(有限)量的训练数据再训练所述模型,和/或按原样使用所述模型进行第二感觉预测任务而无需进一步训练。
此外,在一些实现方式中,所述系统和方法可提供分子结构的改变可如何影响所预测感知属性(例如,针对第二预测任务)的指示。例如,所述系统和方法可提供分子结构的改变可如何影响特定感知属性的强度、分子结构的改变对于期望感知质量将造成多大的灾难等的指示。在一些实施方案中,所述系统和方法可提供用于添加和/或从分子结构移除一个或多个原子和/或原子团以确定此类添加/移除对一种或多种期望感知属性的影响。例如,可执行对化学结构的迭代和不同改变,然后可评估结果以了解此类改变将如何影响分子的感知属性。作为又一示例,可在输入图的每个节点和/或边缘处评估机器学习模型的分类函数的梯度(例如,相对于特定标签)(例如,借由通过机器学习模型进行的反向传播)以生成灵敏度图(例如,指示输入图的每个节点和/或边缘对于此类特定标签的输出有多重要)。此外,在一些实现方式中,可获得感兴趣的图,可通过向图添加噪声来对类似图进行采样,然后可将每个采样图的所得灵敏度图的平均值视为感兴趣图的灵敏度图。可执行类似技术以确定不同分子结构之间的感知差异。
此外,本公开的系统和方法可提供用于解释和/或可视化分子结构的哪些方面对所预测感觉质量(例如,对于第二预测任务)贡献最大。例如,在一些实施方案中,可生成热图以覆盖分子结构,这提供分子结构的哪些部分对于分子的感知属性最重要和/或分子结构的哪些部分对于分子的感知属性不太重要的指示。在一些实现方式中,可使用指示分子结构的改变将如何影响嗅觉感知的数据生成所述结构对所预测嗅觉质量的贡献如何可视化。例如,如上所述,可使用分子结构的迭代改变(例如,卸开技术等)及其对应结果评估化学结构的哪些部分对嗅觉感知贡献最大。作为另一示例,如上所述,可使用梯度技术生成化学结构的灵敏度图,所述灵敏度图接着可用于产生可视化(例如,呈热图的形式)。
可训练一个或多个机器学习模型以产生将提供一种或多种期望感知属性的分子化学结构或混合物化学制剂的预测(例如,生成将产生特定香味质量的分子化学结构等)。例如,在一些实现方式中,可执行迭代搜索以标识被预测表现出一种或多种期望感知属性(例如,目标香味质量、强度等)的一种或多种所提出分子或混合物。例如,迭代搜索可提出可由一个或多个机器学习模型评估的多种候选分子化学结构或混合物化学制剂。在一个示例中,候选分子结构可通过进化或遗传过程生成。作为另一示例,候选分子结构可由强化学习代理(例如,循环神经网络)生成,所述强化学习代理试图学习最大化奖励的策略,所述奖励是所生成候选分子结构是否表现出一种或多种期望感知属性的函数。根据本公开的示例性方面,此感知属性分析可与不同于第一感觉预测任务的第二感觉预测任务相关。
所述系统和方法可提供用于连同期望感觉属性(例如,嗅觉属性)一起预测、标识和/或优化与分子结构相关联的其他属性。例如,一个或多个机器学习模型可预测或标识针对不同于一个或多个模型先前针对其进行训练的第一感觉预测任务的第二感觉预测任务的分子结构的属性,诸如光学属性(例如,透明度、反射性、颜色等)、嗅觉属性(例如,香味,诸如使人想起水果、花朵等的香味的香味)、味觉属性(例如,味道,像“香蕉”、“酸”、“辣”等)、储存稳定性、特定pH水平下的稳定性、可生物降解性、毒性、工业实用性等。
在一些实现方式中,机器学习模型可用于主动学习技术中,以将候选的广泛范围缩窄为更小的分子或混合物的集合,所述更小的集合然后进行手动评估。另选地和/或附加地,所述系统和方法可允许在迭代设计-测试-细化过程中合成具有特定属性的分子或混合物。例如,基于来自机器学习模型的预测数据,可提出混合物以用于开发。接着可配制混合物,然后可对混合物进行专门测试。接着可将来自测试的反馈提供回设计阶段,以细化混合物以更好地实现期望属性等。例如,可将来自测试的结果用作训练数据以再训练机器学习模型。在再训练之后,接着可再次使用来自模型的预测标识某些分子或混合物以进行测试。因此,可评估迭代管线,其中使用模型选择候选,然后可使用候选的测试结果再训练模型,等等。
例如,在本公开的一个示例性实现方式中,使用大量人类感知数据来训练模型,所述人类感知数据可容易地用作训练数据。接着将模型转移到至少在某种程度上相关的化学问题,诸如预测分子或混合物是否将是良好的驱蚊剂、发现新的香味剂分子等。也可将模型(例如,神经网络)打包成独立的分子嵌入工具以用于生成专注于嗅觉相关问题的表示。这些表示可用于搜索闻起来类似或在动物中触发类似行为的气味。本文所述的嵌入空间可附加地用作用于设计电子香味感知系统(例如,“电子鼻”)的编解码器。
作为另一示例,某些感觉属性对于动物引诱和/或驱除任务可能是期望的。例如,第一感觉预测任务可以是基于分子或混合物的化学结构的人类感觉任务,诸如人类嗅觉任务、人类味觉任务等。第一感觉属性可以是人类感知属性,诸如人类嗅觉感知属性和/或人类味觉感知属性。第二感觉预测任务可以是非人类感觉任务,诸如针对另一物种的相关感觉任务。第二感觉预测任务可附加地和/或另选地是或包括分子作为某些物种的引诱剂和/或驱除剂的表现。例如,属性可指示分子在吸引期望物种(例如,用于掺入动物食品等)或驱除不期望物种(例如,驱虫剂)方面的表现。
例如,这可包括害虫控制应用,诸如驱蚊剂、杀虫剂等。例如,驱蚊剂可用于驱除蚊子并且防止导致病毒和疾病传播的叮咬。例如,与人类和/或动物嗅觉系统相关的服务或技术可潜在地用于根据各种实现方式中的示例性方面的系统和方法。示例性实现方式可包括例如寻找用于驱虫剂或其他害虫控制(诸如用于影响作物健康、牲畜健康、个人健康、建筑/基础设施健康的蚊子、害虫和/或其他合适的害虫的驱除剂)的合适的气味的方法。例如,本文所述的系统和方法可用于针对目标物种的昆虫或其他动物(甚至是几乎没有感觉感知数据可用的动物)设计驱除剂、杀虫剂、引诱剂等。作为一个示例,第一感觉预测任务可以是与人类感觉相关的感觉预测任务,诸如基于分子结构数据预测人类嗅觉感知标签的人类嗅觉任务。第二感觉预测任务可包括预测分子在驱除其他物种诸如蚊子方面的表现。
作为另一示例,根据本公开的示例性方面的系统和方法可应用于毒理学和/或其他安全研究。例如,第一感觉预测任务和/或第二感觉预测任务可以是毒理预测任务。感觉属性可与基于化学结构的化学品的毒性有关。作为另一示例,根据本公开的示例性方面的系统和方法可有益于转移到相关嗅觉任务,诸如发现闻起来将与现有分子类似但具有不同物理属性诸如颜色的分子。
图2描绘根据本公开的示例性实施方案的示例性属性预测系统200的框图。在一些实现方式中,属性预测系统200被训练以接收描述混合物中的分子的输入数据集202、204、206和208,并且作为接收到输入数据202、204、206和208的结果而提供输出数据216,所述输出数据包括描述混合物的所预测属性的一个或多个属性预测。因此,在一些实现方式中,属性预测系统200可包括可操作以生成分子嵌入的一个或多个嵌入模型212,以及可操作以生成一个或多个属性预测216的机器学习预测模型214。
属性预测系统200可包括输入数据的两阶段处理以生成一个或多个属性预测216。例如,在所描绘系统200中,输入数据可包括:分子数据,所述分子数据具有混合物中的每种分子的相应分子数据202、204、206和208,其中分子数据可描述N种分子;以及混合物数据210,所述混合物数据描述N种分子的混合物的组成。系统200可用一个或多个嵌入模型212处理分子数据以生成一个或多个嵌入,以便由机器学习预测模型214处理。在一些实现方式中,嵌入模型212可包括用于生成一个或多个图的图神经网络(GNN)。在一些实现方式中,可处理分子数据,使得可单独处理与每种单独分子相关的相应分子数据,使得每个嵌入可表示单种分子。
可通过机器学习预测模型214处理嵌入和混合物数据210以生成一个或多个属性预测216。机器学习预测模型214可包括深度神经网络和/或各种其他架构。此外,属性预测216可包括与和混合物相关联的各种属性相关的各种预测。例如,属性预测216可包括感觉属性预测,诸如稍后用于产生芳香剂的嗅觉属性预测。
此外,在此实现方式中,第一分子202、第二分子204、第三分子206、……、以及第n分子208在理论混合物中可具有相同或不同浓度。所述系统可基于分子的浓度对一个或多个嵌入进行加权。加权可由嵌入模型212、机器学习预测模型214和/或第三单独加权模型来完成。
图3描绘根据本公开的示例性实施方案的示例性属性预测系统300的框图。属性预测系统300类似于图2的属性预测系统200,只是属性预测系统300还包括三个初始预测。
更具体地,所描绘系统300包括在生成整体属性预测330之前进行三个初始预测。例如,系统300可进行单独分子预测310、混合物组成属性预测322和混合物相互作用属性预测324,它们都可被纳入整体属性预测330的考虑中。
系统300可开始于获得输入数据310,所述输入数据可包括分子数据和描述具有一组分子的混合物的混合物数据。可由第一模型处理输入数据以生成分子特定的预测310,并且在一些实现方式中,预测310可以是浓度特定的预测。可基于浓度水平对浓度预测310进行加权,并且可对各种分子的预测进行池化。
接着可由第二模型320处理第一模型的输出,所述第二模型可包括两个子模型。第一子模型可处理数据并且输出与混合物的整体组成相关联的组成特定的属性预测322。第二子模型可处理数据并且输出与混合物中的所预测相互作用和/或所预测外在相互作用相关联的相互作用特定的属性预测324。
可处理三个初始预测以基于初始预测中的每个初始预测生成整体属性预测330,以允许更好地了解混合物。例如,每种单独分子可具有其相应的气味属性,而某些组成可能导致一些分子属性更加普遍。此外,各种分子和分子组的相互作用属性可更改、增强或稀释某些气味属性。因此,每个初始预测可允许深入了解整个混合物闻起来如何、尝起来如何等。
图4描绘根据本公开的示例性实施方案的示例性属性预测请求系统400的框图。在一些实现方式中,属性预测请求系统400被训练以接收描述单独分子的已知属性的训练数据集442和描述混合物相互作用的已知属性的训练数据集444,并且作为接收到训练数据442和444的结果,确定和存储一种或多种混合物的属性预测。因此,在一些实现方式中,属性预测请求系统400可包括可操作来预测和存储混合物属性的预测计算系统402。
图4所描绘的属性预测请求系统400包括预测计算系统410、请求计算系统430和训练计算系统440,它们可彼此通信以构成整个系统400。
在一些实现方式中,属性预测请求系统可依赖于可根据请求预测和存储稍后要产生的混合物的属性的受训预测计算系统410。训练预测计算系统410可包括使用训练计算系统440,所述训练计算系统可提供用于训练预测计算系统410的机器学习模型412和414的训练数据。例如,训练计算系统440可具有用于训练第一机器学习模型(例如,嵌入模型)412的训练分子数据442和用于训练第二机器学习模型(例如,深度神经网络)414的训练混合物数据444。训练数据可包括各种分子、组成和相互作用的已知属性,并且训练数据一旦被接收就可存储在预测计算系统中以供以后参考。在一些实现方式中,训练数据可包括标记训练数据集,所述标记训练数据集可包括某些混合物的已知属性以完成机器学习模型的地面实况训练。
此外,预测计算系统410可存储分子数据416和混合物数据418以供参考、用于再训练或用于数据集中。另选地和/或附加地,可对分子数据416进行采样以生成混合物属性预测的数据库。采样可以是随机的或者可以是基于已知的分子属性、分子类别和/或分子丰度受影响的采样。分子数据416和混合物数据418可由第一机器学习模型410和第二机器学习模型处理以生成要由预测系统存储420的混合物的属性预测。
所存储的数据420接着可以是可借由预测计算系统与请求计算系统430之间的通信来搜索或访问的。请求计算系统430可包括用户界面434,以供用户输入与某一混合物或某一属性相关的搜索查询或请求。响应于输入,请求计算系统430可生成请求432,所述请求可被发送到预测计算系统410以搜索或筛选所存储数据以检索和提供一个或多个结果。一个或多个结果接着可被提供回请求计算系统,所述请求计算系统可通过用户界面向用户显示一个或多个结果。在一些实现方式中,结果可以是具有与搜索查询/请求相关联或匹配的属性预测的一种或多种混合物。在一些实现方式中,结果可作为具有混合物及其相应属性预测的混合物属性概况提供。
图5描绘根据本公开的示例性实施方案的示例性混合物属性概况500的框图。在一些实现方式中,混合物属性概况500被训练以接收和存储属性预测及其相应混合物以用于属性筛选或搜索。因此,在一些实现方式中,混合物属性概况500可包括描述混合物的所预测属性的各种属性预测。
图5中的示例性混合物属性概况500包括各种属性类别的网格,所述网格可填充有属性预测、已知属性或者已知属性和预测属性的混合。在一些实现方式中,混合物属性概况500可包括混合物、所预测属性、混合物或混合物中的分子的图形描述和/或属性预测的原因,属性预测包括与混合物中的分子、混合物的组成和/或混合物中的相互作用相关联的初始预测。
混合物属性概况500中显示的一些示例性属性可包括气味属性504、味道属性506、颜色属性508、粘度属性510、润滑属性512、热属性514、能量属性516、药物属性518、稳定性属性520、催化属性522、粘合属性524、以及其他各种各样的属性526。
每个属性可以是可搜索的,以便根据请求或查询检索具有期望属性的混合物。此外,每个属性可提供用于广泛多种不同领域(包括面向消费者、面向行业等)的期望洞察。例如,气味属性504可包括气味质量属性和气味强度属性,它们可用来制造芳香剂、香料、蜡烛等。味道属性506可用来制造用于糖果、维生素或其他消费品的人造香味剂。属性预测可至少部分基于所预测受体相互作用和激活。其他属性可用于产品营销,诸如颜色属性508,所述颜色属性可用于预测混合物颜色或可包括着色属性。可预测着色属性以确定混合物是否可给其他产品着色。粘度属性510可以是所预测和存储的另一属性。
其他属性预测可与工业应用相关,诸如针对机械动力学提供润滑属性512,并且能量属性516可用于生产更好的电池。药物也可通过从这些属性预测获得的知识来改进或基于所述知识来配制。
图9A描绘示例性进化方法900,所述示例性进化方法可用于生成具有所预测属性的新混合物的数据库。所提出的混合物可具有每种相应的所提出的混合物的分子数据和混合物数据902。可由机器学习属性预测系统904处理分子数据和混合物数据902以生成所提出的混合物的所预测属性906。接着可由目标函数908处理所预测属性906,以决定是否应当添加到最佳表现者语料库910或者是否丢弃。可进行随机突变,并且所述过程可重新开始。进化方法900可帮助生成有用混合物的大数据库,以供人类从业者筛选以用于多种产品和行业。
图9B描绘可用于模型优化的示例性强化学习方法950。类似于进化方法900,强化学习方法950可开始于由机器学习属性预测系统处理所提出的混合物的分子数据和混合物数据902以生成所预测属性906。接着可由目标函数912处理所预测属性906,以向机器学习控制器914提供输出,从而向所述系统提供提议。在一些实现方式中,机器学习控制器可包括循环神经网络。在一些实现方式中,强化学习方法950可帮助细化本文所公开的机器学习模型的参数。
示例性方法
图6描绘根据本公开的示例性实施方案执行的示例性方法的流程图。尽管图6出于例示和讨论的目的描绘以特定次序执行的步骤,但本公开的方法不限于特别地例示的次序或布置。在不脱离本公开的范围的情况下,可以各种方式省略、重新布置、组合和/或调整方法600的各种步骤。
在602处,计算系统可获得分子数据和混合物数据。分子数据可以是描述混合物的一种或多种分子的数据,并且混合物数据可描述混合物。在一些实现方式中,分子数据可包括多种分子中的每种分子的相应分子数据,并且混合物数据可描述混合物的化学制剂。数据可借由手动输入的数据或自动采样的数据获得。在一些实现方式中,分子数据和混合物数据可从服务器检索。在一些实现方式中,混合物数据可包括混合物中的分子中的每种分子的浓度。
在604处,计算系统可利用嵌入模型处理分子数据以生成一个或多个嵌入。可用嵌入模型处理多种分子中的每种分子的相应分子数据以生成每种分子的相应嵌入。在一些实现方式中,嵌入模型可包括用于生成一个或多个图嵌入的图神经网络。嵌入可包括描述单独分子属性的嵌入数据。
在606处,计算系统可利用机器学习预测模型来处理嵌入和混合物数据。机器学习预测模型可包括深度神经网络并且可包括加权模型,所述加权模型可基于相应分子浓度对嵌入进行加权和池化。
在608处,计算系统可生成一个或多个属性预测。一个或多个属性预测可至少部分地基于一个或多个嵌入和混合物数据。此外,预测可基于单独分子属性、混合物中的分子的浓度、混合物的组成以及混合物的相互作用属性。在一些实现方式中,预测可以是感觉预测、能量预测、稳定性预测和/或热预测。
在610处,计算系统可生成一个或多个属性预测。属性预测可存储在可搜索数据库中,以便于轻松查找混合物和属性。
图7描绘根据本公开的示例性实施方案执行的示例性方法的流程图。尽管图7出于例示和讨论的目的描绘以特定次序执行的步骤,但本公开的方法不限于特别地例示的次序或布置。在不脱离本公开的范围的情况下,可以各种方式省略、重新布置、组合和/或调整方法700的各种步骤。
在702处,计算系统可获得分子数据和混合物数据。在一些实现方式中,分子数据可描述混合物中的多种分子,并且混合物数据可描述混合物。分子数据和混合物数据可单独地或同时地获得。
在704处,计算系统可利用嵌入模型处理分子数据以生成嵌入。嵌入模型可以是图嵌入模型,其中嵌入可以是图嵌入。在一些实现方式中,图嵌入可被加权和池化以生成多图之图。在一些实现方式中,多种分子中的每种分子的相应分子数据可作为分子特定的集合用嵌入模型处理以生成每种分子的相应嵌入。
在706处,计算系统可利用机器学习预测模型处理嵌入和混合物数据以生成一个或多个属性预测。属性预测可包括对多种混合物属性的预测并且可用于多种领域和行业。
在708处,计算系统可生成一个或多个属性预测。属性预测可存储在可搜索数据库中以提供对信息的轻松访问。
在710处,计算系统可获得对具有所请求属性的混合物的请求,并且确定一个或多个属性预测包括所请求属性。所述请求可以是正式请求或者可以是输入到用户界面中的搜索查询。在一些实现方式中,所述确定可包括确定所预测属性是否与所请求属性匹配或者与搜索查询相关联。
在712处,计算系统可向请求计算装置提供混合物数据。请求计算装置可以多种形式接收混合物数据,多种形式包括文本数据、图形数据等。在一些实现方式中,可用指示相应混合物的属性预测的混合物属性概况提供混合物数据。
图8描绘根据本公开的示例性实施方案执行的示例性方法的流程图。尽管图8出于例示和讨论的目的描绘以特定次序执行的步骤,但本公开的方法不限于特别地例示的次序或布置。在不脱离本公开的范围的情况下,可以各种方式省略、重新布置、组合和/或调整方法800的各种步骤。
在802处,计算系统可获得分子数据和混合物数据。
在804处,计算系统可利用第一模型处理分子数据以生成分子属性预测。在一些实现方式中,分子属性预测可在由第二模型处理之前被嵌入。
在806处,计算系统可利用第二模型处理分子属性预测和混合物数据以生成混合物属性预测。混合物属性预测可至少部分地基于分子属性预测和一种或多种分子的浓度。
在808处,计算系统可生成混合物的所预测属性概况。属性概况可以是组织的数据,包括混合物、混合物属性预测以及在期望领域中应用混合物所需的其他数据。
在810处,计算系统可将所预测属性概况存储在可搜索数据库中。可搜索数据库可由其他应用程序启用,或者可以是具有专用界面的独立可搜索数据库。
附加公开内容
本文所讨论的技术提及服务器、数据库、软件应用程序和其他基于计算机的系统,以及所采取的动作和发送到此类系统和从此类系统发送的信息。基于计算机的系统的固有灵活性允许在部件之间和之中的广泛多种可能的配置、组合以及任务和功能的划分。例如,本文所讨论的过程可使用单个装置或部件或者共同工作的多个装置或部件来实现。数据库和应用程序可在单个系统上实现,或分布在多个系统上。分布式部件可顺序地或并行地操作。
虽然已经关于本发明主题的各种具体示例性实施方案详细描述了本发明主题,但是每个示例都是通过解释本公开而非限制本公开的方式提供的。本领域技术人员在理解前述内容后,可容易地产生此类实施方案的更改、变化和等效物。因此,本主题公开内容并不排除包括对本发明主题的此类修改、变化和/或添加,如对于本领域普通技术人员来说将显而易见的。例如,作为一个实施方案的一部分例示或描述的特征可与另一实施方案一起使用以产生又一实施方案。因此,本公开旨在覆盖此类更改、变化和等效物。

Claims (20)

1.一种用于混合物属性预测的计算机实现的方法,所述方法包括:
由包括一个或多个计算装置的计算系统获得多种分子中的每种分子的相应分子数据以及与所述多种分子的混合物相关联的混合物数据;
由所述计算装置利用机器学习嵌入模型分别处理所述多种分子中的每种分子的所述相应分子数据以生成每种分子的相应嵌入;
由所述计算系统利用预测模型处理所述嵌入和所述混合物数据以生成所述多种分子的所述混合物的一个或多个属性预测,其中所述一个或多个属性预测至少部分地基于所述嵌入和所述混合物数据;以及
由所述计算系统存储所述一个或多个属性预测。
2.如任一前述权利要求所述的方法,其中所述混合物数据描述所述混合物中的每种分子的相应浓度。
3.如任一前述权利要求所述的方法,其中所述混合物数据描述所述混合物的组成。
4.如任一前述权利要求所述的方法,其中所述预测模型包括深度神经网络。
5.如任一前述权利要求所述的方法,其中所述机器学习嵌入模型包括机器学习图神经网络。
6.如任一前述权利要求所述的方法,其中所述预测模型包括被配置来生成关于特定特性的预测的特性特定的模型。
7.如任一前述权利要求所述的方法,其中所述一个或多个属性预测至少部分地基于所述多种分子中的一种或多种分子的结合能。
8.如任一前述权利要求所述的方法,其中所述一个或多个属性预测包括一个或多个感觉属性预测。
9.如任一前述权利要求所述的方法,其中所述一个或多个属性预测包括嗅觉预测。
10.如任一前述权利要求所述的方法,其中所述一个或多个属性预测包括催化属性预测。
11.如任一前述权利要求所述的方法,其中所述一个或多个属性预测包括能量属性预测。
12.如任一前述权利要求所述的方法,其中所述一个或多个属性预测包括目标之间表面活性属性预测。
13.如任一前述权利要求所述的方法,其中所述一个或多个属性预测包括药物属性预测。
14.如任一前述权利要求所述的方法,其中所述一个或多个属性预测包括热属性预测。
15.如任一前述权利要求所述的方法,其中所述预测模型包括被配置来基于所述混合物数据对所述嵌入进行加权和池化的加权模型,其中所述混合物数据包括与所述混合物的所述多种分子相关的浓度数据。
16.如任一前述权利要求所述的方法,其还包括:
由所述计算系统获得来自请求计算装置的对具有所请求属性的化学混合物的请求;
由所述计算系统确定所述一个或多个属性预测满足所请求属性;以及
由所述计算系统向所述请求计算装置提供所述混合物数据。
17.如任一前述权利要求所述的方法,其中所述一个或多个属性预测至少部分地基于分子相互作用属性。
18.如任一前述权利要求所述的方法,其中所述一个或多个属性预测至少部分地基于受体激活数据。
19.一种计算系统,所述计算系统包括:
一个或多个处理器;
一个或多个非暂时性计算机可读介质,所述一个或多个非暂时性计算机可读介质共同存储指令,所述指令当由所述一个或多个处理器执行时致使所述计算系统执行操作,所述操作包括:
获得多种分子的相应分子数据和与所述多种分子的混合物相关联的混合物数据,其中所述混合物数据包括所述多种分子中的每种相应分子的浓度;
利用嵌入模型针对所述多种分子中的每种分子分别处理所述相应分子数据以生成每种分子的相应嵌入;
利用机器学习预测模型处理所述嵌入和所述混合物数据以生成一个或多个属性预测,其中所述一个或多个属性预测至少部分地基于所述嵌入和所述混合物数据;以及
存储所述一个或多个属性预测。
20.一个或多个非暂时性计算机可读介质,其共同存储指令,所述指令当由一个或多个处理器执行时致使计算系统执行操作,所述操作包括:
获得多种分子的相应分子数据以及与所述多种分子的混合物相关联的混合物数据;
利用嵌入模型针对所述多种分子中的每种分子分别处理所述相应分子数据以生成每种分子的相应嵌入;
利用机器学习预测模型处理所述嵌入和所述混合物数据以生成一个或多个属性预测,其中所述一个或多个属性预测至少部分地基于所述嵌入和所述混合物数据;以及
存储所述一个或多个属性预测。
CN202180097570.5A 2021-03-25 2021-12-15 用于预测化学制剂的属性的机器学习 Pending CN117223061A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163165781P 2021-03-25 2021-03-25
US63/165,781 2021-03-25
PCT/US2021/063436 WO2022203734A1 (en) 2021-03-25 2021-12-15 Machine learning for predicting the properties of chemical formulations

Publications (1)

Publication Number Publication Date
CN117223061A true CN117223061A (zh) 2023-12-12

Family

ID=79425491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180097570.5A Pending CN117223061A (zh) 2021-03-25 2021-12-15 用于预测化学制剂的属性的机器学习

Country Status (7)

Country Link
US (1) US20240013866A1 (zh)
EP (1) EP4311406A1 (zh)
JP (1) JP2024512565A (zh)
KR (1) KR20240004344A (zh)
CN (1) CN117223061A (zh)
IL (1) IL307152A (zh)
WO (1) WO2022203734A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4386766A1 (en) * 2022-12-16 2024-06-19 Firmenich SA Method and system for predicting a stability value for a determined fragrance in a determined fragrance base

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037411B2 (en) * 2015-12-30 2018-07-31 Cerner Innovation, Inc. Intelligent alert suppression
US10665330B2 (en) * 2016-10-18 2020-05-26 International Business Machines Corporation Correlating olfactory perception with molecular structure
US11062216B2 (en) * 2017-11-21 2021-07-13 International Business Machines Corporation Prediction of olfactory and taste perception through semantic encoding
US11009494B2 (en) * 2018-09-04 2021-05-18 International Business Machines Corporation Predicting human discriminability of odor mixtures
CA3129069A1 (en) * 2019-02-08 2020-08-13 Google Llc Systems and methods for predicting the olfactory properties of molecules using machine learning
CN111564186A (zh) * 2020-03-25 2020-08-21 湖南大学 基于知识图谱的图卷积药物对相互作用预测方法及系统

Also Published As

Publication number Publication date
JP2024512565A (ja) 2024-03-19
IL307152A (en) 2023-11-01
EP4311406A1 (en) 2024-01-31
WO2022203734A1 (en) 2022-09-29
KR20240004344A (ko) 2024-01-11
US20240013866A1 (en) 2024-01-11

Similar Documents

Publication Publication Date Title
JP7457721B2 (ja) 機械学習を使って分子の嗅覚特性を予測するためのシステムおよび方法
Borowiec et al. Deep learning as a tool for ecology and evolution
CN111027714B (zh) 基于人工智能的对象推荐模型训练方法、推荐方法及装置
Bloom Market segmentation: A neural network application
US20240013866A1 (en) Machine learning for predicting the properties of chemical formulations
Gorzalczany et al. Neuro-fuzzy approach versus rough-set inspired methodology for intelligent decision support
McCormack et al. Deep learning of individual aesthetics
Bhattacharya Machine learning for bioclimatic modelling
MacPherson et al. Exploring the connection between emergent animal personality and fitness using a novel individual-based model and decision tree approach
Bhagawati et al. Intelligence and its application in agriculture: techniques to deal with variations and uncertainties
Mashayekhi et al. A machine learning approach to investigate the reasons behind species extinction
Farah et al. A deep learning-based approach for the detection of infested soybean leaves
Imron et al. Structure and sensitivity analysis of individual-based predator–prey models
JP2023549833A (ja) 感覚特性予測のための機械学習モデル
Bhola et al. Comparative study of machine learning techniques for chronic disease prognosis
Park et al. Sensitivity analysis and stability patterns of two-species pest models using artificial neural networks
Tyagi et al. XGBoost odor prediction model: finding the structure-odor relationship of odorant molecules using the extreme gradient boosting algorithm
Lavanya et al. Optimization and decision-making in relation to rainfall for crop management techniques
Siemes Churn prediction models tested and evaluated in the Dutch indemnity industry
Eiben et al. Interactive evolutionary algorithms
Gray et al. Adaptive submodel selection in hybrid models
Desai et al. The epistemological foundations of data science: a critical analysis
Pintore et al. Comparing the information content of two large olfactory databases
Xu Ecology and evolution of dispersal in metapopulations
Joshi et al. Metaheuristic Algorithms and Its Application in Enterprise Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination