CN115088039A - 面向支架的通用线系统 - Google Patents
面向支架的通用线系统 Download PDFInfo
- Publication number
- CN115088039A CN115088039A CN202180010973.1A CN202180010973A CN115088039A CN 115088039 A CN115088039 A CN 115088039A CN 202180010973 A CN202180010973 A CN 202180010973A CN 115088039 A CN115088039 A CN 115088039A
- Authority
- CN
- China
- Prior art keywords
- decoration
- atom
- scaffold
- decorative
- symbol
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/80—Data visualisation
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B23/00—Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes
- G09B23/06—Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes for physics
- G09B23/20—Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes for physics for atomic physics or neucleonics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B23/00—Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes
- G09B23/24—Models for scientific, medical, or mathematical purposes, e.g. full-sized devices for demonstration purposes for chemistry
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Educational Administration (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Computational Mathematics (AREA)
- Educational Technology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medicinal Chemistry (AREA)
- Machine Translation (AREA)
- Prostheses (AREA)
Abstract
面向支架的线符号可以包括:支架的原子标识符的支架序列,支架序列包括至少一个装饰标记或任意数量的装饰标记,每个装饰标记与支架的连接原子的原子标识符相邻;在支架序列的最后一个原子标识符或最后一个装饰标记之后的装饰分隔符;至少一种装饰,其具有线符号中的至少一个原子标识符,其定义了连接到分子支架的连接原子的装饰的化学部分的化学结构;在支架序列中,至少一个装饰标记的顺序定义了至少一个装饰的顺序;在至少一种装饰中,第一装饰在第一装饰分隔符之后。
Description
发明人
A·扎沃龙科夫
D·波利科夫斯基
M·库兹涅佐夫
A·菲利莫诺夫
交叉引用
本专利申请要求2020年3月26日提交的美国专利申请序列号16/831,747的优先权,该美国专利申请要求2020年1月27日提交的美国临时申请号为62/966,465的优先权,其中每一个都通过具体引用整体并入本文。
发明背景
技术领域
本公开涉及为化学符号提供面向支架的通用线系统的系统和方法。更具体地,本公开涉及用于将分子的简化分子输入线输入系统(SMILES)符号或图形符号转换为更有用的面向支架的通用线系统(SOULS)的系统和方法。
相关技术说明
化学结构至少具有分子的二维图形表示,并且通常具有分子的三维表示。然而,在计算机环境中计算化学结构时,很难使用这种2D或3D表示。因此,化学结构可以用线符号定义,例如分子字符串表示。分子串表示是一种使用ASCII字符串描述化学物种结构的线符号。这种表示的一个例子是简化的分子输入线输入系统(SMILES)。可以从分子的化学结构分析中获得SMILES表示,并且可以将SMILES表示转换回2D或3D化学结构。其他分子线符号包括维斯韦瑟(Wiswesser)线符号(WLN)、ROSDAL和SYBYL线符号(SLN)。
因此,需要在计算协议中使用化学结构的线符号。虽然目前有一些线符号可用,但计算技术仍在不断更新和改进。深度神经网络(DNN)的发展继续推动数据处理的优化和改进。这些DNN已配置为生成满足定义条件的对象。例如,DNN可以生成对特定靶点(例如,参与疾病状态的受体)具有特定生物活性的分子。因此,仍然需要为计算技术改进化学结构的线符号。
发明内容
在一些实施方式中,化学结构的面向支架线符号可以包括:以线符号排列的多个原子标识符的支架序列,其限定了分子化学结构的支架,其中支架序列包括至少一个装饰标记(或任意数量的装饰标记),每个装饰标记与连接到装饰的支架的连接原子的原子标识符相邻,其中在分子的化学结构中,装饰是结合到支架的连接原子的化学部分;在支架序列的最后一个原子标识符或最后一个装饰标记之后的装饰分隔符;至少一个装饰(或任意数量的装饰),其具有线符号中的至少一个原子标识符,其限定了连接到分子支架的连接原子的装饰的化学部分的化学结构;其中:在支架序列中,至少一个装饰标记(或任意数量的装饰标记)的顺序限定了至少一个装饰(或任意数量的装饰)的顺序;在所述至少一个装饰中,第一装饰在第一装饰分隔符之后;并且在所述至少一个装饰中,所述第一装饰被限定为连接到第一原子标识符和最后一个原子标识符之间的多个原子标识符中的第一连接原子标识符。虽然针对包括支架和至少一个装饰的分子描述了面向支架的线符号,但应认识到面向支架的线符号可以应用于没有任何装饰的分子。例如,苯可以用面向支架的线符号表示,并且它没有任何装饰。
在一些实施方式中,所述至少一个装饰标记位于以下之一:在与第一装饰连接的支架序列的第一原子标识符之前;在与第一装饰连接的支架序列的第一原子标识符之后;在与第一装饰连接的支架序列的第一连接原子标识符之前,其中第一连接原子标识符不是支架序列中的第一原子标识符;在与第一装饰连接的支架序列的第一连接原子标识符之后;在与第一装饰连接的支架序列的后续原子标识符之前;或在与第一装饰连接的支架序列的后续原子标识符之后。
在一些实施方式中,在支架序列中,多个原子标识符的第一连接原子标识符与第一装饰标记相邻。在一些方面,第一装饰标记在支架序列的第一原子标识符之前。第一个连接原子可以是任何原子,包括支架序列中的第一个原子或最后一个原子或它们之间的任何原子。
在一些实施方式中,线符号可以包括:至少一个与后续原子标识符相邻的后续装饰标记;至少一个在第一装饰之后的后续装饰分隔符;以及在所述至少一个后续装饰分隔符之后的至少一个后续装饰,其中每个后续装饰由后续装饰标记分隔。
在一些实施方式中,线符号可以包括:与对应的原子标识符相邻的多个装饰标记;由多个装饰分隔符分隔的多个装饰;多个装饰中的每一个在对应的装饰分隔符之后。在一些方面,每个装饰包括对应的装饰标记,后跟装饰的化学结构的线符号。在一些方面,每个原子标识符由周期表定义。在一些方面,每个装饰标记都是一个符号。在一些方面,每个装饰分隔符是不同于装饰制造者符号的第二符号。在一些方面,支架序列中的每个装饰标记由不同于装饰制造者符号和装饰分隔符符号的第三符号连接。
在一些实施方式中,将分子的化学结构的线符号转换为化学结构的面向支架的线符号的方法可以包括:提供化学结构的线符号;将线符号转换为化学结构的图形符号;识别化学结构图形符号的支架;搜索化学结构图形符号的至少一种装饰;将支架与任何装饰分开;将支架的图形表示转换为支架的对应线符号表示,其中线符号包括以支架序列排列的多个原子标识符;将任何装饰的图形表示转换为每个装饰的相应线符号表示;当第一装饰存在并与化学结构中的第一连接原子连接时,识别支架中连接至第一装饰的第一连接原子;当识别出第一连接原子时,识别支架序列中的第一连接原子的第一连接原子标识符;当第一装饰存在于化学结构中时,将第一装饰标记与支架序列中的第一连接原子标识符相邻放置;在支架序列的最后一个原子标识符或最后一个装饰标记之后放置第一装饰分隔符;当第一装饰存在于化学结构中时,将第一装饰置于第一装饰分隔符之后;和为化学结构提供面向支架的线符号。该方法可以使用包括带有或不带有装饰的支架的分子来执行。当分子只是一个支架时,省略了描述带有装饰的动作的方法步骤。
在一些实施方式中,该方法可以包括:识别化学结构的图形符号的至少一个装饰;将支架与至少一个装饰分开;将每个装饰的图形表示转换为每个装饰的相应线符号表示;识别支架序列中的第一个连接原子标识符,用于连接到所识别的最后一个装饰的第一个装饰的第一个连接原子;将第一装饰标记与第一连接原子标识符相邻放置;在第一装饰分隔符之后放置第一装饰;和为化学结构提供面向支架的线符号,其中面向支架的线符号包括支架序列和至少一个装饰的装饰序列,其中支架序列和装饰序列由第一装饰分隔符分隔。
在一些实施方式中,该方法可以包括:识别分子化学结构的每个原子和每个键;识别化学结构的支架;识别连接到支架原子的每个装饰;识别支架的每个装饰和相应原子之间的每个键;和破坏支架的每个装饰和相应原子之间已识别的键。
在一些实施方式中,该方法可以包括:用连接到支架的相应原子的支架节点替换每个断裂的键;和用排列在每个装饰上的装饰节点替换每个断裂的键。
在一些实施方式中,该方法可以包括:为每个装饰节点构建具有装饰标记的支架的线符号;和构造每个装饰的线符号。
在一些实施方式中,该方法可以包括:确定至少一个装饰标记在支架的线符号中的顺序;和以装饰序列排列所述至少一个装饰,所述装饰序列具有所述至少一个装饰标记在所述支架的线符号中的顺序,其中每个装饰具有装饰线符号,并且由装饰分隔符分隔。
在一些实施方式中,该方法可以包括:排列支架序列,使得第一装饰标记位于支架序列的第一连接原子标识符之前。第一连接原子可以是任何原子,包括支架序列中的第一个原子或最后一个原子或它们之间的任何原子。
在一些实施方式中,该方法可以包括排列线符号以具有:与后续原子标识符相邻的至少一个后续装饰标记;在第一装饰之后的至少一个后续装饰分隔符;以及在所述至少一个后续装饰分隔符之后的至少一个后续装饰,其中每个后续装饰由后续装饰标记分隔。
在一些实施方式中,该方法可以包括排列线符号以具有:与相应的原子标识符相邻的多个装饰标记;由多个装饰分隔的多个装饰分隔符;以及多个装饰中的每一个,在对应的装饰分隔符之后。
在一些实施方式中,该方法可以包括将每个装饰定义为包括相应的装饰标记,后跟装饰的化学结构的线符号。
在一些实施方式中,面向支架的线符号可以包括以下至少一项:每个原子标识符由元素周期表定义;每个装饰标记都是一个符号;每个装饰分隔符是不同于装饰制造者符号的第二符号;或者支架序列中的每个装饰标记由不同于装饰制造者符号和装饰分隔符符号的第三符号连接。
在一些方面,将实施方式之一的化学结构的面向支架的线符号转换为化学结构的不同的线符号的方法可以包括:为化学结构提供面向支架的线符号;将面向支架的线符号拆分为支架序列和每个装饰;构建支架序列的图形表示;构建每个装饰的图形表示;结合支架序列的图形表示和每个修饰的图形表示,从而形成分子的图形表示;并将分子的图形表示转换为不同的线符号。在一些方面,该方法可以包括为每个装饰在支架的图形表示上识别支架连接点;识别每个装饰的连接到支架连接点的支架原子;和移除每个支架连接点。在一些方面,该方法可以包括:在每个装饰的图形表示上识别装饰连接点;为每个装饰识别连接到装饰连接点的装饰原子;和移除每个装饰连接点。
在一些实施方式中,该方法可以包括:通过键将每个支架原子与相应的装饰原子连接;和提供分子化学结构的图形表示。
在一些实施方式中,该方法可以包括识别第一装饰分隔符和每个装饰之间的每个装饰分隔符,第一装饰分隔符位于最后一个原子标识符或最后一个装饰标记之后。
在一些实施方式中,该方法可以包括:识别界定到装饰的连接点的支架中的原子A;识别界定到支架的连接点的装饰中的原子B;识别与原子A连接的原子A_neig;识别与原子B连接的原子B_neig;移除原子A;移除原子B;和通过键将原子A_neig连接到原子B_neig。
在一些实施方式中,该方法可以包括:识别界定到装饰的连接点的支架中的每个原子A;识别界定到支架的连接点的装饰中的每个原子B;识别与每个原子A连接的每个原子A_neig;识别与每个原子B连接的每个原子B_neig;移除每个原子A;移除每个原子B;通过键将每个原子A_neig连接到每个相应的原子B_neig。
在一些实施方式中,计算化学结构的方法可以包括:将实施方式之一的化学结构的面向支架的线符号提供给计算系统;和使用计算系统执行具有面向支架的线符号的计算协议。
在一些实施方式中,计算化学结构的方法可以包括:将通过执行实施方式之一的方法获得的化学结构的面向支架的线符号提供到计算系统中;和使用计算系统执行具有面向支架的线符号的计算协议。
在一些方面,计算机程序产品可以包括具有计算机可执行指令的非瞬态有形存储设备,所述计算机可执行指令在由处理器执行时,会导致实施方式之一的方法的执行,用于将线符号转换为面向支架的线符号。
在一些方面,计算机程序产品可以包括具有计算机可执行指令的非瞬态有形存储设备,所述计算机可执行指令在由处理器执行时,会导致将面向支架的线符号转换为不同线符号的方法的执行。
上述内容仅为说明性内容,无意以任何方式限制。除了上述说明性方面、实施方式和特征外,通过参考附图和以下详细描述,其他方面、实施方式和特征将变得显而易见。
附图说明
结合附图,从以下描述和所附权利要求中,本发明的前述和以下信息以及其他特征将变得更加明显。理解这些附图仅描述了根据本发明的几个实施方式并且因此不应被认为是对其范围的限制,将通过使用附图以附加的特异性和细节来描述本发明。
图1A显示了获得SOULS表示的方法。
图1B提供了一种从分子产生支架和外围装饰的方法。
图2显示了一种用于将分子的线符号表示(例如,SMILES表示)转换为分子的SOULS表示的方法。
图3A显示了用于将分子线符号SMILES转换为SOULS表示的算法的示例,但是应当认识到,任何分子线符号都可以用于生成SOULS表示。
图3B显示了用于将分子线符号SMILES转换为SOULS表示的算法的另一个示例,但是应该认识到,任何分子线符号都可以用于生成SOULS表示。
图4A显示了用于将SMILES表示转换为SOULS表示的方法的示例。
图4B显示了用于将SMILES表示转换为SOULS表示的方法的详细示例。
图5A显示了用于将SOULS表示转换为线符号表示(例如SMILES表示)的方法的示例。
图5B显示了从SOULS表示构建分子的完整图形表示的示例方法。
图5C显示了用于将SOULS或图形表示生成为不同的线符号表示的另一示例方法。
图5D显示了用于将SOULS表示转换为SMILES表示的算法的示例,但是应该认识到可以从SOULS表示生成任何分子线符号。
图5E显示了用于将SOULS表示转换为SMILES表示的方法的详细示例。
图6显示了配置用于执行本文所述的计算和方法的计算机或计算系统的示例。
附图中的元件和组件可以根据本文所述的至少一个实施方式进行排列,并且本领域普通技术人员可以根据本文提供的公开来修改该排列。
详细说明
在以下详细描述中,参考了构成本文一部分的附图。在附图中,相似的符号通常标识相似的组件,除非上下文另有说明。详细说明、附图和权利要求中描述的说明性实施方式并不意味着限制。不脱离本文所述主题的精神或范围,可以使用其他实施方式,并且可以进行其他更改。将容易理解的是,如本文一般描述和图中所示,本发明的各方面可以以各种不同的配置进行排列、替换、组合、分离和设计,所有这些都被本文明确地考虑。
一般来说,本技术包括为化学符号提供面向支架的通用线系统的系统和方法。更具体地,本公开涉及用于将简化的分子输入线输入系统(SMILES)转换为有用的面向支架的通用线系统(SOULS)的系统和方法。然而,应该认识到,系统和方法可以用于将任何化学线性符号或图形符号转换为表示化学结构的SOULS符号。
化学结构的SOULS表示可用于与化学结构相关的各种计算技术中。在并入的参考文献中提供了可以用SOULS表示实现的一些示例性技术。SOULS表示在人工智能(AI)中特别有用,例如在训练和使用机器学习模型进行化学分析和设计,以及涉及化学结构或分子数据的其他计算中。
在一些实施方式中,SOULS表示可以用于训练机器学习模型。因此,SOULS表示以计算机可读格式表示分子结构,可以在机器学习期间由计算机处理。SOULS表示提供了一种面向支架的分子表示,它将分子支架与分子表示中的外围化学部分(例如,装饰)隔离开来。SOULS表示是一种化学表示,它是许多机器学习方法的有用工具,包括生成建模、使用算法和强化学习的属性优化以及预测建模等。
在一些实施方式中,系统和方法包括用于将分子结构转换为SOULS表示的算法。因此,该系统可以包括配置有算法的计算机,该算法被设计为将分子的任何表示转换为SOULS表示。该系统可以获得各种格式的分子表示,例如字符串格式(例如,线符号、线性格式等)或图形表示。当分子表示以字符串格式提供时,系统使用字符串到图的转换将字符串符号转换为图形符号,然后系统处理该图符号以获得SOULS表示。当分子表示以图形符号提供时,系统会处理图形符号以获得SOULS表示。因此,系统可以基于所提供的分子结构的格式来选择用于获得SOULS表示的算法。
在一些实施方式中,该系统和方法包括用于将SOULS表示中表示的分子结构转换为其他标准表示,例如字符串格式(例如,SMILES)或图形(例如,2D或3D)的算法。因此,该系统可以包括配置有算法的计算机,该算法被设计为将SOULS表示转换成任何其他分子表示,例如本文所述的那些。转换可以跨一个或多个步骤继续,直到获得所需的表示。
在一些实施方式中,从SOULS表示到另一种分子表示的转换可以用于提供其他定义的操作可能需要的某种分子表示。将分子表示转换为SOULS表示,然后从SOULS转换回分子表示(例如,非SOULS)的能力,允许在不同变体之间进行两种化学结构转换,其中分子符号可以转换为SOULS表示,然后再转换回来到原来的符号或不同的符号。这种单向或双向转换可用于化学结构数据的各种计算处理。
在一些实施方式中,该系统和方法包括将SOULS表示用于机器学习系统的算法应用,包括生成建模、预测建模和属性优化。也就是说,SOULS可以用于AI,而不是其他字符串格式或图形格式。转换可以根据计算协议来实现。某些步骤可能使用使用特定符号的软件,因此可以将SOULS转换为这些步骤的特定符号。在其他步骤中,可以通过SOULS表示的格式来改进计算,并且可以使用SOULS表示来呈现这种计算,其中任何其他分子表示可以转换为SOULS以进行这种计算。对于将分子转换为SOULS格式的算法,数据可以是一组以任何格式表示的分子结构,包括MOL、SDF、SMI和PDB文件格式、图形或SMILES。对于将SOULS格式的分子转换为任何其他格式的算法,数据是以SOULS格式表示的一组分子。对于所提出框架的机器学习应用,数据可以是以任何格式表示的一组分子。对于某些应用,例如预测建模,每个分子可能具有一组指定的属性。
在一些实施方式中,SOULS表示可以包括用于分子支架的原子标识符序列,该序列内具有修饰标记(例如,指示符)。指示符识别序列内化学部分(例如,取代基)与支架连接的位置,其表现为分子核心支架的装饰或侧链。因此,描述分子的语言包括代表分子核心的支架和代表连接到核心分子的化学部分(例如,取代基)的装饰。装饰可以在核心支架上具有连接点,这些连接点可以被认为是节点,其中每个装饰在支架上都有节点。线符号可以包括用于支架的原子标识符的支架序列,带有标识序列内连接的装饰的位置的装饰标记。装饰标记放置在用作装饰节点的原子附近。然后装饰在支架序列之后的装饰序列中列出,其中装饰序列中的每个装饰由装饰分隔符(例如,句点“.”)分隔。装饰序列中的每个装饰都与装饰标记(例如,*)相邻,并用装饰分隔符相互分隔。因此,SOULS表示包括支架序列和装饰序列。装饰序列包括至少一装饰。在一些情况下,装饰序列包括多个装饰线符号。每个装饰都有自己的线符号。
支架的支架序列中的装饰标记的顺序定义了装饰序列中列出的装饰的顺序。典型的框架包括从左到右阅读,左边是支架顺序,右边是装饰顺序;然而,方向可以是其修改,例如:从右到左读取,其中支架顺序在右侧,装饰顺序在左侧;从右到左阅读,左边是支架顺序,右边是装饰顺序;或者从左到右,右边是装饰顺序,左边是支架顺序。
支架序列可以包括原子标识符(例如,如元素周期表上所表示的原子),其中装饰标记与连接装饰的原子相邻。通常,装饰标记在初始支架原子的装饰节点原子的左侧,但装饰制造者可能在作为装饰节点原子的支架原子的右侧。装饰标记标识装饰存在的位置,装饰制造者的顺序标识装饰在装饰序列中定义的顺序。可以根据要使用的符号来修改左或右的邻接。然而,如本文所呈现的,第一个装饰标记位于左侧并且是SOULS表示的初始字符(例如,符号*),随后的装饰标记位于用作装饰节点原子的支架原子的右侧。
例如,一个SOULS表示可以读作如下:
*C1Oc2ccc(*)cc2N(*)C1=O.*C.*Cl.*CC(O)CO
这里,初始符号为星号*,在此用作第一装饰标记;但是,应该认识到可以使用任何其他符号(例如,非字母数字)。装饰标记之后是支架序列C1Oc2ccc,它定义了支架的一部分。这个支架序列C1Oc2ccc之后是第二个星号(*),它用作装饰序列中列出的第二个装饰的装饰标记,其中装饰标记位于作为装饰节点的支架原子的左侧。第二个星号(*)之后是支架序列cc2N,然后是第三个星号(*),它用作装饰序列中列出的第三个装饰的装饰标记(例如,N是装饰节点)。第三个星号(*)之后是支架序列C1=O,然后是句点(例如,“.”),该句点表示支架序列的结束。句点之后的主题(例如,装饰分隔符)包括装饰序列,它按照星号在支架序列中放置的顺序定义装饰。因此,第一个星号*定义为*C,将支架序列中的第一个装饰定义为C(例如,碳)。第一个装饰*C之后是另一个句点,用作装饰分隔符。但是,除了句点之外的任何符号(例如,不是字母数字或用于不同的标志符)都可以用作装饰分隔符。装饰分隔符句号后跟*Cl(例如氯Cl),因此*Cl是在支架序列中第二个装饰标记星号(*)位置处连接到支架的第二个装饰。第二个装饰*C之后是修饰分隔符句点,然后是第三个修饰*CC(O)CO,它定义了连接到具有第三个装饰标记(*)的支架序列中的原子的化学结构。因此,该表示通过将结构解析为支架和装饰来定义分子结构,并在分子表示的线符号序列内按顺序定义装饰的位置。支架序列中装饰标记的顺序定义了装饰在装饰序列中定义的顺序。这使得能够容易地确定支架结构、装饰结构,然后它们与附着到支架的装饰的组合,如装饰标记的位置所指示的,按照相应的顺序。
可以看出,当装饰标记星号*列在支架序列的开头时,它不在括号内,但如果需要,也可以在括号中列出,因此星号*或括号中的星号(*)可以用作装饰标记。此外,装饰标记可以是垂直线,例如“|”或任何其他符号。优选地,装饰标记不是字母数字,因为需要清楚地识别与装饰标记分开的原子。括号或其他符号的使用可用于装饰制造者位置的所有实例,或仅在支架序列之内或内部。因此,在星号周围使用括号可以定义相应的装饰位于支架内,而在星号周围没有括号可以定义第一个悬垂在支架序列的第一个原子上。
在一些实施方式中,SOULS表示包括选自第一原子标识符或第一装饰标记的第一字符。在一些方面,第一个字符是第一个原子标识符,它可以由元素周期表的原子定义。在一些方面,第一个字符可以是第一个装饰标记(例如,星号*)。SOULS表示可以在第一装饰标记之前包括一个或多个原子标识符的前标记序列。或者,SOULS表示可以包括第一装饰,随后是一个或多个原子标识符的第一支架序列。然后在第一个支架序列之后是第二个装饰标记(例如,括号中的星号(*)),它将第二个装饰标记左侧的前一个原子标识为第二个支架节点原子。第二个修饰标记之后是第二个支架序列,然后是第三个修饰标记,它将第三个修饰标记左侧的前一个原子识别为第三个支架节点原子。第三个装饰标记之后是最终的支架序列,然后是第一个装饰分隔符(例如,句点“.”)。该第一装饰分隔符将支架序列与第一装饰和整个装饰序列分开。各个装饰由装饰分隔符按照它们在支架序列中作为装饰标记呈现的顺序进行分隔。每个装饰前面都有装饰标记(例如,星号*),以标识以下定义该装饰的字符。因此,SOULS表示将支架结构从装饰中分离出来,这使得各种计算技术的使用得到了改善,如机器学习模型。
在一些实施方式中,SOULS表示可以包括由用特殊符号分隔的两个部分组成的线符号或字符串,该特殊符号可以是此处使用的点或句点“.”,但其他符号可以定义为将装饰序列与支架序列分隔开的装饰分隔。装饰分隔符允许先写支架序列,后写装饰序列的基本线符号,反之亦然。支架序列的第一部分包含了与外围连接点对应的特殊符号(例如,星号“*”),例如与外围装饰连接的支架的原子。SOULS表示的第二部分将装饰序列作为单个装饰片段(例如,每个装饰的线符号),其顺序与SOULS表示的支架序列中列出的相应的连接点的顺序相同,被一个特殊符号分隔开,例如,点或句点“.”,但如果需要,可以与分隔支架序列和装饰序列的符号不同。但是,点或句点可以用来表示后面的字符是装饰线符号。每个装饰片段都以基本的线符号写下来,并用特殊符号标记连接点(例如星号“*”)。在一些方面,SOULS表示中的线符号如SMILES线符号中定义和使用。
图1A显示了获得SOULS表示的方法100。在方框102处,方法100可以通过获得分子的图形表示来实施。然后,在方框104处,将图形表示分为支架部分和至少一个装饰部分。这里,装饰术语用于描述在装饰节点原子处偶联到支架的化学部分(例如,取代基)。然而,术语“装饰”可以与“外围”、“悬垂”或其他标识连接到支架上的化学部分的术语互换使用。在方框106处,方法100采用支架的图形表示并识别链接到第一装饰的第一支架节点原子,并在第一支架节点原子处呈现第一装饰标记。然后,在方框108处,方法100获取支架的图形表示,并将其转换为符合ASCII的线符号(例如,SMILES)(例如,每个线符号都符合ASCII),其在第一个支架节点原子处开始。此外,在方框110处,将每个装饰的图形表示转换成相应的线符号(例如,SMILES或与支架线符号相同)。在方框112处,用第二装饰标记标识线符号中的后续支架节点原子,重复该操作,直到用后续装饰标记标识所有支架节点原子。在方框114处,按照支架序列中的装饰标记的顺序以装饰序列排列装饰。在方框116处,SMILES表示包括与支架序列相关联的装饰序列,该装饰序列可以相邻,例如支架序列位于左侧,装饰序列位于右侧,它们通过定义分离的字符彼此分离。因此,SMILES表示包括具有装饰标记顺序的支架序列和按照装饰标记顺序的进行装饰的装饰序列。
在一些实施方式中,可以通过各种框架识别支架和/或与装饰分离。不同的框架可以到达不同的支架。本发明允许识别不同的支架,以遵循其描述的线符号。本发明使用分子的支架和装饰来生成SMILES表示中的线符号。
在一些实施方式中,可以使用Bemis-Murcko框架将图形表示分成支架和外围装饰。Bemis-Murcko框架通过将支架定义为一组环结构和连接原子以及连接到连接原子的外围装饰,提供了一个将支架与外围装饰分开的系统。Bemis-Murcko算法可用于定义支架和在节点处连接到其上的装饰。这可以包括从分子结构中提取Bemis-Murcko支架。
图1B提供了用于从分子生成支架和外围装饰的方法120。在方框122处方法120可以获得作为其图形表示的分子。然后在方框124处可以分析该图形表示,以识别作为原子的节点和作为边的键。在方框126处,识别装饰并且从装饰节点移除装饰,使得每个装饰节点都被标识,并且每个装饰都被标识。在方框128处,移除装饰之后,支架被标识为图形表示中的剩余结构。
在一些实施方式中,用于从分子结构中提取Bemis-Murcko支架的算法可以如下:(1)将分子结构表示为图,其中节点是原子,键是边;(2)当分子图具有叶节点时,从图中删除叶节点和与其相连的边;(3)剩下的图是分子的Bemis-Murcko支架;(4)从图中删除的所有节点都是分子的外围。在一些方面,Bemis-Murcko框架可能以不同的方式定义叶节点,例如具有最多一个连接边的节点,或具有最多一个连接边的节点对应于单键(与双键或芳香键相反)。在一些方面,装饰可以被视为连接到叶节点的叶。在任何情况下,该协议都可以将分子解析为支架,并将一个或多个装饰连接到支架的装饰节点(即支架节点)。
在一些实施方式中,替代Bemis-Murcko的支架的其他定义也是可能的,并且可以用于创建如本文所述的SOULS表示。例如,在外围装饰通过任何键(不仅是单键)连接到支架的情况下,可以使用Bemis-Murcko框架扩展。此外,将分子图划分为中心部分支架和装饰外围部分的任何其他算法,其中所有外围装饰仅通过中心部分相互连接,都可以用于支架-外围定义。虽然本文的公开内容可以将支架称为具有使用单键定义的叶节点的Bemis-Murcko支架,但应该认识到支架和装饰可以用其他算法生成。
图2显示了用于将分子的线符号表示(例如,SMILES表示)转换为分子的SOULS表示的方法200。在方框202,方法200包括以线符号表示(例如,SMILES表示)获得分子。然后,在方框204将线符号表示(例如,SMILES表示)转换为分子的图形表示。应该认识到,当可用时,分子可以最初在图形表示中获得,而无需首先从线符号表示开始。然后在方框206处,将分子的图形表示转化为支架和在节点处连接至支架的至少一个装饰。然后在方框208处,识别支架和装饰之间的键。然后在方框210处,将识别的键标记为键(a1,a2),其中a1是支架中的节点原子(例如,支架节点原子),并且a2是装饰中的节点原子(例如,装饰节点原子),反之亦然。然后在方框212处,移除键(a1,a2),并用原子a1的特殊节点c1(例如特殊节点)和原子a2的特殊节点c2替换。然后在方框214处,在支架的支架节点原子a1和特殊节点c1之间添加键(a1,c1),在装饰的装饰节点原子a2和特殊节点c2之间添加键(c2,a2)。键(a1,c1)和(c2,a2)的键类型与键(a1,a2)的键类型相同。方框216处对支架原子和相应的装饰原子之间的每个键,重复方框210、212和214的过程,直到移除支架和装饰之间的所有键,并生成从支架节点原子(例如,a1)到特殊节点(例如,c1)的键,以及从装饰节点原子(例如,a2)到特殊节点(例如,c2)的键。这将支架与不同的装饰分开。在方框218中,构建支架的线符号和每个装饰的线符号。在方框220处,以支架的线符号按装饰顺序识别和标记(例如,用装饰标记)与特殊节点(例如,(a1,c1)连接的支架原子。识别可以使用如本文定义的装饰标记,使得支架的线符号包括至少一个装饰标记。在方框222处,使用支架线符号中的装饰标记的顺序来对装饰线符号进行排序。
图3A显示了将分子线符号SMILES转换为SOURES表示的算法示例,然而,应当认识到,任何分子线符号都可以用于生成SOURES表示。此外,当提供图形表示而不是分子线符号时,该算法可能会启动。图3A中用于将SMILES转化为SOULS的算法如下:(1)构建SMILES中定义的分子的图;(2)应用Bemis-Murcko算法,将每个原子分配到支架或外围(即装饰);(3)对于分子中的每个键(a1,a2),(3A)如果((a1在支架中)和(a2在外围))或((a2在支架中)和(a1在外围));(3A1)去除键(a1,a2);(3A2)创建原子类型为“*”的特殊节点c1和c2;(3A3)添加与(a1,a2)具有相同键类型的键(a1,c1)和(c2,a2);(3A4)重复步骤(3A),直到分析完所有键;(4)构造支架的SMILES表示(对于非规范SOULS表示,scaf_sm=smiles(支架),对于规范SOULS表示,scaf_sm=规范smiles(支架)),其中“规范_smiles”是任何SMILES规范化算法;(5)使用构建的SMILES表示支架开始SOULS构建(SOULS=scaf_sm);(6)对于scaf_sm中的每个原子,如果原子_类型==“*”;(6A)找到先前连接到该原子的外围P;(6B)将外围的SMILES表示和“.”从“*”原子开始添加到SOULS(SOULS=SOULS+“.”+smiles(P,start_at=“*”);和(7)返回SOULS表示。这里,外围P与本文所述的装饰相同,很明显,结构的化学部分位于其外围。
图3B显示了用于将分子线符号SMILES转换为SOULS表示的算法的另一个示例,但是应当认识到,任何分子线符号都可以用于生成SOULS表示。此外,当提供图形表示而不是分子线符号时,该算法可能会启动。图3B中用于将SMILES转化为SOULS的算法执行如下:(1)构建SMILES中定义的分子图;(2)应用Bemis-Murcko算法,将每个原子分配到支架或外围(即装饰);(3)对于分子中的每个键(a1,a2),如果((a1在支架中)和(a2在外围))或((a2在支架中)和(a1在外围));(3A)去除键(a1,a2);(3B)创建原子类型为“*”的特殊节点c;(3C)添加键(a1,c)和(c,a2);(4)用支架的一些SMILES表示开启SOULS(SOULS=smiles(支架));(4)对于smiles(支架)中的原子,如果原子_类型==“*”;(4A)找到先前与该原子相连的外围P;(4B)将外围的SMILES表示和“.”从“*”原子开始添加到SOULS(SOULS=SOULS+“.”+smiles(P,start_at=“*”);和(5)返回SOULS表示。这里,外围P与本文所述的装饰相同,其中很明显结构的化学部分位于其外围。
在一些实施方式中,单个分子可以具有多个SOULS表示,这取决于外围装饰的顺序,或不同的基本线符号,或在构建基本线符号时的不同图形遍历。规范SOULS是通过将规范化算法应用于SOULS表示而获得的分子的SOULS表示。当基本线符号为SMILES时,示例规范化算法如下:(1)使用SMILES规范化算法规范化SOULS的第一部分;(2)相应改变SOULS第二部分外围碎片的顺序;(3)对于每个外围片段,应用SMILES规范化过程,使得片段的连接点成为规范化后的第一个符号。
下面给出了同一分子的SMILES和SOULS表示的示例。
实施例1:
规范的SMILES:CC1Oc2ccc(Cl)cc2N(CC(O)CO)C1=O
SOULS:*C1Oc2ccc(*)cc2N(*)C1=O.*C.*Cl.*CC(O)CO
规范的SOULS:*c1ccc2c(c1)N(*)C(=O)C(*)O2.*Cl.*CC(O)CO.*C
实施例2:
规范的SMILES:CC1C2CCC(C2)C1CN(CCO)C(=O)c1ccc(Cl)cc1
SOULS:C(C1C(*)C2CC1CC2)N(*)C(c1ccc(cc1)*)=O.*C.*CCO.*Cl
规范的SOULS:*c1ccc(C(=O)N(*)CC2C3CCC(C3)C2*)cc1.*Cl.*CCO.*C
实施例3:
规范的SMILES:CCCS(=O)c1ccc2[nH]c(=NC(=O)OC)[nH]c2c1
SOULS:*c1cc2c(cc1)[nH]c([nH]2)=N*.*S(=O)CCC.*C(=O)OC
规范的SOULS:*N=c1[nH]c2ccc(*)cc2[nH]1.*C(=O)OC.*S(=O)CCC
实施例4:
SMILES:C#CC(C)(C)NC(=O)CN(c1cc(C)ccc1C)S(=O)(=O)c1ccccc1
规范的SOULS:
*c1ccc(*)c(N(*)S(=O)(=O)c2ccccc2)c1.*C.*C.*CC(=O)NC(C)(C)C#C
SOULS:
c1cc(*)c(cc1*)N(S(=O)(=O)c1ccccc1)*.*C.*C.*CC(=O)NC(C)(C)C#C
实施例5:
实施例1的SOULS表示如下:
SOULS:*C1Oc2ccc(*)cc2N(*)C1=O.*C*Cl*CC(O)CO
SOULS:*C1Oc2ccc(*)cc2N(*)C1=O.*C|*Cl|*CC(O)CO
SOULS:*C1Oc2ccc(*)cc2N(*)C1=O.C|Cl|CC(O)CO
SOULS:*C1Oc2ccc(*)cc2N(*)C1=O.C.Cl.CC(O)CO
此外,SOULS表示可用于仅包含支架序列且没有任何修饰的分子。但是,生成SOULS表示的方法适用于仅作为支架且没有任何装饰的分子。因此,SOULS表示中的第一个符号或标识符不必是装饰标记或星号。此处提供的每个装饰中的前导星号不是必需的,但它对于可视化很有用,因为大多数SMILES可视化工具会将此类SOULS绘制为具有不同连接点的一堆片段。
可以检查和验证SOULS表示以确保正确生成。验证SOULS的一组条件如下:
支架S和所有外围装饰片段[P_1,...,P_n]都是有效的SMILES;
支架S中的“*”原子数等于外围装饰片段P的数量;
每个外围装饰片段P_i仅包含一个“*”原子;和/或
每个外围装饰片段P_i包含至少一个非星号“*”原子。
当SOULS表示是规范SOULS时,有效SOULS的另一个规则是:每个外围装饰片段P_i都以“*”符号开头。
图4A显示了用于将SMILES表示转换为SOULS表示的方法的示例。步骤1包括创建分子的图形表示。步骤2包括识别支架和外围装饰,其中支架用实线包围,外围装饰用虚线包围。因此,有一个单一支架和三个外围装饰。第3步包括将支架与外围装饰分开并添加标记(例如,星号*)。
图4B显示了用于将SMILES表示转换为SOULS表示的方法的详细示例。步骤1包括创建分子的图形表示。步骤2包括将Bemis Murcko算法应用于图形表示以识别支架和外围装饰,其中支架用实线包围,外围装饰用虚线包围。步骤3包括逐个键迭代分子键,直到找到键(a1,a2),如圆圈所示(例如,在氮和碳之间)。步骤4包括创建原子类型为“*”的新节点c1、c2,移除键(a1,a2),并添加键(a1,c1)和(c2,a2)。步骤5包括逐个键迭代分子键,直到找到键(a1,a2),如圆圈所示(例如,在苯基和甲基之间)。步骤6包括创建原子类型为“*”的新节点c1、c2,移除键(a1,a2),并添加键(a1,c1)和(c2,a2)。步骤7包括逐个键迭代分子键,直到找到键(a1,a2),如圆圈所示(例如,在苯基和其他甲基之间)。步骤8包括创建原子类型为“*”的新节点c1、c2,移除键(a1,a2),并添加键(a1,c1)和(c2,a2)。步骤9包括为支架生成线符号(例如,SOULS),其中包括迭代支架原子,直到找到外围装饰的连接点。步骤10包括将用于装饰的线符号添加到支架线符号。步骤11包括对每个外围装饰重复步骤9和步骤10,直到完成并提供SOULS表示。
此外,用于生成SOULS表示的协议可以反转以生成图形表示和/或其他线符号表示,例如SMILES。该协议可以生成一个图形表示,然后将其转换为线符号表示。因此,该协议可用于将图形表示转换为线符号表示。
图5A显示了用于将SOULS表示转换为线符号表示(例如SMILES表示)的方法500的示例。在方框502处,方法500可以包括获得分子的SOULS表示。然后在方框504处,将SOULS表示分成支架序列线符号和装饰序列线符号。这里,装饰序列包括至少一个装饰,并且每个装饰由线符号定义。因此,装饰序列列出了所有外围装饰片段。然后在步骤506处,使用支架线符号和单独的装饰线符号来构建分子的图形表示。然后在方框508处,将图形表示转换为线符号(例如,SMILES)表示。
图5B显示了从SOULS表示构建分子的完整图形表示的示例方法510。这里,方法510为方框506提供了额外的细节。在方框512处,方法510可以包括构建支架线符号的图形表示。这里,图形表示保留了来自支架序列的原子排序。然后,在方框514处,分析图形表示的每个原子以确定装饰的连接点。在方框516处,对于支架中的装饰的连接点,识别正确的装饰并创建该装饰的图形表示。然后,在方框518处,识别装饰的图形表示中的连接点。在方框520处,支架图形表示中的连接点和装饰图形表示中的连接点被连接或相加在一起。然后,在方框522处,识别与连接点相邻的支架原子和装饰原子。在方框524处,移除连接点,并且将识别的相邻支架原子和识别的相邻装饰原子连接在一起以形成键。对于支架中具有连接点的每个原子和每个相应的装饰,重复从框518到框524的方法步骤。一旦整个分子已经被迭代以将装饰物连接到支架上,则在方框526处,生成分子的完整图形表示。然后在方框528处,将图形表示转换为分子的线符号表示(例如,SMILES)。这种从图形表示到线表示的转换可以按照本领域已知的或开发的方式来执行。例如,生成一个完整的SMILES表示。
图5C显示了用于将SOULS或图形表示生成为不同的线符号表示的另一示例方法550。在方框552处,方法550可以包括获得分子的SOULS表示。在方框554处,识别将支架序列与装饰序列分开的符号,并且在方框556处,将支架S与修饰P(例如,外围装饰)分开。在方框558处,生成支架图形表示和装饰表示。在方框560处,分析支架以识别支架中作为装饰的连接点*的原子A。在方框562处,识别装饰中作为相应连接点*的原子B。在方框564处,识别支架中与原子A相邻的邻居原子A_neig(例如,连接点*)。在方框566处,识别装饰中与原子B相邻的邻居原子B_neig(例如,连接点*)。在方框568中,从支架中移除原子A并且从装饰中移除原子B。在方框570处,支架的原子A_neig连接到装饰的原子B_neig(例如,A-A_neig和B-B_neig具有相同的连接时间)。在方框572处,一旦所有装饰都连接到支架,则生成分子的图形表示。然后在方框574处,将分子的图形表示转换为分子的线符号(例如,SMILES)。
图5D显示了将SOULS表示转换为SMILES表示的算法示例,但是应该认识到,任何分子线符号都可以从SOULS表示生成。图5D中,用于将SMILES转换为SOULS的算法执行如下:(1)通过“.”符号拆分SOULS表示并获得支架S和外围片段列表[P_1,P_2,P_3,...,P_N];(2)从保持原子有序的支架S中构造分子图MOL;(3)i=1;(4)对于MOL原子中的原子A(保留从S开始的原子排序),如果原子A是连接点(原子_类型(A)==‘*’);(3A)从外围片段P_i创建分子P_MOL;(3B)在P_MOL中找到连接点B(原子B的原子_类型(B)==‘*’);(3C)将P_MOL添加到MOL中;(3D)将A_neig定义为分子MOL中与连接点A相连的原子;(3E)将B_neig定义为片段P_MOL中连接到连接点B的原子;(3F)移除连接点A和B;(3G)将原子A_neig和B_neig用与键(A,A_neig)具有的相同类型的键相连;(4)i=i+1重复,直到所有外围装饰都连接;(5)返回分子MOL的SMILES表示。
图5E显示了用于将SOULS表示转换为SOULS表示的方法的详细示例。步骤1包括通过识别至少一个装饰分隔符将SOULS表示拆分为支架序列S和分开的外围装饰[P_1,P_2,...,P_N],该分隔符是一个表示装饰线符号的句点“.”。这在每个“.”符号处拆分线符号并获得支架序列S和外围装饰[P_1,P_2,...,P_N]。步骤2包括创建支架的分子图形表示,以及可选的每个外围装饰。步骤3包括识别为甲基的外围装饰P1的连接点。步骤4包括将外围装饰P1连接在分子上由相应装饰标记“*”定义的位置。步骤5包括识别外围装饰P2的连接点,其为甲基。步骤6包括将外围装饰P2连接在分子上由相应装饰标记“*”定义的位置。步骤7包括识别外围装饰P3的连接点,其为N-(2-甲基丁-3-炔-2-基)丙酰胺。步骤8包括将外围装饰P3连接在分子上由相应装饰标记“*”定义的位置,这完成了图形表示。步骤9包括从分子图形表示生成SMILES表示。
在一些实施方式中,分子的SOULS表示可以用于各种计算系统中,例如用于描述分子,基本上用于涉及分子的任何计算处理协议。SOULS表示是一个通用框架,可以应用于多个领域,包括机器学习。可以利用SOULS表示的机器学习协议包括表示学习、预测建模、生成建模、属性优化(例如,使用贝叶斯优化)或任何涉及分子的任何通用算法中的有监督和无监督任务。
在一些实施方式中,对于预测建模,SOULS表示可以用作在计算系统或任何计算协议中分子的SMILES表示或分子的任何其他线符号的直接替代。SOULS表示在涉及计算分子化学结构的深度递归神经网络中特别有用。因此,SOULS表示可用于预测分子的不同性质,包括生化(例如,生物药代动力学或药效学)和物理性质(例如,溶解度、汽化温度或其他)。这使得SOULS表示在许多神经网络架构中都很有用,包括用于表示学习的基于自动编码器的网络。SOULS表示的植入可以作为以SOULS表示格式表示的分子的输入和输出。SOULS表示也可以与其他分子表示一起使用,例如SMILES或Graphs,或者根据各种计算协议的需要来回转换。例如,编码器-解码器模型可以接收以SOULS格式表示的输入,并执行计算协议,以便进行转换,以SMILES格式表示输出,反之亦然。
在一些实施方式中,SOULS表示可用于分子特性优化的协议中,该协议可包括生成满足用于训练模型或计算标准的给定特性集(例如,溶解度或易合成性)的分子的表示。SOULS格式对支架进行分区并分离外围装饰,以便在计算期间进行简单读取,其中支架序列中装饰标记的顺序定义了装饰线符号的呈现顺序,使支架和装饰更容易关联。SOULS符号也更易于人类阅读,因为装饰标记的顺序允许更轻松地跟踪特定连接点的已定义装饰。因此,SOULS表示允许通过查找具有某些质量函数高值的分子来进行优化,这些质量函数通常与某些支架或装饰相关。SOULS符号的优化可以通过不同的方法完成,包括遗传算法、贝叶斯优化和随机搜索等。
遗传算法可以作为一种受自然选择过程启发的元启发式算法,属于进化算法(EA)的一类。遗传算法通常用于通过依赖诸如变异、交叉和选择等受生物学启发的算子来生成优化和搜索问题的高质量解决方案。参见“wikipedia.org/wiki/Genetic_algorithm”,其通过特定参考并入本文。当在任何遗传算法中使用时,SOULS表示可用于定义化学结构。
此外,SOULS表示可用于创建化学结构的类似物。SOULS表示法可用于为特定支架交换不同的装饰,或为具有相同数量和位置的装饰的不同但类似的结构交换支架。例如,为了生成类似物,一种可能的突变程序是用来自其他分子的随机外围片段替换随机外围片段。因此,改进的SOULS符号允许通过将一个装饰线符号切换或交换为另一个装饰线符号来轻松替换支架上的取代基,这显著简化了过程。
SOULS符号被配置用于外围装饰的突变和修改,因此可以通过识别支架序列中装饰标记的顺序,然后跟踪装饰序列中的有序装饰线符号,为特定位置的分子提供取代基库。类似地,SOULS符号允许用不同的支架序列修饰或替换支架序列,以便计算机可以通过用来自具有相同数量外围片段的另一个不同分子的支架替换分子的支架来处理突变。因此,SOULS符号可用于创建化学支架的类似物,以及具有相同或相关化学支架以及一系列不同取代基模式的类似物。
一种用于化学结构的面向支架的线符号包括:以线符号排列的原子标识符的支架序列,其定义化学结构的支架,所述支架序列包括至少一个装饰标记;在支架序列的最后一个原子标识符或最后一个装饰标记之后的装饰分隔符;至少一种装饰,其具有定义连接到支架上的装饰的化学结构的线符号的至少一个原子标识符;在支架序列中,装饰标记的顺序定义了装饰的顺序;在支架序列中,第一原子标识符与第一装饰标记相邻;在所述至少一种装饰中,第一装饰在第一装饰分隔符之后;在所述至少一种装饰中,第一装饰连接到第一原子标识符。
在一些实施方式中,用于化学结构的面向支架的线符号可以包括:以线符号排列的多个原子标识符的支架序列,其定义了分子化学结构的支架,其中支架序列包括至少一个装饰标记,位于以下位置之一:在支架序列的第一原子标识符之前;在后续/第二原子标识符之前;或在后续/第二原子标识符之后;在支架序列的最后一个原子标识符或最后一个装饰标记之后的装饰分隔符;至少一种装饰,其具有线符号的至少一个原子标识符,其定义了连接到分子支架的外围装饰的化学结构;其中:在支架序列中,至少一个装饰标记的顺序定义了至少一个装饰的顺序;在支架序列中,第一原子标识符与第一装饰标记相邻;在所述至少一个装饰中,第一装饰在第一装饰分隔符之后;在所述至少一个装饰中,所述第一装饰被定义为连接到所述分子的化学结构中的所述第一原子标识符。在一些方面,第一装饰标记在支架序列的第一接头原子标识符之前。第一连接原子可以是任何原子,包括支架序列中的第一个原子或最后一个原子或它们之间的任何原子。
在一些实施方式中,面向支架的线符号包括:与第二原子标识符相邻的至少第二装饰标记;在第一装饰之后至少一个第二装饰分隔符;以及在所述至少一个第二装饰分隔符之后的至少一个第二装饰,其中每个第二装饰由第二装饰标记分隔。
在一些实施方式中,面向支架的线符号包括:与相应原子标识符相邻的多个装饰标记;由多个装饰分隔的多个装饰分隔符;并且多个装饰中的每一个都在相应的装饰分隔符之后。
在一些实施方式中,每个装饰包括相应的装饰标记,后跟装饰的化学结构的线符号。
在一些实施方式中,每个原子标识符由周期表定义。在一些方面,每个装饰标记都是一个符号。在一些方面,每个装饰分隔符是不同于装饰制造者符号的第二符号。在一些方面,支架序列中的每个装饰标记都由第三符号连接,该符号不同于装饰制造者符号和装饰分隔符符号。
在一些实施方式中,其中一个实施方式的将化学结构的线符号转换为化学结构的面向支架的线符号的方法可以包括:提供化学结构的线符号;将线符号转换为化学结构的图形符号;识别支架和化学结构的图形符号的至少一个装饰;将支架与至少一个装饰分开;将支架的图形表示转换为支架的相应线符号表示;将每个装饰的图形表示转换为每个装饰的相应线符号表示;识别支架中与第一装饰连接的第一连接原子;在第一连接原子相邻放置第一装饰标记;在支架序列的最后一个原子标识符或最后一个装饰标记之后放置第一个装饰分隔符;在第一装饰分隔符之后放置第一装饰;和为化学结构提供面向支架的线符号。第一连接原子可以是任何原子,包括支架序列中的第一个原子或最后一个原子或它们之间的任何原子。
在一些实施方式中,该方法包括:识别分子的化学结构的每个原子和每个键;识别化学结构的支架;识别连接到支架原子的每个装饰;识别支架的每个装饰和相应原子之间的每个键;和破坏支架的每个装饰和相应原子之间已识别的键。
在一些实施方式中,该方法包括:用连接到支架的相应原子的支架节点替换每个断裂的键;和用排列在每个装饰上的装饰节点替换每个断裂的键。
在一些实施方式中,该方法包括:构造具有用于每个支架节点的装饰标记的支架的线符号;和构造每个装饰的线符号。
在一些实施方式中,该方法包括:确定支架的线符号中至少一个装饰标记的顺序;以及在装饰序列中排列所述至少一个装饰,所述装饰序列具有所述至少一个装饰标记在支架的线符号中的顺序,其中每个装饰具有装饰线符号并且由装饰分隔符分隔。
在一些实施方式中,该方法包括:排列支架序列,使得第一装饰标记在支架序列的第一连接原子标识符之前。第一个连接原子可以是任何原子,包括支架序列中的第一个原子或最后一个原子或它们之间的任何原子。
在一些实施方式中,该方法包括排列线符号以包括:至少一个与第二连接原子标识符相邻的第二装饰标记;在第一装饰之后至少一个第二装饰分隔符;以及在所述至少一个第二装饰分隔符之后的至少一个第二装饰,其中每个第二装饰由第二装饰标记分隔。
在一些实施方式中,该方法包括排列线符号以包括:与相应连接原子标识符相邻的多个装饰标记;由多个装饰分隔的多个装饰分隔符;和多个装饰中的每一个都在相应的装饰分隔符之后。
在一些实施方式中,该方法包括定义每个装饰以包括对应的装饰标记,后跟装饰的化学结构的线符号。
在一些实施方式中,该方法包括以下至少一项:每个原子标识符由周期表定义;每个装饰标记都是一个符号;每个装饰分隔符是不同于装饰制造者符号的第二个符号;或者支架序列中的每个装饰标记由不同于装饰制造者符号和装饰分隔符符号的第三个符号连接。
在一些实施方式中,将化学结构的面向支架的线符号(例如,SOULS)转换为化学结构的不同的线符号(例如,SMILES)的方法可以包括:为化学结构提供面向支架的线符号;将面向支架的线符号拆分为支架序列和每个装饰;构建支架序列的图形表示;构建每个装饰的图形表示;结合支架序列的图形表示和每个装饰的图形表示,形成分子的图形表示;并将分子的图形表示转换为不同的线符号。
在一些实施方式中,该方法(例如,SOULS到SMILES)包括:在每个装饰的支架的图形表示上识别支架连接点;识别每个装饰的支架连接点的支架原子;和移除每个支架连接点。
在一些实施方式中,该方法(例如,SOULS到SMILES)包括:在每个装饰的图形表示上的识别装饰连接点;为每个装饰识别连接到装饰连接点的装饰原子;和移除每个装饰连接点。
在一些实施方式中,该方法(例如,SOULS到SMILES)包括:用键将每个支架原子与相应的装饰原子连接;和提供分子化学结构的图形表示。
在一些实施方式中,该方法(例如,SOULS到SMILES)包括识别第一装饰分隔符和每个装饰之间的每个装饰分隔符,第一装饰分隔符位于最后一个原子标识符或最后一个装饰标记之后。
在一些实施方式中,该方法(例如,SOULS到SMILES)包括识别支架中的原子A,其定义了装饰的连接点;识别装饰中的原子B,其定义了支架的连接点;识别与原子A连接的原子A_neig;识别与原子B连接的原子B_neig;移除原子A;移除原子B;并通过键将原子A_neig连接到原子B_neig。
在一些实施方式中,该方法(例如,SOULS到SMILES)包括:识别支架中的每个原子A,其定义到装饰的连接点;识别装饰中的每个原子B,其定义到支架的连接点;识别与每个原子A连接的每个原子A_neig;识别与每个B的原子连接的每个原子B_neig;移除每个原子A;移除每个原子B;并通过键将每个原子A_neig连接到每个相应的原子B_neig。
在一些实施方式中,计算化学结构的方法可以包括:为实施方式之一的化学结构将面向支架的线符号提供给计算系统;以和使用计算系统执行具有面向支架的线符号的计算协议。
在一些实施方式中,计算机程序产品可以包括:具有计算机可执行指令的非瞬态有形存储器设备,当处理器执行该指令时,会导致将化学结构的线符号转换为用于其中一个实施方式的化学结构的面向支架的线符号的方法的执行。
在一些实施方式中,计算机程序产品可以包括:具有计算机可执行指令的非瞬态有形存储器设备,当由处理器执行该指令时,会导致将化学结构的面向支架的线符号转换为化学结构的不同线符号的方法的执行。
本领域技术人员将理解,对于本文公开的这一过程和其他过程和方法,在过程和方法中执行的功能可以以不同的顺序实现。此外,所概述的步骤和操作仅作为示例提供,并且一些步骤和操作可以是可选的,可组合成更少的步骤和操作,或者扩展成额外的步骤和操作,而不偏离所公开的实施方式的本质。
本公开不限于本申请中描述的特定实施方式,其旨在作为各个方面的说明。可以在不脱离其精神和范围的情况下进行许多修改和变化,这对于本领域的技术人员来说是显而易见的。根据前面的描述,除了在此列举的那些之外,在本公开范围内的功能等效的方法和装置对于本领域技术人员来说将是显而易见的。这样的修改和变化旨在落入所附权利要求的范围内。本公开仅受所附权利要求的条款以及这些权利要求所享有的等同物的全部范围的限制。应当理解,本公开不限于特定的方法、试剂、化合物组合物或生物系统,它们当然可以变化。还应理解,本文使用的术语仅用于描述特定实施方式的目的,而不是限制性的。
在一个实施方式中,本方法可以包括在计算系统上执行的方面。因此,计算系统可以包括具有用于执行该方法的计算机可执行指令的存储器设备。计算机可执行指令可以是计算机程序产品的一部分,该计算机程序产品包括用于执行任何权利要求中的任何方法的一个或多个算法。
在一个实施方式中,本文描述的任何操作、过程、方法或步骤可以被实现为存储在计算机可读介质上的计算机可读指令。计算机可读指令可由各种计算系统的处理器执行,包括桌面计算系统、便携式计算系统、平板计算系统、手持计算系统以及网络元件、基站、毫微微蜂窝和/或任何其他计算设备。
系统各方面的硬件和软件实现之间几乎没有区别;硬件或软件的使用通常(但并非总是如此,因为在某些情况下,硬件和软件之间的选择可能变得很重要)是代表成本与效率权衡的设计选择。本文所述的过程和/或系统和/或其他技术可能受到各种工具的影响(例如,硬件、软件和/或固件),优选的工具将根据部署过程和/或系统和/或其他技术的环境而变化。例如,如果实施者确定速度和准确性是最重要的,实施者可以选择硬件和/或固件为主的工具;如果灵活性是最重要的,实施者可以主要选择软件实施;或者,实施者可以选择硬件、软件和/或固件的某种组合。
上述详细描述已经通过使用框图、流程图和/或示例阐述了过程的各种实施方式。就此类框图、流程图和/或示例包含一个或多个功能和/或操作而言,本领域技术人员将理解,此类框图、流程图或示例中的每个功能和/或操作都可以通过各种硬件、软件、固件或几乎任何它们的组合来单独和/或共同实现。在一个实施方式中,本文描述的主题的几个部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其他集成格式来实现。然而,本领域技术人员将认识到,本文公开的实施方式的一些方面全部或部分,可以等效地在集成电路中实现,作为在一台或多台计算机上运行的一个或多个计算机程序(例如,一个或多个计算机系统上运行的一个或多个程序)、作为在一个或多个处理器上运行的一个或多个程序(例如,作为在一个或多个微处理器上运行的一个或多个程序)、固件或其几乎任何组合,并且鉴于本公开,为软件和/或固件设计电路和/或编写代码将完全在本领域技术人员的技术范围内。此外,本领域的技术人员将理解,本文所述主题的机制能够以各种形式作为程序产品分发,并且无论具体情况如何,本文所述主题的说明性实施方式都适用于实际执行分配的信号承载介质的类型。信号承载介质的示例包括但不限于以下:可记录型介质,例如软盘、硬盘驱动器、CD、DVD、数字磁带、计算机存储器等;以及传输类型介质,例如数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路等)。
本领域的技术人员将认识到,以本文所述方式描述设备和/或过程在本领域内是常见的,并且随后使用工程实践将所述设备和/或过程集成到数据处理系统中。也就是说,本文描述的设备和/或过程的至少一部分可以通过合理实验量集成到数据处理系统中。本领域技术人员将认识到,典型的数据处理系统通常包括一个或多个系统单元外壳、视频显示设备、存储器(例如易失性和非易失性存储器的存储器)、处理器(例如微处理器和数字信号处理器),计算实体(例如操作系统)、驱动程序、图形用户界面和应用程序,一个或多个交互设备,例如触摸板或屏幕,和/或包括反馈回路和控制电机的控制系统(例如,用于传感位置和/或速度的反馈;用于移动和/或调整组件和/或数量的控制电机)。典型的数据处理系统可以利用任何合适的商业可用组件来实现,例如通常存在于数据计算/通信和/或网络计算/通信系统中的组件。
本文描述的主题有时说明了包含在不同其他组件内或与不同其他组件连接的不同组件。应当理解,所描述的架构仅仅是示例性的,实际上可以实现许多其他实现相同功能的架构。从概念上讲,实现相同功能的任何组件布置都是有效地“关联”的,从而实现了所需的功能。因此,本文中组合以实现特定功能的任何两个组件可以被视为彼此“关联”,从而实现期望的功能,而与架构或中间组件无关。同样,如此关联的任何两个组件也可以被视为彼此“可操作地连接”或“可操作地耦合”以实现所需的功能,并且能够如此关联的任何两个组件也可以被视为“可操作地可耦合”,相互连接以实现所需的功能。可操作地耦合的具体示例包括但不限于物理上可匹配和/或物理上交互的组件和/或无线交互和/或无线交互组件和/或逻辑交互和/或逻辑交互组件。
图6显示了一个示例计算设备600,其被布置为执行本文所述的任何计算方法。在非常基本的配置602中,计算设备600通常包括一个或多个处理器604和系统存储器606。存储器总线608可用于在处理器604和系统存储器606之间进行通信。
根据所需的配置,处理器604可以是任何类型,包括但不限于微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或其任何组合。处理器604可以包括多级高速缓存,例如一级高速缓存610和二级高速缓存612、处理器核614和寄存器616。示例处理器核614可以包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理内核(DSP核)或其任意组合。示例存储器控制器618也可以与处理器604一起使用,或者在一些实施方式中,存储器控制器618可以是处理器604的内部部分。
根据所需的配置,系统存储器606可以是任何类型,包括但不限于易失性存储器(例如RAM)、非易失性存储器(例如ROM、闪存等)或它们的任何组合。系统存储器606可以包括操作系统620、一个或多个应用程序622和程序数据624。应用程序622可以包括测定应用程序626,该测定应用程序626被布置成执行如本文所述的功能,包括关于所述方法所述的那些。程序数据624可包括可用于分析由传感器单元240提供的污染特性的测定信息628。在一些实施方式中,应用程序622可被布置为与操作系统620上的程序数据624一起操作,从而可以如本文所述,验证不受信任的计算节点执行的工作。图6中通过由内部虚线内的那些组件来说明所描述的基本配置602。
计算设备600可以具有额外的特征或功能,以及额外的接口,以促进基本配置602和任何所需设备和接口之间的通信。例如,总线/接口控制器630可用于促进基本配置602和一个或多个数据存储设备632之间经由存储接口总线634的通信。数据存储设备632可以是可移动存储设备636、不可移动存储设备638或其组合。可移动存储和不可移动存储设备的示例包括磁盘设备,例如软盘驱动器和硬盘驱动器(HDD),光盘驱动器,例如压缩盘(CD)驱动器或数字通用磁盘(DVD)驱动器,固态驱动器(SSD)和磁带驱动器等等。示例计算机存储介质可以包括在任何用于存储信息的方法或技术中实现的易失性和非易失性、可移动和不可移动介质,例如计算机可读指令、数据结构、程序模块或其他数据。
系统存储器606、可移动存储设备636和不可移动存储设备638是计算机存储介质的示例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多功能磁盘(DVD)或其他光存储、盒式磁带、磁带、磁盘存储或其他磁存储设备,或可用于存储所需信息并且可由计算设备600访问的任何其他介质。任何此类计算机存储介质都可以是计算设备600的一部分。
计算设备600还可以包括接口总线640,用于促进从各种接口设备(例如,输出设备642、外围接口644和通信设备646)经由总线/接口控制器630到基本配置602的通信。示例输出设备642包括图形处理单元648和音频处理单元650,其可以被配置为通过一个或多个A/V端口652与各种外部设备通信,例如显示器或扬声器。示例外围接口644包括串行接口控制器654或者并行接口控制器656,其可配置为通过一个或多个输入/输出端口658与外部设备如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备等)或其他外围设备(例如,打印机、扫描仪)通信。示例通信设备646包括网络控制器660,网络控制器660可以被布置成便于经由一个或多个通信端口664在网络通信链路上与一个或多个其他计算设备662进行通信。
网络通信链路可以是通信媒体的一个示例。通信介质通常可以由计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据来体现,例如载波或其他传输机制,并且可以包括任何信息传递介质。“调制数据信号”可以是具有以编码信号中的信息的方式设置或更改的一个或多个其特征的信号。例如,但不限于,通信媒体可包括有线媒体,例如有线网络或直接有线连接,以及无线媒体,例如声学、射频(RF)、微波、红外线(IR)和其他无线媒体。本文中使用的术语计算机可读介质可以包括存储介质和通信介质。
计算设备600可以实现为小型便携式(或移动)电子设备的一部分,例如手机、个人数据助理(PDA)、个人媒体播放器设备、无线网络手表设备、个人耳机设备、应用特定设备或包括上述任何功能的混合设备。计算设备600还可以实现为个人计算机,包括膝上型计算机和非膝上型计算机配置。计算设备600还可以是任何类型的网络计算设备。计算设备600也可以是如本文所述的自动化系统。
本文描述的实施方式可以包括使用包括各种计算机硬件或软件模块的专用或通用计算机。
本发明范围内的实施方式还包括用于承载或具有存储在其上的计算机可执行指令或数据结构的计算机可读介质。这样的计算机可读介质可以是通用或专用计算机可以访问的任何可用介质。作为示例而非限制,此类计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备,或任何其他介质,可用于以计算机可执行指令或数据结构的形式承载或存储所需的程序代码装置,并且可以由通用或专用计算机访问。当信息通过网络或其他通信连接(硬连线、无线或硬连线或无线的组合)传输或提供给计算机时,计算机会正确地将连接视为计算机可读介质。因此,任何这样的连接都被恰当地称为计算机可读介质。上述的组合也应包括在计算机可读介质的范围内。
计算机可执行指令包括例如使通用计算机、专用计算机或专用处理设备执行特定功能或功能组的指令和数据。尽管主题已经用特定于结构特征和/或方法行为的语言描述,但是应当理解,在所附权利要求中定义的主题不一定限于上述特定特征或行为。相反,上述特定特征和行为被公开为实施权利要求的示例形式。
如本文所用,术语“模块”或“组件”可以指代在计算系统上执行的软件对象或例程。本文所述的不同组件、模块、引擎和服务可以被实现为在计算系统上执行的对象或进程(例如,作为单独的线程)。虽然本文描述的系统和方法优选地以软件实现,但在硬件或软件和硬件的组合中实现也是可能的和预期的。在本描述中,“计算实体”可以是如本文先前定义的任何计算系统,或在计算系统上运行的任何模块或调制器的组合。
关于本文中实质上任何复数和/或单数术语的使用,本领域技术人员可以根据上下文和/或应用情况,从复数翻译成单数和/或从单数翻译成复数。为了清楚起见,可以在本文中明确阐述各种单数/复数排列。
本领域技术人员将理解,一般而言,本文,尤其是所附权利要求(例如,所附权利要求的主体)中使用的术语,通常旨在作为“开放”术语(例如,术语“包括”应解释为“包括但不限于”,术语“具有”应解释为“至少具有”,术语“包括”应解释为“包括但不限于”等)。本领域内的技术人员将进一步理解,如果打算引用特定数量的所引入的权利要求,则这种意图将在权利要求中明确地记载,并且在没有这种引用的情况下,不存在这种意图。例如,为了帮助理解,以下所附权利要求可能包含使用介绍性短语“至少一个”和“一个或多个”来介绍权利要求陈述。然而,此类短语的使用不应被解释为暗示由不定冠词“一”(a)或“一个”(an)引入的权利要求陈述将包含此类引入的权利要求陈述的任何特定权利要求限制为仅包含一个此类陈述的实施方式,即使当同一权利要求包括介绍性短语“一个或多个”或“至少一个”和不定冠词,例如“一”(a)或“一个”(an)(例如,“一”(a)或“一个”(an)应解释为“至少一个”或“一个或多个”);用于介绍权利要求陈述的定冠词的使用也是如此。此外,即使明确地列举了所引入的权利要求的具体数目,本领域的技术人员将认识到,这样的列举应当被解释为至少表示所列举的数目(例如,“两次列举”的简单列举,而没有其他修饰语,指至少两次列举,或两次或多次列举)。此外,在约定类似于“A、B和C中的至少一个等”的情况下,在使用这种结构时,一般来说,这种结构意在本领域技术人员会理解约定的意义上(例如,“具有A、B和C中的至少一个的系统”将包括但不限于以下系统:A单独,B单独,C单独,A和B一起,A和C一起,B和C一起,和/或A、B和C一起,等等)。在约定类似于“A、B或C等中的至少一个”的情况下,在使用这种结构时,一般来说,这种结构意在本领域技术人员会理解约定的意义上(例如,“具有A、B或C中的至少一个的系统”将包括但不限于以下系统:A单独,B单独,C单独,A和B一起,A和C一起,B和C一起,和/或A、B和C一起,等等)。本领域技术人员将进一步理解,无论是在说明书、权利要求或附图中,实际上呈现两个或多个替代术语的任何分离词和/或短语,都应被理解为考虑包括其中一个术语、任一术语或两个术语的可能性。例如,短语“A或B”将被理解为包括“A”或“B”或“A和B”的可能性。
此外,在根据马库什组描述本公开的特征或方面的情况下,本领域技术人员将认识到,本公开因此也根据马库什组的任何个体成员或成员亚组来描述。
本领域技术人员将理解,出于任何和所有目的,例如在提供书面描述方面,本文公开的所有范围还包括任何和所有可能的子范围及其子范围的组合。任何列出的范围都可以被容易地识别为充分描述,并且能够将相同的范围分解成至少相等的一半、三分之一、四分之一、五分之一、十分之一等。作为非限制性示例,本文讨论的每个范围都可以很容易地分解为下三分之一、中三分之一和上三分之一等。如本领域技术人员也将理解的,所有语言,例如“最多”、“至少”等都包括所列举的数字,并指代范围可以随后分解为如上所述的子范围。最后,如本领域技术人员将理解的,范围包括每个单独的成员。因此,例如,具有1-3个单元的组是指具有1、2或3个单元的组。类似地,具有1-5个单元的组是指具有1、2、3、4或5个单元的组,等等。
综上所述,应当理解,为便于说明,本文描述了本公开的各种实施方式,可以在不脱离本公开的范围和精神的情况下进行各种修改。因此,本文所公开的各种实施方式并非旨在限制,真实范围和精神由所附权利要求指示。
本专利申请交叉引用:2018年6月2日提交的美国申请号16/015,990;2018年9月18日提交的美国申请号16/134,624;2019年9月5日提交的美国申请号16/562,373;2018年9月6日提交的美国申请号62/727,926;2018年10月17日提交的美国申请号62/746,771;和2019年2月22日提交的美国申请号62/809,413;这些申请通过特定参考以其整体并入本文。本文引用的所有参考文献通过特定参考以其整体并入本文。
Claims (36)
1.一种用于化学结构的面向支架的线符号,包括:
以线符号排列的多个原子标识符的支架序列,其限定分子化学结构的支架,其中所述支架序列包括至少一个装饰标记,每个装饰标记与连接到装饰的支架的连接原子的原子标识符相邻,其中,在分子的化学结构中,所述装饰是结合到支架的连接原子的化学部分;
装饰分隔符,在支架序列的最后一个原子标识符或最后一个装饰标记之后;
至少一个装饰,其具有线符号中的至少一个原子标识符,其限定了连接到分子的支架的连接原子的装饰的化学部分的化学结构;
其中:
在所述支架序列中,至少一个装饰标记的顺序限定了至少一个装饰的顺序;
在所述至少一个装饰中,第一装饰在第一装饰分隔符之后;和
在所述至少一个装饰中,第一装饰被限定为连接到第一原子标识符和最后一个原子标识符之间的多个原子标识符中的第一连接原子标识符,其中第一连接原子是任何原子,包括支架序列中的第一个原子或最后一个原子或它们之间的任何原子。
2.如权利要求1所述的线符号,其特征在于,所述至少一个装饰标记位于以下位置之一:在连接到第一装饰的支架序列的第一原子标识符之前;在连接到第一装饰的支架序列的第一原子标识符之后;在连接到第一装饰的支架序列的第一连接原子标识符之前,其中所述第一连接原子标识符不是支架序列中的第一原子标识符;在结合到第一装饰的支架序列的第一连接原子标识符之后;在连接到第一装饰的支架序列的后续原子标识符之前;或者在连接到第一个装饰的支架序列的后续原子标识符之后。
3.如权利要求1所述的线符号,其特征在于,在支架序列中,多个原子标识符的第一连接原子标识符与第一装饰标记相邻。
4.如权利要求1所述的线符号,包括支架序列的第一个原子标识符之前的第一个装饰标记。
5.如权利要求2所述的线符号,包括:
至少一个与后续原子标识符相邻的后续装饰标记;
在第一次装饰之后的至少一个后续装饰分隔符;和
在至少一个后续装饰分隔符之后的至少一个后续装饰,
其中,每个后续装饰由后续装饰标记分隔。
6.如权利要求1所述的线符号,包括:
与相应的原子标识符相邻的多个装饰标记;
由多个装饰分离符分隔的多个装饰;和
多个装饰中的每一个都在相应的装饰分隔符之后。
7.如权利要求1所述的线符号,包括每个装饰,其包括相应的装饰标记,后跟装饰化学结构的线符号。
8.如权利要求1所述的线符号,其特征在于,每个原子标识符由周期表定义。
9.如权利要求8所述的线符号,其特征在于,每个装饰标记都是一个符号。
10.如权利要求9所述的线符号,其特征在于,每个装饰分隔符是与装饰制造者符号不同的第二符号。
11.如权利要求10所述的线符号,其特征在于,所述支架序列中的每个装饰标记由不同于装饰制造者符号和所述装饰分隔符符号的第三符号连接。
12.一种将分子化学结构的线符号转换为化学结构的面向支架的线符号的方法,该方法包括:
提供化学结构的线符号;
将线符号转换为化学结构的图形符号;
识别化学结构的图形符号的支架;
搜索化学结构的图形符号的至少一个装饰;
将支架与任何装饰分开;
将支架的图形表示转换为支架的对应线符号表示,其中线符号包括排列在支架序列中的多个原子标识符;
将任何装饰的图形表示转换为每个装饰的相应线符号表示;
当存在第一装饰并且连接到化学结构中的第一连接原子时,识别连接到第一装饰的支架中的第一连接原子;
当识别第一连接原子时,识别支架序列中第一连接原子的第一连接原子标识符;
当第一装饰存在于化学结构中时,在支架序列中与第一连接原子标识符相邻放置第一装饰标记;
在支架序列的最后一个原子标识符或最后一个装饰标记之后放置第一装饰分隔符;
当第一装饰存在于化学结构中时,将第一装饰放置在第一装饰分隔符之后;和
为化学结构提供面向支架的线符号。
13.如权利要求12所述的方法,还包括:
识别化学结构的图形符号的至少一个装饰;
将支架与至少一个装饰分开;
将每个装饰的图形表示转换为每个装饰的对应线符号表示;
在支架序列中识别连接到所识别的最后一个装饰的第一装饰的第一个连接原子标识符;
将第一装饰标记放置在与第一连接原子标识符相邻的位置;
在第一装饰分隔符之后放置第一装饰;和
提供用于化学结构的面向支架的线符号,其中面向支架的线符号包括至少一个装饰的支架序列和装饰序列,其中支架序列和装饰序列由第一装饰分隔符分隔。
14.如权利要求13所述的方法,其特征在于,所述面向支架线符号包括:
以线符号排列的多个原子标识符的支架序列,其限定了分子化学结构的支架,其中支架序列包括至少一个装饰标记,每个装饰标记与连接到装饰的支架的连接原子的原子标识符相邻,其中,在分子的化学结构中,装饰是连接到支架的连接原子的化学部分;
装饰分隔符,在支架序列的最后一个原子标识符或最后一个装饰标记之后;
所述至少一个装饰具有线符号中上午至少一个原子标识符,其限定连接到所述分子支架的连接原子的装饰的化学部分的化学结构;
其中:
在所述支架序列中,至少一个装饰标记的顺序限定了至少一个装饰的顺序;
在所述至少一个装饰中,第一装饰在第一装饰分隔符之后;和
在所述至少一个装饰中,第一装饰被限定为连接到第一原子标识符和最后一个原子标识符之间的多个原子标识符中的第一连接原子标识符。
15.如权利要求13所述的方法,还包括:
识别分子化学结构的每个原子和每个键;
识别化学结构的支架;
识别连接到支架原子的每个装饰;
识别每个装饰和支架相应原子之间的每个键;和
破坏每个装饰和支架相应原子之间已识别的键。
16.如权利要求15所述的方法,还包括:
用连接到支架相应原子的支架节点替换每个断裂的键;和
用排列在每个装饰上的装饰节点替换每个断裂的键。
17.如权利要求16所述的方法,还包括:
为每个装饰节点构建具有装饰标记的支架的线符号;和
构造每个装饰的线符号。
18.如权利要求16所述的方法,还包括:
确定至少一个装饰标记在支架的线符号中的顺序;和
以装饰序列排列所述至少一个装饰,所述装饰序列具有所述至少一个装饰标记在所述支架的线符号中的顺序,其中每个装饰具有装饰线符号,并且由装饰分隔符分隔。
19.如权利要求13所述的方法,还包括:
排列支架序列,使得第一装饰标记位于支架序列的第一连接原子标识符之前。
20.如权利要求13所述的方法,还包括排列线符号以包括:
至少一个与后续原子标识符相邻的后续装饰标记;
在第一装饰之后的至少一个后续装饰分隔符;和
在所述至少一个后续装饰分隔符之后的至少一个后续装饰,
其中,每个后续装饰由后续装饰标记分隔。
21.如权利要求13所述的方法,还包括排列线符号以包括:
与相应的原子标识符相邻的多个装饰标记;
由多个装饰分隔的多个装饰分隔符;和
多个装饰中的每一个都在相应的装饰分隔符之后。
22.如权利要求13所述的方法,包括将每个装饰限定为包括相应的装饰标记,后跟装饰的化学结构的线符号。
23.如权利要求13所述的方法,还包括以下至少一项:
每个原子标识符由周期表定义;
每个装饰标记都是一个符号;
每个装饰分隔符是与装饰制造者符号不同的第二符号;或
支架序列中的每个装饰标记由不同于装饰制造者符号和装饰分隔符符号的第三符号连接。
24.一种将权利要求1所述的化学结构的面向支架线符号转换为化学结构的不同线符号的方法,该方法包括:
为化学结构提供面向支架的线符号;
将面向支架的线符号拆分为支架序列和每个装饰;
构造支架序列的图形表示;
构建每个装饰的图形表示;
结合支架序列的图形表示和每个装饰的图形表示,从而形成分子的图形表示;和
将分子的图形表示转换为不同的线符号。
25.如权利要求24所述的方法,还包括:
为每个装饰在支架的图形表示上识别支架连接点;
识别每个装饰的连接到支架连接点的支架原子;和
移除每个支架连接点。
26.如权利要求25所述的方法,还包括:
在每个装饰的图形表示上识别装饰连接点;
为每个装饰识别连接到装饰连接点的装饰原子;和
移除每个装饰连接点。
27.如权利要求26所述的方法,还包括:
用键将每个支架原子与相应的装饰原子连接;和
提供分子化学结构的图形表示。
28.如权利要求27所述的方法,还包括识别第一装饰分隔符和每个装饰之间的每个装饰分隔符,第一装饰分隔符位于最后一个原子标识符或最后一个装饰标记之后。
29.如权利要求27所述的方法,还包括:
识别界定到装饰的连接点的支架中的原子A;
识别界定到支架的连接点的装饰中的原子B;
识别与原子A连接的原子A_neig;
识别与原子B连接的原子B_neig;
移除原子A;
移除原子B;和
通过键将原子A_neig连接到原子B_neig。
30.如权利要求27所述的方法,还包括:
识别界定到装饰的连接点的支架中的每个原子A;
识别界定到支架的连接点的装饰中的每个原子B;
识别与每个原子A连接的每个原子A_neig;
识别与每个原子B连接的每个原子B_neig;
移除每个原子A;
移除每个原子B;和
通过键将每个原子A_neig连接到每个相应的原子B_neig。
31.一种计算化学结构的方法,该方法包括:
将如权利要求1所述的化学结构的面向支架的线符号提供给计算系统;和
使用计算系统执行具有面向支架的线符号的计算协议。
32.一种计算化学结构的方法,该方法包括:
将通过执行如权利要求12所述的方法获得的化学结构的面向支架的线符号提供到计算系统中;和
使用计算系统执行具有面向支架的线符号的计算协议。
33.一种计算机程序产品,包括:
具有计算机可执行指令的非瞬态有形存储设备,所述计算机可执行指令在由处理器执行时,会导致如权利要求12所述的方法的执行。
34.一种计算机程序产品,包括:
具有计算机可执行指令的非瞬态有形存储设备,所述计算机可执行指令在由处理器执行时,会导致如权利要求24所述方法的执行。
35.一种计算化学结构的方法,该方法包括:
将如权利要求1所述的化学结构的面向支架的线符号提供给计算系统;和
使用计算系统执行具有面向支架的线符号的计算协议,包括遗传算法、贝叶斯优化和随机搜索中的至少一种。
36.一种计算化学结构的方法,该方法包括:
将通过执行如权利要求12所述的方法获得的化学结构的面向支架的线符号提供到计算系统中;和
使用计算系统执行具有面向支架的线符号的计算协议,包括遗传算法、贝叶斯优化和随机搜索中的至少一种。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202062966465P | 2020-01-27 | 2020-01-27 | |
US62/966,465 | 2020-01-27 | ||
US16/831,747 | 2020-03-26 | ||
US16/831,747 US20210233621A1 (en) | 2020-01-27 | 2020-03-26 | Scaffold-oriented universal line system |
PCT/IB2021/050273 WO2021152414A1 (en) | 2020-01-27 | 2021-01-14 | Scaffold-oriented universal line system |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115088039A true CN115088039A (zh) | 2022-09-20 |
Family
ID=76970842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180010973.1A Pending CN115088039A (zh) | 2020-01-27 | 2021-01-14 | 面向支架的通用线系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210233621A1 (zh) |
EP (1) | EP4097730A1 (zh) |
CN (1) | CN115088039A (zh) |
WO (1) | WO2021152414A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220101276A1 (en) * | 2020-09-30 | 2022-03-31 | X Development Llc | Techniques for predicting the spectra of materials using molecular metadata |
US20230253076A1 (en) | 2022-02-07 | 2023-08-10 | Insilico Medicine Ip Limited | Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation |
-
2020
- 2020-03-26 US US16/831,747 patent/US20210233621A1/en active Pending
-
2021
- 2021-01-14 WO PCT/IB2021/050273 patent/WO2021152414A1/en unknown
- 2021-01-14 EP EP21701004.0A patent/EP4097730A1/en active Pending
- 2021-01-14 CN CN202180010973.1A patent/CN115088039A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2021152414A1 (en) | 2021-08-05 |
US20210233621A1 (en) | 2021-07-29 |
EP4097730A1 (en) | 2022-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Searls | The language of genes | |
US10600217B2 (en) | Methods for the graphical representation of genomic sequence data | |
Cao et al. | Enhanced recognition of protein transmembrane domains with prediction-based structural profiles | |
CN115088039A (zh) | 面向支架的通用线系统 | |
Camproux et al. | Hidden Markov model approach for identifying the modular framework of the protein backbone | |
Hu et al. | Pfizer Global Virtual Library (PGVL): a chemistry design tool powered by experimentally validated parallel synthesis information | |
CN101828183B (zh) | 用于更新原型的方法和设备 | |
Esmaili-Taheri et al. | Evolutionary solution for the RNA design problem | |
Havgaard et al. | RNA structural alignments, part I: Sankoff-based approaches for structural alignments | |
CN101061475A (zh) | 用于同步的低保真度设备的时间-日期信息的维护 | |
Sun | Ktrim: an extra-fast and accurate adapter-and quality-trimmer for sequencing data | |
Kucherov | Evolution of biosequence search algorithms: a brief survey | |
CN104765723A (zh) | 用于构建会议内容的设备和方法 | |
DE60143677D1 (de) | Hierarchisches datengesteuertes navigationssystem und verfahren für informationswiderauffindung | |
CN106164932A (zh) | 用于识别音乐符号的方法和装置 | |
CN103853792B (zh) | 一种图片语义自动标注方法与系统 | |
Wassermann et al. | A data mining method to facilitate SAR transfer | |
CN101253477A (zh) | 可空和后期绑定 | |
CN104484156B (zh) | 多语言公式的编辑方法、编辑系统和多语言公式编辑器 | |
Garrison | Graphical pangenomics | |
Ates et al. | Constructing VEGGIE: Machine learning for context-sensitive graph grammars | |
US20220230712A1 (en) | Systems and methods for template-free reaction predictions | |
CN115458077A (zh) | 基于公开文献中的图像和文本数据构建近药空间数据库的方法及其系统 | |
US20210225462A1 (en) | Method Of Synthesizing Chemical Compounds | |
Havgaard et al. | Comparative ncRNA gene and structure prediction using Foldalign and FoldalignM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |