CN112534508B - 用于标识复杂分子子结构的割点法 - Google Patents

用于标识复杂分子子结构的割点法 Download PDF

Info

Publication number
CN112534508B
CN112534508B CN201980052328.9A CN201980052328A CN112534508B CN 112534508 B CN112534508 B CN 112534508B CN 201980052328 A CN201980052328 A CN 201980052328A CN 112534508 B CN112534508 B CN 112534508B
Authority
CN
China
Prior art keywords
graph
generalized
minimum
molecular weight
resolvable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980052328.9A
Other languages
English (en)
Other versions
CN112534508A (zh
Inventor
A·弗里德曼
A·巴格奇
于翔
M·卡西拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Merck Sharp and Dohme BV
Original Assignee
Merck Sharp and Dohme BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Merck Sharp and Dohme BV filed Critical Merck Sharp and Dohme BV
Publication of CN112534508A publication Critical patent/CN112534508A/zh
Application granted granted Critical
Publication of CN112534508B publication Critical patent/CN112534508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/80Data visualisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

通过使用限定所选分子的最小可分解的单位(MCU)和MCU图,以及所选分子的MCU图中的“割点”,本发明的实施方式避免了与使用标识和表征大的复杂分子的所有子结构(例如,代谢产物)的常规计算机系统相关的处理问题。系统将所选分子的MCU图在指定割点分开,以产生所选分子的两个分开的MCU图组成部分(即,第一MCU子图和第二MCU子图),并且为两个MCU子图组成部分,分别生成并且利用图遍历算法遍历第一线图组成部分和第二线图组成部分,以在存储器中生成和存储第一组成部分的子结构和分子量的第一数据库,和第二线图组成部分的子结构和分子量的第二数据库。随后,本发明的实施方式可对两个数据库(或单个数据库的两个子部分)进行二分搜索,以标识和产生具有匹配查询分子量(或查询分子量的范围)的分子量的所选分子的所有子结构的图形表示,包括跨越(即,包括)割点的所选分子的子结构的图形表示。

Description

用于标识复杂分子子结构的割点法
技术领域
本发明涉及使用割点法标识复杂分子,特别是大分子比如生物分子的子结构的系统、设备和方法。
背景技术
标识和表征药学化合物的子结构,比如代谢产物,是药物发现的重要部分。理解这种代谢产物的结构并且限定代谢转化的具体的位点对于,例如,指导药物候选物的先导化合物的合成优化是有用的,以克服通常与那些化合物相关的稳定性和毒性问题。
在之前不了解它们的结构的情况下,目前的代谢产物标识(MetID)法已经不能系统地表征来自生物基质的大分子,比如治疗性蛋白质和肽(TPP)的代谢产物了。尽管一些现成的小分子MetID软件,比如MASSCAP、SEQUEST和MassMetaSite,用于表征小分子药物和小直链肽的代谢产物,但是已经证实该软件对于标识较大的生物分子(比如大的非直链肽/蛋白质)的代谢产物和其他子结构不切实际或不合适。对于该缺陷,至少有三种原因:(i)最小分子MetID软件对于大分子不能适当地去卷积单同位素峰,其导致错误的输入质量值;(ii)最小分子MetID软件使用为小分子药物设计的基于原子的算法,并且典型的大生物分子,比如TPP,其原子的数量通常比小分子高1-2个数量级,其为这种基于原子的算法引入巨大的计算复杂性;和(iii)用于小分子MetID(比如细胞色素P450代谢途径或质量缺陷过滤器)的信息,不适用于大分子,因为大分子具有常规的小分子软件一般不考虑的不同代谢过程。
与分子的基于原子的呈现相关的计算复杂性可干扰或有时阻碍计算机分析。取决于给定的计算机中RAM的量,标识具有大于10百万种代谢产物的分子的所有代谢产物要求的处理将可能击垮计算机的处理能力。根据发明人的经验,一千兆的RAM可应对约一百万个子结构。但是复杂的大分子通常含有超过一千万个子结构,并且的确可通常含有数以亿计的子结构。
另外,用于分析蛋白质结构的常规软件,比如基于蛋白质组的软件,例如,通常计算酰胺和二硫键分解,并且迄今为止还不能解决大分子,比如TPP(其包括不可预期的修饰(+Oxy、+P、+Met等)、非天然氨基酸、体内二硫化物扰乱、非天然接头和非特异性蛋白水解的分解)的不可预知的代谢概况。
因此,相当需要能够解码大分子,特别是具有非常大量的子结构,例如数以亿计的子结构的那些大分子的非线性肽的系统和过程,以及不仅仅利于区分大分子,比如治疗性肽或蛋白质的代谢产物与生物基质中的蛋白质背景,但是也利于阐明感兴趣的代谢产物的结构的系统和方法。也相当需要提高常规的计算机系统的功能的系统和过程,以便允许那些常规的计算机系统在用于科学家和研究人员观察和分析的监视器和其他显示装置上进行更好的生成和显示大分子代谢产物的结构的视觉呈现的工作。
发明内容
一般而言,本发明的实施方式可被科学家,比如化学家和生物化学家,用于标识复杂分子的代谢产物和其他子结构,并且确定这种代谢产物和其他子结构的相关化学结构。正因如此,可考虑本发明的实施方式对于药物开发和设计非常有用。为了该目的,本发明的实施方式采用用于表示正在研究的分子(所选分子)的独特系统。具体地,从限定最小可分解的单位的图,称为最小可分解的单位图(MCU图),的角度,描述所选分子。如本文阐述的,最小可分解的单位为其中不允许进行切割/分解(没有代谢过程)的分子的一部分。最小可分解的单位可包括所选分子的邻接代谢分解位点之间的一组原子。例如,蛋白质或肽分子的最小可分解的单位可包括单个氨基酸,或一片氨基酸,例如。环肽的最小可分解的单位可包括例如环肽的核区域。最小可分解的单位法利于以更简单的方式限定感兴趣的分子,例如,通过尝试将其降低至直链肽领域而降低复杂的蛋白质结构的复杂性。最小可分解的单位法允许用户限定模块,所述模块消除追踪已经在MCU中分解并且因此不具有功能性的代谢产物。所选分子中的每个MCU对应于MCU图中的顶点。MCU图接着由存储在计算机系统的存储器中的数据结构的数据表示。
取决于给定研究的目标和如何限定MCU,所选分子可具有许多不同的MCU图。例如,如果研究的目标是标识由酰胺键分解生成的所有代谢产物,则MCU定义为每个单个氨基酸残基,因为用户将考虑在单个氨基酸之外没有进一步的代谢。作为另一示例,如果研究的目标是标识环肽的活性代谢产物,则肽的环区域也将被包括作为MCU,因为活性代谢产物必须具有完整的环区域,并且在环区域中不需要考虑进一步的代谢。
本发明的发明人已经认识到源自MCU图的线图是标识分子的子结构的有效方式,子结构比如代谢产物,并且在本发明的子结构标识系统、设备和方法中特别有用。对于此的原因是对于由相应的MCU图表示的分子,MCU图的线图的归纳连接的子图的领域完全并且唯一地表示子结构和代谢产物的整个领域。换句话说,对于由相应的MCU图表示的分子,在MCU图的线图的归纳连接的子图的集合和代谢产物的集合之间存在一对一的关系。该关系为可执行的,因为其允许使用算法标识所选分子的代谢产物的整个领域。对于所选分子,算法的实际应用明显提高了用于标识代谢产物的整个领域的计算机系统的功能。
2019年提交的共同待决的共有非临时专利申请描述了用于标识复杂分子的子结构的系统和方法,其中系统和方法涉及生成数据库,数据库包括分别对应于所选分子的成千上万或数百万的子结构的成千上万或数百万的记录。然而,存在一些具有数以亿计的或甚至数以十亿计的子结构的大分子,其不能在具有常规的中央处理单元和常规的存储器装置的常规的个人计算机系统上被处理和标识,而不使计算机系统超负荷并且不潜在地使得计算机系统故障或完全停止运行。
如下面将更详细地描述,本发明的实施方式通过接收和存储表示所选分子的最小可分解的单位(MCU)图的数据,以及所选分子的MCU图中指定的“割点”,避免了该问题。系统接着将所选分子的MCU图在指定的割点处分开,以产生所选分子的两个分开的MCU图组成部分(即,第一MCU子图和第二MCU子图)。系统接着分别为两个MCU子图组成部分生成第一线图组成部分和第二线图组成部分,用图遍历算法遍历第一线图组成部分以为第一组成部分生成子结构和分子量的第一数据库并且将其存储在存储器中,并且然后用图遍历算法遍历第二线图组成部分以为第二线图组成部分构建子结构和分子量的第二数据库并且将其存储在存储器中。可选地,在不背离本发明的操作的主原理的情况下,系统可配置为将第一线图组成部分和第二线图组成部分二者的子结构和分子量放置在单个数据库或多个数据库中。
随后,利用存储在计算机系统的存储器中的一个或多个数据库(或单个数据库的两个子部分,如果优选的话)中的第一线图组成部分和第二线图组成部分的子结构和分子量,本发明的实施方式能够从用户接收查询分子量(或查询分子量的范围),并且在两个数据库(或单个数据库的两个子部分)上进行二分搜索,以标识、检索和显示具有匹配查询分子量(或查询分子量的范围)的分子量的所选分子的所有子结构的图形表示,包括跨越(即,包括)割点的所选分子的子结构。因此,本文所述的割点法可用于动态标识、产生和显示具有匹配指定的给定分子量的分子量的所有所选分子的子结构,无论具有指定的给定分子量的子结构完全存在于所选分子的第一MCU图组成部分中、完全存在于所选分子的第二MCU图组成部分中、或是部分存在于所选分子的两个MCU图组成部分中(即,具有位于MCU图中的割点的两侧上的顶点和键的所选分子的那些子结构)。在优选的实施方式中,根据对于待转化成匹配子结构的所选分子将发生的生物转化(即,断裂的共价键)的数量,按排名的顺序,列举和/或显示匹配给定的查询分子量的子结构。
尽管在本公开中描述了本发明的各种实施方式,参考使用两个不同的数据库来存储子结构和子结构的分子量并且存储归纳连接的子图记录和生物转化计数,应当注意,本发明也囊括使用存储这种信息和记录的单个数据库。在单个数据库的情况下,使用子结构标识符将是有益的,子结构标识符标识子图数据库中特别的记录是否与所选分子的线图的第一组成部分或第二组成部分相关。
割点法对于含有多个二硫键和/或人工接头的大分子特别有用。方法也特别适于具有数以亿计的比如二聚体和其他低聚物和多聚体的代谢产物的大分子。示例性大分子包括但不限于抗体、大分子的多聚体(比如二聚体、三聚体、四聚物和聚合物)以及缀合分子。
然而,除了用于标识和分析大分子的子结构,本发明的实施方式也用于标识和分析小分子的子结构。小分子可包括具有相对低分子量的有机分子,无论是天然存在的或人工产生的(例如,经化学合成)。本发明的实施方式也用于分析因为它们在动物中产生局部或全身性效果而生物上有活性的小分子,动物优选哺乳动物,更优选人。在某些实施方式中,小分子具有小于或等于约900道尔顿的分子量。本发明的发明人已经发现,割点法在其中所选分子的归纳连接的子图(即,子结构)的数量超过或预期超过可用的计算机存储器的情况下特别有用,尽管该方法甚至在其中给定的所选分子的子结构的数量不是特别高或预期不超过计算机存储器的情况下也是有用的。
有利地,本发明的割点法非常灵活,因为其不要求符合刚性规则组来选择和标识表示所选分子的MCU图中适当的割点。换句话说,识别和标识用于所选分子的适当的割点可使用各种不同技术中的任何一种完成,包括,例如,挑选用户认为大体上位于MCU图的中间或中间不远处的MCU图中的点的简单方便性。
构建表示在MCU图的两个组成部分的每个中存在的子结构的归纳连接的子图记录 的数据库
在本发明的一个实施方式的操作的第一阶段中,用户输入所选分子数据,包括(A)用于所选分子的组成部分的最小可分解的单位的一个或多个集合,(B)连接所选分子的组成部分中最小可分解的单位的集合的键的一个或多个集合,(C)每个最小可分解的单位的分子量,和(D)用于所选分子的连接性特征。连接性特征布置为指示最小可分解的单位和键的相对位置,以及最小可分解的单位和键之间的连接。所选分子数据可提供为所选分子的MCU图的形式或所选分子的另一种呈现,比如化学结构或具有顶点和边缘注释的图,所述边缘注释包括MCU的标识、连接MCU的键的类型和每一个MCU的分子量。
用户也将MCU中的一个标识为所选分子的割点。尽管未实际上去除,但是从所选分子的MCU图去除割点将所选分子的MCU图分离(或分开)成为两个组成部分(即,两个MCU子图),而不计算割点本身。然而,两个组成部分都包括割点。两个组成部分在本公开中将分别称为所选分子的MCU图的第一组成部分和第二组成部分,或可选地称为两个MCU子图,其二者都包括割点MCU。两个连接MCU子图的尺寸不必相等;两个连接MCU子图的顶点和键的数量也不必相等,但是它们的尺寸和点和键的数量可相等。
在本发明的实施方式中,系统使用所选分子数据来为由割点MCU的位置限定的所选分子的两个组成部分中的每一个创建MCU图数据结构并将其存储在存储器中。适当的MCU图数据结构可包括但不限于列、邻接矩阵、邻接表、关联矩阵或关联表,以及能够拥有MCU图数据的任何其他计算机数据结构。基于所选分子的两个组成部分中的每一个的MCU图数据结构,系统接着生成线图数据表示所选分子的MCU图的两个组成部分中的每一个的线图,并且分别将两个单个线图数据结构的线图数据存储在存储器中,如下面更详细地描述。适当的线图数据结构可包括例如邻接矩阵、邻接表、关联矩阵或关联表。
系统接着使用适当的图遍历算法(其一个示例显示在图29中)遍历所选分子的MCU图的第一组成部分的第一线图数据结构中的线图数据,以在存储器中标识和记录MCU图的第一组成部分的线图的每个归纳连接的子图(ICS)的顶点数据和边缘数据。接着系统遍历所选分子的MCU图的第二组成部分的第二线图数据结构中的线图数据(典型地,但是不必须使用相同的图遍历算法),以在存储器中标识和记录MCU图的第二组成部分的线图的每个归纳连接的子图(ICS)的顶点数据和边缘数据。适当的图遍历算法包括深度优先搜索算法,或广度优先搜索算法,或倒序搜索算法,或树搜索算法,或本文阐述的图遍历算法中的两个或更多个的组合。
对于通过在线图数据上执行图遍历算法标识的每个ICS,系统在存储器中创建ICS记录,ICS记录含有分子量字段、顶点数据字段和边缘数据字段。系统接着计算和存储对应于每个ICS的分子量并且对于每个ICS记录在分子量字段中存储分子量以及顶点数据和边缘数据,以便每个ICS记录可随后根据分子量字段中的值搜索。优选地,系统也在每个ICS记录中计算和存储将所选分子转化成对于该ICS记录的顶点数据、边缘数据和分子量表示的子结构需要的生物转化的数量(即,生物转化计数)。在每个ICS记录中存储生物转化计数以及其他数据允许根据生物转化计数来搜索和/或将搜索结果排序。
在操作的第一阶段期间,对于MCU图的第一组成部分和MCU图的第二组成部分,针对线图数据执行图遍历算法的结果是,在操作的第一阶段结束时,存储器将包含所选分子的MCU图的第一组成部分的多个ICS记录,以及所选分子的MCU图的第二组成部分的多个ICS记录。第一组成部分的每一个ICS记录包含顶点数据、边缘数据和分子量数据,其表示所选分子的第一组成部分中的每一个子结构的结构、重量和物理布局,包括割点,并且第二组成部分的每一个ICS记录包含顶点数据、边缘数据和分子量数据,其表示所选分子的第二组成部分中的每一个子结构的结构、重量和物理布局,包括割点。因此,此时,存储器将包括完全存在于MCU图的第一组成部分中的每一个归纳连接的子图的ICS记录,和完全存在于MCU图的第二组成部分中的每一个归纳连接的子图的ICS记录。
注意,系统不需要为在MCU图的第一组成部分和第二组成部分中都具有顶点和键的任何归纳连接的子图创建任何ICS记录,并且存储器不需要存储任何ICS记录。然而,如下面更详细地描述,在操作的随后阶段中,系统能够标识和显示下述的图形表示:(1)在所选分子的第一组成部分中存在的任何归纳连接的子图,(2)在所选分子的第二组成部分中存在的任何归纳连接的子图,和(3)构成部分同时存在于所选分子的两个组成部分中的任何归纳连接的子图(即,横跨割点MCU,以便顶点存在于所选分子的MCU图的两个组成部分中)。
用给定的分子量标识子结构,所述给定的分子量存在于所选分子的MCU图的第一 组成部分或第二组成部分中,但是不同时存在于所选分子的MCU图的第一组成部分和第二 组成部分中
在操作的第二阶段中,系统从用户接收查询分子量(该用户可为或不可为提供所选分子数据的用户),其中查询分子量是由用户通过实验预定的或从另一来源或装置(比如质谱仪)获得的。系统搜索存储在存储器中的ICS记录(每个ICS含有分子量、顶点数组值、边缘数组值和生物转化计数),来为所选分子的第一组成部分和第二组成部分找到在分子量字段中具有匹配查询分子量的总分子量的所有ICS记录。当找到这种ICS记录时,系统使用ICS记录中的信息来为用户产生和显示每个发现的ICS记录的每个归纳连接的子图的顶点数据和边缘数据。任选地,系统也可基于每个记录中的顶点数据和边缘数据显示、打印或传输匹配的归纳连接的子图的结构的图形表示。
因此,此时,系统将具有产生的、传输的和/或显示的所选分子的MCU图的第一组成部分中的任何归纳连接的子图(即,所选分子的第一组成部分中的每一个子结构)顶点数据、边缘数据和/或图形表示,以及所选分子的MCU图的第二组成部分中的任何归纳连接的子图(即,所选分子的第二组成部分中的每一个子结构)顶点数据、边缘数据和/或图形表示,其具有与查询质量匹配的质量。优选地,将搜索结果以逐渐增加的生物转化计数的顺序排序和显示,以便首先显示需要最少数量的生物转化的归纳连接的子图(即,在列表的顶部并且在需要更高数量的生物转化的匹配归纳连接的子图之前)。
用存在于所选分子的MCU图的第一组成部分和第二组成部分二者中的给定的分子 量标识子结构
在操作的第三阶段中,系统再次搜索存储器中的ICS记录,以查找具有分子量(当组合时具有匹配查询分子量的总分子量)的两个ICS记录(用于所选分子的每个组成部分的一个记录)的组合。如果查找到分子量的这种组合,意味着存在所选分子的子结构,其对应于归纳连接的子图中的顶点和键的结构和物理布置,所述归纳连接的子图跨越(包括)割点并且具有存在于第一组成部分和第二组成部分二者中的顶点。在优选的实施方式中,本发明也配置为传输和/或在显示装置上显示跨越并且包括割点的所选分子的子结构的顶点数据、边缘数据(和任选地图形表示)。
在本发明的一个实施方式中,如下进行搜索存储器中的ICS记录,以查找通过割点彼此链接的两个归纳连接的子图,并且其一起具有匹配查询分子量的总分子量。系统首先通过从查询分子量减去割点的分子量而计算调整的查询分子量,并且然后为第一组成部分搜索ICS记录,以标识具有在与调整的查询分子量匹配的分子量字段中的分子量的ICS记录。系统然后标识在分子量字段中具有最低分子量的所选分子的第一组成部分的ICS记录。然后从调整的查询分子量减去该最低的分子量,以提供修改的查询分子量。修改的查询分子量用于为第二组成部分进行ICS记录的二分搜索,以为第二组成部分(其在分子量字段中具有当与所选分子的第一组成部分的ICS记录的最低分子量组合时匹配修改的查询分子量的分子量)标识ICS记录。如果查找到了匹配,则系统将用于第一组成部分的标识的ICS记录中的顶点和边缘信息以及用于第二组成部分的标识的ICS记录中的顶点和边缘信息,显示、打印和/或传输至用户可用的显示装置。任选地,系统也可通过连接第一组成部分的标识的ICS的图形表示与第二组成部分的标识的ICS的图形表示,而显示、打印或传输跨越子结构的割点的图形表示,从而产生所选分子的子结构的图形表示,其中子结构包括割点和在割点的每个侧上的顶点。
系统重复数据库的搜索,以为所选分子的第一组成部分标识ICS记录,,该所选分子的第一组成部分相对于用于所选分子的第一组成部分的第一数据库中的ICS记录的剩余的库具有下一个最低的分子量,计算新修改的查询分子量,并且使用新计算的修改的查询分子量为在分子量字段中具有分子量的所选分子的第二组成部分进行ICS记录的二分搜索,该分子量在与所选分子的第一组成部分的ICS记录的下一个最低的分子量组合时匹配修改的查询分子量。重复该过程直到所选分子的MCU图的第一组成部分的所有的ICS记录的分子量都已经用于计算修改的分子量并且利于所选分子的MCU图的第二组成部分的ICS记录的搜索。如果查找到了匹配,则系统将(用于第一组成部分和第二组成部分的)标识的ICS记录中的信息显示、打印或传输至用户操作的显示装置。任选地,系统也可基于每个记录中的顶点数据和边缘数据显示、打印或传输来自第一组成部分和第二组成部分用于匹配的归纳连接的子图的组合子结构的图形表示,其中组合子结构包括割点和在割点的两侧上的顶点。
与上述操作一致,存在数个可能的本发明的实施方式。在一个实施方式中,本发明提供了用于标识所选分子的子结构的系统,系统包括微处理器、存储器、存储器中的应用程序以及存储器中与终端用户通信的用户界面。应用程序和用户界面二者都包括当通过微处理器执行时将使得微处理器进行下述的程序指令:
1)在存储器中接收和存储所选分子数据,该数据表示(A)所选分子中最小可分解的单位的集合,(B)连接所选分子中最小可分解的单位的集合的键的集合,(C)每个最小可分解的单位的分子量,(D)所选分子的连接性特征,连接性特征指示最小可分解的单位和键的相对位置,以及它们之间的连接;和(E)所选分子中的割点,其中割点的去除将所选分子分成第一组成部分和第二组成部分;
2)基于所选分子数据,在存储器中创建和存储所选分子的第一组成部分的第一最小可分解的单位图数据结构,第一最小可分解的单位图数据结构由表示第一组成部分的第一MCU图的第一MCU图数据填充,第一MCU图具有多个第一MCU图顶点和多个第一MCU图边缘,每个第一MCU图顶点对应于第一组成部分的最小可分解的单位并且每个第一MCU图边缘对应于连接第一组成部分中最小可分解的单位的第一键;
3)基于第一MCU图数据,在存储器中生成和存储所选分子的第一组成部分的第一线图数据结构,第一线图数据结构由表示第一MCU图的第一线图的第一线图数据填充,第一线图具有多个第一线图顶点和多个第一线图边缘,每个第一线图顶点(“LG顶点”)对应于第一MCU图中的第一MCU图边缘并且每个第一线图边缘(“LG边缘”)对应于第一MCU图中通过所述第一MCU图边缘连接在一起的一对第一MCU图顶点;
4)针对所选分子的第一组成部分的第一线图数据结构中的第一线图数据执行图遍历算法,以确定第一线图的多个第一归纳连接的子图,每个第一归纳连接的子图包括第一线图中的第一LG顶点和第一LG边缘的第一连接子集,以及第一LG顶点和第一LG边缘的所述第一连接子集的第一物理布置,其中第一LG顶点和第一LG边缘的连接子集与其第一物理布置一起唯一地对应于最小可分解的单位和键的集合的第一连接子集,以及所选分子中最小可分解的单位和键的所述第一连接子集的相对位置;
5)为所选分子的第一组成部分的第一线图数据结构中表示的每个第一归纳连接的子图,在数据库中创建和存储包括第一分子量字段、第一顶点数据字段和第一边缘数据字段的第一ICS记录,其中第一顶点数据字段填充第一顶点值,其配置为指示第一归纳连接的子图中的每一个第一LG顶点的第一顶点位置,并且第一边缘数据字段填充第一边缘值,其配置为指示相对于第一LG顶点,第一归纳连接的子图中的每一个第一LG边缘的第一边缘位置;和
6)为所选分子的第一组成部分的第一线图数据结构中的每个第一ICS记录,基于所选分子的所选分子数据和第一ICS记录中的第一顶点值和第一边缘值,在第一分子量字段中计算和存储用于该第一ICS记录的第一归纳连接的子图的第一总分子量;
7)基于所选分子数据,在存储器中创建和存储所选分子的第二组成部分的第二最小可分解的单位图数据结构,第二最小可分解的单位图数据结构由表示第二组成部分的第二MCU图的第二MCU图数据填充,第二MCU图具有多个第二MCU图顶点和多个第二MCU图边缘,每个第二MCU图顶点对应于第二组成部分的最小可分解的单位并且每个第二MCU图边缘对应于连接第二组成部分中的最小可分解的单位的第二键;
8)基于第二MCU图数据,在存储器中生成和存储所选分子的第二组成部分的第二线图数据结构,第二线图数据结构由表示第二MCU图的第二线图的第二线图数据填充,第二线图具有多个第二LG顶点和多个第二LG边缘,每个第二LG顶点对应于第二MCU图中的第二MCU图边缘并且每个第二LG边缘对应于第二MCU图中通过所述第二MCU图边缘连接在一起的一对第二MCU图顶点;
9)针对所选分子的第二组成部分的第二线图数据结构中的第二线图数据执行图遍历算法,以确定第二线图的多个第二归纳连接的子图,每个第二归纳连接的子图包括第二线图中的第二LG顶点和第二LG边缘的第二连接子集,以及第二LG顶点和第二LG边缘的所述第二连接子集的第二物理布置,其一起唯一地对应于最小可分解的单位和键的集合的第二连接子集,和所选分子中最小可分解的单位和键的所述第二连接子集的相对位置;
10)为所选分子的第二组成部分的第二线图数据结构中表示的每个第二归纳连接的子图,在数据库中创建包括第二分子量字段、第二顶点数据字段和第二边缘数据字段的第二ICS记录,其中第二顶点数据字段由第二顶点值填充,其配置为指示第二归纳连接的子图中的每一个第二LG顶点的第二顶点位置,并且第二边缘数据字段由第二边缘值填充,其配置为指示相对于第二LG顶点,第二归纳连接的子图中的每一个第二LG边缘的第二边缘位置;和
11)为所选分子的第二组成部分的第二线图数据结构中的每个第二ICS记录,基于所选分子的所选分子数据和第二ICS记录中的第二顶点值和第二边缘值,在第二分子量字段中计算和存储该第二ICS记录的第二归纳连接的子图的第二总分子量。
用户界面包括当通过微处理器执行时将使得微处理器进行下述的程序指令:
(i)从终端用户接收查询分子量,
(ii)搜索数据库,以标识在第一分子量字段中具有匹配查询分子量的第一总分子量的第一ICS记录,
(iii)搜索数据库,以标识在第二分子量字段中具有匹配查询分子量的第二总分子量的第二ICS记录,
(iv)使用标识的第一ICS记录的第一顶点数据字段中的第一顶点值和第一边缘数据字段中的第一边缘值,以在显示装置上产生和显示第一归纳连接的子图的第一图形表示,所述第一归纳连接的子图的第一图形表示对应于具有匹配查询分子量的第一总分子量的第一ICS记录,
(v)使用标识的第二ICS记录的第二顶点数据字段中的第二顶点值和第二边缘数据字段中的第二边缘值,以在显示装置上生成和显示第二归纳连接的子图的第二图形表示,所述第二归纳连接的子图的第二图形表示对应于具有匹配查询分子量的第二总分子量的第二ICS记录;
(vi)通过从查询分子量为割点减去分子量计算调整的查询分子量;
(vii)为所选分子的第一组成部分标识第一局部ICS记录,第一局部ICS记录相对于第一组成部分的所有其他分子量字段中的所有其他分子量,在第一分子量字段中具有最低的第一分子量;
(viii)通过从调整的查询分子量减去所选分子的第一组成部分的第一局部ICS记录的最低第一分子量,计算修改的查询分子量;
(ix)使用修改的查询分子量搜索所选分子的第二组成部分的ICS记录,以标识所选分子的第二组成部分的第二局部ICS记录,第二局部ICS记录在第二分子量字段中具有当与第一组成部分的第一局部ICS记录的第一分子量组合时匹配修改的查询分子量的第二分子量;
(x)使用第一局部ICS记录和第二局部ICS记录的顶点数据字段中的顶点值、第一局部ICS记录和第二局部ICS记录的边缘数据字段中的边缘值、割点和所选分子数据生成并且在显示装置上显示所选分子的第一组成部分和第二组成部分的组合的归纳连接的子图的图形表示,其中通过将用于第一局部ICS记录的归纳连接的子图和用于第二局部ICS记录的归纳连接的子图连接在一起而产生组合的归纳连接的子图;
(xi)用另一第一ICS记录替换第一局部ICS记录,其中所述另一第一ICS记录包括相对于第一局部ICS记录的分子量字段中的分子量的第一分子量字段中的下一个最低的第一分子量;和
(xii)重复上面的步骤viii至步骤xi,直到所选分子的第一组成部分的第一ICS记录的第一分子量字段中的每个第一分子量已经用于进行步骤viii至步骤xi。
在本发明的另外实施方式中,系统进一步包括应用程序中的程序指令,所述程序指令当通过微处理器执行时,使得微处理器a)接收查询分子量的指定容差,b)使用指定容差计算和限定所述数据库的搜索的分子量的范围,c)基于查询分子量和范围搜索数据库,以标识在分子量字段中具有落入限定的分子量的范围内的总分子量的数据库中的每个ICS记录,和d)为所述每个标识的ICS记录,将顶点数据字段中的顶点值和边缘数据字段中的边缘值传输至用户界面,用于呈现至终端用户;e)通过从查询分子量减去割点的分子量计算调整的查询分子量;f)为所选分子的第一组成部分标识具有最低分子量的ICS记录;g)通过从调整的查询分子量减去所选分子的第一组成部分的ICS记录的最低分子量,计算修改的查询分子量;h)使用修改的查询分子量,为所选分子的第二组成部分进行ICS记录的二分搜索,以标识当与第一组成部分的ICS记录的分子量组合时匹配修改的查询分子量的ICS记录;i)将标识的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传输至用户界面,用于在由终端用户操作的显示装置上呈现;j)标识所选分子的第一组成部分的具有下一个最低的分子量的ICS记录;k)重复步骤g)至步骤j)直到用于所选分子的第一组成部分的ICS记录的每个分子量已经用于步骤g)至步骤j)中。
在本发明的一些实施方式中,通过在应用程序中执行指令获得所选分子数据,所述指令配置为分析作为如下存储在计算机系统的存储器中的信息:链表,或列,或邻接矩阵,或图形图像文件,或化学绘图文件(例如,来自CambridgePerkinElmer,Inc.,Waltham,MA,USA的/>文件),或电子表格文件,或文本文件,或CSV文件,或.CDX文件,或.CDXML文件,或.MOL文件,或.SDM文件,或CAD文件,或二进制数据文件,或.SMI文件,或.HELM文件,或.CHELM文件,或.XHELM文件。最小可分解的单位和键的集合的连接子集可包括所选分子的代谢产物,或所选分子的代谢副产物,或所选分子的气相碎片,或所选分子的降解物,或所选分子的子结构。
在本发明的一些实施方式中,所选分子数据包括元素组成数据,其表示(A)每个最小可分解的单位中元素单位的集合,(B)连接最小可分解的单位中元素单位的集合的元素键的集合,(C)每个元素单位的元素分子量,(D)最小可分解的单位的MCU连接性特征,MCU连接性特征指示最小可分解的单位中的元素单位和元素键的相对位置以及它们之间的连接,和E)所选分子中的割点。在这些实施方式中,在数据库中创建的ICS记录进一步包括由一个或多个元素单位标识符填充的元素单位字段。应用程序进一步包括程序指令,所述程序指令当通过微处理器执行时,将使得微处理器(a)从终端用户接收查询元素单位,(ii)基于查询元素单位搜索数据库,以标识在元素单位字段中具有匹配查询元素单位的元素单位标识符的ICS记录,和(iii)将标识的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传输至用户界面,用于在由终端用户操作的显示装置上呈现。
在另一实施方式中,本发明提供了使用微处理器生成数据库以利于标识所选分子的子结构的系统,系统包括主存储器、二级存储器、微处理器、输入模块、MCU图数据结构生成器、线图数据结构生成器、图遍历模块、子图数据库和分子量计算器。
输入模块包括程序指令,其配置为使得微处理器接收和存储所选分子数据,其表示(A)所选分子中最小可分解的单位的集合,(B)连接所选分子中最小可分解的单位的集合的键的集合,(C)每个最小可分解的单位的分子量,和(D)位于所选分子中的割点,其中割点的去除将所选分子分成第一组成部分和第二组成部分,和(E)所选分子中最小可分解的单位和键的连接性特征,连接性特征指示最小可分解的单位和键的相对位置,以及它们之间的连接。
MCU图数据结构生成器包括程序指令,其配置为使得微处理器在存储器中创建和存储i)所选分子的第一组成部分的第一最小可分解的单位图数据结构,和ii)所选分子的第二组成部分的第二最小可分解的单位图数据结构。第一最小可分解的单位图数据结构由表示第一组成部分的第一MCU图的第一MCU图数据填充。第一MCU图包括多个第一MCU图顶点和多个第一MCU图边缘,每个第一MCU图顶点对应于第一组成部分的最小可分解的单位并且每个第一MCU图边缘对应于连接第一组成部分中最小可分解的单位的第一键。第二最小可分解的单位图数据结构由表示第二组成部分的第二MCU图的第二MCU图数据填充,第二MCU图具有多个第二MCU图顶点和多个第二MCU图边缘。每个第二MCU图顶点对应于第二组成部分的最小可分解的单位并且每个第二MCU图边缘对应于连接第二组成部分中的最小可分解的单位的第二键。
线图数据结构生成器包括程序指令,其可在微处理器上执行,以基于第一MCU图数据在存储器中生成和存储所选分子的第一组成部分的第一线图数据结构。第一线图数据结构由表示第一MCU图的第一线图的第一线图数据填充,其中第一线图具有多个第一LG顶点和多个第一LG边缘,每个第一LG顶点对应于第一MCU图中的第一MCU图边缘并且每个第一LG边缘对应于第一MCU图中通过第一MCU图边缘连接在一起的一对第一MCU图顶点。线图数据结构生成器也包括程序指令,其可通过微处理器执行,以基于第二MCU图数据在存储器中生成和存储所选分子的第二组成部分的第二线图数据结构。第二线图数据结构由表示第二MCU图的第二线图的第二线图数据填充,其中第二线图具有多个第二LG顶点和多个第二LG边缘,每个第二LG顶点对应于第二MCU图中的第二MCU图边缘并且每个第二LG边缘对应于第二MCU图中的通过所述第二MCU图边缘连接在一起的一对第二MCU图顶点。
图遍历模块包括程序指令,其可在微处理器上执行,以针对所选分子的第一组成部分的第一线图数据结构中的第一线图数据运行图遍历算法,以确定第一线图的多个第一归纳连接的子图,每个第一归纳连接的子图包括第一线图中的第一LG顶点和第一LG边缘的第一连接子集,和第一LG顶点和第一LG边缘的第一连接子集的第一物理布置,其一起唯一地对应于最小可分解的单位和键的集合的第一连接子集,以及所选分子中最小可分解的单位和键的所述第一连接子集的相对位置。
图遍历模块也包括程序指令,其可在微处理器上执行,以针对所选分子的第二组成部分的第二线图数据结构中的第二线图数据运行图遍历算法,以确定第二线图的多个第二归纳连接的子图,每个第二归纳连接的子图包括第二线图中的第二LG顶点和第二LG边缘的第二连接子集,以及第二LG顶点和第二LG边缘的所述第二连接子集的第二物理布置,其中第二LG顶点和第二LG边缘的第二连接子集与其物理布置一起唯一地对应于最小可分解的单位和键的集合的第二连接子集,和所选分子中最小可分解的单位和键的所述第二连接子集的相对位置。
子图数据库生成器包括程序指令,其使得微处理器为所选分子的第一组成部分的第一线图数据结构中表示的每个第一归纳连接的子图在子图数据库中创建第一ICS记录,该第一ICS记录包括第一分子量字段、第一顶点数据字段和第一边缘数据字段。第一顶点数据字段填充有第一顶点值,其配置为指示第一归纳连接的子图中的每一个第一LG顶点的第一顶点位置,并且第一边缘数据字段填充有第一边缘值,其配置为指示第一归纳连接的子图中的每一个第一LG边缘相对于第一LG顶点的第一边缘位置。数据库生成器也包括程序指令,其使得微处理器在子图数据库中创建包括第二分子量字段、第二顶点数据字段和第二边缘数据字段的第二ICS记录,用于所选分子的第二组成部分的第二线图数据结构中表示的每个第二归纳连接的子图。第二顶点数据字段填充有第二顶点值,其配置为指示第二归纳连接的子图中的每一个第二LG顶点的第二顶点位置,并且第二边缘数据字段填充有第二边缘值,其配置为指示第二归纳连接的子图中的每一个第二LG边缘相对于第二LG顶点的第二边缘位置。
分子量计算器包括程序指令,其使得微处理器对于所选分子的第一组成部分的第一线图数据结构中的每个第一ICS记录,基于所选分子的所选分子数据提供的元素分子量以及第一ICS记录中的第一顶点值和第一边缘值,计算并在第一分子量字段中存储该第一ICS记录的第一归纳连接的子图的第一总分子量。分子量计算器也包括程序指令,以使得微处理器对于所选分子的第二组成部分的第二线图数据结构中的每个第二ICS记录,基于所选分子的所选分子数据提供的元素分子量以及第二ICS记录中的第二顶点值和第二边缘值,计算并在第二分子量字段中存储该第二ICS记录的第二归纳连接的子图的第二总分子量。
在本发明的仍另一实施中,提供了计算机实施的方法,用于在存储器中生成数据库,以利于使用微处理器、存储器装置和显示装置标识所选分子的子结构。在第一步骤中,方法在存储器装置中接收和存储所选分子数据,其表示(A)所选分子中最小可分解的单位的集合,(B)连接所选分子中最小可分解的单位的集合的键的集合,(C)每个最小可分解的单位的分子量,和(D)位于所选分子中的割点,其中割点的去除将所选分子分成第一组成部分和第二组成部分,和(E)所选分子的连接性特征,连接性特征指示最小可分解的单位和键的相对位置,以及它们之间的连接。
接下来,基于所选分子数据,计算机实施的方法创建并在存储器装置中存储用于所选分子的第一组成部分和第二组成部分的最小可分解的单位图数据结构。最小可分解的单位图数据结构填充有表示所选分子的MCU图的MCU图数据。MCU图具有多个MCU图顶点和多个MCU图边缘,每个MCU图顶点对应于所选分子的最小可分解的单位并且每个MCU图边缘对应于连接所选分子中最小可分解的单位的键。
基于MCU图数据,生成并在存储器装置中存储所选分子的第一组成部分的第一线图数据结构和所选分子的第二组成部分的第二线图数据结构。每个线图数据结构填充有表示MCU图的第一组成部分和第二组成部分的线图的线图数据。第一线图和第二线图各自具有多个LG顶点和多个LG边缘,每个LG顶点对应于MCU图中的MCU图边缘并且每个LG边缘对应于通过所述MCU图边缘连接在一起的MCU图中的一对MCU图顶点。
在方法的下一步骤中,微处理器用于针对所选分子的第一组成部分的第一线图数据结构中的第一线图数据和所选分子的第二组成部分的第二线图数据结构中的第二线图数据运行图遍历算法,来为每个组成部分确定(a)线图的多个归纳连接的子图,每个归纳连接的子图包括线图中的LG顶点和LG边缘的连接子集,(b)LG顶点和LG边缘的连接子集的物理布置,其一起唯一地对应于最小可分解的单位和键的集合的连接子集,和(c)所选分子中最小可分解的单位和键的连接子集的相对位置。
对于第一组成部分的第一线图数据结构和第二组成部分的每个第二线图数据结构中表示的每个归纳连接的子图,方法进一步包括在子图数据库中创建包括分子量字段、顶点数据字段和边缘数据字段的ICS记录的步骤,其中顶点数据字段填充有顶点值,其配置为指示归纳连接的子图中的每一个LG顶点的顶点位置,并且边缘数据字段填充有边缘值,其配置为指示归纳连接的子图中的每一个LG边缘相对于LG顶点的边缘位置。对于所选分子的第一组成部分和第二组成部分的线图数据结构中的每个ICS记录,微处理器用于基于所选分子的所选分子数据和ICS记录中的顶点值和边缘值,计算和在分子量字段中存储该ICS记录的归纳连接的子图的总分子量。
在本发明的一些实施方式中,方法进一步包括a)通过微处理器接收查询分子量;b)利用微处理器,基于查询分子量搜索子图数据库,以标识在分子量字段中具有匹配查询分子量的总分子量的ICS记录;c)将标识的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值的呈现传输至显示装置;(d)通过从查询分子量减去割点的分子量计算调整的查询分子量;(e)标识所选分子的第一组成部分的具有最低分子量的ICS记录;(f)通过从调整的查询分子量减去所选分子的第一组成部分的ICS记录的最低分子量,计算修改的查询分子量;(g)使用修改的查询分子量为所选分子的第二组成部分进行ICS记录的二分搜索,以标识当与第一组成部分的ICS记录的分子量组合时匹配修改的查询分子量的ICS记录;(h)将标识的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传输至用户界面,用于在由终端用户操作的显示装置上呈现;(i)标识所选分子的第一组成部分的具有下一个最低的分子量的ICS记录;和(j)重复步骤f)至步骤h),直到所选分子的第一组成部分的ICS记录的每个分子量已经在步骤f)至步骤i)中使用。
在一些实施方式中本发明,通过公式确定线图G的连接组成部分(初始分子的可能的代谢产物):
i)G1\{v}的子图;
ii)G2\{v}的子图;或
(iii)C1∪{v}∪C2的子图,
其中
C1和C2分别为G1\{v}和G2\{v}的子图,并且邻接顶点v。
附图说明
图1显示了高水平流程图,其以示例的形式阐释了本发明的实施方式中数据的流动。
图2显示了高水平总体流程图,其以示例的形式阐释了本发明的另一实施方式中数据的流动,其中表示各种类型的图的数据结构为邻接矩阵。
图3显示了高水平流程图,其以示例的形式阐释了在归纳连接的子图(ICS)数据库中计算和存储生物转化计数的算法,所述生物转化计数与通过本发明的实施方式获得的归纳连接的子图中的每一个相关。
图4显示了高水平方块图,其阐释了配置为根据本发明的示例性实施方式操作的复杂分子子结构标识系统的架构的示例。
图5显示了根据本发明的实施方式可存储在ICS数据库中的示例性归纳连接的子图(ICS)记录。
图6为流程图,其阐释了根据本发明的一个实施方式通过微处理器进行的步骤,以确定用于所选分子的第一组成部分和第二组成部分中的每一个的归纳连接的子图和相应的ICS记录的全集,其中用于组成部分的每个归纳连接的子图唯一地对应于完全存在于所选分子的该组成部分中的化学子结构。
图7为流程图,其阐释了根据本发明的实施方式生成所选分子的MCU图的算法。
图8为流程图,其阐释了根据本发明的一个实施方式生成MCU图的线图的算法。
图9A阐释了含有可通过图7的过程生成的割点(Q)的假设的所选分子的最小可分解的单位图。
图9B阐释了根据本发明的实施方式生成的假设的所选分子的两个组成部分的数据结构(邻接矩阵)。
图9C阐释了可生成以表示假设的所选分子的组成部分的两个示例性线图。
图9D显示了图9C中显示的线图的两个示例性线图数据结构,即邻接矩阵。
图10显示了合成二聚体的化学结构,其为可包括本发明的实施方式中所选分子的大分子的一个示例。
图11显示了图10中显示的合成二聚体分子的MCU图的示例。
图12A和图12B分别显示了可根据本发明的实施方式生成的线图和线图数据结构,以表示图10中显示的合成二聚体的第一单体。
图13为可根据本发明的实施方式生成的边缘至顶点数据结构,以表示图10中显示的合成二聚体的第一单体。
图14A和图14B分别显示了可根据本发明的实施方式生成的线图和线图数据结构,以表示图10中显示的合成二聚体的第二单体。
图15显示了可根据本发明的实施方式生成的边缘至顶点数据结构,以表示图10中显示的合成二聚体的第二单体。
图16为流程图,其阐释了根据本发明的一个实施方式搜索归纳连接的子图的数据库(ICS数据库)的步骤,以标识所选分子的子结构。
图17A-图17D为根据本发明的实施方式生成的单体A的示例性子图数据库记录。
图18A-图18D为根据本发明的实施方式生成的单体B的示例性子图数据库记录。
图19A、图19B、图20A、图20B、图21A、图21B、图22A和图22B分别显示了根据本发明的实施方式生成的并且对应于图17A-图17D中描绘的子图数据库条目的单体A的子结构的MCU图和化学结构。
图23A、图23B、图24A、图24B、图25A、图25B、图26A和图26B分别显示了根据本发明的实施方式生成的并且对应于图18A-图18D中描绘的子图数据库条目的单体B的子结构的MCU图和化学结构。
图27A和图27B显示了根据本发明的实施方式生成的与单体B的子结构组合的单体A的子结构的MCU图和化学结构。
图28显示了图遍历算法的示例性MatLab程序指令,所述程序指令当通过微处理器执行时,将使得微处理器根据本发明的实施方式从MCU图邻接矩阵中存储的MCU图数据中构成子图数据库。
图29显示了流程图,其阐释了通过图28中显示的示例性程序指令进行的算法。
具体实施方式
本文所述的割点法减少了具有复杂结构的计算机出现停顿的问题并且利于通过分析和标识在分开表示所选分子的线图的两个独立的子部分中查找到的子结构,并且然后将两个分析的结果汇总标识大量的代谢产物,而不是尝试同时分析和标识整个分子的所有子结构,从而促进大的复杂分子的药物开发和设计。然而,应注意,本发明的实施方式适于并且标识所有类型的分子的子结构。子结构所属的分子称为“所选分子”。所选分子可为大分子,或高分子,或小分子。高分子包括但不限于基于氨基酸的分子,比如肽,以及多肽、抗体、蛋白质、酶、免疫球蛋白、脂质、核酸、碳水化合物、寡核苷酸、多核苷酸、多糖和聚合物。所选分子也可为缀合分子和交联分子。
如本文使用的,所有氨基酸三字母和单字母命名遵守本领域中标准的那些命名,并且列举如下:
丙氨酸Ala A精氨酸Arg R天冬酰胺Asn N天冬氨酸Asp D半胱氨酸Cys C谷氨酸Glu E谷氨酰胺Gln Q甘氨酸Gly G组氨酸His H异亮氨酸Ile I亮氨酸Leu L赖氨酸Lys K甲硫氨酸Met M苯丙氨酸Phe F脯氨酸Pro P丝氨酸Ser S苏氨酸Thr T色氨酸Trp W酪氨酸TyrY缬氨酸Val V
本发明的示例性系统、设备和方法结合小分子MetID和Top Down蛋白质组方法,以提供快速和有效的方式来不仅仅标识和存储给定的分子的详尽的子结构比如代谢产物的库,而且也提供标识的代谢产物的结构表征以及代谢产物的化学结构或组成的可视化。本发明的示例性系统、设备和方法通过明显提高计算机系统标识和表征复杂分子的子结构和其他代谢产物要求的搜索时间而改进了常规的计算机系统的操作。配置为根据本发明的实施方式操作的计算机系统在几小时内可标识和表征数以亿计的子结构,或甚至数以十亿计的子结构,相比常规的计算机化系统和方法,其将花费数周或数月才能完成。子结构可存储在电子介质,比如计算机存储器中,显示在与计算机系统相关的监视器或显示屏,打印在与计算机系统相关的打印装置上,或传输至另一计算机系统或网络,用于进一步分析。本发明使得明显提高的处理时间成为可能,将在推动药物设计和开发的领域中起到宝贵的作用。
本发明的系统、设备和方法用于标识所选分子的代谢产物和其他子结构。例如,为了表征完整的蛋白质,通常进行气体破碎技术以获得前体蛋白质离子的片段离子。每个片段离子可被视为前体离子的子结构。为了正确表征前体蛋白质离子的结构,需要基于每个片段离子的质量或分子量值而正确地指定每个片段离子的结构。本发明的系统、设备和方法可应用于构建片段离子的质量值和气相中它们的结构之间的关系。
图1显示了高水平流程图,其阐释了例如本发明的一个实施方式中的数据的流动。如图1中显示,第一用户使用第一终端用户计算机系统115和输入模块125,以将所选分子数据提供至系统,所选分子数据包括为所选分子限定的MCU的集合、MCU的分子量和所选分子的连接性特征。连接性特征指示最小可分解的单位和键的相对位置,以及所选分子中MCU和键之间的任何连接。所选分子数据也包括足够的信息,以标识所选分子的割点,其中如果从表示所选分子的线图去除割点,则割点的去除将使所选分子的线图分成第一组成部分和第二组成部分。MCU图数据结构生成器130创建和构成MCU图数据结构,其具有表示所选分子的MCU图的数据。MCU图数据结构生成器130将MCU图数据存储在与系统相关的二级存储器装置(图1中未显示)中。
线图数据结构生成器135从MCU图数据结构检索第一组成部分的MCU图数据并且使用它以及割点信息,以创建和构成含有表示所选分子的第一组成部分的第一线图的数据的第一线图数据结构。线图数据结构生成器135也从MCU图数据结构检索第二组成部分的MCU图数据并且使用它以及割点信息,以创建和构成含有表示所选分子的第二组成部分的第二线图的数据的第二线图数据结构。割点为所选分子的第一组成部分和第二组成部分之间的边界。
图遍历模块140然后使用适当的图遍历算法,以遍历第一线图数据结构中的数据以在存储器中产生和存储第一归纳连接的子图数据142,其表示可源自由第一线图数据结构中的第一线图数据表示的第一线图的所有的第一归纳连接的子图。图遍历模块140也使用图遍历算法,以遍历第二线图数据结构中的数据,以在存储器中产生和存储第二归纳连接的子图数据144,其表示可源自由第二线图数据结构中的第二线图数据表示的第二线图的所有的第二归纳连接的子图。子图数据库生成器145检索第一归纳连接的子图数据142、第二归纳连接子图数据144,和所选分子数据(特别是分子量),以构建和构成包括多个归纳连接的子图(ICS)记录的第一子图数据库150,每个ICS记录至少包括填充有归纳连接的子图的顶点数据的顶点数据字段、填充有归纳连接的子图的边缘数据的边缘数据字段、填充有归纳连接的子图的分子量的分子量字段和填充有表示将所选分子转化成由每个ICS记录的顶点字段、边缘字段和分子量字段存储的值表示的子结构需要的生物转化的数量的值(限定下面)的生物转化计数字段。基于终端用户提供的所选分子数据中MCU的分子量,子图数据库生成器145计算每个归纳连接的子图的分子量。如图1中显示,可通过与子图数据库生成器145相关的生物转化处理器149计算生物转化计数,生物转化处理器149配置为进行生物转化计算算法,比如图3中描绘的和下面更详细描述的算法。图5显示了根据本发明的实施方式可在子图数据库150中存储的示例性归纳连接的子图(ICS)记录。
在二级存储器(并且其可含有数百万的记录)中构建和存储子图数据库150之后,第二用户可使用第二终端用户计算机系统160和用户界面165基于给定的查询分子量(或给定的分子量的范围)来搜索子图数据库150。将查询分子量(或重量的范围)传递给搜索引擎170,其使得系统从子图数据库150检索所有记录的具有等于查询分子量或落入分子量的指定范围的分子量的顶点数据和边缘数据。搜索引擎170也按照下面详细解释的图16中显示的算法操作,以计算修改的查询分子量和调整的查询分子量,并且在子图数据库150上运行二分搜索,以便标识和检索跨越所选分子的割点的每一个ICS的顶点数据和边缘数据。可视化程序175使用顶点数据和边缘数据生成搜索中查找到的归纳连接的子图的图形表示,并且将图形表示经用户界面165传输至第二用户操作的显示装置162。在优选的实施方式中,如果存在匹配查询质量(或范围)的两个或更多个归纳连接的子图,则可视化程序175和用户界面165操作为使匹配归纳连接的子图根据它们各自生物转化字段中的值排序,并且以排列的顺序显示匹配归纳连接的子图。注意,在一些实施方式中,第一终端用户计算机系统和第二终端用户计算机系统可包括相同的计算机系统,并且第一终端用户和第二终端用户可为相同的用户。换句话说,可配置系统以便相同的计算机系统用于启动系统的子图数据库生成和子图数据库搜索功能。
图2显示了高水平总体流程图,其阐释了例如在本发明的另一实施方式中的数据的流动,其中表示各种类型的图的数据结构为邻接矩阵。如图2中显示,总体数据流与图1中阐释的系统中的总体数据流基本上相同,只是顶点至顶点(V2V)邻接矩阵生成器模块230使用所选分子数据,以生成和存储V2V图数据,边缘至边缘(E2E)图邻接矩阵生成器235使用V2V图数据,以生成和存储E2E图数据,并且边缘至顶点(E2V)图邻接矩阵生成器237使用V2V图数据,以生成和存储E2V图数据。
图3显示了高水平流程图,其阐释了例如在ICS数据库中计算和存储生物转化计数的算法,该生物转化计数与由系统创建的顶点列数据和边缘数组数据表示的各自一个归纳连接的子图相关。为了本公开的目的,“生物转化”定义为两个MCU之间共价键的断裂。
通常,在搜索中多个代谢产物将匹配给定的查询质量,这取决于搜索查询中指定的容差范围,例如,±5ppm以内、±4ppm以内、±2ppm以内,或在给定的搜索质量周围一些其他限制的范围。在这种情况下,过滤(或至少按优先顺序列出)在搜索中返回的代谢产物的列表通常是有效的且是期望的,以便更可能由所选分子生成的代谢产物显示在搜索结果中返回的代谢产物的列表的顶部,即,它们在显示较不可能由所选分子生成的代谢产物之前显示。因为代谢产物通常酶促产生,并且因为酶通常一次水解一个键,所以有理由假设可通过断裂所选分子中最少数量的键而生成的代谢产物也为最可能由该所选分子生成的代谢产物,无论代谢产物是在体内生成还是在实验室中生成。类似的顺序破碎过程出现在气相破碎期间。一次断裂一个键,最弱的键首先断裂,随后下一个最弱的键断裂,以此类推。
相应地,本发明的实施方式,和特别地子图数据库生成器,可包括生物转化处理器(比如计算机程序指令的集合),其配置为在ICS数据库中为ICS数据库中表示的每个归纳连接的子图(即,各自代谢产物)计数和存储将所选分子转化成该特别的代谢产物需要的生物转化(或断裂的共价键)的数量。另外,搜索引擎适当地配置为使用存储的生物转化计数,以及查询质量,以检索并且在搜索结果中按排名的顺序显示代谢产物,其中具有较低生物转化计数值的代谢产物比具有最高生物转化计数值的代谢产物排序更高。在一些实施方式中,系统也可配置为过滤搜索结果,以便需要大于指定的最大生物转化数量的那些代谢产物将从搜索结果中过滤掉并且不呈现在用户的显示装置上。
例如,假设所选分子为直链肽A-N-T-G-F-A-N-G-G,并且匹配查询质量的一个代谢产物为A-N-T-G-F,并且匹配查询质量的另一个代谢产物为T-G-F-A-N。显然,由所选分子获得A-N-T-G-F代谢产物需要单个断裂的键,而获得T-G-F-A-N代谢产物需要两个断裂的键。在该情况下,搜索查询模块的用户界面将A-N-T-G-F代谢产物的排序高于T-G-F-A-N代谢产物。
本发明的实施方式配置为产生包括表示可由所选分子生成的每一个子结构的ICS记录的ICS数据库。每个ICS记录至少包括顶点列、边缘数组和生物转化计数字段。相应地,如图3中显示,为ICS数据库中表示的每个子结构计数和存储生物转化的数量的一个算法将如下进行:
步骤305-选择ICS数据库中的第一ICS记录;
步骤310-标识选择的ICS记录中的边缘数组;
步骤315–通过标识边缘数组中的所有的0标识缺失的边缘;
步骤320-通过将其初始值设置为零,将选择的ICS记录的生物转化计数字段初始化;
步骤325-对于边缘数组中每个缺失的边缘,如果缺失的边缘邻接子结构中的至少一个顶点,则生物转化计数字段中的值增加1;
步骤330-选择ICS数据库中的下一个ICS记录;和
步骤335-重复上面的步骤310至步骤330,直到ICS数据库中的每一个ICS记录已经计算和存储了生物转化计数值。
如本文讨论的,将存在一些情况,其中所选分子的结构包括通过割点分开的两个单体(单体A和单体B)。对于跨越割点的这种所选分子的子结构或代谢产物,生物转化的数量是将所选分子转化成单体A需要的生物转化的数量和将所选分子转化成单体B需要的生物转化的数量之和。
按照该算法在生物转化计数字段中存储的值然后可以由本发明的实施方式使用,以将搜索结果排序和/或过滤,以使得最可能生成的子结构是仅仅列举或显示给终端用户的子结构,或以使得最可能生成的子结构列举或显示在列表的顶部(即,在不太可能生成的子结构之前)。
图4显示了高水平方块图,其阐释了例如配置为根据本发明的示例性实施方式操作的复杂分子子结构标识系统405的架构。复杂分子子结构标识系统405可在通用或专用计算机系统上实施,包括,例如,个人计算机系统、笔记本电脑、便携式电脑、平板或手持式计算机系统、因特网驱动的智能电话或个人数字助理计算装置,或其一种或多种的任何组合。典型地,复杂分子子结构标识系统405包括中央处理器(CPU)或微处理器425、主存储器410(也称为随机存取存储器(或RAM))和非易失性二级存储器存储区420(例如,硬盘驱动器、闪存驱动器或CD-ROM驱动器)。如图4中显示,复杂分子子结构标识系统405也可包括网络接口430,比如,例如,有线以太网局域网适配器、802.11a/g/n WiFi适配器、通用串行总线(USB)适配器,和/或蓝牙无线数据通信适配器,以提供与其他计算机系统、外围设备比如打印机和/或数据通信网络的数据通信。程序代码,比如包括应用程序412的代码,和程序数据,比如所选分子数据485,可从非易失性二级存储区420载入主存储器410中(即,载入RAM中)并且提供至微处理器425用于执行。在应用程序412的控制下操作,微处理器425可在二级存储器存储区420中生成和存储结果,用于随后存取、显示、输出和/或传输至其他计算机系统、其他计算机程序和/或其他数据通信网络。
在应用程序412中的软件模块的控制下,微处理器425进行的子结构标识进程的结果存储在二级存储器存储区420中,以便其可根据需要由与复杂分子子结构标识系统405交互的人用户经由在应用程序412中的用户界面模块460控制下操作的一个或多个终端用户输入装置495(例如,键盘、鼠标、触笔、触摸屏等)和一个或多个终端用户输出装置498(例如,显示装置、打印机、平板显示屏或智能电话显示屏等)而被观察、浏览和修改。二级存储器存储区420和其含有的数据可被整合至与微处理器425、主存储器410、应用程序412和软件模块435、440、445、450、455、460、465、470、475和480相同的物理机器中,如图4中显示。然而,在不背离所要求发明的范围的情况下,二级存储器存储区420中显示的一些或所有的数据和/或数据库也可位于以分布式布置的分开的计算机系统上。
网络接口430可用于和含有或生成待处理的另外的输入数据(未显示在图4中)以及视为对于进行该进程有用的或必要的多种电子文件和文档的远程服务器和机器(例如,质谱仪装置)建立连接。网络接口430也可提供与其他人类用户操作的远程终端和远程计算机系统(未显示)的连接,该其他人类用户希望存取和使用本发明的复杂分子子结构标识系统405。
主存储器410可包括但不限于一个或多个局域或远程、固定的或可移除的、永久性或临时的、磁性或光学的随机存取存储器(RAM)区、缓冲存储器区或磁盘驱动器,含有控制微处理器425的功能以进行标识如本文描述的复杂分子的子结构的方法的多个程序模块。这些模块中的每一个可包括以常规的编程语言写为源代码的计算机软件程序、程序或进程,并且可提供为通过微处理器425执行。源代码以及目标代码和字节代码的各种实施方式可存储在计算机可读的存储介质(比如,DVD、CDROM、软盘或存储卡)上或包含在传输介质或载波上。
应用程序412包括下面讨论的计算机软件程序模块435、440、445、450、455、460、465、470、475和480的集合,每一个含有使得微处理器425根据需要进行各种具体的任务的程序指令,以接收各种类型的输入数据(比如所选分子数据485),和执行下面描述的算法,以生成、存储、传输和显示与本文所述的标识进程相关的MCU图、线图、归纳连接的子图、子结构可视化、生物转化数据、边缘数据和顶点数据。这些软件模块是灵活的并且可配置为接收、处理和输出大量不同类型的输入和输出,包括但不限于,化学结构绘图文件、图像和其他电子文档、图、布局和概要。下面现将更详细地描述应用程序412中每一个计算机软件模块435、440、445、450、455、460、465、470、475和480的目的和功能。
应用程序412包括输入模块435、MCU图数据结构生成器模块440、线图数据结构生成器模块445、图遍历模块450、子图数据库生成器模块455、用户界面模块460、搜索引擎模块465、可视化程序模块470、生物转化处理器模块475和一个或多个另外的数据处理模块480。输入模块435包括程序指令,所述程序指令当通过微处理器425执行时,使得微处理器425在二级存储器存储区420中接收和存储所选分子数据485,其表示(A)所选分子的限定的最小可分解的单位的集合,(B)连接所选分子中限定的最小可分解的单位的集合的键的集合,(C)每个最小可分解的单位的分子量,和(D)所选分子的连接性特征,连接性特征指示最小可分解的单位和键的相对位置,以及它们之间的连接。输入模块435也可包括程序指令,所述程序指令当通过微处理器425执行时,使得微处理器425接收、扫描、分析和/或存储所选分子的化学图中表示的数据,图包括标识下述的注释:(A)所选分子的最小可分解的单位,(B)所选分子的各自最小可分解的单位的分子量,和(C)连接所选分子的最小可分解的单位的键的类型。
MCU图数据结构生成器440包括程序指令,所述程序指令当通过微处理器425执行时,将使得微处理器425用表示所选分子的MCU图的数据创建和构成MCU图数据结构(其示例显示在图9D中)。MCU图数据结构生成器440将通常在连接至复杂分子子结构标识系统405或与复杂分子子结构标识系统405相关的二级存储器存储区420或一些其他存储器存储区(未显示在图4中)中存储MCU图数据。线图数据结构生成器445从MCU图数据结构检索MCU图数据并且使用其创建和填充线图数据结构,其也存储在连接至复杂分子子结构标识系统405或与复杂分子子结构标识系统405相关的二级存储器存储区420或一些其他存储器存储区(未显示在图4中)中。
图遍历模块450包括程序指令,所述程序指令当通过微处理器424执行时,将使得微处理器425执行适当的图遍历算法,以遍历线图数据结构中的数据,以产生归纳连接的子图数据147,其表示可源自由线图数据结构中的线图数据表示的线图的所有归纳连接的子图。子图数据库生成器455使用归纳连接的子图数据147和所选分子数据485(特别是分子量)构建和填充存储在二级存储器存储区420中的子图数据库490。如图4中显示,子图数据库490包括多个ICS记录,各自记录至少包括具有归纳连接的子图的顶点数据的顶点数据字段、具有归纳连接的子图的边缘数据的边缘数据字段、填充有归纳连接的子图的分子量的分子量字段以及生物转化计数字段,所述生物转化计数字段填充有表示将所选分子转化成由每个ICS记录中的顶点、边缘和分子量字段中存储的值表示的子结构需要的(上面限定的)生物转化的数量的值。基于终端用户提供的所选分子数据485中MCU的分子量,子图数据库生成器455计算每个归纳连接的子图的分子量。按照图3中阐释的和上面详细地描述算法,生物转化处理器475确定每个归纳连接的子图的生物转化。
在通过执行由第一用户激活的应用程序412构建子图数据库490之后,基于给定的查询分子量(或给定的分子量的范围),第二用户(或第一用户)可操作终端用户输入装置495中的一个或多个,以激活用户界面模块460以搜索子图数据库490。将查询分子量(或重量的范围)传递给搜索引擎465,其使得系统从子图数据库490检索具有等于查询分子量或落入指定的分子量范围内的分子量的所有记录的顶点数据和边缘数据。相应地,用户界面模块460和搜索引擎模块465一起包括程序指令,所述程序指令当通过微处理器425执行时,将使得微处理器425(i)从终端用户接收查询分子量;(ii)基于查询分子量,搜索子图数据库490,以标识在分子量字段中具有匹配查询分子量的总分子量的ICS记录,和(iii)将标识的ICS记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值传输至用户界面460,用于呈现在由终端用户操作的终端用户输出装置498(例如,显示监视器)上。
可视化程序模块470包括程序指令,所述程序指令当通过微处理器425执行时,将使得微处理器425使用子图数据库490中标识的ICS记录的顶点数据和边缘数据,以生成标识的归纳连接的子图的图形表示,其经由用户界面460传输至由第二用户操作的终端用户输出装置498。在优选的实施方式中,如果存在匹配查询量(或范围)的两个或更多个归纳连接的子图,则可视化程序模块470和用户界面460操作为将匹配的归纳连接的子图根据在它们各自的生物转化字段中的值排序,并且在终端用户输出装置498上以排列的顺序显示匹配的归纳连接的子图。
另外的数据处理模块480可包括,例如,数据库管理程序(未显示),其创建、组织和帮助存储ICS记录至子图数据库490和从子图数据库490检索ICS记录。可利用任何类型的数据库管理程序,包括平面文件系统、分层数据库、关系数据库或分布数据库,比如由加利福尼亚Redwood Shores的Oracle公司提供的那些。
在一些实施方式中,复杂分子子结构标识系统405能够充当服务器,配置为使用标准网页浏览器,比如因特网浏览器,经由可包括因特网和万维网的数据通信网络(未显示),与客户端计算装置通信。在这种实施方式中,复杂分子子结构标识系统405可使用许多可用的网页服务器应用或程序中的任何一种实施,包括例如可从华盛顿Redmond的Microsoft公司买到的因特网信息服务(IIS)。
图5显示了根据本发明的实施方式,可存储在ICS数据库中的示例性归纳连接的子图(ICS)记录。如图5中显示,二级存储器存储区420的子图数据库490中的每个ICS记录可包括与所选分子的每个归纳连接的子图相关的多个不同数据字段,包括但不限于,存储每个归纳连接的子图的指定标识符的分子标识符字段505、存储每个归纳连接的子图的指定标识符的子结构标识符字段510、存储每个归纳连接的子图的顶点数据和边缘数据的归纳连接的子图字段515(通常为列的集合)、存储归纳连接的子图的总分子量的分子量字段520、存储每个归纳连接的子图的生物转化计数的生物转化计数字段525、存储元素组成数据的元素组成字段530,和存储与归纳连接的子图中的每一个相关的其他特性的一个或多个其他字段535。
图6为进程或计算机程序的代表性步骤或函数,其可存储在主存储器410中并且通过微处理器425执行以进行标识所选分子的代谢产物的功能。
为了本公开和方便的目的,图6中阐释的进程可视为本发明的系统的操作的第一阶段,其利用所选分子的图形表示的数据结构,以标识所选分子的代谢产物。一般而言,图6阐释了通过其为所选分子的MCU图和线图生成数据结构的进程。使用图遍历算法遍历线图数据结构,以标识对于填充表示所选分子的子结构的归纳连接的子图的数据结构必要的数据。
为了在本公开中描述图6中显示的进程的步骤,将参考图7-图15,其中结合示例性所选分子显示步骤的结果。
现转向图6,本发明的子结构标识进程600包括许多步骤,其结果提供了所选分子的子结构的详尽的集合。在步骤605处,系统接收包括所选分子数据的所选分子的表示。所选分子数据包括所选分子中最小可分解的单位、连接所选分子中最小可分解的单位的键、每个最小可分解的单位的分子量以及所选分子的连接性特征,连接性特征指示最小可分解的单位和键的相对位置以及它们之间的连接。所选分子的表示可为MCU图的形式。
在本发明可选的实施方式中,在进程的第一步骤中,接收的所选分子的表示不是MCU图,而是含有结构、公式、绘图的化学图文件或所选分子的其他适当的表示。在该情况下,在步骤615处,基于分子的化学结构和用户限定的MCU或基于所选分子数据,系统为所选分子生成MCU图和相应的MCU图数据结构。
可通过矩阵生成器模块生成MCU图邻接矩阵。可从分子的化学图文件,比如ChemDraw文件、化学表文件或HELM表示(复合物大分子的分层编辑语言)生成MCU图。也可使用简化的分子-输入线进入系统(SMILES)生成化学图文件。
如图7中显示,可如下生成假设的所选分子的MCU图:在步骤705处,将顶点分配至所选分子的每个最小可分解的单位。在步骤710处,将标识符或值分配至每个顶点。例如值可为数值。如图9A中显示,假设的所选分子具有11个顶点。为顶点指定数值1、2、3、4、5、10、11、12、13和15。一个顶点由字母“Q”表示。在步骤715处,为连接所选分子的MCU的每个键添加边缘。假设的所选分子的MCU图的边缘由连接顶点的黑线指示。示例性MCU图显示在图9A中。
返回图6,在步骤610处,用户限定割点或所选分子中的割点。在该情况下,假设的分子的割点命名为顶点“Q”。如先前叙述的,连接图的割点为顶点,去除该顶点则产生初始图的至少两个连接组成部分(未计算去除的割点本身)。在该情形下,从图9A中陈述的结构去除割点Q产生所选分子的两个子组成部分,其可方便地称为单体A和单体B。单体A由如所描绘的边缘连接的顶点1至5表示,并且单体B由如图9A中所描绘的边缘连接的顶点10-14表示。将所选分子分成其组成部分或子组成部分利于标识分子的子结构的详尽的库,并且对于具有非常大量的子结构的分子特别有用。
在步骤615处,系统为所选分子的每个组成部分-在该情况下为单体A和单体B-生成MCU图数据结构。通过系统生成的MCU图数据结构优选地为邻接矩阵或邻接表。图9A中表示的假设的所选分子的示例性MCU图邻接矩阵在图9B中说明。MCU图的邻接矩阵为顶点至顶点矩阵(V2V)。顶点至顶点矩阵包括在本发明的示例性实施方式中配置为n个元素组成部分或n个最小可分解的单位的所选分子的n乘n矩阵的数据结构。如果两个顶点彼此连接或邻接,则矩阵中的每个位置含有数值1(一),并且如果两个顶点之间没有邻接,则每个位置含有数值0。假设的所选分子的单体A的V2V矩阵的行和列都标记为1至5,以表示相应的单体AMCU图中出现的5个顶点。例如,如图9B中显示,顶点1和顶点2邻接,如由矩阵的第1行第2列的“1”表示。另一方面,顶点1和顶点5不邻接,如由矩阵的第1行第5列阐述的“0”表示。相似地,在单体B的MCU图中,顶点10和顶点10连接,如由单体1邻接矩阵的第10行第11列的“1”表示,并且顶点11和顶点14未连接并且所以在表示单体2的邻接矩阵中指定“0”。
在步骤620处,系统从MCU图数据结构生成线图数据结构(也称为“键图数据结构”或“边缘图数据结构”)。为了易于理解,在图9C中描绘与假设的所选分子MCU图邻接矩阵的单体A和单体B对应的线图。一般而言,编码进程的线图使得(i)线图的每个顶点表示所选分子的MCU之间的共价键和(ii)当且仅当相应的共价键入射至MCU图中的相同MCU时,线图的两个顶点由边缘连接。
如图8的流程图阐释,如下进行生成线图的算法:在步骤805处,基于通过每个边缘的连接的端点,由选择的假设的分子的MCU图中的边缘构建线图的顶点。基于指定给相应的MCU图的顶点的值,为线图的每个顶点分配独特的指数,例如数值。线图的顶点对应于MCU的边缘。例如,对于假设的所选分子的单体A的线图,图9C顶点A对应于连接图9A的单体A MCU图的顶点1和2的边缘;顶点B对应于连接图9A的单体A MCU图的顶点1和3的边缘;图9C的顶点C对应于连接图9A的单体A MCU图的顶点1和4的边缘;图9C的顶点D对应于连接图9A的单体A MCU图的顶点2和5的边缘。图9C的顶点E对应于连接图9A的单体A MCU图的顶点4和3的边缘;并且图9C的顶点F对应于连接图9A的单体A MCU图的顶点4和5的边缘。
通过本发明系统生成的线图数据结构优选地为线图邻接矩阵或邻接表。在本发明的一个实施方式中,通过计算机代码,比如通过线图矩阵生成器模块和边缘至顶点(E2V)矩阵生成器模块,自动生成线图数据结构。
典型地,存在两个类型的线图的邻接矩阵,即边缘至边缘(E2E)矩阵和边缘至顶点(E2V)矩阵。对于每个矩阵,0,1符号可用于描述所选分子的组成部分之间的连接(标注“1”)或缺少组成部分(标注“0”)。0,1符号为可用于矩阵的示例性符号。允许区分所选分子的组成部分之间的连接的存在和缺少的任何符号是适当的。
边缘至边缘矩阵包括数据结构,其在本发明的示例性实施例中对于n个元素组成部分或n个最小可分解的单位的所选分子配置为n乘n矩阵。如果边缘E1和边缘E2邻接,则矩阵中的每个位置都含有数值1(一),并且如果两个边缘之间没有邻接,则含有数值0(零)。
边缘至顶点矩阵包括数据结构,其在本发明的示例性实施例中对于n个元素组成部分或最小可分解的单位的所选分子配置为n乘n矩阵。如果边缘和给定的顶点邻接,则矩阵中的每个位置含有数值1(一),并且如果两个边缘之间没有邻接,则含有数值0(零)。
在图9D中说明对应于图9A中表示的假设的所选分子的单体A和单体B的MCU图和MCU图数据结构的示例性线图邻接矩阵(E2E)。
在步骤625处,系统使用含有程序指令的图遍历程序(或子程序),其当通过微处理器425执行时,使得微处理器425进行图遍历算法的步骤,以遍历所选分子的组成部分的线图数据结构,在该情况下是遍历单体A和单体B的E2E和E2V矩阵,以产生和存储单体A和单体B的线图的归纳连接的子图。
在本发明的一个实施方式中,图形搜索为深度优先搜索。如下进行该过程:首先,将线图数据结构的单个顶点添加为连接组成部分。接下来,对于任何连接组成部分,(i)其顶点指数定义为其成分顶点的最小指数;(ii)标识其相邻的顶点;(iii)将新的连接组成部分添加至连接组成部分的列表,该新的连接组成部分被限定为目前的连接组成部分和其相邻的顶点的每一个的并集,所述相邻的顶点的每一个具有的指数高于目前的连接组成部分的指数;和(iv)归纳地进行搜索(遍历线图邻接矩阵),直到已经枚举了所有的连接组成部分。通过在非减少顶点指数的方向上的特别的方向的搜索,确保没有无限循环。
随着枚举连接组成部分(归纳连接的子图),系统在步骤630处在二级存储器存储区420的子图数据库490中创建和存储归纳连接的子图记录(ICS记录)。优选地,尽管不是必须,所选分子的每个组成部分的ICS记录存储在不同的子图数据库中。例如,单体A的ICS记录可存储在第一子图数据库中,并且单体2的ICS记录可存储在第二子图数据库中。每个ICS记录含有分子量字段、顶点数据字段和边缘数据字段。图17A和图17B提供了根据本发明的一些实施方式生成的,为合成的二聚肽的所选分子的单体A的示例性ICS记录。
在步骤635处,系统计算和存储对应于每个归纳连接的子图的总分子量并且在ICS数据库中的ICS记录的分子量字段中存储分子量。在完成步骤630和步骤635时,已经枚举和存储了所有的归纳连接的子图,并且已经计算和存储了相应的分子量,优选地存储在一个或多个子图数据库中。这完成了本发明的代谢产物标识过程的第一阶段,其可称为子图数据库构建阶段。
图10显示了为异源二聚合成肽的所选分子的化学结构。图11为表示图10中显示的选择的异源二聚合成肽的MCU图。顶点Z表示分子内的选择的割点。表示其他顶点的氨基酸由带圆圈的单字母缩写描绘。在该情况下,选择的二聚肽的MCU选择为氨基酸。因此,不允许超过氨基酸水平的分解。如图10中显示,所选分子的单体A中有12个氨基酸并且因此单体AMCU图中有12个顶点,如由带圆圈的字母表示的。MCU图含有13个边缘,描绘了连接圆圈并且通过实心黑线连接顶点。
图12A和图12B分别显示了根据本发明的实施方式生成的,图11的异源二聚合成肽的单体A的线图和其相应的邻接矩阵。线图的顶点表示为圆圈并且编号为1-14。为了易于理解,顶点含有表示单体A的MCU图的给定边缘的端点的肽中的单字母氨基酸和位置。
在图14中说明单体A的相应的E2V矩阵数据结构。在E2V矩阵中,边缘表示为行1-14并且顶点表示为列1-13。
图14A和图14B分别显示了根据本发明的实施方式生成的、图11的异源二聚合成肽的单体B的线图和其相应的邻接矩阵。线图的顶点表示为圆圈和编号1-14。为了易于理解,顶点含有表示单体A的MCU图的给定边缘的端点的肽中的单字母氨基酸和位置。在图15中说明单体A的相应的E2V矩阵数据结构。在E2V中,矩阵边缘表示为行1-14并且顶点表示为列1-14。
图17A和图17B显示了根据本发明的实施方式生成的、存储在子图数据库中的、选择的合成异源二聚化分子的单体A的示例性ICS记录,其包括分子量字段、顶点数组字段和边缘数组字段。ICS记录表示选择的合成异源二聚化肽的线图的归纳连接的子图。如图15的行4和5中显示,两个ICS记录显示相同的分子量,但是顶点数据字段中不同的顶点值和边缘数据字段中不同的边缘值。本发明允许用户区分具有相同分子量的ICS(并且因此区分所选分子的子结构)。
图18A和图18B显示了根据本发明的实施方式生成的、存储在子图数据库中、选择的合成异源二聚化分子的单体B的示例性ICS记录,其包括分子量字段、顶点数组字段和边缘数组字段。ICS记录表示选择的合成异源二聚化肽的线图的归纳连接的子图。
图16显示了根据本发明的一个实施方式的搜索过程的流程图,其可与本发明的操作的第一阶段同步进行。该过程利用操作的第一阶段中创建的存储的归纳连接的子图记录的数据库或多个数据库。在步骤1605处,系统接收查询分子量。在步骤1610和步骤1620处,系统使用查询分子量,搜索在步骤630和步骤635处生成的存储的归纳连接的子图记录的数据库,以便标识具有匹配查询分子量的分子量字段值的归纳连接的子图记录,即,具有在查询分子量的指定范围内的分子量字段中的分子量的记录,优选地在查询分子量的±5ppm内,更优选地查询分子量的±4ppm内,和更优选地查询分子量的±2ppm内。在一些实施方式中,归纳连接的子图记录的搜索可通过包括程序指令的搜索引擎模块(即,计算机程序)进行,所述程序指令当通过微处理器425执行时,将使得微处理器425搜索和检索来自在本发明的操作早期执行阶段期间存储在子图数据库中的ICS记录的数据,其中在子图数据库490中生成和存储所选分子的多个组成部分的ICS记录。查询分子量通常为所选分子的子结构的实验观察的或已知的分子量。可使用技术-比如质谱、尤其微分质谱-生成查询分子量。
在步骤1615和步骤1625处,系统存储来自顶点数据字段的顶点值和来自边缘数据字段的边缘值,用于子图数据库中的标识的归纳连接的子图记录。任选地,系统可将该信息显示给用户。通过将来自标识的ICS记录的顶点值和边缘值传输至用户界面,实现显示步骤,用于呈现在由终端用户操作的显示装置上。
在本发明的另外的实施方式中,系统可使用顶点数据字段中的顶点值,边缘数据字段中的边缘值和所选分子数据,以在计算机系统的存储器中产生和存储线图的归纳连接的子图的图形表示,并且将图形表示从计算机系统的存储器传输至由终端用户操作的显示装置。见图16的步骤1660。图形表示可以是由归纳连接的子图记录表示的子结构的MCU图或化学结构图。注意到显示图形表示为任选的步骤,如在步骤1660中陈述,这取决于用户是否希望看到图形表示,或是否满意于接收(或呈现)线图的归纳连接的子图的顶点值和边缘值。
在步骤1630处,系统通过从查询分子量减去割点的分子量计算调整的查询分子量。在步骤1635处,系统搜索第一ICS数据库,其含有所选分子的第一组成部分的ICS记录,以标识分子量字段中具有最低分子量的ICS记录。然后,在步骤1640处,系统通过从调整的查询分子量中减去第一数据库的ICS记录的分子量字段中最低分子量,来计算修改的查询分子量。
在步骤1645处,系统进行第二数据库的二分搜索,所述第二数据库含有所选分子的第二组成部分的ICS记录,以标识具有分子量的ICS,当与从第一数据库的搜索标识的ICS记录的分子量组合时该分子量的ICS匹配修改的查询分子量。如步骤1650中说明的,如果来自第一数据和第二数据库的ICS记录的组合分子量匹配修改的查询分子量,然后系统移动至步骤1655并且将来自标识的ICS记录的顶点字段中的顶点值和边缘字段中的边缘值传输至用户界面,用于呈现在由终端用户操作的显示装置上。
在本发明的另外的实施方式中,系统可使用顶点数据字段中的顶点值、边缘数据字段中的边缘值和所选分子数据,以产生线图的归纳连接的子图的图形表示,并且将图形表示传输至由终端用户操作的显示装置。见图16的步骤1660。图形表示可为由归纳连接的子图记录表示的子结构的MCU图或化学结构图。注意,如在步骤1660中说明的,显示图形表示为任选的步骤,这取决于用户是否希望看到图形表示,或是否满意于接收(或呈现)线图的归纳连接的子图的顶点值和边缘值。
在步骤1665处,系统搜索第一数据库,以确定是否存在位于其中的另一ICS记录,并且如果存在,则重复步骤1635以标识具有下一个最低分子量的ICS记录。然后从调整的查询分子量中减去该最低的分子量,以提供新修改的查询分子量,其然后用于第二数据库的二分搜索。重复步骤1635-步骤1665,直到第一数据库中所有ICS记录的分子量已经用于第二数据库的二分搜索。
图17A-图17D为根据本发明的实施方式生成的单体A的示例性数据库记录。图18A-图18D为根据本发明的实施方式生成的单体B的示例性数据库记录。
图19A、图19B、图20A、图20B、图21A、图21B、图22A和图22B显示了根据本发明的实施方式生成的单体A的子结构的化学结构和MCU图,其分别对应于图17A-图17D中描绘的数据库条目。在本发明的实施方式中,可视化程序产生这些子结构的图形表示并且将它们发送至第二用户的显示装置。
图23A、图23B、图24A、图24B、图25A、图25B、图26A和图26B显示了根据本发明的实施方式生成的单体B的子结构的化学结构和MCU图,其分别对应于图18A-图18D中描绘的数据库条目。
图27A和图27B分别显示了根据本发明的实施方式生成的、组合了所选分子的单体B的子结构与单体A的子结构的组合的MCU图和化学图。
图28显示了示例性MatLab代码程序指令,用于填充来自存储在MCU图邻接矩阵中的MCU图数据的子结构数据库。如图29中显示,代码中的函数接收存储在MCU图邻接矩阵数据结构E2V中的输入数据和存储在线图邻接矩阵数据结构J中的数据。注意,后者可源自前者。所以,由图28中显示的MatLab代码表示的算法可书写为,使得其仅仅需要来自MCU图邻接矩阵数据结构的数据来填充ICS数据库。
图29显示了流程图,其说明了由图28中显示的示例性代码进行的算法。如图29中显示,遍历图数据结构以填充子图数据库的算法包括下述步骤:第一,在步骤2905处,将表示结构中存在的每个单个边缘的数据添加至数据库。然后,在步骤2910处,对于数据库中存在的每个边缘,将该边缘的所有的子代子结构递归添加至数据库。接下来,在步骤2915处,对于数据库中已有的每个子结构(即,每个亲本子结构),标识其邻居,并且将每个邻居逐个添加至亲本结构,并且在步骤2920处,重复步骤2910、2915和2920,直到没有更多的子结构添加至数据库。
尽管已经参考具体的示例详细地描述了本发明,但是将对本领域技术人员显而易见的是,可在本发明的范围内进行各种修饰。因此,本发明的范围不应受到本文所述的示例的限制,而是由下面呈现的权利要求限制。

Claims (39)

1.一种标识所选分子的子结构的系统,所述系统包括:
a)微处理器;
b)存储器;
c)所述存储器中的应用程序,其包括程序指令,所述程序指令当通过所述微处理器执行时,将使得所述微处理器:
i)在所述存储器中接收和存储所选分子数据,所述所选分子数据表示(A)所述所选分子中最小可分解的单位的集合,(B)连接所述所选分子中所述最小可分解的单位的集合的键的集合,(C)每个最小可分解的单位的分子量,(D)所述所选分子的连接性特征,所述连接性特征指示最小可分解的单位和键的相对位置,以及所述最小可分解的单位和所述键之间的连接,和(E)所述所选分子中的割点,其中,所述割点的去除将分子分成第一组成部分和第二组成部分,
ii)基于所述所选分子数据,在所述存储器中创建和存储所述所选分子的第一组成部分的第一最小可分解的单位图数据结构,所述第一最小可分解的单位图数据结构填充有表示所述第一组成部分的第一最小可分解的单位图的第一最小可分解的单位图数据,所述第一最小可分解的单位图具有多个第一最小可分解的单位图顶点和多个第一最小可分解的单位图边缘,每个第一最小可分解的单位图顶点对应于所述第一组成部分的最小可分解的单位并且每个第一最小可分解的单位图边缘对应于连接所述第一组成部分中的最小可分解的单位的第一键,
iii)基于所述第一最小可分解的单位图数据,在所述存储器中生成和存储所述所选分子的所述第一组成部分的第一线图数据结构,所述第一线图数据结构填充有表示所述第一最小可分解的单位图的第一线图的第一线图数据,所述第一线图具有多个第一线图顶点和多个第一线图边缘,每个第一线图顶点对应于所述第一最小可分解的单位图中的第一最小可分解的单位图边缘并且每个第一线图边缘对应于所述第一最小可分解的单位图中通过所述第一最小可分解的单位图边缘连接在一起的一对第一最小可分解的单位图顶点,
iv)针对所述所选分子的所述第一组成部分的所述第一线图数据结构中的所述第一线图数据执行图遍历算法,以确定所述第一线图的多个第一归纳连接的子图,每个第一归纳连接的子图包括所述第一线图中的第一线图顶点和第一线图边缘的第一连接子集,以及第一线图顶点和第一线图边缘的所述第一连接子集的第一物理布置,其一起唯一地对应于所述最小可分解的单位和键的集合的第一连接子集,以及所述所选分子中最小可分解的单位和键的所述第一连接子集的相对位置,
v)为所述所选分子的所述第一组成部分的第一线图数据结构中表示的每个第一归纳连接的子图,在数据库中创建和存储包括第一分子量字段、第一顶点数据字段和第一边缘数据字段的第一归纳连接的子图记录,其中所述第一顶点数据字段填充有第一顶点值,所述第一顶点值被配置为指示所述第一归纳连接的子图中每一个第一线图顶点的第一顶点位置,并且所述第一边缘数据字段填充有第一边缘值,所述第一边缘值被配置为指示所述第一归纳连接的子图中的每一个第一线图边缘相对于所述第一线图顶点的第一边缘位置,
vi)为所述所选分子的所述第一组成部分的所述第一线图数据结构中的每个第一归纳连接的子图记录,基于所述所选分子的所述所选分子数据和所述第一归纳连接的子图记录中的所述第一顶点值和所述第一边缘值,在所述第一分子量字段中计算和存储该第一归纳连接的子图记录的所述第一归纳连接的子图的第一总分子量,
vii)基于所述所选分子数据,在所述存储器中创建和存储所述所选分子的所述第二组成部分的第二最小可分解的单位图数据结构,所述第二最小可分解的单位图数据结构填充有表示所述第二组成部分的第二最小可分解的单位图的第二最小可分解的单位图数据,所述第二最小可分解的单位图具有多个第二最小可分解的单位图顶点和多个第二最小可分解的单位图边缘,每个第二最小可分解的单位图顶点对应于所述第二组成部分的最小可分解的单位并且每个第二最小可分解的单位图边缘对应于连接所述第二组成部分中的最小可分解的单位的第二键,
viii)基于所述第二最小可分解的单位图数据,在所述存储器中生成和存储所述所选分子的所述第二组成部分的第二线图数据结构,所述第二线图数据结构填充有表示所述第二最小可分解的单位图的第二线图的第二线图数据,所述第二线图具有多个第二线图顶点和多个第二线图边缘,每个第二线图顶点对应于所述第二最小可分解的单位图中的所述第二最小可分解的单位图边缘并且每个第二线图边缘对应于所述第二最小可分解的单位图中通过所述第二最小可分解的单位图边缘连接在一起的一对第二最小可分解的单位图顶点,
ix)针对所述所选分子的所述第二组成部分的所述第二线图数据结构中的所述第二线图数据执行图遍历算法,以确定所述第二线图的多个第二归纳连接的子图,每个第二归纳连接的子图包括所述第二线图中的第二线图顶点和第二线图边缘的第二连接子集,以及第二线图顶点和第二线图边缘的所述第二连接子集的第二物理布置,其一起唯一地对应于所述最小可分解的单位和键的集合的第二连接子集,和所述所选分子中最小可分解的单位和键的所述第二连接子集的相对位置,
x)为所述所选分子的所述第二组成部分的第二线图数据结构中表示的每个第二归纳连接的子图,在所述数据库中创建和存储包括第二分子量字段、第二顶点数据字段和第二边缘数据字段的第二归纳连接的子图记录,其中,所述第二顶点数据字段填充有第二顶点值,所述第二顶点值被配置为指示所述第二归纳连接的子图中的每一个第二线图顶点的第二顶点位置,并且所述第二边缘数据字段填充有第二边缘值,所述第二边缘值配置为指示所述第二归纳连接的子图中的每一个第二线图边缘相对于第二线图顶点的第二边缘位置,和
xi)为所述所选分子的所述第二组成部分的所述第二线图数据结构中的每个第二归纳连接的子图记录,基于所述所选分子的所述所选分子数据和所述第二归纳连接的子图记录中的第二顶点值和第二边缘值,在所述第二分子量字段中计算和存储该第二归纳连接的子图记录的第二归纳连接的子图的第二总分子量;和
d)用户界面,其包括程序指令,所述程序指令当通过所述微处理器执行时,将使得所述微处理器:
i)从终端用户接收查询分子量,
ii)搜索所述数据库,以标识在所述第一分子量字段中具有匹配所述查询分子量的第一总分子量的第一归纳连接的子图记录,
iii)搜索所述数据库,以标识在所述第二分子量字段中具有匹配所述查询分子量的第二总分子量的第二归纳连接的子图记录,
iv)使用标识的第一归纳连接的子图记录的所述第一顶点数据字段中的第一顶点值和所述第一边缘数据字段中的第一边缘值,以在显示装置上产生和显示所述第一归纳连接的子图的第一图形表示,所述第一归纳连接的子图的第一图形表示对应于具有匹配所述查询分子量的所述第一总分子量的所述第一归纳连接的子图记录,
v)使用标识的第二归纳连接的子图记录的所述第二顶点数据字段中的第二顶点值和所述第二边缘数据字段中的第二边缘值,以在显示装置上生成和显示所述第二归纳连接的子图的第二图形表示,所述第二归纳连接的子图的所述第二图形表示对应于具有匹配所述查询分子量的第二总分子量的所述第二归纳连接的子图记录,
vi)通过从所述查询分子量为割点减去分子量计算调整的查询分子量,
vii)为所述所选分子的所述第一组成部分标识第一局部归纳连接的子图记录,所述第一局部归纳连接的子图记录相对于所述第一组成部分的所有其他分子量字段中的所有其他分子量,在所述第一分子量字段中具有最低的第一分子量,
viii)通过从所述调整的查询分子量减去所述所选分子的所述第一组成部分的第一局部归纳连接的子图记录的最低第一分子量,计算修改的查询分子量,
ix)使用修改的查询分子量搜索所述所选分子的所述第二组成部分的归纳连接的子图记录,以标识所述所选分子的所述第二组成部分的第二局部归纳连接的子图记录,所述第二局部归纳连接的子图记录在所述第二分子量字段中具有当与所述第一组成部分的所述第一局部归纳连接的子图记录的所述第一分子量组合时匹配所述修改的查询分子量的第二分子量,
x)使用所述第一局部归纳连接的子图记录和所述第二局部归纳连接的子图记录的所述顶点数据字段中的所述顶点值、所述第一局部归纳连接的子图记录和所述第二局部归纳连接的子图记录的所述边缘数据字段中的所述边缘值、所述割点和所述所选分子数据,在所述显示装置上生成和显示所述所选分子的所述第一组成部分和所述第二组成部分的组合的归纳连接的子图的图形表示,其中通过将所述第一局部归纳连接的子图记录的所述归纳连接的子图和所述第二局部归纳连接的子图记录的所述归纳连接的子图连接在一起而产生组合的归纳连接的子图,
xi)用另一第一归纳连接的子图记录替换所述第一局部归纳连接的子图记录,其中所述另一第一归纳连接的子图记录包括所述第一分子量字段中相对于所述第一局部归纳连接的子图记录的所述分子量字段中的分子量的下一个最低的第一分子量,和
xii)重复上面的步骤viii)至步骤xi)直到所述所选分子的所述第一组成部分的第一归纳连接的子图记录的所述第一分子量字段中的每个第一分子量已经用于进行所述步骤viii)至步骤xi)。
2.根据权利要求1所述的系统,进一步包括所述应用程序中的程序指令,所述程序指令当通过所述微处理器执行时,使得所述微处理器:
a)接收所述查询分子量的指定容差;
b)使用所述指定容差计算和限定搜索所述数据库的查询分子量的范围;
c)基于所述查询分子量和范围搜索所述数据库,以标识在所述数据库中的每个归纳连接的子图记录,所述每个归纳连接的子图记录具有在所述分子量字段中落入限定的分子量的范围内的总分子量;和
d)为每个标识的归纳连接的子图记录,将所述顶点数据字段中的所述顶点值和所述边缘数据字段中的所述边缘值传输至所述用户界面,用于呈现至终端用户。
3.根据权利要求1所述的系统,其中,通过分析存储在链表、或数组、或邻接矩阵、或图形图像文件、或化学绘图文件、或电子表格文件、或文本文件、或CSV文件、或.CDX文件、或.CDXML文件、或.MOL文件、或.SDM文件、或CAD文件、或二进制数据文件中的信息而接收所述所选分子数据。
4.根据权利要求1所述的系统,其中,所述最小可分解的单位和键的集合的所述连接子集为所述所选分子的代谢产物、或所述所选分子的代谢副产物、或所述所选分子的气相碎片、或所述所选分子的降解物、或所述所选分子的子结构。
5.根据权利要求1所述的系统,其中,所述最小可分解的单位图数据结构为数组、邻接矩阵、邻接表、关联矩阵或关联表。
6.根据权利要求1所述的系统,其中,所述线图数据结构为数组、邻接矩阵、邻接表、关联矩阵或关联表。
7.根据权利要求1所述的系统,其中,所述图遍历算法为深度优先搜索算法、或广度优先搜索算法、或倒序搜索算法、或树搜索算法、或以上的多个图遍历算法中的两个的组合。
8.根据权利要求1所述的系统,其中,所述所选分子为小分子。
9.根据权利要求1所述的系统,其中,所述所选分子为大分子。
10.根据权利要求9所述的系统,其中,所述大分子为蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成的聚合物。
11.根据权利要求1所述的系统,其中:
a)所述所选分子数据包括元素组成数据,其表示(A)每个最小可分解的单位中元素单位的集合,(B)连接最小可分解的单位中元素单位的集合的元素键的集合,(C)每个元素单位的元素分子量,和(D)所述最小可分解的单位的最小可分解的单位连接性特征,所述最小可分解的单位连接性特征指示所述最小可分解的单位中元素单位和元素键的相对位置以及所述最小可分解的单位中元素单位和元素键之间的连接;
b)在所述数据库中创建的归纳连接的子图记录进一步包括填充有一个或多个元素单位标识符的元素单位字段;和
c)所述应用程序进一步包括程序指令,所述程序指令当通过微处理器执行时,将使得所述微处理器:
i)从所述终端用户接收查询元素单位,
ii)基于所述查询元素单位搜索所述数据库,以标识在所述元素单位字段中具有匹配所述查询元素单位的元素单位标识符的归纳连接的子图记录,和
iii)将标识的归纳连接的子图记录的所述顶点数据字段中的所述顶点值和所述边缘数据字段中的所述边缘值传输至所述用户界面,用于在由终端用户操作的显示装置上呈现。
12.根据权利要求1所述的系统,其中:
a)在数据库中创建的每个归纳连接的子图记录进一步包括生物转化计数字段;和
b)所述用户界面进一步包括程序指令,所述程序指令当通过所述微处理器执行时,将使得所述微处理器:
i)从所述终端用户接收最大的生物转化计数,和
ii)基于查询质量和所述最大的生物转化计数,搜索数据库,以标识归纳连接的子图记录,所述归纳连接的子图记录具有所述分子量字段中的分子量值和所述生物转化计数字段中的生物转化计数值,所述分子量值匹配所述查询质量,所述生物转化计数值不超过生物转化计数最大值。
13.根据权利要求1所述的系统,其中:
a)在所述数据库中创建的每个归纳连接的子图记录进一步包括生物转化计数字段;和
b)所述用户界面进一步包括程序指令,所述程序指令当通过所述微处理器执行时,将使得所述微处理器:
i)基于所述每个归纳连接的子图记录的生物转化计数字段,确定所述第一归纳连接的子图、第二归纳连接的子图和组合的归纳连接的子图之间的排列顺序,和
ii)将所述第一归纳连接的子图的第一图形表示、所述第二归纳连接的子图的第二图形表示和所述组合的归纳连接的子图的图形表示按照所述排列顺序显示在所述显示装置上。
14.一种使用微处理器生成数据库以利于标识所选分子的子结构的系统,所述系统包括:
a)存储器;
b)微处理器;
c)接收和存储所选分子数据的输入模块,所述所选分子数据表示(A)所述所选分子中最小可分解的单位的集合,(B)连接所述所选分子中最小可分解的单位的集合的键的集合,(C)每个最小可分解的单位的分子量,(D)位于所述所选分子中的割点,所述割点在被去除时将所述所选分子分成第一组成部分和第二组成部分,和(E)所述所选分子中最小可分解的单位和键的连接性特征,所述连接性特征指示最小可分解的单位和键的相对位置,以及最小可分解的单位和键之间的连接;
d)最小可分解的单位图数据结构生成器,其配置为在所述存储器中创建和存储i)所述所选分子的第一组成部分的第一最小可分解的单位图数据结构,所述第一最小可分解的单位图数据结构填充有表示所述第一组成部分的第一最小可分解的单位图的第一最小可分解的单位图数据,所述第一最小可分解的单位图具有多个第一最小可分解的单位图顶点和多个第一最小可分解的单位图边缘,每个第一最小可分解的单位图顶点对应于所述第一组成部分的最小可分解的单位并且每个第一最小可分解的单位图边缘对应于连接所述第一组成部分中最小可分解的单位的第一键;和ii)所述所选分子的第二组成部分的第二最小可分解的单位图数据结构,所述第二最小可分解的单位图数据结构填充有表示所述第二组成部分的第二最小可分解的单位图的第二最小可分解的单位图数据,所述第二最小可分解的单位图具有多个第二最小可分解的单位图顶点和多个第二最小可分解的单位图边缘,每个第二最小可分解的单位图顶点对应于所述第二组成部分的最小可分解的单位并且每个第二最小可分解的单位图边缘对应于连接所述第二组成部分中的最小可分解的单位的第二键;
e)线图数据结构生成器,其配置为i)基于所述第一最小可分解的单位图数据,在所述存储器中生成和存储所述所选分子的所述第一组成部分的第一线图数据结构,所述第一线图数据结构填充有表示所述第一最小可分解的单位图的第一线图的第一线图数据,所述第一线图具有多个第一线图顶点和多个第一线图边缘,每个第一线图顶点对应于所述第一最小可分解的单位图中的所述第一最小可分解的单位图边缘并且每个第一线图边缘对应于所述第一最小可分解的单位图中通过所述第一最小可分解的单位图边缘连接在一起的一对第一最小可分解的单位图顶点;和ii)基于所述第二最小可分解的单位图数据,在所述存储器中生成和存储所述所选分子的第二组成部分的第二线图数据结构,所述第二线图数据结构填充有表示所述第二最小可分解的单位图的第二线图的第二线图数据,所述第二线图具有多个第二线图顶点和多个第二线图边缘,每个第二线图顶点对应于所述第二最小可分解的单位图中的第二最小可分解的单位图边缘并且每个第二线图边缘对应于所述第二最小可分解的单位图中通过所述第二最小可分解的单位图边缘连接在一起的一对第二最小可分解的单位图顶点;
f)图遍历模块,其配置为i)针对所述所选分子的所述第一组成部分的所述第一线图数据结构中的所述第一线图数据执行图遍历算法,以确定所述第一线图的多个第一归纳连接的子图,每个第一归纳连接的子图包括所述第一线图中的第一线图顶点和第一线图边缘的第一连接子集,以及第一线图顶点和第一线图边缘的所述第一连接子集的第一物理布置,其一起唯一地对应于最小可分解的单位和键的集合的第一连接子集,以及所述所选分子中最小可分解的单位和键的所述第一连接子集的相对位置,和ii)针对所述所选分子的所述第二组成部分的所述第二线图数据结构中的所述第二线图数据执行图遍历算法,以确定所述第二线图的多个第二归纳连接的子图,每个第二归纳连接的子图包括所述第二线图中的第二线图顶点和第二线图边缘的第二连接子集,以及第二线图顶点和第二线图边缘的所述第二连接子集的第二物理布置,其一起唯一地对应于最小可分解的单位和键的集合的第二连接子集,和所述所选分子中最小可分解的单位和键的所述第二连接子集的相对位置;和
g)子图数据库生成器,所述子图数据库生成器
i)为所述所选分子的所述第一组成部分的所述第一线图数据结构中表示的每个第一归纳连接的子图,在子图数据库中创建包括第一分子量字段、第一顶点数据字段和第一边缘数据字段的第一归纳连接的子图记录,其中所述第一顶点数据字段填充有第一顶点值,其配置为指示所述第一归纳连接的子图中每一个第一线图顶点的第一顶点位置,并且所述第一边缘数据字段填充有第一边缘值,其配置为指示所述第一归纳连接的子图中的每一个第一线图边缘相对于所述第一线图顶点的第一边缘位置,和
ii)为所述所选分子的第二组成部分的所述第二线图数据结构中表示的每个第二归纳连接的子图,在子图数据库中创建包括第二分子量字段、第二顶点数据字段和第二边缘数据字段的第二归纳连接的子图记录,其中所述第二顶点数据字段填充有第二顶点值,所述第二顶点值配置为指示所述第二归纳连接的子图中的每一个第二线图顶点的第二顶点位置,并且所述第二边缘数据字段填充有第二边缘值,所述第二边缘值配置为指示第二归纳连接的子图中的每一个第二线图边缘的相对于第二线图顶点的第二边缘位置;和
h)分子量计算器,其i)为所述所选分子的所述第一组成部分的所述第一线图数据结构中的每个第一归纳连接的子图记录,基于所述所选分子的所述所选分子数据和所述第一归纳连接的子图记录中的所述第一顶点值和所述第一边缘值,在所述第一分子量字段中计算和存储该第一归纳连接的子图记录的第一归纳连接的子图的第一总分子量;和ii)为所述所选分子的所述第二组成部分的所述第二线图数据结构中的每个第二归纳连接的子图记录,基于所述所选分子的所述所选分子数据和所述第二归纳连接的子图记录中的所述第二顶点值和所述第二边缘值,在所述第二分子量字段中计算和存储该第二归纳连接的子图记录的第二归纳连接的子图的第二总分子量。
15.根据权利要求14所述的系统,其中,通过分析存储在链表、或数组、或邻接矩阵、或图形图像文件、或化学绘图文件、或电子表格文件、或文本文件、或CSV文件、或.CDX文件、或.CDXML文件、或.MOL文件、或.SDM文件、或CAD文件、或二进制数据文件中的信息,来接收所述所选分子数据。
16.根据权利要求14所述的系统,其中,所述最小可分解的单位和键的集合的连接子集为所述所选分子的代谢产物、或所述所选分子的代谢副产物、或所述所选分子的气相碎片、或所述所选分子的降解物、或所述所选分子的子结构。
17.根据权利要求14所述的系统,其中,所述最小可分解的单位图数据结构为数组、邻接矩阵、邻接表、关联矩阵或关联表。
18.根据权利要求14所述的系统,其中,所述线图数据结构为数组、邻接矩阵、邻接表、关联矩阵或关联表。
19.根据权利要求14所述的系统,其中,所述图遍历算法为深度优先搜索算法、或广度优先搜索算法、或倒序搜索算法、或树搜索算法、或以上的多个图遍历算法中的两个的组合。
20.根据权利要求14所述的系统,进一步包括:
a)用户界面,用于与终端用户通信;和
b)存储器中的搜索引擎,其具有程序指令,所述程序指令当通过所述微处理器执行时,将使得所述微处理器:
i)从所述终端用户接收查询分子量,
ii)基于所述查询分子量搜索所述数据库,以标识在所述分子量字段中具有匹配所述查询分子量的总分子量的归纳连接的子图记录,和
iii)将标识的归纳连接的子图记录的所述顶点数据字段中的所述顶点值和所述边缘数据字段中的所述边缘值传输至所述用户界面,用于在由所述终端用户操作的显示装置上呈现,
iv)通过从所述查询分子量减去所述割点的所述分子量计算调整的查询分子量,
v)为所述所选分子的所述第一组成部分标识具有最低分子量的归纳连接的子图记录,
vi)通过从所述调整的查询分子量减去所述所选分子的所述第一组成部分的所述归纳连接的子图记录的最低分子量,计算修改的查询分子量,
vii)使用所述修改的查询分子量,为所述所选分子的所述第二组成部分进行所述归纳连接的子图记录的二分搜索,以标识当与所述第一组成部分的所述归纳连接的子图记录的所述分子量组合时匹配所述修改的查询分子量的归纳连接的子图记录,
viii)将所述标识的归纳连接的子图记录的所述顶点数据字段中的所述顶点值和所述边缘数据字段中的所述边缘值传输至所述用户界面,用于在由所述终端用户操作的显示装置上呈现,
ix)标识所述所选分子的所述第一组成部分的具有下一个最低的分子量的归纳连接的子图记录,和
x)重复步骤vi)至步骤ix),直到所述所选分子的所述第一组成部分的归纳连接的子图记录的每个分子量已经在步骤vi)至步骤viii)中使用。
21.根据权利要求14所述的系统,进一步在用户界面中包括程序指令,所述程序指令当通过所述微处理器执行时,将使得所述微处理器:
a)使用所述顶点数据字段中的所述顶点值、所述边缘数据字段中的所述边缘值和所述所选分子数据,为所述所选分子的所述第一组成部分和所述第二组成部分产生线图的归纳连接的子图的图形表示;和
b)将所述图形表示传输至由终端用户操作的显示装置。
22.根据权利要求14所述的系统,进一步包括应用程序中的程序指令,所述程序指令当通过所述微处理器执行,使得所述微处理器:
a)接收分子量的指定容差;
b)使用指定容差计算和限定用于所述数据库的搜索的分子量的范围;
c)基于查询分子量和范围搜索所述数据库,以标识所述数据库中的每个归纳连接的子图记录,所述每个归纳连接的子图记录在所述分子量字段中具有落入限定的分子量的范围内的总分子量,和
d)为每个标识的归纳连接的子图记录,将所述顶点数据字段中的所述顶点值和所述边缘数据字段中的所述边缘值传输至用户界面,用于呈现至终端用户;
e)通过从所述查询分子量减去所述割点的分子量,计算调整的查询分子量;
f)为所述所选分子的所述第一组成部分标识具有最低分子量的归纳连接的子图记录;
g)通过从所述调整的查询分子量减去所述所选分子的所述第一组成部分的所述归纳连接的子图记录的最低分子量,计算修改的查询分子量;
h)使用所述修改的查询分子量,为所述所选分子的所述第二组成部分进行所述归纳连接的子图记录的二分搜索,以标识当与所述第一组成部分的所述归纳连接的子图记录的所述分子量组合时匹配所述修改的查询分子量的归纳连接的子图记录;
i)将所述标识的归纳连接的子图记录的所述顶点数据字段中的所述顶点值和所述边缘数据字段中的所述边缘值传输至所述用户界面,用于在由所述终端用户操作的显示装置上呈现;
j)标识所述所选分子的所述第一组成部分的具有下一个最低的分子量的归纳连接的子图记录;和
k)重复步骤f)至步骤j),直到所述所选分子的所述第一组成部分的所述归纳连接的子图记录的每个分子量已经在步骤g)至步骤j)中使用。
23.根据权利要求14所述的系统,其中,所述图遍历算法为深度优先搜索、广度优先搜索、倒序搜索、树搜索,或以上的多个图遍历算法中的两个的组合。
24.根据权利要求14所述的系统,其中,所述所选分子为小分子。
25.根据权利要求14所述的系统,其中,所述所选分子为大分子。
26.根据权利要求25所述的系统,其中,所述大分子为蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成的聚合物。
27.一种使用微处理器和存储器装置为所选分子生成子结构的数据库的方法,所述方法包括:
a)在所述存储器中接收和存储所选分子数据,其表示(A)所述所选分子中最小可分解的单位的集合,(B)连接所述所选分子中最小可分解的单位的集合的键的集合,(C)每个最小可分解的单位的分子量,(D)所述所选分子的连接性特征,所述连接性特征指示最小可分解的单位和键的相对位置,以及最小可分解的单位和键之间的连接,和(E)所述所选分子中的割点,其中所述割点的去除将分子分成第一组成部分和第二组成部分;
b)基于所选分子数据,在所述存储器中创建和存储所述所选分子的第一组成部分的第一最小可分解的单位图数据结构,所述第一最小可分解的单位图数据结构填充有表示第一组成部分的第一最小可分解的单位图的第一最小可分解的单位图数据,所述第一最小可分解的单位图具有多个第一最小可分解的单位图顶点和多个第一最小可分解的单位图边缘,每个第一最小可分解的单位图顶点对应于所述第一组成部分的最小可分解的单位并且每个第一最小可分解的单位图边缘对应于连接所述第一组成部分中的最小可分解的单位的第一键;
c)基于所述第一最小可分解的单位图数据,在所述存储器中生成和存储所述所选分子的所述第一组成部分的第一线图数据结构,所述第一线图数据结构填充有表示所述第一最小可分解的单位图的所述第一线图的第一线图数据,所述第一线图具有多个第一线图顶点和多个第一线图边缘,每个第一线图顶点对应于所述第一最小可分解的单位图中的所述第一最小可分解的单位图边缘并且每个第一线图边缘对应于所述第一最小可分解的单位图中的通过所述第一最小可分解的单位图边缘连接在一起的一对第一最小可分解的单位图顶点;
d)针对所述所选分子的所述第一组成部分的所述第一线图数据结构中的所述第一线图数据执行图遍历算法,以确定所述第一线图的多个第一归纳连接的子图,每个第一归纳连接的子图包括所述第一线图中的第一线图顶点和第一线图边缘的第一连接子集,以及第一线图顶点和第一线图边缘的所述第一连接子集的第一物理布置,其一起唯一地对应于最小可分解的单位和键的集合的第一连接子集,以及所述所选分子中最小可分解的单位和键的所述第一连接子集的相对位置;
e)为所述所选分子的所述第一组成部分的所述第一线图数据结构中表示的每个第一归纳连接的子图,在数据库中创建包括第一分子量字段、第一顶点数据字段和第一边缘数据字段的第一归纳连接的子图记录,其中,所述第一顶点数据字段填充有第一顶点值,该第一顶点值配置为指示所述第一归纳连接的子图中的每一个第一线图顶点的第一顶点位置,并且所述第一边缘数据字段填充有第一边缘值,该第一边缘值配置为指示所述第一归纳连接的子图中的每一个第一线图边缘相对于第一线图顶点的第一边缘位置;
f)为所述所选分子的所述第一组成部分的所述第一线图数据结构中的每个第一归纳连接的子图记录,基于所述所选分子的所述所选分子数据和所述第一归纳连接的子图记录中的所述第一顶点值和所述第一边缘值,在所述第一分子量字段中计算和存储该第一归纳连接的子图记录的第一归纳连接的子图的第一总分子量;
g)基于所选分子数据,在存储器中创建和存储所述所选分子的第二组成部分的第二最小可分解的单位图数据结构,所述第二最小可分解的单位图数据结构填充有表示所述第二组成部分的第二最小可分解的单位图的第二最小可分解的单位图数据,所述第二最小可分解的单位图具有多个第二最小可分解的单位图顶点和多个第二最小可分解的单位图边缘,每个第二最小可分解的单位图顶点对应于所述第二组成部分的最小可分解的单位并且每个第二最小可分解的单位图边缘对应于连接所述第二组成部分中的最小可分解的单位的第二键;
h)基于所述第二最小可分解的单位图数据,在存储器中生成和存储所述所选分子的所述第二组成部分的第二线图数据结构,所述第二线图数据结构填充有表示所述第二最小可分解的单位图的第二线图的第二线图数据,所述第二线图具有多个第二线图顶点和多个第二线图边缘,每个第二线图顶点对应于所述第二最小可分解的单位图中的所述第二最小可分解的单位图边缘并且每个第二线图边缘对应于所述第二最小可分解的单位图中通过所述第二最小可分解的单位图边缘连接在一起的一对第二最小可分解的单位图顶点;
i)针对所述所选分子的所述第二组成部分的所述第二线图数据结构中的所述第二线图数据执行图遍历算法,以确定所述第二线图的多个第二归纳连接的子图,每个第二归纳连接的子图包括第二线图中的第二线图顶点和第二线图边缘的第二连接子集,以及第二线图顶点和第二线图边缘的所述第二连接子集的第二物理布置,其一起唯一地对应于最小可分解的单位和键的集合的第二连接子集,和所述所选分子中最小可分解的单位和键的所述第二连接子集的相对位置;
j)为所述所选分子的所述第二组成部分的所述第二线图数据结构中表示的每个第二归纳连接的子图,在所述数据库中创建包括第二分子量字段、第二顶点数据字段和第二边缘数据字段的第二归纳连接的子图记录,其中,所述第二顶点数据字段填充有第二顶点值,所述第二顶点值配置为指示所述第二归纳连接的子图中的每一个第二线图顶点的第二顶点位置,并且所述第二边缘数据字段填充有第二边缘值,所述第二边缘值配置为指示所述第二归纳连接的子图中的每一个第二线图边缘相对于所述第二线图顶点的第二边缘位置;和
k)为所述所选分子的所述第二组成部分的所述第二线图数据结构中的每个第二归纳连接的子图记录,基于所述所选分子的所述所选分子数据和所述第二归纳连接的子图记录中的所述第二顶点值和所述第二边缘值,在所述第二分子量字段中计算和存储该第二归纳连接的子图记录的第二归纳连接的子图的第二总分子量。
28.根据权利要求27所述的方法,其中,所述图遍历算法为深度优先搜索、或广度优先搜索、或倒序搜索、或树搜索、或以上的的多个图遍历算法中的两个的组合。
29.根据权利要求27所述的方法,进一步包括:
a)通过所述微处理器接收查询分子量;
b)基于所述查询分子量,利用所述微处理器,搜索所述数据库,以标识在所述分子量字段中具有匹配所述查询分子量的总分子量的归纳连接的子图记录;
c)将标识的归纳连接的子图记录的顶点数据字段中的顶点值和边缘数据字段中的边缘值的呈现传输至显示装置;
d)通过从所述查询分子量减去所述割点的分子量,计算调整的查询分子量;
e)为所述所选分子的第一组成部分标识具有最低分子量的归纳连接的子图记录;
f)通过从所述调整的查询分子量减去用于所述所选分子的所述第一组成部分的归纳连接的子图记录的最低分子量,计算修改的查询分子量;
g)使用所述修改的查询分子量,为所述所选分子的所述第二组成部分进行所述归纳连接的子图记录的二分搜索,以标识当与所述第一组成部分的所述归纳连接的子图记录的所述分子量组合时匹配所述修改的查询分子量的归纳连接的子图记录;
h)将所述标识的归纳连接的子图记录的所述顶点数据字段中的所述顶点值和所述边缘数据字段中的所述边缘值传输至用户界面,用于在由终端用户操作的显示装置上呈现;和
i)标识所述所选分子的所述第一组成部分的具有下一个最低的分子量的归纳连接的子图记录;和重复f)至步骤h),直到所述所选分子的所述第一组成部分的归纳连接的子图记录的每个分子量已经在步骤f)至步骤h)中使用。
30.根据权利要求29所述的方法,进一步包括:
a)基于所述所选分子、所述顶点数据字段中的所述顶点值和所述边缘数据字段中的所述边缘值的连接性特征,利用所述微处理器,为所述所选分子的所述第一组成部分和所述第二组成部分,产生线图的归纳连接的子图的图形表示;和
b)将所述图形表示传输至所述显示装置。
31.根据权利要求27所述的方法,其中,所述所选分子为小分子。
32.根据权利要求27所述的方法,其中,所述所选分子为大分子。
33.根据权利要求32所述的方法,其中,所述大分子为蛋白质、核酸、寡核苷酸、多核苷酸、多糖或合成的聚合物。
34.根据权利要求27所述的方法,其中,所述最小可分解的单位和键的集合的连接子集是所述所选分子的代谢产物、或所述所选分子的代谢副产物、或所述所选分子的气相碎片、或所述所选分子的降解物、或所述所选分子的子结构。
35.一种使用微处理器搜索数据库的设备,以查找和向显示装置传输描述所选分子的化学子结构的多个组成部分的集合和所述多个组成部分的物理布置的信息,所述设备包括:
a)数据库的电子用户界面,所述数据库包括多种归纳连接的子图记录,每个归纳连接的子图记录包括分子量字段、顶点数据字段和边缘数据字段,其中,所述顶点数据字段填充有顶点值,所述顶点值配置为指示表示所述所选分子的连接性特征的线图的归纳连接的子图中的每一个顶点的顶点位置,并且所述边缘数据字段填充有边缘值,所述边缘值配置为指示归纳连接的子图中的每一个边缘的边缘位置;
b)能够与所述电子用户界面一起操作的输入模块,所述输入模块配置为从终端用户接收指定分子量;
c)具有程序指令的搜索引擎,其在通过所述微处理器执行时,将使得所述微处理器在所述数据库中查找至少一个归纳连接的子图记录,在所述至少一个归纳连接的子图记录中所述分子量字段中的总分子量等于所述指定分子量;和
d)存储在存储器中的可视化程序,所述可视化程序配置为将所述至少一个归纳连接的子图记录的所述顶点数据字段的顶点值和所述边缘数据字段的边缘值传输至所述显示装置。
36.一种使用微处理器和存储器装置标识和显示所选分子的子结构的方法,所述方法包括:
a)在所述存储器中接收和存储所选分子数据,所述所选分子数据表示(A)所述所选分子中最小可分解的单位的集合,(B)连接所述所选分子中最小可分解的单位的集合的键的集合,(C)每个最小可分解的单位的分子量,(D)所述所选分子的连接性特征,所述连接性特征指示最小可分解的单位和键的相对位置,以及最小可分解的单位和键之间的连接,和(E)所述所选分子中的割点,其中,所述割点的去除将分子分成第一组成部分和第二组成部分;
b)基于所述所选分子数据,在所述存储器中创建和存储所选分子的第一组成部分的第一最小可分解的单位图数据和所述所选分子的第二组成部分的第二最小可分解的单位图数据;
c)基于所述第一最小可分解的单位图数据和所述第二最小可分解的单位图数据,在所述存储器中生成和存储所述所选分子的第一组成部分的第一线图数据,和所述所选分子的第二组成部分的第二线图数据;
d)针对所述第一线图数据和所述第二线图数据执行图遍历算法,以确定在存储器中存储归纳连接的子图记录,所述归纳连接的子图记录表示所述第一线图数据的多个第一归纳连接的子图和所述第二线图数据的多个第二归纳连接的子图,每个归纳连接的子图记录包括分子量字段、顶点数据字段和边缘数据字段,其中,所述顶点数据字段填充有顶点值,所述顶点值配置为指示表示所述所选分子的连接性特征的线图的归纳连接的子图中的每一个顶点的顶点位置,并且所述边缘数据字段填充有边缘值,所述边缘值配置为指示归纳连接的子图中的每一个边缘的边缘位置;和
e)对于所述存储器中的每个归纳连接的子图记录,基于所选分子的所选分子数据,在所述分子量字段中计算和存储由归纳连接的子图记录表示的、第一归纳连接的子图或第二归纳连接的子图的总分子量。
37.根据权利要求36所述的方法,其中:
a)所述第一最小可分解的单位图数据结构填充有表示所述第一组成部分的第一最小可分解的单位图的第一最小可分解的单位图数据,所述第一最小可分解的单位图具有多个第一最小可分解的单位图顶点和多个第一最小可分解的单位图边缘,每个第一最小可分解的单位图顶点对应于所述第一组成部分的最小可分解的单位并且每个第一最小可分解的单位图边缘对应于连接所述第一组成部分中的最小可分解的单位的第一键;和
b)所述第二线图数据结构填充有表示第二组成部分的第二最小可分解的单位图的第二线图的第二线图数据,所述第二线图具有多个第二线图顶点和多个第二线图边缘,每个第二线图顶点对应于所述第二最小可分解的单位图中的第二最小可分解的单位图边缘并且每个第二线图边缘对应于所述第二最小可分解的单位图中的通过所述第二最小可分解的单位图边缘连接在一起的一对第二最小可分解的单位图顶点。
38.根据权利要求36所述的方法,其中,每个第一归纳连接的子图包括第一线图中的第一线图顶点和第一线图边缘的第一连接子集,以及第一线图顶点和第一线图边缘的所述第一连接子集的第一物理布置,其一起唯一地对应于最小可分解的单位和键的集合的第一连接子集,以及所述所选分子中的最小可分解的单位和键的所述第一连接子集的相对位置。
39.根据权利要求36所述的方法,进一步包括:
a)在所述存储器中接收和存储指定分子量;
b)使所述微处理器在包括多种归纳连接的子图记录的数据库中查找至少一个归纳连接的子图记录,所述至少一个归纳连接的子图记录中所述分子量字段中的总分子量等于所述指定分子量;和
c)为所述至少一个归纳连接的子图记录,将所述顶点数据字段的所述顶点值和所述边缘数据字段的所述边缘值传输至显示装置。
CN201980052328.9A 2018-06-11 2019-06-11 用于标识复杂分子子结构的割点法 Active CN112534508B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862683582P 2018-06-11 2018-06-11
US62/683,582 2018-06-11
US201862752152P 2018-10-29 2018-10-29
US62/752,152 2018-10-29
US201862770252P 2018-11-21 2018-11-21
US62/770,252 2018-11-21
PCT/US2019/036467 WO2019241191A1 (en) 2018-06-11 2019-06-11 Cut vertex method for identifying complex molecule substructures

Publications (2)

Publication Number Publication Date
CN112534508A CN112534508A (zh) 2021-03-19
CN112534508B true CN112534508B (zh) 2024-03-01

Family

ID=68842307

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201980052328.9A Active CN112534508B (zh) 2018-06-11 2019-06-11 用于标识复杂分子子结构的割点法
CN201980054026.5A Active CN112567465B (zh) 2018-06-11 2019-06-11 复杂分子子结构的识别系统、装置和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201980054026.5A Active CN112567465B (zh) 2018-06-11 2019-06-11 复杂分子子结构的识别系统、装置和方法

Country Status (6)

Country Link
US (2) US11854664B2 (zh)
EP (2) EP3794597A4 (zh)
JP (2) JP7349454B2 (zh)
CN (2) CN112534508B (zh)
CA (2) CA3103253A1 (zh)
WO (2) WO2019241178A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3794597A4 (en) * 2018-06-11 2022-02-23 Merck Sharp & Dohme Corp. COMPLEX MOLECULE SUBSTRUCTURE IDENTIFICATION SYSTEMS, APPARATUS AND METHODS
CN114090834A (zh) * 2021-11-09 2022-02-25 支付宝(杭州)信息技术有限公司 一种图搜索方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077592A (zh) * 2014-03-28 2017-08-18 威斯康星校友研究基金会 高分辨率气相色谱‑质谱数据与单位分辨率参考数据库的改进谱图匹配的高质量精确度滤波
CN107111617A (zh) * 2014-12-19 2017-08-29 微软技术许可有限责任公司 数据库中的图处理
CN107923888A (zh) * 2015-05-29 2018-04-17 沃特世科技公司 代谢途径和代谢物鉴定

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1317765A2 (en) 2000-09-08 2003-06-11 Oxford GlycoSciences (UK) Limited Automated identification of peptides
JP5032120B2 (ja) * 2003-10-14 2012-09-26 バーセオン 分子を区分するための方法および装置
CA2571431A1 (en) * 2004-06-24 2006-01-05 The Scripps Research Institute Arrays with cleavable linkers
US7197402B2 (en) * 2004-10-14 2007-03-27 Highchem, Ltd. Determination of molecular structures using tandem mass spectrometry
US20080120041A1 (en) * 2006-11-13 2008-05-22 N.V. Organon System and method to identify the metabolites of a drug
US20090006002A1 (en) * 2007-04-13 2009-01-01 Sequenom, Inc. Comparative sequence analysis processes and systems
US9149309B2 (en) * 2012-03-23 2015-10-06 Yale University Systems and methods for sketching designs in context
US20130325354A1 (en) * 2012-05-18 2013-12-05 Marshall Siegel Computerized method for correlating and elucidating chemical structures and substructures using mass spectrometry
CN104813324B (zh) 2012-08-09 2017-09-05 珀金埃尔默健康科学公司 用于从质谱法输出识别聚合物物种的方法及设备
KR20140145753A (ko) * 2013-06-14 2014-12-24 주식회사 켐에쎈 기준 분자들의 물성 값 및 분자 표현자에 기반한 분자간 근원적 상관성을 이용하여 혼합물을 구성하는 각 분자들의 물성 값을 예측하는 방법
WO2015003531A1 (zh) * 2013-07-09 2015-01-15 旦华科技有限公司 利用核酸裂解后片段分子量进行物种鉴定的方法
EP3149483B1 (en) * 2014-06-02 2019-09-04 Agency For Science, Technology And Research A diagnostic and therapeutic tool for cancer
JP6909156B2 (ja) * 2014-11-25 2021-07-28 ヴェンタナ メディカル システムズ, インク. 化学ライゲーション及びハプテン移行を用いた近接アッセイ
CN104765984B (zh) * 2015-03-20 2017-07-11 同济大学 一种生物质谱数据库快速建立与搜索的方法
EP3368056A4 (en) * 2016-01-26 2019-06-05 Raghoottama Pandurangi COMPOSITIONS AND METHODS FOR SENSITIZING TUMORS WITH LOW CARACTERIUM THERAPY REACTION
US10318526B2 (en) 2016-07-05 2019-06-11 Zymergen Inc. Complex chemical substructure search query building and execution
EP3794597A4 (en) * 2018-06-11 2022-02-23 Merck Sharp & Dohme Corp. COMPLEX MOLECULE SUBSTRUCTURE IDENTIFICATION SYSTEMS, APPARATUS AND METHODS

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077592A (zh) * 2014-03-28 2017-08-18 威斯康星校友研究基金会 高分辨率气相色谱‑质谱数据与单位分辨率参考数据库的改进谱图匹配的高质量精确度滤波
CN107111617A (zh) * 2014-12-19 2017-08-29 微软技术许可有限责任公司 数据库中的图处理
CN107923888A (zh) * 2015-05-29 2018-04-17 沃特世科技公司 代谢途径和代谢物鉴定

Also Published As

Publication number Publication date
CN112534508A (zh) 2021-03-19
CA3103253A1 (en) 2019-12-19
CN112567465B (zh) 2024-02-20
CA3103229A1 (en) 2019-12-19
US20210265024A1 (en) 2021-08-26
CN112567465A (zh) 2021-03-26
EP3794599A4 (en) 2022-02-23
EP3794599A1 (en) 2021-03-24
JP2021527254A (ja) 2021-10-11
JP7349454B2 (ja) 2023-09-22
EP3794597A4 (en) 2022-02-23
JP2021527255A (ja) 2021-10-11
WO2019241191A1 (en) 2019-12-19
EP3794597A1 (en) 2021-03-24
WO2019241178A1 (en) 2019-12-19
JP7349455B2 (ja) 2023-09-22
US20210257046A1 (en) 2021-08-19
US11854664B2 (en) 2023-12-26

Similar Documents

Publication Publication Date Title
Feig et al. MMTSB Tool Set: enhanced sampling and multiscale modeling methods for applications in structural biology
Nielsen et al. ABySS-Explorer: visualizing genome sequence assemblies
Dror et al. Multiple structural alignment by secondary structures: algorithm and applications
Rajan et al. Going beyond clustering in MD trajectory analysis: an application to villin headpiece folding
CN112534508B (zh) 用于标识复杂分子子结构的割点法
Partl et al. ConTour: data-driven exploration of multi-relational datasets for drug discovery
Willett A bibliometric analysis of the Journal of Molecular Graphics and Modelling
Pandey et al. GenoREC: a recommendation system for interactive genomics data visualization
Bandi SynVisio: a multiscale tool to explore genomic conservation
Kolpak et al. Enhanced SAR maps: expanding the data rendering capabilities of a popular medicinal chemistry tool
Triplet et al. Systems biology warehousing: challenges and strategies toward effective data integration
John et al. Constructing and visualizing chemical reaction networks from pi-calculus models
JP7331551B2 (ja) 情報処理装置及び情報処理プログラム
Czauderna et al. Information visualization for biological data
Linsen et al. Visual analysis of gel-free proteome data
Mou et al. Implementing computational biology pipelines using VisFlow
Hogue Structure databases
Martins-José et al. NEQUIM Contact System (NCS): A tool for generation and analysis of protein-ligand interaction fingerprint
Santoni Peptide Hamming Graphs: A network representation of peptides presented through specific HLAs to identify potential epitope clusters
Santamaría Biological Knowledge Visualization
CN115273988A (zh) 一种交互式基因组浏览分析及可视化方法及系统
Zoubarev Tools for visual analysis of biological networks
Chaudhary Open Source Scalable Data Services and Data Fusion for Biological and Environmental Sciences (SBIR Phase I Final Scientific/Technical Report)
Cowman Compression and Version Control of Biological Networks
Zhou et al. PROTERAN: animated terrain evolution for visual analysis of patterns in protein folding trajectory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220913

Address after: new jersey

Applicant after: MERCK SHARP & DOHME B.V.

Address before: new jersey

Applicant before: MERCK SHARP & DOHME LTD.

GR01 Patent grant
GR01 Patent grant