CN115662534A - 基于图谱的化学结构确定方法、系统、存储介质及终端 - Google Patents

基于图谱的化学结构确定方法、系统、存储介质及终端 Download PDF

Info

Publication number
CN115662534A
CN115662534A CN202211600088.1A CN202211600088A CN115662534A CN 115662534 A CN115662534 A CN 115662534A CN 202211600088 A CN202211600088 A CN 202211600088A CN 115662534 A CN115662534 A CN 115662534A
Authority
CN
China
Prior art keywords
matching
spectrogram
primary
matching set
exact
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211600088.1A
Other languages
English (en)
Other versions
CN115662534B (zh
Inventor
王薇
曹雪梅
杨柳青
王中健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yaorongyun Digital Technology Chengdu Co ltd
Original Assignee
Yaorongyun Digital Technology Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yaorongyun Digital Technology Chengdu Co ltd filed Critical Yaorongyun Digital Technology Chengdu Co ltd
Priority to CN202211600088.1A priority Critical patent/CN115662534B/zh
Priority to CN202310306747.9A priority patent/CN116312845A/zh
Publication of CN115662534A publication Critical patent/CN115662534A/zh
Application granted granted Critical
Publication of CN115662534B publication Critical patent/CN115662534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于图谱的化学结构确定方法、系统、存储介质及终端,包括:构建常用特征基团对应的多种谱图区间数及谱图阈值对至数据库中;将用户输入的谱图数据与数据库中的多种谱图区间数进行一级遍历匹配和多级遍历匹配,合并所有一级确切匹配集和多级确切匹配集中的特征基团,得到确切特征基团。本发明通过多级边界匹配可以有效且精准地减少进一步查询的数据量,进而提高化学结构确定过程的效率,操作简单,不需要依赖有经验的操作人员手动操作,更加高效准确。

Description

基于图谱的化学结构确定方法、系统、存储介质及终端
技术领域
本发明涉及多种图谱鉴定化合物技术领域,尤其涉及基于图谱的化学结构确定方法、系统、存储介质及终端。
背景技术
核磁共振技术可以提供分子的化学结构和分子动力学的信息,已成为分子结构解析以及物质理化性质表征的常规技术手段,在物理、化学、生物、医药、食品等领域得到广泛应用,在化学中更是常规分析不可少的手段。经验所得,我们已经对各类型官能团在核磁共振图谱中的化学位移都有了较高程度的总结。
一直以来,利用核磁共振数据分析化合物结构都是人工完成,需要依靠个人经验和文献查阅对比数据来确定。然而这一方法效率极低,需花费大量时间在查阅文献上。
目前,对此改进的方法就是使用计算机比对内部数据库的核磁共振碳谱数据,以达到确定有机化合物结构,然而由于查询数据的离散性,这种一一对比进行匹配的方式工作量较大、效率较低、成功率较低、准确性不高,同时需要有经验的操作人员手动操作,实用性不高。
发明内容
本发明的目的在于克服现有技术中化合物结构确定存在的问题,提供了基于图谱的化学结构确定方法、系统、存储介质及终端,将用户的某种图谱数据匹配为不同的集合区间,针对不同的集合区间,采取不同的处理措施,以准确匹配出用户查询数据中的特征基团信息,最后对确切匹配的特征基团进行多种模式合成反馈。
本发明的目的是通过以下技术方案来实现的:
在第一方案中,提供一种基于多种图谱的化学结构确定方法,所述方法包括:
构建常用特征基团对应的多种谱图区间数及谱图阈值对至数据库中;
将用户输入的谱图数据与数据库中的多种谱图区间数进行一级遍历匹配,得到一级候选匹配集;
将所述一级候选匹配集划分为一级确切匹配集、一级边界匹配集以及一级无关匹配集,其中,若谱图数据中某个数值匹配到唯一一个谱图区间数,则将相应的特征基团存放至一级确切匹配集中;若谱图数据中某个数值匹配到多个谱图区间数,则将相应的特征基团存放至一级边界匹配集中;若谱图数据中某个数值无法匹配到谱图区间数,则将该数值存放至一级无关匹配集中;
迭代添加另外的谱图数据,对所述一级边界匹配集中的特征基团进行多级遍历匹配直至多级遍历匹配为空,得到多级候选匹配集,同理将所述多级候选匹配集划分为多级确切匹配集、多级边界匹配集以及多级无关匹配集;
合并所有一级确切匹配集和多级确切匹配集中的特征基团,得到确切特征基团;
根据所述确切特征基团确定化学结构。
在一个示例中,一种基于多种图谱的化学结构确定方法,所述一级遍历匹配包括:
将谱图数据中每个数值与谱图区间数一一匹配,每个数值在匹配时,加上谱图阈值对,形成区间得到区间的匹配。
在一个示例中,一种基于多种图谱的化学结构确定方法,将一级无关匹配集和多级无关匹配集中对应的数值删除。
在一个示例中,一种基于多种图谱的化学结构确定方法,所述根据所述确切特征基团确定化学结构,包括:
使用多种模式联合确定化学结构,其中,所述多种模式包括相似度计算以及人工智能预测。
在一个示例中,一种基于多种图谱的化学结构确定方法,所述相似度计算,包括:
将所述确切特征基团与数据库中的化合物进行相似度计算,并根据相似度由大到小反馈。
在一个示例中,一种基于多种图谱的化学结构确定方法,所述人工智能预测,包括:
利用神经网络模型对确切特征基团的简化分子线性输入规范进行端到端的合成预测。
在一个示例中,一种基于多种图谱的化学结构确定方法,所述多种谱图包括碳谱、氢谱、红外谱以及氟谱。
在第二方案中,提供一种基于多种图谱的化学结构确定系统,所述系统包括:
特征基团数据库,用于构建常用特征基团对应的多种谱图区间数及谱图阈值对;
一级遍历匹配模块,用于将用户输入的谱图数据与数据库中的多种谱图区间数进行一级遍历匹配,得到一级候选匹配集;
将所述一级候选匹配集划分为一级确切匹配集、一级边界匹配集以及一级无关匹配集,其中,若谱图数据中某个数值匹配到唯一一个谱图区间数,则将相应的特征基团存放至一级确切匹配集中;若谱图数据中某个数值匹配到多个谱图区间数,则将相应的特征基团存放至一级边界匹配集中;若谱图数据中某个数值无法匹配到谱图区间数,则将该数值存放至一级无关匹配集中;
多级遍历匹配模块,用于迭代添加另外的谱图数据,对所述一级边界匹配集中的特征基团进行多级遍历匹配直至多级遍历匹配为空,得到多级候选匹配集,同理将所述多级候选匹配集划分为多级确切匹配集、多级边界匹配集以及多级无关匹配集;
特征基团合并模块,用于合并所有一级确切匹配集和多级确切匹配集中的特征基团,得到确切特征基团;
化学结构预测模块,用于根据所述确切特征基团确定化学结构。
在第三方案中,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行任意一项所述化学结构确定方法的步骤。
在第四方案中,提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行任意一项所述化学结构确定方法的步骤。
需要进一步说明的是,上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。
与现有技术相比,本发明有益效果是:
(1)本发明通过多级遍历匹配可以有效且精准地减少进一步查询的数据量,进而提高化学结构确定过程的效率,通过在局部视角下迭代的方式,对候选匹配集精准划分,并针对不同的匹配集,采取不同的处理措施,以准确匹配出用户查询数据中的特征基团信息,最终高效匹配出特征基团,本发明操作简单,不需要依赖有经验的操作人员手动操作,相较于人工确定化学结构,本发明更加高效准确。
(2)在一个示例中,将一级无关匹配集和多级无关匹配集中对应的数值删除,可以有效避免噪声数据的干扰,提高鉴别准确率。
(3)在一个示例中,将谱图数据中每个数值与谱图区间数一一匹配,每个数值在匹配时,加上谱图阈值对,形成区间得到区间的匹配,保证用户输入数据有一定的容错性。
(4)在一个示例中,使用多种模式联合确定化学结构,进一步保证化合物结构的准确性。
附图说明
图1为本发明实施例示出的一种基于多种图谱的化学结构确定方法的流程图;
图2为本发明实施例示出的寻找确切特征基团的示意图;
图3为本发明实施例示出的迭代边界匹配的示意图;
图4为本发明实施例示出的使用多种模式联合确定化学结构的示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,属于“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明根据多种图谱信息确定查询化合物化学结构,根据大量已有数据构建特征基团多种图谱的区间数和图谱对应的阈值对;先根据用户输入的查询质谱数据进行特征基团的遍历;遍历后依据图谱阈值对生成候选匹配集,进一步将候选匹配集划分为确切匹配、边界匹配以及无关匹配,并针对这三个匹配集合采取不同的处理措施。其中无关匹配能有效地排除噪声数据或者异常数据的干扰;而边界匹配可以有效且精准地减少进一步查询的数据量,进而提高化学结构确定过程的效率;最后将每一个图谱中确切匹配作为化合物确定出现的官能团,最后一步图谱中的边界匹配作为可能出现的官能团,并通过相似度计算和人工智能预测反馈出最终的查询结果。本发明通过在局部视角下迭代的方式,对候选匹配集精准划分,最终高效匹配出特征基团,并采用多种模式联合确定化学结构。本发明操作简单,不需要依赖有经验的操作人员手动操作。相较于人工确定化学结构,本发明更加高效准确。
下面简单介绍一下本申请实施例可能用到的技术以及名词。
质谱:(质谱法)是一种与光谱并列的谱学方法,通常意义上是指广泛应用于各个学科领域中通过制备、分离、检测气相离子来鉴定化合物的一种专门技术。利用分子离峰可以准确测定相对分子质量。
简化分子线性输入规范(SMILES):一种用短的ASCII自串描述化学物质结构的线性描述规范,大多数分子式编辑器都可以导入SMILES并将其转化为二维的结构式或者三维的分子模型。
在一示例性实施例中,参见图1,提供一种基于多种图谱的化学结构确定方法,所述方法包括:
构建常用特征基团对应的多种谱图区间数及谱图阈值对至数据库中;
将用户输入的谱图数据与数据库中的多种谱图区间数进行一级遍历匹配,得到一级候选匹配集;
将所述一级候选匹配集划分为一级确切匹配集、一级边界匹配集以及一级无关匹配集,其中,若谱图数据中某个数值匹配到唯一一个谱图区间数,则将相应的特征基团存放至一级确切匹配集中;若谱图数据中某个数值匹配到多个谱图区间数,则将相应的特征基团存放至一级边界匹配集中;若谱图数据中某个数值无法匹配到谱图区间数,则将该数值存放至一级无关匹配集中;
迭代添加另外的谱图数据,对所述一级边界匹配集中的特征基团进行多级遍历匹配,直至多级遍历匹配为空,得到多级候选匹配集,同理将所述多级候选匹配集划分为多级确切匹配集、多级边界匹配集以及多级无关匹配集;其中,并不限定多级遍历匹配的次数,直至将边界匹配集中匹配的特征基团为空才停止。
合并所有一级确切匹配集和多级确切匹配集中的特征基团,得到确切特征基团;
根据所述确切特征基团确定化学结构。
具体地,参见图2,根据已有数据构建常用特征基团的碳谱、氢谱、红外谱以及氟谱等多种图谱对应谱图区间数及谱图阈值对至数据库中,根据用户输入的质谱数据,确定分子质量。
然后读取用户输入的其中一种谱图数据,确定该谱图的谱图阈值对(
Figure 487957DEST_PATH_IMAGE001
),根据该谱图数据和谱图阈值对,依次遍历数据库中对应的特征基团谱图区间数,生成一级候选匹配集,将一级候选匹配集划分为三个不同集合,即确切匹配,边界匹配以及无关匹配。针对边界匹配,根据其中匹配的特征基团以及用户输入的其他一种谱图区间数,迭代上述遍历过程,直到边界匹配为空为止。针对无关匹配,对其进行删除操作,排除噪声数据的干扰。针对确切匹配,合并每级匹配过程中的所有确切匹配的特征基团。
最后,根据确切匹配中的特征基团确定化学结构,即时地反馈给用户。
在一个示例中,一种基于多种图谱的化学结构确定方法,所述一级遍历匹配包括:
将谱图数据中每个数值与谱图区间数一一匹配,每个数值在匹配时,加上谱图阈值对,形成区间得到区间的匹配。
具体地,根据已有数据依据经验构建特征基团不同谱图的区间数和阈值对,现例举15种常用官能团核磁共振碳谱位移区间(溶剂:CDCl3),如表1所示:表1. 15种常见特征基团多种谱图区间数
序号 官能团 <sup>13</sup>C位移 (ppm) <sup>1</sup>H位移 (ppm)
1 甲基 [10, 25] [0.8, 2.5]
2 烯烃 [100, 165] [5, 7]
3 炔烃 [67, 85] [2, 3]
4 环烷烃 [30, 45] [1, 5]
5 酰氯 [160, 175]
6 酮羰基 [195, 220]
7 醛羰基 [180, 190] [9, 10]
8 羧基 [160, 180] [10.5, 13]
9 酯基 [165, 185]
10 苯环 [120, 160] [6.5, 8]
11 苯酚 [153, 158] [4, 12]
12 苯胺 [140, 145] [9, 10]
13 硝基苯 [145, 152]
14 亚甲基 [25, 40] [1.2, 2.4]
15 甲氧基 [50, 70] [3, 3.5]
针对不同谱图确定不同的阈值对,详情见表2:
表2. 不同谱图对应的阈值对
NMR 阈值对
Figure 139518DEST_PATH_IMAGE002
NMR-<sup>13</sup>C
Figure DEST_PATH_IMAGE003
NMR-<sup>1</sup>H (-0.5, +0.5)
用户输入的谱图数据是一个不等长度数值数组,如:
碳谱: [203.5, 142.5, 133.4, 130.6, 128.5, 128.3, 127.2, 22.6]
氢谱: [7.57-7.49 (m, 3H), 7.42-7.38 (m, 3H), 6.72 (d, 1H), 1.93 (s,3H)]
质谱: 147 [M+H+]。
首先根据用户输入质谱的分子离子峰,确定分子质量。上述数据能确定该化合物的分子质量为146。
针对用户输入的碳谱、氢谱等谱图数据,本实施例先根据碳谱的区间数并结合其对应的阈值对(-5, +5),将数组中的每个数值和构建的特征基团区间数进行一一匹配,值得注意的是,每个数值在匹配时,需加上阈值对,形成区间得到区间的匹配。这能保证用户输入数据有一定的容错性。若该数值匹配到唯一一个特征基团区间数,则将该特征基团存放至确切匹配集中,该集合中能够确定官能团类型及个数;若该数值匹配到多个特征基团区间数,则表示仅凭借碳谱一种图谱无法准确判断特征基团,此时将这类数值匹配到的所有特征基团存放至边界匹配中,后续将对其进行多级遍历匹配或多级遍历匹配进一步区分,该集合中数据只能确定官能团种类并作为后续区分的限定;若该数值无法匹配到任何特征基团,则认为该数值是无效查询数值,可能是用户输入的错误数据,则将其存放至将一级无关匹配集和多级无关匹配集中,并将对应的数值删除以避免错误信息干扰。
参见图3,匹配的具体流程如下:
如上述碳谱数据,203.5所属区间[195,220]对应唯一官能团为酮羰基;22.6所属区间[10,25]对应唯一官能团为甲基;133.4,130.6,128.5,128.3,127.2所属区间[100,165], [120,160]对应多种官能团为烯烃、苯环;142.5所属区间[140,145],[100,165],[120,160]对应多种官能团为苯胺、烯烃、苯环。因此,根据碳谱数据匹配出确切匹配集合为[酮羰基,甲基],边界匹配集合为[烯烃,苯环,苯胺,烯烃,苯环]。由确切匹配可准确的得出该组碳谱数据包含所查化合物的1个酮羰基和1个甲基。
针对上述中的边界匹配,将根据额外一种谱图来进一步区分,假设这里采用氢谱。此时将边界匹配中的特征基团与用户输入的氢谱数据在阈值对上进行一一匹配。值得注意的是,这里并不是将用户输入的氢谱数据和数据库中所有的特征基团进行匹配,而是和上一步边界匹配中的所有特征基团进行匹配,再次根据阈值对划分匹配结果。若此时的边界匹配不为空,则继续添加其他谱图数据(如红外、氟谱等)进行同样匹配操作,直至边界匹配为空为止。
以上述边界匹配为例,首先确定上述边界匹配中的特征基团对应氢谱区间数,即如表1中所示。然后根据这些特征基团的氢谱区间数和其对应的阈值对(-0.5,+0.5) ,根据用户输入的氢谱数据进行匹配划分,即若用户输入的氢谱数据落在了边界匹配中特征基团的区间数中,则表示该特征基团为确切匹配,若没有落在任何特征基团的区间数中,则为无效匹配,若落在了多个特征基团中,则为边界匹配。其中边界匹配中的苯环氢谱区间数为[6.5,8],则落在该区间数的用户输入氢谱数据有7.57-7.49,7.42-7.38,6.72。其中7.57-7.49,7.42-7.38唯一落在苯环区间数中,则将苯环划分为确切匹配。针对数据6.72,其同时落在了苯环、烯烃区间数中,则将这两个特征基团划分到边界匹配中,其他未匹配到的特征基团,则划分到无关匹配中。因为氢谱为该用户输入的最后一个图谱,该系统到此结束,所以边界匹配中的烯烃基团被认为是可能存在于化合物中的官能团。
针对边界匹配,再添加其他的谱图数据,直到最后一个图谱,整个特征基团匹配过程结束并将边界匹配划分为可能存在的官能团,同时合并每步中的确切匹配特征基团。
通过这几步后,能得到信息是:该化合物分子质量为146,确切特征的官能团包括苯环,甲基,酮羰基,可能包含的官能团为烯烃。
在一个示例中,一种基于多种图谱的化学结构确定方法,所述根据所述确切特征基团确定化学结构,包括:
使用多种模式联合确定化学结构,其中,所述多种模式包括相似度计算以及人工智能预测,具体来讲,分别根据特征基团进行相似度计算和人工智能预测,以相似度计算反馈结果为主,以人工智能预测反馈结果为辅,分别给用户提供最后的化学结构。
在一个示例中,一种基于多种图谱的化学结构确定方法,所述相似度计算,包括:
参见图4,将所述确切特征基团与数据库中的化合物进行相似度计算,并根据相似度由大到小反馈。具体地,将所有常用官能团转化为分子线性输入规范(SMILES),并对数据库中所有化合物进行官能团子结构的计算,统计出每个化合物包含的官能团及个数。根据最终得到的确切特征的官能团,检索出包含确切匹配基团及可能包含的边界匹配基团并且分子量为146的所有化合物。
在一个示例中,一种基于多种图谱的化学结构确定方法,所述人工智能预测,包括:
利用神经网络模型对确切特征基团的简化分子线性输入规范进行端到端的合成预测。具体地,人工智能方法采用系统中训练好的正向合成预测模块,其具体实现方式为利用神经网络模型(如Transformer模型、经典Seq2Seq模型等)对特征基团的简化分子线性输入规范(SMILES)进行端到端的机器翻译训练,即SMILES-SMILES序列的翻译训练。模型会根据已有的数据进行训练,其中所有特征基团作为模型的源数据,对应的化合物作为模型的目标数据。再经过多轮次的训练后,集成训练好的模型至系统中,用作合成预测。其中,Transformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型,其整体结构由Encoder和Decoder两个部分组成,Encoder和Decoder都包含 6 个block。Transformer 的工作流程大体如下:
第一步:获取输入句子的每一个单词的表示向量 X,X由单词的 Embedding(Embedding就是从原始数据提取出来的Feature)和单词位置的 Embedding相加得到。
第二步:将得到的单词表示向量矩阵 (每一行是一个单词的表示向量 X) 传入Encoder中,经过6个Encoder block后可以得到句子所有单词的编码信息矩阵 C。单词向量矩阵用 Xn×d 表示, n 是句子中单词个数,d 是表示向量的维度。每一个Encoder block输出的矩阵维度与输入完全一致。
第三步:将 Encoder 输出的编码信息矩阵 C传递到Decoder中,Decoder依次会根据当前翻译过的单词 1-i 翻译下一个单词 i+1,在使用的过程中,翻译到单词 i+1 的时候需要通过 Mask (掩盖) 操作遮盖住 i+1 之后的单词。
Transformer 中除了单词的 Embedding,还需要使用位置 Embedding 表示单词出现在句子中的位置。因为 Transformer不采用循环神经网络RNN的结构,而是使用全局信息,不能利用单词的顺序信息,而这部分信息对于自然语言处理NLP来说非常重要。所以Transformer中使用位置Embedding 保存单词在序列中的相对或绝对位置。
经典Seq2Seq模型属于encoder-decoder结构的一种,这里看看常见的encoder-decoder结构,基本思想就是利用两个RNN,一个RNN作为encoder,另一个RNN作为decoder。encoder负责将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,这个过程称为编码,获取语义向量最简单的方式就是直接将最后一个输入的隐状态作为语义向量C。也可以对最后一个隐含状态做一个变换得到语义向量,还可以将输入序列的所有隐含状态做一个变换得到语义变量。
进一步地,使用多种模式联合确定化学结构,进一步保证化合物结构的准确性。
在第二方案中,提供一种基于多种图谱的化学结构确定系统,所述系统包括:
特征基团数据库,用于构建常用特征基团对应的多种谱图区间数及谱图阈值对;
一级遍历匹配模块,用于将用户输入的谱图数据与数据库中的多种谱图区间数进行一级遍历匹配,得到一级候选匹配集;
将所述一级候选匹配集划分为一级确切匹配集、一级边界匹配集以及一级无关匹配集,其中,若谱图数据中某个数值匹配到唯一一个谱图区间数,则将相应的特征基团存放至一级确切匹配集中;若谱图数据中某个数值匹配到多个谱图区间数,则将相应的特征基团存放至一级边界匹配集中;若谱图数据中某个数值无法匹配到谱图区间数,则将该数值存放至一级无关匹配集中;
多级遍历匹配模块,用于迭代添加另外的谱图数据,对所述一级边界匹配集中的特征基团进行多级遍历匹配直至多级遍历匹配为空,得到多级候选匹配集,同理将所述多级候选匹配集划分为多级确切匹配集、多级边界匹配集以及多级无关匹配集;
特征基团合并模块,用于合并所有一级确切匹配集和多级确切匹配集中的特征基团,得到确切特征基团;
化学结构预测模块,用于根据所述确切特征基团确定化学结构。
具体地,特征基团数据库根据已有数据构建常用特征基团的碳谱、氢谱、红外谱以及氟谱等多种图谱对应谱图区间数及谱图阈值对至数据库中,并根据用户输入的质谱数据,确定分子质量。
多级遍历匹配模块读取用户输入的其中一种谱图数据,确定该谱图的谱图阈值对(
Figure 607671DEST_PATH_IMAGE001
),根据该谱图数据和谱图阈值对,依次遍历数据库中对应的特征基团谱图区间数,生成一级候选匹配集,将一级候选匹配集划分为三个不同集合,即确切匹配,边界匹配以及无关匹配。针对边界匹配,根据其中匹配的特征基团以及用户输入的其他一种谱图区间数,迭代上述遍历过程,直到边界匹配为空为止。针对无关匹配,对其进行删除操作,排除噪声数据的干扰。针对确切匹配,合并每级匹配过程中的所有确切匹配的特征基团。
最后,特征基团合并模块合并所有一级确切匹配集和多级确切匹配集中的特征基团,得到确切特征基团,同时通过化学结构预测模块,根据所述确切特征基团确定化学结构,并即时地反馈给用户。
在另一示例性实施例中,本发明提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述化学结构确定方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在另一示例性实施例中,本发明提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行所述化学结构确定方法的步骤。
处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的处理器包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于多种图谱的化学结构确定方法,其特征在于,所述方法包括:
构建常用特征基团对应的多种谱图区间数及谱图阈值对至数据库中;
将用户输入的谱图数据与数据库中的多种谱图区间数进行一级遍历匹配,得到一级候选匹配集;
将所述一级候选匹配集划分为一级确切匹配集、一级边界匹配集以及一级无关匹配集,其中,若谱图数据中某个数值匹配到唯一一个谱图区间数,则将相应的特征基团存放至一级确切匹配集中;若谱图数据中某个数值匹配到多个谱图区间数,则将相应的特征基团存放至一级边界匹配集中;若谱图数据中某个数值无法匹配到谱图区间数,则将该数值存放至一级无关匹配集中;
迭代添加另外的谱图数据,对所述一级边界匹配集中的特征基团进行多级遍历匹配直至多级遍历匹配为空,得到多级候选匹配集,同理将所述多级候选匹配集划分为多级确切匹配集、多级边界匹配集以及多级无关匹配集;
合并所有一级确切匹配集和多级确切匹配集中的特征基团,得到确切特征基团;
根据所述确切特征基团确定化学结构。
2.根据权利要求1所述的一种基于多种图谱的化学结构确定方法,其特征在于,所述一级遍历匹配包括:
将谱图数据中每个数值与谱图区间数一一匹配,每个数值在匹配时,加上谱图阈值对,形成区间得到区间的匹配。
3.根据权利要求1所述的一种基于多种图谱的化学结构确定方法,其特征在于,将一级无关匹配集和多级无关匹配集中对应的数值删除。
4.根据权利要求1所述的一种基于多种图谱的化学结构确定方法,其特征在于,所述根据所述确切特征基团确定化学结构,包括:
使用多种模式联合确定化学结构,其中,所述多种模式包括相似度计算以及人工智能预测。
5.根据权利要求4所述的一种基于多种图谱的化学结构确定方法,其特征在于,所述相似度计算,包括:
将所述确切特征基团与数据库中的化合物进行相似度计算,并根据相似度由大到小反馈。
6.根据权利要求4所述的一种基于多种图谱的化学结构确定方法,其特征在于,所述人工智能预测,包括:
利用神经网络模型对确切特征基团的简化分子线性输入规范进行端到端的合成预测。
7.根据权利要求1所述的一种基于多种图谱的化学结构确定方法,其特征在于,所述多种谱图包括碳谱、氢谱、红外谱以及氟谱。
8.一种基于多种图谱的化学结构确定系统,其特征在于,所述系统包括:
特征基团数据库,用于构建常用特征基团对应的多种谱图区间数及谱图阈值对;
一级遍历匹配模块,用于将用户输入的谱图数据与数据库中的多种谱图区间数进行一级遍历匹配,得到一级候选匹配集;
将所述一级候选匹配集划分为一级确切匹配集、一级边界匹配集以及一级无关匹配集,其中,若谱图数据中某个数值匹配到唯一一个谱图区间数,则将相应的特征基团存放至一级确切匹配集中;若谱图数据中某个数值匹配到多个谱图区间数,则将相应的特征基团存放至一级边界匹配集中;若谱图数据中某个数值无法匹配到谱图区间数,则将该数值存放至一级无关匹配集中;
多级遍历匹配模块,用于迭代添加另外的谱图数据,对所述一级边界匹配集中的特征基团进行多级遍历匹配直至多级遍历匹配为空,得到多级候选匹配集,同理将所述多级候选匹配集划分为多级确切匹配集、多级边界匹配集以及多级无关匹配集;
特征基团合并模块,用于合并所有一级确切匹配集和多级确切匹配集中的特征基团,得到确切特征基团;
化学结构预测模块,用于根据所述确切特征基团确定化学结构。
9.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1-7中任意一项所述化学结构确定方法的步骤。
10.一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,其特征在于,处理器运行计算机指令时执行权利要求1-7中任意一项所述化学结构确定方法的步骤。
CN202211600088.1A 2022-12-14 2022-12-14 基于图谱的化学结构确定方法、系统、存储介质及终端 Active CN115662534B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211600088.1A CN115662534B (zh) 2022-12-14 2022-12-14 基于图谱的化学结构确定方法、系统、存储介质及终端
CN202310306747.9A CN116312845A (zh) 2022-12-14 2022-12-14 基于特征基团的化学结构预测方法、系统、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211600088.1A CN115662534B (zh) 2022-12-14 2022-12-14 基于图谱的化学结构确定方法、系统、存储介质及终端

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310306747.9A Division CN116312845A (zh) 2022-12-14 2022-12-14 基于特征基团的化学结构预测方法、系统、存储介质及终端

Publications (2)

Publication Number Publication Date
CN115662534A true CN115662534A (zh) 2023-01-31
CN115662534B CN115662534B (zh) 2023-04-21

Family

ID=85022342

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310306747.9A Withdrawn CN116312845A (zh) 2022-12-14 2022-12-14 基于特征基团的化学结构预测方法、系统、存储介质及终端
CN202211600088.1A Active CN115662534B (zh) 2022-12-14 2022-12-14 基于图谱的化学结构确定方法、系统、存储介质及终端

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202310306747.9A Withdrawn CN116312845A (zh) 2022-12-14 2022-12-14 基于特征基团的化学结构预测方法、系统、存储介质及终端

Country Status (1)

Country Link
CN (2) CN116312845A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304259A (zh) * 2023-05-24 2023-06-23 药融云数字科技(成都)有限公司 谱图数据的匹配检索方法、系统、电子设备和存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106018535A (zh) * 2016-05-11 2016-10-12 中国科学院计算技术研究所 一种完整糖肽鉴定的方法与系统
US20180011899A1 (en) * 2016-07-05 2018-01-11 Zymergen, Inc. Complex chemical substructure search query building and execution
CN107577756A (zh) * 2017-08-31 2018-01-12 南通大学 一种基于多层迭代的改进递归数据流匹配方法
US20180285399A1 (en) * 2017-04-03 2018-10-04 American Chemical Society Systems and methods for query and index optimization for retrieving data in instances of a formulation data structure from a database
CN108918427A (zh) * 2018-06-06 2018-11-30 北京云端光科技术有限公司 物质检测的方法、装置、存储介质及电子设备
CN110442710A (zh) * 2019-07-03 2019-11-12 广州探迹科技有限公司 一种基于知识图谱的短文本语义理解与精准匹配方法及装置
CN112965998A (zh) * 2021-02-04 2021-06-15 成都健数科技有限公司 一种化合物数据库建立及检索方法及系统
US20210210317A1 (en) * 2018-06-01 2021-07-08 HighChem s.r.o. Identification of chemical structures
US20210287765A1 (en) * 2020-03-13 2021-09-16 Collaborative Drug Discovery, Inc. Systems and methods for generating and searching a chemical compound database
CN113590645A (zh) * 2021-06-30 2021-11-02 北京百度网讯科技有限公司 搜索方法、装置、电子设备及存储介质
CN113933373A (zh) * 2021-12-16 2022-01-14 成都健数科技有限公司 一种利用质谱数据确定有机物结构的方法和系统
CN113990519A (zh) * 2021-10-19 2022-01-28 药融云数字科技(成都)有限公司 一种pbpk-ro模型预测塞尔帕替尼联合用药后体内pk/pd变化的方法
CN114429801A (zh) * 2022-01-26 2022-05-03 北京百度网讯科技有限公司 数据处理方法、训练方法、识别方法、装置、设备及介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106018535A (zh) * 2016-05-11 2016-10-12 中国科学院计算技术研究所 一种完整糖肽鉴定的方法与系统
US20180011899A1 (en) * 2016-07-05 2018-01-11 Zymergen, Inc. Complex chemical substructure search query building and execution
US20180285399A1 (en) * 2017-04-03 2018-10-04 American Chemical Society Systems and methods for query and index optimization for retrieving data in instances of a formulation data structure from a database
CN107577756A (zh) * 2017-08-31 2018-01-12 南通大学 一种基于多层迭代的改进递归数据流匹配方法
US20210210317A1 (en) * 2018-06-01 2021-07-08 HighChem s.r.o. Identification of chemical structures
CN108918427A (zh) * 2018-06-06 2018-11-30 北京云端光科技术有限公司 物质检测的方法、装置、存储介质及电子设备
CN110442710A (zh) * 2019-07-03 2019-11-12 广州探迹科技有限公司 一种基于知识图谱的短文本语义理解与精准匹配方法及装置
US20210287765A1 (en) * 2020-03-13 2021-09-16 Collaborative Drug Discovery, Inc. Systems and methods for generating and searching a chemical compound database
CN112965998A (zh) * 2021-02-04 2021-06-15 成都健数科技有限公司 一种化合物数据库建立及检索方法及系统
CN113590645A (zh) * 2021-06-30 2021-11-02 北京百度网讯科技有限公司 搜索方法、装置、电子设备及存储介质
CN113990519A (zh) * 2021-10-19 2022-01-28 药融云数字科技(成都)有限公司 一种pbpk-ro模型预测塞尔帕替尼联合用药后体内pk/pd变化的方法
CN113933373A (zh) * 2021-12-16 2022-01-14 成都健数科技有限公司 一种利用质谱数据确定有机物结构的方法和系统
CN114429801A (zh) * 2022-01-26 2022-05-03 北京百度网讯科技有限公司 数据处理方法、训练方法、识别方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RAZAVA F,ET AL: "A probabilistic atlas of the pineal gland in the standard space" *
李鱼强: "近红外光谱数据分析与特征建模方法研究" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304259A (zh) * 2023-05-24 2023-06-23 药融云数字科技(成都)有限公司 谱图数据的匹配检索方法、系统、电子设备和存储介质

Also Published As

Publication number Publication date
CN116312845A (zh) 2023-06-23
CN115662534B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
Rizk et al. GASSST: global alignment short sequence search tool
CN105809473B (zh) 匹配模型参数的训练方法、服务推荐方法及对应装置
CN106096024A (zh) 地址相似度的评估方法和评估装置
CN103631929A (zh) 一种用于搜索的智能提示的方法、模块和系统
Ding et al. A Hybrid Feature Selection Algorithm Based on Information Gain and Sequential Forward Floating Search①
CN106484777A (zh) 一种多媒体数据处理方法以及装置
CN115662534A (zh) 基于图谱的化学结构确定方法、系统、存储介质及终端
CN111813923A (zh) 文本摘要方法、电子设备及存储介质
CN114913938B (zh) 一种基于药效团模型的小分子生成方法、设备及介质
Bi et al. MM-GNN: Mix-moment graph neural network towards modeling neighborhood feature distribution
US20220208540A1 (en) System for Identifying Structures of Molecular Compounds from Mass Spectrometry Data
Uddin et al. A fast and efficient algorithm for DNA sequence similarity identification
Ofitserov et al. Soft edit distance for differentiable comparison of symbolic sequences
Yu et al. DNA AS X: An information-coding-based model to improve the sensitivity in comparative gene analysis
CA3056303A1 (en) Systems and methods for determining effects of genetic variation on splice site selection
CN115881211B (zh) 蛋白质序列比对方法、装置、计算机设备以及存储介质
CN116705192A (zh) 基于深度学习的药物虚拟筛选方法及装置
Jiang et al. TLSurv: Integrating multi-omics data by multi-stage transfer learning for cancer survival prediction
CN104462817A (zh) 基于蒙特卡洛和非负矩阵因子分解的基因选择和癌症分类方法
Zhu et al. Boosting Based Ontology Sparse Vector Computation Approach.
CN113257341A (zh) 一种基于深度残差网络的蛋白质残基间距离分布预测方法
CN112151119A (zh) 基因向量模型训练方法、分析基因数据的方法及各自装置
Ngo et al. Target-aware variational auto-encoders for ligand generation with multimodal protein representation learning
US11334629B2 (en) Search system for chemical compound having biological activity
CN112951337A (zh) 一种分子指纹生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant