CN112689877A - 化合物的合成适用性的评价方法、化合物的合成适用性的评价程序及化合物的合成适用性的评价装置 - Google Patents

化合物的合成适用性的评价方法、化合物的合成适用性的评价程序及化合物的合成适用性的评价装置 Download PDF

Info

Publication number
CN112689877A
CN112689877A CN201980059938.1A CN201980059938A CN112689877A CN 112689877 A CN112689877 A CN 112689877A CN 201980059938 A CN201980059938 A CN 201980059938A CN 112689877 A CN112689877 A CN 112689877A
Authority
CN
China
Prior art keywords
compound
synthesis
atomic arrangement
evaluating
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980059938.1A
Other languages
English (en)
Inventor
中林淳
寺田大介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of CN112689877A publication Critical patent/CN112689877A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种评价在计算机上生成和/或改变的化合物的合成适用性的化合物的合成适用性的评价方法、化合物的合成适用性的评价程序及化合物的合成适用性的评价装置。一种化合物的合成适用性的评价方法及执行程序、装置,所述化合物的合成适用性的评价方法具有如下工序:选择容纳有多个基准化合物的化合物数据库的工序;决定作为评价对象的化合物的结构的工序;从容纳于化合物数据库中的基准化合物的结构中提取基准原子排列并求出基准原子排列的基准出现频度的工序;从化合物的结构中提取原子排列并求出原子排列的出现频度的工序;及根据化合物的原子排列中所包含的键条数及与原子排列相对应的基准原子排列的出现频度来评价合成适用性的工序。

Description

化合物的合成适用性的评价方法、化合物的合成适用性的评 价程序及化合物的合成适用性的评价装置
技术领域
本发明涉及一种化合物的合成适用性的评价方法、化合物的合成适用性的评价程序及化合物的合成适用性的评价装置,尤其涉及一种在计算机上生成或改变的化合物的合成适用性的评价方法、化合物的合成适用性的评价程序及化合物的合成适用性的评价装置。
背景技术
以往,具有所期望的物理特性值的化合物的结构的搜索主要是通过给出分子结构,求出作为结果的物理特性值来进行的,但是随着近年来信息学的发展,给出物理特性值,求出具有该物理特性值的分子结构的研究正在迅速发展中。关于根据物理特性值搜索分子结构的方法,例如已知有非专利文献1。在非专利文献1中记载有如下:给出物理特性值的目标,(1)生成多个初始结构(化学结构),(2)使各结构随机地发生变化,(3)估计各结构的物理特性值,(4)以物理特性值与目标值的距离为基准采用或拒绝结构的变化,来求出具有接近目标的物理特性值的结构。在该过程中,重复进行(2)至(4)的处理。如此,为了根据物理特性值搜索分子结构,需要一种进行(1)至(4)的技术。
在进行上述(1)至(4)时,如果在(4)中求出的化学结构都难以合成,则没有意义,因此要求一种能够评价化合物的合成适用性的技术。作为这种评价方法,已知有计算SAscore(SyntheticAccessibilityscore:合成难度得分)的技术(参考非专利文献2)。SAscore取1至10的实数值,并且值越小,视为越容易合成。
以往技术文献
非专利文献
非专利文献1:“Bayesianmoleculardesignwithachemicallanguage”、HisakiIkebata等、[2018年7月23日搜索]、互联网(https://www.ncbi.nlm.nih.gov/pubmed/28281211)
非专利文献2:“EstimationofsyntheticAccessibilityscoreofdrug-likemoleculesbasedonmolecularcomplexityandfragmentcontributions”、PeterErtlandAnsgarSchuffenhauer,JournalofCheminfomatics2009,1;8[2018年7月23日搜索]、互联网(https://jcheminf.springeropen.com/articles/10.1186/1758-2946-1-8)
发明内容
发明要解决的技术课题
在非专利文献2中所记载的SAscore通过如下处理而作为得分:提取化合物中的原子排列,以基于ECFC_4#片段的定义进行片段化,将数据库中的各片段的出现频度的对数作为该片段的贡献度而计算各片段的贡献度之和。然而,在非专利文献2中,考虑比较大的的片段或具有复杂的支链结构的片段,因此所提取的片段的一半成为在数据库中仅出现一次的片段。在数据库仅出现一次,表示是特定的分子固有的片段,该结果暗示着,若基于ECFC_4#片段,则容易产生这种分子固有的片段。
所提取的片段越大,或者越是具有复杂的支链结构,则在数据库中的出现频度变得越少。换言之,片段中所包含的键的条数越多,则在数据库中的出现频度变得越少。然而,有时即使是这种分子排列也不一定难以合成,有时无法适当地评价得分和合成适用性。
如此,在使用以往的化合物数据库的合成适用性的评价中,未能充分评价化合物的合成适用性。
本发明是鉴于这种情况而完成的,其目的在于提供一种为了有效率地搜索化合物的结构而评价在计算机上生成和/或改变的化合物的合成适用性的化合物的合成适用性的评价方法、化合物的合成适用性的评价程序及化合物的合成适用性的评价装置。
用于解决技术课题的手段
为了实现本发明的目的,本发明所涉及的化合物的合成适用性的评价方法具有如下工序:选择容纳有成为合成适用性的评价基准的多个基准化合物的化合物数据库的工序;决定作为合成适用性的评价对象的化合物的结构的工序;从容纳于化合物数据库中的基准化合物的结构中提取基准原子排列并求出基准原子排列的基准出现频度的工序;从化合物的结构中提取原子排列并求出原子排列的出现频度的工序;及根据化合物的原子排列中所包含的键条数及与原子排列相对应的基准原子排列的出现频度来评价合成适用性的工序。
为了实现本发明的目的,本发明所涉及的化合物的合成适用性的评价程序使计算机执行上述所记载的化合物的合成适用性的评价方法。
为了实现本发明的目的,本发明所涉及的化合物的合成适用性的评价装置具有:数据库选择部,选择容纳有成为合成适用性的评价基准的多个基准化合物的化合物数据库;结构获取部,获取作为合成适用性的评价对象的化合物的结构;第1提取部,从容纳于化合物数据库中的基准化合物的结构中提取基准原子排列并求出基准原子排列的基准出现频度;第2提取部,从化合物的结构中提取原子排列并求出原子排列的出现频度;计算部,根据化合物的原子排列中所包含的键条数及与原子排列相对应的基准原子排列的出现频度,使用原子排列中所包含的键条数及出现频度越大则数值越小的函数,将原子排列在基准化合物中出现的频度作为部分得分而进行计算,并且将部分得分进行合计来计算合计得分;及评价部,根据合计得分来评价合成适用性。
发明效果
根据本发明的化合物的合成适用性的评价方法,求出从作为评价对象的化合物中提取的原子排列在化合物数据库中的出现频度,并根据原子排列中所包含的键条数及出现频度来进行合成适用性的评价。通过考虑原子排列中所包含的键条数来进行合成适用性的评价,能够适当地评价由于评价键条数变多而出现频度变小从而被评价为合成适用性低的化合物的合成适用性。
附图说明
图1是表示化合物的合成适用性的评价装置的结构的框图。
图2是表示处理部的结构的图。
图3是表示存储于存储部中的信息的图。
图4是表示化合物的合成适用性的评价方法的流程图。
图5是在本实施方式中评价合成适用性的化合物的结构式。
图6是表示所提取的基准原子排列和基准出现频度的数量的表图的部分摘录。
图7是表示待评价的化合物的所提取的原子排列和出现频度的表图。
图8是表示化合物与合成适用性得分的关系的图。
图9是表示化合物与SA得分的关系的图。
图10是表示ChemistScore与合成适用性得分的关系的图。
具体实施方式
以下,根据附图对本发明所涉及的化合物的合成适用性的评价方法、化合物的合成适用性的评价程序及、化合物的合成适用性的评价装置进行说明。
《化合物的合成适用性的评价装置》
图1是表示化合物的合成适用性的评价装置(以下,也简称为“合成适用性评价装置”)10的结构的框图。合成适用性评价装置10为评价化合物的合成适用性的装置,能够使用计算机来实现。如图1所示,合成适用性评价装置10具备处理部100、存储部200、显示部300及操作部400,它们彼此连接而收发所需要的信息。关于这些构成要件,能够采用各种设置方式,各构成要件可以设置于一处(1个框体内、1个房间内等),也可以设置于分开的场所并经由网络连接。并且,合成适用性评价装置10经由互联网等网络NW连接于外部服务器500及外部数据库510,根据需要能够获取评价合成适用性的化合物的结构式和/或容纳于化合物数据库中的多个基准化合物的结构式等信息。
<处理部的结构>
图2是表示处理部100的结构的图。处理部100具备数据库选择部105、结构获取部110、第1提取部115、第2提取部120、计算部125、评价部130、输出部135、显示控制部140、CPU145(CPU:CentralProcessingUnit:中央处理器)、ROM150(ROM:ReadOnlyMemory:只读存储器)及RAM155(RAM:RandomAccessMemory:随机存取存储器)。
数据库选择部105从容纳有多个基准化合物的多个化合物数据库中选择容纳有用于评价合成适用性的符合目的的化合物的化合物数据库。化合物数据库能够选自经由未图示的DVD驱动器、半导体存储器用端子等记录介质接口和/或网络获取的多个化合物数据库。所选择的化合物数据库优选为高结构多样性的化合物数据库,但是当有特殊目的时,也能够选择符合目的且具有结构偏差的化合物数据库。例如,当想要判断作为合成适用性的评价对象的化合物是否为像色素那样的化合物时,选择包含大量色素化合物的化合物数据库。或者,当想要判断作为合成适用性的评价对象的化合物是否为像医药品那样的化合物时,选择包含大量医药品化合物的化合物数据库。
结构获取部110经由未图示的DVD驱动器、半导体存储器用端子等记录介质接口和/或网络获取化合物的结构式等信息。化合物的结构式等信息能够使用在计算机上生成和/或改变的化合物。并且,化合物的结构式也可以使用操作部400的键盘410及鼠标420来输入。
第1提取部115从容纳于化合物数据库中的基准化合物的结构中提取基准原子排列并求出基准原子排列的基准出现频度。
第2提取部120从评价合成适用性的化合物的结构中提取原子排列并根据评价合成适用性的化合物求出原子排列的出现频度。
计算部125根据作为合成适用性的评价对象的化合物的原子排列中所包含的键条数及容纳于化合物数据库中的化合物的基准原子排列的基准出现频度计算原子排列在基准化合物中出现的频度来作为部分得分。并且,计算部125将部分得分进行合计来计算合计得分。
评价部130根据由计算部125计算出的合计得分来评价合成适用性。关于部分得分,由于使用原子排列中所包含的键条数及在化合物数据库中的出现频度越大则数值越小的函数,因此部分得分越小,即,合计得分越小,则能够评价为合成适用性越高。并且,当在由数据库选择部选择的化合物数据库中选择了符合目的且具有结构偏差的化合物数据库时,还能够评价化合物与化合物数据库中的基准化合物的相似性。作为化合物数据库,例如选择包含大量色素化合物的化合物数据库,当所计算出的合计得分小时,能够认定为在包含大量色素化合物的化合物中原子排列的出现频度多,从而能够评价为相似性高。由此,能够评价为作为评价对象的化合物具有作为色素的性质的可能性高。
输出部135输出由结构获取部110获取的作为合成适用性的评价对象的化合物的结构。并且,输出由第1提取部115提取的基准原子排列及基准原子排列的出现频度以及由第2提取部120提取的化合物的原子排列及原子排列的出现频度。另外,输出由计算部125计算出的部分得分及合计得分。
显示控制部140控制将所获取的信息及处理结果显示于显示器310上。关于使用处理部100的这些功能的化合物的合成适用性的评价方法,将在后面进行详细叙述。另外,在基于这些功能的处理在CPU145的控制下进行。
上述处理部100的各部的功能能够使用各种处理器(processor)来实现。各种处理器中例如包括执行软件(程序)来实现各种功能的通用的处理器即CPU。并且,上述各种处理器中还包括FPGA(FieldProgrammableGateArray:现场可编程门阵列)等在制造后能够变更电路结构的处理器即可编程逻辑器件(ProgrammableLogicDevice:PLD)。另外,ASIC(ApplicationSpecificIntegratedCircuit:专用集成电路)等具有为了执行特定的处理而专门设计的电路结构的处理器即专用电路等也包括在上述各种处理器中。
各部的功能可以通过1个处理器来实现,也可以组合多个处理器来实现。并且,也可以由1个处理器实现多种功能。作为由1个处理器构成多种功能的例子,第1,如以用户端、服务器等计算机为代表那样,有如下方式:以1个以上的CPU与软件的组合构成1个处理器,该处理器作为多种功能而实现。第2,如以片上系统(SystemOnChip:SoC)等为代表那样,有使用由1个IC(IntegratedCircuit:集成电路)芯片实现系统整体的功能的处理器的方式。如此,关于各种功能,作为硬件结构,使用1个以上的上述各种处理器来构成。另外,更具体而言,这些各种处理器的硬件结构为将半导体元件等电路元件组合而成的电路(circuitry)。
在上述处理器或电路执行软件(程序)时,将所执行的软件的处理器(计算机)可读代码先存储于ROM150(参考图2)等非临时性记录介质中,由处理器参考该软件。先存储于非临时性记录介质中的软件包含用于执行本发明所涉及的分子稳定结构的计算方法的程序。也可以不在ROM150中而在各种光磁记录装置、半导体存储器等非临时性记录介质中记录代码。在进行使用软件的处理时,例如RAM155用作临时性存储区域,并且,例如也能够参考存储于未图示的EEPROM(ElectronicallyErasableandProgrammableReadOnlyMemory:电可擦可编程只读存储器)中的数据。
<存储部的结构>
存储部200由DVD(DigitalVersatileDisk:数字通用光盘)、硬盘(HardDisk)、各种半导体存储器等非临时性记录介质及其控制部构成,存储图3所示的图像及信息。结构信息205包含作为合成适用性的评价对象的化合物的结构。基准化合物信息210包含容纳于化合物数据库中的多个基准化合物的结构式。原子排列信息215包含从作为合成适用性的评价对象的化合物中提取的原子排列。出现频度信息220包含从作为合成适用性的评价对象的化合物中提取的原子排列在化合物中的出现频度。基准原子排列信息225包含从化合物数据库中所包含的多个基准化合物中提取的基准原子排列。基准出现频度信息230包含化合物数据库中所包含的多个基准化合物的所提取的原子排列的基准出现频度。函数信息235包含计算部分得分的函数及计算合计得分的函数。
<显示部及操作部的结构>
显示部300具备显示器310(显示装置),能够显示所输入的图像及信息、存储于存储部200中的图像及信息、由处理部100进行处理的结果等。操作部400包括输入器件和/或作为指示器件的键盘410及鼠标420,用户能够经由这些器件及显示器310的画面来进行执行本实施方式所涉及的化合物的合成适用性的评价方法所需要的操作。用户能够执行的操作中包括评价合成适用性的化合物的结构的输入、化合物数据库的选择、待提取的原子排列的指定等。
<化合物的合成适用性的评价装置中的处理>
在上述化合物的合成适用性的评价装置10中,能够按照经由操作部400的用户的指示来进行化合物的合成适用性的评价。
《化合物的合成适用性的评价方法》
图4是表示化合物的合成适用性的评价方法的流程图。合成适用性的评价方法具有如下工序:选择容纳有成为合成适用性的评价基准的多个基准化合物的化合物数据库的工序(步骤S10);决定评价合成适用性的化合物的结构的工序(步骤S12);从容纳于化合物数据库中的基准化合物中提取基准原子排列并求出基准原子排列的基准出现频度的工序(步骤S14);从化合物的结构中提取原子排列并求出原子排列的出现频度的工序(步骤S16);计算化合物的原子排列在化合物数据库中的基准化合物中出现的频度来作为部分得分的工序(步骤S18);及根据将部分得分进行合计而得到的合计得分来评价合成适用性的工序(步骤S20)。
以下,对各工序进行说明。
<选择化合物数据库的工序(步骤S10)>
选择化合物数据库的工序为从所存在的多个化合物数据库中选择成为合成适用性的评价基准的化合物数据库的工序。作为待选择的化合物数据库,基本上期望高结构多样性的化合物数据库。通过选择高结构多样性的化合物数据库,能够以各种化合物为基准来评价合成适用性。并且,当对待评价的化合物有特殊目的时,可以使用具有符合目的且结构存在偏差的化合物的化合物数据库。例如,当想要判断化合物是否为像色素那样的化合物时,也能够选择包含大量公知的色素化合物的化合物数据库。并且,当想要判断化合物是否为医药品化合物时,也能够选择包含大量公知的医药品化合物的化合物数据库。如此,通过使用符合特殊目的且具有结构偏差的化合物数据库,能够评价是否为在该化合物数据库中的色素化合物或医药品化合物中以高的出现频度出现的原子排列。当出现频度高时,认为待评价的化合物具有所选择的化合物数据库中的基准化合物的结构或接近原子排列的结构,并且认为具有与目标化合物相同的特性。
关于化合物数据库的选择,可以根据用户的操作来选择,也可以设为根据用户所希望的条件,由计算机选择的结构。作为化合物数据库的例子,能够使用PubChem(有机小分子生物活性数据)。关于基准化合物,可以将化合物数据库的所有化合物用于评价,也可以提取一部分,例如提取100万种化合物用于评价。从化合物数据库中提取基准化合物的方法中可以任意地进行提取,也可以提取符合目的的化合物以便选择符合目的的数据库。另外,在本实施方式中,使用PubChem作为化合物数据库,基准化合物使用PubChem内的所有化合物来进行。
<决定化合物的结构的工序(步骤S12)>
决定化合物的结构的工序为决定作为合成适用性的评价对象的化合物的结构的工序。对于化合物,可以按照经由操作部400的用户的操作来输入化合物的结构,并决定化合物的结构。并且,也能够使用为了得到所期望的物理特性而在计算机上改变了结构的化合物的结构,将该改变后的化合物决定为作为合成适用性的评价对象的化合物。化合物的结构也可以经由网络NW从外部服务器500及外部数据库510获取并决定。另外,在本实施方式中,关于作为合成适用性的评价对象的化合物,给出图5所示的化合物的结构。
<提取基准原子排列并求出基准出现频度的工序(步骤S14)>
提取基准原子排列并求出基准出现频度的工序为从在步骤S10中选择的化合物数据库中的基准化合物中提取基准原子排列并求出该基准原子排列在基准化合物中的出现频度即基准出现频度的工序。
基准原子排列为从基准化合物中提取的原子排列。对每条键提取原子排列。所提取的基准原子排列用于后述的计算部分得分的工序(步骤S18),因此至少利用与从待评价的化合物中提取的原子排列相同的方法提取与原子排列相对应的基准原子排列。例如,将从关注原子中的键条数、原子排列的结构、原子的电子态等条件设为相同而进行提取。这些条件只要与从作为评价对象的化合物中提取的原子排列的条件相同,则不受特别限定,例如作为原子排列的结构,能够提取直链状、支链状、环状或它们的组合的原子排列。并且,当原子的电子排列不同时,优选作为不同的原子排列而被提取。例如,在碳与碳的键中,SP1杂化轨道、SP2杂化轨道及SP3杂化轨道分别优选作为不同的原子排列而被提取。另外,当无需特别考虑与氢的键时,端部为氢的键优选以键的数量中不包括与氢的键的方式进行提取。若包含端部为氢的键,则出现频度变大,因此无法准确地评价部分得分及合成得分。
接着,求出所提取的基准原子排列在基准化合物中的基准出现频度。对在步骤S10中选择的化合物数据库中的所有基准化合物或从化合物数据库中提取的基准化合物求出基准出现频度。
图6是表示所提取的基准原子排列和基准出现频度的数量的表图的部分摘录。在本实施方式中,提取了键条数为5条为止的直链状的原子排列。
图6的表图中所示的原子名称为以TriposMol2格式表示的原子。例如,以“C.1”表示sp1杂化轨道的碳,以“C.2”表示sp2杂化轨道的碳,以“C.3”表示sp3杂化轨道的碳,以“C.ar”表示构成芳香族的碳。并且,原子之间的“-”表示单键,“=”表示双键,“#”表示三键,“:”表示aromatic(芳香族)。此外,在图6中所示的原子名称中,“I”表示碘,“S.3”表示sp3杂化轨道的硫,“N.pl3”表示平面三角形结构的氮,“O.co2”表示羧酸基及磷酸基中的氧。另外,在图6所示的表中,作为例子,示出键为1个(键条数1条)及键为5个(键条数5条),出现频度最高的原子排列、第二高的原子排列及出现频度最低的原子排列,但实际上有大量的原子排列,键为1个的原子排列存在约100万个。另外,由于根据从关注原子中的键的条数及结构来提取基准原子排列,因此相对于基准化合物中的1个苯环,“C.ar:C.ar”的出现频度为“6”,“C.ar:C.ar:C.ar:C.ar:C.ar:C.ar”的出现频度为“6”。
<提取原子排列并求出出现频度的工序(步骤S16)>
提取原子排列并求出出现频度的工序为从在步骤S12中输入的化合物的结构中提取原子排列并求出出现频度的工序。
原子排列的提取能够通过与在步骤S16中提取基准原子排列的方法相同的方法来进行。并且,对所提取的原子排列求出在步骤S12中输入的化合物中的出现频度。
图7是表示对在步骤S12中输入的化合物示出所提取的原子排列和该原子排列在化合物中的出现频度的表图。在提取原子排列并求出出现频度的工序中,与步骤S14同样地,也在原子的键的数量为1个至5个、直链状的结构、末端不包含氢的键的条件下提取原子排列并求出了出现频度。另外,表中的“-(edge)”表示该原子为结构式的末端。
<计算部分得分的工序(步骤S18)>
计算部分得分的工序为计算作为合成适用性的评价对象的化合物的原子排列在化合物数据库中的基准化合物中出现的频度来作为部分得分的工序。
作为计算部分得分的式(函数),能够使用单调递减或单调递增的函数来进行。函数例如能够使用反比例函数、指数函数等。作为单调递减函数,能够使用原子排列中所包含的键的条数(n)和/或化合物数据库中的基准化合物中的原子排列的出现频度(f)越大则值越小的函数。若原子排列中所包含的键的条数变多,则基准化合物中的基准出现频度变少。然而,在键的条数变多的原子排列中存在结构简单、容易合成,但由于键的条数变多而基准出现频度变少的原子排列。例如,当基准化合物为丙烷(CH3CH2CH3)时,原子排列为C.3-C.3的出现频度为“2”,但C.3-C.3-C.3的出现频度为“1”。如此,即使是容易合成的化合物,在根据基准出现频度计算出得分时,合成适用性也会产生差异。在本实施方式中,使用还考虑原子排列中所包含的键的条数作为变量的函数,键的条数越多,则越减小部分得分的数值。由此,对于键的条数少且基准出现频度高的原子排列,能够减小大的(键的条数多的)原子排列(容易成为分子固有的排列的复杂的原子排列)的影响。因此,与仅根据出现频度求出的得分相比,能够适当地评价合成适用性。
并且,当出现频度f=0时,即,当从化合物中提取的原子排列在基准化合物中未出现时,优选设为不具有奇点的函数。出现频度f=0的原子排列作为以往的化合物的原子排列,认为是难以存在的原子排列。因此,具有这种原子排列的化合物应被评价为合成适用性低,但是当在f=0处具有奇点时,导致无法计算得分,因此在合成适用性的评价中,忽略来自这种原子排列的贡献度。其结果,有时会成为表示具有合成适用性的得分,有时无法适当地进行评价。通过设为在出现频度f=0处不具有奇点的函数,能够适当地评价合成适用性。
作为部分得分的计算中所使用的函数,例如能够使用以下的式(1)及式(2)所示的函数。
[数式1]
Figure BDA0002973908530000121
[数式2]
Figure BDA0002973908530000122
另外,式中,substr为待评价的化合物中所包含的原子排列,s为部分得分。n为原子排列中所包含的键的条数,f为在化合物数据库中的基准出现频度。d、dn及df为参数,通过变更d、dn及df的数值,能够变更s(substr)的数值。若增大d的值,则能够增大部分得分,若增大dn及df的值,则能够减小部分得分。并且,σn及σf为参数,通过变更σn及σf的数值,能够变更s(substr)的数值,若增大σn及σf的值,则能够增大部分得分。另外,上述式(1)及式(2)为单调递减函数,但是当使用单调递增函数时,将所求出的得分的解释倒过来,即,所求出的得分越大,则能够判断为合成适用性越高。
接着,示出计算部分得分的例子。作为例子,对键为1个的原子排列C.ar:C.ar(芳香族环中的碳-碳键)的部分得分进行计算。作为求出部分得分的式,使用上述式(1)来进行。并且,参数d使用“1”来进行。
首先,计算化合物数据库(PubChem)的基准化合物中的原子排列C.ar:C.ar:的部分得分。原子排列C.ar:C.ar:在化合物数据库(PubChem)的基准化合物中的出现频度为799082034,因此s(C.ar:C.ar)成为1/(1×(799082034+1))=1.25×10-9
接着,根据化合物数据库(PubChem)的基准化合物中的原子排列C.ar:C.ar:的部分得分来计算评价合成适用性的化合物中的C.ar:C.ar的部分得分。在评价合成适用性的化合物中,C.ar:C.ar的出现频度为“6”,因此评价合成适用性的化合物中的C.ar:C.ar的部分得分为1.25×10-9×6=7.5×10-9
并且,原子排列Br-O.3-C.ar:C.ar:C.ar:C.ar在化合物数据库的基准化合物中的出现频度为670,因此s(Br-O.3-C.ar:C.ar:C.ar:C.ar)成为1/(5×(670+1))=2.98×10-4。在作为合成适用性的评价对象的化合物中,Br-O.3-C.ar:C.ar:C.ar:C.ar的出现频度为“2”,因此部分得分为2.98×10-4×2=5.96×10-4
如此,部分得分能够兼顾原子排列的键的条数和在化合物数据库中的基准化合物的出现频度来决定。
在步骤S18中,对图7的表中所示的所有原子排列进行部分得分的计算。在图7中,设为键的数量5个、直链状的原子排列,但是根据待提取的原子排列的种类,还进行该原子排列的部分得分的计算。
<评价合成适用性的工序(步骤S20)>
评价合成适用性的工序为根据将部分得分进行合计而得到的合计得分评价合成适用性的工序。
将在步骤S18中计算出的各个原子排列的部分得分进行合计来求出合计得分。合计得分能够通过将部分得分进行合计来求出。对于图5所示的化合物,用图7所示的原子排列计算各个部分得分,若计算出合计得分,则成为7.17×10-3
图8是将化合物和合成适用性得分记载于横轴上的图。另外,在本实施方式中,在步骤S18中求出的合计得分成为合成适用性得分。合成适用性得分越小,则能够评价为越容易合成,合成适用性得分越大,则能够判断为越难以合成。在图8所示的化合物A~E中,化合物D是作为本实施方式的一例而求出了合计得分的化合物。化合物A是被公知为能够合成,即在常温常压的大气中稳定且能够分离的化合物。化合物B是被公知为能够分离,但在常温常压的大气中不稳定,不具有合成适用性的化合物。化合物C~E是被公知为在常温常压的大气中无法分离,因此仍不具有合成适用性的化合物。如图8所示,能够确认合计得分(合成适用性得分)低的一方能够合成且稳定。因此,通过计算合计得分(合成适用性得分),实际上无需进行合成,便能够评价化合物的合成适用性。另外,合计得分(合成适用性得分)通过与其他化合物的对比来进行评价,而不像在计算部分得分时使用参数那样,在某一得分以上时评价合成适用性(容易或难以合成)。
另外,在本实施方式中,对每个原子排列计算部分得分并进行数值化,将部分得分进行合计,根据合计得分来评价合成适用性,但并不限于此。也可以不进行数值化,而对每个原子排列进行局部性的部分评价,通过将部分评价进行合计而得到的合计评价来进行评价。
图9是表示SA得分与化合物的关系的图。在SA得分中,6以上时,评价为难以合成。然而,如图9所示,不稳定的化合物B及作为无法合成的化合物的化合物C~E的SA得分在2~3的范围内,因此判断为具有合成适用性。
并且,图10是表示ChemistScore与在本实施方式中求出的合计得分的关系的图。ChemistScore为非专利文献2中所记载的得分,是由化学家对化合物的合成容易程度进行分等级的得分。ChemistScore为6以上的化合物能够判断为难以合成。如图10所示,若对本实施方式中所得到的合计得分(合成适用性得分)和ChemistScore进行比较,则在ChemistScore中判定为难以合成的得分以上时,本实施方式的合计得分也能够判断为难以合成,认为能够作为合成适用性的评价基准而进行适用性评价。
<化合物的合成适用性的评价方法及化合物的合成适用性的评价程序的效果>
如以上所说明,在化合物的合成适用性的评价装置10中,使用本实施方式所涉及的化合物的合成适用性的评价方法及化合物的合成适用性的评价程序,能够适当地进行化合物的合成适用性、尤其是在计算机上生成或改变的化合物的合成适用性的评价。
符号说明
10-化合物的合成适用性的评价装置,100-处理部,105-数据库选择部,110-结构获取部,115-第1提取部,120-第2提取部,125-计算部,130-评价部,135-输出部,140-显示控制部,145-CPU,150-ROM,155-RAM,200-存储部,205-结构信息,210-基准化合物信息,215-原子排列信息,220-出现频度信息,225-基准原子排列信息,230-基准出现频度信息,235-函数信息,300-显示部,310-显示器,400-操作部,410-键盘,420-鼠标,500-外部服务器,510-外部数据库,NW-网络。

Claims (12)

1.一种化合物的合成适用性的评价方法,其具有如下工序:
选择容纳有成为合成适用性的评价基准的多个基准化合物的化合物数据库的工序;
决定作为合成适用性的评价对象的化合物的结构的工序;
从容纳于所述化合物数据库中的所述基准化合物的结构中提取基准原子排列并求出所述基准原子排列的基准出现频度的工序;
从所述化合物的结构中提取原子排列并求出所述原子排列的出现频度的工序;及
根据所述化合物的所述原子排列中所包含的键条数及与所述原子排列相对应的所述基准原子排列的所述出现频度来评价合成适用性的工序。
2.根据权利要求1所述的化合物的合成适用性的评价方法,其中,
在所述评价合成适用性的工序中,对每个所述原子排列进行局部性的部分评价,通过将所述部分评价进行合计的合计评价来进行评价。
3.根据权利要求1或2所述的化合物的合成适用性的评价方法,其中,
在所述评价合成适用性的工序中,对每个所述原子排列计算部分得分并进行数值化,并且将所述部分得分进行合计,根据合计得分进行评价。
4.根据权利要求3所述的化合物的合成适用性的评价方法,其中,
所述部分得分的计算中使用所述原子排列在所述化合物数据库中的出现频度为0时不具有奇点的函数。
5.根据权利要求3或4所述的化合物的合成适用性的评价方法,其具有如下工序:
根据所述合计得分来评价所述化合物与容纳于所述化合物数据库中的所述基准化合物的特征的相似性。
6.根据权利要求1至5中任一项所述的化合物的合成适用性的评价方法,其中,
在所述评价合成适用性的工序中,使用单调递减或单调递增的函数来进行评价。
7.根据权利要求1至6中任一项所述的化合物的合成适用性的评价方法,其中,
所提取的所述基准原子排列及所述原子排列为直链状、支链状、环状或它们的组合的原子排列。
8.根据权利要求1至7中任一项所述的化合物的合成适用性的评价方法,其中,
当原子的电子态不同时,所述基准原子排列及所述原子排列作为不同的原子排列而被提取。
9.根据权利要求1至8中任一项所述的化合物的合成适用性的评价方法,其中,
在从所述化合物的结构中提取所述原子排列时,不提取键的端部为氢的原子排列。
10.一种化合物的合成适用性的评价程序,其使计算机执行权利要求1至9中任一项所述的化合物的合成适用性的评价方法。
11.一种记录介质,其为非临时性且计算机可读的记录介质,其中,
当存储于所述记录介质中的指令被计算机读取时,使计算机执行权利要求10所述的程序。
12.一种化合物的合成适用性的评价装置,其具有:
数据库选择部,选择容纳有成为合成适用性的评价基准的多个基准化合物的化合物数据库;
结构获取部,获取作为合成适用性的评价对象的化合物的结构;
第1提取部,从容纳于所述化合物数据库中的所述基准化合物的结构中提取基准原子排列并求出所述基准原子排列的基准出现频度;
第2提取部,从所述化合物的结构中提取原子排列并求出所述原子排列的出现频度;
计算部,根据所述化合物的所述原子排列中所包含的键条数及与所述原子排列相对应的所述基准原子排列的所述出现频度,使用所述原子排列中所包含的键条数及所述出现频度越大则数值越小的函数,将所述原子排列在所述基准化合物中出现的频度作为部分得分而进行计算,并且将所述部分得分进行合计来计算合计得分;及
评价部,根据所述合计得分来评价合成适用性。
CN201980059938.1A 2018-09-14 2019-09-13 化合物的合成适用性的评价方法、化合物的合成适用性的评价程序及化合物的合成适用性的评价装置 Pending CN112689877A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018172576 2018-09-14
JP2018-172576 2018-09-14
PCT/JP2019/036072 WO2020054839A1 (ja) 2018-09-14 2019-09-13 化合物の合成適性の評価方法、化合物の合成適性の評価プログラム及び化合物の合成適性の評価装置

Publications (1)

Publication Number Publication Date
CN112689877A true CN112689877A (zh) 2021-04-20

Family

ID=69777218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980059938.1A Pending CN112689877A (zh) 2018-09-14 2019-09-13 化合物的合成适用性的评价方法、化合物的合成适用性的评价程序及化合物的合成适用性的评价装置

Country Status (6)

Country Link
US (1) US20210193272A1 (zh)
EP (1) EP3852113A4 (zh)
JP (1) JP7191969B2 (zh)
CN (1) CN112689877A (zh)
IL (1) IL281379A (zh)
WO (1) WO2020054839A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113416215A (zh) * 2021-07-12 2021-09-21 成都大学 一种新型化合物d-dicy及其合成方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7398334B2 (ja) * 2020-04-30 2023-12-14 株式会社日立製作所 ユーザに提案する材料を決定するシステム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030059196A (ko) * 2000-10-17 2003-07-07 어플라이드 리서치 시스템스 에이알에스 홀딩 엔.브이. 분리된 아구조 분석을 수행하기 위한 컴퓨터 시스템의조작 방법
JP4564097B2 (ja) * 2007-11-12 2010-10-20 株式会社インシリコサイエンス インシリコスクリーニング装置、および、インシリコスクリーニング方法
JP5529457B2 (ja) * 2009-07-31 2014-06-25 富士通株式会社 代謝解析プログラム、代謝解析装置および代謝解析方法
US20130226549A1 (en) * 2012-02-27 2013-08-29 Yufeng J. Tseng Structure-based fragment hopping for lead optimization and improvement in synthetic accessibility
KR102457974B1 (ko) * 2015-11-04 2022-10-21 삼성전자주식회사 신규 물질 탐색 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113416215A (zh) * 2021-07-12 2021-09-21 成都大学 一种新型化合物d-dicy及其合成方法

Also Published As

Publication number Publication date
EP3852113A4 (en) 2021-10-27
WO2020054839A1 (ja) 2020-03-19
JPWO2020054839A1 (ja) 2021-08-30
US20210193272A1 (en) 2021-06-24
EP3852113A1 (en) 2021-07-21
JP7191969B2 (ja) 2022-12-19
IL281379A (en) 2021-04-29

Similar Documents

Publication Publication Date Title
Jurman et al. Algebraic stability indicators for ranked lists in molecular profiling
Wang et al. CrystalM: a multi-view fusion approach for protein crystallization prediction
JP5755823B1 (ja) 類似度算出システム、類似度算出方法およびプログラム
CN112689877A (zh) 化合物的合成适用性的评价方法、化合物的合成适用性的评价程序及化合物的合成适用性的评价装置
JP5188372B2 (ja) 情報提示装置、方法およびプログラム
Oliveira et al. Fitting isochrones to open cluster photometric data-III. Estimating metallicities from UBV photometry
Zhang et al. Optimization enhanced genetic algorithm-support vector regression for the prediction of compound retention indices in gas chromatography
WO2019093172A1 (ja) 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
Eastwood et al. Statistical mechanical refinement of protein structure prediction schemes: Cumulant expansion approach
CN105468934A (zh) 一种基于Bolzmann概率密度函数的蛋白质残基间距离模型构建方法
Trygubenko et al. Kinetic analysis of discrete path sampling stationary point databases
Jaafreh et al. Crystal structure guided machine learning for the discovery and design of intrinsically hard materials
Chakraborty et al. Using the “Hidden” genome to improve classification of cancer types
Hornung et al. Prediction approaches for partly missing multi‐omics covariate data: A literature review and an empirical comparison study
Pashaei et al. Prediction of splice site using AdaBoost with a new sequence encoding approach
Geppert et al. Advances in 2D fingerprint similarity searching
EP4276840A1 (en) Information processing device, information processing method, and information processing program
JP2004046612A (ja) データマッチング方法、データマッチング装置、データマッチングプログラムおよびコンピュータで読み取り可能な記録媒体
JP5345918B2 (ja) 文書検索方法、文書検索装置、文書検索プログラム
Gront et al. Exploring protein energy landscapes with hierarchical clustering
Willighagen et al. Molecular chemometrics
EP3852112A1 (en) Compound structure generating method, compound structure generating program, and compound structure generating device
WO2019230303A1 (ja) 分子安定構造の探索方法、分子安定構造の探索プログラム及び分子安定構造の探索装置
Tutz et al. Aggregating classifiers with ordinal response structure
Tian et al. Reinforce: An ensemble approach for inferring PPI network from AP-MS data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination