CN112689878A - 化合物搜索方法、化合物搜索程序、记录介质及化合物搜索装置 - Google Patents
化合物搜索方法、化合物搜索程序、记录介质及化合物搜索装置 Download PDFInfo
- Publication number
- CN112689878A CN112689878A CN201980059942.8A CN201980059942A CN112689878A CN 112689878 A CN112689878 A CN 112689878A CN 201980059942 A CN201980059942 A CN 201980059942A CN 112689878 A CN112689878 A CN 112689878A
- Authority
- CN
- China
- Prior art keywords
- physical property
- candidate
- candidate structure
- property value
- adoption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N99/00—Subject matter not provided for in other groups of this subclass
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/64—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medicinal Chemistry (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Mathematical Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Pharmacology & Pharmacy (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的目的在于提供一种能够有效率地搜索化合物的结构的化合物搜索方法、化合物搜索程序、记录介质及化合物搜索装置。在第1方式所涉及的化合物搜索方法中,进行根据候选结构的物理特性值是否因化学结构的变化而接近物理特性值的目标值来进行判断的第1采用处理,当未采用第1采用处理的结果候选结构时,进行根据结构多样性是否增加来进行判断的第2采用处理,进行第1采用处理及第2采用处理的结果,当未采用候选结构时,进行拒绝化学结构的变化并且恢复为发生变化之前的化学结构的拒绝处理,因此提高结构的多样性来促进脱离局部最小值,能够有效率地搜索具有所期望的物理特性值即目标值的化合物的结构。
Description
技术领域
本发明涉及一种化合物搜索方法、化合物搜索程序、记录介质及化合物搜索装置,尤其涉及一种搜索具有所期望的物理特性值的化合物的结构的技术。
背景技术
以往,具有所期望的物理特性值的化合物的结构的搜索主要是通过解决“正问题”(给出作为问题的原因的分子结构,求出作为结果的物理特性值)来进行的,但是随着近年来信息学的发展,关于“逆问题”(给出物理特性值,求出具有该物理特性值的分子结构)的解法的研究正在迅速发展中。关于基于解决逆问题的结构的搜索,例如已知有非专利文献1。在非专利文献1中记载有如下:给出物理特性值的目标值,(1)生成多个初始结构(化学结构),(2)使各结构随机地发生变化,(3)估计各结构的物理特性值,(4)以物理特性值与目标值的距离为基准采用或拒绝结构的变化,来求出具有接近目标值的物理特性值的结构(在该过程中,重复进行(2)至(4)的处理)。
以往技术文献
非专利文献
非专利文献1:“Bayesian molecular design with a chemical language”、Hisaki Ikebata等、[2018年7月23日搜索]、互联网(https://www.ncbi.nlm.nih.gov/pubmed/28281211)
发明内容
发明要解决的技术课题
非专利文献1中所记载的iqspr(Inverse Quantitative Structure-PropertyRelationship:定量结构-性质相关性)中,存在搜索效率立即下降的问题。例如,图21是表示具有与波长500nm相对应的第1激发能(57.2kcal/mol)的化合物的搜索结果的图(使用量子化学计算用软件“Gaussian16”并通过ZINDO来计算,标绘出各试验中的上位100个化合物的平均值)。在iqspr中,如图21所示,搜索立即陷入局部最小值(无论怎样使结构发生微变化,物理特性值都会远离目标值的状态),搜索变缓慢。如此,搜索变缓慢的原因在于结构更新的算法(基于贝叶斯推断的粒子滤波器)。图22是表示粒子滤波器的算法的概念图,若从该图的(a)部分所示的初始状态根据物理特性值计算权重,则成为该图的(b)部分所示的状态。若从状态根据权重进行有放回抽样(sampling with replacement)(允许提取相同结构),则如图22的(c)部分所示,物理特性值远离目标的结构C、D被去除。
并且,图23是表示化合物的初始结构式(左侧的列)与第10次试验的结构式(右侧的列)的关系的例的表,示出尽管在初始状态下给出多样的结构,但在重复进行试验的过程中成为仅有相似的结构的状态。如图21~23所示,在基于贝叶斯推断的结构更新中,虽然物理特性值接近目标值,但搜索用结构的多样性减少,搜索陷入局部最小值,即使重复进行试验,也很难脱离局部最小值状态(无法达到最终结构)。
如此,以往的技术无法有效率地搜索化合物的结构。
本发明是鉴于这种情况而完成的,其目的在于提供一种能够有效率地搜索化合物的结构的化合物搜索方法、化合物搜索程序、记录介质及化合物搜索装置。
用于解决技术课题的手段
为了实现上述目的,本发明的第1方式所涉及的化合物搜索方法具有:输入工序,输入1个或多个化合物的化学结构、化学结构的1个或多个物理特性值及物理特性值的目标值;候选结构获取工序,使化学结构发生变化而得到候选结构;物理特性值计算工序,计算候选结构的物理特性值;候选结构采用工序,采用或拒绝候选结构,所述候选结构采用工序进行根据候选结构的物理特性值是否因化学结构的变化而接近物理特性值的目标值来判断是否采用候选结构的第1采用处理,当通过第1采用处理未采用候选结构时,进行根据由化学结构及候选结构构成的结构组的结构多样性是否因化学结构的变化而增加来判断是否采用候选结构的第2采用处理,当通过第1采用处理及第2采用处理未采用候选结构时,进行拒绝化学结构的变化并且恢复为发生变化之前的化学结构的拒绝处理;及控制工序,重复进行输入工序、候选结构获取工序、物理特性值计算工序及候选结构采用工序中的处理,直至满足结束条件。
在第1方式中,进行根据候选结构的物理特性值是否因化学结构的变化而接近物理特性值的目标值来判断是否采用候选结构的第1采用处理,当未采用第1采用处理的结果候选结构时,进行根据结构多样性是否增加来判断采用的第2采用处理,进行第1采用处理及第2采用处理的结果,当未采用候选结构时,进行拒绝化学结构的变化并且恢复为发生变化之前的化学结构的拒绝处理,因此根据结构的多样性来促进脱离局部最小值,能够有效率地搜索具有所期望的物理特性值(目标值)的化合物的结构。
另外,在第1方式及以下的各方式中,“化学结构”除了包括初始状态下的结构(初始结构)以外,还包括初始结构通过重复进行处理而发生了变化的结构。
为了实现上述目的,本发明的第2方式所涉及的化合物搜索方法具有:输入工序,输入1个或多个化合物的化学结构、化学结构的1个或多个物理特性值及物理特性值的目标值;候选结构获取工序,使化学结构发生变化而得到候选结构;物理特性值计算工序,计算候选结构的物理特性值;候选结构采用工序,采用或拒绝候选结构,所述候选结构采用工序进行根据由化学结构及候选结构构成的结构组的结构多样性是否因化学结构的变化而增加来判断是否采用候选结构的第2采用处理,当通过第2采用处理未采用候选结构时,进行根据候选结构的物理特性值是否因化学结构的变化而接近物理特性值的目标值来判断是否采用候选结构的第1采用处理,当通过第1采用处理及第2采用处理未采用候选结构时,进行拒绝化学结构的变化并且恢复为发生变化之前的化学结构的拒绝处理;及控制工序,重复进行输入工序、候选结构获取工序、物理特性值计算工序及候选结构采用工序中的处理,直至满足结束条件。
在第2方式中,进行根据由化学结构及候选结构构成的结构组的结构多样性是否因化学结构的变化而增加来判断是否采用候选结构的第2采用处理,当通过第2采用处理未采用候选结构时,进行根据候选结构的物理特性值是否因化学结构的变化而接近物理特性值的目标值来判断是否采用候选结构的第1采用处理,当通过第1采用处理及第2采用处理未采用候选结构时,进行拒绝化学结构的变化并且恢复为发生变化之前的化学结构的拒绝处理。即,第1、第2采用处理的顺序与第1方式不同(第1、第2采用处理的内容与第1方式相同)。通过这种方式,与第1方式同样地,根据结构的多样性来促进脱离局部最小值,能够有效率地搜索具有所期望的物理特性值(目标值)的化合物的结构。
根据第1或第2方式,在第3方式所涉及的化合物搜索方法中,在候选结构采用工序中,作为第1采用处理,当候选结构的物理特性值与物理特性值的目标值的差分(第1差分)的绝对值为化学结构的物理特性值与物理特性值的目标值的差分(第2差分)的绝对值以下时,进行采用候选结构的处理,当候选结构的物理特性值与物理特性值的目标值的差分(第1差分)的绝对值大于化学结构的物理特性值与物理特性值的目标值的差分(第2差分)的绝对值时,进行根据候选结构的物理特性值与物理特性值的目标值的差分(第1差分)并通过第1函数计算第1采用概率,并且以第1采用概率采用候选结构的处理。在第3方式中,第1差分的绝对值为第2差分的绝对值以下的情况为物理特性值没有因结构的变化而远离目标值的情况,采用候选结构。相对于此,第1差分的绝对值大于第2差分的绝对值的情况为物理特性值因结构的变化而远离目标值的情况,以第1采用概率进行采用。
根据第3方式,在第4方式所涉及的化合物搜索方法中,第1函数为对于候选结构的物理特性值与物理特性值的目标值的差分(第1差分)的绝对值、与化学结构的物理特性值与物理特性值的目标值的差分(第2差分)的绝对值的差分(第3差分)的单调递减函数。在第4方式中,第1函数为对于第3差分的单调递减函数,因此第3差分越大(即,物理特性值因结构的变化而越远离目标值),则采用概率越减小。
为了实现上述目的,本发明的第5方式所涉及的化合物搜索方法具有:输入工序,输入1个或多个化合物的化学结构、化学结构的1个或多个物理特性值及物理特性值的目标值;输入工序,输入1个或多个化合物的化学结构、化学结构的1个或多个物理特性值及物理特性值的目标值;候选结构获取工序,使化学结构发生变化而得到候选结构;物理特性值计算工序,计算候选结构的物理特性值;候选结构采用工序,采用或拒绝候选结构,所述候选结构采用工序进行根据候选结构的物理特性值是否因化学结构的变化而接近物理特性值的目标值来计算候选结构的采用中所使用的第1采用概率的第1计算处理、及根据由化学结构及候选结构构成的结构组的结构多样性是否因化学结构的变化而增加来计算候选结构的采用中所使用的第2采用概率的第2计算处理,并且进行根据第1采用概率及第2采用概率来采用候选结构的采用处理,进行采用处理的结果,当未采用候选结构时,进行拒绝化学结构的变化并且恢复为发生变化之前的化学结构的拒绝处理;及控制工序,重复进行输入工序、候选结构获取工序、物理特性值计算工序及候选结构采用工序中的处理,直至满足结束条件。
第5方式与第1、第2方式的不同点在于,同时进行第1、第2计算处理,并且根据第1、第2采用概率来采用候选结构。通过这种方式,与第1、第2方式同样地,根据结构的多样性来促进脱离局部最小值,能够有效率地搜索具有所期望的物理特性值(目标值)的化合物的结构。
根据第5方式,在第6方式所涉及的化合物搜索方法中,在候选结构采用工序中,当候选结构的物理特性值与物理特性值的目标值的差分的绝对值为化学结构的物理特性值与物理特性值的目标值的差分的绝对值以下时,进行采用候选结构的处理,当候选结构的物理特性值与物理特性值的目标值的差分的绝对值大于化学结构的物理特性值与物理特性值的目标值的差分的绝对值时,进行根据候选结构的物理特性值与物理特性值的目标值的差分并通过第1函数计算第1采用概率的处理、及计算结构组的结构多样性的增减量,并且根据增减量并通过第2函数计算第2采用概率的处理。
根据第4或第6方式,在第7方式所涉及的化合物搜索方法中,在候选结构采用工序中,计算由发生变化之前的化学结构构成的第1结构组的结构多样性与由发生至少一次变化之后的化学结构构成的第2结构组的结构多样性的差分来作为增减量。
根据第4或第6方式,在第8方式所涉及的化合物搜索方法中,在候选结构采用工序中,计算包含发生至少一次变化之后的结构组的至少一部分的第1结构组的结构多样性与对第1结构组添加了候选结构的第2结构组的结构多样性的差分来作为增减量。
根据第3或第6方式,在第9方式所涉及的化合物搜索方法中,第1函数为对于候选结构的物理特性值与物理特性值的目标值的差分的绝对值、与化学结构的物理特性值与物理特性值的目标值的差分的绝对值的差分的单调递减函数。
根据第4或第6方式,在第10方式所涉及的化合物搜索方法中,第2函数为对于结构多样性的增减量的单调递增函数。
根据第1至第10方式中的任一方式,在第11方式所涉及的化合物搜索方法中,在候选结构获取工序中,对化学结构追加或删除原子或原子团而生成对象结构,并将对象结构作为候选结构。第11方式规定对象结构的生成方法。另外,追加或删除可以以1个原子单位进行,也可以以原子团(2个以上的原子的集团)单位进行。
根据第1至第11方式中的任一方式,在第12方式所涉及的化合物搜索方法中,在控制工序中,当使化学结构发生变化的次数达到指定的次数时和/或当候选结构的物理特性值达到目标值时,判定为满足结束条件而结束输入工序、候选结构获取工序、物理特性值计算工序及候选结构采用工序的处理。第12方式具体地规定结束条件。
为了实现上述目的,本发明的第13方式所涉及的化合物搜索程序使计算机执行第1至第12方式中的任一方式所涉及的化合物搜索方法。根据第13方式,通过第1至第12方式中的任一方式所涉及的化合物搜索方法,能够有效率地搜索具有所期望的物理特性值的化合物的结构。另外,第13方式中的“计算机”能够使用1个以上的CPU(Central ProcessingUnit:中央处理器)等各种处理器来实现。
为了实现上述目的,本发明的第14方式所涉及的记录介质为非临时性且计算机可读的记录介质,其中,当存储于记录介质中的指令被计算机读取时,使计算机执行第13方式所涉及的程序。第14方式所涉及的记录介质能够通过记录第13方式所涉及的程序的计算机可读代码来实现。
为了实现上述目的,本发明的第15方式所涉及的化合物搜索装置具有:输入部,输入1个或多个化合物的化学结构、化学结构的1个或多个物理特性值及物理特性值的目标值;候选结构获取部,使化学结构发生变化而得到候选结构;物理特性值计算部,计算候选结构的物理特性值;候选结构采用部,采用或拒绝候选结构,所述候选结构采用部进行根据候选结构的物理特性值是否因化学结构的变化而接近物理特性值的目标值来判断是否采用候选结构的第1采用处理,当通过第1采用处理未采用候选结构时,进行根据由化学结构及候选结构构成的结构组的结构多样性是否因化学结构的变化而增加来判断是否采用候选结构的第2采用处理,当通过第1采用处理及第2采用处理未采用候选结构时,进行拒绝化学结构的变化并且恢复为发生变化之前的化学结构的拒绝处理;及控制部,重复进行输入部、候选结构获取部、物理特性值计算部及候选结构采用部中的处理,直至满足结束条件。根据第15方式,与第1方式同样地,能够有效率地搜索具有所期望的特性的化合物的结构。另外,第15方式所涉及的化合物搜索装置还可以包括与第3~第4、第7~第12方式相同的结构。
为了实现上述目的,本发明的第16方式所涉及的化合物搜索装置具有:输入部,输入1个或多个化合物的化学结构、化学结构的1个或多个物理特性值及物理特性值的目标值;候选结构获取部,使化学结构发生变化而得到候选结构;物理特性值计算部,计算候选结构的物理特性值;候选结构采用部,采用或拒绝候选结构,所述候选结构采用部进行根据由化学结构及候选结构构成的结构组的结构多样性是否因化学结构的变化而增加来判断是否采用候选结构的第2采用处理,当通过第2采用处理未采用候选结构时,进行根据候选结构的物理特性值是否因化学结构的变化而接近物理特性值的目标值来判断是否采用候选结构的第1采用处理,当通过第1采用处理及第2采用处理未采用候选结构时,进行拒绝化学结构的变化并且恢复为发生变化之前的化学结构的拒绝处理;及控制部,重复进行输入部、候选结构获取部、物理特性值计算部及候选结构采用部中的处理,直至满足结束条件。根据第16方式,与第2方式同样地,能够有效率地搜索具有所期望的特性的化合物的结构。另外,第16方式所涉及的化合物搜索装置还可以包括与第3~第4、第7~第12方式相同的结构。
为了实现上述目的,本发明的第17方式所涉及的化合物搜索装置具有:输入部,输入1个或多个化合物的化学结构、化学结构的1个或多个物理特性值及物理特性值的目标值;候选结构获取部,使化学结构发生变化而得到候选结构;物理特性值计算部,计算候选结构的物理特性值;候选结构采用部,采用或拒绝候选结构,所述候选结构采用部同时进行根据候选结构的物理特性值是否因化学结构的变化而接近物理特性值的目标值来计算是否采用候选结构的第1采用概率的第1计算处理、及根据由化学结构及候选结构构成的结构组的结构多样性是否因化学结构的变化而增加来计算是否采用候选结构的第2采用概率的第2计算处理,并且进行根据第1采用概率及第2采用概率来采用候选结构的采用处理,进行采用处理的结果,当未采用候选结构时,进行拒绝化学结构的变化并且恢复为发生变化之前的化学结构的拒绝处理;及控制部,重复进行输入部、候选结构获取部、物理特性值计算部及候选结构采用部中的处理,直至满足结束条件。根据第17方式,与第5方式同样地,能够有效率地搜索具有所期望的特性的化合物的结构。另外,第17方式所涉及的化合物搜索装置还可以包括与第6~第12方式相同的结构。
发明效果
如以上所说明,根据本发明的化合物搜索方法、化合物搜索程序、记录介质及化合物搜索装置,能够有效率地搜索化合物的结构。
附图说明
图1是表示第1实施方式所涉及的化合物搜索装置的结构的框图。
图2是表示处理部的结构的框图。
图3是表示化合物搜索方法的流程的流程图。
图4是表示实施例中的化学结构的变化的图。
图5是表示变化前后的化学结构组的图。
图6是表示关于变化前后的化学结构的extended fingerprint(扩展指纹)的计算结果的图。
图7是用于说明结构的多样性的图。
图8是表示采用结构变化的情形的图。
图9是表示拒绝结构变化的情形的图。
图10是表示关于结构组的结构变化的评价结果的图。
图11是表示具有最接近目标值的物理特性值的化学结构的图。
图12是表示随着重复进行处理而化学结构逐渐发生变化的情形的图。
图13是表示具有目标物理特性值的其他化学结构的图。
图14是表示基于贝叶斯推断及本发明的搜索结果的图。
图15是表示基于贝叶斯推断及本发明的λmax的变化的情形的图。
图16是表示基于贝叶斯推断及本发明的结构多样性的图。
图17是表示关于2个多样性评价方法的目标实现所需要的试验次数的图。
图18是表示在多样性的比较对象中加入了甲基黄时的结构搜索的结果的表。
图19是表示第2实施方式所涉及的化合物搜索方法的流程的流程图。
图20是表示第3实施方式所涉及的化合物搜索方法的流程的流程图。
图21是表示利用以往的方法会陷入局部最小值的情形的图。
图22是表示利用以往的方法会使结构的多样性减少的情形的图。
图23是表示利用以往的方法而结构的多样性减少的状态的图。
具体实施方式
以下,参考附图对本发明所涉及的化合物搜索方法、化合物搜索程序、记录介质及化合物搜索装置的实施方式进行详细说明。
<第1实施方式>
图1是表示第1实施方式所涉及的化合物搜索装置10(化合物搜索装置)的结构的框图。如图1所示,化合物搜索装置10具备处理部100、存储部200、显示部300及操作部400,它们彼此连接而收发所需要的信息。关于这些构成要件,能够采用各种设置方式,各构成要件可以设置于一处(1个框体内、1个房间内等),也可以设置于分开的场所并经由网络连接。并且,化合物搜索装置10经由互联网等网络1000连接于外部服务器500及外部数据库510,并且能够获取输入数据等所需要的信息。
<处理部的结构>
图2是表示处理部100的结构的图。处理部100具备输入部102(输入部)、候选结构获取部104(候选结构获取部)、物理特性值计算部106(物理特性值计算部)、候选结构采用部108(候选结构采用部)、控制部110(控制部)、显示控制部112(显示控制部)、CPU120(CPU:Central Processing Unit:中央处理器)、ROM122(ROM:Read Only Memory:只读存储器)及RAM124(RAM:Random Access Memory:随机存取存储器)。关于使用这些处理部100的各部的化合物搜索方法的流程,将在后面进行详细叙述。另外,各部中的处理在CPU120的控制下进行。
上述处理部100的各部的功能能够使用各种处理器(processor)来实现。各种处理器中例如包括执行软件(程序)来实现各种功能的通用的处理器即CPU。并且,上述各种处理器中还包括专门用于图像处理的处理器即GPU(Graphics Processing Unit:图形处理器)、FPGA(Field Programmable Gate Array:现场可编程门阵列)等在制造后能够变更电路结构的处理器即可编程逻辑器件(Programmable Logic Device:PLD)。另外,ASIC(Application Specific Integrated Circuit:专用集成电路)等具有为了执行特定的处理而专门设计的电路结构的处理器即专用电路等也包括在上述各种处理器中。
各部的功能可以通过1个处理器来实现,也可以由相同种类或不同种类的多个处理器(例如,多个FPGA、或CPU与FPGA的组合、或CPU与GPU的组合)来实现。并且,也可以由1个处理器实现多种功能。作为由1个处理器构成多种功能的例子,第1,如以用户端、服务器等计算机为代表那样,有如下方式:以1个以上的CPU与软件的组合构成1个处理器,该处理器作为多种功能而实现。第2,如以片上系统(System On Chip:SoC)等为代表那样,有使用由1个IC(Integrated Circuit:集成电路)芯片实现系统整体的功能的处理器的方式。如此,关于各种功能,作为硬件结构,使用1个以上的上述各种处理器来构成。另外,更具体而言,这些各种处理器的硬件结构为将半导体元件等电路元件组合而成的电路(circuitry)。这些电路可以为使用逻辑和、逻辑积、逻辑非、逻辑异或及将它们组合而成的逻辑运算来实现上述功能的电路。
在上述处理器或电路执行软件(程序)时,将所执行的软件的处理器可读代码(计算机可读代码)先存储于ROM122(参考图2)等非临时性记录介质(记录介质)中,由处理器参考该软件。先存储于非临时性记录介质中的软件包含用于执行本发明所涉及的化合物搜索方法的程序(化合物搜索程序),当存储于记录介质中的指令被计算机读取时,该指令使计算机执行化合物搜索程序。也可以不在ROM122中而在各种光磁记录装置、半导体存储器等非临时性记录介质中记录代码。在进行使用软件的处理时,例如RAM124用作临时性存储区域,并且,例如也能够参考存储于未图示的EEPROM(Electronically Erasable andProgrammable Read Only Memory:电可擦可编程只读存储器)中的数据。
<存储部的结构>
存储部200由DVD(Digital Versatile Disk:数字通用光盘)、硬盘(Hard Disk)、各种半导体存储器等非临时性记录介质及其控制部构成,能够存储化合物的化学结构(初始结构、候选结构)及其物理特性值等。
<显示部及操作部的结构>
显示部300具备显示器310(显示装置),能够显示所输入的图像、存储于存储部200中的信息、由处理部100进行处理的结果等。操作部400包括输入器件和/或作为指示器件的键盘410及鼠标420,用户能够经由这些器件及显示器310的画面进行执行本发明所涉及的化合物搜索方法所需要的操作。用户例如能够进行处理开始指示、物理特性值的目标值、第1函数及第2函数中所使用的参数、重复次数的指定。
<化合物搜索方法的流程>
图3是表示本发明所涉及的化合物搜索方法的流程的流程图。
<数据的输入>
输入部102输入1个或多个化合物的化学结构(初始结构)、化学结构(初始结构)中的1个或多个的物理特性值及物理特性值的目标值(步骤S1010:输入工序)。这些数据可以使用存储于存储部200中的数据,也可以经由网络1000从外部服务器500及外部数据库510获取。关于输入哪种数据,可以根据经由操作部400的用户的指示输入来决定。初始结构可以为1个,也可以为多个。并且,物理特性值可以为1个,也可以为多个。作为给出物理特性值的方法,期望吞吐(throughput)快的方法,例如使用量子化学计算或分子动力学计算或机器学习的结果等。另一方面,若对化合物的合成或物理特性测定的吞吐没有实用上的问题,则也能够使用实测值。
<候选结构的获取>
候选结构获取部104使化学结构随机地发生变化而得到候选结构(步骤S1020:候选结构获取工序)。此时,只要是使化学结构发生变化的方法,则可以使用任何方法。例如,能够使用对化学结构追加或删除原子或原子团而生成对象结构,并将对象结构作为候选结构的方法。具体而言,该方法为具备如下工序的化合物结构的生成方法:(A)准备评价合成适用性的基准的化合物数据库及化合物结构(化学结构);(B)选择对化合物结构追加原子或原子团或者从化合物结构中删除原子;(C)当选择了对化合物结构追加原子时,使新型原子键合于选自化合物结构中所包含的原子中的原子上,或者,当选择了对化合物结构删除原子时,删除选自化合物结构中所包含的原子中的原子,从而得到改变的化合物结构;(D)根据化合物数据库的信息来判断改变的化合物结构的合成适用性;(E)当改变的化合物结构具有合成适用性时,概率上允许改变,当改变的化合物结构不具有合成适用性时,概率上拒绝改变;及(F)重复进行工序(B)~(E),直至经过了工序(E)的化合物结构满足结束条件。另外,可以将所产生的候选结构通过显示控制部112显示于显示器310(显示装置)。并且,也能够在从后述的步骤S1090返回到步骤S1020时将1个或多个上次产生的结构中的物理特性值接近目标值的结构追加到用于评价合成适用性的化合物数据库(结构组)中,使得在步骤S1020中容易逐渐产生具有接近目标值的物理特性值的结构。
<物理特性值的评价>
物理特性值计算部106计算候选结构(在步骤S1020中发生了变化的结构)的物理特性值(步骤S1030:物理特性值计算工序)。物理特性值的计算中优选使用与估计初始结构的物理特性值时相同的方法。
<第1采用处理>
候选结构采用部108判断物理特性值是否接近目标值(步骤S1040:候选结构采用工序)。具体而言,在将结构变化前的物理特性值设为f0,将结构变化后的物理特性值设为f1,并将物理特性值的目标值设为F时,当|F-f1|≤|F-f0|成立时(候选结构的物理特性值与物理特性值的目标值的差分(第1差分)的绝对值为化学结构的物理特性值与物理特性值的目标值的差分(第2差分)的绝对值以下时),物理特性值接近目标值(并不远离),因此进入步骤S1070,采用结构变化(第1采用处理)。另一方面,当|F-f1|>|F-f0|时(候选结构的物理特性值与物理特性值的目标值的差分(第1差分)的绝对值大于化学结构的物理特性值与物理特性值的目标值的差分(第2差分)的绝对值时),进入步骤S1050。
在步骤S1050(候选结构采用工序)中,候选结构采用部108根据候选结构的物理特性值与物理特性值的目标值的差分并通过第1函数计算第1采用概率(第1采用处理)。具体而言,候选结构采用部108给出d=|F-f1|-|F-f0|的单调递减函数P1(d),估计概率p1=P1(d)。单调递减函数P1(d)相当于本发明中的“第1函数”(对于候选结构的物理特性值与物理特性值的目标值的差分的绝对值、与化学结构的物理特性值与物理特性值的目标值的差分的绝对值的差分的单调递减函数),概率p1相当于本发明中的“第1采用概率”。
作为单调递减函数P1(d),能够使用各种函数,例如能够使用以下的式(1)所表示的函数。σ为超参数,能够通过改变σ的值来调节单调递减的程度。也可以通过经由操作部400的用户的指示输入来改变参数的值。
[数式1]
P1(d)=exp[-d/σ] (1)
在第n个(在步骤S1010中输入的物理特性值为n个)的情况下,将表示各目的的指标设为i,例如能够使用以下的式(2)及式(3)所表示的函数。
[数式2]
wi=exp[-di/σi] (2)
[数式3]
式(2)及式(3)所表示的函数的基准为“只要有1个接近目标的物理特性值,就采用该结构变化”,但此外也能够使用各种各样的函数。并且,更简单而言,也可以考虑如下方法:认为n目的的物理特性值是n维矢量ff及FF,根据Euclid距离|FF-ff|来估计d=|FF-ff1|-|FF-ff0|,从而作为单一目的的问题而解决(假设ff、ff0、ff1、FF为矢量)。当采用该方针时,期望根据现有的数据先计算各物理特性值的平均和分散,并实施标准化之后计算距离。
若求出概率p1,则候选结构采用部108使用适当地产生的随机数以概率p1进入步骤S1070并采用结构变化,并且以概率(1-p1)进入步骤S1055。即,在步骤S1050中,候选结构采用部108以第1采用概率采用候选结构(第1采用处理)。如此进行概率处理(即使在物理特性值远离目标值的情况下,也会以概率p1采用结构变化)是为了防止落入局部最小值。局部最小值是“无论怎样使结构发生变化,物理特性值也会远离目标值的状态”,为了脱离局部最小值而达到全局最小值,需要经过物理特性值远离目标值的结构变化。通过上述概率处理,能够确保这种路径(pass)。
<第2采用处理>
当在步骤S1050中未采用第1采用处理的结果候选结构时(可能以概率(1-p1)发生),候选结构采用部108进行根据“由化学结构及候选结构构成的结构组的结构多样性是否因化学结构的变化而增加”来判断是否采用候选结构的第2采用处理(步骤S1055、S1060、S1070)。以下,关于第2采用处理进行说明。另外,将表示结构的指标设为j,将结构组表示为S={sj}。将给出了结构组S的结构多样性的函数标记为V(S)。假设结构多样性越大,则V(S)取越大的值。
<结构多样性的评价方法(其1)>
考虑如下情况:当给出了N(>1)个初始结构时,采用或拒绝N个化学结构中的第k个化学结构的结构变化。在第m次试验中,根据结构变化前(第m-1次)的结构组Sm-1={s(m-1)j}和变化后(第m次)的结构组Sm={smj}定义第k个化学结构的结构变化后的结构组Sk={s(m-1)0,s(m-1)1,...,smk,...,s(m-1)N},并估计dv=V(Sk)-V(Sm-1)。dv表示由结构变化引起的结构多样性的增减量。当dv≥0时(多样性因第k个结构变化而提高时;在步骤S1055中“是”),给出对于dv(结构多样性的增减量)的单调递增函数P2(dv),并计算概率p2=P2(dv)(步骤S1060:第2采用处理)。然后,使用适当地产生的随机数以概率p2进入步骤S1070(采用结构变化;第2采用处理),并且以概率(1-p2)进入步骤S1080(拒绝结构变化并且恢复为原来的结构;拒绝处理)。单调递增函数P2(dv)相当于本发明中的“第2函数”,概率p2相当于本发明中的“第2采用概率”。
当结构多样性增加时进行上述概率处理(以通过单调递增函数P2(dv)计算出的概率p2计算候选结构)是因为,在设为“增加结构多样性时必须采用结构变化”的情况下,尽管物理特性值远离目标值,但采用结构变化的频度变得过高,其结果,物理特性值向目标值的收敛有可能变慢。通过进行上述概率处理,能够加快物理特性值的收敛来有效率地搜索化合物的结构。
另外,当在步骤S1060中计算出的dv<0时(当多样性减少时;在步骤S1055中“否”),进入步骤S1080(拒绝结构变化并且恢复为原来的结构;拒绝处理)。
<结构多样性的评价方法(其2)>
也可以代替上述“结构多样性的评价方法(其1)”,而考虑将表示试验的指标设为t时在过去m次的试验中得到的结构组Sprev={St-1,St-2,……,St-m}(其中,将t=m时出现的S0设为初始结构)和添加了考虑采用或拒绝的结构st的结构组Scurr={st,St-1,……,St-(m-1)},计算dv=V(Scurr)-V(Sprev),并通过单调递增函数P2(dv)计算概率p2(步骤S1060:第2采用处理)。即,结构组Sprev为由初始结构及发生了至少一次变化之后的化学结构构成的结构组(第1结构组),结构组Scurr为对第1结构组添加了候选结构的结构组(第2结构组)。Sprev(第1结构组)只要包含初始结构及发生了至少一次变化之后的结构组的至少一部分即可。并且,V(Sprev)、V(Scurr)分别为结构组Sprev、Scurr的结构多样性,dv表示由结构变化引起的结构多样性的增减量。并且,可以不是初始结构及在过去的试验中得到的结构组的全部,而是挑选性能上位(物理特性值越接近目标值,则位次越高)或下位(物理特性值越远离目标值,则位次越低)的结构而将其设为Sprev,也可以将现有库的化合物(结构已知的化合物)混合于Sprev中。通过这种Sprev的选择,能够灵活地设定结构多样性的评价基准。
在“结构多样性的评价方法(其2)”中,与成为多样性的评价基准的Sprev中所包含的化学结构不同的候选结构容易被选择。例如,当将现有库的化合物(结构已知的化合物)包含于Sprev中时,与该“现有库的化合物”的结构的相似性低的(结构与已知的化合物的结构不同的)候选结构容易被选择。并且,当挑选上位性能(物理特性值接近目标值)的结构而将其设为Sprev时,“具有与前面提及的上位性能的结构不同的结构的特征的上位性能的结构”容易被选择。因此,想要尽可能获取多样的上位性能的结构时,能够指定其条件。并且,即使在因某种原因而难以利用现有的上位性能的库化合物的情况下(容易分解、有毒性等),也能够将这些添加到Sprev中实施结构搜索。另一方面,当挑选下位性能的结构而将其设为Sprev时,“具有与前面提及的下位性能的结构不同的结构的特征的上位性能的结构”容易被选择。通过该搜索而得到的上位性能的结构组的多样性有可能变得比挑选上位性能的结构时还低,但是以避开下位性能的结构的方式进行搜索,因此认为能够加快搜索本身。如此,最终得到的结构有可能因Sprev的选择方式而不同。
<给出结构组的结构多样性的函数>
作为上述“给出结构组的结构多样性的函数”,例如可以考虑基于Tanimoto系数(表示化合物的相似度的指标之一)的如下定义(此外,也能够进行各种各样的定义)。具体而言,若将由比特列(0或1的数字序列)的fingerprint(指纹)(根据化合物的一定的规则转换为固定长度的矢量的方法,已知有各种各样的生成方法)表示结构s的项设为Fs,则Tanimoto系数的定义由以下的式(4)表示。
[数式4]
其中,|Fs|为在Fs中1的比特数,|Fs∩Fs’|为在Fs和Fs’中共同为1的比特数。Ts,s’在Fs与Fs’完全一致时成为1,完全不一致时成为0。因此,Ts,s’为表示结构s与结构s’的相似度的指标。由于需要求出的是非相似度,因此由以下的式(5)定义结构s与结构s’的非相似度vs,s’。
[数式5]
vs,s′=1-Ts,s′ (5)
使用该非相似度vs,s’,能够由以下的式(6)定义结构组S的非相似度(即,结构组的结构多样性)。
[数式6]
V(S)取0至1的值,值越大,则表示结构组的结构多样性越高。
并且,作为对于结构多样性的增减量dv的单调递增函数P2(dv),例如能够使用以下的式(7)所表示的函数。σv和Cv为超参数,能够通过改变值来调节单调递增的程度。也可以通过经由操作部400的用户的指示输入来改变这些参数的值。
[数式7]
P2(dv)=Cv(1-exp[-dv/σv]) (7)
根据函数形式明确可知,P2在dv→∞的极限处成为Cv。因此,Cv表示“在多样性充分提高的结构变化时采用该结构变化的概率”。
<处理的重复>
对给出的每一个初始结构进行上述第1采用处理、第2采用处理及拒绝处理,若对所有化学结构的上述处理结束,则1次试验结束。
若作为上述第1采用处理、第2采用处理及拒绝处理的结果而采用或拒绝候选结构,则控制部110判断是否满足结束条件(步骤S1090:控制工序)。例如,当使化学结构发生变化的次数(试验次数)达到指定的次数时和/或候选结构的物理特性值达到目标值时,能够判定为“满足结束条件”。当计算出多个化学结构和/或物理特性值时,可以设为“只要有1个达到目标值的化学结构和/或物理特性值,则结束计算”,也可以设为“重复进行试验,直至所有结构和/或物理特性值达到目标”。控制部110重复进行步骤S1020至步骤S1080的处理(输入工序、候选结构获取工序、物理特性值计算工序、候选结构采用工序),直至满足结束条件(在步骤S1090中“否”的期间),若满足结束条件(在步骤S1090中“是”),则结束化合物搜索方法的处理(步骤S1100)。
<第1实施方式的效果>
如以上所说明,根据第1实施方式所涉及的化合物搜索装置10、化合物搜索方法、记录介质及化合物搜索程序,能够促进脱离局部最小值,并且加快物理特性值的收敛,因此能够有效率地搜索具有所期望的物理特性值的化合物的结构。
<实施例:色素的搜索>
关于本发明,根据实施例进行具体说明。关于该实施例,也能够通过图1、2所示的化合物搜索装置10(化合物搜索装置)及图3所示的流程图(化合物搜索方法及化合物搜索程序的处理)进行搜索。
<输入工序>
在实施例中,如图4的(a)部分所示,给出25个酚来作为初始结构。作为物理特性值,考虑λmax(最大吸收波长),并将目标值设为367nm。将结构以PM6水平最优化之后,用ZINDO计算λmax。计算中使用了量子化学计算用软件“Gaussian16”。这些处理相当于图3的流程图的步骤S1010(输入工序)。
<候选结构获取工序>
使上述初始结构随机地发生变化(步骤S1020:候选结构获取工序)。作为结构变化的方法,与第1实施方式同样地,能够使用对化学结构追加或删除原子或原子团而生成对象结构,并将对象结构作为候选结构的方法。例如,假设第1个结构如图4的(b)部分至(c)部分所示那样发生了变化。
<物理特性值计算工序>
在该情况下,假设如图4的(d)部分所示,发生了变化的结构的物理特性值的估计结果为λmax=200(nm)(步骤S1030:物理特性值计算工序)。
<候选结构采用工序:第1采用处理>
判断物理特性值是否接近目标值(步骤S1040:第1采用处理)。根据|F-f1|=|367-200|=167(nm)、|F-f0|=|367-207|=160(nm),由于是|F-f1|>|F-f0|(第1差分的绝对值大于第2差分的绝对值,物理特性值远离目标值),因此步骤S1040的判断被否定,进入步骤S1050(概率p1的计算)。根据物理特性值和目标值并通过上述第1函数(对于第3差分d的单调递减函数P1(d))计算概率p1(第1概率)。在此,假设σ=10(nm),如以下的式(8)那样进行计算。
[数式8]
因此,采用第1结构变化的可能性几乎为50%。然而,假设产生随机数来评价的结果为“不采用结构变化”。在该情况下,进入步骤S1060(概率p2的计算;第2采用处理)。
<候选结构采用工序:第2采用处理>
在步骤S1060中,计算结构多样性的增减量,并通过上述第2函数计算概率p2(第2采用概率)。另外,如图5所示,将初始结构组设为S0,将考虑到第1次结构变化的结构组设为S1。
首先,计算fingerprint(指纹)。在此,使用R(开放源代码的编程语言及其开发环境)的库rcdk来估计extended fingerprint(扩展指纹)。比特列的长度为1024。将结果示于图6。图中的数字是值成为1的比特的编号。因此,若如图7所示配置变化前的结构s和变化后的结构s’,则根据以下的式(9)、(10)及(11)可求出Tanimoto系数及结构的非相似度。
[数式9]
|Fs|=15|Fs′|=8
|Fs∩Fs|=15,|Fs′∩Fs′|=8,|Fs∩Fs′|=8 (9)
[数式10]
[数式11]
因此,如以下的式(12)那样求出结构组的非相似度。
[数式12]
V(S0)=0
因此,若求出结构多样性的增减量(结构多样性通过上述“结构多样性的评价方法(其1)”来进行评价),则增减量dv=V(S1)-V(S0)≒0.017>0。即,多样性因结构变化而提高,因此进入概率p2(第2采用概率)的计算(步骤S1060:第2采用处理)。若上述式(7)中设为σv=0.01、Cv=0.5,则概率p2能够如式(13)那样进行计算。
[数式13]
在步骤S1060中产生随机数来进行评价的结果,当采用结构变化时,进入步骤S1070。然后,正式采用第1个结构变化,并登记苯来作为新的结构(参考图8)。关于其他24个结构,也进行相同的处理。
另一方面,当在步骤S1060中未采用结构变化时,进入步骤S1080,如图9所示,使结构恢复为结构变化前的结构(拒绝结构变化;拒绝处理)。
假设对25个结构全部都进行评价的结果,得到了图10所示的结构组。另外,在图10的结构组中仍然留有初始结构的酚的是在步骤S1060(以概率p2采用结构变化)中拒绝结构变化并进入步骤S1080的结果而得到的。在图10所示的结构中具有最接近目标值的物理特性值的结构中,λmax=208(nm)(参考图11),仍未达到目标值367nm。因此,步骤S1090的判断被否定,返回到步骤S1020(控制工序)。
将重复进行以上处理时的结构和λmax的变化的情形示于图12。在第113次试验中出现的结构中,λmax与目标一致,在本发明中能够确认到通过解决逆问题能够获取具有目标物理特性的化合物。另外,在第113次试验中出现的结构是称为甲基黄的实际存在的化合物。由于物理特性值达到目标,因此在此可以结束处理,但在此假设进一步继续进行搜索。然后,将试验次数的上限设定为500次,在试验次数达到上限500次(即,满足此处的结束条件)的时刻结束处理(在步骤S1090中“是”时,进入步骤S1100;控制工序)。通过500次试验,除了上述甲基黄以外,还能够获取多个期待具有目标λmax的化合物结构(例如,图13的(a)部分及(b)部分所示的结构)。
<与其他方法的比较>
作为其他方法,经常使用的是贝叶斯推断。在此,对使用作为贝叶斯推断的一种的粒子滤波器计算出的结果与本发明中所得到的结果进行比较。在与上述实施例相同的λmax计算条件下,使用粒子滤波器实施了λmax=367(nm)的化合物的搜索。在直至第500次试验为止得到的化合物中,将上位50个化合物的λmax与本发明的结果一同示出(参考图14)。在贝叶斯推断中,仅得到了少数的λmax与目标值相等的化合物,但在本发明中,上位50个化合物全部都成为与目标值相等的λmax。因此,可以说“本发明比贝叶斯推断能够以良好的效率进行结构搜索”。
为了明确在贝叶斯推断中搜索效率低的原因,标绘出相对于试验次数的上位50个化合物的λmax的平均值(参考图15)。其结果得知,在贝叶斯推断中,搜索两次陷入局部最小值。相对于此,在本发明中,一次也没有陷入局部最小值,能够顺畅地进行搜索。另外,调查了第500次试验的上位50个化合物的结构多样性(上述V(S)的值)的结果,与贝叶斯推断的情况相比,本发明的多样性大(参考图16)。这意味着“能够获取物理特性值与目标值相等,并且在结构上多样性更加丰富的化合物结构”。
如此,根据本发明,与通常使用的贝叶斯推断的方法相比,搜索效率明显得到了提高。并且,所得到的化合物的结构多样性也变得更高。
<结构多样性的评价方法与结构搜索的效率的关系>
在上述实施例中,通过“结构多样性的评价方法(其1)”评价了结构的多样性,但是在使用“结构多样性的评价方法(其2)”时也能够以相等的效率实施结构搜索。具体而言,计算出与各试验中的上位20个化合物(以物理特性值接近目标值的顺序设为第1、第2、…)的目标λmax(367nm)的均方误差的结果,如图17所示,即使在使用“结构多样性的评价方法(其1)”、“结构多样性的评价方法(其2)”中的任一种的情况下,在进行20次左右试验时也能够实现“均方误差<100(nm2)”。另外,在“结构多样性的评价方法(其2)”中,Sprev设为“在过去的试验中生成的结构中物理特性值接近目标值的上位100个”。
<其他实施例>
将在多样性的比较对象中包括了甲基黄(上述“现有库的化合物”的一例)时的结构搜索结果示于图18。进行结构搜索的结果,未产生甲基黄,且能够得到很多与甲基黄的相似性低的(Tanimoto系数小的)候选化合物。另外,图18中的数值为第500次试验中的值。并且,如上所述,Tanimoto系数为表示化合物的结构的相似度的指标之一,取0至1的值(越接近1,则相似性越高)。
<第2实施方式>
接着,对本发明的第2实施方式进行说明。在上述第1实施方式中,首先进行第1采用处理,当通过第1采用处理未采用候选结构时进行第2采用处理,但在第2实施方式中,与第1实施方式相反地,首先进行第2采用处理,当通过第2采用处理未采用候选结构时进行第1采用处理。
在第2实施方式中,与第1实施方式同样地,化合物搜索装置(化合物搜索装置)的结构能够采用图1、2所示的结构。
图19是表示第2实施方式所涉及的化合物搜索方法及化合物搜索程序的处理的流程图。另外,在图19中,对进行与图3相同的处理的步骤标注相同的步骤编号,并省略详细说明。并且,非临时性且计算机可读的记录介质也是第2实施方式的一种方式,当存储于记录介质中的指令被计算机读取时,记录介质使计算机执行与图19的流程图有关的程序。
当候选结构采用部108(候选结构采用部)在步骤S1040中判断为否(物理特性值不接近目标值)时,进入步骤S1052。步骤S1052(第2采用处理)的内容与图3的步骤S1055相同,候选结构采用部108能够通过上述“结构多样性的评价方法(其1)”或“结构多样性的评价方法(其2)”来评价结构多样性。
若在步骤S1052中判断被肯定,则进入步骤S1057,与图3的步骤S1060同样地,候选结构采用部108通过单调递增函数P2(dv)计算概率p2(第2采用概率)(第2采用处理)。若求出概率p2,则候选结构采用部108使用适当地产生的随机数以概率p2采用结构变化(步骤S1070:第2采用处理)。当在步骤S1057中未采用结构变化时,进入步骤S1062。
在步骤S1062中,与步骤S1050同样地,候选结构采用部108根据物理特性值和目标值计算概率p1(第1采用概率)(第1采用处理),并使用适当地产生的随机数以概率p1采用结构变化(步骤S1070:第1采用处理)。当拒绝了结构变化时,进入步骤S1080,候选结构采用部108拒绝结构变化并且恢复为原来的结构(拒绝处理)。另外,即使在步骤S1052中判断被否定的情况(结构多样性未增加的情况)下,也不是立即拒绝结构变化,而保留根据物理特性值和目标值进行采用的余地(进入步骤S1062)。
在上述第2实施方式的情况下,与第1实施方式同样地,也能够有效率地搜索具有所期望的物理特性值的化合物的结构。
另外,基于图19的流程图的采用概率与图3的情况相同。如图3那样以“物理特性=>结构多样性”的顺序评价时的结构变化的采用概率为“p1+(1-p1)×p2=p1+p2-p1×p2”,但如图19那样以“结构多样性=>物理特性”的顺序评价时的采用概率也是“p2+(1-p2)×p1=p1+p2-p1×p2”。
<第3实施方式>
接着,对本发明的第3实施方式进行说明。在上述第1、第2实施方式中,当进行第1、第2采用处理中的一种采用处理并且未采用候选结构时进行另一种采用处理,但在第3实施方式中同时执行第1、第2采用处理。
另外,在第3实施方式中,与第1实施方式同样地,化合物搜索装置(化合物搜索装置)的结构能够采用图1、2所示的结构。
图20是表示第3实施方式所涉及的化合物搜索方法及化合物搜索程序的处理的流程图。另外,在图20中,对进行与图3相同的处理的步骤标注相同的步骤编号,并省略详细说明。并且,非临时性且计算机可读的记录介质也是第3实施方式的一种方式,当存储于记录介质中的指令被计算机读取时,记录介质使计算机执行与图20的流程图有关的程序。
当候选结构采用部108(候选结构采用部)在步骤S1040中判断为否(物理特性值不接近目标值)时,进入步骤S1054。在步骤S1054中,候选结构采用部108通过与上述步骤S1050、S1062相同的方法来计算概率p1(第1采用概率)(第1计算处理)。
并且,当候选结构采用部108(候选结构采用部)在步骤S1040中判断为否时,进入步骤S1059。在步骤S1059中,与步骤S1055、S1052同样地,候选结构采用部108能够通过“结构多样性的评价方法(其1)”或“结构多样性的评价方法(其2)”来判断结构多样性是否增加。另一方面,当在步骤S1059中判断被肯定时,进入步骤S1064,通过与上述步骤S1060、S1057相同的方法来计算概率p2(第2采用概率)(第2计算处理),并且进入步骤S1065。另外,第1计算处理及第2计算处理可以同时进行,也可以先进行其中一个,但是在计算出概率p1及概率p2之后判断是否采用候选结构。
在步骤S1065中,候选结构采用部108根据概率p1(第1采用概率)及概率p2(第2采用概率)来决定是否采用候选结构(采用处理)。候选结构采用部108例如能够以“概率p1、p2中较大的概率”采用候选结构。此外,也可以以“概率p1、p2中较小的概率”、“概率p1、p2的平均概率”、“概率p1、p2的同时概率(=p1×p2)”等采用候选结构。候选结构采用部108以这样的概率(采用概率)进入步骤S1070,采用候选结构(采用处理),并且以(1-采用概率)进入步骤S1080,拒绝结构变化并且恢复为原来的结构(拒绝处理)。
另外,即使在步骤S1059中判断被否定时(结构多样性未增加的情况)下,也不立即拒绝结构变化,而保留采用结构变化的余地(设为概率p2=0,并进入步骤S1065)。
在上述第3实施方式的情况下,与第1、第2实施方式同样地,也能够有效率地搜索具有所期望的物理特性值的化合物的结构。
以上,关于本发明的实施方式及实施例进行了说明,但本发明并不限定于上述方式,在不脱离本发明的精神的范围内能够进行各种变形。
符号说明
10-化合物搜索装置,100-处理部,102-输入部,104-候选结构获取部,106-物理特性值计算部,108-候选结构采用部,110-控制部,112-显示控制部,120-CPU,122-ROM,124-RAM,200-存储部,300-显示部,310-显示器,400-操作部,410-键盘,420-鼠标,500-外部服务器,510-外部数据库,1000-网络,S1010~S1100-化合物搜索方法的各步骤。
Claims (17)
1.一种化合物搜索方法,其具有下述工序:
输入工序,输入1个或多个化合物的化学结构、所述化学结构的1个或多个物理特性值及所述物理特性值的目标值;
候选结构获取工序,使所述化学结构发生变化而得到候选结构;
物理特性值计算工序,计算所述候选结构的所述物理特性值;
候选结构采用工序,其是采用或拒绝所述候选结构的工序,所述候选结构采用工序进行根据所述候选结构的所述物理特性值是否因所述化学结构的所述变化而接近所述物理特性值的所述目标值来判断是否采用所述候选结构的第1采用处理,当通过第1采用处理未采用所述候选结构时,进行根据由所述化学结构及所述候选结构构成的结构组的结构多样性是否因所述化学结构的所述变化而增加来判断是否采用所述候选结构的第2采用处理,当通过第1采用处理及第2采用处理未采用所述候选结构时,进行拒绝所述化学结构的所述变化并且恢复为发生所述变化之前的所述化学结构的拒绝处理;及
控制工序,重复进行所述输入工序、所述候选结构获取工序、所述物理特性值计算工序及所述候选结构采用工序中的处理,直至满足结束条件。
2.一种化合物搜索方法,其具有下述工序:
输入工序,输入1个或多个化合物的化学结构、所述化学结构的1个或多个物理特性值及所述物理特性值的目标值;
候选结构获取工序,使所述化学结构发生变化而得到候选结构;
物理特性值计算工序,计算所述候选结构的所述物理特性值;
候选结构采用工序,其是采用或拒绝所述候选结构的工序,所述候选结构采用工序进行根据由所述化学结构及所述候选结构构成的结构组的结构多样性是否因所述化学结构的所述变化而增加来判断是否采用所述候选结构的第2采用处理,当通过所述第2采用处理未采用所述候选结构时,进行根据所述候选结构的所述物理特性值是否因所述化学结构的所述变化而接近所述物理特性值的所述目标值来判断是否采用所述候选结构的第1采用处理,当通过所述第1采用处理及所述第2采用处理未采用所述候选结构时,进行拒绝所述化学结构的所述变化并且恢复为发生所述变化之前的所述化学结构的拒绝处理;及
控制工序,重复进行所述输入工序、所述候选结构获取工序、所述物理特性值计算工序及所述候选结构采用工序中的处理,直至满足结束条件。
3.根据权利要求1或2所述的化合物搜索方法,其中,
在所述候选结构采用工序中,作为所述第1采用处理,
当所述候选结构的所述物理特性值与所述物理特性值的所述目标值的差分的绝对值为所述化学结构的所述物理特性值与所述物理特性值的所述目标值的差分的绝对值以下时,进行采用所述候选结构的处理,
当所述候选结构的所述物理特性值与所述物理特性值的所述目标值的所述差分的所述绝对值大于所述化学结构的所述物理特性值与所述物理特性值的所述目标值的所述差分的所述绝对值时,进行根据所述候选结构的所述物理特性值与所述物理特性值的所述目标值的差分并通过第1函数计算第1采用概率,并且以所述第1采用概率采用所述候选结构的处理。
4.根据权利要求1至3中任一项所述的化合物搜索方法,其中,
在所述候选结构采用工序中,作为所述第2采用处理,进行计算所述结构组的所述结构多样性的增减量,根据所述增减量并通过第2函数计算第2采用概率,并且以第2采用概率采用所述候选结构的处理。
5.一种化合物搜索方法,其具有下述工序:
输入工序,输入1个或多个化合物的化学结构、所述化学结构的1个或多个物理特性值及所述物理特性值的目标值;
候选结构获取工序,使所述化学结构发生变化而得到候选结构;
物理特性值计算工序,计算所述候选结构的所述物理特性值;
候选结构采用工序,其是采用或拒绝所述候选结构的工序,所述候选结构采用工序进行根据所述候选结构的所述物理特性值是否因所述化学结构的所述变化而接近所述物理特性值的所述目标值来计算所述候选结构的采用中所使用的第1采用概率的第1计算处理、及根据由所述化学结构及所述候选结构构成的结构组的结构多样性是否因所述化学结构的所述变化而增加来计算所述候选结构的采用中所使用的第2采用概率的第2计算处理,并且进行根据所述第1采用概率及所述第2采用概率来采用所述候选结构的采用处理,当进行所述采用处理的结果是未采用所述候选结构时,进行拒绝所述化学结构的所述变化并且恢复为发生所述变化之前的所述化学结构的拒绝处理;及
控制工序,重复进行所述输入工序、所述候选结构获取工序、所述物理特性值计算工序及所述候选结构采用工序中的处理,直至满足结束条件。
6.根据权利要求5所述的化合物搜索方法,其中,
在所述候选结构采用工序中,
当所述候选结构的所述物理特性值与所述物理特性值的所述目标值的差分的绝对值为所述化学结构的所述物理特性值与所述物理特性值的所述目标值的差分的绝对值以下时,进行采用所述候选结构的处理,
当所述候选结构的所述物理特性值与所述物理特性值的所述目标值的所述差分的所述绝对值大于所述化学结构的所述物理特性值与所述物理特性值的所述目标值的所述差分的所述绝对值时,进行根据所述候选结构的所述物理特性值与所述物理特性值的所述目标值的差分并通过第1函数计算所述第1采用概率的处理、及计算所述结构组的所述结构多样性的增减量,并且根据所述增减量并通过第2函数计算所述第2采用概率的处理。
7.根据权利要求4或6所述的化合物搜索方法,其中,
在所述候选结构采用工序中,计算由发生所述变化之前的所述化学结构构成的第1结构组的结构多样性与由发生至少一次所述变化之后的所述化学结构构成的第2结构组的结构多样性的差分来作为所述增减量。
8.根据权利要求4或6所述的化合物搜索方法,其中,
在所述候选结构采用工序中,计算包含发生至少一次所述变化之后的结构组的至少一部分的第1结构组的结构多样性与对所述第1结构组添加了所述候选结构的第2结构组的结构多样性的差分来作为所述增减量。
9.根据权利要求3或6所述的化合物搜索方法,其中,
所述第1函数为对于所述候选结构的所述物理特性值与所述物理特性值的所述目标值的所述差分的所述绝对值、与所述化学结构的所述物理特性值与所述物理特性值的所述目标值的所述差分的所述绝对值的差分的单调递减函数。
10.根据权利要求4或6所述的化合物搜索方法,其中,
所述第2函数为对于所述结构多样性的所述增减量的单调递增函数。
11.根据权利要求1至10中任一项所述的化合物搜索方法,其中,
在所述候选结构获取工序中,对所述化学结构追加或删除原子或原子团而生成对象结构,并将所述对象结构作为所述候选结构。
12.根据权利要求1至11中任一项所述的化合物搜索方法,其中,
在所述控制工序中,当使所述化学结构发生变化的次数达到指定的次数时和/或当所述候选结构的所述物理特性值达到所述目标值时,判定为满足所述结束条件而结束所述输入工序、所述候选结构获取工序、所述物理特性值计算工序及所述候选结构采用工序的处理。
13.一种化合物搜索程序,其使计算机执行权利要求1至12中任一项所述的化合物搜索方法。
14.一种记录介质,其为非临时性且计算机可读的记录介质,其中,
当存储于所述记录介质中的指令被计算机读取时,使计算机执行权利要求13所述的程序。
15.一种化合物搜索装置,其具有:
输入部,输入1个或多个化合物的化学结构、所述化学结构的1个或多个物理特性值及所述物理特性值的目标值;
候选结构获取部,使所述化学结构发生变化而得到候选结构;
物理特性值计算部,计算所述候选结构的所述物理特性值;
候选结构采用部,其采用或拒绝所述候选结构,所述候选结构采用部进行根据所述候选结构的所述物理特性值是否因所述化学结构的所述变化而接近所述物理特性值的所述目标值来判断是否采用所述候选结构的第1采用处理,当通过第1采用处理未采用所述候选结构时,进行根据由所述化学结构及所述候选结构构成的结构组的结构多样性是否因所述化学结构的所述变化而增加来判断是否采用所述候选结构的第2采用处理,当通过第1采用处理及第2采用处理未采用所述候选结构时,进行拒绝所述化学结构的所述变化并且恢复为发生所述变化之前的所述化学结构的拒绝处理;及
控制部,重复进行所述输入部、所述候选结构获取部、所述物理特性值计算部及所述候选结构采用部中的处理,直至满足结束条件。
16.一种化合物搜索装置,其具有:
输入部,输入1个或多个化合物的化学结构、所述化学结构的1个或多个物理特性值及所述物理特性值的目标值;
候选结构获取部,使所述化学结构发生变化而得到候选结构;
物理特性值计算部,计算所述候选结构的所述物理特性值;
候选结构采用部,采用或拒绝所述候选结构,
所述候选结构采用部进行根据由所述化学结构及所述候选结构构成的结构组的结构多样性是否因所述化学结构的所述变化而增加来判断是否采用所述候选结构的第2采用处理,
当通过所述第2采用处理未采用所述候选结构时,进行根据所述候选结构的所述物理特性值是否因所述化学结构的所述变化而接近所述物理特性值的所述目标值来判断是否采用所述候选结构的第1采用处理,
当通过所述第1采用处理及所述第2采用处理未采用所述候选结构时,进行拒绝所述化学结构的所述变化并且恢复为发生所述变化之前的所述化学结构的拒绝处理;及
控制部,重复进行所述输入部、所述候选结构获取部、所述物理特性值计算部及所述候选结构采用部中的处理,直至满足结束条件。
17.一种化合物搜索装置,其具有:
输入部,输入1个或多个化合物的化学结构、所述化学结构的1个或多个物理特性值及所述物理特性值的目标值;
候选结构获取部,使所述化学结构发生变化而得到候选结构;
物理特性值计算部,计算所述候选结构的所述物理特性值;
候选结构采用部,采用或拒绝所述候选结构,
所述候选结构采用部同时进行根据所述候选结构的所述物理特性值是否因所述化学结构的所述变化而接近所述物理特性值的所述目标值来计算采用所述候选结构的第1采用概率的第1计算处理、及根据由所述化学结构及所述候选结构构成的结构组的结构多样性是否因所述化学结构的所述变化而增加来计算采用所述候选结构的第2采用概率的第2计算处理,
并且进行根据所述第1采用概率及所述第2采用概率来采用所述候选结构的采用处理,
当进行所述采用处理的结果是未采用所述候选结构时,进行拒绝所述化学结构的所述变化并且恢复为发生所述变化之前的所述化学结构的拒绝处理;及
控制部,重复进行所述输入部、所述候选结构获取部、所述物理特性值计算部及所述候选结构采用部中的处理,直至满足结束条件。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018172578 | 2018-09-14 | ||
JP2018-172578 | 2018-09-14 | ||
PCT/JP2019/036074 WO2020054841A1 (ja) | 2018-09-14 | 2019-09-13 | 化合物探索方法、化合物探索プログラム、記録媒体、及び化合物探索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112689878A true CN112689878A (zh) | 2021-04-20 |
Family
ID=69777647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980059942.8A Pending CN112689878A (zh) | 2018-09-14 | 2019-09-13 | 化合物搜索方法、化合物搜索程序、记录介质及化合物搜索装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210193274A1 (zh) |
EP (1) | EP3852114A4 (zh) |
JP (1) | JP7116186B2 (zh) |
CN (1) | CN112689878A (zh) |
IL (1) | IL281387A (zh) |
WO (1) | WO2020054841A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115579050A (zh) * | 2022-12-08 | 2023-01-06 | 香港中文大学(深圳) | 生物分子功能性动力学中关键原子集的搜索方法、系统 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112133379A (zh) * | 2020-09-18 | 2020-12-25 | 武汉智化科技有限公司 | 一种化学反应搜索方法、装置及系统、图形处理器 |
JPWO2022149395A1 (zh) * | 2021-01-07 | 2022-07-14 | ||
JPWO2023008173A1 (zh) * | 2021-07-27 | 2023-02-02 | ||
CN117716431A (zh) * | 2021-07-27 | 2024-03-15 | 松下知识产权经营株式会社 | 探索方法、探索系统、程序、预测模型构建方法及预测模型构建装置 |
JP7388578B1 (ja) | 2023-01-16 | 2023-11-29 | 住友ベークライト株式会社 | 化学構造提案方法、プログラム、および化学構造提案装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6185506B1 (en) * | 1996-01-26 | 2001-02-06 | Tripos, Inc. | Method for selecting an optimally diverse library of small molecules based on validated molecular structural descriptors |
JP2000029858A (ja) * | 1998-07-15 | 2000-01-28 | Victor Co Of Japan Ltd | 最適化装置 |
JP2003206246A (ja) * | 2002-01-07 | 2003-07-22 | Ichiro Yamato | 化合物の立体構造探索プログラム、立体構造探索装置、及び立体構造探索方法 |
CN101855392A (zh) * | 2007-11-12 | 2010-10-06 | 电子虚拟生物科技株式会社 | 虚拟筛选装置及虚拟筛选方法 |
US9009009B2 (en) * | 2011-06-27 | 2015-04-14 | The Research Foundation For The State University Of New York | Method for predicting optimized crystal structures |
EP2889791A4 (en) * | 2012-08-27 | 2016-04-13 | Kyoto Constella Technologies Co Ltd | DEVICE FOR DESIGNING A CONNECTION PROCESS FOR THE DESIGN OF A CONNECTION AND COMPUTER PROGRAM |
KR102457974B1 (ko) * | 2015-11-04 | 2022-10-21 | 삼성전자주식회사 | 신규 물질 탐색 방법 및 장치 |
-
2019
- 2019-09-13 EP EP19860042.1A patent/EP3852114A4/en active Pending
- 2019-09-13 CN CN201980059942.8A patent/CN112689878A/zh active Pending
- 2019-09-13 WO PCT/JP2019/036074 patent/WO2020054841A1/ja unknown
- 2019-09-13 JP JP2020546219A patent/JP7116186B2/ja active Active
-
2021
- 2021-03-04 US US17/192,034 patent/US20210193274A1/en active Pending
- 2021-03-10 IL IL281387A patent/IL281387A/en unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115579050A (zh) * | 2022-12-08 | 2023-01-06 | 香港中文大学(深圳) | 生物分子功能性动力学中关键原子集的搜索方法、系统 |
CN115579050B (zh) * | 2022-12-08 | 2023-03-14 | 香港中文大学(深圳) | 生物分子功能性动力学中关键原子集的搜索方法、系统 |
Also Published As
Publication number | Publication date |
---|---|
US20210193274A1 (en) | 2021-06-24 |
JPWO2020054841A1 (ja) | 2021-08-30 |
EP3852114A1 (en) | 2021-07-21 |
WO2020054841A1 (ja) | 2020-03-19 |
IL281387A (en) | 2021-04-29 |
EP3852114A4 (en) | 2021-11-10 |
JP7116186B2 (ja) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112689878A (zh) | 化合物搜索方法、化合物搜索程序、记录介质及化合物搜索装置 | |
US20210117869A1 (en) | Ensemble model creation and selection | |
Bellodi et al. | Expectation Maximization over binary decision diagrams for probabilistic logic programs | |
JP6962532B1 (ja) | 事象予測装置および事象予測用プログラム | |
Altun et al. | Gaussian process classification for segmenting and annotating sequences | |
Ruggieri | Complete search for feature selection in decision trees | |
Moss et al. | Gaussian process molecule property prediction with flowmo | |
Nguyen et al. | Gaussian transformation based representation in particle swarm optimisation for feature selection | |
Kim et al. | Cascadehd: Efficient many-class learning framework using hyperdimensional computing | |
Arenz et al. | A unified perspective on natural gradient variational inference with gaussian mixture models | |
Masood et al. | A particle-based variational approach to bayesian non-negative matrix factorization | |
Conaty et al. | Cascading sum-product networks using robustness | |
Sharp et al. | Dense message passing for sparse principal component analysis | |
Bånkestad et al. | Variational elliptical processes | |
Frazzetto et al. | Topology preserving maps as aggregations for Graph Convolutional Neural Networks | |
CN116563646B (zh) | 一种基于离散化数据的大脑影像分类方法 | |
Khajehgili-Mirabadi et al. | Enhancing QSAR Modeling: A Fusion of Sequential Feature Selection and Support Vector Machine | |
Kamath et al. | Model Interpretability: Advances in Interpretable Machine Learning | |
Castro et al. | Evaluating the performance of a Bayesian Artificial Immune System for designing fuzzy rule bases | |
Zwanenburg | Feature selection methods | |
Punjabi et al. | Enhancing Performance of Lazy Learner by Means of Binary Particle Swarm Optimization | |
Eslami et al. | An effective hybrid model based on PSO-SVM algorithm with a new local search for feature selection | |
Zheng et al. | Semi-naive Bayesian classification | |
Pichler et al. | KNIFE: Kernelized-Neural Differential Entropy Estimation | |
Côrte-Real et al. | Improving candidate quality of probabilistic logic models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |