CN111105846B - 用于检索化合物的装置及方法 - Google Patents
用于检索化合物的装置及方法 Download PDFInfo
- Publication number
- CN111105846B CN111105846B CN201910915787.7A CN201910915787A CN111105846B CN 111105846 B CN111105846 B CN 111105846B CN 201910915787 A CN201910915787 A CN 201910915787A CN 111105846 B CN111105846 B CN 111105846B
- Authority
- CN
- China
- Prior art keywords
- lattice
- space
- lattice point
- compound
- limited
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 240
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 125000000539 amino acid group Chemical group 0.000 claims description 160
- 108090000623 proteins and genes Proteins 0.000 claims description 50
- 102000004169 proteins and genes Human genes 0.000 claims description 50
- 230000008859 change Effects 0.000 claims description 19
- 238000002922 simulated annealing Methods 0.000 claims description 19
- 230000005283 ground state Effects 0.000 claims description 10
- -1 isooctyl Chemical group 0.000 claims description 6
- 229910003460 diamond Inorganic materials 0.000 description 62
- 239000010432 diamond Substances 0.000 description 62
- 238000010586 diagram Methods 0.000 description 61
- 235000018102 proteins Nutrition 0.000 description 48
- 230000007704 transition Effects 0.000 description 41
- 230000006870 function Effects 0.000 description 40
- 150000001413 amino acids Chemical class 0.000 description 16
- 235000001014 amino acid Nutrition 0.000 description 15
- 229940024606 amino acid Drugs 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 15
- 238000000137 annealing Methods 0.000 description 10
- 230000007423 decrease Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 239000000243 solution Substances 0.000 description 6
- 238000005481 NMR spectroscopy Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000002424 x-ray crystallography Methods 0.000 description 4
- NHTMVDHEPJAVLT-UHFFFAOYSA-N Isooctane Chemical compound CC(C)CC(C)(C)C NHTMVDHEPJAVLT-UHFFFAOYSA-N 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- JVSWJIKNEAIKJW-UHFFFAOYSA-N dimethyl-hexane Natural products CCCCCC(C)C JVSWJIKNEAIKJW-UHFFFAOYSA-N 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- XDDAORKBJWWYJS-UHFFFAOYSA-N glyphosate Chemical compound OC(=O)CNCP(O)(O)=O XDDAORKBJWWYJS-UHFFFAOYSA-N 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 2
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 2
- UCMIRNVEIXFBKS-UHFFFAOYSA-N beta-alanine Chemical compound NCCC(O)=O UCMIRNVEIXFBKS-UHFFFAOYSA-N 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000013078 crystal Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 229920000642 polymer Polymers 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- MTCFGRXMJLQNBG-REOHCLBHSA-N (2S)-2-Amino-3-hydroxypropansäure Chemical compound OC[C@H](N)C(O)=O MTCFGRXMJLQNBG-REOHCLBHSA-N 0.000 description 1
- VKBLQCDGTHFOLS-NSHDSACASA-N (2s)-2-(4-benzoylanilino)propanoic acid Chemical compound C1=CC(N[C@@H](C)C(O)=O)=CC=C1C(=O)C1=CC=CC=C1 VKBLQCDGTHFOLS-NSHDSACASA-N 0.000 description 1
- 239000004475 Arginine Substances 0.000 description 1
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- 230000005366 Ising model Effects 0.000 description 1
- XUJNEKJLAYXESH-REOHCLBHSA-N L-Cysteine Chemical compound SC[C@H](N)C(O)=O XUJNEKJLAYXESH-REOHCLBHSA-N 0.000 description 1
- ONIBWKKTOPOVIA-BYPYZUCNSA-N L-Proline Chemical compound OC(=O)[C@@H]1CCCN1 ONIBWKKTOPOVIA-BYPYZUCNSA-N 0.000 description 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 1
- ODKSFYDXXFIFQN-BYPYZUCNSA-P L-argininium(2+) Chemical compound NC(=[NH2+])NCCC[C@H]([NH3+])C(O)=O ODKSFYDXXFIFQN-BYPYZUCNSA-P 0.000 description 1
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 1
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 1
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 1
- ZDXPYRJPNDTMRX-VKHMYHEASA-N L-glutamine Chemical compound OC(=O)[C@@H](N)CCC(N)=O ZDXPYRJPNDTMRX-VKHMYHEASA-N 0.000 description 1
- HNDVDQJCIGZPNO-YFKPBYRVSA-N L-histidine Chemical compound OC(=O)[C@@H](N)CC1=CN=CN1 HNDVDQJCIGZPNO-YFKPBYRVSA-N 0.000 description 1
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- KDXKERNSBIXSRK-YFKPBYRVSA-N L-lysine Chemical compound NCCCC[C@H](N)C(O)=O KDXKERNSBIXSRK-YFKPBYRVSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 1
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 1
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 1
- 239000004473 Threonine Substances 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 235000004279 alanine Nutrition 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 239000007864 aqueous solution Substances 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 235000009697 arginine Nutrition 0.000 description 1
- 235000009582 asparagine Nutrition 0.000 description 1
- 229960001230 asparagine Drugs 0.000 description 1
- 235000003704 aspartic acid Nutrition 0.000 description 1
- 229940000635 beta-alanine Drugs 0.000 description 1
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 1
- 235000004554 glutamine Nutrition 0.000 description 1
- 229920000140 heteropolymer Polymers 0.000 description 1
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- 229960000310 isoleucine Drugs 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/10—Nucleic acid folding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/90—Programming languages; Computing architectures; Database systems; Data warehousing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Materials Engineering (AREA)
- Metallurgy (AREA)
- Organic Chemistry (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
Abstract
本发明涉及用于检索化合物的装置及方法。本发明还涉及包含以下的装置:用于限定格点空间的限定单元,所述格点空间是其中依次布置化合物基团的格点的集合;限制单元;分配单元;运算单元;判断单元;以及控制单元,其在所述判断单元判断出分配到所述格点的任意所述化合物基团被布置在最外边沿上的情况下,使得所述限制单元执行有限格点空间的扩展,使得所述分配单元在所述扩展之后对包含在所述有限格点空间中的格点执行比特分配,以及使得所述运算单元执行最低能量的计算,其中所述装置是用于检索其中化合物基团彼此连接的化合物的装置。
Description
技术领域
本文中所讨论的一些实施方案涉及用于检索化合物的方法及装置。
背景技术
蛋白质是其中氨基酸为一维上连接的没有分支的链型聚合物。蛋白质通过折叠其链型聚合物而形成一定的构象(三维形状)。蛋白质的构象由氨基酸的序列确定。
蛋白质的构象与蛋白质的功能密切相关。蛋白质的分子识别功能通过使其构象内的特定区域与特定分子特异性结合来表达。因此,重要的是确定蛋白质的构象以理解蛋白质的功能。
例如,蛋白质的构象可通过X射线晶体学或核磁共振波谱法(nuclear magneticresonance spectroscopy,NMR)来确定。然而,通过X射线晶体学或NMR确定一种蛋白质的构象需要很长时间。此外,根据X射线晶体学,首先产生一种蛋白质的单晶。当不能产生单晶时,不能对蛋白质的构象进行X射线晶体学。此外,NMR可确定蛋白质在水溶液中的构象而不使蛋白质结晶,但是当蛋白质是大蛋白时,不能获得与蛋白质构象相关的大量信息。
同时,即使当蛋白质的构象未知时,也可从遗传信息或蛋白质本身相对容易地确定蛋白质的氨基酸序列。
因此,已经尝试根据氨基酸的序列预测蛋白质的构象。例如,存在根据菱形编码方法(diamond encoding method)用于确定蛋白质的折叠的方法。该方法是用于将链型氨基酸的位置嵌入菱形格点(lattice)中的方法,并且可表示三维结构(构象)。例如可使用伊辛模型(Ising model)来计算通过上述方法确定的构象的能量。例如,为了求解伊辛模型,使用退火机(annealing machine)。背景技术的一个实例公开在R.Babbush等,Constructionof Energy Functions for Lattice Heteropolymer Models:A Case Study inConstraint Satisfaction Programming and Adiabatic Quantum Optimization,arXiv:quant-ph/1211.3422v2(https://arxiv.org/abs/1211.3422)中。
发明内容
由于用于求解伊辛模型的退火机的硬件存在限制,因此退火机可处理的算术比特(arithmetic bit)或量子比特(quantum bit)的数目存在限制。
同时,如图1的图中所示,用于求解蛋白质的折叠问题的比特(bit)的数目相对于蛋白质的规模(氨基酸残基的数目)呈指数提高。
如上所述,待求解的问题的规模受到通过硬件处理的比特的数目的限制,并且因此不能扩展氨基酸的检索靶标。
本公开内容所具有的一个目的是提供用于检索化合物的装置、方法和程序,其可以适当地抑制用于检索预定化合物的算术比特或量子比特的数目,并且可以检索具有大分子量的化合物。
根据本公开内容的一个方面,用于检索化合物的装置包含:限定单元,其被配置为限定格点空间,该格点空间是其中依次布置多个化合物基团的格点的集合;限制单元,其被配置为在将任意化合物基团布置在格点空间的任意格点中并随后将下一化合物基团布置在格点空间中的情况下,生成有限格点空间,该有限格点空间是通过从格点空间中消除对于待布置的下一化合物基团不理想的区域而产生的空间;分配单元,其被配置为将比特分配到有限格点空间中的可布置化合物基团的每个格点;运算单元,其被配置为对通过根据模拟退火(simulated annealing)基于与每个格点相关的限制条件进行转换而获得的伊辛模型进行基态检索,从而计算伊辛模型的最低能量;判断单元,其被配置为判断分配到格点的任意化合物基团是否被布置在有限格点空间的最外边沿上;以及控制单元,其被配置为在判断单元判断出分配到格点的任意化合物基团被布置在有限格点空间的最外边沿上的情况下,使得限制单元执行有限格点空间的扩展,使得分配单元在扩展之后对包含在有限格点空间中的格点执行比特分配,以及使得运算单元执行伊辛模型的最低能量的计算,其中装置是用于检索其中多个化合物基团彼此连接的化合物的装置。
根据本公开内容的另一方面,用于检索化合物的方法包括:限定格点空间,该格点空间是其中依次布置多个化合物基团的格点的集合;在将任意化合物基团布置在格点空间的任意格点中并随后将下一化合物基团布置在格点空间中的情况下,生成有限格点空间,该有限格点空间是通过从格点空间中消除对于待布置的下一化合物基团不理想的区域而产生的空间;将比特分配到有限格点空间中的可布置化合物基团的每个格点;对通过根据模拟退火基于与每个格点相关的限制条件进行转换而获得的伊辛模型进行基态检索,从而计算伊辛模型的最低能量;判断分配到格点的任意化合物基团是否被布置在有限格点空间的最外边沿上;以及在判断出分配到格点的任意化合物基团被布置在有限格点空间的最外边沿上的情况下,执行有限格点空间的扩展,在扩展之后将比特分配到包含在有限格点空间中的格点,在扩展之后将比特分配到包含在有限格点空间中的格点,并计算伊辛模型的最低能量,其中该方法是用于允许计算机检索其中多个化合物基团彼此连接之化合物的方法。
根据本公开内容的另一方面,用于检索化合物的程序用于使得计算机执行用于检索其中多个化合物基团彼此链接之化合物的方法。该方法包括:限定格点空间,该格点空间是其中依次布置多个化合物基团的格点的集合;在将任意化合物基团布置在格点空间的任意格点中并随后将下一化合物基团布置在格点空间中的情况下,生成有限格点空间,该有限格点空间是通过从格点空间中消除对于待布置的下一化合物基团不理想的区域而产生的空间;将比特分配到有限格点空间中的可布置化合物基团的每个格点;对通过根据模拟退火基于与每个格点相关的限制条件进行转换而获得的伊辛模型进行基态检索,从而计算伊辛模型的最低能量;判断分配到格点的任意化合物基团是否被布置在有限格点空间的最外边沿上;以及在判断出分配到格点的任意化合物基团被布置在有限格点空间的最外边沿上的情况下,执行有限格点空间的扩展,在扩展之后将比特分配到包含在有限格点空间中的格点,在扩展之后将比特分配到包含在有限格点空间中的格点,并计算伊辛模型的最低能量。
根据本公开内容的一个方面,提供了用于检索化合物的装置,其可以适当地抑制用于检索预定化合物的算术比特或量子比特的数目,并且可以检索具有大分子量的化合物。
根据本公开内容的另一方面,提供了用于检索化合物的方法,其可以适当地抑制用于检索预定化合物的算术比特或量子比特的数目,并且可以检索具有大分子量的化合物。
根据本公开内容的另一方面,提供了用于检索化合物的程序,其可以适当地抑制用于检索预定化合物的算术比特或量子比特的数目,并且可以检索具有大分子量的化合物。
附图说明
图1是描绘了氨基酸残基的数目和所使用的比特的数目之间的关系的图。
图2A是检索蛋白质的稳定构象的示意图(部分1)。
图2B是检索蛋白质的稳定构象的示意图(部分2)。
图2C是检索蛋白质的稳定构象的示意图(部分3)。
图3A是用于描述菱形编码方法的示意图(部分1)。
图3B是用于描述菱形编码方法的示意图(部分2)。
图3C是用于描述菱形编码方法的示意图(部分3)。
图3D是用于描述菱形编码方法的示意图(部分4)。
图3E是用于描述菱形编码方法的示意图(部分5)。
图4是举例说明了其中根据所公开的技术限制格点空间的情况的概念图。
图5是举例说明了其中氨基酸残基被布置在有限格点空间的最外边沿(外壳)上的实例的图。
图6是举例说明了所公开的用于检索化合物的装置的结构实例的图。
图7是用于描述使用用于检索图6的化合物10A的装置检索蛋白质的稳定构象的方法的流程图。
图8是举例说明了其中在半径r内的每个格点作为Sr的情况的图。
图9A是举例说明了在未生成有限格点空间的情况下氨基酸残基所移动至的格点的集合的图(部分1)。
图9B是举例说明了在未生成有限格点空间的情况下氨基酸残基所移动至的格点的集合的图(部分2)。
图9C是举例说明了在未生成有限格点空间的情况下氨基酸残基所移动至的格点的集合的图(部分3)。
图9D是举例说明了在未生成有限格点空间的情况下氨基酸残基所移动至的格点的集合的图(部分4)。
图10是在三维上举例说明了S1、S2和S3的图。
图11A是举例说明了其中空间信息被分配到比特X1至Xn中每一个的情况的一个实例的图(部分1)。
图11B是举例说明了其中空间信息被分配到比特X1至Xn中每一个的情况的一个实例的图(部分2)。
图11C是举例说明了其中空间信息被分配到比特X1至Xn中每一个的情况的一个实例的图(部分3)。
图12是用于描述Hone的图。
图13是用于描述Hconn的图。
图14是用于描述Holap的图。
图15A是用于描述Hpair的图(部分1)。
图15B是用于描述Hpair的图(部分2)。
图16是举例说明了权重文件(weight file)的一个实例的图。
图17是举例说明了用于模拟退火的优化装置(运算单元)的概念结构的图。
图18是转换控制单元的电路层(circuit level)的框图。
图19是举例说明了转换控制单元的操作流程的图。
图20A是举例说明了菱形格点空间(diamond lattice space)中的氨基酸残基的布置的一个实例的图(实施例1)。
图20B是举例说明了其中对图20A的菱形格点空间进行扩展的一个实例的图(实施例1)。
图21是举例说明了所公开的用于检索化合物的装置的另一结构实例的图(实施例2)。
图22是举例说明了使用用于检索图21的化合物10B的装置用于检索蛋白质的稳定结构的另一方法的流程图(实施例2)。
图23A是举例说明了氨基酸残基在菱形格点空间中的布置的一个实例的图(实施例2)。
图23B是举例说明了其中对图23A的菱形格点空间进行扩展的一个实例的图(实施例2)。
图23C是举例说明了其中1号至4号氨基酸残基被固定在图23B的经扩展菱形格点空间中的情况的图(实施例2)。
图24A是举例说明了氨基酸残基在菱形格点空间中的布置的一个实例的图(实施例3)。
图24B是举例说明了其中对图24A的菱形格点空间进行扩展的一个实例的图(实施例3)。
图24C是举例说明了其中1号至4号氨基酸残基被固定在图24B的经扩展菱形格点空间中的情况的图(实施例3)。
图25A是举例说明了氨基酸残基在菱形格点空间中的布置的一个实例的图(实施例4)。
图25B是举例说明了其中对图25A的菱形格点空间进行扩展的一个实例的图(实施例4)。
图26A是举例说明了氨基酸残基在菱形格点空间中的布置的一个实例的图(实施例5)。
图26B是举例说明了其中对图26A的菱形格点空间进行扩展的一个实例的图(实施例5)。
图26C是举例说明了其中1号至4号氨基酸残基被固定在图26B的经扩展菱形格点空间中的情况的图(实施例5)。
图27A是举例说明了氨基酸残基在菱形格点空间中的布置的一个实例的图(实施例6)。
图27B是举例说明了其中对图27A的菱形格点空间进行扩展的一个实例的图(实施例6)。
图27C是举例说明了其中1号至4号氨基酸残基被固定在图27B的经扩展菱形格点空间中的情况的图(实施例6)。
图28是概述了实施例1至6的关系的图。
图29是举例说明了所公开的用于检索化合物的装置的另一结构实例的图。
图30是图7的流程图的第S101至S107步骤的经修改实例的流程图。
图31是用于描述当设置直链数目限制参数M(部分1)时氨基酸残基的排列中的限制的图。
图32是用于描述当设置直链数目限制参数M(部分2)时氨基酸残基的排列中的限制的图。
图33是图7的流程图的第S101至S107步骤的经修改实例的流程图。
图34是用于描述当直链数目限制参数M时的最大空间的图。
图35是对比较例和参照例之间所使用的比特的数目进行比较的图。
图36是描述减少比特数目之作用的一个实例的图。
具体实施方式
所公开的用于检索化合物的装置是用于检索其中多个化合物基团彼此连接之化合物的化合物检索装置。
用于检索化合物的装置至少包含限定单元、限制单元、分配单元、运算单元、判断单元和控制单元。
限定单元被配置为限定格点空间,该格点空间是其中依次布置多个化合物基团的格点的集合。
限制单元被配置为,在将任意化合物基团布置在格点空间的任意格点中并随后将下一化合物基团布置在格点空间中的情况下,生成有限格点空间,该有限格点空间是通过从格点空间中消除对于待布置的下一化合物基团不理想的区域而产生的空间。
分配单元被配置为将比特分配到有限格点空间中的可布置化合物基团的每个格点。
运算单元被配置为对通过根据模拟退火基于与每个格点相关的限制条件进行转换而获得的伊辛模型进行基态检索,从而计算伊辛模型的最低能量。
判断单元被配置为判断分配到格点的任意化合物基团是否被布置在有限格点空间的最外边沿上。
控制单元被配置为在判断单元判断出分配到格点的任意化合物基团被布置在有限格点空间的最外边沿上的情况下,使得限制单元执行有限格点空间的扩展,使得分配单元在扩展之后对包含在有限格点空间中的格点执行比特分配,以及使得运算单元执行伊辛模型的最低能量的计算。
所公开的用于检索化合物的方法是用于检索其中多个化合物基团彼此连接的化合物的方法。
用于检索化合物的方法允许计算机进行包括以下的方法:限定格点空间,该格点空间是其中依次布置多个化合物基团的格点的集合;在将任意化合物基团布置在格点空间的任意格点中并随后将下一化合物基团布置在格点空间中的情况下,生成有限格点空间,该有限格点空间是通过从格点空间中消除对于待布置的下一化合物基团不理想的区域而产生的空间;将比特分配到有限格点空间中的可布置化合物基团的每个格点;以及对通过根据模拟退火基于与每个格点相关的限制条件进行转换而获得的伊辛模型进行基态检索,从而计算伊辛模型的最低能量。
此外,在用于检索方法的方法中,计算机判断分配到格点的任意化合物基团是否被布置在有限格点空间的最外边沿上,并在其判断出分配到格点的任意化合物基团被布置在有限格点空间的最外边沿上的情况下,执行有限格点空间的扩展,在扩展之后将比特分配到包含在有限格点空间中的格点,在扩展之后将比特分配到包含在有限格点空间中的格点,并计算伊辛模型的最低能量。
所公开的用于检索化合物的程序是用于使得计算机执行用于检索其中多个化合物基团彼此连接之化合物的方法的程序。
该方法包括:限定格点空间,该格点空间是其中依次布置多个化合物基团的格点的集合;在将任意化合物基团布置在格点空间的任意格点中并随后将下一化合物基团布置在格点空间中的情况下,生成有限格点空间,该有限格点空间是通过从格点空间中消除对于待布置的下一化合物基团不理想的区域而产生的空间;将比特分配到有限格点空间中的可布置化合物基团的每个格点;以及对通过根据模拟退火基于与每个格点相关的限制条件进行转换而获得的伊辛模型进行基态检索,从而计算伊辛模型的最低能量。
此外,在用于检索方法的程序中,计算机判断分配到格点的任意化合物基团是否被布置在有限格点空间的最外边沿上,并且在判断出分配到格点的任意化合物基团被布置在有限格点空间的最外边沿上的情况下,执行有限格点空间的扩展,在扩展之后将比特分配到包含在有限格点空间中的格点,在扩展之后将比特分配到包含在有限格点空间中的格点,并计算伊辛模型的最低能量。
在描述所公开技术的细节之前,将描述用于根据菱形编码方法确定作为化合物的蛋白质之折叠的方法。
通常以下列方式进行蛋白质的稳定构象的检索。
首先,进行蛋白质的粗视化(coarse graining)(图2A)。例如,蛋白质的粗视化是通过使构成蛋白质的原子2粗视化成氨基酸残基单元1A、1B和1C来进行的。
接下来,使用所创建的粗视化模型进行结构检索(图2B)。根据稍后描述的菱形编码方法进行结构检索。
接下来,使粗视化模型返回到整个原子(图2C)。
菱形编码方法是其中将线性氨基酸嵌入菱形格上的位置的方法,并且可表示三维结构。出于简单的目的,将二维结构描述为实例。
当结构由线性结构表示时,用作实例的是具有图3A中所举例说明的结构的线性五肽,其中5个氨基酸残基连接。在图3A至3E中,每个圆中的数字是线性五肽中的氨基酸残基的数目。
首先,如图3A中所举例说明的,将1号的氨基酸残基布置在菱形格点的中心,如图3B中所举例说明的,其中可布置的2号氨基酸残基的位置限于与中心紧邻的位置(编号为2的位置)。
接下来,在图3C中,可布置与2号的氨基酸残基键合并紧邻的3号的氨基酸残基的位置限于与图3B中编号为2的位置紧邻的位置(编号为3的位置)。
接下来,在图3D中,可布置与3号的氨基酸残基键合并紧邻的4号的氨基酸残基的位置限于与图3C中编号为3的位置紧邻的位置(编号为4的位置)。
接下来,在图3E中,可布置与4号的氨基酸残基键合并紧邻的5号的氨基酸残基的位置限于与图3D中编号为4的位置紧邻的位置(编号为5的位置)。
以如上所述的方式,可通过连接可布置氨基酸残基的位置来表示三维结构。
当氨基酸残基结合成直链时,根据待结合的氨基酸残基的数目(n)设置菱形格点空间的半径(n)。
然而,由于氨基酸残基之间的相互作用,通常很少将氨基酸残基布置成蛋白质中的直链。
因此,如图4中所举例说明的,在不使菱形格点空间的半径r与氨基酸残基的数目(n)匹配的情况下可确定蛋白质的构象。
因此,根据所公开的技术,在将任意化合物基团布置在格点空间的任意格点中并随后将下一化合物基团布置在格点空间中的情况下,生成有限格点空间,该有限格点空间是通过从格点空间中消除对于待布置的下一化合物基团不理想的区域而产生的空间,并将比特分配到有限格点空间中的可布置化合物基团的每个格点。在下文中将该技术称为“参照例”。作为结果,抑制了用于检索预定化合物的算术比特或量子比特的数目,并且可检索具有大的分子量的化合物。
然而,在这种情况下,如果有限格点空间太小,则化合物基团的布置受限于有限格点空间的最外边沿。作为结果,可能无法获得适当的构象。特别地,在将分配到格点的任意化合物基团布置在有限格点空间的最外边沿上的情况下,格点空间可能被过度限制。
例如,考虑如图5中所举例说明的其中5个氨基酸残基被排列在半径为3的菱形格点空间中的实例。由于将第三氨基酸残基布置在最外边沿上,因此第四氨基酸残基不以用箭头所示的方向布置。然而,当将第四氨基酸残基以箭头的任意方向布置时,可获得更稳定的构象。
因此,在所公开的技术中,当分配到格点组的任意化合物基团被布置在有限格点空间的最外边沿上时,有限格点空间进一步扩展。作为结果,可适当地抑制用于检索预定化合物的算术比特或量子比特的数目,并且可检索具有大的分子量的化合物。
在本说明书中,术语“最外边沿”意指菱形格点空间的外壳,并且包含最外表面和最外侧二者。
例如,化合物基团是氨基酸残基。
在化合物基团是氨基酸残基的情况下,化合物的实例包括蛋白质。
作为氨基酸残基的基础的氨基酸可以是天然氨基酸或合成氨基酸。天然氨基酸的一些实例包括丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸、缬氨酸、β-丙氨酸和β-苯丙氨酸。合成氨基酸的一些实例包括对苯甲酰苯丙氨酸。
蛋白质中的氨基酸残基的数目没有特别限制,以及可取决于预期目的来适当地选择。例如,其数目可为约10至约30个,或者约数百个。
例如,其数目可以是约10至约30个,只要蛋白质是用于中间分子药物发现的蛋白质即可。
下文中将使用装置的实例、流程图等来描述所公开技术的一个实例。
图6中举例说明了用于检索化合物的装置的结构实例。
用于检索图6中所举例说明的化合物10A的装置包含:化合物基团数目计数单元11、限定单元12、限制单元13、分配单元14、H生成单元15、权重提取单元16、权重文件创建单元17、运算单元18、判断单元19、控制单元20和输出单元21。
图7中举例说明了描述使用检索图6的化合物10A之装置用于检索蛋白质的稳定构象的方法的流程图。
<步骤S101>
首先,通过化合物基团数目计数单元11对构成输入蛋白质(氨基酸残基的排列)的氨基酸残基(化合物基团)的数目(n)进行计数(S101)。
<步骤S102>
接下来,基于氨基酸残基的数目(n),通过限定单元12来限定作为依次布置多个氨基酸残基的格点的集合的格点空间(S102)。
将如下描述格点空间的限定的一个实例。格点空间是三维的,但为简单起见,将二维格点空间描述为一个实例。
首先,将菱形格点空间中的半径r内的格点的集合确定为壳,并且将每个格点确定为Sr。每个格点Sr如图8中所示。
在有限格点空间没有不同于所公开的技术而生成的情况下,例如,1号至5号的氨基酸残基所移动至的格点的集合V1至V5如图9A至9D中所示。
在图9A中,V1=S1,且V2=S2。
在图9B中,V3=S3。
在图9C中,V4=S2、S4。
在图9D中,V5=S3、S5。
注意,当S1、S2和S3以三维表示时,S1、S2和S3如图10中所示。在图10中,A=S1、B=S2、且C=S3。
在不生成有限格点空间的情况下,用于具有n个数目的氨基酸残基的蛋白质中的以i编号的氨基酸残基的空间Vi由下式表示:
在上式中,i={1、2、3,……n}。
在以奇数编号(i=奇数)的氨基酸残基的情况下,J={1、3,……i}。在以偶数编号(i=偶数)的氨基酸残基的情况下,J={2、4,……i}。
<步骤S103和步骤S104>
同时,在所公开的技术中,在将任意化合物基团布置在格点空间的任意格点中并随后将下一化合物基团布置在格点空间中的情况下,通过限制单元13产生了有限格点空间,该格点空间是通过从格点空间中消除对于待布置的下一化合物基团不理想的区域而产生的空间。例如,设置表示菱形格点空间的尺寸的空间限制参数L(L<n)(S103),并在空间限制参数L的限制下将以i编号的氨基酸残基移动至的格点的集合确定为Vi(S104)。
作为以i编号的氨基酸残基的空间的Vi由下式表示:
在上式中,i={1、2、3,……n}。
当空间限制参数L是偶数且i<L时:
·在以奇数编号(i=奇数)的氨基酸残基的情况下,J={1、3,……i}。
·在以偶数编号(i=偶数)的氨基酸残基的情况下,J={2、4,……i}。
当空间限制参数L是偶数且i>L时:
·在以奇数编号(i=奇数)的氨基酸残基的情况下,J={1、3,……L-1}。
·在以偶数编号(i=偶数)的氨基酸残基的情况下,J={2、4,……L}。
当空间限制参数L是奇数且i<L时:
·在以奇数编号(i=奇数)的氨基酸残基的情况下,J={1、3,……i}。
·在以偶数编号(i=偶数)的氨基酸残基的情况下,J={2、4,……i}。
当空间限制参数L是奇数且i>L时:
·在以奇数编号(i=奇数)的氨基酸残基的情况下,J={1、3,……L}。
·在以偶数编号(i=偶数)的氨基酸残基的情况下,J={2、4,……L-1}。
如上所述,确定布置氨基酸残基的空间。
<步骤S105>
接下来,分配单元14被配置为将比特分配到有限格点空间中的布置多个化合物基团的每个格点。具体地,将特定信息分配到比特X1至Xn中的每一个(S105)。具体地,如图11A至11C中所举例说明的,对于布置每个氨基酸残基的空间,将该位置中存在氨基酸残基表示为1的比特且将不存在氨基酸残基表示为0的比特进行分配。注意,在图11A至11C中,多个Xi被分配到氨基酸残基2至4,但实际上一个比特Xi被分配到一个氨基酸残基1。
<步骤S106>
接下来,设置Hone、Hconn、Holap和Hpair,并创建通过基于与每个格点相关的限制条件进行转换而获得的伊辛模型(S106)。
在H生成单元15的Hone生成单元15A、Hconn生成单元15B、Holap生成单元15C和Hpair生成单元15D中的每一个中进行Hone、Hconn、Holap和Hpair的设置。
在菱形编码方法中,整个能量可如下表示:
E(x)=H=Hone+Hconn+Holap+Hpair。
在上式中,Hone是以第1至n编号的氨基酸中的每一个中仅存在一个的限制。
Hconn是以1至n编号的氨基酸全部彼此连接的限制。
Holap是以1至n编号的氨基酸彼此不重叠的限制。
Hpair是表示氨基酸之间的相互作用的限制。
每种限制的一个实例如下。
注意,在以下所述的图12至15中,X1是可布置1号的氨基酸残基的位置。
X2至X5是可布置2号的氨基酸残基的位置。
X6至X13是可布置3号的氨基酸残基的位置。
X14至X29是可布置4号的氨基酸残基的位置。
Hone的一个实例如下所示:
在上面的函数中,Xa和Xb可以是1或0。具体地,当X2、X3、X4和X5中的任何两个或更多个为1时,Hone是能量提高的函数,因为图12中的X2、X3、X4和X5中只有一个为1;以及当X2、X3、X4和X5中只有一个为1时,Hone是罚项并变为0。
注意,在上面的函数中,λone是加权系数(weighting coefficient)。
Hconn的一个实例如下所示:
在上面的函数中,Xd和Xu可以是1或0。具体地,当图13中的X2为1时,只要X13、X6或X7为1,Hconn就是能量降低的式;以及当所有氨基酸残基彼此连接时,Hconn是罚项,并且变为0。
注意,在上面的函数中,λconn是加权系数。例如,满足λone>λconn的关系。
Holap的一个实例如下所示:
在上面的函数中,Xa和Xb是1或0。具体地,当图14中的X14为1且X2为1时,Holap是生成罚的项。
注意,在上面的函数中,λolap是加权系数。
Hpair的一个实例如下所示:
在上面的函数中,Xa和Xb可以是1或0。具体地,当图15A和15B中的X15为1且X1为1时,Hpair是由于X1的氨基酸残基与X15的氨基酸残基之间的相互作用Pω(x1)ω(x15)而能量降低的函数。通过两个氨基酸残基的组合来确定相互作用Pω(x1)ω(x15)。例如,根据Miyazawa-Jemigan(MJ)矩阵确定相互作用Pω(x1)ω(x15)。
接下来,通过合成单元15E合成Hone、Hconn、Holap和Hpair来计算H。
接下来,通过权重提取单元16提取上面每个函数的加权系数(λone、λconn和λolap)。
接下来,通过权重文件创建单元17来创建对应于经提取的权重系数的权重文件。例如,权重文件是矩阵。例如,在2X1X2+4X2X3的情况下,权重文件是如图16中所举例说明的矩阵文件。
伊辛模型的以下能量式可通过使用所创建的权重文件来表示:
在上面的函数中,状态Xi和Xj可以是0或1,其中0意指不存在,以及1意指存在。作为右侧第一项的Wij是加权系数。
在没有任何省略或重叠的情况下,右侧的第一项是两个神经元电路的状态与来自整个神经元电路的两个神经元电路的所有可选组合的加权值的乘积的整合。
此外,右侧的第二项是偏离值与整个神经元电路中的每一个的状态的乘积的整合。bi是以i编号的神经元电路的偏离值。
<步骤S107>
接下来,运算单元18(退火机)执行根据模拟退火基于与每个格点相关的限制条件进行转换的伊辛模型的基态检索,从而计算伊辛模型的最低能量(S107)。
运算单元18(退火机)可以是以下中的任一项:量子退火机、使用半导体技术的半导体退火机,或通过使用中央处理器(central processing unit,CPU)或图形处理器(graphics processing unit,GPU)的软件执行的模拟退火,条件是使用的计算机是使用用于进行由伊辛模型表示的能量函数的基态检索的退火系统的计算机。
下面将描述模拟退火和运算单元18(退火机)的一个实例。
模拟退火(simulated annealing,SA)是一种蒙特卡罗方法(Monte Carlomethod),并且是使用随机值进行随机确定的方法。在下面的描述中,将使待优化的评价函数的值极小化的问题作为实例,并且将评价函数的值称为能量。在极大化的情况下,可改变评价函数的正号或负号。
从其中将一个离散值分配到每个变量的初始状态开始,从当前状态(变量值的组合)中选择与初始状态接近的状态(例如,其中仅改变一个变量的状态),并且随后研究其状态转换。计算状态转换的能量变化,并根据所计算的值随机地确定状态转换是否适应于改变状态或者在不改变状态转换的情况下是否保持原始状态。当能量降低的情况下的适应概率被选择为大于能量提高的情况下的适应概率时,状态变化以平均而言能量降低的趋势发生,并且预期状态随时间推移转换为合适的状态。然后,最终可获得给予与最优解或最优值接近的能量的近似解。如果确定性地采用能量降低的情况且不适应能量提高的情况,则能量变化处于相对于时间而言微弱降低的状态,但是一旦达到局部解,则变化将停止。由于在如上所述的离散优化问题中存在大量的局部解,因此很可能该状态被与最优值不太接近的局部解捕获。因此,重要的是随机确定是否适应。
在模拟退火中证明了当状态转换的适应(容差)概率确定如下时,状态达到具有无限时间限制(迭代的数目)的最优解。
(1)对于能量变化(能量降低)值(-ΔE)以及状态转换,通过任意以下函数f()来确定状态转换的接受概率p:
p(ΔE,T)=f(-ΔE/T) (式1-1)
f梅特(x)=min(1,ex)梅特罗波利斯方法(Metropolis method) (式1-2)
在上式中,T是称为温度值的参数,其如下改变。
(2)温度值T相对于迭代的数目t以对数方式降低,如由下式所示:
在上面的式中,T0是初始温度值,并且期望根据问题而足够大。
在使用由式(1)表示的接受概率的情况下,一旦状态在充分迭代之后达到稳定状态,每个状态的占有概率遵循热力学中的热平衡状态的玻尔兹曼分布(Boltzmanndistribution)。
随着温度从高温逐渐降低,低能态的占有概率提高。因此,当温度充分降低时,应获得低能态。如上所述的状态与当研制材料时发生的状态变化非常类似。因此,上述方法称为模拟退火。能量提高的状态转换的随机发生等同于物理学中的热激发。
图17中举例说明了用于进行模拟退火的优化装置(运算单元18)。以下描述包括生成状态转换的多个候选物,但是在原始基本模拟退火中逐个生成转换候选物的情况。
优化装置100包含状态保持单元111,所述状态保持单元被配置为保持当前状态S(多个状态变量值)。此外,优化装置100包含能量计算单元112,所述能量计算单元被配置为当由于任意状态变量值的变化而从当前状态S发生状态转换时计算每个状态转换的能量变化值{-ΔEi}。此外,优化装置100包含:温度控制单元113,其被配置为控制温度值T;以及转换控制单元114,其被配置为控制状态转换。
转换控制单元114被配置为根据能量变化值{-ΔEi}与基于温度值T、能量变化值{-ΔEi}和随机值的热激发能之间的相关性随机确定是否适应任意状态转换。
将转换控制单元114进一步细分。转换控制单元114包含:候选物生成单元114a,其被配置为生成状态转换的候选物;和判断单元114b,其被配置为基于能量变化值{-ΔEi}和其温度值T随机地判断每个候选物是否允许状态转换。转换控制单元114还包含:转换确定单元114c,其被配置为确定所允许的候选物中的待适应的候选物;和随机数生成单元114d,其被配置为生成概率变量。
一次迭代的操作如下。首先,候选物生成单元114a生成从保持在状态保持单元111中的当前状态S到下一状态的状态转换的一个或更多个候选物(候选物编号{Ni})。能量计算单元112使用当前状态S和状态转换的候选物来计算作为候选物列出的每个状态转换的能量变化值{-ΔEi}。判断单元114b使用由温度控制单元113生成的温度值T和由随机数生成单元114d生成的概率变量(随机值),根据每个状态转换的能量变化值{-ΔEi}接受具有上面式(1)的接受概率的状态转换。然后,判断单元114b输出每个状态转换的接受或拒绝{fi}。在存在多个被接受的状态转换的情况下,转换确定单元114c使用随机值随机选择被接受的状态转换中的一个。转换确定单元114c输出所选择的状态转换的转换数N和转换的接受或拒绝f。在存在被接受的状态转换的情况下,根据适应的状态转换更新存储在状态保持单元111中的状态变量的值。
上述迭代从初始状态开始并且在通过温度控制单元113降低温度值下而重复。当满足完成判断条件(例如达到特定数目的迭代,或能量降低到某个值以下)时,完成操作。通过优化装置110输出的答案是完成时的状态。
图18是其中逐个生成候选物的典型模拟退火中用于转换控制单元(特别是判断单元)的运算部分的结构实例的电路层的框图。
转换控制单元114包含随机数生成器114b1、选择器114b2、噪声表114b3、乘法器114b4和比较器114b5。
选择器114b2被配置为选择对应于转换数N的值,该转换数N是在针对每个状态转换的候选物计算的能量变化值{-ΔEi}中由随机数生成器114b1生成的随机值,并且随后输出该值。
稍后将描述噪声表114b3的功能。作为噪声表114b3,例如可使用例如随机存储器(random access memory,RAM)和闪速存储器的存储器。
乘法器114b4输出乘积(对应于上述热激发能),该乘积通过将由噪声表114b3输出的值乘以温度值T来获得。
比较器114b5输出作为转换接受或拒绝f的比较结果,该比较结果通过对由乘法器114b4输出的乘积结果和由选择器114b2所选择的能量变化值-ΔE进行比较来获得。
实际上,图18中举例说明的转换控制单元114基本上具有上述功能,但是尚未描述用于接受具有由式(1)表示的接受概率的状态转换的机制。因此,将补充性地描述该机制。
在接受概率为p下输出1和在接受概率为(1-p)下输出0的电路具有两个输入端A和B,可通过将接受概率p输入到比较器的输入端A并将具有区间[0,1]中的值的均匀随机数输入到比较器的输入端B(其中当A>B时比较器输出1,当A<B时比较器输出0)来实现。因此,可通过将使用式(1)根据能量变化值和温度值T计算的接受概率p的值输入到比较器的输入端A来实现上述功能。
具体地,当f(ΔE/T)大于u时,用输出1的电路可实现上述功能,其中f是由式(1)表示的函数,并且u是具有区间[0,1]的值的均匀随机数。
电路可按照原样,但是可通过进行以下变形也来实现相同的功能。当将赋予相同的单调递增函数以两个数时,两个数的大小关系不会改变。因此,即使当赋予相同的单调递增函数以比较器的两个输入端,输出也不会改变。可理解,当将f的反函数f-1用作单调递增函数时,当-ΔE/T大于f1(u)时,输出1的电路是可接受的。此外,由于温度值T是正值,因此当-ΔE大于Tf1(u)时,输出1的电路是可接受的。图18中的噪声表114b3是用于实现反函数f1(u)的转换表,并且是用于输出相对于离散化区间[0,1]的输入的以下函数的值的表。
转换控制单元114还包含:锁存器(latch),其被配置为保持判断结果等;状态机,其被配置为生成其定时等,然而在图18中省略了上述单元以便使说明简化。
图19举例说明了转换控制单元114的操作流程。操作流程包括:选择一个状态转换作为候选物的步骤(S0001);通过对状态转换的能量变化值、温度值和随机值的乘积进行比较来确定状态转换的接受或拒绝的步骤(S0002);以及如果状态转换可接受则适应状态转换,如果状态转换不可接受则拒绝的步骤(S0003)。
<步骤S108>
接下来,随着确认有限格点空间是否被设置为具有足够空间,判断单元19判断分配到格点的任意化合物基团是否被布置在有限格点空间的最外边沿上(S108)。
通常,对具有所计算的最低能量的蛋白质的构象进行判断。
在判断期间,对在经分配到格点的化合物基团中,除了首先布置的化合物基团和最后所布置的化合物基团之外的任意化合物基团是否被布置在有限格点空间的最外边沿上进行判断。这是因为通常不将首先所布置的化合物基团布置在最外边沿上。此外,这是因为化合物基团的布置不受最外边沿的限制,这是由于即使当将最后布置的化合物基团布置在最外边沿上,也不存在待布置的更多化合物基团。
<步骤S109>
当判断单元19判断出分配到格点的任意化合物基团没有被布置在有限格点空间的最外边沿上时,判断出设置了有限格点空间的足够空间,以及输出与具有计算出的最低能量的蛋白质的构象有关的计算结果(S109)。
计算结果从输出单元21输出。结果可作为蛋白质构象图输出,或者可作为构成蛋白质的每个氨基酸残基的坐标信息输出。
<步骤S110>
当判断单元19判断出分配到格点的任意化合物基团被布置在有限格点空间的最外边沿上时,同时,判断出未设置有限格点空间的足够空间,并因此对有限格点空间进行扩展。因此,将扩展信息K添加到空间限制参数L(S110)。然后,进行在扩展之后将比特分配到包含在有限格点空间中的格点以及伊辛模型的最低能量的计算(S104至S107)。
在该步骤期间,控制单元20使得限制单元13执行有限格点空间的扩展。
此外,控制单元20使得分配单元14在扩展之后对包含在有限格点空间中的每个格点执行比特分配。
此外,控制单元20使得运算单元18执行伊辛模型的最低能量的计算。
当扩展有限格点空间时,有限格点空间通常不会扩展至原始格点空间。
例如,扩展的实施方案可以是这样的实施方案,其中将有限格点空间朝向有限格点空间的最外边沿的外侧均匀地扩展预定数目的格点;并且可以是这样的实施方案,其中仅扩展布置在有限格点空间的最外边沿上的化合物基团周围的格点空间。
此外,控制单元20优选地不改变已分配到以下化合物基团之格点的比特:被判断为布置在有限格点空间的最外边沿上的化合物基团,和比被判断为布置在最外边沿上的化合物基团更早布置的化合物基团。在存在多个化合物基团被判断为布置在有限格点空间的最外边沿上的情况下,“被判断为布置在有限格点空间的最外边沿上的化合物基团”优选为被判断为布置在有限格点空间的最外边沿上的化合物基团中最早布置的化合物基团。
此外,更优选的是在扩展信息中考虑的最后布置的化合物基团的布置顺序(n)与被判断为布置在有限格点空间的最外边沿上的化合物基团的布置顺序(M)之间的差(n-M),并且控制单元20被配置为基于扩展信息使得限制单元13以以下方式执行所述有限格点空间的扩展:当差(n-M)小时对有限格点空间的扩展小于当差(n-M)大时对有限格点空间的扩展。
可进行上述实施方案之一,或者可以组合进行上述实施方案。其实例将在下面的实施例1至6中描述。
<实施例1>
将参照附图来描述有限格点空间的扩展的实施例。
图20A举例说明了其中氨基酸残基被布置在菱形格点空间中的实例。在图20A中,在氨基酸残基的数目(n)为7(n=7)的情况下,空间限制参数L设置为4(L=4),7个氨基酸残基被布置在半径r为4(r=4)的菱形格点空间中。
在图20A中,4号氨基酸残基被布置在菱形格点空间的最外边沿上。
因此,通过在步骤S108中进行的判断判断出分配到格点的任意化合物基团被布置在有限格点空间的最外边沿上,并进行菱形格点空间的扩展。
图20B举例说明了其中通过一层格点使图20A的菱形格点空间朝向外壳的外侧扩展的实例(即,其中将半径r扩展到半径r+1的实例)。通过将一个格点进一步添加至图20A的菱形格点空间的外壳的外侧来扩展有限格点空间。
扩展是这样的一个实施方案,其中将有限格点空间根据格点数目朝向最外边沿的外侧均匀地扩展预定数目。
例如,可根据扩展信息K进行上述扩展。
<实施例2>
当依次布置化合物基团时,化合物基团的布置不受格点空间的最外边沿的限制,直至将化合物基团布置在有限格点空间的最外边沿上。
因此,考虑到计算时间的减少,优选的是,在保持化合物基团的布置的同时扩展有限格点空间,直至将化合物基团布置在有限格点空间的最外边沿上,执行在扩展之后将比特分配到包含在有限格点空间中的格点,以及伊辛模型的最低能量的计算。
在执行在扩展之后将比特分配到包含在有限格点空间中的格点和伊辛模型的最低能量的计算,同时扩展有限格点空间的情况下,优选地不改变已分配给以下化合物基团之格点的比特:被判断为布置在有限格点空间的最外边沿上的化合物基团,以及比被判断为布置在最外边沿上的化合物基团更早布置的化合物基团。在多个化合物基团被判断为布置在有限格点空间的最外边沿的情况下,在实施例2中,“被判断为布置在有限格点空间的最外边沿上的化合物基团”优选为被判断为布置在最外边沿上的化合物基团中的最早布置的化合物基团。
将用流程图和附图来描述上面的实施例。
图21举例说明了所公开的用于检索化合物的装置的另一结构实例。用于检索图21中所举例说明的化合物10B的装置与用于检索图6中所举例说明的化合物10A的装置的相同之处在于,用于检索化合物10B的装置包含以下:化合物基团数目计数单元11、限定单元12、限制单元13、分配单元14、H生成单元15、权重提取单元16、权重文件创建单元17、运算单元18、判断单元19、控制单元20和输出单元21。然而,用于检索图21中的所举例说明的化合物10B的装置与用于检索图6中所举例说明的化合物10A的装置的不同之处在于,用于检索化合物10B的装置的生成单元15包含Hfix生成单元15F。
图22的流程图是其中向图7的流程图添加了步骤S111的流程图。
图23A是其中氨基酸残基被布置在菱形格点空间中的实例。
在图23A中,在氨基酸残基的数目(n)为7(n=7)的情况下,空间限制参数L被设置为4(L=4),7个氨基酸残基被布置在半径r为4(r=4)的菱形格点空间中。
在图23A中,将4号氨基酸残基布置在菱形格点空间的最外边沿上。
因此,通过在步骤S108中进行的判断判断出分配到格点的任意化合物基团被布置在有限格点空间的最外边沿上,并进行菱形格点空间的扩展。
如图23B中所举例说明的,例如,通过格点层扩展图23A的菱形格点空间(即,将半径r扩展至半径r+1)。然后,使用经扩展的菱形格点空间进行步骤S104至S107。当创建伊辛模型时,将配置为不改变已分配的比特的约束项Hfix添加到被判断为布置在有限格点空间的最外边沿上的4号氨基酸残基和相比于4号氨基酸残基具有更少数目的布置的1号至3号氨基酸残基(S111)。在控制单元20的控制下通过Hfix生成单元15F来创建约束项Hfix。当创建伊辛模型时,可通过添加约束项Hfix不改变已分配到以下格点的比特:布置在有限格点空间的最外边沿上的4号氨基酸残基的格点和比4号氨基酸残基更早布置的1号至3号氨基酸残基的格点。这可以是如图23C中所举例说明的。图23C是举例说明了其中1号至4号氨基酸残基被固定在图23B的经扩展菱形格点空间中的情况的图。
例如,约束项Hfix由下式表示:
在上面的函数中,XAi是待固定(未改变)的地址,且i是氨基酸残基的序列号。
在上面的函数中,λfix是加权系数。
添加约束项Hfix的E(x)可如下表示。
E(x)=H=Hone+Hconn+Holap+Hpair+Hfix。
相比于其他约束项,通过使所述约束项Hfix的λfix足够大于加权系数,使约束项Hfix优先于其他约束项,并因此将XAi固定为1。
<实施例3>
扩展的实施方案优选地是这样的一个实施方案,其中仅扩展布置在有限格点空间的最外边沿上的化合物基团周围的格点空间。即使当对除了布置在有限格点空间的最外边沿上的化合物基团周围的空间之外的格点空间进行扩展时,存在布置氨基酸残基的较小可能性。因此,可通过使用其中仅布置在有限格点空间的最外边沿上的化合物基团周围的格点空间的实施方案,将扩展范围保持在合适的范围。
对于仅扩展布置在有限格点空间的最外边沿上的化合物基团周围的格点空间,可在下文中称为“给予了扩展方向性”。
实施例3的实施方案是这样的一个实施方案,其中将方向性给予实施例2的实施方案中的扩展。
将参照附图来描述实施例3的实施方案。
图24A举例说明了其中氨基酸残基被布置在菱形格点空间中的实例。
在图24A中,在氨基酸残基的数目(n)为7(n=7)的情况下,空间限制参数L被设置为4(L=4),7个氨基酸残基被布置在半径r为4(r=4)的菱形格点空间中
在图24A中,4号氨基酸残基被布置在菱形格点空间的最外边沿上。
因此,通过在步骤8108中进行的判断判断出分配到格点的任意化合物基团被布置在有限格点空间的最外边沿上,并进行菱形格点空间的扩展。
如图24B中所举例说明的,例如,仅扩展图24A的菱形格点空间中的布置在有限格点空间的最外边沿上的氨基酸残基(4号氨基酸残基)周围的格点空间。使用经扩展的菱形格点空间进行步骤S104至S107。当创建伊辛模型时,不改变分配到以下氨基酸残基之格点的已分配的比特:被判断为布置在有限格点空间的最外边沿上的4号氨基酸残基,和比4号氨基酸残基更早布置的1号至3号氨基酸残基(图24C)。
<实施例4>
在布置在有限格点空间的最外边沿上的化合物基团的序列号(sequence number)大的情况下,具有比布置在最外边沿上的化合物基团更大的序列号的化合物基团(剩余的化合物基团)的数目少。另一方面,在布置在有限格点空间的最外边沿上的化合物基团的序列号小的情况下,具有比布置在最外边沿上的化合物基团更大的序列号的化合物基团(剩余的化合物基团)的数目多。在剩余的化合物基团的数目多的情况下,除非使扩展范围变大,否则可能不能进行适当的扩展。另一方面,在剩余的化合物基团的数目少的情况下,大多数扩展范围可能是无意义的。
因此,当布置在有限格点空间的最外边沿上的化合物基团的序列号时,优选使有限格点空间的扩展范围变大。当布置在有限格点空间的最外边沿上的化合物基团的序列号大时,优选使有限格点空间的扩展范围变小。
具体地,在扩展信息K中考虑最后布置的化合物基团的布置顺序(n)与被判断为布置在有限格点空间的最外边沿上的化合物基团的布置顺序(M)之间的差(n-M),优选的是有限格点空间优选地以这样的方式扩展:当差(n-M)小时对有限格点空间的扩展小于当差(n-M)大时对有限格点空间的扩展。
在下文中,可将上述实施方案称为扩增范围的“氨基酸残基数目依赖性”。
实施例4的实施方案是这样的一个实施方案,其中将氨基酸残基数目依赖性给予实施例1的实施方案中的扩展范围。
将参照附图来描述实施例4的实施方案。
图25A举例说明了其中氨基酸残基被布置在菱形格点空间中的实例。
在图25A中,在氨基酸残基的数目(n)为7(n=7)的情况下,空间限制参数L被设置为4(L=4),7个氨基酸残基被布置在半径r为4(r=4)的菱形格点空间中。
在图25A中,将4号氨基酸残基布置在菱形格点空间的最外边沿上。
因此,通过在步骤S108中进行的判断判断出分配到格点的任意化合物基团被布置在有限格点空间的最外边沿上,并进行菱形格点空间的扩展。
当进行扩展时,基于以下函数确定扩展的范围K(格点的层数):
K=roundup((n-M)/2)。
在上面的方程中,“roundup”是用于在小数点之后向上舍入的函数。
在n=7且M=4的情况下,例如,(7-4)/2=1.5则K=2。如图25B中所举例说明的,通过两层格点使外壳朝向图25A的菱形格点空间中的外壳的外侧扩展(即将半径r扩展至半径r+2)。然后,使用经扩展的菱形格点空间进行步骤S104至S107。
<实施例5>
实施例5是其中将实施例4和实施例2进行组合的实施方案。
将参照附图来描述实施例5的实施方案。
图26A举例说明了其中氨基酸残基被布置在菱形格点空间中的实例。
在图26A中,在氨基酸残基的数目(n)为7(n=7)的情况下,空间限制参数L被设置为4(L=4),7个氨基酸残基被布置在半径r为4(r=4)的菱形格点空间中。
在图26A中,将4号氨基酸残基布置在菱形格点空间的最外边沿上。
因此,通过在步骤S108中进行的判断判断出分配到格点的任意化合物基团被布置在有限格点空间的最外边沿上,并进行菱形格点空间的扩展。
当进行扩展时,基于以下函数确定扩展的范围K(格点的层数):
K=roundup((n-M)/2)。
在上面的方程中,“roundup”是用于在小数点之后向上舍入的函数。
在n=7且M=4的情况下,例如,(7-4)/2=1.5则K=2。如图26B中所举例说明的,通过两层格点使外壳朝向图26A的菱形格点空间中的外壳的外侧扩展(即将半径r扩展至半径r+2)。然后,使用经扩展的菱形格点空间进行步骤S104至S107。当创建伊辛模型时,不改变分配到以下氨基酸残基之格点的已分配的比特:被判断为布置在有限格点空间的最外边沿上的4号氨基酸残基,和比4号氨基酸残基更早布置的1号至3号氨基酸残基(图26C)。
<实施例6>
实施例6是其中将实施例4和实施例3进行组合的实施方案。
将参照附图来描述实施例6的实施方案。
图27A举例说明了其中氨基酸残基被布置在菱形格点空间中的实例。
在图27A中,在氨基酸残基的数目(n)为7(n=7)的情况下,空间限制参数L被设置为4(L=4),7个氨基酸残基被布置在半径r为4(r=4)的菱形格点空间中。
在图27A中,将4号氨基酸残基布置在菱形格点空间的最外边沿上。
因此,通过在步骤S108中进行的判断判断出分配到格点的任意化合物基团被布置在有限格点空间的最外边沿上,并进行菱形格点空间的扩展。
当进行扩展时,在将方向性给予扩展的范围下基于以下函数确定扩展的范围K(格点的层数)。
K=roundup((n-M)/2)+1。
在上面的方程中,“roundup”是用于在小数点之后向上舍入的函数。
在n=7且M=4的情况下,例如,(7-4)/2=1.5则K=3。如图27B中所举例说明的,仅图27A的菱形格点空间中的布置在有限格点空间的最外边沿上的氨基酸残基(4号氨基酸残基)周围的格点空间被扩展三层。然后,使用经扩展的菱形格点空间进行步骤S104至S107。当创建伊辛模型时,不改变分配到以下氨基酸残基之格点的已分配的比特:被判断为布置在有限格点空间的最外边沿上的4号氨基酸残基,和比4号氨基酸残基更早布置的1号至3号氨基酸残基(图27C)。
以上描述了实施例1至6,并且可在图28中进行概述。
注意,图28中的词组“是否自动设置?”对应于是否存在上述的氨基酸残基数目依赖性。
此外,图28中的常规方法意指格点空间不限于菱形编码方法。
此外,图28中的参照例意指格点空间有限但是未判断有限格点空间是否进行扩展,并且不对有限格点空间进行扩展的情况。
注意,用于检索图6的化合物10A的装置是这样的实施例,其中将运算单元18和限制单元13布置在同一空间中,但用于检索化合物的装置可以是其中运算单元18和限制单元13在空间上分离,如图29中所举例说明的用于检索化合物10C的装置。
接下来,将描述图7的流程图的第S101至S107步骤的经修改实例。
图30是经修改实例的流程图。
在图30的流程图中,步骤S201对应于图7的流程图的步骤S101,步骤S202对应于步骤S102,步骤S204对应于步骤S104,步骤S205对应于步骤S105,步骤S206对应于步骤S106,以及步骤S207对应于步骤S107。
因此,重点对限制单元13和步骤S203给予描述。
在将多个化合物基团中的任一个布置在格点空间的任何格点中并随后将下一化合物基团布置在格点空间中的情况下,通过设置直链中排列的氨基酸残基的最大数目M(直链数目限制参数M)(S203),限制单元13生成有限格点空间,该有限格点空间通过从格点空间中除去对于待布置的下一化合物基团不理想的区域而获得。
如前所述,由于氨基酸残基之间的相互作用,通常很少将氨基酸残基以直链排列。
因此,通过设置直链中排列的氨基酸残基的最大数目M(直链数目限制参数M),以及在上述限制下消除其中不放置氨基酸残基的区域从而生成有限格点空间,可抑制算术比特或量子比特的数目。自然地,M小于氨基酸残基的数目(n)(M<n)。
例如,如图31中所举例说明的,当将直链数目限制参数M设置为5时,直链中排列的氨基酸残基的数目的最大数目为5。
如图32中所举例说明的,当设置直链数目限制参数M时,有限格点空间随着氨基酸残基数目的提高而提高。具体地,当将直链限制参数M用于n个数目中的氨基酸残基时,最大格点空间K由下式确定:
可将空间限制参数L(L<n)组合使用以生成有限格点空间。在这种情况下,优选满足L≤K。
图33是另一经修改实例的流程图。
在图33的流程图中,步骤S301对应于图21的流程图的步骤S201,步骤S302对应于步骤S202,步骤S303对应于步骤S203,步骤S305对应于步骤S204,步骤S306对应于步骤S205,步骤S307对应于步骤S206,以及步骤S308对应于步骤S207。
因此,重点对限制单元13和步骤S304给予描述。
在将多个化合物基团中的任一个布置在格点空间的任何格点中并随后将下一化合物基团布置在格点空间中的情况下,限制单元13生成有限格点空间,该有限格点空间是如下获得的:通过从格点空间中消除对于待布置的下一化合物基团不理想的区域,通过设置直链中排列的氨基酸残基的最大数目M(直链限制参数M)(S303),并且除此之外限定以i编号的氨基酸残基移动至的位点的最大S(i)(S304)。
当使用直链数目限制参数M时,每个氨基酸残基的空间半径r例如如表1中所示的,其中M=5(K=8),n=11,并且L=K。
表1
上述实施例如图34中所示。尽管最大空间是相同的,但是产生了过度的空间,并且可以理解,实际上第6或第7个氨基酸残基可制成更小的空间。
因此,添加直链限制参数M和使用直链数目限制参数s(x)的空间参数s(x)。作为结果,可如下限制空间,并且可在不降低精度的情况下抑制比特的数目:
i={1、2、3,……n}
当空间限制参数L是偶数,且i<L时:
·在以奇数编号(i=奇数)的氨基酸残基的情况下,J={s(1)、s(3),……S(i)}。
·在以偶数编号(i=偶数)的氨基酸残基的情况下,J={s(2)、s(4),……S(i)}。
当空间限制参数L是偶数,且i>L时:
·在以奇数编号(i=奇数)的氨基酸残基的情况下,J={s(2)、s(4),……S(L-1)}。
·在以偶数编号(i=偶数)的氨基酸残基的情况下,J={s(2)、s(4),……S(L)}。
当空间限制参数L是奇数,且i<L时:
·在以奇数编号(i=奇数)的氨基酸残基的情况下,J={s(1)、s(3),……S(i)}。
·在以偶数编号(i=偶数)的氨基酸残基的情况下,J={s(2)、s(4),……S(i)}。
当空间限制参数L是奇数,且i>L时:
·在以奇数编号(i=奇数)的氨基酸残基的情况下,J={s(2)、s(4),……S(L)}。
·在以偶数编号(i=偶数)的氨基酸残基的情况下,J={s(2)、s(4),……S(L-1)}}。
关于参照例的技术,将其中未设置直链数目限制参数的一个实施方案确定为参照例1,将使用图30的用于描述的一个经修改实例确定为参照例2,并将用于描述单元图33的经修改实例确定为参照例3。图35中举例说明了当如下确定参数时,每个参照例中使用的比特的数目的变化。
·参照例1:L=15
·参照例2:L=15,M=5
·参照例3:L=15,M=5
·比较例1:无限制
在所有实施例中证实了,与其中不给予限制的比较例1相比,使用的比特的数目可显著降低,并且可将具有相对大规模的问题的化合物(例如蛋白质)用作检索的靶标。
然而,根据上述参照例,如果有限格点空间太窄,则化合物基团的布置受限于有限格点空间的最外边沿。作为结果,可能无法获得合适的构象。
因此,与常规技术相比,例如通过将任意参照例与实施例1至6组合,可适当地抑制比特的数目。
当格点空间不受限制时,例如,用于n个数目中的氨基酸残基的比特的数目由下式表示:
当将格点空间的限制(L:空间限制参数)设置为L=n-1且将待扩展空间的半径(K:扩展信息)设置为K=1时,在将有限格点空间具有方向性地扩展的情况下,例如,当使布置在最外边沿上的氨基酸残基定位在有限格点空间的最外平面上时,方向提高为3比特;当使布置在最外边沿上的氨基酸残基定位在有限格点空间的最外侧上时,方向提高为4比特;以及当使布置在最外边沿上的氨基酸残基定位在有限格点空间的最外顶点上时,方向提高为5比特。因此,当将格点空间的限制(L:空间限制参数)设置为L=n-1且将待扩展空间的半径(K:扩展信息)设置为K=1时,用于具有方向性地扩展有限格点空间的位的数目可由下式表示:
在下文中将描述其中如图36中那样布置11个氨基酸残基的实施例。注意,图36中的数字是表示菱形格点空间中的格点的位置的数字。
当不限制用于11个氨基酸残基的格点空间时(在n=11的情况下),使用的比特的数目是2,921比特。
如在参考例中那样,在如图36中的布置的情况下,当格点空间有限时,合适的是有限格点空间为L=5,且使用的比特的数目是153比特,但未判断有限格点空间是否进行扩展,且不对有限格点空间进行扩展。
然而,在如图36中的布置的情况下,可将有限格点空间设置为L=4,且可通过K=1具有方向性地进行扩展(即3比特或5比特)。在这种情况下,使用的比特的数目是69比特(在r=4的情况下)+3比特或5比特=72比特或74比特。因此,与将有限格点空间简单地设置为L=5的情况相比,可降低81比特(=153比特-72比特)或79比特(=153比特-74比特)。
注意,随着氨基酸残基的数目越大,这种降低作用变得越大。
Claims (16)
1.用于检索化合物的装置,其包含:
限定单元,其被配置为限定格点空间,所述格点空间是其中依次布置多个化合物基团的格点的集合;
限制单元,其被配置为在其中将任意所述化合物基团布置在所述格点空间的任意格点中并随后将下一化合物基团布置在任意剩余格点中的情况下,通过设置直链中排列的化合物基团的最大数目并消除其中不放置所述化合物基团的区域从而生成有限格点空间;
分配单元,其被配置为将比特分配到所述有限格点空间中可布置所述化合物基团的每个格点;
运算单元,其被配置为对通过根据模拟退火基于与所述每个格点相关的限制条件进行转换而获得的伊辛模型进行基态检索,从而计算所述伊辛模型的最低能量;
判断单元,其被配置为判断分配到所述格点的任意化合物基团是否被布置在所述有限格点空间的最外的格点上;以及
控制单元,其被配置为在所述判断单元判断出分配到所述格点的任意化合物基团被布置在所述有限格点空间的最外的格点上的情况下,使得所述限制单元通过在最外的格点的外侧进一步追加格点来执行所述有限格点空间的扩展,使得所述分配单元在所述扩展之后对包含在所述有限格点空间中的所述格点执行所述比特分配,以及使得所述运算单元执行所述伊辛模型的最低能量的计算,
其中所述装置是用于检索其中多个所述化合物基团彼此连接的化合物的装置。
2.根据权利要求1所述的装置,
其中所述判断单元被配置为判断在分配到所述每个格点的多个化合物基团中,除了首先布置的化合物基团和最后布置的化合物基团之外的任意化合物基团是否被布置在所述有限格点空间的最外边沿上。
3.根据权利要求1所述的装置,
其中所述控制单元被配置为使得所述限制单元基于扩展信息执行所述有限格点空间的扩展,其中所述扩展信息为待在所述扩展中追加的所述格点的层数。
4.根据权利要求1所述的装置,
其中所述控制单元被配置为不改变已分配给以下化合物基团之格点的比特:被判断为布置在所述有限格点空间的最外的格点上的化合物基团、以及比被判断为布置在所述有限格点空间的最外的格点上的化合物基团更早布置的化合物基团。
5.根据权利要求1所述的装置,
其中所述控制单元被配置为当所述控制单元使得所述限制单元执行所述有限格点空间的扩展时,仅扩展布置在所述有限格点空间的最外的格点上的化合物基团周围的格点空间。
6.根据权利要求3所述的装置,
其中所述扩展信息考虑了最后布置的化合物基团的布置顺序(n)与被判断为布置在所述有限格点空间的最外的格点上的化合物基团的布置顺序(M)之间的差(n-M),并且
所述控制单元被配置为使得所述限制单元基于所述扩展信息以以下方式执行所述有限格点空间的扩展:当所述差(n-M)小时对所述有限格点空间的扩展小于当所述差(n-M)大时对所述有限格点空间的扩展。
7.根据权利要求1所述的装置,
其中所述化合物基团是氨基酸残基。
8.根据权利要求7所述的装置,
其中所述化合物是蛋白质。
9.用于检索化合物的方法,所述方法包括:
限定格点空间,所述格点空间是其中依次布置多个化合物基团的格点的集合;
在任意所述多个化合物基团被布置在所述格点的任意格点中并随后将下一化合物基团布置在所述格点空间中的情况下,将所述格点的数目限制为比能够直线状布置所述多个化合物基团的最大数目小的数目并生成有限格点空间;
将比特分配到所述有限格点空间中可布置所述多个化合物基团的每一个的每个格点;
对通过根据模拟退火基于与所述每个格点相关的限制条件进行转换而获得的伊辛模型进行基态检索,从而计算所述伊辛模型的最低能量;
判断出分配到所述每个格点的任意多个化合物基团是否被布置在所述有限格点空间的最外的格点上;以及
在判断出分配到所述每个格点的任意所述多个化合物基团被布置在所述有限格点空间的最外的格点上的情况下,通过在最外的格点的外侧进一步追加格点,执行所述有限格点空间的扩展,在所述扩展之后将所述比特分配到包含在所述有限格点空间中的每个格点,并计算伊辛模型的最低能量,
其中所述方法是用于允许计算机检索其中多个所述化合物基团彼此连接的化合物的方法。
10.根据权利要求9所述的方法,
其中所述判断是判断在分配到所述每个格点的多个化合物基团中,除了首先布置的化合物基团和最后布置的化合物基团之外的任意化合物基团是否被布置在所述有限格点空间的最外边沿上。
11.根据权利要求9所述的方法,
其中所述扩展是基于所述多个化合物基团中未布置在所述有限格点空间的所述格点处的化合物基团的数目的扩展信息对所述有限格点空间进行扩展。
12.根据权利要求9所述的方法,
其中不改变已分配给以下化合物基团之格点的比特:被判断为布置在所述有限格点空间的最外的格点上的化合物基团、以及比被判断为布置在所述有限格点空间的最外的格点上的化合物基团更早布置的化合物基团。
13.根据权利要求9所述的方法,
其中在所述有限格点空间的扩展中,仅扩展布置在所述有限格点空间的最外的格点上的化合物基团周围的格点空间。
14.根据权利要求11所述的方法,
其中所述扩展信息考虑了最后布置的化合物基团的布置顺序(n)与被判断为布置在所述有限格点空间的最外的格点上的化合物基团的布置顺序(M)之间的差(n-M),并且
所述扩展是基于所述扩展信息以以下方式减小所述有限格点空间的所述格点的增加数目:当所述差(n-M)小时对所述有限格点空间的扩展小于当所述差(n-M)大时对所述有限格点空间的扩展。
15.根据权利要求9所述的方法,
其中所述化合物基团是氨基酸残基。
16.根据权利要求15所述的方法,
其中所述化合物是蛋白质。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-201591 | 2018-10-26 | ||
JP2018201591A JP7112312B2 (ja) | 2018-10-26 | 2018-10-26 | 化合物探索装置、化合物探索方法、及び化合物探索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111105846A CN111105846A (zh) | 2020-05-05 |
CN111105846B true CN111105846B (zh) | 2024-01-30 |
Family
ID=67981924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910915787.7A Active CN111105846B (zh) | 2018-10-26 | 2019-09-25 | 用于检索化合物的装置及方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200135295A1 (zh) |
EP (1) | EP3644317B1 (zh) |
JP (1) | JP7112312B2 (zh) |
CN (1) | CN111105846B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563104A (zh) * | 2017-10-18 | 2018-01-09 | 安庆师范大学 | 基于模拟退火优化算法的二元团簇结构优化方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5265030A (en) * | 1990-04-24 | 1993-11-23 | Scripps Clinic And Research Foundation | System and method for determining three-dimensional structures of proteins |
US5642292A (en) * | 1992-03-27 | 1997-06-24 | Akiko Itai | Methods for searching stable docking models of biopolymer-ligand molecule complex |
JPH07152775A (ja) * | 1993-11-26 | 1995-06-16 | Tonen Corp | 蛋白質の立体構造の決定方法 |
US5600571A (en) * | 1994-01-18 | 1997-02-04 | The Trustees Of Columbia University In The City Of New York | Method for determining protein tertiary structure |
AUPP660698A0 (en) * | 1998-10-21 | 1998-11-12 | University Of Queensland, The | A method of protein engineering |
EP1226528B1 (en) * | 1999-11-03 | 2006-10-04 | Algonomics N.V. | Method for generating information related to the molecular structure of a biomolecule |
JP2003206246A (ja) | 2002-01-07 | 2003-07-22 | Ichiro Yamato | 化合物の立体構造探索プログラム、立体構造探索装置、及び立体構造探索方法 |
US20130304432A1 (en) * | 2012-05-09 | 2013-11-14 | Memorial Sloan-Kettering Cancer Center | Methods and apparatus for predicting protein structure |
JP6377023B2 (ja) | 2015-07-17 | 2018-08-22 | ヤフー株式会社 | 最適化装置、最適化方法および最適化プログラム |
US11042811B2 (en) * | 2016-10-05 | 2021-06-22 | D-Wave Systems Inc. | Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers |
JP2018163495A (ja) | 2017-03-24 | 2018-10-18 | 東芝メモリ株式会社 | 情報処理装置、情報処理システムおよび情報処理方法 |
-
2018
- 2018-10-26 JP JP2018201591A patent/JP7112312B2/ja active Active
-
2019
- 2019-09-11 US US16/567,294 patent/US20200135295A1/en not_active Abandoned
- 2019-09-16 EP EP19197488.0A patent/EP3644317B1/en active Active
- 2019-09-25 CN CN201910915787.7A patent/CN111105846B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563104A (zh) * | 2017-10-18 | 2018-01-09 | 安庆师范大学 | 基于模拟退火优化算法的二元团簇结构优化方法 |
Non-Patent Citations (1)
Title |
---|
Ryan Babbush et al..Construction of Energy Functions for Lattice Heteropolymer Models: A Case Study in Constraint Satisfaction Programming and Adiabatic Quantum Optimization.《arXiv》.2013,第1-44页. * |
Also Published As
Publication number | Publication date |
---|---|
JP2020067931A (ja) | 2020-04-30 |
EP3644317A1 (en) | 2020-04-29 |
JP7112312B2 (ja) | 2022-08-03 |
CN111105846A (zh) | 2020-05-05 |
US20200135295A1 (en) | 2020-04-30 |
EP3644317B1 (en) | 2022-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110890126B (zh) | 用于探索化合物的设备和方法 | |
Curtarolo et al. | Predicting crystal structures with data mining of quantum calculations | |
Strenski et al. | Analysis of finite length annealing schedules | |
CN111261235A (zh) | 用于检索环状分子的结构的方法和装置以及记录介质 | |
JP7100257B2 (ja) | 最適化装置及び最適化装置の制御方法 | |
JP7453244B2 (ja) | 推定装置、訓練装置、推定方法及びモデル生成方法 | |
EP3826022A1 (en) | Structure search method, structure search apparatus, and program | |
JP7251281B2 (ja) | 結合構造探索装置、結合構造探索方法、及び結合構造探索プログラム | |
CN110858062B (zh) | 目标优化参数的获取方法及模型训练方法、装置 | |
JP2016509271A (ja) | 階層隠れ変数モデル推定装置 | |
CN111381495B (zh) | 优化装置及优化装置的控制方法 | |
JP2017219979A (ja) | 最適化問題解決装置、方法、及びプログラム | |
Zhang et al. | Simulation via direct computation of partition functions | |
CN111105846B (zh) | 用于检索化合物的装置及方法 | |
CN111046058B (zh) | 基于晶体结构离散化表达的遍历搜索方法 | |
Ha et al. | Leveraging bayesian optimization to speed up automatic precision tuning | |
US20210026853A1 (en) | Combination search system, information processing device, method, and program | |
JP7268484B2 (ja) | 構造探索装置、構造探索方法、及び構造探索プログラム | |
JP2013012185A (ja) | ロバスト最適化装置、ロバスト最適化方法およびそのコンピュータ・プログラム | |
EP3982370A1 (en) | Structure search program, structure search device, and structure search method | |
CN111400314B (zh) | 利用向量图索引从数据库中检索节点向量的方法及装置 | |
CN109740291B (zh) | 一种无序固溶材料的建模方法 | |
Kalmykov et al. | Optimal Moduli Searching for RNS-Based Devices | |
CN117672434A (zh) | 材料性质预测方法、装置和材料筛选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |