CN110890126B

CN110890126B - 用于探索化合物的设备和方法

Info

Publication number: CN110890126B
Application number: CN201910783431.2A
Authority: CN
Inventors: 上村泰纪; 柴崎崇之
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-09-11
Filing date: 2019-08-23
Publication date: 2024-03-26
Anticipated expiration: 2039-08-23
Also published as: US11837323B2; JP7139805B2; JP2020042576A; US20200082904A1; CN110890126A

Abstract

本公开涉及用于探索化合物的设备和方法。一种用于探索化合物的设备，包括：定义单元，用于定义晶格空间，所述晶格空间是化合物基团被顺序地排列的晶格的集合；限制单元，用于在化合物基团中的任一个排列在晶格空间的任何晶格中，然后在晶格空间中排列下一化合物基团的情况下，生成通过从晶格空间中消除用于要排列的下一化合物基团的不希望的区域而创建的受限晶格空间；分配单元，用于向受限晶格空间中的可以排列化合物基团的晶格点中的每一个分配位；以及算术单元，其被配置成根据模拟退火对基于与每个晶格点有关的限制条件通过转换获得的伊辛模型执行基态探索，以计算伊辛模型的最小能量，其中，该设备用于探索化合物基团彼此链接的化合物。

Description

用于探索化合物的设备和方法

技术领域

本文中讨论的实施方式涉及用于探索化合物的方法和设备。

背景技术

蛋白质是氨基酸一维链接而没有支化的链状聚合物。蛋白质通过折叠其链状聚合物而形成某种构象(三维形状)。蛋白质的构象(conformation)由氨基酸序列决定。

蛋白质的构象与蛋白质的功能密切相关。蛋白质的分子识别功能通过将其构象内的特定区域与特定分子特异性地结合来表达。因此，重要的是确定蛋白质的构象以理解蛋白质的功能。

例如，蛋白质的构象可以通过X射线晶体分析(crystallography)或核磁共振光谱法(NMR)来确定。然而，通过X射线晶体分析或NMR确定一种蛋白质的构象需要很长时间。此外，根据X射线晶体分析，首先产生一种蛋白质的单晶。当不能产生单晶时，不能对蛋白质的构象执行X射线晶体分析。此外，虽然NMR可以确定蛋白质在水溶液中的构象而不使蛋白质结晶，但是当蛋白质是大蛋白质时，不能获得与蛋白质的构象有关的大量信息。

同时，即使蛋白质的构象未知，也可以根据遗传信息或蛋白质本身相对容易地确定蛋白质的氨基酸序列。

因此，已经尝试根据氨基酸序列预测蛋白质的构象。例如，存在一种用于根据菱形(diamond)编码方法确定蛋白质的折叠的方法。该方法是用于将链氨基酸的位置嵌入菱形晶格中的方法，并且可以表达三维结构(构象)。通过上述方法确定的构象的能量可以例如使用伊辛模型来计算。为了求解伊辛模型，例如，使用退火机。背景技术的一个示例在R.Babbush等人的Construction of Energy Functions for Lattice HeteropolymerModels:A Case Study in Constraint Satisfaction Programming and AdiabaticQuantum Optimization(用于晶格杂聚物模型的能量函数的构建：约束满意度编程和绝热量子优化中的案例研究)，arXiv:quant-ph/1211.3422v2(https://arxiv.org/abs/1211.3422)中公开。

发明内容

由于用于求解伊辛模型的退火机的硬件存在限制，因此退火机可以处理的算术位或量子位的数量存在限制。

同时，用于求解蛋白质的折叠的问题的位数量相对于蛋白质的规模(氨基酸残基的数量)呈指数增加，如图1的图所示。

如上所述，由于要求解的问题的规模受到由硬件处理的位的数量的限制，因此不能扩展氨基酸的探索目标。

本公开内容旨在提供用于探索化合物的设备、方法和程序，其能够抑制用于探索预定化合物的算术位或量子位的数量，以使得能够探索具有大分子量的化合物。

根据本公开内容的一方面，一种用于探索化合物的设备，包括：定义单元，其被配置成定义晶格空间，该晶格空间是多个化合物基团被顺序地排列的晶格的集合；限制单元，其被配置成在化合物基团中的任一个排列在晶格空间的任何晶格中，然后在晶格空间中排列下一化合物基团的情况下，生成受限晶格空间，该受限晶格空间是通过从晶格空间中消除用于要排列的下一化合物基团的不希望的区域而创建的空间；分配单元，其被配置成向受限晶格空间中的可以排列化合物基团的晶格点中的每一个分配位；以及算术单元，其被配置成根据模拟退火对基于与每个晶格点有关的限制条件通过转换获得的伊辛模型执行基态探索，从而计算伊辛模型的最小能量。该设备是用于探索多个化合物基团彼此链接的化合物的设备。

本公开内容的一方面可以提供一种用于探索化合物的设备，该设备可以抑制用于探索预定化合物的算术位或量子位的数量，以使得能够探索具有大分子量的化合物。

此外，本公开内容的一方面可以提供一种用于探索化合物的方法，该方法可以抑制用于探索预定化合物的算术位或量子位的数量，以使得能够探索具有大分子量的化合物。

此外，本公开内容的一方面可以提供一种用于探索化合物的程序，该程序可以抑制用于探索预定化合物的算术位或量子位的数量，以使得能够探索具有大分子量的化合物。

附图说明

图1是描绘氨基酸残基的数量与所用的位的数量之间关系的图。

图2A是用于探索蛋白质的稳定构象的示意图(部分1)。

图2B是用于探索蛋白质的稳定构象的示意图(部分2)。

图2C是用于探索蛋白质的稳定构象的示意图(部分3)。

图3A是用于描述菱形编码方法的示意图(部分1)。

图3B是用于描述菱形编码方法的示意图(部分2)。

图3C是用于描述菱形编码方法的示意图(部分3)。

图3D是用于描述菱形编码方法的示意图(部分4)。

图3E是用于描述菱形编码方法的示意图(部分5)。

图4是示出根据所公开的技术限制晶格空间的状态的概念图。

图5是示出所公开的用于探索化合物的设备的结构示例的视图。

图6是用于描述用于使用图5的用于探索化合物的设备10A探索蛋白质的稳定构象的方法的流程图。

图7是示出半径r内的每个晶格是Sr的情况的视图。

图8A是示出在未生成受限晶格空间的情况下氨基酸残基移动至的晶格点的集合的视图(部分1)。

图8B是示出在未生成受限晶格空间的情况下氨基酸残基移动至的晶格点的集合的视图(部分2)。

图8C是示出在未生成受限晶格空间的情况下氨基酸残基移动至的晶格点的集合的视图(部分3)。

图8D是示出在未生成受限晶格空间的情况下氨基酸残基移动至的晶格点的集合的视图(部分4)。

图9是三维地示出S₁、S₂和S₃的视图。

图10A是示出将空间信息分配给位X₁至X_n中的每一个的状态的一个示例的视图(部分1)。

图10B是示出将空间信息分配给位X₁至X_n中的每一个的状态的一个示例的视图(部分2)。

图10C是示出将空间信息分配给位X₁至X_n中的每一个的状态的一个示例的视图(部分3)。

图11是用于描述H_one的视图。

图12是用于描述H_conn的视图。

图13是用于描述H_olap的视图。

图14A是用于描述H_pair的视图(部分1)。

图14B是用于描述H_pair的视图(部分2)。

图15是示出权重文件的一个示例的视图。

图16是示出用于模拟退火的优化设备(算术单元)的概念结构的视图。

图17是转换控制单元的电路级的框图。

图18是示出转换控制单元的操作流程的图。

图19是示出所公开的用于探索化合物的设备的另一结构示例的视图。

图20是示出所公开的用于探索化合物的设备的另一结构示例的视图。

图21是示出用于使用图20的用于探索化合物的设备10C探索蛋白质的稳定构象的方法的流程图。

图22是用于描述设定直链数量限制参数M(部分1)时的氨基酸残基的排列的限制的视图。

图23是用于描述设定直链数量限制参数M(部分2)时的氨基酸残基的排列的限制的视图。

图24是示出所公开的用于探索化合物的设备的另一结构示例的视图。

图25是示出用于使用图24的用于探索化合物的设备10D探索蛋白质的稳定构象的方法的流程图。

图26是用于描述使用直链数量限制参数M时的最大空间的视图。

图27是描绘所使用的位的数量的比较的图。

具体实施方式

所公开的用于探索化合物的设备是用于探索多个化合物基团彼此链接的化合物的化合物探索设备。

用于探索化合物的设备至少包括定义单元、限制单元、分配单元和算术单元。

定义单元被配置成定义晶格空间，晶格空间是多个化合物基团被顺序地排列的晶格的集合。

限制单元被配置成在化合物基团中的任一个排列在晶格空间的任何晶格中，然后在晶格空间中排列下一化合物基团的情况下，生成受限晶格空间，该受限晶格空间是通过从晶格空间中消除用于要排列的下一化合物基团的不希望的区域而创建的空间。

分配单元被配置成向受限晶格空间中的可以排列化合物基团的晶格点中的每一个分配位。

算术单元被配置成根据模拟退火对基于与每个晶格点有关的限制条件通过转换获得的伊辛模型执行基态探索，从而计算伊辛模型的最小能量。

所公开的用于探索化合物的方法是用于探索多个化合物基团彼此链接的化合物的方法。

用于探索化合物的方法使得计算机能够执行如下方法，该方法包括：定义晶格空间，该晶格空间是多个化合物基团被顺序地排列的晶格的集合；在化合物基团中的任一个排列在晶格空间的任何晶格中，然后在晶格空间中排列下一化合物基团的情况下，生成受限晶格空间，该受限晶格空间是通过从晶格空间中消除用于要排列的下一化合物基团的不希望的区域而创建的空间；向受限晶格空间中的可以排列化合物基团的晶格点中的每一个分配位；以及根据模拟退火对基于与每个晶格点有关的限制条件通过转换获得的伊辛模型执行基态探索，从而计算伊辛模型的最小能量。

所公开的用于探索化合物的程序是用于使计算机执行用于探索多个化合物基团彼此链接的化合物的方法的程序。

该方法包括：定义晶格空间，该晶格空间是多个化合物基团被顺序地排列的晶格的集合；在化合物基团中的任一个排列在晶格空间的任何晶格中，然后在晶格空间中排列下一化合物基团的情况下，生成受限晶格空间，该受限晶格空间是通过从晶格空间中消除用于要排列的下一化合物基团的不希望的区域而创建的空间；向受限晶格空间中的可以排列化合物基团的晶格点中的每一个分配位；以及根据模拟退火对基于与每个晶格点有关的限制条件通过转换获得的伊辛模型执行基态探索，从而计算伊辛模型的最小能量。

在描述所公开的技术的细节之前，将描述用于根据菱形编码方法确定作为化合物的蛋白质的折叠的方法。

通常以下列方式执行对蛋白质的稳定构象的探索。

首先，进行蛋白质的粗粒化(coarse graining)(图2A)。例如，蛋白质的粗粒化是通过将构成蛋白质的原子2粗粒化为氨基酸残基单元1A、1B和1C来执行的。

接下来，使用所创建的粗粒化模型执行结构探索(图2B)。根据稍后描述的菱形编码方法执行结构探索。

接下来，粗粒化模型返回至整个原子(图2C)。

菱形编码方法是线性氨基酸嵌入菱形晶格上的位置的方法，并且可以表示三维结构。为简单起见，将二维结构描述为示例。

在结构由线性结构表示时，用作示例的是具有图3A中所示的结构的线性五肽，其中5个氨基酸残基链接。在图3A至图3E中，每个圆圈中的数字是线性五肽中的氨基酸残基的编号。

首先，如图3A所示，编号为1的氨基酸残基排列在菱形晶格的中心，如图3B所示，可以排列编号为2的氨基酸残基的位置被限于紧邻中心的位置(编号为2的位置)。

接下来，在图3C中，可以排列被结合成与编号为2的氨基酸残基紧邻的编号为3的氨基酸残基的位置被限于与图3B中编号为2的位置紧邻的位置(编号为3的位置)。

接下来，在图3D中，可以排列被结合成与编号为3的氨基酸残基紧邻的编号为4的氨基酸残基的位置被限于与图3C中编号为3的位置紧邻的位置(编号为4的位置)。

接下来，在图3E中，可以排列被结合成与编号为4的氨基酸残基紧邻的编号为5的氨基酸残基的位置被限于与图3D中编号为4的位置紧邻的位置(编号为5的位置)。

用以上描述的方式，可以通过链接可以排列氨基酸残基的位置来表达三维结构。

当氨基酸残基结合成直链时，根据待结合的氨基酸残基的数量(n)来设定菱形晶格空间的半径(n)。

然而，由于氨基酸残基之间的相互作用，因此氨基酸残基通常很少排列成蛋白质中的直链。

因此，可以确定蛋白质的构象而不使菱形晶格空间的半径r与氨基酸残基的数量(n)匹配，如图4所示。

因此，根据所公开的技术，在化合物基团中的任一个排列在晶格空间的任何晶格中，然后在晶格空间中排列下一化合物基团的情况下，生成受限晶格空间，该受限晶格空间是通过从晶格空间中消除用于要排列的下一化合物基团的不希望的区域而创建的空间，向受限晶格空间中的可以排列化合物基团的晶格点中的每一个分配位。结果，抑制了用于探索预定化合物的算术位或量子位的数量，并且可以探索具有大分子量的化合物。

例如，化合物基团是氨基酸残基。

在化合物基团是氨基酸残基的情况下，化合物的示例包括蛋白质。

作为氨基酸残基的基础的氨基酸可以是天然氨基酸或合成氨基酸。天然氨基酸的示例包括丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、蛋氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸、缬氨酸、β-丙氨酸和β-苯丙氨酸。合成氨基酸的示例包括对苯甲酰苯丙氨酸。

蛋白质中的氨基酸残基的数量没有特别限制，并且可以根据预期目的来适当选择。例如，其数量可以是约10个至约30个，或约数百个。

例如，只要蛋白质是用于中间分子药物发现的蛋白质，则其数量可以是约10个至约30个。

在下文中将使用设备、流程图等的示例来描述所公开的技术的一个示例。

用于探索化合物的设备的结构示例在图5中示出。

图5中所示的用于探索化合物的设备10A包括：化合物基团数量计数单元11、定义单元12、限制单元13、分配单元14、H生成单元15、权重提取单元16、权重文件创建单元17、算术单元18和输出单元19。

图6中示出了用于描述用于使用图5的用于探索化合物的设备10A探索蛋白质的稳定构象的方法的流程图。

首先，通过化合物基团数量计数单元11对构成输入蛋白质(氨基酸残基的排列)的氨基酸残基(化合物基团)的数量(n)进行计数(S101)。

接下来，由定义单元12基于氨基酸残基的数量(n)，定义作为多个氨基酸残基被顺序地排列的晶格的集合的晶格空间(S102)。

将描述晶格空间的定义的一个示例。虽然晶格空间是三维的，但为简单起见，将二维晶格空间描述为示例。

首先，将菱形晶格空间中的半径r内的晶格的集合确定为壳(shell)，并且将每个晶格点确定为S_r。每个晶格点S_r如图7那样表示。

在与所公开的技术不同地不生成受限晶格空间的情况下，例如，编号为1至编号为5的氨基酸残基被移动至的晶格点的集合V1至V5如图8A至图8D那样表示。

在图8A中，V₁＝S₁，并且V₂＝S₂。

在图8B中，V₃＝S₃。

在图8C中，V₄＝S₂，S₄。

在图8D中，V₅＝S₃，S₅。

注意，当S₁、S₂和S₃以三维表示时，S₁、S₂和S₃如图9那样表示。在图9中，A＝S₁，B＝S₂，并且C＝S₃。

在不生成受限晶格空间的情况下，用于具有n个氨基酸残基的蛋白质中的编号为i的氨基酸残基的空间V_i由下式表示。

在上式中，i＝{1,2,3,......n}。

在编号为奇数(i＝奇数)的氨基酸残基的情况下，J＝{1,3，......i}。在编号为偶数(i＝偶数)的氨基酸残基的情况下，J＝{2,4，......i}。

同时，在所公开的技术中，在化合物基团中的任一个排列在晶格空间的任何晶格中，然后在晶格空间中排列下一化合物基团的情况下，由限制单元13生成受限晶格空间，该受限晶格空间是通过从晶格空间中消除用于要排列的下一化合物基团的不希望的区域而创建的空间。例如，设定表示菱形晶格空间的大小的空间限制参数L(L<n)(S103)，并且将编号为i的氨基酸残基在空间限制参数L的限制下移动至的晶格点的集合确定为V_i(S104)。

作为用于编号为i的氨基酸残基的空间的V_i由下式表示。

在上式中，i＝{1,2,3,......n}。

当空间限制参数L是偶数并且i<L时：

·在编号为奇数(i＝奇数)的氨基酸残基的情况下，J＝{1,3,......i}。

·在编号为偶数(i＝偶数)的氨基酸残基的情况下，J＝{2,4,......i}。

当空间限制参数L是偶数并且i>L时：

·在编号为奇数(i＝奇数)的氨基酸残基的情况下，J＝{1,3,......L-1}。

·在编号为偶数(i＝偶数)的氨基酸残基的情况下，J＝{2,4,......L}。

当空间限制参数L是奇数并且i<L时：

当空间限制参数L是奇数并且i>L时：

·在编号为奇数(i＝奇数)的氨基酸残基的情况下，J＝{1,3,......L}。

·在编号为偶数(i＝偶数)的氨基酸残基的情况下，J＝{2,4,......L-1}。

如上所述，确定排列氨基酸残基的空间。

接下来，分配单元14被配置成向受限晶格空间中的排列多个化合物基团的晶格点中的每一个分配位。具体地，将特殊信息分配给位X₁至X_n中的每一个(S105)。如图10B至图10C所示，具体地，对于排列氨基酸残基中的每一个的空间，分配将在该位置存在氨基酸残基表示为1且将不存在氨基酸残基表示为0的位。注意，在图10A至图10C中，多个X_i被分配给氨基酸残基2至4，但实际上一个位X_i被分配给一个氨基酸残基1。

接下来，设定H_one、H_conn、H_olap和H_pair，并且创建基于与每个晶格点有关的限制条件通过转换而获得的伊辛模型(S106)。

在H生成单元15的H_one生成单元15A、H_conn生成单元15B、H_olap生成单元15C和H_pair生成单元15D中的每一个中执行对H_one、H_conn、H_olap和H_pair的设定。

在菱形编码方法中，整个能量可以表示如下。

E(x)＝H＝H_one+H_conn+H_olap+H_pair

在上式中，H_one是从第一氨基酸至编号为n的氨基酸中的每一个只有一个氨基酸的限制。

H_conn是第一氨基酸至编号为n的氨基酸彼此链接的限制。

H_olap是第一氨基酸至编号为n的氨基酸彼此不重叠的限制。

H_pair是表示氨基酸之间的相互作用的限制。

每个限制的一个示例如下。

注意，在下面描述的图11至图14中，X₁是可以排列编号为1的氨基酸残基的位置。

X₂至X₅是可以排列编号为2的氨基酸残基的位置。

X₆至X₁₃是可以排列编号为3的氨基酸残基的位置。

X₁₄至X₂₉是可以排列编号为4的氨基酸残基的位置。

H_one的一个示例如下所表示。

在上面的函数中，X_a和X_b可以是1或0。具体地，H_one是当X₂、X₃、X₄和X₅中的任何两个为1时能量增加的函数，因为在图11中X₂、X₃、X₄和X₅中只有一个是1；H_one是惩罚项并且当X₂、X₃、X₄和X₅中只有一个是1时变为0。

注意，在上面的函数中，λ_one是加权系数。

H_conn的一个示例如下所表示。

在上面的函数中，X_d和X_u可以是1或0。具体地，H_conn是当在图12中X₂为1时只要X₁₃、X₆或X₇中的任何一个为1，能量减少的式；H_conn是惩罚项并且当所有氨基酸残基彼此链接时变为0。

注意，在上面的函数中，λ_conn是加权系数。例如，满足λ_one>λ_conn的关系。

H_olap的一个示例如下所表示。

在上面的函数中，X_a和X_b是1或0。具体地，H_olap是当在图13中X₁₄为1并且X₂为1时产生惩罚的项。

注意，在上面的函数中，λ_olap是加权系数。

H_pair的一个示例如下所表示。

在上面的函数中，X_a和X_b可以是1或0。具体地，H_pair是当在图14A和图14B中X₁₅为1并且X₁为1时由于X₁的氨基酸残基与X₁₅的氨基酸残基之间的相互作用P_{ω(x1)ω(x15)}引起能量降低的函数。相互作用P_{ω(x1)ω(x15)}由两个氨基酸残基的组合确定。例如，参考Miyazawa-Jernigan(MJ)矩阵确定相互作用P_{ω(x1)ω(x15)}。

接下来，通过合成单元15E合成H_one、H_conn、H_olap和H_pair来计算H。

接下来，由权重提取单元16提取以上每个函数的加权系数(λ_one、λ_conn和λ_olap)。

接下来，由权重文件创建单元17创建与所提取的权重系数相对应的权重文件。例如，权重文件是矩阵。例如，在2X₁X₂+4X₂X₃的情况下，权重文件是如图15所示的矩阵文件。

可以通过使用所创建的权重文件表示伊辛模型的以下能量式。

在上面的函数中，状态X_i和X_j可以是0或1，其中0意味着不存在，1意味着存在。作为右侧的第一项的W_ij是加权系数。

右侧的第一项是两个神经元电路的状态与来自整个神经元电路的两个神经元电路(没有任何遗漏或重叠)的所有可选组合的加权值的乘积的积分。

此外，右侧的第二项是偏置值与整个神经元电路中的每一个的状态的乘积的积分。b_i是编号为i的神经元电路的偏置值。

接下来，算术单元18(退火机)根据模拟退火执行对基于与晶格点的每一个有关的限制条件转换的伊辛模型的基态探索，从而计算伊辛模型的最小能量(S107)。

算术单元18(退火机)可以是以下中的任一种：量子退火机、使用半导体技术的半导体退火机，或者使用中央处理单元(CPU)或图形处理单元通过软件执行的模拟退火——如果供使用的计算机是采用退火系统以用于执行对由伊辛模型表示的能量函数的基态探索的计算机。

计算结果从输出单元19输出。结果可以作为蛋白质的构象视图输出，或者作为构成蛋白质的每个氨基酸残基的坐标信息输出。

下面将描述模拟退火和算术单元18(退火机)的一个示例。

模拟退火(SA)是一种蒙特卡罗方法，以及使用随机数值进行随机确定的方法。在下面的描述中，将用于最小化要优化的评估函数的值的问题作为示例，并且将评估函数的值称为能量。在最大化的情况下，可以改变评估函数的正号或负号。

从将一个离散值分配给每个变量的初始状态开始，从当前状态(变量值的组合)中选择接近初始状态的状态(例如，仅改变一个变量的状态)，然后研究其状态转换。计算用于状态转换的能量变化，并且根据计算的值随机地确定状态转换是否被调整以改变状态或保持原始状态而不调整状态转换。当能量减少的情况的调整概率被选择成大于能量增加的情况的调整概率时，在能量平均减少的趋势中发生状态变化，并且预期状态随着时间转换为适当的状态。然后，最终，可以获得近似解，其给出接近最优解或最优值的能量。如果确定性地采用能量减少的情况并且不调整能量增加的情况，则能量变化相对于时间处于弱减小的状态，但是一旦达到局部解，则改变将停止。由于如上所述的在离散优化问题中存在大量局部解，因此很可能该状态被不太接近最优值的局部解捕获。因此，随机确定是否调整是重要的。

在模拟退火中证明，当状态转换的调整(容差)概率被确定如下时，状态在无限时间(迭代次数)的限制下达到最优解。

(1)关于能量变化(能量减少)值(-ΔE)以及状态转换，状态转换的接受概率p由以下函数f()中的任何一个确定。

p(ΔE，T)＝f(-ΔE/T) (式1-1)

f_metro(x)＝min(1，e^x)(Metropolis方法) (式1-2)

在上式中，T是被称为温度值的参数，其改变如下。

(2)温度值T相对于迭代次数t以对数方式减小，如下式所表示。

在上式中，T₀是初始温度值，并且希望根据问题而足够大。

在使用由式(1)表示的接受概率的情况下，一旦状态在充分迭代之后达到稳定状态，每个状态的占用概率遵循针对热力学中的热平衡状态的玻尔兹曼分布。

随着温度从高温逐渐降低，低能量状态的占用概率增加。因此，当温度充分降低时，应该获得低能量状态。如上所描述的状态非常类似于材料开发(develop)时发生的状态变化。因此，以上描述的方法被称为模拟退火。能量增加的状态转换的随机发生等同于物理学中的热激发。

用于执行模拟退火的优化设备(算术单元18)在图16中示出。下面的描述包括生成多个状态转换候选的情况，但是在原始基本模拟退火中逐个生成转换候选。

优化设备100包括状态保持单元111，其被配置成保持当前状态S(多个状态变量值)。此外，优化设备100包括能量计算单元112，其被配置成在由于任何状态变量值的改变而从当前状态S发生状态转换时计算每个状态转换的能量变化值{-ΔEi}。此外，优化设备100包括被配置成控制温度值T的温度控制单元113以及被配置成控制状态转换的转换控制单元114。

转换控制单元114被配置成基于温度值T、能量变化值{-ΔEi}和随机数值、根据能量变化值{-ΔEi}与热激发能量之间的相关性随机地确定是否调整任何状态转换。

转换控制单元114进一步细分。转换控制单元114包括候选生成单元114a和判断单元114b，候选生成单元114a被配置成生成状态转换的候选，判断单元114b被配置成基于其能量变化值{-ΔEi}和温度值T，对每个候选随机地判断是否允许状态转换。转换控制单元114还包括：转换确定单元114c，其被配置成确定所允许的候选者中要调整的候选者；以及随机数生成单元114d，其被配置成生成概率变量。

一次迭代的操作如下。首先，候选生成单元114a生成从保持在状态保持单元111中的当前状态S到下一状态的状态转换的一个或更多个候选(候选编号{Ni})。能量计算单元112使用当前状态S和状态转换的候选来计算作为候选列出的每个状态转换的能量变化值{-ΔEi}。判断单元114b使用由温度控制单元113生成的温度值T和由随机数生成单元114d生成的概率变量(随机数值)，根据每个状态转换的能量变化值{-ΔEi}以上面式(1)的接受概率来接受状态转换。然后，判断单元114b输出每个状态转换的接受或拒绝{fi}。在存在多个接受状态转换的情况下，转换确定单元114c使用随机数值随机选择接受状态转换之一。转换确定单元114c输出所选择的状态转换的转换编号N和转换的接受或拒绝f。在存在接受状态转换的情况下，根据所调整的状态转换来更新存储在状态保持单元111中的状态变量的值。

以上描述的迭代从初始状态开始并且通过温度控制单元113降低温度值而重复。当结束判断条件例如达到一定迭代次数，或者能量降低到某个值以下被满足时，完成操作。优化设备110输出的答案是完成时的状态。

图17是逐个生成候选的典型模拟退火中的用于转换控制单元特别是判断单元的算术部分的结构示例的电路级的框图。

转换控制单元114包括随机数生成器114b1、选择器114b2、噪声表114b3、乘法器114b4和比较器114b5。

选择器114b2被配置成在针对每个状态转换的候选计算的能量变化值{-ΔEi}中选择与作为由随机数生成器114b1生成的随机数值的转换编号N对应的值，然后输出该值。

稍后将描述噪声表114b3的功能。例如，可以将诸如随机存取存储器(RAM)和闪存的存储器用作噪声表114b3。

乘法器114b4输出通过将由噪声表114b3输出的值与温度值T相乘而得到的乘积(与以上描述的热激发能量相对应)。

比较器114b5将通过比较由乘法器114b4输出的乘积结果与由选择器114b2选择的能量变化值-ΔE而获得的比较结果输出为转换接受或拒绝f。

图17中示出的转换控制单元114实际上基本上具有上述功能，但是尚未描述用于以由式(1)表示的接受概率来接受状态转换的机构。因此，将补充描述该机构。

以接受概率p输出1并且以接受概率(1-p)输出0的电路具有两个输入A和B，可以通过将接受概率p输入到比较器的输入A并且将具有区间[0,1]中的值的均匀随机数输入到比较器的输入B来实现，其中，比较器在A>B时输出1，并且在A<B时输出0。因此，通过将使用式(1)根据能量变化值和温度值T计算的接受概率p的值输入到比较器的输入A，可以实现上述功能。

具体地，可以利用在f(ΔE/T)大于u时输出1的电路实现以上描述的功能，其中，f是由式(1)表示的函数，并且u是具有区间[0,1]中的值的均匀随机数。

电路可以照原样，但是通过执行以下变形也可以实现相同的功能。当相同的单调递增函数被给予两个数时，两个数的大小关系不会改变。因此，即使相同的单调递增函数被给予比较器的两个输入，输出也不会改变。可以理解，当f的反函数f^-1用作单调递增函数时，在-ΔE/T大于f^-1(u)时输出1的电路是可接受的。此外，由于温度值T是正值，因此在-ΔE大于Tf^-1(u)时输出1的电路是可接受的。图17中的噪声表114b3是用于实现反函数f^-1(u)的转换表，以及用于针对离散化区间[0,1]的输入输出下面的函数的值的表。

转换控制单元114还包括：锁存器，其被配置成保持判断结果等；状态机，其被配置成生成其定时等，但是为了简化说明，在图17中省略了上述单元。

图18示出了转换控制单元114的操作流程。操作流程包括用于选择一个状态转换作为候选的步骤(S0001)、用于通过比较状态转换的能量变化值、温度值和随机数值的乘积来确定状态转换的接受或拒绝的步骤(S0002)，以及用于如果状态转换可接受则调整状态转换并且如果状态转换不可接受则拒绝状态转换的步骤(S0003)。

注意，图5中所示的用于探索化合物的设备10A是算术单元18与限制单元13等被布置在同一空间中的示例，但是所公开的用于探索化合物的设备可以包括在空间上远离限制单元13等的算术单元18，比如图19中所示的用于探索化合物的设备10B。

接下来，将使用另一设备示例、流程图等来描述所公开的技术的另一示例。

用于探索化合物的设备的结构示例在图20中示出。

图20中所示的用于探索化合物的设备10C包括：化合物基团数量计数单元11、定义单元12、限制单元13、分配单元14、H生成单元15、权重提取单元16、权重文件创建单元17、算术单元18和输出单元19。

图21中示出了示出用于使用图20的用于探索化合物的设备10C探索蛋白质的稳定构象的方法的流程图。

除了限制单元13之外，图20中所示的用于探索化合物的设备10C的每个单元与图5所示的用于探索化合物的设备10A的每个单元相同。

在图21的流程图中，步骤S201与图6的流程图的步骤S101相对应、步骤S202与步骤S102相对应、步骤S204与步骤S104相对应、步骤S205与步骤S105相对应、步骤S206与步骤S106相对应以及步骤S207与步骤S107相对应。

因此，着眼于限制单元13和步骤S203给出描述。

在多个化合物基团中的任一个排列在晶格空间的任何晶格中，然后在晶格空间中排列下一化合物基团的情况下，通过设定排列成直链的氨基酸残基的最大数量M(直链数量限制参数M)(S203)，限制单元13生成通过从晶格空间去除用于要排列的下一化合物基团的不期望的区域而获得的受限晶格空间。

如前所述，由于氨基酸残基之间的相互作用，氨基酸残基通常很少排列成直链。

因此，通过设定排列成直链的氨基酸残基的最大数量M(直链数量限制参数M)，并且在以上限制下消除不布置氨基酸残基的区域，从而生成受限晶格空间，可以抑制算术位或量子位的数量。当然，M小于氨基酸残基的数量(n)(M<n)。

例如，当直链数量限制参数M被设定为5时，如图22所示，排列成直链的氨基酸残基的数量是作为最大数的5。

当设定直链数量限制参数M时，受限晶格空间随着氨基酸残基数量的增加而增加，如图23所示。具体地，当直链限制参数M用于n个氨基酸残基时，最大晶格空间K由下式确定。

空间限制参数L(L<n)可以组合使用以产生受限晶格空间。在这种情况下，优选满足L≤K。

用于探索化合物的设备的结构示例在图24中示出。

图24中所示的用于探索化合物的设备10D包括：化合物基团数量计数单元11、定义单元12、限制单元13、分配单元14、H生成单元15、权重提取单元16、权重文件创建单元17、算术单元18和输出单元19。

图25中示出了用于使用图24的用于探索化合物的设备10D探索蛋白质的稳定构象的流程图。

除了限制单元13之外，图24中所示的用于探索化合物的设备10D的每个单元与图20所示的用于探索化合物的设备10C的每个单元相同。

在图25的流程图中，步骤S301与图21的流程图的步骤S201相对应、步骤S302与步骤S202相对应、步骤S303与步骤S203相对应、步骤S305与步骤S204相对应、步骤S306与步骤S205相对应、步骤S307与步骤S206相对应以及步骤S308与步骤S207相对应。

因此，着眼于限制单元13和步骤S304给出描述。

在多个化合物基团中的任一个排列在晶格空间的任何晶格中，然后在晶格空间中排列下一化合物基团的情况下，限制单元13通过设定排列成直链的氨基酸残基的最大数量M(直链限制参数M)(S303)并且定义编号为i的氨基酸残基被移动至的位点的最大值S(i)(S304)来创建受限晶格空间，该受限晶格空间是通过从晶格空间消除用于要排列的下一化合物基团的不希望的区域而得到的。

当使用直链数量限制参数M时，每个氨基酸残基的空间半径r例如如表1所表示的，其中M＝5(K＝8)、n＝11，并且L＝K。

表1

以上描述的示例如图26中可视化的。尽管最大空间是相同的，但是创建了过量的空间，并且可以理解，第6或第7氨基酸残基可以在现实中产生更小的空间。

因此，添加直链限制参数M以及使用直链数量限制参数的空间参数s(x)。结果，可以如下限制空间，并且可以在不降低精度的情况下抑制位数量。

i＝{1,2,3，......n}

当空间限制参数L是偶数并且i<L时：

·在编号为奇数(i＝奇数)的氨基酸残基的情况下，J＝{s(1),s(3),.....S(i)}。

·在编号为偶数(i＝偶数)的氨基酸残基的情况下，J＝{s(2),s(4),.....S(i)}。

当空间限制参数L是偶数并且i>L时：

·在编号为奇数(i＝奇数)的氨基酸残基的情况下，J＝{s(2),s(4),.....S(L-1)}。

·在编号为偶数(i＝偶数)的氨基酸残基的情况下，J＝{s(2),s(4),.....S(L)}。

当空间限制参数L是奇数并且i<L时：

当空间限制参数L是奇数并且i>L时：

·在编号为奇数(i＝奇数)的氨基酸残基的情况下，J＝{s(2),s(4),.....S(L)}。

·在编号为偶数(i＝偶数)的氨基酸残基的情况下，J＝{s(2),s(4),.....S(L-1)}。

在以上描述中，参照图5和图6描述的所公开的技术被确定为示例1，参照图20和图21描述的所公开的技术被确定为示例2，并且参照图24和图25描述的所公开的技术被确定为示例3。在每个示例中，如下确定参数时使用的位数量的变化在图27中示出。

·示例1：L＝15

·示例2：L＝15，M＝5

·示例3：L＝15，M＝5

·比较示例1：没有限制

在所有示例中证实，与没有给出限制的比较示例1相比，使用的位数量可以显著减少，并且具有相对大规模问题的化合物(例如，蛋白质)可以用作探索目标。

Claims

1.一种药剂探索设备，是确定氨基酸残基彼此链接的药剂的药剂探索设备，包括：

计算机；以及

退火机，与所述计算机结合，

所述计算机被构造成：

基于多个氨基酸残基的数量k，来定义晶格空间，所述晶格空间是多个所述氨基酸残基被顺序地排列的晶格点的集合，k为10至30的整数，

在多个所述氨基酸残基中的任一个排列在所述晶格空间的任何晶格点中，然后在所述晶格空间中排列接下来链接的下一氨基酸残基的情况下，通过基于所设定的空间限制参数L以及设定排列成直链的氨基酸残基的最大数量，来生成从所述晶格空间中去除不期望排列所述下一氨基酸残基的区域而获得的受限晶格空间，其中，L＜k，

向所述受限晶格空间中的能够排列多个所述氨基酸残基中的每个氨基酸残基的晶格点中的每一个分配位，所述位将在该位置存在氨基酸残基表示为1，将不存在氨基酸残基表示为0，

通过下述步骤来创建所述药剂的伊辛模型：

关于与每个晶格点有关的限制条件，设定表示第一氨基酸至编号为n的氨基酸中的每一个只有一个的限制的H_one、表示第一氨基酸至编号为n的氨基酸彼此链接的限制的H_conn、表示第一氨基酸至编号为n的氨基酸彼此不重叠的限制的H_olap以及表示示出氨基酸之间的相互作用的限制的H_pair，

基于下式来计算化合物的整个能量E(x)：

E(x)＝H＝H_one+H_conn+H_olap+H_pair，

将所述E(x)转换为伊辛模型的能量式，

所述退火机被构造成：

根据模拟退火对基于与所述晶格点中的每一个有关的限制条件通过转换获得的伊辛模型执行基态探索，从而计算所述伊辛模型的最小能量。

2.一种药剂探索方法，是使用计算机来确定氨基酸残基彼此链接的药剂的药剂探索方法，所述药剂探索方法包括：

通过下述步骤来创建所述药剂的伊辛模型：

关于与每个晶格点有关的限制条件，设定表示第一氨基酸至编号为n的氨基酸中的每一个只有一个的限制的_Hone、表示第一氨基酸至编号为n的氨基酸彼此链接的限制的H_conn、表示第一氨基酸至编号为n的氨基酸彼此不重叠的限制的H_olap以及表示示出氨基酸之间的相互作用的限制的H_pair，

基于下式来计算化合物的整个能量E(x)：

E(x)＝H＝H_one+H_conn+H_olap+H_pair，

将所述E(x)转换为伊辛模型的能量式，以及

使用退火机，根据模拟退火对基于与所述晶格点中的每一个有关的限制条件通过转换获得的伊辛模型执行基态探索，从而计算所述伊辛模型的最小能量。