CN117043868A

CN117043868A - 信息处理程序、信息处理方法以及信息处理装置

Info

Publication number: CN117043868A
Application number: CN202180095792.3A
Authority: CN
Inventors: 片冈正弘; 和田光人; 松村量
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2023-11-10
Also published as: EP4328921A1; AU2021441603A1; WO2022224336A1; JPWO2022224336A1; US20240006028A1

Abstract

信息处理装置基于学习数据而执行学习模型的学习，所述学习数据定义了与基因组对应的矢量和与构成基因组的多个子基因组分别对应的矢量之间的关系。信息处理装置在接受了分析对象基因组的情况下，通过将分析对象基因组输入到学习模型，计算与分析对象基因组对应的多个子基因组的矢量。

Description

信息处理程序、信息处理方法以及信息处理装置

技术领域

本发明涉及信息处理程序等。

背景技术

随着基因导入技术的进步和对免疫机制的理解的加深，使用基因载体进行基因重组操作。根据插入的基因片段的大小、插入目标，将附加了各种特征的介质作为基因载体来区分使用。在这些操作中，使用来源于大肠杆菌、酵母、宿主生物等的基因载体。

例如，作为使用了基因改造T细胞的癌免疫疗法，嵌合抗原受体(ChimericAntigen Receptor：CAR)导入T细胞治疗法受到关注。CAR是使特异性地识别抗原的抗体来源的部分与TCR(T Cell Receptor)来源的细胞毒性功能部分结合而人工制作的、能够特异性地识别、攻击癌抗原的受体。

现有技术文献

专利文献

专利文献1：国际公开第2020/230240号

专利文献2：国际公开第2007/102578号

发明内容

发明所要解决的课题

使用基因载体开发基因治疗药物是非常有希望的，但难以直接使用多种多样的基因载体来合成基因治疗药物。

因此，可以考虑替代多种多样的基因载体来合成目标基因治疗药物，但现状是如何搜索可替代的基因载体、高效地进行基因重组是困难的。

在一个方面，本发明的目的在于，提供一种能够确定替代目标基因组所含的子基因组的基因组的信息处理程序、信息处理方法以及信息处理装置。

[用于解决课题的手段]

在第一方案中，使计算机执行如下的处理。计算机基于学习数据而执行学习模型的学习，所述学习数据定义了与基因组对应的矢量和与构成基因组的多个子基因组分别对应的矢量之间的关系。计算机在接受了分析对象基因组的情况下，通过将分析对象基因组输入到学习模型，计算与分析对象基因组对应的多个子基因组的矢量。

发明效果

可以确定替代目标基因组中所含的子基因组的基因组。

附图说明

图1是用于说明基因组的图。

图2是示出氨基酸与碱基及密码子的关系的图。

图3是用于说明蛋白质的一级结构、二级结构、三级结构、高级结构的图。

图4是表示基因载体的一例的图。

图5是用于说明本实施例的信息处理装置的学习阶段的处理的一例的图。

图6是用于说明本实施例的信息处理装置的分析阶段的处理的一例的图。

图7是示出本实施例1的信息处理装置的结构的功能框图。

图8是表示碱基文件的数据结构的一例的图。

图9是表示转换表的数据结构的一例的图。

图10是示出辞典表的数据结构的一例的图。

图11是表示蛋白质一级结构辞典的数据结构的一例的图。

图12是表示二级结构辞典的数据结构的一例的图。

图13是示出三级结构辞典的数据结构的一例的图。

图14是示出高级结构辞典的数据结构的一例的图。

图15是表示压缩文件表的数据结构的一例的图。

图16是表示矢量表的数据结构的一例的图。

图17是表示蛋白质一级结构矢量表的数据结构的一例的图。

图18是表示二级结构矢量表的数据结构的一例的图。

图19是表示三级结构矢量表的数据结构的一例的图。

图20是表示高级结构矢量表的数据结构的一例的图。

图21是表示转置索引表的数据结构的一例的图。

图22是表示蛋白质一级结构转置索引的数据结构的一例的图。

图23是表示二级结构转置索引的数据结构的一例的图。

图24是表示三级结构转置索引的数据结构的一例的图。

图25是表示高级结构转置索引的数据结构的一例的图。

图26是示出基因组辞典的数据结构的一例的图。

图27是示出本实施例的信息处理装置的处理过程的流程图(1)。

图28是示出本实施例的信息处理装置的处理过程的流程图(2)。

图29是用于描述本实施例2的信息处理装置的学习阶段的处理的一例的图。

图30是用于描述本实施例2的信息处理装置的处理的图。

图31是示出本实施例2的信息处理装置的结构的功能框图。

图32是示出本实施例2的信息处理装置的处理过程的流程图。

图33是表示实现与实施例的信息处理装置同样的功能的计算机的硬件结构的一例的图。

具体实施方式

以下，基于附图详细说明本申请公开的信息处理程序、信息处理方法以及信息处理装置的实施例。另外，本发明并不限定于该实施例。

实施例1

在进行本实施例的说明之前，对基因组进行说明。图1是用于说明基因组的图。基因组1包含规定多个氨基酸连接的顺序的基因信息。在此，氨基酸由连续的3个碱基、即密码子决定。另外，基因组1中包含蛋白质1a的信息。蛋白质1a是将20种类的氨基酸多个结合、且多个链状连接而成的。蛋白质1a的结构可以理解为蛋白质的一级结构、二级结构、三级结构、高级(四级)结构。图1b示出了蛋白质1a的高级结构。在以下的说明中，适当地将蛋白质的一级结构、蛋白质的二级结构、蛋白质的三级结构、蛋白质的高级结构分别表述为一级结构、二级结构、三级结构、高级结构。

DNA和RNA的碱基为4种，用“A”、“G”、“C”、“T”或“U”的记号表示。另外，3个碱基排列为一块，确定20种类的氨基酸。各个氨基酸用“A”～“Y”的记号表示。图2是示出氨基酸与碱基及密码子之间的关系的图。3个碱基排列的块被称为“密码子”。根据碱基的排列，确定密码子，确定了密码子时，确定氨基酸。

如图2所示，多种密码子与一个氨基酸相关联。因此，当密码子被确定时，氨基酸被确定，但即使氨基酸被确定，密码子也不是唯一确定的。例如，氨基酸“丙氨酸(Ala)A”与密码子“GCU”、“GCC”、“GCA”或“GCG”相关联。

另外，由碱基排列唯一地确定蛋白质。蛋白质的一级结构是多个氨基酸的排列。在二级结构中，有α螺旋、β片等，是局部可见的对称的副结构。三级结构包括多个二级结构。另外，高级结构包括多个三级结构。图3是用于说明蛋白质的一级结构、二级结构、三级结构、高级结构的图。例如，如图3所示，高级结构Z₁包括三级结构Y₁、Y₂、Y₃等。在三级结构Y₁中包含二级结构X₁、X₂、X₃等。在二级结构X₁中包含一级结构W₁、W₂、W₃等。一级结构W₁包括氨基酸A₁、A₂、A₃等。

本实施例中使用的基因载体为DNA或RNA分子，用于人为地将外源基因运送至另一细胞。基因载体中存在质粒、粘粒、λ噬菌体、人工染色体等。图4是示出基因载体的一例的图。图4所示的基因载体是pBR322质粒，被广泛用作克隆载体。基因载体本身是DNA和RNA的碱基排列，例如，作为与图3中说明的蛋白质的高级结构对应的排列进行说明。

另外，基因载体通过合成多个子载体而生成。子载体是DNA和RNA的碱基排列，例如与图3中说明的蛋白质的二级结构对应。子载体中还包括：包含大肠杆菌中的维持所需的要素的所谓大肠杆菌载体、用于在来源于酵母、植物、哺乳动物等的细胞系中维持的载体。子载体也可以是其他载体。

接下来，将描述本实施例的信息处理装置的处理的一例。

图5是用于描述本实施例的信息处理装置的学习阶段的处理的一例的图。如图5所示，信息处理装置使用学习数据65来执行学习模型70的机器学习。学习模型70与CNN(Convolutional Neural Network：卷积神经网络)、RNN(Recurrent Neural Network：循环神经网络)等对应。

学习数据65定义目标基因组(治疗药)的矢量与该目标基因组中包含的多个子基因组的矢量之间的关系。例如，目标基因组的矢量与输入数据对应，多个子基因组成为其输出数据的正确值。

信息处理装置执行基于误差反向传播的学习，使得将目标基因组的矢量输入到学习模型70时的输出接近各子基因组的矢量。信息处理装置基于学习数据65中包含的目标基因组的矢量与多个子基因组的矢量之间的关系，反复执行上述处理，从而调整学习模型70的参数(执行机器学习)。

图6是用于说明本实施例的信息处理装置的分析阶段的处理的一例的图。信息处理装置在分析阶段使用在学习阶段学习过的学习模型70来执行以下的处理。

信息处理装置在接收到指定了目标基因组(治疗药)的分析查询80时，将分析查询80的目标基因组转换为矢量Vob80。信息处理装置通过将矢量Vob80输入到学习模型70，计算与各子基因组对应的多个矢量(Vsb80-1、Vsb80-2、Vsb80-3、…Vsb80-n)，存储在子基因组表T1中。

信息处理装置对存储在替代基因载体表T2中的与各替代基因载体对应的多个矢量(Vt1、Vt2、Vt3、…Vtn)与多个矢量(Vsb80-1、Vsb80-2、Vsb80-3、…Vsb80-n)的相似度进行比较，确定相似的替代基因载体的矢量。信息处理装置将目标基因组的矢量、子基因组的矢量和相似的替代基因载体的矢量关联起来登记在替代管理表85中。

如上所述，本实施例涉及的信息处理装置基于定义了目标基因组的矢量与各子基因组的矢量之间的关系的学习数据65，执行学习模型70的学习。信息处理装置通过向学习完毕的学习模型70输入分析查询的矢量，计算与分析查询的目标基因组对应的各子基因组的矢量。通过使用从学习模型70输出的各子基因组的矢量，能够容易地检测与目标基因组中包含的子基因组相似的基因载体、即可替代的基因载体。

接下来，将描述本实施例1的信息处理装置的结构的一例。图7是示出本实施例1的信息处理装置的结构的功能框图。如图7所示，信息处理装置100包括通信部110、输入部120、显示部130、存储部140和控制部150。

通信部110通过有线或无线与外部装置等连接，与外部装置等之间进行信息的收发。例如，通信部110由NIC(Network Interface Card：网络接口卡)等实现。通信部110也可以与未图示的网络连接。

输入部120是将各种信息输入到信息处理装置100的输入装置。输入部120对应于键盘、鼠标、触摸面板等。

显示部130是显示从控制部150输出的信息的显示装置。显示部130对应于液晶显示器、有机EL(Electro Luminescence：电致发光)显示器、触摸面板等。

存储部140具有碱基文件50、转换表51、辞典表52、压缩文件表53、矢量表54和转置索引表55。另外，存储部140具有子基因组表T1、替代基因载体表T2、基因组辞典D2、学习数据65、学习模型70、分析查询80、替代管理表85。存储部140例如由RAM(Random AccessMemory：随机存取存储器)、闪存(Flash Memory)等半导体存储器元件、或者硬盘、光盘等存储装置实现。

碱基文件50是保持多个碱基排列的信息的文件。图8是表示碱基文件的数据结构的一例的图。如图8所示，碱基文件50为4种，用“A”、“G”、“C”、“T”或“U”的记号表示。

转换表51是将密码子与密码子的代码关联起来的表。3个碱基排列的块被称为“密码子”。图9是表示转换表的数据结构的一例的图。如图9所示，各密码子与各代码相关联。例如，密码子“UUU”的代码为“40h(01000000)”。“h”表示16进制数。

辞典表52是保持各种辞典的表。图10是示出辞典表的数据结构的一例的图。如图10所示，该辞典表52具有蛋白质一级结构辞典D1-1、二级结构辞典D1-2、三级结构辞典D1-3、高级结构辞典D1-4。

蛋白质一级结构辞典D1-1是定义蛋白质的压缩代码与构成蛋白质的密码子的排列的关系的辞典数据。图11是表示蛋白质一级结构辞典的数据结构的一例的图。如图11所示，蛋白质一级结构辞典D1-1将压缩代码、名称和密码子代码排列关联起来。压缩代码是密码子的压缩代码排列(或氨基酸的代码排列)。名称是蛋白质的名称。密码子代码排列是密码子的压缩代码的排列。另外，也可以代替密码子代码排列，将氨基酸的代码的排列与蛋白质一级结构的压缩代码关联起来。

例如，对蛋白质一级结构“I型胶原蛋白”分配压缩代码“C0008000h”。与压缩代码“C0008000h”对应的密码子代码排列为“02h63h78h…03h”。

二级结构辞典D1-2是定义蛋白质一级结构的压缩代码的排列与二级结构的压缩代码的关系的辞典数据。图12是示出二级结构辞典的数据结构的一例的图。如图12所示，二级结构辞典D1-2将压缩代码、名称和蛋白质一级结构代码排列关联起来。压缩代码是分配给蛋白质的二级结构的压缩代码。名称是二级结构的名称。蛋白质一级结构代码排列是与二级结构对应的蛋白质一级结构的压缩代码的排列。

例如，压缩代码“D0000000h”被分配给二级结构“α二级结构”。与压缩代码“D0000000h”对应的蛋白质一级结构代码排列为“C0008001hC00···”。

三级结构辞典D1-3是定义二级结构的压缩代码的排列与三级结构的压缩代码的关系的辞典数据。图13是示出三级结构辞典的数据结构的一例的图。如图13所示，三级结构辞典D1-3将压缩代码、名称、二级结构代码排列关联起来。压缩代码是分配给三级结构的压缩代码。名称是三级结构的名称。二级结构代码排列是与三级结构对应的二级结构的压缩代码的排列。

例如，对三级结构“αα三级结构”分配压缩代码“E0000000h”。与压缩代码“E0000000h”对应的二级结构代码排列是“D0008031hD00···”。

高级结构辞典D1-4是定义三级结构的压缩代码的排列与高级结构的压缩代码的关系的辞典数据。图14是示出高级结构辞典的数据结构的一例的图。如图14所示，高级结构辞典D1-4将压缩代码、名称和三级结构代码排列关联起来。压缩代码是分配给高级结构的压缩代码。名称是高级结构的名称。三级结构代码排列是与高级结构对应的三级结构的压缩代码的排列。

例如，压缩代码“F0000000h”被分配给高级结构“ααα高级结构”。与压缩代码“F0000000h”相对应的三级结构代码排列是“E0000031hE00···”。

返回图7的说明。压缩文件表53是保持各种压缩文件的表。图15是表示压缩文件表的数据结构的一例的图。如图15所示，该压缩文件表53具有密码子压缩文件53A、蛋白质一级结构压缩文件53B、二级结构压缩文件53C、三级结构压缩文件53D、高级结构压缩文件53E。

密码子压缩文件53A是通过以密码子为单位对包含在碱基文件50中的碱基进行压缩而获得的文件。

蛋白质一级结构压缩文件53B是通过以蛋白质一级结构为单位对密码子压缩文件53A中包含的密码子的压缩代码的排列进行编码而获得的文件。

二级结构压缩文件53C是以二级结构为单位对蛋白质一级结构压缩文件53B中包含的蛋白质一级结构的压缩代码的排列进行编码而获得的文件。

三级结构压缩文件53D是以三级结构为单位对二级结构压缩文件53C中包含的二级结构的压缩代码的排列进行编码而获得的文件。

高级结构压缩文件53E是通过以高级结构为单位对包含在三级结构压缩文件53D中的三级结构的压缩代码的排列进行编码而获得的文件。

矢量表54是保持与蛋白质一级结构、二级结构、三级结构、高级结构对应的矢量的表。图16是表示矢量表的数据结构的一例的图。如图16所示，该矢量表54具有蛋白质一级结构矢量表VT1-1、二级结构矢量表VT1-2、三级结构矢量表VT1-3、高级结构矢量表VT1-4。

蛋白质一级结构矢量表VT1-1是保持与蛋白质一级结构对应的矢量的表。图17是表示蛋白质一级结构矢量表的数据结构的一例的图。如图17所示，在蛋白质一级结构矢量表VT1-1中，蛋白质一级结构的压缩代码与分配给蛋白质一级结构的压缩代码的矢量关联起来。蛋白质一级结构的矢量通过庞加莱嵌入算出。关于庞加莱嵌入，在后面叙述。

二级结构矢量表VT1-2是保持与二级结构对应的矢量的表。图18是表示二级结构矢量表的数据结构的一例的图。如图18所示，在二级结构矢量表VT1-2中，二级结构的压缩代码与分配给二级结构的压缩代码的矢量关联起来。二级结构的矢量通过对二级结构中所含的蛋白质一级结构的矢量进行累计而算出。

三级结构矢量表VT1-3是保持与三级结构对应的矢量的表。图19是表示三级结构矢量表的数据结构的一例的图。如图19所示，在三级结构矢量表VT1-3中，将三级结构的压缩代码与分配给三级结构的压缩代码的矢量关联起来。三级结构的矢量通过对三级结构中包含的二级结构的矢量进行累计来计算。

高级结构矢量表VT1-4是保持与高级结构对应的矢量的表。图20是表示高级结构矢量表的数据结构的一例的图。如图20所示，在高级结构矢量表VT1-4中，将高级结构的压缩代码与分配给高级结构的压缩代码的矢量关联起来。高级结构的矢量通过对高级结构中包含的三级结构的矢量进行累计来计算。

返回图7的说明。转置索引表55是保持各种转置索引的表。图21是表示转置索引表的数据结构的一例的图。如图21所示，转置索引表55具有蛋白质一级结构转置索引In1-1、二级结构转置索引In1-2、三级结构转置索引In1-3、高级结构转置索引In1-4。

图22是表示蛋白质一级结构转置索引的数据结构的一例的图。蛋白质一级结构转置索引In1-1的横轴是与偏移对应的轴。蛋白质一级结构转置索引In1-1的纵轴是与蛋白质一级结构的压缩代码对应的轴。蛋白质一级结构转置索引In1-1由“0”或者“1”的位图表示，在初始状态下全部的位图被设定为“0”。

例如，将蛋白质一级结构压缩文件53B的开头的蛋白质一级结构的压缩代码的偏移设为“0”。在蛋白质一级结构压缩文件53B的从开头起第八个位置包含蛋白质一级结构的代码“C0008000h(I型胶原蛋白)”的情况下，蛋白质转置索引In1-1的偏移为“7”的列与蛋白质的代码“C0008000h(I型胶原蛋白)”的行交叉的位置的比特成为“1”。

图23是表示二级结构转置索引的数据结构的一例的图。二级结构转置索引In1-2的横轴是与偏移对应的轴。二级结构转置索引In1-2的纵轴是与二级结构的压缩代码对应的轴。二级结构转置索引In1-2由“0”或“1”的位图表示，在初始状态下所有的位图被设定为“0”。

例如，将二级结构压缩文件53C的开头的二级结构的压缩代码的偏移设置为“0”。当二级结构的代码“D000000h(α二级结构)”被包含在二级结构压缩文件53C的从开头起的第八个位置处时，二级结构转置索引In1-2的偏移为“7”的列与二级结构的压缩代码“D0000000h(α二级结构)”的行相交的位置处的比特是“1”。

图24是表示三级结构转置索引的数据结构的一例的图。三级结构转置索引In1-3的横轴是与偏移对应的轴。三级结构转置索引In1-3的纵轴是与三级结构的压缩代码对应的轴。三级结构转置索引In1-3由“0”或者“1”的位图表示，在初始状态下全部的位图被设定为“0”。

例如，将三级结构压缩文件53D的开头的三级结构的压缩代码的偏移设为“0”。当三级结构的代码“E0000000h(αα三级结构)”被包含在三级结构压缩文件53D的从开头起的第十一个位置处时，三级结构转置索引In1-3的偏移为“10”的列与三级结构的压缩代码“E0000000h(αα三级结构)”的行相交的位置处的比特是“1”。

图25是表示高级结构转置索引的数据结构的一例的图。是表示高级结构转置索引的数据结构的一例的图。高级结构转置索引In1-4的横轴是与偏移对应的轴。高级结构转置索引In1-4的纵轴是与高级结构的压缩代码对应的轴。高级结构转置索引In1-4由“0”或者“1”的位图表示，在初始状态下全部的位图被设定为“0”。

例如，高级结构压缩文件53E的开头的高级结构的压缩代码的偏移被设置为“0”。当高级结构代码“F0000000h(ααα高级结构)”被包含在高级结构压缩文件53E的从开头起的第十一个位置处时，高级结构转置索引In1-4的偏移为“10”的列与高级结构压缩代码“F0000000h(ααα高级结构)”的行相交的位置处的比特是“1”。

返回图7的说明。替代基因载体表T2保持多个基因载体的矢量。基因载体对应于蛋白质的二级结构。例如，存储在替代基因载体表T2中的矢量可以是登记在二级结构矢量表VT1-2中的矢量。替代基因载体表T2的数据结构如图6中说明的那样，存储多个替代基因载体的矢量。

基因组辞典D2定义目标基因组的名称与该目标基因组中包含的子基因组的名称的关系。图26是示出基因组辞典的数据结构的一例的图。如图26所示，该基因组辞典D2将目标载体的名称与多个子基因组的名称关联起来。

学习数据65定义目标基因组的矢量与该目标基因组中包含的多个子基因组的矢量的关系。学习数据65的数据结构对应于图5中说明的学习数据的数据结构。

学习模型70是与CNN、RNN等对应的模型，被设定了参数。

分析查询80包含成为分析对象的目标基因组(治疗药)的信息。例如，目标基因组的信息中包含与高级结构对应的碱基排列的信息。

替代管理表85是将目标基因组中包含的子基因组的矢量和与该子基因组相似的基因载体即可替代的基因载体的矢量关联起来保存的表。

控制部150具有预处理部151、学习部152、计算部153、分析部154。控制部150例如由CPU(中央处理单元)或MPU(微处理单元)实现。另外，控制部150例如也可以由ASIC(Application Specific Integrated Circuit：专用集成电路)、FPGA(FieldProgrammable Gate Array：现场可编程门阵列)等集成电路实现。

预处理部151通过执行下述的各种处理，计算相当于目标基因组(治疗药)的高级结构或三级结构的矢量、和相当于子基因组的二级结构的矢量等。

首先，预处理部151执行生成密码子压缩文件53A的处理、生成蛋白质一级结构压缩文件53B的处理、生成蛋白质一级结构矢量表VT1-1、蛋白质一级结构转置索引In1-1的处理。

预处理部151将碱基文件50与转换表51进行比较，以密码子为单位将压缩代码分配给碱基文件50的碱基排列，并且生成密码子压缩文件53A。

预处理部151将密码子压缩文件53A与蛋白质一级结构辞典D1-1进行比较，并且以蛋白质一级结构为单位将压缩代码分配给密码子压缩文件53A中包含的密码子的压缩代码的排列，从而生成蛋白质压缩文件53B。

预处理部151在生成蛋白质一级结构压缩文件53B后，将蛋白质一级结构的压缩代码嵌入到庞加莱空间，由此计算蛋白质一级结构(蛋白质一级结构的压缩代码)的矢量。嵌入到庞加莱空间来计算矢量的处理是被称为庞加莱嵌入(Poincare Embeddings)的技术。庞加莱嵌入例如可以使用非专利文献“Valentin Khrulkov1etal.“Hyperbolic ImageEmbeddings”Cornell University，2019April3”等中记载的技术。

在庞加莱嵌入中，根据嵌入到庞加莱空间的位置来分配矢量，另外，具有越是相似的信息则嵌入到越近的位置的特征。因此，具有相似特征的各基团在庞加莱空间中分别嵌入到接近的位置，因此被分配相似的矢量。虽然省略了图示，但预处理部151参照定义了相似的蛋白质一级结构彼此的蛋白质一级结构相似表，将各蛋白质一级结构的压缩代码嵌入到庞加莱空间，计算各蛋白质一级结构的压缩代码的矢量。预处理部151也可以对在蛋白质辞典一级结构D1-1中定义的各蛋白质一级结构的压缩代码事先执行庞加莱嵌入。

预处理部151通过将蛋白质一级结构(蛋白质一级结构的压缩代码)与蛋白质一级结构的矢量关联起来，生成蛋白质一级结构矢量表VT1-1。预处理部151基于蛋白质一级结构的矢量与蛋白质一级结构压缩文件53B中的蛋白质一级结构(蛋白质一级结构的压缩代码)的位置的关系，生成蛋白质一级结构转置索引In1-1。

接着，预处理部151执行生成二级结构压缩文件53C的处理、生成二级结构矢量表VT1-2、二级结构转置索引In1-2的处理。

预处理部151对蛋白质一级结构压缩文件53B和二级结构辞典D1-2进行比较，针对蛋白质一级结构压缩文件53B中包含的蛋白质一级结构的压缩代码的排列，以二级结构为单位分配压缩代码，生成二级结构压缩文件53C。

预处理部151参照二级结构辞典D1-2，确定与二级结构的压缩代码对应的蛋白质一级结构代码排列(蛋白质一级结构的压缩代码的排列)。预处理部151从蛋白质一级结构矢量表VT1-1获取所确定的每个蛋白质一级结构的压缩代码的矢量，并且将所获取的矢量相加，从而计算二级结构的压缩代码的矢量。预处理部151通过反复执行上述处理，计算各二级结构的矢量。

预处理部151通过将二级结构(二级结构的压缩代码)与二级结构的矢量关联起来而生成二级结构矢量表VT1-2。预处理部151基于二级结构的矢量与二级结构压缩文件53C中的二级结构(二级结构的压缩代码)的位置之间的关系来生成二级结构转置索引In1-2。

接着，预处理部151执行生成三级结构压缩文件53D的处理、生成三级结构矢量表VT1-3、三级结构转置索引In1-3的处理。

预处理部151对二级结构压缩文件53C和三级结构辞典D1-3进行比较，针对二级结构压缩文件53C中包含的二级结构的压缩代码的排列，以三级结构为单位分配压缩代码，生成三级结构压缩文件53D。

预处理部151参照三级结构辞典D1-3，确定与三级结构的压缩代码对应的二级结构代码排列(二级结构的压缩代码的排列)。预处理部151从二级结构矢量表VT1-2获取所确定的二级结构的压缩代码的矢量，并且将所获取的矢量相加，从而计算三级结构的压缩代码的矢量。预处理部151通过反复执行上述处理，计算各三级结构的矢量。

预处理部151通过将三级结构(三级结构的压缩代码)与三级结构的矢量关联起来而生成三级结构矢量表VT1-3。预处理部151基于三级结构的矢量与三级结构压缩文件53D中的三级结构(三级结构的压缩代码)的位置的关系，生成三级结构转置索引In1-3。

接着，预处理部151执行生成高级结构压缩文件53E的处理、生成高级结构矢量表VT1-4、高级结构转置索引In1-4的处理。

预处理部151将三级结构压缩文件53D与高级结构辞典D1-4进行比较，并且以高级结构为单位将压缩代码分配给三级结构压缩文件53D中包含的三级结构的压缩代码排列，从而生成高级结构压缩文件53E。

预处理部151参照高级结构辞典D1-4，确定与高级结构的压缩代码对应的三级结构代码排列(三级结构的压缩代码的排列)。预处理部151从三级结构矢量表VT1-3获取所确定的三级结构的压缩代码的矢量，并且将所获取的矢量相加，从而计算高级结构的压缩代码的矢量。预处理部151通过反复执行上述处理，计算各高级结构的矢量。

预处理部151通过将高级结构(高级结构的压缩代码)与高级结构的矢量关联起来而生成高级结构矢量表VT1-4。预处理部151基于高级结构的矢量与高级结构压缩文件53E中的高级结构(高级结构的压缩代码)的位置之间的关系来生成高级结构转置索引In1-4。

对预处理部151生成替代基因载体表T2的处理的一例进行说明。例如，预处理部151将二级结构矢量表VT1-2中包含的三级结构的矢量直接设定在替代基因载体表T2中。此外，预处理部151在经由输入部120接受了矢量的指定的情况下，也可以将所指定的矢量设定在替代基因基因组表T2中。

对预处理部151生成学习数据65的处理的一例进行说明。预处理部151基于基因组辞典D2，确定目标基因组的名称与子基因组的名称的关系。预处理部151基于高级结构辞典D1-4和高级结构矢量表VT1-4、或者基于三级结构辞典D1-4和三级结构矢量表VT1-3以及目标基因组的名称来确定目标基因组的矢量。预处理部151基于二级结构辞典D1-2和二级结构矢量表VT1-2以及子基因组的名称来确定子基因组的矢量。预处理部151通过这样的处理，确定目标基因组与子基因组的关系，登记到学习数据65。

预处理部151通过反复执行上述处理，生成学习数据65。另外，信息处理装置100也可从外部装置等获取并利用已生成的学习数据65。

返回图7的说明。学习部152使用学习数据65来执行学习模型70的学习。学习部152的处理对应于图5中说明的处理。学习部152从学习数据65取得目标基因组(治疗药)的矢量和与该目标基因组的矢量对应的各子基因组的矢量的组。学习部152通过执行基于反向传播的学习，调整学习模型70的参数，使得将目标基因组的矢量输入到学习模型70时学习模型70的输出的值接近各子基因组的矢量的值。

学习部152通过对学习数据65的目标基因组的矢量和各子基因组的矢量的组反复执行上述处理，执行学习模型70的学习。

计算部153在接受了分析查询80的指定的情况下，使用学习完毕的学习模型70，计算分析查询80的目标基因组中包含的各子基因组的矢量。计算部153的处理对应于图6中说明的处理。计算部153可以从输入部120接受分析查询80，也可以经由通信部110从外部装置接受分析查询80。

计算部153获取分析查询80中包含的目标基因组的碱基排列。计算部153将目标基因组的碱基排列与转换表51进行比较，确定目标基因组的碱基排列中所含的密码子，以密码子为单位将目标基因组的碱基排列分别转换为压缩代码。计算部153将以密码子为单位压缩的密码子代码排列与蛋白质一级结构辞典D1-1进行比较，并且以蛋白质一级结构为单位将密码子代码排列转换为压缩代码。

计算部153将转换后的各个蛋白质一级结构的压缩代码与蛋白质一级结构矢量表VT1-1进行比较，并且确定各个蛋白质一级结构的压缩代码的矢量。计算部153通过将所确定的各蛋白质一级结构的压缩代码的矢量累计，计算与分析查询80中包含的目标基因组对应的矢量Vob80。

另外，在目标基因组由多个子基因组的二级结构确定的情况下，计算部153执行以下的处理。计算部153将目标基因组的子基因组的各二级结构与二级结构辞典D1-2和二级结构矢量表VT1-2进行比较，确定目标基因组中包含的子基因组的二级结构的矢量。计算部153通过将所确定的子基因组的二级结构的矢量累计，计算目标基因组的矢量。

计算部153通过将矢量Vob80输入到学习模型70，计算与各子基因组对应的多个矢量。计算部153将计算出的各子基因组的矢量输出到分析部154。在以下的说明中，将计算部153计算出的各子基因组的矢量分别标记为“分析矢量”。计算部153将各子基因组的矢量(分析矢量)存储在子基因组表T1中。

分析部154基于分析矢量，检索具有与分析矢量相似的矢量的替代基因载体的信息。分析部154基于检索结果，将目标基因组中包含的各子基因组的矢量与相似的各替代基因载体的矢量(以下所示的相似矢量)关联起来，登记在替代管理表85中。

例如，分析部154分别计算分析矢量与替代基因载体表T2中包含的各矢量的距离，确定与分析矢量的距离小于阈值的矢量。替代基因载体表T2中包含的、与分析矢量的距离小于阈值的矢量成为“相似矢量”。与该相似矢量对应的基因载体成为可替代的基因载体。

分析部154也可以基于二级结构矢量表VT1-2，确定与相似矢量对应的基因载体的压缩代码，基于所确定的基因载体的压缩代码、二级结构辞典D1-2、蛋白质一级结构辞典D1-1，确定基因载体中包含的蛋白质一级结构。分析部154通过执行该处理，检索与相似矢量对应的可替代的基因矢量的特征，登记到替代管理表85中。可替代的基因载体的特征为基因载体中所含的蛋白质、蛋白质的一级结构。

分析部154也可以通过对各分析矢量反复执行上述处理，对每个分析矢量检索与相似矢量对应的基因矢量的特征，并登记在替代管理表85中。分析部154可以将替代管理表85输出到显示部130进行显示，也可以发送到与网络连接的外部装置。

接下来，将描述本实施例的信息处理装置100的处理过程的一例。图27是示出本实施例的信息处理装置的处理过程的流程图(1)。如图27所示，信息处理装置100的预处理部151通过执行庞加莱嵌入来计算每个蛋白质的压缩代码的矢量(步骤S101)。

预处理部151根据碱基文件50、转换表51、辞典表52，生成压缩文件表53、矢量表54、转置索引表55(步骤S102)。

预处理部151生成学习数据65(步骤S103)。信息处理装置100的学习部152基于学习数据65，执行学习模型70的学习(步骤S104)。

图28是示出本实施例的信息处理装置的处理过程的流程图(2)。信息处理装置100的计算部153接受分析查询80(步骤S201)。计算部153计算分析查询80(目标基因组)的矢量(步骤S202)。

计算部153通过将计算出的分析查询80的矢量输入到学习完毕的学习模型70，计算各子基因组的矢量(步骤S203)。信息处理装置100的分析部154比较各子基因组的矢量和替代基因载体表T2的矢量(步骤S204)。

分析部154检索与各子基因组对应的可替代的基因载体(步骤S205)。分析部154将检索结果登记于替代管理表85(步骤S206)。

接下来，将描述本实施例的信息处理装置100的效果。信息处理装置100在学习阶段，基于定义了目标基因组(治疗药)的矢量与子基因组的矢量的关系的学习数据65，执行学习模型70的学习。信息处理装置100在分析阶段，通过向学习完毕的学习模型70输入分析查询的矢量，计算与分析查询(目标基因组)对应的各子基因组的矢量。通过使用从学习模型70输出的各子基因组的矢量，能够容易地执行检测与目标基因组中包含的子基因组相似的可替代的基因载体。

例如，在目标基因组中包含的子基因组是稀少的子基因组的情况下，通过执行信息处理装置100的处理，能够容易地搜索替代该子基因组的廉价的基因载体。

然而，在上述的实施例中，以子基因组(二级结构)的粒度进行比较，搜索可替代的基因载体，但并不限定于此。例如，信息处理装置100也可以以构成子基因组的多个一级结构的粒度进行比较，搜索能够替代的一级结构。

实施例2

接着，对实施例2进行说明。图29是用于描述本实施例2的信息处理装置的学习阶段的处理的一例的图。如图29所示，信息处理装置使用学习数据90来执行学习模型91的学习。学习模型91对应于CNN、RNN等。

学习数据90定义合成目标基因组(治疗药)的多个子基因组的矢量与在基于基因载体的基因重组中保持的共同结构的矢量的关系。例如，子基因组的矢量对应于输入数据，多个共同结构的矢量成为正确值。

信息处理装置执行基于误差反向传播的学习，以使将子基因组的矢量输入到学习模型91时的输出接近各共同结构的矢量。信息处理装置基于学习数据90中包含的子基因组的矢量与共同结构的矢量的关系，反复执行上述处理，由此调整学习模型91的参数(执行机器学习)。

图30是用于描述本实施例2的信息处理装置的处理的图。实施例2的信息处理装置也可以与实施例1的信息处理装置100同样地对学习模型90进行学习。另外，如图29中说明的那样，信息处理装置对与学习模型70不同的学习模型91进行学习。学习模型91在被输入了分析查询(子基因组)92的矢量的情况下，输出共同结构的矢量。

信息处理装置若接受了指定了子基因组的分析查询92，则使用子基因组矢量表T1，将分析查询92的子基因组转换为矢量Vsb92-1。信息处理装置通过将子基因组的矢量Vsb92-1输入到学习模型91，计算与共同结构对应的矢量Vcm92-1。

这里，信息处理装置将子基因组的矢量Vsb92-1与替代基因载体表T2中包含的多个基因载体的矢量进行比较。替代基因载体表T2与实施例1中说明的替代基因载体表T2对应。

信息处理装置针对子基因组的矢量Vsb92-1，确定相似的基因载体的矢量。例如，设与子基因组的矢量Vsb92-1相似的基因载体的矢量为Vt92-1。这样，可知在矢量Vsb92-1的子基因组和矢量Vt92-1的基因载体中共同的共同结构的矢量成为从学习模型91输出的矢量Vcm92-1。另外，从基因载体的矢量Vt92-1减去共同结构的矢量Vcm92-1的结果成为在相似的基因载体和子基因组中不同的“基因重组结构”的矢量。

信息处理装置将共同结构的矢量与基因重组结构的矢量的关系登记在共同结构/基因重组结构表93中。信息处理装置通过对各子基因组的矢量反复执行上述处理，生成共同结构/基因重组结构表93。

如上所述，本实施例2的信息处理装置将分析查询92的矢量输入到学习模型91，并且计算与分析查询的子基因组对应的各个共同结构的矢量。另外，通过从与子基因组相似的基因载体的各矢量中减去共同结构的矢量，计算在相似的子基因组和基因载体中不同的基因重组结构的矢量。通过使用上述共同结构的矢量、基因重组结构的矢量，能够容易地分析可用于目标基因组的合成、制造的更好的基因载体。

接下来，将描述本实施例2的信息处理装置的结构的一例。图31是示出本实施例2的信息处理装置的结构的功能框图。如图31所示，信息处理装置200包括通信部210、输入部220、显示部230、存储部240和控制部250。

关于通信部210、输入部220、显示部230的说明与实施例1中说明的关于通信部110、输入部120、显示部130的说明相同。

存储部240包括碱基文件50、转换表51、辞典表52、压缩文件表53、矢量表54和转置索引表55。另外，存储部240具有子基因组表T1、替代基因载体表T2、基因组辞典D2、学习数据90、学习模型91、分析查询92、共同结构/基因重组结构表93。存储部240例如由RAM(Random Access Memory：随机存取存储器)、闪存(Flash Memory)等半导体存储器元件、或者硬盘、光盘等存储装置实现。

关于碱基文件50、转换表51、辞典表52、压缩文件表53、矢量表54、转置索引表55、子基因组表T1、替代基因载体表T2、基因组辞典D2的说明与实施例1中说明的内容相同。学习数据90与图29中说明的内容相同。关于学习模型91、分析查询92的说明与图30中说明的内容相同。

共同结构/基因重组结构表93如图30中说明的那样，包含用于从与共同结构矢量相似的基因载体基因重组为子基因组的基因重组结构矢量的信息。在图30中，例如，在共同结构/基因重组结构表93中包含与Vcm92-1对应的基因重组结构矢量。将共同结构的矢量与基因重组结构的矢量相乘而得到的矢量成为与基因载体的矢量对应的矢量。

回到图31的说明。控制部250具有预处理部251、学习部252、计算部253、分析部254。控制部250例如由CPU、MPU实现。另外，控制部250例如也可以由ASIC、FPGA等集成电路执行。

与预处理部251有关的说明与实施例1中说明的与预处理部151有关的处理的说明相同。通过预处理部251，生成碱基文件50、转换表51、辞典表52、压缩文件表53、矢量表54、转置索引表55、子基因组表T1、替代基因载体表T2。预处理部251可以从外部装置获取学习数据90，也可以由预处理部251生成。

计算部253在接受了分析查询92的指定的情况下，使用学习完毕的学习模型91，计算通过分析查询92的子基因组的合成路径进行基因重组的各共同结构的矢量。计算部253将计算出的各共同结构的矢量输出到分析部254。

在以下的说明中，将计算部253计算出的各共同结构的矢量分别表述为“共同结构矢量”。

分析部254基于分析查询92的子基因组的矢量、共同结构矢量和基因载体矢量表T2，生成共同结构/基因重组结构表93。以下，对分析部254的处理的一例进行说明。

分析部254分别计算子基因组的矢量与替代基因载体表T2中包含的各矢量的距离，确定与子基因组的矢量的距离小于阈值的矢量。将替代基因载体表T2中包含的、与子基因组的矢量的距离小于阈值的矢量标记为“相似矢量”。

分析部254通过从相似矢量减去共同结构矢量，计算基因重组结构的矢量，确定共同结构矢量与基因重组结构的矢量的对应关系。分析部254将共同结构矢量和基因重组结构的矢量登记在共同结构/基因重组结构表93中。分析部245通过反复执行上述处理，生成共同结构/基因重组结构表93。分析部245可以将共同结构/基因重组结构表93输出到显示部230进行显示，也可以发送到与网络连接的外部装置。

接下来，将描述本实施例2的信息处理装置200的处理过程的一例。图32是示出本实施例2的信息处理装置的处理过程的流程图。信息处理装置200的计算部253接受分析查询92(步骤S 301)。

计算部253基于子基因组表T1，将分析查询92的子基因组转换为矢量(步骤S302)。

计算部253通过将子基因组的矢量输入到学习完毕的学习模型91，计算共同结构的矢量(步骤S 303)。信息处理装置200的分析部254基于共同结构的矢量与替代基因载体表T2的各矢量的距离，确定相似矢量(步骤S 304)。

分析部254通过从与子基因组相似的基因载体的各矢量中减去共同结构的矢量，计算基因重组结构的矢量(步骤S 305)。分析部254将共同结构的矢量与基因重组结构的矢量的关系登记在共同结构/基因重组结构表93中(步骤S 306)。分析部254输出共同结构/基因重组结构表的信息(步骤S 307)。

接下来，将描述本实施例2的信息处理装置200的效果。信息处理装置100向学习完毕的学习模型91输入分析查询92的矢量，计算与分析查询的子基因组对应的各共同结构的矢量。另外，通过从与子基因组相似的基因载体的矢量中减去各共同结构的矢量，计算在相似的子基因组和基因载体中不同的基因重组结构的矢量。通过使用上述共同结构的矢量、基因重组结构的矢量，能够容易地分析可用于向目标基因组的基因重组、再合成、制造的更好的基因载体。

子基因组和基因载体是由多个蛋白质一级结构构成的二级结构。另外，通过使用蛋白质一级结构的分散矢量，能够估计与某蛋白质一级结构相邻的蛋白质一级结构，能够应用于各蛋白质一级结构的结合度、稳定性的评价。关于从基因载体向有实绩的子基因组的基因重组，通过基于构成子基因组、基因载体的二级结构的多个蛋白质一级结构的分散矢量进行机器学习，能够提高从基因载体的沿用、基因重组、再合成的分析精度。

接着，说明实现与上述实施例所示的信息处理装置100(200)同样的功能的计算机的硬件结构的一例。图33是表示实现与实施例的信息处理装置同样的功能的计算机的硬件结构的一例的图。

如图9所示，计算机300具有执行各种运算处理的CPU 301、接受来自用户的数据的输入的输入装置302、以及显示器303。此外，计算机300包括经由有线或无线网络与外部装置等交换数据的通信装置304和接口装置305。另外，计算机300具有暂时存储各种信息的RAM 306和硬盘装置307。而且，各装置301～307与总线308连接。

硬盘装置307具有预处理程序307a、学习程序307b、计算程序307c、分析程序307d。另外，CPU 301读出各程序307a～307d并在RAM 306中展开。

预处理程序307a用作预处理处理306a。学习程序307b用作学习处理306b。计算程序307c用作计算处理306c。分析程序307d用作分析处理306d。

预处理处理306a的处理对应于预处理部151和251的处理。学习处理306b的处理对应于学习部152和252的处理。计算处理306c的处理对应于计算部153和253的处理。分析处理306d的处理对应于分析部154的处理。

此外，各程序307a～307d也可以不必从最初就存储在硬盘装置307中。例如，在插入计算机300的软盘(FD)、CD-ROM、DVD、光磁盘、IC卡等“可移动的物理介质”中存储各程序。而且，计算机300也可以读出并执行各程序307a～307d。

标号说明

110、210通信部

120、220输入部

130、230显示部

140、240存储部

150、250控制部

151、251预处理部

152、252学习部

153、253计算部

154、254分析部

Claims

1.一种信息处理程序，其特征在于，所述信息处理程序使计算机执行如下处理：

基于学习数据而执行学习模型的学习，所述学习数据定义了与基因组对应的矢量和与构成所述基因组的多个子基因组分别对应的矢量之间的关系；以及

在接受了分析对象基因组的情况下，通过将所述分析对象基因组输入到所述学习模型，计算与所述分析对象基因组对应的多个子基因组的矢量。

2.根据权利要求1所述的信息处理程序，其特征在于，所述信息处理程序还使计算机执行如下处理：

根据通过所述计算的处理而计算出的多个子基因组的矢量与成为替代候选的多个替代基因载体的矢量之间的相似程度，检索能够替代所述子基因组的替代基因载体。

3.根据权利要求1所述的信息处理程序，其特征在于，所述分析对象基因组包含多个蛋白质的二级结构，

所述信息处理程序还使计算机执行如下处理：通过将所述分析对象基因组中包含的多个二级结构的矢量累计，计算所述分析对象基因组的矢量。

4.一种信息处理程序，其特征在于，所述信息处理程序使计算机执行如下处理：

基于学习数据而执行学习模型的学习，所述学习数据关联地存储有制造基因组时的合成路径中包含的多个子基因组的矢量与表示子基因组的结构和基因载体的结构中共同的结构的共同结构的矢量；以及

在接受了分析对象子基因组的输入的情况下，将所述分析对象子基因组的矢量输入到所述学习模型，从而计算与所述分析对象子基因组对应的共同结构的矢量。

5.根据权利要求4所述的信息处理程序，其特征在于，所述信息处理程序还执行如下处理：

基于所述子基因组的矢量与成为替代候选的多个基因载体的矢量之间的相似关系，检索与所述子基因组的矢量相似的基因载体的矢量，基于检索到的矢量和计算出的所述共同结构的矢量，计算基因重组结构的矢量，所述基因重组结构表示在所述子基因组的结构和检索到的基因载体的结构中不同的部分的结构。

6.一种信息处理方法，所述信息处理方法由计算机执行，其特征在于，所述信息处理方法执行如下处理：

在接受了分析对象基因组的情况下，通过将所述分析对象基因组输入到所述学习模型，计算与所述分析对象基因载体对应的多个子载体的矢量。

7.根据权利要求6所述的信息处理方法，其特征在于，所述信息处理方法还执行如下处理：

8.根据权利要求6所述的信息处理方法，其特征在于，所述分析对象基因组包含多个蛋白质的二级结构，

所述信息处理方法还执行如下处理：通过将所述分析对象基因组中包含的多个二级结构的矢量累计，计算所述分析对象基因组的矢量。

9.一种信息处理方法，所述信息处理方法由计算机执行，其特征在于，所述信息处理方法执行如下处理：

基于学习数据而执行学习模型的学习，所述学习数据定义了用于制造基因组的合成路径中包含的多个子基因组的矢量与表示子基因组的结构和基因载体的结构中共同的结构的共同结构的矢量之间的关系；以及

在接受了分析对象子基因组的情况下，通过将所述分析对象子基因组的矢量输入到所述学习模型，计算与所述分析对象子基因组对应的共同结构的矢量。

10.根据权利要求9所述的信息处理方法，其特征在于，所述信息处理方法还执行如下处理：

基于所述子基因组的矢量与作为替代候选的多个基因载体的矢量之间的相似，检索与所述子基因组的矢量相似的基因载体的矢量，基于检索到的矢量和计算出的所述共同结构的矢量，计算基因重组结构的矢量，所述基因重组结构表示在所述子基因组的结构和检索到的基因载体的结构中不同的部分的结构。

11.一种信息处理装置，其特征在于，所述信息处理装置具有：

学习部，其基于学习数据而执行学习模型的学习，所述学习数据定义了与基因组对应的矢量和与构成所述基因组的多个子基因组分别对应的矢量之间的关系；以及

计算部，其在接受了分析对象基因组的情况下，通过将所述分析对象基因组输入到所述学习模型中，计算与所述分析对象基因组对应的多个子基因组的矢量。

12.根据权利要求11所述的信息处理装置，其特征在于，所述信息处理装置还具有分析部，所述分析部基于由所述计算部计算出的多个子基因组的矢量与成为替代候选的多个替代基因载体的矢量之间的相似程度，检索能够替代所述子基因组的替代基因载体。

13.根据权利要求11所述的信息处理装置，其特征在于，所述分析对象基因组包含多个蛋白质的二级结构，

所述计算部还执行如下处理：通过将所述分析对象基因组中包含的多个二级结构的矢量累计，计算所述分析对象基因组的矢量。