CN117296100A - 信息处理程序、信息处理方法和信息处理装置 - Google Patents

信息处理程序、信息处理方法和信息处理装置 Download PDF

Info

Publication number
CN117296100A
CN117296100A CN202180098100.0A CN202180098100A CN117296100A CN 117296100 A CN117296100 A CN 117296100A CN 202180098100 A CN202180098100 A CN 202180098100A CN 117296100 A CN117296100 A CN 117296100A
Authority
CN
China
Prior art keywords
codon
amino acid
file
information processing
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180098100.0A
Other languages
English (en)
Inventor
片冈正弘
永浦良平
茂栉薰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN117296100A publication Critical patent/CN117296100A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Communication Control (AREA)

Abstract

信息处理装置针对表示同一氨基酸的碱基序列的不同的多个密码子,基于表示密码子文件上的多个密码子的位置的第1索引,运算表示密码子文件上的氨基酸的位置的第2索引。信息处理装置基于第2索引,分别确定在密码子文件中重复表达的氨基酸序列的位置。信息处理装置确定与密码子文件中重复表达的各氨基酸序列的位置对应的各密码子序列,作为分别具有同源性的密码子序列。

Description

信息处理程序、信息处理方法和信息处理装置
技术领域
本发明涉及信息处理程序等。
背景技术
正在不断进行人类基因组的碱基序列的研究,已知构成人类基因组的蛋白质的种类是3万种。另一方面,认为微生物等的蛋白质的种类是无限的,从目标碱基序列中发现大量重复表达的特异性密码子序列。例如,重复表达的特异性密码子序列被称为结构域、基序等,研究明白该特异性密码子序列是重要的。
结构域在蛋白质的序列、构造的一部分中相对于其他部分独立地进化,以承担功能的方式存在。基序的特征是具有对称性的密码子序列。图17是示出基序的一例的图。如图17所示,在基序中存在β发夹1a、希腊键1b、β桶1c(孔蛋白、脂质运载蛋白)等。折叠是如下的物理过程:蛋白质链通过迅速且具有再现性的方法获取其原本的三维构造,通常是生物学功能构象(立体构造)。
例如,作为从碱基序列中检索基序的技术,存在将具有汉明距离的置换碱基序列作为关键字来检索基序的现有技术。此外,存在如下现有技术:从DNA(deoxyribonucleicacid:脱氧核糖核酸)序列的转录开始点的上游提取直向同源物候选的多个序列截面,对基序候选进行判定。
现有技术文献
专利文献
专利文献1:国际公开第2005/096208号
专利文献2:国际公开第2020/049748号
专利文献3:日本特开2014-112307号公报
发明内容
发明要解决的问题
然而,在上述现有技术中,存在如下问题:无法高效地进行重复表达的密码子序列的搜索。
这里,DNA和RNA(ribonucleic acid:核糖核酸)的碱基为4种,由“A”、“G”、“C”、“T”或“U”的记号表示。此外,3个碱基序列为一组而决定20种氨基酸。各个氨基酸由“A”~“Y”的记号表示。图18是示出氨基酸与碱基及密码子之间的关系的图。1组3个碱基序列被称为“密码子”。通过各碱基排列而决定密码子,在决定了密码子时,氨基酸被决定。
如图18所示,一个氨基酸对应多种密码子。例如,氨基酸“丙氨酸(Ala)”与密码子“GCU”、“GCC”、“GCA”、“GCG”对应,密码子“GCU”、“GCC”、“GCA”、“GCG”实质上是同一密码子。然而,在现有技术中,无法应对该密码子的特性,无法高效地进行重复表达的密码子序列的搜索。
在一个方面,目的在于,提供能够高效地进行重复表达的密码子序列的搜索的信息处理程序、信息处理方法和信息处理装置。
用于解决问题的手段
在第1方案中,使计算机执行如下处理。计算机针对表示同一氨基酸的碱基序列的不同的多个密码子,基于表示密码子文件上的多个密码子的位置的第1索引,运算表示密码子文件上的氨基酸的位置的第2索引。计算机基于第2索引,分别确定密码子文件中重复表达的氨基酸序列的位置。计算机确定与密码子文件中重复表达的各氨基酸序列的位置对应的各密码子序列,作为分别具有同源性的密码子序列。
发明的效果
能够高效地进行重复表达的密码子序列的搜索。
附图说明
图1是用于说明本实施例1的信息处理装置的处理的图(1)。
图2是用于说明本实施例1的信息处理装置的处理的图(2)。
图3是示出本实施例1的信息处理装置的结构的功能框图。
图4是示出分数表的数据结构的一例的图。
图5是示出密码子文件的数据结构的一例的图。
图6是示出密码子转置索引的数据结构的一例的图。
图7是示出氨基酸转置索引的数据结构的一例的图。
图8是用于说明确定部的处理的图(1)。
图9是用于说明确定部的处理的图(2)。
图10是用于说明确定部的处理的图(3)。
图11是用于说明确定部的处理的图(4)。
图12是示出搜索结果信息的数据结构的一例的图。
图13是示出本实施例1的信息处理装置的处理步骤的流程图。
图14是用于说明本实施例2的信息处理装置的处理的图(1)。
图15是用于说明本实施例2的信息处理装置的处理的图(2)。
图16是示出实现与实施例的信息处理装置同样的功能的计算机的硬件结构的一例的图。
图17是示出基序的一例的图。
图18是示出氨基酸与碱基及密码子之间的关系的图。
具体实施方式
下面,基于附图对本申请公开的信息处理程序、信息处理方法和信息处理装置的实施例详细进行说明。另外,本发明不被该实施例限定。
实施例1
对本实施例1的信息处理装置的处理的一例进行说明。图1及图2是用于说明本实施例1的信息处理装置的处理的图。
对图1进行说明。信息处理装置以密码子为单位对包含碱基序列的信息的密码子文件141进行扫描,生成密码子转置索引142。
密码子转置索引142具有每种密码子的位图。密码子的种类是64种,因此,在密码子转置索引142中登记64个位图。密码子转置索引142的各位图将密码子的种类、偏移(offset)、标志对应起来。位图的设置了标志“1”的偏移表示对应种类的密码子位于该位置。在位图中,未设置标志的偏移与“0”对应。
例如,关于与密码子“GCU”对应的位图,在偏移“n”与标志“1”对应的情况下,表示从密码子文件141的开头起第n+1个密码子是密码子“GCU”。另外,在本实施例1中,将密码子文件141的开头的密码子的偏移设为“0”。
信息处理装置基于密码子转置索引142和定义表T1,生成氨基酸转置索引143。定义表T1是定义氨基酸与密码子之间的对应关系的表。如图18中说明的那样,存在同一氨基酸对应有多种密码子的情况。
在氨基酸转置索引143中登记与各氨基酸对应的位图。氨基酸转置索引143的各位图将氨基酸的种类、偏移、标志对应起来。位图的设置了标志“1”的偏移表示对应种类的氨基酸位于该位置。在位图中,未设置标志的偏移与“0”对应。
说明信息处理装置生成氨基酸转置索引143的各氨基酸的位图中的氨基酸“Ala”的位图的情况。信息处理装置100基于定义表T1,确定“GCU”、“GCC”、“GCA”、“GCG”作为与氨基酸“Ala”对应的密码子。
信息处理装置从密码子转置索引142取得密码子“GCU”的位图142-1、密码子“GCC”的位图142-2、密码子“GCA”的位图142-3,密码子“GCG”的位图142-4。信息处理装置对位图142-1~142-4执行OR运算(逻辑和),由此生成氨基酸“Ala”的位图143-1。
即,信息处理装置在位图142-1~142-4的任意偏移“n”的标志为“1”的情况下,将位图143-1的偏移“n”的标志设定为“1”。另一方面,信息处理装置在位图142-1~142-4的全部偏移“n”中被设定为“0”的情况下,将位图143-1的偏移“n”设定为“0”。信息处理装置在各偏移中反复执行上述处理。
信息处理装置针对其他的氨基酸的位图,也与氨基酸“Ala”的位图143-1同样地进行生成,将各氨基酸的位图登记于氨基酸转置索引143。
转移到图2的说明。信息处理装置基于氨基酸转置索引143,确定密码子文件141的偏移与氨基酸的种类之间的关系,取得与重复表达的氨基酸序列的位置对应的密码子序列,作为分别具有同源性的密码子序列。
例如,在图2所示的例中,氨基酸序列“Leu、Lys、Asp、Gln、Ala”在密码子文件141的偏移10~14、40~44等处重复表达。该情况下,信息处理装置将偏移10~14处包含的密码子序列“CUG、AAA、GAU、CAG、GCA”和偏移40~44处包含的密码子序列“CUG、AAA、GAU、CAA、GCA”确定为具有同源性的密码子序列。
当对密码子序列“CUG、AAA、GAU、CAG、GCA”和密码子序列“CUG、AAA、GAU、CAA、GCA”进行比较时,在密码子的粒度中,“CAG”与“CAA”不同。但是,由于“CAG”和“CAA”对应于同一氨基酸“Gln”,因此,密码子序列“CUG、AAA、GAU、CAG、GCA”和密码子序列“CUG、AAA、GAU、CAA、GCA”可以说是同源性的密码子序列。
如上述那样,根据本实施例1的信息处理装置,根据表示同一氨基酸的碱基序列的不同密码子的位图来生成氨基酸单位的位图,从而生成氨基酸转置索引143。信息处理装置使用所生成的氨基酸转置索引143,确定与密码子文件141上的氨基酸的种类之间的关系,并确定与重复表达的氨基酸序列的位置对应的密码子序列,作为分别具有同源性的密码子序列。由此,能够高效地进行重复表达的密码子序列的搜索。
接着,对本实施例1的信息处理装置的结构的一例进行说明。图3是示出本实施例1的信息处理装置的结构的功能框图。如图3所示,该信息处理装置100具有通信部110、输入部120、显示部130、存储部140、控制部150。
通信部110通过有线或无线与外部装置等连接,在与外部装置等之间进行信息的收发。例如,通信部110通过NIC(Network Interface Card:网络接口卡)等实现。通信部110也可以与未图示的网络连接。
输入部120是将各种信息输入到信息处理装置100的输入装置。输入部120对应于键盘、鼠标、触摸面板等。
显示部130是显示从控制部150输出的信息的显示装置。显示部130对应于液晶显示器、有机EL(Electro Luminescence:电致发光)显示器、触摸面板等。
存储部140具有定义表T1、分数表T2、密码子文件141、密码子转置索引142、氨基酸转置索引143、搜索结果信息144。存储部140例如通过RAM(Random Access Memory:随机存取存储器)、闪存(Flash Memory)等半导体存储器元件或硬盘、光盘等存储装置实现。
定义表T1是定义氨基酸与密码子之间的对应关系的表。由定义表T1定义的氨基酸和密码子之间的关系与图18中说明的氨基酸与碱基及密码子之间的关系相同。
分数表T2是定义氨基酸彼此的相似性的程度的表。图4是示出分数表的数据结构的一例的图。图4所示的分数表T2的区域A1、A2所示的标号是唯一地表示图18中说明的氨基酸的标号。区域A3的数值是表示氨基酸置换概率的分数,分数越大,表示相似性的程度越大。
例如,根据图4的分数表T2,丙氨酸“A(Ala)”与苏氨酸“T(Thr)”的分数是“-4”。此外,丙氨酸“A(Ala)”与色氨酸“W(Trp)”的分数是“1”。因此,相比于丙氨酸与苏氨酸的组,丙氨酸与色氨酸的组的相似性的程度更高。
密码子文件141具有多个碱基排列而成的碱基序列的信息。图5是示出密码子文件的数据结构的一例的图。如图5所示,密码子文件141是多个碱基的记号排列而成的信息。连续的3个碱基的组对应于一个密码子。
密码子转置索引142是将从密码子文件141的开头起的偏移与密码子的种类对应起来的信息。图6是示出密码子转置索引的数据结构的一例的图。密码子转置索引142的横轴是与偏移对应的轴。密码子转置索引142的纵轴是与密码子的种类对应的轴。
例如,将密码子文件141的开头的密码子的偏移设为“0”。在从密码子文件141的开头起第7个的位置处包含密码子“AUG”的情况下,密码子转置索引142的偏移“6”的列与密码子“AUG”的行交叉的位置的位成为“1”。
氨基酸转置索引143是将从密码子文件141的开头起的偏移与氨基酸的种类对应起来的信息。图7是示出氨基酸转置索引的数据结构的一例的图。氨基酸转置索引143的横轴是与偏移对应的轴。氨基酸转置索引143的纵轴是与氨基酸的种类对应的轴。
例如,将密码子文件141的开头的密码子(与任意的氨基酸对应的密码子)的偏移设为“0”。在从密码子文件141的开头起第7个的位置处包含与氨基酸“Ala”对应的密码子“GCU”、“GCC”、“GCA”、“GCG”中的任意一个的情况下,氨基酸转置索引143的偏移“6”的列与氨基酸“Ala”的行交叉的位置的位成为“1”。
搜索结果信息144具有在密码子文件141中重复表达的氨基酸序列(密码子序列)的信息。例如,搜索结果信息144将重复表达的氨基酸序列与该氨基酸序列的位置的信息对应起来保持。
返回图3的说明。控制部150具有预处理部151和确定部152。控制部150例如通过CPU(Central Processing Unit:中央处理单元)、MPU(Micro Processing Unit:微处理单元)实现。此外,控制部150例如也可以由ASIC(Application Specific IntegratedCircuit:专用集成电路)、FPGA(Field Programmable Gate Array:现场可编程门阵列)等集成电路来执行。
预处理部151基于密码子文件141和定义表T1,生成密码子转置索引142、氨基酸转置索引143。
对预处理部151生成密码子转置索引142的处理的一例进行说明。预处理部151从定义表T1中包含的密码子的种类中选择目标密码子的种类。预处理部151从密码子文件141的开头起按照密码子的粒度(将3个碱基序列设为1组的粒度)进行扫描,反复执行在出现所选择的密码子的种类的偏移处设定标志“1”的处理,生成与所选择的密码子的种类对应的位图。
预处理部151针对其他密码子的种类也同样地分别生成位图。预处理部151将与各密码子的种类对应的位图设定于密码子转置索引142,由此生成密码子转置索引142。
接着,对预处理部151生成氨基酸转置索引143的处理的一例进行说明。预处理部151确定与同一氨基酸对应的密码子的种类,从密码子转置索引142取得与确定出的密码子的种类对应的位图。预处理部151对所取得的各密码子的种类的位图执行OR运算,由此生成氨基酸的位图。
对预处理部151例如生成氨基酸转置索引143的各氨基酸的位图中的氨基酸“Ala”的位图的情况进行说明。如图1中说明的那样,预处理部151基于定义表T1,确定“GCU”、“GCC”、“GCA”、“GCG”作为与氨基酸“Ala”对应的密码子。
预处理部151从密码子转置索引142中取得密码子“GCU”的位图142-1、密码子“GCC”的位图142-2、密码子“GCA”的位图142-3、密码子“GCG”的位图142-4。预处理部151对位图142-1~142-4执行OR运算(逻辑和),由此生成氨基酸“Ala”的位图143-1。
预处理部151针对其他氨基酸的位图,也与氨基酸“Ala”的位图143-1同样地进行生成,通过将各氨基酸的位图设定于氨基酸转置索引143,生成氨基酸转置索引143。
接着,对确定部152的处理进行说明。确定部152基于氨基酸转置索引143,分别确定在密码子文件141中重复表达的氨基酸序列的位置(偏移)。确定部152确定与密码子文件141中重复表达的氨基酸序列的位置(偏移)对应的各密码子序列,作为分别具有同源性的密码子序列。
确定部152基于氨基酸转置索引143,执行氨基酸序列的最长一致搜索,确定最长一致的氨基酸序列。确定部152在最长一致的氨基酸序列的表达次数为预先设定的表达次数以上的情况下,检索该氨基酸序列作为“氨基酸序列候选”。
例如,如图2中说明的那样,氨基酸序列“Leu、Lys、Asp、Gln、Ala”在密码子文件141的偏移10~14、40~44等处重复表达,表达次数为规定的表达次数以上。该情况下,确定部152确定偏移10~14中包含的密码子序列“CUG、AAA、GAU、CAG、GCA”和偏移40~44中包含的密码子序列“CUG、AAA、GAU、CAA、GCA”,作为具有同源性的密码子序列。确定部152将确定出的具有同源性的密码子序列的信息登记于搜索结果信息144。
这里,对确定部152基于氨基酸转置索引143来确定连续的氨基酸序列的处理的一例进行说明。图8是用于说明确定部的处理的图(1)。在图8中,作为一例,对确定氨基酸序列“Leu、Lys、Asp、Gln”是否包含于密码子文件141的情况进行说明。
确定部152从氨基酸转置索引143取得氨基酸“Leu”的位图50。在位图50中,在偏移“10”、“20”处设定有标志“1”。确定部152执行位图50的左移位,从而生成位图50s。在位图50s中,在偏移“11”、“21”处设定有标志“1”。
确定部152从氨基酸转置索引143取得氨基酸“Lys”的位图51。在位图51中,在偏移“11”处设定有标志“1”。确定部152通过执行位图50s与位图51的AND运算来生成位图52。
在图8所示的例中,由于在位图52的偏移“11”处设定有标志“1”,因此,确定在密码子文件141的偏移“10~11”处连续存在“Leu、Lys”。
确定部152通过执行位图52的左移位来生成位图52s。在位图52s中,在偏移“12”处设定标志“1”。
确定部152从氨基酸转置索引143取得氨基酸“Asp”的位图53。在位图53中,在偏移“12”处设定有标志“1”。确定部152通过执行位图52s与位图53的AND运算来生成位图54。
在图8所示的例中,由于在位图54的偏移“12”处设定有标志“1”,因此,确定在密码子文件141的偏移“10~12”处连续存在“Leu、Lys、Asp”。
确定部152通过执行位图54的左移位来生成位图54s。在位图54s中,在偏移“13”处设定标志“1”。
确定部152从氨基酸转置索引143取得氨基酸“Gln”的位图55。在位图55中,在偏移“13”处设定有标志“1”。确定部152通过执行位图54s与位图55的AND运算来生成位图56。
在图8所示的例中,由于在位图56的偏移“13”处设定有标志“1”,因此,确定在密码子文件141的偏移“10~13”处连续存在“Leu、Lys、Asp、Gln”。
确定部152针对各氨基酸序列反复执行上述处理,由此确定最长一致的氨基酸序列,确定重复表达的氨基酸序列。确定部152也可以使用其他技术来确定重复表达的氨基酸序列。
确定部152在通过上述的处理检索出氨基酸序列候选后,使用分数表T2对各氨基酸序列候选的同源性进行评价。图9是用于说明确定部的处理的图(2)。这里,使用氨基酸序列候选60a、60b进行说明。氨基酸序列候选60a、60b成为“Leu、Lys、Asp、Gln、Ala”。此外,基于图18的表(相当于定义表T1)将“Leu、Lys、Asp、Gln、Ala”转换为记号时,成为“L(Leu)、K(Lys)、D(Asp)、Q(Gln)、A(Ala)”。
确定部152基于分数表T2确定各氨基酸的分数,并进行累计,由此计算同源性的分数。L(Leu)彼此的分数由于在分数表T2中不存在而成为“0”。K(Lys)彼此的分数基于分数表T2而成为“-1”。D(Asp)彼此的分数基于分数表T2而成为“-1”。Q(Gln)彼此的分数由于在分数表T2中不存在而成为“0”。A(Ala)彼此的分数基于分数表T2而成为“5”。因此,确定部152将氨基酸序列候选60a、60b的分数计算为累计值“3”。
确定部152在氨基酸序列候选的分数的累计值为阈值以上的情况下,将氨基酸序列候选确定为成为同源性的关系的氨基酸序列。确定部152将确定出的结果登记于搜索结果信息144。阈值由管理者预先设定。
此外,确定部152也可以在确定成为同源性的关系的氨基酸序列后,进一步确定与确定出的氨基酸序列对称地表达的氨基酸序列。图10是用于说明确定部的处理的图(3)。例如,确定部152基于氨基酸转置索引143,确定与在上述处理中确定出的氨基酸序列“Leu、Lys、Asp、Gln、Ala”对称地表达的“Ala、Gln、Asp、Lys、Leu”。在图10所示的例中,确定部152确定在密码子文件141的偏移“30~34”处存在的氨基酸序列“Ala、Gln、Asp、Lys、Leu”。
这里,对确定部152基于氨基酸转置索引143来确定对称性的氨基酸序列的处理的一例进行说明。图11是用于说明确定部的处理的图(4)。在图11中,作为一例,对确定密码子文件141中是否包含对称的氨基酸序列“Ala、Gln、Asp(省略Lys、Leu)”的情况进行说明。
确定部152从氨基酸转置索引143取得氨基酸“Ala”的位图60。在位图60中,在偏移“24”处设定有标志“1”。确定部152通过执行位图60的右移位来生成位图60s。在位图60s中,在偏移“23”处设定有标志“1”。
确定部152从氨基酸转置索引143取得氨基酸“Gln”的位图61。在位图61中,在偏移“23”处设定有标志“1”。确定部152通过执行位图60s与位图61的AND运算来生成位图62。
在图11所示的例中,由于在位图62的偏移“23”处设定有标志“1”,因此,确定在密码子文件141的偏移“23~24”处连续存在“Ala、Gln”。
确定部152通过执行位图62的右移位来生成位图62s。在位图62s中,在偏移“22”处设定标志“1”。
确定部152从氨基酸转置索引143取得氨基酸“Asp”的位图63。位图63在偏移“22”处设定标志“1”。确定部152通过执行位图62s与位图63的AND运算来生成位图64。
在图11所示的例中,由于在位图64的偏移“22”处设定有标志“1”,因此,确定在密码子文件141的偏移“22~24”处连续存在“Ala、Gln、Asp”。
确定部152通过执行上述处理来确定对称的氨基酸序列。确定部152将确定出逇结果登记于搜索结果信息144。确定部152可以将搜索结果信息144输出到显示部130并使显示部130进行显示,也可以将搜索结果信息144经由通信部110发送到外部装置。
图12是示出搜索结果信息的数据结构的一例的图。如图12所示,该搜索结果信息144将氨基酸序列、第1偏移、第2偏移、累计分数对应起来。氨基酸序列是由确定部152确定的同源性的氨基酸序列。第1偏移示出与同源性的氨基酸序列对应的密码子序列所在的密码子文件141的偏移。第2偏移示出与对称性的氨基酸序列对应的密码子序列所在的密码子文件141的偏移。累计分数是图9中说明的分数的累计值。
在图12中,与氨基酸序列“Leu、Lys、Asp、Gln、Ala”对应的第1偏移成为“10~14”、“40~44”。因此,与密码子文件141的偏移“10~14”对应的密码子序列、与偏移“40~44”对应的密码子序列成为具有同源性的密码子序列。
此外,与氨基酸序列“Leu、Lys、Asp、Gln、Ala”对称的氨基酸序列“Ala、Gln、Asp、Lys、Leu”的第2偏移为“30~34”。因此,与密码子文件141的偏移“30~34”对应的密码子序列成为对称的密码子序列。
例如,搜索结果信息的同源性的氨基酸序列与跟该氨基酸序列对称的氨基酸序列之间的部分可以说是相当于基序的部分。即,第1偏移“10~14”与第2偏移“30~34”之间的部分相当于基序部分。
接着,对本实施例1的信息处理装置100的处理步骤的一例进行说明。图13是示出本实施例1的信息处理装置的处理步骤的流程图。如图13所示,信息处理装置100的预处理部151基于密码子文件141和定义表T1,生成密码子转置索引142(步骤S101)。
预处理部151基于定义表T1,确定与同一氨基酸对应的多个密码子(步骤S102)。预处理部151对确定出的多个密码子的位图执行OR运算,生成氨基酸的位图,生成氨基酸转置索引143(步骤S103)。
信息处理装置100的确定部152基于氨基酸转置索引143,确定重复表达的氨基酸序列候选(步骤S104)。确定部152基于分数表T2,计算氨基酸序列候选的分数的累积值(步骤S105)。
确定部152基于分数的累积值,确定同源性的氨基酸序列(具有同源性的密码子序列)(步骤S106)。确定部152确定与同源性的氨基酸序列对称的氨基酸序列(步骤S107)。
确定部152将确定出的结果登记于搜索结果信息144(步骤S108)。确定部152输出搜索结果信息144(步骤S109)。
接着,对本实施例1的信息处理装置100的效果进行说明。信息处理装置100根据表示同一氨基酸的碱基序列的不同密码子的位图而生成氨基酸单位的位图,由此生成氨基酸转置索引143。信息处理装置100使用生成的氨基酸转置索引143,确定与密码子文件141的氨基酸的种类之间的关系,确定与重复表达的氨基酸序列的位置对应的密码子序列,作为分别具有同源性的密码子序列。由此,能够高效地进行重复表达的密码子序列的搜索。
信息处理装置100基于定义了氨基酸彼此的同源性的程度的分数表T2,来评价在密码子文件141中重复表达的氨基酸序列是否是具有同源性的氨基酸。由此,不仅能够评价氨基酸的一致,还能够评价氨基酸序列间的同源性的程度。
信息处理装置100通过执行与多个密码子对应的密码子转置索引142的位图的逻辑和,来运算与多个密码子对应的某一个氨基酸的位图。由此,能够容易地生成与多个密码子对应的氨基酸的位图,生成氨基酸转置索引143。
实施例2
在实施例1中,按照氨基酸的粒度来确定具有同源性的氨基酸序列,基于确定出的氨基酸序列的偏移,来确定同源性的密码子序列,但是,也可以按照密码子的粒度确定同源性的密码子序列。在实施例2中,对按照密码子的粒度确定同源性的密码子序列的处理进行说明。
图14是用于说明本实施例2的信息处理装置的处理的图(1)。信息处理装置基于密码子转置索引142,确定密码子文件141的偏移和密码子的种类,确定重复表达的密码子序列。密码子转置索引142的说明与实施例1中说明的密码子转置索引142的说明相同。
例如,在图14所示的例中,密码子序列“CUG、AAA、GAU”在密码子文件141的偏移10~12、30~32、40~42等处重复表达。该情况下,信息处理装置将偏移10~12、30~32、40~42的密码子序列确定为具有同源性的密码子序列。信息处理装置在确定了具有同源性的密码子序列后,如实施例1中说明的那样,也可以按照氨基酸的粒度来确定具有同源性的氨基酸序列。
图15是用于说明本实施例2的信息处理装置的处理的图(2)。信息处理装置在确定同源性的密码子序列后,也可以按照密码子的粒度确定对称的密码子序列。例如,当设具有同源性的密码子序列为“CUG、AAA、GAU”时,信息处理装置从密码子文件141中确定对称的密码子序列“GAU、AAA、CUG”。在图2所示的例中,信息处理装置确定在偏移23~25处表达对称的密码子序列“GAU、AAA、CUG”。
另外,本实施例2的信息处理装置使用转置索引确定最长一致等的密码子序列的处理与实施例1中说明的使用氨基酸转置索引143执行的处理相同,因此省略说明。
此外,本实施例2的信息处理装置的功能框图对应于图3所示的信息处理装置100的功能框图。另外,设为图3所示的确定部152追加执行图14、图15中说明的处理。
此外,虽然上述的信息处理装置100确定同源性的密码子序列、对称性的密码子序列并确定相当于基序等的部分,但是不限于此,也能够确定多序列比对(multiplealignment)等。多序列比对是针对DNA的碱基序列、蛋白质的氨基酸序列,在3个以上的序列之间以对应的部分排列的方式进行比对。通常,假定进行比对的序列组具有演化关系。能够基于多序列比对的结果来估计分子系统树。
接着,对实现与上述实施例所示的信息处理装置100相同的功能的计算机的硬件结构的一例进行说明。图16是示出实现与实施例的信息处理装置相同的功能的计算机的硬件结构的一例的图。
如图16所示,计算机300具有执行各种运算处理的CPU301、受理来自用户的数据的输入的输入装置302以及显示器303。此外,计算机300具有经由有线或无线网络而与外部装置等之间进行数据的授受的通信装置304以及接口装置305。此外,计算机300具有暂时存储各种信息的RAM306、硬盘装置307。而且,各装置301~307与总线308连接。
硬盘装置307具有预处理程序307a、确定程序307b。此外,CPU301读出各程序307a~307d并将其加载于RAM306。
预处理程序307a作为预处理过程306a而发挥功能。确定程序307b作为确定过程306b而发挥功能。
预处理过程306a的处理对应于预处理部151的处理。确定过程306b的处理对应于确定部152的处理。
另外,关于各程序307a、307b,也可以不必最初被预先存储于硬盘装置307。例如,也可以将各程序预先存储于向计算机300插入的软盘(FD)、CD-ROM、DVD、光磁盘、IC卡等“可移动的物理介质”。而且,计算机300可以读出并执行各程序307a、307b。
附图标记说明
100 信息处理装置
110 通信部
120 输入部
130 显示部
140 存储部
150 控制部

Claims (12)

1.一种信息处理程序,其特征在于,使计算机执行如下处理:
针对表示同一氨基酸的碱基序列的不同的多个密码子,基于表示密码子文件上的所述多个密码子的位置的第1索引,运算表示所述密码子文件上的氨基酸的位置的第2索引,
基于所述第2索引,分别确定所述密码子文件中重复表达的氨基酸序列的位置,
确定与所述密码子文件中重复表达的各氨基酸序列的位置对应的各密码子序列,作为分别具有同源性的密码子序列。
2.根据权利要求1所述的信息处理程序,其特征在于,
进一步执行如下处理:
基于定义了氨基酸彼此的同源性的程度的表,来评价所述密码子文件中重复表达的氨基酸序列是否是具有同源性的氨基酸。
3.根据权利要求1所述的信息处理程序,其特征在于,
进一步使计算机执行如下处理:
针对所述密码子文件中重复表达的氨基酸序列,从所述密码子文件中确定氨基酸序列的排列顺序相反的对称的氨基酸序列,确定与确定出的对称的氨基酸序列的位置对应的各密码子序列。
4.根据权利要求1所述的信息处理程序,其特征在于,
在进行所述运算的处理中,通过执行与所述多个密码子对应的第1索引的位图的逻辑和,来运算与所述多个密码子对应的某一个氨基酸的第2索引的位图。
5.一种信息处理方法,其是由计算机执行的信息处理方法,其特征在于,
执行如下处理:
针对表示同一氨基酸的碱基序列的不同的多个密码子,基于表示密码子文件上的所述多个密码子的位置的第1索引,运算表示所述密码子文件上的氨基酸的位置的第2索引,
基于所述第2索引,分别确定所述密码子文件中重复表达的氨基酸序列的位置,
确定与所述密码子文件中重复表达的各氨基酸序列的位置对应的各密码子序列,作为分别具有同源性的密码子序列。
6.根据权利要求5所述的信息处理方法,其特征在于,
进一步执行如下处理:
基于定义了氨基酸彼此的同源性的程度的表,来评价所述密码子文件中重复表达的氨基酸序列是否是具有同源性的氨基酸。
7.根据权利要求5所述的信息处理方法,其特征在于,
进一步使计算机执行如下处理:
针对所述密码子文件中重复表达的氨基酸序列,从所述密码子文件中确定氨基酸序列的排列顺序相反的对称的氨基酸序列,确定与确定出的对称的氨基酸序列的位置对应的各密码子序列。
8.根据权利要求5所述的信息处理方法,其特征在于,
在进行所述运算的处理中,通过执行与所述多个密码子对应的第1索引的位图的逻辑和,来运算与所述多个密码子对应的某一个氨基酸的第2索引的位图。
9.一种信息处理装置,其特征在于,
所述信息处理装置具有:
预处理部,其针对表示同一氨基酸的碱基序列的不同的多个密码子,基于表示密码子文件上的所述多个密码子的位置的第1索引,运算表示所述密码子文件上的氨基酸的位置的第2索引;以及
确定部,其基于所述第2索引,分别确定所述密码子文件中重复表达的氨基酸序列的位置,确定与所述密码子文件中重复表达的各氨基酸序列的位置对应的各密码子序列,作为分别具有同源性的密码子序列。
10.根据权利要求9所述的信息处理装置,其特征在于,
所述确定部进一步执行如下处理:
基于定义了氨基酸彼此的同源性的程度的表,来评价所述密码子文件中重复表达的氨基酸序列是否是具有同源性的氨基酸。
11.根据权利要求9所述的信息处理装置,其特征在于,
所述确定部进一步使计算机执行如下处理:
针对所述密码子文件中重复表达的氨基酸序列,从所述密码子文件中确定氨基酸序列的排列顺序相反的对称的氨基酸序列,确定与确定出的对称的氨基酸序列的位置对应的各密码子序列。
12.根据权利要求9所述的信息处理装置,其特征在于,
所述预处理部通过执行与所述多个密码子对应的第1索引的位图的逻辑和,来运算与所述多个密码子对应的某一个氨基酸的第2索引的位图。
CN202180098100.0A 2021-05-18 2021-05-18 信息处理程序、信息处理方法和信息处理装置 Pending CN117296100A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/018730 WO2022244089A1 (ja) 2021-05-18 2021-05-18 情報処理プログラム、情報処理方法および情報処理装置

Publications (1)

Publication Number Publication Date
CN117296100A true CN117296100A (zh) 2023-12-26

Family

ID=84141370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180098100.0A Pending CN117296100A (zh) 2021-05-18 2021-05-18 信息处理程序、信息处理方法和信息处理装置

Country Status (6)

Country Link
US (1) US20240071568A1 (zh)
EP (1) EP4343769A1 (zh)
JP (1) JP7537609B2 (zh)
CN (1) CN117296100A (zh)
AU (1) AU2021446660A1 (zh)
WO (1) WO2022244089A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3611601B2 (ja) * 1994-09-01 2005-01-19 富士通株式会社 リスト処理システムとその方法
WO2005096208A1 (ja) 2004-03-31 2005-10-13 Bio-Think Tank Co., Ltd. 塩基配列検索装置及び塩基配列検索方法
US8691581B2 (en) * 2009-01-29 2014-04-08 Spiber Inc. Method of making DNA tag
AR091774A1 (es) * 2012-07-16 2015-02-25 Dow Agrosciences Llc Proceso para el diseño de las secuencias de adn repetidas, largas, divergentes de codones optimizados
JP2014112307A (ja) 2012-12-05 2014-06-19 Sony Corp モチーフ検索プログラム、情報処理装置及びモチーフ検索方法
EP3848935A4 (en) 2018-09-07 2021-09-01 Fujitsu Limited SPECIFICATION PROCESS, SPECIFICATION PROGRAM, AND INFORMATION PROCESSING DEVICE

Also Published As

Publication number Publication date
US20240071568A1 (en) 2024-02-29
AU2021446660A1 (en) 2023-11-30
WO2022244089A1 (ja) 2022-11-24
JPWO2022244089A1 (zh) 2022-11-24
EP4343769A1 (en) 2024-03-27
JP7537609B2 (ja) 2024-08-21

Similar Documents

Publication Publication Date Title
Lyons et al. Protein fold recognition using HMM–HMM alignment and dynamic programming
US20210183466A1 (en) Identification method, information processing device, and recording medium
EP2077513A1 (en) Method for identifying nucleotide sequence and method for obtaining secondary structure of nucleic acid molecule, apparatus for identifying nucleotide sequence and apparatus for obtaining secondary structure of nucleic acid molecule, and program for identifying nucleotide sequence and program for obtaining secondary structu
Morgenstern A space-efficient algorithm for aligning large genomic sequences
CN117296100A (zh) 信息处理程序、信息处理方法和信息处理装置
Ju et al. Fleximer: accurate quantification of RNA-Seq via variable-length k-mers
Bi A Monte Carlo EM algorithm for de novo motif discovery in biomolecular sequences
US20220068435A1 (en) Evaluation method, storage medium, and evaluation device
Sgarbossa et al. Pairing interacting protein sequences using masked language modeling
Oğul et al. SVM-based detection of distant protein structural relationships using pairwise probabilistic suffix trees
Haque et al. An efficient algorithm for local sequence alignment
Bockhorst et al. Discovering patterns in biological sequences by optimal segmentation
JP2020140514A (ja) 特定方法、特定プログラムおよび特定装置
Mohammadi et al. Fast Motif Discovery Using a New Motif Extension Algorithm
HADIAN et al. gpaligner: A fast algorithm for global pairwise alignment of dna sequences
Rivals et al. Exact search algorithms for biological sequences
Cull et al. Recent advances in the walking tree method for biological sequence alignment
Sarkar et al. Time and Space Efficient Optimal Pairwise Sequence Alignment using GPU
JP3723767B2 (ja) 生物学的な配列情報処理方法および装置
Tan et al. A new encoding scheme for protein structure representation
Bergig et al. RNA motif search using the structure to string (STR/sup 2/) method
Tapinos et al. Alignment by the numbers: sequence assembly using reduced dimensionality numerical representations
JP2005251192A (ja) 生物学的な配列情報処理方法および装置
Varma et al. GenMEx tool (Gene microsatellite extractor): Identification of tandem repeats
Ko et al. Suffix tree applications in computational biology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination