CN113811949A - 评价方法、评价程序和评价装置 - Google Patents

评价方法、评价程序和评价装置 Download PDF

Info

Publication number
CN113811949A
CN113811949A CN201980096262.3A CN201980096262A CN113811949A CN 113811949 A CN113811949 A CN 113811949A CN 201980096262 A CN201980096262 A CN 201980096262A CN 113811949 A CN113811949 A CN 113811949A
Authority
CN
China
Prior art keywords
base sequence
codon
sequence data
partial
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980096262.3A
Other languages
English (en)
Inventor
片冈正弘
松村量
茂栉薰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN113811949A publication Critical patent/CN113811949A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

评价装置通过移位而生成新的碱基序列数据。评价装置确定通过将新的碱基序列数据中所含的多个碱基从新的碱基序列数据上的基准位置以规定规则划分而生成的多个部分碱基序列中的包含推测产生了基因变异的碱基的部分碱基序列。评价装置根据在所确定的部分碱基序列以及多个部分碱基序列中的与所确定的部分碱基序列具有规定的位置关系的部分碱基序列的排列在通过将规定的碱基序列数据中所含的多个碱基从规定的碱基序列数据上的基准位置以规定规则划分而生成的多个部分碱基序列中出现的出现状况进行评价。

Description

评价方法、评价程序和评价装置
技术领域
本发明涉及一种评价方法等。
背景技术
基因组药物发现是想要通过基于基因组信息对疾病与基因的关联进行解析而更有逻辑地、科学地开发新的医药品的办法。该办法中,重要的是如何从解码的基因组的碱基序列数据中探索具有特定功能的靶基因并与药物发现联系起来。
目前,除碱基序列数据之外,以单核苷酸多态性(SNPs)为代表的人基因组多态性数据也正逐步在数据库中累积。使用该数据库进行被称为定位克隆的解析,能够以药物发现为目标而找到与疾病相关联的目靶基因。
另外,通过使用人的检体、小鼠等的病理模型找出患病组织与正常组织中表达发生变化的基因,从而有助于基因组药物发现。例如,存在如下现有技术:使正常的碱基序列数据产生虚拟的突变,进行与癌症基因组等的特定的碱基序列数据的类似度的评价,推测正常的碱基序列数据因突变而癌化的可能性。在该现有技术中,使正常的碱基序列数据的随机的位置产生多种突变,评价与各种癌症基因组的碱基序列数据的类似度。
在现有技术中,在对癌症、新型病毒进行分析的情况下,可使用FASTA、BLAST。在FASTA、BLAST中,将碱基序列翻译为氨基酸的符号,将氨基酸作为比较单位进行同源性检索,判定与已知的碱基序列数据的类似性。图29为表示同源性检索中使用的得分矩阵的图。
现有技术文献
专利文献
专利文献1:日本特开2004-357702号公报
专利文献2:日本特开2006-075162号公报
专利文献3:日本特开2011-193868号公报
发明内容
然而,在上述的现有技术中,由于使正常的碱基序列数据的随机的位置产生多种突变,因此变化多。因此,在详尽地评价产生突变的碱基序列数据与各癌症基因组的碱基序列数据的类似度的情况下,存在处理量大、评价需要时间这样的问题。
在1个方面中,本发明的目的在于提供能够使碱基序列数据的评价高速化的评价方法、评价程序和评价装置。
在第1方案中,计算机执行以下处理。计算机取得碱基序列数据,通过使取得的碱基序列数据中所含的多个碱基的碱基序列数据上的位置移位而生成新的碱基序列数据。计算机确定通过将所生成的新的碱基序列数据中所含的多个碱基从新的碱基序列数据上的基准位置以规定规则划分而生成的多个部分碱基序列中的包含推测产生了基因变异的碱基的部分碱基序列。计算机根据所确定的部分碱基序列以及多个部分碱基序列中的与所确定的部分碱基序列具有规定的位置关系的部分碱基序列的排列在通过将规定的碱基序列数据中所含的多个碱基从规定的碱基序列数据上的基准位置以规定规则划分而生成的多个部分碱基序列中出现的出现状况进行与所取得的碱基序列数据相关的评价。
能够使碱基序列数据的评价高速化。
附图说明
图1为用于说明基因组的图。
图2为表示氨基酸与碱基和密码子的关系的图。
图3为用于说明本实施例1的评价装置的处理的图(1)。
图4为用于说明本实施例1的评价装置的处理的图(2)。
图5为用于说明本实施例1的评价装置的处理的图(3)。
图6为表示本实施例1的评价装置的构成的功能框图。
图7为表示本实施例1的癌症基因组DB的数据结构的一个例子的图。
图8为表示本实施例1的转换表的数据结构的一个例子的图。
图9为表示本实施例1的倒排索引表的数据结构的一个例子的图。
图10为表示本实施例1的癌症基因组的倒排索引的数据结构的一个例子的图。
图11为用于说明对倒排索引进行散列化的处理的一个例子的图。
图12为用于说明本实施例1的评价部的处理的一个例子的图。
图13为用于说明将经散列化的位图复原的处理的图。
图14为表示本实施例1的评价装置的处理步骤的流程图。
图15为用于说明本实施例2的评价装置的处理的图(1)。
图16为用于说明本实施例2的评价装置的处理的图(2)。
图17为用于说明本实施例2的评价装置的处理的图(3)。
图18为用于说明本实施例2的评价装置的处理的图(4)。
图19为用于说明本实施例2的评价装置的处理的图(5)。
图20为表示本实施例2的评价装置的构成的功能框图。
图21为表示本实施例2的癌症基因组DB的数据结构的一个例子的图。
图22为表示本实施例2的倒排索引表的数据结构的一个例子的图。
图23为表示本实施例2的癌症基因组的倒排索引的数据结构的一个例子的图。
图24为表示本实施例2的蛋白质词典信息的数据结构的一个例子的图。
图25为表示本实施例2的评价装置生成倒排索引表的处理步骤的流程图。
图26为表示评价装置执行的评价处理的处理步骤的流程图(1)。
图27为表示评价装置执行的评价处理的处理步骤的流程图(2)。
图28为表示实现与本实施例的评价装置同样的功能的计算机的硬件构成的一个例子的图。
图29为表示同源性检索中使用的得分矩阵的图。
具体实施方式
以下,基于附图详细地说明本申请公开的评价方法、评价程序和评价装置的实施例。应予说明,本发明并不受该实施例限定。
实施例1
在进行本实施例1的说明之前,对基因组进行说明。图1为用于说明基因组的图。基因组1为多个氨基酸连接的基因信息。在此,氨基酸由多个碱基、密码子决定。另外,基因组1中包含蛋白质1a。蛋白质1a是20种氨基酸多个结合且多个连接成链状而成的。蛋白质1a的结构中存在一次结构、二次结构、三次(高阶)结构。蛋白质1b为高阶结构的蛋白质。
DNA和RNA的碱基为4种,由“A”、“G”、“C”、“T”或“U”的符号表示。另外,3个碱基序列为一组,决定20种氨基酸。各氨基酸由“A”~“Y”的符号表示。图2为表示氨基酸与碱基和密码子的关系的图。3个碱基序列的组被称为“密码子”。以各碱基的排列来决定密码子,如果密码子被决定,则氨基酸被决定。
如图2所示,对于一个氨基酸,对应有多种密码子。因此,如果密码子决定,则氨基酸决定,但是,即便氨基酸决定,也不能唯一地确定密码子。例如,氨基酸“丙氨酸(Ala)”与密码子“GCU”、“GCC”、“GCA”、或“GCG”相对应。
接下来,对本实施例1的评价装置的处理的一个例子进行说明。图3、图4、图5为用于说明本实施例1的评价装置的处理的图。首先,对图3进行说明。基准基因组数据10为作为基准的人的整体的碱基序列数据。各基因组数据11是利用测序器等从多人中采取的碱基序列数据。在基准基因组数据10和多个基因组数据11的碱基序列数据中排列有多个密码子(3个碱基序列)。在密码子中所含的3个碱基之中,将从开头起第1个碱基记为第1碱基,将第2个碱基记为第2碱基,将第3个碱基记为第3碱基。
评价装置从开头起依次将基准基因组数据10的碱基序列和各基因组数据11的碱基序列以密码子单位进行比较,对于每个密码子的位置,统计包含不同的碱基的单核苷酸多态性的密码子的个数。与基准基因组数据10的密码子不同的单核苷酸多态性的密码子是从亲代传至子代,从子代传至孙代,因此,也被称为“基因变异”。在以下的说明中,将从开头起的密码子的位置N的各基因组数据11的碱基序列中的与位置N的基准基因组数据10的密码子不同的密码子的个数记为“变异密码子数”。
评价装置对每个位置算出变异密码子数,确定各位置中的变异密码子数达到最大的密码子的位置。在以下的说明中,为了评价类似度,出于方便,将变异密码子数达到最大的位置的密码子记为“基准密码子”。例如,在变异密码子数达到最大的密码子的位置为位置10A的情况下,基准基因组数据10的密码子10B为基准密码子。
评价装置从基准密码子10B起,将M个前的密码子确定为起始密码子15。另外,评价装置选择起始密码子15的下一个密码子作为产生虚拟的突变的密码子,确定变异对象密码子16。评价装置以密码子的粒度来确定以开头为基准的表示起始密码子15的位置的起始密码子位置20A。评价装置以密码子的粒度来确定以开头为基准的表示基准密码子10B的位置的基准位置20B。
移至图4的说明。在图4中,对评价装置使作为评价对象的评价对象基因组数据30产生突变“插入”的情况进行说明。评价装置取得评价对象基因组数据30。评价对象基因组数据30以密码子单位进行编码。本实施例1中,出于方便,在编码前的密码子的旁边,用括号表示编码后的符号。例如,密码子“AUG”转换为符号“63h”,但将所转换的符号记为“AUG(63h)”。“h”表示为16进制。
评价装置基于评价对象基因组数据30和起始密码子位置20A来确定起始密码子“AUG(63h)”,并确定起始密码子的下一个变异对象密码子“UUU(40h)”。评价装置在变异对象密码子“UUU(40h)”的开头插入碱基“A”,发生突变“插入”。
例如,评价装置在变异对象密码子的第1碱基插入“A”,使插入前的第1碱基移位至第2碱基,使插入前的第2碱基移位至第3碱基,从而使变异对象密码子“UUU(40h)”为“AUU(60h)”。另外,对于与变异对象密码子连续的密码子,也使碱基向右方向移位。例如,对于变异对象密码子的下一个密码子,将变异对象密码子的第3碱基插入至下一个密码子的第1碱基,使连续的碱基向右方向移位。由此,基准密码子“UCA(46h)”的第3碱基“A”成为“AAA(6Ah)”的第1碱基,基准位置也向右方向移位。
评价装置通过使评价对象基因组数据30产生突变“插入”而生成新的突变基因组数据30A。在此,对在变异对象密码子插入碱基“A”的情况进行了说明,但也可以插入其它碱基“U”、“G”、“C”。
评价装置基于突变基因组数据30A和基准位置20B来确定基准密码子“AAA(6Ah)”。评价装置将基准密码子“AAA(6Ah)”和该基准密码子的前后连续的密码子与各癌症基因组的碱基序列进行比较,确定一致的密码子和一致的密码子的长度。可以说一致的密码子的长度越大,突变基因组数据30A与癌症基因组越类似,因此,一致的密码子的长度(最大的长度)可以说是“类似度”。
在以下的说明中,将基准密码子和该基准密码子的前后的连续的密码子记为“基准密码子序列”。评价装置在将癌症基因组的碱基序列与基准密码子序列进行比较的情况下,使用癌症基因组的倒排索引,从而能够谋求高速化。癌症基因组的倒排索引是使癌症基因组的从开头起的偏移与密码子(经编码的密码子)的种别相对应的信息。
使用癌症基因组40A进行说明。评价装置将癌症基因组40A与基准密码子“AAA(6Ah)”进行比较,确定癌症基因组40A的与基准密码子相同的密码子的位置20C。评价装置以癌症基因组40A的位置20C的密码子为起点,与基准密码子序列进行比较,确定一致的密码子序列“AAA(6Ah)、GUA(72h)”和类似度“2”。
使用癌症基因组40B进行说明。评价装置将癌症基因组40B与基准密码子“AAA(6Ah)”进行比较,确定癌症基因组40B的与基准密码子相同的密码子的位置20D、20E。评价装置以癌症基因组40B的位置20D的密码子为起点,与基准密码子序列进行比较,确定一致的密码子序列“UUC(41h)、AAA(6Ah)、GUA(72h)”和类似度“3”。
另外,评价装置以癌症基因组40B的位置20E的密码子为起点,与基准密码子序列进行比较,确定一致的密码子序列“AAA(6Ah)、GUA(72h)”和类似度“2”。如癌症基因组40B那样,在存在多个与基准密码子相同的密码子的情况下,评价装置与基准密码子序列一致的密码子序列中最长的密码子序列确定为相应的癌症基因组中的一致的密码子序列的类似度。例如,关于癌症基因组40B,类似度为“3”。
评价装置通过对其它癌症基因组也反复执行上述处理,从而对每个癌症基因组确定一致的密码子序列的长度(类似度)。评价装置将类似度达到最大的癌症基因组评价为在评价对象基因组数据30癌化时最类似的癌症基因组。另外,评价装置按照类似度的降序对多个癌症基因组进行排序,将上位的癌症基因组的信息进行列表显示。
移至图5的说明。图5中,对使正常的评价对象基因组数据30产生突变“缺失”的情况进行了说明。评价装置取得作为评价对象的正常的评价对象基因组数据30。
评价装置基于评价对象基因组数据30和起始密码子位置20A来确定起始密码子“AUG(63h)”,并确定起始密码子的下一个变异对象密码子“UUU(40h)”。评价装置去除变异对象密码子“UUU(40h)”的开头的碱基(第1碱基),产生突变“缺失”。
例如,评价装置在变异对象密码子的第1碱基删除“U”,使缺失前的第2碱基移位至第1碱基,使缺失前的第3碱基移位至第2碱基,使变异对象密码子的下一个密码子的第1碱基移位至变异对象密码子的第3碱基,从而使变异对象密码子“UUU(40h)”为“UUC(41h)”。另外,对于与变异对象密码子连续的密码子,也使碱基向左方向移位。例如,使变异对象密码子的位置为20A+1,使位置20A+2的密码子为第1密码子,使位置20A+3的密码子为第2密码子。使第1密码子的第2碱基移位至第1密码子,使第1密码子的第3碱基移位至第2碱基,使第2密码子的第1碱基移位至第1密码子的第3碱基。评价装置使连续的碱基也向左方向移位。
评价装置通过使正常的评价对象基因组数据30产生突变“缺失”而生成新的突变基因组数据30B。
评价装置基于突变基因组数据30B和基准位置20B来确定基准密码子“CAA(5Ah)”。评价装置将基准密码子“CAA(5Ah)”和该基准密码子的前后连续的密码子(基准密码子序列)与各癌症基因组的碱基序列进行比较,确定一致的密码子和一致的密码子的长度。
使用癌症基因组40C进行说明。评价装置将癌症基因组40C与基准密码子“CAA(5Ah)”进行比较,确定与癌症基因组40C中的基准密码子相同的密码子的位置20F。评价装置以癌症基因组40C的位置20F的密码子为起点,与基准密码子序列进行比较,确定一致的密码子序列“UUU(40h)、CAA(5Ah)”和长度“2”。
使用癌症基因组40D进行说明。评价装置将癌症基因组40D与基准密码子“CAA(5Ah)”进行比较,确定癌症基因组40D的与基准密码子相同的密码子的位置20G、20H。评价装置以癌症基因组40D的位置20G的密码子为起点,与基准密码子序列进行比较,确定一致的密码子序列“UUU(40h)、CAA(5Ah)、AGU(6Ch)”和长度“3”。
另外,评价装置以癌症基因组40D的位置20H的密码子为起点,与基准密码子序列进行比较,确定一致的密码子序列“CAA(5Ah)、AGU(6Ch)”和长度“2”。如癌症基因组40D那样,在存在多个与基准密码子相同的密码子的情况下,评价装置将与基准密码子序列一致的密码子序列中的最长的密码子序列确定为相应的癌症基因组的一致的密码子序列的长度。例如,关于癌症基因组40D,一致的密码子序列的长度为“3”。
评价装置通过对其它癌症基因组也反复执行上述处理,从而对每个癌症基因组确定一致的密码子序列的长度。评价装置将一致的密码子序列的长度达到最大的癌症基因组评价为在评价对象基因组数据30癌化时最类似的癌症基因组。另外,评价装置按照一致的密码子序列的长度的降序对多个癌症基因组进行排序,将上位的癌症基因组的信息进行列表显示。
如上所述,评价装置通过使评价对象基因组数据30的变异对象密码子产生突变而生成突变基因组数据30A(30B)。评价装置将以突变基因组数据30A(30B)的基准基因组为起点的基准基因组序列与癌症基因组的碱基序列进行比较,确定连续且一致的密码子的长度(类似度)。评价装置将连续且一致的密码子的长度达到最大的癌症基因组评价为评价对象基因组数据30癌化时的癌症基因组。
如此,在评价装置中,通过将产生突变的密码子作为变异对象密码子并固定于起始密码子的下一个密码子,从而抑制新生成的基因组数据的变化的数量,并且能够确保最长的经突变的碱基序列。另外,通过将与癌症基因组比较的密码子序列缩减至以基准密码子为起点的基准密码子序列,从而能够削减比较的试验次数,使评价高速化。另外,能够以密码子(氨基酸)的粒度来进行与现有的癌症基因组的类似度的评价。
接下来,对本实施例1的评价装置的构成的一个例子进行说明。图6为表示本实施例1的评价装置的构成的功能框图。如图6所示,该评价装置100具有通信部110、输入部120、显示部130、存储部140和控制部150。祝
通信部110是介由网络在与其它外部装置(图示略)之间执行数据通信的处理部。例如,通信部110对应于通信装置。例如,通信部110也可以从外部装置接收后述的基因组DB141等。
输入部120是用于向评价装置100输入各种信息的输入装置。例如,输入部120对应于键盘、鼠标、触摸面板等。
显示部130是用于显示从控制部150输出的各种信息的显示装置。例如,显示部130对应于液晶显示器、触摸面板等。
存储部140具有基因组DB(Data Base)141、癌症基因组DB142、转换表143、基准基因组数据10、基准数据144、倒排索引表145。另外,存储部140具有评价对象基因组数据30、突变基因组数据表147和列表数据148。存储部140对应于RAM(Random Access Memory)、闪存(Flash Memory)等半导体存储元件、HDD(Hard Disk Drive)等存储装置。
基因组DB141为保持图3中说明的各基因组数据11的数据库。各基因组数据11是利用测序器等从多个人中采取的碱基序列数据。各基因组数据11依次排列有密码子(3个碱基序列)。各基因组数据11可以基于后述的转换表143以密码子单位进行编码。
癌症基因组DB142是保持多种癌症基因组的数据库。图7为表示本实施例1的癌症基因组DB的数据结构的一个例子的图。如图7所示,癌症基因组DB使识别信息与碱基序列与类似度相对应。癌症识别信息是唯一地识别癌症基因组的信息。碱基序列是对应于癌症基因组的碱基序列。类似度是通过突变基因组数据30A(30B)与癌症基因组的比较而算出的值。类似度越大,表示突变基因组数据30A(30B)与癌症基因组越类似。癌症基因组的碱基序列通过后述的前处理部152以密码子单位进行编码。
转换表143是使密码子与对应于密码子的符号相对应的表。图8是表示本实施例1的转换表的数据结构的一个例子的图。如图8所示,使各密码子与各符号相对应。例如,密码子“UUU”的符号为“40h(01000000)”。“h”表示16进制。
基准基因组数据10是预先设定的基准的(不含基因变异)碱基序列数据。例如,基准基因组数据10排列有多个密码子。
基准数据144具有通过图3中说明的处理而确定的“起始密码子位置”和“基准位置”的信息。
倒排索引表145是分别保持对各癌症基因组的倒排索引的表。图9为表示本实施例1的倒排索引表的数据结构的一个例子的图。癌症识别信息是唯一地识别癌症基因组的信息。倒排索引是通过癌症识别信息而识别的倒排索引。
图10为表示本实施例1的癌症基因组的倒排索引的数据结构的一个例子的图。图10中,倒排索引的横轴为对应于癌症基因组的从开头起的偏移的轴。倒排索引的纵轴为对应于密码子的种别(密码子的符号)的轴。倒排索引以“0”或“1”的位图表示,在初始状态下,所有的位图设定为“0”。
例如,将癌症基因组的开头的密码子的符号的偏移设为“0”。在癌症基因组的从开头起第7个位置包含密码子的符号“AUG(63h)”的情况下,倒排索引的偏移“6”这一列与密码子的符号“AUG(63h)”这一行交叉的位置的位为“1”。
评价对象基因组数据30是从人采取的作为评价的对象的基因组数据。评价对象基因组数据30对应于图4、图5中说明的评价对象基因组数据30。
突变基因组数据表147是保持使评价对象基因组数据30产生突变的基因组数据的表。例如,突变基因组数据表147具有产生突变“插入”的突变基因组数据30A和产生突变“缺失”的突变基因组数据30B。
列表数据148是表示存储于癌症基因组DB142中的各癌症基因组中的与评价对象基因组数据30癌化时的癌症基因组类似的癌症基因组的列表的信息。
回到图6的说明。控制部150具有取得部151、前处理部152、生成部153、确定部154以及评价部155。控制部150可以通过CPU(Central Processing Unit)、MPU(MicroProcessing Unit)等而实现。另外,控制部150也可以通过ASIC(Application SpecificIntegrated Circuit)、FPGA(Field Programmable Gate Array)等硬连线逻辑而实现。
取得部151是介由网络从外部装置等取得各种信息的处理部。例如,取得部151取得基因组DB141、癌症基因组DB142(编码前)和基准基因组数据10时,将所取得的基因组DB141、癌症基因组DB142和基准基因组数据10登记于存储部140。
另外,取得部151从输入部120或外部装置取得评价对象基因组数据30。取得部151将评价对象基因组数据30登记于存储部140。
前处理部152是执行各种前处理的处理部。例如,前处理部152执行生成倒排索引表145的处理、生成基准数据144的处理。
对于前处理部152生成倒排索引表145的处理的一个例子进行说明。前处理部152将登记于癌症基因组DB142的癌症基因组(碱基序列)编码,生成癌症基因组的倒排索引,将生成的倒排索引登记于倒排索引表145。
前处理部152从癌症基因组DB142取得未选择的癌症识别信息的碱基序列,从所取得的碱基序列一次取出3个碱基。前处理部152将所取出的碱基与转换表143进行比较,确定对应于3个碱基(密码子)的符号,将3个碱基(密码子)转换为符号。例如,前处理部152将密码子“AUG”转换为符号“63h”。前处理部152通过反复执行该处理,从而将所选择的碱基序列以密码子单位进行编码。
前处理部152将所选择的碱基序列以密码子单位进行编码时,生成对应于所选择的碱基序列的倒排索引。例如,前处理部152在对应于转换的密码子的符号和从开头起的符号的偏移的倒排索引的位图中设定“1”。前处理部152通过反复执行该的处理,从而生成对应于所选择的碱基序列的倒排索引。前处理部152使所选择的碱基序列的癌症识别信息与生成的倒排索引相对应,登记于倒排索引表145。
在此,前处理部152如果生成倒排索引,则为了削减信息量,可以将倒排索引散列化。图11为用于说明将倒排索引进行散列化的处理的一个例子的图。
在图11中说明的例子中,假设一个32位寄存器,基于“29”和“31”的素数(底数),将倒排索引的各行的位图进行散列化。在此,作为一个例子,对由位图b1生成散列化位图h11和散列化位图h12的情况进行说明。
位图b1表示将倒排索引(例如图10所示的倒排索引)的某一行抽出的位图。散列化位图h11是由底数“29”散列化的位图。散列化位图h12是由底“31”散列化的位图。
前处理部152使位图b1的各位的位置除以1个底数而余下的值与散列化位图的位置相对应。前处理部152在相应的位图b1的位的位置设定有“1”的情况下,进行在对应的散列化位图的位置设定“1”的处理。
对于由位图b1生成底数“29”的散列化位图h11的处理的一个例子进行说明。首先,前处理部152将位图b1的位置“0~28”的信息复制到散列化位图h11。接下来,位图b1的位点的位置“35”除以底数“29”的余数为“6”,因此,位图b1的位置“35”与散列化位图h11的位置“6”相对应。前处理部152由于在位图b1的位置“35”设定有“1”,因此,在散列化位图h11的位置“6”设定“1”。
位图b1的位点的位置“42”除以低“29”的余数为“13”,因此位图b1的位置“42”与散列化位图h11的位置“13”相对应。前处理部152由于在位图b1的位置“42”设定有“1”,因此,在散列化位图h11的位置“13”设定“1”。
前处理部152通过对位图b1的位置“29”以上的位置反复执行上述处理而生成散列化位图h11。
对由位图b1生成底数“31”的散列化位图h12的处理的一个例子进行说明。首先,前处理部152将位图b1的位置“0~30”的信息复制到散列化位图h12。接下来,位图b1的位点的位置“35”除以底数“31”的余数为“4”,因此位图b1的位置“35”与散列化位图h12的位置“4”相对应。前处理部152由于在位图b1的位置“35”设定有“1”,因此,在散列化位图h12的位置“4”设定“1”。
位图b1的位点的位置“42”除以低“31”的余数为“11”,因此位图b1的位置“42”与散列化位图h12的位置“11”相对应。前处理部152由于在位图b1的位置“42”设定有“1”,因此,在散列化位图h12的位置“11”设定“1”。
前处理部152通过对位图b1的位置“31”以上的位置反复执行上述处理而生成散列化位图h12。
前处理部152通过对倒排索引的各行进行利用上述折叠技术的压缩而将倒排索引散列化。应予说明,底数“29”、“31”的散列化位图被赋予生成源位图的行(经编码的密码子的种别)的信息。前处理部152通过对各癌症基因组的倒排索引反复执行上述处理,将散列化的倒排索引登记于倒排索引表145。
接下来,对前处理部152生成基准数据144的处理的一个例子进行说明。前处理部152生成基准数据144的处理对应于图3中说明的处理。前处理部152从基因组DB141取得多个基因组数据11。在将多个基因组数据11以密码子单位进行编码的情况下,通过与转换表143的比较,将多个基因组数据11解码。
前处理部152从开头的碱基起依次比较基准基因组数据10的碱基与各基因组数据11的碱基,对每个碱基的位置统计不同的碱基的个数(变异碱基数)。
前处理部152对每个位置算出变异碱基数,确定各位置中的变异碱基数达到最大的碱基的位置,并确定包含所确定的位置的碱基的基准密码子(例如,图3的密码子10B)。前处理部152将从基准密码子起M个前的密码子确定为起始密码子(例如,图3的密码子15)。
前处理部152以密码子的粒度来确定以基准基因组数据10的开头为基准的表示起始密码子15的位置的起始密码子位置20A。前处理部152以密码子的粒度来确定以基准基因组数据10的开头为基准的表示基准密码子10B的位置的基准位置20B。前处理部152将起始密码子位置20A和基准位置20B的信息作为基准数据144而登记于存储部140。
回到图6的说明。生成部153是通过使评价对象基因组数据30产生突变“插入”、“缺失”而生成突变基因组数据的处理部。生成部153将所生成的突变基因组数据登记于突变基因组数据表147。
使用图4,对生成部153产生突变“插入”的处理进行说明。生成部153从基准数据144取得起始密码子位置20A的信息。生成部153基于评价对象基因组数据30和起始密码子位置20A确定起始密码子“AUG(63h)”,并确定起始密码子的下一个变异对象密码子“UUU(40h)”。生成部153在变异对象密码子“UUU(40h)”的开头插入碱基“A”,产生突变“插入”。
例如,生成部153在变异对象密码子的第1碱基插入“A”,使插入前的第1碱基移位至第2碱基,使插入前的第2碱基移位至第3碱基,从而使变异对象密码子“UUU(40h)”为“AUU(60h)”。另外,生成部153对与变异对象密码子连续的密码子也使碱基向右方向移位。例如,对于变异对象密码子的下一个密码子,将变异对象密码子的第3碱基插入到下一个密码子的第1碱基,使连续的碱基也向右方向移位。
通过使评价对象基因组数据30产生突变“插入”,从而进行碱基的右移位,生成突变基因组数据30A。在此,对在变异对象密码子插入碱基“A”的情况进行了说明,但也可以插入其它碱基“U”、“G”、“C”。
使用图5,对生成部153产生突变“缺失”的处理进行说明。生成部153基于评价对象基因组数据30和起始密码子位置20A确定起始密码子“AUG(63h)”,并确定起始密码子的下一个变异对象密码子“UUU(40h)”。生成部153去除变异对象密码子“UUU(40h)”的开头的碱基(第1碱基),产生突变“缺失”。
例如,生成部153在变异对象密码子的第1碱基删除“A”,使缺失前的第2碱基移位至第1碱基,使缺失前的第3碱基移位至第2碱基,使变异对象密码子的下一个密码子的第1碱基移位至变异对象密码子的第3碱基,从而使变异对象密码子“UUU(40h)”为“UUC(41h)”。另外,对于与变异对象密码子连续的密码子,也使碱基向左方向移位。例如,使变异对象密码子的位置为20A+1,使位置20A+2的密码子为第1密码子,使位置20A+3的密码子为第2密码子。使第1密码子的第2碱基移位至第1密码子,使第1密码子的第3碱基移位至第2碱基,使第2密码子的第1碱基移位至第1密码子的第3碱基。评价装置使连续的碱基也向右方向移位。
通过使评价对象基因组数据30产生突变“缺失”,从而进行碱基的左移位,生成突变基因组数据30B。
生成部153通过进行上述处理而生成突变基因组数据30A、30B,将所以生成的突变基因组数据30A、30B登记于突变基因组数据表147。
确定部154是基于突变基因组数据30A(30B)和基准位置20B来确定突变基因组数据30A(30B)的基准密码子序列的处理部。确定部154将所确定的基准密码子序列的信息输出到评价部155。
使用图4,对确定部154确定突变基因组数据30A的基准密码子序列的处理进行说明。确定部154从基准数据144取得基准位置20B的信息。确定部154基于突变基因组数据30A和基准位置20B来确定基准密码子“AAA(6Ah)”。确定部154将从基准位置20B-NA至基准位置20B+NA为止的密码子序列确定为基准密码子序列。NA为预先设定的值。
使用图5,对确定部154确定突变基因组数据30B的基准密码子序列的处理进行说明。确定部154从基准数据144取得基准位置20B的信息。确定部154基于突变基因组数据30B和基准位置20B来确定基准密码子“CAA(5Ah)”。确定部154将从基准位置20B-NA至基准位置20B+NA为止的密码子序列确定为基准密码子序列。
确定部154将突变基因组数据30A的基准密码子和基准密码子序列以及突变基因组数据30B的基准密码子和基准密码子序列的信息输出到评价部155。
评价部155是基于癌症基因组的碱基序列和突变基因组数据30A(30B)评价各癌症基因组与突变基因组数据30A(30B)的类似度的处理部。评价部155通过将癌症基因组的碱基序列与基准密码子序列进行比较,将一致的密码子的长度中最大的长度作为类似度。
评价部155的处理的概要如图4、5中说明那样,通过将癌症基因组的碱基序列与基准密码子序列进行比较,确定一致的密码子的长度中最大的长度。
应予说明,评价部155在确定一致的密码子的长度的情况下,利用癌症基因组的倒排索引。以下,对评价部155使用倒排索引确定一致的密码子的长度的处理的一个例子进行说明。
评价部155从倒排索引表145取得对应于与基准密码子序列进行比较的癌症基因组的倒排索引。评价部155将基准密码子(符号)与倒排索引进行比较,确定在癌症基因组的碱基序列上与基准密码子相同的密码子出现的位置(偏移),作为进行比较时的起点。
评价部155在作为倒排索引的起点的位置的前后的位置确定对应于标志(flag)“1”的行的密码子的符号,根据所确定的密码子的符号与基准密码子序列的符号是否一致来确定一致的密码子的长度。
应予说明,评价部155通过从倒排索引抽出对应于基准密码子序列的各密码子的位图,反复执行移位和AND运算,从而也能够评价基准密码子序列的一部分的密码子序列是否包含在癌症基因组的碱基序列上。
图12为用于说明本实施例1的评价部的处理的一个例子的图。在此,作为一个例子,对评价部155判定在基准密码子序列中是否存在至少包含基准密码子的部分序列“UUU(40h)、CAA(5Ah)、AGU(6Ch)、UCA(46h)、UGG(4Fh)”的情况进行说明。
评价部155参照作为比较对象的癌症基因组的倒排索引,取得对应于各密码子“UUU(40h)、CAA(5Ah)、AGU(6Ch)、UCA(46h)、UGG(4Fh)”的位图。将密码子的符号“UUU(40h)”的位图设为位图b_UUU。将密码子的符号“CAA(5Ah)”的位图设为位图b_CAA。将密码子的符号“AGU(6Ch)”的位图设为位图b_AGU。将密码子的符号“UCA(46h)”的位图设为位图b_UCA。将密码子的符号“UGG(4Fh)”的位图设为位图b_UGG。
评价部155取得位图b_UUU,使位图b_UUU左移位,从而生成位图b20。评价部155取得位图b_CAA,对位图b_CAA和位图b20进行AND运算,从而生成位图b21。由于“1”处于位图b21的偏移“8”,因此,可知在偏移7~8包含密码子“UUU(40h)、CAA(5Ah)”。
评价部155使位图b21左移位,从而生成位图b22。评价部155取得位图b_AGU,对位图b_AGU和位图b22进行AND运算,从而生成位图b23。由于“1”处于位图b23的偏移“9”,因此,可知在偏移7~9包含密码子“UUU(40h)、CAA(5Ah)、AGU(6Ch)”。
评价部155使位图b23左移位,从而生成位图b24。评价部155取得位图b_UCA,对位图b_UCA和位图b24进行AND运算,从而生成位图b25。由于“1”处于位图b25的偏移“10”,因此,可知在偏移7~10包含密码子“UUU(40h)、CAA(5Ah)、AGU(6Ch)、UCA(46h)”。
评价部155使位图b25左移位,从而生成位图b26。评价部155取得位图b_UGG,对位图b_UGG和位图b26进行AND运算,从而生成位图b27。由于“1”处于位图b25的偏移“11”,因此,可知在偏移7~11包含密码子“UUU(40h)、CAA(5Ah)、AGU(6Ch)、UCA(46h)、UGG(4Fh)”。
评价部155通过执行图12所示的处理,从而评价在作为比较对象的癌症基因组的碱基序列的偏移“7~11”中包含部分序列。评价部155通过增加或减少部分序列的密码子并反复执行上述处理,从而确定基准密码子序列中的与癌症基因组的碱基序列一致的密码子的最大的长度(类似度)。
评价部155对相同的癌症基因组评价与突变基因组数据30A的类似度、与突变基因组数据30B的类似度。评价部155可以将各类似度登记于癌症基因组DB142,也可以将较大的类似度登记于癌症基因组DB142。
评价部155通过反复执行上述处理,从而登记对应于癌症基因组DB142的各癌症识别信息的类似度。
评价部155扫描癌症基因组DB142的各类似度,确定作为最大的类似度的癌症识别信息,从癌症基因组DB142检索对应于所确定的癌症识别信息的癌症基因组的碱基序列数据,将所检索的癌症基因组的碱基序列数据输出到显示部130进行显示。
另外,评价部155扫描癌症基因组DB142的各类似度,按照类似度的降序将各癌症识别信息排序。评价部155将所排序的各癌症识别信息中的上位NB的癌症识别信息登记于列表数据148。评价部155可以从癌症基因组DB142检索对应于上位NB的癌症识别信息的癌症基因组的碱基序列数据,并登记于列表数据148。评价部155可以将列表数据148输出到显示部130进行显示,也可以介由网络发送到外部装置。
应予说明,评价部155在倒排索引的位图被散列化的情况下,将经散列化后的位图复原。图13为用于说明将经散列化的位图复原的处理的图。在此,作为一个例子,对评价部155基于散列化位图h11和散列化位图h12将位图b1复原的情况进行说明。
评价部155由底数“29”的散列化位图h11生成中间位图h11’。评价部155将散列化位图h11的位置0~28的值分别复制到中间位图h11’的位置0~28。
评价部155对于中间位图h11’的位置29以后的值,每“29”反复执行将散列化位图h11的位置0~28的值分别复制的处理。在图13所示的例子中,示出在中间位图h11’的位置29~43的位置复制了散列化位图h11的位置0~14的值的例子。
评价部155由底数“31”的散列化位图h12生成中间位图h12’。评价部155将散列化位图h12的位置0~30的值分别复制到中间位图h12’的位置0~30。
评价部155对于中间位图h12’的位置31以后的值,每“31”反复执行将散列化位图h12的位置0~30的值分别复制的处理。在图13所示的例子中,示出在中间位图h12’的位置31~43的位置复制了散列化位图h12的位置0~12的值的例子。
如果生成中间位图h11’和中间位图h12’,则评价部155对中间位图h11’和中间位图h12’进行AND运算,从而将散列化前的位图b1复原。评价部155对于其它经散列化的位图也反复执行同样的处理,从而可以将对应于倒排索引的各位图复原。
接下来,对本实施例1的评价装置100的处理程序的一个例子进行说明。图14为表示本实施例1的评价装置的处理步骤的流程图。如图14所示,该评价装置100的取得部151取得评价对象基因组数据30,登记于存储部140(步骤S101)。
评价装置100的生成部153使评价对象基因组数据30产生突变,生成突变基因组数据30A(30B),登记于突变基因组数据表147(步骤S102)。
评价装置100的确定部154基于基准数据144和突变基因组数据30A(30B)确定基准密码子和基准密码子序列(步骤S103)。评价装置100的评价部155选择未选择的癌症识别信息(步骤S104)。
评价部155基于所选择的癌症识别信息的倒排索引和基准密码子序列算出类似度(步骤S105)。评价部155使所选择的癌症识别信息与类似度相对应,登记于癌症基因组DB142(步骤S106)。
评价部155判定是否选择了所有癌症识别信息(步骤S107)。评价部155在未选择所有癌症识别信息的情况下(步骤S107,No)移至步骤S104。评价部155在选择了所有癌症识别信息的情况下(步骤S107,Yes)移至步骤S108。
评价部155按照类似度的降序将各癌症识别信息排序(步骤S108)。评价部155将对应于上位的癌症识别信息的癌症基因组的碱基序列数据登记于列表数据148(步骤S109)。评价部155将列表数据148输出到显示部130进行显示(步骤S110)。
接下来,对本实施例1的评价装置100的效果进行说明。评价装置100通过使评价对象基因组数据30的变异对象密码子产生突变而生成突变基因组数据30A(30B)。评价装置100将以突变基因组数据30A(30B)的基准基因组为起点的基准基因组序列与癌症基因组的碱基序列进行比较,评价连续且一致的密码子的长度(类似度)。评价装置100将连续且一致的密码子的长度达到最大的癌症基因组评价为评价对象基因组数据30癌化时的癌症基因组。
如此,在评价装置100中,通过将产生突变的密码子作为变异对象密码子并固定于起始密码子的下一个密码子,从而抑制新生成的基因组数据的变化的数量,且能够确保最长的经突变的碱基序列。另外,通过将与癌症基因组比较的密码子序列缩减至以基准密码子为起点的基准密码子序列,能够削减比较的试验次数,使评价高速化。另外,能够以密码子(氨基酸)的粒度来进行与现有的癌症基因组的类似度评价。应予说明,癌症基因组的碱基序列除了发生突变的细胞生长因子,有时还包含附着于细胞生长因子的受体,需要除去受体的碱基序列。
实施例2
对本实施例2的评价装置的处理的一个例子进行说明。图15、图16、图17为用于说明本实施例2的评价装置的处理的图。首先,对图15进行说明。评价装置从癌症基因组DB取得以密码子单位编码的癌症基因组50。评价装置基于蛋白质词典信息243A和动态词典信息243B将癌症基因组50以蛋白质的单位进行编码。
蛋白质词典信息243A是使规定的蛋白质(现有的蛋白质)的符号与密码子单位的符号的序列相对应的静态词典信息。以下的说明中,将密码子单位的符号的序列记为“密码子(氨基酸)序列”。
动态词典信息243B是将未登记于蛋白质词典信息243A的密码子序列动态编码为蛋白质(未知蛋白质)的符号时使用的动态词典信息。
评价装置通过以蛋白质的单位对癌症基因组50执行词素解析,从而确定癌症基因组中所含的多个词素。例如,一个词素中包含对应于一个蛋白质的密码子序列。
评价装置将对癌症基因组50执行的词素解析的结果与蛋白质词典信息243A进行比较,在词素命中蛋白质词典信息243A的密码子序列的情况下,将癌症基因组50的词素转换为蛋白质的符号。
评价装置将对癌症基因组50执行的词素解析的结果与蛋白质词典信息243A进行比较,在词素未命中蛋白质词典信息243A的密码子序列的情况下,生成唯一的登记号。评价装置将登记号、计数的初始值“1”和词素所中所含的密码子序列登记于动态词典信息243B,并且将癌症基因组50的词素替换为登记号,从而进行编码(动态编码)。
应予说明,评价装置在未命中蛋白质词典信息234A的词素的密码子序列已经被登记于动态词典信息243B的情况下,通过相应的登记号进行编码,并且在相应的计数加1。
评价装置通过反复执行利用上述蛋白质词典信息243A的编码、利用动态词典信息243B的动态编码,从而由编码为密码子单位的癌症基因组50生成编码为蛋白质单位的癌症基因组50A。虽然省略了图示,但评价装置生成使癌症基因组50的从开头起的偏移与蛋白质的符号相对应的倒排索引。
评价装置通过对登记于癌症基因组DB的各癌症基因组反复执行上述处理,从而将未知蛋白质的密码子序列登记于动态词典信息243B。未命中蛋白质词典信息234A的未知蛋白质可以说是对应于癌症特有的蛋白质的密码子序列。
移至图16的说明。图16中,评价装置通过使作为评价对象的评价对象基因组数据30产生突变“插入”而生成新的突变基因组数据30A。产生突变“插入”并生成突变基因组数据30A的处理与实施例1的图4中说明的处理同样。评价装置基于基准位置20B确定突变基因组数据30A的基准密码子“AAA(6Ah)”。
评价装置通过以蛋白质的单位对突变基因组数据30A执行词素解析,从而确定突变基因组数据30A中所含的多个词素。例如,一个词素中包含对应于蛋白质的密码子序列。
评价装置将对突变基因组数据30A执行的词素解析的结果与蛋白质词典信息243A进行比较,在突变基因组数据30A的词素命中蛋白质词典信息243A的密码子序列的情况下,将突变基因组数据30A的词素转换为蛋白质的符号。本实施例中,将经编码的蛋白质适当地用蛋白质α、β、γ等希腊字母表示。
评价装置在包含基准密码子的词素的密码子序列未命中蛋白质词典信息243A的密码子序列的情况下,判定包含基准密码子的词素的密码子序列是否命中动态词典信息243B的密码子序列。评价装置在包含基准密码子的词素的密码子序列未命中动态词典信息243B的密码子序列的情况下,判定与突变基因组数据30A类似的癌症基因组不存在于癌症基因组DB中。
与此相对,评价装置在包含基准密码子的词素的密码子序列命中动态词典信息243B的密码子序列的情况下,判定为与突变基因组数据30A类似的癌症基因组存在于癌症基因组DB中。例如,包含基准密码子“AAA(6Ah)”的密码子序列“UUC(41h)/AAA(6Ah)/GUA(72h)”存在于动态词典信息243B中,因此,评价装置判定为与突变基因组数据30A类似的癌症基因组存在于癌症基因组DB中。
评价装置在包含基准密码子的词素的密码子序列命中动态词典信息243B的密码子序列的情况下,通过登记号将密码子序列编码。评价装置通过执行上述处理,生成编码为蛋白质单位的突变基因组数据31A。以下的说明中,为了评价类似度,出于方便,将编码为动态符号的包含基准密码子的未知的蛋白质记为“基准蛋白质”。
移至图17的说明。评价装置确定基准蛋白质和该基准蛋白质的前后的连续的蛋白质序列。以下的说明中,将基准蛋白质和该基准蛋白质的前后的连续的蛋白质序列记为“基准蛋白质序列”。评价装置将基准蛋白质序列与癌症基因组的蛋白质序列进行比较,确定与基准蛋白质序列一致的蛋白质的长度中的最大的长度作为“类似度”。
使用癌症基因组41A进行说明。评价装置将癌症基因组41A与基准蛋白质“未知蛋白质X4(A003h)”进行比较,确定癌症基因组41A的与基准蛋白质相同的蛋白质的位置20I。评价装置以癌症基因组41A的位置20I的未知蛋白质X4为起点,与基准蛋白质序列进行比较,确定一致的蛋白质序列“未知蛋白质X4(A003h)、蛋白质β”和类似度“2”。
使用癌症基因组41B进行说明。评价装置将癌症基因组41B与基准蛋白质“未知蛋白质X4(A003h)”进行比较,确定癌症基因组41B的与基准蛋白质相同的蛋白质的位置20J、20K。评价装置以癌症基因组41B的位置20J的未知蛋白质X4为起点,与基准蛋白质序列进行比较,确定一致的蛋白质序列“蛋白质α、未知蛋白质X4(A003h)、蛋白质β”和类似度“3”。
另外,评价装置以癌症基因组41B的位置20K的蛋白质为起点,与基准蛋白质序列进行比较,确定一致的蛋白质序列“未知蛋白质X4(A003h)、蛋白质β”和类似度“2”。评价装置如癌症基因组41B那样,在存在多个与基准蛋白质相同的蛋白质的情况下,确定与基准蛋白质序列一致的蛋白质序列中的最长的蛋白质序列作为相应的癌症基因组的一致的蛋白质序列的类似度。例如,关于癌症基因组41B,类似度为“3”。
评价装置通过对其它癌症基因组也反复执行上述处理,从而对每个癌症基因组确定一致的蛋白质序列的长度(类似度)。评价装置将类似度达到最大的癌症基因组评价为评价对象基因组数据30癌化时最类似的癌症基因组。另外,评价装置按照类似度的降序对多个癌症基因组进行排序,将上位的癌症基因组的信息进行列表显示。
移至图18的说明。图18中,评价装置通过使作为评价对象的评价对象基因组数据30产生突变“缺失”而生成新的突变基因组数据30B。产生突变“缺失”并生成突变基因组数据30B的处理与实施例1的图5中说明的处理同样。评价装置基于基准位置20B确定突变基因组数据30B的基准密码子“CAA(5Ah)”。
评价装置通过以蛋白质的单位对突变基因组数据30B执行词素解析,从而确定突变基因组数据30B中所含的多个词素。
评价装置将对突变基因组数据30B执行的词素解析的结果与蛋白质词典信息243A进行比较,在突变基因组数据30B的词素命中蛋白质词典信息243A的密码子序列的情况下,将突变基因组数据30B的词素转换为蛋白质的符号。
评价装置在包含基准密码子的词素的密码子序列未命中蛋白质词典信息243A的密码子序列的情况下,判定包含基准密码子的词素的密码子序列是否命中动态词典信息243B的密码子序列。评价装置在包含基准密码子的词素的密码子序列未命中动态词典信息243B的密码子序列的情况下,判定与突变基因组数据30B类似的癌症基因组不存在于癌症基因组DB中。
与此相对,评价装置在包含基准密码子的词素的密码子序列命中动态词典信息243B的密码子序列的情况下,判定为与突变基因组数据30A类似的癌症基因组存在于癌症基因组DB中。例如,包含基准密码子“CAA(5Ah)”的密码子序列“UUU(40h)/CAA(5Ah)/AGU(6Ch)”存在于动态词典信息243B中,因此,评价装置判定为与突变基因组数据30B类似的癌症基因组存在于癌症基因组DB中。
评价装置在包含基准密码子的词素的密码子序列命中动态词典信息243B的密码子序列的情况下,通过登记号将密码子序列编码。评价装置通过执行上述处理,生成编码为蛋白质单位的突变基因组数据31B。
移至图19的说明。评价装置确定基准蛋白质和基准蛋白质序列。评价装置将基准蛋白质序列与癌症基因组的蛋白质序列进行比较,确定与基准蛋白质序列一致的蛋白质的长度中的最大的长度作为“类似度”。
使用癌症基因组41A进行说明。评价装置将癌症基因组41A与基准蛋白质“未知蛋白质X1(A000h)”进行比较,确定癌症基因组41A的与基准蛋白质相同的蛋白质的位置20I。评价装置以癌症基因组41A的位置20L的未知蛋白质X1为起点,与基准蛋白质序列进行比较,确定一致的蛋白质序列“未知蛋白质X1(A000h)、蛋白质γ”和类似度“2”。
使用癌症基因组41B进行说明。评价装置将癌症基因组41B与基准蛋白质“未知蛋白质X1(A000h)”进行比较,确定癌症基因组41B的与基准蛋白质相同的蛋白质的位置20M、20N。评价装置以癌症基因组41B的位置20M的未知蛋白质X1为起点,与基准蛋白质序列进行比较,确定一致的蛋白质序列“蛋白质α、未知蛋白质X1(A000h)、蛋白质γ”和类似度“3”。
另外,评价装置以癌症基因组41B的位置20N的蛋白质为起点,与基准蛋白质序列进行比较,确定一致的蛋白质序列“未知蛋白质X1(A000h)、蛋白质γ”和类似度“2”。评价装置如癌症基因组41B那样,在存在多个与基准蛋白质相同的蛋白质的情况下,确定与基准蛋白质序列一致的蛋白质序列中的最长的蛋白质序列作为相应的癌症基因组的一致的蛋白质序列的类似度。例如,关于癌症基因组41B,类似度为“3”。
评价装置通过对其它癌症基因组也反复执行上述处理,从而对每个癌症基因组确定一致的蛋白质序列的长度(类似度)。评价装置将类似度达到最大的癌症基因组评价为评价对象基因组数据30癌化时最类似的癌症基因组。另外,评价装置按照类似度的降序对多个癌症基因组进行排序,将上位的癌症基因组的信息进行列表显示。
如上所述,评价装置通过使评价对象基因组数据30的变异对象密码子发生突变而生成突变基因组数据30A(30B)。评价装置将以突变基因组数据30A的基准基因组为起点的基准蛋白质序列与癌症基因组的蛋白质序列进行比较,确定连续且一致的蛋白质的长度(类似度)。评价装置将连续且一致的蛋白质的长度达到最大的癌症基因组评价为评价对象基因组数据30癌化时的癌症基因组。
如此,在评价装置中,通过将产生突变的密码子作为变异对象密码子并固定于起始密码子的下一个密码子,从而抑制新生成的基因组数据的变化的数量,且能够确保最长的经突变的碱基序列。另外,通过将与癌症基因组比较的蛋白质序列缩减至包含基准密码子的基准蛋白质序列,从而能够削减比较的试验次数,使评价高速化。另外,能够以蛋白质的粒度来进行与癌特有的蛋白质序列的类似度的评价。
接下来,对本实施例2的评价装置的构成的一个例子进行说明。图20为表示本实施例2的评价装置的构成的功能框图。如图20所示,该评价装置200具有通信部210、输入部220、显示部230、存储部240和控制部250。
通信部210是介由网络在与其它外部装置(图示略)之间执行数据通信的处理部。例如,通信部210对应于通信装置。例如,通信部210也可以从外部装置接收后述的基因组DB141等。
输入部220是用于向评价装置200输入各种信息的输入装置。例如,输入部120对应于键盘、鼠标、触摸面板等。
显示部230是用于显示从控制部250输出的各种信息的显示装置。例如,显示部230对应于液晶显示器、触摸面板等。
存储部240具有基因组DB141、癌症基因组DB241、转换表143、基准基因组数据10、基准数据144、倒排索引表242。另外,存储部240具有蛋白质词典信息243A、动态词典信息243B、评价对象基因组数据30、突变基因组数据表147、列表数据244。存储部240对应于RAM、闪存等半导体存储元件、HDD等存储装置。
基因组DB141为保持实施例1的图3中说明的各基因组数据11的数据库。各基因组数据11是利用测序器等从多个人中采取的碱基序列数据。各基因组数据11依次排列有密码子(3个碱基序列)。各基因组数据11可以基于转换表143以密码子单位进行编码。
癌症基因组DB142是保持多种癌症基因组的数据库。图21为表示本实施例2的癌症基因组DB的数据结构的一个例子的图。如图21所示,癌症基因组DB使识别信息与碱基序列与蛋白质序列与类似度相对应。癌症识别信息是唯一地识别癌症基因组的信息。碱基序列是对应于癌症基因组的碱基序列。蛋白质序列是对应于癌症基因组的经编码的蛋白质的序列。类似度是通过突变基因组数据30A(30B)与癌症基因组的比较而算出的值。类似度越大,表示突变基因组数据30A(30B)与癌症基因组越类似。
转换表143是使密码子与对应于密码子的符号相对应的表。转换表143的数据结构与图8中说明的数据结构同样。
基准基因组数据10是预先设定的基准的(不包含基因变异)碱基序列数据。例如,基准基因组数据10排列有多个密码子。
基准数据144具有通过实施例1的图3中说明的处理而确定的“起始密码子位置”和“基准位置”的信息。
倒排索引表242是分别保持对各癌症基因组的倒排索引的表。图22为表示本实施例2的倒排索引表的数据结构的一个例子的图。癌症识别信息是唯一地识别癌症基因组的信息。倒排索引是通过癌症识别信息而识别的倒排索引。
图23为表示本实施例2的癌症基因组的倒排索引的数据结构的一个例子的图。图23中,倒排索引的横轴为对应于癌症基因组的从开头起的偏移的轴。倒排索引的纵轴为对应于蛋白质的种别(蛋白质的符号)的轴。倒排索引以“0”或“1”的位图表示,在初始状态下,所有的位图设定为“0”。
例如,将癌症基因组的开头的密码子的符号的偏移设为“0”。在癌症基因组的从开头起第7个位置包含蛋白质的符号“蛋白质α”的情况下,倒排索引的偏移“6”这一列与蛋白质的符号“蛋白质α”这一行交叉的位置的位点为“1”。在癌症基因组的从开头起第20个位置包含蛋白质的符号“未知蛋白质X1(A000h)”的情况下,倒排索引的偏移“19”这一列与蛋白质的符号“未知蛋白质X1(A000h)”这一行交叉的位置的位点为“1”。
蛋白质词典信息243A是使规定的蛋白质(现有的蛋白质)的符号与密码子单位的符号的序列相对应的静态词典信息。图24为表示本实施例2的蛋白质词典信息的数据结构的一个例子的图。如图24所示,该蛋白质词典信息243A使蛋白质信息与氨基酸符号序列与密码子符号序列相对应。
蛋白质信息中包含蛋白质的“符号”、蛋白质所属的“组”和蛋白质的“名称”。氨基酸符号序列是对应于蛋白质的符号(蛋白质的种别)的氨基酸的符号的序列。密码子符号序列是对应于蛋白质的符号(蛋白质的种别)的密码子的符号的序列。
例如,蛋白质“I型胶原蛋白”属于“胶原蛋白”组,符号为“蛋白质α”。相对于符号“蛋白质α”的氨基酸符号序列为“02h46h59h…03h”。另外,密码子符号序列为“02h63h78h…03h”。
动态词典信息243B是将未登记于蛋白质词典信息243A的密码子序列动态编码为蛋白质(未知蛋白质)的符号时使用的动态词典信息。动态词典信息243B的数据结构如图15等中说明的那样,使登记号与计数与密码子(氨基酸)序列相对应。
评价对象基因组数据30是用户所指定的作为评价的对象的基因组数据。评价对象基因组数据30对应于图16、图18中说明的评价对象基因组数据30。
突变基因组数据表147是保持使评价对象基因组数据30产生突变的基因组数据的表。例如,突变基因组数据表147具有产生突变“插入”的突变基因组数据30A和产生突变“缺失”的突变基因组数据30B。
列表数据244是表示存储于癌症基因组DB241中的各癌症基因组中的与评价对象基因组数据30癌化时的癌症基因组类似的癌症基因组的列表的信息。
回到图20的说明。控制部250具有取得部251、前处理部252、生成部253、确定部254以及评价部255。控制部250可以通过CPU、MPU等而实现。另外,控制部250也可以通过ASIC、FPGA等硬连线逻辑而实现。
取得部251是介由网络从外部装置等取得各种信息的处理部。例如,取得部251取得基因组DB141、癌症基因组DB241(编码前)和基准基因组数据10时,将所取得的基因组DB141、癌症基因组DB241和基准基因组数据10登记于存储部240。取得部251取得蛋白质词典信息243A时,将蛋白质词典信息243A登记于存储部240。
另外,取得部251从输入部220或外部装置取得评价对象基因组数据30。取得部251将评价对象基因组数据30登记于存储部240。
前处理部252是执行各种前处理的处理部。例如,前处理部252执行生成倒排索引表242的处理、生成基准数据144的处理。
对前处理部252生成倒排索引表242的处理的一个例子进行说明。首先,前处理部252与前处理部152同样地将登记于癌症基因组DB241的碱基序列与转换表143进行比较,将碱基序列编码为密码子单位的密码子序列。
前处理部252从癌症基因组DB142取得未选择的癌症识别信息的密码子序列,以蛋白质的单位对密码子序列执行词素解析,从而确定癌症基因组中所含的多个词素。例如,一个词素中包含对应于一个蛋白质的密码子序列。
前处理部252将对密码子序列执行的词素解析的结果与蛋白质词典信息243A进行比较,在词素命中蛋白质词典信息243A的密码子序列的情况下,将词素转换为蛋白质的符号。另外,前处理部252以蛋白质的单位确定将开头作为起点的符号的偏移,在倒排索引中,在与偏移和蛋白质的符号对应的部分设定“1”。
前处理部252将对密码子序列执行的词素解析的结果与蛋白质词典信息243A进行比较,在词素未命中蛋白质词典信息243A的密码子序列的情况下,生成唯一的登记号。前处理部252将登记号、计数的初始值“1”和词素中所含的密码子序列登记于动态词典信息243B,并且将词素替换为登记号,从而进行编码(动态编码)。另外,前处理部252以蛋白质的单位确定将开头作为起点的符号的偏移,在倒排索引中,在与偏移和蛋白质的符号(登记号)对应的部分设定“1”。
应予说明,前处理部252在未命中蛋白质词典信息234A的词素的密码子序列已经被登记于动态词典信息243B的情况下,通过相应的登记号进行编码,并在在相应的计数加1。另外,前处理部252以蛋白质的单位确定将开头作为起点的符号的偏移,在倒排索引中,在与偏移和蛋白质的符号(登记号)对应的部分设定“1”。
前处理部252通过对登记于癌症基因组DB241的各癌症识别信息的密码子序列反复执行上述处理,从而将未知蛋白质的密码子序列登记于动态词典信息243B,并且在倒排索引的相应部分设定“1”。另外,前处理部252使以蛋白质的单位进行了编码的蛋白质序列与癌症识别信息相对应,登记于癌症基因组DB241。
前处理部252将通过上述处理而生成的与各癌症识别信息对应的倒排索引登记于倒排索引表242。前处理部252如果与实施例1同样地生成倒排索引,则为了削减信息量,可以将倒排索引散列化。
接下来,对前处理部252生成基准数据144的处理的一个例子进行说明。前处理部252生成基准数据144的处理与实施例1的图3中说明的处理同样,因此省略说明。前处理部252将起始密码子位置20A和基准位置20B的信息作为基准数据144登记于存储部240。
生成部253是通过使评价对象基因组数据30产生突变“插入”、“缺失”而生成突变基因组数据30A(30B)的处理部。生成部253将所生成的突变基因组数据30A(30B)登记于突变基因组数据表147。生成部253生成突变基因组数据30A(30B)的处理与实施例1中说明的生成部153的处理同样。
确定部254基于突变基因组数据30A(30B)和基准位置20B确定突变基因组数据30A(30B)的基准密码子。另外,确定部254以蛋白质的单位对突变基因组数据30A(30B)执行词素解析,确定包含基准密码子的密码子序列。确定部254将基准密码子和包含基准密码子的密码子序列的信息输出到评价部255。
评价部255是基于癌症基因组的蛋白质序列和包含突变基因组数据30A(30B)的基准密码子的密码子序列来评价各癌症基因组与突变基因组数据30A(30B)的类似度的处理部。
评价部255将动态词典信息243B与包含基准密码子的密码子序列进行比较,判定包含基准密码子的密码子序列是否存在于动态词典信息243B的密码子序列中。评价部255在包含基准密码子的密码子序列不存在于动态词典信息243B的密码子序列的情况下,评价为与突变基因组数据30A(30B)类似的癌症基因组不存在于癌症基因组DB241中,跳过与接下来的评价相关的处理。
另一方面,评价部255在包含基准密码子的密码子序列存在于动态词典信息243B的密码子序列的情况下,评价为与突变基因组数据30A(30B)类似的癌症基因组存在于癌症基因组DB241中,执行与接下来的评价相关的处理。
评价部255如图17、图19中说明的那样确定基准蛋白质和基准蛋白质序列。评价部255基于蛋白质词典信息243A和动态词典信息243B以蛋白质的粒度将突变基因组数据30A(30B)编码。评价部255对于以蛋白质的粒度编码的突变基因组数据30A(30B),将包含基准密码子的蛋白质的符号确定为基准蛋白质。评价部255将基准蛋白质的前后的连续的蛋白质序列确定为“基准蛋白质序列”。
评价部255将基准蛋白质序列与癌症基因组的蛋白质序列进行比较,确定与基准蛋白质序列一致的蛋白质的长度中的最大的长度作为“类似度”。
应予说明,评价部255在确定一致的蛋白质的长度的情况下,利用癌症基因组的倒排索引。以下,对评价部255使用倒排索引确定一致的蛋白质的长度的处理的一个例子进行说明。
评价部255从倒排索引表242取得对应于与基准蛋白质序列进行比较的癌症基因组的倒排索引。评价部255将基准蛋白质(符号)与倒排索引进行比较,确定在癌症基因组的蛋白质序列上与基准蛋白质相同的蛋白质出现的位置(偏移),作为比较时的起点。
评价部255在作为倒排索引的起点的位置的前后的位置确定对应于标志(flag)“1”这一行的蛋白质的符号,根据所确定的蛋白质的符号与基准蛋白质序列的符号是否一致来确定一致的密码子的长度。
应予说明,评价部255从倒排索引抽出对应于基准蛋白质序列的各蛋白质的位图,反复执行移位和AND运算,从而也能够评价基准蛋白质序列的一部分蛋白质序列是否包含在癌症基因组的蛋白质序列上。该处理对应于将图12中说明的密码子的单位替换为蛋白质的单位的处理。
评价部255对相同的癌症基因组评价与突变基因组数据30A的类似度、与突变基因组数据30B的类似度。评价部255可以将各类似度登记于癌症基因组DB241,也可以将较大的类似度登记于癌症基因组DB241。
评价部255通过反复执行上述处理,从而登记对应于癌症基因组DB241的各癌症识别信息的类似度。
评价部255扫描癌症基因组DB241的各类似度,确定达到最大类似度的癌症识别信息,从癌症基因组DB241检索对应于所确定的癌症识别信息的癌症基因组的蛋白质序列,将所检索的癌症基因组的蛋白质序列输出到显示部230进行显示。
另外,评价部255扫描癌症基因组DB241的各类似度,按照类似度的降序将各癌症识别信息排序。评价部255将所排序的各癌症识别信息中的上位NB的癌症识别信息登记于列表数据244。评价部255可以从癌症基因组DB241检索对应于上位NB的癌症识别信息的癌症基因组的蛋白质序列,并登记于列表数据244。评价部255可以将列表数据244输出到显示部230进行显示,也可以介由网络发送到外部装置。
评价部255与实施例1同样地,在倒排索引的位图被散列化的情况下,将经散列化的位图复原。
接下来,对本实施例2的评价装置200的处理步骤的一个例子进行说明。图25为表示本实施例2的评价装置生成倒排索引表的处理步骤的流程图。如图25所示,评价装置200的前处理部252选择未选择的癌症识别信息,从癌症基因组DB241取得对应于所选择的癌症识别信息的密码子序列(步骤S201)。前处理部252将对应于所选择的癌症识别信息的倒排索引初始化(步骤S202)。
前处理部252对密码子序列执行词素解析(步骤S203)。前处理部252在对应于词素的密码子序列包含在蛋白质词典信息243A中的情况下,将词素编码为已知的蛋白质的符号,更新倒排索引(步骤S204)。
前处理部252在对应于词素的密码子序列未包含在蛋白质词典信息243A中的情况下,将词素动态编码,更新倒排索引(步骤S205)。前处理部252在未选择所有词素的情况下(步骤S206,No),移至步骤S204。
前处理部252在选择了所有的词素的情况下(步骤S206,Yes),将倒排索引登记于倒排索引表242(步骤S207)。前处理部252在未选择所有的癌症识别信息的情况下(步骤S208,No),移至步骤S201。前处理部252在选择了所有的癌症识别信息的情况下(步骤S208,Yes),结束生成倒排索引表242的处理。
图26和图27为表示评价装置所执行的评价处理的处理步骤的流程图。对图26进行说明。该评价装置200的取得部251取得评价对象基因组数据30,并登记于存储部240(步骤S301)。
评价装置200的生成部253使评价对象基因组数据30产生突变而生成突变基因组数据30A(30B),并登记于突变基因组数据表147(步骤S302)。
评价装置200的评价部255基于基准数据144和突变基因组数据30A(30B)确定基准密码子(步骤S303)。评价装置200基于突变基因组数据30A(30B)执行词素解析(步骤S304)。
评价部255判定包含基准密码子的词素是否满足其为未知蛋白质且该未知蛋白质登记于动态词典信息243B这样的条件(步骤S305)。评价部255在不满足条件的情况下(步骤S306,No),评价为没有类似的癌症基因组(步骤S307)。
另一方面,在满足条件的情况下(步骤S306,Yes),评价装置200的确定部254确定基准蛋白质序列(步骤S308),移至图27的步骤S309。
移至图27的说明。评价部255选择未选择的癌症识别信息(步骤S309)。评价部255基于所选择的癌症识别信息的倒排索引和基准蛋白质序列算出类似度(步骤S310)。评价部255使所选择的癌症识别信息与类似度相对应,并登记于癌症基因组DB241(步骤S311)。
评价部255在未选择所有的癌症识别信息的情况下(步骤S312,No)移至步骤S309。评价部255按照类似度的降序将各癌症识别信息排序(步骤S313)。
评价部255将对应于上位的癌症识别信息的癌症基因组的蛋白质序列登记于列表数据244(步骤S314)。评价部255将列表数据244输出到显示部230进行显示(步骤S315)。
接下来,对本实施例2的评价装置200的效果进行说明。评价装置200通过使评价对象基因组数据30的变异对象密码子产生突变而生成突变基因组数据30A(30B)。评价装置200将以突变基因组数据30A(30B)的基准基因组为起点的基准蛋白质序列与癌症基因组的蛋白质序列进行比较,确定连续且一致的蛋白质的长度(类似度)。评价装置200将连续且一致的蛋白质的长度达到最大的癌症基因组评价为评价对象基因组数据30癌化时的癌症基因组。
如此,在评价装置200中,将产生突变的密码子固定于变异对象密码子,因此,能够抑制新生成的基因组数据的变化的数量。另外,通过将与癌症基因组比较的蛋白质序列缩减至包含基准密码子的基准蛋白质序列,能够削减比较的试验次数,能够使评价高速化。另外,能够以蛋白质的粒度进行与癌特有的蛋白质序列的类似度的评价。
接下来,对实现与本实施例所示的评价装置200(100)同样的功能的计算机的硬件构成的一个例子进行说明。图28为表示实现与本实施例的评价装置同样的功能的计算机的硬件构成的一个例子的图。
如图28所示,计算机300具有执行各种运算处理的CPU301、接收来自用户的的数据的输入的输入装置302以及显示器303。另外,计算机300具有从存储介质读取程序等的读取装置304以及介由有线或无线网络在与外部装置等之间进行数据的授受的接口装置305。计算机300具有暂时存储各种信息的RAM306以及硬盘装置307。而且,各装置301~307与总线308连接。
硬盘装置307具有取得程序307a、前处理程序307b、生成程序307c、确定程序307d、评价程序307e。CPU301读出取得程序307a、前处理程序307b、生成程序307c、确定程序307d、评价程序307e并在RAM306中展开。
取得程序307a作为取得进程306a发挥作用。前处理程序307b作为前处理进程306b发挥作用。生成程序307c作为生成进程306c发挥作用。确定程序307d作为确定进程306d发挥作用。评价程序307e作为评价进程306e发挥作用。
取得流程306a的处理对应于取得部151、251的处理。前处理流程306b的处理对应于前处理部152、252的处理。生成流程306c的处理对应于生成部153、253的处理。确定流程306d的处理对应于确定部154、254的处理。评价流程306e的处理对应于评价部155、255的处理。
应予说明,对于各程序307a~307e,可以未必从最初开始就存储在硬盘装置307中。例如,可以将各程序存储在可插入到计算机300中的软盘(FD)、CD-ROM、DVD光盘、磁光盘、IC卡等“可携带的物理介质”中。而且,计算机300可以读出并执行各程序307a~307e。
符号说明
10 基准基因组数据
30 评价对象基因组数据
100、200 评价装置
120、220 输入部
130、230 显示部
140、240 存储部
141 基因组DB
142、241 癌症基因组DB
143 转换表
144 基准数据
145、242 倒排索引表
147 突变基因组数据表
148、244 列表数据
150、250 控制部
151、251 取得部
152、252 前处理部
153、253 生成部
154、254 确定部
155、255 评价部
243A 蛋白质词典信息
243B 动态词典信息。

Claims (18)

1.一种评价方法,其特征在于,计算机执行如下处理:
取得碱基序列数据,
通过使所取得的所述碱基序列数据中所含的多个碱基的所述碱基序列数据上的位置移位而生成新的碱基序列数据,
确定通过将所生成的所述新的碱基序列数据中所含的多个碱基从所述新的碱基序列数据上的基准位置以规定规则划分而生成的多个部分碱基序列中的包含推测产生了基因变异的碱基的部分碱基序列,
根据所确定的所述部分碱基序列以及所述多个部分碱基序列中的与所确定的所述部分碱基序列具有规定的位置关系的部分碱基序列的排列在通过将规定的碱基序列数据中所含的多个碱基从所述规定的碱基序列数据上的所述基准位置以所述规定规则划分而生成的多个部分碱基序列中出现的出现状况,进行与所取得的所述碱基序列数据相关的评价。
2.根据权利要求1所述的评价方法,其特征在于,生成所述新的碱基序列数据的处理通过在与所取得的所述碱基序列数据上的所述基准位置的部分碱基序列连续的部分碱基序列插入碱基而生成所述新的碱基序列数据。
3.根据权利要求1所述的评价方法,其特征在于,生成所述新的碱基序列数据的处理通过使与所取得的所述碱基序列数据上的所述基准位置的部分碱基序列连续的部分碱基序列的碱基缺失而生成所述新的碱基序列数据。
4.根据权利要求1、2或3所述的评价方法,其特征在于,确定所述多个部分碱基序列的处理确定通过从所述新的碱基序列数据上的基准位置以密码子单位划分而生成的多个部分碱基序列中的包含推测产生了基因变异的密码子的部分碱基序列。
5.根据权利要求1、2或3所述的评价方法,其特征在于,确定所述多个部分碱基序列的处理确定通过从所述新的碱基序列数据上的基准位置以蛋白质单位划分而生成的多个部分碱基序列中的包含推测产生了基因变异的蛋白质的部分碱基序列。
6.根据权利要求1、2或3所述的评价方法,其特征在于,所述进行评价的处理将所述排列与通过将规定的碱基序列数据中所含的多个碱基从所述规定的碱基序列数据上的所述基准位置以所述规定规则划分而生成的多个部分碱基序列进行比较来评价连续且一致的部分碱基序列的数量。
7.一种评价程序,其特征在于,使计算机执行如下处理:
取得碱基序列数据,
通过使所取得的所述碱基序列数据中所含的多个碱基的所述碱基序列数据上的位置移位而生成新的碱基序列数据,
确定通过将所生成的所述新的碱基序列数据中所含的多个碱基从所述新的碱基序列数据上的基准位置以规定规则划分而生成的多个部分碱基序列中的包含推测产生了基因变异的碱基的部分碱基序列,
根据所确定的所述部分碱基序列以及所述多个部分碱基序列中的与所确定的所述部分碱基序列具有规定的位置关系的部分碱基序列的排列在通过将规定的碱基序列数据中所含的多个碱基从所述规定的碱基序列数据上的所述基准位置以所述规定规则划分而生成的多个部分碱基序列中出现的出现状况,进行与所取得的所述碱基序列数据相关的评价。
8.根据权利要求7所述的评价程序,其特征在于,生成所述新的碱基序列数据的处理通过在与所取得的所述碱基序列数据上的所述基准位置的部分碱基序列连续的部分碱基序列插入碱基而生成所述新的碱基序列数据。
9.根据权利要求7所述的评价程序,其特征在于,生成所述新的碱基序列数据的处理通过使与所取得的所述碱基序列数据上的所述基准位置的部分碱基序列连续的部分碱基序列的碱基缺失而生成所述新的碱基序列数据。
10.根据权利要求7、8或9所述的评价程序,其特征在于,确定所述多个部分碱基序列的处理确定通过从所述新的碱基序列数据上的基准位置以密码子单位划分而生成的多个部分碱基序列中的包含推测产生了基因变异的密码子的部分碱基序列。
11.根据权利要求7、8或9所述的评价程序,其特征在于,确定所述多个部分碱基序列的处理确定通过从所述新的碱基序列数据上的基准位置以蛋白质单位划分而生成的多个部分碱基序列中的包含推测产生了基因变异的蛋白质的部分碱基序列。
12.根据权利要求7、8或9所述的评价程序,其特征在于,所述进行评价的处理将所述排列与通过将规定的碱基序列数据中所含的多个碱基从所述规定的碱基序列数据上的所述基准位置以所述规定规则划分而生成的多个部分碱基序列进行比较来评价连续且一致的部分碱基序列的数量。
13.一种评价装置,其特征在于,具有:
取得部,取得碱基序列数据,
生成部,通过使所取得的所述碱基序列数据中所含的多个碱基的所述碱基序列数据上的位置移位而生成新的碱基序列数据,
确定部,确定通过将所生成的所述新的碱基序列数据中所含的多个碱基从所述新的碱基序列数据上的基准位置以规定规则划分从而生成的多个部分碱基序列中的包含推测产生了基因变异的碱基的部分碱基序列,
评价部,根据所确定的所述部分碱基序列以及所述多个部分碱基序列中的与所确定的所述部分碱基序列具有规定的位置关系的部分碱基序列的排列在通过将规定的碱基序列数据中所含的多个碱基从所述规定的碱基序列数据上的所述基准位置以所述规定规则划分而生成的多个部分碱基序列中出现的出现状况,进行与所取得的所述碱基序列数据相关的评价。
14.根据权利要求13所述的评价装置,其特征在于,所述生成部通过在与所取得的所述碱基序列数据上的所述基准位置的部分碱基序列连续的部分碱基序列插入碱基而生成所述新的碱基序列数据。
15.根据权利要求13所述的评价装置,其特征在于,所述生成部通过使与所取得的所述碱基序列数据上的所述基准位置的部分碱基序列连续的部分碱基序列的碱基缺失而生成所述新的碱基序列数据。
16.根据权利要求13、14或15所述的评价装置,其特征在于,所述确定部确定通过从所述新的碱基序列数据上的基准位置以密码子单位划分而生成的多个部分碱基序列中的包含推测产生了基因变异的密码子的部分碱基序列。
17.根据权利要求13、14或15所述的评价装置,其特征在于,所述确定部确定通过从所述新的碱基序列数据上的基准位置以蛋白质单位划分而生成的多个部分碱基序列中的包含推测产生了基因变异的蛋白质的部分碱基序列。
18.根据权利要求13、14或15所述的评价装置,其特征在于,所述评价部将所述排列与通过将规定的碱基序列数据中所含的多个碱基从所述规定的碱基序列数据上的所述基准位置以所述规定规则划分而生成的多个部分碱基序列进行比较来评价连续且一致的部分碱基序列的数量。
CN201980096262.3A 2019-05-13 2019-05-13 评价方法、评价程序和评价装置 Pending CN113811949A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/018965 WO2020230240A1 (ja) 2019-05-13 2019-05-13 評価方法、評価プログラムおよび評価装置

Publications (1)

Publication Number Publication Date
CN113811949A true CN113811949A (zh) 2021-12-17

Family

ID=73289840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980096262.3A Pending CN113811949A (zh) 2019-05-13 2019-05-13 评价方法、评价程序和评价装置

Country Status (6)

Country Link
US (1) US20220068435A1 (zh)
EP (1) EP3971903A4 (zh)
JP (1) JP7188573B2 (zh)
CN (1) CN113811949A (zh)
AU (1) AU2019445845B2 (zh)
WO (1) WO2020230240A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022224336A1 (ja) 2021-04-20 2022-10-27 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099436A (ja) * 2001-09-20 2003-04-04 Pharma Design Inc cSNP情報提供データベースシステム、プログラム及び記録媒体
US20030194724A1 (en) * 2002-04-10 2003-10-16 Sorenson Jon M Mutation detection and identification
JP2004139254A (ja) * 2002-10-16 2004-05-13 Nec Soft Ltd 近傍遺伝子情報検索装置及び方法
CN103339632A (zh) * 2011-01-11 2013-10-02 日本软件管理株式会社 核酸信息处理装置及其处理方法
WO2014119914A1 (ko) * 2013-02-01 2014-08-07 에스케이텔레콤 주식회사 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
JP2016077227A (ja) * 2014-10-17 2016-05-16 国立大学法人大阪大学 ゲノム解析装置、ゲノム解析方法及びゲノム解析プログラム
CN109722470A (zh) * 2017-10-27 2019-05-07 希森美康株式会社 品质评价方法、装置、程序、记录介质、及品质管理试样

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004261179A (ja) * 2003-02-14 2004-09-24 Research Association For Biotechnology 新規タンパク質およびそれをコードするdna
JP2004357702A (ja) 2003-05-09 2004-12-24 Research Association For Biotechnology 新規蛋白質およびそれをコードするdna
US8005621B2 (en) 2004-09-13 2011-08-23 Agency For Science Technology And Research Transcript mapping method
JP5672596B2 (ja) 2010-02-23 2015-02-18 独立行政法人産業技術総合研究所 立体配座相同性評価装置及び評価方法並びに構造パターン解析装置及び解析方法
EP2614161B1 (en) * 2010-09-09 2020-11-04 Fabric Genomics, Inc. Variant annotation, analysis and selection tool
JP7124877B2 (ja) * 2018-09-07 2022-08-24 富士通株式会社 特定方法、特定プログラムおよび情報処理装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099436A (ja) * 2001-09-20 2003-04-04 Pharma Design Inc cSNP情報提供データベースシステム、プログラム及び記録媒体
US20030194724A1 (en) * 2002-04-10 2003-10-16 Sorenson Jon M Mutation detection and identification
JP2004139254A (ja) * 2002-10-16 2004-05-13 Nec Soft Ltd 近傍遺伝子情報検索装置及び方法
CN103339632A (zh) * 2011-01-11 2013-10-02 日本软件管理株式会社 核酸信息处理装置及其处理方法
WO2014119914A1 (ko) * 2013-02-01 2014-08-07 에스케이텔레콤 주식회사 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
JP2016077227A (ja) * 2014-10-17 2016-05-16 国立大学法人大阪大学 ゲノム解析装置、ゲノム解析方法及びゲノム解析プログラム
CN109722470A (zh) * 2017-10-27 2019-05-07 希森美康株式会社 品质评价方法、装置、程序、记录介质、及品质管理试样

Also Published As

Publication number Publication date
AU2019445845A1 (en) 2021-12-09
AU2019445845B2 (en) 2023-04-27
WO2020230240A1 (ja) 2020-11-19
US20220068435A1 (en) 2022-03-03
JPWO2020230240A1 (ja) 2021-12-16
JP7188573B2 (ja) 2022-12-13
EP3971903A1 (en) 2022-03-23
EP3971903A4 (en) 2022-06-08

Similar Documents

Publication Publication Date Title
Chatzou et al. Multiple sequence alignment modeling: methods and applications
EP3025156A2 (en) Method and system for rapid searching of genomic data and uses thereof
Werner The state of the art of mammalian promoter recognition
Di Francesco et al. FORESST: fold recognition from secondary structure predictions of proteins.
AU2018440274B2 (en) Identification method, identification program, and information processing device
CN113811949A (zh) 评价方法、评价程序和评价装置
Wan et al. Discovering simple regions in biological sequences associated with scoring schemes
Zhao et al. Multitrans: an algorithm for path extraction through mixed integer linear programming for transcriptome assembly
JP7367754B2 (ja) 特定方法および情報処理装置
Deorowicz et al. Kalign-LCS—a more accurate and faster variant of Kalign2 algorithm for the multiple sequence alignment problem
MXPA05010276A (es) Perfil genomico de sitios de enlace al factor regulador.
Baxevanis et al. Assessing pairwise sequence similarity: BLAST and FASTA
Gambin et al. Contextual alignment of biological sequences
Bachinsky et al. PROF_ PAT 1.3: Updated database of patterns used to detect local similarities
JP7342972B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
US20240071568A1 (en) Storage medium, information processing method, and information processing apparatus
JP7287005B2 (ja) 特定方法、特定プログラムおよび特定装置
Park et al. Sequence search algorithm assessment and testing toolkit (SAT)
Yu et al. A new algorithm for DNA motif discovery using multiple sample sequence sets
WO2008129459A2 (en) A method for visualizing a dna sequence
Weinel et al. PseuRECA: genome annotation and gene context analysis for Pseudomonas aeruginosa PAO1
Moriya et al. Automatic generation of KEGG OC (Ortholog Cluster) and its assignment to draft genomes
Yang et al. Homology prediction refinement and reconstruction of gene content and order of ancestral bacterial genomes
Singh et al. Micro-repetitive structure of genomic sequences and the identification of ancient repeat elements
Prohaska et al. Phylogenetic footprint patterns in large gene clusters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination