JP3431135B2 - 遺伝子の類縁性検索方法および遺伝子の類縁性検索システム - Google Patents

遺伝子の類縁性検索方法および遺伝子の類縁性検索システム

Info

Publication number
JP3431135B2
JP3431135B2 JP2000215134A JP2000215134A JP3431135B2 JP 3431135 B2 JP3431135 B2 JP 3431135B2 JP 2000215134 A JP2000215134 A JP 2000215134A JP 2000215134 A JP2000215134 A JP 2000215134A JP 3431135 B2 JP3431135 B2 JP 3431135B2
Authority
JP
Japan
Prior art keywords
data
base sequence
restriction enzyme
sequence
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000215134A
Other languages
English (en)
Other versions
JP2002032377A (ja
Inventor
克二 渡邊
充 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Agricultural Research Organization
Original Assignee
National Agricultural Research Organization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Agricultural Research Organization filed Critical National Agricultural Research Organization
Priority to JP2000215134A priority Critical patent/JP3431135B2/ja
Priority to US09/900,876 priority patent/US7006924B2/en
Publication of JP2002032377A publication Critical patent/JP2002032377A/ja
Application granted granted Critical
Publication of JP3431135B2 publication Critical patent/JP3431135B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、塩基配列類縁性
検索方法および塩基配列類縁性検索システムに関する。
特に、制限酵素による切断片の切断片長データを基にし
た塩基配列類縁性検索方法および塩基配列類縁性検索シ
ステムに関する。
【0002】
【従来の技術】試料として与えられたDNA(deoxyrib
onucleic acid,デオキシリボ核酸)分子内の塩基配列を
同定するために、その試料を分析することによって全塩
基配列を出力するシーケンサ装置が広く用いられてい
る。
【0003】また、制限酵素を用いてDNA分子を切断
し、切断片の長さを基に塩基配列を推定する方法もあ
る。
【0004】
【発明が解決しようとする課題】しかしながら、上記シ
ーケンサ装置は高価であり、より安価に塩基配列を特定
できる手段が求められている。
【0005】また、制限酵素による切断片の長さを基に
塩基配列を推定する方法は、様々な制限酵素によって得
られる長さデータを用いて、既知の塩基配列とのパター
ンマッチングを行う手間が膨大であり、効率的なデータ
処理が課題となっている。
【0006】本発明は、上記事情に鑑みてなされたもの
であり、制限酵素による切断片長の実測データを基に、
効率的に既知の塩基配列との類縁性を解析するための塩
基配列類縁性検索方法および塩基配列類縁性検索システ
ムを提供することを目的とする。
【0007】
【課題を解決するための手段】上記の課題を解決するた
めに、本発明による塩基配列類縁性検索システムは、制
限酵素の種別と当該制限酵素が切断する切断箇所の塩基
配列パターンと当該塩基配列パターン内における切断位
置とが関連付けられて保持されている制限酵素データ
と、既知遺伝子の種別と当該既知遺伝子の塩基配列とが
関連付けられて保持されている塩基配列データとを基
に、当該既知遺伝子を当該制限酵素で切断したときの切
断長理論値を計算して、既知遺伝子の種別と制限酵素の
種別と当該既知遺伝子を当該制限酵素で切断したときの
切断長理論値とが関連付けられて保持された切断長理論
値データとして出力する理論値計算部と、前記切断長理
論値データと、制限酵素の種別と当該制限酵素を用いて
試料を切断して測定した結果得られた切断長実測値とが
関連付けられて保持されている切断長実測値データとを
比較することにより、当該既知遺伝子と当該試料との類
似度を算出して解析結果データとして出力する比較部と
を備えることを特徴とする。
【0008】また、本発明による塩基配列類縁性検索シ
ステムは、前記解析結果データを基に、相互に類似度の
高い試料同士または相互に類似度の高い既知遺伝子と試
料とを関連付けて図形的に表示する表示部を備えること
を特徴とする。
【0009】また、本発明による塩基配列類縁性検索シ
ステムは、前記表示部が、樹形図により、相互に類似度
の高い試料同士または相互に類似度の高い既知遺伝子と
試料とを関連付けて表示することを特徴とする。
【0010】また、本発明による塩基配列類縁性検索シ
ステムは、前記比較部が、前記切断長理論値データと前
記切断長実測値データとを基に、非加重結合法を用いる
ことにより前記類似度を算出することを特徴とする。
【0011】また、本発明による塩基配列類縁性検索シ
ステムは、プライマによって増幅される前の既知遺伝子
の塩基配列が保持されている増幅前塩基配列データを読
み込み、当該プライマの塩基配列パターンを表すプライ
マデータを基に、当該既知遺伝子を当該プライマで増幅
した後の増幅後塩基配列データを生成する増幅配列認識
部を備え、前記理論値計算部は、この増幅後塩基配列デ
ータを基に前記切断長理論値を計算することを特徴とす
る。なお、ここで「増幅」とは、所定の上流プライマあ
るいは下流プライマまたはこれら両者を用いて、塩基配
列の、始端から当該上流プライマ固有の塩基配列パター
ンの箇所までと当該下流プライマ固有の塩基配列パター
ンの箇所から終端までを切断し、残りの塩基配列の部分
のみを抽出することを言う。
【0012】また、本発明による塩基配列類縁性検索方
法は、制限酵素の種別と当該制限酵素が切断する切断箇
所の塩基配列パターンと当該塩基配列パターン内におけ
る切断位置とが関連付けられて保持されている制限酵素
データと、既知遺伝子の種別と当該既知遺伝子の塩基配
列とが関連付けられて保持されている塩基配列データと
を基に、当該既知遺伝子を当該制限酵素で切断したとき
の切断長理論値を計算して、既知遺伝子の種別と制限酵
素の種別と当該既知遺伝子を当該制限酵素で切断したと
きの切断長理論値とが関連付けられて保持された切断長
理論値データを出力する理論値計算過程と、前記切断長
理論値データと、制限酵素の種別と当該制限酵素を用い
て試料を切断して測定した結果得られた切断長実測値と
が関連付けられて保持されている切断長実測値データと
を比較することにより、当該既知遺伝子と当該試料との
類似度を算出して解析結果データとして出力する比較過
程とを有することを特徴とする。
【0013】また、本発明による塩基配列類縁性検索方
法は、前記解析結果データを基に、相互に類似度の高い
試料同士または相互に類似度の高い既知遺伝子と試料と
を関連付けて図形的に表示する表示過程を有することを
特徴とする。
【0014】また、本発明による塩基配列類縁性検索方
法は、前記表示過程では、樹形図により、相互に類似度
の高い試料同士または相互に類似度の高い既知遺伝子と
試料とを関連付けて表示することを特徴とする。
【0015】また、本発明による塩基配列類縁性検索方
法は、前記比較過程では、前記切断長理論値データと前
記切断長実測値データとを基に、非加重結合法を用いる
ことにより前記類似度を算出することを特徴とする。
【0016】また、本発明による塩基配列類縁性検索方
法は、プライマによって増幅される前の既知遺伝子の塩
基配列が保持されている増幅前塩基配列データを読み込
み、当該プライマの塩基配列パターンを表すプライマデ
ータを基に、当該既知遺伝子を当該プライマで増幅した
後の増幅後塩基配列データを生成する増幅配列認識過程
を有し、前記理論値計算過程では、この増幅後塩基配列
データを基に前記切断長理論値を計算することを特徴と
する。
【0017】また、本発明は、制限酵素の種別と当該制
限酵素が切断する切断箇所の塩基配列パターンと当該塩
基配列パターン内における切断位置とが関連付けられて
保持されている制限酵素データと、既知遺伝子の種別と
当該既知遺伝子の塩基配列とが関連付けられて保持され
ている塩基配列データとを基に、当該既知遺伝子を当該
制限酵素で切断したときの切断長理論値を計算して、既
知遺伝子の種別と制限酵素の種別と当該既知遺伝子を当
該制限酵素で切断したときの切断長理論値とが関連付け
られて保持された切断長理論値データを出力する理論値
計算過程と、前記切断長理論値データと、制限酵素の種
別と当該制限酵素を用いて試料を切断して測定した結果
得られた切断長実測値とが関連付けられて保持されてい
る切断長実測値データとを比較することにより、当該既
知遺伝子と当該試料との類似度を算出して解析結果デー
タとして出力する比較過程との処理をコンピュータに実
行させるコンピュータプログラムを記録したコンピュー
タ読取り可能な記録媒体を要旨とする。
【0018】また、本発明によるコンピュータ読取り可
能な記録媒体は、前記解析結果データを基に、相互に類
似度の高い試料同士または相互に類似度の高い既知遺伝
子と試料とを関連付けて図形的に表示する表示過程の処
理をコンピュータに実行させるコンピュータプログラム
を記録したことを特徴とする。
【0019】また、本発明によるコンピュータ読取り可
能な記録媒体は、前記表示過程では、樹形図により、相
互に類似度の高い試料同士または相互に類似度の高い既
知遺伝子と試料とを関連付けて表示することを特徴とす
るものである。
【0020】また、本発明によるコンピュータ読取り可
能な記録媒体は、前記比較過程では、前記切断長理論値
データと前記切断長実測値データとを基に、非加重結合
法を用いることにより前記類似度を算出することを特徴
とするものである。
【0021】また、本発明によるコンピュータ読取り可
能な記録媒体は、プライマによって増幅される前の既知
遺伝子の塩基配列が保持されている増幅前塩基配列デー
タを読み込み、当該プライマの塩基配列パターンを表す
プライマデータを基に、当該既知遺伝子を当該プライマ
で増幅した後の増幅後塩基配列データを生成する増幅配
列認識過程の処理をコンピュータに実行させるコンピュ
ータプログラムが記録されており、前記理論値計算過程
では、この増幅後塩基配列データを基に前記切断長理論
値を計算することを特徴とするものである。
【0022】
【発明の実施の形態】以下、図面を参照しこの発明の一
実施形態について説明する。
【0023】図1は、この発明の一実施形態による塩基
配列解析システム(遺伝子の類縁性検索システム)の構
成を示すブロック図である。図1において、符号21
は、制限酵素の種別と当該制限酵素が切断する切断箇所
の塩基配列パターンと当該塩基配列パターン内における
切断位置とが関連付けられて保持されている制限酵素デ
ータである。また、22bは、既知遺伝子の種別と当該
既知遺伝子の塩基配列とが関連付けられて保持されてい
る増幅後塩基配列データ(塩基配列データ)である。な
お、この増幅後塩基配列データ22bは、一般に公開さ
れている遺伝子データを手作業等の何らかの方法によっ
て編集することにより得られる。なお、増幅前の塩基配
列データを基に自動的に増幅後塩基配列データ22bを
生成する方法は、後の第二実施形態において説明する。
【0024】11は、制限酵素データ21と増幅後塩基
配列データ22bとを基に既知遺伝子を制限酵素で切断
したときの切断長理論値を計算して、切断長理論値デー
タ23を出力する理論値計算部である。理論値計算部1
1によって出力される切断長理論値データ23では、既
知遺伝子の種別と制限酵素の種別と当該既知遺伝子を当
該制限酵素で切断したときの切断長理論値とが関連付け
られて保持されている。また、13は、この切断長理論
値データ23と、実測値入力部12から入力された切断
長実測値データ25とを比較することにより既知遺伝子
と試料との類似度を算出して解析結果データ27として
出力する比較部である。なお、この切断長実測値データ
25では、制限酵素の種別と当該制限酵素を用いて試料
を切断して測定した結果得られた切断長実測値とが関連
付けられて保持されている。
【0025】14はデータの比較の際の許容誤差を設定
する許容誤差設定部であり、許容誤差設定部によって設
定された値は許容誤差データ29として保持されてい
る。比較部13は、この許容誤差データ29を参照し
て、切断長理論値データ23と切断長実測値データ25
とを比較する際には、許容誤差範囲内の相違は一致して
いるものとして扱う。なお、比較部13による具体的な
比較方法および許容誤差の適用方法については後に詳述
する。
【0026】そして、15は、比較部13によって出力
された解析結果データ27を基に、相互に類似度の高い
試料同士または相互に類似度の高い既知遺伝子と試料と
を関連付けて図形的に表示する表示部である。表示部1
5による具体的な表示方法については、後で説明する。
【0027】次に、切断長理論値の計算の基となる増幅
後塩基配列データ22bの詳細について説明する。図2
は増幅後塩基配列データ22b(塩基配列データ)の前
半部分を示す図であり、配列番号1は同データの後半部
分を示す図である(図3参照)。これらの図に示すよう
に増幅後塩基配列データ22bはテキスト形式のデータ
であり、図2に示す前半部分には、下線を付したDNA
番号(ACCESSION )と細菌名(ORGANISM)と遺伝子名
(KEYWORDS)とが少なくとも含まれている。また、図3
の後半部分には、塩基配列(ORIGIN)が含まれている。
この塩基配列のデータ内の文字「a」はアデニン(aden
ine )を、「g」はグアニン(guanine )を、「c」は
シトシン(cytosine)を、「t」はチミン(thymine )
をそれぞれ表している。
【0028】次に制限酵素データ21の詳細について説
明する。図4は、制限酵素データ21のデータ構造およ
びデータ例を示す表図である。図4に示すように、制限
酵素データ21は、表形式のデータであり、制限酵素番
号と制限酵素名と切断箇所と切断位置の列を持ってい
る。制限酵素番号は、制限酵素の識別のために本システ
ムによって与えられた番号である。また、切断箇所は制
限酵素が切断する箇所の塩基配列パターンを表し、切断
位置はこの塩基配列パターン内における切断位置の変位
を表す。例えば、図4に示す制限酵素番号12のSma
Iは、DNA分子の塩基配列中の「・・・cccggg
・・・」にマッチする箇所の変位3の位置に作用して、
「・・・ccc」と「ggg・・・」に切断する。
【0029】図5は、理論値計算部11に対して切断長
理論値計算を指示する利用者インタフェース例を示す画
面図である。この画面内には、存在している塩基配列フ
ァイル(増幅後塩基配列データ22b)と制限酵素デー
タ21内の制限酵素名とがそれぞれリスト表示されてい
る。利用者がこれらのリストの中からそれぞれ選択して
画面下部の「切断長計算」ボタンを押すことにより、理
論値計算部11は選択されたデータを基に切断片長の理
論値を計算する。
【0030】理論値計算部11による計算の手順は次の
とおりである。すなわち、選択された制限酵素の切断箇
所と切断位置のデータを制限酵素データ21から読み取
り、この切断箇所の塩基配列パターンとマッチする部分
を選択された増幅後塩基配列データ22bの塩基配列
(ORIGIN)内で検索する。切断箇所が見つかれば、始端
からあるいは前回切断位置から今回切断位置までの塩基
配列数を切断長理論値データ23に出力し、さらに検索
を繰り返す。終端まで到達すれば、始端からあるいは前
回切断位置から終端までの塩基配列数を切断長理論値デ
ータ23に出力する。
【0031】図6は、切断長理論値データ23のデータ
構造およびデータ例を示す表図である。図6に示すよう
に、切断長理論値データ23は、DNA番号、数値区
分、細菌名、遺伝子名、制限酵素番号切断長の列を有す
る。また切断長理論値データ23の各行は、DNA毎
(DNA番号により識別)かつ制限酵素毎(制限酵素番
号により識別)かつ切断長毎に存在する。ただし、切断
片を識別するデータを列として加えて、同一DNAの同
一制限酵素による同一切断長を有する切断片を区別する
ようにしても良い。
【0032】これらの列のうち、DNA番号と細菌名と
遺伝子名の値は、理論値計算部16によって増幅後塩基
配列データ22bから読み取られ出力されたものであ
る。また、制限酵素番号の値は、同じく制限酵素データ
21から読み取られ出力されたものである。また、切断
長の値は理論値計算部11によって前記手順で算出され
たものである。なお、数値区分は理論値か実測値かの区
分を示すデータであり「1」は理論値であることを表し
ている。
【0033】次に、切断長実測値データ25の詳細につ
いて説明する。切断長を実測するため、塩基配列の特定
の対象となる試料は、予めプライマによって増幅されて
から、制限酵素の適用によって切断される。このように
して作られた切断片の長さの測定は従来技術によって可
能であり、例えば電気泳動によって得られる画像を数値
化することにより行う。より具体的には、例えば、アガ
ロースゲル電気泳動により切断片長分布を画像として得
るようにする。
【0034】上記のような方法で実測された切断長は、
実測値入力部12から入力される。図7は、実測値入力
部12の利用者インタフェース例を示す画面図である。
図7に示す画面では、利用者は、試料を識別するための
DNA番号を入力し、制限酵素データ21を基に表示さ
れる制限酵素のリストから1つを選択し、実測結果の切
断長を入力することができる。また、複数の試料をグル
ーピングして付与したグループ名を入力することもでき
る。
【0035】図8は、切断長実測値データ25のデータ
構造およびデータ例を示す表図である。切断長実測値デ
ータは、図8に示すように表形式のデータであり、DN
A番号、数値区分、グループ名、制限酵素番号、切断長
の列を有する。また切断長実測値データ25の各行は、
試料毎(DNA番号により識別)かつ制限酵素毎(制限
酵素番号により識別)かつ切断長毎に存在する。なお、
数値区分は理論値か実測値かの区分を示すデータであり
「2」は実測値であることを表している。
【0036】次に、比較部13が理論値と実測値との比
較を行い両者の類縁性を分析する方法について説明す
る。本実施形態においては、比較部13は、非加重結合
法(UPGMA)を用いることによって、解析結果デー
タ27を生成する。
【0037】図9は、比較部13による塩基配列のクラ
スタリングの基となる切断片長のバンド分布を表す参考
図である。図9において、AとBとCは、それぞれDN
A番号によって識別される塩基配列の理論値または実測
値の切断長分布である。このバンド分布は、電気泳動に
よって得られる画像パターンと同様のものであり、縦方
向が切断長の次元である。また図9では、実測値データ
だけでなく理論値データについても、得られるはずの仮
想的な電気泳動パターンを示している。
【0038】比較部13は、これらの実測値データおよ
び理論値データを読み込み、2つのDNA番号で与えら
れるデータ間の類似度を算出する。AとBの間の類似度
S(A,B)の定義は、次式で与えられる。
【0039】
【数1】
【0040】例えば、図9に示すAとBでは、塩基配列
Aには1,2,4,5,8の5本のバンドがあり、塩基
配列Bには1,3,4,5,7,8の6本のバンドがあ
る。従ってAとBに共通するバンドは、AおよびBそれ
ぞれに1,4,5,8の4本であり、両方をたすと共通
するバンドは合計8本である。従って、
【数2】 であり、類似度は8/11(約0.727)と算出され
る。
【0041】ただし、実測値データは誤差を含むため、
共通のバンドであるかどうかの判定にあたっては、比較
部13は許容誤差データ29を用いることとする。つま
り、設定された許容誤差範囲内であれば共通のバンドと
して扱う。なお、設定される許容誤差が小さすぎると、
本来マッチすべき切断長実測値と切断長理論値とがうま
くマッチしないという問題が起こる。また逆に、設定さ
れる許容誤差が大きすぎると、切断長実測値が本来マッ
チすべきでない切断長理論値とマッチしてしまい、マッ
チングの精度が悪くなるという問題が起こる。従ってこ
れらの問題が起こらないように適切な許容誤差を設定す
る必要があり、例えば、10%程度の許容誤差を設定す
るようにする。
【0042】次に、比較部13は、算出した類似度を基
に塩基配列のクラスタ分析を行う。図10は、比較部1
3が塩基配列間の類似度を基に平均距離法を用いてクラ
スタ分析を行う過程の例を示す表図であり、この図に示
す例ではA,B,C,Dの4つの塩基配列を分析対象と
している。図10(a)は、算出されたA,B,C,D
相互間の類似度を示している。図10(a)の表の中で
最も高い類似度を持っているのはAとC(類似度0.
8)であるため、これらをまとめて(A+C)のクラス
タとして次のステップに進む。
【0043】図10(b)は、図10(a)のAおよび
Cを単一のクラスタ(A+C)で置き換えたときの類似
度を示している。ここで、塩基配列Bとクラスタ(A+
C)との類似度S(B,A+C)は、S(B,A)とS
(B,C)との平均により0.6であり、塩基配列Dと
クラスタ(A+C)との類似度S(D,A+C)は、S
(D,A)とS(D,C)との平均により0.2となっ
ている。そして、この表の中で最も高い類似度を持って
いるのは(A+C)とBであるため、これらをまとめて
((A+C)+B)のクラスタとして次のステップに進
む。
【0044】図10(c)は、図10(b)の(A+
C)およびBを単一のクラスタ((A+C)+B)で置
き換えたときの類似度を示している。ここで、クラスタ
((A+C)+B)と塩基配列Dとの類似度S(D,
(A+C)+B)は、S(D,A+C)とS(D,B)
との平均により0.3となっている。
【0045】図11は、上に説明した非加重結合法によ
る解析結果データを、木構造を用いて図形として表した
参考図である。図11において、木のノード部分に付記
された数値は、そのノードに従属する終端ノード(塩基
配列を表す)あるいは非終端ノード(クラスタを表す)
間の類似度を表している。例えば、塩基配列Bとクラス
タ(A+C)との類似度は0.6である。
【0046】表示部15は、解析結果データ27を読み
込み、与えられた試料と類似度の高い既知遺伝子とを関
連付けて図形的に表示する。図12は、表示部15によ
って樹形図として表示されている解析結果の例を示す画
面図である。図12の例では、複数の試料DNA(AP
1,AP2,AP3)と複数の既知遺伝子とのクラスタ
分析の結果が示されている。
【0047】次に、本発明の第二実施形態について説明
する。この第二実施形態は、増幅前の塩基配列を表すデ
ータ内において、プライマよって増幅される塩基配列部
分を自動的に認識して抽出する機能を有することを特徴
とする。図13は、この第二実施形態による塩基配列解
析システムの構成を示すブロック図である。図13にお
いて、符号22aはプライマによって増幅される前の既
知遺伝子の塩基配列が保持されている増幅前塩基配列デ
ータであり、31は増幅前塩基配列データ22aを読み
込み、当該プライマの塩基配列パターンを表すプライマ
データを基に、当該既知遺伝子を当該プライマで増幅し
た後の増幅後塩基配列データ22bを生成する増幅配列
認識部である。
【0048】図14は増幅配列認識部31への入力デー
タとなる増幅前塩基配列データ22aの前半部分を示
し、また、配列番号2は同データ22aの後半部分を示
している(図15参照)。図示するように、増幅前塩基
配列データ22aは増幅後塩基配列データ22bと同様
のテキスト形式のデータである。図3および図15は、
同一の遺伝子(ACCESSION="M59070", KEYWORDS="16S ri
bosomal RNA." )のものであるが、増幅後の塩基配列
(ORIGIN)は、増幅前の塩基配列(ORIGIN)の23番目
の文字から1031番目の文字までの部分列であり、そ
の長さは1009となっている。
【0049】図16は、増幅配列認識部31による認識
のためのプライマ配列の入力画面を示す画面図である。
この画面では、上流プライマおよび下流プライマそれぞ
れについて、利用者がその配列と名前とミスマッチの許
容限界を入力できるようになっている。図16の例で
は、上流プライマとして「41f」という名前で配列番
号3の「gctcagattgaactcggcg」と
いう配列が入力されており、下流プライマとして「10
66r」という名前で配列番号4の「acatttca
caacacgagctg」という配列が入力されてい
る。そして、入力されたこれらの塩基配列パターンはプ
ライマデータとして増幅配列認識部31によって利用さ
れる。
【0050】増幅配列認識部31は、増幅前塩基配列デ
ータ22aを読み込み、その塩基配列(ORIGIN)を、始
端から順に走査する。そして、上流プライマおよび下流
プライマそれぞれについて、ミスマッチの許容限界とし
て指定された数値範囲内でマッチする箇所を探し出す。
そしてその箇所よりも上流および下流をそれぞれ切断
し、残った塩基配列を増幅後塩基配列データ22bの塩
基配列(ORIGIN)として出力する。
【0051】上述の遺伝子の類縁性検索システムはコン
ピュータシステムを用いて実現されている。そして、上
述した理論値計算部、実測値入力部、比較部、許容誤差
設定部、表示部の各々の処理の過程は、コンピュータプ
ログラムの形式でコンピュータ読み取り可能な記録媒体
に記憶されており、このコンピュータプログラムをコン
ピュータが読み出して実行することによって、上記処理
が行われる。ここでコンピュータ読み取り可能な記録媒
体とは、フロッピー(登録商標)ディスク、光磁気ディ
スク、CD−ROM、DVD−ROM、磁気ハードディ
スク、半導体メモリ等をいう。
【0052】なお、この遺伝子の類縁性検索システムを
実現するためのコンピュータシステムとしては、パーソ
ナルコンピュータやワークステーションなどの汎用のコ
ンピュータを用いることが可能である。
【0053】また、遺伝子の類縁性検索システムにおい
て扱うデータの形式は、上記第一および第二実施形態に
おいて記載したものに限定されず、他の形式あるいは表
現のデータを用いても良い。また、上記実施形態で説明
した表形式のデータの一部は非正規形であるが、正規化
しても良い。例えば、図6に示す切断長理論値データに
はDNA番号と細菌名と遺伝子名の列が含まれている
が、この3者の関係を別表に保持するようにしても良
い。
【0054】次に、本発明による遺伝子の類縁性検索シ
ステムを用いて、細菌の分類を行った実例について説明
する。
【0055】生物の分類において最も元となる門(divi
sion)は植物、動物、糸条菌などの真核細胞を有し有性
生殖を行う真核生物と、単細胞である真正細菌(細
菌)、古細菌の3つの門に分類されている。初期の細菌
分類体系では、細菌の細胞形態や生理学的性質、そして
生化学的活性等の基準を基に分類体系が出来上がってき
ていた。複雑で煩雑な操作が要求される菌の同定を容易
に実施できるように、従来技術によるシステムにおいて
は、同定しようとする菌の複数の生理試験結果を自動的
に読み取り、予め登録しデータベース化していた既知菌
株の生理試験結果と比較して類縁性を検索し菌の種名を
推定していた。このような生理学的試験に基づく同定シ
ステムは、医学・臨床分野や、化粧品、食品衛生、品質
管理、環境衛生等の幅広い産業分野で利用されてきてい
る。
【0056】しかしながら、近年は、リボゾームRNA
を分子時計とする系統分類体系が構築され、細菌の16
S rDNAの塩基配列の相違に基づく分類体系に従い分
類体系が再構築されてきている。この理由は有性生殖を
行う真核生物と異なり細胞分裂で増殖する真正細菌、古
細菌では明確な種の概念が設定し難く、リボゾームRN
Aを分子時計とする系統分類体系を基準とすることが定
まったためである。旧来の生理試験結果に基づく同定法
は、必ずしも現在の分類体系を正確に反映させることが
困難であり、リボゾームRNAを分子時計とする系統分
類体系を正確に反映した本例のような簡易分類・同定手
法が必要とされる。
【0057】なお、細菌の名前は属(genus )と種(spe
cies )の二名式命名法で表記されるが、高順位の範疇と
して科(family)、目(class )、綱(division),群
(group )と真正細菌門(division)の下に順次まとめ
られている。
【0058】本例では、次のような実験を行った。試料
AP1〜AP9として、様々な土壌から分離したアルキ
ルフェノール分解菌(九州共立大学、名城大学)を用い
る。また、試料MA1〜MA4として、アルカリ耐性菌
(山口大学)を用いる。そして、定法に従って染色体D
NAを各菌株から抽出し、PCR反応を行い、増幅した
16S rDNAを制限酵素で切断後各切断片の長さを
デンシトグラムで読み取り、実測値切断長として入力し
た。なお、試料MA1と試料MA11とは、同じ菌株の
同じDNAを用いてこれらの操作を別途行ったものであ
る。
【0059】図17は、これらの試料から得られた実測
値同士の類縁性を、本発明による遺伝子の類縁性検索シ
ステムでの解析で検定した結果を示す樹形図である。
【0060】また、図18〜図27は、それぞれ、異な
った試料の菌株から得られた実測値と遺伝子配列データ
を基に得られた理論値との類縁性の検定を行った結果を
示す樹形図である。なお、図18は試料AP1につい
て、図19は試料AP3について、図20は試料AP6
について、図21は試料AP2について、図22は試料
AP5について、図23は試料MA1について、図24
は試料MA11について、図25は試料MA2につい
て、図26は試料MA3について、図27は試料MA4
について、それぞれ上記検定を行った結果を示す。
【0061】上記検定を行ったとき、切断長理論値デー
タ(23)としては、357属、1233種、1503
種類のDNA配列データから作成した理論値データが登
録されていた。この理論値データは、すべて公開されて
いるDNA配列データを基に本発明による遺伝子の類縁
性検索システムによって算出されたものであり、細菌の
種類の分類・同定の基礎とするのに充分なこれほど多種
のデータを安価かつ短時間で作成することができたの
は、本発明を用いたことによる大きな効果である。これ
に対して、例えば、従来技術による生理学的試験に基づ
くある同定キット(市販品)の場合には、数十年にもお
よぶ長い年月をかけてデータを整備することにより、よ
うやく1210種、200属に満たない細菌を同定でき
るようになっているに過ぎない。また、他のある同定キ
ット(市販品)の場合にも、同様に約700菌種を同定
できるようになっているに過ぎない。これらの従来技術
の方法に基づくシステムと比べて、本発明によるシステ
ムは、今後新たに追加されるDNA配列データも含め
て、公開データを基に極めて安価かつ短時間でデータを
増やすことができるという利点を持っている。
【0062】前記検定結果によると、試料MA1および
試料MA11は、Aeromonas hydrophila(Proteobacter
ia χ subdivision, Aeromonas group)に最も近く, 同
じProteobacteria χ subdivisionに属するが少し離れ
たEnterobacteriaceae(腸内細菌科)に属するSerratia
属, Shewanella属,またはPlesiomonas属が近いという結
果が出ている。
【0063】また、試料MA2は、Sporolactobacillus
属、またはBacillus属(いずれもLowGC gram positive
bacteria、Bacillus/Clostridium, Bacilluceae(Bacil
lus科))に等しく近いという結果が得られている。
【0064】また一方で、試料MA3は、Bacillus cer
eusとBacillus thuringiensis (LowGC gram positive
bacteria、Bacillus/Clostridium, Bacilluceae)に最
も近いという結果が得られている。なお、Bacillus cer
eusとBacillus thuringiensisは近縁であり同一種とす
る意見が多い。
【0065】また、試料MA4は、Oeskovia属もしくは
Cellulomonas属(共にActinobacteria, Actinobacterid
ae, Actinomycetales, Micrococcineae, Cellulomonada
ceae)に最も近く、Actinomycetes属(Actinobacteria, A
ctinobacteridae, Actinomycetales,Actinomyccineae,
Actinomycetaceae)、Streptomyces属(Actinobacteri
a, Actinobacteridae, Actinomycetales, Streptmycine
ae,Streptomycetaceae)に次に近い。
【0066】試料AP1とAP3は、Pseudomonas puti
da, Pseudomonas fulva, Pseudomonas straminea, Pseu
domonas alcaligenes, Flavimonas oryzihabitans(い
ずれもProteobacteria χ subdivision,Pseudomonadace
ae)に近い。
【0067】また、試料AP6は、Xanthomonas属細菌
(Proteobacteria χ subdivision、Lysobacterrales,
Xanthomonas group)に近く、試料AP2とAP5は、P
hyllobacterium属、Rhizobium属, Agrobacterium属(Pr
oteobacteria α subdivision,Rhizobiceae groupのそ
れぞれPhylobactriaceaeかRhizobiaceae)と推定され
た。
【0068】図28は、分離した脱窒菌134株につい
て本方法で種名を推定し代表的な菌株の16S rDNA
の部分塩基配列を決定し、公開用塩基配列データベース
で相同性検索した結果最も近い16S rDNAの塩基配
列構造を有する菌の種名を検索した結果を示している。
【0069】この図28では、分類されたグループ(I
からXIII)、そのグループに含まれる菌数、推定される
種名(RFLP)、16S rDNAの塩基配列を実際に決定
し、最も近い塩基配列を有する菌の名前および相違度を
示している。この場合、類似度が高い塩基配列部分の塩
基配列のうち、いくつ一致したかを百分率表示で示して
いる。複数の数値が示されているのは、そのグループに
属する別の細菌の塩基配列を決定し相同性検索を別に行
った結果である。
【0070】
【発明の効果】以上説明したように、この発明による
と、既知の遺伝子の塩基配列と制限酵素の切断パターン
とを基に予め切断長理論値データを作成しておき、この
切断長理論値データと入力される切断長実測値データと
を非加重結合法などを用いて分析するため、既知遺伝子
と試料との類似度を高速かつ効率的に算出することが可
能となる。
【0071】また、この発明によると、多種の既知遺伝
子および試料との類似度を基に、類似度の高いもの同士
を関連付けて、樹形図などを用いて図形的に表示するた
め、解析結果を利用者に理解しやすい形で提供すること
が可能となる。
【0072】また、この発明によると、増幅配列認識部
が増幅前塩基配列データを基に、増幅部分を自動的に認
識して増幅後塩基配列データを生成するため、多くの手
間をかけることなく増幅後塩基配列データを準備するこ
とができ、塩基配列の解析をより一層効率化することが
可能となる。
【0073】また、この発明によると、パーソナルコン
ピュータやワークステーションなどの汎用のコンピュー
タを用いて遺伝子の類縁性検索システムを実現すること
により、専用のシーケンサ等に比べて極めて安価なシス
テムを提供することが可能となる。
【0074】
【配列表】 <110>Director General of Kyushu National Agricultural Experiment St ation; Katsuji Watanabe <120>Methods and systems for analyzing genetic relationship <160>4 <210>1 <211>1009 <212>DNA <213>Rhodospirillum salexigens <220> <221>rRNA <222>(50),(51),(63),(463),(468),(574),(687),(806),(853),(854),(888) ,(889),(966) <223>unknown <400> 1 gctcagaacg aacgctggcg gcaggcctaa cacatgcaag tcgagcgcan nccttcgggg 61 gtnagcggcg gacgggtgag taacgcgtgg gaacctgctc agggctctgg gataactgct 121 ggaaacggca gctaataccg gatacgccgt attgggaaag aaattcggcc ttggatgggc 181 ccgcgttgga ttagctagat ggtggggtaa cggcctacca tggcgacgat ccatagctgg 241 tttgagagga tgatcagcca cactgggact gagacacggc ccagactcct acgggaggca 301 gcagtgggga atcttagaca atgggggcaa ccctgatcta gccatgccgc gtgagtgatg 361 aaggccttag ggttgtaaag ctctttcagc agggaagata atgactgtac ctgcagaaga 421 agctccggct aactccgtgc cagcagccgc ggtaatacgg agngggcnag cgttgttcgg 481 aattactggg cgtaaagcgc gcgtaggcgg atcggtcagt tgggggtgaa agcccggggc 541 tcaacctcgg aactgccctc aaaactaccg atcnagagtt cgggagaggt aagcggaatt 601 cccagtgtag aggtgaaatt cgtagatatt gggaagaaca ccagtggcga aggcggctta 661 ctggaccgat actgacgctg aggtgcnaaa gcgtggggag caaacaggat tagataccct 721 ggtagtccac gccgtaaacg atgggtgcta gatgtcgggg ctcttagagt ttcggtatcg 781 cagctaacgc attaagcacc ccgccngggg agtacggccg caaggttaaa actcaaagga 841 attgacgggg gcnngcacaa gcggtggagc atgtggttta attcgaanna acgcgcagaa 901 ccttaccagc tcttgacatc ccgggacgac ttccagagat ggattttttc acttcggtga 961 cccggngaca ggtgctgcat ggctgtcgtc agctcgtgtc gtgagatgt <210>2 <211>1490 <212>DNA <213>Rhodospirillum salexigens <220> <221>rRNA <222>(1),(72),(73),(85),(485),(490),(596),(709),(828),(875),(876),( 910),(911),(988),(1045),(1332),(1333),(1408),(1437)-(1442),(1451)-(1475) <223>unknown <400> 1 ncaacatgag agtttgatcc tggctcagaa cgaacgctgg cggcaggcct aacacatgca 61 agtcgagcgc annccttcgg gggtnagcgg cggacgggtg agtaacgcgt gggaacctgc 121 tcagggctct gggataactg ctggaaacgg cagctaatac cggatacgcc gtattgggaa 181 agaaattcgg ccttggatgg gcccgcgttg gattagctag atggtggggt aacggcctac 241 catggcgacg atccatagct ggtttgagag gatgatcagc cacactggga ctgagacacg 301 gcccagactc ctacgggagg cagcagtggg gaatcttaga caatgggggc aaccctgatc 361 tagccatgcc gcgtgagtga tgaaggcctt agggttgtaa agctctttca gcagggaaga 421 taatgactgt acctgcagaa gaagctccgg ctaactccgt gccagcagcc gcggtaatac 481 ggagngggcn agcgttgttc ggaattactg ggcgtaaagc gcgcgtaggc ggatcggtca 541 gttgggggtg aaagcccggg gctcaacctc ggaactgccc tcaaaactac cgatcnagag 601 ttcgggagag gtaagcggaa ttcccagtgt agaggtgaaa ttcgtagata ttgggaagaa 661 caccagtggc gaaggcggct tactggaccg atactgacgc tgaggtgcna aagcgtgggg 721 agcaaacagg attagatacc ctggtagtcc acgccgtaaa cgatgggtgc tagatgtcgg 781 ggctcttaga gtttcggtat cgcagctaac gcattaagca ccccgccngg ggagtacggc 841 cgcaaggtta aaactcaaag gaattgacgg gggcnngcac aagcggtgga gcatgtggtt 901 taattcgaan naacgcgcag aaccttacca gctcttgaca tcccgggacg acttccagag 961 atggattttt tcacttcggt gacccggnga caggtgctgc atggctgtcg tcagctcgtg 1021 tcgtgagatg ttgggttaag tcccncaacg agcgcaaccc tcgcccttag ttgccagcat 1081 ttggttgggg actctaaggg aactgccggt gataagccgg aggaaggtgg ggatgacgtc 1141 aagtcctcat ggcccttatg ggctgggcta cacacgtgct acaatggcgg tgacagaggg 1201 cagcgagcct gcgagggtga gcgaatctct aaaagccgtc tcagttcgga ttgttctctg 1261 caactcgaga gcatgaaggt ggaatcgcta gtaatcgcgg atcagcatgc cgcggtgaat 1321 acgttcccgg gnnttgtaca caccgcccgt cacaccatgg gagttggttt gacccgaaga 1381 cggtgagcta acccgaaagg ggggcagncg gccacggtca ggtcagcgac tggggtnnnn 1441 nngtaacaag nnnnnnnnnn nnnnnnnnnn nnnnngatca cctcctttct <210>3 <211>19 <212>DNA <213>Artificial Sequence <220> <223>Artificial Sequence <400> 1 gctcagattg aactcggcg <210>4 <211>16 <212>DNA <213>Artificial Sequence <220> <223>Artificial Sequence <400> 1 acatttcaca acacgagctg
【図面の簡単な説明】
【図1】 この発明の第一実施形態による塩基配列解析
システムの構成を示すブロック図である。
【図2】 同実施形態による増幅後塩基配列データ(2
2b)の前半部分を示す図である。
【図3】 同実施形態による増幅後塩基配列データ(2
2b)の後半部分を示す図である。
【図4】 同実施形態による制限酵素データ(21)の
データ構造およびデータ例を示す表図である。
【図5】 同実施形態による理論値計算部(11)に対
して切断長理論値計算を指示する利用者インタフェース
例を示す画面図である。
【図6】 同実施形態による切断長理論値データ(2
3)のデータ構造およびデータ例を示す表図である。
【図7】 同実施形態による実測値入力部(12)の利
用者インタフェース例を示す画面図である。
【図8】 同実施形態による切断長実測値データ(2
5)のデータ構造およびデータ例を示す表図である。
【図9】 同実施形態による塩基配列のクラスタリング
の基となる切断片のバンド分布を表す参考図である。
【図10】 同実施形態により塩基配列間の類似度を基
に平均距離法を用いてクラスタ分析を行う過程を示す表
図である。
【図11】 同実施形態によるクラスタ分析の結果を図
形化して示した参考図である。
【図12】 同実施形態による表示部(15)が解析結
果を樹形図として表示する例を示す画面図である。
【図13】 この発明の第二実施形態による塩基配列解
析システムの構成を示すブロック図である。
【図14】 同実施形態による塩基配列解析システムの
入力データとなる増幅前塩基配列データ(22a)の前
半部分を示す図である。
【図15】 同実施形態による塩基配列解析システムの
入力データとなる増幅前塩基配列データ(22a)の後
半部分を示す図である。
【図16】 同実施形態による増幅配列認識部(31)
による認識のためのプライマ配列の入力画面を示す画面
図である。
【図17】 本発明による塩基配列解析システムを用い
て、細菌の種の分類・同定を行った例の結果を示す樹形
図である。
【図18】 本発明による塩基配列解析システムを用い
て、細菌の種の分類・同定を行った例の結果を示す樹形
図である。
【図19】 本発明による塩基配列解析システムを用い
て、細菌の種の分類・同定を行った例の結果を示す樹形
図である。
【図20】 本発明による塩基配列解析システムを用い
て、細菌の種の分類・同定を行った例の結果を示す樹形
図である。
【図21】 本発明による塩基配列解析システムを用い
て、細菌の種の分類・同定を行った例の結果を示す樹形
図である。
【図22】 本発明による塩基配列解析システムを用い
て、細菌の種の分類・同定を行った例の結果を示す樹形
図である。
【図23】 本発明による塩基配列解析システムを用い
て、細菌の種の分類・同定を行った例の結果を示す樹形
図である。
【図24】 本発明による塩基配列解析システムを用い
て、細菌の種の分類・同定を行った例の結果を示す樹形
図である。
【図25】 本発明による塩基配列解析システムを用い
て、細菌の種の分類・同定を行った例の結果を示す樹形
図である。
【図26】 本発明による塩基配列解析システムを用い
て、細菌の種の分類・同定を行った例の結果を示す樹形
図である。
【図27】 本発明による塩基配列解析システムを用い
て、細菌の種の分類・同定を行った例の結果を示す樹形
図である。
【図28】 分離した脱窒菌について本方法で種名を推
定し代表的な菌株の16S rDNAの部分塩基配列を決
定し、公開用塩基配列データーベースで相同性検索した
結果最も近い16S rDNAの塩基配列構造を有する菌
の種名を検索した結果を示している表図である。
【符号の説明】
1 塩基配列解析システム 11 理論値計算部 12 実測値入力部 13 比較部 14 許容誤差設定部 15 表示部 21 制限酵素データ 22a 増幅前塩基配列データ 22b 増幅後塩基配列データ 23 切断長理論値データ 25 切断長実測値データ 27 解析結果データ 29 許容誤差データ 31 増幅配列認識部
フロントページの続き (56)参考文献 特開 平10−262699(JP,A) 渡辺克二、奥田充、古賀伸久,制限酵 素切断長多型(RFLP)を利用した土 壌細菌群集の解析手法,農業環境研究成 果情報,日本,農業環境技術研究所, 2000年 7月10日,第16集,p.39−40 渡辺日出海、国沢隆,コンピュータ解 析による大腸菌遺伝子のゲノム上の位置 と転写方向の決定,情報学シンポジウム 講演論文集,日本,1990年 1月17日, 1990,p.89−98 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 C12N 15/09 JICSTファイル(JOIS)

Claims (15)

    (57)【特許請求の範囲】
  1. 【請求項1】 プライマによって増幅される前の既知遺
    伝子の塩基配列が保持されている増幅前塩基配列データ
    を読み込み、当該プライマの塩基配列を表すプライマデ
    ータを基に、当該既知遺伝子から当該プライマで増幅さ
    れる増幅後塩基配列データを生成する増幅配列認識部
    と、 制限酵素の種別と当該制限酵素が切断する切断箇所の塩
    基配列パターンと当該塩基配列パターン内における切断
    位置とが関連付けられて保持されている制限酵素データ
    と、既知遺伝子の種別と当該既知遺伝子の前記増幅後
    基配列データとが関連付けられて保持されている塩基配
    列データとを基に、当該既知遺伝子を当該制限酵素で切
    断したときの切断長理論値を計算して、既知遺伝子の種
    別と制限酵素の種別と当該既知遺伝子を当該制限酵素で
    切断したときの切断長理論値とが関連付けられて保持さ
    れた切断長理論値データとして出力する理論値計算部
    と、 前記切断長理論値データと、制限酵素の種別と当該制限
    酵素を用いて試料を切断して測定した結果得られた切断
    長実測値とが関連付けられて保持されている切断長実測
    値データとを比較することにより、当該既知遺伝子と当
    該試料との類似度を算出して解析結果データとして出力
    する比較部とを備えることを特徴とする塩基配列類縁性
    検索システム。
  2. 【請求項2】 前記解析結果データを基に、相互に類似
    度の高い試料同士または相互に類似度の高い既知遺伝子
    と試料とを関連付けて図形的に表示する表示部を備える
    ことを特徴とする請求項1に記載の塩基配列類縁性検索
    システム。
  3. 【請求項3】 前記表示部は、樹形図により、相互に類
    似度の高い試料同士または相互に類似度の高い既知遺伝
    子と試料とを関連付けて表示することを特徴とする請求
    項2に記載の塩基配列類縁性検索システム。
  4. 【請求項4】 前記増幅配列認識部は、前記増幅前塩基
    配列データを読み込み、その塩基配列と前記プライマ配
    列とがミスマッチの許容限界として指定された数値範囲
    内でマッチする箇所を探し出し、当該箇所で切断して残
    った塩基配列を前記増幅後塩基配列データとして生成す
    ことを特徴とする請求項に記載の塩基配列類縁性検
    索システム。
  5. 【請求項5】 前記増幅配列認識部は、上流プライマお
    よび下流プライマそ れぞれについてミスマッチの許容限
    界として指定された数値範囲内でマッチする箇所を探し
    出すことを特徴とする請求項に記載の塩基配列類縁性
    検索システム。
  6. 【請求項6】 プライマによって増幅される前の既知遺
    伝子の塩基配列が保持されている増幅前塩基配列データ
    を読み込み、当該プライマの塩基配列を表すプライマデ
    ータを基に、当該既知遺伝子から当該プライマで増幅さ
    れる増幅後塩基配列データを生成する増幅配列認識過程
    と、 制限酵素の種別と当該制限酵素が切断する切断箇所の塩
    基配列パターンと当該塩基配列パターン内における切断
    位置とが関連付けられて保持されている制限酵素データ
    と、既知遺伝子の種別と当該既知遺伝子の前記増幅後
    基配列データとが関連付けられて保持されている塩基配
    列データとを基に、当該既知遺伝子を当該制限酵素で切
    断したときの切断長理論値を計算して、既知遺伝子の種
    別と制限酵素の種別と当該既知遺伝子を当該制限酵素で
    切断したときの切断長理論値とが関連付けられて保持さ
    れた切断長理論値データを出力する理論値計算過程と、 前記切断長理論値データと、制限酵素の種別と当該制限
    酵素を用いて試料を切断して測定した結果得られた切断
    長実測値とが関連付けられて保持されている切断長実測
    値データとを比較することにより、当該既知遺伝子と当
    該試料との類似度を算出して解析結果データとして出力
    する比較過程とを有することを特徴とする塩基配列類縁
    性検索方法。
  7. 【請求項7】 前記解析結果データを基に、相互に類似
    度の高い試料同士または相互に類似度の高い既知遺伝子
    と試料とを関連付けて図形的に表示する表示過程を有す
    ることを特徴とする請求項6に記載の塩基配列類縁性検
    索方法。
  8. 【請求項8】 前記表示過程では、樹形図により、相互
    に類似度の高い試料同士または相互に類似度の高い既知
    遺伝子と試料とを関連付けて表示することを特徴とする
    請求項7に記載の塩基配列類縁性検索方法。
  9. 【請求項9】 前記増幅配列認識過程においては、前記
    増幅前塩基配列データを読み込み、その塩基配列と前記
    プライマ配列とがミスマッチの許容限界として指定され
    た数値範囲内でマッチする箇所を探し出し、当該箇所で
    切断して残った塩基配列を前記増幅後塩基配列データと
    して生成することを特徴とする請求項に記載の塩基配
    列類縁性検索方法。
  10. 【請求項10】 前記増幅配列認識過程においては、上
    流プライマおよび下流プライマそれぞれについてミスマ
    ッチの許容限界として指定された数値範囲内でマッチす
    る箇所を探し出すことを特徴とする請求項に記載の塩
    基配列類縁性検索方法。
  11. 【請求項11】 プライマによって増幅される前の既知
    遺伝子の塩基配列が保持されている増幅前塩基配列デー
    タを読み込み、当該プライマの塩基配列を表すプライマ
    データを基に、当該既知遺伝子から当該プライマで増幅
    される増幅後塩基配列データを生成する増幅配列認識過
    程と、 制限酵素の種別と当該制限酵素が切断する切断箇所の塩
    基配列パターンと当該塩基配列パターン内における切断
    位置とが関連付けられて保持されている制限酵素データ
    と、既知遺伝子の種別と当該既知遺伝子の前記増幅後
    基配列データとが関連付けられて保持されている塩基配
    列データとを基に、当該既知遺伝子を当該制限酵素で切
    断したときの切断長理論値を計算して、既知遺伝子の種
    別と制限酵素の種別と当該既知遺伝子を当該制限酵素で
    切断したときの切断長理論値とが関連付けられて保持さ
    れた切断長理論値データを出力する理論値計算過程と、 前記切断長理論値データと、制限酵素の種別と当該制限
    酵素を用いて試料を切断して測定した結果得られた切断
    長実測値とが関連付けられて保持されている切断長実測
    値データとを比較することにより、当該既知遺伝子と当
    該試料との類似度を算出して解析結果データとして出力
    する比較過程との処理をコンピュータに実行させるコン
    ピュータプログラムを記録したコンピュータ読取り可能
    な記録媒体。
  12. 【請求項12】 前記解析結果データを基に、相互に類
    似度の高い試料同士または相互に類似度の高い既知遺伝
    子と試料とを関連付けて図形的に表示する表示過程の処
    理をコンピュータに実行させるコンピュータプログラム
    を記録した請求項11に記載のコンピュータ読取り可能
    な記録媒体。
  13. 【請求項13】 前記表示過程では、樹形図により、相
    互に類似度の高い試料同士または相互に類似度の高い既
    知遺伝子と試料とを関連付けて表示することを特徴とす
    る請求項12に記載のコンピュータ読取り可能な記録媒
    体。
  14. 【請求項14】 前記増幅配列認識過程においては、前
    記増幅前塩基配列データを読み込み、その塩基配列と前
    記プライマ配列とがミスマッチの許容限界として指定さ
    れた数値範囲内でマッチする箇所を探し出し、当該箇所
    で切断して残った塩基配列を前記増幅後塩基配列データ
    として生成することを特徴とする請求項11に記載のコ
    ンピュータ読取り可能な記録媒体。
  15. 【請求項15】 前記増幅配列認識過程においては、上
    流プライマおよび下流プライマそれぞれについてミスマ
    ッチの許容限界として指定された数値範囲内でマッチす
    る箇所を探し出すことを特徴とする請求項14に記載の
    コンピュータ読取り可能な記録媒体。
JP2000215134A 2000-07-14 2000-07-14 遺伝子の類縁性検索方法および遺伝子の類縁性検索システム Expired - Lifetime JP3431135B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000215134A JP3431135B2 (ja) 2000-07-14 2000-07-14 遺伝子の類縁性検索方法および遺伝子の類縁性検索システム
US09/900,876 US7006924B2 (en) 2000-07-14 2001-07-10 Method and system for searching for relationships between base sequences in genes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000215134A JP3431135B2 (ja) 2000-07-14 2000-07-14 遺伝子の類縁性検索方法および遺伝子の類縁性検索システム

Publications (2)

Publication Number Publication Date
JP2002032377A JP2002032377A (ja) 2002-01-31
JP3431135B2 true JP3431135B2 (ja) 2003-07-28

Family

ID=18710604

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000215134A Expired - Lifetime JP3431135B2 (ja) 2000-07-14 2000-07-14 遺伝子の類縁性検索方法および遺伝子の類縁性検索システム

Country Status (2)

Country Link
US (1) US7006924B2 (ja)
JP (1) JP3431135B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003245098A (ja) * 2002-02-25 2003-09-02 Hitachi Ltd 遺伝子検索方法及びリストの提供方法
EP2298886A3 (en) * 2002-11-22 2011-12-14 Bio-Think Tank Co., Ltd. Method for searching target base sequence of RNA interference, method for designing base sequence of polynucleotide for causing RNA interference, method for producing double-stranded polynucleotide, method for inhibiting gene expression, base sequence processing apparatus, program for running base sequence processing method on computer, recording medium, and base sequence processing system
KR20120083521A (ko) * 2005-06-16 2012-07-25 미합중국 (관리부서 : 미합중국 해군성) 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법
EP2161598B2 (en) * 2008-09-05 2021-06-09 Viavi Solutions Inc. An Optical Device Exhibiting Color Shift upon Rotation
US8993699B2 (en) 2009-08-24 2015-03-31 Nissan Chemical Industries, Ltd. Photosensitive resin composition for microlens
WO2011137368A2 (en) 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
US9268903B2 (en) 2010-07-06 2016-02-23 Life Technologies Corporation Systems and methods for sequence data alignment quality assessment
WO2013025561A1 (en) * 2011-08-12 2013-02-21 Dnanexus Inc Sequence read archive interface
US20140258299A1 (en) * 2013-03-07 2014-09-11 Boris A. Vinatzer Method for Assigning Similarity-Based Codes to Life Form and Other Organisms
KR101950887B1 (ko) * 2016-07-14 2019-02-21 김인수 보일러

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10262699A (ja) 1997-03-27 1998-10-06 Hitachi Ltd Dna解析法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
渡辺克二、奥田充、古賀伸久,制限酵素切断長多型(RFLP)を利用した土壌細菌群集の解析手法,農業環境研究成果情報,日本,農業環境技術研究所,2000年 7月10日,第16集,p.39−40
渡辺日出海、国沢隆,コンピュータ解析による大腸菌遺伝子のゲノム上の位置と転写方向の決定,情報学シンポジウム講演論文集,日本,1990年 1月17日,1990,p.89−98

Also Published As

Publication number Publication date
US7006924B2 (en) 2006-02-28
US20020045990A1 (en) 2002-04-18
JP2002032377A (ja) 2002-01-31

Similar Documents

Publication Publication Date Title
US20220246234A1 (en) Using cell-free dna fragment size to detect tumor-associated variant
Brealey et al. Dental calculus as a tool to study the evolution of the mammalian oral microbiome
JP3431135B2 (ja) 遺伝子の類縁性検索方法および遺伝子の類縁性検索システム
CN103186716A (zh) 基于元基因组学的未知病原快速鉴定系统及分析方法
Ionescu et al. Microbial community analysis using high‐throughput amplicon sequencing
US20140288844A1 (en) Characterization of biological material in a sample or isolate using unassembled sequence information, probabilistic methods and trait-specific database catalogs
Wu et al. DeepRetention: a deep learning approach for intron retention detection
Liu et al. Forensic STR allele extraction using a machine learning paradigm
CN114783518A (zh) 基因编辑结果的预测方法、装置、电子设备、程序及介质
Hernandez-Lopez et al. Lossy compression of quality scores in differential gene expression: A first assessment and impact analysis
Wright et al. “Serpentinomics”—An emerging new field of study
Sengupta et al. Classification and identification of fungal sequences using characteristic restriction endonuclease cut order
Hyyrö et al. On exact string matching of unique oligonucleotides
CN110600083B (zh) 基于无拼接组装wgs数据的醋酸钙—鲍曼不动杆菌复合群鉴定方法
CN117497065B (zh) 筛选促进多年生牧草再生的微生物种类的方法及其所用装置与计算机可读存储介质
CN112634983B (zh) 病原物种特异pcr引物优化设计方法
CN115019886B (zh) 一种宏基因组绝对定量实验全流程的数字孪生方法
CN117935933B (zh) Cdkn2a/b纯合性缺失的分析方法及系统
Ruiz et al. Polyphasic taxonomy of strains in bacterial inoculants
豊間根耕地 Studies on identification and evaluation of CRISPR diversity on human skin microbiome for development of a new personal identification method
Yin Comprehensive Data Analysis Toolkit Development for a Low Input Bisulfite Sequencing
Sánchez Practical Transcriptomics: Differential gene expression applied to food production
Rusch et al. High-resolution phylogenetic and population genetic analysis of microbial communities with RoC-ITS
Alketbi Salem The role of DNA in forensic science: A comprehensive review
Chouvarine et al. An automated, high-throughput sequence read classification pipeline for preliminary genome characterization

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030408

R150 Certificate of patent or registration of utility model

Ref document number: 3431135

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term