JP2007193708A - ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法 - Google Patents

ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法 Download PDF

Info

Publication number
JP2007193708A
JP2007193708A JP2006013197A JP2006013197A JP2007193708A JP 2007193708 A JP2007193708 A JP 2007193708A JP 2006013197 A JP2006013197 A JP 2006013197A JP 2006013197 A JP2006013197 A JP 2006013197A JP 2007193708 A JP2007193708 A JP 2007193708A
Authority
JP
Japan
Prior art keywords
character information
genome
compression
sequence
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006013197A
Other languages
English (en)
Other versions
JP4852313B2 (ja
Inventor
Yuji Kondo
裕治 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006013197A priority Critical patent/JP4852313B2/ja
Publication of JP2007193708A publication Critical patent/JP2007193708A/ja
Application granted granted Critical
Publication of JP4852313B2 publication Critical patent/JP4852313B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】塩基配列同士の圧縮規則を比較し、コンピュータ資源の有効利用とともに塩基配列の全体解析の効率化を図ること。
【解決手段】入力部301は、比較対象配列の入力を受け付け、判断部302および圧縮部303は、入力された比較対象配列を、圧縮規則DB120に記憶された圧縮規則に基づいて、圧縮処理する。さらに、圧縮化情報DB310から、比較元配列の圧縮文字列を取得し、第1抽出部304および第2抽出部305は、比較対象配列の圧縮文字列と、比較元配列の圧縮文字列との中から、特定文字情報を抽出する。比較部306は、抽出された特定文字情報の比較処理をおこなう。また、判定部307は、相同性規則DB130に記憶された、塩基を示す文字情報の相同性に関する相同性規則を参照して相同性の有無を判定する。そして、出力部308は、比較された比較結果を出力する。
【選択図】図3

Description

この発明は、遺伝子領域予測やゲノム構造解析のための塩基配列の比較をおこなうゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法に関する。
生物の遺伝情報は、その生物の細胞中の染色体における塩基配列の並びによって符号化され格納されている。近年では、ゲノムプロジェクトの成果により、ヒトゲノムの約半分は、生体機能への影響がほとんど解明されていない繰り返し配列が占め、残りに様々な遺伝子が存在することがわかってきた。しかし、ヒトゲノムには、1万塩基単位以上の繰り返し配列および一部が変異しながら繰り返している配列などが潜んでおり、これら長大な配列についての研究は未だ進展していない。したがって、現在、長大な塩基配列の全体概要を確認する技術が必要となっている。
これまで、塩基配列の比較は、すべての塩基配列に対する一致判定や、相同性を用いた一致判定などをコンピュータ上でおこなっていた。また、遺伝子配列比較表示装置において、遺伝子配列を高速に比較するための高速化用のインデックス(部分配列群)を作成して、そのインデックス(部分配列群)を用いて遺伝子配列の比較をおこなう提案がされている(たとえば、下記特許文献1参照。)。
国際公開第03/098471号パンフレット
しかしながら、上述した従来技術では、長大な塩基配列に関しては、メモリ使用量や計算時間などのコンピュータ資源に制限があるため、長大な塩基配列を複数に分割し、分割された単位で比較しなければならないため、塩基配列全体に対する解析は困難であるという問題があった。くわえて、インデックスなどを作成して、複数に分割する場合であっても、大量のメモリを使用するため、コンピュータ資源を有効に利用することができないという問題があった。
この発明は、上述した従来技術による問題点を解消するため、長大な塩基配列を比較する際、コンピュータ資源の有効利用とともに塩基配列の全体解析の効率化を図ることができるゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、この発明にかかるゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法は、アデニン、チミン、グアニン、シトシンの4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた特定塩基配列を、前記塩基を示す文字情報とは異なる特定文字情報に変換するという圧縮規則を用いて、ゲノム解析をコンピュータに実行させるゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法であって、前記塩基配列を有する任意のゲノム配列情報の入力を受け付けさせ、入力されたゲノム配列情報に、前記特定塩基配列が含まれているか否かを判断させ、判断された判断結果に基づいて、前記圧縮規則に従って前記ゲノム配列情報を圧縮させ、圧縮されたゲノム配列情報の中から、前記特定文字情報(以下「第1の特定文字情報」という)を抽出させ、前記塩基配列を有する既知のゲノム配列情報から前記圧縮規則に従って圧縮された既知の圧縮化ゲノム配列情報の中から、前記特定文字情報(以下、「第2の特定文字情報」という)を抽出させ、抽出された前記第1および第2の特定文字情報を比較させ、比較された比較結果を出力させることを特徴とする。
この発明によれば、塩基配列を分割することなく圧縮規則によって圧縮して比較できるため、塩基配列の全体を効率的に把握するとともに、取り扱うデータ量を削減して、コンピュータ資源の有効利用を図ることができる。
また、上記発明において、比較された結果、抽出された前記第1および第2の特定文字情報が一致しない場合、当該第1および第2の特定文字情報の圧縮元となる前記特定塩基配列同士が相同性を有するか否かを判定させ、さらに、判定された判定結果を出力させることとしてもよい。
この発明によれば、塩基配列の相同性に関する相同性規則を参照して、比較がおこなえるため、完全一致した塩基配列に加えて、同様の性質をもった塩基配列を抽出でき、適切な比較をおこなうことができる。
また、上記発明において、比較された結果、抽出された前記第1および第2の特定文字情報が一致した場合、当該第1および第2の特定文字情報と、当該第1および第2の特定文字情報の圧縮元となる前記特定塩基配列とのうち少なくともいずれか一方を出力させることとしてもよい。
この発明によれば、塩基配列のうち、一致する文字情報を簡易に抽出することができる。
また、この発明にかかるゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法は、アデニン、チミン、グアニン、シトシンの4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた相同性のある複数の特定塩基配列を、前記塩基を示す文字情報とは異なる共通の特定文字情報に変換するという圧縮規則を用いて、ゲノム解析をコンピュータに実行させるゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法であって、前記塩基配列を有する任意のゲノム配列情報の入力を受け付けさせ、入力されたゲノム配列情報に、前記特定塩基配列が含まれているか否かを判断させ、前記判断工程によって判断された判断結果に基づいて、前記圧縮規則に従って前記ゲノム配列情報を圧縮させ、前記圧縮工程によって圧縮されたゲノム配列情報の中から、前記特定文字情報を抽出させ、前記塩基配列を有する既知のゲノム配列情報から前記圧縮規則に従って圧縮された既知の圧縮化ゲノム配列情報の中から、前記特定文字情報を抽出させ、抽出された特定文字情報を比較させ、比較された比較結果を出力させることを特徴とする。
この発明によれば、塩基配列を相同性規則を用いた圧縮規則によって圧縮して比較できるため、塩基配列の比較に際し、相同性規則を読み込むことなく、相同性を考慮した比較をおこなえるため、塩基配列の適切な比較を高速かつ簡易な処理によっておこなうことができる。
本発明にかかるゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法によれば、長大な塩基配列の比較であっても、コンピュータ資源を有効利用するとともに塩基配列における全体解析の効率化を図ることができるという効果を奏する。
以下に添付図面を参照して、この発明にかかるゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法の好適な実施の形態を詳細に説明する。
(実施の形態1)
(ゲノム解析装置の処理の概要)
まず、図1を用いて、この発明の実施の形態1にかかるゲノム解析装置の処理の概要について説明する。図1は、この発明の実施の形態1にかかるゲノム解析装置の処理の概要を示す説明図である。図1において、この発明の実施の形態1にかかるゲノム解析装置の処理は、圧縮処理101,102と、比較処理103と、からなる。
ゲノム解析装置では、比較対象となる未知の塩基配列である比較対象配列111と、比較元となる既知の塩基配列である比較元配列112との比較をおこなう構成である。比較対象配列111および比較元配列112は、より具体的には、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列された塩基配列である。
比較対象配列111と、比較元配列112との比較をおこなう場合、それぞれ圧縮処理101,102によって圧縮し、圧縮文字列113,114を生成する。圧縮処理101,102は、たとえば、圧縮規則DB(データベース)120に記憶された所定の圧縮規則に基づいておこなう。より具体的には、圧縮規則は、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた特定の特定塩基配列を、特定塩基配列とは異なる特定の特定文字情報に変換することであり、詳細は図4−1,図4−2に後述する。
なお、図1においては、図示しないが、既知の比較元配列112の圧縮文字列114は、あらかじめ圧縮処理102をおこなって、複数の圧縮文字列114を圧縮化情報DB(データベース)などの記録媒体によって記憶しておく構成としてもよい。
つづいて、比較処理103によって、圧縮処理101,102において圧縮された圧縮文字列113,114を比較する。比較処理103による比較は、圧縮文字列113,114における特定文字情報の比較で、たとえば、相同性規則DB130に記憶された、塩基を示す文字情報の相同性に関する相同性規則を参照しておこなってもよい。
より具体的には、特定文字情報の元となる特定塩基配列について、相同性を有するか否かを判断する構成であり、これにより、特定文字情報の一致にくわえて、相同性の比較がなされる。なお、相同性規則については、図5−1,図5−2に後述する。そして、比較処理103によって比較された比較結果115を得ることができる。
(ゲノム解析装置のハードウェア構成)
つぎに、図2を用いて、この発明の実施の形態1にかかるゲノム解析装置のハードウェア構成について説明する。図2は、この発明の実施の形態1にかかるゲノム解析装置のハードウェア構成を示すブロック図である。
図2において、ゲノム解析装置は、CPU201と、ROM202と、RAM203と、HDD(ハードディスクドライブ)204と、HD(ハードディスク)205と、FDD(フレキシブルディスクドライブ)206と、着脱可能な記録媒体の一例としてのFD(フレキシブルディスク)207と、ディスプレイ208と、通信I/F(インターフェース)209と、キーボード211と、マウス212と、スキャナ213と、プリンタ214と、を備えている。また、各構成部はバス200によってそれぞれ接続されている。
ここで、CPU201は、ゲノム解析装置の全体の制御を司る。ROM202は、ブートプログラムなどのプログラムを記憶している。RAM203は、CPU201のワークエリアとして使用される。HDD204は、CPU201の制御にしたがってHD205に対するデータのリード/ライトを制御する。HD205は、HDD204の制御で書き込まれたデータを記憶する。
FDD206は、CPU201の制御にしたがってFD207に対するデータのリード/ライトを制御する。FD207は、FDD206の制御で書き込まれたデータを記憶したり、FD207に記憶されたデータをゲノム解析装置に読み取らせたりする。
また、着脱可能な記録媒体として、FD207のほか、CD−ROM(CD−R、CD−RW)、MO、DVD(Digital Versatile Disk)、メモリカードなどであってもよい。ディスプレイ208は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ208は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
通信I/F209は、通信回線210を通じてインターネットなどのネットワーク215に接続され、このネットワーク215を介して他の装置に接続される。また、通信I/F209は、ネットワーク215と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。通信I/F209には、たとえばモデムやLANアダプタなどを採用することができる。
キーボード211は、文字、数字、各種指示などの入力のためのキーを備え、押下されたキーに対応するデータを装置内部へ入力する。また、キーボード211としては、タッチパネル式の入力パッドやテンキーなどであってもよい。また、マウス212を操作することで、マウス212の本体下部の移動を検出するセンサによる出力および本体上部の各ボタンのON/OFFを随時装置内部へ入力して、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなってもよい。なお、ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
スキャナ213は、書類などの画像情報を光学的に読み取り、装置内に画像データとして取り込む。さらにOCR(Optical Character Reader)機能も備えており、OCR機能によって、印刷されたゲノム配列情報を読み取ってデータ化することもできる。また、プリンタ214は、比較結果115などのデータを印刷する。プリンタ214は、たとえば、レーザプリンタ、インクジェットプリンタなどである。
(ゲノム解析装置の機能的構成)
つぎに、図3を用いて、この発明の実施の形態1にかかるゲノム解析装置の機能的構成について説明する。図3は、この発明の実施の形態1にかかるゲノム解析装置の機能的構成を示すブロック図である。図3において、ゲノム解析装置300は、入力部301と、判断部302と、圧縮部303と、第1抽出部304と、第2抽出部305と、比較部306と、判定部307と、出力部308と、圧縮化情報DB310と、圧縮規則DB120と、相同性規則DB130と、から構成されている。
入力部301は、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列された塩基配列を有する任意のゲノム配列情報の入力を受け付ける。より具体的には、図1で前述した、比較対象となる未知の塩基配列である比較対象配列111の入力を受け付ける。
入力部301は、具体的には、たとえば、図2で示した通信I/F209がネットワーク215から比較対象配列111を受信することによって、その機能を実現する。また、比較対象配列111が記憶された着脱可能な記録媒体FD207およびFDD206によって、その機能を実現する。また、OCR機能を備えたスキャナ213やキーボード211やマウス212によって、その機能を実現する構成としてもよい。
判断部302は、入力部301によって入力されたゲノム配列情報に特定塩基配列が含まれているか否かを判断する。より具体的には、入力部301によって入力された、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列された比較対象配列111の中に、図1で前述した圧縮規則DB(データベース)120に記憶された、特定塩基配列が配列されているか否かを判断する。
ここで、特定塩基配列は、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた文字情報である。より具体的には、ヒトゲノムなどの長大な塩基配列において、疾患が解明されている既知の配列や、未解明であっても頻繁に出現する出現率の高い配列や、出現の順序が並びの前である配列などである。また、Huffman圧縮やLZW(Lempel Ziv Welch)圧縮などを加味して、長大な塩基配列中の出現率を考慮するものであってもよい。
圧縮部303は、判断部302によって判断された判断結果に基づいて、圧縮規則DB120に記憶された圧縮規則に従って、ゲノム配列情報を圧縮する。より具体的には、判断部302によって、比較対象配列111に特定塩基配列が含まれていると判断された場合、特定塩基配列を、特定塩基配列とは異なる特定文字情報に変換し、圧縮文字列113とする構成で、詳細は図4−1,図4−2に後述する。
また、特定文字情報は、特定塩基配列における文字情報とは別の文字情報であり、たとえば、特定塩基配列よりもデータ量を削減するもので、特定文字情報を略字の文字列とするID(IDentifier)の役割を有する。また、特定文字情報は、たとえば、データ量の削減という観点から、特定塩基配列の文字情報より短い文字情報であればよく、1文字程度であることが好ましい。
換言すれば、特定塩基配列に対応付けられた特定文字情報を用いた圧縮規則による圧縮は、比較対象配列111および比較元配列112において、全体のデータ量を圧縮するとともに、比較対象配列111および比較元配列112に含まれる特徴的な特定塩基配列を特定文字情報に変換する構成である。したがって、後述する特定文字情報抽出後の比較に関し、メモリ使用の最適化などコンピュータ資源を効率的に利用するとともに、特徴点の比較を容易にする構成としている。なお、特定塩基配列と特定文字情報を用いた圧縮の詳細については、図4−1,図4−2に後述する。
第1抽出部304は、圧縮部303によって圧縮されたゲノム配列情報の中から、特定文字情報を抽出する。より具体的には、圧縮部303によって圧縮された圧縮文字列113(圧縮前は、比較対象配列111)の中から、特定文字情報を抽出する。
第2抽出部305は、圧縮化情報DB310に記憶された、既知の圧縮化ゲノム配列情報の中から、特定文字情報を抽出する。より具体的には、圧縮規則DB120に記憶された圧縮規則に従って、図1で前述した既知のゲノム配列情報である比較元配列112を圧縮した圧縮文字列114の中から、特定文字情報を抽出する。
これら、第1抽出部304および第2抽出部305による特定文字情報の抽出は、未知の比較対象配列111および既知の比較元配列112の、それぞれにおける特定文字情報を抽出する構成である。したがって、それぞれの特定文字情報をキーとして、後述の比較部306による比較を容易にしている。換言すれば、特定文字情報以外の文字情報を比較することなく、解析対象である比較対象配列の特定文字情報以外の文字情報の解析をすることなく、効率的な解析がおこなえる。
なお、圧縮化情報DB310は、あらかじめ、塩基配列を有する既知のゲノム配列情報から、圧縮規則DB120に記憶された圧縮規則に従って圧縮された、既知の圧縮化ゲノム配列情報を記憶する。より具体的には、既知のゲノム配列情報である比較元配列112を圧縮した圧縮文字列114を記憶する構成であり、複数の圧縮文字列114を記憶していてもよい。
また、図3の説明においては、あらかじめ圧縮化情報DB310に記憶された、既知のゲノム配列情報である比較元配列112を圧縮した圧縮文字列114から特定文字情報を抽出する構成としているが、前述の入力部301と、判断部302と、圧縮部303と、圧縮規則DB120と、同様の構成を用いて、比較元配列112を圧縮し、特定文字情報を抽出する構成としてもよい。
比較部306は、第1抽出部304によって抽出された特定文字情報と、第2抽出部305によって抽出された特定文字情報とを比較する。より具体的には、図1で前述した圧縮文字列113と、圧縮文字列114とから抽出された特定文字情報同士を比較する。
判定部307は、比較部306によって比較された結果、第1抽出部304によって抽出された特定文字情報と、第2抽出部305によって抽出された特定文字情報とが一致しない場合、相同性規則DB130を参照して、特定文字情報同士が相同性を有するか否かを判定する。より具体的には、それぞれの特定文字情報における、圧縮元の特定塩基配列について、相同性規則を参照することで相同性の有無を判定する。
上述の特定文字情報同士の比較および判定によって、未知の比較対象配列111における特定塩基配列に対して、一致あるいは相同性を有する特定塩基配列を含み既知の比較元塩基配列112を比較できるため、未知の比較対象配列111の特徴点や疾患の有無や配列パターンの解析が容易におこなえる。
ここで、相同性規則DB130は、あらかじめ、塩基を示す文字情報の相同性に関する相同性規則が記憶されており、相同性規則については、図5−1,図5−2に後述する。そして、出力部308は、比較部306によって比較された比較結果や、判定部307によって判定された判定結果を出力する。出力部307の出力は、たとえば、比較部306によって比較された結果、抽出された特定文字情報同士が一致した場合、特定文字情報と、特定文字情報の圧縮元となる特定塩基配列のうち少なくともいずれか一方を出力する。
出力部308は、具体的には、たとえば、図2で示したディスプレイ208による表示出力や、プリンタ214による印刷出力によって、その機能を実現する。また、出力部308は、通信I/F209がネットワーク215を介して、外部装置へ出力することによって、その機能を実現することとしてもよい。
また、出力された出力結果によって、長大な塩基配列の全体を把握して解析するすることができ、さらには、従来技術によって分割されて比較された結果とともに利用することで、長大な塩基配列のゲノム構造解析に用いることができる。
なお、図3において上述した判断部302、圧縮部303、第1抽出部304、第2抽出部305、比較部306、判定部307は、具体的には、たとえば、図2で示したROM202、RAM203、HD205などの記録媒体に記憶されたプログラムを、CPU201が実行することによって、また通信I/F209やキーボード211やマウス212によって、その機能を実現する。
圧縮規則DB120、相同性規則DB130、圧縮化情報DB310は、具体的には、たとえば、図2で示したROM202、RAM203、HD205およびHDD204、FD207およびFDD206によって、その機能を実現する。また、圧縮規則DB120、相同性規則DB130、圧縮化情報DB310は、入力部301と同様の構成によって、それぞれ圧縮規則、相同性規則、圧縮化ゲノム配列情報の入力を受け付けるようにしてもよい。
(ゲノム解析装置の処理の具体例)
つぎに、図4−1および図4−2を用いて、この発明の実施の形態1にかかるゲノム解析装置300の処理の具体例について説明する。図4−1は、この発明の実施の形態1にかかるゲノム解析装置の処理の具体例を示す説明図である。図4−1において、ゲノム解析装置300は、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列された塩基配列である、比較対象配列401と、比較元配列402との比較をおこなう。なお、図4−1においては、比較対象配列401と、比較元配列402は、入力部301によって入力される構成である。
圧縮規則DB120は、圧縮規則403が記憶されている。圧縮規則403は、たとえば、図3で前述の疾患が解明されている既知の配列や出現率の高い配列などを示す特定塩基配列を、特定塩基配列とは異なる特定文字情報に変換することで、図4−1では、比較対象配列401および比較元配列402に対し、略字の対象となる略字文字列である特定塩基配列と、特定塩基配列に対応するIDとしての特定文字情報が設定されている。より具体的には、圧縮規則403を参照することで、表中の特定塩基配列は、それぞれ「X」あるいは「Y」に変換される。
比較対象配列401および比較元配列402は、図3で前述した判断部302および圧縮部303によって、圧縮規則DB120に記憶された圧縮規則403に従って圧縮される。より具体的には、比較対象配列401は、圧縮文字列404に変換され、比較元配列402は、圧縮文字列405に変換される
つづいて、図3で前述した第1抽出部304および第2抽出部305によって、圧縮文字列404と、圧縮文字列405における特定文字情報を抽出し、比較部306によって、抽出された特定文字情報に対応する特定塩基配列同士を比較する。そして、特定塩基配列の一致部分406を得ることができる。より具体的には、図4−1に示す特定塩基配列の一致部分406の下線部が一致する構成である。
そして、図3で前述した出力部308によって、特定塩基配列の一致部分406に基づいて、比較対象配列401と、比較元配列402との比較結果407を出力する。より具体的には、図4−1に示す比較結果407の下線部が、それぞれの一致部分である。なお、「−」(ハイフン)は、それぞれの桁を揃えるために挿入された符号で、塩基を示す文字情報は含まない。
つぎに、この発明の実施の形態1にかかるゲノム解析装置300において、相同性規則DB130を用いて処理をおこなう例について説明する。図4−2は、この発明の実施の形態1にかかるゲノム解析装置における相同性規則DBを用いた処理の具体例を示す説明図である。
図4−2において、ゲノム解析装置300は、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列された塩基配列である、比較対象配列411と、比較元配列412との比較をおこなう。なお、図4−2においては、比較対象配列411と、比較元配列412は、入力部301によって入力される構成である。
圧縮規則DB120は、圧縮規則413が記憶されている。図4−2においては、圧縮規則413を参照することで、表中の特定塩基配列は、それぞれ「X」あるいは「Y」に変換される。
比較対象配列411および比較元配列412は、図3で前述した判断部302および圧縮部303によって、圧縮規則DB120に記憶された圧縮規則413に従って圧縮される。より具体的には、比較対象配列411は、圧縮文字列414に変換され、比較元配列412は、圧縮文字列415に変換される。
つづいて、図3で前述した第1抽出部304および第2抽出部305によって、圧縮文字列414と、圧縮文字列415における特定文字情報を抽出する。そして、比較部306および判定部307によって、抽出された特定文字情報に対応する特定塩基配列同士を比較し、相同性を有しているか否かを判定して、特定塩基配列の相同部分416を得ることができる。より具体的には、図4−2に示す特定塩基配列の相同部分416の下線部が相同する構成である。なお、相同性規則DB130に記憶された相同性に関する情報については、図5−1および図5−2に後述する。
そして、図3で前述した出力部308によって、特定塩基配列の相同部分416に基づいて、比較対象配列411と、比較元配列412との比較結果417を出力する。より具体的には、図4−2に示す比較結果417の下線部が、それぞれの相同部分である。なお、「−」(ハイフン)は、それぞれの桁を揃えるために挿入された符号で、塩基を示す文字情報を含まない。なお、出力部308による出力の一例について、図6に後述する。
つぎに、図5−1および図5−2を用いて、この発明の実施の形態1にかかる相同性規則DB130に記憶された相同性規則について説明する。図5−1は、この発明の実施の形態1にかかる相同性規則DBに記憶された、核酸における文字情報の一例を示す説明図である。また、図5−2は、この発明の実施の形態1にかかる核酸の相同性規則における相同性辞書を示す説明図である。
図5−1において、核酸の文字情報を示す核酸表510は、それぞれ核酸におけるシンボルをあらわす文字情報と、文字情報に対応付けられた意味と、その説明とから構成されている。より具体的には、シンボル「a」は、「a」を意味し、アデニン(A)を示す。また、シンボル「m」は、「a」または「c」を意味し、アミノを示す。
それぞれの相同性に関しては、図5−2における相同性規則における相同性辞書520に基づいて設定できる。相同性辞書520は、縦および横に示された核酸の文字情報同士に関して、それぞれスコア値を有しており、たとえば、「C」に対するスコア値は、「A」が−3、「C」が4となっている。この相同性辞書520を参照して、特定塩基配列について、全体のスコア値が所定のしきい値以上であれば、相同性を有するとする構成でもよい。
より具体的に、特定塩基配列「ATCG」および「ATGG」における全体のスコア値について説明する。相同性辞書520を参照して、各文字情報のスコア値は、「A」と「A」は4、「T」と「T」は4、「C」と「G」は−3、「G」と「G」は4であることから、全体のスコア値は9となる。このとき、所定のしきい値が5であるとする、特定塩基配列「ATCG」および「ATGG」は、相同性を有する構成である。
なお、図5−1および図5−2においては、核酸における相同性について説明したが、その他、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列について、同様の構成で相同性辞書を用意することとしてもよい。より具体的には、相同性規則DB130は、核酸から所定の規則によって変換できるアミノ酸について相同性辞書を記憶することとしてもよい。
つづいて、図6を用いて、この発明の実施の形態1にかかる出力部308による出力の一例について説明する。図6は、この発明の実施の形態1にかかる出力部による出力結果の一例を示す説明図である。なお、図6の出力結果は、図4−2で前述した、比較対象配列411と、比較元配列412との比較について説明する。
図6において、比較結果マトリックス600は、比較対象配列601および比較元配列602の文字情報のそれぞれについて、一致あるいは相同性を有する部分である黒丸610と、不一致および相同性を有しない部分である白丸620と、から構成されている。
(ゲノム解析装置300のゲノム解析処理手順)
つぎに、図7を用いて、この発明の実施の形態1にかかるゲノム解析装置300のゲノム解析処理手順について説明する。図7は、この発明の実施の形態1にかかるゲノム解析装置のゲノム解析処理手順を示すフローチャートである。図7のフローチャートにおいて、まず、ゲノム解析装置300は、入力部301により、比較対象配列の入力を受け付けたか否かを判断する(ステップS701)。比較対象配列は、たとえば、図1で前述した、比較対象となる未知の塩基配列である比較対象配列111などで、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列された塩基配列である。
ステップS701において、比較対象配列111の入力を受け付けるのを待って、受け付けた場合(ステップS701:Yes)は、つづいて、判断部302および圧縮部303により、比較対象配列111の圧縮処理をおこなう(ステップS702)。圧縮処理は、たとえば、圧縮規則DB120に記憶された所定の圧縮規則に基づいておこない、圧縮処理の詳細は図8に後述する。
つづいて、ゲノム解析装置300は、圧縮化情報DB310から、比較元配列の圧縮文字列を取得する(ステップS703)。比較元配列は、たとえば、図1で前述した、比較元となる既知の塩基配列である比較元配列112などで、あらかじめ圧縮処理によって、圧縮文字列114に変換されて、圧縮化情報DB310に記憶されている。ここで、圧縮処理は、ステップS702における圧縮処理と同様にしておこなう構成でもよく、圧縮化情報DB310には、あらかじめ複数の圧縮文字列114が記憶されている構成でもよい。
なお、図7の説明では、比較元配列112の圧縮文字列114を、あらかじめ圧縮化情報DB310に記憶する構成としたが、ステップS701において、比較対象配列とともに入力を受け付けて、入力ごとにおこなわれる圧縮処理によって取得する構成としてもよい。
つぎに、第1抽出部304および第2抽出部305は、ステップS702において圧縮処理された比較対象配列111の圧縮文字列113と、ステップS703において取得された比較元配列112の圧縮文字列114の中から、特定文字情報を抽出する(ステップS704)。
そして、比較部306により、ステップS704において抽出された特定文字情報について、特定文字情報の比較処理をおこなう(ステップS705)。特定文字情報の比較処理は、たとえば、判定部307により、相同性規則DB130に記憶された、塩基を示す文字情報の相同性に関する相同性規則を参照して相同性の有無に関する判定をおこなってもよく、比較処理の詳細は図9に後述する。
そして、出力部308により、ステップS705において比較された比較結果を出力し(ステップS706)、一連の処理を終了する。比較結果は、たとえば、図6で前述したようにマトリックスにしてもよく、印刷出力や表示出力や外部装置へデータとして出力することとしてもよい。
つづいて、図8を用いて、この発明の実施の形態1にかかるゲノム解析装置300における比較対象配列の圧縮処理(図7のステップS702)手順について説明する。図8は、この発明の実施の形態1にかかる比較対象配列の圧縮処理(図7のステップS702)手順を示すフローチャートである。
図8のフローチャートにおいて、まず、判断部302により、圧縮規則DB120から圧縮規則を読み込む(ステップS801)。圧縮規則DB120には、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた特定塩基配列を、特定塩基配列とは異なる特定文字情報に変換するという圧縮規則が記憶されている。より具体的には、図4−1および図4−2で前述した圧縮規則403や圧縮規則413などが記憶されている。
つづいて、ステップS801において読み込まれた圧縮規則を参照して、判断部302により、比較対象配列に特定塩基配列が含まれているか否かを判断する(ステップS802)。特定塩基配列は、たとえば、図4−1および図4−2で前述した特定文字情報と対応付けられている。
ステップS802において、比較対象配列に特定塩基配列が含まれている場合(ステップS802:Yes)は、つづいて、圧縮部303により、比較対象配列111は、圧縮規則に従って圧縮され(ステップS803)、圧縮文字列113となる。そして、図7におけるステップS702の比較対象配列の圧縮処理を終了して、ステップS703へ移行する。
また、ステップS802において、比較対象配列に特定塩基配列が含まれていない場合(ステップS802:No)は、出力部308により、比較不可情報を出力し(ステップS804)、図7に戻ってそのまま一連の処理を終了する。比較不可情報は、たとえば、圧縮規則に従った圧縮がおこなえずに、同様の圧縮規則によって圧縮された既知の比較元配列が存在しない旨を利用者に報知する。
さらに、図9を用いて、この発明の実施の形態1にかかるゲノム解析装置300における特定文字情報の比較処理(図7のステップS705)手順ついて説明する。図9は、この発明の実施の形態1にかかる特定文字情報の比較処理(図7のステップS705)手順を示すフローチャートである。
図9のフローチャートにおいて、まず、比較部306により、特定文字情報が一致しているか否かを判断する(ステップS901)。特定文字情報の比較は、たとえば、図7のステップS704によって抽出された比較対象配列111の圧縮文字列113および比較元配列112の圧縮文字列114に含まれる特定文字情報同士が一致しているか比較する構成である。
ステップS901において、特定文字情報が一致している場合(ステップS901:Yes)は、そのまま図7におけるステップS705の特定文字情報の比較処理を終了し、ステップS706へ移行する。
ステップS901において、特定文字情報が一致しない場合(ステップS901:No)は、つぎに、判定部307により、特定文字情報を復元する(ステップS902)。特定文字情報の復元は、たとえば、特定文字情報を、特定文字情報に対応する特定塩基配列に変換することである。換言すれば、圧縮規則DB120を参照して、圧縮文字列113,114の圧縮元の特定塩基配列を取得することである。
そして、判定部307により相同性規則DBから相同性規則を読み込む(ステップS903)とともに、図5−2で前述した相同性辞書に基づいて、ステップS902で復元した特定塩基配列のスコア値合計を算出する(ステップS904)。
そして、ステップS904において算出されたスコア値合計に基づいて、判定部307によりスコア値合計がしきい値以上となったか否かを判定する(ステップS905)。スコア値合計の判定は、換言すれば、特定文字情報同士が相同性を有しているか否かを判定することである。なお、しきい値の設定は、あらかじめ利用者などによって設定できる構成でもよく、その他の塩基配列に対応する変換式などを考慮してもよい。
また、図9の説明では、スコア値合計を算出して相同性の判断をおこなっているが、あらかじめ相同性を有する特定塩基配列をデータベース化しておくこととしてもよい。
ステップS905において、スコア値合計がしきい値以上である場合(ステップS905:Yes)は、相同性を有しているものとして、そのまま図7におけるステップS705の特定文字情報の比較処理を終了して、ステップS706へ移行する。
また、ステップS905において、スコア値合計がしきい値以上でない場合(ステップS905:No)は、相同性を有していないものとして、出力部308により、不一致情報を出力し(ステップS906)、図7に戻ってそのまま一連の処理を終了する。不一致情報は、たとえば、圧縮処理された比較対象配列111と比較元配列112の特定文字情報が一致しなかった旨を利用者に報知する。
このように、この発明の実施の形態1によれば、比較対象となる未知の塩基配列である比較対象配列と、比較元となる既知の塩基配列である比較元配列との比較をおこなう際、所定の圧縮規則に従って圧縮し、圧縮規則における特定文字情報の比較をおこなう。従って、塩基配列を分割することなく比較することができるため、塩基配列の全体を把握・解析することが可能となる。さらに、従来技術における分割化したゲノム解析と繋げることで、研究の視点を広げることができる。
また、圧縮した圧縮文字列を用いるため、取り扱うデータ量が削減でき、メモリなどのコンピュータ資源の有効利用を図ることができる。くわえて、比較するデータ量も削減できるため、塩基配列の比較の高速化を図ることができる。さらに、塩基配列の相同性に関する相同性規則を参照して、特定文字情報の比較がおこなえるため、完全一致のみならず、同様の性質をもった特定文字情報を抽出でき、塩基配列の適切な比較をおこなうことができる。
(実施の形態2)
(ゲノム解析装置の処理の概要)
つぎに、この発明の実施の形態2について説明する。前述の実施の形態1では、塩基を示す文字情報の相同性に関する相同性規則を記憶した相同性規則DB130を用いて、特定文字情報の相同性に関する判定をおこなう構成としたが、この発明の実施の形態2では、比較対象配列および比較元配列の圧縮に相同性規則DB130を用いる場合について説明する。この発明の実施の形態2では、圧縮に相同性規則DB130を用いることで、特定塩基配列が相同性を有していれば、特定文字情報が共通であるため、前述の実施の形態1における判定をおこなわなくても、適切な出力結果を得ることができる。
なお、この発明の実施の形態2にかかるゲノム解析装置のハードウェア構成については図2、相同性規則DB130に記憶された相同性規則については図5−1および図5−2、出力の一例については図6、とそれぞれほぼ同様であるため説明を省略する。
図10を用いて、この発明の実施の形態2にかかるゲノム解析装置の処理の概要について説明する。図10は、この発明の実施の形態2にかかるゲノム解析装置の処理の概要を示す説明図である。図10において、この発明の実施の形態2にかかるゲノム解析装置の処理は、前述の実施の形態1における図1と同様の符号を使用して説明し、ほぼ同様である構成については説明を省略する。
図10において、圧縮規則DB120に記憶された圧縮規則は、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた特定の特定塩基配列について、相同性規則DB130における相同性規則に基づいて、相同性のある特定塩基配列については共通の特定文字情報に変換することで、詳細は、図12に後述する。
ここで、共通の特定文字情報は、相同性を有する特定塩基配列を同等の特定塩基配列とみなすために設定する文字情報である。相同性を有する特定塩基配列を共通の特定文字情報として、後述の比較では、特定文字情報を復元することなく、相同性の有無を判定できる。
そして、圧縮処理101,102によって、比較対象配列111と、比較元配列112とを圧縮して、圧縮文字列113,114を生成する構成である。なお、図10においては、圧縮規則に相同性規則を考慮しているため、比較処理103においては、相同性規則を参照せずに、圧縮文字列113,114の比較をおこなう。
(ゲノム解析装置の機能的構成)
つづいて、図11を用いて、この発明の実施の形態2にかかるゲノム解析装置の機能的構成について説明する。図11は、この発明の実施の形態2にかかるゲノム解析装置の機能的構成を示すブロック図である。図11において、この発明の実施の形態2にかかるゲノム解析装置1100の機能的構成は、前述の実施の形態1における図3と同様の符号を使用して説明し、ほぼ同様である構成については説明を省略する。
ゲノム解析装置1100において、圧縮規則DB120には、図10で前述した特定塩基配列について、相同性規則DB130における相同性規則に基づいて、相同性のある特定塩基配列については共通の特定文字情報に変換する圧縮規則が記憶されている。そして、判断部302および圧縮部303は、圧縮規則DB120に記憶された圧縮規則に従って、入力部301によって入力されたゲノム配列情報の圧縮をおこなう構成である。したがって、相同性のある特定塩基配列について、共通の特定文字情報で変換することで、後述の比較で特定文字情報が一致しない場合には、相同性も有していないものとなる。
また、圧縮化情報DB310は、あらかじめ、塩基配列を有する既知のゲノム配列情報から、圧縮規則DB120に記憶された圧縮規則に従って圧縮された、既知の圧縮化ゲノム配列情報を記憶する。より具体的には、既知のゲノム配列情報である比較元配列112を圧縮した圧縮文字列114を記憶する構成であり、相同性のある特定塩基配列については共通の特定文字情報を用いて、複数の圧縮文字列114を記憶していてもよい。
(ゲノム解析装置の処理の具体例)
つぎに、図12を用いて、この発明の実施の形態2にかかるゲノム解析装置1100の処理の具体例について説明する。図12は、この発明の実施の形態2にかかるゲノム解析装置の処理の具体例を示す説明図である。図12において、この発明の実施の形態2にかかるゲノム解析装置の処理の具体例は、前述の実施の形態2における図4−2と同様の符号を使用して説明し、ほぼ同様である構成については説明を省略する。
図12において、ゲノム解析装置1100は、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列された塩基配列である、比較対象配列411と、比較元配列412との比較をおこなう。
圧縮規則DB120は、圧縮規則1201が記憶されている。ここで、圧縮規則1201は、図5−1および図5−2に前述した相同性規則DB130を用いて設定される構成でもよく、より具体的には、「相同性」の欄に示された塩基配列は相同性を有している。そして図12においては、相同性を有する塩基配列を、置き換えた特定塩基配列で示して、それぞれ「Z」に変換される構成である。
比較対象配列411および比較元配列412は、図11で前述した判断部302および圧縮部303によって、圧縮規則DB120に記憶された圧縮規則1201に従って圧縮される。より具体的には、比較対象配列411は、圧縮文字列1202に変換され、比較元配列412は、圧縮文字列1203に変換される。
つづいて、図11で前述した第1抽出部304および第2抽出部305によって、圧縮文字列1202と、圧縮文字列1203における特定文字情報を抽出する。そして、比較部306によって、抽出された特定文字情報に対応する特定塩基配列同士を比較し、特定塩基配列の一致部分1204を得ることができる。より具体的には、特定文字情報が同じであれば、特定塩基配列は一致するため、図12に示す特定塩基配列の一致部分1204の下線部が一致する構成である。
そして、図11で前述した出力部308によって、特定文字情報の一致部分1204に基づいて、比較対象配列411と、比較元配列412との比較結果417を出力する。より具体的には、図12に示す比較結果417の下線部が、それぞれの相同性を考慮した特定塩基配列による一致部分である。なお、出力部308による出力の一例については図6に前述したが、「−」(ハイフン)は、それぞれの桁を揃えるために挿入された符号で、塩基を示す文字情報を含まない。
(ゲノム解析装置1100のゲノム解析処理手順)
つぎに、図13を用いて、この発明の実施の形態2にかかるゲノム解析装置1100のゲノム解析処理手順について説明する。図13は、この発明の実施の形態2にかかるゲノム解析装置のゲノム解析処理手順を示すフローチャートである。図13のフローチャートにおいて、まず、ゲノム解析装置1100は、入力部301により、比較対象配列の入力を受け付けたか否かを判断する(ステップS1301)。比較対象配列は、たとえば、図10で前述した、比較対象となる未知の塩基配列である比較対象配列111などで、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列された塩基配列である。
ステップS1301において、比較対象配列111の入力を受け付けるのを待って、受け付けた場合(ステップS1301:Yes)は、つづいて、判断部302および圧縮部303により、比較対象配列111の圧縮処理をおこなう(ステップS1302)。圧縮処理は、たとえば、圧縮規則DB120に記憶された所定の圧縮規則1201に基づいておこなう。なお、圧縮規則1201は、図5−1および図5−2に前述した相同性規則DB130を用いて設定されており、圧縮処理の詳細は図14に後述する。
つづいて、ゲノム解析装置1100は、圧縮化情報DB310から、比較元配列の圧縮文字列を取得する(ステップS1303)。比較元配列は、たとえば、図10で前述した、比較元となる既知の塩基配列である比較元配列112などで、あらかじめ圧縮処理によって、圧縮文字列114に変換されて、圧縮化情報DB310に記憶されている。ここで、圧縮処理は、ステップS1302における圧縮処理と同様にしておこなう構成でもよく、圧縮化情報DB310には、あらかじめ複数の圧縮文字列114が記憶されている構成でもよい。
なお、図13の説明では、比較元配列112の圧縮文字列114を、あらかじめ圧縮化情報DB310に記憶する構成としたが、ステップS1301において、比較対象配列とともに入力を受け付けて、入力ごとにおこなわれる圧縮処理によって取得する構成としてもよい。
つぎに、第1抽出部304および第2抽出部305は、ステップS1302において圧縮処理された比較対象配列111の圧縮文字列113と、ステップS1303において取得された比較元配列112の圧縮文字列114の中から、特定文字情報を抽出する(ステップS1304)。
そして、比較部306により、ステップS1304において抽出された特定文字情報について、特定文字情報の比較処理をおこなう(ステップS1305)。ここで、特定文字情報は、圧縮規則1201で前述したように、相同性規則を考慮して設定されているため、特定文字情報が一致しない場合は、相同性を有していないこととなる。比較処理の詳細は図15に後述する。
そして、出力部308により、ステップS1305において比較された比較結果を出力し(ステップS1306)、一連の処理を終了する。比較結果は、たとえば、図6で前述したようにマトリックスにしてもよく、印刷出力や表示出力や外部装置へデータとして出力することとしてもよい。
つづいて、図14を用いて、この発明の実施の形態2にかかるゲノム解析装置1100における比較対象配列の圧縮処理(図13のステップS1302)手順について説明する。図14は、この発明の実施の形態2にかかる比較対象配列の圧縮処理(図13のステップS1302)手順を示すフローチャートである。
図14のフローチャートにおいて、まず、判断部302により、圧縮規則DB120から相同性規則を考慮した圧縮規則を読み込む(ステップS1401)。圧縮規則DB120には、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)の4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた特定塩基配列を、特定塩基配列とは異なる特定文字情報に変換するという圧縮規則が記憶されている。より具体的には、図12で前述した圧縮規則1201などが記憶されている。
つづいて、ステップS1401において読み込まれた圧縮規則を参照して、判断部302により、比較対象配列に特定塩基配列が含まれているか否かを判断する(ステップS1402)。特定塩基配列は、たとえば、図12で前述した特定文字情報と対応付けられている。
ステップS1402において、比較対象配列に特定塩基配列が含まれている場合(ステップS1402:Yes)は、つづいて、圧縮部303により、比較対象配列111は、圧縮規則に従って圧縮され(ステップS1403)、圧縮文字列113となる。そして、図13におけるステップS1302の比較対象配列の圧縮処理を終了して、ステップS1303へ移行する。
また、ステップS1402において、比較対象配列に特定塩基配列が含まれていない場合(ステップS1402:No)は、出力部308により、比較不可情報を出力し(ステップS1404)、図13に戻ってそのまま一連の処理を終了する。比較不可情報は、たとえば、圧縮規則に従った圧縮がおこなえずに、同様の圧縮規則によって圧縮された既知の比較元配列が存在しない旨を利用者に報知する。
なお、この発明の実施の形態2では、ステップS1401において、相同性を考慮した圧縮規則を読み込む構成としているが、圧縮処理ごとに、相同性規則DB130における相同性規則を参照して、相同性を考慮した圧縮規則1201を設定することとしてもよい。
さらに、図15を用いて、この発明の実施の形態2にかかるゲノム解析装置1100における特定文字情報の比較処理(図13のステップS1305)手順について説明する。図15は、この発明の実施の形態2にかかる特定文字情報の比較処理(図13のステップS1305)手順を示すフローチャートである。
図15のフローチャートにおいて、まず、比較部306により、特定文字情報が一致しているか否かを判断する(ステップS1501)。特定文字情報の比較は、たとえば、図13のステップS1304によって抽出された比較対象配列111の圧縮文字列113および比較元配列112の圧縮文字列114に含まれる特定文字情報同士が一致しているか比較する構成である。
ステップS1501において、特定文字情報が一致している場合(ステップS1501:Yes)は、そのまま図13におけるステップS1305の特定文字情報の比較処理を終了し、ステップS1306へ移行する。
ステップS1501において、特定文字情報が一致しない場合(ステップS1501:No)は、出力部308により、不一致情報を出力し(ステップS1502)、図13に戻ってそのまま一連の処理を終了する。不一致情報は、たとえば、圧縮処理された比較対象配列111と比較元配列112の特定文字情報が一致しなかった旨を利用者に報知する。
このように、この発明の実施の形態2によれば、相同性規則を用いた圧縮規則によって、比較対象となる未知の塩基配列である比較対象配列と、比較元となる既知の塩基配列である比較元配列を圧縮し、圧縮規則における特定文字情報の比較をおこなう。従って、塩基配列の比較に際し、相同性規則を読み込むことなく、相同性を考慮した比較をおこなえるため、塩基配列の適切な比較を高速かつ簡易な処理によっておこなうことができる。
以上説明したように、この発明によれば、長大な塩基配列の比較であっても、比較する塩基配列同士の圧縮規則を比較することで、コンピュータ資源の有効利用を図るとともに、塩基配列の比較の最適化を図ることができる。
なお、本実施の形態で説明したゲノム解析方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーションなどのコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネットなどのネットワークを介して配布することが可能な伝送媒体であってもよい。
(付記1)アデニン、チミン、グアニン、シトシンの4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた特定塩基配列を、前記塩基を示す文字情報とは異なる特定文字情報に変換するという圧縮規則を用いて、ゲノム解析をコンピュータに実行させるゲノム解析プログラムであって、
前記塩基配列を有する任意のゲノム配列情報の入力を受け付けさせる入力工程と、
前記入力工程によって入力されたゲノム配列情報に、前記特定塩基配列が含まれているか否かを判断させる判断工程と、
前記判断工程によって判断された判断結果に基づいて、前記圧縮規則に従って前記ゲノム配列情報を圧縮させる圧縮工程と、
前記圧縮工程によって圧縮されたゲノム配列情報の中から、前記特定文字情報(以下、「第1の特定文字情報」という)を抽出させる第1の抽出工程と、
前記塩基配列を有する既知のゲノム配列情報から前記圧縮規則に従って圧縮された既知の圧縮化ゲノム配列情報の中から、前記特定文字情報(以下、「第2の特定文字情報」という)を抽出させる第2の抽出工程と、
前記第1の抽出工程によって抽出された前記第1の特定文字情報と、前記第2の抽出工程によって抽出された前記第2の特定文字情報とを比較させる比較工程と、
前記比較工程によって比較された比較結果を出力させる出力工程と、
をコンピュータに実行させることを特徴とするゲノム解析プログラム。
(付記2)前記比較工程によって比較された結果、前記第1の特定文字情報と、前記第2の特定文字情報とが一致しない場合、当該第1および第2の特定文字情報の圧縮元となる前記特定塩基配列同士が相同性を有するか否かを判定させる判定工程をコンピュータに実行させ、
前記出力工程は、
さらに、前記判定工程によって判定された判定結果を出力させることを特徴とする付記1に記載のゲノム解析プログラム。
(付記3)前記出力工程は、
前記比較工程によって比較された結果、前記第1の特定文字情報と、前記第2の特定文字情報とが一致した場合、当該第1および第2の特定文字情報と、当該第1および第2の特定文字情報の圧縮元となる前記特定塩基配列とのうち少なくともいずれか一方を出力させることを特徴とする付記1または2に記載のゲノム解析装置。
(付記4)アデニン、チミン、グアニン、シトシンの4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた相同性のある複数の特定塩基配列を、前記塩基を示す文字情報とは異なる共通の特定文字情報に変換するという圧縮規則を用いて、ゲノム解析をコンピュータに実行させるゲノム解析プログラムであって、
前記塩基配列を有する任意のゲノム配列情報の入力を受け付けさせる入力工程と、
前記入力工程によって入力されたゲノム配列情報に、前記特定塩基配列が含まれているか否かを判断させる判断工程と、
前記判断工程によって判断された判断結果に基づいて、前記圧縮規則に従って前記ゲノム配列情報を圧縮させる圧縮工程と、
前記圧縮工程によって圧縮されたゲノム配列情報の中から、前記特定文字情報を抽出させる第1の抽出工程と、
前記塩基配列を有する既知のゲノム配列情報から前記圧縮規則に従って圧縮された既知の圧縮化ゲノム配列情報の中から、前記特定文字情報を抽出させる第2の抽出工程と、
前記第1の抽出工程によって抽出された特定文字情報と、前記第2の抽出工程によって抽出された特定文字情報とを比較させる比較工程と、
前記比較工程によって比較された比較結果を出力させる出力工程と、
をコンピュータに実行させることを特徴とするゲノム解析プログラム。
(付記5)付記1〜4のいずれか一つに記載のゲノム解析プログラムを記録したコンピュータに読み取り可能な記録媒体。
(付記6)アデニン、チミン、グアニン、シトシンの4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた特定塩基配列を、前記塩基を示す文字情報とは異なる特定文字情報に変換するという圧縮規則を用いて、ゲノム解析をおこなうゲノム解析装置であって、
前記塩基配列を有する任意のゲノム配列情報の入力を受け付ける入力手段と、
前記入力手段によって入力されたゲノム配列情報に、前記特定塩基配列が含まれているか否かを判断する判断手段と、
前記判断手段によって判断された判断結果に基づいて、前記圧縮規則に従って前記ゲノム配列情報を圧縮する圧縮手段と、
前記圧縮手段によって圧縮されたゲノム配列情報の中から、前記特定文字情報を抽出する第1の抽出手段と、
前記塩基配列を有する既知のゲノム配列情報から前記圧縮規則に従って圧縮された既知の圧縮化ゲノム配列情報の中から、前記特定文字情報を抽出する第2の抽出手段と、
前記第1の抽出手段によって抽出された特定文字情報と、前記第2の抽出手段によって抽出された特定文字情報とを比較する比較手段と、
前記比較手段によって比較された比較結果を出力する出力手段と、
を備えることを特徴とするゲノム解析装置。
(付記7)アデニン、チミン、グアニン、シトシンの4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた相同性のある複数の特定塩基配列を、前記塩基を示す文字情報とは異なる共通の特定文字情報に変換するという圧縮規則を用いて、ゲノム解析をおこなうゲノム解析装置であって、
前記塩基配列を有する任意のゲノム配列情報の入力を受け付ける入力手段と、
前記入力手段によって入力されたゲノム配列情報に、前記特定塩基配列が含まれているか否かを判断する判断手段と、
前記判断手段によって判断された判断結果に基づいて、前記圧縮規則に従って前記ゲノム配列情報を圧縮する圧縮手段と、
前記圧縮手段によって圧縮されたゲノム配列情報の中から、前記特定文字情報を抽出する第1の抽出手段と、
前記塩基配列を有する既知のゲノム配列情報から前記圧縮規則に従って圧縮された既知の圧縮化ゲノム配列情報の中から、前記特定文字情報を抽出する第2の抽出手段と、
前記第1の抽出手段によって抽出された特定文字情報と、前記第2の抽出手段によって抽出された特定文字情報とを比較する比較手段と、
前記比較手段によって比較された比較結果を出力する出力手段と、
を備えることを特徴とするゲノム解析装置。
(付記8)アデニン、チミン、グアニン、シトシンの4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた特定塩基配列を、前記塩基を示す文字情報とは異なる特定文字情報に変換するという圧縮規則を用いて、ゲノム解析をおこなうゲノム解析方法であって、
前記塩基配列を有する任意のゲノム配列情報の入力を受け付ける入力工程と、
前記入力工程によって入力されたゲノム配列情報に、前記特定塩基配列が含まれているか否かを判断する判断工程と、
前記判断工程によって判断された判断結果に基づいて、前記圧縮規則に従って前記ゲノム配列情報を圧縮する圧縮工程と、
前記圧縮工程によって圧縮されたゲノム配列情報の中から、前記特定文字情報を抽出する第1の抽出工程と、
前記塩基配列を有する既知のゲノム配列情報から前記圧縮規則に従って圧縮された既知の圧縮化ゲノム配列情報の中から、前記特定文字情報を抽出する第2の抽出工程と、
前記第1の抽出工程によって抽出された特定文字情報と、前記第2の抽出工程によって抽出された特定文字情報とを比較する比較工程と、
前記比較工程によって比較された比較結果を出力する出力工程と、
を含むことを特徴とするゲノム解析方法。
(付記9)アデニン、チミン、グアニン、シトシンの4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた相同性のある複数の特定塩基配列を、前記塩基を示す文字情報とは異なる共通の特定文字情報に変換するという圧縮規則を用いて、ゲノム解析をおこなうゲノム解析方法であって、
前記塩基配列を有する任意のゲノム配列情報の入力を受け付ける入力工程と、
前記入力工程によって入力されたゲノム配列情報に、前記特定塩基配列が含まれているか否かを判断する判断工程と、
前記判断工程によって判断された判断結果に基づいて、前記圧縮規則に従って前記ゲノム配列情報を圧縮する圧縮工程と、
前記圧縮工程によって圧縮されたゲノム配列情報の中から、前記特定文字情報を抽出する第1の抽出工程と、
前記塩基配列を有する既知のゲノム配列情報から前記圧縮規則に従って圧縮された既知の圧縮化ゲノム配列情報の中から、前記特定文字情報を抽出する第2の抽出工程と、
前記第1の抽出工程によって抽出された特定文字情報と、前記第2の抽出工程によって抽出された特定文字情報とを比較する比較工程と、
前記比較工程によって比較された比較結果を出力する出力工程と、
を含むことを特徴とするゲノム解析方法。
以上のように、本発明にかかるゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法は、ゲノム構造解析に有用であり、特に長大な塩基配列の全体解析に関して、コンピュータ資源の有効利用を図りつつ、最適に塩基配列を比較する場合に適している。
この発明の実施の形態1にかかるゲノム解析装置の処理の概要を示す説明図である。 この発明の実施の形態1にかかるゲノム解析装置のハードウェア構成を示すブロック図である。 この発明の実施の形態1にかかるゲノム解析装置の機能的構成を示すブロック図である。 この発明の実施の形態1にかかるゲノム解析装置の処理の具体例を示す説明図である。 この発明の実施の形態1にかかるゲノム解析装置における相同性規則DBを用いた処理の具体例を示す説明図である。 この発明の実施の形態1にかかる相同性規則DBに記憶された、核酸における文字情報の一例を示す説明図である。 この発明の実施の形態1にかかる核酸の相同性規則における相同性辞書を示す説明図である。 この発明の実施の形態1にかかる出力部による出力結果の一例を示す説明図である。 この発明の実施の形態1にかかるゲノム解析装置の処理手順を示すフローチャートである。 この発明の実施の形態1にかかる比較対象配列の圧縮処理(図7のステップS702)手順を示すフローチャートである。 この発明の実施の形態1にかかる特定文字情報の比較処理(図7のステップS705)手順を示すフローチャートである。 この発明の実施の形態2にかかるゲノム解析装置の処理の概要を示す説明図である。 この発明の実施の形態2にかかるゲノム解析装置の機能的構成を示すブロック図である。 この発明の実施の形態2にかかるゲノム解析装置の処理の具体例を示す説明図である。 この発明の実施の形態2にかかるゲノム解析装置の処理手順を示すフローチャートである。 この発明の実施の形態2にかかる比較対象配列の圧縮処理(図13のステップS1302)手順を示すフローチャートである。 この発明の実施の形態2にかかる特定文字情報の比較処理(図13のステップS1305)手順を示すフローチャートである。
符号の説明
101,102 圧縮処理
103 比較処理
111 比較対象配列
112 比較元配列
113,114 圧縮文字列
115 比較結果
120 圧縮規則DB
130 相同性規則DB
200 バス
201 CPU
202 ROM
203 RAM
204 HDD
205 HD
206 FDD
207 FD
208 ディスプレイ
209 通信I/F
210 通信回線
211 キーボード
212 マウス
213 スキャナ
214 プリンタ
215 ネットワーク
300 ゲノム解析装置
301 入力部
302 判断部
303 圧縮部
304 第1抽出部
305 第2抽出部
306 比較部
307 判定部
308 出力部
310 圧縮化情報DB

Claims (5)

  1. アデニン、チミン、グアニン、シトシンの4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた特定塩基配列を、前記塩基を示す文字情報とは異なる特定文字情報に変換するという圧縮規則を用いて、ゲノム解析をコンピュータに実行させるゲノム解析プログラムであって、
    前記塩基配列を有する任意のゲノム配列情報の入力を受け付けさせる入力工程と、
    前記入力工程によって入力されたゲノム配列情報に、前記特定塩基配列が含まれているか否かを判断させる判断工程と、
    前記判断工程によって判断された判断結果に基づいて、前記圧縮規則に従って前記ゲノム配列情報を圧縮させる圧縮工程と、
    前記圧縮工程によって圧縮されたゲノム配列情報の中から、前記特定文字情報を抽出させる第1の抽出工程と、
    前記塩基配列を有する既知のゲノム配列情報から前記圧縮規則に従って圧縮された既知の圧縮化ゲノム配列情報の中から、前記特定文字情報を抽出させる第2の抽出工程と、
    前記第1の抽出工程によって抽出された特定文字情報と、前記第2の抽出工程によって抽出された特定文字情報とを比較させる比較工程と、
    前記比較工程によって比較された比較結果を出力させる出力工程と、
    をコンピュータに実行させることを特徴とするゲノム解析プログラム。
  2. アデニン、チミン、グアニン、シトシンの4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた相同性のある複数の特定塩基配列を、前記塩基を示す文字情報とは異なる共通の特定文字情報に変換するという圧縮規則を用いて、ゲノム解析をコンピュータに実行させるゲノム解析プログラムであって、
    前記塩基配列を有する任意のゲノム配列情報の入力を受け付けさせる入力工程と、
    前記入力工程によって入力されたゲノム配列情報に、前記特定塩基配列が含まれているか否かを判断させる判断工程と、
    前記判断工程によって判断された判断結果に基づいて、前記圧縮規則に従って前記ゲノム配列情報を圧縮させる圧縮工程と、
    前記圧縮工程によって圧縮されたゲノム配列情報の中から、前記特定文字情報を抽出させる第1の抽出工程と、
    前記塩基配列を有する既知のゲノム配列情報から前記圧縮規則に従って圧縮された既知の圧縮化ゲノム配列情報の中から、前記特定文字情報を抽出させる第2の抽出工程と、
    前記第1の抽出工程によって抽出された特定文字情報と、前記第2の抽出工程によって抽出された特定文字情報とを比較させる比較工程と、
    前記比較工程によって比較された比較結果を出力させる出力工程と、
    をコンピュータに実行させることを特徴とするゲノム解析プログラム。
  3. 請求項1または2に記載のゲノム解析プログラムを記録したコンピュータに読み取り可能な記録媒体。
  4. アデニン、チミン、グアニン、シトシンの4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた特定塩基配列を、前記塩基を示す文字情報とは異なる特定文字情報に変換するという圧縮規則を用いて、ゲノム解析をおこなうゲノム解析装置であって、
    前記塩基配列を有する任意のゲノム配列情報の入力を受け付ける入力手段と、
    前記入力手段によって入力されたゲノム配列情報に、前記特定塩基配列が含まれているか否かを判断する判断手段と、
    前記判断手段によって判断された判断結果に基づいて、前記圧縮規則に従って前記ゲノム配列情報を圧縮する圧縮手段と、
    前記圧縮手段によって圧縮されたゲノム配列情報の中から、前記特定文字情報を抽出する第1の抽出手段と、
    前記塩基配列を有する既知のゲノム配列情報から前記圧縮規則に従って圧縮された既知の圧縮化ゲノム配列情報の中から、前記特定文字情報を抽出する第2の抽出手段と、
    前記第1の抽出手段によって抽出された特定文字情報と、前記第2の抽出手段によって抽出された特定文字情報とを比較する比較手段と、
    前記比較手段によって比較された比較結果を出力する出力手段と、
    を備えることを特徴とするゲノム解析装置。
  5. アデニン、チミン、グアニン、シトシンの4つの塩基を示す文字情報が配列された塩基配列の中から選ばれた特定塩基配列を、前記塩基を示す文字情報とは異なる特定文字情報に変換するという圧縮規則を用いて、ゲノム解析をおこなうゲノム解析方法であって、
    前記塩基配列を有する任意のゲノム配列情報の入力を受け付ける入力工程と、
    前記入力工程によって入力されたゲノム配列情報に、前記特定塩基配列が含まれているか否かを判断する判断工程と、
    前記判断工程によって判断された判断結果に基づいて、前記圧縮規則に従って前記ゲノム配列情報を圧縮する圧縮工程と、
    前記圧縮工程によって圧縮されたゲノム配列情報の中から、前記特定文字情報を抽出する第1の抽出工程と、
    前記塩基配列を有する既知のゲノム配列情報から前記圧縮規則に従って圧縮された既知の圧縮化ゲノム配列情報の中から、前記特定文字情報を抽出する第2の抽出工程と、
    前記第1の抽出工程によって抽出された特定文字情報と、前記第2の抽出工程によって抽出された特定文字情報とを比較する比較工程と、
    前記比較工程によって比較された比較結果を出力する出力工程と、
    を含むことを特徴とするゲノム解析方法。

JP2006013197A 2006-01-20 2006-01-20 ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法 Expired - Fee Related JP4852313B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006013197A JP4852313B2 (ja) 2006-01-20 2006-01-20 ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006013197A JP4852313B2 (ja) 2006-01-20 2006-01-20 ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法

Publications (2)

Publication Number Publication Date
JP2007193708A true JP2007193708A (ja) 2007-08-02
JP4852313B2 JP4852313B2 (ja) 2012-01-11

Family

ID=38449345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006013197A Expired - Fee Related JP4852313B2 (ja) 2006-01-20 2006-01-20 ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法

Country Status (1)

Country Link
JP (1) JP4852313B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014508994A (ja) * 2011-01-19 2014-04-10 コーニンクレッカ フィリップス エヌ ヴェ ゲノムデータ処理方法
GB2507881A (en) * 2012-11-07 2014-05-14 Ibm Storing data files in a file system which provides reference data files
WO2018139205A1 (ja) * 2017-01-24 2018-08-02 富士通株式会社 情報処理装置、情報処理システム、プログラム及び情報処理方法
CN110178183A (zh) * 2016-10-11 2019-08-27 耶诺姆希斯股份公司 用于传输生物信息学数据的方法和系统
JP2019537781A (ja) * 2016-10-11 2019-12-26 ゲノムシス エスアーGenomsys Sa バイオインフォマティクスデータを格納およびアクセスするための方法およびシステム
US10839939B2 (en) 2014-06-26 2020-11-17 10X Genomics, Inc. Processes and systems for nucleic acid sequence assembly
US11030276B2 (en) 2013-12-16 2021-06-08 10X Genomics, Inc. Methods and apparatus for sorting data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003188735A (ja) * 2001-12-13 2003-07-04 Ntt Data Corp データ圧縮装置及び方法並びにプログラム
JP2004240975A (ja) * 2003-02-03 2004-08-26 Samsung Electronics Co Ltd Dna配列符号化装置及び方法
JP2005087069A (ja) * 2003-09-16 2005-04-07 Dainippon Printing Co Ltd 生物情報のロスレス符号化装置、検索装置、および三次元情報のロスレス符号化装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003188735A (ja) * 2001-12-13 2003-07-04 Ntt Data Corp データ圧縮装置及び方法並びにプログラム
JP2004240975A (ja) * 2003-02-03 2004-08-26 Samsung Electronics Co Ltd Dna配列符号化装置及び方法
JP2005087069A (ja) * 2003-09-16 2005-04-07 Dainippon Printing Co Ltd 生物情報のロスレス符号化装置、検索装置、および三次元情報のロスレス符号化装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014508994A (ja) * 2011-01-19 2014-04-10 コーニンクレッカ フィリップス エヌ ヴェ ゲノムデータ処理方法
GB2507881A (en) * 2012-11-07 2014-05-14 Ibm Storing data files in a file system which provides reference data files
US9355108B2 (en) 2012-11-07 2016-05-31 International Business Machines Corporation Storing data files in a file system
US9922041B2 (en) 2012-11-07 2018-03-20 International Business Machines Corporation Storing data files in a file system
US11221992B2 (en) 2012-11-07 2022-01-11 International Business Machines Corporation Storing data files in a file system
US10409777B2 (en) 2012-11-07 2019-09-10 International Business Machines Corporation Storing data in a file system
US11853389B2 (en) 2013-12-16 2023-12-26 10X Genomics, Inc. Methods and apparatus for sorting data
US11030276B2 (en) 2013-12-16 2021-06-08 10X Genomics, Inc. Methods and apparatus for sorting data
US10839939B2 (en) 2014-06-26 2020-11-17 10X Genomics, Inc. Processes and systems for nucleic acid sequence assembly
US11133084B2 (en) 2014-06-26 2021-09-28 10X Genomics, Inc. Systems and methods for nucleic acid sequence assembly
JP2019537170A (ja) * 2016-10-11 2019-12-19 ゲノムシス エスアー バイオインフォマティクスデータを送信する方法及びシステム
JP2019537781A (ja) * 2016-10-11 2019-12-26 ゲノムシス エスアーGenomsys Sa バイオインフォマティクスデータを格納およびアクセスするための方法およびシステム
CN110178183A (zh) * 2016-10-11 2019-08-27 耶诺姆希斯股份公司 用于传输生物信息学数据的方法和系统
JP7092757B2 (ja) 2016-10-11 2022-06-28 ゲノムシス エスアー バイオインフォマティクスデータを格納およびアクセスするための方法およびシステム
US11386979B2 (en) 2016-10-11 2022-07-12 Genomsys Sa Method and system for storing and accessing bioinformatics data
CN110178183B (zh) * 2016-10-11 2023-11-21 耶诺姆希斯股份公司 用于传输生物信息学数据的方法和系统
JP2018120351A (ja) * 2017-01-24 2018-08-02 富士通株式会社 情報処理装置、情報処理システム、プログラム及び情報処理方法
WO2018139205A1 (ja) * 2017-01-24 2018-08-02 富士通株式会社 情報処理装置、情報処理システム、プログラム及び情報処理方法

Also Published As

Publication number Publication date
JP4852313B2 (ja) 2012-01-11

Similar Documents

Publication Publication Date Title
JP4852313B2 (ja) ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法
EP2820581B1 (en) Compact next generation sequencing dataset and efficient sequence processing using same
Steiner et al. A pipeline for computational historical linguistics
CN103995988B (zh) 一种高通量dna测序质量分数无损压缩系统及压缩方法
JP2007317022A (ja) 手書文字処理装置及び手書文字処理方法
JP5985040B2 (ja) データ解析装置、及びその方法
JP6107513B2 (ja) 情報処理システム、情報処理方法、および情報処理プログラム
US9087118B2 (en) Information search apparatus, and information search method, and computer product
JP6447161B2 (ja) 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法
JP2013172709A (ja) 塩基配列分析のための参照配列処理システム及び方法
CN113886420B (zh) Sql语句的生成方法、装置、电子设备及存储介质
JP6653628B2 (ja) Dna配列解析装置、dna配列解析方法及びdna配列解析システム
JP2007257176A (ja) 情報処理方法、情報処理装置、および情報処理プログラム
JP2009289219A (ja) 翻訳メモリ翻訳装置および翻訳プログラム
CN111090338B (zh) 医疗文书的hmm输入法模型的训练方法、输入法模型和输入方法
KR101790544B1 (ko) 정보 처리 장치, 정보 처리 방법, 및 기억 매체
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
US20200019571A1 (en) System and method for generating filters for k-mismatch search
WO2018139205A1 (ja) 情報処理装置、情報処理システム、プログラム及び情報処理方法
JP3233803B2 (ja) 難読漢字検索装置
JP5032557B2 (ja) パターン認識装置およびパターン認識方法
CN110709830B (zh) 储存有解析程序的记录介质、解析方法以及解析装置
US20050136457A1 (en) Method for analyzing genome
JP2018180808A (ja) 解析プログラム、解析方法および解析装置
CN109545279B (zh) 染色体微阵列数据的分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111024

R150 Certificate of patent or registration of utility model

Ref document number: 4852313

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees