JP2014525080A - バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いたゲノム/プロテオミクス配列の表現、視覚化、比較及びレポーティング - Google Patents

バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いたゲノム/プロテオミクス配列の表現、視覚化、比較及びレポーティング Download PDF

Info

Publication number
JP2014525080A
JP2014525080A JP2014518051A JP2014518051A JP2014525080A JP 2014525080 A JP2014525080 A JP 2014525080A JP 2014518051 A JP2014518051 A JP 2014518051A JP 2014518051 A JP2014518051 A JP 2014518051A JP 2014525080 A JP2014525080 A JP 2014525080A
Authority
JP
Japan
Prior art keywords
character
bioinformatics
base
data
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014518051A
Other languages
English (en)
Other versions
JP6352804B2 (ja
Inventor
シン,ランディープ
クマル,スニル
チャクラバルティ,ビスワループ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2014525080A publication Critical patent/JP2014525080A/ja
Application granted granted Critical
Publication of JP6352804B2 publication Critical patent/JP6352804B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

ゲノム又はプロテオミクスデータを、バイオインフォマティクス文字セット(20)の文字を含んでいるゲノム又はプロテオミクス文字列として符号化する。ゲノム又はプロテオミクスデータの各塩基又はペプチドが、バイオインフォマティクス文字セットの単一の文字で表され、バイオインフォマティクス文字セットの各文字は、(I)塩基又はペプチドと(II)塩基又はペプチドに関連付けられる少なくとも1つの注釈付きデータ値とを符号化する。ゲノム又はプロテオミクス文字列を、バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントを用いて表示することによって、ゲノム又はプロテオミクスデータを表示する。少なくとも1つの文字列機能を、ゲノム又はプロテオミクス文字列において、更新されたゲノム又はプロテオミクス文字列を生成するために実行してよく、その更新されたゲノム又はプロテオミクス文字列において、少なくとも1つの塩基又はペプチドを、実行された文字列操作によって生成された少なくとも1つの追加の又は変更された注釈付きデータを符号化している単一の文字によって表す。

Description

下記は、バイオインフォマティクス、ゲノム処理技術、プロテオミクス処理技術及び関連技術に関する。
ゲノム又はプロテオミクスのデータは、順序付けられた塩基又はペプチドの配列を含む。デオキシリボ核酸(DNA)の場合、その塩基は、アデニン、シトシン、グアニン及びチミンであり、それらは一般に、文字“A”、“C”、“G”及び“T”でそれぞれ表される。リボ核酸(RNA)の場合、その塩基は、アデニン、シトシン、グアニン及びウラシルであり、それらは一般に、文字A”、“C”、“G”及び“U”でそれぞれ表される。DNAとRNAとは、チミン(T)の代わりにウラシル(U)となるところが異なる。
タンパク質及び他のプロテオミクス分子は、ペプチド結合によって結合されるアミノ酸を含む。その対応するプロテオミクスデータは、ペプチド(又はアミノ酸)配列によって適切に表される。(本書において、用語「ペプチド」及び「アミノ酸」を交互に用いて、プロテオミクス配列の要素に言及する。)アミノ酸は一般的に、1文字又は3文字のコードによって表される。例えば、アラニンを文字“A”又は3文字のコード“Ala”で表したり、アルジニンを文字“R”又は3文字のコード“Arg”で表したりする。ペプチド配列において、個々のペプチドは、ペプチド結合が変化しないため、そのアミノ酸成分によって一般に表される。したがって、例えば、“A”又は“Ala”をタンパク質配列において用いて、アラニンを含むペプチドを示す。
ゲノム又はプロテオミクスデータはかなりの有用な情報を含んでおり、それは一般にパターンマッチングによって抽出される。例えば、そのゲノム又はプロテオミクスデータを、過去の臨床調査において特定の病気と相互に関連付けられた疾病マーカについて検索してよく、あるいは、そのデータを、がん、代謝異常などの特定の病気に対する治療計画に用いてよい。祖先系統を示す遺伝子マーカを、対象者の家系を評価するために使用してもよい。法執行機関又は特定の他の分野において、表現型の、遺伝子型との相関が、有用な情報を提供する場合がある。例えば、犯行現場から取得されたDNAサンプルは、その犯人がある一定の身体的特徴を有するということを示す場合があり、したがって、その特徴を持っていないいずれの容疑者も除外する。
配列処理は一般に次の操作、すなわち、配列フラグメントの取得と、配列フラグメントの、参照配列へのアライメント(例えば、いくつかの適切な参照配列には、RefSeq、hg18、hg19、Pan−Genomeなどを含む)と、被験者特有の変異を識別するための、アライメントされた配列の解析と、を伴う。それはさらに、マップするための基準がないデノボ(de novo)アライメントを含んでよく、多様な長さのコンティグをもたらし、続いてそれらに注釈を付けることと、比較分析を実行することとが可能となる。
ゲノム又はプロテオミクスデータは一般に、FastA及びFastQなどの標準化フォーマットで保存される、配列フラグメントとして取得される。FastA又はFastQデータを出力するシーケンサーシステムの1つの適切なラインとして、イルミナ・シーケンサーがある(米国カリフォルニア州サンディエゴのイルミナ社が提供している)。FastAフォーマットは、単一の文字を使用して各塩基又はペプチドを表す(例えば、塩基表現“A”、“C”、“G”及び“T”をDNA用に、あるいは、“A”、“C”、“G”及び“U”をRNA用に)。追加の単一の文字コードを、多義的な塩基を表すために用いてよく、例えば、文字“R”がアデニン又はグアニンのいずれかである多義的な塩基を表してよい。FastQフォーマットは、FastAの拡張であり、配列の塩基についてのクオリティ値を表している文字から成る追加的な行を含む。FastQファイルは、各塩基について2文字を使用する(1文字は塩基値を表し、2番目の文字はクオリティ値を表す)ため、対応するFastAファイルの約2倍の大きさとなる。配列フラグメントを参照配列に対してアライメントして(align)、アライメントされたゲノム又はプロテオミクスデータを生成し、シーケンス・アライメント/マップ(Sequence Alignment/Map;SAM)テキストファイル又は同等のバイナリのBAMファイルに一般に保存する。SAMフォーマットは慣例的に、配列の最初の塩基の座標が1である「1をベースとした」座標系を採用しており、一方でBAMフォーマットは慣例的に、配列の最初の塩基の座標がゼロである「0をベースとした」座標系を採用している。アライメントされた配列を形成している配列フラグメントは、FastAフォーマットに(BAMの場合はバイナリフォーマットに変換されて)適切にとどまる。配列アライメントは、遺伝子、イントロン(タンパク質に翻訳されない遺伝子内の異質の(extraneous)サブ配列)、エクソン(タンパク質に翻訳される遺伝子の一部分)、プロモータ(遺伝子転写を容易にするサブ配列)、転写因子(TF)結合部位を符号化する配列(TFタンパク質はDNA配列のTF結合部位と結合して転写を制御する)、非コードRNA(nc−RNA)に転写する配列などの、機能領域の識別を可能にする。
続いて、アライメントされたゲノム又はプロテオミクス配列を解析して、一塩基多型(single nucleotide polymorphism;SNP)、コピー数多型(copy number variation;CNV)、サブ配列挿入又は欠失(挿入欠失)特性、種々の染色体内及び/又は染色体内の再構成などの、変異を識別する。これらの変異は、疾病マーカ、祖先系統マーカなどの役割を果たす場合がある。
配列処理は、コンピュータ的に集約的であり、大量の結果(product)データを生成する。例として、典型的なゲノム配列決定(sequencing)調査が、約40GBのFastAデータ及び/又は約80GBのFastQデータを生成する場合がある。これらの配列フラグメントのアライメントが、およそ200GBとなる1つ又は複数のSAMファイルを生成する(バイナリBAMファイルでは約100GBに縮小可能である)。アライメントされたデータをパターンマッチングアルゴリズムによって処理して関心のある変異を識別し、これら調査の結果を、種々のテキストファイル、表、スプレッドシート又は他のデータ編集物として通常保存する。
これらの既存の手法には、一定の欠点がある。医師又はレビューアは、所望の情報を得るために、多数のファイルにアクセスして精査することが必要となる可能性がある。さらに、変異解析それ自体が、データストレージの多様性によって複雑となるおそれがある。例えば、変異であって、エクソンにおいて発生した場合は証明力があり、その他においてはないものを考える。変異解析において、最初にパターンマッチングを実行して、変異識別特性(variation signature)にマッチしている候補配列を識別する。その後、ソースSAMファイルにアクセスして、その候補配列マッチがエクソンにおいて発生するかどうかを判定する。この変異解析は2つのステップ、すなわち、(1)塩基配列をマッチさせるステップ、(2)その塩基配列マッチをエクソンとマッチさせるステップ、を含む。(あるいは、最初にSAMの内容を用いてエクソンデータを識別し、続いてそのエクソンデータだけに塩基配列マッチングを適用してもよい。しかしながら、ここでも同様に、これは2段階の処理となる)。
配列決定結果の提示もまた、データストレージの多様性によって複雑になる。一般に、各変異解析の結果を、それ独自のテキストファイル、表、スプレッドシート又は他のデータ編集物に保存する。したがって、医者又は他のレビューアは、調査の結果にアクセスするために、種々のデータ編集物を精査することが必要となる。このプロセスには、情報の、相乗的な又は不一致の組み合わせを見落とす可能性がある。さらに、テキストフォーマットの表及び/又はスプレッドシートは、理解することが困難な場合がある。1つの解決策は、選択された結果をグラフ、色分けされた図などの形式で追加的に提示することである。しかしながら、そうした補助的なデータ表現の生成が、計算の複雑性をさらに増大させる。その上、グラフィカルな結果サマリは、これらの結果を、基礎をなすゲノム又はプロテオミクス配列データから切り離してしまうおそれがある。
本書において開示している新しい改良された装置及び方法を、以下に与える。
1つの開示している態様によると、方法が、ゲノム又はプロテオミクスデータを、バイオインフォマティクス文字セットの文字を含んでいるゲノム又はプロテオミクス文字列として符号化するステップであって、(i)ゲノム又はプロテオミクスデータの各塩基又はペプチドが、バイオインフォマティクス文字セットの単一の文字によって表され、(ii)バイオインフォマティクス文字セットの各文字が、(I)塩基又はペプチドと(II)塩基又はペプチドに関連付けられる少なくとも1つの注釈付きデータ値とを符号化する、ステップと、ゲノム又はプロテオミクス文字列を、バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントを用いて表示することによって、ゲノム又はプロテオミクスデータを表示するステップと、を含む。その符号化するステップ及び表示するステップは、デジタル処理装置によって適切に実行される。当該方法は、ゲノム又はプロテオミクス文字列において、更新されたゲノム又はプロテオミクス文字列を生成するために、少なくとも1つの文字列機能を実行するステップであって、更新されたゲノム又はプロテオミクス文字列において、少なくとも1つの塩基又はペプチドが、実行された文字列操作によって生成された少なくとも1つの追加の又は変更された注釈付きデータを符号化している単一の文字によって表される、ステップ、をさらに含む。
別の開示している態様によると、デジタル処理装置が、すぐ直前の段落に記載の方法を実行するように構成される。別の開示している態様によると、固定のストレージ媒体が、デジタル処理装置によって読取可能であり、すぐ直前の段落に記載の方法を実行するためにデジタル処理装置によって実行可能な命令を保存している。
別の開示している態様によると、固定のストレージ媒体が、デジタルプロセッサによって読取可能であり、バイオインフォマティクス文字セットの文字を含んでいるゲノム又はプロテオミクス文字列として表されるゲノム又はプロテオミクスデータを処理するソフトウェアを記憶しており、ゲノム又はプロテオミクスデータの各塩基又はペプチドがバイオインフォマティクス文字セットの単一の文字によって表され、バイオインフォマティクス文字セットの前記文字は塩基又はペプチドと塩基又はペプチドに関連付けられる追加のデータとを符号化する。いくつかの実施形態において、そのソフトウェアは、ゲノム又はプロテオミクスデータを文字列処理演算を用いて処理する。いくつかの実施形態において、そのソフトウェアは、塩基又はペプチドを表している文字のうち選択されたバイナリビットをゼロにするために、ゲノム又はプロテオミクスデータをビット単位のマスキング演算を用いて処理する。いくつかの実施形態において、当該ストレージ媒体は、バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントをさらに記憶し、そのソフトウェアは、ゲノム又はプロテオミクスデータがバイオインフォマティクスフォントを用いて表示されるように表示処理を実行する。
1つの利点が、ゲノム又はプロテオミクスデータの、よりコンパクトな集中型のストレージにある。
別の利点が、塩基クオリティ値、機能領域情報、変異情報又は他の注釈付きデータを、塩基又はペプチドと共に、コンパクトな単一の文字表現で保存することにある。
別の利点が、塩基クオリティ値、機能領域、変異などの注釈付き情報を表現又は描画している弁別的なマーク又は他のフォント特性を含む、塩基又はペプチドについての直観的な表示を提供することにある。
別の利点が、ゲノム配列を従来型の文字列演算を用いて比較することにある。文字列の比較は、アノテーションにおける特定の変化(例えば、メチル化)だけを検出するように容易に構成可能である。
他の利点が、種々の調査グループによって注釈付けされた参照配列の種々のアノテーションの比較と、通常のゲノムに対するがんのゲノムにおけるエピジェネティックな変化の視覚化のたやすさとを、容易にすることを含む。
下記の詳細説明を読んで理解すると、当業者において、さらなる利点が明らかにあるであろう。
バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いた、配列アライメント/解析を概略的に示す。 塩基クオリティスコアを塩基配列と共に表現する、適切な弁別的なマーク付け体系の表である。 弁別的なマークで描写されたコード化配列(CDS)開始及び終止コドンを含む、塩基配列の一部分の表現を示す。 塩基に対して注釈付けされている領域的な変異の情報を表現する、いくつかの適切な弁別的なマークの表である。 2つのエクソンの間に置かれたイントロンを描写している選択された弁別的なマークを含んでいる、塩基配列の一部分の表現を示す。 バイオインフォマティクスフォントのフォント文字を、塩基に対するビットマップと弁別的なマークに対するビットマップとをビット単位のOR演算を用いて組み合わせることによって、構成する手法を概略的に示す。 弁別的なマークで描写されたコード化配列(CDS)開始及び終止コドンとイントロンを描写している弁別的なマークとを含む塩基配列の一部分の表現を、図6のバイオインフォマティクスフォントの実施形態から成る弁別的なマークを用いて示す。 チェックボックスとともに表示された塩基配列の一部分を概略的に示しており、そのチェックボックスによって、レビューアが、表示されている塩基配列においてどのアノテーションタイプが示されるべきかを選択可能となっている。 アミノ酸を表すバイオインフォマティクスフォントのフォント文字を、アミノ酸に対するビットマップと弁別的なマークに対するビットマップとをビット単位のOR演算を用いて組み合わせることによって、生物物理学的特性とともに構成する手法を概略的に示す。
図1を参照すると、ゲノム又はプロテオミクス配列決定解析システムが配列決定ラボ10を含み、その配列決定ラボは、DNA、RNA、タンパク質などのサンプルを準備及び配列決定して、塩基配列フラグメント(ゲノムサンプルに対して)又はペプチド配列フラグメント(プロテオミクスサンプルに対して)を生成し、それを配列フラグメントとしてFastA又はFastQフォーマット12で保存する。例示として、DNA物質のサンプルを、DNA精製及びクローニング、ジデオキシヌクレオチド三リン酸塩(ddNTP)ターミネータなどの蛍光標識された鎖ターミネータを用いるポリメラーゼ連鎖反応(PCR)などの手法による増幅、並びにキャピラリー電気泳動又は別の配列決定手法による配列決定などの作業によって、準備及び配列決定してよい。ラボ10において、これらの種々の作業を、手動の、半自動化された又は完全に自動化された処理作業として行ってよい。例えば、特定のサンプル準備作業を手動で、又は半自動化された方法で行い、続いて、準備したサンプルを自動化された配列決定装置を用いてロードし配列決定してよい。追加的に又は代替的に、ラボ10は、プロテオミクス配列決定を、エドマン分解及び質量分析、又は他の適切な手法を用いて行ってよい。
例示的な配列決定ラボ10の出力には、FastA又はFastQフォーマット12における配列決定フラグメントを含む。これらは従来型のフォーマットである。FastAでは、塩基又はペプチドの配列を文字の配列によって表し、ここで、それぞれの文字が1つの塩基又はペプチドを表す。例えば、ゲノム配列「アデニン‐グアニン‐シトシン」はFastAにおいて「AGC」で相応に表される。FastQフォーマットでは、塩基又はペプチドを表している文字列と平行する、第2の文字列が追加される。その第2の文字列は、各塩基又はペプチドについてのクオリティ値を、単一の文字コードを用いて表す。したがって、FastQにおいて各塩基又はペプチドは、2つの文字によって表される。すなわち、第1の(例えば、塩基配列)文字列における第1の文字が塩基又はペプチドの識別を与え、第2の(例えば、クオリティ値)文字列における第2の文字が自動化されたシーケンサー(又は他の適切なクオリティ評価)によって出力された塩基又はペプチドに対するクオリティ値を与える。
引き続き図1を参照すると、配列アライメント/解析モジュール14が、配列フラグメント12を受信する。フォーマット変換モジュール16が、FastA又はFastQ配列を単一の文字列(single-string)表現18に、バイオインフォマティクス文字セット20を用いて変換する。本書で開示するように、バイオインフォマティクス文字セット20は、ゲノム又はプロテオミクス配列をコンパクトな単一の文字列フォーマットで表すように設計され、そのフォーマットにおいて、各塩基又はペプチドが、バイオインフォマティクス文字セット20の単一の文字によって表される。その単一の文字は、塩基又はペプチドと、その塩基又はペプチドに関連する注釈付き(annotated)データとの双方を符号化する。
ここで、FastAなどの既存のフォーマットはコンパクトではないということが理解される。例えば、ゲノムデータについての符号化を考える。4つの塩基を符号化するために、4つの符号化値が必要とされる(チミン又はウラシルのいずれかを想定しているが、双方ではない)。これらの4つの可能性は、わずか2ビットで符号化することが可能である。さらに多義性も符号化する場合、その結果これは、起こりうる値を15個もの数だけ必要とする可能性がある。それらはすなわち、「既知の」塩基が4つ、追加的な多義的な「2塩基の」組み合わせ(例えば、アデニン又はシトシンのいずれかであることが既知の部位)が6つ、起こりうる多義的な「3塩基の」組み合わせ(例えば、アデニン、シトシン又はグアニンであることが既知の部位)が4つ、そして、完全に多義的な組み合わせ(すなわち、アデニン、シトシン、グアニン又はチミンのいずれかによる部位)が1つである。これらの15個の取りうる値は、わずか4ビットで符号化することが可能である。符号化すべき多義性の詳細を少なくする場合、必要とされる取りうる値が少なくなる。例えば、4つの塩基と単一の多義的な“N”コードとを使用する場合、その結果取りうる値はわずか5個となり、それは3ビットで符号化可能となる。しかしながら、FastAは、フルバイト(8ビット)を用いて、その情報を表している。
FastAの1バイト符号化スキームは、相当な利点を有していない。シングルバイト手法は、従来型のデジタルプロセッサアーキテクチャに適合し、そのアーキテクチャにおいて、データはそれぞれ8ビットというバイト単位に構造化される。その上、“A”、“C”、“G”、“T”の文字(及び、“N”などの随意的な多義的な文字)は、情報交換標準コード(ASCII)文字セットに適合し、それに応じて、既存の文字列機能を、FastAデータを操作するのに用いることが可能となる。しかしながら、ここで、FastAは各バイトについての符号化能力の相当量を「無駄にしている」ということが認められる。1バイトという8ビットには、256個の取りうる値を(0から255までの範囲で)格納することが可能なのである。ところがFastAは、15(又はそれ未満)の起こりうる組み合わせしか使用していない。
FastQは、FastAの拡張である。FastQでフォーマットされたファイルの塩基符号化(又はペプチド符号化)文字列はFastAのものと同一であり、ゆえに、前述の見解はFastQにも同様に当てはまる。さらにFastQは、塩基クオリティ値を含んでいる第2の文字列を含み、1バイトを各クオリティ値に使用している。phredクオリティスコアを符号化する場合、これらのスコアは0から93までの範囲となる。94個の取りうる値はわずか7ビットで符号化可能であるが、FastQは、フルの8ビットバイトを使用して、そのクオリティ値を符号化している。
対照的に、本書で開示するバイオインフォマティクス文字セット20の実施形態は、追加的な利点を有する、よりコンパクトなストレージを提供する。バイオインフォマティクス文字セット20は、単一の文字を用いて、配列の塩基又はペプチドの各々を表す。既存のデジタル処理アーキテクチャに適合するという観点でFastA及びFastQの利点を維持するために、各文字は通常、シングルバイト又は2バイトとなる。各文字に対してシングルバイトを用いるようにバイオインフォマティクス文字セット20を設計することは、その文字セットが、同様に1文字につきシングルバイトを使用している標準ASCIIにうまく適合する、ということを意味する。一方、バイオインフォマティクス文字セット20が各文字に対して2バイトを用いる実施形態は、1文字につき2バイトを使用している標準ユニコードにうまく適合する。
しかしながら、バイオインフォマティクス文字セット20は、ASCII又はユニコードではない。むしろ、文字のビットのうち1つのサブセットを用いて塩基又はペプチドを表すように、かつ、文字のビットのうち別のサブセットを用いてその塩基又はペプチドに関連付けられた少なくとも1つの注釈付きデータ値(及び典型的にはいくつかの異なる注釈付きデータ値)を表すように、バイオインフォマティクス文字セット20を設計する。
例示として、表1が、バイオインフォマティクス文字セット20の一実施形態を示す。その文字セット20は、1塩基につき単一の文字を用いてゲノムデータ(より具体的には、DNA配列)を表すのに適切であり、それぞれの文字は16ビットを有する2バイト文字となっている。単一文字のビットを、b151413121110で適宜記す。ここで、b15は最も大きい(significant)ビットであり、bは最も小さい(not significant)ビットである。最も大きいバイトは、ビットb151413121110を含み、一方、最も小さいバイトは、ビットbを含む。表1のバイオインフォマティクス文字セット20において、ビットbは、塩基を表すために使用される。5つの許容値、すなわち、DNAの4つの塩基を表す4つの値と、不明な塩基を表している5番目の「多義的な」値と、が存在する。残りの13ビットb151413121110は、その塩基に関連付けられた種々の注釈付きデータ値を表すために使用される。(例示については表1参照)。
表1のバイオインフォマティクス文字セット20の例示的な実施形態の場合、フォーマット変換モジュール16が実行するフォーマット変換が、次のように適宜動作する。すなわち、FastAコード“A”を文字0000000000000000bin(0000hex)に変換し、FastAコード“C”を文字0000000000000001bin(0001hex)に変換し、FastAコード“G”を文字0000000000000010bin(0002hex)に変換し、FastAコード“T”を文字0000000000000011bin(0003hex)に変換し、そして、多義的な塩基に対応するすべての他のFastAコードを文字0000000000000100bin(0004hex)に変換する。FastQは、この実施形態において同様に変換されるが、さらにbに、表1に示す符号化スキームに従ったクオリティ値の符号を記される点が異なる。ここで留意すべきは、この符号化スキームにより、phredスコアをわずか4ビットで表すことが可能となるが、いくらかの分解能の減少を伴うことである。(例えば、b=0100は、そのphredスコアが31から40の範囲にあるものとしか明示しない。)一般に、人はクオリティスコアが「高い」か「低い」かを知りたいだけであり、ゆえに、このクオリティ値の分解能の減少は通常問題にならない。
表1のバイオインフォマティクス文字セット20の例示的な実施形態の場合、フォーマット変換モジュール16が実行するフォーマット変換は、残りのアノテーションビットb151413121110にデフォルト値のゼロを設定する。これは、アライメントや変異解析がまだ実行されていないという現状を反映しており、したがって、エクソン、イントロンなどに属していると識別される塩基は全く存在しない。
図1の例示的な実施形態において、配列決定ラボ10はFastA又はFastQフォーマットでデータ12を生成し、続いてそれをフォーマット変換モジュール16がデータ表現18へとバイオインフォマティクス文字セット20を用いて変換する。この手法は有利なことに、配列アライメント/解析モジュール14が従来型のFastA又はFastQフォーマットで生成された配列決定フラグメントデータを処理することを可能にする。しかしながら、代替的に、配列決定ラボ10は、配列フラグメントをバイオインフォマティクス文字セット20の表現で直接出力してもよい。
引き続き図1を参照すると、バイオインフォマティクス文字セット20表現における配列フラグメント18を、配列アライメントモジュール22が処理する。配列アライメントモジュールは、(より)完全で(より)長いアライメントされた配列を形成するように配列フラグメントを「共に接合する」目的で、典型的には参照配列24を参照しながら、配列フラグメントをアライメントするように動作する。アライメント処理は、FastA配列フラグメントに対して慣例的に適用されるもの、すなわち、配列フラグメントの端を共にアライメントして接合するために、それらの端をマッチさせることに、類似する。しかしながら、データ表現18を用いた場合、アノテーションビット(例えば、表1の例におけるクオリティ値アノテーションb)は、ミスマッチをもたらす可能性がある。換言すると、異なるクオリティ値を有する2つの同一の塩基は、その異なるクオリティ値が原因でマッチしないおそれがある。
Figure 2014525080
この論点を解決するために、アノテーションビットの値を、アライメント処理の目的で、適宜ゼロに設定する。これはビット単位の“AND”マスクを用いて十分行うことが可能であり、それにおいて、アノテーションビット位置にゼロを設定し、塩基ビット位置に1を設定する。表1の例について、適切なビット単位マスクは、Mbase=0000000000000111bin(0007hex)であろう。このマスクをバイオインフォマティクス文字セット20の文字Cに適用すること(適宜C&Mbaseと記し、ここでアンパサンドはビット単位の“AND”演算を示す)は、すべてのアノテーションビットをゼロで初期化するという効果を有し、一方、文字Cの塩基ビットを変更せずに通過させる。バイナリマスキングは低レベルのデジタル処理演算であり、したがって一般にかなり効果的である。バイオインフォマティクス文字セット20から成るK文字の文字列S=[C〜C]が表す塩基配列について、それぞれの文字を、例えば、K回の繰り返しのループを用いてマスクMbaseを各文字C〜Cに順次反復的に適用し、個々にマスクする必要があるであろう。表記上の利便性のため、本書ではこの文字列マスキング演算を、S&Mbaseという形式の擬似コードによって表す。ここで、Sは塩基配列文字列であり、Mbaseは文字列Sの単一の文字についてのバイナリマスクである。したがって、塩基配列フラグメントS及びSをフラグメントアライメントの目的で比較するために(すなわち、アノテーションビットを考慮しない、塩基についての比較のため)、その比較をS&MbaseとS&Mbaseとの間で行う。
配列アライメントモジュール22は、配列フラグメントを参照配列24を参照しながらアライメントする場合、エクソン、イントロン、プロモータ領域、コード化配列(CDS)領域などの、有意性のあるゲノム領域をさらに識別してもよい。これは、参照配列24がラベル付け又は別の方法で意味付けされたこれらの領域を有している場合に、達成可能である。配列アライメントモジュール22は、上記の機能領域を識別する場合、これらの領域を示すように、対応するアノテーションビットを適宜設定する。したがって、例えば(この場合も先と同様に、表1の例示的なバイオインフォマティクス文字セットを考えると)、ある塩基をイントロンの一部として識別する場合、その結果、ビットb10に1を設定する。ある塩基をエクソンとして識別する場合、その結果、ビットbに1を設定する。
留意すべきは、配列アライメントモジュール22は、アライメント処理によって識別されるゲノム領域を符号化しているアノテーションビットだけを更新できる、ということである。その一方で、配列アライメントモジュール22は、そのアライメントによって特定されない変異情報を符号化しているアノテーションビットを更新できない。例えば、配列アライメントモジュール22は、ある塩基が疾病マーカの一部であるかどうかを符号化しているビットb15を更新できない。
いくつかの例において、配列アライメントモジュール22は、いくつかの配列フラグメントをアライメントされた配列に接合することに失敗するおそれがある。これらの残りのアライメントされていない配列フラグメントは、クローニング処理で使用されたホストセルからの残留DNA物質であってよく、あるいは、配列決定処理における誤りを反映してよく、あるいは、他の要素に起因してよい。これらの残りのアライメントされていない配列フラグメントをデータ構造26で適切に保存し、そのアライメントされていないフラグメントもまたバイオインフォマティクス文字セット20を用いて表すようにする。
配列アライメント処理で作った所望の生成物であるアライメントされた配列を、配列アライメント/マップ(SAM)ファイル又は同等のバイナリBAMファイル30に適切に保存する。しかしながら、SAMファイルでは、アライメントされた配列を、バイオインフォマティクス文字セット20を用いて適切に表している。有利なことに、これは、塩基クオリティ値(表1の例におけるアノテーションビットb)及び機能領域情報(表1の例におけるアノテーションビットb1413121110)などのアノテーション情報それ自体をゲノム配列の塩基と共に、SAM又はBAMファイル30内に直接保存する、ということを意味する。
アライメントされた配列を、1つ又は複数の変異解析を行う変異解析モジュール32が処理する。これらの解析は典型的にはパターンマッチング処理を用いて行い、それにおいて、アライメントされた配列を識別特性データベース34から得られるマーカパターンと比較する。そのマーカパターンもまた、バイオインフォマティクス文字セット20を用いて保存することが好ましい。ビット単位マスキングを、アノテーションと変異解析との関連に基づいてそのアノテーションを選択的に除外又は維持するために、使用してよい。
例えば、変異であって、エクソンにおいて発生した場合は証明力があり、その他においてはないという例を考える。この場合、その塩基がエクソンの一部であるかどうかは関連するが、その他のアノテーション(例えば、塩基クオリティスコア)は関連しない。表1のバイオインフォマティクス文字セット20の実施形態において、その塩基がエクソンの一部であるかどうかは、アノテーションビットbが示す。したがって、その比較を、ビット単位マスクがM=0000001000000111bin(0207hex)である配列文字列S&Mについて、適切に行う。このマスクは、エクソンアノテーションビットbと塩基ビットbとを維持し、その文字の残りのビットをゼロで初期化する。データベース34内の変異識別特性の塩基は、0000001000000xxxbin(020Xhex)という形式を有し、ここで、xは0又は1のいずれかであってよく、Xは、000、001、010、011又は100のいずれかを意味する(残りの可能性は表1の実施形態のフォーマリズムではいずれも符号化しない)。したがって、S&Mと識別特性とにおける比較が、所望のパターンマッチングを提供する。
有利なことに、この手法は、変異解析をビット単位の演算と文字/文字列機能とを用いて実行し、実際に、C++、Perl若しくは他のプログラミング言語が備える、又はスクリプト言語などが備える標準の文字/文字列ライブラリなどの、既存の文字/文字列機能ライブラリ36を使用してよい。標準文字又は文字列機能は、一般に、ASCII又はユニコードなどの標準文字セット上で動作するように設計されるものである。しかしながら、バイオインフォマティクス文字セット20が標準文字セット(例えば、ASCII又はユニコード)に「適合する」場合、その文字/文字列機能もまたバイオインフォマティクス文字セット20と共に動作することになる。これに関連して、バイオインフォマティクス文字セット20は、同じ文字サイズ(例えば、ASCIIに対して1バイト、又は、ユニコードに対して2バイト)を用いて、かつ、使用されている特定のデジタル処理プラットフォーム上でASCII又はユニコードにおいて特別に識別される有意性を持つ可能性があるどんな「特殊な」文字も回避する場合、ASCII又はユニコードに「適合する」。例えば、ヌル文字を、ASCII文字列のターミネータとしていくつかのプラットフォーム上で用いてよく、その場合、シングルバイト文字を用いているバイオインフォマティクス文字セット20の一実施形態の文字は、ASCIIヌル文字と同じ数値コードを決して持つべきではない。さらに、これに関連して、ASCII又はユニコードに「適合している」バイオインフォマティクス文字セット20とは、バイオインフォマティクス文字セット20で記される文字列が、標準の文字列機能に対して的確な入力となるように、使用されている特定のデジタル処理プラットフォームにおいてASCII又はユニコード文字列と同じ方法で整形される、ということを意味する。例えば、いくつかのプラットフォームにおいて、ユニコード文字列が2バイトのヘッダを含む場合があり、そのヘッダはその文字群がビッグエンディアンであるのか(一般にヘッダFEhex、FFhex)あるいはリトルエンディアンであるのか(一般に、ヘッダFFhex、FEhex)を示している。上記の場合、適切な2バイトヘッダを、バイオインフォマティクス文字セット20で表される文字列の前に、それをユニコード向けに設計されている標準の文字列機能に入力することに先行して、置くべきである。
変異解析モジュール32は、関心のある変異を識別する場合、その変異を示すように対応するアノテーションビットを適切に設定する。したがって、例えば(この場合も先と同様に、表1の例示的なバイオインフォマティクス文字セットを考えると)、疾病マーカをゲノム配列において識別する場合、その結果、その疾病マーカにマッチしている各塩基のビットb15に1が設定され、この更新はSAM(又はBAM)ファイル30においてなされる。配列アライメントモジュール22はすでに、アライメント処理に基づいて識別されたアノテーションビットを更新し、SAM(又はBAM)ファイル内にそれらのアノテーションを含んでいるため、変異処理を完了すると、SAM(又はBAM)ファイル30は、すべての関連する機能領域識別、変異に関連する情報、及び塩基クオリティ値を、単一のコンパクトな表現で含むという結果になる。
配列処理(例えば、アライメントや変異解析)を完了した場合、その結果を、人間が認知可能なフォーマットで表示してよい(例えば、ディスプレイ装置上に表示してもよく、あるいは、プリンタ又は他のマーキングエンジンを介して印刷してもよい)。慣例的に、上記の表示には、配列を従来型のシンボル(例えば、DNA塩基配列に対する、文字“A”、“C”、“G”及び“T”の組み合わせ)を用いてリストアップすることと、変異解析結果を要約しているレポートを提供することとを含む。文字を用いることに代わって、いくつかのシステムでは、他のシンボルを塩基に対して使用する。例えば、一慣例において、アデニンはシンボル“×”で表され、シトシンはシンボル“□”で表され、グアニンはシンボル“+”で表され、そして、チミンはシンボル“ ”で表される。FastA又はFastQ配列文字列がASCIIのサブセットを用いているため、配列リストを生成することは慣例的に容易である。すなわち、文字“A”はASCII及びFastA(又はFastQ)の双方において41hexで表され、文字“C”はASCII及びFastA(又はFastQ)の双方において43hexで表され、文字“G”はASCII及びFastA(又はFastQ)の双方において47hexで表され、そして、文字“T”はASCII及びFastA(又はFastQ)の双方において54hexで表される。したがって、FastA(又はFastQ)塩基文字列は、ASCII文字列であり、ASCIIにマップされるいかなるフォントを用いても印刷可能である。
配列アライメント/解析モジュール14は、一方で、ASCII(又はユニコード)とは異なるバイオインフォマティクス文字セット20を使用するが、とはいえ、ASCII(又は、2バイト文字セットの実施形態に対してはユニコード)に適合することが好ましい。結果として、バイオインフォマティクス文字セット20を用いて表されるゲノム又はプロテオミクスデータは、ASCII(又は、2バイト文字の実施形態においてはユニコード)にマップする標準フォントを用いて形式的には印刷可能であるが、表示されるデータは無意味なものに見えるであろう。それに応じて、配列アライメント/解析モジュール14は、バイオインフォマティクス文字セット20にマップされるバイオインフォマティクスフォント40を含む。フォント40は、バイオインフォマティクス文字セット20の各文字について、表示されるフォント文字を提供する。配列解析結果表示モジュール42が、バイオインフォマティクスフォント40を用いてバイオインフォマティクス文字セット20で表されるゲノム又はプロテオミクス配列を適切に表示する。バイオインフォマティクスフォント40のフォント文字は、好ましくは、(1)塩基又はペプチドを表す文字(又は随意に、ペプチドを表す3文字のシーケンス)、(2)追加的な特徴、例えば、弁別的なマーク、ボールド体及び/又はイタリックフォントスタイルなどのフォントスタイルの特徴等、などを含み、その塩基又はペプチドに関連付けられる注釈付きデータを、バイオインフォマティクス文字セット20の表現文字で表す。文字を使用することに代わって、塩基又はペプチド表現は、(1)別の種類のシンボル、すなわち、アデニン=“×”、シトシン=“□”、グアニン=“+”及びチミン=“ ”などを用いてよい。有利なことに、配列解析結果表示モジュール42は、ASCII又はユニコードテキストを表示するためのプラットフォームが提供する、従来型のテキスト表示ルーチンを使用することができる。これらのテキスト表示ルーチンを適合させて、その表示ルーチンをバイオインフォマティクスフォント40を用いて表示(又は印刷)するように単に呼び出すことによって、ゲノム配列を表示するようにする。
配列アライメント/解析モジュール14を、例示的なコンピュータ50などのデジタル処理装置で具体化してよい。そのデジタル処理装置は、ソフトウェアを実行するようにプログラムされたデジタルプロセッサ(図示せず)を含み、そのソフトウェアは、種々のモジュール16、22及び32を実装しており、バイオインフォマティクスフォント40を保存している記憶域を含んでいる。例示的なコンピュータ50の他に、別のデジタル処理装置、例えば、デジタルプロセッサを含む専用のDNA配列決定装置、又はネットワークサーバシステム、又は配列アライメント/解析モジュール14を実施するように再プログラムされたゲーム機械などのグラフィック処理装置(GPU)、などを用いてもよい。配列アライメント/解析モジュール14は随意に、(コンピュータ50の例示的なディスプレイ52などの)ディスプレイ装置を含み、又はディスプレイ装置への接続を有し、バイオインフォマティクスフォント40を用いて表されるゲノム又はプロテオミクス配列などの情報を表示する。
さらに、配列アライメント/解析モジュール14を、バイオインフォマティクスフォント40と、デジタルプロセッサ(コンピュータ50のプロセッサなど)が実行した場合に種々のモジュール16、22及び32を実施するソフトウェアとを保存している、固定のストレージ媒体で実施してもよい。上記の固定のストレージ媒体は、例として、次のもの、すなわち、ハードドライブ若しくは他の磁気ストレージ媒体、光ディスク若しくは他の光学ストレージ媒体、読取専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、フラッシュメモリ若しくは他の静電記憶装置又は静電記憶装置の組み合わせ、などうちの1つ又は複数を含んでよい。
配列アライメント/解析モジュール14を説明している概略的な図1は、バイオインフォマティクス文字セット20を概略的に示している。しかしながら、十分理解されるように、いくつかの実施形態において、バイオインフォマティクス文字セット20は、バイオインフォマティクス文字セット20を用いて書式設定されたゲノム又はプロテオミクス配列を生成及び操作する、種々のモジュール16、22及び32が行う処理によって暗に具体化される。一方で、バイオインフォマティクスフォント40を、ビットマップ又は他のフォント文字表現のセットとして保存する。いくつかの実施形態において、所与のフォント文字について、保存されている構成要素の特性ビットマップを組み合わせたり変更したりすることによって、「必要とされるとおりに」ビットマップを構成するということが考えられる。例えば、注釈付きデータを表している1つ又は複数の弁別的なマークを、塩基又はペプチドを表す文字を表現しているビットマップに追加することによってなされる。
例示的な配列アライメント/解析モジュール14を、図1と表1で与えられたバイオインフォマティクス文字セット20の実施形態とを参照しながら説明してきたが、バイオインフォマティクス文字セット20のいくつかのさらなる実施形態といくつかの例示的なバイオインフォマティクスフォント文字とを、次に説明する。
図2及び表1を参照して、塩基及び塩基クオリティ値情報の双方を含んでいるバイオインフォマティクス文字セット20の文字を適切に表示する、いくつかのフォント文字を示す。この手法において、塩基クオリティ値を示す弁別的なマークは、塩基クオリティアノテーションビットbから特定され、1つ又は複数の(図2に示すように)結合された、又は分離された線の断片のセットを含む。その線の断片のトータルの長さが塩基クオリティ値を示す。留意すべきは、図2の実施形態において、弁別的なアノテーション値1000bin、1001bin及び1010binがすべて同一のフォント文字にマップされるということである。したがって、そのフォント文字は、70より大きいphredスコアを示す。図2の弁別的なマークは、文字“A”によって示される塩基アデニンを示している。より一般的には、適切な実施形態において、塩基アデニンは文字“A”又は“a”で示され、塩基シトシンは文字“C”又は“c”で示され、塩基グアニンは文字“G”又は“g”で示され、塩基チミンは文字“T”又は“t”で示され、そして、塩基ウラシルは文字“U”又は“u”で示される。図2の弁別的なマーク(すなわち、線)は、これらの文字のいずれにも容易に適用される。有利なことに、図2に示すフォント文字によって表される塩基を解釈しているレビューアは、配列内の各塩基のクオリティ値に容易にアクセスすることが可能となる。
留意すべきは、当業者に理解されるであろうように、本書において、語句「文字“A”又は“a”」は、文字“A”又は“a”として認識可能なシンボルを示すということである。文字“A”又は“a”を、例えば、アリアル(Arial)・フォント、又はタイムズ・ニュー・ローマン(Times New Roman)・フォント、又はクーリエ(Courier)・フォント、又は手書きのフォントなどを用いて種々に表してよい。類似の注解が、バイオインフォマティクスフォント40において塩基又はペプチドを示す他の文字に当てはまる。
図3及び表1を参照して、コード化配列(CDS)開始及び終止コドンを表しているフォントを示す。表1の文字セットの実施形態において、塩基に対して、アノテーションビットb及びbを用いて、CDS開始又はCDS終止コドンについてそれぞれ注釈を付ける。図3のフォント実施形態において、b又はbのいずれかが1に等しい文字を、塩基を表している文字の周りにボックスを有するフォント文字にマップするのである。一方で、b及びbの双方がゼロに等しい文字を、上記のようなボックスを有さないフォント文字にマップする。図3に認められるように、このフォントマッピングの結果は、開始及び終止コドンが弁別的なボックスマークによって容易に認識されるということになる。図3の実施形態において、同一の弁別的なボックスマークを、CDS開始及びCDS終止の双方について使用している。あるいは、異なる弁別的なマークをCDS開始とCDS終止とについて用いてもよく、それは、レビューアがCDSの開始に対する終止を見定めることを支援するであろう。
図4を参照して、種々のゲノム領域又は変異を示しているいくつかの他の適切な弁別的なマークを示す。図4の例において、メチル化を示しているアノテーションを含むバイオインフォマティクス文字セット20の文字を、角シンボル(すなわち、“V”のようなものだが、随意に“V”の先端が下方向以外を向いている)を含む弁別的なマークを有するバイオインフォマティクスフォント40のフォント文字にマップする。図4に示す別の例において、イントロンを示しているアノテーションを含む(例えば、表1の例においてb10に1が設定されている)バイオインフォマティクス文字セット20の文字を、文字“I”又は“i”を含む弁別的なマークを有するバイオインフォマティクスフォント40のフォント文字にマップする。図4に示す別の例において、エクソンを示しているアノテーションを含む(例えば、表1の例においてbに1が設定されている)バイオインフォマティクス文字セット20の文字を、文字“E”又は“e”を含む弁別的なマークを有するバイオインフォマティクスフォント40のフォント文字にマップする。図4に示す別の例において、プロモータを示しているアノテーションを含む(例えば、表1の例においてb11に1が設定されている)バイオインフォマティクス文字セット20の文字を、文字“P”又は“p”を含む弁別的なマークを有するバイオインフォマティクスフォント40のフォント文字にマップする。図4に示す別の例において、転写因子(TF)結合部位を示しているアノテーションを含む(例えば、表1の例においてb12に1が設定されている)バイオインフォマティクス文字セット20の文字を、文字“X”又は“x”を含む弁別的なマークを有するバイオインフォマティクスフォント40のフォント文字にマップする。図4に示す別の例において、非コードRNAの領域を示しているアノテーションを含む(例えば、表1の例においてb13に1が設定されている)バイオインフォマティクス文字セット20の文字を、“〜”を含む弁別的なマークを有するバイオインフォマティクスフォント40のフォント文字にマップする。(他の予期される実施形態では、nc‐RNAを意味するものに関して、文字“NC”又は“nc”又は“Nc”を含む弁別的なマークが考えられる。)図4に示す別の例において、マイクロRNAの領域を示しているアノテーションを含む(例えば、表1の例においてb14に1が設定されている)バイオインフォマティクス文字セット20の文字を、“”を含む弁別的なマークを有するバイオインフォマティクスフォント40のフォント文字にマップする。(他の予期される実施形態では、mi‐RNAを意味するものに関して、文字“MI”又は“mi”又は“Mi”を含む弁別的なマークが考えられる。)図4に示す別の例において、塩基が疾病マーカの一部であることを示しているアノテーションを含む(例えば、表1の例においてb15に1が設定されている)バイオインフォマティクス文字セット20の文字を、“#”を含む弁別的なマーク、又は疾病マーカを示すように指定された何らかの他の弁別的なマークを有するバイオインフォマティクスフォント40のフォント文字にマップする。追加的に又は代替的に、疾病マーカアノテーションを、イタリックフォントスタイル、ボールド体フォントスタイル又はイタリックボールド体フォントスタイルなどの指定された疾病マーキングフォントスタイルを用いて塩基文字(例えば、アデニンの場合における“A”)を表現することによって、示してもよい。
図5は、配列領域の表現における上記のフォント文字の有効性の例を示す。図5は、図4のフォントを用いて表されるDNA配列の一部分を示す。2つのエクソン領域62、64と境を接するイントロン領域60が、イントロン及びエクソンに属している塩基をそれぞれ表している弁別的なマーク“I”及び“E”に基づいて容易に識別可能である。
図4及び図5の弁別的なマークは単に例示であって、他の弁別的なマーク、及びフォントスタイル、フォントサイズなどの他のフォント特性もまた、種々のアノテーションを表すためのバイオインフォマティクスフォント40に用いられてよい。例えば、別の予期される手法において、塩基クオリティ値を、塩基を表している文字のサイズによって表現し、より大きな文字がより高い塩基クオリティ値を意味するようにする。この手法において期待されることは、レビューアがより小さな文字をより低い塩基クオリティと、すなわち、より高い不確実性と、おそらく自然に関連付けるであろうということである。いくつかの他の例としては次のものなどがある。ストランド情報(5’、3’、+、−、など)を、注釈付きデータ値としてバイオインフォマティクス文字セット20の文字において保存してよく、フォント文字の弁別的なマークによって適宜表現してよい。挿入及び/又は欠失(一般に、「挿入欠失」)などの変異を、注釈付きデータ値としてバイオインフォマティクス文字セット20の文字において保存してよく、垂直な、水平な、若しくは斜めの取消線マーク(欠失用)又はカラットマーク(すなわち“^”)(挿入用で、テキストエディタのマークアップの慣例に従う)などのフォント文字の弁別的なマークによって適宜表現したり、中抜きの(hollowed out)又は線で埋められた(filled stroked)フォント文字を用いることによって適宜表現したりしてよい。
バイオインフォマティクス文字セット20によってバイオインフォマティクスフォント40を用いて表された塩基又はペプチド配列を表示する場合、種々のタイプの注釈付きデータを示す種々の弁別的なマークを、種々のタイプの情報を同時に伝達するために、バイオインフォマティクスフォント40において組み合わせてよい。例えば(ここでも同様に表1のバイオインフォマティクス文字セット20の実施形態を参照すると)、文字0000001000110000bin(0230hex)は、51〜60の範囲の塩基クオリティ値を有し、エクソンの一部であるアデニン塩基を表す。一方で、文字1000001000110000bin(8230hex)は、51〜60の範囲の塩基クオリティ値を有し、エクソンの一部であり、さらに疾病マーカの一部でもあるアデニン塩基を表す。後者の文字に対してマップされるフォント文字は、疾病マーカの一部であるという属性を示している弁別的なマークの追加においてのみ、前者の文字に対してマップされるフォント文字と適宜異なる。さらに、塩基クオリティ値を、図2に示すものなどの適切な弁別的なマークを用いて表してもよい。いくつかの異なるタイプの塩基又はペプチドの属性又は特性を同様に符号化する場合、その結果、バイオインフォマティクスフォント40におけるフォント文字の数が、かなり多くなる可能性がある。1バイトに関して、256個もの数の異なるフォント文字が存在可能であり、一方、2バイトに関しては、65536個もの数のフォント文字が存在可能である。
表1の例へと戻って参照すると、種々のアノテーションは(塩基クオリティ値という例外を伴いつつ)、各アノテーションについて単一ビットで表される。したがって、例えば、ビットb10について1という値はその塩基がイントロンの一部であるということを示し、一方、ビットb10について0という値はその塩基がイントロンの一部ではないということを示す。しかしながら、この表現の手法は、ビットb10が0という値を有する場合、これが、(1)その塩基はイントロンの一部ではないという断定的な表現なのか、あるいは(2)その塩基はイントロンの一部であるのか否かが(まだ)特定されていないという示唆なのか、曖昧になるおそれがあるという点において、潜在的な欠点を有する。これはなぜならば、フォーマット変換モジュール16がアノテーションビット(塩基クオリティ値を示しているビット以外)について、0というデフォルト値を割り当てるからである。
表2を参照して、不明な値についてはっきり区別できる値をアノテーションに与えることによってこの多義性を克服する、バイオインフォマティクス文字セット20の別の例示的な実施形態を示す。この実施形態において、イントロンアノテーションを2つのビットbによって表す。01binという値はその塩基がイントロンの一部ではないことを示し、10binという値はその塩基がイントロンの一部であることを示し、11binという値はその塩基がイントロンの一部であるのかどうかが(まだ)わかっていないことを示す。
表2の例は、バイオインフォマティクス文字セット20のある実施形態に係る、いくつかの他の予期される特性を説明する。表2の例は、シングルバイト文字を用いている(一方で、表1の例は2バイト文字を用いている)。さらに、表2の例は、4つのビットbを使用して塩基を表しており、それにより多義的な塩基についてより詳細な表現が可能となる。さらに、その塩基表現は、特定のビットを特定の塩基と関連付ける符号化スキームを使用している。したがって、ビットbをチミンに関連付け、ビットbをグアニンに関連付け、ビットbをシトシンに関連付け、そして、ビットbをアデニンに関連付けている。この符号化スキームでは、一義的な塩基を、4つのビットbのうち単一のビットが値1を有することによって表す。2つの起こりうる塩基における両義性は、4つのビットbのうち2ビットが値1を有することによって表され、したがって、塩基に対する2つの可能性を識別している。終点のケースである全面的な多義性は、すべての4つのビットbが値1を有することによって表され、その塩基がアデニン、シトシン、グアニン又はチミンのいずれでもあり得ることを示している。さらに、この符号化スキームは、多義的な塩基をパターンに迅速にマッチさせることを可能にする。例えば、ビット単位マスク04hexを用いて、文字Cと04hexで表される塩基グアニンとを、比較CMP[C&04hex,04hex]によって比較してよい(ここで、CMP[・・・]は比較処理の擬似コードである)。この比較は、文字Cがグアニンを一義的に符号化している場合にマッチをもたらすであろうし、さらに、文字Cが多義的ながらも起こりうる値としてグアニンを符号化している場合にもマッチをもたらすであろう。双方の場合において、C&04hex=04hexとなる。
Figure 2014525080
図6及び7を参照しながら、引き続き表2の例を参照すると、いくつかの実施形態において、バイオインフォマティクスフォント40のフォント文字は、直接的に保存されない。代わりに、塩基又はペプチドの文字(又は3文字)の表現のビットマップを、種々のタイプのアノテーションに対する種々の弁別的なマークを表すビットマップと共に保存する。したがって、バイオインフォマティクス文字セット20の特定の文字を表すフォント文字を、これらの構成要素であるビットマップを論理“OR”演算を用いて組み合わせることによって、構成してよい。図6において、最も左の項は、4つの塩基を符号化しているビットマップを示す(何らかの多義的な塩基をシンボル“?”で表している)。中間の項は、CDS開始(実線ボックスで表している)及びCDS終止(点線ボックスで表している)についての弁別的なマークを表しているビットマップを示す。最も右の項は、イントロンについての弁別的なマークを表しているビットマップを示す(斜線が塩基を表している文字を横断するようにして表している)。図6におけるプラス(+)シンボルは、ビットマップの論理ORを示す(黒ドット+黒ドット=黒ドット、黒ドット+白ドット=黒ドット、白ドット+黒ドット=黒ドット、白ドット+白ドット=白ドットという、ロジックテーブルを有する)。図7は、図6に示すバイオインフォマティクスフォント40の実施形態を用いて表された部分的な塩基配列を示し、CDS開始領域70、イントロン領域72及びCDS終止領域74を含んでいる。イントロンに属している塩基を示す弁別的なマーク“/”が、レビューアに、イントロンは翻訳されたタンパク質内に含まれないということを直観的に知らせている。
図8を参照すると、開示した配列アライメント/解析モジュール14のまた別の利点は、ゲノム又はプロテオミクス配列を表示している場合にユーザにどのアノテーションを表示すべきかを選択させることが、コンピュータ的に簡便であるということである。上記のアノテーションタイプについての選択的な表示は、レビューアが配列の特定の側面に焦点を当てることが可能となるため、有用な場合がある。図8の例は、表1のバイオインフォマティクス文字セット20の実施形態を用いている。図8は、ディスプレイ装置52(例えば、図1のコンピュータ50のディスプレイ)上に表示されたゲノム配列の一部分を示す。さらに、そのディスプレイは、チェックボックス80、82及び84を含む、ユーザダイアログ選択オプションを示す。チェックボックス80を介して、レビューアは、塩基クオリティ値を表示するかどうかを選択し(例えば、図2に示すもののような弁別的なマークを用いる)、チェックボックス82を介して、レビューアは、機能領域を表示するかどうかを選択し(例えば、図4に示すもののようなゲノム領域を示す弁別的なマークを用いる)、チェックボックス84を介して、レビューアは、変異を表示するかどうかを選択する(例えば、図4に示すもののような疾病マーカを強調するための弁別的なマークを用いる)。ユーザは、種々のチェックボックス80、82及び84を、ポインタ入力デバイス(例えば、マウス、トラックボール、トラックパッドなど)、キーボード(例えば、タブキーを用いてオプションを巡り、エンターを押下して選択済みチェックボックスを切り替える)などを用いて、適宜チェックを付けたり外したりする。図8において、ユーザは、チェックボックス82を介して機能領域だけを表示するように選択している。
図8に示すもののような表示オプションは、開示しているバイオインフォマティクス文字セット20及びバイオインフォマティクスフォント40を用いて、文字列をテキスト表示ルーチン(例えば、ASCII又はユニコードテキストを表示するためのプラットフォームが備えるもの)に入力する前に、表示されるべきでないアノテーションを除外するようにビット単位マスキングを用いることによって、容易に実装される。例えば、表1の例を考えると、塩基クオリティ値や疾病マーカを除いて機能領域のみを表示するのに適切なビット単位マスクは、Mdisplay=0111111110000111bin(7F87hex)であり、それは、塩基クオリティ値(ビットb)を0000binに設定し、疾病マーカアノテーション(ビットb15)をゼロに設定する。この手法は、図2の例示的な手法の場合のように、バイオインフォマティクスフォント40が弁別的なマークを全く伴わずに最も低い塩基クオリティ値(すなわち0000bin)を表示することを想定している。留意すべきは、このマスキングはテキスト表示ルーチンへの入力に先行して適用されるが、そのマスク出力は保存されている配列30の更新に使用されない、ということである。したがって、データファイル30において、塩基クオリティ値及び疾病マーカアノテーションは変更されないままとなり、ゆえに、レビューアはいつでも表示オプションの更新を選択することが可能となる。例えば、レビューアは、ボックス82のチェックを外してボックス84のチェックを付けることによって、それぞれ、機能領域マーキングをオフにして変異マーキングをオンにするように決めてよい。その更新後の表示は、塩基クオリティ値(ビットb)を0000binに設定して機能領域アノテーション(ビットb1413121110)をゼロに設定する、Mdisplay=1000000000000111bin(8007hex)にマスクをアップデートすることによって、容易に実装されるであろう。
例示的な実施形態は、ゲノムデータ、より詳細には、4つの塩基であるアデニン、シトシン、グアニン及びチミンを使用しているDNAデータを用いている。しかしながら、バイオインフォマティクス文字セット20及びバイオインフォマティクスフォント40を用いて開示している手法は、RNA配列などの他のゲノムデータに対し、チミンをウラシルと置き換えることによって、容易に採用される。
図9を参照すると、バイオインフォマティクス文字セット20及びバイオインフォマティクスフォント40を用いて開示している手法は、さらに、プロテオミクスデータに対しても、アミノ酸(又はペプチド)を表すように適切な数のビットを用いることによって、容易に採用される。タンパク質は、20個のアミノ酸のセットから構成され、取りうる値を32個有する5ビットを用いることによって表すことが可能である。したがって、5ビットあれば、CDS終止コドンをオーバーライドすることによって組み込み可能であるセレノシステイン(慣例的に、文字“U”若しくは“u”で、又は3文字コード“sec”で表す)及びピロリシン(“O”又は“o”又は“Pyl”)などの関心があるであろういかなる追加のペプチドを表すのにも十分となり、かつ/あるいは、多義的なアミノ酸(一般に、大抵のプロテオミクス配列決定手法に関して、アミノ酸のうち半ダース以下、対での(pairwise)多義性が生じる可能性がある)を表すのにも十分となる。図9は、種々の注釈付きデータを含む例示的なペプチド又はアミノ酸を、そのアミノ酸又はペプチドに対するビットマップと1つ又は複数の弁別的なマークに対するビットマップとをビット単位OR演算を用いて組み合わせることによって表している、バイオインフォマティクスフォント40のフォント文字の構成を示す。図9において、最上部のセクション100は、20個のアミノ酸についての適切な単一文字コード化を明示している。図9の中間部のセクション102は、プロテオミクス配列のペプチドに関連するであろう注釈付きデータの、種々の組み合わせを明示している。図9の例示において、ペプチドに対して注釈として付けられるであろう属性には、上付き文字のアスタリスク(*)で示す親水性(hydrophobic)と、前述の“∞”の弁別的なマークで示す極性(polar)と、下付き文字の“o”で示す小ささ(small)と、下付き文字のドットで示す極少さ(tiny)と、下付き文字の“ハウス”表現
〔外1〕
Figure 2014525080
で示す芳香族(aromatic)と、下付き文字のシータ(θ)で示す脂肪族(aliphatic)と、下付き文字の“+”で示す正(positive)と、下付き文字の“−”で示す負(negative)と、帯電(charged)(正特性及び負特性の一般化)とを含む。図9の下部のセクション104は、上部のセクション100からのアミノ酸又はペプチドに対するビットマップと、1つ又は複数の注釈付きデータを表している1つ又は複数の弁別的なマークに対する1つ又は複数のビットマップとを、ビット単位OR演算を用いて組み合わせることによって、生成されたフォント文字を示す。図9に示すバイオインフォマティクスフォント40の実施形態において、弁別的なマークを、ビットマップ100及び102に対して適用されるビット単位OR演算がもたらす弁別的なマークの組み合わせによって、注釈付きデータの組み合わせを同時に表すことが可能となるように、選択する。したがって、例示として、図9の最も左の列は、疎水性があり脂肪族であるという属性を有する、アミノ酸イソロイシン(I)を示す。下部のセクション104に示す対応するフォント文字には、アミノ酸シンボルを表している文字セット(すなわち、文字“I”)と、疎水性の属性を表している上付き文字のアスタリスク(*)及び脂肪属の属性を表している下付き文字のシータ(θ)との重ね合わせを含む。
留意すべきは、一般に、バイオインフォマティクス文字セット20と関連するバイオインフォマティクスフォント40とは、ゲノムデータに対して、又はプロテオミクスデータに対して、固有になるであろうということである。換言すると、バイオインフォマティクス文字セット20と関連するバイオインフォマティクスフォント40とについてのある実施形態が、ゲノムデータ又はプロテオミクスデータのいずれかを表すように設計されるであろうが、典型的には、ゲノムデータ及びプロテオミクスデータの双方ではないであろう。(「組み合わせ」文字セット及び関連するフォントにより、ゲノムデータ及びプロテオミクスデータの双方を表すことが可能な実施形態が考えられるが、典型的には、指定されたゲノム又はプロテオミクスの文字セット及びフォントを用いることで、より効果的なバイオインフォマティクス文字セットとより直観的なバイオインフォマティクスフォントとから成る構成が可能となる)。
さらに留意すべきは、あるバイオインフォマティクス文字セット20が、それに関連付けられる2つ以上の異なるバイオインフォマティクスフォント40を有してよい、ということである。例示的な類似のものとして、ASCII文字セットの文字を種々のフォント(例えば、タイムズ・ニュー・ローマン・フォント、アリアル・フォントなど)によって表せることと同様に、種々のバイオインフォマティクスフォント40を、単一のバイオインフォマティクス文字セット20を表すように用いてよい。その結果、ユーザは、彼又は彼女がより好むゲノム又はプロテオミクス配列の表現を、そのユーザがより好むバイオインフォマティクスフォント40を単に選択することによって、選択することが可能となる。これは、ある読み手が英語のテキストを表示又は印刷するために、その読み手がより好むタイムズ・ニュー・ローマン・フォント、アリアル・フォント又は何らかの他の利用可能なASCIIフォントの使用を選択するであろうことと、同様である。
バイオインフォマティクス文字セット20及びバイオインフォマティクスフォント40を用いる開示の手法は、またさらに、追加の又は他のアノテーションタイプを提供することにも容易に用いられる。ゲノム配列の場合、関心のあるアノテーションには、メチル化、アセチル化、CDS開始及び終止、エクソン開始及び終止、イントロン開始及び終止、プロモータ、エンハンサ、TF、偽遺伝子、STS、D‐ループ、V‐ループ、miRNA、piRNA、ncRNA、繰り返し体(LINE、SINEなど)、GAP、疾病固有の識別特性などを含む(が、これらには限定されない)。プロテオミクス配列の場合、関心のあるアノテーションタイプには、一塩基変異(single nucleotide variant;SNV)又は置換などの変異、三次構造情報、などを含んでよい。
表1及び表2の例示では、変異アノテーションを1つだけ示している(表1の例における疾病マーカビットb15)。しかしながら、より多くの、及び/又は異なる変異アノテーションをバイオインフォマティクス文字セット20に含んでよいということが、理解されるべきである。例えば、種々のアノテーションを、種々の疾病マーカについて備えてよく、あるいは、アノテーションを、祖先系統を示す変異や特定の表現型の形質に関連付けられる変異などの他の種類の変異について備えてよい。
この出願は、1つ又は複数のより好ましい実施形態を説明してきた。変更及び修正が、上記の詳細説明を読んで理解した他者において生じるであろう。本出願は、そうした変更及び修正が別記の請求項又はその均等物の範囲内にある限り、すべてのそうした変更及び修正を含むものと見なされるように、意図されている。

Claims (15)

  1. ゲノムデータ又はプロテオミクスデータを、バイオインフォマティクス文字セットの文字を含んでいるゲノム文字列又はプロテオミクス文字列として符号化するステップであって、
    (i)前記ゲノムデータ又はプロテオミクスデータの各塩基又はペプチドが、前記バイオインフォマティクス文字セットの単一の文字によって表され、
    (ii)前記バイオインフォマティクス文字セットの各文字が、(I)塩基又はペプチドと(II)前記塩基又はペプチドに関連付けられる少なくとも1つの注釈付きデータ値とを符号化する、
    ステップと、
    前記ゲノム文字列又はプロテオミクス文字列を、前記バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントを用いて表示することによって、前記ゲノムデータ又はプロテオミクスデータを表示するステップと、
    を含み、
    前記符号化するステップ及び表示するステップは、デジタル処理装置によって実行される、
    ことを特徴とする、方法。
  2. 前記バイオインフォマティクス文字セットの各文字は(1)8ビットを含んでいるシングルバイトと(2)16ビットを含んでいる2バイトとのうちの1つによって表され、前記8ビット又は16ビットのうち第1サブセットが塩基又はペプチドを符号化して、前記8ビット又は16ビットのうち第2サブセットが前記塩基又はペプチドに関連付けられる少なくとも1つの注釈付きデータ値を符号化する、請求項1に記載の方法。
  3. アデニン塩基を符号化する前記バイオインフォマティクス文字セットの各文字が、文字“A”又は“a”を含む前記バイオインフォマティクスフォントのフォント文字にマップされ、
    グアニン塩基を符号化する前記バイオインフォマティクス文字セットの各文字が、文字“G”又は“g”を含む前記バイオインフォマティクスフォントのフォント文字にマップされ、
    シトシン塩基を符号化する前記バイオインフォマティクス文字セットの各文字が、文字“C”又は“c”を含む前記バイオインフォマティクスフォントのフォント文字にマップされ、
    チミン又はウラシル塩基を符号化する前記バイオインフォマティクス文字セットの各文字が、文字“T”若しくは“t”又は文字“U”若しくは“u”を含む前記バイオインフォマティクスフォントのフォント文字にマップされ、
    前記バイオインフォマティクス文字セットの少なくとも1つの文字が、多義的な塩基を、2つ以上の候補塩基を表しているコードを用いて符号化する、
    請求項1乃至2のいずれか1項に記載の方法。
  4. 前記バイオインフォマティクス文字セットの各文字が、前記の符号化された塩基についてのクオリティ値を示している注釈付きデータ値を符号化し、
    前記バイオインフォマティクスフォントは、塩基クオリティ値を示している弁別的なマークを含む、
    請求項3に記載の方法。
  5. 前記バイオインフォマティクス文字セットの少なくとも4つの文字が、各々、前記文字によって符号化された前記塩基又はペプチドを表す1つ又は複数の文字と、前記の符号化された少なくとも1つの注釈付きデータを表す1つ又は複数の弁別的なマークとを含む、前記バイオインフォマティクスフォントのフォント文字にマップされる、請求項1に記載の方法。
  6. 前記ゲノム文字列又はプロテオミクス文字列において、更新されたゲノム文字列又はプロテオミクス文字列を生成するために、少なくとも1つの文字列の機能を実行するステップであって、前記更新されたゲノム文字列又はプロテオミクス文字列において、少なくとも1つの塩基又はペプチドが、前記の実行された文字列の操作によって生成された少なくとも1つの追加の又は変更された注釈付きデータを符号化している単一の文字によって表される、ステップ、
    をさらに含む、請求項1乃至5のいずれか1項に記載の方法。
  7. 前記実行するステップは、前記ゲノム文字列又はプロテオミクス文字列を参照ゲノム文字列又は参照プロテオミクス文字列と比較する文字列比較を実行するステップを含む、請求項6に記載の方法。
  8. 前記実行するステップは、ビット単位の論理演算を前記ゲノム文字列又はプロテオミクス文字列の文字において実行するステップを含む、請求項6乃至7のいずれか1項に記載の方法。
  9. ゲノムデータのみを符号化する方法であって、
    ゲノムデータを、バイオインフォマティクス文字セットの文字を含んでいるゲノム文字列として符号化するステップであって、
    (i)前記ゲノムデータの各塩基が、前記バイオインフォマティクス文字セットの単一の文字によって表され、
    (ii)前記バイオインフォマティクス文字セットの各文字が、(I)塩基と(II)前記塩基に関連付けられる少なくとも1つの注釈付きデータ値とを符号化する、
    ステップと、
    前記ゲノム文字列を、前記バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントを用いて表示することによって、前記ゲノムデータを表示するステップと、
    を含む、請求項1乃至8のいずれか1項に記載の方法。
  10. プロテオミクスデータのみを符号化する方法であって、
    プロテオミクスデータを、バイオインフォマティクス文字セットの文字を含んでいるプロテオミクス文字列として符号化するステップであって、
    (i)前記プロテオミクスデータの各ペプチドが、前記バイオインフォマティクス文字セットの単一の文字によって表され、
    (ii)前記バイオインフォマティクス文字セットの各文字が、(I)ペプチドと(II)前記ペプチドに関連付けられる少なくとも1つの注釈付きデータ値とを符号化する、
    ステップと、
    前記プロテオミクス文字列を、前記バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントを用いて表示することによって、前記プロテオミクスデータを表示するステップと、
    を含む、請求項1乃至8のいずれか1項に記載の方法。
  11. 請求項1乃至10のいずれか1項に記載の方法を実行するように構成されたデジタル処理装置、
    を含むことを特徴とする、装置。
  12. デジタルプロセッサによって読取可能であり、ソフトウェアを記憶している、固定のストレージ媒体であって、前記ソフトウェアはバイオインフォマティクス文字セットの文字を含んでいるゲノム文字列又はプロテオミクス文字列として表されるゲノムデータ又はプロテオミクスデータを処理するように構成され、前記ゲノムデータ又はプロテオミクスデータの各塩基又はペプチドが前記バイオインフォマティクス文字セットの単一の文字によって表され、前記バイオインフォマティクス文字セットの前記文字は塩基又はペプチドと前記塩基又はペプチドに関連付けられる追加のデータとを符号化する、ということを特徴とする、ストレージ媒体。
  13. 前記ソフトウェアは前記ゲノムデータ又はプロテオミクスデータを文字列処理演算を用いて処理する、請求項12に記載のストレージ媒体。
  14. 前記ソフトウェアは、塩基又はペプチドを表している文字のうち選択されたバイナリビットをゼロにするために、前記ゲノムデータ又はプロテオミクスデータをビット単位のマスキング演算を用いて処理する、請求項12乃至13のいずれか1項に記載のストレージ媒体。
  15. 当該ストレージ媒体は、前記バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントをさらに記憶し、前記ソフトウェアは、ゲノムデータ又はプロテオミクスデータが前記バイオインフォマティクスフォントを用いて表示されるように表示処理を実行する、請求項12乃至14のいずれか1項に記載のストレージ媒体。
JP2014518051A 2011-07-05 2012-07-04 バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いたゲノム/プロテオミクス配列の表現、視覚化、比較及びレポーティング Expired - Fee Related JP6352804B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161504411P 2011-07-05 2011-07-05
EP11174187.2 2011-07-05
US61/504,411 2011-07-05
EP11174187A EP2544113A1 (en) 2011-07-05 2011-07-15 Genomic/proteomic sequence representation, visualization, comparison and reporting using a bioinformatics character set and a mapped bioinformatics font
PCT/IB2012/053423 WO2013005173A2 (en) 2011-07-05 2012-07-04 Genomic/proteomic sequence representation, visualization, comparison and reporting using bioinformatics character set and mapped bioinformatics font

Publications (2)

Publication Number Publication Date
JP2014525080A true JP2014525080A (ja) 2014-09-25
JP6352804B2 JP6352804B2 (ja) 2018-07-04

Family

ID=44721406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014518051A Expired - Fee Related JP6352804B2 (ja) 2011-07-05 2012-07-04 バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いたゲノム/プロテオミクス配列の表現、視覚化、比較及びレポーティング

Country Status (8)

Country Link
US (1) US20140229114A1 (ja)
EP (2) EP2544113A1 (ja)
JP (1) JP6352804B2 (ja)
CN (2) CN110335642A (ja)
BR (1) BR112013033910A2 (ja)
MX (1) MX348461B (ja)
RU (1) RU2014103789A (ja)
WO (1) WO2013005173A2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2921979B1 (en) * 2014-03-20 2017-08-02 Tata Consultancy Services Ltd. Encoding and decoding of RNA data
US10552240B2 (en) * 2014-09-04 2020-02-04 International Business Machines Corporation Automatically generating efficient remote procedure call (RPC) code for heterogeneous systems
EP3332034A4 (en) * 2015-08-06 2019-01-02 Arc Bio, LLC Systems and methods for genomic analysis
US20200051668A1 (en) * 2016-10-11 2020-02-13 Genomsys Sa Method and system for the transmission of bioinformatics data

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS50156840A (ja) * 1974-06-07 1975-12-18
JPS6472280A (en) * 1987-09-14 1989-03-17 Konishiroku Photo Ind Color picture processor
JP2000134589A (ja) * 1998-10-23 2000-05-12 Matsushita Electric Ind Co Ltd テレビジョン信号ラインサーチ方法およびラインサーチ装置
JP2003125772A (ja) * 2001-06-20 2003-05-07 Dainakomu:Kk コンピュータを利用して解析対象核酸塩基配列から最適なオリゴ核酸配列の候補を設計するためのコンピュータソフトウエアプログラム、その方法およびそのように設計されたオリゴ核酸配列が搭載されたオリゴ核酸アレイ
JP2003189178A (ja) * 2001-12-19 2003-07-04 Fuji Photo Film Co Ltd オンスクリーンディスプレイ装置
JP2004005319A (ja) * 2002-04-24 2004-01-08 Japan Science & Technology Corp 遺伝子データベース作成方法、遺伝子データベース作成装置、遺伝子データベース作成プログラム、および遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004096243A (ja) * 2002-08-29 2004-03-25 Matsushita Electric Ind Co Ltd 重畳データ抽出装置
JP2004152023A (ja) * 2002-10-30 2004-05-27 Hitachi Ltd 文字列解析方法
JP2004192257A (ja) * 2002-12-10 2004-07-08 Nec Corp 配列表示方法/装置/プログラム/記録媒体、相同性検索方法/装置/プログラム/記録媒体
JP2004234297A (ja) * 2003-01-30 2004-08-19 Biomatics Inc 生物学的な配列情報処理装置
JP2004240975A (ja) * 2003-02-03 2004-08-26 Samsung Electronics Co Ltd Dna配列符号化装置及び方法
JP2004259094A (ja) * 2003-02-27 2004-09-16 Maze:Kk コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法
JP2006079334A (ja) * 2004-09-09 2006-03-23 Hitachi Software Eng Co Ltd 遺伝子情報の表示方法及び表示装置
JP2010204753A (ja) * 2009-02-27 2010-09-16 Hitachi Software Eng Co Ltd 生物種同定方法及びシステム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002305147A1 (en) * 2001-04-06 2002-10-21 Brian Seed A font for displaying genetic information
US7158892B2 (en) * 2002-06-28 2007-01-02 International Business Machines Corporation Genomic messaging system
KR100858081B1 (ko) * 2003-02-14 2008-09-10 삼성전자주식회사 유전정보 코딩장치 및 방법
US7761238B2 (en) * 2003-10-03 2010-07-20 Allan Robert Moser Method and apparatus for discovering patterns in binary or categorical data
US7869956B2 (en) * 2003-10-06 2011-01-11 Cerner Innovation, Inc. Computerized system and method for documenting and presenting mutation observations

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS50156840A (ja) * 1974-06-07 1975-12-18
JPS6472280A (en) * 1987-09-14 1989-03-17 Konishiroku Photo Ind Color picture processor
JP2000134589A (ja) * 1998-10-23 2000-05-12 Matsushita Electric Ind Co Ltd テレビジョン信号ラインサーチ方法およびラインサーチ装置
JP2003125772A (ja) * 2001-06-20 2003-05-07 Dainakomu:Kk コンピュータを利用して解析対象核酸塩基配列から最適なオリゴ核酸配列の候補を設計するためのコンピュータソフトウエアプログラム、その方法およびそのように設計されたオリゴ核酸配列が搭載されたオリゴ核酸アレイ
JP2003189178A (ja) * 2001-12-19 2003-07-04 Fuji Photo Film Co Ltd オンスクリーンディスプレイ装置
JP2004005319A (ja) * 2002-04-24 2004-01-08 Japan Science & Technology Corp 遺伝子データベース作成方法、遺伝子データベース作成装置、遺伝子データベース作成プログラム、および遺伝子データベース作成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004096243A (ja) * 2002-08-29 2004-03-25 Matsushita Electric Ind Co Ltd 重畳データ抽出装置
JP2004152023A (ja) * 2002-10-30 2004-05-27 Hitachi Ltd 文字列解析方法
JP2004192257A (ja) * 2002-12-10 2004-07-08 Nec Corp 配列表示方法/装置/プログラム/記録媒体、相同性検索方法/装置/プログラム/記録媒体
JP2004234297A (ja) * 2003-01-30 2004-08-19 Biomatics Inc 生物学的な配列情報処理装置
JP2004240975A (ja) * 2003-02-03 2004-08-26 Samsung Electronics Co Ltd Dna配列符号化装置及び方法
JP2004259094A (ja) * 2003-02-27 2004-09-16 Maze:Kk コンセンサス配列の精度向上方法及びそれを用いたコンセンサス配列の決定方法
JP2006079334A (ja) * 2004-09-09 2006-03-23 Hitachi Software Eng Co Ltd 遺伝子情報の表示方法及び表示装置
JP2010204753A (ja) * 2009-02-27 2010-09-16 Hitachi Software Eng Co Ltd 生物種同定方法及びシステム

Also Published As

Publication number Publication date
EP2729892A2 (en) 2014-05-14
WO2013005173A3 (en) 2013-07-18
WO2013005173A2 (en) 2013-01-10
JP6352804B2 (ja) 2018-07-04
RU2014103789A (ru) 2015-08-10
CN103797487A (zh) 2014-05-14
MX2013014746A (es) 2014-02-17
US20140229114A1 (en) 2014-08-14
EP2544113A1 (en) 2013-01-09
MX348461B (es) 2017-06-14
CN110335642A (zh) 2019-10-15
BR112013033910A2 (pt) 2017-12-12

Similar Documents

Publication Publication Date Title
US11817180B2 (en) Systems and methods for analyzing nucleic acid sequences
Qu et al. PGA: a software package for rapid, accurate, and flexible batch annotation of plastomes
US10937522B2 (en) Systems and methods for analysis and interpretation of nucliec acid sequence data
CN107615283B (zh) 用于二倍体基因组组装和单倍型序列重建的方法、软件和系统
JP6141335B2 (ja) コンパクトな次世代シーケンシングデータセット及び該データセットを使用した効率的な配列の処理
CN107075571B (zh) 用于检测结构变异体的系统和方法
CN107103205A (zh) 一种基于蛋白质质谱数据注释真核生物基因组的生物信息学方法
US9342651B2 (en) Computational methods for translating a sequence of multi-base color calls to a sequence of bases
JP6352804B2 (ja) バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いたゲノム/プロテオミクス配列の表現、視覚化、比較及びレポーティング
US20150169823A1 (en) String graph assembly for polyploid genomes
CN101056993A (zh) 用于转录作图的基因识别标签(gis)分析方法
US10726110B2 (en) Watermarking for data security in bioinformatic sequence analysis
Masutani et al. Investigating the mitochondrial genomic landscape of Arabidopsis thaliana by long-read sequencing
JP2013172709A (ja) 塩基配列分析のための参照配列処理システム及び方法
Busan et al. Visualization of lncRNA and mRNA structure models within the integrative genomics viewer
Pinel et al. Endothelial Cell RNA-Seq Data: Differential Expression and Functional Enrichment Analyses to Study Phenotypic Switching
US20220284986A1 (en) Systems and methods for identifying exon junctions from single reads
US20160070856A1 (en) Variant-calling on data from amplicon-based sequencing methods
Gibrat On the use of algebraic topology concepts to check the consistency of genome assembly
Irisarri et al. Automated Removal of Non-homologous Sequence Stretches with PREQUAL
Federico et al. Suffix tree characterization of maximal motifs in biological sequences
Jawahar et al. A new method for detecting Fuzzy Tandem Repeats (FTR) using Levenshtein Distance for Biological data
Ismail Bioinformatics: A Practical Guide to Next Generation Sequencing Data Analysis
Bina Use of genome browsers to locate your favorite genes
Sánchez Practical Transcriptomics: Differential gene expression applied to food production

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170516

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170524

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20170609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180607

R150 Certificate of patent or registration of utility model

Ref document number: 6352804

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees