JP2014525080A

JP2014525080A - バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いたゲノム／プロテオミクス配列の表現、視覚化、比較及びレポーティング

Info

Publication number: JP2014525080A
Application number: JP2014518051A
Authority: JP
Inventors: シン，ランディープ; クマル，スニル; チャクラバルティ，ビスワループ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2011-07-05
Filing date: 2012-07-04
Publication date: 2014-09-25
Anticipated expiration: 2032-07-04
Also published as: EP2729892A2; WO2013005173A3; WO2013005173A2; JP6352804B2; RU2014103789A; CN103797487A; MX2013014746A; US20140229114A1; EP2544113A1; MX348461B; CN110335642A; BR112013033910A2

Abstract

ゲノム又はプロテオミクスデータを、バイオインフォマティクス文字セット（２０）の文字を含んでいるゲノム又はプロテオミクス文字列として符号化する。ゲノム又はプロテオミクスデータの各塩基又はペプチドが、バイオインフォマティクス文字セットの単一の文字で表され、バイオインフォマティクス文字セットの各文字は、（Ｉ）塩基又はペプチドと（II）塩基又はペプチドに関連付けられる少なくとも１つの注釈付きデータ値とを符号化する。ゲノム又はプロテオミクス文字列を、バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントを用いて表示することによって、ゲノム又はプロテオミクスデータを表示する。少なくとも１つの文字列機能を、ゲノム又はプロテオミクス文字列において、更新されたゲノム又はプロテオミクス文字列を生成するために実行してよく、その更新されたゲノム又はプロテオミクス文字列において、少なくとも１つの塩基又はペプチドを、実行された文字列操作によって生成された少なくとも１つの追加の又は変更された注釈付きデータを符号化している単一の文字によって表す。

Description

下記は、バイオインフォマティクス、ゲノム処理技術、プロテオミクス処理技術及び関連技術に関する。

ゲノム又はプロテオミクスのデータは、順序付けられた塩基又はペプチドの配列を含む。デオキシリボ核酸（ＤＮＡ）の場合、その塩基は、アデニン、シトシン、グアニン及びチミンであり、それらは一般に、文字“Ａ”、“Ｃ”、“Ｇ”及び“Ｔ”でそれぞれ表される。リボ核酸（ＲＮＡ）の場合、その塩基は、アデニン、シトシン、グアニン及びウラシルであり、それらは一般に、文字Ａ”、“Ｃ”、“Ｇ”及び“Ｕ”でそれぞれ表される。ＤＮＡとＲＮＡとは、チミン（Ｔ）の代わりにウラシル（Ｕ）となるところが異なる。

タンパク質及び他のプロテオミクス分子は、ペプチド結合によって結合されるアミノ酸を含む。その対応するプロテオミクスデータは、ペプチド（又はアミノ酸）配列によって適切に表される。（本書において、用語「ペプチド」及び「アミノ酸」を交互に用いて、プロテオミクス配列の要素に言及する。）アミノ酸は一般的に、１文字又は３文字のコードによって表される。例えば、アラニンを文字“Ａ”又は３文字のコード“Ａｌａ”で表したり、アルジニンを文字“Ｒ”又は３文字のコード“Ａｒｇ”で表したりする。ペプチド配列において、個々のペプチドは、ペプチド結合が変化しないため、そのアミノ酸成分によって一般に表される。したがって、例えば、“Ａ”又は“Ａｌａ”をタンパク質配列において用いて、アラニンを含むペプチドを示す。

ゲノム又はプロテオミクスデータはかなりの有用な情報を含んでおり、それは一般にパターンマッチングによって抽出される。例えば、そのゲノム又はプロテオミクスデータを、過去の臨床調査において特定の病気と相互に関連付けられた疾病マーカについて検索してよく、あるいは、そのデータを、がん、代謝異常などの特定の病気に対する治療計画に用いてよい。祖先系統を示す遺伝子マーカを、対象者の家系を評価するために使用してもよい。法執行機関又は特定の他の分野において、表現型の、遺伝子型との相関が、有用な情報を提供する場合がある。例えば、犯行現場から取得されたＤＮＡサンプルは、その犯人がある一定の身体的特徴を有するということを示す場合があり、したがって、その特徴を持っていないいずれの容疑者も除外する。

配列処理は一般に次の操作、すなわち、配列フラグメントの取得と、配列フラグメントの、参照配列へのアライメント（例えば、いくつかの適切な参照配列には、ＲｅｆＳｅｑ、ｈｇ１８、ｈｇ１９、Ｐａｎ−Ｇｅｎｏｍｅなどを含む）と、被験者特有の変異を識別するための、アライメントされた配列の解析と、を伴う。それはさらに、マップするための基準がないデノボ（de novo）アライメントを含んでよく、多様な長さのコンティグをもたらし、続いてそれらに注釈を付けることと、比較分析を実行することとが可能となる。

ゲノム又はプロテオミクスデータは一般に、ＦａｓｔＡ及びＦａｓｔＱなどの標準化フォーマットで保存される、配列フラグメントとして取得される。ＦａｓｔＡ又はＦａｓｔＱデータを出力するシーケンサーシステムの１つの適切なラインとして、イルミナ・シーケンサーがある（米国カリフォルニア州サンディエゴのイルミナ社が提供している）。ＦａｓｔＡフォーマットは、単一の文字を使用して各塩基又はペプチドを表す（例えば、塩基表現“Ａ”、“Ｃ”、“Ｇ”及び“Ｔ”をＤＮＡ用に、あるいは、“Ａ”、“Ｃ”、“Ｇ”及び“Ｕ”をＲＮＡ用に）。追加の単一の文字コードを、多義的な塩基を表すために用いてよく、例えば、文字“Ｒ”がアデニン又はグアニンのいずれかである多義的な塩基を表してよい。ＦａｓｔＱフォーマットは、ＦａｓｔＡの拡張であり、配列の塩基についてのクオリティ値を表している文字から成る追加的な行を含む。ＦａｓｔＱファイルは、各塩基について２文字を使用する（１文字は塩基値を表し、２番目の文字はクオリティ値を表す）ため、対応するＦａｓｔＡファイルの約２倍の大きさとなる。配列フラグメントを参照配列に対してアライメントして（align）、アライメントされたゲノム又はプロテオミクスデータを生成し、シーケンス・アライメント／マップ（Sequence Alignment/Map；ＳＡＭ）テキストファイル又は同等のバイナリのＢＡＭファイルに一般に保存する。ＳＡＭフォーマットは慣例的に、配列の最初の塩基の座標が１である「１をベースとした」座標系を採用しており、一方でＢＡＭフォーマットは慣例的に、配列の最初の塩基の座標がゼロである「０をベースとした」座標系を採用している。アライメントされた配列を形成している配列フラグメントは、ＦａｓｔＡフォーマットに（ＢＡＭの場合はバイナリフォーマットに変換されて）適切にとどまる。配列アライメントは、遺伝子、イントロン（タンパク質に翻訳されない遺伝子内の異質の（extraneous）サブ配列）、エクソン（タンパク質に翻訳される遺伝子の一部分）、プロモータ（遺伝子転写を容易にするサブ配列）、転写因子（ＴＦ）結合部位を符号化する配列（ＴＦタンパク質はＤＮＡ配列のＴＦ結合部位と結合して転写を制御する）、非コードＲＮＡ（ｎｃ−ＲＮＡ）に転写する配列などの、機能領域の識別を可能にする。

続いて、アライメントされたゲノム又はプロテオミクス配列を解析して、一塩基多型（single nucleotide polymorphism；ＳＮＰ）、コピー数多型（copy number variation；ＣＮＶ）、サブ配列挿入又は欠失（挿入欠失）特性、種々の染色体内及び／又は染色体内の再構成などの、変異を識別する。これらの変異は、疾病マーカ、祖先系統マーカなどの役割を果たす場合がある。

配列処理は、コンピュータ的に集約的であり、大量の結果（product）データを生成する。例として、典型的なゲノム配列決定（sequencing）調査が、約４０ＧＢのＦａｓｔＡデータ及び／又は約８０ＧＢのＦａｓｔＱデータを生成する場合がある。これらの配列フラグメントのアライメントが、およそ２００ＧＢとなる１つ又は複数のＳＡＭファイルを生成する（バイナリＢＡＭファイルでは約１００ＧＢに縮小可能である）。アライメントされたデータをパターンマッチングアルゴリズムによって処理して関心のある変異を識別し、これら調査の結果を、種々のテキストファイル、表、スプレッドシート又は他のデータ編集物として通常保存する。

これらの既存の手法には、一定の欠点がある。医師又はレビューアは、所望の情報を得るために、多数のファイルにアクセスして精査することが必要となる可能性がある。さらに、変異解析それ自体が、データストレージの多様性によって複雑となるおそれがある。例えば、変異であって、エクソンにおいて発生した場合は証明力があり、その他においてはないものを考える。変異解析において、最初にパターンマッチングを実行して、変異識別特性（variation signature）にマッチしている候補配列を識別する。その後、ソースＳＡＭファイルにアクセスして、その候補配列マッチがエクソンにおいて発生するかどうかを判定する。この変異解析は２つのステップ、すなわち、（１）塩基配列をマッチさせるステップ、（２）その塩基配列マッチをエクソンとマッチさせるステップ、を含む。（あるいは、最初にＳＡＭの内容を用いてエクソンデータを識別し、続いてそのエクソンデータだけに塩基配列マッチングを適用してもよい。しかしながら、ここでも同様に、これは２段階の処理となる）。

配列決定結果の提示もまた、データストレージの多様性によって複雑になる。一般に、各変異解析の結果を、それ独自のテキストファイル、表、スプレッドシート又は他のデータ編集物に保存する。したがって、医者又は他のレビューアは、調査の結果にアクセスするために、種々のデータ編集物を精査することが必要となる。このプロセスには、情報の、相乗的な又は不一致の組み合わせを見落とす可能性がある。さらに、テキストフォーマットの表及び／又はスプレッドシートは、理解することが困難な場合がある。１つの解決策は、選択された結果をグラフ、色分けされた図などの形式で追加的に提示することである。しかしながら、そうした補助的なデータ表現の生成が、計算の複雑性をさらに増大させる。その上、グラフィカルな結果サマリは、これらの結果を、基礎をなすゲノム又はプロテオミクス配列データから切り離してしまうおそれがある。

本書において開示している新しい改良された装置及び方法を、以下に与える。

１つの開示している態様によると、方法が、ゲノム又はプロテオミクスデータを、バイオインフォマティクス文字セットの文字を含んでいるゲノム又はプロテオミクス文字列として符号化するステップであって、（ｉ）ゲノム又はプロテオミクスデータの各塩基又はペプチドが、バイオインフォマティクス文字セットの単一の文字によって表され、（ii）バイオインフォマティクス文字セットの各文字が、（Ｉ）塩基又はペプチドと（II）塩基又はペプチドに関連付けられる少なくとも１つの注釈付きデータ値とを符号化する、ステップと、ゲノム又はプロテオミクス文字列を、バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントを用いて表示することによって、ゲノム又はプロテオミクスデータを表示するステップと、を含む。その符号化するステップ及び表示するステップは、デジタル処理装置によって適切に実行される。当該方法は、ゲノム又はプロテオミクス文字列において、更新されたゲノム又はプロテオミクス文字列を生成するために、少なくとも１つの文字列機能を実行するステップであって、更新されたゲノム又はプロテオミクス文字列において、少なくとも１つの塩基又はペプチドが、実行された文字列操作によって生成された少なくとも１つの追加の又は変更された注釈付きデータを符号化している単一の文字によって表される、ステップ、をさらに含む。

別の開示している態様によると、デジタル処理装置が、すぐ直前の段落に記載の方法を実行するように構成される。別の開示している態様によると、固定のストレージ媒体が、デジタル処理装置によって読取可能であり、すぐ直前の段落に記載の方法を実行するためにデジタル処理装置によって実行可能な命令を保存している。

別の開示している態様によると、固定のストレージ媒体が、デジタルプロセッサによって読取可能であり、バイオインフォマティクス文字セットの文字を含んでいるゲノム又はプロテオミクス文字列として表されるゲノム又はプロテオミクスデータを処理するソフトウェアを記憶しており、ゲノム又はプロテオミクスデータの各塩基又はペプチドがバイオインフォマティクス文字セットの単一の文字によって表され、バイオインフォマティクス文字セットの前記文字は塩基又はペプチドと塩基又はペプチドに関連付けられる追加のデータとを符号化する。いくつかの実施形態において、そのソフトウェアは、ゲノム又はプロテオミクスデータを文字列処理演算を用いて処理する。いくつかの実施形態において、そのソフトウェアは、塩基又はペプチドを表している文字のうち選択されたバイナリビットをゼロにするために、ゲノム又はプロテオミクスデータをビット単位のマスキング演算を用いて処理する。いくつかの実施形態において、当該ストレージ媒体は、バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントをさらに記憶し、そのソフトウェアは、ゲノム又はプロテオミクスデータがバイオインフォマティクスフォントを用いて表示されるように表示処理を実行する。

１つの利点が、ゲノム又はプロテオミクスデータの、よりコンパクトな集中型のストレージにある。

別の利点が、塩基クオリティ値、機能領域情報、変異情報又は他の注釈付きデータを、塩基又はペプチドと共に、コンパクトな単一の文字表現で保存することにある。

別の利点が、塩基クオリティ値、機能領域、変異などの注釈付き情報を表現又は描画している弁別的なマーク又は他のフォント特性を含む、塩基又はペプチドについての直観的な表示を提供することにある。

別の利点が、ゲノム配列を従来型の文字列演算を用いて比較することにある。文字列の比較は、アノテーションにおける特定の変化（例えば、メチル化）だけを検出するように容易に構成可能である。

他の利点が、種々の調査グループによって注釈付けされた参照配列の種々のアノテーションの比較と、通常のゲノムに対するがんのゲノムにおけるエピジェネティックな変化の視覚化のたやすさとを、容易にすることを含む。

下記の詳細説明を読んで理解すると、当業者において、さらなる利点が明らかにあるであろう。

バイオインフォマティクス文字セット及びマップされたバイオインフォマティクスフォントを用いた、配列アライメント／解析を概略的に示す。塩基クオリティスコアを塩基配列と共に表現する、適切な弁別的なマーク付け体系の表である。弁別的なマークで描写されたコード化配列（ＣＤＳ）開始及び終止コドンを含む、塩基配列の一部分の表現を示す。塩基に対して注釈付けされている領域的な変異の情報を表現する、いくつかの適切な弁別的なマークの表である。２つのエクソンの間に置かれたイントロンを描写している選択された弁別的なマークを含んでいる、塩基配列の一部分の表現を示す。バイオインフォマティクスフォントのフォント文字を、塩基に対するビットマップと弁別的なマークに対するビットマップとをビット単位のＯＲ演算を用いて組み合わせることによって、構成する手法を概略的に示す。弁別的なマークで描写されたコード化配列（ＣＤＳ）開始及び終止コドンとイントロンを描写している弁別的なマークとを含む塩基配列の一部分の表現を、図６のバイオインフォマティクスフォントの実施形態から成る弁別的なマークを用いて示す。チェックボックスとともに表示された塩基配列の一部分を概略的に示しており、そのチェックボックスによって、レビューアが、表示されている塩基配列においてどのアノテーションタイプが示されるべきかを選択可能となっている。アミノ酸を表すバイオインフォマティクスフォントのフォント文字を、アミノ酸に対するビットマップと弁別的なマークに対するビットマップとをビット単位のＯＲ演算を用いて組み合わせることによって、生物物理学的特性とともに構成する手法を概略的に示す。

図１を参照すると、ゲノム又はプロテオミクス配列決定解析システムが配列決定ラボ１０を含み、その配列決定ラボは、ＤＮＡ、ＲＮＡ、タンパク質などのサンプルを準備及び配列決定して、塩基配列フラグメント（ゲノムサンプルに対して）又はペプチド配列フラグメント（プロテオミクスサンプルに対して）を生成し、それを配列フラグメントとしてＦａｓｔＡ又はＦａｓｔＱフォーマット１２で保存する。例示として、ＤＮＡ物質のサンプルを、ＤＮＡ精製及びクローニング、ジデオキシヌクレオチド三リン酸塩（ｄｄＮＴＰ）ターミネータなどの蛍光標識された鎖ターミネータを用いるポリメラーゼ連鎖反応（ＰＣＲ）などの手法による増幅、並びにキャピラリー電気泳動又は別の配列決定手法による配列決定などの作業によって、準備及び配列決定してよい。ラボ１０において、これらの種々の作業を、手動の、半自動化された又は完全に自動化された処理作業として行ってよい。例えば、特定のサンプル準備作業を手動で、又は半自動化された方法で行い、続いて、準備したサンプルを自動化された配列決定装置を用いてロードし配列決定してよい。追加的に又は代替的に、ラボ１０は、プロテオミクス配列決定を、エドマン分解及び質量分析、又は他の適切な手法を用いて行ってよい。

例示的な配列決定ラボ１０の出力には、ＦａｓｔＡ又はＦａｓｔＱフォーマット１２における配列決定フラグメントを含む。これらは従来型のフォーマットである。ＦａｓｔＡでは、塩基又はペプチドの配列を文字の配列によって表し、ここで、それぞれの文字が１つの塩基又はペプチドを表す。例えば、ゲノム配列「アデニン‐グアニン‐シトシン」はＦａｓｔＡにおいて「ＡＧＣ」で相応に表される。ＦａｓｔＱフォーマットでは、塩基又はペプチドを表している文字列と平行する、第２の文字列が追加される。その第２の文字列は、各塩基又はペプチドについてのクオリティ値を、単一の文字コードを用いて表す。したがって、ＦａｓｔＱにおいて各塩基又はペプチドは、２つの文字によって表される。すなわち、第１の（例えば、塩基配列）文字列における第１の文字が塩基又はペプチドの識別を与え、第２の（例えば、クオリティ値）文字列における第２の文字が自動化されたシーケンサー（又は他の適切なクオリティ評価）によって出力された塩基又はペプチドに対するクオリティ値を与える。

引き続き図１を参照すると、配列アライメント／解析モジュール１４が、配列フラグメント１２を受信する。フォーマット変換モジュール１６が、ＦａｓｔＡ又はＦａｓｔＱ配列を単一の文字列（single-string）表現１８に、バイオインフォマティクス文字セット２０を用いて変換する。本書で開示するように、バイオインフォマティクス文字セット２０は、ゲノム又はプロテオミクス配列をコンパクトな単一の文字列フォーマットで表すように設計され、そのフォーマットにおいて、各塩基又はペプチドが、バイオインフォマティクス文字セット２０の単一の文字によって表される。その単一の文字は、塩基又はペプチドと、その塩基又はペプチドに関連する注釈付き（annotated）データとの双方を符号化する。

ここで、ＦａｓｔＡなどの既存のフォーマットはコンパクトではないということが理解される。例えば、ゲノムデータについての符号化を考える。４つの塩基を符号化するために、４つの符号化値が必要とされる（チミン又はウラシルのいずれかを想定しているが、双方ではない）。これらの４つの可能性は、わずか２ビットで符号化することが可能である。さらに多義性も符号化する場合、その結果これは、起こりうる値を１５個もの数だけ必要とする可能性がある。それらはすなわち、「既知の」塩基が４つ、追加的な多義的な「２塩基の」組み合わせ（例えば、アデニン又はシトシンのいずれかであることが既知の部位）が６つ、起こりうる多義的な「３塩基の」組み合わせ（例えば、アデニン、シトシン又はグアニンであることが既知の部位）が４つ、そして、完全に多義的な組み合わせ（すなわち、アデニン、シトシン、グアニン又はチミンのいずれかによる部位）が１つである。これらの１５個の取りうる値は、わずか４ビットで符号化することが可能である。符号化すべき多義性の詳細を少なくする場合、必要とされる取りうる値が少なくなる。例えば、４つの塩基と単一の多義的な“Ｎ”コードとを使用する場合、その結果取りうる値はわずか５個となり、それは３ビットで符号化可能となる。しかしながら、ＦａｓｔＡは、フルバイト（８ビット）を用いて、その情報を表している。

ＦａｓｔＡの１バイト符号化スキームは、相当な利点を有していない。シングルバイト手法は、従来型のデジタルプロセッサアーキテクチャに適合し、そのアーキテクチャにおいて、データはそれぞれ８ビットというバイト単位に構造化される。その上、“Ａ”、“Ｃ”、“Ｇ”、“Ｔ”の文字（及び、“Ｎ”などの随意的な多義的な文字）は、情報交換標準コード（ＡＳＣＩＩ）文字セットに適合し、それに応じて、既存の文字列機能を、ＦａｓｔＡデータを操作するのに用いることが可能となる。しかしながら、ここで、ＦａｓｔＡは各バイトについての符号化能力の相当量を「無駄にしている」ということが認められる。１バイトという８ビットには、２５６個の取りうる値を（０から２５５までの範囲で）格納することが可能なのである。ところがＦａｓｔＡは、１５（又はそれ未満）の起こりうる組み合わせしか使用していない。

ＦａｓｔＱは、ＦａｓｔＡの拡張である。ＦａｓｔＱでフォーマットされたファイルの塩基符号化（又はペプチド符号化）文字列はＦａｓｔＡのものと同一であり、ゆえに、前述の見解はＦａｓｔＱにも同様に当てはまる。さらにＦａｓｔＱは、塩基クオリティ値を含んでいる第２の文字列を含み、１バイトを各クオリティ値に使用している。ｐｈｒｅｄクオリティスコアを符号化する場合、これらのスコアは０から９３までの範囲となる。９４個の取りうる値はわずか７ビットで符号化可能であるが、ＦａｓｔＱは、フルの８ビットバイトを使用して、そのクオリティ値を符号化している。

対照的に、本書で開示するバイオインフォマティクス文字セット２０の実施形態は、追加的な利点を有する、よりコンパクトなストレージを提供する。バイオインフォマティクス文字セット２０は、単一の文字を用いて、配列の塩基又はペプチドの各々を表す。既存のデジタル処理アーキテクチャに適合するという観点でＦａｓｔＡ及びＦａｓｔＱの利点を維持するために、各文字は通常、シングルバイト又は２バイトとなる。各文字に対してシングルバイトを用いるようにバイオインフォマティクス文字セット２０を設計することは、その文字セットが、同様に１文字につきシングルバイトを使用している標準ＡＳＣＩＩにうまく適合する、ということを意味する。一方、バイオインフォマティクス文字セット２０が各文字に対して２バイトを用いる実施形態は、１文字につき２バイトを使用している標準ユニコードにうまく適合する。

しかしながら、バイオインフォマティクス文字セット２０は、ＡＳＣＩＩ又はユニコードではない。むしろ、文字のビットのうち１つのサブセットを用いて塩基又はペプチドを表すように、かつ、文字のビットのうち別のサブセットを用いてその塩基又はペプチドに関連付けられた少なくとも１つの注釈付きデータ値（及び典型的にはいくつかの異なる注釈付きデータ値）を表すように、バイオインフォマティクス文字セット２０を設計する。

例示として、表１が、バイオインフォマティクス文字セット２０の一実施形態を示す。その文字セット２０は、１塩基につき単一の文字を用いてゲノムデータ（より具体的には、ＤＮＡ配列）を表すのに適切であり、それぞれの文字は１６ビットを有する２バイト文字となっている。単一文字のビットを、ｂ_１５ｂ_１４ｂ_１３ｂ_１２ｂ_１１ｂ_１０ｂ_９ｂ_８ｂ_７ｂ_６ｂ_５ｂ_４ｂ_３ｂ_２ｂ_１ｂ_０で適宜記す。ここで、ｂ_１５は最も大きい（significant）ビットであり、ｂ_０は最も小さい（not significant）ビットである。最も大きいバイトは、ビットｂ_１５ｂ_１４ｂ_１３ｂ_１２ｂ_１１ｂ_１０ｂ_９ｂ_８を含み、一方、最も小さいバイトは、ビットｂ_７ｂ_６ｂ_５ｂ_４ｂ_３ｂ_２ｂ_１ｂ_０を含む。表１のバイオインフォマティクス文字セット２０において、ビットｂ_２ｂ_１ｂ_０は、塩基を表すために使用される。５つの許容値、すなわち、ＤＮＡの４つの塩基を表す４つの値と、不明な塩基を表している５番目の「多義的な」値と、が存在する。残りの１３ビットｂ_１５ｂ_１４ｂ_１３ｂ_１２ｂ_１１ｂ_１０ｂ_９ｂ_８ｂ_７ｂ_６ｂ_５ｂ_４ｂ_３は、その塩基に関連付けられた種々の注釈付きデータ値を表すために使用される。（例示については表１参照）。

表１のバイオインフォマティクス文字セット２０の例示的な実施形態の場合、フォーマット変換モジュール１６が実行するフォーマット変換が、次のように適宜動作する。すなわち、ＦａｓｔＡコード“Ａ”を文字0000000000000000_bin（0000_hex）に変換し、ＦａｓｔＡコード“Ｃ”を文字0000000000000001_bin（0001_hex）に変換し、ＦａｓｔＡコード“Ｇ”を文字0000000000000010_bin（0002_hex）に変換し、ＦａｓｔＡコード“Ｔ”を文字0000000000000011_bin（0003_hex）に変換し、そして、多義的な塩基に対応するすべての他のＦａｓｔＡコードを文字0000000000000100_bin（0004_hex）に変換する。ＦａｓｔＱは、この実施形態において同様に変換されるが、さらにｂ_６ｂ_５ｂ_４ｂ_３に、表１に示す符号化スキームに従ったクオリティ値の符号を記される点が異なる。ここで留意すべきは、この符号化スキームにより、ｐｈｒｅｄスコアをわずか４ビットで表すことが可能となるが、いくらかの分解能の減少を伴うことである。（例えば、ｂ_６ｂ_５ｂ_４ｂ_３＝0100は、そのｐｈｒｅｄスコアが３１から４０の範囲にあるものとしか明示しない。）一般に、人はクオリティスコアが「高い」か「低い」かを知りたいだけであり、ゆえに、このクオリティ値の分解能の減少は通常問題にならない。

表１のバイオインフォマティクス文字セット２０の例示的な実施形態の場合、フォーマット変換モジュール１６が実行するフォーマット変換は、残りのアノテーションビットｂ_１５ｂ_１４ｂ_１３ｂ_１２ｂ_１１ｂ_１０ｂ_９ｂ_８ｂ_７にデフォルト値のゼロを設定する。これは、アライメントや変異解析がまだ実行されていないという現状を反映しており、したがって、エクソン、イントロンなどに属していると識別される塩基は全く存在しない。

図１の例示的な実施形態において、配列決定ラボ１０はＦａｓｔＡ又はＦａｓｔＱフォーマットでデータ１２を生成し、続いてそれをフォーマット変換モジュール１６がデータ表現１８へとバイオインフォマティクス文字セット２０を用いて変換する。この手法は有利なことに、配列アライメント／解析モジュール１４が従来型のＦａｓｔＡ又はＦａｓｔＱフォーマットで生成された配列決定フラグメントデータを処理することを可能にする。しかしながら、代替的に、配列決定ラボ１０は、配列フラグメントをバイオインフォマティクス文字セット２０の表現で直接出力してもよい。

引き続き図１を参照すると、バイオインフォマティクス文字セット２０表現における配列フラグメント１８を、配列アライメントモジュール２２が処理する。配列アライメントモジュールは、（より）完全で（より）長いアライメントされた配列を形成するように配列フラグメントを「共に接合する」目的で、典型的には参照配列２４を参照しながら、配列フラグメントをアライメントするように動作する。アライメント処理は、ＦａｓｔＡ配列フラグメントに対して慣例的に適用されるもの、すなわち、配列フラグメントの端を共にアライメントして接合するために、それらの端をマッチさせることに、類似する。しかしながら、データ表現１８を用いた場合、アノテーションビット（例えば、表１の例におけるクオリティ値アノテーションｂ_６ｂ_５ｂ_４ｂ_３）は、ミスマッチをもたらす可能性がある。換言すると、異なるクオリティ値を有する２つの同一の塩基は、その異なるクオリティ値が原因でマッチしないおそれがある。

この論点を解決するために、アノテーションビットの値を、アライメント処理の目的で、適宜ゼロに設定する。これはビット単位の“ＡＮＤ”マスクを用いて十分行うことが可能であり、それにおいて、アノテーションビット位置にゼロを設定し、塩基ビット位置に１を設定する。表１の例について、適切なビット単位マスクは、Ｍ_base＝0000000000000111_bin（0007_hex）であろう。このマスクをバイオインフォマティクス文字セット２０の文字Ｃに適用すること（適宜Ｃ＆Ｍ_baseと記し、ここでアンパサンドはビット単位の“ＡＮＤ”演算を示す）は、すべてのアノテーションビットをゼロで初期化するという効果を有し、一方、文字Ｃの塩基ビットを変更せずに通過させる。バイナリマスキングは低レベルのデジタル処理演算であり、したがって一般にかなり効果的である。バイオインフォマティクス文字セット２０から成るＫ文字の文字列Ｓ＝［Ｃ_１Ｃ_２Ｃ_３〜Ｃ_Ｋ］が表す塩基配列について、それぞれの文字を、例えば、Ｋ回の繰り返しのループを用いてマスクＭ_baseを各文字Ｃ_１〜Ｃ_Ｋに順次反復的に適用し、個々にマスクする必要があるであろう。表記上の利便性のため、本書ではこの文字列マスキング演算を、Ｓ＆Ｍ_baseという形式の擬似コードによって表す。ここで、Ｓは塩基配列文字列であり、Ｍ_baseは文字列Ｓの単一の文字についてのバイナリマスクである。したがって、塩基配列フラグメントＳ_１及びＳ_２をフラグメントアライメントの目的で比較するために（すなわち、アノテーションビットを考慮しない、塩基についての比較のため）、その比較をＳ_１＆Ｍ_baseとＳ_２＆Ｍ_baseとの間で行う。

配列アライメントモジュール２２は、配列フラグメントを参照配列２４を参照しながらアライメントする場合、エクソン、イントロン、プロモータ領域、コード化配列（ＣＤＳ）領域などの、有意性のあるゲノム領域をさらに識別してもよい。これは、参照配列２４がラベル付け又は別の方法で意味付けされたこれらの領域を有している場合に、達成可能である。配列アライメントモジュール２２は、上記の機能領域を識別する場合、これらの領域を示すように、対応するアノテーションビットを適宜設定する。したがって、例えば（この場合も先と同様に、表１の例示的なバイオインフォマティクス文字セットを考えると）、ある塩基をイントロンの一部として識別する場合、その結果、ビットｂ_１０に１を設定する。ある塩基をエクソンとして識別する場合、その結果、ビットｂ_９に１を設定する。

留意すべきは、配列アライメントモジュール２２は、アライメント処理によって識別されるゲノム領域を符号化しているアノテーションビットだけを更新できる、ということである。その一方で、配列アライメントモジュール２２は、そのアライメントによって特定されない変異情報を符号化しているアノテーションビットを更新できない。例えば、配列アライメントモジュール２２は、ある塩基が疾病マーカの一部であるかどうかを符号化しているビットｂ_１５を更新できない。

いくつかの例において、配列アライメントモジュール２２は、いくつかの配列フラグメントをアライメントされた配列に接合することに失敗するおそれがある。これらの残りのアライメントされていない配列フラグメントは、クローニング処理で使用されたホストセルからの残留ＤＮＡ物質であってよく、あるいは、配列決定処理における誤りを反映してよく、あるいは、他の要素に起因してよい。これらの残りのアライメントされていない配列フラグメントをデータ構造２６で適切に保存し、そのアライメントされていないフラグメントもまたバイオインフォマティクス文字セット２０を用いて表すようにする。

配列アライメント処理で作った所望の生成物であるアライメントされた配列を、配列アライメント／マップ（ＳＡＭ）ファイル又は同等のバイナリＢＡＭファイル３０に適切に保存する。しかしながら、ＳＡＭファイルでは、アライメントされた配列を、バイオインフォマティクス文字セット２０を用いて適切に表している。有利なことに、これは、塩基クオリティ値（表１の例におけるアノテーションビットｂ_６ｂ_５ｂ_４ｂ_３）及び機能領域情報（表１の例におけるアノテーションビットｂ_１４ｂ_１３ｂ_１２ｂ_１１ｂ_１０ｂ_９ｂ_８ｂ_７）などのアノテーション情報それ自体をゲノム配列の塩基と共に、ＳＡＭ又はＢＡＭファイル３０内に直接保存する、ということを意味する。

アライメントされた配列を、１つ又は複数の変異解析を行う変異解析モジュール３２が処理する。これらの解析は典型的にはパターンマッチング処理を用いて行い、それにおいて、アライメントされた配列を識別特性データベース３４から得られるマーカパターンと比較する。そのマーカパターンもまた、バイオインフォマティクス文字セット２０を用いて保存することが好ましい。ビット単位マスキングを、アノテーションと変異解析との関連に基づいてそのアノテーションを選択的に除外又は維持するために、使用してよい。

例えば、変異であって、エクソンにおいて発生した場合は証明力があり、その他においてはないという例を考える。この場合、その塩基がエクソンの一部であるかどうかは関連するが、その他のアノテーション（例えば、塩基クオリティスコア）は関連しない。表１のバイオインフォマティクス文字セット２０の実施形態において、その塩基がエクソンの一部であるかどうかは、アノテーションビットｂ_９が示す。したがって、その比較を、ビット単位マスクがＭ＝0000001000000111_bin（0207_hex）である配列文字列Ｓ＆Ｍについて、適切に行う。このマスクは、エクソンアノテーションビットｂ_９と塩基ビットｂ_２ｂ_１ｂ_０とを維持し、その文字の残りのビットをゼロで初期化する。データベース３４内の変異識別特性の塩基は、0000001000000xxx_bin（020X_hex）という形式を有し、ここで、ｘは０又は１のいずれかであってよく、Ｘは、000、001、010、011又は100のいずれかを意味する（残りの可能性は表１の実施形態のフォーマリズムではいずれも符号化しない）。したがって、Ｓ＆Ｍと識別特性とにおける比較が、所望のパターンマッチングを提供する。

有利なことに、この手法は、変異解析をビット単位の演算と文字／文字列機能とを用いて実行し、実際に、Ｃ＋＋、Ｐｅｒｌ若しくは他のプログラミング言語が備える、又はスクリプト言語などが備える標準の文字／文字列ライブラリなどの、既存の文字／文字列機能ライブラリ３６を使用してよい。標準文字又は文字列機能は、一般に、ＡＳＣＩＩ又はユニコードなどの標準文字セット上で動作するように設計されるものである。しかしながら、バイオインフォマティクス文字セット２０が標準文字セット（例えば、ＡＳＣＩＩ又はユニコード）に「適合する」場合、その文字／文字列機能もまたバイオインフォマティクス文字セット２０と共に動作することになる。これに関連して、バイオインフォマティクス文字セット２０は、同じ文字サイズ（例えば、ＡＳＣＩＩに対して１バイト、又は、ユニコードに対して２バイト）を用いて、かつ、使用されている特定のデジタル処理プラットフォーム上でＡＳＣＩＩ又はユニコードにおいて特別に識別される有意性を持つ可能性があるどんな「特殊な」文字も回避する場合、ＡＳＣＩＩ又はユニコードに「適合する」。例えば、ヌル文字を、ＡＳＣＩＩ文字列のターミネータとしていくつかのプラットフォーム上で用いてよく、その場合、シングルバイト文字を用いているバイオインフォマティクス文字セット２０の一実施形態の文字は、ＡＳＣＩＩヌル文字と同じ数値コードを決して持つべきではない。さらに、これに関連して、ＡＳＣＩＩ又はユニコードに「適合している」バイオインフォマティクス文字セット２０とは、バイオインフォマティクス文字セット２０で記される文字列が、標準の文字列機能に対して的確な入力となるように、使用されている特定のデジタル処理プラットフォームにおいてＡＳＣＩＩ又はユニコード文字列と同じ方法で整形される、ということを意味する。例えば、いくつかのプラットフォームにおいて、ユニコード文字列が２バイトのヘッダを含む場合があり、そのヘッダはその文字群がビッグエンディアンであるのか（一般にヘッダFE_hex、FF_hex）あるいはリトルエンディアンであるのか（一般に、ヘッダFF_hex、FE_hex）を示している。上記の場合、適切な２バイトヘッダを、バイオインフォマティクス文字セット２０で表される文字列の前に、それをユニコード向けに設計されている標準の文字列機能に入力することに先行して、置くべきである。

変異解析モジュール３２は、関心のある変異を識別する場合、その変異を示すように対応するアノテーションビットを適切に設定する。したがって、例えば（この場合も先と同様に、表１の例示的なバイオインフォマティクス文字セットを考えると）、疾病マーカをゲノム配列において識別する場合、その結果、その疾病マーカにマッチしている各塩基のビットｂ_１５に１が設定され、この更新はＳＡＭ（又はＢＡＭ）ファイル３０においてなされる。配列アライメントモジュール２２はすでに、アライメント処理に基づいて識別されたアノテーションビットを更新し、ＳＡＭ（又はＢＡＭ）ファイル内にそれらのアノテーションを含んでいるため、変異処理を完了すると、ＳＡＭ（又はＢＡＭ）ファイル３０は、すべての関連する機能領域識別、変異に関連する情報、及び塩基クオリティ値を、単一のコンパクトな表現で含むという結果になる。

配列処理（例えば、アライメントや変異解析）を完了した場合、その結果を、人間が認知可能なフォーマットで表示してよい（例えば、ディスプレイ装置上に表示してもよく、あるいは、プリンタ又は他のマーキングエンジンを介して印刷してもよい）。慣例的に、上記の表示には、配列を従来型のシンボル（例えば、ＤＮＡ塩基配列に対する、文字“Ａ”、“Ｃ”、“Ｇ”及び“Ｔ”の組み合わせ）を用いてリストアップすることと、変異解析結果を要約しているレポートを提供することとを含む。文字を用いることに代わって、いくつかのシステムでは、他のシンボルを塩基に対して使用する。例えば、一慣例において、アデニンはシンボル“×”で表され、シトシンはシンボル“□”で表され、グアニンはシンボル“＋”で表され、そして、チミンはシンボル“ ”で表される。ＦａｓｔＡ又はＦａｓｔＱ配列文字列がＡＳＣＩＩのサブセットを用いているため、配列リストを生成することは慣例的に容易である。すなわち、文字“Ａ”はＡＳＣＩＩ及びＦａｓｔＡ（又はＦａｓｔＱ）の双方において41_hexで表され、文字“Ｃ”はＡＳＣＩＩ及びＦａｓｔＡ（又はＦａｓｔＱ）の双方において43_hexで表され、文字“Ｇ”はＡＳＣＩＩ及びＦａｓｔＡ（又はＦａｓｔＱ）の双方において47_hexで表され、そして、文字“Ｔ”はＡＳＣＩＩ及びＦａｓｔＡ（又はＦａｓｔＱ）の双方において54_hexで表される。したがって、ＦａｓｔＡ（又はＦａｓｔＱ）塩基文字列は、ＡＳＣＩＩ文字列であり、ＡＳＣＩＩにマップされるいかなるフォントを用いても印刷可能である。

配列アライメント／解析モジュール１４は、一方で、ＡＳＣＩＩ（又はユニコード）とは異なるバイオインフォマティクス文字セット２０を使用するが、とはいえ、ＡＳＣＩＩ（又は、２バイト文字セットの実施形態に対してはユニコード）に適合することが好ましい。結果として、バイオインフォマティクス文字セット２０を用いて表されるゲノム又はプロテオミクスデータは、ＡＳＣＩＩ（又は、２バイト文字の実施形態においてはユニコード）にマップする標準フォントを用いて形式的には印刷可能であるが、表示されるデータは無意味なものに見えるであろう。それに応じて、配列アライメント／解析モジュール１４は、バイオインフォマティクス文字セット２０にマップされるバイオインフォマティクスフォント４０を含む。フォント４０は、バイオインフォマティクス文字セット２０の各文字について、表示されるフォント文字を提供する。配列解析結果表示モジュール４２が、バイオインフォマティクスフォント４０を用いてバイオインフォマティクス文字セット２０で表されるゲノム又はプロテオミクス配列を適切に表示する。バイオインフォマティクスフォント４０のフォント文字は、好ましくは、（１）塩基又はペプチドを表す文字（又は随意に、ペプチドを表す３文字のシーケンス）、（２）追加的な特徴、例えば、弁別的なマーク、ボールド体及び／又はイタリックフォントスタイルなどのフォントスタイルの特徴等、などを含み、その塩基又はペプチドに関連付けられる注釈付きデータを、バイオインフォマティクス文字セット２０の表現文字で表す。文字を使用することに代わって、塩基又はペプチド表現は、（１）別の種類のシンボル、すなわち、アデニン＝“×”、シトシン＝“□”、グアニン＝“＋”及びチミン＝“ ”などを用いてよい。有利なことに、配列解析結果表示モジュール４２は、ＡＳＣＩＩ又はユニコードテキストを表示するためのプラットフォームが提供する、従来型のテキスト表示ルーチンを使用することができる。これらのテキスト表示ルーチンを適合させて、その表示ルーチンをバイオインフォマティクスフォント４０を用いて表示（又は印刷）するように単に呼び出すことによって、ゲノム配列を表示するようにする。

配列アライメント／解析モジュール１４を、例示的なコンピュータ５０などのデジタル処理装置で具体化してよい。そのデジタル処理装置は、ソフトウェアを実行するようにプログラムされたデジタルプロセッサ（図示せず）を含み、そのソフトウェアは、種々のモジュール１６、２２及び３２を実装しており、バイオインフォマティクスフォント４０を保存している記憶域を含んでいる。例示的なコンピュータ５０の他に、別のデジタル処理装置、例えば、デジタルプロセッサを含む専用のＤＮＡ配列決定装置、又はネットワークサーバシステム、又は配列アライメント／解析モジュール１４を実施するように再プログラムされたゲーム機械などのグラフィック処理装置（ＧＰＵ）、などを用いてもよい。配列アライメント／解析モジュール１４は随意に、（コンピュータ５０の例示的なディスプレイ５２などの）ディスプレイ装置を含み、又はディスプレイ装置への接続を有し、バイオインフォマティクスフォント４０を用いて表されるゲノム又はプロテオミクス配列などの情報を表示する。

さらに、配列アライメント／解析モジュール１４を、バイオインフォマティクスフォント４０と、デジタルプロセッサ（コンピュータ５０のプロセッサなど）が実行した場合に種々のモジュール１６、２２及び３２を実施するソフトウェアとを保存している、固定のストレージ媒体で実施してもよい。上記の固定のストレージ媒体は、例として、次のもの、すなわち、ハードドライブ若しくは他の磁気ストレージ媒体、光ディスク若しくは他の光学ストレージ媒体、読取専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ若しくは他の静電記憶装置又は静電記憶装置の組み合わせ、などうちの１つ又は複数を含んでよい。

配列アライメント／解析モジュール１４を説明している概略的な図１は、バイオインフォマティクス文字セット２０を概略的に示している。しかしながら、十分理解されるように、いくつかの実施形態において、バイオインフォマティクス文字セット２０は、バイオインフォマティクス文字セット２０を用いて書式設定されたゲノム又はプロテオミクス配列を生成及び操作する、種々のモジュール１６、２２及び３２が行う処理によって暗に具体化される。一方で、バイオインフォマティクスフォント４０を、ビットマップ又は他のフォント文字表現のセットとして保存する。いくつかの実施形態において、所与のフォント文字について、保存されている構成要素の特性ビットマップを組み合わせたり変更したりすることによって、「必要とされるとおりに」ビットマップを構成するということが考えられる。例えば、注釈付きデータを表している１つ又は複数の弁別的なマークを、塩基又はペプチドを表す文字を表現しているビットマップに追加することによってなされる。

例示的な配列アライメント／解析モジュール１４を、図１と表１で与えられたバイオインフォマティクス文字セット２０の実施形態とを参照しながら説明してきたが、バイオインフォマティクス文字セット２０のいくつかのさらなる実施形態といくつかの例示的なバイオインフォマティクスフォント文字とを、次に説明する。

図２及び表１を参照して、塩基及び塩基クオリティ値情報の双方を含んでいるバイオインフォマティクス文字セット２０の文字を適切に表示する、いくつかのフォント文字を示す。この手法において、塩基クオリティ値を示す弁別的なマークは、塩基クオリティアノテーションビットｂ_６ｂ_５ｂ_４ｂ_３から特定され、１つ又は複数の（図２に示すように）結合された、又は分離された線の断片のセットを含む。その線の断片のトータルの長さが塩基クオリティ値を示す。留意すべきは、図２の実施形態において、弁別的なアノテーション値1000_bin、1001_bin及び1010_binがすべて同一のフォント文字にマップされるということである。したがって、そのフォント文字は、７０より大きいｐｈｒｅｄスコアを示す。図２の弁別的なマークは、文字“Ａ”によって示される塩基アデニンを示している。より一般的には、適切な実施形態において、塩基アデニンは文字“Ａ”又は“ａ”で示され、塩基シトシンは文字“Ｃ”又は“ｃ”で示され、塩基グアニンは文字“Ｇ”又は“ｇ”で示され、塩基チミンは文字“Ｔ”又は“ｔ”で示され、そして、塩基ウラシルは文字“Ｕ”又は“ｕ”で示される。図２の弁別的なマーク（すなわち、線）は、これらの文字のいずれにも容易に適用される。有利なことに、図２に示すフォント文字によって表される塩基を解釈しているレビューアは、配列内の各塩基のクオリティ値に容易にアクセスすることが可能となる。

留意すべきは、当業者に理解されるであろうように、本書において、語句「文字“Ａ”又は“ａ”」は、文字“Ａ”又は“ａ”として認識可能なシンボルを示すということである。文字“Ａ”又は“ａ”を、例えば、アリアル（Arial）・フォント、又はタイムズ・ニュー・ローマン（Times New Roman）・フォント、又はクーリエ（Courier）・フォント、又は手書きのフォントなどを用いて種々に表してよい。類似の注解が、バイオインフォマティクスフォント４０において塩基又はペプチドを示す他の文字に当てはまる。

図３及び表１を参照して、コード化配列（ＣＤＳ）開始及び終止コドンを表しているフォントを示す。表１の文字セットの実施形態において、塩基に対して、アノテーションビットｂ_７及びｂ_８を用いて、ＣＤＳ開始又はＣＤＳ終止コドンについてそれぞれ注釈を付ける。図３のフォント実施形態において、ｂ_７又はｂ_８のいずれかが１に等しい文字を、塩基を表している文字の周りにボックスを有するフォント文字にマップするのである。一方で、ｂ_７及びｂ_８の双方がゼロに等しい文字を、上記のようなボックスを有さないフォント文字にマップする。図３に認められるように、このフォントマッピングの結果は、開始及び終止コドンが弁別的なボックスマークによって容易に認識されるということになる。図３の実施形態において、同一の弁別的なボックスマークを、ＣＤＳ開始及びＣＤＳ終止の双方について使用している。あるいは、異なる弁別的なマークをＣＤＳ開始とＣＤＳ終止とについて用いてもよく、それは、レビューアがＣＤＳの開始に対する終止を見定めることを支援するであろう。

図４を参照して、種々のゲノム領域又は変異を示しているいくつかの他の適切な弁別的なマークを示す。図４の例において、メチル化を示しているアノテーションを含むバイオインフォマティクス文字セット２０の文字を、角シンボル（すなわち、“Ｖ”のようなものだが、随意に“Ｖ”の先端が下方向以外を向いている）を含む弁別的なマークを有するバイオインフォマティクスフォント４０のフォント文字にマップする。図４に示す別の例において、イントロンを示しているアノテーションを含む（例えば、表１の例においてｂ_１０に１が設定されている）バイオインフォマティクス文字セット２０の文字を、文字“Ｉ”又は“ｉ”を含む弁別的なマークを有するバイオインフォマティクスフォント４０のフォント文字にマップする。図４に示す別の例において、エクソンを示しているアノテーションを含む（例えば、表１の例においてｂ_９に１が設定されている）バイオインフォマティクス文字セット２０の文字を、文字“Ｅ”又は“ｅ”を含む弁別的なマークを有するバイオインフォマティクスフォント４０のフォント文字にマップする。図４に示す別の例において、プロモータを示しているアノテーションを含む（例えば、表１の例においてｂ_１１に１が設定されている）バイオインフォマティクス文字セット２０の文字を、文字“Ｐ”又は“ｐ”を含む弁別的なマークを有するバイオインフォマティクスフォント４０のフォント文字にマップする。図４に示す別の例において、転写因子（ＴＦ）結合部位を示しているアノテーションを含む（例えば、表１の例においてｂ_１２に１が設定されている）バイオインフォマティクス文字セット２０の文字を、文字“Ｘ”又は“ｘ”を含む弁別的なマークを有するバイオインフォマティクスフォント４０のフォント文字にマップする。図４に示す別の例において、非コードＲＮＡの領域を示しているアノテーションを含む（例えば、表１の例においてｂ_１３に１が設定されている）バイオインフォマティクス文字セット２０の文字を、“〜”を含む弁別的なマークを有するバイオインフォマティクスフォント４０のフォント文字にマップする。（他の予期される実施形態では、ｎｃ‐ＲＮＡを意味するものに関して、文字“ＮＣ”又は“ｎｃ”又は“Ｎｃ”を含む弁別的なマークが考えられる。）図４に示す別の例において、マイクロＲＮＡの領域を示しているアノテーションを含む（例えば、表１の例においてｂ_１４に１が設定されている）バイオインフォマティクス文字セット２０の文字を、“〜”を含む弁別的なマークを有するバイオインフォマティクスフォント４０のフォント文字にマップする。（他の予期される実施形態では、ｍｉ‐ＲＮＡを意味するものに関して、文字“ＭＩ”又は“ｍｉ”又は“Ｍｉ”を含む弁別的なマークが考えられる。）図４に示す別の例において、塩基が疾病マーカの一部であることを示しているアノテーションを含む（例えば、表１の例においてｂ_１５に１が設定されている）バイオインフォマティクス文字セット２０の文字を、“＃”を含む弁別的なマーク、又は疾病マーカを示すように指定された何らかの他の弁別的なマークを有するバイオインフォマティクスフォント４０のフォント文字にマップする。追加的に又は代替的に、疾病マーカアノテーションを、イタリックフォントスタイル、ボールド体フォントスタイル又はイタリックボールド体フォントスタイルなどの指定された疾病マーキングフォントスタイルを用いて塩基文字（例えば、アデニンの場合における“Ａ”）を表現することによって、示してもよい。

図５は、配列領域の表現における上記のフォント文字の有効性の例を示す。図５は、図４のフォントを用いて表されるＤＮＡ配列の一部分を示す。２つのエクソン領域６２、６４と境を接するイントロン領域６０が、イントロン及びエクソンに属している塩基をそれぞれ表している弁別的なマーク“Ｉ”及び“Ｅ”に基づいて容易に識別可能である。

図４及び図５の弁別的なマークは単に例示であって、他の弁別的なマーク、及びフォントスタイル、フォントサイズなどの他のフォント特性もまた、種々のアノテーションを表すためのバイオインフォマティクスフォント４０に用いられてよい。例えば、別の予期される手法において、塩基クオリティ値を、塩基を表している文字のサイズによって表現し、より大きな文字がより高い塩基クオリティ値を意味するようにする。この手法において期待されることは、レビューアがより小さな文字をより低い塩基クオリティと、すなわち、より高い不確実性と、おそらく自然に関連付けるであろうということである。いくつかの他の例としては次のものなどがある。ストランド情報（５’、３’、＋、−、など）を、注釈付きデータ値としてバイオインフォマティクス文字セット２０の文字において保存してよく、フォント文字の弁別的なマークによって適宜表現してよい。挿入及び／又は欠失（一般に、「挿入欠失」）などの変異を、注釈付きデータ値としてバイオインフォマティクス文字セット２０の文字において保存してよく、垂直な、水平な、若しくは斜めの取消線マーク（欠失用）又はカラットマーク（すなわち“＾”）（挿入用で、テキストエディタのマークアップの慣例に従う）などのフォント文字の弁別的なマークによって適宜表現したり、中抜きの（hollowed out）又は線で埋められた（filled stroked）フォント文字を用いることによって適宜表現したりしてよい。

バイオインフォマティクス文字セット２０によってバイオインフォマティクスフォント４０を用いて表された塩基又はペプチド配列を表示する場合、種々のタイプの注釈付きデータを示す種々の弁別的なマークを、種々のタイプの情報を同時に伝達するために、バイオインフォマティクスフォント４０において組み合わせてよい。例えば（ここでも同様に表１のバイオインフォマティクス文字セット２０の実施形態を参照すると）、文字0000001000110000_bin（0230_hex）は、５１〜６０の範囲の塩基クオリティ値を有し、エクソンの一部であるアデニン塩基を表す。一方で、文字1000001000110000_bin（8230_hex）は、５１〜６０の範囲の塩基クオリティ値を有し、エクソンの一部であり、さらに疾病マーカの一部でもあるアデニン塩基を表す。後者の文字に対してマップされるフォント文字は、疾病マーカの一部であるという属性を示している弁別的なマークの追加においてのみ、前者の文字に対してマップされるフォント文字と適宜異なる。さらに、塩基クオリティ値を、図２に示すものなどの適切な弁別的なマークを用いて表してもよい。いくつかの異なるタイプの塩基又はペプチドの属性又は特性を同様に符号化する場合、その結果、バイオインフォマティクスフォント４０におけるフォント文字の数が、かなり多くなる可能性がある。１バイトに関して、２５６個もの数の異なるフォント文字が存在可能であり、一方、２バイトに関しては、６５５３６個もの数のフォント文字が存在可能である。

表１の例へと戻って参照すると、種々のアノテーションは（塩基クオリティ値という例外を伴いつつ）、各アノテーションについて単一ビットで表される。したがって、例えば、ビットｂ_１０について１という値はその塩基がイントロンの一部であるということを示し、一方、ビットｂ_１０について０という値はその塩基がイントロンの一部ではないということを示す。しかしながら、この表現の手法は、ビットｂ_１０が０という値を有する場合、これが、（１）その塩基はイントロンの一部ではないという断定的な表現なのか、あるいは（２）その塩基はイントロンの一部であるのか否かが（まだ）特定されていないという示唆なのか、曖昧になるおそれがあるという点において、潜在的な欠点を有する。これはなぜならば、フォーマット変換モジュール１６がアノテーションビット（塩基クオリティ値を示しているビット以外）について、０というデフォルト値を割り当てるからである。

表２を参照して、不明な値についてはっきり区別できる値をアノテーションに与えることによってこの多義性を克服する、バイオインフォマティクス文字セット２０の別の例示的な実施形態を示す。この実施形態において、イントロンアノテーションを２つのビットｂ_７ｂ_６によって表す。01_binという値はその塩基がイントロンの一部ではないことを示し、10_binという値はその塩基がイントロンの一部であることを示し、11_binという値はその塩基がイントロンの一部であるのかどうかが（まだ）わかっていないことを示す。

表２の例は、バイオインフォマティクス文字セット２０のある実施形態に係る、いくつかの他の予期される特性を説明する。表２の例は、シングルバイト文字を用いている（一方で、表１の例は２バイト文字を用いている）。さらに、表２の例は、４つのビットｂ_３ｂ_２ｂ_１ｂ_０を使用して塩基を表しており、それにより多義的な塩基についてより詳細な表現が可能となる。さらに、その塩基表現は、特定のビットを特定の塩基と関連付ける符号化スキームを使用している。したがって、ビットｂ_３をチミンに関連付け、ビットｂ_２をグアニンに関連付け、ビットｂ_１をシトシンに関連付け、そして、ビットｂ_０をアデニンに関連付けている。この符号化スキームでは、一義的な塩基を、４つのビットｂ_３ｂ_２ｂ_１ｂ_０のうち単一のビットが値１を有することによって表す。２つの起こりうる塩基における両義性は、４つのビットｂ_３ｂ_２ｂ_１ｂ_０のうち２ビットが値１を有することによって表され、したがって、塩基に対する２つの可能性を識別している。終点のケースである全面的な多義性は、すべての４つのビットｂ_３ｂ_２ｂ_１ｂ_０が値１を有することによって表され、その塩基がアデニン、シトシン、グアニン又はチミンのいずれでもあり得ることを示している。さらに、この符号化スキームは、多義的な塩基をパターンに迅速にマッチさせることを可能にする。例えば、ビット単位マスク04_hexを用いて、文字Ｃと04_hexで表される塩基グアニンとを、比較ＣＭＰ［Ｃ＆04_hex，04_hex］によって比較してよい（ここで、ＣＭＰ［・・・］は比較処理の擬似コードである）。この比較は、文字Ｃがグアニンを一義的に符号化している場合にマッチをもたらすであろうし、さらに、文字Ｃが多義的ながらも起こりうる値としてグアニンを符号化している場合にもマッチをもたらすであろう。双方の場合において、Ｃ＆04_hex＝04_hexとなる。

図６及び７を参照しながら、引き続き表２の例を参照すると、いくつかの実施形態において、バイオインフォマティクスフォント４０のフォント文字は、直接的に保存されない。代わりに、塩基又はペプチドの文字（又は３文字）の表現のビットマップを、種々のタイプのアノテーションに対する種々の弁別的なマークを表すビットマップと共に保存する。したがって、バイオインフォマティクス文字セット２０の特定の文字を表すフォント文字を、これらの構成要素であるビットマップを論理“ＯＲ”演算を用いて組み合わせることによって、構成してよい。図６において、最も左の項は、４つの塩基を符号化しているビットマップを示す（何らかの多義的な塩基をシンボル“？”で表している）。中間の項は、ＣＤＳ開始（実線ボックスで表している）及びＣＤＳ終止（点線ボックスで表している）についての弁別的なマークを表しているビットマップを示す。最も右の項は、イントロンについての弁別的なマークを表しているビットマップを示す（斜線が塩基を表している文字を横断するようにして表している）。図６におけるプラス（＋）シンボルは、ビットマップの論理ＯＲを示す（黒ドット＋黒ドット＝黒ドット、黒ドット＋白ドット＝黒ドット、白ドット＋黒ドット＝黒ドット、白ドット＋白ドット＝白ドットという、ロジックテーブルを有する）。図７は、図６に示すバイオインフォマティクスフォント４０の実施形態を用いて表された部分的な塩基配列を示し、ＣＤＳ開始領域７０、イントロン領域７２及びＣＤＳ終止領域７４を含んでいる。イントロンに属している塩基を示す弁別的なマーク“／”が、レビューアに、イントロンは翻訳されたタンパク質内に含まれないということを直観的に知らせている。

図８を参照すると、開示した配列アライメント／解析モジュール１４のまた別の利点は、ゲノム又はプロテオミクス配列を表示している場合にユーザにどのアノテーションを表示すべきかを選択させることが、コンピュータ的に簡便であるということである。上記のアノテーションタイプについての選択的な表示は、レビューアが配列の特定の側面に焦点を当てることが可能となるため、有用な場合がある。図８の例は、表１のバイオインフォマティクス文字セット２０の実施形態を用いている。図８は、ディスプレイ装置５２（例えば、図１のコンピュータ５０のディスプレイ）上に表示されたゲノム配列の一部分を示す。さらに、そのディスプレイは、チェックボックス８０、８２及び８４を含む、ユーザダイアログ選択オプションを示す。チェックボックス８０を介して、レビューアは、塩基クオリティ値を表示するかどうかを選択し（例えば、図２に示すもののような弁別的なマークを用いる）、チェックボックス８２を介して、レビューアは、機能領域を表示するかどうかを選択し（例えば、図４に示すもののようなゲノム領域を示す弁別的なマークを用いる）、チェックボックス８４を介して、レビューアは、変異を表示するかどうかを選択する（例えば、図４に示すもののような疾病マーカを強調するための弁別的なマークを用いる）。ユーザは、種々のチェックボックス８０、８２及び８４を、ポインタ入力デバイス（例えば、マウス、トラックボール、トラックパッドなど）、キーボード（例えば、タブキーを用いてオプションを巡り、エンターを押下して選択済みチェックボックスを切り替える）などを用いて、適宜チェックを付けたり外したりする。図８において、ユーザは、チェックボックス８２を介して機能領域だけを表示するように選択している。

図８に示すもののような表示オプションは、開示しているバイオインフォマティクス文字セット２０及びバイオインフォマティクスフォント４０を用いて、文字列をテキスト表示ルーチン（例えば、ＡＳＣＩＩ又はユニコードテキストを表示するためのプラットフォームが備えるもの）に入力する前に、表示されるべきでないアノテーションを除外するようにビット単位マスキングを用いることによって、容易に実装される。例えば、表１の例を考えると、塩基クオリティ値や疾病マーカを除いて機能領域のみを表示するのに適切なビット単位マスクは、Ｍ_display＝0111111110000111_bin（7F87_hex）であり、それは、塩基クオリティ値（ビットｂ_６ｂ_５ｂ_４ｂ_３）を0000_binに設定し、疾病マーカアノテーション（ビットｂ_１５）をゼロに設定する。この手法は、図２の例示的な手法の場合のように、バイオインフォマティクスフォント４０が弁別的なマークを全く伴わずに最も低い塩基クオリティ値（すなわち0000_bin）を表示することを想定している。留意すべきは、このマスキングはテキスト表示ルーチンへの入力に先行して適用されるが、そのマスク出力は保存されている配列３０の更新に使用されない、ということである。したがって、データファイル３０において、塩基クオリティ値及び疾病マーカアノテーションは変更されないままとなり、ゆえに、レビューアはいつでも表示オプションの更新を選択することが可能となる。例えば、レビューアは、ボックス８２のチェックを外してボックス８４のチェックを付けることによって、それぞれ、機能領域マーキングをオフにして変異マーキングをオンにするように決めてよい。その更新後の表示は、塩基クオリティ値（ビットｂ_６ｂ_５ｂ_４ｂ_３）を0000_binに設定して機能領域アノテーション（ビットｂ_１４ｂ_１３ｂ_１２ｂ_１１ｂ_１０ｂ_９ｂ_８ｂ_７）をゼロに設定する、Ｍ_display＝1000000000000111_bin（8007_hex）にマスクをアップデートすることによって、容易に実装されるであろう。

例示的な実施形態は、ゲノムデータ、より詳細には、４つの塩基であるアデニン、シトシン、グアニン及びチミンを使用しているＤＮＡデータを用いている。しかしながら、バイオインフォマティクス文字セット２０及びバイオインフォマティクスフォント４０を用いて開示している手法は、ＲＮＡ配列などの他のゲノムデータに対し、チミンをウラシルと置き換えることによって、容易に採用される。

図９を参照すると、バイオインフォマティクス文字セット２０及びバイオインフォマティクスフォント４０を用いて開示している手法は、さらに、プロテオミクスデータに対しても、アミノ酸（又はペプチド）を表すように適切な数のビットを用いることによって、容易に採用される。タンパク質は、２０個のアミノ酸のセットから構成され、取りうる値を３２個有する５ビットを用いることによって表すことが可能である。したがって、５ビットあれば、ＣＤＳ終止コドンをオーバーライドすることによって組み込み可能であるセレノシステイン（慣例的に、文字“Ｕ”若しくは“ｕ”で、又は３文字コード“ｓｅｃ”で表す）及びピロリシン（“Ｏ”又は“ｏ”又は“Ｐｙｌ”）などの関心があるであろういかなる追加のペプチドを表すのにも十分となり、かつ／あるいは、多義的なアミノ酸（一般に、大抵のプロテオミクス配列決定手法に関して、アミノ酸のうち半ダース以下、対での（pairwise）多義性が生じる可能性がある）を表すのにも十分となる。図９は、種々の注釈付きデータを含む例示的なペプチド又はアミノ酸を、そのアミノ酸又はペプチドに対するビットマップと１つ又は複数の弁別的なマークに対するビットマップとをビット単位ＯＲ演算を用いて組み合わせることによって表している、バイオインフォマティクスフォント４０のフォント文字の構成を示す。図９において、最上部のセクション１００は、２０個のアミノ酸についての適切な単一文字コード化を明示している。図９の中間部のセクション１０２は、プロテオミクス配列のペプチドに関連するであろう注釈付きデータの、種々の組み合わせを明示している。図９の例示において、ペプチドに対して注釈として付けられるであろう属性には、上付き文字のアスタリスク（＊）で示す親水性（hydrophobic）と、前述の“∞”の弁別的なマークで示す極性（polar）と、下付き文字の“ｏ”で示す小ささ（small）と、下付き文字のドットで示す極少さ（tiny）と、下付き文字の“ハウス”表現
〔外１〕

で示す芳香族（aromatic）と、下付き文字のシータ（θ）で示す脂肪族（aliphatic）と、下付き文字の“＋”で示す正（positive）と、下付き文字の“−”で示す負（negative）と、帯電（charged）（正特性及び負特性の一般化）とを含む。図９の下部のセクション１０４は、上部のセクション１００からのアミノ酸又はペプチドに対するビットマップと、１つ又は複数の注釈付きデータを表している１つ又は複数の弁別的なマークに対する１つ又は複数のビットマップとを、ビット単位ＯＲ演算を用いて組み合わせることによって、生成されたフォント文字を示す。図９に示すバイオインフォマティクスフォント４０の実施形態において、弁別的なマークを、ビットマップ１００及び１０２に対して適用されるビット単位ＯＲ演算がもたらす弁別的なマークの組み合わせによって、注釈付きデータの組み合わせを同時に表すことが可能となるように、選択する。したがって、例示として、図９の最も左の列は、疎水性があり脂肪族であるという属性を有する、アミノ酸イソロイシン（Ｉ）を示す。下部のセクション１０４に示す対応するフォント文字には、アミノ酸シンボルを表している文字セット（すなわち、文字“Ｉ”）と、疎水性の属性を表している上付き文字のアスタリスク（＊）及び脂肪属の属性を表している下付き文字のシータ（θ）との重ね合わせを含む。

留意すべきは、一般に、バイオインフォマティクス文字セット２０と関連するバイオインフォマティクスフォント４０とは、ゲノムデータに対して、又はプロテオミクスデータに対して、固有になるであろうということである。換言すると、バイオインフォマティクス文字セット２０と関連するバイオインフォマティクスフォント４０とについてのある実施形態が、ゲノムデータ又はプロテオミクスデータのいずれかを表すように設計されるであろうが、典型的には、ゲノムデータ及びプロテオミクスデータの双方ではないであろう。（「組み合わせ」文字セット及び関連するフォントにより、ゲノムデータ及びプロテオミクスデータの双方を表すことが可能な実施形態が考えられるが、典型的には、指定されたゲノム又はプロテオミクスの文字セット及びフォントを用いることで、より効果的なバイオインフォマティクス文字セットとより直観的なバイオインフォマティクスフォントとから成る構成が可能となる）。

さらに留意すべきは、あるバイオインフォマティクス文字セット２０が、それに関連付けられる２つ以上の異なるバイオインフォマティクスフォント４０を有してよい、ということである。例示的な類似のものとして、ＡＳＣＩＩ文字セットの文字を種々のフォント（例えば、タイムズ・ニュー・ローマン・フォント、アリアル・フォントなど）によって表せることと同様に、種々のバイオインフォマティクスフォント４０を、単一のバイオインフォマティクス文字セット２０を表すように用いてよい。その結果、ユーザは、彼又は彼女がより好むゲノム又はプロテオミクス配列の表現を、そのユーザがより好むバイオインフォマティクスフォント４０を単に選択することによって、選択することが可能となる。これは、ある読み手が英語のテキストを表示又は印刷するために、その読み手がより好むタイムズ・ニュー・ローマン・フォント、アリアル・フォント又は何らかの他の利用可能なＡＳＣＩＩフォントの使用を選択するであろうことと、同様である。

バイオインフォマティクス文字セット２０及びバイオインフォマティクスフォント４０を用いる開示の手法は、またさらに、追加の又は他のアノテーションタイプを提供することにも容易に用いられる。ゲノム配列の場合、関心のあるアノテーションには、メチル化、アセチル化、ＣＤＳ開始及び終止、エクソン開始及び終止、イントロン開始及び終止、プロモータ、エンハンサ、ＴＦ、偽遺伝子、ＳＴＳ、Ｄ‐ループ、Ｖ‐ループ、ｍｉＲＮＡ、ｐｉＲＮＡ、ｎｃＲＮＡ、繰り返し体（ＬＩＮＥ、ＳＩＮＥなど）、ＧＡＰ、疾病固有の識別特性などを含む（が、これらには限定されない）。プロテオミクス配列の場合、関心のあるアノテーションタイプには、一塩基変異（single nucleotide variant；ＳＮＶ）又は置換などの変異、三次構造情報、などを含んでよい。

表１及び表２の例示では、変異アノテーションを１つだけ示している（表１の例における疾病マーカビットｂ_１５）。しかしながら、より多くの、及び／又は異なる変異アノテーションをバイオインフォマティクス文字セット２０に含んでよいということが、理解されるべきである。例えば、種々のアノテーションを、種々の疾病マーカについて備えてよく、あるいは、アノテーションを、祖先系統を示す変異や特定の表現型の形質に関連付けられる変異などの他の種類の変異について備えてよい。

この出願は、１つ又は複数のより好ましい実施形態を説明してきた。変更及び修正が、上記の詳細説明を読んで理解した他者において生じるであろう。本出願は、そうした変更及び修正が別記の請求項又はその均等物の範囲内にある限り、すべてのそうした変更及び修正を含むものと見なされるように、意図されている。

Claims

ゲノムデータ又はプロテオミクスデータを、バイオインフォマティクス文字セットの文字を含んでいるゲノム文字列又はプロテオミクス文字列として符号化するステップであって、
（ｉ）前記ゲノムデータ又はプロテオミクスデータの各塩基又はペプチドが、前記バイオインフォマティクス文字セットの単一の文字によって表され、
（ii）前記バイオインフォマティクス文字セットの各文字が、（Ｉ）塩基又はペプチドと（II）前記塩基又はペプチドに関連付けられる少なくとも１つの注釈付きデータ値とを符号化する、
ステップと、
前記ゲノム文字列又はプロテオミクス文字列を、前記バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントを用いて表示することによって、前記ゲノムデータ又はプロテオミクスデータを表示するステップと、
を含み、
前記符号化するステップ及び表示するステップは、デジタル処理装置によって実行される、
ことを特徴とする、方法。
前記バイオインフォマティクス文字セットの各文字は（１）８ビットを含んでいるシングルバイトと（２）１６ビットを含んでいる２バイトとのうちの１つによって表され、前記８ビット又は１６ビットのうち第１サブセットが塩基又はペプチドを符号化して、前記８ビット又は１６ビットのうち第２サブセットが前記塩基又はペプチドに関連付けられる少なくとも１つの注釈付きデータ値を符号化する、請求項１に記載の方法。
アデニン塩基を符号化する前記バイオインフォマティクス文字セットの各文字が、文字“Ａ”又は“ａ”を含む前記バイオインフォマティクスフォントのフォント文字にマップされ、
グアニン塩基を符号化する前記バイオインフォマティクス文字セットの各文字が、文字“Ｇ”又は“ｇ”を含む前記バイオインフォマティクスフォントのフォント文字にマップされ、
シトシン塩基を符号化する前記バイオインフォマティクス文字セットの各文字が、文字“Ｃ”又は“ｃ”を含む前記バイオインフォマティクスフォントのフォント文字にマップされ、
チミン又はウラシル塩基を符号化する前記バイオインフォマティクス文字セットの各文字が、文字“Ｔ”若しくは“ｔ”又は文字“Ｕ”若しくは“ｕ”を含む前記バイオインフォマティクスフォントのフォント文字にマップされ、
前記バイオインフォマティクス文字セットの少なくとも１つの文字が、多義的な塩基を、２つ以上の候補塩基を表しているコードを用いて符号化する、
請求項１乃至２のいずれか１項に記載の方法。
前記バイオインフォマティクス文字セットの各文字が、前記の符号化された塩基についてのクオリティ値を示している注釈付きデータ値を符号化し、
前記バイオインフォマティクスフォントは、塩基クオリティ値を示している弁別的なマークを含む、
請求項３に記載の方法。
前記バイオインフォマティクス文字セットの少なくとも４つの文字が、各々、前記文字によって符号化された前記塩基又はペプチドを表す１つ又は複数の文字と、前記の符号化された少なくとも１つの注釈付きデータを表す１つ又は複数の弁別的なマークとを含む、前記バイオインフォマティクスフォントのフォント文字にマップされる、請求項１に記載の方法。
前記ゲノム文字列又はプロテオミクス文字列において、更新されたゲノム文字列又はプロテオミクス文字列を生成するために、少なくとも１つの文字列の機能を実行するステップであって、前記更新されたゲノム文字列又はプロテオミクス文字列において、少なくとも１つの塩基又はペプチドが、前記の実行された文字列の操作によって生成された少なくとも１つの追加の又は変更された注釈付きデータを符号化している単一の文字によって表される、ステップ、
をさらに含む、請求項１乃至５のいずれか１項に記載の方法。
前記実行するステップは、前記ゲノム文字列又はプロテオミクス文字列を参照ゲノム文字列又は参照プロテオミクス文字列と比較する文字列比較を実行するステップを含む、請求項６に記載の方法。
前記実行するステップは、ビット単位の論理演算を前記ゲノム文字列又はプロテオミクス文字列の文字において実行するステップを含む、請求項６乃至７のいずれか１項に記載の方法。
ゲノムデータのみを符号化する方法であって、
ゲノムデータを、バイオインフォマティクス文字セットの文字を含んでいるゲノム文字列として符号化するステップであって、
（ｉ）前記ゲノムデータの各塩基が、前記バイオインフォマティクス文字セットの単一の文字によって表され、
（ii）前記バイオインフォマティクス文字セットの各文字が、（Ｉ）塩基と（II）前記塩基に関連付けられる少なくとも１つの注釈付きデータ値とを符号化する、
ステップと、
前記ゲノム文字列を、前記バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントを用いて表示することによって、前記ゲノムデータを表示するステップと、
を含む、請求項１乃至８のいずれか１項に記載の方法。
プロテオミクスデータのみを符号化する方法であって、
プロテオミクスデータを、バイオインフォマティクス文字セットの文字を含んでいるプロテオミクス文字列として符号化するステップであって、
（ｉ）前記プロテオミクスデータの各ペプチドが、前記バイオインフォマティクス文字セットの単一の文字によって表され、
（ii）前記バイオインフォマティクス文字セットの各文字が、（Ｉ）ペプチドと（II）前記ペプチドに関連付けられる少なくとも１つの注釈付きデータ値とを符号化する、
ステップと、
前記プロテオミクス文字列を、前記バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントを用いて表示することによって、前記プロテオミクスデータを表示するステップと、
を含む、請求項１乃至８のいずれか１項に記載の方法。
請求項１乃至１０のいずれか１項に記載の方法を実行するように構成されたデジタル処理装置、
を含むことを特徴とする、装置。
デジタルプロセッサによって読取可能であり、ソフトウェアを記憶している、固定のストレージ媒体であって、前記ソフトウェアはバイオインフォマティクス文字セットの文字を含んでいるゲノム文字列又はプロテオミクス文字列として表されるゲノムデータ又はプロテオミクスデータを処理するように構成され、前記ゲノムデータ又はプロテオミクスデータの各塩基又はペプチドが前記バイオインフォマティクス文字セットの単一の文字によって表され、前記バイオインフォマティクス文字セットの前記文字は塩基又はペプチドと前記塩基又はペプチドに関連付けられる追加のデータとを符号化する、ということを特徴とする、ストレージ媒体。
前記ソフトウェアは前記ゲノムデータ又はプロテオミクスデータを文字列処理演算を用いて処理する、請求項１２に記載のストレージ媒体。
前記ソフトウェアは、塩基又はペプチドを表している文字のうち選択されたバイナリビットをゼロにするために、前記ゲノムデータ又はプロテオミクスデータをビット単位のマスキング演算を用いて処理する、請求項１２乃至１３のいずれか１項に記載のストレージ媒体。
当該ストレージ媒体は、前記バイオインフォマティクス文字セットにマップされたバイオインフォマティクスフォントをさらに記憶し、前記ソフトウェアは、ゲノムデータ又はプロテオミクスデータが前記バイオインフォマティクスフォントを用いて表示されるように表示処理を実行する、請求項１２乃至１４のいずれか１項に記載のストレージ媒体。