JP5946277B2

JP5946277B2 - アセンブリ誤り検出のための方法およびシステム（アセンブリ誤り検出）

Info

Publication number: JP5946277B2
Application number: JP2012007764A
Authority: JP
Inventors: ラクスミ・ピー・パリダ; ニーナ・ハイミネン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2011-01-21
Filing date: 2012-01-18
Publication date: 2016-07-06
Anticipated expiration: 2032-01-18
Also published as: US20120191356A1; US20120330563A1; CN102682225A; CN102682225B; JP2012155715A

Description

本発明は、デオキシリボ核酸（ｄｅｏｘｙｒｉｂｏｎｕｃｌｅｉｃａｃｉｄ：ＤＮＡ）におけるアセンブリ誤り検出、ならびにリボ核酸（Ｒｉｂｏｎｕｃｌｅｉｃａｃｉｄ：ＲＮＡ）における過剰発現および低発現検出に関する。

デオキシリボ核酸（ＤＮＡ）ゲノム配列は、ＤＮＡをいくつかの塩基の配列を有するいくつかのセグメントまたは小片に分割する方法を用いて決定されることがある。各セグメント内の塩基の配列決定と、セグメントの順序の決定とをともに用いて、ＤＮＡ全体の配列を決定してもよい。セグメントの順序の決定は、バイオインフォマティクス・アセンブリ法を用いてイン・シリコ（ｉｎ−ｓｉｌｉｃｏ）で行なわれてもよい。

読取りデータの再アセンブリはアセンブリにおける配列誤りを含み得る。なぜならセグメントを正確な元の順序に戻すことは難しいことがあるからである。

本発明の一局面において、遺伝子配列アセンブリの誤りを検出するための方法は、遺伝子データの配列のアセンブリ（Ａ）を規定するステップと、読取りデータを読取りのライブラリ（Ｌ）に集めるステップと、読取りのサイズ対サイズ当りの読取り数のヒストグラムをプロットするステップと、分布（Ｄ）を被覆度（ｃｏｖｅｒａｇｅ）（Ｃ）で正規化することによって、平均（μ）および標準偏差（σ）を有するＤ’を得て、Ｄ’を得るために用いられない位置（ｉ）を保留するステップと、ＡおよびＤ’を用いて読取りの部分集合（Ｓ_ｉ⊂Ｌ）を集めるステップと、Ｓ_ｉを用いて平均（μ_ｉ）および標準偏差（√ｃ_ｉ・σ_ｉ）を計算するステップと、ユーザに対してディスプレイ上に結果を出力するステップとを含む。

本発明の別の局面において、遺伝子配列の誤りを検出するためのシステムは、メモリと、ディスプレイと、遺伝子データの配列のアセンブリ（Ａ）を規定し、読取りデータを読取りのライブラリ（Ｌ）に集め、読取りのサイズ対サイズ当りの読取り数のヒストグラムをプロットし、分布（Ｄ）を被覆度（Ｃ）で正規化することによって、平均（μ）および標準偏差（σ）を有するＤ’を得て、Ｄ’を得るために用いられない位置（ｉ）を保留し、ＡおよびＤ’を用いて読取りの部分集合（Ｓ_ｉ⊂Ｌ）を集め、Ｓ_ｉを用いて平均（μ_ｉ）および標準偏差（√ｃ_ｉ・σ_ｉ）を計算し、ユーザに対してディスプレイ上に結果を出力するために動作するプロセッサとを含む。

本発明の技術によって、付加的な特徴および利点が実現される。本明細書には本発明の他の実施形態および局面が詳細に記載されており、請求される発明の一部とみなされる。利点および特徴を伴う本発明をより良く理解するために、説明および図面を参照されたい。

本発明であるとみなされる主題は、請求項において特定的に示され明確に主張されている。本発明の前述およびその他の特徴および利点は、以下の詳細な説明および添付の図面から明らかである。

複数のＤＮＡ配列およびそれらの配列のセグメントへの分割を示す図である。配列中の誤りを定めるためのシステム２００の例示的な実施形態を示す図である。図２のシステムによって行なわれ得る例示的な処理方法を示すブロック図である。図２のシステムによって行なわれ得る例示的な処理方法を示すブロック図である。読取りの頻度のヒストグラムを示す図である。

デオキシリボ核酸（ＤＮＡ）ゲノム配列は、たとえば圧縮空気装置（噴霧器）または制限酵素などを用いることによって、ＤＮＡをいくつかの塩基の配列を有するいくつかのセグメントまたは小片に分割することによって決定されることがある。図１は、複数の類似のＤＮＡ配列、およびその配列のセグメントへの分割を示している。これに関して、いくつかの類似のＤＮＡ鎖１０２（例、５０個またはそれ以上の鎖）が、たとえば５０塩基から５００塩基などの範囲のいくつかの塩基１０６を有する複数のセグメント１０４に分裂または切断されてもよい。セグメント１０４は必ずしも等しい長さに切断されるわけではない。セグメント１０４が切断されると、セグメント１０４を読取って塩基１０６が識別され、識別された塩基１０６の各セグメントにおける位置が定められることによって、各セグメント１０４に対する読取りデータがもたらされる。代替的には、セグメントの端部（例、各端部から１００塩基）を読取って塩基を識別してもよい。セグメントの読取りは、たとえばヌクレオチドの蛍光ラベリングおよび高分解能レーザ・イメージングを含む、合成による配列決定（ｓｅｑｕｅｎｃｉｎｇ−ｂｙ−ｓｙｎｔｈｅｓｉｓ）のプロセスなどによって行なわれてもよい。結果として生じるデータは複数の読取りを含み、各読取りは塩基１０６と、各セグメント１０４におけるその塩基１０６の位置とを識別する。読取りデータはグループ化されて、特定の長さにおける読取りの頻度（すなわち特定の長さの塩基を有する読取りの数）を含む読取りのライブラリ（Ｌ）に入れられる。被覆度（Ｃ）とは、配列決定されたＤＮＡにおける位置が重複しているセグメント１０４の平均コピー数である。配列決定されたセグメント１０４の長さに加えてＤＮＡ配列の長さが既知であれば、被覆度Ｃが分かる。ＤＮＡゲノム配列の長さが未知であるときには、ユーザが推定の長さを与えてもよい。読取りデータの「再アセンブリ」を行なうことによって、ＤＮＡゲノム配列の一部または全体を表わすアセンブリ（Ａ）データをもたらしてもよい。アセンブリは、たとえばアセンブラ（イン・シリコのバイオインフォマティクス・ツール）などを用いて、読取りにおける塩基間の重複を考慮し、可能なところで重複した読取りを連結することによって行なわれてもよい。アセンブリ・データは、所与の位置ｉにおける読取りカウントｃ_ｉおよび読取り長さｌを含むベクトルＶ＝＜ｉ，ｃ_ｉ，ｌ_１，ｌ_２，…，ｌ_ｃｉ＞を含む。ベクトルの一例はＶ＝＜３４，３，１０，１２，１０２＞を含み、これは位置３４がそれぞれ長さ１０、１２および１０２の３つの読取りによって重複することを示す。読取りデータの再アセンブリはアセンブリにおける配列誤りを含み得る。なぜならセグメントを正確な元の順序に戻すことは難しいことがあるからである。以下に説明される例示的な方法およびシステムは、アセンブリにおける誤りの検出を改善するものである。

これに関して、図２は配列中の誤りを定めるためのシステム２００の例示的な実施形態を示す。示される実施形態は、ディスプレイ装置２０４と、入力装置２０６と、読取りデータ２０１およびアセンブリ２０３を保存するメモリ２０８とに通信的に接続されたプロセッサ２０２を含む。

図３および図４は、システム２００によって行なわれ得る例示的な処理方法のブロック図を示す。図３を参照すると、ブロック３０２において読取りデータを含むアセンブリ（Ａ）が規定される。ブロック３０４において、読取りデータが読取りのライブラリ（Ｌ）に集められる。ブロック３０６において、Ｌから読取りのサイズ対サイズ当りの読取り数のヒストグラムがプロットされる。ヒストグラムの一例を図５に示す。ブロック３０８において、被覆度Ｃを用いて分布Ｄを正規化して（Ｄ’）を得、ここでＤ’はＬの期待標準分布であり、平均μおよび標準偏差σを有する。正規化は、Ａに対する被覆度Ｃを用い、（ユーザによって与えられる上側および下側のカットオフを用いて）被覆度Ｃを表わすとは考えられないベクトルＶをフィルタリングして除去することによって行なわれる。前のステップの出力を用いてライブラリが再び計算される。Ｄ’を得るために用いられない位置（ｉ）が保留される。ブロック３１０において、アセンブリＡ内の各位置（ｉ）に対して、位置ｉが重複している読取りの部分集合Ｓ_ｉ⊂ＬがベクトルＶ_ｉに集められる。ブロック３１２において、Ｓ_ｉから平均（μ_ｉ）および標準偏差（√ｃ_ｉ・σ_ｉ）が算出される。（図４の）ブロック３１４において、ライブラリのμからのμ_ｉの偏差が計算される。ブロック３１６において、ライブラリのσからの（√ｃ_ｉ・σ_ｉ）の偏差が定められる。ブロック３１８において、閾値を用いて、μ_ｉおよび（√ｃ_ｉ・σ_ｉ）における異常な偏差（すなわち閾値の外側の偏差）が定められる。

ブロック３２０において、ユーザ分析のために結果がディスプレイ装置に出力されてもよい。アセンブリにおける各位置ｉに対して、平均（μ_ｉ）が期待値から所与の閾値よりも多く逸脱しているか、または標準偏差（√ｃ_ｉ・σ_ｉ）が所与の閾値よりも大きいとき、その位置ｉはアセンブリの誤りの可能性があるとしてフラグを立てられる。次いでユーザは、別の方法によってデータを再アセンブリするか、追加の読取りを生成して再アセンブリするか、または配列情報の代替的供給源を用いることによって、これらのフラグを立てられた領域におけるアセンブリの間違いの可能性を修正することに集中できる。

ＲＮＡデータに対しても同様のプロセスを用いることができるが、フラグを立てられる位置は過剰発現または低発現に関連付けられる。

本明細書において用いられる用語は特定の実施形態を説明する目的のためのみのものであって、本発明を限定することは意図されない。本明細書において用いられる単数形「ａ」、「ａｎ」および「ｔｈｅ」は、状況が明らかに別様を示していない限り、複数形をも含むことが意図される。さらに、「含む（ｃｏｍｐｒｉｓｅｓ）」もしくは「含む（ｃｏｍｐｒｉｓｉｎｇ）」という用語またはその両方が本明細書において用いられるとき、それは述べられる特徴、完全体、ステップ、動作、構成要素もしくは成分またはその組合わせの存在を特定するが、１つまたはそれ以上の他の特徴、完全体、ステップ、動作、構成要素成分もしくはそのグループまたはその組合わせの存在または追加を排除するものではないことが理解されるだろう。

以下の請求項におけるすべての手段またはステップ・プラス機能（ｍｅａｎｓｏｒｓｔｅｐｐｌｕｓｆｕｎｃｔｉｏｎ）要素に対応する構造、材料、動作、および同等物は、特定的に請求される他の請求要素と組合わせてその機能を行なうためのあらゆる構造、材料または動作を含むことが意図される。本発明の説明は例示および説明の目的のために提供されたものであるが、網羅的になったり、開示される形に本発明を制限したりすることは意図されない。本発明の範囲および趣旨から逸脱することなく、通常の当業者には多くの修正および変更が明らかになるだろう。実施形態は、本発明の原理および実際の適用を最も良く説明し、他の通常の当業者が予期される特定の使用に好適であるようなさまざまな修正を伴うさまざまな実施形態に対して本発明を理解できるようにするために選択されて記載されたものである。

本明細書に示される図面は単なる一例である。本発明の趣旨から逸脱することなく、この図面または本明細書に記載されるステップ（もしくは動作）には多くの変更形が存在するだろう。たとえば、これらのステップが異なる順序で行なわれてもよいし、ステップが追加、削除または変更されてもよい。これらの変更形はすべて、請求される本発明の一部であるとみなされる。

本発明に対する好ましい実施形態を説明したが、現在および将来にわたり、当業者が以下の請求項の範囲内のさまざまな改善および強化を行ない得ることが理解されるだろう。これらの請求項は、最初に記載された本発明に対する適切な保護を維持するものと解釈されるべきである。

３０２読取りデータからアセンブリ（Ａ）を規定する
３０４読取りデータを読取りのライブラリ（Ｌ）に集める
３０６Ｌから読取りサイズ対サイズ当りの読取り数のヒストグラムをプロットする
３０８被覆度Ｃを用いてＤを正規化してＤ’を得、Ｄ’を得るために用いられない位置ｉを保留する
３１０ＡおよびＤ’を用いて読取りの部分集合Ｓ_ｉ⊂Ｌを集める
３１２平均μ_ｉおよび標準偏差（√ｃ_ｉ・σ_ｉ）を計算する

Claims

コンピュータ・システムにより遺伝子配列アセンブリの誤りを検出するための方法であって、前記コンピュータ・システムはメモリとディスプレイとプロセッサとを含み、
前記方法は、
前記プロセッサが前記メモリ上で遺伝子データの配列のアセンブリ（Ａ）を規定するステップと、
前記プロセッサが前記メモリ上で読取りデータを読取りのライブラリ（Ｌ）に集めるステップと、ここで、アセンブリ（Ａ）は塩基の位置（ｉ）についての複数のベクトル（Ｖ _ｉ）を含み、各ベクトル（Ｖ _ｉ）は塩基の位置（ｉ）についての読取りカウントｃ _ｉおよび一つ以上の読取り長さｌを含み、読取りカウントｃ _ｉは塩基の位置（ｉ）についての読取りのライブラリ（Ｌ）での読取り数であり、一つ以上の読取り長さｌの各々は塩基の位置（ｉ）についての読取りのライブラリ（Ｌ）での各読取りのサイズとなる長さであり、
前記プロセッサが、前記複数のベクトル（Ｖ _ｉ）についての複数のヒストグラムであって、複数のヒストグラムは読取り長さｌ対読取りカウントｃ _ｉを示し、複数のヒストグラムの各々は分布（Ｄ _ｉ）を有する、複数のヒストグラムをプロットするステップと、
前記プロセッサが、前記複数のベクトル（Ｖ _ｉ）における前記分布（Ｄ _ｉ）が平均または標準偏差を有している前記複数のベクトル（Ｖ _ｉ）から、上側のカットオフよりも上にまたは下側のカットオフよりも下にあるベクトルをフィルタリングして残ったベクトルを保留することにより、期待標準分布Ｄ’を得る正規化をするステップと、
前記プロセッサが、前記読取りのライブラリ（Ｌ）で塩基の位置（ｉ）について塩基の位置（ｉ）が重複している読取りの部分集合（Ｓ_ｉ⊂Ｌ）を集めるステップと、
前記プロセッサが前記読取りのライブラリ（Ｌ）から塩基の位置（ｉ）についてＳ_ｉを用いて平均（μ_ｉ）および標準偏差（√ｃ_ｉ・σ_ｉ）を計算するステップと、
前記プロセッサが、前記計算した平均（μ _ｉ）と前記読取りのライブラリ（Ｌ）の平均（μ）との間の偏差が第１の閾値よりも大きいか小さいかを定めるステップと、
前記プロセッサが、前記計算した標準偏差（√ｃ _ｉ・σ _ｉ）と前記読取りのライブラリ（Ｌ）の標準偏差（σ）との間の偏差が第２の閾値よりも大きいか小さいかを定めるステップと、
前記プロセッサが、前記計算した平均（μ _ｉ）と前記平均（μ）との間の偏差が第１の閾値よりも大きいと定めること、または、前記計算した標準偏差（√ｃ _ｉ・σ _ｉ）と前記標準偏差（σ）との間の偏差が第２の閾値よりも大きいと定めることに基づいて、塩基の位置（ｉ）をアセンブリの誤りの可能性があるとしてフラグを立てるステップと、
前記プロセッサがユーザに対して前記ディスプレイ上に結果を出力するステップと
を含む、方法。
前記アセンブリは、配列アセンブリのためのイン・シリコのバイオインフォマティクス法によって規定される、請求項１に記載の方法。
前記読取りデータは、デオキシリボ核酸（ＤＮＡ）のセグメント内の複数の塩基の位置および識別子を含む、請求項１に記載の方法。
読取りの前記ライブラリは複数の読取りデータを含む、請求項１に記載の方法。
遺伝子配列アセンブリの誤りを検出するためのシステムであって、前記システムは、
メモリと、
ディスプレイと、
プロセッサとを含み、
前記プロセッサが、
遺伝子データの配列のアセンブリ（Ａ）を規定し、
読取りデータを読取りのライブラリ（Ｌ）に集め、ここで、アセンブリ（Ａ）は塩基の位置（ｉ）についての複数のベクトル（Ｖ _ｉ）を含み、各ベクトル（Ｖ _ｉ）は塩基の位置（ｉ）についての読取りカウントｃ _ｉおよび一つ以上の読取り長さｌを含み、読取りカウントｃ _ｉは塩基の位置（ｉ）についての読取りのライブラリ（Ｌ）での読取り数であり、一つ以上の読取り長さｌの各々は塩基の位置（ｉ）についての読取りのライブラリ（Ｌ）での各読取りのサイズとなる長さであり、
読取り長さｌ対読取りカウントｃ _ｉを示し、分布（Ｄ _ｉ）を有する、各ベクトル（Ｖ _ｉ）についてのヒストグラムをプロットし、
前記複数のベクトル（Ｖ _ｉ）における前記分布（Ｄ _ｉ）が平均または標準偏差を有している前記複数のベクトル（Ｖ _ｉ）から、上側のカットオフよりも上にまたは下側のカットオフよりも下にあるベクトルをフィルタリングして残ったベクトルを保留することにより、期待標準分布Ｄ’を得る正規化をし、
前記読取りのライブラリ（Ｌ）で塩基の位置（ｉ）について塩基の位置（ｉ）が重複している読取りの部分集合（Ｓ_ｉ⊂Ｌ）を集め、
前記読取りのライブラリ（Ｌ）から塩基の位置（ｉ）についてＳ_ｉを用いて平均（μ_ｉ）および標準偏差（√ｃ_ｉ・σ_ｉ）を計算し、
前記計算した平均（μ _ｉ）と前記読取りのライブラリ（Ｌ）の平均（μ）との間の偏差が第１の閾値よりも大きいか小さいかを定め、
前記計算した標準偏差（√ｃ _ｉ・σ _ｉ）と前記読取りのライブラリ（Ｌ）の標準偏差（σ）との間の偏差が第２の閾値よりも大きいか小さいかを定め、
前記計算した平均（μ _ｉ）と前記平均（μ）との間の偏差が第１の閾値よりも大きいと定めること、または、前記計算した標準偏差（√ｃ _ｉ・σ _ｉ）と前記標準偏差（σ）との間の偏差が第２の閾値よりも大きいと定めることに基づいて、塩基の位置（ｉ）をアセンブリの誤りの可能性があるとしてフラグを立て、
ユーザに対して前記ディスプレイ上に結果を出力する、
システム。
前記アセンブリは、配列アセンブリのためのイン・シリコのバイオインフォマティクス法によって規定される、請求項５に記載のシステム。
前記読取りデータは、デオキシリボ核酸（ＤＮＡ）のセグメント内の複数の塩基の位置および識別子を含む、請求項５に記載のシステム。
読取りの前記ライブラリは複数の読取りデータを含む、請求項５に記載のシステム。