JP6072890B2 - 類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途 - Google Patents

類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途 Download PDF

Info

Publication number
JP6072890B2
JP6072890B2 JP2015500317A JP2015500317A JP6072890B2 JP 6072890 B2 JP6072890 B2 JP 6072890B2 JP 2015500317 A JP2015500317 A JP 2015500317A JP 2015500317 A JP2015500317 A JP 2015500317A JP 6072890 B2 JP6072890 B2 JP 6072890B2
Authority
JP
Japan
Prior art keywords
sequence information
candidate
similar
group
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015500317A
Other languages
English (en)
Other versions
JPWO2014126213A1 (ja
Inventor
穣 秋冨
穣 秋冨
克紀 堀井
克紀 堀井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solutions Innovators Ltd
Original Assignee
NEC Solutions Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solutions Innovators Ltd filed Critical NEC Solutions Innovators Ltd
Application granted granted Critical
Publication of JP6072890B2 publication Critical patent/JP6072890B2/ja
Publication of JPWO2014126213A1 publication Critical patent/JPWO2014126213A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2320/00Applications; Uses
    • C12N2320/10Applications; Uses in screening processes
    • C12N2320/13Applications; Uses in screening processes in a process of directed evolution, e.g. SELEX, acquiring a new function

Description

本発明は、配列情報群における配列情報間の類似の判断に関する発明であり、具体的には、配列情報から類似判断の候補配列情報を選択する候補選択方法、候補配列情報から類似配列情報群を選択する類似選択方法、目的の類似配列情報群の濃縮を判定する判定方法、およびこれらの方法を実行する各装置、プログラムならびに記録媒体に関する。
近年、抗体に代わるターゲットへの結合分子として、いわゆるアプタマーと呼ばれる核酸分子の開発が進められている。前記アプタマーは、一般に、SELEX(Systematic Evolution of Ligands by EXponential enrichiment)法により調製されている(特許文献1、非特許文献1)。SELEX法は、核酸ライブラリーと前記ターゲットとの接触、および、前記ターゲットに結合した核酸の増幅を、1セットの選択処理とし、複数ラウンドを繰り返し行う。これによって、初期のライブラリーから、ラウンド毎のライブラリーにおいて前記ターゲットに結合する核酸配列が濃縮される。そして、例えば、ライブラリー内で濃縮度合いが相対的に高い複数の核酸配列を、アプタマー候補群として選択し、さらに、前記ターゲットとの結合力等を評価することによって、最終的に前記ターゲットに結合するアプタマーを決定することができる。
このように、アプタマー候補群は、ライブラリー内における濃縮度合いによって選択できるため、SELEX法においては、濃縮度合いの評価が必要である。濃縮度合いの評価は、通常、以下のように行われている。まず、各ラウンドのライブラリーに含まれる核酸配列をシーケンスで解読する。そして、ライブラリー内における同じ核酸配列の出現数(以下、重複度ともいう)をカウントする。このカウント数の増減により、各核酸配列の濃縮度合いを評価する。例えば、n回目のラウンド(R)における核酸配列Xの重複度mと、次のラウンド、すなわちn+1回目のラウンド(Rn+1)における核酸配列Xの重複度mn+1とを比較して、重複度m<重複度mn+1であれば、核酸配列Xは、ラウンド(n+1)において、ラウンド(n)よりも濃縮されていると判断できる。また、同じラウンドのライブラリー内において、核酸配列Xの重複度mと核酸配列Yの重複度mとを比較して、重複度の大きい方が、他方に比べて濃縮されていると判断できる。
特許第2763958号
Science.(1990)249,505−510.
しかしながら、濃縮度合いによってアプタマー候補群を選択しても、異なる全ての核酸配列について、前記ターゲットとの結合力を評価することは、非常に労力を有し、現実的ではない。
一方、ライブラリー内には、ある核酸配列(以下、元配列ともいう)に対して完全に同じ塩基配列も含まれるが、前記元配列に対して数塩基程度のミスマッチを有する類似した核酸配列(以下、類似配列ともいう)が含まれる場合がある。そして、発明者らは、前記類似配列は、例えば、前記ターゲットとの結合の強さが前記元配列と異なることがあるが、前記ターゲットに対する特性等は、前記元配列と同一であることが多いとの知見を得ている。このため、核酸配列について、完全に同一か否かという分類ではなく、許容できる範囲で類似し合っている核酸配列を、同一の配列群とすることにより、アプタマーの評価を効率化できる。しかしながら、この場合、複数の核酸配列を一個ずつ照らし合わせて類似か否かを判断することも、労力、コストおよび時間がかかる。特に、次世代シーケンサー等を用いて大量の核酸配列の情報が得られた場合等、非常に計算コストがかかる。また、このような問題は、核酸配列に特化した問題ではなく、要素が並んだ配列情報について、共通する問題である。
そこで、本発明は、容易に、配列情報間の類似を判断するための装置、方法、プログラムおよび記録媒体を提供することを目的とする。
前記目的を達成するために、本発明の候補選択装置は、下記(a)、(b)、(c)および(d)手段を備えることを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択装置である。
(a)配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程を実行する手段
(b)前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程を実行する手段
(c)前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程を実行する手段
(d)前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程を実行する手段
本発明の類似選択装置は、下記(A)および(B)手段を備え、前記(A)手段が、前記本発明の候補選択装置であることを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択装置である。
(A)配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程を実行する手段
(B)前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群(G3)として選択する工程を実行する手段
本発明の判定装置は、下記(X)および(Y)手段を備え、前記(X)手段が、前記本発明の類似選択装置であることを特徴とする、目的の類似配列情報群の濃縮の判定装置である。
(X)配列情報群から、目的配列情報とそれに類似する配列情報とを目的の類似配列情報群として選択する工程を実行する手段
(Y)前記類似配列情報群における前記目的配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程を実行する手段
本発明の候補選択方法は、下記(a)、(b)、(c)および(d)工程を含むことを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択方法である。
(a)配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程
(b)前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程
(c)前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
(d)前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程
本発明の類似選択方法は、下記(A)および(B)工程を含み、
前記(A)工程が、前記本発明の候補選択方法を含むことを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択方法である。
(A)配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程
(B)前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群(G3)として選択する工程
本発明の判定方法は、下記(X)および(Y)工程を含み、前記(X)工程が、前記本発明の類似選択方法を含むことを特徴とする、目的の類似配列情報群の濃縮の判定方法である。
(X)配列情報群から、目的配列情報とそれに類似する配列情報とを目的の類似配列情報群として選択する工程
(Y)前記類似配列情報群における前記目的配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程
本発明のプログラムは、前記本発明の候補選択方法、前記本発明の類似選択方法および前記本発明の判定方法からなる群から選択された少なくとも一つを、コンピュータ上で実行可能なことを特徴とするプログラムである。
本発明の記録媒体は、前記本発明のプログラムを記録していることを特徴とする。
本発明によれば、配列情報間の類似を判断するにあたって、まず、類似を判断するための候補配列群が選択される。このため、例えば、全ての配列情報間の類似を確認する従来の方法とは異なり、簡便に効率よく類似の判断を行うことができる。このため、例えば、アプタマーの濃縮の判定等についても、労力、時間およびコストの軽減が可能となる。
図1は、本発明の候補選択装置の実施形態を示すブロック図である。 図2は、本発明の候補選択方法および候補選択プログラムの実施形態を示すフローチャートである。 図3は、本発明の候補選択方法および候補選択プログラムの実施形態を示すフローチャートである。 図4は、本発明の類似選択装置の実施形態を示すブロック図である。 図5は、本発明の類似選択方法および類似選択プログラムの実施形態を説明するためのフローチャートである。 図6は、本発明の類似選択方法および類似選択プログラムの実施形態を説明するためのフローチャートである。 図7は、本発明の類似選択装置のその他の実施形態を示すブロック図である。 図8は、本発明の類似選択方法および類似選択プログラムのその他の実施形態を説明するためのフローチャートである。 図9は、本発明の類似選択方法および類似選択プログラムのその他の実施形態を説明するためのフローチャートである。
本発明において、「配列情報群」は、複数の配列情報から構成される群を意味し、前記複数の配列情報は、例えば、全て、異なる配列情報でもよいし、同じ配列情報と異なる配列情報とを含んでもよい。本発明は、異なる配列情報間における類似を判断するにあたって、類似判断の候補となる候補配列情報の選択を目的とする。このため、前記複数の配列情報は、例えば、全て、異なる配列情報が好ましい。前記配列情報群に含まれる前記配列情報の個数は、特に制限されない。
本発明において、「配列情報」は、特に制限されず、要素の並びに関する情報である。前記要素は、例えば、文字および記号の少なくとも一方があげられ、具体例として、核酸の種類を示す文字または記号、アミノ酸の種類を示す文字または記号等があげられる。核酸の種類を示す文字または記号としては、例えば、A、G、C、TおよびU等の塩基の種類を示す文字または記号があげられる。アミノ酸の種類を示す文字または記号としては、例えば、Met等の3文字表記、M等の1文字表記の文字または記号があげられる。前記配列情報は、具体例として、核酸配列の配列情報、アミノ酸配列の配列情報等があげられる。前記配列情報の長さは、前記配列情報を構成する要素の数ともいうことができる。前記配列情報の長さは、特に制限されず、要素が、例えば、5〜200個であり、好ましくは、10〜150個であり、さらに好ましくは20〜120個である。
本発明において、「仮想配列情報群」は、複数の仮想配列情報から構成される群を意味する。前記仮想配列情報は、前記配列情報を構成する要素(構成単位ともいう)から構築された仮想の配列情報である。前記要素は、前記配列情報群の配列情報の種類に応じて決定でき、具体的には、前記配列情報群における配列情報と同じ要素である。前記仮想配列情報は、例えば、前記要素を任意に並べた情報ということができ、前記仮想配列情報群は、複数の、任意の異なる並びの情報から構成される群ということができる。前記仮想配列情報の長さは、前記仮想配列情報を構成する要素の数ともいうことができる。前記仮想配列情報の長さは、特に制限されず、要素が、例えば、1〜10個であり、好ましくは、1〜7個であり、さらに好ましくは1〜4個である。前記仮想配列情報群の各仮想配列情報は、例えば、全て同じ長さであることが好ましい。
本発明において、前記配列情報群から選択した比較または対比し合う配列情報を、それぞれ、比較元配列情報および比較先配列情報という。ある配列情報に対して、他の配列情報を対比する場合、前者の配列情報を「比較元」ともいい、後者の他の配列情報を「比較先」ともいう。
本発明において、「仮想配列情報の頻度」とは、対象となる配列情報において、前記仮想配列情報が出現する頻度を意味し、例えば、頻度ベクトルの要素、出現数ということもできる。また、「頻度の相違」とは、二つ以上の配列情報間の頻度の相違を意味し、例えば、比較先の配列情報の頻度と比較元の配列情報の頻度との相違である。
本発明において、「類似度」は、比較元配列情報に対する比較先配列情報の類似の程度を示す。また、本発明において、「類似度の許容条件」は、前記比較元配列情報に対して、前記比較先配列情報が類似判断の候補となり得ることを示す、類似度の条件である。前記類似度の許容条件は、任意に設定でき、例えば、2つの配列情報を対比した場合に許容できる要素のミスマッチの個数に基づいて設定できる。2つの配列情報の対比とは、例えば、2つの配列情報の要素の並びの対比である。前記類似度の許容条件は、例えば、2つの配列情報を対比した場合に許容できるミスマッチの個数(M)に、前記仮想配列情報の長さ(要素の個数N)を乗じた値を設定できる。
本発明において、「重複度」とは、複数の配列情報から構成される配列情報群において、完全に同一である配列情報の個数を意味し、例えば、出現数ということもできる。また、本発明において、「類似重複度」とは、複数の配列情報から構成される配列情報群において、完全に同一である配列情報の重複度と、前記配列情報に類似する他の配列情報の重複度との合計を意味する。前記配列情報に対して、類似する他の配列情報が2つ以上存在する場合、例えば、前記配列情報と、類似する各他の配列情報との間の重複度の合計を、それぞれの類似重複度とする。
<本発明の候補選択装置および候補選択方法>
本発明の候補選択装置は、前述のように、下記(a)、(b)、(c)および(d)手段を備えることを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択装置である。
(a)配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程を実行する手段
(b)前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程を実行する手段
(c)前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程を実行する手段
(d)前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程を実行する手段
本発明の候補選択装置において、前記仮想配列情報群が、配列情報を構成する要素から構築された仮想配列情報の群であることが好ましい。
本発明の候補選択装置において、前記(c)手段が、下記(c1)および(c2)工程を実行する手段であることが好ましい。
(c1)前記仮想配列情報ごとに、前記比較元配列情報における頻度と前記比較先配列情報における頻度との差を求める工程
(c2)前記各仮想配列情報の頻度の差のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求め、前記絶対値を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
本発明の候補選択装置において、前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの個数に基づき設定された条件であることが好ましい。2つの配列情報の対比とは、2つの配列情報のアラインメントということもできる。
本発明の候補選択装置において、例えば、前記配列情報が、塩基配列であり、前記配列情報を構成する要素が、A、G、C、TおよびUの塩基であることが好ましい。
本発明の候補選択装置において、前記仮想配列情報の塩基長が、例えば、1〜10塩基長であることが好ましい。
本発明の候補選択装置において、前記仮想配列情報群の各仮想配列情報が、すべて同じ塩基長であることが好ましい。
本発明の候補選択装置において、前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数に基づき設定された条件であることが好ましい。
本発明の候補選択装置において、前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数(M)に前記仮想配列情報の塩基長(N)を乗じた値であることが好ましい。
本発明の候補選択装置は、さらに、下記(e)手段を有することが好ましい。
(e)前記(b)、(c)および(d)手段による各工程の反復を実行する手段
この場合、前記(b)手段は、例えば、前記工程の実行ごとに、前記配列情報群から、異なる配列情報を前記比較元配列情報として選択することが好ましい。
本発明の候補選択方法は、前述のように、下記(a)、(b)、(c)および(d)工程を含むことを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択方法である。本発明の候補選択方法は、特に示さない限り、前記本発明の候補選択装置における説明を援用できる。
(a)配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程
(b)前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程
(c)前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
(d)前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程
本発明の候補選択方法は、前記仮想配列情報群が、配列情報を構成する要素から構築された仮想配列情報の群であることが好ましい。
本発明の候補選択方法は、前記(c)工程が、下記(c1)および(c2)工程を含むことが好ましい。
(c1)前記仮想配列情報ごとに、前記比較元配列情報における頻度と前記比較先配列情報における頻度との差を求める工程
(c2)前記各仮想配列情報の頻度の差のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求め、前記絶対値を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
本発明の候補選択方法は、前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの個数に基づき設定された条件であることが好ましい。
本発明の候補選択方法は、前記配列情報が、塩基配列であり、前記配列情報を構成する要素が、A、G、C、TおよびUの塩基であることが好ましい。
本発明の候補選択方法は、前記仮想配列情報の塩基長が、1〜10塩基長であることが好ましい。
本発明の候補選択方法は、前記仮想配列情報群の各仮想配列情報が、すべて同じ塩基長であることが好ましい。
本発明の候補選択方法は、前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数に基づき設定された条件であることが好ましい。
本発明の候補選択方法は、前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数(M)に前記仮想配列情報の塩基長(N)を乗じた値であることが好ましい。
本発明の候補選択方法は、さらに、下記(e)工程を含むことが好ましい。この場合、前記(b)工程において、前記工程の実行ごとに、前記配列情報群から、異なる配列情報を前記比較元配列情報として選択することが好ましい。
(e)前記(b)、(c)および(d)工程を反復する工程
本発明の候補選択方法は、前記各工程が、全て、コンピュータ上で実行されることが好ましい。本発明の候補選択方法は、例えば、前記各工程が、全て、前記本発明の候補選択装置により実行されてもよい。
以下、図面を参照しながら本発明のさらに具体的な実施形態について説明する。ただし、本発明は、以下の実施形態に限定されない。以下、配列情報を配列、配列情報群を配列群と示す。
[実施形態1]
実施形態1は、本発明の候補選択装置および候補選択方法に関する。本実施形態は、前記配列として、核酸の塩基配列を使用する一例である。
本実施形態によれば、複数の塩基配列からなる塩基配列群から、塩基配列間の類似の判断候補となる候補配列群を選択できる。
図1に、本実施形態の候補選択装置の一例の構成を示す。図1に示すように、候補選択装置10は、入力手段11、配列記憶部121、類似度記憶部122および候補配列記憶部123、類似度計算手段131および候補配列選択手段132、ならびに出力手段14を備える。類似度計算手段131および候補配列選択手段132は、例えば、図1に示すように、ハードウェアであるデータ処理手段(データ処理装置)13に組み込まれてもよく、ソフトウェアまたは前記ソフトウェアが組み込まれたハードウェアでもよい。各記憶部121、122、123は、例えば、図1に示すように、ハードウェアである記憶手段12に組み込まれてもよい。データ処理手段13は、CPU等を備えてもよい。
配列記憶部121は、入力手段11および類似度計算手段131と、類似度記憶部122は、類似度計算手段131および候補配列選択手段132と、候補配列記憶部123は、候補配列選択手段132および出力手段14と、それぞれ電気的に接続されている。また、入力手段11は、類似度計算手段131と、類似度計算手段131は、候補配列選択手段132と、候補配列選択手段132は、出力手段14と、それぞれ電気的に接続されてよい。候補選択装置10は、例えば、情報を記憶手段12に記憶させ、記憶させた情報をデータ処理手段13に出力してデータ処理を行ってもよいし、前記情報をデータ処理手段13に入力してデータ処理を行ってもよい。
入力手段11は、配列群および仮想配列群の情報を入力する手段(入力装置)である。入力手段11は、特に制限されず、例えば、キーボード、マウス等のコンピュータに備わる通常の入力手段、入力ファイルおよび他のコンピュータ等を用いることができる。入力手段11は、例えば、データベースに格納された、前記配列群および仮想配列群の情報を読み出す手段でもよい。この場合、例えば、予めサーバに格納された配列情報が、回線網を通じて、入力手段11に呼び出される。また、入力手段11は、例えば、通信インターフェースを含んでもよい。
前記配列群における入力する配列の数は、特に制限されず、下限は、例えば、5個、好ましくは10個であり、上限は、例えば、1000万個、好ましくは100万個である。入力する配列の情報項目は、例えば、配列を構成する要素の順序、すなわち塩基の並びである。前記配列の長さは、特に制限されず、例えば、5〜200塩基長であり、好ましくは、10〜150塩基長であり、さらに好ましくは20〜120塩基長である。
前記仮想配列群の仮想配列の数は、特に制限されず、前記仮想配列の塩基長に応じて適宜決定できる。前記塩基長は、その下限が、例えば、1塩基長であり、好ましくは2塩基長であり、より好ましくは3塩基長であり、その上限が、例えば、10塩基長であり、好ましくは9塩基長であり、より好ましくは8塩基長であり、さらに好ましくは7塩基長である。前記仮想配列群において、前記各仮想配列の長さは、全て同じ長さが好ましい。
前記仮想配列を構成する要素が4つの塩基(A、C、G、およびTまたはU)であり、前記仮想配列の塩基長がn(正数)の場合、前記仮想配列群における前記仮想配列の数は、例えば、4のn乗個(4個)である。具体例として、前記要素が4つの塩基A、C、GおよびTの場合、前記1塩基長の仮想配列の数は、4の1乗、つまり、A、C、GおよびTの4個であり、前記2塩基長の仮想配列の数は、4の2乗、つまり、AA、AC、AG、AT、CC、CA、CG、CT、GG、GA、GC、GT、TT、TA、TC、TGの16個である。
類似度計算手段131は、前記(a)工程として、前記配列群の各配列について各仮想配列群の頻度のカウント、前記(b)工程として、前記配列群からの比較元配列と比較先配列との選択、前記(c)工程として、前記比較元配列に対する前記比較先配列の類似度の計算を行う。前記(a)、(b)および(c)工程の順序は、特に制限されず、順不同である。
前記(c)工程における前記類似度の計算は、前述のように、前記(c1)として、前記仮想配列ごとに、前記比較元配列における頻度(S)と前記比較先配列における頻度(T)との差(S−T)を求め、前記(c2)工程として、前記頻度の差(S−T)のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求めることで行える。すなわち、前記総和の絶対値を、前記類似度とする。
候補配列選択手段132は、前記比較元配列に対する前記比較先配列の類似度と、前記仮想配列群に設定した類似度の許容条件とに基づいて、配列情報間の類似を判断する候補配列の選択を行う。ここで選択された複数の候補配列が、候補配列群となる。
前記類似度の許容条件は、2つの配列を対比した場合に許容できるミスマッチの塩基数に基づき設定でき、具体例として、前記許容できるミスマッチの塩基数(M)に前記仮想配列の塩基長(N)を乗じた値(N×M)があげられる。例えば、塩基長N=1の前記仮想配列(A、C、GおよびT)であって、前記許容できるミスマッチの塩基数M=2に設定した場合、許容条件(N×M)は、1×2=2となる。そして、前記類似度が2以下の場合、許容条件の数値以下となり許容条件を満たすため、前記比較元配列および前記比較先配列は、配列情報間の類似を判断する候補配列として選択する。他方、前記類似度が2を超える場合、許容条件の数値を超え許容条件を満たさないため、前記比較先配列は、前記比較元配列との類似を判断する候補配列として選択しない。
前記許容条件の一例として、前記許容できるミスマッチの塩基数(M)に前記仮想配列の塩基長(N)を乗じた値(N×M)を設定するのは、以下の理由による。例えば、以下の2つの配列をアラインメントした場合、大文字の1塩基がミスマッチである。これらの配列について、塩基長N=2の仮想配列の頻度をカウントした場合、対象元配列Seq1において、下線部がcgおよびggとカウントされるのに対し、対象先配列Seq2において、下線部がcAおよびAgとカウントされる。つまり、許容できるミスマッチの塩基数が1であっても、1つミスマッチの存在によって、カウントされる仮想配列は、最大2つが変動することになる。このため、前記許容できるミスマッチの塩基数(M)に、前記仮想配列の塩基長(N)を乗じることで、カウントへの影響を補正できる。
対象元配列Seq1:aaccggtt
対象先配列Seq2:aaccAgtt
出力手段(出力装置)14は、候補配列選択手段132の結果を出力する手段であればよい。また、前記出力手段14は、候補配列記憶部123に記憶された情報を出力する手段でもよい。前記出力手段14は、特に制限されず、例えば、ディスプレイ装置、印刷装置等のコンピュータに備わる通常の出力装置、出力ファイル、および、他のコンピュータ等を使用できる。
つぎに、図2および図3のフローチャートを参照し、本実施形態の候補選択方法を説明する。本実施形態の候補選択方法は、A1ステップ(配列入力)、A2ステップ(類似度計算)およびA3ステップ(候補配列選択)を含む。
(A1)配列入力
配列群の各配列および仮想配列群の各仮想配列を、それぞれ入力し、配列記憶部121に記憶させる。前記配列群および前記仮想配列群の情報項目は、例えば、配列における塩基の順序があげられる。
(A2)類似度計算
前記配列群から、新しい比較元配列のセット(A21)および新しい比較先配列のセット(A22)を行い、セットした前記比較元配列と前記比較先配列について、それぞれ、前記各仮想配列の頻度をカウントする。そして、各仮想配列について、前記比較元配列の頻度と前記比較先配列の頻度との差を求め、正数の差のみの総和または負数の差のみの総和を計算する。具体的には、n個(nは正数)の仮想配列が存在する場合、前記比較元配列について、各仮想配列の頻度としてn個の頻度(S、・・・・、S)、前記比較先配列について、n個の頻度(T、・・・・、T)が得られる。そして、各仮想配列の頻度について、前記比較元配列と前記比較先配列との差、すなわち、(S−T)、・・・・、(S−T)を求め、正数の差のみの総和または負数の差のみの総和を計算し、総和の絶対値を求める。前記総和の絶対値が、前記比較元配列に対する前記比較先配列の類似度である。
(A3)候補配列選択
そして、前記類似度が、類似度の許容値を満たすか否か、つまり、許容値よりも大きいか否かを判断する(A31)。NOの場合、つまり、前記類似度が許容値よりも小さい場合、前記比較先配列は、前記比較元配列に対して許容できる数のミスマッチを有すると判断して、前記比較元配列と前記比較先配列が類似判断の候補配列であるとの結果を出力する(A32)。他方、YESの場合、つまり、前記類似度が許容値よりも大きい場合、前記比較先配列は、前記比較元配列に対して許容できない数のミスマッチを有すると判断して、前記比較先配列が類似候補配列ではないとの結果を出力する(A33)。
その後は、未比較の比較先配列の有無を確認する(A34)。YESの場合、つまり、未比較の比較先配列がある場合、A22ステップから同様の処理を行う。そして、NOの場合、つまり、未比較の比較先配列がない場合、さらに、未比較の比較元配列の有無を確認する(A35)。YESの場合、つまり、未比較の比較元配列がある場合、A21ステップから同様の処理を行い、NOの場合、つまり、未比較の比較元配列がない場合、終了する。なお、ある配列を比較元配列とし他の配列を比較先配列として比較済みである場合、前者を比較先配列とし後者を比較元配列とする比較は、省略し、比較済みの結果を使用してもよい。
前記A2ステップおよびA3ステップについて、さらなる具体例として、前記仮想配列が塩基長1の場合を例にあげて説明する。
塩基長N=1の仮想配列を下記4種類、比較元配列をSeq3、比較先配列をSeq4と仮定する。そして、2つの配列をアラインメントした場合に、類似の判断候補として許容できるミスマッチの塩基数をMとし、許容値をN×M=1×M=Mとする。
仮想配列:A、C、GおよびT
比較元配列Seq3:ACGTACGT
比較先配列Seq4:AAGAACAT
比較元配列Seq3および比較先配列Seq4における各仮想配列(A、C、G、T)の頻度{fA、fC、fG、fT}は、それぞれ、SEQ1が{2、2、2、2}およびSeq2が{5、1、1、1}となり、各頻度{fA、fC、fG、fT}の差は、Aが(2−5=−3)、Cが(2−1=1)、Gが(2−1=1)、Tが(2−1=1)となる。負数の差の総数(―3+0+0+0=−3)の絶対値は3であり、正数の差の総数(0+1+1+1=3)の絶対値は3である。この絶対値3が、比較元配列Seq3に対する比較先配列Seq4の類似度であり、比較先配列Seq4が、比較元配列Seq3とアラインメントした際に、少なくとも3つのミスマッチを有することを示す。前記許容できるミスマッチの上限塩基数Mを、例えば、2とした場合、許容値はN×M=1×2=2である。このため、計算した類似度と許容値とを対比すると、類似度3>許容値2であるため、比較先配列Seq4は、比較元配列Seq3の類似判断の候補配列からはずす。他方、前記許容できるミスマッチの上限塩基数Mを、例えば、3とした場合、許容値はN×M=1×3=3である。このため、計算した類似度と許容値とを対比すると、類似度3=許容値3であるため、比較先配列Seq4は、比較元配列Seq3の類似判断の候補配列として選択する。
このようにして、前記比較先配列が前記許容条件を満たす場合には、前記比較先配列は、前記比較元配列と共に、類似判断の候補配列として選択する。つまり、候補配列群として選択する。他方、前記比較先配列が前記許容条件を満たさない場合には、前記比較先配列は、類似判断の候補配列として選択しない。また、前記比較元配列に対して、前記許容条件を満たす比較先配列が存在しない場合は、前記比較元配列も、類似判断の候補配列として選択しない。
本実施形態における候補選択装置10において、入力手段11と類似度計算手段131、類似度計算手段131と候補配列選択手段132が、それぞれ電気的に接続されてもよい。また、候補選択装置10は、例えば、各種記憶部を備えてもよいし、備えていなくてもよい。この場合、例えば、入力手段11により入力された各配列について、類似度計算手段131により類似度を計算し、計算された類似度について、候補配列選択手段132により候補配列の選択を行ってもよい。
<本発明の類似選択装置および類似選択方法>
本発明の類似選択装置は、前述のように、下記(A)および(B)手段を備え、
前記(A)手段が、前記本発明の候補選択装置であることを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択装置である。
(A)配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程を実行する手段
(B)前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群(G3)として選択する工程を実行する手段
本発明の類似選択装置において、前記(A)手段は、前記本発明の候補選択装置であればよく、前記本発明の候補選択装置の記載を援用できる。
本発明の類似選択装置は、前記配列情報群が、同一の配列情報および異なる配列情報からなる配列情報群(G)から選択された前記異なる配列情報の群であることが好ましい。
本発明の類似選択装置は、前記(B)手段が、下記(B1)、(B2)、(B3)、(B4)および(B5)工程を実行する手段であることが好ましい。
(B1)前記候補配列情報群から、比較元となる候補配列情報と比較先となる候補配列情報とを選択する工程
(B2)前記比較元候補配列情報に対する前記比較先候補配列情報の類似の有無を決定する工程
(B3)前記比較元候補配列情報の重複度と、前記比較元候補配列情報に類似する前記比較先候補配列情報の重複度とを合計し、得られた合計値を、前記比較元候補配列情報の類似重複度とする工程
(B4)前記候補配列情報群から、異なる候補配列情報を、新たな比較元となる候補配列情報として選択し、前記(B1)、(B2)および(B3)工程を反復する工程
(B5)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群(G3)として選択する工程
前記(B2)工程において、前記比較元候補配列と前記比較先候補配列との類似の有無は、特に制限されず、公知の方法で決定できる。具体的には、配列と配列とをアラインメントして、許容できるミスマッチ(異なる要素)の数に基づき、類似と非類似とを判断できる。具体例として、例えば、前記両配列をアラインメントした際、ミスマッチの数が、前記許容できるミスマッチの数を超える場合は非類似、前記許容できるミスマッチの数以下の場合は類似と判断できる。前記許容できるミスマッチの個数は、特に制限されず、任意に決定できる。
重複度は、後の工程が繰り返される間に、0に再設定される。そこで、前記(B3)工程における重複度は、各配列の初期の情報であることから、「初期重複度」ともいう。また、後の工程において再設定した重複度0は、「重複度0」または「再設定重複度」ともいう。
本発明の類似選択装置は、前記(B)手段が、さらに、下記(B6)、(B7)および(B8)工程を実行する手段であることが好ましい。類似重複度の再算出とは、例えば、すでに得られた類似重複度をリセットし、新たに類似重複度を算出することを意味する。
(B6)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報の重複度および前記候補配列情報に類似する候補配列情報の重複度を0に再設定する工程
(B7)重複度が0以外である他の候補配列情報について、類似重複度を再算出する工程
(B8)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群として再選択する工程
本発明の類似選択装置は、前記(B)手段が、さらに、下記(B9)の工程を実行する手段であることが好ましい。
(B9)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報の重複度を0に再設定し、前記(B7)および(B8)工程を反復する工程
このように、最も大きな類似重複度に基づく類似候補群の選択と、類似重複度の再計算とを繰り返すことによって、複数の類似配列情報群が選択できる。前記類似配列情報群の再選択は、例えば、全ての候補配列について重複度が0に再設定されるまで行うことが好ましい。
本発明の類似選択装置は、前記(B)手段が、前記(B1)工程における前記比較元補配列情報と前記比較先候補配列情報との組合せとして、すでに実行した組合せの除外を実行することが好ましい。
本発明の類似選択装置において、配列情報の情報項目として、例えば、配列を構成する要素の順序の他に、前記各配列の重複度を含んでもよい。この場合、前記配列群に含まれる配列は、全て、異なる配列であることが好ましい。また、配列情報の情報項目として、前記重複度を含まない場合、例えば、前記重複度をカウントする工程を実行する、下記(B’)手段を含んでもよい。この場合、前記配列群に含まれる配列は、例えば、異なる配列の他に、完全に要素の順序が同じである配列を含んでもよい。
(B’)前記配列情報群について、完全に同一な配列情報の数を重複度としてカウントする工程を実施する手段
本発明の類似選択方法は、前述のように、下記(A)および(B)工程を含み、
前記(A)工程が、前記本発明の候補選択方法を含むことを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択方法である。
(A)配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程
(B)前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群(G3)として選択する工程
本発明の類似選択方法は、前記(B)工程が、下記(B1)、(B2)、(B3)、(B4)および(B5)工程を含むことが好ましい。
(B1)前記候補配列情報群から、比較元となる候補配列情報と比較先となる候補配列情報とを選択する工程
(B2)前記比較元候補配列情報に対する前記比較先候補配列情報の類似の有無を決定する工程
(B3)前記比較元候補配列情報の重複度と、前記比較元候補配列情報に類似する前記比較先候補配列情報の重複度とを合計し、得られた合計値を、前記比較元候補配列情報の類似重複度とする工程
(B4)前記候補配列情報群から、異なる候補配列情報を、新たな比較元となる候補配列情報として選択し、前記(B1)、(B2)および(B3)工程を反復する工程
(B5)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群(G3)として選択する工程
本発明の類似選択方法は、前記(B)工程が、さらに、下記(B6)、(B7)および(B8)工程を含むことが好ましい。
(B6)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報の重複度および前記候補配列情報に類似する候補配列情報の重複度を0に再設定する工程
(B7)重複度が0以外である他の候補配列情報について、類似重複度を再算出する工程
(B8)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群として再選択する工程
本発明の類似選択方法は、前記(B)工程が、さらに、下記(B9)工程を含むことが好ましい。
(B9)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報の重複度を0に再設定し、前記(B7)および(B8)工程を反復する工程
本発明の類似選択方法は、前記(B)工程において、前記(B1)工程における前記比較元補配列情報と前記比較先候補配列情報との組合せとして、すでに実行した組合せを除外することが好ましい。
本発明の類似選択方法は、前記各工程が、全て、コンピュータ上で実行されることが好ましい。本発明の類似選択方法は、例えば、前記各工程が、全て、前記本発明の類似選択装置により実行されてもよい。
以下、図面を参照しながら本発明のさらに具体的な実施形態について説明する。ただし、本発明は、以下の実施形態に限定されない。また、本実施形態において、前記候補配列群の選択は、前記実施形態1の記載を援用できる。以下、配列情報を配列、配列情報群を配列群と示す。
[実施形態2]
実施形態2は、本発明の類似選択装置および類似選択方法に関する。本実施形態は、前記配列として、核酸の塩基配列を使用する一例である。本実施形態は、特に示さない限り、実施形態1の記載を援用できる。
本実施形態によれば、複数の塩基配列からなる塩基配列群から、塩基配列間の類似の判断候補となる候補配列を選択し、複数の前記候補配列からなる候補配列群から、相互に類似する類似配列を類似配列群として選択できる。
図4に、本実施形態の類似選択装置の一例を示す。図4において、図1の候補選択装置10と同じ箇所には、同じ符号を付している。図4に示すように、類似選択装置20は、入力手段11、配列記憶部121、類似度記憶部122、候補配列記憶部123および類似配列記憶部124、類似度計算手段131、候補配列選択手段132および類似配列選択手段133、ならびに出力手段14を備える。類似度計算手段131、候補配列選択手段132および類似配列選択手段133は、例えば、図4に示すように、ハードウェアであるデータ処理手段13に組み込まれてもよく、ソフトウェアまたは前記ソフトウェアが組み込まれたハードウェアでもよい。各記憶部121、122、123、124は、例えば、図4に示すように、ハードウェアである記憶手段12に組み込まれてもよい。データ処理手段13は、CPU等を備えてもよい。
候補配列記憶部123は、さらに、類似配列選択手段133と電気的に接続されており、類似配列記憶部124は、類似配列選択手段133および出力手段14と、それぞれ電気的に接続されている。また、候補配列選択手段132は、類似配列選択手段133と、類似配列選択手段133は、出力手段14と、それぞれ電気的に接続されてよい。類似選択装置20は、例えば、情報を記憶手段12に記憶させ、記憶させた情報をデータ処理手段13に出力してデータ処理を行ってもよいし、前記情報をデータ処理手段13に入力してデータ処理を行ってもよい。
本実施形態において、入力する配列の情報項目は、前述のような、配列を構成する要素の順序の他に、前記各配列の重複度を含むことが好ましい。前記情報項目として、前記重複度を含む場合、前記配列群を構成する配列は、全て、異なる配列であることが好ましい。
また、前記情報項目として、前記重複度を含まない場合、例えば、前記(B’)手段を含んでもよい。前記(B’)手段により、前記配列群について、完全に同一な配列情報の数を重複度としてカウントできる。
つぎに、図5および図6のフローチャートを参照し、本実施形態の類似選択方法を説明する。本実施形態の類似選択方法は、A1ステップ(配列入力)、A2ステップ(類似度計算)、A3ステップ(候補配列選択)およびA4ステップ(類似配列選択)を含む。図5において、図2と同じステップには同じ符号を付している。
前記A1ステップ、前記A2ステップおよび前記A3ステップは、前記実施形態1と同様に行うことができ、具体的には、前述した図3のフローチャートに従って行うことができる。前記配列入力において、前記配列群の情報項目は、例えば、配列における塩基の順序および配列の重複度があげられ、前記仮想配列群の情報項目は、例えば、配列における塩基の順序があげられる。
(A4)類似配列選択
前記A3ステップで選択された候補配列群から、新しい比較元候補配列のセット(A41)および新しい比較先候補配列のセット(A42)を行い、セットした前記比較先候補配列が、前記比較元候補配列に類似するか否かを判断する(A43)。そして、NOの場合、つまり、前記比較先候補配列が、前記比較元候補配列に類似していない場合、前記比較先候補配列は、前記比較元候補配列との類似配列群ではないとの結果を出力する(A44)。他方、YESの場合、つまり、前記比較先候補配列が、前記比較元候補配列に類似している場合、前記比較先候補配列は、前記比較元候補配列との類似配列群であるとの結果を出力する(A45)。
その後は、前記比較元候補配列に対して、未比較の比較先候補配列の有無を確認する(A46)。YESの場合、つまり、未比較の比較先配列がある場合、A42ステップから同様の処理を行う。そして、NOの場合、つまり、未比較の比較先候補配列がない場合、さらに、未比較の比較元候補配列の有無を確認する(A47)。YESの場合、つまり、未比較の比較元候補配列がある場合、A41ステップから同様の処理を行い、NOの場合、つまり、未比較の比較元候補配列がない場合、終了する。なお、ある配列を比較元候補配列とし他の配列を比較先候補配列として比較済みである場合、前者を比較先候補配列とし後者を比較元候補配列とする比較は、省略し、比較済みの結果を使用してもよい。
このようにして、前記候補配列群における各候補配列から、前記比較元候補配列および前記比較先候補配列を、それぞれ順次セットし、配列間の類似を判断することによって、前記比較元候補配列とそれに類似する比較先候補配列とからなる類似配列群を選択できる。
本実施形態における類似選択装置20において、入力手段11と類似度計算手段131、類似度計算手段131と候補配列選択手段132、候補配列選択手段132と類似配列選択手段133とが、それぞれ電気的に接続されてもよい。また、類似選択装置20は、例えば、各種記憶部を備えてもよいし、備えていなくてもよい。この場合、例えば、入力手段11により入力された各配列について、類似度計算手段131により類似度を計算し、計算された類似度について、候補配列選択手段132により候補配列群の選択を行い、さらに、選択された候補配列群について、類似配列選択手段133により類似配列群の選択を行ってもよい。
[実施形態3]
実施形態3は、実施形態2と同様に、本発明の類似選択装置および類似選択方法に関する。本実施形態は、前記実施形態2の前記類似配列群の選択において、重複度を用いる一例である。本実施形態は、特に示さない限り、実施形態1および2の記載を援用できる。
本実施形態によれば、配列間の類似度を用いることによって、簡便に、類似配列群を選択できる。
図7に、本実施形態の類似選択装置の一例を示す。図7において、図4の類似選択装置20と同じ箇所には、同じ符号を付している。図7に示すように、類似選択装置30は、類似重複度記憶部124aおよび類似配列記憶部124b、類似重複度計算手段133aおよび類似配列選択手段133bを備える。類似重複度計算手段133aおよび類似配列選択手段133bは、例えば、図7に示すように、ハードウェアであるデータ処理手段13に組み込まれてもよく、ソフトウェアまたは前記ソフトウェアが組み込まれたハードウェアでもよい。類似重複度記憶部124aおよび類似配列記憶部124bは、例えば、図7に示すように、ハードウェアである記憶手段12に組み込まれてもよい。
候補配列記憶部123は、類似重複度計算手段133aと電気的に接続されており、類似重複度記憶部124aは、類似重複度計算手段133aおよび類似配列選択手段133bと電気的に接続されており、類似配列記憶部124bは、類似配列選択手段133bおよび出力手段14と、それぞれ電気的に接続されている。また、候補配列選択手段132は、類似重複度計算手段133aと、類似重複度計算手段133aは、類似配列選択手段133bと、類似配列選択手段133bは、出力手段14と、それぞれ電気的に接続されてもよい。
つぎに、図8および図9のフローチャートを参照し、本実施形態の類似選択方法を説明する。本実施形態の類似選択方法は、A1ステップ(配列入力)、A2ステップ(類似度計算)、A3ステップ(候補配列選択)およびA4ステップ(類似配列選択)を含む。本実施形態において、A4ステップは、A4aステップ(類似重複度計算)と、A4bステップ(類似重複度の計算結果に基づく類似配列選択)を含む。図8および図9において、図5および図6と同じステップには同じ符号を付している。
前記A1ステップ、前記A2ステップおよび前記A3ステップは、前記実施形態2と同様に行うことができる。本実施形態において、入力する配列の情報項目は、例えば、配列を構成する要素の順序の他に、前記各配列の重複度を含む。
(A4)類似配列選択
前記A3ステップで選択された候補配列群から、新しい比較元候補配列をセット(A41’)し、その重複度が0か否かを判断する(A42’)。NOの場合、つまり、重複度0の場合(初期重複度が0または再設定重複度0)、再度、新しい比較元候補配列をセットする(A41’)。他方、YESの場合、つまり、重複度が0でない場合(初期重複度≧1)、前記比較元候補配列の重複度をセットする(A43’)。そして、新しい比較先候補配列をセット(A44’)し、前記比較先候補配列が、前記比較元候補配列に類似するか否かを判断する(A45’)。YESの場合、つまり、前記比較先候補配列が前記比較元候補配列に類似する場合、前記比較元候補配列の類似度と前記比較先候補配列の類似度とを合計し、その合計値を類似重複度とする(A46’)。この類似重複度は、前記比較元候補配列の類似重複度という。他方、NOの場合、つまり、前記比較先候補配列が、前記比較元候補配列に類似しない場合、未比較の比較先候補配列の有無を確認する(A47’)。そして、YESの場合、つまり、未比較の比較先候補配列がある場合、A44’ステップから同様の処理を行う。そして、NOの場合、つまり、未比較の比較先候補配列がない場合、さらに、未比較の比較元候補配列の有無を確認する(A48’)。YESの場合、つまり、未比較の比較元候補配列がある場合、A41’ステップから同様の処理を行う。NOの場合、つまり、未比較の比較元候補配列がない場合、最も大きい類似重複度の候補配列以外であって、類似重複度が0でない候補配列について、類似重複度をリセット、つまり0に再設定する(A49’)。さらに、最も大きい類似重複度の候補配列およびそれに類似する候補配列について、重複度を0に再設定する(A410’)。つぎに、重複度が0でない候補配列の有無を確認する(A411’)。YESの場合、つまり、重合度が0でない候補配列(初期重複度≧1)がある場合、これを新しい比較元候補配列とし、A41’ステップから同様の処理を行う。NOの場合、つまり、重複度が0でない候補配列が存在しない場合、類似重複度が0でない候補配列とそれに類似する候補配列とを類似配列群とし、類似配列群の一覧を出力する(A412’)。出力する情報項目は例えば、前記類似配列群に含まれる各配列ならびに類似重複度等があげられる。
前記A4ステップについて、さらなる具体例として、候補配列群に含まれる異なる配列が5種類(Seq1、Seq2、Seq3、Seq4、Seq5)であり、それぞれの重複度(すなわち、出現数)が、{5、4、3、2、1}である場合を例にあげて説明する。
まず、下記表1に、候補配列の種類とその重複度を示す。
つぎに、それぞれの配列間における類似を判断する。下記表2において、類似の関係にあるものを、網掛けで示す。
そして、それぞれの比較元候補配列について、前記比較元候補配列の初期重複度とそれに類似する前記比較先候補配列の初期重複度とを合計し、この合計値を比較元候補配列の類似重複度とする。下記表3に、類似重複度を示す。そして、前記比較元候補配列のうち、最も大きい類似重複度を示す比較元候補配列を選択し、前記比較元候補配列とそれに類似する比較先候補配列とを、類似配列群とする。下記表3において、最も大きい類似重複度11を示すSeq4ならびにそれに類似するSeq1およびSeq2が、同じ類似配列群となる。
続いて、最も大きい類似重複度を示す比較元候補配列以外であって、類似重複度が0ではない候補配列について、類似重複度をリセットし、最も大きい類似重複度を示す比較元候補配列の初期重複度とそれに類似する比較先候補配列の初期重複度とを、0に再設定する(再設定重複度0)。下記表4において、最も大きい類似重複数11を示すSeq4以外の配列について、類似重複度をリセットし、且つ、Seq4と、それに類似するSeq1およびSeq2の初期重複度を、0に再設定する(再設定重複度0)。
そして、重複度が0以外(初期重複度≧1)の比較元候補配列について、同様にして、類似重複度の計算、最も大きい類似重複度に基づく類似候補群の選択を行う。類似候補群の選択は、全ての候補配列の初期重複度が0に再設定されるまで、繰り返し行うことが好ましい。下記表5において、重複度が0ではない候補配列のうち、最も大きい類似重複度3を示すSeq3を、類似配列群とする。
なお、配列間の類似について、一方の配列を比較元候補配列とし、他方の配列を比較先候補配列とするのと、前記一方の配列を比較先候補配列とし、前記他方の配列を比較元候補配列とするのは、実質的に同じといえる。そこで、前記類似配列群の選択をより促進できるため、例えば、比較元候補配列と比較先候補配列との組合せから、すでに実行した組合せを除外することが好ましい。この場合、例えば、下記表6のように、異なる配列間の組合せを半分にできる(セル数の半減)。
これらの処理を繰り返すことによって、候補配列群を類似配列群に分類することができる。
<目的の類似配列群の濃縮を判定する装置>
本発明の濃縮の判定装置は、前述のように、下記(X)および(Y)手段を備え、前記(X)手段が、前記本発明の類似選択装置であることを特徴とする、目的の類似配列情報群の濃縮の判定装置である。
(X)配列情報群から、目的配列情報とそれに類似する配列情報とを目的の類似配列情報群として選択する工程を実行する手段
(Y)前記類似配列情報群における前記目的配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程を実行する手段
本発明の判定装置において、前記(X)手段は、前記本発明の類似選択装置であればよく、前記本発明の類似選択装置の記載を援用できる。
本発明の濃縮の判定装置は、前記(X)手段が、比較元となる類似配列情報群と、比較先となる類似配列情報群を、それぞれ選択する工程を実行し、
前記(Y)手段が、下記(Y1)および(Y2)工程を実行する手段であることが好ましい。
(Y1)前記比較元の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計と、前記比較先の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計とを、比較する工程
(Y2)前記比較元の類似配列情報群における前記重複度の合計が、前記比較先の類似配列情報群における前記重複度の合計よりも大きい場合に、前記比較元の類似配列情報群が、前記比較先の配列情報群よりも、濃縮されていると判断する工程
本発明において、濃縮の判定は、例えば、同じ配列情報群に含まれる異なる配列情報について、前記配列情報の間における濃縮度合いの違いを比較することにより行ってもよい。この場合、例えば、前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、同じ配列群から選択された類似配列情報群であり、前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、異なる配列情報である。これによって、例えば、同じ配列情報群から、相対的に濃縮度合いの高い配列情報およびその類似配列情報を選択することが可能となる。具体例としては、例えば、アプタマーの調製において、特定のラウンドのライブラリーに含まれる複数の類似配列情報群から、相対的に濃縮度の高い類似配列情報群の選択、つまり濃縮度が高いアプタマー類似配列群の選択を行うことができる。
また、前記濃縮の判定は、例えば、異なる配列情報群に含まれる同じ配列情報について、前記配列情報群の間における濃縮度合いの違いを比較することにより行ってもよい。この場合、例えば、前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、異なる配列群から選択された類似配列情報群であり、前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、同じ配列情報である。これによって、例えば、特定の配列情報の類似配列情報群について、相対的に濃縮度合いの高い配列情報群を選択することができる。具体例としては、例えば、アプタマーの調製において、各ラウンドのライブラリーのうち、特定のアプタマー類似配列群の濃縮度が相対的に高いライブラリーを選択することができる。
本発明の濃縮の判定方法は、下記(X)および(Y)工程を含み、前記(X)工程が、前記本発明の類似選択方法を含むことを特徴とする、類似配列情報群の濃縮の判定方法である。本発明の濃縮の判定方法は、特に示さない限り、前記本発明の濃縮の判定装置における記載を援用できる。
(X)配列情報群から、目的の配列情報とそれに類似する配列情報とを判定対象の類似配列情報群として選択する工程
(Y)前記類似配列情報群における前記目的の配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程
本発明の濃縮の判定方法は、前記(X)工程が、比較元となる類似配列情報群と、比較先となる類似配列情報群を、それぞれ選択する工程であり、
前記(Y)工程が、下記(Y1)および(Y2)工程を含むことが好ましい。
(Y1)前記比較元の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計と、前記比較先の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計とを、比較する工程
(Y2)前記比較元の類似配列情報群における前記重複度の合計が、前記比較先の類似配列情報群における前記重複度の合計よりも大きい場合に、前記比較元の類似配列情報群が、前記比較先の配列情報群よりも、濃縮されていると判断する工程
本発明の濃縮の判定方法は、前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、同じ配列群から選択された類似配列情報群であり、
前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、異なる配列情報であってもよい。
本発明の濃縮の判定方法は、前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、異なる配列群から選択された類似配列情報群であり、
前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、同じ配列情報であってもよい。
本発明の用途は、特に制限されないが、例えば、アプタマーの調製における濃縮の判定に適用することが好ましい。本発明によれば、前述のように、例えば、同じライブラリー内における異なるアプタマー類似配列情報群の濃縮度合いの比較、または、異なるライブラリー内における同じアプタマー類似配列情報群の濃縮度合いの比較が可能である。
つぎに、本発明の実施例について説明する。ただし、本発明は、下記の実施例により制限されない。
[実施例1]
本実施例では、低分子化合物をターゲットとするライブラリーについて、本発明の類似選択方法により、類似配列群の分類を行った。
配列群として、40塩基長の85,800個の核酸配列群を使用した。仮想配列群の条件、許容できるミスマッチの塩基数および許容条件を下記表7に示す。
実施例は、前記条件に従い、前記表6に示すセル数の半減を行って、候補配列群の選択、類似配列群の選択を行った。これらの計算にかかった時間を前記表7にあわせて示す。なお、比較例は、前記配列群の全ての核酸配列について、アラインメントによる類似の判断を行い、類似配列群を選択した。その結果、実施例によれば、比較例よりも格段に短い計算時間で類似配列群の選択を行うことができた。
以上、実施形態を参照して本願発明を説明したが、本願発明は、上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解しうる様々な変更をすることができる。
この出願は、2013年2月15日に出願された日本出願特願2013−027851を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明によれば、配列情報間の類似を判断するにあたって、まず、類似を判断するための候補配列群が選択される。このため、例えば、全ての配列情報間の類似を確認する従来の方法とは異なり、簡便に効率よく類似の判断を行うことができる。このため、例えば、アプタマーの濃縮の判定等についても、労力、時間およびコストの軽減が可能となる。
10 候補選択装置
20、30 類似選択装置
11 入力手段
12 記憶手段
121 配列記憶部
122 類似度記憶部
123 候補配列記憶部
124 類似配列記憶部
124a 類似重複度記憶部
124b 類似配列記憶部
13 データ処理手段
131 類似度計算手段
132 候補配列選択手段
133 類似配列選択手段
133a 類似重複度計算手段
133b 類似配列選択手段
14 出力手段

Claims (44)

  1. 下記(a)、(b)、(c)および(d)手段を備えることを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択装置。
    (a)配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程を実行する手段
    (b)前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程を実行する手段
    (c)前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程を実行する手段
    (d)前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程を実行する手段
  2. 前記仮想配列情報群が、配列情報を構成する要素から構築された仮想配列情報の群である、請求項1記載の候補選択装置。
  3. 前記(c)手段が、下記(c1)および(c2)工程を実行する手段である、請求項1または2記載の候補選択装置。
    (c1)前記仮想配列情報ごとに、前記比較元配列情報における頻度と前記比較先配列情報における頻度との差を求める工程
    (c2)前記各仮想配列情報の頻度の差のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求め、前記絶対値を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
  4. 前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの個数に基づき設定された条件である、請求項1から3のいずれか一項に記載の候補選択装置。
  5. 前記配列情報が、塩基配列であり、前記配列情報を構成する要素が、A、G、C、TおよびUの塩基である、請求項1から4のいずれか一項に記載の候補選択装置。
  6. 前記仮想配列情報の塩基長が、1〜10塩基長である、請求項5記載の候補選択装置。
  7. 前記仮想配列情報群の各仮想配列情報が、すべて同じ塩基長である、請求項5または6記載の候補選択装置。
  8. 前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数に基づき設定された条件である、請求項3から7のいずれか一項に記載の候補選択装置。
  9. 前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数(M)に前記仮想配列情報の塩基長(N)を乗じた値である、請求項5から8のいずれか一項に記載の候補選択装置。
  10. さらに、下記(e)手段を有する、請求項1から9のいずれか一項に記載の候補選択装置。
    (e)前記(b)、(c)および(d)手段による各工程の反復を実行する手段
  11. 前記(b)手段は、前記工程の実行ごとに、前記配列情報群から、異なる配列情報を前記比較元配列情報として選択する、請求項10記載の候補選択装置。
  12. 下記(A)および(B)手段を備え、
    前記(A)手段が、請求項1から11のいずれか一項に記載の候補選択装置であることを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択装置。
    (A)配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程を実行する手段
    (B)前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群(G3)として選択する工程を実行する手段
  13. 前記(B)手段が、下記(B1)、(B2)、(B3)、(B4)および(B5)工程を実行する手段である、請求項12記載の類似選択装置
    (B1)前記候補配列情報群から、比較元となる候補配列情報と比較先となる候補配列情報とを選択する工程
    (B2)前記比較元候補配列情報に対する前記比較先候補配列情報の類似の有無を決定する工程
    (B3)前記比較元候補配列情報の重複度と、前記比較元候補配列情報に類似する前記比較先候補配列情報の重複度とを合計し、得られた合計値を、前記比較元候補配列情報の類似重複度とする工程
    (B4)前記候補配列情報群から、異なる候補配列情報を、新たな比較元となる候補配列情報として選択し、前記(B1)、(B2)および(B3)工程を反復する工程
    (B5)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群(G3)として選択する工程
  14. 前記(B)手段が、さらに、下記(B6)、(B7)および(B8)工程を実行する手段である、請求項13記載の類似選択装置。
    (B6)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報の重複度および前記候補配列情報に類似する候補配列情報の重複度を0に再設定する工程
    (B7)重複度が0以外である他の候補配列情報について、類似重複度を再算出する工程
    (B8)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群として再選択する工程
  15. 前記(B)手段が、さらに、下記(B9)の工程を実行する手段である、請求項14記載の類似選択装置。
    (B9)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報の重複度を0に再設定し、前記(B7)および(B8)工程を反復する工程
  16. 前記(B)手段が、前記(B1)工程における前記比較元補配列情報と前記比較先候補配列情報との組合せとして、すでに実行した組合せの除外を実行する、請求項13から15のいずれか一項に記載の類似選択装置。
  17. 下記(X)および(Y)手段を備え、前記(X)手段が、請求項12から16のいずれか一項に記載の類似選択装置であることを特徴とする、目的の類似配列情報群の濃縮の判定装置。
    (X)配列情報群から、目的配列情報とそれに類似する配列情報とを目的の類似配列情報群として選択する工程を実行する手段
    (Y)前記類似配列情報群における前記目的配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程を実行する手段
  18. 前記(X)手段が、比較元となる類似配列情報群と、比較先となる類似配列情報群を、それぞれ選択する工程を実行し、
    前記(Y)手段が、下記(Y1)および(Y2)工程を実行する手段である、請求項17記載の判定装置。
    (Y1)前記比較元の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計と、前記比較先の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計とを、比較する工程
    (Y2)前記比較元の類似配列情報群における前記重複度の合計が、前記比較先の類似配列情報群における前記重複度の合計よりも大きい場合に、前記比較元の類似配列情報群が、前記比較先の配列情報群よりも、濃縮されていると判断する工程
  19. 前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、同じ配列群から選択された類似配列情報群であり、
    前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、異なる配列情報である、請求項18記載の判定装置。
  20. 前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、異なる配列群から選択された類似配列情報群であり、
    前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、同じ配列情報である、請求項18記載の判定装置。
  21. 下記(a)、(b)、(c)および(d)工程を含み、前記各工程が、コンピュータ上で実行されることを特徴とする、配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する候補選択方法。
    (a)配列情報群の各配列情報について、仮想配列情報群の各仮想配列情報の頻度をカウントする工程
    (b)前記配列情報群から、比較元となる配列情報と比較先となる配列情報とを選択する工程
    (c)前記比較元配列情報の前記各仮想配列情報の頻度と、前記比較先配列情報の前記各仮想配列情報の頻度との相違を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
    (d)前記比較元配列情報に対する前記比較先配列情報の類似度が、前記仮想配列情報群に設定した類似度の許容条件を満たす場合、前記比較元配列情報および前記比較先配列情報を、配列情報間の類似を判断する候補配列情報群として選択する工程
  22. 前記仮想配列情報群が、配列情報を構成する要素から構築された仮想配列情報の群である、請求項21記載の候補選択方法。
  23. 前記(c)工程が、下記(c1)および(c2)工程を含む、請求項21または22記載の候補選択方法。
    (c1)前記仮想配列情報ごとに、前記比較元配列情報における頻度と前記比較先配列情報における頻度との差を求める工程
    (c2)前記各仮想配列情報の頻度の差のうち、正数の差のみの総和の絶対値または負数の差のみの総和の絶対値を求め、前記絶対値を、前記比較元配列情報に対する前記比較先配列情報の類似度として計算する工程
  24. 前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの個数に基づき設定された条件である、請求項21から23のいずれか一項に記載の候補選択方法。
  25. 前記配列情報が、塩基配列であり、前記配列情報を構成する要素が、A、G、C、TおよびUの塩基である、請求項21から24のいずれか一項に記載の候補選択方法。
  26. 前記仮想配列情報の塩基長が、1〜10塩基長である、請求項25記載の候補選択方法。
  27. 前記仮想配列情報群の各仮想配列情報が、すべて同じ塩基長である、請求項25または26記載の候補選択方法。
  28. 前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数に基づき設定された条件である、請求項23から27のいずれか一項に記載の候補選択方法。
  29. 前記類似度の許容条件が、2つの配列情報を対比した場合に許容できるミスマッチの塩基数(M)に前記仮想配列情報の塩基長(N)を乗じた値である、請求項25から28のいずれか一項に記載の候補選択方法。
  30. さらに、下記(e)工程を含む、請求項21から29のいずれか一項に記載の候補選択方法。
    (e)前記(b)、(c)および(d)工程を反復する工程
  31. 前記(b)工程において、前記工程の実行ごとに、前記配列情報群から、異なる配列情報を前記比較元配列情報として選択する、請求項30記載の候補選択方法。
  32. 下記(A)および(B)工程を含み、
    前記(A)工程が、請求項21から31のいずれか一項に記載の候補選択方法を含み、前記各工程が、コンピュータ上で実行されることを特徴とする、配列情報群から、相互に類似する類似配列情報群を選択する類似選択方法。
    (A)配列情報群から、配列情報間の類似の判断候補となる候補配列情報群を選択する工程
    (B)前記候補配列情報群の各候補配列情報を相互に対比し、同一および類似する配列情報を類似配列情報群(G3)として選択する工程
  33. 前記(B)工程が、下記(B1)、(B2)、(B3)、(B4)および(B5)工程を含む、請求項32記載の類似選択方法
    (B1)前記候補配列情報群から、比較元となる候補配列情報と比較先となる候補配列情報とを選択する工程
    (B2)前記比較元候補配列情報に対する前記比較先候補配列情報の類似の有無を決定する工程
    (B3)前記比較元候補配列情報の重複度と、前記比較元候補配列情報に類似する前記比較先候補配列情報の重複度とを合計し、得られた合計値を、前記比較元候補配列情報の類似重複度とする工程
    (B4)前記候補配列情報群から、異なる候補配列情報を、新たな比較元となる候補配列情報として選択し、前記(B1)、(B2)および(B3)工程を反復する工程
    (B5)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群(G3)として選択する工程
  34. 前記(B)工程が、さらに、下記(B6)、(B7)および(B8)工程を含む、請求項33記載の類似選択方法。
    (B6)前記候補配列情報のうち、最も大きな類似重複度を示した候補配列情報の重複度および前記候補配列情報に類似する候補配列情報の重複度を0に再設定する工程
    (B7)重複度が0以外である他の候補配列情報について、類似重複度を再算出する工程
    (B8)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報を、類似配列情報群として再選択する工程
  35. 前記(B)工程が、さらに、下記(B9)工程を含む、請求項34記載の類似選択方法。
    (B9)前記他の候補配列情報のうち、最も大きな類似重複度を示した候補配列情報および前記候補配列情報に類似する候補配列情報の重複度を0に再設定し、前記(B7)および(B8)工程を反復する工程
  36. 前記(B)工程において、前記(B1)工程における前記比較元補配列情報と前記比較先候補配列情報との組合せとして、すでに実行した組合せを除外する、請求項33から35のいずれか一項に記載の類似選択方法。
  37. 下記(X)および(Y)工程を含み、前記(X)工程が、請求項32から36のいずれか一項に記載の類似選択方法を含み、前記各工程が、コンピュータ上で実行されることを特徴とする、類似配列情報群の濃縮の判定方法。
    (X)配列情報群から、目的の配列情報とそれに類似する配列情報とを判定対象の類似配列情報群として選択する工程
    (Y)前記類似配列情報群における前記目的の配列情報と前記類似する配列情報との重複度の合計から、前記類似配列情報群の濃縮を判定する工程
  38. 前記(X)工程が、比較元となる類似配列情報群と、比較先となる類似配列情報群を、それぞれ選択する工程であり、
    前記(Y)工程が、下記(Y1)および(Y2)工程を含む、請求項37記載の判定方法。
    (Y1)前記比較元の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計と、前記比較先の類似配列情報群における目的の配列情報とそれに類似する配列情報との重複度の合計とを、比較する工程
    (Y2)前記比較元の類似配列情報群における前記重複度の合計が、前記比較先の類似配列情報群における前記重複度の合計よりも大きい場合に、前記比較元の類似配列情報群が、前記比較先の配列情報群よりも、濃縮されていると判断する工程
  39. 前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、同じ配列群から選択された類似配列情報群であり、
    前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、異なる配列情報である、請求項38記載の判定方法。
  40. 前記比較元の類似配列情報群と前記比較先の類似配列情報群とが、異なる配列群から選択された類似配列情報群であり、
    前記比較元の類似配列情報群の前記目的の配列情報と、前記比較先の類似配列情報群の前記目的の配列情報とが、同じ配列情報である、請求項38記載の判定方法。
  41. 請求項21から31のいずれか一項に記載の候補選択方法を、コンピュータ上で実行可能なことを特徴とするプログラム。
  42. 請求項32から36のいずれか一項に記載の類似選択方法を、コンピュータ上で実行可能なことを特徴とするプログラム。
  43. 請求項37から40のいずれか一項に記載の判定方法を、コンピュータ上で実行可能なことを特徴とするプログラム。
  44. 請求項41から43のいずれか一項に記載のプログラムを記録していることを特徴とする記録媒体。
JP2015500317A 2013-02-15 2014-02-14 類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途 Active JP6072890B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013027851 2013-02-15
JP2013027851 2013-02-15
PCT/JP2014/053516 WO2014126213A1 (ja) 2013-02-15 2014-02-14 類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途

Publications (2)

Publication Number Publication Date
JP6072890B2 true JP6072890B2 (ja) 2017-02-01
JPWO2014126213A1 JPWO2014126213A1 (ja) 2017-02-02

Family

ID=51354211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015500317A Active JP6072890B2 (ja) 2013-02-15 2014-02-14 類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途

Country Status (4)

Country Link
US (1) US20150379197A1 (ja)
EP (1) EP2958038A1 (ja)
JP (1) JP6072890B2 (ja)
WO (1) WO2014126213A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8990234B1 (en) * 2014-02-28 2015-03-24 Lucas J. Myslinski Efficient fact checking method and system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005102695A (ja) * 2003-09-12 2005-04-21 National Institute Of Advanced Industrial & Technology 物質特異的に結合するタンパク質及びその遺伝子の探索、解析方法
JP2012146067A (ja) * 2011-01-11 2012-08-02 Nippon Software Management Kk 核酸情報処理装置およびその処理方法
JP2012146066A (ja) * 2011-01-11 2012-08-02 Nippon Software Management Kk 核酸情報処理装置およびその処理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970002255B1 (ko) 1990-06-11 1997-02-26 넥스스타 파아마슈티컬드, 인크. 핵산 리간드
US6466685B1 (en) * 1998-07-14 2002-10-15 Kabushiki Kaisha Toshiba Pattern recognition apparatus and method
WO2001080559A2 (en) * 2000-04-18 2001-10-25 Silicon Image Method, system and apparatus for identifying the source type and quality level of a video sequence
JP2002008189A (ja) * 2000-06-22 2002-01-11 Matsushita Electric Ind Co Ltd 車両検出装置および車両検出方法
US7707148B1 (en) * 2003-10-07 2010-04-27 Natural Selection, Inc. Method and device for clustering categorical data and identifying anomalies, outliers, and exemplars
US8023577B2 (en) * 2007-02-02 2011-09-20 Texas Instruments Incorporated Systems and methods for efficient channel classification
MX2010002253A (es) * 2008-07-01 2010-03-17 Panasonic Corp Metodo de evaluacion de señal reproducida, dispositivo de evaluacion de señal reproducida y dispositivo de disco optico equipado con los mismos.
KR101328358B1 (ko) * 2009-06-17 2013-11-11 후지쯔 가부시끼가이샤 생체 인증 장치, 생체 인증 방법 및 생체 인증용 컴퓨터 프로그램이 기록된 컴퓨터 판독가능한 기록매체
JP5867389B2 (ja) * 2010-05-24 2016-02-24 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム
CN102592136B (zh) * 2011-12-21 2013-10-16 东南大学 基于几何图像中中频信息的三维人脸识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005102695A (ja) * 2003-09-12 2005-04-21 National Institute Of Advanced Industrial & Technology 物質特異的に結合するタンパク質及びその遺伝子の探索、解析方法
JP2012146067A (ja) * 2011-01-11 2012-08-02 Nippon Software Management Kk 核酸情報処理装置およびその処理方法
JP2012146066A (ja) * 2011-01-11 2012-08-02 Nippon Software Management Kk 核酸情報処理装置およびその処理方法

Also Published As

Publication number Publication date
JPWO2014126213A1 (ja) 2017-02-02
EP2958038A1 (en) 2015-12-23
US20150379197A1 (en) 2015-12-31
WO2014126213A1 (ja) 2014-08-21

Similar Documents

Publication Publication Date Title
Zhou et al. Evaluating fast maximum likelihood-based phylogenetic programs using empirical phylogenomic data sets
Down et al. NestedMICA: sensitive inference of over-represented motifs in nucleic acid sequence
Sato et al. IPknot: fast and accurate prediction of RNA secondary structures with pseudoknots using integer programming
Reeder et al. Consensus shapes: an alternative to the Sankoff algorithm for RNA consensus structure prediction
Leimeister et al. Fast alignment-free sequence comparison using spaced-word frequencies
Katoh et al. Recent developments in the MAFFT multiple sequence alignment program
DK2511843T3 (en) METHOD AND SYSTEM FOR DETERMINING VARIATIONS IN A SAMPLE POLYNUCLEOTIDE SEQUENCE IN TERMS OF A REFERENCE POLYNUCLEOTIDE SEQUENCE
Bao et al. SEED: efficient clustering of next-generation sequences
Piro et al. DUDes: a top-down taxonomic profiler for metagenomics
Lai et al. A de novo metagenomic assembly program for shotgun DNA reads
NL2011817C2 (en) A method of generating a reference index data structure and method for finding a position of a data pattern in a reference data structure.
Liu et al. Index suffix–prefix overlaps by (w, k)-minimizer to generate long contigs for reads compression
Patro et al. Predicting protein interactions via parsimonious network history inference
Liu et al. High-speed and high-ratio referential genome compression
Seetin et al. TurboKnot: rapid prediction of conserved RNA secondary structures including pseudoknots
Eggenhofer et al. RNAlien–unsupervised RNA family model construction
Tammi et al. Correcting errors in shotgun sequences
Vaser et al. SWORD—a highly efficient protein database search
Molloy et al. TreeMerge: a new method for improving the scalability of species tree estimation methods
Ferdous et al. Solving the minimum common string partition problem with the help of ants
Pan et al. Novo&Stitch: accurate reconciliation of genome assemblies via optical maps
JP6072890B2 (ja) 類似判断の候補配列情報の選択装置、選択方法、およびそれらの用途
Storato et al. K2mem: discovering discriminative k-mers from sequencing data for metagenomic reads classification
Yeo et al. ARCS: assembly roundup by chromium scaffolding
Huang et al. Accurate classification of RNA structures using topological fingerprints

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161228

R150 Certificate of patent or registration of utility model

Ref document number: 6072890

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150