JP2013226104A - 塩基配列のリードエラーを判定するためのプログラム - Google Patents

塩基配列のリードエラーを判定するためのプログラム Download PDF

Info

Publication number
JP2013226104A
JP2013226104A JP2012101755A JP2012101755A JP2013226104A JP 2013226104 A JP2013226104 A JP 2013226104A JP 2012101755 A JP2012101755 A JP 2012101755A JP 2012101755 A JP2012101755 A JP 2012101755A JP 2013226104 A JP2013226104 A JP 2013226104A
Authority
JP
Japan
Prior art keywords
sequence
shortening
average value
bases
reference sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012101755A
Other languages
English (en)
Other versions
JP5414130B2 (ja
Inventor
Masumi Abe
真澄 安倍
Koji Kasama
康次 笠間
Harunobu Yunokawa
春信 湯野川
Shinji Sato
伸司 佐藤
Kazuhiro Kondo
一弘 近藤
Takashi Hinagata
隆志 日永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MAZE KK
National Institute of Radiological Sciences
Original Assignee
MAZE KK
National Institute of Radiological Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MAZE KK, National Institute of Radiological Sciences filed Critical MAZE KK
Priority to JP2012101755A priority Critical patent/JP5414130B2/ja
Priority to PCT/JP2013/062426 priority patent/WO2013162010A1/ja
Priority to CA2871582A priority patent/CA2871582A1/en
Priority to AU2013253336A priority patent/AU2013253336A1/en
Priority to EP13782493.4A priority patent/EP2843576A4/en
Publication of JP2013226104A publication Critical patent/JP2013226104A/ja
Application granted granted Critical
Publication of JP5414130B2 publication Critical patent/JP5414130B2/ja
Priority to US14/523,532 priority patent/US20160171151A1/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】塩基配列の差異がリードエラーか変異かを判別するプログラムを提供する。
【解決手段】ステップS101において、リファレンス配列とこのリファレンス配列と相同性を有する第1の対照配列とが取得される。ステップS102において、リファレンス配列と第1の対照配列との編集距離が算出される。ステップS103において、第1の対照配列について、同一塩基が3塩基以上連続する配列がこの同一塩基が2塩基連続する配列に置換され、第2の対照配列が作成される。ステップS104において置換されたリファレンス配列に対する第2の対照配列の編集距離が算出される。ステップS105において、算出された編集距離に基づいて、差異がリードエラーか変異かを判定する。
【選択図】図3

Description

本発明は、塩基配列のリードエラーを判定するためのプログラムに関する。
一塩基多型(SNP)、複数塩基の置換、塩基の挿入又は欠失(Insertion/Deletion)等の変異の特定については、診断や治療、ウィルスや細菌の同定、家畜等の遺伝情報の解析等、研究及び臨床等の場において多くの需要が存する。例えば特許文献1には、ピロリン酸配列決定技法を利用したシーケンシングによって、効率的にSNP等の変位を特定する技術が開示されている。
特表2008−538496号公報
例えば特許文献1に開示されているようなピロリン酸配列決定技法等を利用したシーケンシングにより取得された塩基配列データには、同一塩基が連続する部分において、同一塩基の連続数が実際と異なるリードエラーが含まれることがある。リファレンス配列とこのリファレンス配列と比較される対照配列との差異が、変異によるものなのかシーケンシングにおけるリードエラーによるものなのかを判定することは困難である。
そこで本発明は、塩基配列の差異が変異によるものなのかリードエラーによるものなのかを判定するためのプログラムを提供することを目的とする。
前記目的を果たすため、本発明の一態様によれば、プログラムは、第1のリファレンス配列と、前記第1のリファレンス配列と相同性を有する複数の第1の対照配列との差異が、前記第1の対照配列の変異によるものかシーケンシングのリードエラーによるものかを判定することをコンピュータに実行させるためのプログラムであって、各々の前記第1の対照配列の同一塩基が所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して各々の第2の対照配列を作成することと、前記第1のリファレンス配列の同一塩基が前記所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して第2のリファレンス配列を作成することと、前記第2のリファレンス配列に対する各々の前記第2の対照配列の編集距離である複数の短縮後編集距離を算出することと、複数の前記短縮後編集距離の平均値である短縮後平均値を算出することと、前記短縮後平均値に基づいて、前記差異が前記変異によるものであるか前記リードエラーによるものであるかを判定することと、をコンピュータに実行させる。
また、前記目的を果たすため、本発明の一態様によれば、プログラムは、好ましくは、第1のリファレンス配列と、前記第1のリファレンス配列と相同性を有する複数の第1の対照配列との差異が、前記第1の対照配列の変異によるものかシーケンシングのリードエラーによるものかを判定することをコンピュータに実行させるためのプログラムであって、前記第1のリファレンス配列に対する各々の前記第1の対照配列の編集距離である複数の短縮前編集距離を算出することと、複数の前記短縮前編集距離の平均値である短縮前平均値を算出することと、各々の前記第1の対照配列の同一塩基が所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して各々の第2の対照配列を作成することと、前記第1のリファレンス配列の同一塩基が前記所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して第2のリファレンス配列を作成することと、前記第2のリファレンス配列に対する各々の前記第2の対照配列の編集距離である複数の短縮後編集距離を算出することと、複数の前記短縮後編集距離の平均値である短縮後平均値を算出することと、前記短縮前平均値と前記短縮後平均値との関係に基づいて、前記差異が前記変異によるものであるか前記リードエラーによるものであるかを判定することと、をコンピュータに実行させる。
また、前記目的を果たすため、本発明の一態様によれば、プログラムは、第1のリファレンス配列と、前記第1のリファレンス配列と相同性を有する第1の対照配列との差異が、前記第1の対照配列の変異によるものかシーケンシングのリードエラーによるものかを判定することをコンピュータに実行させるためのプログラムであって、前記第1の対照配列の同一塩基が所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して各々の第2の対照配列を作成することと、前記第1のリファレンス配列の同一塩基が前記所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して第2のリファレンス配列を作成することと、前記第2のリファレンス配列に対する前記第2の対照配列の編集距離を算出することと、前記編集距離に基づいて、前記差異が前記変異によるものであるか前記リードエラーによるものであるかを判定することと、をコンピュータに実行させるためのプログラム。
本発明によれば、塩基配列の差異が変異によるものなのかリードエラーによるものなのかを判定するためのプログラムを提供できる。
本発明の各実施形態に係る判定装置の構成例を示すブロック図。 本発明の各実施形態に係る判定装置の機能ブロックの構成例を示すブロック図。 第1の実施形態に係る判定装置による処理の一例を示すフローチャート。 第2の実施形態に係る判定装置による処理の一例を示すフローチャート。 第2の実施形態の変形例に係る判定装置の機能ブロックの構成例を示すブロック図。 HiCEPを説明するための模式図。 第3の実施形態に係るクラスタ決定装置による処理の一例を示すフローチャート。
[第1の実施形態]
本発明の第1の実施形態について図面を参照して説明する。本実施形態に係る塩基配列の差異が変異によるものなのかリードエラーによるものなのかを判定するため判定装置1の構成例の概略を図1に示す。判定装置1は、マザーボード11と、CPU12と、メインメモリ13と、ハードディスクドライブ(HDD)14と、入力装置15と、出力装置16と、記録媒体インターフェース(媒体I/F)17と、通信インターフェース(通信I/F)18とを備える。
判定装置1内の各部は、マザーボード11を介して通信を行う。CPU12は、種々の演算を行う。メインメモリ13は、例えばDRAMを含み、CPU12における演算に必要な情報等を一時記憶する。HDD14は、CPU12によって行われる演算に係るプログラム等を含む各種情報を記憶している。入力装置15は、例えばキーボードやマウス等のユーザからの入力に係るユーザインターフェースを含む。出力装置16は、例えばディスプレイやプリンタ等のユーザへの出力に係るユーザインターフェースを含む。媒体I/F17は、記録媒体101との通信を行うインターフェースである。通信I/F18は、ネットワーク102と接続するためのインターフェースである。
本実施形態に係る判定装置1の機能ブロックの構成例の概略を図2に示す。判定装置1は、CPU12及びメインメモリ13やHDD14に記録されたプログラム等によって構成される演算部30を有する。演算部30は、データ取得部31と、配列短縮部32と、編集距離算出部33と、エラー判定部34とを有する。演算部30は、記録部41やネットワーク42や出力部43と接続している。
データ取得部31は、HDD14、記録媒体101等で構成される記録部41や、ネットワーク42から塩基配列に係るデータを取得する。このデータには、リファレンス配列と、このリファレンス配列と差異を有し、その差異が変異によるものなのかリードエラーによるものなのかが判定されるべき対照配列とが含まれている。データ取得部31が取得したリファレンス配列を第1のリファレンス配列と称し、対照配列を第1の対照配列と称することにする。
配列短縮部32は、第1のリファレンス配列について、同一塩基が連続して3つ以上並ぶ配列をその塩基が2つ連続する配列に置換して、短縮された塩基配列を作成する。この短縮された塩基配列を第2のリファレンス配列と称することにする。配列短縮部32は、同様に第1の対照配列について同一塩基が連続して3つ以上並ぶ配列をその塩基が2つ連続する配列に置換して、短縮された配列を作成する。この短縮された配列を第2の対照配列と称することにする。
編集距離算出部33は、第1のリファレンス配列に対する各々の第1の対照配列の編集距離を算出する。同様に、編集距離算出部33は、短縮された第2のリファレンス配列に対する短縮された各々の第2の対照配列の編集距離を算出する。エラー判定部34は、編集距離算出部33が算出した編集距離に基づいて、第1のリファレンス配列と第1の対照配列との差異が、変異によるものなのかリードエラーによるものなのかを判定する。
本実施形態に係る判定装置1は、次のような処理を行う。例えばパイロシーケンス(登録商標)法等のピロリン酸配列決定技法を用いたシーケンシングにおいては、同一塩基が連続する場合に連続数を誤るリードエラーが含まれやすい。このようなエラーが含まれる問題をいわゆるホモポリマー問題という。判定装置1は、第1のリファレンス配列と、第1の対照配列との差異が、ホモポリマー問題に係るリードエラーによるものなのか、変異が存在することによるものなのかを判定する。
本実施形態に係る判定装置1の動作を説明する。本実施形態において実行される処理のフローチャートを図3に示す。演算部30のデータ取得部31は、ステップS101において、配列データを取得する。配列データは、第1のリファレンス配列と第1の対照配列とを含む。ここで、配列データに含まれるのは、第1のリファレンス配列に対して差異がある第1の対照配列である。この差異は公知の手法によって特定されたものであるが、この差異がシーケンシングにおけるリードエラーなのか、変異が存在することによる差異なのかが明らかになっていない。第1のリファレンス配列と第1の対照配列とは、この差異を含む所定の塩基数の配列である。なお、第1のリファレンス配列には、トランスクリプトの配列やゲノム配列等を含む種々の配列が用いられ得る。配列データは、記録媒体101から取得してもよいし、ネットワーク102から取得してもよい。また、HDD14に記録されている第1のリファレンス配列と第1の対照配列とのデータを取得してもよい。
本説明では、例えば第1のリファレンス配列が「AGCCTTTA」(以降、配列1と称する)であり、第1の対照配列が「AGCCTTTTA」(以降、配列2と称する)であるものとする。すなわち、配列1と配列2とでは、連続する「T」の数が異なる。
演算部30の編集距離算出部33は、ステップS102において、第1のリファレンス配列に対する第1の対照配列の編集距離を算出する。ここで、編集距離とは、リファレンス配列と対象とする配列とを比較し、塩基の挿入、削除又は置換の有無を求め、挿入、削除又は置換のうち何れか1つが存在する毎にそれぞれ「1」を加算して求められる値である。例えば第1のリファレンス配列「AGCCTTTA」(配列1)に対する第1の対照配列「AGCCTTTTA」(配列2)の編集距離は、Tが1つ挿入されているので1である。
演算部30の配列短縮部32は、ステップS103において、第1のリファレンス配列及び第1の対照配列について、同一塩基が3塩基以上連続する配列をその塩基が2塩基連続した配列に変換して、短縮配列を作成する。例えば、配列1は「AGCCTTA」(以降、配列3と称する)となり、配列2は「AGCCTTA」(以降、配列4と称する)となる。第1のリファレンス配列の短縮配列を第2のリファレンス配列と称し、第1の対照配列の短縮配列を第2の対照配列と称することにする。
演算部30の編集距離算出部33は、ステップS104において、第2のリファレンス配列に対する第2の対照配列の編集距離を算出する。配列3に対する配列4の編集距離は、両配列が一致しているので0となる。
演算部30のエラー判定部34は、ステップS105において、短縮前の編集距離と短縮後の編集距離とに基づいて、第1のリファレンス配列と第1の対照配列との差異が変異によるものなのかリードエラーによるものなのかを判定する。例えば、エラー判定部34は、短縮前の編集距離と短縮後の編集距離とが同一であるとき差異が変位によるものであると判定し、短縮前の編集距離と短縮後の編集距離とが相違するとき差異がリードエラーによるものであると判定する。また、短縮後の編集距離が0であるとき、差異がリードエラーによるものであると判定し、短縮後の編集距離が0以外であるとき、差異が変異によるものであると判定してもよい。配列1と配列2との例では、短縮前の編集距離が1であり、短縮後の編集距離が0であるので、配列1と配列2との差異はリードエラーによるものであると判定される。演算部30は、判定結果をHDD14や出力装置16や記録媒体101やネットワーク102等を含む出力部43に出力し、記録等させる。その後、処理は終了する。
ホモポリマー問題に係るリードエラーは、同一塩基が2つ連続で出現してもほとんど発生せず、同一塩基が3つ以上連続して出現すると、連続数が多い程、エラーの発生確率が上昇する。そこで、本実施形態では、同一塩基が連続して出現するとき、その連続数を全て2つに短縮することで、解析においてシーケンシングにおけるリードエラーの影響を受けないようにしている。すなわち、ホモポリマー問題に起因するシーケンシングにおけるリードエラーがある場合には短縮されることで配列の相違がなくなり、リードエラーがなく変異が存在する場合には短縮されることで相違が維持されることが利用されている。
第1の対照配列が別の場合の例を示す。第1のリファレンス配列が配列1であり、第1の対照配列が「AGCCGTTA」(以降、配列5と称する)であるとする。このとき、ステップS102で算出される配列1に対する配列5の編集距離は、「T」の1つが「G」に置換されているので、1となる。ステップS103において配列5が短縮されて得られる第2の対照配列は、「AGCCGTTA」(以降、配列6と称する)となる。ステップS104で算出される配列1に対する配列6の編集距離は1となる。したがって、ステップS105において、変異が存在すると判定される。
このように本実施形態によれば、ホモポリマー問題を含む配列データの解析において、ホモポリマーが短縮され、短縮された配列の編集距離に基づいて、配列の差異が変異によるものなのかリードエラーによるものなのかが判定される。すなわち、本実施形態によれば、SNP等が正確に同定され得る。
なお、図3を参照して説明した処理は一例であり、各処理の順序は変更され得るし、一部の変更や省略もされ得る。また、本実施形態では、同一塩基が3塩基以上連続する配列を2塩基に短縮しているが、いくつに短縮するようにしてもよい。例えば同一塩基が4塩基以上連続する配列を3塩基に短縮するようにしてもよい。ただし、3塩基以上連続する場合にリードエラーの発生確率が上昇するので、同一塩基が3塩基以上連続する配列を2塩基に短縮することが好ましい。
[第2の実施形態]
本発明の第2の実施形態について説明する。ここでは、第1の実施形態との相違点について説明し、同一の部分については、同一の符号を付してその説明を省略する。ピロリン酸配列決定技法を用いたシーケンシングでは、一度に大量の配列データが得られる。本実施形態では、リファレンス配列と相同性があるとされた一群の配列を配列データとして取り扱う。本実施形態に係る判定装置1は、この一群の配列のうちリファレンス配列と差異がある部分について、その差異がリードエラーによるものなのか、ヘテロ接合型のSNP等によるものなのかを判定する。ここでSNP等とは、1塩基の置換、挿入又は欠失をいう。ホモポリマー問題のように、リードエラーがランダムではなく一定の条件で発生する場合、従来の判定手法ではそのリードエラーがSNP等と判定される可能性がある。本実施形態では、このようなホモポリマー問題を含むリードエラーを判別する。なお、ヘテロ接合型のSNP等が存在する場合、理想的には、リファレンス配列に対する各配列の編集距離の平均値は0.5となり、2種類の配列が50%ずつ存在することになる。
本実施形態に係る判定装置1の動作を説明する。本実施形態において実行される処理のフローチャートを図4に示す。演算部30のデータ取得部31は、ステップS201において、リファレンス配列と相同性があるとされた一群の配列のうち、リファレンス配列と差異がある部分の配列を配列データとして取得する。リファレンス配列には、トランスクリプトの配列やゲノム配列等を含む種々の配列が用いられ得る。配列データの一例を表1に示す。表1の最上段に第1のリファレンス配列としてのリファレンス配列が示されている。その下には、第1の対照配列としての配列が示されている。これら配列を配列7乃至配列14と称することにする。配列7乃至14のうち、リファレンス配列と異なる部分は、シーケンシングにおけるリードエラーかSNP等によるものか判別されていない差異である。
Figure 2013226104
演算部30の編集距離算出部33は、ステップS202において、第1のリファレンス配列に対する各第1の対照配列の編集距離を算出する。例えば表1に示す各配列について編集距離を算出すると次のようになる。配列7乃至9は、それぞれコンセンサス配列と同一であるので、それぞれ編集距離は0である。配列10及び11は、コンセンサス配列に対してTが1つ挿入されているので編集距離は1である。配列12及び13は、コンセンサス配列に対してTが1つ削除されているので、編集距離は1である。配列14は、コンセンサス配列に対してTが1つGに置換されているので、編集距離は1である。演算部30の編集距離算出部33は、ステップS203において、全ての第1の対照配列の編集距離の平均値を算出する。
演算部30の配列短縮部32は、ステップS204において、第1のリファレンス配列及び各第1の対照配列について、同一塩基が3塩基以上連続する配列をその塩基が2塩基連続した配列に変換して、短縮配列を作成する。例えば表1に示した第1の対照配列としての配列7乃至14は、表2に示すような短縮された第2の対照配列としての配列15乃至22に各々変換される。
Figure 2013226104
演算部30の編集距離算出部33は、ステップS205において、第2のリファレンス配列に対する各第2の対照配列の編集距離を算出する。この編集距離は、例えば表2に示すようになる。演算部30の編集距離算出部33は、ステップS206において、第2の対照配列の編集距離の平均値を算出する。
演算部30のエラー判定部34は、ステップS207において、第2の対照配列の編集距離の平均値が所定の範囲内であるか否かによって、第1のリファレンス配列と第1の対照配列との差異が、SNP等によるものである可能性があるか、リードエラーによるものであるかを判定する。例えば表3に示す判定基準に基づいて判定される。すなわち、第2の対照配列(短縮後)の編集距離の平均値が0.25以上0.75以下である場合、SNP等によるものである可能性があると判定される。これは、2倍体において、対立遺伝子の一方にSNP等が存在するヘテロ接合の場合には、理想的には編集距離は0.5となることに基づく。なお、本実施形態では、編集距離の平均値の範囲を0.25以上0.75以下と0.5を中心とする値に設定しているが、0.5を含む他の値としてもよい。
また、後に詳述する理由により、第2の対照配列(短縮後)の編集距離の平均値が0.75より大きいときでも第1の対照配列(短縮前)の編集距離の平均値が0.25以上0.75以下である場合、SNP等によるものである可能性があると判定される。それ以外の場合、リードエラーによるものであると判定される。ステップS207においてSNP等によるものである可能性があると判定されたとき、処理はステップS208に進む。リードエラーによるものであると判定されたとき、処理はステップS210に進む。
Figure 2013226104
演算部30のエラー判定部34は、ステップS208において、SNP等が存在する可能性がある配列の数の割合が所定の範囲内であるか否かを判定し、第1のリファレンス配列と第1の対照配列との差異が、SNP等によるものである可能性があるか、リードエラーによるものであるかを判定する。例えば、SNP等が存在する可能性がある配列の数が、全配列数の33%以上67%以下のとき、差異はSNP等によるものであると判定される。それ以外の場合、差異はリードエラーによるものであると判定される。この判定は、第2の対照配列を同一配列ごとにグループ分けした場合、最も多くの配列が含まれるグループの配列数が全配列数の66%以下であり、かつ、2番目に多くの配列が含まれるグループの配列数が全配列数の33%以上である場合に、差異はSNP等によるものであると判定されるように変更されてもよい。
差異はSNP等によるものであると判定されたとき、処理はステップS209に進む。差異はリードエラーによるものであると判定されたとき、処理はステップS210に進む。すなわち、ステップS207の判定の条件とステップS208の判定の条件とを共に満たすとき、処理はステップS209に進み、それ以外のとき、処理はステップS210に進む。
演算部30のエラー判定部34は、ステップS209において、SNP等が存在する配列を特定する。演算部30は、SNP等が存在する配列に係る情報を出力部43に出力し、記録等させる。その後処理は終了する。
一方、演算部30のエラー判定部34は、ステップS210において、第1のリファレンス配列と第1の対照配列との差異はリードエラーによるものであると結論付け、その旨を出力部43に出力し、記録等させる。その後処理は終了する。
表1に示した第1のクラスタの例では、ステップS205において、短縮後の各第2の対照配列の編集距離は表2に示すようになる。この場合、ステップS206において算出される短縮後の第2の対照配列の編集距離の平均値は、0.125である。したがって、ステップS207の判定において、リードエラーが存在すると判定され、ステップS210においてリードエラーが存在すると結論付けられ、処理は終了する。
表1に示す例のような場合、本実施形態によれば、配列短縮部32が配列を短縮することで、ホモポリマー問題に起因するエラーが取り除かれ、第1のリファレンス配列と第1の対照配列との差異はリードエラーによるものであると結論付けられる。
一群の第1の対照配列の別の例を表4に示す。この場合、ステップS202で算出される編集距離は表4に示すとおりであり、ステップS203で算出される編集距離の平均値は0.625である。
Figure 2013226104
ステップS204で短縮される結果、配列23乃至30は、それぞれは表5に示す第2の対照配列としての配列31乃至38のようになる。この場合、ステップS205で算出される短縮後の編集距離は表5に示すとおりであり、ステップS206で算出される短縮後の編集距離の平均値は0.375である。
Figure 2013226104
この場合、ステップS207における判定において、短縮後の編集距離の平均値が0.25以上0.75以下であるので、SNP等が存在する可能性があると判定され、処理はステップS208に進む。表5に示した短縮後の配列によれば、配列36乃至38が、SNP等が存在する可能性のある配列である。その配列数である3は、全配列数である8の37.5%である。したがって、ステップS208においてもSNP等が存在すると判定され、処理はステップS209に進む。
ステップS209において、表4に示された第1の対照配列のうち、配列36乃至38に相当する配列28乃至30にはSNP等が存在すると特定される。この例のように、本実施形態によれば、ホモポリマー問題を有する第1の対照配列においても、SNP等が存在する配列が正確に特定され得る。
一群の第1の対照配列の別の例を表6に示す。この場合、配列39乃至46のステップS202で算出される編集距離は表6に示すとおりであり、ステップS203で算出される編集距離の平均値は0.625である。
Figure 2013226104
ステップS204で短縮された結果、配列39乃至46は、それぞれは表7に示す第2の対照配列としての配列47乃至54のようになる。この場合、ステップS205で算出される短縮後の編集距離は表7に示すとおりであり、ステップS206で算出される短縮後の編集距離の平均値は1である。
Figure 2013226104
この例では、ステップS207における判定において、短縮後の編集距離の平均値が0.75以上であり、短縮前の編集距離の平均値が0.25以上0.75以下であるので、SNP等が含まれている可能性があるとされ、処理はステップS208に進む。表7に示した短縮後の第2の対照配列によれば、配列51乃至54が、SNP等が存在する可能性のある配列である。その配列数である4は、全配列数である8の50%である。したがって、SNP等が存在すると判定され、処理はステップS209に進む。ステップS209において、表6に示された第1の対照配列のうち、配列51乃至54に相当する配列43乃至46にはSNP等が存在すると特定される。
この例のように、同一の塩基が連続する配列において、間に1塩基の置換が存在する場合、短縮後の編集距離が非常に大きくなる。したがって、短縮後の編集距離が0.25以上0.75以下であるか否かの判定のみで分離すべきか否かの判定が行われると誤った結果になる。そこで本実施形態では、短縮後の編集距離が0.75以上であり、短縮前の編集距離が0.25以上0.75以下である場合も、分離すべきと判定されるようになっている。このようにして正確なSNP等の特定がなされる。
一群の第1の対照配列の別の例を表8に示す。この場合、配列55乃至62のステップS202で算出される編集距離は表8に示すとおりであり、ステップS203で算出される編集距離の平均値は0.125である。
Figure 2013226104
配列55乃至62がステップS204で短縮された結果である第2の対照配列はそれzそれ表9に示す配列63乃至70のようになる。この場合、ステップS205で算出される短縮後の編集距離は表9に示すとおりであり、ステップS206で算出される短縮後の編集距離の平均値は0.375である。
Figure 2013226104
この場合、ステップS207における判定において、短縮後の編集距離の平均値が0.25以上0.75以下であるので、SNP等が存在する可能性があると判定され、処理はステップS208に進む。表9に示した短縮後の配列によれば、第1の対照配列は、配列70が、SNP等が存在する可能性のある配列である。その配列数である4は、全配列数である8の12.5%である。したがって、リードエラーが存在すると判定され、処理はステップS210に進む。ステップS210において、リードエラーが存在すると結論付けられ、処理は終了する。
この例のように、短縮後の編集距離の平均値が0.25以上0.75以下でありステップS207でSNPが存在する可能性があると判定されても、配列数に偏りが大きい場合、ステップS208の判定でリードエラーであると判定され、差異はリードエラーによるものであると結論付けられる。
このように本実施形態によれば、ホモポリマー問題を含む配列データの解析において、ホモポリマーが短縮され、短縮された配列の編集距離に基づいて、第1のリファレンス配列と第1の対照配列との差異が、SNP等によるものであるのか、リードエラーによるものであるのかが正確に判定される。すなわち、本実施形態によれば、SNP等が正確に同定され得る。
なお、図3を参照して説明した処理は一例であり、各処理の順序は変更され得るし、一部の変更や省略もされ得る。また、本実施形態では、2倍体のヘテロ接合型の場合であって、第1の対照配列のおよそ半分がリファレンス配列と同一であり、残りにSNP等が存在する場合を想定している。このため、ステップS207の判定において、判定の基準となる範囲が表3に示すように0.5を中心とした範囲に設定されている。しかしながら、これに限らない。ホモ接合型である場合、ほぼ全ての第1の対照配列がリファレンス配列と1塩基異なる配列となることが想定される。したがって、SNP等がある場合、編集距離の平均値は1近くになると想定される。したがって、この場合には表3に相当するステップS207における判定基準は、例えば表10のようになる。また、この場合、ステップS208における判定基準は、例えば75%以上の配列がSNP等を含むと考えられるとき、第1の対照配列にはSNP等が含まれると判定され、75%未満のとき、配列の差異はリードエラーによるものと判定されるように設定される。
Figure 2013226104
また、ヘテロ接合型であって、第1の対照配列のおよそ半分がリファレンス配列と異なるある第1のSNPを含み、残りが別の第2のSNPを含む場合も、表3に相当するステップS207における判定基準は、例えば表10のようになる。また、ステップS208の判定では、第1のSNPを含む第1の対照配列の数と、第1のSNPを含む第1の対照配列の数とが、それぞれ全配列数の33%以上67%以下である場合、SNP等が含まれ、それ以外のとき、配列の差異はリードエラーによるものであると判定されるように設定される。
また、SNP等の同定以外の用途に用いられるのであれば、変異によるグループ分けが3つ以上となるように構成されてもよい。この場合、ステップS207における判定基準や、ステップS208における判定基準は異なるものになる。例えば、4つのグループに分けられる場合は、ステップS207における判定基準の範囲は、0.25を中心とした範囲に設定される。
また、本実施形態では、リファレンス配列に対する編集距離を求めているが、一群の配列のコンセンサス配列に対する編集距離を求めるようにしてもよい。ここでコンセンサス配列とは、一群の第1の対照配列の全てに対する同一性が最も高くなるように決定された配列、すなわち第1の対照配列の多数に共通する配列のことをいう。
また、判定装置1の演算部30は、図5に示すようにクラスタ決定部35をさらに備えてもよい。このクラスタ決定部35は、エラー判定部34が特定したSNP等に基づいて、第1の対照配列を2つのクラスタに分離する。例えば、クラスタ決定部35は、表4に示す一群の配列について、配列23乃至27を含む第1のクラスタと、配列28乃至30を含む第2のクラスタとにグループ分けする。この処理は、例えばステップS209の後に行われる。
このように、本実施形態によれば、配列の差異が変異によるものなのかシーケンシングにおけるリードエラーによるものなのかが判定される。この判定を用いれば、ゲノムやcDNA配列のバリエーションの真偽が判定され得る。また、配列のアセンブルにより作成されたクラスタの変異部分の真偽が判定され得る。また、判定結果によりクラスタが分割され得るし、クラスタを作成する際の前処理方法となり得る。
[第3の実施形態]
本発明の第3の実施形態について説明する。ここでは、第2の実施形態との相違点について説明し、同一の部分については、同一の符号を付してその説明を省略する。本実施形態では、第2の実施形態に係るSNP等の同定手法とそれを用いたクラスタの作成手法とをHiCEP(High Coverage Expression Profiling)法に適用する。したがって、本実施形態に係る判定装置1は、図5に示す構成を有する。
HiCEPの概要を図6を参照して説明する。HiCEPでは、サンプル内のmRNA201が逆転写され種々のcDNA202が合成される。このcDNAの一部である断片DNA203が切り出され、その各々の端に既知の配列であるアダプタ配列204が付加される。このアダプタ配列204が付加された種々の断片DNA203を含むサンプルは、256分割される。その後、アダプタ配列を用いたPCR法が利用されることで、断片DNA203とアダプタ配列204との間に2塩基のセレクション塩基205が挿入されたDNAが増幅され、そこに蛍光色素206が付加される。256分割された分注サンプルは、分注サンプルごとにセレクション配列が異なる。ここで、セレクション配列は、両端に2塩基ずつ、すなわち計4塩基が付加されており、その組み合わせは256通りである。HiCEPでは、256種類の分注サンプルのそれぞれが電気泳動されて、その分注サンプルに含まれる断片DNA203が塩基長ごとに分離され、その量が蛍光色素206を用いて定量される。
上記のようなHiCEPによれば、サンプル中の3万乃至6万種類のmRNAの断片について、それぞれの分子数に係る情報が取得され得る。HiCEPによれば、遺伝子資源を必要とせずに網羅的に高感度に発現プロファイルが再現性高く取得され得る。
HiCEPによって、例えば発現が変動する断片が検出されたらその遺伝子を同定することが求められる。網羅的なDNAシーケンシングには、高スループットな次世代シーケンサが用いられる。次世代シーケンサのうち特にピロリン酸配列決定技法を用いたシーケンシングで発生するホモポリマー問題は、アダプタ配列に隣接したセレクション塩基部分において発生すると、HiCEPを用いた解析に大きな悪影響を与える恐れがある。そこで本実施形態では、セレクション塩基部分において、第2の実施形態に係るSNP等の同定手法を用いる。
本実施形態において実行される処理のフローチャートを図7に示す。演算部30のデータ取得部31は、ステップS301において、配列データを取得する。ここで取得される配列データは、例えば表11に示すようなデータである。この例では、第1の対照配列として配列71乃至配列78が含まれている。また、リファレンス配列としては、配列71乃至78のコンセンサス配列が用いられる。このコンセンサス配列を第1のコンセンサス配列と称することにする。表12において、アダプタ配列の最もリード配列側の2塩基(「TT」)が表中の「アダプタ配列」の列に記載され、アダプタ配列よりもリード配列側の配列が、表中の「リード配列、及びセレクション塩基」の列に記載されている。
Figure 2013226104
演算部30の配列短縮部32は、ステップS302において、第1のコンセンサス配列及び各第1の対照配列について、同一塩基が3塩基以上連続する配列を同一塩基が2塩基連続する配列に短縮する。表11に示した配列の短縮後の配列を表12に示す。配列71乃至78は、それぞれ配列79乃至86のように短縮される。
Figure 2013226104
演算部30の編集距離算出部33は、ステップS303において、短縮前の第1の対照配列について、第1のコンセンサス配列との編集距離を算出する。演算部30の編集距離算出部33は、ステップS304において、短縮前の第1の対照配列の編集距離の平均値を算出する。演算部30の編集距離算出部33は、ステップS305において、短縮後の第2の対照配列について、第1のコンセンサス配列が短縮されて生成された第2のコンセンサス配列に対する編集距離を算出する。演算部30の編集距離算出部33は、ステップS306において、短縮後の第2の対照配列の編集距離の平均値を算出する。
ここで、編集距離は、第2のコンセンサス配列におけるリード配列及びセレクション塩基の最もアダプタ配列に近い5塩基を対象とし、この5塩基に対応する第2の対照配列について算出される。すなわち、表11及び表12の「リード配列、及びセレクション塩基」に示した塩基配列に関して編集距離が算出される。コンセンサス配列と対応する配列に注目するので、例えば配列84乃至86のように、対象となる配列は5塩基とは限らない。編集距離は、表11及び表12に示すとおりとなる。
演算部30のエラー判定部34は、ステップS307において、編集距離の平均値が所定の範囲内であるか否かに応じて、第1の対照配列にSNP等が含まれている可能性があるか否かを判定する。この判定には、例えば上述の表3に示す判定基準が用いられる。すなわち、短縮後の編集距離が0.25以上0.75以下である場合、第1の対照配列にSNP等が含まれている可能性があると判定される。また、短縮後の編集距離が0.75より大きいときでも短縮前の編集距離が0.25以上0.75以下である場合、第1の対照配列にSNP等が含まれている可能性があると判定される。それ以外の場合、差異はリードエラーによるものであると判定される。第1の対照配列にSNP等が含まれている可能性があると判定されたとき、処理はステップS308に進む。差異はリードエラーによるものであると判定されたとき、処理はステップS311に進む。
演算部30のクラスタ決定部35は、ステップS308において、リード配列の最もアダプタ配列側2塩基に基づいて第1の塩基配列を分離した場合にどのように分離されるかを仮定する。本実施形態では、リード配列の最もアダプタ配列側2塩基のみに注目する。これは、この部分にセレクション塩基があり、このセレクション塩基を重要視しているためである。例えば表12の例では、配列79乃至83の「CC」と配列84乃至86の「CG」との2種類があるので、クラスタ決定部35は、配列79乃至86は配列79乃至83が含まれるクラスタと配列84乃至86が含まれるクラスタとの2つに分離されると仮定する。
演算部30のエラー判定部34は、ステップS309において、第1の対照配列が2つに分離された場合に各クラスタに含まれる配列の数が所定の範囲内であるか否かに応じて、第1の対照配列にSNP等が含まれている可能性があるか否かを判定する。例えば、2つのクラスタに分離されたときに、両クラスタ内の配列数がそれぞれ全配列数の33%以上67%以下であるとき、第1の対照配列にSNP等が含まれていると判定される。この判定は、第1の対照配列を同一配列ごとにグループ分けした場合、最も多くの配列が含まれるグループの配列数が全配列数の66%以下であり、かつ、2番目に多くの配列が含まれるグループの配列数が全配列数の33%以上である場合に、SNP等が含まれていると判定されるように変更されてもよい。それ以外の場合、配列の差異はリードエラーによるものであると判定される。第1の対照配列にSNP等が含まれていると判定されたとき、処理はステップS310に進む。配列の差異はリードエラーによるものであると判定されたとき、処理はステップS311に進む。
表12に示す例では、配列79乃至83が含まれるクラスタ内の配列数は5であり、全配列数である8の62.5%である。一方、配列84乃至86が含まれるクラスタ内の配列数は3であり、全配列数である8の37.5%である。したがって、第1の対照配列にSNP等が含まれていると判定され処理は、ステップS310に進む。
演算部30のクラスタ作成部35は、ステップS311において、第1の対照配列を、ステップS308で仮定したクラスタに分離し、2つのクラスタを作成する。演算部30は、作成したクラスタに係る情報を出力部43に出力し、記録等させる。その後処理は終了する。
演算部30のクラスタ決定部35は、ステップS311において、第1のコンセンサスと第1の対照配列との差異は、リードエラーによるものであると結論する。演算部30は、第1のコンセンサスと第1の対照配列との差異はリードエラーによるものである旨を出力部43に出力し、記録等させる。その後処理は終了する。
本実施形態によれば、HiCEPを用いた解析においても問題となるホモポリマー問題が解消され、HiCEPにおいて重要であるセレクション塩基部分のクラスタリングが正確に行われる。なお、本実施形態は、HiCEPに限らず、アダプタ配列を用いる他の解析においても同様に用いられ得る。
[第4の実施形態]
本発明の第4の実施形態について説明する。ここでは、第1の実施形態との相違点について説明し、同一の部分については、同一の符号を付してその説明を省略する。本実施形態では、第1の実施形態におけるステップS103の処理と同様に、同一塩基が3塩基以上連続する配列をその塩基が2塩基連続した配列に短縮変換された第2の塩基配列を作成し、この第2の塩基配列に基づいて、既知のクラスタリング処理を行う。
本実施形態によれば、同一塩基が連続する配列が短縮され、塩基長が短くなるのでクラスタリングの効率が向上する。また、同一塩基が連続する配列が短縮され、ホモポリマー問題が解消されるので、クラスタリングの精度が向上する。
なお、本実施形態は、HiCEPで得られたサンプルに係るシーケンシング結果に適用してもよい。HiCEPに係るデータの場合、アダプタ配列によって断片長が揃っているので、よいクラスタリング結果が得られ、本実施形態は特に効果を奏する。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除しても、発明が解決しようとする課題の欄で述べられた課題が解決でき、かつ、発明の効果が得られる場合には、この構成要素が削除された構成も発明として抽出され得る。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
1…クラスタ決定装置、11…マザーボード、12…CPU、13…メインメモリ、14…ハードディスクドライブ(HDD)、15…入力装置、16…出力装置、17…記録媒体インターフェース(I/F)、18…通信インターフェース(I/F)、30…演算部、31…データ取得部、32…配列短縮部、33…編集距離算出部、34…分離判定部、35…クラスタ決定部、41…記録部、42…ネットワーク、43…出力部、101…記録媒体、102…ネットワーク、201…RNA、202…cDNA、203…断片DNA、204…アダプタ配列、205…セレクション塩基、206…蛍光色素。

Claims (11)

  1. 第1のリファレンス配列と、前記第1のリファレンス配列と相同性を有する複数の第1の対照配列との差異が、前記第1の対照配列の変異によるものかシーケンシングのリードエラーによるものかを判定することをコンピュータに実行させるためのプログラムであって、
    各々の前記第1の対照配列の同一塩基が所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して各々の第2の対照配列を作成することと、
    前記第1のリファレンス配列の同一塩基が前記所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して第2のリファレンス配列を作成することと、
    前記第2のリファレンス配列に対する各々の前記第2の対照配列の編集距離である複数の短縮後編集距離を算出することと、
    複数の前記短縮後編集距離の平均値である短縮後平均値を算出することと、
    前記短縮後平均値に基づいて、前記差異が前記変異によるものであるか前記リードエラーによるものであるかを判定することと、
    をコンピュータに実行させるためのプログラム。
  2. 前記第1のリファレンス配列に対する各々の前記第1の対照配列の編集距離である複数の短縮前編集距離を算出することと、
    複数の前記短縮前編集距離の平均値である短縮前平均値を算出することと、
    をさらにコンピュータに実行させ、
    前記判定することは、前記短縮前平均値と前記短縮後平均値との関係に基づいて、前記差異が前記変異によるものであるか前記リードエラーによるものであるかを判定することとである、
    請求項1に記載のプログラム。
  3. 前記判定することは、前記短縮後平均値が所定の平均値範囲であるとき、又は、前記短縮後平均値が前記平均値範囲よりも大きくて且つ前記短縮前平均値が前記平均値範囲であるとき、前記差異が前記変異によるものであると判定することである、請求項2に記載のプログラム。
  4. 前記判定することは、
    第1の条件である、前記短縮後平均値が所定の平均値範囲であること、又は、前記短縮後平均値が前記平均値範囲よりも大きくて且つ前記短縮前平均値が前記平均値範囲であることと、
    第2の条件である、全ての前記第1の対照配列の数に対する、前記第2のリファレンス配列と前記第2の対照配列とに差異がある前記第2の対照配列の数の割合が所定の配列数範囲であることと、
    を共に満たすとき、前記差異が前記変異によるものであると判定することである、請求項2に記載のプログラム。
  5. 前記所定塩基数は2である、請求項1乃至4のうち何れか1項に記載のプログラム。
  6. 前記平均値範囲は、0.5を含む範囲である、請求項3又は4に記載のプログラム。
  7. 前記配列数範囲は、50%を含む範囲である、請求項4に記載のプログラム。
  8. 前記第1のリファレンス配列は、前記第1の対照配列の同一性に基づいて得られるコンセンサス配列である、請求項1乃至7のうち何れか1項に記載のプログラム。
  9. 前記差異が前記変異によるものであると判定されたとき、複数の前記第1の対照配列を前記差異に応じてクラスタリングすることをさらにコンピュータに実行させる、請求項1乃至8のうち何れか1項に記載のプログラム。
  10. 前記第1の対照配列は、HiCEPで用いられる2つのアダプタ配列に挟まれる塩基配列であり、
    前記短縮後編集距離を算出することは、前記アダプタの端を基準として所定の数の塩基について前記第2のリファレンス配列に対する各々の前記第2の対照配列の編集距離である複数の短縮後編集距離を算出することであり、
    前記短縮前編集距離を算出することは、前記短縮後編集距離を算出した塩基配列に対応する前記第1のリファレンス配列に対する各々の前記第1の対照配列の編集距離である複数の短縮前編集距離を算出することである、
    請求項2乃至9のうち何れか1項に記載のプログラム。
  11. 第1のリファレンス配列と、前記第1のリファレンス配列と相同性を有する第1の対照配列との差異が、前記第1の対照配列の変異によるものかシーケンシングのリードエラーによるものかを判定することをコンピュータに実行させるためのプログラムであって、
    前記第1の対照配列の同一塩基が所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して各々の第2の対照配列を作成することと、
    前記第1のリファレンス配列の同一塩基が前記所定塩基数以上連続する配列をこの同一塩基が前記所定塩基数連続する配列に置換して第2のリファレンス配列を作成することと、
    前記第2のリファレンス配列に対する前記第2の対照配列の編集距離を算出することと、
    前記編集距離に基づいて、前記差異が前記変異によるものであるか前記リードエラーによるものであるかを判定することと、
    をコンピュータに実行させるためのプログラム。
JP2012101755A 2012-04-26 2012-04-26 塩基配列のリードエラーを判定するためのプログラム Expired - Fee Related JP5414130B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2012101755A JP5414130B2 (ja) 2012-04-26 2012-04-26 塩基配列のリードエラーを判定するためのプログラム
PCT/JP2013/062426 WO2013162010A1 (ja) 2012-04-26 2013-04-26 塩基配列のリードエラーを判定する方法
CA2871582A CA2871582A1 (en) 2012-04-26 2013-04-26 Method for determining read error of base sequence
AU2013253336A AU2013253336A1 (en) 2012-04-26 2013-04-26 Method for determining read error in nucleotide sequence
EP13782493.4A EP2843576A4 (en) 2012-04-26 2013-04-26 METHOD FOR DETERMINING READING ERRORS IN A NUCLEOTIDE SEQUENCE
US14/523,532 US20160171151A1 (en) 2012-04-26 2014-10-24 Method for determining read error in nucleotide sequence

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012101755A JP5414130B2 (ja) 2012-04-26 2012-04-26 塩基配列のリードエラーを判定するためのプログラム

Publications (2)

Publication Number Publication Date
JP2013226104A true JP2013226104A (ja) 2013-11-07
JP5414130B2 JP5414130B2 (ja) 2014-02-12

Family

ID=49483306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012101755A Expired - Fee Related JP5414130B2 (ja) 2012-04-26 2012-04-26 塩基配列のリードエラーを判定するためのプログラム

Country Status (6)

Country Link
US (1) US20160171151A1 (ja)
EP (1) EP2843576A4 (ja)
JP (1) JP5414130B2 (ja)
AU (1) AU2013253336A1 (ja)
CA (1) CA2871582A1 (ja)
WO (1) WO2013162010A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015146852A1 (ja) * 2014-03-24 2015-10-01 株式会社 東芝 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム
WO2017179946A1 (ko) * 2016-04-15 2017-10-19 서울대학교산학협력단 초병렬 시퀀싱의 오류 확인방법 및 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3163512A1 (en) * 2015-10-30 2017-05-03 Thomson Licensing Data processing apparatus and method for recovering a correct code symbol sequence from multiple incorrect copies

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008108297A1 (ja) * 2007-03-02 2008-09-12 Research Organization Of Information And Systems 相同性検索システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1877576B1 (en) 2005-04-12 2013-01-23 454 Life Sciences Corporation Methods for determining sequence variants using ultra-deep sequencing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008108297A1 (ja) * 2007-03-02 2008-09-12 Research Organization Of Information And Systems 相同性検索システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6013051255; '2:HiCEP Peak Database - NGSeq (PeakDB NGS)' インターネット , 20130328 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015146852A1 (ja) * 2014-03-24 2015-10-01 株式会社 東芝 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム
JPWO2015146852A1 (ja) * 2014-03-24 2017-04-13 株式会社東芝 基準ゲノムデータを生成する方法、装置及びプログラム、差分ゲノムデータを生成する方法、装置及びプログラム、データを復元する方法、装置及びプログラム
WO2017179946A1 (ko) * 2016-04-15 2017-10-19 서울대학교산학협력단 초병렬 시퀀싱의 오류 확인방법 및 장치

Also Published As

Publication number Publication date
AU2013253336A1 (en) 2014-11-20
CA2871582A1 (en) 2013-10-31
EP2843576A4 (en) 2015-12-02
WO2013162010A1 (ja) 2013-10-31
US20160171151A1 (en) 2016-06-16
JP5414130B2 (ja) 2014-02-12
EP2843576A1 (en) 2015-03-04

Similar Documents

Publication Publication Date Title
Liu et al. Interrogating the “unsequenceable” genomic trinucleotide repeat disorders by long-read sequencing
US10984887B2 (en) Systems and methods for detecting structural variants
Lu et al. Oxford Nanopore MinION sequencing and genome assembly
Ji et al. RNA‐seq: Basic bioinformatics analysis
Guo et al. Three-stage quality control strategies for DNA re-sequencing data
Heo et al. BLESS: bloom filter-based error correction solution for high-throughput sequencing reads
Neuman et al. Analysis of insertion–deletion from deep-sequencing data: software evaluation for optimal detection
Ledergerber et al. Base-calling for next-generation sequencing platforms
Łabaj et al. Characterization and improvement of RNA-Seq precision in quantitative transcript expression profiling
Clark et al. Performance comparison of exome DNA sequencing technologies
Mysara et al. From reads to operational taxonomic units: an ensemble processing pipeline for MiSeq amplicon sequencing data
DK2823062T5 (en) SIZE-BASED ANALYSIS OF Fetal DNA FRACTION IN MOTHER PLASMA
King et al. Increasing the discrimination power of ancestry-and identity-informative SNP loci within the ForenSeq™ DNA Signature Prep Kit
US20220101944A1 (en) Methods for detecting copy-number variations in next-generation sequencing
WO2017143585A1 (zh) 对分隔长片段序列进行组装的方法和装置
JP2020534011A (ja) 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
Manching et al. Phased genotyping-by-sequencing enhances analysis of genetic diversity and reveals divergent copy number variants in maize
Mao et al. RefShannon: A genome-guided transcriptome assembler using sparse flow decomposition
JP5414130B2 (ja) 塩基配列のリードエラーを判定するためのプログラム
Webb et al. SNPLINK: multipoint linkage analysis of densely distributed SNP data incorporating automated linkage disequilibrium removal
Tárraga et al. A parallel and sensitive software tool for methylation analysis on multicore platforms
Cai et al. De novo genome assembly of a Han Chinese male and genome-wide detection of structural variants using Oxford Nanopore sequencing
Konno et al. Computer-based methods for the mouse full-length cDNA encyclopedia: real-time sequence clustering for construction of a nonredundant cDNA library
Liu et al. iMapSplice: Alleviating reference bias through personalized RNA-seq alignment
Dankó et al. SplicingFactory—splicing diversity analysis for transcriptome data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130730

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130730

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20130809

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20131009

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131111

R150 Certificate of patent or registration of utility model

Ref document number: 5414130

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees