JP2021101629A5 - - Google Patents

Download PDF

Info

Publication number
JP2021101629A5
JP2021101629A5 JP2019233587A JP2019233587A JP2021101629A5 JP 2021101629 A5 JP2021101629 A5 JP 2021101629A5 JP 2019233587 A JP2019233587 A JP 2019233587A JP 2019233587 A JP2019233587 A JP 2019233587A JP 2021101629 A5 JP2021101629 A5 JP 2021101629A5
Authority
JP
Japan
Prior art keywords
ancestry
human
nucleic acid
genome
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2019233587A
Other languages
Japanese (ja)
Other versions
JP2021101629A (en
Filing date
Publication date
Application filed filed Critical
Priority to JP2019233587A priority Critical patent/JP2021101629A/en
Priority claimed from JP2019233587A external-priority patent/JP2021101629A/en
Publication of JP2021101629A publication Critical patent/JP2021101629A/en
Publication of JP2021101629A5 publication Critical patent/JP2021101629A5/ja
Ceased legal-status Critical Current

Links

Images

Description

本特許出願はヒトの核酸サンプルのゲノム解析および遺伝子解析に用いるシステムおよび方法に関する。 This patent application relates to systems and methods for genomic and genetic analysis of human nucleic acid samples.

<次世代シーケンシング(以下「NGS」ともいう)>
ハイスループットシーケンシングとも知られている次世代シーケンシングは、当業者にはよく知られた核酸断片のハイスループットかつパラレルシーケンシングのありふれた方法である。次世代シーケンシングの装置およびシステムは様々なサプライヤから商業的に手に入れることができる(www.illumina.com参照)。
<Next generation sequencing (hereinafter also referred to as “NGS”)>
Next-generation sequencing, also known as high -throughput sequencing, is a common method of high -throughput, parallel sequencing of nucleic acid fragments familiar to those skilled in the art. Next-generation sequencing equipment and systems are commercially available from a variety of suppliers (see www.illumina.com).

次世代シーケンシングは次のシーケンシング技術を含む多くの異なる最新のシーケンシング技術を表すのに用いる意味の広い語である。
・ イルミナ(ソレクサ)シーケンシング(登録商標)
・ イオン トレント:プロトン/PGMシーケンシング(登録商標)
・ SOLiDシーケンシング(登録商標)
Next-generation sequencing is a broad term used to describe many different modern sequencing technologies, including the following sequencing technologies.
・ Illumina (Solexa) Sequencing (registered trademark)
・ Ion Torrent: Proton/PGM Sequencing (registered trademark)
・ SOLiD Sequencing (registered trademark)

NGS技術は高品質のDNA配列(「リード」)を作る。NGS技術により作られたリードは、フレデリック・サンガーおよび彼の同僚によって1977年に開発されたキャピラリ電気泳動によるサンガーシーケンシング技術で作られるリード(650-1000 bp)よりも短い。サンガーシーケンシング技術は約30年の間最も広く用いられていた方法であった。サンガーシーケンシング技術により作られるリードはスループットが低くまたコストが高い。一方、NGS法に作られるリードはいずれもはるかに短く、そのコストはあまり高くない。しかしながら、NGSの一回の実行で配列決定される塩基対の全数は数桁大きい。これらの2つの要因により、このような数百万または数十億にものぼる短いNGSリードを処理する能力を含む新しい情報学の課題をもたらす。配列決定された複数のリードは通常二つの方法のうちの一つの方法により処理される。すなわち、これらもリードは既にあるバックボーン/参照配列の正しい位置にマッピングして、バックボーンと必ずしも同一ではないが同様な配列を作るか(「リードマッピング」と呼ぶ)、または、これらのリードを繋いで新しい配列(「デノボ(de novo)アセンブリ」と呼ぶ)にするかである。 NGS technology produces high quality DNA sequences (“reads”). Reads generated by NGS technology are shorter than those generated by Sanger sequencing technology by capillary electrophoresis (650-1000 bp) developed in 1977 by Frederick Sanger and his colleagues. Sanger sequencing technology has been the most widely used method for about 30 years. Reads generated by Sanger sequencing technology have low throughput and high cost. On the other hand, the leads made by the NGS method are all much shorter and the cost is not very high. However, the total number of base pairs sequenced in a single run of NGS is orders of magnitude larger. These two factors pose new informatics challenges, including the ability to process millions or even billions of such short NGS reads. Sequenced reads are usually processed in one of two ways. That is, either these reads are mapped to the correct position in an existing backbone /reference sequence to create a sequence that is similar, but not necessarily identical, to the backbone (referred to as "read mapping"), or these reads are spliced together. Either a new array (called "de novo assembly").

デノボアセンブリとは対照的に、基準ゲノムに戻すリードマッピングの主要な利点は、ゲノム推定の工程を極めて単純にすることである。アセンブリではすべてのゲノム配列を見つける必要があり、多くの曖昧さを生じる一方基準配列に基づくリシーケンスでは基準配列と試料の差を見つければよいだけである。複雑さおよび必要な時間を考えると、デノボアセンブリの場合、マッピングアセンブリに比べて、その処理速度は数桁遅く、より多くのメモリを必要とする。 A major advantage of read mapping back to the reference genome, as opposed to de novo assembly, is that it greatly simplifies the process of genome prediction. Assembly requires finding all genome sequences, which creates a lot of ambiguity , whereas resequencing based on a reference sequence only needs to find differences between the reference sequence and the sample. Given the complexity and time required, de novo assembly is several orders of magnitude slower and requires more memory than mapping assembly.

リードマッピングは、NGS解析パイプラインにおける第一のまた最も基本的なステップであり、既に配列決定されたヒトの基準ゲノムを基準として新たに配列決定されたヒトのゲノム(または、エクソームもしくはターゲットとする遺伝子の小部分のような、新たに配列決定されたヒトのゲノムの断片)の相違部分を見つけることを目的とするステップである。 Read mapping is the first and most fundamental step in the NGS analysis pipeline, where a newly sequenced human genome (or exome or targeted A step aimed at finding differences in newly sequenced fragments of the human genome, such as fragments of genes.

さらにリードマッピングを用いて数百万または数十億の短いNGSリードを配列して、NGSの実験およびその実験から得られる結論の重要な品質パラメータであるカバレッジ(特定の位置/遺伝子座にあるリードの数)を決める。 In addition, read mapping is used to sequence millions or billions of short NGS reads to determine coverage (reads at a particular location/locus), an important quality parameter for NGS experiments and the conclusions drawn from those experiments. number).

<ヒト基準ゲノム(以下「HRG」ともいう)>
民間会社であるセレラジェノミクスとの共同のアメリカ合衆国連邦政府の試みである、ヒトゲノムプロジェクトは、2001年2月に、すべてのヒトゲノムのドラフトを完成した。このドラフトはその後何度か改訂された(Lander et al. 2001, Venter et al. 2001, Church et al. 2011参照)。多年にわたって、ゲノムアセンブリは着実に進歩し、新しいバージョン(「ビルド」)が次々リリースされ、最新のゲノムレファランスコンソーティアム(GRC)のヒトゲノムアセンブリであるGRCh38(Schneider et al. 2017参照)が、ほぼ間違いなく、存在するアセンブルされた最もよい哺乳類のゲノムである。GRCh38の残っているアセンブリのギャップは875だけであり、特定されていない「N」ヌクレオチドは1億6千万より少ない(GRCh38以降、p8)。一方、最初のバージョンは約15万のギャップがあった(Editorial (October 2010). "E pluribus unum". Nature Methods. 7 (5): 331. doi:10.1038/nmeth0510-331参照)。
<Human reference genome (hereinafter also referred to as “HRG”)>
The Human Genome Project, a United States federal government effort in collaboration with the private company Celera Genomics , completed a draft of the entire human genome in February 2001. This draft has since been revised several times (see Lander et al. 2001, Venter et al. 2001, Church et al. 2011). Over the years, genome assembly has made steady progress, with new versions (“builds”) being released one after another, and the latest Genome Reference Consortium (GRC) human genome assembly, GRCh38 (see Schneider et al. 2017), has been largely inaccurate. It is the best assembled mammalian genome that exists. GRCh38 has only 875 remaining assembly gaps, with fewer than 160 million unspecified 'N' nucleotides (GRCh38 onwards, p8). On the other hand, the first version had about 150,000 gaps (see Editorial (October 2010). "E pluribus unum". Nature Methods. 7 (5): 331. doi:10.1038/nmeth0510-331).

HRGは今日ヒトの遺伝学およびゲノミクスにおいても唯一の最も重要な資源である。HRGは宇宙の座標システムのように働き、そのため空間であり、その中でアノテーション(遺伝子、プロモータ等)および遺伝的変異が説明される(Harrow et al. 2012; ENCODE, 2012; 1000 Genomes Project Consortium, 2012参照)。また、HRGは次世代シーケンシング解析のパイプラインにおけるリードアライメントのステップで基準となり、このマッピングの下流では、HRGはファンクショナルアッセイおよび変異特定処理(バリアントコーリング)パイプライン用に用いられる(Li H & Durbin 2009; DePristo et al., 2011参照)。 HRG is also the single most important resource in human genetics and genomics today. The HRG acts like a cosmic coordinate system and is therefore a space in which annotations (genes, promoters , etc.) and genetic variation are accounted for (Harrow et al. 2012; ENCODE, 2012; 1000 Genomes Project Consortium , 2012). HRG is also the reference for the read alignment step in the next-generation sequencing analysis pipeline, and downstream of this mapping, HRG is used for functional assays and variant calling pipelines (Li H & Durbin 2009; DePristo et al., 2011).

HRGの最初の型はニューヨーク州のバッファローのボランティアの主として欧州人の起源(Snyder et al参照)の匿名の13人のDNAドナーからなる小さな群からの複数のDNA配列からなるものであった。ドナーは1997年3月23日(日曜日)のバッファローニュースで募集した。最初の10人の男性と10人の女性が招かれてプロジェクトの遺伝カウンセラーと会い、血液を提供し、提供された血液からDNAが抽出された。これらのDNAサンプルが処理された方法によって、基準ゲノムの約80%は8人の人からのものである。RP11と指定された一人の男性のDNAサンプルが全基準ゲノムの66%を構成する。 The first type of HRG consisted of multiple DNA sequences from a small group of 13 anonymous DNA donors of predominantly European origin (see Snyder et al) volunteers in Buffalo, NY. Donors were solicited in the Buffalo News on Sunday, March 23, 1997. The first 10 men and 10 women were invited to meet with the project's genetic counselors, donate blood, and DNA was extracted from the donated blood. Due to the way these DNA samples were processed, approximately 80% of the reference genomes are from 8 individuals. A single male DNA sample, designated RP11, constitutes 66% of the total reference genome.

より大きな集合の問題、例えば大規模な重複部分と構造的な変位部分を含む複雑な領域を特定し、決定するため、新しいゲノムマッピング技術からの配列データおよび新しいドナーからの単一のハプロタイプの資源を最新のビルドに投入されてきた。本出願の出願時において、GRCh38は50人の異なる人間からの配列を含む(http://www.bio-itworld.com/2013/4/22/church-on-reference-genomes-past-present-future.html参照)。 A resource of sequence data from new genome mapping techniques and single haplotypes from new donors to identify and determine complex regions containing large-scale duplications and structural variations of larger population problems, e.g. has been put into the latest build. At the time of filing of this application, GRCh38 contains sequences from 50 different humans (http://www.bio-itworld.com/2013/4/22/church-on-reference-genomes-past-present- future.html).

HRGの限界
1. HRGは直線状である。
ヒトのDNAはすべて染色体と呼ばれる物理的に分離された複数のユニットに担持される。ヒトは2組の遺伝情報を含む2倍体生物であり、一組は母親から受け継ぎ、もう一組は父親から受け継いでいる。その結果、体細胞の各々は22対の常染色体と呼ばれる染色体(各対の一方の染色体は一方の親からのもの)と2つの性染色体(男性はX染色体とY染色体を有し、女性は2本のX染色体を有する)。各染色体は単一の極めて長い線状のDNA分子を含む。ヒトの最小の染色体中のDNA分子は約5千万のヌクレオチド対からなり、ヒトの最大の染色体は約2億5千万のヌクレオチド対を含む。
Limitations of HRG 1. HRG is linear.
All human DNA is carried in physically discrete units called chromosomes. Humans are diploid organisms containing two sets of genetic information, one set inherited from the mother and one set inherited from the father. As a result, each somatic cell has 22 pairs of chromosomes called autosomes (one chromosome of each pair is from one parent) and two sex chromosomes (males have an X and a Y chromosome; females have have two X chromosomes). Each chromosome contains a single, very long, linear DNA molecule. The DNA molecule in the smallest human chromosome consists of about 50 million nucleotide pairs, and the largest human chromosome contains about 250 million nucleotide pairs.

2倍体のヒトゲノムは、このように24個の異なるタイプからなる46本の単一DNA分子からなる。ヒト染色体はほとんど同一の対で存在しているので、代表的なヒトゲノムについての完全な情報を得るには30億個のヌクレオチド対(ハプロイドゲノム)の配列を決定する必要がある。大部分のヒト細胞60億個のヌクレオチド対を含むが、このようにヒトゲノムは30億個のヌクレオチド対を含むと言われている。ヒトハプロイドゲノムは22本の常染色体とY染色体およびX染色体からなる。 The diploid human genome thus consists of 46 single DNA molecules of 24 different types. Since human chromosomes exist in nearly identical pairs, it is necessary to sequence 3 billion nucleotide pairs (the haploid genome) to obtain complete information about a typical human genome . The human genome is thus said to contain 3 billion nucleotide pairs, whereas most human cells contain 6 billion nucleotide pairs. The human haploid genome consists of 22 autosomes plus Y and X chromosomes.

すべての染色体のそれぞれは単一のDNA分子、すなわち連続する数百万のヌクレオチド塩基に相当する。これらのDNA分子は線状であり、各染色体は単一の連続する/線状の核酸の配列に相当すると考えるかもしれない。残念ながら、これは次の2つの理由により正しくない。
(1)ゲノムDNAの性質および配列決定の限界のため、ゲノムのいくつかの部分の配列は決定されていないままである。
(2)ゲノムの領域の中には個人間での変化が極めて大きいため、単一の連続した配列として表すことができない領域がある。
しかし、HRGは通常の塩基(A、C,TおよびG)からなり、集合体中のギャップの位置を明示する連続する複数の「N」として表されるギャップを有する24個の線状の配列として表される。
Each of all chromosomes corresponds to a single DNA molecule, ie millions of contiguous nucleotide bases. One might think that these DNA molecules are linear and that each chromosome corresponds to a single contiguous/linear sequence of nucleic acids. Unfortunately, this is incorrect for two reasons.
(1) Due to the nature of genomic DNA and the limitations of sequencing, some parts of the genome remain unsequenced.
(2) Some regions of the genome vary so much between individuals that they cannot be represented as a single continuous sequence.
However, HRG consists of regular bases (A, C, T and G) and is a linear sequence of 24 with gaps denoted as consecutive multiple 'N's that mark the positions of the gaps in the assembly. is represented as

ヒトゲノムプロジェクトの主目標は確定できていない領域はあるものの単一の代表的な配列を作ること、すなわち物理的な染色体の各々に対して単一のスキャフォールドを作ることであった。ヒトゲノムプロジェクトは、さらに対立遺伝子変異(SNP遺伝子座に存在する複数の異なる種類のDNA塩基はアレルと呼ぶ)を表す少量の代わりのスキャフォールドを含んでいた。しかし、これらの代わりのスキャフォールドは主スキャフォールドと正式な関係を有していなかった。単一の基準配列がいくつかの極めて多様な形を有するヒトゲノムの領域を十分に表していないことがわかると、高変異領域の代表的代替版を導入する正式なモデルがGRCh37(Church et al. 2011参照)を皮切りに加えられた。千塩基から数百万塩基の「alternate locus scaffolds (並列して記載する登録配列とは異なるスキャフォールド配列)」の形の配列が「プライマリー」(ハプロイド)アセンブリに関連して、プライマリースキャフォールドに沿って付されて、説明された。本出願の出願時におけるこのアセンブリ(GRCh38、p9)中では、これらの配列が178の領域と全部で261の線状の配列を占めている(Paten et al. 2017参照) The main goal of the Human Genome Project was to create a single representative sequence, with some regions of uncertainty, ie a single scaffold for each physical chromosome. The Human Genome Project also included a small amount of alternative scaffolds representing allelic variations (multiple different types of DNA bases present at a SNP locus are called alleles). However, these alternate scaffolds had no formal relationship with the primary scaffold. When it was found that a single reference sequence did not adequately represent regions of the human genome with some highly diverse forms, a formal model for introducing representative alternatives for hypermutable regions was GRCh37 (Church et al. 2011) was added as a start . Sequences in the form of "alternate locus scaffolds " of a thousand bases to several million bases are associated with "primary" (haploid) assembly along the primary scaffold. attached and explained. In this assembly (GRCh38, p9) at the time of filing of this application, these sequences occupy 178 regions and a total of 261 linear sequences (see Paten et al. 2017).

複雑にしているもう一つの要因は、HRGは国際的なゲノム配列決定プロジェクトで複数の匿名の個人のDNAの集合から推定されることである。そのため、結果としてできたHRGは、実際はランダムに混ざった集合体、すなわち複数の異なる1倍体のDNA配列の寄せ集めであり、単一の線状の配列として代表するものとすることができない場合があることである。 Another complicating factor is that HRGs are inferred from pools of DNA from multiple anonymous individuals in international genome sequencing projects. Thus, the resulting HRG is in fact a randomly mixed conglomerate, a collection of multiple different haploid DNA sequences that cannot be represented as a single linear sequence. There is

2.HRGは間違いなく病気と無縁ではない
チェンとブッテは15個の稀な変異(メジャーアレル頻度<1%)を含むHRG中に3556個の病気にかかりやすくなる変異を特定した(2011年)。キュレーション(専門家による編集作業)された高品質の定量的なヒトの病気のSNPに関するデータからなるデータベースを用いて、著者らは基準ゲノムの場合に健康な人々が104の病気にかかるリスクが増大する可能性について調べた。その結果、1型の糖尿病、高血圧および他の疾患のリスクが高いことがわかった。このことは、HRGは普通の人を代表するものではなく、病気と無縁ではないことは間違いないことの証拠である。HRGはヒトのゲノムの配列決定の成果の分析を著しく加速させたが、基準ゲノムと異なる変異に集中すると稀な変異を含む病気を引き起こす多くの変異を見逃す可能性が高い(Chen & Butte 2011参照)。
2. HRG is definitely not disease-free Chen and Butte (2011) identified 3556 disease-predisposing mutations in HRG, including 15 rare mutations (major allele frequency <1%). Using a curated database of high-quality, quantitative human disease SNP data, the authors found that healthy people were at risk of developing 104 diseases for the reference genome. We investigated the possibility of increasing The results showed an increased risk of type 1 diabetes, hypertension and other diseases. This is evidence that HRG is definitely not representative of the average person and is not immune to disease. Although HRG has significantly accelerated the analysis of sequencing efforts in the human genome, focusing on variants that differ from the reference genome is likely to miss many disease-causing variants, including rare variants (see Chen & Butte 2011). ).

3.基準アレルの欧州人の祖先よりのバイアス
従来技術のNGS解析パイプラインでHRGのアセンブリを用いることの主要な課題は、このようなHRGが欧州人の祖先よりのバイアスを有する比較的少数の匿名のドナーのDNAサンプルから抽出され、そのためヒト遺伝子の多様性からなる大きな群からの少量のサンプルを代表しているという事実である。
3. Reference allele bias over European ancestry A major challenge in using HRG assembly in prior art NGS analysis pipelines is the relatively small number of anonymous individuals whose HRGs have a bias over European ancestry. The fact that it is extracted from a donor's DNA sample and thus represents a small sample from a large group of human genetic diversity.

大多数のゲノムを表す座標系としての基準ゲノムは比較的有効であり比較的広く存在するものであるが、HRGを用いてそれにしたがって他のすべてのヒトのゲノムの研究するための用いることは極めて多くの人間の多様性を排除し、広範な基準アレルにバイアスを導入するという懸念が大きい(Petrovski et al. 2016, Paten et al. 2017参照)。基準アレルのバイアスとは、基準ゲノム中に存在するアレルは強調されて報告され、基となるDNAが基準アレルと合致しない他のアレルは抑制的に報告される傾向である(Degner et al. 2009, Brandt et al. 2015参照)。 Although the reference genome as a coordinate system representing the majority of genomes is relatively valid and relatively widespread, the use of HRGs to study all other human genomes accordingly is extremely unlikely. It is of great concern that it eliminates much human variability and introduces bias into the broad canonical allele (see Petrovski et al. 2016, Paten et al. 2017). Reference allele bias is the tendency for alleles present in the reference genome to be reported with emphasis and other alleles whose underlying DNA does not match the reference allele to be suppressed (Degner et al. 2009). , Brandt et al. 2015).

このバイアスは主に配列を再決定するときにリードをマッピングおよびアライメントステップの時に生じる。マッピングを正しく行うには、複数のリードが基準ゲノム中で表されていて、しかも同じゲノム要素として特定される基準配列と十分に似ているゲノム配列から得られたものでなければならない。これらの条件が満たされない場合、マッピングの誤りによって規則的に真の配列と相違が生じてしまう(Paten et al. 2017参照)。各遺伝子座のバイアスが生じている基準ゲノムの祖先の歴史によるが、基準アレルのバイアスは特定の遺伝的な部分集合の人々には他の人たちに比べて、また特定のゲノムの領域には他の領域に比べて影響する可能性がある(Petrovski et al. 2016, Paten et al. 2017]参照)。HLA遺伝子のように極めて多型の領域は、具体的に単一の基準ゲノムがNGSリードを位置決めするためのインデックスとして用いられる場合、特に基準アレルのバイアスの影響を受けやすい(Nielsen et al. 2011参照)。このような場合、真の変異の多くはインデックスとして用いられるゲノムと異なるハプロタイプで存在するので、これらを特定することができない。したがって、このような領域で作られたリードはアライメントされずに失われる(Brandt et al. 2015参照)。 This bias occurs mainly during the read mapping and alignment steps when re-sequencing. For proper mapping, multiple reads must be represented in the reference genome and must be from genomic sequences sufficiently similar to the reference sequence to be identified as the same genomic element. If these conditions are not met, errors in mapping regularly diverge from the true sequence (see Paten et al. 2017). Depending on the ancestry history of the reference genome in which each locus is biased, reference allele biases may be biased in people of certain genetic subsets relative to others, and in certain regions of the genome. It may have more impact than other regions (see Petrovski et al. 2016, Paten et al. 2017]). Highly polymorphic regions, such as HLA genes, are particularly susceptible to reference allele bias, especially when a single reference genome is used as an index to locate NGS reads (Nielsen et al. 2011). reference). In such cases, many of the true mutations cannot be identified because they are present in haplotypes different from the genome used as index. Thus, reads made in such regions are misaligned and lost (see Brandt et al. 2015).

前記したように、基準アレルのバイアスはHRGを用いて変異を見つけるヒトゲノム配列再決定するときの既知の問題であり、基準アレルの修整によって、変異の特定(calling)の精度と解釈を向上させることができる(Fakhro et al. 2016参照)。この問題を緩和させる方法の一つは、基準ゲノムを修整することによってゲノムの解釈工程の初期に変異発生率を修整し、その結果ゲノム中に見つかった変異が集団の中のマイナーアレルになる(Dewey et al., 2011参照)。基準ゲノムに対するこのような修整によって、偽陽性数が減り、解釈しなければならない変異の数が少なくなるので解析ワークフローが簡素化される(Fakhro et al. 2016参照)。 As mentioned above, canonical allele bias is a known problem when resequencing the human genome to find mutations using HRG, and modification of the canonical allele improves the accuracy and interpretation of mutation calling. (see Fakhro et al. 2016). One way to alleviate this problem is to modify the mutation rate early in the genome interpretation process by modifying the reference genome, so that mutations found in the genome become minor alleles in the population. (see Dewey et al., 2011). Such modifications to the reference genome reduce the number of false positives and simplify the analysis workflow by reducing the number of mutations that must be interpreted (see Fakhro et al. 2016).

未来:グラフに基づく基準構造/ゲノムグラフ
単一の1倍体の基準ゲノムはヒトの多様性のうちのほんの少しの部分しか表していないので、ヒトの遺伝学およびゲノム研究用の共通の基準として不十分であるという認識が多くなっている。基準ゲノムに関して簡単に説明することができない変異や注釈がある(Horton et al. 2008, Pei et al. 2012参照)。さらに、単一の1倍体の基準ゲノムをリードマッピングおよびリード解釈の目標とすると、前記したような基準アレルのバイアスを導入してしまう。このような問題を緩和するため、本出願時のヒトゲノムアセンブリ(GRCh38、p9参照)のような最新の基準ゲノムアセンブリは、「alternate locus」配列(「alts」)、すなわち極めて多様な形となると考えられるヒトゲノムの領域の追加の複数の配列表示であり、それらの末端で「プライマリー」(ハプロイド)基準アセンブリー内の位置に付される配列、を含む。そのような構造は、部分的に重複する配列経路を含み、数学的なグラフの形、すなわちゲノムグラフであると考えることができる(Novak et al.2017参照)。
The Future: A Graph-Based Reference Structure/Genome Graph As a common reference for human genetics and genomics research, since the single haploid reference genome represents only a small fraction of human diversity. There is a growing perception that it is inadequate. There are mutations and annotations that cannot be easily explained with respect to the reference genome (see Horton et al. 2008, Pei et al. 2012). Furthermore, targeting a single haploid reference genome for read mapping and interpretation introduces reference allele bias as described above. To alleviate such problems, it is believed that current reference genome assemblies, such as the human genome assembly at the time of filing (GRCh38, see p. 9), will be of " alternate locus " sequences ("alts"), i.e. highly variable. Additional multiple sequence representations of the regions of the human genome that are represented, including sequences attached at their ends to positions within the "primary" (haploid) canonical assembly. Such a structure contains partially overlapping sequence pathways and can be thought of as a form of mathematical graph, the genome graph (see Novak et al. 2017).

グラフは生物学の配列解析の分野で長い間一定の領域を占めており、生物の配列解析ではグラフを用いて可能な配列の集合体」を簡便に表してきた。通常すべての配列はそれら自身をグラフ中の経路として間接的にコード化される。このように配列がコード化されているので、グラフは本来関連する配列の集合体である基準とする集団を表すのに非常に合っている(Paten et al. 2017参照)。グラフはサンプルの概略の配列だけでなく、多くのサンプルの特定の変異を含む。 Graphs have long occupied a niche in the field of biological sequence analysis, and in biological sequence analysis graphs have been used to conveniently represent "collections of possible sequences". Normally all arrays are themselves indirectly encoded as paths in the graph. Because sequences are encoded in this way, graphs are well suited to represent a reference population, which is a collection of naturally related sequences (see Paten et al. 2017). The graph contains not only the approximate sequence of samples, but also the specific mutations of many samples.

ゲノムグラフはリードマッピング、変異特定処理およびハプロタイプ決定を向上させるものと考えられる。グラフに基づく基準が、ヒトと、シーケンスされた個々のコホートが可能である他の用途、において、1次元的な(線状の)基準に取って代わることが期待される(Novak et al. 2017参照)。このようなゲノムグラフを作って用いる様々なプロジェクトが進んでいる。ゲノムグラフは現在複数の共通の変異からなるライブラリから作ることができ、まだ実験段階であるが、グラフに基づく方法の可能性が大きいことを示すツールがある。 Genome graphs are expected to improve read mapping, variant identification processing and haplotyping. Graph-based criteria are expected to replace one-dimensional (linear) criteria in humans and other applications where sequenced individual cohorts are possible (Novak et al. 2017). reference). Various projects are underway to create and use such genome graphs. Genome graphs can now be made from libraries of multiple common mutations, and although still experimental, there are tools that show the potential of graph-based methods.

理論的には有利な点があるものの、ゲノムグラフを用いる変異特定処理の研究はまだその端緒についたばかりである。多くの問題に取り組まなければならない。複製と繰り返しをどのように表すべきか。一致しているか否かはっきりしない複数の短い変異をどのように分類すべきか。グラフを用いてどうやればもっと包括的に多様性を分類することができるか。これらの問題の答えは未来の研究にかかっている。 Despite its theoretical advantages, research into mutation identification using genome graphs is still in its infancy. Many issues must be addressed. How should replication and repetition be represented? How should we classify multiple short mutations that may or may not be concordant? How can we classify diversity more comprehensively using graphs? The answers to these questions depend on future research.

ゲノムグラフが実使用において役立つには見込まれている基準のバイアスが小さいとことにより、確立された方法よりも客観的に変異特定処理を向上させることにつなげなければいけない。したがって、ゲノムグラフ用の変異特定処理のアルゴリズムを開発すること重要な研究の最先端領域となっている。 For genome graphs to be useful in practice, the expected low standard bias must lead to an objective improvement of the variant identification process over established methods. Therefore, developing mutation identification processing algorithms for genome graphs has become an important research frontier.

カタールゲノム(QTRG)
カタールはペルシャ湾岸の半島であり、その総人口は約30万人のカタール市民からなる。カタール人の血族結婚の割合は世界で最も高い部類であり、現在もなお上昇している。カタールにおける人種内の結婚の割合はほぼ100%に近い。大家族であることとともに、このような要因が相まって、カタールの予算の重荷となっている先天的な遺伝病が高い割合で発生している理由である。このような要因があることから、カタール政府は自国民を遺伝病のおそれから守る方策を見つけようとしている(Zayed 2016参照)。
Qatar Genome (QTRG)
Qatar is a peninsula on the Persian Gulf coast, with a total population of about 300,000 Qatari citizens. Qatari consanguineous marriage rates are among the highest in the world and are still rising. The rate of intraracial marriage in Qatar is nearly 100%. These factors, along with large families, explain the high incidence of congenital genetic diseases that weigh heavily on Qatar's budget. Factors such as these have prompted the Qatari government to find ways to protect its citizens from the threat of genetic diseases (see Zayed 2016).

政府の役人は2013年にカタールゲノムプロジェクト(QGP、http://www.gulf-times.com/story/374345/Qatarlaunches-genome-project参照)を始めることを決定した。このプロジェクトの主旨は、病気を起こす変異/稀な変異のマッピングをして、個人の治療となる方策としてカタールヒトのゲノムを確定することによって、高い割合でおきる先天的な遺伝病からカタール人を守るため各カタール市民のゲノム配列を決定することである。このプロジェクトの最終的な目標は得られた情報を臨床診療に応用して、この手法をカタールのヘルスケアシステムの通常作業の一部とすることである(Zayed 2016参照)。QGPの臨床応用を実現するために、変異特定処理を高感度および高精度にすることを含む」いくつかの重要な課題が達成されなければならない(Koboldt 2010参照)。 Government officials decided to launch the Qatar Genome Project (QGP, see http://www.gulf-times.com/story/374345/Qatarlaunches-genome-project) in 2013. The aim of this project is to map the disease-causing/rare mutations and define the Qatari human genome as a therapeutic strategy for individuals, thereby freeing Qatari people from high rates of congenital genetic diseases. The goal is to sequence the genome of each Qatari citizen to protect. The ultimate goal of this project is to apply the information obtained to clinical practice, making this technique part of the routine work of the Qatari healthcare system (see Zayed 2016). In order to realize clinical application of QGP, several important tasks must be achieved, including making the mutation identification process highly sensitive and accurate (see Koboldt 2010).

中東および北アフリカの地域で正確な治療を容易にするため、人口の0.4%を占める1161人のカタール人のすべてのゲノム配列決定からのアレルの頻度データを合体させることによってカタールのアラブ先住の地域住民の集団中の病気研究に特化した集団特有のゲノムが組み立てられた(QTRG)。全部で2090万個の一塩基多型の多型と310万個のInDel(挿入と欠失)がカタールで見つかった。この中には、個々のゲノムについて平均で1.79%の新規の変異が含まれる(Fakhro et al. 2016参照)。 Indigenous Qatari Arabs by combining allele frequency data from genomic sequencing of all 1161 Qatari people, who represent 0.4% of the population, to facilitate accurate treatment in the region of the Middle East and North Africa. A population-specific genome was assembled (QTRG) dedicated to disease studies in populations of the local population of . A total of 20.9 million single nucleotide polymorphisms and 3.1 million InDel (insertions and deletions) were found in Qatar. This includes an average of 1.79% novel mutations per genome (see Fakhro et al. 2016).

1000ゲノムプロジェクト(1kG)
2008年に世界中の少なくとも1000のゲノムの配列を決定し、それらのゲノムからヒトの遺伝的多様性(HRG GRCh37に関する)とヒトのハプロタイプのカタログを作製する1000ゲノムプロジェクトができた(そのため名称が1000ゲノムプロジェクト)。このプロジェクトの現在の第3相解析は26の地域住民集団とそれぞれが4~7の地域住民の集団を縫合した範囲を決めた5つのいわゆる超地域住民集団からの2504人の個人を含む(1000 Genomes Project Consortium et al. 2015参照)。このより小規模でのハプロタイプの資源によって、ゲノムレベルおよび地理的レベルでの遺伝的多様性を理解するのが容易になる(Baye, 2011参照)。
1000 Genomes Project (1kG)
In 2008, the genomes of at least 1000 people worldwide were sequenced, resulting in the 1000 Genomes Project (hence the name 1000 Genomes Project). The current Phase III analysis of this project includes 26 community populations and 2,504 individuals from five so-called super-regional populations, each delimited by stitching four to seven community populations (1000 Genomes Project Consortium et al. 2015). This smaller-scale haplotype resource facilitates understanding of genetic diversity at the genomic and geographic level (see Baye, 2011).

NGS技術の最近の進歩により、DNAおよびRNAの配列決定を迅速かつ廉価でおこなうことができ、その結果ゲノムおよび分子生物学の学問に革命がおきている。健康な集団と病気の集団のゲノム配列決定プロジェクトによって、機能と結びついたゲノムの変異または病気と結びついたゲノムの変異が特定された。これらのゲノムの変異は新しい臨床応用に用いる治療の目標またはゲノムマーカーについての手がかりを与える。 Recent advances in NGS technology have enabled DNA and RNA sequencing to be performed quickly and inexpensively, thereby revolutionizing the discipline of genomics and molecular biology. Genome sequencing projects in healthy and diseased populations have identified functional or disease-linked genomic variants. These genomic variations provide clues about therapeutic targets or genomic markers for new clinical applications.

遺伝子変異特定処理は基準ゲノムに対して複数の未加工のリード配列のアライメントに基づくものであるのが一般的である(リードマッピング)。このアライメントに基づく手法には、多くの制限がある。そのような制限にはゲノムアセンブリが不完全になること(Meyer, L. R. et al., 2013参照)、正常な個々ヒトのゲノム中にも構造的な変化があること(Sudmant et al., 2015]参照)、リード中に配列決定の誤りがあること、およびリードマッピングによる複数の一塩基多型(SNP)の干渉が含まれる。 Mutation identification processes are generally based on the alignment of multiple raw read sequences against a reference genome (read mapping). This alignment-based approach has many limitations. Such limitations include imperfect genome assembly (see Meyer, LR et al., 2013) and structural alterations within normal individual human genomes (Sudmant et al., 2015). ), sequencing errors in the reads, and multiple single nucleotide polymorphisms (SNPs) interfering with read mapping.

現在、本願の出願時には線状のHRGに対するリードマッピングは標準的な手法であり、臨床NGS解析パイプラインおよび個々のヒトのリシーケンスにおいては標準的な手法である。HRGが大多数のゲノムの座標系として、比較的有効であり普及しているからである。さらに(ゲノムグラフを用いるゲノムの干渉が発生する状態では相違するが)、線状の基準ゲノムを用いて変異を特定するための方法が多く発表されている(Nielsen et al.2011)。 Currently, read mapping to linear HRG is standard practice at the time of filing of this application, and is standard practice in clinical NGS analysis pipelines and individual human resequencing . This is because HRG is relatively effective and widely used as a coordinate system for most genomes. In addition (unlike in situations where genomic interference using genome graphs occurs), a number of methods have been published for identifying mutations using linear reference genomes (Nielsen et al. 2011).

しかし、前記したように、一つの大きな問題は種の内部の遺伝子の多様性についての以前の情報を無視するHRG中のバイアスである。現在、この問題は基準ゲノムを修整し、修整された基準ゲノムと比較して特定した変異が集団中のマイナーアレルとなるようにして解決している。 However, as mentioned above, one major problem is the bias in HRG to ignore previous information about genetic diversity within a species. Currently, this problem is solved by modifying the reference genome so that the identified mutations compared to the modified reference genome are minor alleles in the population.

NGS技術を用いる臨床ゲノム研究が成功するには個々ヒトのゲノムの変異を高い精度で矛盾のなく特定することが必要である。このような目的の前提条件となるのはリードマッピング(アライメント)とその後の変異特定処理が正確に行われることである。 Successful clinical genomic studies using NGS technology require highly accurate and consistent identification of individual human genome mutations. A prerequisite for such purposes is the correct implementation of the read mapping ( alignment ) and subsequent mutation identification procedures.

本願発明の一つの目的は、新しいバイオマーカーを見つけること、具体的には一塩基多様性(SNV)、挿入および欠失(InDel)、コピー数多型(CNV)、および例えば染色体の転座、逆位、重複、大きな挿入および欠失といった構造変異等のヒトゲノム研究において次世代シーケンシングをするために用いる遺伝子の変異を見つけることである。 One object of the present invention is to find new biomarkers, specifically single nucleotide variations (SNV), insertions and deletions (InDel), copy number variations (CNV) and, for example, chromosomal translocations, Finding mutations in genes used for next-generation sequencing in human genome research, such as structural variations such as inversions, duplications, large insertions and deletions.

もう一つの目的は、現在のNGSに基づくバイオマーカー、例えばバイオマーカーの技術が癌細胞および癌細胞の損傷したDNAの解析に用いられる癌治療のために用いられるバイオマーカーの精度を上げ、さらに信頼度を上げることである。 Another objective is to increase the accuracy and reliability of biomarkers used for cancer therapy where current NGS-based biomarker technology, such as biomarker technology, is used to analyze cancer cells and damaged DNA of cancer cells. It is to raise the degree.

本願発明の第1の特徴にしたがう方法は、ヒトの核酸サンプルのゲノム解析および/または遺伝子解析するための方法であって、該方法は次のステップを有する。
a) 複数のヒト基準ゲノムからなる組を用意する。
b) 性および/または祖先を調べるためにヒトの核酸サンプルを試験する。
c) ステップb)の前記性および/または祖先を調べる試験の結果に基づいて、前記複数のヒト基準ゲノムからなる組から一つ以上の集団に特有のヒト基準ゲノム(PHREG)を選択する。
d) ステップc)で選択したPHREGに対して前記ヒトの核酸サンプルをアライメントする。
A method according to a first aspect of the present invention is a method for genomic and/or genetic analysis of a human nucleic acid sample, said method comprising the steps of:
a) Providing a set of multiple human reference genomes.
b) Testing human nucleic acid samples to determine gender and/or ancestry.
c) selecting one or more population-specific human reference genomes (PHREGs) from said set of plurality of human reference genomes based on the results of said gender and/or ancestry test of step b);
d) aligning said human nucleic acid sample against the PHREG selected in step c);

以下において「集団に特有なヒト基準ゲノム」(PHREGs)は祖先に特有の基準ゲノムおよび性に特有な基準ゲノムとして理解される。PHREGsは基準のバイアスを十分に小さくし、アライメントの精度を向上させ、さらに続いて変異特定処理が行われる場合は変異特定処理の精度も向上させる。アライメントの精度を向上させるだけでなく、計算速度、正しくアライメントされたリードの数および位置決めの計算ステップ数も向上させることは本願発明の優れた点である。ヒトの核酸サンプルをゲノム解析および/または遺伝子解析するときにPHREGsを用いる利点により、リードカバレッジ深度(デプス)さが向上し、またこの利点は変異特定処理の感度が向上によって評価できる。 In the following, "population-specific human reference genomes" (PHREGs) are understood as ancestry-specific reference genomes and sex -specific reference genomes. PHREGs sufficiently reduce the bias of the criterion to improve the accuracy of the alignment and, if followed by mutation identification, also improve the accuracy of the mutation identification process. It is an advantage of the present invention that it not only improves the accuracy of alignment , but also the speed of calculation, the number of correctly aligned reads and the number of calculation steps for positioning. The advantage of using PHREGs for genomic and/or genetic analysis of human nucleic acid samples is increased read coverage (depth) , and this advantage can be appreciated by the increased sensitivity of the mutation identification process.

本願発明の文脈では、「ヒトの核酸サンプル」という語は人のサンプルから分離された任意の核酸サンプルを通常意味する。このヒトの核酸サンプルは具体的には以下で詳細に定義されるNGSリードを含むものでよい。 In the context of the present invention, the term "human nucleic acid sample" generally means any nucleic acid sample that has been isolated from a human sample. This human nucleic acid sample may specifically include NGS reads as defined in detail below.

ヒトの核酸サンプルは通常、ヒトの核酸サンプルを作製するのに適したあらゆる生化学的手法、分子生物学的手法および細胞生物学的手法からできるサンプルである。そのような手法は、穿刺、生体組織検査、セルフリーDNAキット等を含む。ヒトの核酸サンプルはあらゆる適切なソースから抽出されたものでよく、このようなソースには体液、粘膜、組織、組織からの抽出物もしくは細胞またはこれらの組み合わせたものを含まれる。ヒトの核酸サンプルはあらゆる適切なソースから抽出された比較参照サンプルでもよい。ヒトの核酸サンプルは例えば、血液サンプル、血液プラズマサンプル、尿サンプル、腫瘍サンプルを含むものでよいし、さらに組織処理手法FFPE(ホルマリン固定されたパラフィン処理された組織またはホルムアルデヒド固定されパラフィン処理された組織)による固化によって生じた好ましくない加工物を含むものでもよい。 A human nucleic acid sample is typically a sample resulting from any biochemical, molecular and cell biological technique suitable for producing a human nucleic acid sample. Such procedures include punctures, biopsies, cell-free DNA kits, and the like. Human nucleic acid samples may be extracted from any suitable source, including bodily fluids, mucous membranes, tissues, tissue extracts or cells, or combinations thereof. A human nucleic acid sample may be a comparative reference sample extracted from any suitable source. Human nucleic acid samples may include, for example, blood samples, blood plasma samples, urine samples, tumor samples, and may also be subjected to the tissue processing technique FFPE (formalin-fixed paraffin-treated tissue or formaldehyde-fixed paraffin-treated tissue). ) may include undesirable artifacts resulting from solidification by ).

ヒトの核酸サンプルは具体的には、DNA、RNAおよび/またはサイズ分画したトータルDNAまたはRNAでもよい。対象サンプルからのDNAを用意することは、一つ以上の生化学的な精製工程を含むものでよい。このような生化学的な精製工程は、例えば遠心分離、溶解および/または分画ステップ、すなわち機械的または化学的な破壊ステップによる細胞溶解を含むものでよく、この機械的または化学的な破壊ステップには複数回の凍結および/またh解凍サイクル、(複数回の)塩処理、フェノールクロロホルム抽出、ドデシル硫酸ナトリウム(SDS)処理およびプロテイナーゼK消化を含むがこれらに限定されるわけではない。オプションになるが、対象サンプルからのDNAを用意することは、さらに、ポリエチレンまたは塩の存在する状態でたくさんあるリボームRNAのようなラージRNAを除くこと、または塩好ましくは塩化カリウム溶液の存在する状態で妨げとなるドデシル硫酸ナトリウム(SDS)を沈降させて除くことを含むものでよい。細胞および/または組織からトータルDNAまたはRNAを精製する方法は当業者には周知のものであり、例えばグアニジンチオシアン酸塩-酸性フェノールクロロホルム抽出液(例えば、TRizol(登録商標)、インヴィトロジェン、アメリカ合衆国)を使用のような標準的な手法を含む。しかし、本明細書で記載している生化学的な沈降および/または精製ステップなしで対象とするDNAを用意することも同じように好ましい。 The human nucleic acid sample may specifically be DNA, RNA and/or size-fractionated total DNA or RNA. Providing DNA from a subject sample may involve one or more biochemical purification steps. Such biochemical purification steps may include, for example, centrifugation, lysis and/or fractionation steps, i.e. cell lysis by mechanical or chemical disruption steps, which mechanical or chemical disruption steps Examples include, but are not limited to, multiple freeze and/or thaw cycles, (multiple) salt treatments, phenol-chloroform extraction, sodium dodecyl sulfate (SDS) treatment and proteinase K digestion. Optionally, preparing the DNA from the sample of interest further removes large RNA such as ribosomal RNA abundant in the presence of polyethylene or salt, or salt, preferably in a potassium chloride solution. This may include precipitating out any interfering sodium dodecyl sulfate (SDS) present. Methods for purifying total DNA or RNA from cells and/or tissues are well known to those of skill in the art, such as guanidine thiocyanate-acidic phenol chloroform extract (eg, TRizol®, Invitrogen, USA). ), including standard techniques such as using However, it is equally preferred to provide the DNA of interest without the biochemical precipitation and/or purification steps described herein.

本願発明の文脈では、「核酸」という語はい一本鎖または二本鎖のディオキシリボヌクレオチドもしくはリボヌクレオチドのいずれか、または両方からなる任意のオリゴヌクレオチド分子を指し、ゲノムDNA、核DNA、ソマティック(体細胞)DNA、ジャームライン(生殖細胞系DNAおよび/または人工的に設計および/または製造されたDNAが含まれ、人工的に設計および/または製造されたDNAにはメッセンジャーRNAのプロファイルからインビトロで生成したDNA、好ましくはcDNAの形のものが含まれるがこれに限定されるものではない。「核酸」という語は通常、同一もしくは同様な長さの、すなわち同一の数のもしくは同様な数のヌクレオチドからなる一本鎖または二本鎖のオリゴヌクレオチド分子を意味する。 In the context of this invention, the term "nucleic acid" refers to any oligonucleotide molecule composed of either single- or double-stranded deoxyribonucleotides or ribonucleotides, or both, including genomic DNA, nuclear DNA, somatic includes (somatic) DNA, germline ( germline ) DNA and/or artificially designed and/or manufactured DNA, where artificially designed and/or manufactured DNA is derived from messenger RNA profiles It includes, but is not limited to, in vitro produced DNA, preferably in the form of cDNA. The term "nucleic acid" generally refers to single- or double-stranded oligonucleotide molecules of identical or similar length, ie, of identical or similar number of nucleotides.

ヒトの核酸サンプルはゲノムレベル、転写レベルもしくは転写後のレベルでの遺伝子の特定の突然変異を評価し、分析し、アライメントし、指インデックス標付けし、かつ/またはプロファイリング概略するのに役立つゲノム配列をゆうするものでよい。そのため、本願発明にしたがうヒトの核酸は任意のコーディング領域、非コーディング領域、エキソン、イントロン、染色体領域および/または染色体内領域、プロモータ領域、エンハンサ領域、スモールおよび/もしくはロング制御性RNA(small/long Regulatory RNA)をコード化する領域、活性転写領域および/もしくは非転写領域、トランスポゾン、ホットスポット突然変異領域、フレームシフト突然変異領域等を含むが、これらに限定されるものではない。 Human nucleic acid samples are genomic sequences useful for assessing, analyzing, aligning , indexing , and/or profiling specific mutations in genes at the genomic, transcriptional, or post-transcriptional level. It can be anything that says Thus, human nucleic acids according to the present invention may include any coding region, non-coding region, exon, intron, chromosomal and/or intrachromosomal region, promoter region, enhancer region, small and /or long regulatory RNA ( small /long Regulatory RNA) , active transcribed and/or untranscribed regions, transposons, hotspot mutated regions, frameshift mutated regions and the like.

「複数のヒト基準ゲノムからなる組」は少なくとも2つのヒト基準ゲノムを有し、好ましくは複数のヒト基準ゲノムを有する。ステップb)中の性および/または祖先を調べる試験は、ステップc)で前記した複数のヒト基準ゲノムからなる組から最も合致する一つ以上のヒト基準ゲノムを選ぶことである。好ましいケースでは、ステップb)の性および/または祖先を調べる試験によって、性および/または祖先が自動分類され、後で行うアライメントステップd)で用いる、一つのPHREGを前記複数のヒト基準ゲノムからなる組から選ぶことを可能にする。しかし、後で行う解析で用いるPHREGを余分に一つ以上選ぶことも可能である。 A "set of human reference genomes" has at least two human reference genomes, preferably a plurality of human reference genomes. The test for sex and/or ancestry in step b) is to select one or more best matching human reference genomes from the set of human reference genomes described above in step c). In a preferred case, the test for sex and/or ancestry of step b) automatically classifies sex and/or ancestry, and a single PHREG for use in a subsequent alignment step d) of said plurality of human reference genomes. Allows you to choose from the set consisting of However, it is also possible to select one or more extra PHREGs for later analysis.

ステップb)での性および/または祖先を調べる試験は、キュレーションされたデータからなるデータベースから抽出された性および/または祖先に関する配列変異からなる性および/またに特有の部分集合に基づくのが好ましい。このような配列変異は、一塩基多型(SNP)および/または一塩基変異(SNV)であることが好ましい。性および/または祖先を調べる試験で用いられるこのような配列変異の部分集合は、集団に依存する人の祖先および性のパターン(PHASP)ともいう。前記したキュレーションされたデータからなるデータベースはすべての集団のあらゆる既知の配列変異を有するものが好ましい。PHASPデータ集合は前記したキュレーションされたデータからなるデータベースからの抜粋したものである。このPHASPデータ集合はPHREGデータ集合よりもはるかに小さいデータ集合であり、分類するときに最も識別力があるデータ集合である。PHASPを作るのに用いる手法は遺伝子型である特徴量を減少させることを含む機械学習によるコンピュータを使う方法である。このような機械学習を標準的な分類結果と比較し検査してもよい。 Testing for sex and/or ancestry in step b) is performed on a sex- and/or-specific subset of sequence variants for sex and/or ancestry extracted from a database of curated data. based is preferred. Such sequence variations are preferably single nucleotide polymorphisms (SNPs) and/or single nucleotide variations (SNVs). Such subsets of sequence variations used in tests for sex and/or ancestry are also referred to as population-dependent patterns of human ancestry and sex (PHASP). Preferably, the database of curated data described above contains all known sequence variations for all populations. The PHASP dataset is an excerpt from the database of curated data described above. This PHASP dataset is a much smaller dataset than the PHREG dataset and is the most discriminating dataset when classifying. The approach used to create PHASP is a computational method based on machine learning that involves reducing features that are genotypes. Such machine learning may be tested against standard classification results.

および/または祖先を調べる試験は、前記ヒトの核酸サンプルの個別の配列変異パターンを検出する予備的なアライメントステップを含む。このステップでは、前記ヒトの核酸サンプルを単一のヒト基準ゲノム、例えばGRCh37またはGRCh38にアライメントする。ここでステップb)の試験で用いる単一のヒト基準ゲノムは、祖先に特有または性に特有のものではない。サンプルの配列変異パターンをPHASPデータ集合と比較することによって、患者の祖先と性を判別する。 A test to determine gender and/or ancestry includes a preliminary alignment step that detects distinct sequence variation patterns in said human nucleic acid sample. In this step, the human nucleic acid sample is aligned to a single human reference genome, eg GRCh37 or GRCh38. The single human reference genome used here in the test of step b) is not ancestry-specific or gender -specific. The patient's ancestry and gender are determined by comparing the sample's sequence variation pattern to the PHASP dataset.

一つの実施形態によれば、ステップb)の試験は性を調べる試験を含むものでよい。別の実施形態によれば、ステップb)の試験は祖先を調べる試験を含むものでよい。さらに別の実施形態によれば、ステップb)の試験は性を調べる試験と祖先を調べる試験を含むものでよい。 According to one embodiment, the testing in step b) may include testing for gender . According to another embodiment, the testing of step b) may include testing for ancestry. According to yet another embodiment, the testing of step b) may include testing for gender and testing for ancestry.

一つの代表的な実施形態では、複数のヒト基準ゲノムからなる組は男性基準ゲノムと女性基準ゲノムを両方有する。ステップb)の性試験で前記ヒトの核酸サンプルが男性基準ゲノムまたは女性基準ゲノムであると判定されると、ステップc)ではそれぞれ対応する男性もしくは女性基準ゲノムまたは両方が、後続するステップc)の位置決めで用いるPHREGとして選ばれる。 In one exemplary embodiment, the set of human reference genomes has both male and female reference genomes. If the gender test in step b) determines that said human nucleic acid sample is a male reference genome or a female reference genome, then in step c) the corresponding male or female reference genome or both are tested in subsequent step c). is selected as the PHREG used in the positioning of the .

複数の性染色体は相同の配列を含むので、(男性の場合はX染色体とY染色体を有し、女性の場合はY染色体を有さない)性に合わして修正した基準ゲノムを用いることによりリードのアライメント不良が防げる。そのため、性特有の基準ゲノムを用いることにより、後で偽陽性および偽陰性の変異特定を減らす。 Since multiple sex chromosomes contain homologous sequences, by using a sex -corrected reference genome (having X and Y chromosomes in males and no Y chromosome in females) Prevents lead misalignment . Therefore, using a gender -specific reference genome reduces later false positive and false negative variant identification.

別の代表的な実施形態では、前記複数のヒト基準ゲノムからなる組は多数の祖先特有の基準ゲノムを有している。ステップb)の祖先を調べる試験は、多数の祖先特有の基準ゲノムから最も合致する一つ、または複数の基準ゲノムを決める。その後ステップc)では、後続のステップd)で用いる一つまたは複数のPHREGとして最も近い一つまたは複数の基準ゲノムが選ばれる。ステップb)の祖先を調べる試験は、多数の祖先特有の基準ゲノムから最も合致する一つ、または複数の基準ゲノムを決める。その後ステップc)では、後続のステップd)で用いる一つまたは複数のPHREGとして最も近い一つまたは複数の基準ゲノムが選ばれる。 In another exemplary embodiment, the set of human reference genomes comprises multiple ancestral reference genomes. The ancestral test of step b) determines the best matching reference genome or genomes from a number of ancestral specific reference genomes. Then in step c) the closest reference genome or genomes are chosen as the PHREG or PHREGs to be used in subsequent step d). The ancestral test of step b) determines the best matching reference genome or genomes from a number of ancestral specific reference genomes. Then in step c) the closest reference genome or genomes are chosen as the PHREG or PHREGs to be used in subsequent step d).

間違った祖先を選ぶと多くの偽陽性の変異特定や多くの偽陰性の変異の特定をすることになる可能性がある。祖先特有の基準ゲノムを用いることにより、正しくアライメントされたリードの数を増やし、偽陽性の変異の特定および多くの偽陰性の変異の特定を減らすことを効果的にできる。 Choosing the wrong ancestor can lead to many false-positive mutation identifications and many false-negative mutation identifications. Using an ancestral specific reference genome can effectively increase the number of correctly aligned reads, reduce the identification of false positive mutations and reduce the identification of many false negative mutations.

同様に、前記複数のヒト基準ゲノムからなる組が祖先特有の男性基準ゲノムと祖先特有の女性基準ゲノムを有する場合は、性別を調べる試験と祖先を調べる試験を組み合わせることにより間違いがなくなる。 Similarly, if the set of human reference genomes has an ancestry-specific male reference genome and an ancestry-specific female reference genome, the combined test for sex and test for ancestry is error-free.

ステップb)の「試験する」という語は、ヒトの核酸サンプルの少なくとも一つの遺伝子またはゲノムを試験することを含むこととして理解されなければならない。遺伝子および/またはゲノムについて試験することは、「自己申告」から導かれたいかなる情報よりも信頼性がある。本人が報告し調査員が指定した祖先は通常、行動、文化、社会規範、皮膚の色および他の影響を含む遺伝情報および非遺伝情報の両方の複雑な組み合わせを主観的に解釈することに基づいている。研究参加者または患者が自分の民族性について誤りなく報告するのは稀である。自分の民族性について誤った報告するのにはいろんな理由がある。ある人は自分の真の祖先がわかっていないか、または最近の祖先(もしくは自分の地理的な出自)しか知らない。一方、別の人は入り交じった素性を有しているにもかかわらず、一つ民族グループで自分の民族性を特定する(Mersha & Abebe 2015参照)。文献によれば(Ainsworth, 2015および Mersha & Abebe, 2015参照)、自分で申告する祖先と性は正しくないことが多いことがわかっている。事実、100人中一人は性発達の異常の影響を受け、そのヒトのゲノムと一致しない身体的な外観になっているという説明までアインスヴォルス(Ainsworth)はしている。 The term "testing" in step b) should be understood as comprising testing at least one gene or genome of a human nucleic acid sample. Testing for genes and/or genomes is more reliable than any information derived from "self-reports." Individual-reported and investigator-specified ancestry is usually based on subjective interpretation of a complex combination of both genetic and non-genetic information, including behavior, culture, social norms, skin color and other influences. ing. Research participants or patients rarely report their ethnicity correctly. There are many reasons for misreporting one's ethnicity. Some people do not know their true ancestry, or only know their most recent ancestry (or their geographical origin). Others, on the other hand, identify themselves with one ethnic group despite having mixed backgrounds (see Mersha & Abebe 2015). The literature (see Ainsworth, 2015 and Mersha & Abebe, 2015) shows that self-reported ancestry and gender are often inaccurate. In fact, Ainsworth goes so far as to explain that 1 in 100 people are affected by abnormalities in sexual development, resulting in a physical appearance that is inconsistent with their human genome.

本願発明の方法はさらに性と祖先に基づいてサンプルの取り換えを見つける追加の品質チェックに使えるという利点がある。自分で申告した性および祖先と配列決定の実行により予測される性および祖先の不一致があることにより、例えば、試料の入れ換えがおきたことや他の試験所での処理の誤りがあったことがわかる場合がある。 The method of the present invention also has the advantage that it can be used for additional quality checks to find sample replacements based on gender and ancestry. Discrepancies between self-declared sex and ancestry and sex and ancestry predicted by the sequencing run, e.g., due to sample shuffling or mishandling by other laboratories may be found.

アライメント」という語は通常、シーケンスされたサンプルを基準配列と比較して、その基準配列の適合する位置に対応させる計算ステップを意味する。この目的のために、作られたシーケンスデータ中の各リードについて、そのリードが対応する基準配列の対応する部分を見つけなければならない。言い換えれば、アライメントまたはリードマッピングは、検出された核酸シークエンスリードについて、そのリードのソースとなった可能性が最も高いゲノム配列中での部分を決める工程である。代表的な実施形態では、リードはNGSリードであるが、他の配列決定の方法からのリードもまた本願発明の開示内容に包含される。 The term " alignment " generally refers to the computational step of comparing a sequenced sample to a reference sequence to correspond to matching positions in the reference sequence. For this purpose, for each read in the sequence data generated, the corresponding portion of the reference sequence to which that read corresponds must be found. In other words, alignment or read mapping is the process of determining, for a detected nucleic acid sequence read, the portion of the genomic sequence that most likely originated the read. In an exemplary embodiment, the reads are NGS reads, but reads from other sequencing methods are also encompassed by the present disclosure.

ヒトの核酸サンプルから得られたアライメントされたリードは、表示され、保存され、印刷され、通信ネットワークを介して送信され、そうでなければさらに処理されてよい。アライメントされたヒトの核酸サンプルの別の応用および使用には具体的には一つ以上の次の事項が含まれる。 Aligned reads obtained from human nucleic acid samples may be displayed, stored, printed, transmitted over a communication network, and otherwise processed further. Additional applications and uses of aligned human nucleic acid samples specifically include one or more of the following.

1) 挿入および欠失(InDel)の周りのローカルリアライメント
「InDel」という語はゲノム中の塩基対の挿入または欠失であり、代表的には1塩基対から10000塩基対までの長さの小さい遺伝子の変形を含む。挿入および欠失の周りでのリアライメントにより、後で行うデータ解析、特に変異の特定が改善される。
1) Local realignment around insertions and deletions (InDel)
The term "InDel" refers to base pair insertions or deletions in the genome, typically involving small genetic alterations from 1 base pair to 10,000 base pairs in length. Realignment around insertions and deletions improves subsequent data analysis, particularly mutation identification.

2) 塩基品質スコア補正(BQSR)
「塩基品質スコア」という語は、塩基ごとの誤りの評価値であり配列決定機器により決定された塩基の特定の信頼度を表す。塩基品質スコアは、例えば後で行う変異の特定の証拠を評価するのに用いてもよい。BQSRは、配列決定を行う方法の物理または化学による規則的におこる技術誤差を考慮して塩基品質スコアを修正することができる。
2) Base Quality Score Correction (BQSR)
The term "base quality score" is a base-by-base error rating and represents the particular confidence of a base as determined by a sequencing instrument. Base quality scores may be used, for example, to assess specific evidence of subsequent mutations. BQSR can modify base quality scores to account for regularly occurring technical errors due to the physics or chemistry of the method of sequencing.

3) 次世代シーケンシング技術に共通する機械による不自然な結果から真に区別される変形を分離する機械学習 3) Machine learning to separate truly distinct variants from machine artifacts common to next-generation sequencing technologies.

4) 可能性のあるあらゆる変異を見つけるための変異の発見と遺伝子型決定。本明細書では変異特定処理ともいう。変異の発見とは、SNP/SNV、InDel、CNVおよびSV(染色体の転座、逆位、重複、大きいInDel)の発見を含むものでよい。 4) Mutation discovery and genotyping to find all possible mutations. Also referred to herein as mutation identification processing. Mutation discovery may include discovery of SNP/SNV, InDel, CNV and SV (chromosomal translocations, inversions, duplications, large InDels).

5) 進化解析研究
進化解析研究は、ヌクレオチドの多様性、集団ごとの相違、連鎖不平衡および一つ以上の集団からの突然変異の頻度スペクトラムを測るツールを含むものでよい。進化解析は、通常、進化配列の統計値を計算する計算ツールを含むものでよい。この計算ツールは染色体またはスキャフォールド全体にわたるスラディング・ウィンドウ法による解析を行うものでよい。この計算ツールは例えばヒトの核酸サンプルの系統樹を作るものでよい。
5) Evolutionary Analysis Studies Evolutionary analysis studies may include tools that measure nucleotide diversity, population-to-population differences, linkage disequilibrium, and the frequency spectrum of mutations from one or more populations. Evolutionary analysis may typically involve computational tools that calculate evolutionary sequence statistics. The computational tool may perform a sliding window analysis over the entire chromosome or scaffold. The computational tool may, for example, generate a phylogenetic tree of human nucleic acid samples.

このような進化解析は、例えばhttps://www.ncbi.nlm.nih.gov/pmc/articles/PMC3767577/ に説明されている、例えば「POPBAM」ソフトウェアによって実行できる。 Such evolutionary analysis can be performed, for example, by the "POPBAM" software, for example described at https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3767577/.

6) 野生型のバイオマーカーを探すための試験
さらに、アライメントされたヒトのゲノムサンプルは野生型のバイオマーカーが存在するかどうかを確認するために試験されてもよい。野生型のバイオマーカーとは、PHREG中に含まれるため、変異特定処理の際に検出されないバイオマーカーである。そのため、アライメント後の計算ステップは既知の各バイオマーカーを見つけるための試験を含む。この試験は、対象の位置のPHREGの情報が何であるかにかかわらず、アライメントされたヒトのゲノムサンプル中にバイオマーカーがあるかどうかを示す。
6) Testing for wild-type biomarkers Additionally, aligned human genomic samples may be tested to determine if wild-type biomarkers are present. A wild-type biomarker is a biomarker that is contained in the PHREG and therefore not detected during the mutation specific procedure. Therefore, the post- alignment computational step includes testing to find each known biomarker. This test indicates whether there are biomarkers in aligned human genomic samples regardless of the PHREG information at the location of interest.

一つの実施形態によれば、本願発明の方法は選択したPHREGに対してアライメントされたヒトの核酸サンプルの変異特定処理を行うステップをさらに有する。本願発明は、最初に性および/または祖先を調べる試験を導入して、後続するアライメントステップおよび変異特定処理のステップで用いるため正しいPHREGを決定することによって変異特定処理の精度を向上させる利点がある。 According to one embodiment, the method of the present invention further comprises performing mutation identification processing of the human nucleic acid sample aligned to the selected PHREG. The present invention has the advantage of improving the accuracy of the mutation identification process by introducing tests for sex and/or ancestry first to determine the correct PHREG for use in subsequent alignment and mutation identification steps. There is

アライメントされたヒトの核酸サンプルは、もっと具体的にいえばヒトの核酸サンプルから抽出され位置決めされたNGSリードなので、計算モジュールである一つ以上のいわゆるバリアントコーラーによってさらに処理される。このバリアントコーラーは、任意のタイプの変異(SNV、InDel、体細胞変異としてのコピー数多型、構造変異)を検出する複数の異なる変異特定処理のアルゴリズムを有している。後続の方法ステップは変異を解釈することを含むものでよい。変異特定処理および/または変異の解釈は、表示され、保存され、印刷され、通信ネットワークを介して送信され、さもなければさらに処理されるものでよい。本願発明の方法は、用いる基準ゲノムのバイアスを除くことによって以前は見つけられなかったバイオマーカーを検出できる利点がある。具体的には、本願発明の方法は、様々な遺伝子の突然変異を見分けることができ、このような遺伝子の突然変異にはSNV、複数ヌクレオチド変異(MNV)、複雑な事象、並びに大きな変異、具体的にはホットスポット突然変異、フレームシフト突然変異、非サイレント突然変異、終止コドン突然変異、ヌクレオチド挿入、ヌクレオチド欠失、コピー数多型、体細胞変異としてのコピー数多型、および/またはスプライス部位、を含むが、これらに限定されるものではない。 Aligned human nucleic acid samples, more specifically NGS reads extracted and localized from human nucleic acid samples, are further processed by one or more so-called variant callers which are computational modules. This variant caller has several different mutation identification processing algorithms that detect any type of mutation (SNV, InDel, copy number variation as somatic mutation , structural variation). Subsequent method steps may include interpreting the mutations. Variant identification processing and/or variant interpretation may be displayed, stored, printed, transmitted over a communication network, or otherwise processed further. The method of the present invention has the advantage of detecting previously undetected biomarkers by removing the bias of the reference genome used. Specifically, the methods of the present invention can distinguish between mutations in a variety of genes, including SNVs, multiple nucleotide variations (MNVs), complex events, as well as large mutations, specifically specifically hotspot mutations, frameshift mutations, non-silent mutations, stop codon mutations, nucleotide insertions, nucleotide deletions, copy number variations, copy number variations as somatic mutations , and/or splice sites , including but not limited to.

ヒトの核酸サンプルのドナーは患者、すなわち所定の病気にかかっているか、所定の病気にかかっていると考えられる人である。本願発明の方法は、患者だけに適用されるものと考えてはいけない。 A human nucleic acid sample donor is a patient, ie, a person suffering from or suspected of suffering from a given disease. The methods of the present invention should not be considered to apply only to patients.

変異特定処理および変異の解釈は所定の病気の存在または非存在を示すゲノム配列の解析を含む。変異の解釈に基づいて、患者は所定の治療法が薦められない第1のグループ、または、所定の治療法が薦められる第2のグループに分けられる。このように、本願発明の方法は、患者に所定の病気が存在するかしないかを評価して、病気を選別する手順の一部として用いることができる利点がある。 Mutation identification processing and interpretation of mutations involves analysis of genomic sequences that indicate the presence or absence of a given disease. Based on the interpretation of the mutation, patients are divided into a first group in which a given therapy is not recommended or a second group in which a given therapy is recommended. Thus, the method of the present invention has the advantage that it can be used as part of a disease screening procedure by assessing the presence or absence of a given disease in a patient.

本願発明の方法は、さらに、または代わりに、ヒトの核酸サンプルに関連する、または結びついた病気の症状を見つけ出すステップを含んでもよい。病気の症状は、例えば電子的な健康状態の記録から見つけ出すか、計算デバイスの入力手段を介して患者自身またはかかりつけの医者によって入力されるものでもよい。このような病気の症状は疾患のオントロジ、例えばISD-10、MeSH、またはMeDRAにしたがって特定される。所定の分類の病気の症状を見つけるに、病気の症状をより正確に分類するような利点を与える特殊なオントロジがある。腫瘍学では、ICD-O-3および/またはTNM分類システムを用いることが有益である。 The methods of the present invention may also or alternatively comprise detecting disease symptoms associated with or associated with the human nucleic acid sample. Symptoms of illness may be found, for example, from an electronic health record, or may be entered by the patient himself/herself or a primary care physician via input means of a computing device. Such disease symptoms are identified according to a disease ontology, eg, ISD-10, MeSH, or MeDRA. In finding disease symptoms of a given classification, there are special ontologies that offer advantages such as more accurate classification of disease symptoms. In oncology, it is beneficial to use the ICD-O-3 and/or TNM classification system.

変異特定処理および変異の解釈の結果に基づき、患者の病気を考慮して、本願発明の方法はその患者の治療計画を用意することを含んでもよい。この場合、治療計画は具体的には個人向けの治療計画としてよい。ここで、治療計画とは具体的に患者用の個人向け治療計画であり、このような個人向けの治療計画は患者の遺伝子データに適合させた、具体的には患者の臨床、分子、および/または遺伝子の状態に適合させた治療の選択肢を含むものでよい。 Based on the results of the mutation identification process and mutation interpretation, and taking into account the patient's disease, the method of the present invention may comprise preparing a treatment plan for the patient. In this case, the treatment plan may specifically be a personalized treatment plan. Here, a treatment plan is specifically a personalized treatment plan for a patient, such personalized treatment plan adapted to the patient's genetic data, specifically the patient's clinical, molecular and/or or may include treatment options adapted to genetic status.

有望な患者の治療法を決定するために、本願発明の方法は、例えば患者に見つかった複数の突然変異、すなわち、例えば患者の腫瘍中または患者の健常な比較組織中に見つかった複数の突然変異である、任意の変異が、患者を治療した結果を示しているかを調べることを含んでもよい。本願発明の方法は、さらに見つかった変異のいずれかに対応するあらゆる治療法を決定することを含んでもよい。本願発明の方法は、決定した複数の治療法を採点し、これらの治療法をその点数にしたがってランク付けして、患者のために治療の選択肢の優先順位付け、または治療の禁忌の優先順位付けをすることを含んでもよい。 In order to determine a potential patient therapy, the method of the present invention may, for example, examine multiple mutations found in the patient, i.e., multiple mutations found in the patient's tumor or in the patient's healthy control tissue. is indicative of the outcome of treating the patient. The method of the present invention may further comprise determining any therapeutics corresponding to any of the mutations found. The method of the present invention scores the determined treatments and ranks them according to their scores to prioritize treatment options or prioritize treatment contraindications for the patient. may include doing

本願発明の場合、「治療法」という語は治療効果のある薬または病気の症状に伴う兆候を防ぎ、改善し、治す薬学的に有効な化合物を処方することを含む。「治療法」という語はまた手術、放射線治療および/もしくは化学療法またはこれらの組み合わせを含む。 For the purposes of the present invention, the term "treatment" includes prescribing a therapeutic drug or pharmaceutically active compound to prevent, ameliorate, or cure symptoms associated with disease symptoms. The term "treatment" also includes surgery, radiotherapy and/or chemotherapy or combinations thereof.

2つの選択的な治療法、すなわち、病気を選別する方法または個人向けの治療計画を行う場合に、本願発明によればアライメントおよび変異特定処理が向上するので、本願発明は医者に向上した診断の能力、例えば向上した治療決定など、を提供することができる。 The improved alignment and mutation identification processes of the present invention provide physicians with improved diagnostic capabilities when performing two alternative therapeutic modalities: disease screening methods or personalized treatment planning. Capabilities, such as improved treatment decisions, can be provided .

一つの実施形態によれば、アライメント位置決めはPHREGに対してメジャーアレルレベルで行われる。メジャーアレルレベルはPHREG中で核酸の塩基コード(A,C,G,T)を用いて、集団に合わせて基準配列を修正する。集団における所定の位置で、最もよく見られる一のヌクレオチドが選ばれる。アレル頻度が同じ場合は、元の基準配列(例えば、GRCh37またはGRCh38)中に存在するアレルを用いてもよい。 According to one embodiment, alignment positioning is performed at the major allele level for PHREG. The major allele level uses the nucleic acid base codes (A, C, G, T) in PHREG to modify the reference sequence for the population. At a given position in the population, the single most common nucleotide is selected. Alleles present in the original reference sequence (eg, GRCh37 or GRCh38) may be used if allele frequencies are the same.

別の実施形態によれば、アライメントはPHREGに対して非稀少アレルレベルで行われる。非稀少アレルレベルは確立されたIUPACの命名法にしたがう核酸の曖昧コード、例えば、「A」または「G」を表す「R」を用いる(Cornish-Bowden, 1985参照)。非稀少レベルは集団の中の2または3個、好ましくは2個の相当な頻度のアレルをコード化する。相当な頻度とは30%、20%、15%、10%、5%、3%、1% または0.1%以上、特に5%以上である。ゲノム位置に対して1つより多い変異アレルがPHREG中に取り込まれているので、より正確なリードアライメントができると考えられる。一つの実施形態では、一塩基変異(SNV)のみが非稀少アレルレベルで考慮される。他の実施形態では、挿入および欠失(InDel)並びに他の構造的な変位も考慮される。 According to another embodiment, the alignment is performed at the non-rare allele level for PHREG. Non-rare allele levels use nucleic acid fuzzy codes that follow established IUPAC nomenclature, eg, "R" for "A" or "G" (see Cornish-Bowden, 1985). The non-rare level encodes 2 or 3, preferably 2 alleles with considerable frequency in the population. A significant frequency is 30%, 20%, 15%, 10%, 5%, 3%, 1% or 0.1% or more, especially 5% or more. It is believed that more than one mutated allele is incorporated into the PHREG for a genomic location, allowing for more accurate read alignment . In one embodiment, only single nucleotide variations (SNVs) are considered at the non-rare allele level. In other embodiments, insertions and deletions (InDel) and other structural alterations are also contemplated.

一実施形態によれば、PHREGに対する変異特定処理はメジャーアレルレベルで行われる。所定の実施形態では、アライメントは非稀少アレルレベルで行われ、変異特定処理はメジャーアレルレベルで行われるものでよい。代わりの例では、変異特定処理は非稀少アレルレベルで行われる。 According to one embodiment, mutation specific processing for PHREG is performed at the major allele level. In certain embodiments, alignments may be performed at the non-rare allele level and variant identification processing may be performed at the major allele level. In an alternative example, variant identification processing is performed at the non-rare allele level.

一実施形態によれば、ステップa)で用意されるヒト基準ゲノムは公表されたヒト基準ゲノムである。公表されたヒト基準ゲノムは特にHRGのビルド、具体的にはGRCh37およびGRCh38のビルドを含むものでよい。さらに、また代わりに、公表されたヒト基準ゲノムはQTRGを含むものでもよい。さらに、また代わりに、公表されたヒト基準ゲノムは1000人ゲノム(1kG)プロジェクトで得られたゲノムを含むものでよい。1kGプロジェクト用のすべての染色体のVCFファイルが1kG FTPのサイト、ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/の最新のリリースからダウンロードして使うことができる。もしも、もっと多くの個人および民族を用いたデータセット(例えば、首長国連邦の人口を調べる千アラブゲノムプロジェクト(Al-Ali, M.et al., 2018参照))が得られれば、本願発明の方法ではそれらを使うことができる。 According to one embodiment, the human reference genome provided in step a) is a published human reference genome. The published human reference genome may include in particular HRG builds, in particular GRCh37 and GRCh38 builds. Additionally or alternatively, the published human reference genome may contain QTRGs. Additionally or alternatively, the published human reference genome may comprise the genome obtained in the 1000 Genomes (1 kG) Project. VCF files of all chromosomes for the 1kG project are available for download from the latest release of the 1kG FTP site, ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ . . If more individual and ethnic datasets were available (e.g., the Thousand Arab Genomes Project examining the population of the United States of America (see Al-Ali, M. et al., 2018)), the You can use them in your method.

さらに、または代わりに、ステップa)で用意するヒト基準ゲノムは公表されたヒト基準ゲノムから得られたものである。ここで「から得られる」とは。誤差補正および/またはヒト基準ゲノムをメジャーアレルレベルまたは非稀少アレルレベルに合わせて修正することを含むものでよい。 Additionally or alternatively, the human reference genome provided in step a) was obtained from a published human reference genome. Here, what is "obtained from"? It may involve error correction and/or modifying the human reference genome for major or non-rare allele levels.

誤差補正が行われると、所定の集団の0人の個人に観測される基準のヌクレオチドが対応する高頻度ヌクレオチドで置き換えられる。 When error correction is performed, the reference nucleotide observed in 0 individuals of a given population is replaced with the corresponding high frequency nucleotide.

一つの実施形態では、ステップa)は複数のヒト基準ゲノムを所定のコード化レベルに合わせて修正することを含み、この場合のコードレベルは核酸の塩基コードまたは核酸の曖昧コードのいずれかを含む。核酸の塩基コードコードを含むコード化レベルは特にメジャーアレルレベルでPHREGを規定するのに用いられる。核酸の曖昧コードを含むコードレベルは特に非稀少アレルレベルでPHREGを規定するのに用いられる。 In one embodiment, step a) comprises modifying the plurality of human reference genomes to a predetermined coding level, where the coding level comprises either a nucleic acid base code or a nucleic acid fuzzy code . . Coding levels, including base code codes for nucleic acids, are used to define PHREGs, particularly at the major allele level. Coding levels, including ambiguous codes for nucleic acids, are used to define PHREGs, particularly at the non-rare allele level.

一つの実施形態では、コード化レベルに合わせて修正するために、一塩基変異が考慮される。集団のそれぞれ(または超集団)に対して、すべての報告されているSNVとそれらのアレル頻度を用いる。他の実施形態では、InDel、CNVおよび/またはSVも考慮される。 In one embodiment, single nucleotide mutations are considered to correct for coding levels. For each population (or superpopulation), use all reported SNVs and their allele frequencies. InDel, CNV and/or SV are also considered in other embodiments.

一つの実施形態によれば、基準の配列を所定の集団に合わせて修正することについて、4つの異なるレベルが提案され、これらの4つのレベルのうちの2つは核酸の塩基コード(A、C、G、T)に限定され、別の2つはIUPACにしたがう曖昧コード(Cornish-Bowden, 1985参照)、例えば「R」が「A」または「G」を表すコード化を用いる。このようなPHREGのコードレベルは次のように規定される。 According to one embodiment, four different levels are proposed for modifying a reference sequence to a given population, two of these four levels being based on the nucleic acid base code (A, C , G, T), the other two use ambiguous codes according to IUPAC (see Cornish-Bowden, 1985), eg, an encoding where "R" stands for "A" or "G". The code levels of such PHREG are defined as follows.

1. 最も保守的な誤差補正:集団中でどの1人にも見つからない基準ヌクレオチドは、対応する高頻度で出現するヌクレオチド、例えば対応する1kGの高頻度で出現するヌクレオチドで置き換える。 1. Most conservative error correction: A reference nucleotide that is not found in any one person in the population is replaced by the corresponding frequently occurring nucleotide, eg, the corresponding 1 kG frequently occurring nucleotide.

2. メジャーアレル:集団中の所定の遺伝子座で最も高頻度で現れる一つのヌクレオチドを選ぶ(アレル頻度に関係がある場合は、元の基準配列(例えば、GRCh37またはGRCh38)中に存在するアレルを用いる)。 2. Major allele: choose the single most frequently occurring nucleotide at a given locus in the population (if allele frequency is relevant, use the allele present in the original reference sequence (e.g. GRCh37 or GRCh38) ).

3. 非稀少アレル:集団中で相当な頻度(例えば、5%以上)の2個のアレルまでを、必要ならIUPACコードを用いてコードする。 3. Non-rare alleles: Code up to 2 alleles of significant frequency (eg, 5% or more) in the population using IUPAC codes if necessary.

4. 検出されたアレルの完全なモデル化:集団中の少なくとも一人について報告されているすべて(4個まで)のアレルを各位置でコードする。 4. Complete modeling of detected alleles: Code at each position all (up to 4) reported alleles for at least one person in the population.

しかし、レベル4のPHREG中の1kGの変異を完全に表すことは、不釣り合いなほど多くのゲノムの修整をすることによってなされるものであるが、このようなゲノムの修整を行えばゲノムが一意に定まらなくなり、そのためリードマッパーによって子孫を見つけることが極めて難しくなる。したがって、一つの実施形態では、レベル3を採用し、IUPACあいまいさを承知して行うアライメントアルゴリズムを用いるアライメントを行う。現在最も高性能のバリアントコーラーでも核酸の曖昧コードを扱うようにはできていないので、より高性能なIUPACあいまいさを承知して行うアライメントアルゴリズムができなければ、後続する変異特定処理ではレベル2のPHREGを用いる。 However, the full expression of the 1 kG mutation in level 4 PHREG is achieved by disproportionately large number of genome modifications that make the genome unique. , making it extremely difficult to find seed progeny by readmappers. Therefore, in one embodiment, level 3 is adopted and the alignment is performed using an IUPAC ambiguity -aware alignment algorithm. Even the most sophisticated variant callers today are not designed to handle ambiguous nucleic acid codes , so unless a more sophisticated IUPAC ambiguity -aware alignment algorithm is available, the subsequent variant identification process will be at Level 2. Use PHREG.

このように本願発明の方法は、目標とする集団により、また後続する解析により、ユーザーが規定するレベルでPHREGを集団のゲノムの変異に合わせて修正することができる利点がある。 Thus, the method of the present invention has the advantage that PHREG can be modified for genomic variations in the population at user-defined levels, depending on the target population and subsequent analysis.

一つの実施形態によれば、ステップa)で用意するヒト基準ゲノムはPHREGである。したがって、ステップa)は例えばPHREGを公のデータ源からダウンロードすることを含むものでよい。 According to one embodiment, the human reference genome provided in step a) is PHREG. Thus, step a) may for example involve downloading PHREG from a public data source.

前記したように、PHREGはそもそも祖先に特有な基準ゲノムかつ/または性に特有な基準ゲノムとして理解される。一つの実施形態では、ステップa)で用意するヒト基準ゲノムは集団の祖先および/または性を示すメタデータを含むので、既に集団に特有なものである。例えば、本願の出願時において、1kGプロジェクトの現在の第3相解析は26の集団および4から7個の集団を統合して形成した5つのいわゆる超集団からの2504人の個人を含む。これらの1kG研究第3相の26の集団と関連する5個の超集団(AFR:アフリカ、AMR:混合したアメリカ、EAS:東アジア、EUR:ヨーロッパ、SAS:南アジア)に結果は、http://www.internationalgenome.org/faq/which-populations-are-part-your-studyでわかる。 As mentioned above, PHREG is primarily understood as an ancestral-specific reference genome and/or a sex -specific reference genome. In one embodiment, the human reference genome provided in step a) is already population specific, as it contains metadata indicating the ancestry and/or gender of the population. For example, at the time of filing this application, the current Phase 3 analysis of the 1kG project includes 2504 individuals from 26 cohorts and 5 so-called supergroups formed by combining 4 to 7 cohorts. Results for the 5 superpopulations (AFR: Africa, AMR: Mixed America, EAS: East Asia, EUR: Europe, SAS: South Asia) associated with the 26 populations of these 1 kG Phase 3 studies are available at http: Find out at //www.internationalgenome.org/faq/which-populations-are-part-your-study.

一つの実施形態では、1kGプロジェクトのデータを用いて前記した31個の(超)集団と他のすべての集団を含む追加する超集団のそれぞれを表す最適化された集団のそれぞれに特有のゲノムを構築する。 In one embodiment, the 1 kG project data is used to generate genomes unique to each of the optimized populations representing each of the 31 (super) populations described above and additional superpopulations including all other populations. To construct.

ステップa)で用意するヒト基準ゲノムである場合、PHREGのメタデータは例えば公のデータ源からダウンロードすることにより用意することで差し支えない。このようなメタデータは本願発明の品質管理をするのに役立つ。もしも、このメタデータと性クラシファイアのデータおよび祖先クラシファイアのデータが合致するならば、品質管理は成功していると考えてよい。合致していないならば、ソフトウェアがユーザーに対して表示する警報または警告を発してもよいし、さらに、または代わりに、ソフトウェアが例えばアライメントステップの前に一連のステップの進行を停止してもよい。 In the case of the human reference genome provided in step a), PHREG metadata can be provided, eg by downloading from public data sources. Such metadata is useful for quality control of the present invention. If this metadata matches the gender classifier data and the ancestry classifier data, then the quality control can be considered successful. If not, the software may issue an alarm or warning that is displayed to the user, and additionally or alternatively, the software may stop progressing the sequence of steps, for example prior to the alignment step. .

一つの実施形態によれば、性を調べる試験は次のステップのうちの少なくとも一つを含む。X染色体および/またはY染色体上の性特有の遺伝子中の少なくとも一位置を試験すること、X染色体および/またはY染色体上の複数のヒトゲノムサンプルの位置決めの違いを利用すること、細胞遺伝学的試験、FISH解析、CGH解析、またはヒトの核酸サンプルの性を直接的もしくは関接的に決定すること。 According to one embodiment, testing for gender includes at least one of the following steps. examining at least one location in a gender -specific gene on the X and/or Y chromosome; utilizing differences in localization of multiple human genomic samples on the X and/or Y chromosome; Directly or indirectly determining the sex of a test, FISH analysis, CGH analysis, or human nucleic acid sample.

前記したように、性を調べる試験はヒトの核酸サンプルのFISH解析(蛍光in-situハイブリダイゼーション解析)の副産物の結果としてよい(Gall J. G. 1969参照)。また、性を調べる試験はCGH解析(比較ゲノムハイブリダイゼーション)の副産物の結果としてよい(Kallioniemi A. et al. 1992参照)。 As noted above, testing for sex may be the result of a by-product of FISH analysis (fluorescence in-situ hybridization analysis) of human nucleic acid samples (see Gall JG 1969). Also, tests to determine gender may be a by-product of CGH analysis (comparative genomic hybridization ) (see Kallioniemi A. et al. 1992).

を調べる試験により男性または女性の核酸サンプルを効率的かつ確実に区別することが可能になる。 Gender -probing tests allow efficient and reliable discrimination of male or female nucleic acid samples.

一つの祖先または民族からの複数の個人は他の祖先または民族と区別される多くのSNPを共有するので、所定の範囲の祖先を決定する複数のSNPを調べることによってリードアライメントおよび変異特定処理に用いるのに最も適切なPHREGを特定できる。このように祖先紙面の結果に基づいて、複数のヒト基準ゲノムの組からPHREGを選べる。 Since multiple individuals from one ancestry or ethnicity share many SNPs that distinguish them from other ancestry or ethnicity, examining multiple SNPs that determine a given range of ancestry can be beneficial to the read alignment and variant identification process. The most appropriate PHREG to use can be identified. Thus, based on the results of the ancestry paper, PHREGs can be selected from multiple sets of human reference genomes.

最もよくマッチするPHREGの基準を決めて誤りを防ぐため、アライメントを進める前に個人の祖先を確かめる上流のゲノム解析パイプラインステップでは複数の異なる実験のセットアップを用いることができる。 Multiple different experimental setups can be used in the upstream genomic analysis pipeline steps that verify the ancestry of individuals before proceeding with the alignment to determine the best-matching PHREG criteria and prevent errors.

1) 祖先を調べる試験はヒトの核酸サンプルに対して用いる機械学習アルゴリズム、または祖先に特有の変異を利用する別の分類スキームに基づくものでよい。祖先試験は特に複数のエキソン位置、例えば100より多い、500より多い、1000より多い、2000より多い、好ましくは5000より多いエキソン位置の遺伝子型を利用する機械学習に基づくものでよい。 1) A test for ancestry may be based on a machine learning algorithm used on human nucleic acid samples or another classification scheme that utilizes ancestral specific mutations. The ancestry test may in particular be machine learning based using genotypes at multiple exon positions, eg more than 100, more than 500, more than 1000, more than 2000, preferably more than 5000 exon positions.

2) 適切な遺伝子型を決めることは、NGSデータまたは代わりの実験手法、例えば法医学的研究で行われるSNPアレイ(Fondevila et al. 2013参照)に基づいて行うことができる。ここで、ノンコーディングSNPを用いることは民族を決めるのに役立つ。 2) Appropriate genotyping can be based on NGS data or alternative experimental approaches, such as SNP arrays performed in forensic studies (see Fondevila et al. 2013). Here, using non- coding SNPs helps determine ethnicity.

3) 2)の代わりの実験手法からの法医学SNPアレイ中で試験されるのと同じ非ノンコーディングSNP(およびフランキング領域)を存在するNGSパネルに加えて適切な遺伝子型を決定することもできる。 3) Appropriate genotypes can also be determined in addition to an NGS panel presenting the same non- coding SNPs (and flanking regions) tested in the forensic SNP array from the alternative experimental procedure in 2). .

特に、祖先を調べる試験は少なくとも一つのゲノム位置の遺伝子型を用いることを含むものでよい。 In particular, testing for ancestry may involve using genotypes for at least one genomic location.

一つの具体的な実施形態では、祖先を調べる試験は本明細書に含まれる配列プロトコルから選ばれた少なくとも一つの遺伝子を試験することを含むものでよい。正確な結果を出すために本明細書に含まれる配列プロトコルからの249の遺伝子が示された。 In one specific embodiment, testing for ancestry may involve testing at least one gene selected from the sequence protocols contained herein. 249 genes from the sequence protocol included here for accurate results were shown.

追加として、または代わりとして、祖先を調べる試験は、複数のSNPアレイおよび/もしくは複数のSNPチップの試験、並びに/またはサンガーシーケンス法もしくは質量分析からのマーカーの試験、または適切な遺伝子型を決めるための任意の他の実験方法を含むものでよい。 Additionally or alternatively, testing for ancestry may include testing multiple SNP arrays and/or multiple SNP chips, and/or testing markers from Sanger sequencing or mass spectrometry, or to determine appropriate genotypes. may include any other experimental method of

一つの具体的な実施形態では、祖先を調べる試験はABL2、ATP1A3、CIC、CYP2C8、CYP2C9、EPHA3、EPHA7、ERBB3、ERG、ETV1、F2、FAS、HFE、IL11RA、IL2RA、ITGB6、KIF11、KIT、KLK3、LRP6、MDM4、NAT2、NTRK2、PDGFB、PIK3R1、PLA2G3、PLAU、PRKCB、RICTOR、SLC7A11、STAT3、T、TSC1、VCAM1、VDR、VEGFB、ACVRL1、AXL、CA9、CALCR、CASP9、ENG、EPHB1、ERBB4、ESR1、FGFR2、HPSE、HSP90AA1、ITK、MRE11A、PLK1、PTPRC、SERPINE1、SMC4、TERT、TLR3、WISP3、WT1、XRCC1、ANGPT2、ARID2、BARD1、CBR3、CDH2、CYP1B1、DDR2、DNMT3A、EPCAM、ERCC2、FANCG、FANCL、GSTP1、IRS2、ITGB1、JAK3、LHCGR、MSH6、NCF2、RNF43、SLC5A5、TMPRSS2、TNFRSF8、AKT1、CD248、CD4、ESR2、EZH2、IGF1R、ITGAV、ITGB2、KLHL6、MAP3K1、MET、MLL、MTHFR、NFKB1、NUP93、PARP8、RB1、RPE65、TSHR、ABL1、BLM、CYP19A1、DPP4、EPHA6、ERBB2、EWSR1、FOXP4、ITGAM、KDM5A、LPA、LTK、MLH1、PBRM1、PHLPP2、SF3B1、TNFRSF10A、ABCG2、ACPP、ADAM15、DPYD、EPHA5、EPHB6、FOLH1、KDR、MSH3、MST1R、NTRK1、ROCK2、SLC6A2、TET2、TGM2、TH、ABCB1、CD22、CD40、CD44、CDH20、CYP11B2、ERCC5、GPR124、IL7R、ITGB3、ITGB5、NCL、NOD2、NR4A1、PGR、PLCG1、PPP2R1A、PRAME、PTCH2、RET、SETD2、XPC、ASXL1、EPHB4、PLA2G6、SYK、TET1、EP300、FLT1、ITGA1、LOXL2、PDGFRB、PIK3CD、SSTR5、TEC、APC、ATR、CLU、CREBBP、CYP2D6、EML4、MMP2、PARP2、PDGFRA、TRPM8、CSF1R、DOT1L、FGFR3、FGFR4、GLP2R、IKBKE、JAK1、NOTCH2、SPEN、SPG7、BRCA1、CYP11B1、GNAS、ITGA5、LTF、NRP2、PTK2B、TNKS、ABCC1、CEACAM5、CYP4B1、EGFR、FLT3、INSR、PTCH1、SMARCA4、ZNF217、BCR、EEF2、SELP、SLCO1B1、ABCC2、FLT4、MTR、IL4R、MTOR、RPTOR、TEK、ATM、CARD11、FANCD2、MEFV、NF1、TP73、BRCA2、CD109、PTPRD、ABCC6、IGF2R、P2RX7、ROS1、ACE、PARP1、PRKDC、CENPE、TSC2、ALK、NOTCH1、TNC、NOTCH3、POLE、MLL2、MYH11、POLD1、GRIN3B、F5、FANCA、LRP1B、LRP2、VWFからなる遺伝子グループから選ばれる少なくとも一つの遺伝子を試験することを含む。 In one specific embodiment, the test examining ancestry is ABL2, ATP1A3, CIC, CYP2C8, CYP2C9, EPHA3, EPHA7, ERBB3, ERG, ETV1, F2, FAS, HFE, IL11RA, IL2RA, ITGB6, KIF11, KIT, KLK3, LRP6, MDM4, NAT2, NTRK2, PDGFB, PIK3R1, PLA2G3, PLAU, PRKCB, RICTOR, SLC7A11, STAT3, T, TSC1, VCAM1, VDR, VEGFB, ACVRL1, AXL, CA9, CALCR, CASP9, ENG, EPHB1, ERBB4, ESR1, FGFR2, HPSE, HSP90AA1, ITK, MRE11A, PLK1, PTPRC, SERPINE1, SMC4, TERT, TLR3, WISP3, WT1, XRCC1, ANGPT2, ARID2, BARD1, CBR3, CDH2, CYP1B1, DDR2, DNMT3A, EPCAM, ERCC2, FANCG, FANCL, GSTP1, IRS2, ITGB1, JAK3, LHCGR, MSH6, NCF2, RNF43, SLC5A5, TMPRSS2, TNFRSF8, AKT1, CD248, CD4, ESR2, EZH2, IGF1R, ITGAV, ITGB2, KLHL6, MAP3K1, MET, MLL, MTHFR, NFKB1, NUP93, PARP8, RB1, RPE65, TSHR, ABL1, BLM, CYP19A1, DPP4, EPHA6, ERBB2, EWSR1, FOXP4, ITGAM, KDM5A, LPA, LTK, MLH1, PBRM1, PHLPP2, SF3B1, TNFRSF10 ABCG2, ACPP, ADAM15, DPYD, EPHA5, EPHB6, FOLH1, KDR, MSH3, MST1R, NTRK1, ROCK2, SLC6A2, TET2, TGM2, TH, ABCB1, CD22, CD40, CD44, CDH20, CYP11B2, ERCC5, GPR124, IL7R, ITGB3, ITGB5, NCL, NOD2, NR4A1, PGR, PLCG1, PPP2R1A, PRAME, PTCH2, RET, SETD2, XPC, ASXL1, EPHB4, PLA2G6, SYK, TET1, EP300, FLT1, ITGA1, LOXL2, PDGFRB, PIK3CD, SSTR5, TEC, APC, ATR, CLU, CREBBP, C YP2D6, EML4, MMP2, PARP2, PDGFRA, TRPM8, CSF1R, DOT1L, FGFR3, FGFR4, GLP2R, IKBKE, JAK1, NOTCH2, SPEN, SPG7, BRCA1, CYP11B1, GNAS, ITGA5, LTF, NRP2, PTK2B, TNKS, ABCC1, CEACAM5, CYP4B1, EGFR, FLT3, INSR, PTCH1, SMARCA4, ZNF217, BCR, EEF2, SELP, SLCO1B1, ABCC2, FLT4, MTR, IL4R, MTOR, RPTOR, TEK, ATM, CARD11, FANCD2, MEFV, NF1, TP73, BRCA2, CD109, PTPRD, ABCC6, IGF2R, P2RX7, ROS1, ACE, PARP1, PRKDC, CENPE, TSC2, ALK, NOTCH1, TNC, NOTCH3, POLE, MLL2, MYH11, POLD1, GRIN3B, F5, FANCA, LRP1B, LRP2, It comprises testing at least one gene selected from the gene group consisting of VWF.

さらに具体的な実施形態では、祖先を調べる試験は別表1に一覧表にした複数のゲノム座標のグループから選ばれた少なくとも一つゲノム座標を試験することを含む。別表1は祖先分類器に用いられる特徴部分のGRCh37に基づくゲノム座標を記載する。最初3列はBEDファイル標準(https://www.ensembl.org/info/website/upload/bed.html参照)にしたがってフォーマットされており、(左から右へ)染色体、特徴部分の左端を0としたときの開始座標、特徴部分の左端を0としたときの終了座標(すなわち、特徴部分の終了位置の後の最初の位置)に対応する。第4列は特徴部分の位置の分類器に適切な塩基を示す。第5列は対応する遺伝子名を示す。 In a more specific embodiment, testing for ancestry comprises testing at least one genomic coordinate selected from the group of genomic coordinates listed in Appendix 1. Appendix 1 lists the GRCh37-based genomic coordinates of the features used in the ancestral classifier. The first three columns are formatted according to the BED file standard (see https://www.ensembl.org/info/website/upload/bed.html) and are (from left to right) chromosomes, with 0 at the left end of the feature. and the end coordinate (that is, the first position after the end position of the characteristic portion) when the left end of the characteristic portion is 0. The fourth column shows the appropriate bases for the feature position classifier. Column 5 shows the corresponding gene name.

遺伝子名はHUGO遺伝子命名法委員会(HGNC、https://www.genenames.org/参照)で認められたものである。HGNCはタンパク質をコードする遺伝子、ncRNA遺伝子および偽遺伝子を含む人の遺伝子座の固有の符号および名前を認可して、科学的な情報伝達が一意的に行えるようにする責を負っている。本明細書中で用いられる遺伝子名は2013年8月に読みこんだものである。 Gene names are those accepted by the HUGO Gene Nomenclature Committee (HGNC, see https://www.genenames.org/). HGNC is responsible for authorizing unique codes and names for human loci, including protein-coding genes, ncRNA genes and pseudogenes, to enable unique scientific communication. Gene names used herein were read in August 2013.

他の特別な実施形態では、祖先を調べる試験は別表2(Fondevila et al. 2013参照)
に一覧表にした複数のSNPのうちの少なくとも一つを含む。別表2はSNPが位置する染色体の番号(左列)、正確な染色体の位置(真中の列)および対応するrs番号(右列)を示す。ここでrs番号はSNPデータベース(dbSNP、https://www.ncbi.nlm.nih.gov/projects/SNP/参照)中で、NCBI(アメリカ生物工学情報センター)によって付与された認可番号であり、複数のゲノムデータベースにわたって特定のSNPを指すのに広く用いられている。複数の研究者が一つのSNPを特定すると、彼らは報告書(そのSNPの直ぐ周りの配列を含む)をdbSNPデータベースに送る。もしも重複する報告書が送られると、それらは併合されて固有一つの固有のrsidが割り当てられた同じ重複のない基準SNPクラスタになる。さらなる情報がURL、http://www.ncbi.nlm.nih.gov/sites/books/NBK44406/で得られる。
In another specific embodiment, the test examining ancestry is in Appendix 2 (see Fondevila et al. 2013)
contains at least one of the SNPs listed in . Appendix 2 shows the chromosomal number (left column) where the SNP is located, the exact chromosomal location (middle column) and the corresponding rs number (right column). where rs number is the grant number given by NCBI (National Center for Biotechnology Information) in the SNP database (dbSNP, see https://www.ncbi.nlm.nih.gov/projects/SNP/), Widely used to refer to specific SNPs across multiple genomic databases. When multiple researchers identify a SNP, they submit a report (including the sequences immediately surrounding the SNP) to the dbSNP database. If duplicate reports are sent, they are merged into the same non-duplicate reference SNP cluster assigned a unique rsid. Further information is available at the URL http://www.ncbi.nlm.nih.gov/sites/books/NBK44406/.

このような祖先を調べる試験は複数の祖先のカテゴリの区別を可能にする遺伝子および/またはゲノムの試験を含む。このような複数の祖先のカテゴリは1kGプロジェクトにしたがってAFR、AMR,EAS、EUR,SASとして決められる。しかし、本願発明の方法は、1kGプロジェクトのデータに限定されず、例えばもっと多くの個人/民族によるもっと包括的なデータ組が得られるならば、これらのデータ組を同じ目的のために代わりに用いることもできる。 Such ancestral studies include genetic and/or genomic studies that allow discrimination of multiple ancestral categories. Such multiple ancestral categories are defined as AFR, AMR, EAS, EUR and SAS according to the 1kG project. However, the method of the present invention is not limited to the data of the 1kG project, and if more comprehensive data sets are available, e.g. can also

一つの実施形態によれば、ヒトの核酸サンプルは次世代シーケンシング工程で得られた複数のリードの組を含んでいる。アライメントはこれらのリードを選択したPHREGにマップするステップを含む。さらに、または代わりにヒトの核酸サンプルはターゲットシーケンス工程、例えばパネルシーケンス、で得られた複数のリードの組を含む。 According to one embodiment, the human nucleic acid sample comprises a plurality of sets of reads obtained in a next generation sequencing process . Alignment involves mapping these reads to selected PHREGs. Additionally or alternatively, the human nucleic acid sample includes multiple sets of reads obtained in a targeted sequencing process, eg, panel sequencing .

本願発明の方法をHRGに対して行うリードマッピングに基づく現存するNGS解析ワークフローのいずれにも問題なく組み合わせることができるのは有利な点である。 Advantageously, the method of the present invention can be successfully combined with any existing NGS analysis workflow based on read mapping for HRG.

ヒトの核酸サンプルのリードを選択したPHREGにマッピングしてそのヒトの核酸サンプルをその選択したPHREGに対してアライメントするには、予め、DNAまたはcDNAサンプルをランダムに断片化してシーケンスライブラリを調製し、その後5’-および3’-アダプターライゲーションを行うことを前提とするものでよい。いくつかの実施形態では、断片化およびライゲーション反応を組み合わせて単一のステップとして行い、その後にアダプターライゲーションした断片をPCR増幅する。 Before mapping the reads of a human nucleic acid sample to a selected PHREG and aligning the human nucleic acid sample to the selected PHREG, a sequencing library is prepared by randomly fragmenting the DNA or cDNA sample. , followed by 5'- and 3'-adapter ligation . In some embodiments, the fragmentation and ligation reactions are combined in a single step, followed by PCR amplification of the adaptor- ligated fragments.

ヒトの核酸サンプルのリードを選択したPHREGにマッピングしてそのヒトの核酸サンプルをその選択したPHREGに対してアライメントするには、前記した複数のDNA断片の組のシーケンスをして、約28塩基対から1000塩基対の長さの複数のリードを作製すること(Goodwin S. et al. 2016参照)を前提としてよい。このDNA断片の組は、問われている実験の課題に見合う、ターゲット領域の所定のカバレッジに到達するのに十分数のリードを含む(通常数個から数千個)。 To map the reads of a human nucleic acid sample to a selected PHREG and align the human nucleic acid sample to the selected PHREG, a plurality of sets of DNA fragments as described above are sequenced to generate about 28 base pairs. It may be assumed to generate multiple reads of 1000 base pairs in length from (see Goodwin S. et al. 2016). This set of DNA fragments contains a sufficient number of reads (usually a few to several thousand) to reach a given coverage of the target region, commensurate with the experimental task at hand.

一つの実施形態では、次世代シーケンシング方法は全エクソームシーケンスを含む。別の実施形態では、次世代シーケンシング方法は全ゲノムシーケンスを含む。「全エクソームシーケンス」という語は一つのゲノム中のすべてのタンパク質をコードする遺伝子(エクソームとして知られる)の配列を決定するための手法を通常意味する。この方法はまずタンパク質をコードするDNA(エキソンとして知られる)の部分集合を選択し、任意のハイスループットDNAシーケンス技術を用いてこのDNAの配列を決定することからなる。ヒトはヒトゲノムのおよそ1.5%、または約3千万個の塩基対を構成する約18万個のエキソンを有する。特に、エクソームシーケンスは次世代シーケンシング手法によって行われるものでよい。「全ゲノムシーケンス」(WGS、フルゲノムシーケンス、完全ゲノムシーケンスまたは全ゲノムシーケンスとしても知られる)は1回で、生命体のゲノムの完全なDNA配列を決定する実験室プロセスである。このプロセスは生命体の染色体のDNAだけでなくミトコンドリアに含まれるDNAの配列もすべて決定することを必然的に伴う。 In one embodiment, the next generation sequencing method comprises whole exome sequencing . In another embodiment, the next generation sequencing method comprises whole genome sequencing . The term "whole exome sequencing " usually refers to a technique for determining the sequence of all protein- coding genes (known as exomes) in a genome. The method consists of first selecting a subset of the protein-encoding DNA (known as exons) and sequencing this DNA using any high -throughput DNA sequencing technique . Humans have approximately 180,000 exons comprising approximately 1.5% of the human genome, or approximately 30 million base pairs. In particular, exome sequencing may be performed by next generation sequencing techniques. "Whole Genome Sequencing " (also known as WGS, full genome sequencing , complete genome sequencing or whole genome sequencing ) is the one-time, laboratory process of determining the complete DNA sequence of an organism's genome. This process entails determining not only the DNA of the organism's chromosomes, but also all of the DNA contained in the mitochondria.

本願発明のもう一つの特徴にしたがうのは、ヒトゲノムサンプルの遺伝子解析用のコンピュータシステムであって、このコンピュータシステムは、
a) 複数のヒト基準ゲノムの組を用意するコンピュータ命令を有する第1のモジュールと、
b) ヒトの核酸サンプルを試験して性および/または祖先を調べる第2のモジュールと、
c) 前記性および/または祖先を調べる試験の結果に基づいて前記複数のヒト基準ゲノムの組から集団に特有なヒト基準ゲノムすなわちPHREGを一つ以上選ぶためのコンピュータ命令を有する第3のモジュールと、
d) 前記ヒトの核酸サンプルを前記選択した一つ以上のPHREGに対してアライメントするためのコンピュータ命令を有する第4のモジュールと、を含む。
According to another aspect of the invention is a computer system for genetic analysis of human genome samples, the computer system comprising:
a) a first module having computer instructions for providing a set of a plurality of human reference genomes;
b) a second module that tests a human nucleic acid sample for gender and/or ancestry;
c) a third module having computer instructions for selecting one or more population-specific human reference genomes or PHREGs from said plurality of human reference genome sets based on the results of said sex and/or ancestry tests; When,
d) a fourth module having computer instructions for aligning said human nucleic acid sample to said selected one or more PHREGs.

具体的に、前記コンピュータシステムは前記した複数の方法のどれでも、実行できるようになっている、または実行できる構成を有しているものでよい。そのため、前記した複数の方法に関して説明した特徴は前記コンピュータシステムのために開示したものであるし、逆に前記コンピュータシステムに関して説明した特徴は前記した複数の方法のために開示されたものでもある。 Specifically, the computer system may be adapted or configured to perform any of the methods described above. Thus, the features described with respect to the methods above are disclosed for the computer system, and vice versa, the features described with respect to the computer system are also disclosed for the methods above.

前記したモジュールはソフトウェアモジュール、ソフトウェアルーチンまたはソフトウェアサブルーチンでよく、書き換え不能な、もしくは書き換え可能な記憶手段のような機械が読み取り可能な記憶媒体、またはコンピュータ手段に用いられる記憶媒体、例えばCD-ROM、DVD、ブルーレイディスク、スティックもしくはメモリカードのような携帯型記憶手段に保存される。さらに、または代わりに、このようなモジュールは、例えばインタネットのようなデータネットワークを経由して、または電話回線もしくは無線のような通信回線を経由してダウンロードするサーバーまたはクラウドサーバーに備えられる。 The modules described above may be software modules, software routines or software subroutines stored on a machine readable storage medium, such as non-rewritable or rewritable storage means, or a storage medium used by computer means, e.g. CD-ROM, Stored on portable storage means such as DVDs, Blu-ray discs, sticks or memory cards. Additionally or alternatively, such modules may be provided on a server or cloud server for download via a data network, such as the Internet, or via a communication link, such as a telephone line or radio.

本明細書で開示モジュールはいずれも複数の機能ユニットとしてよく、これらの機能ユニットは必ずしも互いに物理的に別体のものではない。これらのモジュールのユニットのいくつかは、単一の物理ユニットの形態で実現されるものでよく、例えばいくつかの複数の機能が一つのソフトウェアパッケージの中で実装される場合があてはまる。 Any of the modules disclosed herein may be multiple functional units, which are not necessarily physically separate from each other. Some of these modular units may be implemented in the form of a single physical unit, which is the case, for example, when several functions are implemented in one software package.

本明細書で開示する複数のコンピュータモジュールは必ずしも一体化したシステムの一部でなくてもよく、コミュニケーションネットワークを介して互いに作用し合ういくつかの個別システムに分散していてもよい。 The multiple computer modules disclosed herein may not necessarily be part of an integrated system, but may be distributed among several separate systems interacting with each other through a communications network.

一つの実施形態によれば、ヒトの核酸サンプルを試験して性および/または祖先を調べる第2のモジュールは複数のコンピュータ命令を有するコンピュータモジュールである。さらに、または代わりに、第2のモジュールはウェット-ラボ実験、例えばFISH検査を行う実験を含むものでよい。FISH検査の結果は電気的に、または視覚的に分析して、サンプルの性を判定するものでよい。 According to one embodiment, the second module for testing human nucleic acid samples for gender and/or ancestry is a computer module having a plurality of computer instructions. Additionally or alternatively, the second module may include wet-lab experiments, such as experiments performing FISH testing. The FISH test results may be analyzed electronically or visually to determine the sex of the sample.

本願発明のもう一つの特徴によるコンピュータプログラムは、コンピュータによってそのプログラムが実行されると、該コンピュータが前記した複数の方法うちのどの方法でもその前記複数のステップa)、b)、c)およびd)を実行する複数の命令を含む。 According to another aspect of the present invention, there is provided a computer program which, when executed by a computer, causes said computer to perform said plurality of steps a), b), c) and d in any of said plurality of methods. ) contains multiple instructions that perform

本願発明のさらに別の特徴によるコンピュータ読み取り可能な記憶媒体は、コンピュータによって実行されると、そのコンピュータが前記した複数の方法うちのどの方法でもその前記複数のステップa)、b)、c)およびd)を実行する複数の命令を含む。 According to yet another aspect of the present invention, a computer-readable storage medium, when executed by a computer, causes the computer to perform the steps a), b), c) and the steps a), b), c) and contains a plurality of instructions to perform d).

既に説明したように、本願発明の方法は所定の病気の指標となる、または患者が所定の治療法に合っていることの指標となる患者のゲノム中の異常を特定するの特に適している。 As already explained, the methods of the present invention are particularly suitable for identifying abnormalities in a patient's genome that are indicative of a given disease or that the patient is in compliance with a given therapy.

ここで、「病気」という語は一つ以上のゲノムの異常で特徴づけられる任意の病気を含む。この「病気」という語は、癌、自己免疫病、心臓血管病および任意の遺伝病を含む。患者はいかなる種でもよいが、哺乳類であることが好ましく、ヒトであることがさらに好ましい。 As used herein, the term "disease" includes any disease characterized by one or more genomic abnormalities. The term "disease" includes cancer, autoimmune disease, cardiovascular disease and any genetic disease. The patient may be of any species, preferably a mammal, more preferably a human .

病気とその治療法により、当業者は患者に有効な個別の治療モードを選択できる。 Depending on the disease and its treatment, the person skilled in the art can select the individual treatment mode that will work for the patient.

結果として、本願発明のさらに別の特徴は、患者の病気を診断する方法に関するものであり、該方法は、患者の病気の症状の特定結果を引き出し、前記患者から核酸サンプルを取得し、本明細書に記載されたヒトの核酸サンプルのゲノム解析および/または遺伝子解析の方法にしたがって前記核酸サンプルのゲノム解析および/または遺伝子解析を行い、その解析によって前記患者の病気の状態を判定する。 As a result, yet another aspect of the present invention relates to a method of diagnosing a disease in a patient, the method eliciting an identification of a symptom of the disease in the patient, obtaining a nucleic acid sample from said patient, and performing the steps described herein. Genomic analysis and/or genetic analysis of said nucleic acid sample is performed according to the methods for genomic and/or genetic analysis of human nucleic acid samples described in the literature, and the analysis determines the disease status of said patient.

病気の症状の特定結果は任意の公知の方法によって引き出せばよく、例えばユーザーの入力として、電子健康記録もしくは電子診断記録から、または診断記録を含む患者のデータベースから引き出せばよい。 The identification of disease symptoms may be derived by any known method, for example, as user input, from electronic health or diagnostic records, or from patient databases containing diagnostic records.

この本願発明の特徴に関して、「病気の状態」という語は一つの実施形態では患者の病気が確認されたことを意味する。別の実施形態では、この語は病気をより精密に診断すること、すなわち、その病気の亜型のどれに該当するかを特定することを意味する。 With respect to this aspect of the present invention, the term "disease status" means in one embodiment that the patient's illness has been identified. In another embodiment, the term refers to more precisely diagnosing a disease, ie, identifying which subtype of the disease it falls under.

本願発明はさらに患者の病気を治療する方法に関し、該方法は、患者の病気の症状の特定結果を抽出し、前記患者から核酸サンプルを取得し、本明細書に記載されたヒトの核酸サンプルのゲノム解析および/または遺伝子解析の方法にしたがって前記核酸サンプルのゲノム解析および/または遺伝子解析を行い、その解析によって前記患者の病気の状態を判定して前記患者を治療する。 The present invention further relates to a method of treating a disease in a patient, comprising extracting a characteristic result of the patient's disease symptoms, obtaining a nucleic acid sample from said patient, and treating a human nucleic acid sample as described herein. Genomic analysis and/or genetic analysis of the nucleic acid sample is performed according to the method of genomic analysis and/or genetic analysis, and the analysis determines the disease status of the patient and treats the patient.

本願発明のさらに別の特徴は患者が所定の薬による治療に合っているかどうかを判定する方法に関し、該方法は、患者の病気の症状の特定結果を引き出し、前記患者から核酸サンプルを取得し、本明細書に記載されたヒトの核酸サンプルのゲノム解析および/または遺伝子解析の方法にしたがって前記核酸サンプルのゲノム解析および/または遺伝子解析を行い、前記患者の病気の症状に対する可能な治療法を引き出し、変異特定処理および変異の解釈を行い、さらに前記変異の解釈に基づいて引き出した可能な治療法を分類し、各治療法が前記患者にとって望ましく推奨される治療法として、または患者にとって禁忌となる治療法として分類される。 Yet another aspect of the present invention relates to a method of determining whether a patient is amenable to treatment with a given drug, the method comprising eliciting an indication of a patient's disease symptoms, obtaining a nucleic acid sample from the patient, Genomic analysis and/or genetic analysis of said nucleic acid sample according to the methods of genomic and/or genetic analysis of a human nucleic acid sample described herein to elicit possible treatments for disease symptoms in said patient. , perform mutation specific processing and interpretation of the mutation, and classify the derived potential therapies based on the interpretation of said mutation, each therapy as a desirable and recommended therapy for said patient, or contraindicated for said patient. Classified as a cure.

この方法によって、患者が利用できる治療法または患者に有効な治療法を判定することができる。例えば、所定の治療法が患者に合っているか、または所定の治療法の副作用が許容できると予測されるかを判定できる。 This method allows determination of treatments available to or effective for a patient. For example, it can be determined whether a given therapy is suitable for a patient or whether side effects of a given therapy are expected to be acceptable.

病気の症状の特定結果はここでも任意の公知の方法によって抽出すればよく、例えばユーザーの入力として、電子健康記録もしくは電子診断記録から、または診断記録を含む患者のデータベースから引き出せばよい。 Again, the identification of disease symptoms may be extracted by any known method, for example, as user input, from electronic health records or electronic diagnostic records, or from patient databases containing diagnostic records.

患者の病気の症状に対する可能な治療法は公知の方法、例えばデータベースから抽出すればよい。 Possible treatments for the patient's disease symptoms may be extracted from known methods, eg databases.

本願発明はさらに患者を治療する方法に関し、該方法は、患者の病気の症状の特定結果を引き出し、前記患者から核酸サンプルを取得し、本明細書に記載されたヒトの核酸サンプルのゲノム解析および/または遺伝子解析の方法にしたがって前記核酸サンプルのゲノム解析および/または遺伝子解析を行い、前記患者の病気の症状に対する可能な治療法を引き出し、変異特定および変異の解釈を行い、さらに前記変異の解釈に基づいて引き出した可能な治療法を分類し、各治療法が前記患者にとって望ましく推奨される治療法として、または前記患者にとって禁忌となる治療法として分類し、前記患者にとって望ましく推奨される治療法のうちの一つを選び、その選んだ治療法にしたがって前記患者を治療する。 The present invention further relates to a method of treating a patient, the method eliciting an identification of disease symptoms in the patient, obtaining a nucleic acid sample from said patient, performing genomic analysis of the human nucleic acid sample as described herein and and/or performing genomic and/or genetic analysis of said nucleic acid sample according to methods of genetic analysis to elicit potential treatments for disease symptoms in said patient, mutation identification and interpretation of mutations, and interpretation of said mutations. and classifying each therapy as a desirable and recommended therapy for said patient or as a therapy contraindicated for said patient and a desirable and recommended therapy for said patient one of which is selected and the patient is treated according to the selected therapy.

病気の症状の特定結果はここでも任意の公知の方法によって引き出せばよく、例えばユーザーの入力として、電子健康記録もしくは電子診断記録から、または診断記録を含む患者のデータベースから引き出せばよい。 Again, the identification of disease symptoms may be derived by any known method, for example, as user input, from electronic health or diagnostic records, or from patient databases containing diagnostic records.

患者の病気の症状に対する可能な治療法は公知の方法、ここでも例えばデータベースから引き出せばよい。 Possible treatments for the patient's disease symptoms may be drawn from known methods, again for example from databases.

本明細書の前記した内容並びに他の目的、特徴、特徴づける部分および利点は添付した図面と一緒に以下の発明の詳細な説明を参照することにより一層明らかになり、理解が深まる。
図1は、本願発明にしたがうヒトの核酸サンプルのゲノム解析および/または遺伝子解析する方法を示すフローの略図である。 図2は、本願発明にしたがうデータ解析の方法を示すフローの略図である。 図3は、複数のリードマッピングのステップを図解するものである。 図4は、本願発明にしたがうヒト核酸サンプルのゲノム解析および/または遺伝子解析する方法を示すフローの略図である。 図5は、MHパネルについて計算した、性分類器用に選ばれた特徴の分布を表す図である。 図6は、2つの性―祖先分類器(性分類器および祖先分類器)とEthSEQのメモリ使用量と実行時間の箱ひげ図である。
The foregoing as well as other objects, features, characterizing parts and advantages of the specification will become more apparent and understood by reference to the following detailed description of the invention in conjunction with the accompanying drawings.
FIG. 1 is a schematic flow diagram illustrating a method for genomic and/or genetic analysis of human nucleic acid samples according to the present invention. FIG. 2 is a flow diagram illustrating a method of data analysis in accordance with the present invention. FIG. 3 illustrates the multiple read mapping steps. FIG. 4 is a flow diagram illustrating a method for genomic and/or genetic analysis of human nucleic acid samples according to the present invention. FIG. 5 depicts the distribution of the features chosen for the gender classifier, calculated for the MH panel. FIG. 6 is a boxplot of memory usage and execution time for two gender -ancestor classifiers ( sex classifier and ancestry classifier) and EthSEQ.

添付した図面の詳細な説明
図1はヒトの核酸サンプルのゲノム解析および/または遺伝子解析のための通常のワークフローを図解し、このワークフローはヒトの核酸サンプルを抽出する工程と、シーケンスライブラリを用意する工程と、シーケンス工程と、後でデータ解析する工程を含む。本願発明の説明の中では、ヒトの核酸サンプルを抽出する工程と、シーケンスライブラリを用意する工程と、シーケンス工程とは周知の標準的な工程なので、詳細については説明しない。発明部分であるデータ解析の部分の詳細が図2に示されている。
DETAILED DESCRIPTION OF THE ACCOMPANYING FIGURES FIG. 1 illustrates a typical workflow for genomic and/or genetic analysis of a human nucleic acid sample, comprising the steps of extracting a human nucleic acid sample and preparing a sequence library. a step, a sequencing step, and a subsequent data analysis step. In the description of the present invention, the steps of extracting a human nucleic acid sample, preparing a sequence library, and sequencing are well-known and standard steps, and will not be described in detail. Details of the data analysis portion of the invention are shown in FIG.

図2は、図1のデータ解析ステップを示し、このデータ解析ステップは、第1の性および祖先試験ステップと、それに続くアライメント(またはリードマッピング)ステップ、変異特定処理ステップおよびアノテーションステップを含む。リードマッピング計算モジュール用の入力ファイルは、例えばFASTQファイルの形式の生の配列データである。リードマッピング計算モジュール用の出力ファイルは、例えば変異特定処理の計算モジュール用の入力ファイルであるBAMファイルである。変異特定処理の計算モジュール用の出力ファイルは、例えばVCFファイルである。後で用いるアノテーション計算モジュールは、VCFファイルからのデータに注釈を付け、注釈の付いたデータを要求されるPDFやHTMLのような形式にして出力するものでよい。ここで用いるファイルの形式は代表的なものを挙げたにすぎず、異なる形式にしてもよい。例えば、BAMの代わりにSAMファイル,CRAMファイル等を用いることができる。また、図2中のデータ解析パイプラインは入力ファイルまたは出力ファイルを一つの形式から別の形式に変換する複数のコンピュータモジュールを含むものでよい。 FIG. 2 shows the data analysis steps of FIG. 1, which include a first gender and ancestry testing step followed by alignment (or read mapping), variant identification processing and annotation steps. The input files for the read mapping calculation module are raw sequence data, eg in the form of FASTQ files. The output file for the read mapping calculation module is, for example, a BAM file which is the input file for the mutation identification processing calculation module. An output file for the computational module of the mutation identification process is, for example, a VCF file. An annotation computation module for later use may annotate the data from the VCF file and output the annotated data in the required format, such as PDF or HTML. The file formats used here are only typical ones, and different formats may be used. For example, SAM files, CRAM files, etc. can be used instead of BAM. Also, the data analysis pipeline in FIG. 2 may include multiple computer modules that convert input or output files from one format to another.

図2はさらに従来技術の状況を本願発明の状況と比較している。(図2中で「A」で示される)従来技術の方法は性および祖先を調べる試験を行わない。したがってアライメントおよび変異特定処理は標準的なHRGと比較して行われる。(図2中で「B」で示される)本願発明にしたがう方法は一つ以上のPHREGの選択を可能にする性および祖先を調べる試験を行う。その後のアライメントおよび変異特定処理はこの選択したPHREGと比較して行われる。 FIG. 2 further compares the prior art situation with the present invention situation. The prior art method (indicated by "A" in Figure 2) does not test for gender and ancestry. Alignment and mutation identification procedures are therefore performed relative to standard HRG. A method according to the present invention (denoted by "B" in FIG. 2) performs a test for gender and ancestry that allows selection of one or more PHREGs. Subsequent alignment and mutation identification procedures are performed relative to this selected PHREG.

図3は代表的なリードマッピングステップの概略を示している。この例では、NGSリードは祖先に特有のSNP「A」を有している。祖先に特有のSNP「A」は、以前は見つかっていないバイオマーカー変異「G」から極めて近い範囲に位置している。ここで近い範囲とはリードの長さまでの範囲である。 FIG. 3 outlines a representative read mapping step. In this example, the NGS read has an ancestral unique SNP 'A'. The ancestral unique SNP 'A' is located in close proximity to the previously undiscovered biomarker variation 'G'. Here, the near range is the range up to the length of the lead.

アライメント工程では、NGSリードは標準的なHRGと比較され、2つのミスマッチ、すなわち祖先に特有なSNPおよびバイオマーカー変異を生じている。しかし、アライメント工程では、同じNGSリードが対応するPHREGと比較されると、このPHREGは祖先に特有な位置で既に変更されていて、祖先に特有なSNPと同一なので、NGSリードが生じさせるミスマッチ、すなわちバイオマーカーは一つだけである。 In the alignment step, the NGS reads are compared to the canonical HRG, yielding two mismatches , an ancestral SNP and a biomarker mutation. However, in the alignment step, when the same NGS read is compared to the corresponding PHREG, this PHREG has already been altered at the ancestral-specific position and is identical to the ancestral-specific SNP, so the mismatch caused by the NGS read, That is, there is only one biomarker.

アライメントアルゴリズムはシーケンスされたリードと選択された基準ゲノムの間にミスマッチおよび/またはギャップができると必ず罰点を与える得点システムを用いる。その結果リードは最も高いスコアの位置にアライメントされる、またはすべての位置で点が低いため、もしくは非常に多くのゲノム位置でアライメント得点が同じために、どの位置にもアライメントされない。アライメントアルゴリズム実施中に判明するミスマッチによる罰点のため、リードは、PHREGに対してアライメントされる可能性よりも、HRGに対してアライメントされる可能性の方が低い。別の変異がリード長の範囲内にあるときは、特にこのようになる。したがって、このリードは捨てられるか、最悪の場合はHRGの誤った位置にアライメントされる。 The alignment algorithm uses a scoring system that penalizes any mismatches and/or gaps between the sequenced read and the selected reference genome. As a result, the read aligns to the position with the highest score, or does not align to any position either because all positions score low, or because too many genomic positions have the same alignment score . Reads are less likely to be aligned to HRG than to be aligned to PHREG because of mismatch penalties discovered during alignment algorithms. This is especially the case when another mutation falls within the read length. Therefore, this read is either discarded or, in the worst case, misaligned in the HRG.

このように、PHREGと比較することにより、祖先特有の変異部位の領域に由来するリードを救出できる効果があり、特にリードが祖先に特有な変異に加えてさらに別の変異(例えば、病気をおこさせる変異)を有する場合、この効果がある。これによって、以前は見つからなかったバイオマーカーを検出することが可能になる。 Thus, comparison with PHREG has the effect of rescuing reads that originate from regions of the ancestral mutation site, especially if the reads have additional mutations (e.g., disease-causing) in addition to ancestral mutations. have this effect. This makes it possible to detect previously undiscovered biomarkers.

図4は、本願発明によるヒトの核酸サンプルのゲノム解析および/または遺伝子解析をするための方法を示すフローチャートである。 FIG. 4 is a flowchart illustrating a method for genomic and/or genetic analysis of human nucleic acid samples according to the present invention.

第1ステップでは、複数のヒト基準ゲノムの組を、処理ユニットを有するシステムに提供する。この目的で、前記システムの第1コンピュータモジュールは遠くにある装置、例えばインターネットデータベースから基準ゲノムをダウンロードできる。前記処理ユニットはRAMのような内部メモリを有して命令を保存し実行することを可能にするプロセッサを少なくとも含み、プログラム可能なコンピュータであればいかなるコンピュータでもよい。前記処理ユニットはデータの組、例えば患者の臨床データおよび遺伝子プロフィルだけでなく遺伝子ヒト基準ゲノム、並びにコンピュータファイルを保存できる不揮発性記憶手段にアクセスできる。前記システムはLANまたはインタネットのような通信ネットワークにアクセスできる。 In a first step, a set of multiple human reference genomes is provided to a system having a processing unit. For this purpose, the first computer module of the system can download the reference genome from a remote device, eg an internet database. The processing unit may be any programmable computer, including at least a processor, having an internal memory such as RAM to enable storing and executing instructions. The processing unit has access to a non-volatile storage means capable of storing sets of data, such as clinical data and genetic profiles of patients, as well as genetic human reference genomes, as well as computer files. The system can access a communication network such as a LAN or the Internet.

第2ステップでは、前記システムのコンピュータシステムはヒト基準ゲノムを、好ましくは前記システムのユーザーが決めたコードレベルに調整する。このコードレベルは核酸の塩基コードまたは核酸の曖昧コードを含むものでよい。 所定の実施形態では、ヒト基準ゲノムを母集団に合わせる4つの異なるレベル、特に最大限保守的なエラー修正、メジャーアレルレベル、非稀少アレルレベルおよび検出されたすべてのアレルの完全なモデリング、が提案されこれらの4つのレベルのうちの二つでは、核酸の塩基コード(A,C,G,T)のみを用い、他の二つでは、IUPACの命名法による核酸の曖昧コードを用いる。 In a second step, the computer system of said system adjusts the human reference genome, preferably to a code level determined by the user of said system. This coding level may comprise a nucleic acid base code or a nucleic acid fuzzy code. In certain embodiments, four different levels of fitting the human reference genome to the population are proposed, specifically maximally conservative error correction, major allele level, non-rare allele level and full modeling of all detected alleles. Two of these four levels use only the base codes (A, C, G, T) of the nucleic acids, and the other two use the fuzzy codes of the nucleic acids according to the IUPAC nomenclature.

第3ステップでは、患者のヒト核酸サンプルが用意される。この目的で、前記コンピュータシステムのもう一つのコンピュータモジュールが例えばFASTQファイル形式の生の配列データを対象のサンプルの配列決定を遠くにあるプラットホームで行う配列決定をする研究所からダウンロードすることができる。代わりの実施形態では、配列決定は核酸サンプルの解析を行う部門で行ってもよく、その結果を内部で移す。第3ステップに関連して、前記システムは患者の臨床データ、例えば患者が罹患している病気についての情報や現在のその治療法についての情報等を入力ソースから受け取ることができる。患者の臨床データは、例えば患者から直接受け取ってもよい、例えばキーボードでタイプ、またはキーボードでタイプされたテキストから推定してもよく、またはGUI中の多機能選択型素子から受け取ってもよい。患者の臨床データは、電子健康記録(EHR)または電子医療記録(EMR)から受け取り、チップカード上にまたは通信ネットワークを介して検索可能なデータベース中に保存してもよい。 In a third step, a patient's human nucleic acid sample is provided. For this purpose, another computer module of the computer system can download raw sequence data, for example in FASTQ file format, from a sequencing laboratory performing sequencing of a sample of interest on a remote platform. In an alternative embodiment, sequencing may be performed by a department that performs analysis of nucleic acid samples and transfers the results internally. In connection with the third step, the system may receive clinical data of the patient from input sources, such as information about the disease the patient is suffering from and information about current treatments for it. The patient's clinical data may, for example, be received directly from the patient, typed at a keyboard, or inferred from text typed at a keyboard, or may be received from a multi-function selectable element in a GUI. Patient clinical data may be received from an electronic health record (EHR) or electronic medical record (EMR) and stored on a chip card or in a database searchable via a communication network.

第4ステップでは、ヒト核酸サンプルを試験して性および/または祖先を予測する。再び述べるが、この試験は被験者の近くで行ってもよく、または前記システムの別のコンピュータモジュールを使って、通信ネットワークを介して外部のサービスプロバイダから試験の結果を読み取ってもよい。性および/または祖先の試験は、第2の計算モジュールまたは別のウェットラボ実験によって行ってもよい。 In a fourth step, human nucleic acid samples are tested to predict gender and/or ancestry. Again, this test may be conducted in close proximity to the subject, or another computer module of the system may be used to read test results from an external service provider via a communications network. Gender and/or ancestry testing may be performed by a second computational module or another wet lab experiment.

第5のステップでは、第4ステップの性および/または祖先の試験の結果に基づいて、一つ以上のPHREGがヒト基準ゲノムの組から選択される。この選択は第3計算モジュールによって行われるものでよい。 In a fifth step, one or more PHREGs are selected from the set of human reference genomes based on the results of the gender and/or ancestry tests of the fourth step. This selection may be made by the third computing module.

第6ステップでは、ヒトの核酸サンプルを選択したPHREGに対してアライメントする。このアライメントNGS工程で得られたリードの組を、選択したPHREGにマッピングすることを含む。このアライメントは、第4コンピュータモジュールで行われるものでよく、出力ファイルはBAMファイルでよい。 In a sixth step, the human nucleic acid sample is aligned to the PHREG of choice. This involves mapping the set of reads obtained from this aligned NGS step to the PHREG of choice. This alignment may be performed in a fourth computer module and the output file may be a BAM file.

第7ステップでは、アライメントされたヒトの核酸サンプルの変異特定処理は選択したPHREGを基準として行われる。変異特定処理を行う前に、前記システムの所定のコンピュータモジュールがヒト基準ゲノムを再度調整して、好ましくは前記システムのユーザーが設定する所定のコードレベルにしてもよい。このコード化レベルは核酸の塩基コードまたは核酸の曖昧コードを含むものでよく、アライメントステップで用いるコードレベルと異なるものでよい。変異は最も適した最先端のアルゴリズムを用いて特定される。変異特定処理は第5計算モジュールによって行われ、その出力は変異特定処理形式(VCFファイル)のPHREGを基準とする変異の形の配列データを含むものでよい。 In a seventh step, mutation identification processing of the aligned human nucleic acid samples is performed relative to the selected PHREG. Prior to mutation identification processing, a predetermined computer module of the system may readjust the human reference genome, preferably to a predetermined code level set by the user of the system. This coding level may include the base code of the nucleic acid or the fuzzy code of the nucleic acid and may be different from the coding level used in the alignment step. Mutations are identified using the most suitable state-of-the-art algorithms. The mutation identification process is performed by a fifth computing module, the output of which may include sequence data in the form of mutations relative to PHREG in mutation identification processing format (VCF file).

第8ステップでは、変異の解釈が行われる。前記システムは特定した変異の解析を行うことができるようにした別の処理後計算モジュールを含むものでよい。一つの実施形態では、この処理後計算モジュールは患者中に所定の病気が有る、または無いことを示す遺伝子および/または変異部位の組を解析するものでよい。さらに、または代わりに、この処理後計算モジュールは患者の別の臨床データを考慮してその患者の病気の複数の治療法の組を決め、さらにその患者の遺伝子データ、具体的には特定された遺伝子の変異に基づいて、その患者に最も適した治療法を決めるものでよい。さらに別の実施形態では、この処理後計算モジュールは統計分析を行い、特定された変異から突然変異荷重、ヌクレオチド置換率およびホットスポット突然変異を決める。 In an eighth step interpretation of mutations is performed. The system may include another post-processing computational module that enables analysis of the identified mutations. In one embodiment, this post-processing computational module may analyze sets of genes and/or mutation sites that are indicative of the presence or absence of a given disease in a patient. Additionally or alternatively, the post-processing computational module considers additional clinical data of the patient to determine a plurality of therapy sets for the patient's disease, and further the patient's genetic data, specifically the identified Gene mutations may be used to determine the most appropriate therapy for the patient. In yet another embodiment, this post-processing computational module performs statistical analysis to determine mutation weights, nucleotide substitution rates and hotspot mutations from the identified mutations.

見つかった変異は治療の有効性または安全性を予測する分類器または診断または治療法の目的用の分類器として用いることができる。 The mutations found can be used as classifiers predictive of therapeutic efficacy or safety or as classifiers for diagnostic or therapeutic purposes.

第9ステップでは、診断および/または治療法の示唆が作られて、提供される。この目的で、第3、第4、第5計算モジュールおよび処理後計算モジュールの結果が出力されるように、これらのモジュールと機能的に接続された出力インタフェースを含むものでよい。この出力インタフェースは処理ユニットが計算した情報が提示されるようにする任意の表示手段またはプリンターと結合するものでよい。さらに、イントラネット用の通信システムとのリンクおよび/または出力インタフェースを介して実現される電子メールの発信および受信用のプログラムのようなインタネットとのリンクがあってもよい。 In a ninth step, diagnostic and/or therapeutic suggestions are made and provided. For this purpose, it may comprise an output interface operatively connected to the third, fourth, fifth and post-processing calculation modules such that the results of these modules are output. This output interface may be associated with any display means or printer that allows the information computed by the processing unit to be presented. In addition, there may be a link to a communication system for an intranet and/or a link to the Internet, such as a program for sending and receiving e-mail implemented via an output interface.

図5は分類(F:女性;M:男性)ごとに選んだ性識別用となる特徴を、MHパネルデータを用いて計算した分布を表す図表である。色の付いた垂直線はクラスの中央値を表す。
(イ)のグラフ:位置決めされたリードのX染色体/Y染色体の比
(ロ)のグラフ:X染色体上の500個の普通のSNP位置で調べた0.8~1.0の範囲のメジャーアレル頻度
(ハ)のグラフ:Y染色体上で正しく対になったリードの割合
図5は以下に記載する実施例に照らして観るべきである。
FIG. 5 is a chart showing the distribution of features for gender identification selected for each classification (F: female; M: male) calculated using MH panel data. Colored vertical lines represent class medians.
Graph of (a): Graph of X chromosome/Y ratio of localized reads (b): major alleles interrogated at 500 common SNP positions on the X chromosome, ranging from 0.8 to 1.0. Graph of Frequency (c): Percentage of Correctly Paired Reads on the Y Chromosome FIG.

図6は2つの性―祖先分類器とEthSEQを300TCGAのすべてのエクソームサンプルのメモリ使用量と実行時間の箱ひげ図である。図6は以下に記載する実施例に照らして観るべきである。 FIG. 6 is a boxplot of memory usage and execution time for all exome samples of 300 TCGA with two gender -ancestral classifiers and EthSEQ. FIG. 6 should be viewed in light of the examples described below.

アンセクストリ、すなわちエクソームシーケンスデータからリードアライメントを用いてサンプルの性および祖先を求める機械学習に基づくツールを紹介する。両方の形質についての被験者自身の申告は信頼できないことが知られている。アンセクストリの予測はサンプル取り違え検出の観点から、さらに偏見のないゲノム変異部位の解釈に用いるのにも役に立つ。大きな群を扱う場合には特に役に立つ。1300以上のサンプルについて用いたアンセクストリの性能評価試験は、アンセクストリは高精度であり、時間およびメモリの必要量が低いことを示した。 We present an antextry, a machine-learning-based tool that uses read alignments to determine sample sex and ancestry from whole -exome sequencing data. Subjects' own claims for both traits are known to be unreliable. Anxextri predictions are useful in terms of sample mix-up detection and also for use in unbiased interpretation of genomic mutation sites. It is especially useful when dealing with large groups. Performance evaluation tests of Ansectri using over 1300 samples have shown that Ansectri is highly accurate and has low time and memory requirements.

1. 緒言
過去10年間に観られた急激なコスト低下により、大きな群の次世代シーケンシングはますます普通に行われるようになっており(Cancer Genome Atlas Research Network et al., 2013; Rand et al., 2016参照)、エクソームアプローチは大規模な研究では主要な役割を果たしている。特に、精密医療や病気の包括的な特徴づけの分野において用いられている。このような状況で、サンプルの祖先および性を正しく知ることにはいろんな利点がある。第1に、サンプルの祖先および性を正しく知ることにより、複雑な手順およびサンプル処理に必要な手作業によって起きるサンプルの取り違えを特定することを支援して品質制御が容易になる。第2に、大部分のゲノム研究で存在する、またヒト基準ゲノム中に存在する強いヨーロッパ系のバイアスを避けるため、さらに様々な祖先を有する人の臨床ケアを改善するため、祖先は変異の影響を解釈する上で極めて重要である(Etrovski et al., 2016; Mersha et al., 2015; Fakhro et al., 2016参照)。最後に、祖先は遺伝との関連を調べる研究で広く用いられ、集団の層別による誤った病気との関連付けを避けている(Wu et al., 2011参照)。性および祖先の自己申告は信頼できないことが多いので(Mersha et al., 2015; Ainsworth, 2015参照)、ゲノム情報を用いた特定が必要である。
1. Introduction Next-generation sequencing of large populations has become increasingly common due to the rapid cost decline observed over the past decade (Cancer Genome Atlas Research Network et al., 2013; Rand et al., 2013). 2016), whole -exome approaches play a major role in large-scale studies. In particular, it is used in the fields of precision medicine and comprehensive characterization of disease. In this situation, knowing the correct ancestry and sex of the sample has many advantages. First, accurate knowledge of sample ancestry and sex facilitates quality control by helping to identify sample mix-ups caused by the complex procedures and manual work required for sample processing. Second, to avoid the strong European ancestry bias present in most genomic studies and in the human reference genome, and to improve clinical care in persons of diverse ancestry, ancestry should be considered the influence of mutations. (see Etrovski et al., 2016; Mersha et al., 2015; Fakhro et al., 2016). Finally, ancestry is widely used in genetic association studies to avoid false disease associations due to population stratification (see Wu et al., 2011). Because self-reports of sex and ancestry are often unreliable (see Mersha et al., 2015; Ainsworth, 2015), identification using genomic information is necessary.

「アンセクストリ(AnSextry)」、すなわちロジスティック回帰分析に基づく機械学習方法は、全エクソームシーケンス ペア―エンドリード アライメントからから性および祖先を迅速かつ確実に特徴づけるために作られた。このアルゴリズムは標準的なファイルフォーマットに依存しており、現在ある次世代シーケンス解析のワークフローとすぐに一体化することができる。このアルゴリズムはすぐに使えるモデルを提供し、入力として単純なBAMファイルを必要とする。さらに、このアルゴリズムはメモリの必要量が少ないので、デスクトップコンピュータで動く。他の唯一の全エクソームのBAMファイルに基づく祖先推定ツールであるEthSEQ(Romanel et al., 2017参照)との比較試験は、「アンセクストリ」が精度、実行時間およびメモリ使用量において十分匹敵するものであることを示している。性の予測用の方法として他に公開されたものは現在までない。 "AnSextry," a machine learning method based on logistic regression analysis, was created to rapidly and reliably characterize sex and ancestry from whole-exome sequence pair-end read alignments . The algorithm relies on standard file formats and can be readily integrated into existing next-generation sequencing workflows. This algorithm provides a ready-to-use model and requires a simple BAM file as input. In addition, the algorithm has low memory requirements and runs on desktop computers. A comparative study with EthSEQ (see Romanel et al., 2017), the only other whole-exome BAM-file-based ancestry estimation tool, showed that 'Ansectri' was well comparable in accuracy, execution time and memory usage. indicates that there is To date, there are no other published methods for gender prediction.

2. 方法
2.1 アルゴリズム
全エクソームシーケンス ペア―エンドリード アライメントに基づいて個人の最も可能性の高い性と祖先を推定する2個の分類器の組を用意した。このツールは予測のためにリードマッピングおよび個々ヒトの遺伝子型の違いを利用する。
2. Method 2.1 Algorithm
A set of two classifiers was prepared that estimated the most likely sex and ancestry of an individual based on whole-exome sequence pair-end read alignments . This tool utilizes read mapping and individual human genotype differences for prediction.

分類器と祖先分類器はパイソン(Python)を用いるロジスティック回帰分析とサイキット・ラーン(Scikit-learn)に基づくものを用いた。これらの両方の分類器に対応する特徴は入力BAMファイルから求められた。ペアエンドリードは位置決め用に初期設定されたBWA0.7.15を用いてアライメントされ、ローカルリアライメントや重複除去のような後処理ステップは用いなかった。GRCh37基準ゲノムを用いた。同ゲノムは非染色体のスーパーコンティグはなく、X染色体およびY染色体上でのアライメントのずれを避けるために、のマスクした擬似常染色体領域PAR1およびPAR2を有する。本願発明に関して、「スーパーコンティグ」という語は順番に並べられた複数のコンティグの組、すなわち、複数の塩基の順番が高い信頼度レベルでわかっている連続した長さのゲノム配列として通常理解される。 Gender and ancestry classifiers were based on logistic regression analysis using Python and Scikit-learn. Features corresponding to both of these classifiers were determined from the input BAM file. Paired-end reads were aligned using BWA 0.7.15 defaulted for alignment and no post-processing steps such as local realignment or duplicate elimination. A GRCh37 reference genome was used. The genome has no non-chromosomal supercontigs and has masked pseudo -autosomal regions PAR1 and PAR2 to avoid misalignment on the X and Y chromosomes. In the context of the present invention, the term "supercontig" is commonly understood as an ordered set of contigs, i.e., a contiguous length of genomic sequence in which the order of multiple bases is known with a high level of confidence. .

L1正則化を用いる2分類ロジスティック回帰分析によって性分類器は働き、各分類の確率を出力した。5分割交差検証を用いて適した正則化強度を決めた。学習用データに対してPR曲線(Precision-Recall Curve)を描いた場合に最も高いエリアを生じさせるモデルを最適モデルとして選んで、試験データの組を評価した。 The gender classifier was worked by a two-class logistic regression analysis with L1 regularization to output the probability of each class. A 5-fold cross-validation was used to determine the appropriate regularization strength. The model that produced the highest area when a PR curve (Precision-Recall Curve) was drawn for the training data was selected as the optimal model to evaluate the set of test data.

祖先分類器は、L2正則化を用いる多項ロジスティック回帰分析と主成分分析(Principal Component Analysis)に基づき、1000ヒトゲノムプロジェクトで定められた5大陸別の祖先のそれぞれの確率を出力した。5大陸別の祖先は、アフリカ人(AFR)、混血アメリカ人(AMR)、東アジア人(EAS)、欧州人(EUR)および南アジア人(SAS)である(The 1000 Genomes Project Consortium et al., 2015参照)。5分割交
差検証を用いて複数の適したパラメータを決めた。学習用データに対して最も高いF1点数をあげるモデルを選んで、そのモデルを試験データに適用して評価した。
The ancestry classifier was based on multinomial logistic regression analysis with L2 regularization and Principal Component Analysis and output probabilities for each of the five continental ancestry defined in the 1000 Human Genomes Project. The ancestry by five continents is African (AFR), Mixed American (AMR), East Asian (EAS), European (EUR) and South Asian (SAS) (The 1000 Genomes Project Consortium et al. , 2015). A 5-fold cross-validation was used to determine multiple suitable parameters. A model that gave the highest F1 score for training data was selected, and the model was applied to test data for evaluation.

2.2 特徴
分類器に用いる特徴としてX染色体とY染色体の間のアライメントの違いに基づくものを用いた(図5参照)。Y染色体上で正しく対になったリードの割合だけでなくY染色体リードに対するX染色体リードの比率を用いた。さらに、X染色体上の500個のよく知られたエキソン領域のSNP位置でのメジャーアレルの頻度を組み合わせた。集団のバイアスを除くため、主要な祖先の間で頻度が高いSNPを選んだ。
2.2 Features The features used in the sex classifier were based on the alignment difference between the X and Y chromosomes (see Figure 5). The ratio of X-chromosome reads to Y-chromosome reads was used as well as the percentage of correctly paired reads on the Y chromosome. In addition, we combined the frequencies of major alleles at SNP positions in 500 well-known exonic regions on the X chromosome. SNPs with high frequency among the primary ancestors were chosen to eliminate population bias.

祖先分類器に用いるために、アジレント社のオールエクソンキット(バージョン5、バージョン6、バージョン6+コスミック(COSMIC))とモレキュラーヘルス社の全癌種遺伝子パネル(ターゲットサイズ2.9Mbp)の目標領域の共通部分内にゲノム位置を有するすべての常染色体のSNPの遺伝子型を2.3で説明する1000個のゲノムデータから決定した。特徴の選択によって複数の祖先間で違いを示す有効なSNPを残し、その結果、祖先分類器用の特徴として用いる、5040個のゲノム位置に対応する10000個の遺伝子型が得られた。対応するBEDファイルは別表1に示され、これを用いて任意の目標とする配列決定キットとの重複を決定できる。 Common target regions of Agilent's All Exon Kit (Version 5, Version 6, Version 6 + COSMIC) and Molecular Health's Pan Cancer Gene Panel (target size 2.9 Mbp) for use in ancestry classifiers All autosomal SNPs with genomic locations within the segment were genotyped from the 1000 genomic data described in 2.3. Feature selection left valid SNPs showing differences among multiple ancestors, resulting in 10000 genotypes corresponding to 5040 genomic locations to be used as features for the ancestry classifier. The corresponding BED file is shown in Appendix 1 and can be used to determine overlap with any targeted sequencing kit.

2.3 データ
多様な祖先からデータを得るために、1000ヒトゲノムプロジェクト第3段階からの1735人の個人からのゲノムデータを用いて祖先分類器を学習させた。大陸別の複数の祖先(AFR、AMR、EAS、EUR、SAS)を分類に用い、複数の個人を無差別に選んで、各分類を均衡させた。694人の個人が試験の組の一部であった。
2.3 Data To obtain data from diverse ancestry, an ancestry classifier was trained using genomic data from 1735 individuals from the 1000 Human Genomes Project Phase 3. Multiple ancestry by continent (AFR, AMR, EAS, EUR, SAS) was used for classification and multiple individuals were randomly selected to balance each classification. 694 individuals were part of the study set.

3種のがん(膀胱癌、肺腺癌/扁平上皮細胞肺癌、胃癌)に対応する、人種と性を自己申告させた300人の個人からのプライマリー全エクソームのコントロールデータを試験としてTCGA(cancergenome.nih.gov参照)からダウンロードした。アジレント社のシュアセレクト・ヒューマン・オール・エキソン(SureSelect Human All Exon)50Mbキットを用いてすべてのサンプルをシーケンスした。無差別にデータを選んで、TCGAのカテゴリに対応する均衡した分類のサイズにした。すなわち150人の男と150人の女で、しかも100人の白人、100人のアジア人および100人の黒人またはアフリカ・アメリカ系人とした。 A study set of primary whole exome control data from 300 self-reported race and sex individuals corresponding to 3 types of cancer (bladder cancer, lung adenocarcinoma/squamous cell lung cancer, gastric cancer) Downloaded from TCGA (see cancergenome.nih.gov). All samples were sequenced using Agilent's SureSelect Human All Exon 50Mb kit. Data were randomly selected to bring the size of the balanced class corresponding to the TCGA categories. 150 men and 150 women, 100 Caucasians, 100 Asians and 100 Blacks or African Americans.

を自己申告した988人の癌患者からの配列決定用データをモレキュラーヘルス社の全癌種遺伝子パネルを用いて配列決定して、そのデータを用いて性分類器を学習させ、試験した。無差別に個人を選んで、女/男の分類を均衡させた。396のケースを性分類器用の試験データとして無差別に選んだ。前記した300のTCGAケースを追加の試験の組として用いた。 Sequencing data from 988 self-reported gender cancer patients were sequenced using Molecular Health's pan-cancer gene panel, and the data was used to train and test a sex classifier. . Individuals were randomly selected to balance the female/male classification. 396 cases were randomly selected as test data for the sex classifier. The 300 TCGA cases described above were used as an additional test set.

3. 結果
3.1 性分類器
モレキュラーヘルス社の全癌種遺伝子パネルによって配列決定した592のデータ組を用いて性分類器を学習させた。ペアエンドリードをアライメントし、方法の章で説明したように特徴を計算した。公差検証により方法を調整した後、該方法を2個のデータ組に適用し
て性能評価をおこなった。用いたデータ組は、前記した遺伝子パネルによって配列決定した396人の個人と利用できる全エクソームデータによって配列決定した300人のTCGAの個人である。
3. 3. Results 3.1 Gender Classifier A gender classifier was trained using 592 data sets sequenced by the Molecular Health Pan Cancer Gene Panel. Paired-end reads were aligned and features were calculated as described in the methods section. After tuning the method by tolerance verification, the method was applied to two data sets for performance evaluation. The datasets used were 396 individuals sequenced by the gene panel described above and 300 TCGA individuals sequenced by available whole-exome data.

パネル試験データに基づき、性分類器の平均正確度は97.5%になっており、10人の個人(5人の男、5人の女)を誤分類した(表1参照)。誤分類は低いカバレッジとは関係がなかった。 Based on panel test data, the gender classifier had an average accuracy of 97.5%, misclassifying 10 individuals (5 male, 5 female) (see Table 1). Misclassification was not associated with low coverage.

Figure 2021101629000001
Figure 2021101629000001

表1は、モレキュラーヘルス社の全癌種遺伝子パネルによって配列決定された個人の詳細なデータである。このデータは予測された性が自己申告した性と一致しなかった場合を示す。すべてのサンプルについてのカバレッジの中央値は2116である。すべての誤分類されたサンプルの平均カバレッジは、この中央値に近いか、またはこの中央値よりも大きく、誤分類はカバレッジの中央値よりも低いことに関係していないと考えられる。 Table 1 provides detailed data for individuals sequenced by the Molecular Health Pan Cancer Gene Panel. This data shows when the predicted gender did not match the self-reported gender . The median coverage for all samples is 2116. The average coverage of all misclassified samples is close to or greater than this median, and misclassification is not considered related to lower than median coverage.

一般の集団で1%の確率で性の発達の異常がおきると考えられる(Ainsworth, 2015参照)ので、誤分類されたケース中のいくつかは実際には正し分類されたが、自己申告した性が正しくなかった可能性がある。 Since there is a 1% chance of abnormalities in gender development in the general population (see Ainsworth, 2015), some of the misclassified cases were in fact correctly classified, but self-reported The gender may have been incorrect.

TCGA試験データに基づくと、性分類器の正確度は100%になった。300人すべてが正しく分類された。実行時間とメモリ使用量に関しても、性予測はすべてのケースで1分かからず、平均のメモリ使用量も526MBであった(図6参照) Based on the TCGA test data, the accuracy of the sex classifier reached 100%. All 300 were correctly classified. In terms of execution time and memory usage, gender prediction took less than 1 minute in all cases, and the average memory usage was 526MB (see Figure 6).

3.2 祖先分類器
祖先分類器は1000ヒトゲノムプロジェクトからの1041個のデータ組で学習させた。2.2で説明したように、個々のヒトの遺伝子型がそれぞれ特徴として用いられた。最高性能のモデルを2つの試験データ組で決めた。2つの試験データ組は、全エクソームが配列決定された300人のTCGAの個人と1000ヒトゲノムプロジェクトからののこりの694人の個人である。
3.2 Ancestral Classifier An ancestral classifier was trained on 1041 data sets from the 1000 Human Genomes Project. Each individual human genotype was used as a feature, as described in 2.2. The best performing model was determined on two test data sets. The two test data sets are 300 TCGA individuals whose whole exomes have been sequenced and the remaining 694 individuals from the 1000 Human Genomes Project.

1000ヒトゲノム試験データを分類した祖先分類器の平均正確度は高く、99%になった。最も高い正確度はアジア系の祖先の場合であり、次に高かったのはアフリカ系と南アメリカ系の祖先であり(99%の正確度)、その次が欧州系の祖先であった(98%の正確度)。694人中、全部で5人のみが誤分類された。 The average accuracy of the ancestry classifier that classified the 1000 human genome test data was high, reaching 99%. The highest accuracy was for Asian ancestry, followed by African and South American ancestry (99% accuracy), followed by European ancestry (98% accuracy). % Accuracy). In total only 5 out of 694 were misclassified.

300人のTCGAエクソーム試験データ組について行った祖先分類器の分類結果は、正確度わずかに低く、96.33%であり、全部で11人が誤分類された。これらの結果は、EthSEQ(Romanel et al., 2017参照)に匹敵するものである。EthSEQは他の既知の祖先予測方法で唯一予め計算された適切なモデルを提供するものであり、単一の全エクソームのBAMファイルにそのまま適用できるものである。これら2つの結果は極めてよく一致しているが、EthSEQの正確度はわずかに低く(94%)、全部で18人が誤分類された。さらに、EthSEQの方が必要な実行時間が長く、必要なメモリも多い。本願発明の祖先分類器の場合、平均実行時間が28秒で平均メモリ使用量が540MBである一方、EthSEQの場合、マルチスレッディング(4つのコア)を有しているにもかかわらず、平均で4.8分かかり、平均で14,7GBを使用した(図6参照)。 The ancestral classifier's classification results for the 300 TCGA exome test data set were slightly less accurate at 96.33%, with a total of 11 misclassified individuals. These results are comparable to EthSEQ (see Romanel et al., 2017). EthSEQ is the only other known ancestry prediction method that provides a suitable pre-computed model and is directly applicable to a single whole exome BAM file. Although these two results are in very good agreement, EthSEQ was slightly less accurate (94%), misclassifying a total of 18 individuals. Furthermore, EthSEQ requires longer execution time and requires more memory. For the ancestor classifier of the present invention, the average execution time is 28 seconds and the average memory usage is 540 MB, while for EthSEQ, it averages 4.5 seconds despite having multi-threading (4 cores). It took 8 minutes and used 14.7 GB on average (see Figure 6).

結果から言える一つ重要な点として、誤分類されたデータ組に対するこれら二つのアルゴリズムの結果は極めてよく一致していた。TCGAによって与えられた種族と一致しなかった11人のうちの10人はEthSEQでも誤分類され、これらの10人のケースのうち8人については、両方の方法とも同じ祖先を予測した。このことは、これらの誤分類された人についてはTCGAの分類が間違っていた可能性があり、ここでTCGAの種族の情報は自己申告に基づくものである。共通に誤分類された10人のうち6人は、AFRまたはAMRと予測された。この結果は、自己申告の誤りはアフリカ系アメリカ人およびラテン系の集団では比較的多いと首肯するMershaらの説明と一致する。表2は誤分類された人たちの結果を示す。 One important takeaway from the results is that the results of these two algorithms on the misclassified data sets are in very good agreement. Ten of the 11 who were not matched to the race given by TCGA were also misclassified by EthSEQ, and for 8 of these 10 cases both methods predicted the same ancestry. This suggests that the TCGA classification may have been incorrect for these misclassified individuals, where the TCGA race information is based on self-reports. Six of the ten commonly misclassified were predicted to be AFR or AMR. This result is consistent with Mersha et al.'s explanation that self-report errors are relatively common in African American and Latino populations. Table 2 shows the results for those who were misclassified.

Figure 2021101629000002
Figure 2021101629000003
Figure 2021101629000002
Figure 2021101629000003

表2は(アンセクトリあるいはEthSEQまたは両方による)予測がTCGAの自己申告した人種と一致しなかったTCGAの個人の詳細である。TCGAの人種は、「黒人またはアフリカ系アメリカ人(黒人/アフリカ系アメリカ人)、「白人」および「アジア人」を含む。白い行は、アンセクストリおよびEthSEQのいずれもTCGAの人種と一致しなかったサンプルに対応した。薄灰色の行はEthSEQの予測のみがTCGAと一致しなかったサンプルであった。さらに、濃配色のサンプルはアンセクトリの予測のみがTCGAと一致しなかったサンプルであった。遺伝子座のカバレッジが不十分な場合、その遺伝子座の遺伝子型はアンセクトリの予測用の基準から推定した。すべてのサンプルのカバレッジの中央値は91xであり、誤分類されたサンプルの大部分のカバレッジはこの中央値以上であり、したがって誤分類が、カバレッジが中央値よりも低いことと関係しているとは考えられなかった。さらに、すべてのサンプルのアンセクストリ分類用の推定された遺伝子型の数の中央値は390であり、これは誤分類されたアンセクトリのサンプルの中央値(393)に近かった。300人すべてのTCGAサンプルの推定された遺伝子型の数は、227(最少値)と690(最多値)の間でばらついており、10~15%の推定された遺伝子型がアンセクストリの予測に悪影響を与えたとは考えられない。興味深いことに、アンセクストリが誤分類し、EthSEQが誤分類しなかった唯一の個人はTCGAによれば白人に分類されたが、アンセクストリ分類器は実際には混血であると予測し、その確率はAMR54.7%およびEUR45,1%の確率であった。 Table 2 details TCGA individuals whose predictions (by Ansectry or EthSEQ or both) were not consistent with TCGA self-reported race. TCGA race includes “Black or African American (Black/African American),” “Caucasian,” and “Asian.” White rows corresponded to samples that were neither unsextri nor EthSEQ matched to TCGA race. Light gray rows were samples where only EthSEQ predictions were inconsistent with TCGA. In addition, the dark-colored samples were the only samples in which Ansectri's predictions did not agree with TCGA. If the coverage of a locus was insufficient, the genotype at that locus was inferred from the criteria for prediction of the unsector. The median coverage of all samples was 91x, and the coverage of the majority of misclassified samples was above this median, thus suggesting that misclassification is associated with coverage lower than the median. was inconceivable. Furthermore, the median number of estimated genotypes for the unclassified class of all samples was 390, which was close to the median number of misclassified unclassified samples (393). The number of inferred genotypes for all 300 TCGA samples varied between 227 (lowest) and 690 (highest), with 10-15% of inferred genotypes adversely affecting unsextri predictions. cannot be considered to have given Interestingly, the only individual that the unsextri misclassified but not the EthSEQ misclassified was classified as Caucasian according to the TCGA, whereas the unsextri classifier actually predicted that he was mixed race, with a probability of AMR54 .7% and EUR45,1% probability.

4. 結論
全エクソームからのアライメントされたペアエンドリードに基づいて、またはターゲットサイズが許すならばターゲットシーケンス実験に基づいて、個人の性および祖先を確実に、かつ容易に判定する新規な方法であるアンセクストリを示した。このツールはロジスティック回帰分析に依存する2個のパイソン(Python)に基づく分類器を提供し、このツールによる祖先の予測は集団遺伝学の分野で用いられる主にPCAに基づく方法を代替する手法になる。 アンセクストリは、そのまますぐに使える基準モデルを提供し、必要とするユーザー入力は最小である。アンセクストリは、速く、正確で、使用するのが容易である。
4. CONCLUSIONS: Ansectri, a novel method to reliably and easily determine an individual's sex and ancestry, based on aligned paired-end reads from whole exomes or, if target size permits, targeted sequencing experiments . showed . This tool provides two Python-based classifiers that rely on logistic regression analysis, and the prediction of ancestry by this tool is an alternative to the predominantly PCA-based methods used in the field of population genetics. Become. Ansectri provides an out-of-the-box reference model and requires minimal user input. Ansextry is fast, accurate, and easy to use.

ディスクレーマ―
本明細書中では、複数の異なる著者が同じ目的で複数の異なる語を用いているため、「祖先に特有の」/「民族に特有の」/「集団に特有の」という語は互いに交換可能に用いられている。
Disclaimer
In this specification, the terms "ancestry-specific"/"ethnic-specific"/"group-specific" are interchangeable, as different authors use different terms for the same purpose. used for

参照文献
1. Lander, E. S. et al. Initial sequencing and analysis of the human genome.
Nature 409: 860-921 (2001). [PMID: 11237011]
2. Church, D. M. et al. Modernizing reference genome assemblies. PLoS Biol. 9: e1001091 (2011). [PMID: 21750661]
3. Harrow, J. et al. GENCODE: the reference human genome annotation for The ENCODE Project. Genome Res. 22: 1760-1774 (2012). [PMID 22955987]
4. ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature 489: 57-74 (2012). [PMID: 22955616]
5. 1000 Genomes Project Consortium et al. A global reference for human genetic variation. Nature 526: 68-74 (2015). [PMID: 26432245]
6. Li H & Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25: 1754-1760 (2009). [PMID: 19451168]
7. DePristo, M. A. et al. A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat. Genet. 43: 491-498 (2011). [PMID: 21478889]
8. Horton, R. et al. Variation analysis and gene annotation of eight MHC haplotypes: the MHC Haplotype Project. Immunogenetics 60: 1-18 (2008). [PMID: 18193213]
9. Pei, B. et al. The GENCODE pseudogene resource. Genome Biol.13: R51 (2012). [PMID: 22951037]
10. Degner, J. F. et al. Effect of read-mapping biases on detecting allele-specific expression from RNA-sequencing data. Bioinformatics 25: 3207-3212 (2009). [PMID: 19808877]
11. Brandt, D. Y. C. et al. Mapping Bias Overestimates Reference Allele Frequencies at the HLA Genes in the 1000 Genomes Project Phase I Data. G3 5: 931-941 (2015). [PMID: 25787242]
12. Novak A.; Hickey G.; Garrison E.; Blum S.; Connelly A.; Dilthey A; Eizenga J.; Elmohamed M.; Guthrie S.; Kahles A.; Keenan S.;e Kelleher J.; Kural D.; Li H.; Lin M.; Miga K.; Ouyang N.; Rakocevic G.; Smuga-Otto M.; Zaranek A.; Durbin R.; McVean G.; Haussler D.; (https://www.biorxiv.org/content/biorxiv/early/2017/01/18/101378.full.pdf)
13. Paten B, Novak AM, Eizenga JM, Garrison E. Genome graphs and the evolution of genome inference. Genome Res. 5: 665-676 (2017) [PMID: 28360232]
14. Snyder M., et al. Personal genome sequencing: current approaches and challenges. Genes Dev. 5, 423-431 (2010) [PMID: 20194435]
15. Young, A.L. et al. A new strategy for genome assembly using short sequence reads and reduced representation libraries. Genome Res 2: 249-256 (2010) [PMID:20123915]
16. Flicek, P & Birney, E. Sense from sequence reads: methods for alignment and assembly. Nat Methods. 6: S6-S12 (2009) [PMID 19844229]
17. Chen R . & Butte A.J. The reference human genome demonstrates high risk of type 1 diabetes and other disorders. Pac Symp Biocomput. 2011:231-242 (2011) [PMID: 21121051]
18. International Human Genome Sequencing Consortium. 2001. Initial sequencing and analysis of the human genome. Nature 409: 860-921 (2001) [PMID: 11237011]
19. International Human Genome Sequencing Consortium. 2004. Finishing the euchromatic sequence of the human genome. Nature 431: 931-945 (2004) [PMID: 15496913]
20. Schneider V.A. et al. Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly. Genome Res. 5:849-864. (2017) [PMID: 28396521]
21. [Editorial (October 2010). "E pluribus unum". Nature Methods. 5: 331. doi:10.1038/nmeth0510-331. (2010) [PMID: 20440876]
22. Nielsen R., Paul J. S., Albrechtsen A., Song Y. S. Genotype and SNP calling from next-generation sequencing data. Nat. Rev. Genet. 12: 443-45. (2011) [PMID: 21587300]
23. Fakhro, K. A., Staudt M. R., Ramstetter M. D., Robay A., Malek J. A., Badii R., et al. The Qatar genome: a population-specific tool for precision medicine in the Middle East. Hum. Genome Var. 3:16016 Human Genome Variation (2016) 3, 16016 doi:10.1038/hgv.2016.16; published online 30 June 2016 (2016) [PMID: 27408750]
24. Zayed H. The Qatar genome project: translation of whole-genome sequencing into clinical practice. Int J Clin Pract. 10: 832-834 doi: 10.1111/ijcp.12871. Epub 2016 Sep (2016) [PMID: 27586018]
25. Sanger F., et al. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci U S A. 74:5463-5467. (1977) [PMID: 271968]
26. Venter, J.C. et al. The Sequence of the Human Genome. Science 291: 1304-1351. (2001) [PMID: 11181995]
27. Petrovski S & Goldstein D.B. Unequal representation of genetic variation across ancestry groups creates healthcare inequality in the application of precision medicine. Genome Biol 2016;17:157.doi: 10.1186/s13059-016-1016-y. (2016) [PMID: 27418169]
28. Koboldt DC, Ding L, Mardis ER, Wilson RK. Challenges of sequencing human genomes. Brief Bioinform. 11:484-498. (2010) [PMID: 20519329]
29. Dewey F.E., Chen R., Cordero S.P., Ormond K.E., Caleshu C., Karczewski K.J. et al. Phased whole-genome genetic risk in a family quartet using a major allele reference sequence. PLoS Genet. 2011 Sep;7(9):e1002280. doi: 10.1371/journal.pgen.1002280. Epub 2011 Sep 15. (2011) [PMID: 21935354]
30. Cao H, Wu H, Luo R, Huang S, Sun Y, Tong X et al. De novo assembly of a haplotype-resolved human genome. Nat Biotechnol 33: 617-622. (2015) [PMID: 26006006]
31. Wu L., Yavas G., Hong H., et al. Direct comparison of performance of single nucleotide variant calling in human genome with alignment-based and assembly-based approaches. Sci Rep. 2017 Sep 8;7(1):10963. doi: 10.1038/s41598-017-10826-9. (2017) [PMID: 28887485]
32. Meyer, L. R. et al. The UCSC Genome Browser database: extensions and updates 2013. Nucleic acids research41: D64-D69 (2013). [PMID: 23155063]
33. Sudmant, P. H. et al. An integrated map of structural variation in 2,504 human genomes. Nature 526: 75-81 (2015). [PMID: 26432246]
34. Iqbal, Z., Caccamo, M., Turner, I., Flicek, P. & McVean, G. De novo assembly and genotyping of variants using colored de Bruijn graphs. Nature genetics 44: 226-232 (2012). [PMID: 22231483]
35. Cornish-Bowden A. (1985). Nomenclature for incompletely specified bases in nucleic acid sequences: recommendations 1984. Nucleic Acids Res. 13: 3021-3030.(1985) [PMID: 2582368]
36. Mersha T. B., & Abebe T. Self-reported race/ethnicity in the age of genomic research: its potential impact on understanding health disparities. Hum. Genomics 9:1. (2015) [PMID: 25563503]
37. Baye T. M. Inter-chromosomal variation in the pattern of human population genetic structure. Hum Genomics 5:220-240. (2011) [PMID: 21712187]
38. Fondevila M. et al. Revision of the SNPforID 34-plex forensic ancestry test: Assay enhancements, standard reference sample genotypes and extended population studies. Forensic Sci Int Genet 7: 63-74. (2013) [PMID: 22749789]
39. Ainsworth C. Sex redefined. Nature518: 288-291. doi: 10.1038/518288a. (2015) [PMID: 25693544]
40. Gall J. G., Pardue M.L. Formation and detection of RNA-DNA hybrid molecules in cytological preparations. Proc. Natl. Acad. Sci. USA 63, Nr. 2, 1969, S. 378-383, [PMID 4895535].
41. Kallioniemi A. et al. Comparative genomic hybridization for molecular cytogenetic analysis of solid tumors. Science Band 258, Nr. 5083, 1992, S. 818-821.
42. Goodwin S., McPherson JD, McCombie WR. Coming of age: ten years of next-generation sequencing technologies. Nat. Rev. Genet. 2016 May 17;17(6):333351
43. Al-Ali M, Osman W., Tay G.K., AlSafar H.S. A 1000 Arab genome project to study the Emirati population. J. Hum. Genet. 63(4): 533-536 (2018). [PMID: 29410509]
44. Cancer Genome Atlas Research Network et al. The Cancer Genome Atlas Pan-Cancer analysis project. Nat. Genet., 45(10), 1113-1120 (2013).
45. Rand,K.A. et al. Whole-exome sequencing of over 4100 men of African ancestry and prostate cancer risk. Hum. Mol. Genet., 25(2), 371-381 (2016).
46. Wu,C. et al. A Comparison of Association Methods Correcting for Popula-tion Stratification in Case-Control Studies. Ann. Hum. Genet., 75(3), 418-427 (2011).
47. Romanel,A. et al. EthSEQ: ethnicity annotation from whole exome sequencing data. Bioinformatics, 33(15), 2402-2404 (2017).
References
1. Lander, ES et al. Initial sequencing and analysis of the human genome.
Nature 409: 860-921 (2001). [PMID: 11237011]
2. Church, DM et al. Modernizing reference genome assemblies. PLoS Biol. 9: e1001091 (2011). [PMID: 21750661]
3. Harrow, J. et al. GENCODE: the reference human genome annotation for The ENCODE Project. Genome Res. 22: 1760-1774 (2012). [PMID 22955987]
4. ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature 489: 57-74 (2012). [PMID: 22955616]
5. 1000 Genomes Project Consortium et al. A global reference for human genetic variation. Nature 526: 68-74 (2015). [PMID: 26432245]
6. Li H & Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25: 1754-1760 (2009). [PMID: 19451168]
7. DePristo, MA et al. A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat. Genet. 43: 491-498 (2011). [PMID: 21478889]
8. Horton, R. et al. Variation analysis and gene annotation of eight MHC haplotypes: the MHC Haplotype Project. Immunogenetics 60: 1-18 (2008). [PMID: 18193213]
9. Pei, B. et al. The GENCODE pseudogene resource. Genome Biol.13: R51 (2012). [PMID: 22951037]
10. Degner, JF et al. Effect of read-mapping biases on detecting allele-specific expression from RNA-sequencing data. Bioinformatics 25: 3207-3212 (2009). [PMID: 19808877]
11. Brandt, DYC et al. Mapping Bias Overestimates Reference Allele Frequencies at the HLA Genes in the 1000 Genomes Project Phase I Data. G3 5: 931-941 (2015). [PMID: 25787242]
12. Novak A.; Hickey G.; Garrison E.; Blum S.; Connelly A.; Kural D.; Li H.; Lin M.; Miga K.; Ouyang N.; /www.biorxiv.org/content/biorxiv/early/2017/01/18/101378.full.pdf)
13. Paten B, Novak AM, Eizenga JM, Garrison E. Genome graphs and the evolution of genome inference. Genome Res. 5: 665-676 (2017) [PMID: 28360232]
14. Snyder M., et al. Personal genome sequencing: current approaches and challenges. Genes Dev. 5, 423-431 (2010) [PMID: 20194435]
15. Young, AL et al. A new strategy for genome assembly using short sequence reads and reduced representation libraries. Genome Res 2: 249-256 (2010) [PMID:20123915]
16. Flicek, P & Birney, E. Sense from sequence reads: methods for alignment and assembly. Nat Methods. 6: S6-S12 (2009) [PMID 19844229]
17. Chen R . & Butte AJ The reference human genome demonstrates high risk of type 1 diabetes and other disorders. Pac Symp Biocomput. 2011:231-242 (2011) [PMID: 21121051]
18. International Human Genome Sequencing Consortium. 2001. Initial sequencing and analysis of the human genome. Nature 409: 860-921 (2001) [PMID: 11237011]
19. International Human Genome Sequencing Consortium. 2004. Finishing the euchromatic sequence of the human genome. Nature 431: 931-945 (2004) [PMID: 15496913]
20. Schneider VA et al. Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly. Genome Res. 5:849-864. (2017) [PMID: 28396521]
21. [Editorial (October 2010). "E pluribus unum". Nature Methods. 5: 331. doi:10.1038/nmeth0510-331.
22. Nielsen R., Paul JS, Albrechtsen A., Song YS Genotype and SNP calling from next-generation sequencing data. Nat. Rev. Genet. 12: 443-45. (2011) [PMID: 21587300]
23. Fakhro, KA, Staudt MR, Ramstetter MD, Robay A., Malek JA, Badii R., et al. The Qatar genome: a population-specific tool for precision medicine in the Middle East. Hum. Genome Var. 16016 Human Genome Variation (2016) 3, 16016 doi:10.1038/hgv.2016.16; published online 30 June 2016 (2016) [PMID: 27408750]
24. Zayed H. The Qatar genome project: translation of whole-genome sequencing into clinical practice. Int J Clin Pract. 10: 832-834 doi: 10.1111/ijcp.12871. Epub 2016 Sep (2016) [PMID: 27586018]
25. Sanger F., et al. DNA sequencing with chain-terminating inhibitors. Proc Natl Acad Sci US A. 74:5463-5467. (1977) [PMID: 271968]
26. Venter, JC et al. The Sequence of the Human Genome. Science 291: 1304-1351. (2001) [PMID: 11181995]
27. Petrovski S & Goldstein DB Unequal representation of genetic variation across ancestry groups creates healthcare inequality in the application of precision medicine. Genome Biol 2016;17:157.doi: 10.1186/s13059-016-1016-y. (2016) [PMID : 27418169]
28. Koboldt DC, Ding L, Mardis ER, Wilson RK. Challenges of sequencing human genomes. Brief Bioinform. 11:484-498. (2010) [PMID: 20519329]
29. Dewey FE, Chen R., Cordero SP, Ormond KE, Caleshu C., Karczewski KJ et al. Phased whole-genome genetic risk in a family quartet using a major allele reference sequence. PLoS Genet. 2011 Sep;7(9 ):e1002280. doi: 10.1371/journal.pgen.1002280. Epub 2011 Sep 15. (2011) [PMID: 21935354]
30. Cao H, Wu H, Luo R, Huang S, Sun Y, Tong X et al. De novo assembly of a haplotype-resolved human genome. Nat Biotechnol 33: 617-622. (2015) [PMID: 26006006]
31. Wu L., Yavas G., Hong H., et al. Direct comparison of performance of single nucleotide variant calling in human genome with alignment-based and assembly-based approaches. Sci Rep. 2017 Sep 8;7(1) :10963. doi: 10.1038/s41598-017-10826-9. (2017) [PMID: 28887485]
32. Meyer, LR et al. The UCSC Genome Browser database: extensions and updates 2013. Nucleic acids research41: D64-D69 (2013). [PMID: 23155063]
33. Sudmant, PH et al. An integrated map of structural variation in 2,504 human genomes. Nature 526: 75-81 (2015). [PMID: 26432246]
34. Iqbal, Z., Caccamo, M., Turner, I., Flicek, P. & McVean, G. De novo assembly and genotyping of variants using colored de Bruijn graphs. Nature genetics 44: 226-232 (2012). [PMID: 22231483]
35. Cornish-Bowden A. (1985). Nomenclature for incompletely specified bases in nucleic acid sequences: recommendations 1984. Nucleic Acids Res. 13: 3021-3030.(1985) [PMID: 2582368]
36. Mersha TB, & Abebe T. Self-reported race/ethnicity in the age of genomic research: its potential impact on understanding health disparities. Hum. Genomics 9:1. (2015) [PMID: 25563503]
37. Baye TM Inter-chromosomal variation in the pattern of human population genetic structure. Hum Genomics 5:220-240. (2011) [PMID: 21712187]
38. Fondevila M. et al. Revision of the SNPforID 34-plex forensic ancestry test: Assay enhancements, standard reference sample genotypes and extended population studies. Forensic Sci Int Genet 7: 63-74. (2013) [PMID: 22749789]
39. Ainsworth C. Sex redefined. Nature518: 288-291. doi: 10.1038/518288a. (2015) [PMID: 25693544]
40. Gall JG, Pardue ML Formation and detection of RNA-DNA hybrid molecules in cytological preparations. Proc. Natl. Acad. Sci.
41. Kallioniemi A. et al. Comparative genomic hybridization for molecular cytogenetic analysis of solid tumors. Science Band 258, Nr. 5083, 1992, S. 818-821.
42. Goodwin S., McPherson JD, McCombie WR. Coming of age: ten years of next-generation sequencing technologies. Nat. Rev. Genet. 2016 May 17;17(6):333351
43. Al-Ali M, Osman W., Tay GK, AlSafar HS A 1000 Arab genome project to study the Emirati population. J. Hum. Genet. 63(4): 533-536 (2018). [PMID: 29410509]
44. Cancer Genome Atlas Research Network et al. The Cancer Genome Atlas Pan-Cancer analysis project. Nat. Genet., 45(10), 1113-1120 (2013).
45. Rand, KA et al. Whole-exome sequencing of over 4100 men of African ancestry and prostate cancer risk. Hum. Mol. Genet., 25(2), 371-381 (2016).
46. Wu,C. et al. A Comparison of Association Methods Correcting for Population Stratification in Case-Control Studies. Ann. Hum. Genet., 75(3), 418-427 (2011).
47. Romanel, A. et al. EthSEQ: ethnicity annotation from whole exome sequencing data. Bioinformatics, 33(15), 2402-2404 (2017).

NGSリードマッピング用の基準としてPHREGを用いることにより、臨床に用いるのに適したバイオマーカーのカバレッジを増やす
発明者らは全エクソームキャプチャーイルミナシーケンスを用いて配列決定されたGDC/TCGA(参考文献1参照)からの741個の生殖細胞系列サンプルを用いた。このデータ組は、アフリカ人(AFR)祖先の155個のサンプル、ラテンアメリカ人/混血アメリカ人(AMR)祖先の33個のサンプル、欧州人(EUR)祖先の354個のサンプル、および南アジア人(SAS)祖先の20個のサンプルを有していた。ノヴォアライン(Novoalign)4.00.1を用いて、各サンプルは標準ヒト基準ゲノム(HRG)GRCh37
(参考文献3参照)に対して、発明者らの祖先分類器が定めたPHREGに対して、さらにHSA PHREGに対して位置決めした。HSA PHREGはAFR、AMR、EAS、EURおよびSASを含むGnom v2.1の祖先(参考文献4参照)のすべてについて変異データを集めることによって作成された。
By using PHREG as a basis for NGS read mapping, we increase the coverage of biomarkers suitable for clinical use . ) were used. This dataset consists of 155 samples of African (AFR) ancestry, 33 samples of Latino/Mixed American (AMR) ancestry, 354 samples of European (EUR) ancestry, and South Asian (SAS) had 20 samples of ancestry. Each sample was cloned from the standard human reference genome (HRG) GRCh37 using Novoalign 4.00.1.
(see reference 3), to the PHREG defined by our ancestral classifier, and also to the HSA PHREG. The HSA PHREG was created by collecting mutation data for all of the Gnom v2.1 ancestors (see reference 4), including AFR, AMR, EAS, EUR and SAS.

これらのリードマッピング戦略を行うために、発明者らは1288の遺伝子を対象にするジンコード(Gencode) v31CDSエキソン(参考文献6参照)中の1548個の病原性のクリンバー(ClinVar)・バイオマーカー・バージョン2019-12(参考文献6参照)のカバレッジを比較した。HRGではなくPHREGに対してアライメントした場合にクリンバー・バイオマーカーのカバレッジが増加し、その増加はAFRで211個、AMRで147個、EASで121個、EURで173個、SASで105個、さらにHSAで162個であった。カバレッジが増加した変異の大部分は集団に特有のヌクレオチドがPHREG中に埋め込まれたサイトの近傍であった。一つサンプルのリードをそのサンプルに最も近いPHREGにマッピングすれば、アライメントの際に起きるミスマッチの数は少なくなり、その結果カバレッジは増大し、HRGに対してアライメントする場合におきるカバレッジの減少がなくなる。 To perform these read-mapping strategies, we used 1548 three pathogenic ClinVar biomarkers in the Gencode v31 CDS exon (see ref. 6) targeting 1288 genes.・We compared the coverage of version 2019-12 (see reference 6). Increased Climber biomarker coverage when aligned to PHREG but not HRG: 211 for AFR, 147 for AMR, 121 for EAS, 173 for EUR, 105 for SAS, and more 162 in HSA. Most of the mutations with increased coverage were near sites where population-specific nucleotides were embedded in PHREG. By mapping the reads of a sample to the PHREG closest to that sample, fewer mismatches occur during alignment , resulting in increased coverage and no loss of coverage when aligned against HRG. .

要するに、発明者らの解析は、正しいPHREGによってカバレッジが増え、その結果臨床に用いるのに適したバイオマーカーの検出を改善できることを示している。 In summary, our analysis shows that correct PHREG can increase coverage and thus improve detection of biomarkers suitable for clinical use.

表3の簡単な説明(ClinVar_PHREG_coverage_diff_relative.xlsx)
HRGと比べてPHREGに対してアライメントする場合のカバレッジの違いを示したジンコード(Gencode) CDSのエキソン中のクリンバー・バイオマーカーのリスト(遺伝子名|コンティグ|開始|終了)。
HRGに対するアライメントに基づいて計算したカバレッジに対する、祖先ごとのすべてのケースおよびすべての741のケース(HSA)についての中央値としての各PHREG(AFR、AMR、EAS、EUR、SAS、HSA)のカバレッジの差を与える。正の数はカバレッジの増大を意味し、負の数はカバレッジの減少を意味する。
Brief description of Table 3 (ClinVar_PHREG_coverage_diff_relative.xlsx)
List of Climber biomarkers in exons of the Gencode CDS (gene name|contig| beginning | end ) showing differences in coverage when aligned to PHREG compared to HRG.
Coverage of each PHREG (AFR, AMR, EAS, EUR, SAS, HSA) as median for all cases by ancestry and all 741 cases (HSA) for coverage calculated based on alignment to HRG give a difference. A positive number means an increase in coverage, a negative number means a decrease in coverage.

Figure 2021101629000004
Figure 2021101629000005
Figure 2021101629000006
Figure 2021101629000007
Figure 2021101629000008
Figure 2021101629000009
Figure 2021101629000010
Figure 2021101629000004
Figure 2021101629000005
Figure 2021101629000006
Figure 2021101629000007
Figure 2021101629000008
Figure 2021101629000009
Figure 2021101629000010

実施例2の参考文献
[1] https://portal.gdc.cancer.gov
[2] http://www.novocraft.com/products/novoalign
[3] https://www.ncbi.nlm.nih.gov/grc/human
[4] https://gnomad.broadinstitute.org/faq
[5] https://www.ncbi.nlm.nih.gov/clinvar
[6] https://www.gencodegenes.org/human/release_31lift37.html
References for Example 2
[1] https://portal.gdc.cancer.gov
[2] http://www.novocraft.com/products/novoalign
[3] https://www.ncbi.nlm.nih.gov/grc/human
[4] https://gnomad.broadinstitute.org/faq
[5] https://www.ncbi.nlm.nih.gov/clinvar
[6] https://www.gencodegenes.org/human/release_31lift37.html

[別表1]

Figure 2021101629000011
Figure 2021101629000012
Figure 2021101629000013
Figure 2021101629000014
Figure 2021101629000015
Figure 2021101629000016
Figure 2021101629000017
Figure 2021101629000018
Figure 2021101629000019
Figure 2021101629000020
Figure 2021101629000021
Figure 2021101629000022
Figure 2021101629000023
Figure 2021101629000024
Figure 2021101629000025
Figure 2021101629000026
Figure 2021101629000027
Figure 2021101629000028
Figure 2021101629000029
Figure 2021101629000030
Figure 2021101629000031
Figure 2021101629000032
Figure 2021101629000033
Figure 2021101629000034
Figure 2021101629000035
Figure 2021101629000036
Figure 2021101629000037
Figure 2021101629000038
Figure 2021101629000039
Figure 2021101629000040
Figure 2021101629000041
Figure 2021101629000042
Figure 2021101629000043
Figure 2021101629000044
Figure 2021101629000045
Figure 2021101629000046
Figure 2021101629000047
Figure 2021101629000048
Figure 2021101629000049
Figure 2021101629000050
Figure 2021101629000051
Figure 2021101629000052
Figure 2021101629000053
Figure 2021101629000054
Figure 2021101629000055
Figure 2021101629000056
Figure 2021101629000057
Figure 2021101629000058
Figure 2021101629000059
Figure 2021101629000060
Figure 2021101629000061
Figure 2021101629000062
Figure 2021101629000063
Figure 2021101629000064
Figure 2021101629000065
Figure 2021101629000066
Figure 2021101629000067
Figure 2021101629000068
Figure 2021101629000069
Figure 2021101629000070
Figure 2021101629000071
Figure 2021101629000072
Figure 2021101629000073
Figure 2021101629000074
Figure 2021101629000075
Figure 2021101629000076
Figure 2021101629000077
Figure 2021101629000078
Figure 2021101629000079
Figure 2021101629000080
Figure 2021101629000081
Figure 2021101629000082
Figure 2021101629000083
Figure 2021101629000084
Figure 2021101629000085
Figure 2021101629000086
Figure 2021101629000087
Figure 2021101629000088
Figure 2021101629000089
Figure 2021101629000090
Figure 2021101629000091
Figure 2021101629000092
Figure 2021101629000093
Figure 2021101629000094
Figure 2021101629000095
Figure 2021101629000096
Figure 2021101629000097
Figure 2021101629000098
Figure 2021101629000099
Figure 2021101629000100
Figure 2021101629000101
Figure 2021101629000102
Figure 2021101629000103
Figure 2021101629000104
Figure 2021101629000105
Figure 2021101629000106
Figure 2021101629000107
Figure 2021101629000108
Figure 2021101629000109
Figure 2021101629000110
Figure 2021101629000111
Figure 2021101629000112
Figure 2021101629000113
Figure 2021101629000114
Figure 2021101629000115
Figure 2021101629000116
Figure 2021101629000117
Figure 2021101629000118
Figure 2021101629000119
Figure 2021101629000120
Figure 2021101629000121
Figure 2021101629000122
Figure 2021101629000123
Figure 2021101629000124
Figure 2021101629000125
Figure 2021101629000126
Figure 2021101629000127
Figure 2021101629000128
Figure 2021101629000129
Figure 2021101629000130
Figure 2021101629000131
Figure 2021101629000132
Figure 2021101629000133
Figure 2021101629000134
Figure 2021101629000135
Figure 2021101629000136
Figure 2021101629000137
[Table 1]
Figure 2021101629000011
Figure 2021101629000012
Figure 2021101629000013
Figure 2021101629000014
Figure 2021101629000015
Figure 2021101629000016
Figure 2021101629000017
Figure 2021101629000018
Figure 2021101629000019
Figure 2021101629000020
Figure 2021101629000021
Figure 2021101629000022
Figure 2021101629000023
Figure 2021101629000024
Figure 2021101629000025
Figure 2021101629000026
Figure 2021101629000027
Figure 2021101629000028
Figure 2021101629000029
Figure 2021101629000030
Figure 2021101629000031
Figure 2021101629000032
Figure 2021101629000033
Figure 2021101629000034
Figure 2021101629000035
Figure 2021101629000036
Figure 2021101629000037
Figure 2021101629000038
Figure 2021101629000039
Figure 2021101629000040
Figure 2021101629000041
Figure 2021101629000042
Figure 2021101629000043
Figure 2021101629000044
Figure 2021101629000045
Figure 2021101629000046
Figure 2021101629000047
Figure 2021101629000048
Figure 2021101629000049
Figure 2021101629000050
Figure 2021101629000051
Figure 2021101629000052
Figure 2021101629000053
Figure 2021101629000054
Figure 2021101629000055
Figure 2021101629000056
Figure 2021101629000057
Figure 2021101629000058
Figure 2021101629000059
Figure 2021101629000060
Figure 2021101629000061
Figure 2021101629000062
Figure 2021101629000063
Figure 2021101629000064
Figure 2021101629000065
Figure 2021101629000066
Figure 2021101629000067
Figure 2021101629000068
Figure 2021101629000069
Figure 2021101629000070
Figure 2021101629000071
Figure 2021101629000072
Figure 2021101629000073
Figure 2021101629000074
Figure 2021101629000075
Figure 2021101629000076
Figure 2021101629000077
Figure 2021101629000078
Figure 2021101629000079
Figure 2021101629000080
Figure 2021101629000081
Figure 2021101629000082
Figure 2021101629000083
Figure 2021101629000084
Figure 2021101629000085
Figure 2021101629000086
Figure 2021101629000087
Figure 2021101629000088
Figure 2021101629000089
Figure 2021101629000090
Figure 2021101629000091
Figure 2021101629000092
Figure 2021101629000093
Figure 2021101629000094
Figure 2021101629000095
Figure 2021101629000096
Figure 2021101629000097
Figure 2021101629000098
Figure 2021101629000099
Figure 2021101629000100
Figure 2021101629000101
Figure 2021101629000102
Figure 2021101629000103
Figure 2021101629000104
Figure 2021101629000105
Figure 2021101629000106
Figure 2021101629000107
Figure 2021101629000108
Figure 2021101629000109
Figure 2021101629000110
Figure 2021101629000111
Figure 2021101629000112
Figure 2021101629000113
Figure 2021101629000114
Figure 2021101629000115
Figure 2021101629000116
Figure 2021101629000117
Figure 2021101629000118
Figure 2021101629000119
Figure 2021101629000120
Figure 2021101629000121
Figure 2021101629000122
Figure 2021101629000123
Figure 2021101629000124
Figure 2021101629000125
Figure 2021101629000126
Figure 2021101629000127
Figure 2021101629000128
Figure 2021101629000129
Figure 2021101629000130
Figure 2021101629000131
Figure 2021101629000132
Figure 2021101629000133
Figure 2021101629000134
Figure 2021101629000135
Figure 2021101629000136
Figure 2021101629000137

別表2
chr1 36768200 rs1573020
chr1 159174683 rs2814778
chr1 204790977 rs2065160
chr2 7149155 rs896788
chr2 109513601 rs3827760
chr2 136616754 rs182549
chr3 168645035 rs1498444
chr4 38803255 rs4540055
chr4 159181963 rs2026721
chr5 33951693 rs16891982
chr7 4457003 rs917118
chr10 17064992 rs7897550
chr10 34755348 rs1978806
chr11 32424389 rs5030240
chr12 29369871 rs10843344
chr12 56603834 rs773658
chr13 20901724 rs1335873
chr13 22374700 rs1886510
chr13 34864240 rs2065982
chr14 36170607 rs10141763
chr14 101142890 rs730570
chr15 28365618 rs12913832
chr15 48426484 rs1426654
chr16 31079371 rs881929
chr16 90105333 rs3785181
chr17 75551667 rs2304925
chr18 75432386 rs1024116
chr19 42410331 rs2303798
chr20 38849642 rs1321333
chr21 16685598 rs722098
chr21 17710424 rs239031
chr21 25672460 rs2572307
chr22 26350103 rs5997008
chr22 47836412 rs2040411
Appendix 2
chr1 36768200 rs1573020
chr1 159174683 rs2814778
chr1 204790977 rs2065160
chr2 7149155 rs896788
chr2 109513601 rs3827760
chr2 136616754 rs182549
chr3 168645035 rs1498444
chr4 38803255 rs4540055
chr4 159181963 rs2026721
chr5 33951693 rs16891982
chr7 4457003 rs917118
chr10 17064992 rs7897550
chr10 34755348 rs1978806
chr11 32424389 rs5030240
chr12 29369871 rs10843344
chr12 56603834 rs773658
chr13 20901724 rs1335873
chr13 22374700 rs1886510
chr13 34864240 rs2065982
chr14 36170607 rs10141763
chr14 101142890 rs730570
chr15 28365618 rs12913832
chr15 48426484 rs1426654
chr16 31079371 rs881929
chr16 90105333 rs3785181
chr17 75551667 rs2304925
chr18 75432386 rs1024116
chr19 42410331 rs2303798
chr20 38849642 rs1321333
chr21 16685598 rs722098
chr21 17710424 rs239031
chr21 25672460 rs2572307
chr22 26350103 rs5997008
chr22 47836412 rs2040411

Claims (14)

ヒト核酸サンプルのゲノム解析・遺伝子解析のための配列データ解析方法であって、
(a) 少なくとも一つの性別特有基準ゲノム配列、および、少なくとも一つの祖先特有基準ゲノム配列、を含む複数のヒト基準ゲノム配列からなるグループを用意するステップと、
(b) 性別および祖先についてヒト核酸サンプルの配列を試験するステップと、
(c) 前記ステップ(b)の性および祖先についての試験の結果に基づいて、前記複数のヒト基準ゲノム配列からなるグループから一つの性別特有基準ゲノム配列と一つ以上の祖先特有基準ゲノム配列を選ぶステップと、
(d) 前記ヒト核酸サンプルの配列を前記ステップ(c)で選んだ性別特有基準ゲノム配列と前記ステップ(c)で選んだ祖先特有基準ゲノム配列アライメントするステップと、
(e) 前記ステップ(c)で選んだ性別特有基準ゲノム配列と前記ステップ(c)で選んだ祖先特有基準ゲノム配列に対して前記ステップ(d)でアライメントしたヒト核酸サンプルの配列の変異の特定を行うステップ、
を含む方法。
A sequence data analysis method for genomic/genetic analysis of a human nucleic acid sample, comprising:
(a) providing a group of a plurality of human reference genome sequences including at least one gender-specific reference genome sequence and at least one ancestry-specific reference genome sequence ;
(b) testing the sequence of the human nucleic acid sample for gender and ancestry ;
(c) one sex-specific reference genome sequence and one or more ancestry-specific reference genome sequences from the group of said plurality of human reference genome sequences based on the results of the tests for gender and ancestry of step (b); and
(d) aligning the sequence of the human nucleic acid sample to the sex-specific reference genomic sequence selected in step (c) and the ancestry-specific reference genomic sequence selected in step (c) ;
(e) identifying variations in the sequence of the human nucleic acid sample aligned in step (d) against the sex-specific reference genomic sequence selected in step (c) and the ancestry-specific reference genomic sequence selected in step (c); a step of
method including.
前記アライメントはメジャーアレルレベルまたは非稀少アレルレベルで行われる請求項1に記載する方法。 2. The method of claim 1, wherein said alignment is performed at the major allele level or the non-rare allele level. 前記変異の特定はメジャーアレルレベルまたは非稀少アレルレベルで行われる請求項3に記載する方法。 4. The method of claim 3, wherein the identification of said mutations is performed at the major allele level or the non-rare allele level. ステップ(a)で用意される前記複数のヒト基準ゲノム配列は、公表されたヒト基準ゲノム配列から得られたものである請求項1乃至のいずれかに記載する方法。 4. The method of any of claims 1-3 , wherein the plurality of human reference genome sequences provided in step (a) are obtained from published human reference genome sequences . 前記ステップ(b)における、前記性別についての試験はX染色体またはY染色体上の性特有遺伝子中の少なくとも一位置を試験すること、X染色体またはY染色体上の複数のヒトゲノムサンプルのアライメントの違いを利用すること、細胞遺伝学的試験、FISH解析およびCGH解析のうちの一つ以上を含む請求項1乃至のいずれかに記載する方法。 The testing for gender in step (b) comprises testing at least one position in a sex -specific gene on the X or Y chromosome; alignment of a plurality of human genomic samples on the X or Y chromosome; 5. The method of any of claims 1-4 , comprising one or more of utilizing differences, cytogenetic testing, FISH analysis and CGH analysis. 前記ステップ(c)における、前記祖先についての試験はヒト核酸サンプルの配列について用いる機械学習アルゴリズム、または祖先に特有の変異を利用する別の分類スキームに基づく請求項1乃至のいずれかに記載する方法。 6. Any of claims 1-5 , wherein the test for ancestry in step (c) is based on a machine learning algorithm used on sequences of human nucleic acid samples or another classification scheme that utilizes ancestry-specific mutations. how to. 前記ステップ(c)における、前記祖先についての試験は、少なくとも一つのゲノム位置の遺伝子型を用いること、複数のSNPアレイもしくは複数のSNPチップを試験すること、サンガー配列決定もしくは質量分析からのマーカーを試験すること、のうちの一つ以上を含む請求項1乃至のいずれかに記載する方法。 The testing for the ancestry in step (c) includes using genotypes for at least one genomic location, testing multiple SNP arrays or multiple SNP chips, using markers from Sanger sequencing or mass spectrometry. 7. A method according to any preceding claim, comprising one or more of: testing. 前記祖先についての試験はABL2、ATP1A3、CIC、CYP2C8、CYP2C9、EPHA3、EPHA7、ERBB3、ERG、ETV1、F2、FAS、HFE、IL11RA、IL2RA、ITGB6、KIF11、KIT、KLK3、LRP6、MDM4、NAT2、NTRK2、PDGFB、PIK3R1、PLA2G3、PLAU、PRKCB、RICTOR、SLC7A11、STAT3、T、TSC1、VCAM1、VDR、VEGFB、ACVRL1、AXL、CA9、CALCR、CASP9、ENG、EPHB1、ERBB4、ESR1、FGFR2、HPSE、HSP90AA1、ITK、MRE11A、PLK1、PTPRC、SERPINE1、SMC4、TERT、TLR3、WISP3、WT1、XRCC1、ANGPT2、ARID2、BARD1、CBR3、CDH2、CYP1B1、DDR2、DNMT3A、EPCAM、ERCC2、FANCG、FANCL、GSTP1、IRS2、ITGB1、JAK3、LHCGR、MSH6、NCF2、RNF43、SLC5A5、TMPRSS2、TNFRSF8、AKT1、CD248、CD4、ESR2、EZH2、IGF1R、ITGAV、ITGB2、KLHL6、MAP3K1、MET、MLL、MTHFR、NFKB1、NUP93、PARP8、RB1、RPE65、TSHR、ABL1、BLM、CYP19A1、DPP4、EPHA6、ERBB2、EWSR1、FOXP4、ITGAM、KDM5A、LPA、LTK、MLH1、PBRM1、PHLPP2、SF3B1、TNFRSF10A、ABCG2、ACPP、ADAM15、DPYD、EPHA5、EPHB6、FOLH1、KDR、MSH3、MST1R、NTRK1、ROCK2、SLC6A2、TET2、TGM2、TH、ABCB1、CD22、CD40、CD44、CDH20、CYP11B2、ERCC5、GPR124、IL7R、ITGB3、ITGB5、NCL、NOD2、NR4A1、PGR、PLCG1、PPP2R1A、PRAME、PTCH2、RET、SETD2、XPC、ASXL1、EPHB4、PLA2G6、SYK、TET1、EP300、FLT1、ITGA1、LOXL2、PDGFRB、PIK3CD、SSTR5、TEC、APC、ATR、CLU、CREBBP、CYP2D6、EML4、MMP2、PARP2、PDGFRA、TRPM8、CSF1R、DOT1L、FGFR3、FGFR4、GLP2R、IKBKE、JAK1、NOTCH2、SPEN、SPG7、BRCA1、CYP11B1、GNAS、ITGA5、LTF、NRP2、PTK2B、TNKS、ABCC1、CEACAM5、CYP4B1、EGFR、FLT3、INSR、PTCH1、SMARCA4、ZNF217、BCR、EEF2、SELP、SLCO1B1、ABCC2、FLT4、MTR、IL4R、MTOR、RPTOR、TEK、ATM、CARD11、FANCD2、MEFV、NF1、TP73、BRCA2、CD109、PTPRD、ABCC6、IGF2R、P2RX7、ROS1、ACE、PARP1、PRKDC、CENPE、TSC2、ALK、NOTCH1、TNC、NOTCH3、POLE、MLL2、MYH11、POLD1、GRIN3B、F5、FANCA、LRP1B、LRP2、VWFからなる遺伝子グループから選ばれる少なくとも一つの遺伝子を試験することを含む請求項1乃至のいずれかに記載する方法。 The progenitor tests include ABL2, ATP1A3, CIC, CYP2C8, CYP2C9, EPHA3, EPHA7, ERBB3, ERG, ETV1, F2, FAS, HFE, IL11RA, IL2RA, ITGB6, KIF11, KIT, KLK3, LRP6, MDM4, NAT2, NTRK2, PDGFB, PIK3R1, PLA2G3, PLAU, PRKCB, RICTOR, SLC7A11, STAT3, T, TSC1, VCAM1, VDR, VEGFB, ACVRL1, AXL, CA9, CALCR, CASP9, ENG, EPHB1, ERBB4, ESR1, FGFR2, HPSE, HSP90AA1, ITK, MRE11A, PLK1, PTPRC, SERPINE1, SMC4, TERT, TLR3, WISP3, WT1, XRCC1, ANGPT2, ARID2, BARD1, CBR3, CDH2, CYP1B1, DDR2, DNMT3A, EPCAM, ERCC2, FANCG, FANCL, GSTP1, IRS2, ITGB1, JAK3, LHCGR, MSH6, NCF2, RNF43, SLC5A5, TMPRSS2, TNFRSF8, AKT1, CD248, CD4, ESR2, EZH2, IGF1R, ITGAV, ITGB2, KLHL6, MAP3K1, MET, MLL, MTHFR, NFKB1, NUP93, PARP8, RB1, RPE65, TSHR, ABL1, BLM, CYP19A1, DPP4, EPHA6, ERBB2, EWSR1, FOXP4, ITGAM, KDM5A, LPA, LTK, MLH1, PBRM1, PHLPP2, SF3B1, TNFRSF10A, ABCG2, ACPP, ADAM15, DPYD, EPHA5, EPHB6, FOLH1, KDR, MSH3, MST1R, NTRK1, ROCK2, SLC6A2, TET2, TGM2, TH, ABCB1, CD22, CD40, CD44, CDH20, CYP11B2, ERCC5, GPR124, IL7R, ITGB3, ITGB5, NCL, NOD2, NR4A1, PGR, PLCG1, PPP2R1A, PRAME, PTCH2, RET, SETD2, XPC, ASXL1, EPHB4, PLA2G6, SYK, TET1, EP300, FLT1, ITGA1, LOXL2, PDGFRB, PIK3CD, SSTR5, TEC, APC, ATR, CLU, CREBBP, CYP2D6, EML4, MMP2, PARP2, PDGFRA, TRPM8, CSF1R, DOT1L, FGFR3, FGFR4, GLP2R, IKBKE, JAK1, NOTCH2, SPEN, SPG7, BRCA1, CYP11B1, GNAS, ITGA5, LTF, NRP2, PTK2B, TNKS, ABCC1, CEACAM5, CYP4B EGFR, FLT3, INSR, PTCH1, SMARCA4, ZNF217, BCR, EEF2, SELP, SLCO1B1, ABCC2, FLT4, MTR, IL4R, MTOR, RPTOR, TEK, ATM, CARD11, FANCD2, MEFV, NF1, TP73, BRCA2, CD109, Genes consisting of PTPRD, ABCC6, IGF2R, P2RX7, ROS1, ACE, PARP1, PRKDC, CENPE, TSC2, ALK, NOTCH1, TNC, NOTCH3, POLE, MLL2, MYH11, POLD1, GRIN3B, F5, FANCA, LRP1B, LRP2, and VWF 8. A method according to any one of claims 1 to 7 , comprising testing at least one gene selected from the group. 前記ヒト核酸サンプルは次世代シーケンシングすなわちNGSに由来する複数のリードからなる組を有し、前記アライメントは前記複数のリードを前記ステップ(c)で選んだ性別特有基準ゲノム配列と前記ステップ(c)で選んだ祖先特有基準ゲノム配列に対してマッピングすることを含む請求項1乃至のいずれかに記載する方法。 The human nucleic acid sample has a set of reads derived from next generation sequencing or NGS, and the alignment aligns the reads with the sex-specific reference genomic sequence selected in step (c). 9. A method according to any preceding claim, comprising mapping against the ancestry-specific reference genomic sequence chosen in ) . ヒト核酸サンプルの配列のゲノム解析または遺伝子解析用のコンピュータシステムであって、
(a) 少なくとも一つの性別特有基準ゲノム配列、および、少なくとも一つの祖先特有基準ゲノム配列、を含む複数のヒト基準ゲノム配列からなるグループを用意するコンピュータ命令を有する第1モジュールと、
(b) 性および祖先についてヒト核酸サンプルの配列を試験する第2モジュールと、
(c) 前記ステップ(b)における前記性および/または祖先についての試験の結果に基づいて、前記複数のヒト基準ゲノム配列からなるグループから一つの性別特有基準ゲノム配列と一つ以上の祖先特有基準ゲノム配列を選ぶコンピュータ命令を有する第3モジュールと、
(d) 前記ヒト核酸サンプルの配列を前記前記ステップ(c)で選んだ一つの性別特有基準ゲノム配列と前記ステップ(c)で選んだ一つ以上の祖先特有基準ゲノム配列にアライメントするコンピュータ命令を有する第4モジュールと、
(e) 前記ステップ(c)で選んだ性別特有基準ゲノム配列と前記ステップ(c)で選んだ祖先特有基準ゲノム配列に対して前記ステップ(d)でアライメントしたヒト核酸サンプルの配列の変異の特定を行うコンピュータ命令を有する第5モジュール、
を有するコンピュータシステム。
A computer system for genomic or genetic analysis of sequences of human nucleic acid samples, comprising:
(a) a first module having computer instructions for providing a group of a plurality of human reference genomic sequences including at least one gender-specific reference genomic sequence and at least one ancestry-specific reference genomic sequence ;
(b) a second module that tests the sequence of the human nucleic acid sample for gender and ancestry;
(c) one gender-specific reference genome sequence and one or more ancestry-specific sequences from the group of the plurality of human reference genome sequences based on the results of the tests for gender and/or ancestry in step (b); a third module having computer instructions for selecting a reference genome sequence ;
(d) computer instructions to align the sequences of said human nucleic acid sample to said one sex-specific reference genomic sequence selected in said step (c) and to one or more ancestry-specific reference genomic sequences selected in said step (c) ; a fourth module comprising
(e) identifying variations in the sequence of the human nucleic acid sample aligned in step (d) against the sex-specific reference genomic sequence selected in step (c) and the ancestry-specific reference genomic sequence selected in step (c); a fifth module having computer instructions for performing
A computer system having
コンピュータによって実行されると、そのコンピュータが請求項1乃至のいずれかの前記ステップ(a)~ステップ(d)を実行する命令を有するコンピュータプログラム。 A computer program product comprising instructions which, when executed by a computer, cause the computer to perform the steps (a) to (d) of any one of claims 1 to 9 . コンピュータによって実行されると、そのコンピュータが請求項1乃至のいずれかの前記ステップ(a)~ステップ(d)を実行する命令を有するコンピュータが読み取り可能な記憶媒体。 A computer readable storage medium having instructions that, when executed by a computer, cause the computer to perform steps (a) to (d) of any one of claims 1 to 9 . 請求項1および3の方法の、前記ステップ(a)~ステップ(e)を実行することにより、前記ヒト核酸サンプルの配列の疾患に関連する変異、を検出する方法。 A method of detecting disease-associated mutations in the sequence of said human nucleic acid sample by performing steps (a) through (e) of the methods of claims 1 and 3. 請求項1および3の方法の、前記ステップ(a)~ステップ(e)を実行することにより、前記ヒト核酸サンプルの配列の疾患への治療効果に関連する変異、を検出する方法。A method of detecting mutations associated with a therapeutic effect on a disease in the sequence of said human nucleic acid sample by performing steps (a) through (e) of the methods of claims 1 and 3.
JP2019233587A 2019-12-24 2019-12-24 System and method for genome analysis and gene analysis Ceased JP2021101629A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019233587A JP2021101629A (en) 2019-12-24 2019-12-24 System and method for genome analysis and gene analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019233587A JP2021101629A (en) 2019-12-24 2019-12-24 System and method for genome analysis and gene analysis

Publications (2)

Publication Number Publication Date
JP2021101629A JP2021101629A (en) 2021-07-15
JP2021101629A5 true JP2021101629A5 (en) 2022-08-23

Family

ID=76754409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019233587A Ceased JP2021101629A (en) 2019-12-24 2019-12-24 System and method for genome analysis and gene analysis

Country Status (1)

Country Link
JP (1) JP2021101629A (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112662645B (en) * 2021-01-19 2022-04-22 华南理工大学 Sphingomyelinase D mutant and application thereof
JP2023043981A (en) 2021-09-17 2023-03-30 A・Tコミュニケーションズ株式会社 Encryption device and encryption method
CN113793641B (en) * 2021-09-29 2023-11-28 苏州赛美科基因科技有限公司 Method for rapidly judging sample gender from FASTQ file

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130190321A1 (en) * 2012-01-23 2013-07-25 West Chester University Of Pennsylvania Methods and compositions relating to proliferative disorders of the prostate
US9449143B2 (en) * 2012-08-28 2016-09-20 Inova Health System Ancestral-specific reference genomes and uses thereof
JP6543641B2 (en) * 2013-12-07 2019-07-10 シーケンシング.コム Real-time personalization system and method using genomic data of an individual
CA2987138A1 (en) * 2015-05-29 2016-12-08 Altergon Sa Methods, supports and kits for enhanced cgh analysis

Similar Documents

Publication Publication Date Title
JP6854272B2 (en) Methods and treatments for non-invasive evaluation of gene mutations
US10975445B2 (en) Integrated machine-learning framework to estimate homologous recombination deficiency
US20200270707A1 (en) Methylation pattern analysis of haplotypes in tissues in a dna mixture
US11164655B2 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
US11475981B2 (en) Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211144B2 (en) Methods and systems for refining copy number variation in a liquid biopsy assay
WO2021022225A1 (en) Methods and systems for detecting microsatellite instability of a cancer in a liquid biopsy assay
AU2016293025A1 (en) System and methodology for the analysis of genomic data obtained from a subject
CA3167253A1 (en) Methods and systems for a liquid biopsy assay
JP2021101629A5 (en)
US11211147B2 (en) Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
JP2021101629A (en) System and method for genome analysis and gene analysis
Hsu et al. A general calculus of fitness landscapes finds genes under selection in cancers
EP3588506B1 (en) Systems and methods for genomic and genetic analysis
CN113053460A (en) Systems and methods for genomic and genetic analysis
US20210202037A1 (en) Systems and methods for genomic and genetic analysis
Gu et al. MD-ALL: an integrative platform for molecular diagnosis of B-cell acute lymphoblastic leukemia
WO2019156591A1 (en) Methods and systems for prediction of frailty background
Hassouneh Is Next-Generation Sequencing Appropriate for the Clinic?