JP7355325B2 - Cell lineage generation method, program, and cell lineage generation device - Google Patents

Cell lineage generation method, program, and cell lineage generation device Download PDF

Info

Publication number
JP7355325B2
JP7355325B2 JP2019139833A JP2019139833A JP7355325B2 JP 7355325 B2 JP7355325 B2 JP 7355325B2 JP 2019139833 A JP2019139833 A JP 2019139833A JP 2019139833 A JP2019139833 A JP 2019139833A JP 7355325 B2 JP7355325 B2 JP 7355325B2
Authority
JP
Japan
Prior art keywords
frequency
mutation
cell
tissue
cells
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019139833A
Other languages
Japanese (ja)
Other versions
JP2021019564A (en
Inventor
健 八木
有邦 内村
康成 佐藤
拡高 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Osaka University NUC
Original Assignee
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osaka University NUC filed Critical Osaka University NUC
Priority to JP2019139833A priority Critical patent/JP7355325B2/en
Publication of JP2021019564A publication Critical patent/JP2021019564A/en
Application granted granted Critical
Publication of JP7355325B2 publication Critical patent/JP7355325B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本発明は、細胞系譜生成方法、プログラム、及び細胞系譜生成装置に関する。 The present invention relates to a cell lineage generation method, a program, and a cell lineage generation device.

近年、次世代シーケンサの技術が医療の現場に浸透しつつある。例えば、次世代シーケンサを用いて特定のタンパク質をコードする遺伝子の転写産物を定量することにより、特定のタンパク質の発現量を推定し、推定された特定のタンパク質の発現量を患者の状態の診断に用いる検査方法等が提案されている(例えば、特許文献1参照)。このような背景から、患者ごとの状態に合わせた個別化医療の実現への期待も高まっている。 In recent years, next-generation sequencer technology has been permeating the medical field. For example, by quantifying the transcripts of genes encoding specific proteins using a next-generation sequencer, the expression level of a specific protein can be estimated, and the estimated expression level of the specific protein can be used to diagnose a patient's condition. Inspection methods and the like to be used have been proposed (for example, see Patent Document 1). Against this background, expectations are increasing for the realization of personalized medicine tailored to each patient's condition.

国際公開第2016/181979号International Publication No. 2016/181979

ところで、個別化医療を実現するためには、患者ごとの詳細な状態を示す、より詳細な情報が出力される必要がある。 By the way, in order to realize personalized medicine, it is necessary to output more detailed information indicating the detailed condition of each patient.

本発明は、上記に鑑みてなされ、より詳細な情報を得ることができる細胞系譜生成方法等を提供する。 The present invention has been made in view of the above, and provides a cell lineage generation method etc. that can obtain more detailed information.

本発明の一態様に係る細胞系譜生成方法は、分析対象とする個体の第1組織を構成する複数の細胞における、第1変異の頻度を示す第1頻度、第2変異の頻度を示す第2頻度、及び、第3変異の頻度を示す第3頻度を取得し、前記個体の第2組織を構成する複数の細胞における、前記第1変異の頻度を示す第4頻度、前記第2変異の頻度を示す第5頻度、及び、前記第3変異の頻度を示す第6頻度を取得する取得ステップと、前記第2頻度と前記第3頻度との和が前記第1頻度に対応し、かつ、前記第5頻度と前記第6頻度との和が前記第4頻度に対応するか否かを判定する判定ステップと、前記判定ステップにおける判定結果に基づき、前記第1変異、前記第2変異、及び前記第3変異の関係を分析して、前記個体の細胞における変異に基づく細胞系譜を生成する分析ステップと、を含む。 A cell lineage generation method according to one aspect of the present invention includes a first frequency indicating a frequency of a first mutation, and a second frequency indicating a frequency of a second mutation in a plurality of cells constituting a first tissue of an individual to be analyzed. frequency, and a third frequency indicating the frequency of the third mutation, and a fourth frequency indicating the frequency of the first mutation, and a frequency of the second mutation in a plurality of cells constituting the second tissue of the individual. and a sixth frequency representing the frequency of the third mutation, the sum of the second frequency and the third frequency corresponds to the first frequency, and the sum of the second frequency and the third frequency corresponds to the first frequency, and a determination step of determining whether the sum of the fifth frequency and the sixth frequency corresponds to the fourth frequency, and based on the determination result in the determination step, the first mutation, the second mutation, and the and an analysis step of analyzing a third mutational relationship to generate a cell lineage based on the mutations in the individual's cells.

また、本発明の一態様は、上記の細胞系譜生成方法をコンピュータに実行させるためのプログラムとして実現できる。 Further, one embodiment of the present invention can be realized as a program for causing a computer to execute the above cell lineage generation method.

また、本発明の一態様に係る細胞系譜生成装置は、分析対象とする個体の第1組織を構成する複数の細胞における、第1変異の頻度を示す第1頻度、第2変異の頻度を示す第2頻度、及び、第3変異の頻度を示す第3頻度を取得し、前記個体の第2組織を構成する複数の細胞における、前記第1変異の頻度を示す第4頻度、前記第2変異の頻度を示す第5頻度、及び、前記第3変異の頻度を示す第6頻度を取得する取得部と、前記第2頻度と前記第3頻度との和が前記第1頻度に対応し、かつ、前記第5頻度と前記第6頻度との和が前記第4頻度に対応するか否かを判定する判定部と、前記判定部の判定結果に基づき、前記第1変異、前記第2変異、及び前記第3変異の関係を分析して前記個体の細胞においてした変異に基づく細胞系譜を生成する分析部と、を備える。 The cell lineage generation device according to one aspect of the present invention also provides a first frequency indicating a frequency of a first mutation and a frequency of a second mutation in a plurality of cells constituting a first tissue of an individual to be analyzed. a second frequency and a third frequency indicating the frequency of the third mutation; a fourth frequency indicating the frequency of the first mutation in a plurality of cells constituting the second tissue of the individual; and a fourth frequency indicating the frequency of the second mutation. an acquisition unit that acquires a fifth frequency indicating the frequency of the third mutation and a sixth frequency indicating the frequency of the third mutation, the sum of the second frequency and the third frequency corresponds to the first frequency, and , a determination unit that determines whether the sum of the fifth frequency and the sixth frequency corresponds to the fourth frequency; and based on the determination result of the determination unit, the first mutation, the second mutation, and an analysis unit that analyzes the relationship between the third mutations and generates a cell lineage based on the mutations made in the cells of the individual.

本発明の一態様に係る細胞系譜生成方法は、より詳細な情報を得ることできる。 The cell lineage generation method according to one embodiment of the present invention can obtain more detailed information.

図1Aは、配偶子に突然変異が生じた場合における発生過程を示す図である。FIG. 1A is a diagram showing the developmental process when a mutation occurs in a gamete. 図1Bは、初期発生の過程中に突然変異が生じた場合における発生過程を示す図である。FIG. 1B is a diagram showing the developmental process when a mutation occurs during the process of early development. 図2は、細胞系譜の生成のために用いる突然変異について説明する図である。FIG. 2 is a diagram illustrating mutations used to generate cell lineages. 図3は、アリル頻度の分布を例示する図である。FIG. 3 is a diagram illustrating the distribution of allele frequencies. 図4は、実施の形態に係る細胞系譜生成装置の機能構成を示すブロック図である。FIG. 4 is a block diagram showing the functional configuration of the cell lineage generation device according to the embodiment. 図5は、実施の形態に係る細胞系譜生成装置の動作を示すフローチャートである。FIG. 5 is a flowchart showing the operation of the cell lineage generation device according to the embodiment. 図6は、実施例に係る複数の組織における突然変異のアリル頻度を示す第1の図である。FIG. 6 is a first diagram showing mutation allele frequencies in multiple tissues according to the example. 図7は、実施例に係る複数の組織における突然変異のアリル頻度を示す第2の図である。FIG. 7 is a second diagram showing mutation allele frequencies in multiple tissues according to the example. 図8は、実施例に係る複数の組織における突然変異のアリル頻度を示す第3の図である。FIG. 8 is a third diagram showing mutation allele frequencies in multiple tissues according to the example. 図9は、実施例に係る複数の組織における突然変異のアリル頻度を示す第4の図である。FIG. 9 is a fourth diagram showing mutation allele frequencies in multiple tissues according to the example. 図10は、実施例に係る複数の組織における突然変異のアリル頻度を示す5の図である。FIG. 10 is a diagram 5 showing mutation allele frequencies in multiple tissues according to the example. 図11は、実施例に係る細胞系譜生成の概念を示す概略図である。FIG. 11 is a schematic diagram showing the concept of cell lineage generation according to the example. 図12Aは、実施例に係る細胞系譜生成装置のアルゴリズムについて説明する第1図である。FIG. 12A is a first diagram illustrating an algorithm of the cell lineage generation device according to the example. 図12Bは、実施例に係る細胞系譜生成装置のアルゴリズムについて説明する第2図である。FIG. 12B is a second diagram illustrating the algorithm of the cell lineage generation device according to the example. 図12Cは、実施例に係る細胞系譜生成装置のアルゴリズムについて説明する第3図である。FIG. 12C is a third diagram illustrating the algorithm of the cell lineage generation device according to the example. 図13は、実施例に係る細胞系譜を例示する図である。FIG. 13 is a diagram illustrating a cell lineage according to an example. 図14は、各組織における細胞系譜上の細胞の組成比率を例示する図である。FIG. 14 is a diagram illustrating the composition ratio of cells on the cell lineage in each tissue. 図15は、実施の形態に係る細胞系譜生成方法の適用例を説明する図である。FIG. 15 is a diagram illustrating an application example of the cell lineage generation method according to the embodiment.

(発明に至った経緯)
生体組織中に含まれる個々の細胞について細胞系譜上の由来を明らかにすることができれば、各種の疾患の状態及び老化進行等の程度を定量的に把握することが可能になるため、このような細胞系譜を生成する方法が検討されている。これまでに、例えば、女性の場合であればX染色体の不活化(初期発生の過程でランダムに片方のX染色体が不活化されるという現象を利用したもの)に注目して、癌細胞等の由来が、細胞系譜上の単一の細胞に由来するのか、細胞系譜上の複数の細胞に由来する混合状態によって構成されているかを区別する方法が開発されている。しかしながら本方法は、女性にしか適用できず、また、生成される細胞系譜の分解能が悪い。具体的には、本方法では、父親に由来するX染色体の父親アリル、及び母親に由来するX染色体の母親アリルのうち、いずれかの不活化しか区別できない。つまり、本方法では、2種類の細胞しか区別できないため、臨床的に有意な情報が得られる場合が限られる。このような理由から、本方法は、臨床の現場などで広く利用されることはなかった。
(How the invention came about)
If we can clarify the cell lineage origin of individual cells contained in living tissues, it will be possible to quantitatively understand the state of various diseases and the degree of aging progression. Methods for generating cell lineages are being considered. For example, in the case of women, research has focused on the inactivation of the X chromosome (using the phenomenon in which one X chromosome is randomly inactivated during early development), and has A method has been developed to distinguish whether the origin is derived from a single cell on the cell lineage or is composed of a mixed state derived from multiple cells on the cell lineage. However, this method is only applicable to women, and the resolution of the generated cell lineages is poor. Specifically, in this method, only one of the paternal allele of the X chromosome derived from the father and the maternal allele of the X chromosome derived from the mother can be distinguished. In other words, with this method, only two types of cells can be distinguished, so there are limited cases in which clinically significant information can be obtained. For these reasons, this method has not been widely used in clinical settings.

近年、次世代シーケンサを用いて、より詳細な細胞系譜を生成する方法が実施されているが、検体由来の細胞を単一の細胞に分離し、それぞれの細胞をシーケンシングに堪える量となるまで増殖させたうえで、シーケンシングを行うことが必要である。分析対象となる組織が、単一の細胞への分離、及び増殖の操作を行うことが困難な組織である場合、本方法は、適用が困難であり、莫大な労力、時間、費用が必要となる。このような理由から、本方法も、臨床の現場などで、広く利用されるには現実的でなかった。 In recent years, methods have been implemented to generate more detailed cell lineages using next-generation sequencers, but it is necessary to separate cells from a sample into single cells and to separate each cell into a quantity suitable for sequencing. It is necessary to perform sequencing after propagation. When the tissue to be analyzed is a tissue that is difficult to separate into single cells and undergo proliferation operations, this method is difficult to apply and requires enormous effort, time, and cost. Become. For these reasons, this method is also not practical for widespread use in clinical settings.

より臨床の現場に適した方法が求められる中、マウスを用いた実験において、シーケンシングにより体組織中に低頻度で存在する突然変異を効率よく検出し、同一個体内の複数の組織において、精度高く突然変異の頻度(つまり存在頻度)を用いることで高精度な細胞系譜の生成を可能にする新たな方法の開発に成功した。本方法では、数理モデルを用いた解析により、初期発生の過程で生じた突然変異を指標として、任意の組織において、高精度な細胞系譜の生成を可能にする革新的な方法である。 While there is a need for methods that are more suitable for clinical practice, in experiments using mice, sequencing has been used to efficiently detect mutations that occur at low frequencies in body tissues. We have succeeded in developing a new method that enables the generation of highly accurate cell lineages by using high mutation frequencies (i.e., abundance frequencies). This method is an innovative method that uses mutations that occur during early development as indicators to generate highly accurate cell lineages in any tissue through analysis using a mathematical model.

本方法では、ゲノムのシーケンシングで得られる、複数の体組織中のそれぞれに低頻度で存在する突然変異に対して、突然変異の頻度を算出する。数理学的な工夫を加えた解析により、複数の組織間において得られた頻度をもとに初期発生の過程における突然変異の発生の系譜を明らかにする。これにより、本方法では、分析対象とする個体の細胞において生じた突然変異に基づく細胞系譜を生成する。即ち、本方法は、分析対象とする個体の2以上の組織それぞれの、当該組織を構成する複数の細胞における突然変異の頻度に基づいて細胞系譜を生成する方法である。 In this method, mutation frequencies are calculated for mutations that occur at low frequencies in each of multiple body tissues, as obtained by genome sequencing. Through mathematical analysis, we will clarify the genealogy of mutations during early development based on the frequencies obtained in multiple tissues. Thereby, in this method, a cell lineage is generated based on the mutations that occur in the cells of the individual to be analyzed. That is, this method is a method of generating a cell lineage based on the frequency of mutations in a plurality of cells constituting each of two or more tissues of an individual to be analyzed.

本方法は、次世代シーケンサの技術が臨床の現場に浸透しつつある昨今において、細胞系譜に基づく観点から診断に必要な新たな指標を与えることを可能とする。 This method makes it possible to provide new indicators necessary for diagnosis from a cell lineage-based perspective, as next-generation sequencer technology is increasingly pervasive in clinical practice.

本方法によれば、例えば、X染色体の不活化を指標とした方法等の従来までの方法における制約を劇的に改善でき、細胞系譜の状況をより詳細に明らかにすることができる。このようにして、明らかになった細胞系譜の詳細な状況は、個々の突然変異の存在する頻度として、体組織中(疾患関連の組織など)での細胞動態を明確に捉えるためのマーカーとして利用できる。例えば、抗癌剤治療において、抗癌剤が投与され、癌細胞の集団が死滅した後、細胞増殖による組織の回復過程を追跡することが可能になる。このような例では、回復の過程に異常があるか否かの判定により、治療方針の決定に対して有用な情報が提供できると考えられる。また、例えば、老化の一因と考えられる、細胞系譜上の単一の細胞の増殖を的確に捉えることも可能となる。 According to this method, for example, the limitations of conventional methods such as methods using inactivation of the X chromosome as an indicator can be dramatically improved, and the status of cell lineage can be clarified in more detail. In this way, the detailed status of cell lineage revealed can be used as a marker to clearly understand cell dynamics in body tissues (such as disease-related tissues) as the frequency of individual mutations. can. For example, in anticancer drug treatment, after the anticancer drug is administered and a population of cancer cells is killed, it becomes possible to track the tissue recovery process due to cell proliferation. In such an example, it is thought that determining whether there is an abnormality in the recovery process can provide useful information for determining a treatment policy. Furthermore, for example, it becomes possible to accurately grasp the proliferation of a single cell in the cell lineage, which is considered to be a cause of aging.

以上に例示されるように、細胞系譜の状況をより詳細に明らかにすることにより、患者に適用された治療方法等によって、疾患の症状が適正に快方(健康な状態等)に向かっているか否かを判断する指標として、細胞系譜を利用することもできる。 As exemplified above, by clarifying the status of cell lineage in more detail, it is possible to determine whether the symptoms of the disease are appropriately recovering (e.g., to a healthy state) through the treatment method applied to the patient. Cell lineage can also be used as an index to determine whether or not the disease occurs.

以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。 Hereinafter, embodiments will be specifically described with reference to the drawings. Note that the embodiments described below are all inclusive or specific examples. The numerical values, shapes, materials, components, arrangement positions and connection forms of the components, steps, order of steps, etc. shown in the following embodiments are merely examples, and do not limit the present invention. Further, among the constituent elements in the following embodiments, constituent elements that are not described in the independent claims will be described as arbitrary constituent elements.

なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。 Note that each figure is a schematic diagram and is not necessarily strictly illustrated. Further, in each figure, substantially the same configurations are denoted by the same reference numerals, and overlapping explanations may be omitted or simplified.

(実施の形態)
[概要]
はじめに、本発明の概要について、図1A~図3を用いて説明する。図1Aは、配偶子に突然変異が生じた場合における発生過程を示す図である。また、図1Bは、初期発生の過程中に突然変異が生じた場合における発生過程を示す図である。
(Embodiment)
[overview]
First, an overview of the present invention will be explained using FIGS. 1A to 3. FIG. 1A is a diagram showing the developmental process when a mutation occurs in a gamete. Further, FIG. 1B is a diagram showing the developmental process when a mutation occurs during the initial developmental process.

本実施の形態においては、分析対象とする個体の第1組織及び第2組織を含む2以上の組織それぞれの、当該組織を構成する複数の細胞における突然変異の頻度に基づいて細胞系譜を生成する。 In this embodiment, a cell lineage is generated based on the frequency of mutations in a plurality of cells constituting each of two or more tissues including a first tissue and a second tissue of an individual to be analyzed. .

以降の説明では、第2組織が第1組織とは異なる組織であり、第1組織及び第2組織を含む2以上の組織は、それぞれ異なる組織であるとして説明するが、これに限らない。第1組織と第2組織とは、同一の組織であってもよい。例えば、同一の組織を異なる2以上の時点において採取することにより得られた第1組織及び第2組織を含む2以上の組織のそれぞれから、当該組織を構成する細胞における突然変異の頻度に基づいて細胞系譜を生成してもよい。 In the following description, the second organization is a different organization from the first organization, and two or more organizations including the first organization and the second organization are each different organizations, but the present invention is not limited to this. The first organization and the second organization may be the same organization. For example, from each of two or more tissues including a first tissue and a second tissue obtained by collecting the same tissue at two or more different time points, based on the frequency of mutations in cells constituting the tissue, Cell lineages may also be generated.

また、本発明は、突然変異の頻度が高精度に算出されれば、単一の組織を構成する細胞のみからであっても細胞系譜を生成できる。したがって、第1組織と第2組織とは、同じ単一の組織であってもよい。例えば、技術の進歩又は派生する別技術により、個々の細胞の突然変異の頻度を高精度に算出可能な新たなシーケンシング又は変異頻度算出の手法が登場すれば、当然、その手法を用いて単一の組織を構成する複数の細胞から突然変異の頻度を算出し、当該頻度を用いて細胞系譜を生成してもよい。 Furthermore, the present invention can generate a cell lineage even from cells constituting a single tissue, as long as the frequency of mutations is calculated with high accuracy. Therefore, the first organization and the second organization may be the same single organization. For example, if a new sequencing or mutation frequency calculation method that can calculate the mutation frequency of individual cells with high precision emerges due to advances in technology or other derivative technologies, it will naturally be possible to use that method to easily calculate the mutation frequency of individual cells. A mutation frequency may be calculated from a plurality of cells constituting one tissue, and a cell lineage may be generated using the frequency.

これによれば、第2頻度と第3頻度との和が第1頻度に対応し、かつ、第5頻度と第6頻度との和が第4頻度に対応するか否かを、第2頻度と第3頻度との和が第1頻度に対応するか否かのみで判定できる。したがって、本発明をより簡易に実現できる。また、分析対象とする個体から採取される組織の数も1つのみでよいため、本発明をより低侵襲な検査方法として臨床の現場などで利用することができる。 According to this, it is determined whether the sum of the second frequency and the third frequency corresponds to the first frequency and the sum of the fifth frequency and the sixth frequency corresponds to the fourth frequency. It can be determined only by whether the sum of and the third frequency corresponds to the first frequency. Therefore, the present invention can be implemented more easily. Further, since only one tissue needs to be collected from an individual to be analyzed, the present invention can be used in clinical settings as a less invasive testing method.

図1Aに示すように、配偶子のいずれかに突然変異が生じた場合、形成される受精卵は、配偶子に生じた突然変異を有する。具体的には、2倍体生物の場合、受精卵が有する染色体には、それぞれの配偶子に由来する相同染色体どうしのペアが生物種に応じた数含まれる。これらの相同染色体のペアのうち、突然変異を有さない染色体と配偶子に由来する突然変異を有する染色体との相同染色体のペアが含まれた状態となる。図中ではこのような相同染色体のペアを示している。このような相同染色体のペアは、分裂の過程において次世代の細胞に引き継がれるため、全ての体細胞において突然変異を有さない染色体と突然変異を有する染色体との比は、常に1:1であり、突然変異の頻度が50%である。したがって、図中に示すように個体の全身の細胞において均一に、突然変異に基づく表現型が発現される。 As shown in FIG. 1A, if a mutation occurs in any of the gametes, the fertilized egg that is formed will carry the mutation that occurred in the gamete. Specifically, in the case of a diploid organism, the chromosomes of a fertilized egg include pairs of homologous chromosomes derived from each gamete, depending on the species. Among these pairs of homologous chromosomes, a pair of homologous chromosomes including a chromosome without a mutation and a chromosome with a mutation derived from a gamete is included. The figure shows pairs of such homologous chromosomes. These pairs of homologous chromosomes are passed on to the next generation of cells during the division process, so the ratio of chromosomes without mutations to chromosomes with mutations is always 1:1 in all somatic cells. Yes, the mutation frequency is 50%. Therefore, as shown in the figure, the mutation-based phenotype is uniformly expressed in cells throughout the individual's body.

一方で、図1Bに示すように、受精卵を形成するまで突然変異を有しなかった細胞において、受精卵からの分裂により生じた2つの細胞のうち一方のみに突然変異が生じた場合、当該一方の細胞に突然変異を有さない染色体と突然変異を有する染色体との相同染色体のペアが含まれる。また、2つの細胞のうち他方の細胞にはいずれも突然変異を有さない相同染色体のペアが含まれる。したがって、例えば、以降の細胞周期が一様であった場合、全ての体細胞において突然変異を有さない染色体と突然変異を有する染色体との比は、常に3:1であり、突然変異の頻度は25%である。突然変異を有する染色体を含む細胞に由来して分裂した組織においては、図中に示すように個体の一部においてモザイク状に、突然変異に基づく表現型が発現される。 On the other hand, as shown in Figure 1B, if a mutation occurs in only one of the two cells generated by division from the fertilized egg in a cell that did not have a mutation until it formed a fertilized egg, the One cell contains a pair of homologous chromosomes, one without a mutation and one with a mutation. Furthermore, the other of the two cells contains a pair of homologous chromosomes, neither of which has a mutation. Therefore, for example, if subsequent cell cycles were uniform, the ratio of chromosomes without mutations to chromosomes with mutations in all somatic cells would always be 3:1, and the frequency of mutations would be is 25%. In a tissue that is derived from a cell containing a chromosome with a mutation and has divided, a phenotype based on the mutation is expressed in a mosaic pattern in a portion of the individual, as shown in the figure.

本発明は、突然変異が生じたタイミングによって異なる、突然変異を有する染色体の割合である存在確率(以下、突然変異の頻度又はアリル頻度ともいう)を用いた、細胞系譜を生成する方法等を開示するものである。なお、以下では、突然変異を単に変異として説明する場合がある。 The present invention discloses a method of generating a cell lineage using the probability of existence (hereinafter also referred to as mutation frequency or allele frequency), which is the proportion of chromosomes having a mutation, which varies depending on the timing at which the mutation occurs. It is something to do. In addition, below, a mutation may be explained simply as a mutation.

図2は、細胞系譜の生成のために用いる突然変異について説明する図である。図2では、特定の組織から採取された当該組織を構成する複数の細胞について、ゲノムシーケンスの結果の一部を示している。図2では、参照配列と、ゲノムシーケンスの結果読み出された複数の部分配列とを、参照配列上の対応する箇所に示している。参照配列は、図中の最上段にDNA(DeoxyriboNucleic Acid)の塩基部分に基づくアデニン(A)、チミン(T)、グアニン(G)、及びシトシン(C)の4種の文字列として示されている。 FIG. 2 is a diagram illustrating mutations used to generate cell lineages. FIG. 2 shows part of the results of genome sequencing for a plurality of cells collected from a specific tissue and making up the tissue. In FIG. 2, a reference sequence and a plurality of partial sequences read as a result of genome sequencing are shown at corresponding locations on the reference sequence. The reference sequence is shown at the top of the figure as a string of four characters based on the base portion of DNA (DeoxyriboNucleic Acid): adenine (A), thymine (T), guanine (G), and cytosine (C). There is.

また、図中の参照配列よりも下側の左右に延びる矩形は、それぞれゲノムシーケンス結果の配列を示している。なお、読み出された配列は、文字列での表記を省略し、読み出しの可不可をのみを示している。具体的には、図中には、配列が読み出された領域であるリード領域を、ハッチングを付した矩形で示し、配列が読み出されなかった領域である非リード領域を、破線の白抜き矩形で示している。図中では、15の部分配列が読み出されており、そのうち12の部分配列については、図中の中央に矢印で示す、変異箇所の配列を含めて読み出されている。変異箇所では、参照配列においてCが示されているのに対し、読み出された部分配列のうちの一部ではTが示されている。即ち、この変異箇所においては、本来配列されていたCに突然変異が生じることによりTに変化している。 In addition, rectangles extending to the left and right below the reference sequence in the figure each indicate the sequence of the genome sequence result. Note that the read array is not written as a character string, and only indicates whether it can be read or not. Specifically, in the figure, the read area, which is the area where the sequence was read, is shown as a hatched rectangle, and the non-read area, which is the area where the sequence was not read, is shown with a dashed white outline. Shown as a rectangle. In the figure, 15 partial sequences have been read out, of which 12 partial sequences have been read out, including the sequence at the mutation location indicated by the arrow in the center of the figure. At the mutation site, C is shown in the reference sequence, whereas T is shown in some of the read partial sequences. That is, at this mutation site, the originally sequenced C is mutated and changed to T.

このような突然変異における頻度は、変異箇所の配列を含めて読み出された数に対する突然変異が生じていた数である。即ち、図中の例では、100分率で示すと、7(Tの数)×100/12(Tの数+Cの数)=約58%である。本実施の形態においては、このようなDNAにおける1つのヌクレオチドの変化に基づく突然変異の頻度を用いる細胞系譜の生成について説明する。 The frequency of such mutations is the number of mutations occurring relative to the number read out including the sequence at the mutation site. That is, in the example shown in the figure, when expressed as a percentage, it is 7 (number of T's) x 100/12 (number of T's + number of C's) = approximately 58%. In this embodiment, generation of a cell lineage using mutation frequency based on a single nucleotide change in DNA will be described.

なお、本実施の形態において、突然変異は、上記のように1つのヌクレオチドの変化に限らず、オリゴヌクレオチド、遺伝子単位等複数のヌクレオチドの変化であってもよい。また、突然変異による変化は、上記のようにヌクレオチドの置換であってもよく、欠損又は挿入であってもよい。挿入は、例えば、ヌクレオチドのコピー数の変化として特定してもよい。したがって、突然変異の頻度は、突然変異の形態に応じて適切な数式を用いて算出されればよい。 In addition, in this embodiment, the mutation is not limited to a change in one nucleotide as described above, but may be a change in a plurality of nucleotides such as an oligonucleotide or a gene unit. Furthermore, the change due to mutation may be a nucleotide substitution as described above, or may be a deletion or insertion. Insertions may be specified, for example, as changes in nucleotide copy number. Therefore, the mutation frequency may be calculated using an appropriate formula depending on the form of the mutation.

図3は、アリル頻度の分布を例示する図である。図3では、特定の個体について、突然変異をアリル頻度5%ごとに分類した際の、それぞれのアリル頻度における突然変異の個数を示すグラフである。図3では、横軸にアリル頻度を100分率で示し、縦軸に突然変異の個数を、最も高い値を100%とした時の相対個数として示している。 FIG. 3 is a diagram illustrating the distribution of allele frequencies. FIG. 3 is a graph showing the number of mutations at each allele frequency when mutations are classified into allele frequencies of 5% for a specific individual. In FIG. 3, the horizontal axis shows the allele frequency as a percentage, and the vertical axis shows the number of mutations as a relative number when the highest value is 100%.

図3に示すように、特定の個体における突然変異には、100%のアリル頻度である突然変異が最も多く含まれている。これは、受精卵を形成する配偶子のいずれにも同様の突然変異が生じていた、ホモ接合の突然変異を示している。一方で、50%のアリル頻度をピークとする二項分布に従う突然変異は、受精卵を形成する配偶子のいずれかに突然変異が生じていた、ヘテロ接合の突然変異102を示している。なお、ヘテロ接合の突然変異102には、図1Aを用いて説明した例も含まれる。また、50%よりも小さいアリル頻度の箇所に、比較的少数の突然変異が存在している。この比較的少数の突然変異は、モザイク変異101を示しており、図1Bを用いて説明した例も含まれる。 As shown in FIG. 3, the mutations in a particular individual include the most mutations with an allele frequency of 100%. This indicates a homozygous mutation in which the same mutation occurred in each gamete that formed the fertilized egg. On the other hand, a mutation that follows a binomial distribution with a peak allele frequency of 50% indicates a heterozygous mutation 102 in which the mutation has occurred in any of the gametes that form the fertilized egg. Note that the heterozygous mutation 102 also includes the example described using FIG. 1A. Additionally, there are relatively few mutations at locations with allele frequencies less than 50%. This relatively small number of mutations represents mosaic mutations 101, including the example described using FIG. 1B.

本実施の形態においては、モザイク変異101のアリル頻度を用いて細胞系譜を生成する。なお、モザイク変異101は、50%よりも小さいアリル頻度を示すものであればよいが、図3に示すように、モザイク変異101が他の突然変異に比べ少数であるため、ヘテロ接合の突然変異102との分離能の観点から、40%よりも小さいアリル頻度を示すモザイク変異を用いることでより正確な細胞系譜を生成することができる。細胞系譜の生成に用いるモザイク変異101のアリル頻度の閾値は、シーケンサの精度、細胞の条件等に応じて適宜設定されてもよい。 In this embodiment, a cell lineage is generated using the allele frequency of mosaic mutation 101. The mosaic mutation 101 may be one that shows an allele frequency of less than 50%, but as shown in Figure 3, since the number of mosaic mutations 101 is small compared to other mutations, it is a heterozygous mutation. From the standpoint of separability with 102, a more accurate cell lineage can be generated by using mosaic mutations that exhibit an allele frequency of less than 40%. The allele frequency threshold of the mosaic mutation 101 used to generate the cell lineage may be set as appropriate depending on the accuracy of the sequencer, cell conditions, and the like.

[細胞系譜生成装置の構成]
以下、図4を用いて、本実施の形態における細胞系譜生成装置の構成を説明する。図4は、実施の形態に係る細胞系譜生成装置の機能構成を示すブロック図である。図4では、細胞系譜生成装置100とともに、各種の周辺装置を併せて図示している。
[Configuration of cell lineage generation device]
Hereinafter, the configuration of the cell lineage generation device in this embodiment will be explained using FIG. 4. FIG. 4 is a block diagram showing the functional configuration of the cell lineage generation device according to the embodiment. In FIG. 4, various peripheral devices are illustrated together with the cell lineage generation device 100.

本実施の形態における細胞系譜生成装置100は、分析対象とする個体の第1組織及び第2組織を含む2以上の組織それぞれの、当該組織を構成する複数の細胞における突然変異の頻度に基づいて細胞系譜を生成する。 The cell lineage generation device 100 in this embodiment generates a genealogy based on the frequency of mutations in a plurality of cells constituting each of two or more tissues including a first tissue and a second tissue of an individual to be analyzed. Generate cell lineages.

細胞系譜生成装置100は、取得部11と、判定部13と、分析部15とを備える細胞系譜生成装置100は、例えば、取得部11、判定部13、及び分析部15の機能に係るプログラムが格納されたメモリと、当該プログラムを実行する回路とを備えるコンピュータとして実現されてもよい。 The cell lineage generation device 100 includes an acquisition unit 11, a determination unit 13, and an analysis unit 15. It may be realized as a computer including a stored memory and a circuit that executes the program.

取得部11は、分析対象とする個体の細胞から得られ、シーケンサ201によって読み出された、DNAの配列中に生じた突然変異の頻度を算出する変異頻度算出装置203に接続される。 The acquisition unit 11 is connected to a mutation frequency calculation device 203 that calculates the frequency of mutations occurring in a DNA sequence obtained from cells of an individual to be analyzed and read by a sequencer 201.

シーケンサ201は、分析対象とする個体の組織を構成する複数の細胞から抽出された核酸検体を用いて、当該細胞に含まれるDNAの配列を読み出す(シーケンシングする)装置である。シーケンサ201は、核酸検体を用いてシーケンシングが可能な構成であればよく、測定原理、装置構成等は特に限定されない。シーケンサ201は、シーケンシングの結果として読み出されたDNAの配列を変異頻度算出装置203へと送信する。 The sequencer 201 is a device that uses a nucleic acid sample extracted from a plurality of cells constituting the tissue of an individual to be analyzed to read out (sequence) the DNA sequence contained in the cells. The sequencer 201 may have any configuration as long as it can perform sequencing using a nucleic acid sample, and the measurement principle, device configuration, etc. are not particularly limited. The sequencer 201 transmits the DNA sequence read as a result of sequencing to the mutation frequency calculation device 203.

変異頻度算出装置203は、読み出されたDNAの配列をもとに配列中に含まれる突然変異の頻度を算出する装置である。変異頻度算出装置203は、例えば、回路と、突然変異の頻度の算出に係るプログラムが格納されたメモリとを備えたコンピュータとして実現される。図2を用いて説明したように、変異頻度算出装置203は、あらかじめ取得した参照配列に対して、受信したDNAの配列が対応する箇所を検出する。変異頻度算出装置203は、さらに、受信したDNAの配列の中で、参照配列と比較して突然変異が発生した変異箇所を特定し、当該変異箇所における突然変異の頻度を算出する。 The mutation frequency calculation device 203 is a device that calculates the frequency of mutations contained in the sequence based on the read DNA sequence. The mutation frequency calculation device 203 is realized, for example, as a computer including a circuit and a memory in which a program related to mutation frequency calculation is stored. As described using FIG. 2, the mutation frequency calculation device 203 detects locations where the received DNA sequence corresponds to a reference sequence obtained in advance. The mutation frequency calculation device 203 further identifies a mutation location where a mutation has occurred in the received DNA sequence by comparing it with a reference sequence, and calculates the mutation frequency at the mutation location.

本実施の形態では、変異頻度算出装置203は、第1組織及び第2組織の少なくとも2つの組織のそれぞれを構成する複数の細胞から抽出された核酸検体について、突然変異である、第1変異、第2変異、及び第3変異それぞれの頻度を算出する。変異頻度算出装置203によって算出された突然変異の頻度は、変異頻度算出装置203に接続された取得部11によって取得される。 In the present embodiment, the mutation frequency calculation device 203 calculates the first mutation, which is a mutation, The frequencies of the second mutation and the third mutation are calculated. The mutation frequency calculated by the mutation frequency calculation device 203 is acquired by the acquisition unit 11 connected to the mutation frequency calculation device 203.

即ち、取得部11は、分析対象とする個体の第1組織を構成する複数の細胞における、第1変異の頻度を示す第1頻度、第2変異の頻度を示す第2頻度、及び、第3変異の頻度を示す第3頻度を取得する。また、取得部11は、第2組織を構成する複数の細胞における、第1変異の頻度を示す第4頻度、第2変異の頻度を示す第5頻度、及び、第3変異の頻度を示す第6頻度を取得する。取得部11は、このようにして変異頻度算出装置203において算出された突然変異の頻度を取得する処理部である。取得部11は、取得した突然変異の頻度を判定部13へと送信する。 That is, the acquisition unit 11 obtains a first frequency indicating the frequency of the first mutation, a second frequency indicating the frequency of the second mutation, and a third frequency in the plurality of cells constituting the first tissue of the individual to be analyzed. A third frequency indicating the frequency of mutation is obtained. The acquisition unit 11 also acquires a fourth frequency indicating the frequency of the first mutation, a fifth frequency indicating the frequency of the second mutation, and a third frequency indicating the frequency of the third mutation in the plurality of cells constituting the second tissue. 6 Get the frequency. The acquisition unit 11 is a processing unit that acquires the mutation frequency calculated by the mutation frequency calculation device 203 in this manner. The acquisition unit 11 transmits the acquired mutation frequency to the determination unit 13.

判定部13は、取得部11において取得された突然変異の頻度に基づき、所定の条件が満たされるか否かを判定する処理部である。具体的には、判定部13は、第2頻度と第3頻度との和が第1頻度に対応し、かつ、第5頻度と第6頻度との和が第4頻度に対応するか否かを判定する。判定部13は、第1頻度~第6頻度に基づく判定結果を分析部へと送信する。 The determination unit 13 is a processing unit that determines whether a predetermined condition is satisfied based on the mutation frequency acquired by the acquisition unit 11. Specifically, the determination unit 13 determines whether the sum of the second frequency and the third frequency corresponds to the first frequency, and the sum of the fifth frequency and the sixth frequency corresponds to the fourth frequency. Determine. The determination unit 13 transmits the determination results based on the first to sixth frequencies to the analysis unit.

分析部15は、判定部13による判定結果に基づき、第1変異、第2変異、及び第3変異の関係を分析して、分析対象とする個体の細胞における突然変異に基づく細胞系譜を生成する処理部である。例えば、第2変異の頻度及び第3変異の頻度の和と第1変異の頻度とが、第1組織及び第2組織を含む複数の組織において一致する(ただし、シーケンシングの測定誤差を許容する)場合、第2変異と第3変異とは、第1変異に由来し、かつ、互いに相補的な関係であると推定できる。つまり、第1変異を有する第1細胞、第2変異を有する第2細胞、及び第3変異を有する第3細胞は、第1細胞から、第2細胞又は第3細胞へと分岐する第1分岐点の関係を有すると推定される。 The analysis unit 15 analyzes the relationship between the first mutation, the second mutation, and the third mutation based on the determination result by the determination unit 13, and generates a cell lineage based on the mutation in the cells of the individual to be analyzed. This is the processing section. For example, the sum of the frequency of the second mutation and the frequency of the third mutation and the frequency of the first mutation match in multiple tissues including the first tissue and the second tissue (however, allowing for measurement errors in sequencing) ), it can be assumed that the second mutation and the third mutation originate from the first mutation and are complementary to each other. In other words, the first cell having the first mutation, the second cell having the second mutation, and the third cell having the third mutation form a first branch that branches from the first cell to the second cell or the third cell. It is estimated that there is a point relationship.

なお、第1細胞、第2細胞、及び第3細胞は、保有する突然変異の種類が異なる細胞の分類を示す概念である。つまり、本実施の形態において生成される細胞系譜は、突然変異のバリエーションが変化する変化点を分岐点として分岐分類する、突然変異の分岐分類図と読み替えることもできる。 Note that the first cell, second cell, and third cell are concepts that indicate the classification of cells that have different types of mutations. In other words, the cell lineage generated in this embodiment can also be read as a branching classification diagram of mutations, in which the branching classification is performed using change points at which mutation variations change as branching points.

分析部15による分析の結果、生成された細胞系譜は、出力部205へと出力され、細胞系譜生成装置100のユーザへと提示される。 The cell lineage generated as a result of the analysis by the analysis unit 15 is output to the output unit 205 and presented to the user of the cell lineage generation device 100.

出力部205は、例えば、ディスプレイ等の表示装置であり、分析部15において生成された細胞系譜を画像として提示することにより、ユーザに細胞系譜を視認させることができる。 The output unit 205 is, for example, a display device such as a display, and can allow the user to visually recognize the cell lineage by presenting the cell lineage generated in the analysis unit 15 as an image.

なお、取得部11、判定部13、及び分析部15は、個別に実現されてもよく、一体化されてもよい。つまり、取得部11、判定部13、及び分析部15は、例えば1つのプログラム等として、単一の構成で実現されてもよい。 Note that the acquisition unit 11, the determination unit 13, and the analysis unit 15 may be realized individually or may be integrated. In other words, the acquisition unit 11, the determination unit 13, and the analysis unit 15 may be implemented in a single configuration, for example, as one program.

[細胞系譜生成装置の動作]
以下、細胞系譜生成装置100の動作について図5を用いて説明する。図5は、実施の形態に係る細胞系譜生成装置の動作を示すフローチャートである。
[Operation of cell lineage generation device]
The operation of the cell lineage generation device 100 will be described below using FIG. 5. FIG. 5 is a flowchart showing the operation of the cell lineage generation device according to the embodiment.

本実施の形態における細胞系譜生成装置100の取得部11は、はじめに、第1頻度~第6頻度を含む複数の突然変異の頻度を変異頻度算出装置203から取得する(S101)。また、取得部11は、第1組織を構成する複数の細胞にける第4変異の頻度を示す第1未帰属頻度、及び、前記第2組織を構成する複数の細胞における前記第4変異の頻度を示す第2未帰属頻度を変異頻度算出装置203から取得する(S102)。 The acquisition unit 11 of the cell lineage generation device 100 in this embodiment first acquires a plurality of mutation frequencies including the first to sixth frequencies from the mutation frequency calculation device 203 (S101). Further, the acquisition unit 11 obtains a first unattributed frequency indicating the frequency of the fourth mutation in the plurality of cells constituting the first tissue, and a frequency of the fourth mutation in the plurality of cells constituting the second tissue. A second unattributed frequency indicating ? is obtained from the mutation frequency calculation device 203 (S102).

ここで、判定部13は、取得した第2頻度と第3頻度との和が第1頻度と一致するか否かを判定する(S103)。判定部13において、第2頻度と第3頻度との和が第1頻度と一致しないと判定された場合(S103でNo)、細胞系譜生成装置100は、処理を終了する。一方で、判定部13において、第2頻度と第3頻度との和が第1頻度と一致すると判定された場合(S103でYes)、判定部13は、さらに、取得した第5頻度と第6頻度との和が第4頻度と一致するか否かを判定する(S104)。判定部13において、第5頻度と第6頻度との和が第4頻度と一致しないと判定された場合(S104でNo)、細胞系譜生成装置100は、処理を終了する。 Here, the determining unit 13 determines whether the sum of the acquired second frequency and third frequency matches the first frequency (S103). If the determining unit 13 determines that the sum of the second frequency and the third frequency does not match the first frequency (No in S103), the cell lineage generation device 100 ends the process. On the other hand, if the determining unit 13 determines that the sum of the second frequency and the third frequency matches the first frequency (Yes in S103), the determining unit 13 further determines that the sum of the second frequency and the third frequency matches the first frequency (Yes in S103). It is determined whether the sum with the frequency matches the fourth frequency (S104). If the determining unit 13 determines that the sum of the fifth frequency and the sixth frequency does not match the fourth frequency (No in S104), the cell lineage generation device 100 ends the process.

一方で、判定部13において、第5頻度と第6頻度との和が第4頻度と一致すると判定された場合(S104でYes)、分析部15は、第1変異を有する第1細胞から、第2変異を有する第2細胞及び第3変異を有する第3細胞へと分岐する第1分岐点の関係を決定する(S105)。言い換えると、第2頻度と第3頻度との和が第1頻度に対応し、かつ、第5頻度と第6頻度との和が第4頻度に対応すると判定された場合(S103でYesかつS104でYes)に、第1細胞、第2細胞、及び第3細胞は、第1分岐点の関係を有すると決定される。 On the other hand, if the determining unit 13 determines that the sum of the fifth frequency and the sixth frequency matches the fourth frequency (Yes in S104), the analyzing unit 15 selects the first cell having the first mutation from the first cell. The relationship between the first branching point that branches into the second cell having the second mutation and the third cell having the third mutation is determined (S105). In other words, if it is determined that the sum of the second frequency and the third frequency corresponds to the first frequency, and the sum of the fifth frequency and the sixth frequency corresponds to the fourth frequency (Yes in S103 and S104 (Yes), the first cell, the second cell, and the third cell are determined to have a first branch point relationship.

分析部15は、このようにして決定された第1分岐点の関係に整合するように細胞系譜を生成する(S106)。例えば、分析対象とする個体から得られた細胞に、突然変異のバリエーションが異なる細胞が3つよりも多く存在する場合、分析部15は、3つよりも多い細胞の中から、第1分岐点の関係を有する3つの細胞を特定して分岐の方向を規定することで細胞系譜を生成してもよい。また、このような第1分岐点の関係が複数特定された場合、複数の第1分岐点の関係のすべてに整合する細胞系譜を生成してもよい。即ち、第1分岐点の関係から3つよりも多い細胞の細胞系譜が生成されてもよい。 The analysis unit 15 generates a cell lineage so as to match the relationship of the first branch point determined in this way (S106). For example, if there are more than three cells with different mutation variations among cells obtained from an individual to be analyzed, the analysis unit 15 selects the first branch point from among the more than three cells. A cell lineage may be generated by specifying three cells having this relationship and defining the direction of branching. Furthermore, when a plurality of such first branching point relationships are identified, a cell lineage that matches all of the plurality of first branching point relationships may be generated. That is, more than three cell lineages may be generated from the relationship of the first branch point.

続いて、細胞系譜生成装置100は、取得部11において取得された第1未帰属頻度及び第2未帰属頻度を用いてさらに細胞系譜を更新することでより多くの分岐情報を含む細胞系譜を生成する。ここでは、突然変異の頻度の大小関係から細胞系譜の末端における細胞から第4変異を有する細胞へと分岐する第2分岐点の関係を決定する。 Next, the cell lineage generation device 100 further updates the cell lineage using the first unattributed frequency and the second unattributed frequency acquired by the acquisition unit 11, thereby generating a cell lineage including more branching information. do. Here, the relationship between the second branching point, where the cell at the end of the cell lineage branches to the cell having the fourth mutation, is determined based on the magnitude relationship of mutation frequencies.

分析部15は、ステップS106において生成された細胞系譜の複数の分岐端の細胞である第5細胞における突然変異の頻度と、第4変異の頻度との大小関係の比較を行う。具体的には、分析部15は、複数の第5細胞の各々が有する分岐端変異について、第1組織を構成する複数の細胞における頻度を示す第1末端頻度と、第1未帰属頻度との差分である第1差分頻度が0よりも大きいか否かを判定する。つまり、分析部15は、第1末端頻度が第1未帰属頻度よりも大きいか否かを判定する。また、分析部15は、複数の第5細胞の各々が有する分岐端変異について、第2組織を構成する複数の細胞における頻度を示す第2末端頻度と、第2未帰属頻度との差分である第2差分頻度が0よりも大きいか否かを判定する。つまり、分析部15は、第2末端頻度が第2未帰属頻度よりも大きいか否かを判定する。 The analysis unit 15 compares the frequency of mutations in the fifth cell, which is a plurality of branch end cells of the cell lineage generated in step S106, with the frequency of the fourth mutation. Specifically, the analysis unit 15 calculates, for the branch end mutation possessed by each of the plurality of fifth cells, a first terminal frequency indicating the frequency in the plurality of cells constituting the first tissue and a first unassigned frequency. It is determined whether the first difference frequency, which is the difference, is greater than zero. That is, the analysis unit 15 determines whether the first terminal frequency is greater than the first unattributed frequency. In addition, the analysis unit 15 calculates the difference between a second terminal frequency indicating the frequency in a plurality of cells constituting the second tissue and a second unattributed frequency for the branch end mutation possessed by each of the plurality of fifth cells. It is determined whether the second difference frequency is greater than zero. That is, the analysis unit 15 determines whether the second terminal frequency is greater than the second unattributed frequency.

このようにして、分析部15は、第1差分頻度が0よりも大きく、かつ、第2差分頻度が0よりも大きいと判定された分岐端変異が複数の分岐端変異のうち、ただ1つに定まるか否かを判定する(S107)。複数の分岐端変異のうち第1差分頻度が0よりも大きく、かつ、第2差分頻度が0よりも大きい分岐端変異がただ1つに定まらなかった場合(S107でNo)、細胞系譜生成装置100は処理を終了する。一方で、複数の分岐端変異のうち第1差分頻度が0よりも大きく、かつ、第2差分頻度が0よりも大きい分岐端変異がただ1つに定まった場合(S107でYes)、分析部15は、第4変異を有する第4細胞と第5細胞とは、第5細胞から第4細胞へと分岐する第2分岐点の関係を有すると決定する。このとき、上記の第2分岐点の関係では、第4細胞と対となる変異のバリエーションを有する細胞が特定されていない。細胞系譜をより多分岐、多世代にわたって生成するため、第4細胞と対となる第6細胞を仮設定してもよい。つまり、第4細胞、第5細胞、及び第6細胞は、第5細胞から、第4細胞又は第6細胞へと分岐する第2分岐点の関係を有すると決定する(S108)。なお、第6細胞は、第1組織を構成する複数の細胞における頻度が第1差分頻度であり、かつ、第2組織を構成する複数の細胞における頻度が第2差分頻度である疑似頻度を有する。 In this way, the analysis unit 15 determines that the branch end mutation for which the first difference frequency is greater than 0 and the second difference frequency is greater than 0 is only one of the plurality of branch end mutations. It is determined whether or not it is determined (S107). If the first difference frequency is larger than 0 and the second difference frequency is larger than 0 among the plurality of branch end mutations is not determined to be only one branch end mutation (No in S107), the cell lineage generation device 100 ends the process. On the other hand, if only one branch-end mutation with a first difference frequency greater than 0 and a second difference frequency greater than 0 is determined among the plurality of branch-end mutations (Yes in S107), the analysis unit No. 15 determines that the fourth cell having the fourth mutation and the fifth cell have a relationship of a second branching point that branches from the fifth cell to the fourth cell. At this time, in the relationship of the second branch point described above, a cell having a mutation variation that is paired with the fourth cell is not specified. In order to generate a cell lineage with more branches and over multiple generations, a sixth cell to be paired with the fourth cell may be provisionally set. That is, it is determined that the fourth cell, the fifth cell, and the sixth cell have a relationship of a second branching point where the fifth cell branches into the fourth cell or the sixth cell (S108). The sixth cell has a pseudo frequency in which the frequency in the plurality of cells constituting the first tissue is the first differential frequency, and the frequency in the plurality of cells constituting the second tissue is the second differential frequency. .

なお、このような大小関係の比較において、シーケンシングの測定誤差を許容してもよい。つまり、数値として第1差分頻度又は第2差分頻度が0以下であっても、誤差範囲を考慮した際に、第1差分頻度又は第2差分頻度の0よりも大きい範囲が含まれる場合には上記の判定条件を満たすとしてもよい。 Note that in such a comparison of magnitude relationships, measurement errors in sequencing may be allowed. In other words, even if the first differential frequency or the second differential frequency is 0 or less as a numerical value, when considering the error range, if the first differential frequency or the second differential frequency includes a range larger than 0, then The above determination conditions may be satisfied.

分析部15は、このようにして決定された第2分岐点の関係にさらに整合するように、第1分岐点の関係に整合するように生成された細胞系譜を更新して、新たな細胞系譜を生成する(S109)。例えば、第1分岐点の関係の説明における、第1細胞、第2細胞、及び第3細胞のうち、第2細胞及び第3細胞のそれぞれが有する第2変異及び第3変異を分岐端の細胞が有する分岐端変異とみなしてステップS107以降の処理を実行する。これにより、第2変異及び第3変異のいずれかから第4細胞又は第6細胞へと分岐する第2分岐点の関係にも整合する細胞系譜を生成してもよい。これにより、2分岐3世代にわたる細胞系譜が生成されてもよい。 The analysis unit 15 updates the cell lineage generated to match the relationship of the first branch point so as to further match the relationship of the second branch point determined in this manner, and creates a new cell lineage. is generated (S109). For example, in the explanation of the relationship at the first branch point, among the first cell, second cell, and third cell, the second mutation and the third mutation that the second cell and the third cell have, respectively, are expressed as the second mutation and the third mutation in the cell at the branch end. The process from step S107 onwards is executed by regarding this as a branch end mutation that has a branch end mutation. Thereby, a cell lineage that also matches the relationship of the second branching point branching from either the second mutation or the third mutation to the fourth cell or the sixth cell may be generated. This may generate a cell lineage spanning two branches and three generations.

[実施例]
以下、実施例を用いて、本実施の形態をさらに具体的に説明する。
[Example]
Hereinafter, this embodiment will be described in more detail using Examples.

図6は、実施例に係る複数の組織における突然変異のアリル頻度を示す第1の図である。本実施例では、分析対象とする個体としてマウスを用いている。また、図6に示すように、複数の組織として、大脳、小脳、肩の皮膚、臀部の皮膚、胃、肺、肝臓、腸、膵臓、四頭筋、舌、心臓、脾臓、腎臓、分泌腺、精巣、尾の17組織を用いた。これらの複数の組織のそれぞれについて組織片を採取し、当該組織片を構成する複数の細胞を用いてシーケンシングを行った。得られたDNAの配列内において、31か所のモザイク変異101と、2か所のヘテロ接合の突然変異102とが見いだされた。図中では、各突然変異について、複数の組織それぞれにおけるアリル頻度を接続し、突然変異ごとのアリル頻度の曲線として示している。 FIG. 6 is a first diagram showing mutation allele frequencies in multiple tissues according to the example. In this example, a mouse is used as an individual to be analyzed. As shown in Figure 6, multiple tissues include the cerebrum, cerebellum, shoulder skin, buttock skin, stomach, lungs, liver, intestines, pancreas, quadriceps, tongue, heart, spleen, kidney, and secretory glands. , testis, and tail were used. Tissue pieces were collected from each of these multiple tissues, and sequencing was performed using multiple cells constituting the tissue pieces. Within the obtained DNA sequence, 31 mosaic mutations 101 and 2 heterozygous mutations 102 were found. In the figure, for each mutation, allele frequencies in each of a plurality of tissues are connected and shown as a curve of allele frequency for each mutation.

図6では、はじめに変異頻度算出装置203において算出された突然変異の頻度に対して、補正処理を適用する。具体的には、次式(1)により、算出された突然変異の頻度が、一様に含み得る相加誤差等の成分の減算を行うとともに、100分率を小数表現に変換する。 In FIG. 6, a correction process is first applied to the mutation frequency calculated by the mutation frequency calculation device 203. Specifically, using the following equation (1), components such as additive errors that may be uniformly included in the calculated mutation frequency are subtracted, and the percentage is converted into a decimal representation.

Figure 0007355325000001
Figure 0007355325000001

なお、Xm,n,rawは、変異頻度算出装置203において算出される、組織nにおける変異mの頻度の生データである。当該生データは、前述したように、変異mごとの相加誤差等を含み得る100分率の数値である。したがって、上記式(1)によってコントロール郡を用いて算出される相加誤差等の成分Xm,ctrlが減算される。また、性染色体上に生じた突然変異については、相同染色体が存在しないため、もとより2倍の頻度が算出される。したがって、これらの性染色体上に生じた突然変異については、あらかじめ半分に補正された生データを算出する。 Note that X m, n, raw is raw data of the frequency of mutation m in tissue n, calculated by the mutation frequency calculation device 203. As described above, the raw data is a 100% numerical value that may include additive errors for each mutation m. Therefore, the component X m,ctrl such as the additive error calculated using the control group according to the above equation (1) is subtracted. Furthermore, for mutations occurring on sex chromosomes, since there are no homologous chromosomes, the frequency is calculated to be twice that of the original. Therefore, for mutations occurring on these sex chromosomes, raw data that has been corrected in half is calculated in advance.

ここで、補正済みの頻度が所定の値よりも低い場合、当該頻度を示す突然変異を以降の処理から除外する。具体的には、シーケンサ201の測定誤差等と区別できないレベルの頻度を除外するための所定の値が設定され、当該所定の値を用いて突然変異の除外を行う。したがって所定の値は、測定に用いたシーケンサ201の性能及び測定条件等に応じて適宜設定されればよい。 Here, if the corrected frequency is lower than a predetermined value, the mutation indicating the frequency is excluded from subsequent processing. Specifically, a predetermined value is set to exclude frequencies at a level that cannot be distinguished from measurement errors of the sequencer 201, etc., and mutations are excluded using the predetermined value. Therefore, the predetermined value may be set as appropriate depending on the performance of the sequencer 201 used in the measurement, the measurement conditions, and the like.

また、以降のデータ処理では、便宜上、ヘテロ接合の突然変異102(つまり、全ての組織における突然変異の頻度が0.5とみなせる突然変異)が含まれる。このようなヘテロ接合の突然変異102を有する細胞は、モザイク変異101を有する細胞すべての上位に位置する、細胞系譜の「根(root)」として位置づけられる。したがって、細胞系譜を自動的に生成する際に、ヘテロ接合の突然変異102を有する細胞が含まれることで、誤差等がなければ、理論上すべてのモザイク変異101を有する細胞系譜の分岐の関係を特定し、1つの細胞系譜を生成できる。 In addition, in the subsequent data processing, for convenience, a heterozygous mutation 102 (that is, a mutation whose mutation frequency in all tissues can be considered to be 0.5) is included. A cell having such a heterozygous mutation 102 is positioned as the "root" of the cell lineage above all cells having the mosaic mutation 101. Therefore, when a cell lineage is automatically generated, by including cells with a heterozygous mutation 102, theoretically, if there are no errors, the branching relationships of cell lineages with all mosaic mutations 101 can be calculated. can be identified and a single cell lineage generated.

図6に示された複数の突然変異の中には、複数の組織のいずれにおいてもほぼ同等のアリル頻度を示す突然変異が存在している。これらの突然変異は、同一のタイミングにおいて生じた変異であることが予想される。したがって、これらの突然変異を異なる細胞上の突然変異として扱うと、1つの細胞から3つ以上の細胞へと分岐する分岐点の関係が存在すること等の細胞系譜における矛盾が生じ得る。したがって、これらの変異を一体的に取り扱うため、複数の組織のいずれにおいてもほぼ同等のアリル頻度を示す突然変異をクラスタリングする処理を行う。 Among the multiple mutations shown in FIG. 6, there are mutations that exhibit approximately the same allele frequency in all of the multiple tissues. These mutations are expected to occur at the same timing. Therefore, if these mutations are treated as mutations in different cells, inconsistencies in the cell lineage may occur, such as the existence of a branch point relationship where one cell branches into three or more cells. Therefore, in order to handle these mutations in an integrated manner, we perform a process of clustering mutations that exhibit approximately the same allele frequency in any of a plurality of tissues.

このとき、突然頻度どうしのアリル頻度の類似度を数値化するため、以下の式(2)を用いる。 At this time, the following equation (2) is used to quantify the similarity of allele frequencies between sudden frequencies.

Figure 0007355325000002
Figure 0007355325000002

なお、Nは、個体の複数の組織のうち、第1組織及び第2組織を含む、細胞系譜生成方法に用いられた対象組織の数である。また、Xi,ave.は、対象組織を構成する複数の細胞における、変異iの頻度の平均値である。また、Xii,ave.は、対象組織を構成する複数の細胞における、第ii変異の頻度の平均値である。また、Xi,nは、第n(nは正の整数)組織を構成する複数の細胞における、第i変異の頻度である。また、Xii,nは、第n組織を構成する複数の細胞における、第ii変異の頻度である。 Note that N is the number of target tissues used in the cell lineage generation method, including the first tissue and the second tissue among the plurality of tissues of the individual. Also, X i, ave. is the average frequency of mutation i in a plurality of cells constituting the target tissue. Also, X ii, ave. is the average frequency of mutation ii in a plurality of cells constituting the target tissue. Moreover, X i,n is the frequency of the i-th mutation in a plurality of cells constituting the n-th (n is a positive integer) tissue. Moreover, X ii,n is the frequency of the ii mutation in a plurality of cells constituting the n th tissue.

上記式(2)において得られる値は、大きいほど対象組織での変異iと変異iiとのアリル頻度の差が小さいことを示している。したがって、閾値を用いた判定により、変異iと変異iiとを同一のクラスタに分類するか否かを決定できる。より具体的には、2つの突然変異を変異i及び変異iiとして用い、上記式(2)において得られる値が閾値以上である場合に、当該2つの突然変異を同一のクラスタに分類する。一方、2つの突然変異を変異i及び変異iiとして用い、上記式(2)において得られる値が閾値よりも小さい場合に、当該2つの突然変異を別のクラスタに分類する。このように数式を用いて総当たり的にクラスタリングを実施し、全ての突然変異を自動的にクラスタに分類できる。 The larger the value obtained in the above formula (2), the smaller the difference in allele frequency between mutation i and mutation ii in the target tissue. Therefore, by making a determination using a threshold value, it can be determined whether or not mutation i and mutation ii are classified into the same cluster. More specifically, two mutations are used as mutation i and mutation ii, and when the value obtained in the above formula (2) is equal to or greater than a threshold value, the two mutations are classified into the same cluster. On the other hand, when two mutations are used as mutation i and mutation ii, and the value obtained in the above equation (2) is smaller than the threshold value, the two mutations are classified into different clusters. In this way, clustering can be performed in a brute force manner using mathematical formulas, and all mutations can be automatically classified into clusters.

ここで用いる閾値は、大きすぎると同一のクラスタに分類されるべき突然変異が異なるクラスタに分類される。また、閾値は、小さすぎると異なるクラスタに分類されるべき突然変異が同一のクラスタに分類される。したがって、ここで用いる閾値は、適切に設定される必要がある。ただし、シーケンサ201等の性能によって適切な値は一義的に決定できない。よって、いくつかの閾値を設定して、それぞれに以降の処理を適用した後、結果から判断される適切な閾値を決定してもよい。 If the threshold used here is too large, mutations that should be classified into the same cluster will be classified into different clusters. Furthermore, if the threshold is too small, mutations that should be classified into different clusters will be classified into the same cluster. Therefore, the threshold used here needs to be set appropriately. However, an appropriate value cannot be uniquely determined depending on the performance of the sequencer 201 and the like. Therefore, after setting several threshold values and applying subsequent processing to each, an appropriate threshold value may be determined based on the results.

なお、同一のクラスタに分類された複数の突然変異は、以降の処理において、1つの突然変異として扱う。言い換えると、突然変異は、複数の突然変異の集合であるクラスタでもよい。したがって、以降の処理において扱う突然変異の頻度は、次式(3)によって置き換えられる。 Note that multiple mutations classified into the same cluster are treated as one mutation in subsequent processing. In other words, a mutation may be a cluster, which is a collection of multiple mutations. Therefore, the mutation frequency handled in subsequent processing is replaced by the following equation (3).

Figure 0007355325000003
Figure 0007355325000003

なお、Mi,numは、クラスタMに分類された突然変異mの個数である。また、Xm,nは、第n組織における突然変異mのそれぞれの頻度である。つまり、第n組織において、クラスタMが示す突然変異の集合における頻度は、クラスタMに分類された突然変異mの第n組織における頻度の平均値によって表される。なお、突然変異mがクラスタを構成していない独立の突然変異である場合でも上記式(3)は成立する。よって、独立した突然変異も分類された突然変異mが1つであるクラスタMとして扱うことで、全てのクラスタに、上記式(3)を適用すればよい。また、処理速度の関係から突然変異mが2以上のクラスタMのみに、上記式(3)を適用してもよい。 Note that M i,num is the number of mutations m classified into cluster M i . Moreover, X m,n is the frequency of each mutation m in the nth tissue. That is, in the n-th tissue, the frequency in the set of mutations indicated by cluster M i is represented by the average frequency of mutations m classified into cluster M i in the n-th tissue. Note that even if the mutation m is an independent mutation that does not constitute a cluster, the above equation (3) holds true. Therefore, the above equation (3) can be applied to all clusters by treating independent mutations as a cluster M i in which the classified mutation m is one. Further, in view of processing speed, the above equation (3) may be applied only to clusters M i in which mutation m is 2 or more.

以上のように、本実施例においては、クラスタを構成する複数の突然変異が、細胞系譜上の同一のタイミングにおいて生じた突然変異であると仮定し、これらの複数の突然変異の頻度の平均値を用いる。つまり、上記の実施の形態の説明に置き換えると、第1変異、第2変異、第3変異、及び第4変異の少なくとも1つは、複数の突然変異の集合で構成されるクラスタ(変異クラスタ)であってもよい。さらに言い換えると、上記において説明した突然変異のバリエーションは、複数の突然変異の組み合わせであってもよい。この場合、変異クラスタである第1変異、第2変異、第3変異、又は第4変異の頻度は、変異クラスタを構成する集合の複数の突然変異それぞれの頻度の平均値であってもよい。 As described above, in this example, it is assumed that multiple mutations forming a cluster occur at the same timing in the cell lineage, and the average frequency of these multiple mutations is calculated as follows: Use. In other words, in the description of the above embodiment, at least one of the first mutation, second mutation, third mutation, and fourth mutation is a cluster (mutation cluster) composed of a set of a plurality of mutations. It may be. In other words, the mutational variation described above may be a combination of multiple mutations. In this case, the frequency of the first mutation, second mutation, third mutation, or fourth mutation that is a mutation cluster may be the average value of the frequencies of each of the plurality of mutations in the set that constitutes the mutation cluster.

これによれば、細胞系譜上の同一のタイミングで生じた突然変異を、一体的に取り扱った細胞系譜を生成できる。個々の突然変異を算出に用いる必要がなく、細胞系譜の生成のための処理量を削減できる。また、シーケンサ201、変異頻度算出装置203等の、突然変異の頻度算出に関わる外部環境等においてそれぞれ生じ得る誤差等を軽減でき、より精度高く細胞系譜を生成することができる。 According to this, it is possible to generate a cell lineage in which mutations that occur at the same timing on the cell lineage are treated integrally. There is no need to use individual mutations for calculations, and the amount of processing required to generate cell lineages can be reduced. Further, errors that may occur in the external environment related to mutation frequency calculation, such as the sequencer 201 and the mutation frequency calculation device 203, can be reduced, and a cell lineage can be generated with higher accuracy.

図7は、実施例に係る複数の組織における突然変異のアリル頻度を示す第2の図である。図7では、図6における突然変異のうち、ヘテロ接合の突然変異102の1つである変異30と、モザイク変異の2つである変異31及び変異33とを図示し、その他の突然変異については図示を省略している。また、図7には、変異31及び変異33におけるアリル頻度を加算することによって得られる仮想頻度35を太線で併せて図示している。図7に示すように、仮想頻度35は、変異30とほぼ一致している。即ち、複数の組織それぞれにおいて、変異31の頻度と変異33の頻度との和が変異30の頻度と一致していることがわかる。つまり、3つの頻度が以下式(4)に示す和の関係を有している。 FIG. 7 is a second diagram showing mutation allele frequencies in multiple tissues according to the example. FIG. 7 illustrates mutation 30, which is one of the heterozygous mutations 102, and mutations 31 and 33, which are two mosaic mutations, among the mutations shown in FIG. Illustration is omitted. Further, in FIG. 7, a virtual frequency 35 obtained by adding the allele frequencies of the mutations 31 and 33 is also illustrated with a thick line. As shown in FIG. 7, the virtual frequency 35 almost matches the mutation 30. That is, it can be seen that the sum of the frequency of mutation 31 and the frequency of mutation 33 matches the frequency of mutation 30 in each of the plurality of tissues. In other words, the three frequencies have a sum relationship shown in equation (4) below.

Figure 0007355325000004
Figure 0007355325000004

なお、X1,nは、第n組織を構成する複数の細胞における、第1変異の頻度を示す第(1+3(n-1))頻度である。また、X2,nは、第n組織を構成する複数の細胞における、第2変異の頻度を示す第(2+3(n-1))頻度である。また、X3,nは、第n組織を構成する複数の細胞における、第3変異の頻度を示す第(3+3(n-1))頻度である。 Note that X 1,n is the (1+3(n-1))th frequency indicating the frequency of the first mutation in a plurality of cells constituting the nth tissue. Further, X 2,n is the (2+3(n-1))th frequency indicating the frequency of the second mutation in a plurality of cells constituting the nth tissue. Further, X 3,n is the (3+3(n-1))th frequency indicating the frequency of the third mutation in a plurality of cells constituting the nth tissue.

これにより、変異30を有する細胞、変異31を有する細胞、及び変異33を有する細胞の関係が前述した第1分岐点の関係であると決定できる。 Thereby, it can be determined that the relationship between the cell having mutation 30, the cell having mutation 31, and the cell having mutation 33 is the first branch point relationship described above.

図8は、実施例に係る複数の組織における突然変異のアリル頻度を示す第3の図である。図8では、図6における突然変異のうち、モザイク変異の3つである変異33、変異37、及び変異39を図示し、その他の突然変異については図示を省略している。また、図8には、変異37及び変異39におけるアリル頻度を加算することによって得られる仮想頻度41を太線で併せて図示している。図8に示すように、仮想頻度41は、変異33とほぼ一致している。即ち、複数の組織それぞれにおいて、変異37の頻度と変異39の頻度との和が変異33の頻度と一致していることがわかる。これにより、変異33を有する細胞、変異37を有する細胞、及び変異39を有する細胞の関係が前述した第1分岐点の関係であると決定できる。 FIG. 8 is a third diagram showing mutation allele frequencies in multiple tissues according to the example. In FIG. 8, among the mutations in FIG. 6, three mosaic mutations, mutation 33, mutation 37, and mutation 39, are illustrated, and illustration of the other mutations is omitted. Further, in FIG. 8, a virtual frequency 41 obtained by adding the allele frequencies of mutation 37 and mutation 39 is also illustrated with a thick line. As shown in FIG. 8, the virtual frequency 41 almost matches the mutation 33. That is, it can be seen that the sum of the frequency of mutation 37 and the frequency of mutation 39 matches the frequency of mutation 33 in each of the plurality of tissues. Thereby, it can be determined that the relationship between the cell having mutation 33, the cell having mutation 37, and the cell having mutation 39 is the relationship of the first branch point described above.

図7及び図8を用いて説明したように、変異30を有する細胞、変異31を有する細胞、変異33を有する細胞、変異37を有する細胞、及び変異39を有する細胞の関係は、2つの第1分岐点の関係に整合する細胞系譜をもって説明できる。つまり、変異30を有する細胞は、変異31及び変異33の一方を有する細胞に分岐し、変異33を有する細胞は、変異37及び変異39の一方を有する細胞に分岐する。 As explained using FIGS. 7 and 8, the relationship between cells having mutation 30, cells having mutation 31, cells having mutation 33, cells having mutation 37, and cells having mutation 39 is This can be explained using a cell lineage that matches the relationship of one branch point. That is, a cell having mutation 30 branches into a cell having one of mutation 31 and mutation 33, and a cell having mutation 33 branches into a cell having one of mutation 37 and mutation 39.

以降では、上記の実施の形態において説明したように突然変異の頻度の大小関係を用いて得られる第2分岐点の関係により、さらに詳細な情報を有する細胞系譜を生成する。具体的には、一の突然変異に着目した時に、当該一の突然変異と他の突然変異との組み合わせのうち、以下式(5)の関係を有する組み合わせの他の突然変異がただ1つとなる組み合わせを特定する。 Hereinafter, a cell lineage having more detailed information is generated based on the second branch point relationship obtained using the magnitude relationship of mutation frequencies as described in the above embodiment. Specifically, when focusing on one mutation, among the combinations of that one mutation and other mutations, there is only one other mutation in the combination that has the relationship of formula (5) below. Identify combinations.

Figure 0007355325000005
Figure 0007355325000005

なお、X4,nは、第n組織を構成する複数の細胞における、第4変異の頻度を示す第1未帰属頻度である。また、X5,nは、第n組織を構成する複数の細胞における、分岐端変異の頻度を示す第1末端頻度である。複数の組織のそれぞれについて、第4変異において上記式(5)を満たす分岐端変異がただ一つである場合に、第4変異を有する細胞と、当該分岐端変異を有する細胞とが第2分岐点の関係を有すると決定される。言い換えると、複数の組織のいずれか一つでも、下記式(6)の関係となった場合、第4変異を有する細胞と、当該分岐端変異を有する細胞とが第2分岐点の関係を有さないと決定する。 Note that X 4,n is a first unattributed frequency indicating the frequency of the fourth mutation in a plurality of cells constituting the n-th tissue. Moreover, X 5,n is the first terminal frequency indicating the frequency of branch-end mutations in a plurality of cells constituting the n-th tissue. For each of the plurality of tissues, if there is only one branch end mutation that satisfies the above formula (5) in the fourth mutation, the cell having the fourth mutation and the cell having the branch end mutation are in the second branch. It is determined that the points have a relationship. In other words, if any one of the multiple tissues has the relationship of formula (6) below, the cell with the fourth mutation and the cell with the branch-end mutation have the relationship of the second branch point. Decide not to.

Figure 0007355325000006
Figure 0007355325000006

以下、このような第2分岐点の関係の探索について、より詳細に説明する。 Hereinafter, the search for the relationship of the second branch point will be explained in more detail.

まず、上記の第1分岐点の関係に基づいて生成された細胞系譜のうち、「根」であるヘテロ接合の突然変異102を有する細胞から分岐した複数の末端に位置する分岐端の細胞の各々が有する複数の分岐端変異を「葉(leaf)」の集合(L)とする。したがって、「葉」の集合には、分岐端の細胞の各々が有する、複数の分岐端変異(l)が含まれる。また、生成された細胞系譜の中で、「根」から分岐した系譜に含まれない突然変異であり、かつ、これより上位の細胞との分岐点の関係をもたない突然変異を「孤立(orphaned)」の集合(O)とする。したがって、「孤立」の集合には、第4変異を含む複数の突然変異(o)が含まれる。ここで、Oの中から次式(7)で得られる値が最大となるoを選択する。 First, among the cell lineage generated based on the above first branch point relationship, each of the branch end cells located at the plurality of ends branched from the "root" cell having the heterozygous mutation 102. Let the plurality of branch end mutations possessed by the leaf be a set of "leaves" (L). Therefore, the set of "leaves" includes a plurality of branch-end mutations (l) that each of the branch-end cells has. In addition, in the generated cell lineage, mutations that are not included in the lineage branched from the ``root'' and have no branching point relationship with higher-level cells are ``isolated''. (O). Therefore, the "orphan" set includes multiple mutations (o) including the fourth mutation. Here, o is selected from among O for which the value obtained by the following equation (7) is maximum.

Figure 0007355325000007
Figure 0007355325000007

なお、Xo,nは、第n組織を構成する複数の細胞における、oの頻度である。ここで選択されるoは、つまり、Oの中で、細胞系譜上の最も上位に位置する細胞が有すると考えられる突然変異である。つまり、第2分岐点の関係は成り立つものの、細胞系譜上、間に別の細胞が入り得る細胞を選択しないために、上記式(7)で最大の値をとり得るoを選択している。 Note that X o,n is the frequency of o in a plurality of cells constituting the n-th tissue. In other words, o selected here is a mutation thought to be possessed by a cell located at the highest position in the cell lineage among O. In other words, although the relationship of the second branch point holds true, in order not to select a cell in which another cell can be inserted in between on the cell lineage, o is selected that can take the maximum value in the above equation (7).

ここで選択したoの頻度と、複数のlそれぞれの頻度との比較を、次式(8)を用いて実施する。 The frequency of o selected here and the frequency of each of the plurality of l's are compared using the following equation (8).

Figure 0007355325000008
Figure 0007355325000008

なお、Xl,nは、第n組織を構成する複数の細胞における、lの頻度である。また、Xo,nは、第n組織を構成する複数の細胞における、oの頻度である。 Note that X l,n is the frequency of l in a plurality of cells constituting the n-th tissue. Moreover, X o,n is the frequency of o in a plurality of cells constituting the n-th tissue.

第n組織のすべてにおいて、上記式(8)により得られる値が、閾値を上回る場合、当該lを、選択したoの親候補の集合に追加する。具体的には、上記式(8)により得られる値は、第n組織の各々におけるlの頻度とoの頻度との差分頻度である。例えば、oが第4変異である場合には、上記式(8)により、第1組織における、第1末端頻度と第1未帰属頻度との差分頻度である第1差分頻度、及び、第2組織における、第2末端頻度と第2未帰属頻度との差分頻度である第2差分頻度、を含む、第n組織の各々における差分頻度が得られる。 If the value obtained by the above equation (8) exceeds the threshold value for all n-th organizations, the corresponding l is added to the set of parent candidates of the selected o. Specifically, the value obtained by the above equation (8) is the difference frequency between the frequency of l and the frequency of o in each of the n-th tissues. For example, when o is the fourth mutation, the first differential frequency, which is the differential frequency between the first terminal frequency and the first unattributed frequency, in the first tissue, and the second A differential frequency is obtained for each of the n-th organizations, including a second differential frequency that is a differential frequency between the second terminal frequency and the second unattributed frequency in the organization.

また、上記の閾値は、シーケンシング等の測定誤差を許容するための値である。したがって、このような誤差が無視できるような理想系においては、閾値として0が設定される。例えば、oが第4変異である場合には、第1差分頻度及び第2差分頻度を含む、第n組織の各々における差分頻度がいずれも0よりも大きい値となる。しかしながら、現実的には、シーケンシングの測定誤差等により、差分頻度が負の値をとる場合があるため、測定誤差分等を考慮して、負の閾値が設定される。例えば、本実施例では、閾値として-0.01を設定した。 Further, the above threshold value is a value for allowing measurement errors such as sequencing. Therefore, in an ideal system in which such an error can be ignored, 0 is set as the threshold value. For example, when o is the fourth mutation, the differential frequencies in each of the n-th tissues, including the first differential frequency and the second differential frequency, all have a value greater than zero. However, in reality, the difference frequency may take a negative value due to a measurement error in sequencing, etc., so a negative threshold value is set in consideration of the measurement error and the like. For example, in this embodiment, −0.01 is set as the threshold value.

複数のlのすべてについて、上記式(8)を用いたlの頻度とoの頻度との比較が終了した後、親候補の集合における要素の数をカウントし、当該要素の数が1であった場合、親候補の集合に含まれたlを有する細胞と、選択したoを有する細胞とが第2分岐点の関係を有すると決定される。決定された第2分岐点の関係に整合するように、細胞系譜を更新して再作成する。なお、この際、親候補の集合に含まれたlと、選択したoとを用いて、上記式(8)を用いて算出された第n組織の各々における差分頻度を示す「疑似(pseudo)」の突然変異(p:疑似変異)を有する細胞を、oを有する細胞と、lを有する細胞との第2分岐点の関係に加える。具体的には、lを有する細胞から、oを有する細胞又はpを有する細胞へと分岐する第2分岐点の関係とする。 After completing the comparison between the frequency of l and the frequency of o using the above formula (8) for all of the plural l's, count the number of elements in the set of parent candidates and determine if the number of the element is 1. In this case, it is determined that the cell having l included in the set of parent candidates and the selected cell having o have a second branching point relationship. The cell lineage is updated and recreated to match the determined second branch point relationship. In addition, at this time, using l included in the set of parent candidates and the selected o, a "pseudo" which indicates the differential frequency in each of the n-th organization calculated using the above formula (8) is calculated. ” mutation (p: pseudomutation) is added to the second branch point relationship between the cell having o and the cell having l. Specifically, the relationship is a second branch point where a cell having l branches to a cell having o or a cell having p.

その後、Oの中から選択したoを削除し、Lの中から親候補の集合に含まれたlを削除し、Lの中に新たにoとpとを加える。なお、親候補の集合における要素の数をカウントし、当該要素の数が0または2以上であった場合、Oの中から選択したoを削除する。これは、選択したoと第2分岐点の関係を有するlが特定できない場合に、細胞系譜を更新せず、かつ、次のoについての処理に移行するために実施している。以上の処理を、Oが空集合となるまで繰り返す。 After that, o selected from O is deleted, l included in the set of parent candidates is deleted from L, and o and p are newly added to L. Note that the number of elements in the set of parent candidates is counted, and if the number of elements is 0 or 2 or more, o selected from O is deleted. This is done in order to not update the cell lineage and move on to the process for the next o when l that has a second branching point relationship with the selected o cannot be identified. The above process is repeated until O becomes an empty set.

図9は、実施例に係る複数の組織における突然変異のアリル頻度を示す第4の図である。図9では、図6における突然変異のうち、モザイク変異の4つである変異31、変異37、変異39、及び変異43を図示し、その他の突然変異については図示を省略している。変異31、変異37、及び変異39は、前述したように細胞系譜における分岐端変異である。このうち、いずれの組織においても変異43のアリル頻度よりも高いアリル頻度を示す(つまり差分の頻度>0の)変異は変異31のみである。したがって、変異31を有する細胞、及び変異43を有する細胞の関係が前述した第2分岐点の関係であると決定できる。 FIG. 9 is a fourth diagram showing mutation allele frequencies in multiple tissues according to the example. In FIG. 9, among the mutations in FIG. 6, four mosaic mutations, mutation 31, mutation 37, mutation 39, and mutation 43, are illustrated, and illustration of the other mutations is omitted. Mutation 31, mutation 37, and mutation 39 are branch-end mutations in the cell lineage, as described above. Among these, mutation 31 is the only mutation that shows an allele frequency higher than that of mutation 43 in any tissue (that is, the difference frequency is >0). Therefore, it can be determined that the relationship between the cell having mutation 31 and the cell having mutation 43 is the second branch point relationship described above.

ここで、図10は、実施例に係る複数の組織における突然変異のアリル頻度を示す第5の図である。図10では、図6における突然変異のうち、図9に示した各変異に、変異31のアリル頻度と変異43のアリル頻度との差分である差分頻度を有する疑似変異45を太線で併せて図示している。このような差分頻度を有する変異は実験的には観測されなかったが、疑似変異を有する細胞を、第2分岐点における、変異43を有する細胞と対となる細胞として以降の分析に用いてもよい。 Here, FIG. 10 is a fifth diagram showing mutation allele frequencies in a plurality of tissues according to the example. In FIG. 10, among the mutations shown in FIG. 6, pseudo-mutation 45 having a differential frequency that is the difference between the allele frequency of mutation 31 and the allele frequency of mutation 43 is shown in bold lines for each mutation shown in FIG. It shows. Although mutations with such a differential frequency were not observed experimentally, cells with pseudo mutations could be used in subsequent analyzes as paired cells with cells with mutation 43 at the second branch point. good.

図11は、図6~図10を用いて説明した内容の概念を示す概略図である。図11中の円形は個々の突然変異のバリエーションを有する細胞を示し、矢印によって細胞系譜上の親子関係であることを示している。言い換えると、矢印の元側の細胞から矢印の先側の細胞へと細胞系譜上の世代が進むことを示している。なお、実施例において認められた31の突然変異には、複数の突然変異が同時に生じる(つまりいずれの組織においても同等のアリル頻度を示す)突然変異が含まれる。したがって、図11では、31の突然変異に対して、より少ない突然変異のバリエーションを有する細胞が示されている。 FIG. 11 is a schematic diagram showing the concept of the content explained using FIGS. 6 to 10. The circles in FIG. 11 indicate cells having individual mutational variations, and the arrows indicate parent-child relationships in the cell lineage. In other words, it shows that the cell lineage generation progresses from the cell at the base of the arrow to the cell at the tip of the arrow. Note that the 31 mutations observed in Examples include mutations in which multiple mutations occur simultaneously (that is, the same allele frequency is shown in any tissue). Therefore, in FIG. 11, cells with fewer mutational variations are shown for 31 mutations.

図11の(a)に示すように、はじめに第1分岐点の関係に基づき5つの細胞による細胞系譜が生成される。続いて、図11の(b)に示すように、第2分岐点の関係により6つ目の細胞を含む細胞系譜が生成される。さらに、図11の(c)に示すように、第2の分岐点の関係において分岐先の細胞と対をなす細胞を生成してもよい。 As shown in FIG. 11(a), a cell lineage of five cells is first generated based on the relationship of the first branch point. Subsequently, as shown in FIG. 11(b), a cell lineage including the sixth cell is generated based on the relationship of the second branch point. Furthermore, as shown in FIG. 11(c), a cell may be generated that pairs with the cell at the branch destination in the relationship of the second branch point.

さらに、図12A、図12B、及び図12Cを用いて、細胞系譜の生成をより精度よく効率的に行うためのアルゴリズムについて説明する。図12Aは、実施例に係る細胞系譜生成装置のアルゴリズムについて説明する第1図である。図12Bは、実施例に係る細胞系譜生成装置のアルゴリズムについて説明する第2図である。図12Cは、実施例に係る細胞系譜生成装置のアルゴリズムについて説明する第3図である。本実施例に例示されるように、実際の細胞系譜生成装置の使用においては、多数の突然変異のバリエーションを有する細胞の中から第1分岐点の関係を特定する必要がある。したがって、以上に説明したような3つの細胞ごとの突然変異の頻度の和を調べる手法が自動化されるとより効率的に細胞系譜を生成することができる。 Furthermore, an algorithm for more accurately and efficiently generating a cell lineage will be described using FIGS. 12A, 12B, and 12C. FIG. 12A is a first diagram illustrating an algorithm of the cell lineage generation device according to the example. FIG. 12B is a second diagram illustrating the algorithm of the cell lineage generation device according to the example. FIG. 12C is a third diagram illustrating the algorithm of the cell lineage generation device according to the example. As exemplified in this example, in actual use of the cell lineage generation device, it is necessary to specify the relationship of the first branch point among cells having a large number of mutational variations. Therefore, if the method of examining the sum of mutation frequencies for each of the three cells as described above is automated, a cell lineage can be generated more efficiently.

そこで、以下の式(9)を用いて第1分岐点の関係を自動的に特定し、細胞系譜を生成すればよい。 Therefore, the relationship between the first branch points may be automatically specified using the following equation (9), and the cell lineage may be generated.

Figure 0007355325000009
Figure 0007355325000009

なお、Nは、個体の複数の組織のうち、第1組織及び第2組織を含む、細胞系譜生成方法に用いられた対象組織の数である。また、X2,ave.は、対象組織を構成する複数の細胞における、第2変異の頻度の平均値である。また、X3,ave.は、対象組織を構成する複数の細胞における、第3変異の頻度の平均値である。また、X1,nは、第n組織を構成する複数の細胞における、第1変異の頻度を示す第(1+3(n-1))頻度である。また、X2,nは、第n組織を構成する複数の細胞における、第2変異の頻度を示す第(2+3(n-1))頻度である。また、X3,nは、第n組織を構成する複数の細胞における、第3変異の頻度を示す第(3+3(n-1))頻度である。 Note that N is the number of target tissues used in the cell lineage generation method, including the first tissue and the second tissue among the plurality of tissues of the individual. Also, X 2, ave. is the average frequency of the second mutation in a plurality of cells constituting the target tissue. Also, X 3, ave. is the average frequency of the third mutation in a plurality of cells constituting the target tissue. Further, X 1,n is the (1+3(n-1))th frequency indicating the frequency of the first mutation in a plurality of cells constituting the nth tissue. Further, X 2,n is the (2+3(n-1))th frequency indicating the frequency of the second mutation in a plurality of cells constituting the nth tissue. Further, X 3,n is the (3+3(n-1))th frequency indicating the frequency of the third mutation in a plurality of cells constituting the nth tissue.

上記式により、特定の3つの突然変異を有する3つの細胞について、3つのうちの2つの突然変異の頻度の和を、残り1つの突然変異の頻度から差し引いた値を、組織ごとの平均的な値としての残差二乗和で算出することができる。つまり、上記式によって得られる値が小さいほど、特定の3つの細胞が第1分岐点の関係を有すると考えられ得る。つまり、所定の閾値を設定し、上記式によって得られる値と当該所定の閾値との比較によって第1分岐点の関係が成立するとすればよい。 Using the above formula, for three cells with three specific mutations, the value obtained by subtracting the sum of the frequencies of two of the three mutations from the frequency of the remaining one mutation is calculated as the average value for each tissue. It can be calculated using the residual sum of squares as a value. In other words, the smaller the value obtained by the above equation, the more it can be considered that the three specific cells have a first branching point relationship. That is, a predetermined threshold value may be set, and the relationship of the first branch point may be established by comparing the value obtained by the above equation with the predetermined threshold value.

ここで、図12Aでは、所定の閾値が大きすぎたために、細胞系譜における矛盾が生じた例における細胞系譜103aを示している。細胞系譜における矛盾とは、例えば、1つの細胞から3つ以上の細胞へと分岐する分岐点の関係が存在すること、又は、2つ以上の細胞から1つの細胞へと合流する合流点の関係が存在することが挙げられる。図12Aでは、このような矛盾が生じているため、所定の閾値が不適であることがわかる。一方で、図12Cでは、所定の閾値が小さすぎたために、細胞系譜が適切に生成されなかった例における細胞系譜103bを示している。所定の閾値が小さすぎた場合、例えば、シーケンシングの測定誤差までも排除してしまうために細胞間の第1分岐点の関係がごく一部しか決定できない。 Here, FIG. 12A shows a cell lineage 103a in an example where a contradiction in the cell lineage occurs because the predetermined threshold value is too large. Conflicts in cell lineages include, for example, the existence of a branch point relationship where one cell branches into three or more cells, or a confluence relationship where two or more cells merge into one cell. The existence of In FIG. 12A, it can be seen that the predetermined threshold value is inappropriate because such a contradiction occurs. On the other hand, FIG. 12C shows a cell lineage 103b in an example where the cell lineage was not appropriately generated because the predetermined threshold value was too small. If the predetermined threshold value is too small, for example, even measurement errors in sequencing are excluded, so that only a small portion of the relationship between the first branch points between cells can be determined.

したがって、所定の閾値は、上記の矛盾が生じない最大の値であるとよい。即ち、所定の閾値を、上記式によって取り得るよりも十分に大きい値に仮設定し、徐々に所定の閾値を小さくすることにより、細胞系譜上の矛盾が消えたときの値を、当該所定の閾値として決定してもよい。 Therefore, the predetermined threshold value is preferably the maximum value that does not cause the above-mentioned contradiction. That is, by tentatively setting a predetermined threshold value to a value that is sufficiently larger than the value that can be taken by the above formula, and gradually decreasing the predetermined threshold value, the value when the contradiction in the cell lineage disappears is determined by the predetermined value. It may be determined as a threshold value.

本実施例においては、例えば、所定の閾値αを0.01で初期化し(α=0.01)、生成された細胞系譜103aにおいて、上記の矛盾の有無を判定した。その後、細胞系譜103a上に上記の矛盾があると判定された場合に、所定の閾値から0.00025を減じた値を新たに所定の閾値として設定し(α=α-0.00025)、再度、上記の矛盾の有無を判定した。細胞系譜103上に上記の矛盾がないと判定された場合に所定の閾値を確定し、処理を終了した。以上の値等は、一例であり、例えば、所定の閾値を初期化する際に、少なくとも1つの矛盾が存在するように所定の閾値を設定してもよい。また、矛盾の有無を判定した後に、当該矛盾であった箇所をカウントして、フィードバック制御により所定の閾値から減じる値を変更する等、処理を高速化するための公知の技術を組み合わせてもよい。 In this example, for example, a predetermined threshold value α was initialized to 0.01 (α=0.01), and the presence or absence of the above-mentioned contradiction was determined in the generated cell lineage 103a. After that, if it is determined that the above-mentioned contradiction exists in the cell lineage 103a, a value obtained by subtracting 0.00025 from the predetermined threshold value is set as a new predetermined threshold value (α=α−0.00025), and the value is set again. , the presence or absence of the above contradiction was determined. When it was determined that there was no contradiction as described above in the cell lineage 103, a predetermined threshold value was determined, and the process was terminated. The above values are just examples, and for example, when initializing the predetermined threshold, the predetermined threshold may be set so that at least one contradiction exists. Furthermore, it is also possible to combine known techniques for speeding up processing, such as counting the number of locations where there is a contradiction and changing the value to be subtracted from a predetermined threshold using feedback control after determining the presence or absence of a contradiction. .

以上のようにして、細胞系譜103上の矛盾をもとに所定の閾値を設定することにより、グラフィカルに適切な所定の閾値を設定できる。また、所定の閾値がシーケンシングに用いられたシーケンサ201の性能等によって左右されるため、所定の閾値に柔軟性をもたせることで、細胞系譜生成装置100が適用可能なシーケンサ201等の外部環境の選択肢を拡大することができる。 As described above, by setting a predetermined threshold value based on contradictions in the cell lineage 103, an appropriate predetermined threshold value can be set graphically. In addition, since the predetermined threshold value depends on the performance of the sequencer 201 used for sequencing, by giving flexibility to the predetermined threshold value, the external environment of the sequencer 201 etc. to which the cell lineage generation device 100 can be applied You can expand your options.

このようにして、図12Bに示すように適切に第1分岐点の関係が決定された細胞系譜103が生成される。 In this way, as shown in FIG. 12B, a cell lineage 103 in which the relationship of the first branch point is appropriately determined is generated.

図13は、実施例に係る細胞系譜を例示する図である。図13には、実施例において説明した突然変異を、当該突然変異を有する細胞として示し、それぞれの分岐点の関係に整合して生成された細胞系譜103が示されている。図13に示すように、変異30を有する細胞30aは、変異31を有する細胞31a又は変異33を有する細胞33aへと分岐する。さらに変異33を有する細胞33aは、変異37を有する細胞37a又は変異39を有する細胞39aへと分岐する。一方、変異31を有する細胞31aは、変異43を有する細胞43a、又は観測されていない疑似変異45を有する細胞45aへと分岐する。 FIG. 13 is a diagram illustrating a cell lineage according to an example. In FIG. 13, the mutations described in the examples are shown as cells having the mutations, and a cell lineage 103 generated in accordance with the relationship of each branch point is shown. As shown in FIG. 13, a cell 30a having mutation 30 branches into a cell 31a having mutation 31 or a cell 33a having mutation 33. Cell 33a having mutation 33 further branches into cell 37a having mutation 37 or cell 39a having mutation 39. On the other hand, the cell 31a having the mutation 31 branches into a cell 43a having the mutation 43 or a cell 45a having the unobserved pseudo-mutation 45.

それぞれの突然変異を有する細胞は、さらに、分岐点の関係により次代の細胞へと分岐している。具体的には、さらに分析を進めることにより、細胞45aが、細胞61及び細胞63へと分岐し、細胞43aが、細胞65及び細胞67へと分岐することが判明した。また、分析を進めることにより、細胞39aから分岐した一の細胞が、細胞69及び細胞71へと分岐し、細胞39から分岐した他の細胞から3度の分岐により、細胞73及び細胞75、2度の分岐により細胞77、1度の分岐により細胞79へと分岐することが判明した。このようにして、本実施例では、最大6世代、11種の分岐端へと分岐する細胞系譜103が生成された。以上に説明した、多世代にわたる細胞系譜の生成では、従来のX染色体不活化等の手法に見られる情報量の乏しさ、及び従来の次世代シーケンサを用いた手法に見られる煩雑さが劇的に改善され、より詳細な情報を簡易に提供することができる。 Cells with each mutation further branch into the next generation of cells through the relationship of branch points. Specifically, further analysis revealed that cell 45a branched into cell 61 and cell 63, and cell 43a branched into cell 65 and cell 67. Further, by proceeding with the analysis, one cell branched from cell 39a branches into cell 69 and cell 71, and another cell branched from cell 39 branches three times to form cell 73, cell 75, and cell 2. It was found that the cells branched into cell 77 by degree branching, and cell 79 by degree branching. In this manner, in this example, a cell lineage 103 was generated that branched into 11 types of branch ends for a maximum of six generations. In the generation of cell lineage over multiple generations as explained above, the lack of information found in conventional methods such as X chromosome inactivation and the complexity found in conventional methods using next-generation sequencers are dramatic. This has been improved to make it easier to provide more detailed information.

なお、以上に説明した実施例については、マウスを用いた生殖交配の実験、及びマウスの単一細胞由来の核をもつ細胞を増殖させたセルラインの実験において妥当性が確認されている。具体的には、生殖交配の実験では、上記の実験に用いたマウスの第1世代子孫のそれぞれにおいて突然変異の保有状況を確認し、細胞系譜の各世代に対応する突然変異を保有する個体が存在することを確認した。また、セルラインの実験では、上記の実験に用いたマウスの体細胞の単一細胞由来の核をもつ細胞を増殖させ、細胞系譜の各世代に対応する突然変異を保有するセルラインが存在することを確認した。 The validity of the above-described examples has been confirmed in reproductive mating experiments using mice and cell line experiments in which cells with nuclei derived from single mouse cells were grown. Specifically, in the reproductive mating experiment, we confirmed the mutation status in each of the first generation offspring of the mice used in the above experiment, and identified individuals carrying the mutation corresponding to each generation of the cell lineage. I confirmed that it exists. In addition, in cell line experiments, cells with nuclei derived from a single mouse somatic cell used in the above experiment were proliferated, and cell lines carrying mutations corresponding to each generation of the cell lineage existed. It was confirmed.

以下、本実施例において生成された細胞系譜103の応用例について説明する。 Hereinafter, an application example of the cell lineage 103 generated in this example will be described.

図14は、各組織における細胞系譜上の細胞の組成比率を例示する図である。図14では、上記実施例に用いた17組織のそれぞれにおいて、突然変異ごとの頻度を用いて算出された細胞系譜上の11種(細胞61~細胞71、及び細胞37a)の細胞の組成比率を示している。 FIG. 14 is a diagram illustrating the composition ratio of cells on the cell lineage in each tissue. FIG. 14 shows the composition ratios of 11 types of cells (cells 61 to 71 and cell 37a) on the cell lineage calculated using the frequency of each mutation in each of the 17 tissues used in the above example. It shows.

図14に示すように、組織ごとに細胞の組成比率は大きく異なっていることがわかる。顕著な例としては、精巣において、細胞67及び細胞69が支配的となっている。一方で、分泌腺、腎臓、心臓、膵臓において、細胞67及び細胞69は、比較的に小さい比率である。このように、個体の複数の組織における突然変異の頻度から生成された細胞系譜103を用いて、当該個体の分析対象としたい組織(第3組織)を構成する複数の細胞の細胞系譜103上の細胞の組成比率として算出してもよい。 As shown in FIG. 14, it can be seen that the cell composition ratio varies greatly depending on the tissue. As a notable example, cells 67 and 69 are predominant in the testis. On the other hand, in the secretory glands, kidney, heart, and pancreas, cells 67 and 69 are in relatively small proportions. In this way, the cell lineage 103 generated from the frequency of mutations in multiple tissues of an individual is used to determine the cell lineage 103 of multiple cells constituting the tissue (third tissue) that is the target of analysis for the individual. It may also be calculated as a cell composition ratio.

具体的には、分析ステップにおいて、さらに、生成された細胞系譜103に基づき、分析対象としたい組織を構成する複数の細胞の各々が細胞系譜上のいずれの細胞に対応するかを特定する。その後、分析対象としたい組織における細胞系譜上の細胞の組成比率を算出してもよい。これにより、分析対象としたい組織を構成する複数の細胞の各々が、細胞系譜103をどのようにたどって形成された細胞であるかを調べることができ、さらに、このような細胞がどのような割合で組織内に含まれるかを示すことができる。 Specifically, in the analysis step, based on the generated cell lineage 103, it is further specified to which cell on the cell lineage each of the plurality of cells constituting the tissue desired to be analyzed corresponds. Thereafter, the composition ratio of cells on the cell lineage in the tissue desired to be analyzed may be calculated. This makes it possible to find out how each of the multiple cells constituting the tissue you want to analyze was formed by tracing the cell lineage 103, and also to find out what kind of cells these cells are. It is possible to show the percentage contained within an organization.

例えば、分析対象としたい組織を、疾患に関連する組織とし、当該組織を構成する複数の細胞のうちの、組成比率上で多数の細胞及び少数の細胞、並びに、疾患の前後における増加した細胞及び減少した細胞等を数値として示す等が可能となる。よって、これまでになかった観点で疾患に関連する組織についての臨床上のより詳細な情報を得ることができる。 For example, if the tissue you want to analyze is a tissue related to a disease, you may want to include a large number of cells, a small number of cells, and a number of cells that have increased before and after the disease among the multiple cells that make up the tissue. It becomes possible to show the decreased number of cells, etc. as a numerical value. Therefore, more detailed clinical information about disease-related tissues can be obtained from a perspective that has not been seen before.

なお、分析対象としたい組織は、細胞系譜103の生成に用いられた組織であってもよく、その他であってもよい。言い換えると、第3組織は、第1組織と同じであってもよく、第2組織と同じであってもよく、その他であってもよい。 Note that the tissue to be analyzed may be the tissue used to generate the cell lineage 103, or may be any other tissue. In other words, the third organization may be the same as the first organization, the second organization, or other organizations.

図15は、実施の形態に係る細胞系譜生成方法の適用例を説明する図である。図15では、ある人51において、細胞組成51aが経時的に変化する様子を示している。本発明により、人51のある組織において、細胞系譜のうちのどの細胞がどの程度の割合で含まれているかを示す細胞組成51aを可視化することが容易に可能となる。そこで、図15に示すように、人51の細胞組成51aを経時的に追跡することで、人51において細胞組成51aから細胞組成51bへと変化した前後において、何らかの外因性ストレスの有無を特定することが可能となる。また、図15に示すように、人51の細胞組成51aにおいて、特定の細胞が異常増殖した細胞組成51cへの変化に基づき、人51における発癌の診断を細胞組成51aの変化から早期に行うことが可能となる。 FIG. 15 is a diagram illustrating an application example of the cell lineage generation method according to the embodiment. FIG. 15 shows how the cell composition 51a of a certain person 51 changes over time. According to the present invention, it is possible to easily visualize the cell composition 51a that indicates which cells of the cell lineage are included in what proportion in a certain tissue of the person 51. Therefore, as shown in FIG. 15, by tracking the cell composition 51a of the person 51 over time, it is possible to identify the presence or absence of some kind of exogenous stress before and after the cell composition 51a changes to the cell composition 51b in the person 51. becomes possible. Further, as shown in FIG. 15, based on the change in the cell composition 51a of the person 51 to a cell composition 51c in which specific cells have abnormally proliferated, the diagnosis of carcinogenesis in the person 51 can be made at an early stage based on the change in the cell composition 51a. becomes possible.

なお、上記において、第1変異、第2変異、第3変異、及び第4変異は、特定の突然変異、又は突然変異の組み合わせであるとして説明したが、これらは、突然変異どうしの関係性を説明するための便宜的な変異である。例えば、上記実施例において生成された細胞系譜103では、細胞30aと、細胞31aと、細胞33aとは、第1分岐点の関係を有することを説明した。この場合、細胞30aが有する変異30が、第1変異であり、細胞31aが有する変異31及び細胞33aが有する変異33が、第2変異及び第3変異である。また、生成された細胞系譜103では、細胞33aと、細胞37aと、細胞39aとは、第1分岐点の関係を有することを説明した。この場合、細胞31aが有する変異31が、第1変異であり、細胞37aが有する変異37及び細胞39aが有する変異39が、第2変異及び第3変異である。 In addition, although the first mutation, second mutation, third mutation, and fourth mutation were explained above as specific mutations or combinations of mutations, these do not explain the relationship between mutations. This is a convenient mutation for explanation. For example, it has been explained that in the cell lineage 103 generated in the above example, the cell 30a, the cell 31a, and the cell 33a have a first branch point relationship. In this case, the mutation 30 that the cell 30a has is the first mutation, and the mutation 31 that the cell 31a has and the mutation 33 that the cell 33a has are the second mutation and the third mutation. Furthermore, it has been explained that in the generated cell lineage 103, the cell 33a, the cell 37a, and the cell 39a have a first branching point relationship. In this case, the mutation 31 that the cell 31a has is the first mutation, and the mutation 37 that the cell 37a has and the mutation 39 that the cell 39a has are the second mutation and the third mutation.

つまり、第1変異、第2変異、第3変異、及び第4変異とは、細胞系譜103の生成のための分析の各段階において、流動的に異なる変異を示す概念である。 That is, the first mutation, second mutation, third mutation, and fourth mutation are concepts that indicate mutations that fluidly differ at each stage of analysis for generating the cell lineage 103.

[効果等]
以上説明したように、本実施の形態における細胞系譜生成方法は、分析対象とする個体の第1組織及び第2組織を含む2以上の組織それぞれの、当該組織を構成する複数の細胞における突然変異の頻度に基づいて細胞系譜103を生成する。
[Effects etc.]
As explained above, the cell lineage generation method according to the present embodiment is based on mutations in a plurality of cells constituting each of two or more tissues including a first tissue and a second tissue of an individual to be analyzed. A cell lineage 103 is generated based on the frequency of .

これによれば、分析対象とする個体から第1組織及び第2組織を採取し、細胞の突然変異の頻度を算出するのみで、細胞系譜103を生成できる。生成された細胞系譜103から、従来に比べ、より詳細な情報を得ることができる。 According to this, the cell lineage 103 can be generated by simply collecting the first tissue and the second tissue from the individual to be analyzed and calculating the frequency of cell mutations. More detailed information can be obtained from the generated cell lineage 103 than in the past.

より具体的には、本実施の形態における細胞系譜生成方法は、分析対象とする個体の第1組織を構成する複数の細胞における、第1変異の頻度を示す第1頻度、第2変異の頻度を示す第2頻度、及び、第3変異の頻度を示す第3頻度を取得し、個体の第2組織を構成する複数の細胞における、第1変異の頻度を示す第4頻度、第2変異の頻度を示す第5頻度、及び、第3変異の頻度を示す第6頻度を取得する取得ステップと、第2頻度と第3頻度との和が第1頻度に対応し、かつ、第5頻度と第6頻度との和が第4頻度に対応するか否かを判定する判定ステップと判定ステップにおける判定結果に基づき、第1変異、第2変異、及び第3変異の関係を分析して、個体の細胞における変異に基づく細胞系譜103を生成する分析ステップと、を含む。 More specifically, the cell lineage generation method according to the present embodiment calculates a first frequency indicating the frequency of a first mutation and a frequency of a second mutation in a plurality of cells constituting a first tissue of an individual to be analyzed. A second frequency indicating the frequency of the third mutation and a third frequency indicating the frequency of the third mutation are acquired, and a fourth frequency indicating the frequency of the first mutation and a fourth frequency indicating the frequency of the second mutation in a plurality of cells constituting the second tissue of the individual are obtained. an acquisition step of acquiring a fifth frequency indicating the frequency and a sixth frequency indicating the frequency of the third mutation, and the sum of the second frequency and the third frequency corresponds to the first frequency and the fifth frequency Based on the determination step of determining whether the sum with the sixth frequency corresponds to the fourth frequency and the determination results in the determination step, the relationship between the first mutation, the second mutation, and the third mutation is analyzed, and the individual and an analysis step of generating a cell lineage 103 based on mutations in the cells.

これによれば、細胞系譜生成方法では、分析対象とする個体から複数の組織片を採取し、シーケンサ等の用いて得られたDNA配列から算出された突然変異の頻度を取得する。取得された突然変異の頻度を比較するのみで当該変異を有する細胞の細胞系譜103を生成することができる。よって容易かつ、少なくとも3つの変異の関係に基づき細胞系譜103が生成されるため、従来に比べ、より詳細な情報を得ることができる。 According to this, in the cell lineage generation method, a plurality of tissue pieces are collected from an individual to be analyzed, and the frequency of mutations calculated from the DNA sequence obtained using a sequencer or the like is obtained. A cell lineage 103 of cells having the mutation can be generated by simply comparing the frequencies of the mutations obtained. Therefore, since the cell lineage 103 is easily generated based on the relationship between at least three mutations, more detailed information can be obtained than in the past.

また、例えば、分析ステップでは、第2頻度と第3頻度との和が第1頻度に対応し、かつ、第5頻度と第6頻度との和が第4頻度に対応すると判定された場合に、第1変異を有する第1細胞、第2変異を有する第2細胞、及び第3変異を有する第3細胞は、第1細胞から、第2細胞又は第3細胞へと分岐する第1分岐点の関係を有すると決定し、決定した第1分岐点の関係に整合する細胞系譜103を生成してもよい。 For example, in the analysis step, if it is determined that the sum of the second frequency and the third frequency corresponds to the first frequency, and the sum of the fifth frequency and the sixth frequency corresponds to the fourth frequency, , the first cell having the first mutation, the second cell having the second mutation, and the third cell having the third mutation are at a first branching point where the first cell branches into the second cell or the third cell. The cell lineage 103 may be generated that matches the relationship of the determined first branch point.

これによれば、突然変異の頻度の関係に基づき、当該突然変異を有する細胞の系譜として細胞系譜103を生成することができる。よって、より詳細な情報を得ることができる細胞系譜103が生成される。 According to this, the cell lineage 103 can be generated as a lineage of cells having the mutation based on the relationship of mutation frequencies. Therefore, a cell lineage 103 from which more detailed information can be obtained is generated.

また、例えば、取得ステップでは、さらに、第1組織を構成する複数の細胞における第4変異の頻度を示す第1未帰属頻度、及び、第2組織を構成する複数の細胞における第4変異の頻度を示す第2未帰属頻度を取得し、分析ステップでは、さらに、細胞系譜103のうちの複数の分岐端の細胞の各々が有する複数の分岐端変異について、第1組織を構成する複数の細胞における頻度を示す第1末端頻度が第1未帰属頻度と0よりも大きい第1差分頻度との和に対応し、かつ、第2組織を構成する複数の細胞における頻度を示す第2末端頻度が第2未帰属頻度と0よりも大きい第2差分頻度との和に対応する分岐端変異が1つであるとき、第4変異を有する第4細胞、及び1つの分岐端変異を有する第5細胞は、第5細胞から、第4細胞へと分岐する第2分岐点の関係を有すると決定し、決定した第2分岐点の関係にさらに整合する、細胞系譜103を生成してもよい。 For example, in the acquisition step, the first unattributed frequency indicating the frequency of the fourth mutation in the plurality of cells constituting the first tissue, and the frequency of the fourth mutation in the plurality of cells constituting the second tissue. In the analysis step, the second unattributed frequency indicating The first terminal frequency indicating the frequency corresponds to the sum of the first unattributed frequency and the first difference frequency larger than 0, and the second terminal frequency indicating the frequency in the plurality of cells constituting the second tissue is the second terminal frequency. 2 When there is one branch-end mutation corresponding to the sum of the unattributed frequency and the second differential frequency larger than 0, the fourth cell having the fourth mutation and the fifth cell having one branch-end mutation are , the cell lineage 103 may be determined to have a second branching point relationship branching from the fifth cell to the fourth cell, and a cell lineage 103 that further matches the determined second branching point relationship may be generated.

これによれば、さらに、細胞系譜103における次代の細胞を特定することで、少なくとも4つの変位の関係に基づき細胞系譜103が生成される。よって、従来に比べ従来に比べ、より詳細な情報を得ることができる。 According to this, by further specifying the next cell in the cell lineage 103, the cell lineage 103 is generated based on at least four displacement relationships. Therefore, more detailed information can be obtained than in the past.

また、例えば、第1変異、第2変異、第3変異、及び第4変異の少なくとも1つは、複数の変異の集合で構成される変異クラスタであってもよい。この場合、変異クラスタである第1変異、第2変異、第3変異、又は第4変異の頻度は、変異クラスタを構成する集合の複数の変異それぞれの頻度の平均値であってもよい。 Furthermore, for example, at least one of the first mutation, second mutation, third mutation, and fourth mutation may be a mutation cluster composed of a set of a plurality of mutations. In this case, the frequency of the first mutation, second mutation, third mutation, or fourth mutation that is a mutation cluster may be the average value of the frequencies of each of the plurality of mutations in the set that constitutes the mutation cluster.

これによれば、細胞系譜103上の同一のタイミングで生じた突然変異を、一体的に取り扱った細胞系譜103を生成できる。言い換えると、上記において説明した突然変異のバリエーションは、複数の突然変異の組み合わせであってもよい。 According to this, it is possible to generate a cell lineage 103 in which mutations occurring at the same timing on the cell lineage 103 are treated integrally. In other words, the mutational variations described above may be a combination of multiple mutations.

また、例えば、分析ステップでは、第4細胞、第5細胞、及び第6細胞は、第5細胞から、第4細胞又は第6細胞へと分岐する第2分岐点の関係を有すると決定し、第6細胞は、第1組織を構成する複数の細胞における頻度が第1差分頻度であり、かつ、第2組織を構成する複数の細胞における頻度が第2差分頻度である疑似変異を有してもよい。 Also, for example, in the analysis step, it is determined that the fourth cell, the fifth cell, and the sixth cell have a relationship of a second branching point that branches from the fifth cell to the fourth cell or the sixth cell, The sixth cell has a pseudo mutation whose frequency in the plurality of cells constituting the first tissue is the first differential frequency and whose frequency in the plurality of cells constituting the second tissue is the second differential frequency. Good too.

これによれば、細胞系譜103をより次代へとつなげるために、観測されていない(未検出の)変異を有する細胞を仮設定することができる。これにより、更に多世代にわたる細胞系譜103を生成することができる。よって、より詳細な情報を得ることができる。 According to this, in order to further connect the cell lineage 103 to the next generation, cells having unobserved (undetected) mutations can be temporarily set. Thereby, it is possible to generate a cell lineage 103 that spans even more generations. Therefore, more detailed information can be obtained.

また、例えば、分析ステップでは、さらに、生成された細胞系譜103に基づき、個体の第3組織を構成する複数の細胞の各々が細胞系譜103上のいずれの細胞に対応するかを特定し、第3組織における細胞系譜103上の細胞の組成比率を算出してもよい。 For example, in the analysis step, based on the generated cell lineage 103, it is further specified which cell on the cell lineage 103 each of the plurality of cells constituting the third tissue of the individual corresponds to, and The composition ratio of cells on the cell lineage 103 in the three tissues may be calculated.

これによれば、第3組織を構成する複数の細胞が細胞系譜上のどのような細胞をどのような比率で含んでいるかを、算出された組成比率として示すことができる。例えば、第3組織を構成する複数の細胞のうちの、組成比率上で多数の細胞、少数の細胞、増加した細胞、及び減少した細胞等を数値として示すなど、これまでになかった観点で第3組織に関する臨床上のより詳細な情報を得ることができる。 According to this, it is possible to indicate as a calculated compositional ratio which cells on the cell lineage and in what ratio are included in the plurality of cells constituting the third tissue. For example, among the multiple cells that make up the tertiary tissue, numerical values can be used to indicate large numbers of cells, small numbers of cells, increased cells, decreased cells, etc. in terms of composition ratio. More detailed clinical information regarding the three tissues can be obtained.

また、例えば、判定ステップでは、上記数式によって表される残差二乗和が所定の閾値以下の場合に、第2頻度と第3頻度との和が第1頻度に対応し、かつ、第5頻度と第6頻度との和が第4頻度に対応すると判定してもよい。 For example, in the determination step, if the sum of squared residuals represented by the above formula is less than or equal to a predetermined threshold, the sum of the second frequency and the third frequency corresponds to the first frequency, and the fifth frequency It may be determined that the sum of and the sixth frequency corresponds to the fourth frequency.

これによれば、数式を用いて総当たり的に突然変異の関係を決定することができる。よってより簡便に細胞系譜103を生成することができる。 According to this, the relationship of mutations can be determined in a brute force manner using a mathematical formula. Therefore, the cell lineage 103 can be generated more easily.

また、例えば、所定の閾値は、作成される細胞系譜103において、(i)1つの細胞から3つ以上の細胞へと分岐する分岐点の関係が存在することの矛盾、及び、(ii)2つ以上の細胞から1つの細胞へと合流する合流点の関係が存在することの矛盾が生じない値であってもよい。 In addition, for example, the predetermined threshold value is determined by the following conditions: (i) a contradiction in the existence of a branching point relationship where one cell branches into three or more cells in the created cell lineage 103; It may be a value that does not contradict the existence of a confluence relationship where two or more cells merge into one cell.

これによれば、矛盾の生じない妥当な範囲、かつ、得られる突然変異の頻度の中で最も多世代の細胞系譜103を生成することができる。よって、より詳細な情報を得ることができる。 According to this, it is possible to generate a cell lineage 103 with the highest number of generations within a reasonable range that does not cause contradictions and within the frequency of mutations that can be obtained. Therefore, more detailed information can be obtained.

また、例えば、細胞系譜103は、個体の癌細胞における変異に基づいて生成されてもよい。 Furthermore, for example, the cell lineage 103 may be generated based on mutations in cancer cells of an individual.

これによれば、癌細胞の細胞系譜103を生成することができる。癌細胞の由来を明らかにすることができるため、有効な抗癌剤、治療法、予後等の判断のために、より詳細な情報を提供できる。 According to this, the cell lineage 103 of cancer cells can be generated. Since the origin of cancer cells can be clarified, more detailed information can be provided for determining effective anticancer drugs, treatment methods, prognosis, etc.

また、例えば、第2組織は、第1組織とは異なる組織であってもよい。 Further, for example, the second organization may be a different organization from the first organization.

これによれば、第1組織と、第1組織とは異なる第2組織とを用いて細胞系譜103を生成できる。より様々な細胞組成の組織において細胞系譜103の生成に用いる突然変異の頻度の算出を実施できるため、組成割合の少ない細胞に起因する検出誤差の影響を低減できる。よって、より正確な細胞系譜103の生成が実施できる。 According to this, the cell lineage 103 can be generated using the first tissue and the second tissue different from the first tissue. Since the frequency of mutations used to generate the cell lineage 103 can be calculated in tissues with more various cell compositions, the influence of detection errors caused by cells with a low composition ratio can be reduced. Therefore, more accurate cell lineage 103 can be generated.

また、本実施の形態におけるプログラムは、上記のいずれかに記載の方法をコンピュータに実行させる。 Further, the program in this embodiment causes a computer to execute any of the methods described above.

これによれば、コンピュータを用いて、上記に記載の細胞系譜生成方法を実行することができる。 According to this, the cell lineage generation method described above can be performed using a computer.

また、本実施の形態における細胞系譜生成装置100は、分析対象とする個体の第1組織を構成する複数の細胞における、第1変異の頻度を示す第1頻度、第2変異の頻度を示す第2頻度、及び、第3変異の頻度を示す第3頻度を取得し、個体の第2組織を構成する複数の細胞における、第1変異の頻度を示す第4頻度、第2変異の頻度を示す第5頻度、及び、第3変異の頻度を示す第6頻度を取得する取得部11と、第2頻度と第3頻度との和が第1頻度に対応し、かつ、第5頻度と第6頻度との和が第4頻度に対応するか否かを判定する判定部13と、判定部の判定結果に基づき、第1変異、第2変異、及び第3変異の関係を分析して個体の細胞においてした変異に基づく細胞系譜103を生成する分析部15と、を備える。 Furthermore, the cell lineage generation device 100 according to the present embodiment also has a first frequency indicating the frequency of the first mutation, and a second frequency indicating the frequency of the second mutation in the plurality of cells constituting the first tissue of the individual to be analyzed. 2 frequency and a third frequency indicating the frequency of the third mutation, and a fourth frequency indicating the frequency of the first mutation and a frequency of the second mutation in a plurality of cells constituting the second tissue of the individual. an acquisition unit 11 that acquires a fifth frequency and a sixth frequency indicating the frequency of the third mutation; the sum of the second frequency and the third frequency corresponds to the first frequency; A determining unit 13 determines whether the sum with the frequency corresponds to the fourth frequency, and based on the determination result of the determining unit, analyzes the relationship between the first mutation, the second mutation, and the third mutation to determine the individual's and an analysis unit 15 that generates a cell lineage 103 based on mutations made in the cells.

これによれば、細胞系譜生成装置100は、分析対象とする個体から複数の組織片を採取し、シーケンサ等の用いて得られたDNA配列から算出された突然変異の頻度を取得部11により取得する。判定部13において取得された突然変異の頻度を比較するのみで、分析部15は当該変異を有する細胞の細胞系譜103を生成することができる。よって容易かつ、少なくとも3つの変異の関係に基づき細胞系譜103が生成されるため、従来に比べ、より詳細な情報を得ることができる。 According to this, the cell lineage generation device 100 collects a plurality of tissue pieces from an individual to be analyzed, and uses the acquisition unit 11 to acquire mutation frequencies calculated from the DNA sequence obtained using a sequencer or the like. do. By simply comparing the frequencies of the mutations acquired by the determination unit 13, the analysis unit 15 can generate the cell lineage 103 of cells having the mutations. Therefore, since the cell lineage 103 is easily generated based on the relationship between at least three mutations, more detailed information can be obtained than in the past.

(その他の実施の形態)
以上、実施の形態について説明したが、本発明は、上記実施の形態に限定されるものではない。
(Other embodiments)
Although the embodiments have been described above, the present invention is not limited to the above embodiments.

例えば、上記実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。 For example, in the embodiments described above, the processing executed by a specific processing unit may be executed by another processing unit. Further, the order of the plurality of processes may be changed, or the plurality of processes may be executed in parallel.

また、上記実施の形態において、入出力部などの各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。 Furthermore, in the above embodiments, each component such as the input/output section may be realized by executing a software program suitable for each component. Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.

また、入出力部などの各構成要素は、ハードウェアによって実現されてもよい。各構成要素は、回路(又は集積回路)でもよい。これらの回路は、全体として1つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。 Further, each component such as the input/output unit may be realized by hardware. Each component may be a circuit (or integrated circuit). These circuits may constitute one circuit as a whole, or may be separate circuits. Further, each of these circuits may be a general-purpose circuit or a dedicated circuit.

また、本発明の全般的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよい。また、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。 Further, general or specific aspects of the present invention may be implemented in a system, apparatus, method, integrated circuit, computer program, or computer readable recording medium such as a CD-ROM. Further, the present invention may be realized by any combination of a system, an apparatus, a method, an integrated circuit, a computer program, and a recording medium.

例えば、上記以外の遺伝学的な追加実験の結果を用いて細胞系譜の補間を行う補間装置を備えていてもよい。また、このような補間のための実験の結果を入力する入力装置を備えていてもよい。 For example, it may be equipped with an interpolation device that interpolates cell lineages using the results of additional genetic experiments other than those described above. Further, an input device for inputting the results of experiments for such interpolation may be provided.

また、例えば、上記の実施の形態における細胞系譜生成装置と、シーケンサと、変異頻度算出装置と、出力部とが一体化された細胞系譜生成システムとして実現されてもよい。 Further, for example, the cell lineage generation device, the sequencer, the mutation frequency calculation device, and the output unit in the above embodiments may be realized as an integrated cell lineage generation system.

また、本発明は、コンピュータによって行われる情報の提示方法として実現されてもよいし、情報の提示方法をコンピュータに実行させるためのプログラムとして実現されてもよい。また、本発明は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。 Further, the present invention may be realized as an information presentation method performed by a computer, or may be realized as a program for causing a computer to execute the information presentation method. Further, the present invention may be realized as a computer-readable non-transitory recording medium on which such a program is recorded.

その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本発明の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本発明に含まれる。 Other embodiments may be obtained by making various modifications to each embodiment that those skilled in the art can think of, or by arbitrarily combining the components and functions of each embodiment without departing from the spirit of the present invention. The present invention also includes such forms.

本発明は、癌等、疾患の診断、及び投薬等の治療のための予備検査等において有用な情報を提供するなど、臨床上のあらゆる場面において有効に用いられる。 INDUSTRIAL APPLICABILITY The present invention can be effectively used in all clinical situations, such as providing useful information in preliminary examinations for diagnosis of diseases such as cancer, and treatments such as medication.

11 取得部
13 判定部
15 分析部
30、31、33、37、39、43 変異
30a、31a、33a、37a、39a、43a、45a、61、63、65、67、69、71、73、75、77、79 細胞
35、41 仮想頻度
45 疑似変異
51 人
51a、51b、51c 細胞組成
100 細胞系譜生成装置
101 モザイク変異
102 ヘテロ接合の突然変異
103、103a、103b 細胞系譜
201 シーケンサ
203 変異頻度算出装置
205 出力部
11 Acquisition unit 13 Determination unit 15 Analysis unit 30, 31, 33, 37, 39, 43 Mutation 30a, 31a, 33a, 37a, 39a, 43a, 45a, 61, 63, 65, 67, 69, 71, 73, 75 , 77, 79 cells 35, 41 hypothetical frequency 45 pseudomutation 51 people 51a, 51b, 51c cell composition 100 cell lineage generation device 101 mosaic mutation 102 heterozygous mutation 103, 103a, 103b cell lineage 201 sequencer 203 mutation frequency calculation device 205 Output section

Claims (10)

分析対象とする個体の第1組織を構成する複数の細胞における、第1変異の頻度を示す第1頻度、第2変異の頻度を示す第2頻度、及び、第3変異の頻度を示す第3頻度を取得し、前記個体の第2組織を構成する複数の細胞における、前記第1変異の頻度を示す第4頻度、前記第2変異の頻度を示す第5頻度、及び、前記第3変異の頻度を示す第6頻度を取得する取得ステップと、
前記第2頻度と前記第3頻度との和が前記第1頻度に一致又はほぼ一致し、かつ、前記第5頻度と前記第6頻度との和が前記第4頻度に一致又はほぼ一致するか否かを判定する判定ステップと、
前記判定ステップにおける判定結果に基づき、前記第1変異、前記第2変異、及び前記第3変異の関係を分析して、前記個体の細胞における変異に基づく細胞系譜を生成する分析ステップと、を含み、
前記分析ステップでは、
前記第2頻度と前記第3頻度との和が前記第1頻度に一致又はほぼ一致し、かつ、前記第5頻度と前記第6頻度との和が前記第4頻度に一致又はほぼ一致すると判定された場合に、前記第1変異を有する第1細胞、前記第2変異を有する第2細胞、及び前記第3変異を有する第3細胞は、前記第1細胞から、前記第2細胞又は前記第3細胞へと分岐する第1分岐点の関係を有すると決定し、
決定した前記第1分岐点の関係に整合する前記細胞系譜を生成する
細胞系譜生成方法。
A first frequency indicating the frequency of the first mutation, a second frequency indicating the frequency of the second mutation, and a third frequency indicating the frequency of the third mutation in a plurality of cells constituting the first tissue of the individual to be analyzed. a fourth frequency indicating the frequency of the first mutation, a fifth frequency indicating the frequency of the second mutation, and a fifth frequency indicating the frequency of the third mutation in a plurality of cells constituting the second tissue of the individual; an obtaining step of obtaining a sixth frequency indicating the frequency;
Whether the sum of the second frequency and the third frequency matches or almost matches the first frequency, and the sum of the fifth frequency and the sixth frequency matches or almost matches the fourth frequency. a determination step of determining whether or not the
an analysis step of analyzing the relationship between the first mutation, the second mutation, and the third mutation based on the determination result in the determination step, and generating a cell lineage based on the mutation in the cells of the individual. fruit,
In the analysis step,
It is determined that the sum of the second frequency and the third frequency matches or almost matches the first frequency, and the sum of the fifth frequency and the sixth frequency matches or almost matches the fourth frequency. In this case, the first cell having the first mutation, the second cell having the second mutation, and the third cell having the third mutation are separated from the first cell by the second cell or the third mutation. It is determined that the cell has a relationship of the first branching point branching into 3 cells,
generating the cell lineage that matches the determined first branching point relationship;
Cell lineage generation method.
前記取得ステップでは、さらに、前記第1組織を構成する複数の細胞における第4変異の頻度を示す第1未帰属頻度、及び、前記第2組織を構成する複数の細胞における前記第4変異の頻度を示す第2未帰属頻度を取得し、
前記分析ステップでは、
さらに、前記細胞系譜のうちの複数の分岐端の細胞の各々が有する複数の分岐端変異について、前記第1組織を構成する複数の細胞における頻度を示す第1末端頻度が前記第1未帰属頻度と0よりも大きい第1差分頻度との和に対応し、かつ、前記第2組織を構成する複数の細胞における頻度を示す第2末端頻度が前記第2未帰属頻度と0よりも大きい第2差分頻度との和に対応する分岐端変異が1つであるとき、前記第4変異を有する第4細胞、及び前記1つの分岐端変異を有する第5細胞は、前記第5細胞から、前記第4細胞へと分岐する第2分岐点の関係を有すると決定し、
決定した前記第2分岐点の関係にさらに整合する、前記細胞系譜を生成する
請求項に記載の細胞系譜生成方法。
In the acquisition step, further, a first unattributed frequency indicating a frequency of a fourth mutation in a plurality of cells constituting the first tissue, and a frequency of the fourth mutation in a plurality of cells constituting the second tissue. Obtain a second unattributed frequency indicating
In the analysis step,
Furthermore, with respect to the plurality of branch-end mutations possessed by each of the plurality of branch-end cells of the cell lineage, a first terminal frequency indicating a frequency in the plurality of cells constituting the first tissue is the first unassigned frequency. and a first differential frequency greater than 0, and a second terminal frequency indicating a frequency in a plurality of cells constituting the second tissue is greater than the second unattributed frequency and a second differential frequency greater than 0. When the number of branch-end mutations corresponding to the sum of the differential frequency is one, the fourth cell having the fourth mutation and the fifth cell having the one branch-end mutation are determined to have a second branching point relationship branching into 4 cells,
The cell lineage generation method according to claim 1 , further comprising generating the cell lineage that further matches the relationship of the determined second branch point.
前記分析ステップでは、前記第4細胞、前記第5細胞、及び第6細胞は、前記第5細胞から、前記第4細胞又は前記第6細胞へと分岐する前記第2分岐点の関係を有すると決定し、
前記第6細胞は、前記第1組織を構成する複数の細胞における頻度が前記第1差分頻度であり、かつ、前記第2組織を構成する複数の細胞における頻度が前記第2差分頻度である疑似変異を有する
請求項に記載の細胞系譜生成方法。
In the analysis step, the fourth cell, the fifth cell, and the sixth cell have a relationship of the second branching point that branches from the fifth cell to the fourth cell or the sixth cell. decided,
The sixth cell is a pseudo cell in which a frequency in a plurality of cells constituting the first tissue is the first differential frequency, and a frequency in a plurality of cells constituting the second tissue is the second differential frequency. The cell lineage generation method according to claim 2 , wherein the cell lineage generation method has a mutation.
前記分析ステップでは、さらに、生成された前記細胞系譜に基づき、前記個体の第3組織を構成する複数の細胞の各々が前記細胞系譜上のいずれの細胞に対応するかを特定し、前記第3組織における前記細胞系譜上の細胞の組成比率を算出する
請求項1~3のいずれか一項に記載の細胞系譜生成方法。
In the analysis step, further, based on the generated cell lineage, it is specified which cell on the cell lineage each of a plurality of cells constituting the third tissue of the individual corresponds to, and The cell lineage generation method according to any one of claims 1 to 3, comprising calculating a composition ratio of cells on the cell lineage in a tissue.
前記判定ステップでは、
Figure 0007355325000010
によって表される残差二乗和が所定の閾値以下の場合に、前記第2頻度と前記第3頻度との和が前記第1頻度に一致又はほぼ一致し、かつ、前記第5頻度と前記第6頻度との和が前記第4頻度に一致又はほぼ一致すると判定し、
Nは、前記個体の複数の組織のうち、前記第1組織及び前記第2組織を含む、前記細胞系譜生成方法に用いられた対象組織の数であり、
2,ave.は、前記対象組織を構成する複数の細胞における、前記第2変異の頻度の平均頻度であり、
3,ave.は、前記対象組織を構成する複数の細胞における、前記第3変異の頻度の平均頻度であり、
1,nは、第n(nは正の整数)組織を構成する複数の細胞における、前記第1変異の頻度を示す第(1+3(n-1))頻度であり、
2,nは、第n組織を構成する複数の細胞における、前記第2変異の頻度を示す第(2+3(n-1))頻度であり、
3,nは、第n組織を構成する複数の細胞における、前記第3変異の頻度を示す第(3+3(n-1))頻度である
請求項1~3のいずれか一項に記載の細胞系譜生成方法。
In the determination step,
Figure 0007355325000010
If the sum of squared residuals represented by 6 frequencies is determined to match or almost match the fourth frequency,
N is the number of target tissues used in the cell lineage generation method, including the first tissue and the second tissue among the plurality of tissues of the individual,
X 2, ave. is the average frequency of the second mutation in a plurality of cells constituting the target tissue,
X 3, ave. is the average frequency of the third mutation in a plurality of cells constituting the target tissue,
X 1,n is the (1+3(n-1))th frequency indicating the frequency of the first mutation in a plurality of cells constituting the nth (n is a positive integer) tissue;
X 2,n is the (2+3(n-1))th frequency indicating the frequency of the second mutation in a plurality of cells constituting the nth tissue,
4. The method according to any one of claims 1 to 3, wherein Cell lineage generation method.
前記所定の閾値は、作成される前記細胞系譜において、(i)1つの細胞から3つ以上の細胞へと分岐する分岐点の関係が存在することの矛盾、及び、(ii)2つ以上の細胞から1つの細胞へと合流する合流点の関係が存在することの矛盾が生じない値である
請求項5に記載の細胞系譜生成方法。
The predetermined threshold value is based on the fact that, in the cell lineage to be created, (i) there is a contradiction in that there is a branch point relationship where one cell branches into three or more cells, and (ii) there is a relationship between two or more cells. 6. The cell lineage generation method according to claim 5, wherein the value is consistent with the existence of a confluence relationship where cells merge into one cell.
前記細胞系譜は、前記個体の癌細胞における変異に基づいて生成される
請求項1~6のいずれか一項に記載の細胞系譜生成方法。
The cell lineage generation method according to any one of claims 1 to 6, wherein the cell lineage is generated based on mutations in cancer cells of the individual.
前記第2組織は、前記第1組織とは異なる組織である
請求項1~7のいずれか一項に記載の細胞系譜生成方法。
The cell lineage generation method according to any one of claims 1 to 7, wherein the second tissue is a tissue different from the first tissue.
請求項1~8のいずれか一項に記載の細胞系譜生成方法をコンピュータに実行させるための
プログラム。
A program for causing a computer to execute the cell lineage generation method according to any one of claims 1 to 8 .
分析対象とする個体の第1組織を構成する複数の細胞における、第1変異の頻度を示す第1頻度、第2変異の頻度を示す第2頻度、及び、第3変異の頻度を示す第3頻度を取得し、前記個体の第2組織を構成する複数の細胞における、前記第1変異の頻度を示す第4頻度、前記第2変異の頻度を示す第5頻度、及び、前記第3変異の頻度を示す第6頻度を取得する取得部と、
前記第2頻度と前記第3頻度との和が前記第1頻度に一致又はほぼ一致し、かつ、前記第5頻度と前記第6頻度との和が前記第4頻度に一致又はほぼ一致するか否かを判定する判定部と、
前記判定部の判定結果に基づき、前記第1変異、前記第2変異、及び前記第3変異の関係を分析して前記個体の細胞においてした変異に基づく細胞系譜を生成する分析部と、を備え
前記分析部は、
前記第2頻度と前記第3頻度との和が前記第1頻度に一致又はほぼ一致し、かつ、前記第5頻度と前記第6頻度との和が前記第4頻度に一致又はほぼ一致すると判定された場合に、前記第1変異を有する第1細胞、前記第2変異を有する第2細胞、及び前記第3変異を有する第3細胞は、前記第1細胞から、前記第2細胞又は前記第3細胞へと分岐する第1分岐点の関係を有すると決定し、
決定した前記第1分岐点の関係に整合する前記細胞系譜を生成する
細胞系譜生成装置。
A first frequency indicating the frequency of the first mutation, a second frequency indicating the frequency of the second mutation, and a third frequency indicating the frequency of the third mutation in a plurality of cells constituting the first tissue of the individual to be analyzed. a fourth frequency indicating the frequency of the first mutation, a fifth frequency indicating the frequency of the second mutation, and a fifth frequency indicating the frequency of the third mutation in a plurality of cells constituting the second tissue of the individual; an acquisition unit that acquires a sixth frequency indicating the frequency;
Whether the sum of the second frequency and the third frequency matches or almost matches the first frequency, and the sum of the fifth frequency and the sixth frequency matches or almost matches the fourth frequency. a determination unit that determines whether or not the
an analysis unit that analyzes the relationship between the first mutation, the second mutation, and the third mutation based on the determination result of the determination unit and generates a cell lineage based on the mutation made in the cells of the individual. ,
The analysis department is
It is determined that the sum of the second frequency and the third frequency matches or almost matches the first frequency, and the sum of the fifth frequency and the sixth frequency matches or almost matches the fourth frequency. In this case, the first cell having the first mutation, the second cell having the second mutation, and the third cell having the third mutation are separated from the first cell by the second cell or the third mutation. It is determined that the cell has a relationship of the first branching point branching into 3 cells,
generating the cell lineage that matches the determined first branching point relationship;
Cell lineage generator.
JP2019139833A 2019-07-30 2019-07-30 Cell lineage generation method, program, and cell lineage generation device Active JP7355325B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019139833A JP7355325B2 (en) 2019-07-30 2019-07-30 Cell lineage generation method, program, and cell lineage generation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019139833A JP7355325B2 (en) 2019-07-30 2019-07-30 Cell lineage generation method, program, and cell lineage generation device

Publications (2)

Publication Number Publication Date
JP2021019564A JP2021019564A (en) 2021-02-18
JP7355325B2 true JP7355325B2 (en) 2023-10-03

Family

ID=74572956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019139833A Active JP7355325B2 (en) 2019-07-30 2019-07-30 Cell lineage generation method, program, and cell lineage generation device

Country Status (1)

Country Link
JP (1) JP7355325B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090292482A1 (en) 2005-03-30 2009-11-26 Yeda Research And Development Co. Ltd. Methods and Systems for Generating Cell Lineage Tree of Multiple Cell Samples
WO2016181979A1 (en) 2015-05-13 2016-11-17 国立大学法人名古屋大学 Method for using syt7, mfsd4, and etnk2 expression levels to detect metastasis of gastric cancer to liver, detection kit, method for screening molecular targeted therapeutic agent, and pharmaceutical composition
JP2016224865A (en) 2015-06-03 2016-12-28 株式会社日立製作所 Device, method, and system structuring genealogical tree

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090292482A1 (en) 2005-03-30 2009-11-26 Yeda Research And Development Co. Ltd. Methods and Systems for Generating Cell Lineage Tree of Multiple Cell Samples
WO2016181979A1 (en) 2015-05-13 2016-11-17 国立大学法人名古屋大学 Method for using syt7, mfsd4, and etnk2 expression levels to detect metastasis of gastric cancer to liver, detection kit, method for screening molecular targeted therapeutic agent, and pharmaceutical composition
JP2016224865A (en) 2015-06-03 2016-12-28 株式会社日立製作所 Device, method, and system structuring genealogical tree

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BMC Bioinformatics,2014年,Vol.15, No.35,pp.1-16
Nature Genetics,2015年,Vol.47, No.4,pp.367-372, ONLINE METHODS
PLoS Comput. Biol.,2014年,Vol.10, No.7, e1003703, pp.1-15

Also Published As

Publication number Publication date
JP2021019564A (en) 2021-02-18

Similar Documents

Publication Publication Date Title
Smith et al. The sea lamprey germline genome provides insights into programmed genome rearrangement and vertebrate evolution
Pagani et al. Genomic analyses inform on migration events during the peopling of Eurasia
JP7487163B2 (en) Detection and diagnosis of cancer evolution
CN109642250B (en) Method for multi-resolution analysis of cell-free nucleic acids
US20120197533A1 (en) Identifying rearrangements in a sequenced genome
EP3378001B1 (en) Methods for detecting copy-number variations in next-generation sequencing
CN108292299A (en) It is born from genomic variants predictive disease
JP7355325B2 (en) Cell lineage generation method, program, and cell lineage generation device
US20240047010A1 (en) Structural variant evaluation through iterative genome construction
US20200255905A1 (en) Diagnosis of cancer or other physiological condition using circulating nucleic acid fragment sentinel endpoints
Cliften Base calling, read mapping, and coverage analysis
US20150317433A1 (en) Using doublet information in genome mapping and assembly
Chen et al. DeBreak: Deciphering the exact breakpoints of structural variations using long sequencing reads
JP7362901B2 (en) Calculation method and program for base methylation degree
US20170226588A1 (en) Systems and methods for dna amplification with post-sequencing data filtering and cell isolation
Shestak et al. Coexistence of Two Rare Genetic Variants in Canonical and Non-canonical Exons of SCN5A: A Potential Source of Misinterpretation
Hsieh et al. Opposing selective forces operating on human-specific duplicated TCAF genes in Neanderthals and humans
US20220101947A1 (en) Method for determining fetal fraction in maternal sample
Kutalik 48th European Mathematical Genetics Meeting (EMGM) 2020
Colucci Next-generation kinship, ancestry and phenotypic deduction for forensic and genealogical analysis
Kutalik et al. 48th European Mathematical Genetics Meeting (EMGM) 2020: Lausanne, Switzerland, April 16–17, 2020
Ebler Design and application of methods for genome inference
Masárová Struktura repeatomu u vybraných zástupců rodu Boechera (brukvovité)
Laochareonsuk et al. Establishing an automated graphical genome analysis platform
Asgharian Inferring the Effective Number of Stem Cells and Somatic Mutation Rate from Multi-Generational Genomic Data in Asexual Planaria

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191011

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230912

R150 Certificate of patent or registration of utility model

Ref document number: 7355325

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150