JP2023102988A - 情報処理システム、情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理システム、情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2023102988A
JP2023102988A JP2022003785A JP2022003785A JP2023102988A JP 2023102988 A JP2023102988 A JP 2023102988A JP 2022003785 A JP2022003785 A JP 2022003785A JP 2022003785 A JP2022003785 A JP 2022003785A JP 2023102988 A JP2023102988 A JP 2023102988A
Authority
JP
Japan
Prior art keywords
mutation
sequence
filter
rank
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022003785A
Other languages
English (en)
Inventor
和明 横山
Kazuaki Yokoyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Original Assignee
University of Tokyo NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC filed Critical University of Tokyo NUC
Priority to JP2022003785A priority Critical patent/JP2023102988A/ja
Priority to PCT/JP2023/000621 priority patent/WO2023136297A1/ja
Publication of JP2023102988A publication Critical patent/JP2023102988A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

【課題】病気の発生や進行に影響する変異である可能性の程度の分析効率や利便性を向上させること。【解決手段】被検体が有する、癌のドライバー変異を選定する分析装置1を含む情報処理システムの学習部は、所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の学習情報セットを用いて機械学習を実行し、所定の配列変異を入力すると、当該配列変異が目的配列変異である可能性の度合いのランクを出力するAIモデルを生成又は更新する。AI等の機械学習の手法が適用された図2のレスキューフィルタ部55は、モデルから出力される可能性の度合いが一定以上である配列変異を、高ランクに分類しなおす。【選択図】図2

Description

本発明は、情報処理システム、情報処理装置、情報処理方法、及びプログラムに関する。
従来より、体細胞の遺伝情報に含まれる塩基配列の突然変異により、疾病が生じる場合があることは広く知られている。近年では、種々の体細胞変異に関して、どのような疾病に関係するかといった情報が収集されてデータベースに記録されており、広く利用されている(非特許文献1参照)。
また、近年、網羅的な塩基配列解析技術(例えば次世代シークエンサ)の進歩により、一回の変異の分析で検出される変異は、検体あたり数百から数百万と、膨大な量となっており、当該変異一つ一つにつき、人為的にその結果の解釈を行うのは効率的でなく、現実的でもない。そこで分析結果の人間による解釈を補助する装置が要望されている。
COSMIC Release v94 is live!、[online]、2021年3月28日、[令和3年10月8日検索]、インターネット<URL:https://cosmic-blog.sanger.ac.uk/Release-v94/>
しかしながら、上述の従来のデータベースには、単に、その症例において生じていた変異が記録されているに過ぎなかった。そのため、データベースを利用して塩基配列の変異を分析するだけでは、そのデータベースに記録された変異が生じているか否かを判断できるものの、がんなどの病気の形成や進行に直接影響する変異(例えばがんに対するドライバー変異)であるか否かは断定できなかった。
即ち、変異の分析結果の解釈には、他に考慮すべき事項が多岐にわたるため、ドライバー変異であるか否かを判定することは困難であった。
そこで、本出願人は、病気の発生や進行に影響する変異である可能性の程度を提示する分析装置を実現するための技術を特許出願している(国際出願番号PCT/JP2020/037499明細書参照)。
しかしながら、このような分析装置よりもさらに、病気の発生や進行に影響する変異である可能性の程度の分析効率や利便性を向上させることが要望されている。
本発明は、このような状況に鑑みてなされたものであり、病気の発生や進行に影響する変異である可能性の程度の分析効率や利便性を向上させることを目的とする。
上記目的を達成するため、本発明の一態様の情報処理システムは、
被検体が有する、有害リスクのある目的配列変異を選定する情報処理システムであって、
所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の当該学習情報セットを用いる所定の機械学習を実行することで、所定の配列変異を入力すると、当該配列変異が前記目的配列変異である可能性の度合いを出力するモデルを生成又は更新する学習手段と、
前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、所定の分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリと、当該可能性がそれより低い1以上の低カテゴリの夫々とのうち何れかに分類する第1フィルタリング手段と、
前記第1フィルタリング手段により前記低カテゴリに分類された前記配列変異のうち、前記モデルから出力される前記可能性の度合いが一定以上である配列変異を、前記高カテゴリに分類しなおす第2フィルタリング手段と、
を備える。
本発明の一態様の情報処理装置は、本発明の一態様の情報処理システムを構成する情報処理装置である。
本発明の一態様の情報処理方法及びプログラムの夫々は、本発明の一態様の情報処理システムに対応する方法及びプログラムの夫々である。
本発明によれば、病気の発生や進行に影響する変異である可能性の程度の分析効率や利便性を向上させることができる。
本発明の情報処理装置の一実施形態に係る分析装置のハードウェア構成の一例を示すブロック図である。 図1の分析装置の機能的構成の一例を示すブロック図である。 図2の分析装置に受け入れられる変位塩基配列情報の構成例を示している。 図2の分析装置から出力される分析結果情報の構成例を示している。 図2の分析装置のうち共通フィルタ部の詳細な機能的構成の一例を示すブロック図である。 図2の分析装置のうちシードジーンフィルタ部の詳細な機能的構成の一例を示すブロック図である。 図2の分析装置のうちシードジーンフィルタ部を採用することの意義を説明する模式図である。 図2の分析装置のうちシードジーンフィルタ部及びレスキューフィルタへのパラメータ入力における画面例を示す図である。 図6の機能的構成を有する分析装置における分析処理の流れの一例を説明するフローチャートである。 図9の分析処理のうち共通フィルタ処理の流れの詳細を説明するフローチャートである。 図9の分析処理のうちシードジーンフィルタ処理の流れの詳細を説明するフローチャートである。 図9の分析処理のうちレスキューフィルタ処理の流れの詳細を説明するフローチャートである。 図2の分析装置のうち共通フィルタ部の詳細な機能的構成のうち図5と異なる一例を示すブロック図である。 図13の機能的構成を有する共通フィルタ部による共通フィルタ処理の流れの詳細を説明するフローチャートである。 図12のレスキューフィルタ処理において機械学習により生成又は更新されるAIモデルを用いる場合において、当該AIモデルを用いた推論の例について説明する図である。 図12のレスキューフィルタ処理において機械学習により生成又は更新されるAIモデルを用いる場合において、当該AIモデルの更新の例について説明する図である。
以下、本発明の実施形態について、図面を用いて説明する。
図1は、本発明の情報処理装置の一実施形態に係る分析装置のハードウェア構成の一例を示すブロック図である。
分析装置1は、分析の対象となる個体と、個体から得た検体とを識別する検体識別情報とともに、当該検体の遺伝情報からシーケンスアライメントにより抽出された、塩基配列の変異箇所及び変異の内容を含む変異状態(配列変異)を表す変異塩基配列情報を受け入れる。変異状態(配列変異)は、一塩基の変異であってもよく、複数の遺伝子に及ぶ染色体の転座等の構造変異であってもよい。具体的に変異箇所及び変異の内容とは、変異のあった位置(リファレンスとなるゲノム情報と比較した場合に、染色体上の一方側から何番目の塩基であるかを示す情報等)と、あるべき塩基がどの塩基に変異しているのかを表す情報を含むものである。NGS解析に必要なリファレンスとなるゲノム情報には、例えばヒトにおいては、GRCh38(hg38)やGRCh37(hg19)が用いられる。
分析装置1は、受け入れた変異塩基配列情報が表す変異状態(配列変異)ごとに、予め定められた複数の分類条件を満たすか否かにより、受け入れた変異塩基配列情報に含まれる変異状態(配列変異)ごとに暫定ランクに分類する。
そして、分析装置1は、この変異状態(配列変異)ごとに分類された暫定ランクに基づいて、変異状態(配列変異)ごとの病的である可能性の程度を上述の分類条件とは異なる分類条件を満たすか否かにより、設定された暫定ランクを変更することで、分類しなおす。この分析装置1の動作については後に詳しく述べる。
分析装置1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入出力インターフェース15と、入力部16と、出力部17と、記憶部18と、通信部19と、ドライブ20とを備えている。
CPU11は、ROM12に記録されているプログラム、又は、記憶部18からRAM13にロードされたプログラムに従って各種の処理を実行する。
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
CPU11、ROM12及びRAM13は、バス14を介して相互に接続されている。このバス14にはまた、入出力インターフェース15も接続されている。入出力インターフェース15には、入力部16、出力部17、記憶部18、通信部19及びドライブ20が接続されている。
入力部16は、例えばキーボード等により構成され、各種情報を入力する。
出力部17は、液晶等のディスプレイやスピーカ等により構成され、各種情報を画像や音声として出力する。
記憶部18は、DRAM(Dynamic Random Access Memory)等で構成され、各種データを記憶する。
通信部19は、インターネットを含むネットワークNを介して他の装置(例えば図示せぬ分析結果を閲覧する端末の情報処理装置等)との間で通信を行う。
ドライブ20には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア31が適宜装着される。ドライブ20によってリムーバブルメディア31から読み出されたプログラムは、必要に応じて記憶部18にインストールされる。
また、リムーバブルメディア31は、記憶部18に記憶されている各種データも、記憶部18と同様に記憶することができる。
このような図1の分析装置1の各種ハードウェアと各種ソフトウェアとの協働により、各種処理の実行が可能になる。
以下、図2を参照して、本実施形態の分析装置1がこのような各種処理を実行するための機能的構成について説明する。
図2は、図1の分析装置の機能的構成の一例を示すブロック図である。
図2に示すように、分析装置1においては、データ受入部51と、設定受入部52と、共通フィルタ部53と、シードジーンフィルタ部54と、レスキューフィルタ部55と、ランク決定部56と、分析結果出力部57とが機能する。
データ受入部51は、分析の対象となる検体の遺伝情報からシーケンスアライメントにより抽出された、塩基配列の変異状態(配列変異)を表す変異塩基配列情報を受け入れる。
図3は、図2の分析装置に受け入れられる変位塩基配列情報の構成例を示している。
図3に示すように、変位塩基配列情報は、変異状態(配列変異)毎(同図中各行毎)に、当該変異状態(配列変異)の塩基配列が見い出された染色体の番号(Chr)と、開始位置(Start)と、終了位置(End)と、本来あるべき塩基配列(Ref)と、抽出された変異している塩基配列(以下、「配列変異」と呼ぶ)(Alt)と、配列変異の割合(アレル頻度:AF)とを少なくとも関連付けた情報である。
本例の変位塩基配列情報においては、変異状態(配列変異)毎(同図中各行毎)に、これらの情報に対してさらに、深度(depth)や変異状態(配列変異)のカウント数(AltCount)等、品質に関係する指標等が関連付けられている。なお、塩基配列の長さは「1」(この場合、塩基配列の情報はA,T,C,Gのいずれかの塩基を表す情報となる)であってもよい。
またこの変異塩基配列情報には、個体の症例等に関する情報(病名や治療歴、腫瘍割合などの情報)が含まれてもよい。
また、このデータ受入部51は、同じ個体から、分析の対象とする変異塩基配列情報を抽出したタイミングとは異なるタイミング(複数あってもよい)で抽出された変異塩基配列情報(時系列情報)を受け入れてもよい。この場合は、データ受入部51は、分析の対象とする時点の変異塩基配列情報の指定の入力を受けておく。
設定受入部52は、分析の設定を受け入れる。この設定は、例えば、共通フィルタ部53において、どのフィルタを用いるかという設定や、パラメータの設定を含む。
なお、シードジーンフィルタ部54及びレスキューフィルタ部55の夫々における設定は、本実施形態の理解を容易なものとすべく本例ではシードジーンフィルタ部54及びレスキューフィルタ部55の夫々において行われるものとするが、この設定受入部52において行われてもよい。
この共通フィルタ部53の設定の具体例は、次の共通フィルタ部53の構成とともに説明する。
本実施の形態では、共通フィルタ部53の動作により、変異の分析結果の解釈に影響する種々の情報に基づく、病的である可能性(例えばドライバー変異である可能性)に関する評価が一次的に行われる。この評価結果は、後述する4段階のランクMYC1乃至MYC4のうち何れかにより表される。
一次的にと記載したのは、本例では、共通フィルタ部53の評価に対してさらに、シードジーンフィルタ部54やレスキューフィルタ部55において再評価(ランクの見直し)が行われるからである。
ここで、解釈に影響する情報には、(1)分析の際に得られる当該変異の付帯情報、及び(2)文献やデータベースに収載された変異に関連する情報、が含まれる。このうち(1)分析の際に得られる当該変異の付帯情報には、(a)検出精度や信頼性の情報(変異が検出エラーでない確率)、(b)変異のアレル頻度(同一変異を持つ細胞集団の全体に占める割合に関連する指標)、(c)時系列情報、すなわち同一症例の他の時点での検体において繰り返して当該変異が検出されているか否か、などがある。
また、(2)文献やデータベースに収載された変異に関連する情報には、当該変異が疾患のドライバー変異として記載されているか否か(あるいはどの程度の頻度で記述がされているか)を表す情報が含まれる。SNP(single nucleotide polymorphism)データベースにも登録がある場合、変異アレルはどの程度の対立アレル頻度で、当該人種においてSNPとして報告されているかという情報が文献やデータベースに収載されていてもよい。さらには、機能予測として、当該変異がコード化されたたんぱく質の立体構造や機能に影響を与えるか、例えばがんの病態形成に関わるとして実験などにより示されているか予測されているか否かを表す情報などが文献やデータベースに収載されていてもよい。
共通フィルタ部53は、データ受入部51が受け入れた複数の変異状態(配列変異)(時系列情報を受け入れたときには、そのうち分析の対象として指定された変異塩基配列情報に含まれる変異状態(配列変異)、以下、「分析対象とする変異状態(配列変異)」と呼ぶ)毎に、予め定められた複数の分類基準の夫々に基づいて、その変異状態(配列変異)を、ランクMYC1乃至MYC4のうち何れかに分類することで、一次的な評価を行う。
なお、共通フィルタ部53の詳細な構成例については、図5や図13を参照して後述する。
ここで、ランクMYC1及びランクMYC2が、配列変異がドライバー変異の可能性が高い、即ちドライバー変異候補であると評価されたことを示すランクである。
ランクMYC1の方が、ランクMYC2よりも高確率で真のドライバー変異である可能性が高いことを示している。
ランクMYC3は、配列変異がドライバー変異の可能性が低い(それ故にドライバー変異候補としては取り扱わない)と評価されたことを示すランクである。即ち、ランクMYC3は、配列変異が有害でない変異と評価されたことを示すランクである。
ランクMYC4は、配列変異がドライバー変異の可能性はほぼ0であるという評価、即ち既知のSNP、errorが起こりやすい領域の変異であることを示すランクである。
このようなデータ受入部51が受け入れた複数の変異状態(配列変異)毎に4段階のランクMYC1乃至MYC4に分類される理由は次の通りである。即ち、当該複数の変異状態(配列変異)の個数はあまりに多数(例えば数万から数億個)であるため、専門医等のユーザが真のドライバー変異を見つけ出す作業を効率的に行うことができるようにするためである。
具体的には、専門家等のユーザが、ランクMYC1又はランクMYC2に分類された変異状態(配列変異)に的を絞って、真のドライバー変異を見つけ出す作業を行うことができるようにするためである。
ここで、上述したように、ランクMYC1の変異状態(配列変異)の方が真のドライバー変異の可能性が高いという定義をしているため、専門家等のユーザにとっては、ランクMYC1の変異状態(配列変異)に特に的を絞った方が効率的である。
しかしながら、詳細については後述するが、共通フィルタ部53は、全てのがんや遺伝病で共通な分類基準を用いたフィルタにより構成されている。したがって、共通フィルタ部53による一次的な評価では、癌腫や遺伝病の種類によっては、ランクMYC2の配列変異の中に真のドライバー変異が多く含まれていたり、逆に、ランクMYC1の配列変異の中に偽陽性が多く含まれている場合がある。この点の詳細については、図7を用いて後述する。
したがって、共通フィルタ部53の一次的な評価結果をそのまま採用してしまうと、ランクMYC1の変異状態(配列変異)に特に的を絞ったとしても、専門家等のユーザは、真のドライバー変異を適切に見つけ出すことは困難であり、結局のところランクMYC2の変異状態(配列変異)もランクMYC1と同等に確認しなければならない。
そこで、複数の癌腫や遺伝病の種類のうちユーザが着目すべき種類にとっての真のドライバーがランクMYC1に集積されるように、共通フィルタ部53によりランクMYC1又はランクMYC2に分類された1以上の変異状態(配列変異)を対象として再評価(再分類)を行うフィルタが、シードジーンフィルタとして本実施形態では採用されている。
このシードジーンフィルタを搭載する機能ブロックが、シードジーンフィルタ部54である。
即ち、シードジーンフィルタ部54は、共通フィルタ部53による一次的な評価としてランクMYC1又はMYC2に分類された1以上の変異状態(配列変異)毎に、複数の癌腫や遺伝病の種類のうちユーザが着目すべき種類に応じてユーザにより設定された分類基準を用いて、その変異状態(配列変異)を、ランクMYC1又はMYC2のうち何れかに再分類することで、再評価を行う。
なお、シードジーンフィルタ部54の詳細例については、図6乃至図8を参照して後述する。
一方、共通フィルタ部53による一次的な評価としてランクMYC3に分類された1以上の変異状態(配列変異)や、シードジーンフィルタ部54によりランクMYC2に再分類された1以上の変異状態(配列変異)(ランクMYC2が維持されたものも含む)の中にも、真のドライバー変異が含まれている可能性がある。
そこで、このような真のドライバー変異を専門家等のユーザが見逃さないようにするためのフィルタが、レスキューフィルタとして本実施形態では採用されている。
このレスキューフィルタを搭載する機能ブロックが、レスキューフィルタ部55である。
即ち、レスキューフィルタ部55は、共通フィルタ部53による一次的な評価としてランクMYC3に分類された1以上の変異状態(配列変異)、及び、シードジーンフィルタ部54によりランクMYC2に再分類された1以上の変異状態(配列変異)(ランクMYC2が維持されたものも含む)毎に、その変異状態(配列変異)を、ランクMYC3若しくはMYC2に維持するか、又はランクMYC1に再分類することで、再評価を行う。
ここで、レスキューフィルタ部55の分類手法は、特に限定されず、共通フィルタ部53やシードジーンフィルタ部54で採用されたものとは異なる分類基準を用いて分類するルールベースの手法でもよいし、機械学習により得られたモデル(AIモデル等)を用いて分類する手法でもよい。
なお、レスキューフィルタ部55の詳細については、図8等を参照して後述する。
ランク決定部56は、共通フィルタ部53、シードジーンフィルタ部54、又はレスキューフィルタ部55が出力する複数の変異状態(配列変異)毎のランク(ランクMYC1乃至MYC4のうちの何れか)に従い、変異状態(配列変異)毎の病的である可能性の程度を表すランク値を決定する。ランク決定部56は、複数の変異状態(配列変異)の夫々に対して、各ランク値を関連付けた情報(以下、「分析結果情報」と呼ぶ)を生成して、分析結果出力部57に提供する。
なお、この病的である可能性の程度を表すランク値は、ランクMYC1乃至MYC4に基づいて新たに演算された値であってもよいが、ここでは説明の便宜上、ランクMYC1乃至MYC4がそのまま採用されるものとする。
分析結果出力部57は、分析結果情報を、図1の出力部17(例えばディスプレイ)から出力したり、通信部19から図示せぬ他装置に対して送信することで出力する。
図4は、図2の分析装置から出力される分析結果情報の構成例を示している。
図4に示すように、分析結果情報は、変異状態(配列変異)毎(同図中各行毎)に、当該変異状態(配列変異)の塩基配列が見い出された染色体の番号(Chr)と、開始位置(Start)と、終了位置(End)と、本来あるべき塩基配列(Ref)と、配列変異(Alt)と、ランク値(MYC)とを少なくとも関連付けた情報である。
図4の例の分析結果情報には、さらに、変異状態(配列変異)毎(同図中各行毎)に、判断に関する記録情報Rも関連付けられている。
判断に関する記録情報Rとは、共通フィルタ部53、シードジーンフィルタ部54、及びレスキューフィルタ部55の夫々のうち、対象の変異状態(配列変異)の分析に用いられたフィルタについて、どのような分類がなされたのか(各フィルタ毎のパラメータ設定や分類基準に基づく判定内容等)を表す情報である。
専門家等のユーザは、ランク値(MYC)のみならず、この判断に関する記録情報Rを併せて参照することで、例えば病原性ありと評価されたときに(ランクMYC1に分類されたときに)、その判断の理由が、主に時系列フィルタの判断に基づくものであるか、データベースフィルタ等の判断に基づくものであるかを区別して扱うことができる。また、専門家等のユーザは、共通フィルタ部53により元々ランクMYC1と分類されたものであるのか、それとも、シードジーンフィルタ部54やレスキューフィルタ部55の再分類によりランクMYC1となったものであるのか等を認識することができる。このことは、専門家等のユーザにとって変異の性質の理解に役立つ。
以上、図2を参照して、図1の分析装置1の機能的構成の一例について説明した。
さらに以下、図5乃至図8を参照して、図2の分析装置1のうち、共通フィルタ部53、シードジーンフィルタ部54、及びレスキューフィルタ部55の夫々について、その詳細な機能的構成を順次説明していく。
図5は、図2の分析装置のうち共通フィルタ部の詳細な機能的構成の一例を示すブロック図である。
図5において、共通フィルタ部53には、基本フィルタ531と、時系列フィルタ532と、データベースフィルタ533と、機能予測フィルタ534と、クオリティフィルタ535とが設けられている。
ここで基本フィルタ531は、分析の対象とする変異状態(配列変異)が良性であると判断できる場合に、良性変異であることを表すランク(例えばランクMYC4)を設定する。また、基本フィルタ531は、分析の対象とする変異状態(配列変異)が良性であると判断できなければ、良性変異でないことを表すランク(例えばランクMYC3)を設定する。
ここで良性と判断できる場合とは、がん化等を引き起こす既知の変異の塩基配列と変異状態(配列変異)に対応する変異した塩基配列との重複部分が比較的短い重複部分である場合、変異状態(配列変異)が表す変異の位置する領域がイントロン領域である場合、SNPデータベース等のように異常がない変異を蓄積したデータベースに変異状態(配列変異)が登録されている場合、又はGDI(Gene Damage Index)に基づいて変異状態(配列変異)が良性と判断できる場合等が相当する。
ここでGDIは、各遺伝子について健常人にどれだけダメージが蓄積されているかを表す指標であり、人によって大きいダメージを受けていても(多様性があっても)、変異によって病的になると考えられない遺伝子である可能性を示す。
基本フィルタ531は、設定受入部52から、がん化等を引き起こす既知の変異の塩基配列と変異状態(配列変異)に対応する変異した塩基配列との重複部分の長さの閾値、SNPであるか否かを判断するデータベースを特定する情報、データベースごとのパラメータ(良性か否かを判断する基準となる良性判断閾値、又はデータベースにSNPである確率などとして登録された値と比較される)の少なくともいずれかの設定を受け入れる。基本フィルタ531は、受け入れた設定に基づいて、分析の対象とする変異状態(配列変異)が良性であるか否かを判断する。
具体的には例えば、基本フィルタ531は、配列変異が文節的重複(segmental duplication)と呼ばれる部位(以下、「文節的重複領域」と適宜呼ぶ)に位置する場合、良性変異であることを表すランクを設定する。
ここで、文節的重複は、染色体の10kb乃至300kbのまとまった領域において、脊椎動物の進化の過程で遺伝子が複製されて隣り合う部位で遺伝子重複するか、あるいは全く離れた別のゲノム上で遺伝子重複したものである。そして、配列変異が文節的重複領域に位置する場合、当該配列変異は、シークエンス結果のリファレンスへのマッピング時に生じた検出エラーの結果であり、偽陽性の可能性が高い事が知られている。
そこで、上述したように、配列変異が文節的重複と呼ばれる部位に位置する場合、基本フィルタ531は、良性変異であることを表すランクを設定する。
より具体的には、基本フィルタ531は、配列変異が文節的重複領域に位置し、当該文節的重複領域の指標がどの程度相同であるかを示す指標が閾値を超える場合は、上述の検出エラーである可能性が高い為、良性変異であることを表すランクを設定する。
また例えば、基本フィルタ531は、変異状態(配列変異)が表す変異の位置する領域がイントロン領域であれば、良性変異であることを表すランクを設定する。
さらに基本フィルタ531は、上記2つの条件を満たさなくとも、指定されたSNPデータベースを検索した結果に基づいて、良性変異であることを表すランクを設定してもよい。基本フィルタ531は、例えば、検索によって変異状態(配列変異)が表す変異がSNPデータベースに登録され、かつ、そのSNPである確率として登録された値が、当該SNPデータベースについて予め定められた良性判断閾値を超えている場合、良性変異であることを表すランクを設定する。
また基本フィルタ531は、ここまでの条件を満たさない場合であっても、当該変異状態(配列変異)が存在する遺伝子のGDIを参照して、予め定められたGDI閾値より大きい場合に、良性変異であることを表すランクを設定する。
これにより分析装置1は、例えばがんのドライバー変異となり得ない(あるいはその可能性が十分低い)遺伝子を予めふるいわけることが可能となる。
またこの基本フィルタ531では、設定受入部52から予め定めた、良性と判断するための複数の条件のうち、どの条件を利用するか(あるいはすべての条件を利用せず、基本フィルタ531としての動作をせずに、すべての変異状態(配列変異)についてランクをランクMYC3に設定して処理をパスするか否か)の設定を受け入れてもよい。
この例では基本フィルタ531は、利用すると設定された条件に限って、当該条件を満たすか否かを判断することとなる。
時系列フィルタ532は、基本フィルタ531が処理をパスした(ランクMYC3が設定された)場合に、分析の対象とする変異状態(配列変異)に対応する、時系列情報に含まれる変異状態(配列変異)の情報を参照して、異なるタイミングで抽出した時系列情報においても同じ変異があったか否かを判断する。
時系列フィルタ532は、分析の対象とする変異状態(配列変異)と、時系列情報に含まれる対応する変異状態(配列変異)とを用い、同じ変異が存在する場合に、問題とするべき変異があるものとしてランク(例えば現在のランクから第1として「1」を引く)を設定してクオリティフィルタ535に処理をパスする。第1所定量は、例えば、変異状態(配列変異)にかかるランクから1回の演算において減算又は加算される最小値である。ここでの例では基本フィルタ531が処理をパスしているので、当初のランクはランクMYC3であり、ここで時系列フィルタ532が問題とするべき変異があるものとしたときには、このランクMYC3から第1所定量として「1」を引いてランクをランクMYC2と設定することとなる。
一方、時系列フィルタ532は、分析の対象とする変異状態(配列変異)と、時系列情報に含まれる対応する変異状態(配列変異)とを用い、同じ変異が存在しないときには、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、データベースフィルタ533へ処理をパスする。
なお、時系列フィルタ532は、設定受入部52から深度や、その他のシーケンスクオリティ、変異アレル頻度等に関する閾値の設定を受けていてもよい。例えば時系列情報に含まれる対応する変異状態(配列変異)に係る深度がここで設定された閾値(例えば「20」)を超えない場合には、時系列フィルタ532は、同じ変異状態(配列変異)があったか否かを判断することなく、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、データベースフィルタ533へ処理をパスする。
さらに本実施の形態の例では、この時系列フィルタ532は、データ受入部51が時系列情報を受け入れていない場合(変異塩基配列情報としては、分析の対象とする変異塩基配列情報だけを受け入れている場合)には、同じ変異状態(配列変異)があるか否かを判断することなく、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、データベースフィルタ533へ処理をパスしてもよい。
また設定受入部52から時系列フィルタ532を利用しない設定が入力されている場合、時系列フィルタ532は、同じ変異状態(配列変異)があるか否かを判断することなく、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままMYC3に設定)して、データベースフィルタ533へ処理をパスする。
データベースフィルタ533は、分析の対象とする変異状態(配列変異)が、予め定められた問題とするべき変異に関する情報を蓄積したデータベース(例えばCOSMIC Cancer Databaseなど)に登録されているか否かを、当該データベースのサーバへ変異状態(配列変異)に関する情報を送信して調べ、登録されている場合に、問題とするべき変異があるものとしてランク(例えば現在のランクから第1所定量として「1」を引く)を設定して、クオリティフィルタ535に処理をパスする。ここでの例では、分析の対象とする変異状態(配列変異)について、基本フィルタ531が処理をパスし、さらに時系列フィルタ532においてランクをそのままとした状態で処理がパスされたときに、このデータベースフィルタ533が判断をすることとなるので、データベースフィルタ533は、その際のランクMYC3から第1所定量として「1」を引いて、ランクをランクMYC2に設定した上で、クオリティフィルタ535に処理をパスすることとなる。
またこのデータベースフィルタ533は、分析の対象とする変異状態(配列変異)が、上記問題とするべき変異に関する情報を蓄積したデータベースに登録されていなかった場合に、ランクをそのままに設定して機能予測フィルタ534に処理をパスする。ここでの例では、このときのランクはランクMYC3のままとなる。
なお、このデータベースフィルタ533は、上記問題とするべき変異に関する情報を蓄積したデータベースとして、どのようなデータベースを利用するかの設定を、設定受入部52から受け入れておく。
この設定では、複数のデータベースを用いるべき旨の指示がされてもよく、この場合、データベースフィルタ533は、分析の対象とする変異状態(配列変異)が、上記問題とするべき変異に関する情報を蓄積したデータベースのいずれかに登録されていた場合に、問題とするべき変異があるものとしてランクを設定する。
機能予測フィルタ534は、変異の病原性を評価したデータベースを参照して、分析の対象とする変異状態(配列変異)に係る変異が、病原性のあるものとしてデータベースに登録されている場合に、病原性の変異があるものとしてランク(例えば現在のランクから第1所定量として「1」を引く)を設定して、クオリティフィルタ535に処理をパスする。
ここで変異の病原性を評価したデータベースとしては、SIFTや、PolyPhen2など広く知られたものがある。また、これらのデータベースのうちには、病原性の有無について多段階で評価しているものがあるが、このような場合は、この機能予測フィルタ534は、例えば病原性の疑いがあるとの判断段階にある場合に、病原性の変異があるものとしてランク(例えば現在のランクから第1所定量として「1」を引く)を設定して、クオリティフィルタ535に処理をパスするものとする。
ここでの例では、分析の対象とする変異状態(配列変異)について、基本フィルタ531が処理をパスし、時系列フィルタ532においてランクをそのままとした状態で処理がパスされ、さらにデータベースフィルタ533においてもランクがそのままの状態で処理がパスされたときに、この機能予測フィルタ534が判断をすることとなるので、機能予測フィルタ534は、その際のランクMYC3から第1所定量として「1」を引いて、ランクをランクMYC2に設定した上で、クオリティフィルタ535に処理をパスすることとなる。
またこの機能予測フィルタ534は、変異の病原性を評価したデータベースを参照して、分析の対象とする変異状態(配列変異)に係る変異が、病原性のあるものとしてデータベースに登録されていなければ(または登録されていても不明であるとか、良性ないし良性と推定される場合として登録されている場合)、ランクをそのままに設定してクオリティフィルタ535に処理をパスする。ここでの例では、このときのランクはMYC3のままとなる。
なお、この機能予測フィルタ534においても、どのようなデータベースを利用するかの設定を、設定受入部52から受け入れておくものとする。
クオリティフィルタ535は、分析の対象とする変異状態(配列変異)をシーケンスしたときの深度や、その他の、分析の対象とする変異状態(配列変異)のシーケンス処理の品質を評価する。この品質の指標については、深度のほか、変異状態(配列変異)のカウント数など、広く知られた指標があり、クオリティフィルタ535は、これらを組み合わせて(あるいはその組み合わせを、設定受入部52から受け入れ、当該受け入れた指標の組み合わせに従って)品質の評価を行う。なお、クオリティフィルタ535は、複数の指標を組み合わせる場合は、すべての指標により、品質が十分高いとの条件を満たす場合に、品質が十分であると判断することとする。
クオリティフィルタ535は、この評価により、分析の対象とする変異状態(配列変異)のシーケンス処理の品質が十分である(十分高い)と判断したときに、判断が適性であるとしてランク(例えば現在のランクから第1所定量として「1」を引く)を設定して、シードジーンフィルタ部54やレスキューフィルタ部55、ランク決定部56に当該ランクを出力する。またこのクオリティフィルタ535は、分析の対象とする変異状態(配列変異)のシーケンス処理の品質が十分である(十分高い)と判断できないときには、ランクをそのままに設定してシードジーンフィルタ部54やレスキューフィルタ部55、ランク決定部56に当該ランクを出力する。
以上、図5を参照して、図2の分析装置1のうち共通フィルタ部53の詳細な機能的構成について説明した。
次に、図6乃至図8を参照して、図2の分析装置1のうちシードジーンフィルタ部54の詳細な機能的構成について説明する。
図6は、図2の分析装置のうちシードジーンフィルタ部の詳細な機能的構成の一例を示すブロック図である。
図6において、シードジーンフィルタ部54には、シードジーンフィルタ541と、パラメータ設定受入部542と、シードジーン情報取得部543とが設けられている。
シードジーンフィルタ541は、共通フィルタ部53による一次的な評価としてランクMYC1又はMYC2に分類された1以上の変異状態(配列変異)毎に、所定の分類基準を用いて、その変異状態(配列変異)を、ランクMYC1又はMYC2のうち何れかに再分類するフィルタである。
ここで、ランクMYC1に再分類されること(ランクMYC1を維持することを含む)を、以下、「アップグレード」と呼ぶ。これに対して、ランクMYC2に再分類されること(ランクMYC1を維持することを含む)を、以下、「ダウングレード」と呼ぶ。
具体的には例えば、シードジーンフィルタ541は、分類対象の変異状態(配列変異)がランクMYC2に分類されている場合、当該分類対象が分類基準を満たすときにはランクMYC1にアップグレードさせ、当該分類対象が分類基準を満たさないときにはランクMYC2にダウングレード(維持)させる。
また例えば、シードジーンフィルタ541は、分類対象の変異状態(配列変異)がランクMYC1に分類されている場合、当該分類対象が分類基準を満たすときにはランクMYC1にアップグレード(維持)させ、当該分類対象が分類基準を満たさないときにはランクMYC2にダウングレードさせる。
なお、分類基準は、本例では理解を容易なものとするために、分類対象がランクMYC1に分類されている場合もランクMYC2に分類されている場合にも同一種類が採用されているが、特にこれに限定されない。例えば、分類対象がランクMYC1に分類されている場合には第1種分類基準が採用される一方、分類対象がランクMYC2に分類されている場合にも第2種分類基準が採用されるようにしてもよい。
また、図8を参照して後述するように、シードジーンフィルタ541は、専門家等のユーザの設定により、アップグレードとダウングレードのうち一方のみを行うフィルタとして機能させることもできる。
パラメータ設定受入部542は、シードジーンフィルタ541の分類基準を設定するためのパラメータを受け入れる。例えばパラメータ設定受入部542は、複数の癌腫や遺伝病の種類のうちユーザが着目すべき種類に応じて当該ユーザにより指定されたパラメータを受け入れる。そして、パラメータ設定受入部542は、受け入れたパラメータに基づいて、シードジーンフィルタ541の分類基準を設定する。
例えば、複数の癌腫や遺伝病の種類のうちユーザが着目すべき種類にとって適切な「データベース又はリスト」を示すパラメータが、パラメータ設定受入部542により受け入れられる場合がある。このような場合、例えば、パラメータにより示される「データベース又はリスト」に登録されているという基準が、シードジーンフィルタ541の分類基準としてパラメータ設定受入部542により設定される。
さらに例えば、複数の癌腫や遺伝病の種類のうちユーザが着目すべき種類を示すパラメータが、パラメータ設定受入部542により受け入れられる場合がある。このような場合、例えば、上述の「データベース又はリスト」において、パラメータにより示される癌腫や遺伝病の種類のものとして登録されているという基準が、シードジーンフィルタ541の分類基準としてパラメータ設定受入部542により設定される。
さらに例えば、上述の「データベース又はリスト」における最低登録数を示すパラメータ等が、パラメータ設定受入部542により受け入れられる場合がある。このような場合、例えば、上述の「データベース又はリスト」に登録されている件数が、パラメータにより示される最低登録数以上であるという基準が、シードジーンフィルタ541の分類基準としてパラメータ設定受入部542により設定される。
なお、パラメータの設定の詳細な具体例については、図8を参照して後述する。
シードジーン情報取得部543は、シードジーンフィルタ541において分類対象の変異状態(配列変異)が分類基準を満たすか否かを判断するために用いる情報を、シードジーン情報として採用する。
シードジーン情報としては、「データベース又はリスト」自体、或いは、当該「データベース又はリスト」に対する検索結果等が採用される。
即ち例えば、データベースには、ある癌腫や遺伝病の種類の症例において報告(サンプル)された変異について、リファレンスゲノム上における座標(位置)と当該変異に関する統計情報と、その症例に関する情報とが含まれている。具体的には例えば、報告された変異について、全サンプルのうち、「所定遺伝子の所定座標の塩基が、他の塩基(何れの塩基)に変異していた」という報告(サンプル)がいくつ存在したか、という統計情報が、含まれる。
また例えば、リストには、ある癌腫や遺伝病の種類の症例において報告(サンプル)された変異がサンプル毎の情報として含まれる。
このように、データベース又はリストには、所定の癌腫や遺伝病の種類における報告(サンプル)として、「所定遺伝子の所定座標の塩基が異なる他の塩基(何れの塩基)に変化していた」という情報や、「遺伝子がいつ・どこではたらくかを決める配列(発現調節配列)の塩基が異なる他の塩基(何れの塩基)に変化していた」という情報が含まれる。発現調節配列には例えばエンハンサーやプロモーター、非タンパクコードRNAなどが含まれる。
つまり、このようなシードジーン情報に含まれる当該遺伝子(塩基配列)や発現調節配列における所定座標の塩基の変異の情報と、判断材料の配列変異とが比較される。
即ち、シードジーンフィルタ541は、シードジーン情報を用いて、分類対象の変異状態(配列変異)が分類基準を満たすか否かを判定し、分類基準を満たす場合にはアップグレードをし、分類基準を満たさない場合にはダウングレードをする。
このようなシードジーンフィルタ部54を採用することで、次のような第1乃至第3のメリットを生ずることが可能になる。
即ち、第1のメリットは、癌腫や遺伝病の種類を問わず、日本国の薬事承認申請においては、パラメータ設定受入部542により受け入れられる可能性のあるパラメータの設定の承認だけ行えばよいというものである。
第2のメリットは、シードジーン情報のアップデートが容易というものである。
第3のメリットは、専門家等のユーザの(パラメータ等の)設定による(シードジーンフィルタ541を用いた)再解析が容易であるというものである。
さらに、このようなシードジーンフィルタ部54を採用することの技術的意義について、図7を参照して説明する。
図7は、図2の分析装置のうちシードジーンフィルタ部を採用することの意義を説明する模式図である。
図7の左方の棒グラフは、共通フィルタ部53による一次的な評価の結果として、ランクMYC1及びランクMYC2の配列変異の個数を示すものである。
共通フィルタ部53による一次的な評価の結果をそのまま採用すると、ランクMYC1の配列変異の個数が多くなる(その分だけ、専門家等のユーザの解釈が非効率になる)という課題が生じる。
即ち、上述したように、共通フィルタ部53による一次的な評価では、癌腫や遺伝病の種類によっては、ランクMYC2の配列変異の中に真のドライバー変異が多く含まれていたり、逆に、ランクMYC1の配列変異の中に偽陽性が多く含まれている場合がある。
したがって、共通フィルタ部53の一次的な評価結果をそのまま採用してしまうと、ランクMYC1の変異状態(配列変異)に特に的を絞ったとしても、専門家等のユーザは、真のドライバー変異を適切に見つけ出すことは困難であり、結局のところランクMYC2の変異状態(配列変異)もランクMYC1と同等に確認しなければならない、という課題が生じる。
この課題が生じる要因は、上述したように、共通フィルタ部53は、全てのがんや遺伝病で共通な分類基準を用いたフィルタにより構成されており、癌腫や遺伝病の種類のうち、専門家等のユーザにとって着目する種類において重要な遺伝子や発現調節配列に重みづけができていないためである。
シードジーンフィルタ部54は、この課題を解決するために採用されている。
即ち、図7の右方の棒グラフは、共通フィルタ部53による一次的な評価の結果に対して、さらに、シードジーンフィルタ部54による再評価した結果を示している。
上述したように、シードジーンフィルタ部54は、癌腫や遺伝病の種類のうち、専門家等のユーザにとって着目する種類に応じてユーザにより指定されたパラメータを用いて、分類基準を設定すると共に、シードジーン情報を取得する。シードジーンフィルタ541は、図7の左方に示されるランクMYC1及ぶMYC2の変異状態(配列変異)の夫々を分類対象に順次設定して、シードジーン情報を用いて、分類対象が分類基準を満たすか否かを判定し、分類基準を満たす場合にはアップグレードをし、分類基準を満たさない場合にはダウングレードをする。
その結果、図7の右方の棒グラフに示すように、癌腫や遺伝病の種類のうち、専門家等のユーザにとって着目する種類にとっての真のドライバー変異がランクMYC1に集積されるようになる。
これにより、専門家等のユーザは、ランクMYC1を重点的に確認すれば良いので、真のドライバー変異を見逃すことを減少させることができる。
図8は、図2の分析装置のうちシードジーンフィルタ部及びレスキューフィルタ部へのパラメータ入力における画面例を示す図である。
図8の画面例において、領域SUGは、シードジーンフィルタ541のアップグレードのための分類基準を設定するためのパラメータを、専門家等のユーザが指定操作するためのものである。
領域SUGには、3つの観点から、シードジーンフィルタ541のアップグレードのための分類基準を設定するためのパラメータを、専門家等のユーザが指定操作することができる。
1つ目の観点の分類基準の設定は、図8中「1」と表記されたものであり、データベースとしてCOSMICを用いた分類基準を設定するというものである。
専門家等のユーザは、1つ目の観点での分類基準の設定を所望する場合、図8中「1」と表記された右方のボックスをチェックする操作をする。
この第1の観点では、2つのパラメータの指定が可能である。
1つ目のパラメータの指定は指定欄A1によりなされる。
指定欄A1は、COSMICにおけるカットオフ値(最低登録件数)を、専門家等のユーザが指定(入力操作)する欄である。パラメータ設定受入部542は、COSMICに当該カットオフ値(最低登録件数)以上登録されているという分類基準を、シードジーンフィルタ541のアップグレードのための分類基準として設定する。
2つめのパラメータの指定は指定欄A2によりなされる。
指定欄A2は、分類基準として採用する対象を、全癌腫にするのか、それとも、専門家等のユーザが指定する癌腫でCOSMICに登録されたものに限定するのかを、専門家等のユーザが指定(入力操作)する欄である。
専門家等のユーザは、全癌腫を所望する場合、「All cancers」と記載された左方のボックスをチェックする操作をする。この場合、パラメータ設定受入部542は、COSMICに登録されている全癌腫を対象として上述のカットオフ値(最低登録件数)以上登録されているという分類基準を、シードジーンフィルタ541のアップグレードのための分類基準として設定する。
これに対して、専門家等のユーザは、癌腫の指定を所望する場合、「Specific tissu type」と記載された左方のボックスをチェックする操作をし、さらに、その下方の欄に記載されている複数の癌腫の中から1以上を指定する。この場合、パラメータ設定受入部542は、専門家等のユーザにより指定された1以上の癌腫のうち何れかでCOSMICに登録されているものを対象として上述のカットオフ値(最低登録件数)以上登録されているという分類基準を、シードジーンフィルタ541のアップグレードのための分類基準として設定する。
2つ目の観点の分類基準の設定は、図8中「2」と表記されたものであり、データベース又はリストとしてCOSMIC以外を用いた分類基準を設定するというものである。
専門家等のユーザは、2つ目の観点での分類基準の設定を所望する場合、図8中「2」と表記された右方のボックスをチェックする操作をする。
この第2の観点では、専門家等のユーザは、指定欄A3により、重みづけをする遺伝子(例えば、ガイドラインにある遺伝子)又はがんのデータベースをパラメータとして指定する。この場合、パラメータ設定受入部542は、専門家等のユーザにより指定された「重みづけをする遺伝子(例えば、ガイドラインにある遺伝子)又はがんのデータベース」に登録されているという分類基準を、シードジーンフィルタ541のアップグレードのための分類基準として設定する。
3つ目の観点の分類基準の設定は、図8中「3」と表記されたものであり、専門家等のユーザ自身が指定する遺伝子を用いた分類基準を設定するというものである。
専門家等のユーザは、3つ目の観点での分類基準の設定を所望する場合、図8中「3」と表記された右方のボックスをチェックする操作をする。
この第3の観点では、専門家等のユーザは、指定欄A4により、当該ユーザ自身が重みづけをする遺伝子を指定する。この場合、パラメータ設定受入部542は、専門家等のユーザ自身により指定された重みづけをする遺伝子や発現調節配列に該当するという分類基準を、シードジーンフィルタ541のアップグレードのための分類基準として設定する。
シードジーンフィルタ541のアップグレードのための分類基準の一例として、3つの観点の分類基準について説明した。これら3つの観点の分類基準は排他的なものではなく、2以上組み合わせて指定することが可能である。2つ以上の分類基準が指定された場合(「1」乃至「3」の右方のボックスのうち2つ以上がチェックされた場合)、OR条件、即ち2つ以上の分類基準のうち少なくとも1つが満たす場合には満たすと判定されるという条件が採用される。
具体的には、シードジーンフィルタ541は、分類対象の変異状態(配列変異)がランクMYC2に分類されている場合、当該分類対象が2つ以上の分類基準のうち少なくとも1つを満たすときにはランクMYC1にアップグレードさせる。同様に、シードジーンフィルタ541は、分類対象の変異状態(配列変異)がランクMYC1に分類されている場合、当該分類対象が2つ以上の分類基準のうち少なくとも1つを満たすときにはランクMYC1にアップグレード(維持)させる。
なお、図8の画面例において、領域SDGは、シードジーンフィルタ541のダウングレードの機能を発揮させるために、専門家等のユーザが指定操作するためのものである。
即ち、シードジーンフィルタ541のダウングレードの機能を発揮させるためには、専門家等のユーザは、図8中「4」と表記された右方のボックスをチェックする操作をする。
この場合、上述の3つの観点の分類基準のうち1以上が指定されている(「1」乃至「3」の右方のボックスのうち1つ以上がチェックされている)場合、1以上の分類基準の何れも満たさないときにはダウングレードの対象になる。
即ち、シードジーンフィルタ541は、分類対象の変異状態(配列変異)がランクMYC2に分類されている場合、当該分類対象が1以上の分類基準のうち何れも満たさないときにはランクMYC2にダウングレード(維持)させる。同様に、シードジーンフィルタ541は、分類対象の変異状態(配列変異)がランクMYC1に分類されている場合、当該分類対象が1以上の分類基準の何れも満たさないときにはランクMYC2にダウングレードさせる。
ここで、図8の画面例において、領域RSは、レスキューフィルタ部55の分類基準を設定するためのパラメータを、専門家等のユーザが指定操作するためのものである。
専門家等のユーザは、複数のデータベース又はリストのうち1以上をパラメータとして指定する。この場合、レスキューフィルタ部55は、専門家等のユーザにより指定された1以上のデータベース又はリストのうち何れかに登録されているという分類基準を、レスキューフィルタ部55の分類基準として設定する。
即ち、レスキューフィルタ部55は、共通フィルタ部53による一次的な評価としてランクMYC3に分類された1以上の変異状態(配列変異)、及び、シードジーンフィルタ部54によりランクMYC2に再分類された1以上の変異状態(配列変異)(ランクMYC2が維持されたものも含む)の夫々を分類対象として順次設定する。
レスキューフィルタ部55は、分類対象の変異状態(配列変異)が分類基準を満たす場合にはランクMYC1に再分類し、分類基準を満たさない場合にはランクMYC3若しくはMYC2を維持する。
なお、図8の画面例で設定されるレスキューフィルタ部55は、ルールベースの手法が採用されたものである。
ただし、レスキューフィルタ部55の分類手法は、特にこれに限定されず、上述のように、機械学習により得られたモデル(AIモデル等)を用いて分類する手法が採用されてもよい。以下、この手法が採用された場合のレスキューフィルタ部55について説明する。
図示はしないが、学習装置は、所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の当該学習情報セットを用いる所定の機械学習を実行する。これにより、学習装置は、ランクMYC2若しくはMYC3の所定の配列変異を入力すると、ランクMYC1として再分類して出力するか又はランクMYC2若しくはMYC3で維持して出力するモデル(例えばAIモデル)を生成又は更新する。
ここで、更新するとは、学習情報セットを追加して再学習することを意味する。また、学習装置は、分析装置1の一部として設けられてもよいし、分析装置1とは異なる装置として設けられてもよい。
例えば、公共データベースとしては、ClinVar(ヒトゲノムの多様性と関連する疾患、遺伝疾患についてのデータベース)や上述のCOSMICを採用することができる。
また例えば、ヒト遺伝子多型のデータベースとして、dbsnpを採用することができる。
また例えば、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベースとして、DGIdを採用することができる。
また例えば、薬物応答のデータベースとして、PharmGKBやOncoKBを採用することができる。
この場合、レスキューフィルタ部55は、共通フィルタ部53による一次的な評価としてランクMYC3に分類された1以上の変異状態(配列変異)、及び、シードジーンフィルタ部54によりランクMYC2に再分類された1以上の変異状態(配列変異)(ランクMYC2が維持されたものも含む)の夫々を分類対象として順次設定する。
レスキューフィルタ部55は、分類対象の変異状態(配列変異)を、上述の学習装置により生成又は更新されたモデル(AIモデル等)に入力し、当該モデルの出力がランクMYC1であると場合にはランクMYC1に再分類し、それ以外の場合にはランクMYC3若しくはMYC2を維持する。
以上、図6乃至図8を参照して、分析装置1の機能的構成について説明した。
次に、図9以降の図面を参照して、分析装置1の処理について説明する。
図9は、図6の機能的構成を有する分析装置における分析処理の流れの一例を説明するフローチャートである。
ステップS1において、設定受入部52やパラメータ設定受入部542は、パラメータ等の設定を受け入れる。
ステップS2において、データ受入部51は、分析の対象となる検体の遺伝情報からシーケンスアライメントにより抽出された変異塩基配列情報のうち、所定の変異状態(配列変異データ)を処理対象として決定する。
ステップS3において、共通フィルタ部53は、処理対象の配列変異データに対して共通フィルタ処理を施すことで、当該処理対象の暫定ランクを出力する。
なお、共通フィルタ処理の詳細は、図10を用いて説明する。
ステップS4において、分析装置1は、処理対象の配列変異データの暫定ランク(共通フィルタ部53の出力)がランクMYC4であるか否かを判定する。
暫定ランク(共通フィルタ部53の出力)がランクMYC4である場合には、ステップS4において「YES」と判定されて、処理はステップS9に進む。
ステップS9において、ランク決定部56は、処理対象の配列変異データの暫定ランクとして、ランクMYC4を記録する。その後処理はステップS10に進む。なお、ステップS10以降の処理は後述する。
これに対して、暫定ランク(共通フィルタ部53の出力)がランクMYC1乃至3の何れかである場合には、ステップS4において「NO」と判定されて、処理はステップS5に進む。
ステップS5において、分析装置1は、処理対象の配列変異データの暫定ランク(共通フィルタ部53の出力)がランクMYC3であるか否かを判定する。
暫定ランク(共通フィルタ部53の出力)がランクMYC3である場合には、ステップS5において「YES」と判定されて、処理はステップS8に進む。ステップS8の処理については後述する。
これに対して、暫定ランク(共通フィルタ部53の出力)がランクMYC1又は2である場合には、ステップS5において「NO」と判定されて、処理はステップS6に進む。
ステップS6において、シードジーンフィルタ部54は、処理対象の配列変異データに対して、シードジーンフィルタ処理を施す。
なお、シードジーンフィルタ処理の詳細は、図11を用いて説明する。
ステップS7において、分析装置1は、処理対象の配列変異データの暫定ランク(シードジーンフィルタ部54の出力)がランクMYC2であるか否かを判定する。
暫定ランク(シードジーンフィルタ部54の出力)がランクMYC1である場合には、ステップS7において「NO」と判定されて、処理はステップS9に進む。
ステップS9において、ランク決定部56は、処理対象の配列変異データの暫定ランクとして、ランクMYC1を記録する。その後処理はステップS10に進む。なお、ステップS10以降の処理は後述する。
これに対して、暫定ランク(シードジーンフィルタ部54の出力)がランクMYC2である場合には、ステップS7において「YES」と判定されて、処理はステップS8に進む。
このようにして、シードジーンフィルタ部54の出力結果としての暫定ランクがランクMYC2(ステップS7「YES」)か、又は、共通フィルタ部53の出力結果としての暫定ランクがランクMYC3(ステップS5「YES」)の場合、ステップS8において、レスキューフィルタ部55は、処理対象の配列変異データに対してレスキューフィルタ処理を実行する。
なお、レスキューフィルタ処理の詳細は、図12を用いて説明する。
ステップS9において、ランク決定部56は、処理対象の配列変異データの暫定ランクとして、レスキューフィルタ部55の出力結果(ランクMYC1、ランクMYC2、又はランクMYC3)を記録する。
このようにして、ステップS9において処理対象の配列変異データの暫定ランクが記録されると、処理はステップS10に進む。
ステップS10において、分析装置1は、全ての配列変異データについてランクを記録したか否かを判定する。
ランクが記録されていない配列変異データが存在する場合には、ステップS10において「NO」と判定されて、処理はステップS2に戻され、それ以降の処理が繰り返される。
このようにして、ステップS2乃至S10「NO」のループ処理が繰り返された結果、全ての配列変異データのランクが記録された場合には、ステップS10において「YES」と判定されて、処理はステップS11に進む。
ステップS11において、分析結果出力部57は、分析結果情報を生成して、図1の出力部17(例えばディスプレイ)から出力したり、通信部19から図示せぬ他装置に対して送信することで出力する。
これにより、分析処理は終了となる。
さらに、以下、分析処理のうち、ステップS3の共通フィルタ処理、ステップS6のシードジーンフィルタ処理、及びステップS8のレスキューフィルタ処理の夫々の詳細について、その順に説明する。
図10は、図9の分析処理のうちステップS3の共通フィルタ処理の流れの詳細を説明するフローチャートである。
ステップS21において、基本フィルタ531は、処理対象の配列変異データについて、基本フィルタの条件により病原性の可能性ありか否かを判定する。
処理対象の変異状態(配列変異)が基本フィルタの条件により病原性の可能性なしである場合には、ステップS21において「NO」と判定されて、暫定ランクがランクMYC4に設定されて、処理はステップS27に進む。
ステップS27において、共通フィルタ部53は、共通フィルタ部としての暫定のランクを出力する。
これにより、図9のステップS3の共通フィルタ処理は終了し、処理はステップS4に進む。
処理対象の変異状態(配列変異)が基本フィルタの条件により病原性の可能性ありである場合には、ステップS21において「YES」と判定されて、暫定ランクがランクMYC3に設定されて、処理はステップS22に進む。
ステップS22において、時系列フィルタ532は、処理対象の配列変異データについて、時系列フィルタの条件により病原性の可能性ありか否かを判定する。
処理対象の変異状態(配列変異)が時系列フィルタの条件により病原性の可能性ありである場合には、ステップS22において「YES」と判定されて、暫定ランクがランクMYC2に設定されて、処理はステップS25に進む。なお、ステップS25以降の処理は後述する。
処理対象の変異状態(配列変異)が時系列フィルタの条件により病原性の可能性ありである場合には、ステップS22において「NO」と判定されて、暫定ランクがランクMYC3に設定されて、処理はステップS23に進む。
ステップS23において、データベースフィルタ533は、処理対象の配列変異データについて、データベースフィルタの条件により病原性の可能性ありか否かを判定する。
処理対象の変異状態(配列変異)がデータベースフィルタの条件により病原性の可能性ありである場合には、ステップS23において「YES」と判定されて、暫定ランクがランクMYC2に設定されて、処理はステップS25に進む。なお、ステップS25以降の処理は後述する。
処理対象の変異状態(配列変異)が時系列フィルタの条件により病原性の可能性ありである場合には、ステップS23において「NO」と判定されて、暫定ランクがランクMYC3に設定されて、処理はステップS24に進む。
ステップS24において、機能予測フィルタ534は、処理対象の配列変異データについて、機能フィルタの条件により病原性の可能性ありか否かを判定する。
処理対象の変異状態(配列変異)が機能フィルタの条件により病原性の可能性ありである場合には、ステップS24において「YES」と判定されて、暫定ランクがランクMYC2に設定されて、処理はステップS25に進む。
処理対象の変異状態(配列変異)が機能フィルタの条件により病原性の可能性ありである場合には、ステップS24において「NO」と判定されて、暫定ランクがランクMYC3に設定されて、処理はステップS25に進む。
ステップS25において、クオリティフィルタ535は、クオリティは十分か否かを判定する。
ステップS21乃至S24の処理の結果(基本フィルタ531、時系列フィルタ532、データベースフィルタ533及び機能予測フィルタ534のフィルタ結果)のクオリティが十分である場合には、ステップS25において「YES」と判定されて、処理はステップS26に進む。
ステップS26において、クオリティフィルタ535は、クオリティは十分と判断されたため、暫定ランクから第1所定量である「1」を引く。
ステップS21乃至S24の処理の結果(基本フィルタ531、時系列フィルタ532、データベースフィルタ533及び機能予測フィルタ534のフィルタ結果)のクオリティが十分でない場合には、ステップS25において「NO」と判定されて、処理はステップS27に進む。
ステップS27において、共通フィルタ部53は、共通フィルタ部としての暫定のランクを出力する。
これにより、図9のステップS3の共通フィルタ処理は終了し、処理はステップS4に進む。
図11は、図9の分析処理のうちシードジーンフィルタ処理の流れの詳細を説明するフローチャートである。
ステップS41において、シードジーンフィルタ部54は、処理対象の配列変異データについて、暫定ランクがランクMYC1か否かを判定する。
暫定ランクがランクMYC1である場合には、ステップS41において「YES」と判定されて、処理はステップS42に進む。
暫定ランクがランクMYC2である場合には、ステップS41において「NO」と判定されて、処理はステップS45に進む。ステップS45以降処理については後述する。
ステップS42において、シードジーンフィルタ541は、処理対象の配列変異データについて、アップグレードのための分類基準を満たすか否かを判定する。
処理対象の変異状態(配列変異)がアップグレードのための分類基準を満たす場合には、ステップS42において「YES」と判定されて、処理はステップS43に進む。
ステップS43において、シードジーンフィルタ541は、暫定ランクをMYC1で維持(アップグレード)する。そして、処理は、ステップS48に進む。ステップS48の処理については後述する。
処理対象の変異状態(配列変異)がアップグレードのための分類基準を満たさない場合には、ステップS42において「NO」と判定されて、処理はステップS44に進む。
ステップS44において、シードジーンフィルタ541は、暫定ランクをMYC2に変更(ダウングレード)する。そして、処理は、ステップS48に進む。ステップS48の処理については後述する。
ステップS45において、シードジーンフィルタ541は、処理対象の配列変異データについて、アップグレードのための分類基準を満たすか否かを判定する。
処理対象の変異状態(配列変異)がアップグレードのための分類基準を満たす場合には、ステップS45において「YES」と判定されて、処理はステップS46に進む。
ステップS46において、シードジーンフィルタ541は、暫定ランクをMYC2で維持(ダウングレード)する。そして、処理は、ステップS48に進む。ステップS48の処理については後述する。
処理対象の変異状態(配列変異)がアップグレードのための分類基準を満たさない場合には、ステップS45において「NO」と判定されて、処理はステップS47に進む。
ステップS47において、シードジーンフィルタ541は、暫定ランクをMYC1に変更(アップグレード)する。そして、処理は、ステップS48に進む。
ステップS48において、シードジーンフィルタ部54は、シードジーンフィルタ部としての暫定のランクを出力する。
これにより、図9のステップS6の共通フィルタ処理は終了し、処理はステップS7に進む。
図12は、図9の分析処理のうちステップS8のレスキューフィルタ処理の流れの詳細を説明するフローチャートである。
ステップS61において、レスキューフィルタ部55は、処理対象の配列変異データについて、レスキューフィルタ条件を満たすか否かを判定する。
処理対象の変異状態(配列変異)がレスキューフィルタ条件を満たさない場合には、ステップS61において「NO」と判定されて、処理はステップS62に進む。
ステップS62において、レスキューフィルタ部55は、暫定ランクをランクMYC3又はMYC2で維持(ダウングレード)する。そして、処理は、ステップS64に進む。ステップS64の処理については後述する。
処理対象の変異状態(配列変異)がレスキューフィルタ条件を満たす場合には、ステップS61において「YES」と判定されて、処理はステップS63に進む。
ステップS63において、レスキューフィルタ部55は、暫定ランクをMYC1に変更(アップグレード)する。そして、処理は、ステップS64に進む。
ステップS64において、レスキューフィルタ部55は、レスキューフィルタ部としての暫定のランクを出力する。
これにより、図9のステップS8のレスキューフィルタ処理は終了し、処理はステップS9に進む。
なお、以上のレスキューフィルタ処理は、ルールベースの手法が採用されたレスキューフィルタ部55の処理例である。
即ち、機械学習により得られたモデル(AIモデル等)を用いて分類する手法が採用された場合には、レスキューフィルタ処理は、処理対象の配列データを当該モデルに入力して、当該モデルの出力をランクとして出力するといった単純な処理になる。
以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものとみなす。
例えば、共通フィルタ部53は、図5の例に特に限定されず、次のような構成を有する各種各様な形態を取ることができる。具体的には例えば、共通フィルタ部53は、図13に示すような構成を取ることもできる。
図13は、図2の分析装置のうち共通フィルタ部53の詳細な機能的構成のうち図5と異なる一例を示すブロック図である。
図13の例の共通フィルタ部は、以下のような変異状態(配列変異)の分析において有用である。従って、以下のような変異状態(配列変異)を分析するものとして、説明する。
まず前提として、特定の組み合わせの2つの遺伝子が染色体の転座や逆位等に起因して融合することにより、がん細胞の増殖を引き起こすことが知られている。例えば、BCR遺伝子とABL遺伝子とが染色体の転座により融合したBCR-ABL融合遺伝子は、白血病細胞を増殖させることが知られている。
共通フィルタ部53は、基本フィルタ531と、時系列フィルタ532と、融合遺伝子フィルタ536と、保存位置フィルタ537と、構造フィルタ538と、クオリティフィルタ539とを有する。
また、特定の組み合わせの2つの候補遺伝子が融合した融合遺伝子においてドライバー変異を引き起こすことが知られている複数の組み合わせの候補遺伝子がコード化された塩基配列が融合遺伝子ごとにそれぞれ、記憶部18の一領域記憶されている。例えば、BCR遺伝子とABL遺伝子とがコード化された塩基配列が記憶部18の一領域に記憶されている。
即ち、分析装置1は以下の情報を取得し、情報処理に用いることができる。
分析装置1は、特定の組み合わせの候補遺伝子が融合した融合遺伝子(以下、第1融合遺伝子)においてドライバー変異候補となる2つの候補遺伝子の塩基配列を第1融合遺伝子ごとに取得する。図13の共通フィルタ部53が採用された例では、分析装置1は、記憶部18に記憶されている複数の第1融合遺伝子に含まれる2つの候補遺伝子のそれぞれの塩基配列を第1融合遺伝子ごとに記憶部18から取得する。
また、外部サーバ(図示せず)が複数の第1融合遺伝子の候補遺伝子がコード化された塩基配列を記憶していてもよい。分析装置1は、通信部19を介して、外部サーバから第1融合遺伝子の2つの候補遺伝子がコード化された塩基配列を第1融合遺伝子ごとに取得してもよい。
特定の候補遺伝子と他の遺伝子とが融合した融合遺伝子ががん細胞の増殖を引き起こすことがある。例えば、ALK遺伝子が他の遺伝子と融合した融合遺伝子は、がん細胞の増殖を引き起こすことが知られている。記憶部18には、他の遺伝子と融合した融合遺伝子(以下、第2融合遺伝子ともいう)においてドライバー変異候補となる複数の候補遺伝子の塩基配列が記憶されている。
分析装置1は、他の遺伝子と融合した第2融合遺伝子においてドライバー変異候補となる候補遺伝子の塩基配列を取得する。例えば、分析装置1は、複数の第2融合遺伝子の候補遺伝子の塩基配列を記憶部18から取得する。分析装置1は、通信部19を介して、複数の第2融合遺伝子の候補遺伝子の塩基配列を外部サーバから取得してもよい。
分析装置1は、異なる生物種のゲノムの間において保存された塩基配列である保存配列の位置を示す保存配列位置情報を取得する。例えば、分析装置1は、保存配列位置情報を記憶部18から取得する。分析装置1は、通信部19を介して、保存配列位置情報を外部サーバから取得してもよい。
基本フィルタ531は、一塩基多型に特有の処理を実行しない点を除いて、図2と同様である。基本フィルタ531は、分析の対象とする変異状態が、良性であると判断できる場合に、良性変異であることを表すランク(例えばランクMYC4)を設定して、次のフィルタとして設定されたフィルタにその結果を出力する。また、基本フィルタ531は、分析の対象とする変異状態が、良性であると判断できなければ、良性変異でないことを表すランク(例えばランクMYC3)を設定し、次のフィルタとして設定されたフィルタに処理をパスする。
基本フィルタ531は、設定受入部52からがん化等を引き起こす既知の変異の塩基配列と変異状態に対応する変異した塩基配列との重複部分の長さの閾値を特定する情報と、データベースごとのパラメータ(良性か否かを判断する基準となる良性判断閾値などとして登録された値と比較される)の設定を受け入れて、当該設定に基づいて分析の対象とする変異状態が、良性であるか否かを判断する。
具体的に基本フィルタ531は、がん化等を引き起こす既知の変異の塩基配列と変異状態に対応する変異した塩基配列との重複部分が予め定めた長さの閾値より短い重複部分である場合は良性変異であることを表すランクを設定する。また基本フィルタ531は、そうでなくても、変異状態が表す、変異の位置する領域がイントロン領域であれば、良性変異であることを表すランクを設定する。
さらに基本フィルタ531は、上記2つの条件を満たさなくとも、指定されたデータベースを検索し、検索によって変異状態が表す変異がデータベースに登録され、かつ、その変異である確率として登録された値が、当該データベースについて予め定められた良性判断閾値を超えている場合、良性変異であることを表すランクを設定する。
時系列フィルタ532は、分析の対象とする変異状態に対応するランクから減算する値が図5の共通フィルタ部53の例と異なることや、時系列フィルタ532による演算後のランクの出力先が図5の共通フィルタ部53の例と異なることを除いて、図5の共通フィルタ部53の例と同様である。時系列フィルタ532は、分析の対象とする変異状態に対応する、時系列情報に含まれる変異状態の情報を参照して、異なるタイミングで抽出した時系列情報においても同じ変異があったか否かを判断する。
時系列フィルタ532は、分析の対象とする変異状態と、時系列情報に含まれる対応する変異状態とを用い、同じ変異が存在する場合に、病的である可能性があるものとして分析の対象とする変異状態に対応するランク(例えばランクから第2所定量として「2」を引く)を決定してクオリティフィルタ539に処理をパスする。ここでの例では基本フィルタ531が処理をパスしているので、当初のランクはランクMYC3であり、ここで時系列フィルタ532が病的である可能性があるものとしたときには、このランクMYC3から第2所定量として「2」を引いてランクをランクMYC1と設定することとなる。第2所定量は、第1所定量より大きい値である。
一方、時系列フィルタ532は、分析の対象とする変異状態と、時系列情報に含まれる対応する変異状態とを用い、同じ変異が存在しないときには、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、データベースフィルタ533へ処理をパスする。
なお、時系列フィルタ532は、設定受入部52から深度や、その他のシーケンスクオリティ、変異アレル頻度等に関する閾値の設定を受けていてもよい。例えば時系列情報に含まれる対応する変異状態に係る深度がここで設定された閾値(例えば「20」)を超えない場合には、時系列フィルタ532は、同じ変異状態があったか否かを判断することなく、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、データベースフィルタ533へ処理をパスする。
さらに、この時系列フィルタ532は、図5の共通フィルタ部53の例と同様に、データ受入部51が時系列情報を受け入れていない場合(変異塩基配列情報としては、分析の対象とする変異塩基配列情報だけを受け入れている場合)には、同じ変異状態があるか否かを判断することなく、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、データベースフィルタ533へ処理をパスしてもよい。
また設定受入部52から時系列フィルタ532を利用しない設定が入力されている場合、時系列フィルタ532は、同じ変異状態があるか否かを判断することなく、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、融合遺伝子フィルタ536へ処理をパスする。
以下、変異塩基配列情報に含まれるいずれかの変異状態に対応する変異している塩基配列を変異塩基配列ともいう。融合遺伝子フィルタ536は、分析装置1が取得した第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれているか否かを判定する。より詳しくは、融合遺伝子フィルタ536は、分析装置1が取得した複数の第1融合遺伝子について、第1融合遺伝子の2つの候補遺伝子がコード化された2つの塩基配列と、変異塩基配列に含まれる少なくとも一部の塩基配列との類似度が2つとも閾値以上であるか否かを第1融合遺伝子ごとに判定する。類似度は、例えば2つの塩基配列のアライメントが一致する割合により表される。2つの塩基配列のアライメントが一致する割合が閾値以上である場合に、2つの塩基配列が類似すると判定される。
一例としては、融合遺伝子フィルタ536は、分析装置1が取得したBCR遺伝子とABL遺伝子とが融合したBCR-ABL第1融合遺伝子においてBCR遺伝子がコード化された塩基配列と、変異塩基配列における対応する塩基配列との類似度を求める。次に、融合遺伝子フィルタ536は、BCR-ABL第1融合遺伝子においてABL遺伝子がコード化された塩基配列と、変異塩基配列における対応する塩基配列との類似度を求める。
融合遺伝子フィルタ536は、求めた2つの類似度が2つとも閾値以上であるか否かを判定する。閾値は、例えば、第1融合遺伝子がコード化されたタンパク質の活性と、変異塩基配列が示すタンパク質の活性とが同様であることが想定される値である。
融合遺伝子フィルタ536は、求めた2つの類似度が2つとも閾値以上である場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定する。
一方、融合遺伝子フィルタ536は、求めた2つの類似度のうち、少なくとも一方の類似度が閾値未満である場合に、分析装置1が取得した別の第1融合遺伝子について同様の判定を繰り返す。融合遺伝子フィルタ536は、分析装置1が取得した全ての第1融合遺伝子について、求めた2つの類似度の少なくとも一方が閾値未満である場合に、どの第1融合遺伝子についても、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていないと判定する。
また、融合遺伝子フィルタ536は、分析装置1が取得した第1融合遺伝子の2つの候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子の2つの遺伝子の塩基配列との間の類似度がそれぞれ65%以上100%以下である場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。好ましくは、融合遺伝子フィルタ536は、第1融合遺伝子の2つの候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子の2つの遺伝子の塩基配列との間の類似度がそれぞれ80%以上100%以下である場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。
また、融合遺伝子フィルタ536は、複数の第1融合遺伝子の候補遺伝子の組み合わせを記憶している外部サーバへ、分析対象の変異状態に対応する変異塩基配列を送信してもよい。融合遺伝子フィルタ536は、外部サーバのデータベースに登録されている第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子の融合遺伝子が変異塩基配列に含まれているか否かを調べる。融合遺伝子フィルタ536は、外部サーバのデータベースに登録されている複数の第1融合遺伝子のうち、いずれかの第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子の融合遺伝子が変異塩基配列に含まれていることを示す通知を外部サーバから受信した場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。
融合遺伝子フィルタ536は、分析装置1が取得した第2融合遺伝子の候補遺伝子の塩基配列に類似する塩基配列の遺伝子と他の遺伝子とが融合した融合遺伝子が変異塩基配列に含まれているか否かを判定する。より詳しくは、融合遺伝子フィルタ536は、分析装置1が取得した複数の第2融合遺伝子について、第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれる融合遺伝子の一方の遺伝子の塩基配列との類似度を第2融合遺伝子ごとに求める。融合遺伝子フィルタ536は、求めた類似度が閾値以上であるか否かを判定する。閾値は、第2融合遺伝子がコード化されたタンパク質の活性と、変異塩基配列が示すタンパク質の活性とが同様であることが想定される値である。
融合遺伝子フィルタ536は、求めた類似度が閾値以上である場合に、分析装置1が取得した第2融合遺伝子の候補遺伝子と類似する遺伝子の融合遺伝子を変異塩基配列が含むと判定する。融合遺伝子フィルタ536は、求めた類似度が閾値未満である場合に、分析装置1が取得した別の第2融合遺伝子の候補遺伝子について同様の判定を繰り返す。融合遺伝子フィルタ536は、分析装置1が取得した全ての第2融合遺伝子について、求めた類似度が閾値未満である場合に、どの第2融合遺伝子の候補遺伝子と類似する遺伝子の融合遺伝子も変異塩基配列が含んでいないと判定する。
また、融合遺伝子フィルタ536は、分析装置1が取得した第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子における一方の遺伝子の塩基配列との間の類似度が65%以上100%以下である場合に、第2融合遺伝子の候補遺伝子の塩基配列に類似する塩基配列の遺伝子と他の遺伝子とが融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。好ましくは、融合遺伝子フィルタ536は、第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子における一方の遺伝子の塩基配列との間の類似度が80%以上100%以下である場合に、第2融合遺伝子の候補遺伝子の塩基配列に類似する塩基配列の遺伝子と他の遺伝子とが融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。
また、融合遺伝子フィルタ536は、複数の第2融合遺伝子を記憶している外部サーバへ、変異塩基配列を送信してもよい。融合遺伝子フィルタ536は、外部サーバのデータベースに登録されている複数の第2融合遺伝子の候補遺伝子のいずれかと類似する遺伝子の融合遺伝子を変異塩基配列が含んでいるか否かを調べる。融合遺伝子フィルタ536は、登録されている複数の第2融合遺伝子の候補遺伝子のいずれかと類似する遺伝子の融合遺伝子を変異塩基配列が含んでいることを示す通知を外部サーバから受信した場合に、第2融合遺伝子の候補遺伝子と類似する遺伝子を変異塩基配列が含んでいると判定してもよい。
融合遺伝子フィルタ536は、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれているか否かの判定結果によりランクを決定する。例えば、融合遺伝子フィルタ536は、分析装置1が取得した複数の第1融合遺伝子のいずれかについて、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定した場合に、病的である可能性があるものと、分析の対象とする変異状態に対応するランクを決定して(例えばランクから第2所定量として「2」を引く)クオリティフィルタ539に処理をパスする。
このようにして、融合遺伝子フィルタ536は、ドライバー変異である可能性が比較的高いことが知られている第1融合遺伝子の2つの候補遺伝子の塩基配列を参照して、変異状態が病的である可能性の程度をランクにより精度よく推定することができる。
融合遺伝子フィルタ536は、第2融合遺伝子の候補遺伝子の塩基配列と類似する塩基配列の遺伝子が他の遺伝子と融合した融合遺伝子を変異塩基配列が含むか否かの判定結果によりランクを決定する。例えば、融合遺伝子フィルタ536は、分析装置1が取得した複数の第2融合遺伝子のいずれかの候補遺伝子と類似する遺伝子を変異塩基配列が含むと判定した場合に、病的な可能性があるものと分析の対象とする変異状態に対応するランクを決定して(例えばランクから第1所定量として「1」を引く)保存位置フィルタ537に処理をパスする。
融合遺伝子フィルタ536は、分析装置1が取得した第1融合遺伝子の2つの候補遺伝子とそれぞれ類似する候補遺伝子の融合遺伝子が変異塩基配列に含まれていないと判定した場合や、第2融合遺伝子の候補遺伝子と類似する遺伝子の融合遺伝子を変異塩基配列が含んでいないと判定した場合に、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、保存位置フィルタ537へ処理をパスする。
融合遺伝子の2つの候補遺伝子の組み合わせの一方が記憶部18に登録されていない場合であっても、特定の候補遺伝子を含む第2融合遺伝子についてはドライバー変異となる可能性があることが知られている。融合遺伝子フィルタ536は、第2融合遺伝子の候補遺伝子の塩基配列を参照することにより、変異状態が病的である可能性の程度をランクにより精度よく提示することができる。
異なる生物種のゲノムの間において保存された保存配列は、細胞の生理活性に重要な役割を果たしていることが多い。このため、保存配列の位置に変異が生じている場合、変異状態が病的である可能性が比較的高くなる。保存位置フィルタ537は、異なる生物種のゲノムの間において保存された塩基配列である保存配列の位置が、変異状態の変異箇所に含まれるか否かによりランクを決定する。より詳しくは、保存位置フィルタ537は、分析装置1が取得した保存配列位置情報が示す保存配列の位置が、変異箇所に含まれるか否かを判定する。
保存位置フィルタ537は、変異箇所に保存配列の位置が含まれると判定した場合に、病的である可能性があるものと分析の対象とする変異状態に対応するランクを決定して(例えばランクから第1所定量として「1」を引く)、構造フィルタ538に処理をパスする。一方、保存位置フィルタ537は、変異箇所に保存配列の位置が含まれていないと判定した場合に、ランクをそのままに設定して、構造フィルタ538へ処理をパスする。このようにして、保存位置フィルタ537は、保存配列の位置を示す情報を利用して、この変異箇所に対応する変異状態が病的である可能性の程度をランクにより精度よく提示することができる。
また、染色体の転座や重要な遺伝子の欠失、複数の遺伝子に及ぶ変異等の構造変異が生じている場合、これらの構造変異が病的である可能性は比較的高いことが知られている。構造フィルタは、変異塩基配列情報が表す変異状態が染色体の転座等の構造変異であるか否かを判定する。
構造フィルタ538は、変異塩基配列情報が表す変異状態が染色体の転座であるか否かを判定し、この判定結果によりランクを決定する。構造フィルタ538は、変異塩基配列情報が示す変異状態に含まれる変異の内容や変異箇所を参照して、染色体の転座が生じているか否かを判定する。また、構造フィルタ538は、変異状態に対応する変異塩基配列を複数の塩基配列に分割し、分割した塩基配列ごとにゲノム上の位置を特定することにより、変異状態が染色体の転座であるか否かを判定してもよい。
構造フィルタ538は、変異塩基配列情報が表す変異状態が複数の遺伝子に及ぶ変異であるか否かを判定し、この判定結果によりランクを決定する。構造フィルタ538は、変異塩基配列情報が示すいずれかの変異状態に含まれる変異の内容や変異箇所を参照して、複数の遺伝子に及ぶ変異が生じているか否かを判定する。構造フィルタ538は、変異状態に対応する変異塩基配列を複数の塩基配列に分割し、分割した塩基配列ごとにゲノム上の位置を特定することにより、変異状態が複数の遺伝子に及ぶ変異であるか否かを判定してもよい。
記憶部18には、細胞のがん化等に関与する複数の登録遺伝子を示す情報が予め登録されている。登録遺伝子を示す情報は、例えば、登録遺伝子を識別するための識別情報や登録遺伝子の染色体上の位置を示す情報である。構造フィルタ538は、変異塩基配列情報が表す変異状態が登録遺伝子の欠失であるか否かを判定し、この判定結果によりランクを決定してもよい。構造フィルタ538は、変異塩基配列情報が示すいずれかの変異状態に含まれる変異の内容や変異箇所を参照して、記憶部18に登録されている複数の登録遺伝子のいずれかが欠失したか否かを判定する。
記憶部18には、細胞のがん化等に関与する遺伝子の発現を制御するエンハンサーの染色体上の位置情報が予め登録されている。構造フィルタ538は、転座、逆位、欠失等が生じていると判定した場合において、変異塩基配列情報が表す変異状態が記憶部18に登録されているがん遺伝子が、記憶部18に登録されているエンハンサーの近傍に位置する脱制御異常であるか否かを判定し、この判定結果によりランクを決定してもよい。
記憶部18には、遺伝子領域のゲノムにおける向き(5’→3’,3’→5’)の情報が予め登録されている。構造フィルタ538は、転座や欠失等により、変異塩基配列情報が表す変異状態が第1融合遺伝子や第2融合遺伝子等の融合遺伝子を形成すると判定した場合において融合遺伝子を形成する2つの遺伝子を第一候補遺伝子及び第二候補遺伝子とすると、第一候補遺伝子と第二候補遺伝子の向きがそれぞれ同一の方向であるか(例えば、第一候補遺伝子5’→3’で第二候補遺伝子も5’→3’方向、もしくは、第一候補遺伝子3’→5’で第二候補遺伝子3’→5’の組み合わせであるか)を判定し、機能的な融合遺伝子が形成されるかの有無を判定し、この判定結果によりランクを決定してもよい。
記憶部18には、遺伝子領域のアミノ酸翻訳(コドン)やRNAのスプライシングに関わる配列情報が予め登録されている。構造フィルタ538は、転座や欠失等により、変異塩基配列情報が表す変異状態が融合遺伝子を形成すると判定した場合において、上記項目の情報を元に機能的な融合遺伝子が形成されるかの有無を判定し、この判定結果によりランクを決定してもよい。
また、構造フィルタ538は、変異塩基配列を複数の塩基配列に分割し、分割した塩基配列ごとにゲノム上の位置を特定する。構造フィルタ538は、特定した塩基配列のゲノム上の位置と、記憶部18に登録されている複数の登録遺伝子の位置とを比較することにより、いずれかの登録遺伝子の欠失が生じたか否かを判定してもよい。
構造フィルタ538は、転座が生じていると判定した場合に、病的である可能性があるものとして分析の対象とする変異状態に対応するランクを決定する。例えば、構造フィルタ538は、変異状態に対応するランクから第1所定量として「1」を引く。一方、転座が生じていないと判定した場合に、分析の対象とする変異状態に対応するランクをそのままとする。
構造フィルタ538は、複数の遺伝子に及ぶ変異が生じていると判定した場合に、病的である可能性があるものとして分析の対象とする変異状態に対応するランク(例えば変異状態に対応するランクから第1所定量として「1」を引く)を決定する。一方、構造フィルタ538は、複数の遺伝子に及ぶ構造変異が生じていないと判定した場合に、変異状態に対応するランクをそのままとする。
構造フィルタ538は、記憶部18に登録されている複数の登録遺伝子のいずれかが欠失していると判定した場合に、分析の対象とする変異状態に対応するランクから第1所定量をさらに引いてクオリティフィルタ539に処理をパスする。一方、構造フィルタ538は、記憶部18に登録されている複数の遺伝子がいずれも欠失していないと判定した場合に、分析の対象とする変異状態に対応するランクをそのままとし、クオリティフィルタ539に処理をパスする。このようにして、構造フィルタ538は、染色体の転座や複数の遺伝子に及ぶ変異、細胞のがん化等に関与する遺伝子の欠失等の構造変異が生じているか否かを判定することにより、変異状態が病的である可能性の程度をランクにより精度よく提示することができる。
図14は、図13の機能的構成を有する共通フィルタ部による共通フィルタ処理の流れの詳細を説明するフローチャートである。
ステップS81において、基本フィルタ531は、処理対象の配列変異データについて、基本フィルタの条件により病原性の可能性ありか否かを判定する。
処理対象の変異状態(配列変異)が基本フィルタの条件により病原性の可能性ありではない場合には、ステップS81において「NO」と判定されて、処理はステップS89に進む。
ステップS89において、共通フィルタ部53は、共通フィルタ部としての暫定のランクを出力する。
これにより、図14のステップS3の共通フィルタ処理は終了し、処理はステップS4に進む。
処理対象の変異状態(配列変異)が基本フィルタの条件により病原性の可能性ありである場合には、ステップS81において「YES」と判定されて、処理はステップS82に進む。
ステップS82において、時系列フィルタ532は、処理対象の配列変異データについて、時系列フィルタの条件により病原性の可能性ありか否かを判定する。
処理対象の変異状態(配列変異)が時系列フィルタの条件により病原性の可能性ありである場合には、ステップS82において「YES」と判定されて、処理はステップS87に進む。なお、ステップS87以降の処理は後述する。
処理対象の変異状態(配列変異)が基本フィルタの条件により病原性の可能性ありではない場合には、ステップS82において「NO」と判定されて、処理はステップS83に進む。
ステップS83において、融合遺伝子フィルタ536は、処理対象の配列変異データについて、第1融合遺伝子の2つの候補遺伝子に類似する遺伝子の融合遺伝子を含むか否かを判定する。
処理対象の変異状態(配列変異)が第1融合遺伝子の2つの候補遺伝子に類似する遺伝子の融合遺伝子を含むである場合には、ステップS83において「YES」と判定されて、処理はステップS87に進む。なお、ステップS87以降の処理は後述する。
処理対象の変異状態(配列変異)が第1融合遺伝子の2つの候補遺伝子に類似する遺伝子の融合遺伝子を含むではない場合には、ステップS83において「NO」と判定されて、処理はステップS84に進む。
ステップS84において、融合遺伝子フィルタ536は、処理対象の配列変異データについて、第2融合遺伝子の候補遺伝子に類似する遺伝子の融合遺伝子を含むかを判定する。
ステップS85において、保存位置フィルタ537は、処理対象の配列変異データについて、変位箇所に保存配列の位置が含まれるかを判定する。
ステップS86において、構造フィルタ538は、処理対象の配列変異データについて、各種の構造変位を含むか否かを判定する。
ステップS87において、クオリティフィルタ539は、クオリティは十分か否かを判定する。
ステップS81乃至S86の処理の結果(基本フィルタ531、時系列フィルタ532、融合遺伝子フィルタ536、保存位置フィルタ537及び構造フィルタ538のフィルタ結果)のクオリティが十分である場合には、ステップS87において「YES」と判定されて、処理はステップS88に進む。
ステップS88において、クオリティフィルタ539において、クオリティは十分と判断されたため、暫定ランクから第1所定量である「1」を引く。
ステップS81乃至S86の処理の結果(基本フィルタ531、時系列フィルタ532、融合遺伝子フィルタ536、保存位置フィルタ537及び構造フィルタ538のフィルタ結果)のクオリティが十分でない場合には、ステップS87において「NO」と判定されて、処理はステップS89に進む。
ステップS89において、共通フィルタ部53は、共通フィルタ部としての暫定のランクを出力する。
これにより、図9のステップS3の共通フィルタ処理は終了し、処理はステップS4に進む。
以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものとみなす。
例えば、上述の実施形態において、共通フィルタ部53に対して、シードジーンフィルタ部54やレスキューフィルタ部55が採用されたが、特にこれに限定されない。即ち、共通フィルタ部53のみを採用した場合に比較して、病気の発生や進行に影響する変異である可能性の程度の分析効率や利便性を向上させることができるフィルタであれば足り、例えば次のようなフィルタ部を採用することができる。
即ち、まず前提として、共通フィルタ部53は、次のような構成を取れば足りる。
即ち、被検体が有する、有害リスクのある目的配列変異を選定する分析装置1に含まれる共通フィルタ部53は、被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、第1分類基準に基づいて、目的配列変異と選定される可能性が一番高い高カテゴリ(例えばMYC1)と、当該可能性がそれより低い1以上の低カテゴリ(例えばMYC2、MYC3、MYC4)の夫々とのうち何れかに分類する。
この場合、例えば、共通フィルタ部53の後段に、ルールベースの手法を採用したフィルタ部として、次のような分類基準設定部と第2フィルタリング部とを有する構成を採用することができる。
即ち、分類基準設定部は、高カテゴリに分類するための第1分類基準とは異なる分類基準であって、データベース又はリストに登録されているという分類基準を、第2分類基準(例えばシードジーンフィルタ541の分類基準や、ルールベースの手法を採用したレスキューフィルタ部55の分類基準)として設定する。
第2フィルタリング部は、共通フィルタ部53により低カテゴリに分類された配列変異のうち、第2分類基準を満たす配列変異を、高カテゴリに分類しなおす。
また例えば、共通フィルタ部53の後段に、AI等の機械学習の手法を採用したフィルタ部として、次のような第2フィルタリング部とを有する構成を採用することができる。
まず前提として、図示せぬ学習装置は、所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の学習情報セットを用いる所定の機械学習を実行することで、所定の配列変異を入力すると、当該配列変異が目的配列変異である可能性の度合い(例えばランクMYC1乃至MYC4)を出力するモデル(例えばAIモデル)を生成又は更新する。
ここで、更新するとは、学習情報セットを追加して再学習することを意味する。また、学習装置は、分析装置1の一部として設けられてもよいし、分析装置1とは異なる装置として設けられてもよい。
この場合、第2フィルタリング部は、共通フィルタ部53により低カテゴリに分類された配列変異のうち、当該モデルから出力される可能性の度合いが一定以上である配列変異を、高カテゴリに分類しなおす。
ここで、上述したように、レスキューフィルタ部55に機械学習により得られたモデル(AIモデル等)を用いて分類する手法が採用された場合、レスキューフィルタ処理は、処理対象の配列データを当該モデルに入力して、当該モデルの出力をより高いランクとして出力するといった処理とすることもできる。
以下、図15及び図16を用いて、機械学習により得られたAIモデル等を用いた推論や当該AIモデルの生成又は更新の例について説明する。
図15は、図12のレスキューフィルタ処理において機械学習により生成又は更新されるAIモデル等を用いる場合において、当該AIモデルを用いた推論の例について説明する図である。
AIモデルを用いた推論における入力や出力には、例えば、図15に示す表に示すように、「MYC(AI補正後)」、「AI推定による変異の病原性」、「ルールベースのMYC(補正前)」、「Chr」、「座標」、「Reference配列」、「変異配列」の項目が存在する。
「Chr」の項目は、図3等の説明で上述した、変異状態(配列変異)の塩基配列が見い出された染色体の番号である。
「座標」の項目は、図6等の説明で上述した、リファレンスゲノム上における座標(位置)である。
「Reference配列」の項目は、リファレンスゲノム上における上述の「座標」における塩基配列(図15の例では1つの塩基)である。
「変異配列」の項目は、検体の遺伝情報からシーケンスアライメントにより抽出された塩基配列の変異箇所(上述の座標)における塩基配列(図15の例では1つの塩基)である。
上述したように、レスキューフィルタ部55には、これらの情報が入力され、共通フィルタ部53やシードジーンフィルタ部54で採用されたものとは異なる分類基準を用いてルールベースの手法により分類することができる。
ここで、図15における、「ルールベースのMYC(補正前)」の項目は、レスキューフィルタ部55により共通フィルタ部53やシードジーンフィルタ部54で採用されたものとは異なる分類基準を用いてルールベースの手法により分類された結果のランクである。
さらに、レスキューフィルタ部55は、機械学習により得られたモデル(AIモデル等)を用いて分類する手法を採用することができる。
なお、レスキューフィルタ部55が採用する機械学習により得られたモデル(AIモデル等)の出力は、各種各様なものを採用することができるが、ここでは、ランクを補正するために変異の病原性が有るか否かの指標を「MYC(AI補正後)」を出力するものとする。
ここで、図15における「AI推定による変異の病原性」は、専門家にみたてたモデルであって、機械学習により得られたモデル(AIモデル等)による、変異の病原性の有無である。即ち例えば、上述の「Chr」、「座標」、「Reference配列」、「変異配列」の情報が入力され、変異の病原性の有無を推定して出力する、所定のルールベースの手法(専門家の判断基準をルールとした手法等)がモデルとして生成される。その結果、「AI推定による変異の病原性」が有りと判断された変異については、「ルールベースのMYC(補正前)」から所定量である「1」が引かれた「MYC(AI補正後)」が、レスキューフィルタ部55から出力される。
このように、レスキューフィルタ部55では、機械学習により得られたモデル(AIモデル等)を用いて分類する手法により、「MYC(AI補正後)」が推論結果として出力することができる。
なお、例えば、レスキューフィルタ部55が採用する機械学習により得られたモデル(AIモデル等)は、「AI推定による変異の病原性」を出力するものではなく、「MYC(AI補正後)」を出力するように学習されてもよい。
図16は、図12のレスキューフィルタ処理において機械学習により生成又は更新されるAIモデルを用いる場合において、当該AIモデルの更新の例について説明する図である。
即ち、図16における、「MYC(専門家確認後)」の項目は、図15に含まれる各種情報を、専門家が判断や精密検査の結果を反映する等して確認した後、即ち、専門家の判断が反映された結果のランクMYCである。
図16に示す表の4行目(項目名を含めると5行目)においては、「MYC(専門家確認後)」と、「MYC(AI補正後)」とが異なっている。
そこで、機械学習により得られたモデル(AIモデル等)は、入力情報IDが入力された場合に、出力情報ILが出力されるように学習(機械学習により得られたモデル(AIモデル等)の更新)を行うことができる。これにより、レスキューフィルタ部55は、機械学習により得られたモデル(AIモデル等)は、「MYC(専門家確認後)」を再現するように学習される。即ち、機械学習により得られたモデル(AIモデル等)が採用されたレスキューフィルタ部55の精度が向上する。換言すれば、機械学習により得られたモデル(AIモデル)を利用することにより、図12のレスキューフィルタ処理の精度を向上させることができるようになる。
以上、レスキューフィルタ部55において、機械学習により生成又は更新されるAIモデル等を用いる場合において、当該AIモデルを用いた推論を行うことで精度を向上させることができることについて説明した。
以下、さらに、シードジーンフィルタ処理、即ち、シードジーンフィルタ部54における処理において、機械学習により生成又は更新されるAIモデル等が用いられる例について、説明する。
即ち、シードジーンフィルタ処理において、機械学習により生成また更新されるAIモデル等が用いられてもよい。
例えば、モデル(AIモデル等)は、臨床情報及び専門家により確認後のランクMYCに基づいて、シードジーンフィルタ処理において用いられる閾値(カットオフ値)やパラメータに関して最適化するための補正値の提案をするための学習がなされて生成されてもよい。
モデル(AIモデル等)は、臨床情報として、共通フィルタ部53による暫定のランク及びシードジーン情報取得部543により取得されるシードジーン情報を学習データの少なくとも一部として用いることができる。
また、モデル(AIモデル等)は、図16における「MYC(専門家確認後)」の情報を学習データの少なくとも一部として用いることができる。
これにより、モデル(AIモデル等)は、シードジーンフィルタ処理において用いられる閾値(カットオフ値)やパラメータに関して最適化するための補正値を出力することができる。専門家等のユーザは、モデル(AIモデル等)により提案された補正値を確認し、実際にシードジーンフィルタ処理において用いられる閾値(カットオフ値)やパラメータとしてどのような値を用いるのかを判断する。即ち、専門家等のユーザは、モデル(AIモデル)により提案された補正値を検討した上で、例えば、図8の例の画面例に入力するパラメータを決定する。
これにより、モデル(AIモデル等)の提案により、専門家等のユーザは、より好適であると考えられるシードジーンフィルタ処理において用いられる閾値(カットオフ値)やパラメータを採用することができるようになる。
また、これにより、専門医に馴染みのあるルールベースAI、且つ、機械学習のいいとこ取りの折衷型AIが実装されると言える。換言すれば、シードジーンフィルタ処理におけるランクMYCの付与そのものはルールベースにより行われ、そのパラメータは説明可能なパラメータとなっている。そして、そのパラメータの補正値がモデル(AIモデル等)により、行われる。
従来、AIモデルを用いた処理については、どのような根拠でその処理(例えば、フィルタリングの処理)が行われたのかの説明可能性が担保されず、ブラックボックスとなることが通常であった。
しかしながら、上述したモデル(AIモデル等)は、説明可能な閾値(カットオフ値)やパラメータに関して最適化するための補正値を出力することで、これを解消することができるのである。
これにより、人間と同じ方法での、説明可能性(ルールベース)を担保したフィルタリングによる解釈の作業効率の改善と、モデル(AIモデル等)によるルール(特徴量)の改善によるフィルタリング精度の向上が実現される。
また、図4に示すシステム構成、図5に示す分析装置1のハードウェア構成は、本発明の目的を達成するための例示に過ぎず、特に限定されない。
また、図6に示す機能ブロック図は、例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは、特に図6の例に限定されない。
また、機能ブロックの存在場所も、図6に限定されず、任意でよい。
例えば、図6の例において、上述の処理は分析装置1側で行われる構成となっているが、これに限定されず、図示せぬ他の情報処理装置側で処理の少なくとも一部が行われてもよい。
即ち、分析処理の実行に必要となる機能ブロックは、分析装置1側が備える構成となっているが、これは例示に過ぎない。分析装置1側に配置された機能ブロックの少なくとも一部を、図示せぬ情報処理装置側が備える構成としてもよい。
また、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。
また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。
このようなプログラムを含む記録媒体は、装置本体とは別に配布される図示せぬリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態で提供される記録媒体等で構成される。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
以上まとめると、本発明が適用される情報処理システムは、次のような構成を取れば足り、各種各様な実施形態を取ることができる。
即ち、本発明が適用される情報処理装置は、
被検体が有する、有害リスクのある目的配列変異(例えばがんのドライバー変異)を選定する情報処理装置(例えば、図2の分析装置1)であって、
前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、第1分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリ(例えば、明細書中のランクMYC1)と、当該可能性がそれより低い1以上の低カテゴリ(例えば、明細書中のランクMYC2乃至MYC4)の夫々とのうち何れかに分類する第1フィルタリング手段(例えば、図2や図5の共通フィルタ部53)と、
前記高カテゴリに分類するための前記第1分類基準とは異なる分類基準であって、データベース又はリストに登録されているという分類基準を、第2分類基準として設定する分類基準設定手段(例えば、図2のシードジーンフィルタ部54の図6のパラメータ設定受入部542や、ルールベースの手法を採用した図2のレスキューフィルタ部55の一部)と、
前記第1フィルタリング手段により前記低カテゴリに分類された前記配列変異のうち、前記第2分類基準を満たす配列変異を、前記高カテゴリに分類しなおす第2フィルタリング手段(例えば、図2のシードジーンフィルタ部54の図6のシードジーンフィルタ541やルールベースの手法を採用した図2のレスキューフィルタ部55のレスキューフィルタ)と、
を備えれば足りる。
これにより、第1フィルタリング手段によるフィルタリングの結果のうち、目的配列変異と選定される可能性が一番高い高カテゴリに分類されたものの低カテゴリに分類されるべき配列変異が低いカテゴリに分類されなおし、目的配列変異と選定される可能性が低いカテゴリに分類されたものの高いカテゴリに分類されるべき配列変異が高いカテゴリに分類される。その結果、病気の発生や進行に影響する変異である可能性の程度の分析効率や利便性が向上される。
さらに、前記分類基準設定手段は、
前記第2分類基準を設定するためのパラメータとして前記データベースの最低登録件数(例えば図8の指定欄A1に入力されるCOSMICの登録検体数のカットオフ値)を入力し、
当該データベースに前記最低登録件数以上登録されているという分類基準を、前記第2分類基準として設定する、ことができる。
さらに、前記分類基準設定手段は、
前記第2分類基準を設定するためのパラメータとして特定データベース又は特定リスト(例えば図8の指定欄A3や領域RSで入力するデータベースや重み付けをする遺伝子が含まれているガイドライン)を入力し、
前記特定データベース又は前記特定リストに登録されているという分類基準を、前記第2分類基準として設定する、ことができる。
さらに、前記分類基準設定手段は、
前記第2分類基準を設定するためのパラメータとして所定の疾患(例えば図8の指定欄A2においてユーザが指定する癌腫)を入力し、
前記所定の疾患に関するデータベース又はリストに登録されているという分類基準と、データベース又はリストにおいて前記所定の疾患に関する配列変異として登録されているという分類基準とのうち少なくとも一方を、前記第2分類基準として設定する、ことができる。
さらに、前記分類基準手段は、
前記第2分類基準を設定するためのパラメータとして、特定核酸を示す情報又は当該特定核酸の配列(例えば図8の指定欄A4に入力する、ユーザ指定の重みづけをする配列や、ユーザ指定の特定配列(例えば遺伝子や、マイクロRNA、非翻訳領域や、プロモーター・エンハンサーといった転写制御エレメントなどの調節領域など。特に、ヒトではgenomic coordinatesと呼ばれるhg19やGRCH38/hg38)上での位置情報)を入力し、
前記特定核酸の配列変異に該当するか、若しくは、前記データベース又は前記リストに登録されているという分類基準を、前記第2分類基準として設定する、ことができる。
さらに、前記第2フィルタリング手段は、さらに、前記第1フィルタリング手段により前記高カテゴリに分類された前記配列変異のうち、前記第2分類基準を満たさない配列変異を、前記低カテゴリに分類しなおす(例えば明細書でいう「ダウングレード」をする)、ことができる。
また、本発明が適用される情報処理システムは、
被検体が有する、有害リスクのある目的配列変異を選定する情報処理システム(図2の分析装置1を含む情報処理システム)であって、
所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の当該学習情報セットを用いる所定の機械学習を実行することで、所定の配列変異を入力すると、当該配列変異が前記目的配列変異である可能性の度合いを出力するモデル(例えばAIモデル)を生成又は更新する学習手段と、
前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、所定の分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリ(例えばMYC1)と、当該可能性がそれより低い1以上の低カテゴリ(例えばMYC2、MYC3、MYC4)の夫々とのうち何れかに分類する第1フィルタリング手段(例えば、図2や図5の共通フィルタ部53)と、
前記第1フィルタリング手段により前記低カテゴリに分類された前記配列変異のうち、前記モデルから出力される前記可能性の度合いが一定以上である配列変異を、前記高カテゴリに分類しなおす第2フィルタリング手段(例えばAI等の機械学習の手法が適用された図2のレスキューフィルタ部55)と、
を備えれば足りる。
例えば、公共データベースとしては、ClinVar(ヒトゲノムの多様性と関連する疾患、遺伝疾患についてのデータベース)や上述のCOSMICを採用することができる。
また例えば、ヒト遺伝子多型のデータベースとして、dbsnpを採用することができる。
また例えば、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベースとして、DGIdを採用することができる。
また例えば、薬物応答のデータベースとして、PharmGKBやOncoKBを採用することができる。
さらに、被検体が有する、有害リスクのある目的配列変異を選定する情報処理装置(例えば図2の分析装置1)であって、
所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の当該学習情報セットを用いる所定の機械学習が実行された結果として得られる、所定の配列変異を入力すると、当該配列変異が前記目的配列変異である可能性の度合いを出力するモデルが所定の記憶媒体に記憶されている場合において、
前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、所定の分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリと、当該可能性がそれより低い1以上の低カテゴリの夫々とのうち何れかに分類する第1フィルタリング手段(例えば、図2や図5の共通フィルタ部53)と、
前記第1フィルタリング手段により前記低カテゴリに分類された前記配列変異のうち、前記モデルから出力される前記可能性の度合いが一定以上である配列変異を、前記高カテゴリに分類しなおす第2フィルタリング手段(例えば、例えばAI等の機械学習の手法が適用された図2のレスキューフィルタ部55)と、
を備えることができる。
1・・・分析装置、11・・・CPU、18・・・記憶部、20・・・ドライブ、31・・・リムーバルメディア、51・・・データ受入部、52・・・設定受入部、53・・・共通フィルタ部、54・・・シードジーンフィルタ部、55・・・レスキューフィルタ部、56・・・ランク決定部、57・・・分析結果出力部、531・・・基本フィルタ、532・・・時系列フィルタ、533・・・データベースフィルタ、534・・・機能予測フィルタ、535・・・クオリティフィルタ、541・・・シードジーンフィルタ、542・・・パラメータ設定受入部、543・・・シードジーン情報取得部

Claims (4)

  1. 被検体が有する、有害リスクのある目的配列変異を選定する情報処理システムであって、
    所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の当該学習情報セットを用いる所定の機械学習を実行することで、所定の配列変異を入力すると、当該配列変異が前記目的配列変異である可能性の度合いを出力するモデルを生成又は更新する学習手段と、
    前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、所定の分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリと、当該可能性がそれより低い1以上の低カテゴリの夫々とのうち何れかに分類する第1フィルタリング手段と、
    前記第1フィルタリング手段により前記低カテゴリに分類された前記配列変異のうち、前記モデルから出力される前記可能性の度合いが一定以上である配列変異を、前記高カテゴリに分類しなおす第2フィルタリング手段と、
    を備える情報処理システム。
  2. 被検体が有する、有害リスクのある目的配列変異を選定する情報処理装置であって、
    所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の当該学習情報セットを用いる所定の機械学習が実行された結果として得られる、所定の配列変異を入力すると、当該配列変異が前記目的配列変異である可能性の度合いを出力するモデルが所定の記憶媒体に記憶されている場合において、
    前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、所定の分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリと、当該可能性がそれより低い1以上の低カテゴリの夫々とのうち何れかに分類する第1フィルタリング手段と、
    前記第1フィルタリング手段により前記低カテゴリに分類された前記配列変異のうち、前記モデルから出力される前記可能性の度合いが一定以上である配列変異を、前記高カテゴリに分類しなおす第2フィルタリング手段と、
    を備える情報処理装置。
  3. 被検体が有する、有害リスクのある目的配列変異を選定する情報処理装置が実行する情報処理方法であって、
    所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の当該学習情報セットを用いる所定の機械学習が実行された結果として得られる、所定の配列変異を入力すると、当該配列変異が前記目的配列変異である可能性の度合いを出力するモデルが所定の記憶媒体に記憶されている場合において、
    前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、所定の分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリと、当該可能性がそれより低い1以上の低カテゴリの夫々とのうち何れかに分類する第1フィルタリングステップと、
    前記第1フィルタリングステップの処理により前記低カテゴリに分類された前記配列変異のうち、前記モデルから出力される前記可能性の度合いが一定以上である配列変異を、前記高カテゴリに分類しなおす第2フィルタリングステップと、
    を含む情報処理方法。
  4. 被検体が有する、有害リスクのある目的配列変異を選定するコンピュータに、
    所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の当該学習情報セットを用いる所定の機械学習が実行された結果として得られる、所定の配列変異を入力すると、当該配列変異が前記目的配列変異である可能性の度合いを出力するモデルが所定の記憶媒体に記憶されている場合において、
    前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、所定の分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリと、当該可能性がそれより低い1以上の低カテゴリの夫々とのうち何れかに分類する第1フィルタリングステップと、
    前記第1フィルタリングステップの処理により前記低カテゴリに分類された前記配列変異のうち、前記モデルから出力される前記可能性の度合いが一定以上である配列変異を、前記高カテゴリに分類しなおす第2フィルタリングステップと、
    を含む制御処理を実行させるプログラム。

JP2022003785A 2022-01-13 2022-01-13 情報処理システム、情報処理装置、情報処理方法、及びプログラム Pending JP2023102988A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022003785A JP2023102988A (ja) 2022-01-13 2022-01-13 情報処理システム、情報処理装置、情報処理方法、及びプログラム
PCT/JP2023/000621 WO2023136297A1 (ja) 2022-01-13 2023-01-12 情報処理システム、情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022003785A JP2023102988A (ja) 2022-01-13 2022-01-13 情報処理システム、情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2023102988A true JP2023102988A (ja) 2023-07-26

Family

ID=87279158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022003785A Pending JP2023102988A (ja) 2022-01-13 2022-01-13 情報処理システム、情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2023102988A (ja)
WO (1) WO2023136297A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016139534A2 (en) * 2015-03-02 2016-09-09 Strand Life Sciences Private Limited Apparatuses and methods for determining a patient's response to multiple cancer drugs
WO2017191076A1 (en) * 2016-05-01 2017-11-09 Genome Research Limited Method of characterising a dna sample
EP4043542A4 (en) * 2019-10-08 2022-11-23 The University of Tokyo PROGRAM, DEVICE AND PROCEDURE FOR ANALYSIS

Also Published As

Publication number Publication date
WO2023136297A1 (ja) 2023-07-20

Similar Documents

Publication Publication Date Title
Sedlazeck et al. Accurate detection of complex structural variations using single-molecule sequencing
KR100806436B1 (ko) 유전자 진단을 위한 마커 선택 프로그램을 포함하는 컴퓨터판독가능 매체, 마커 선택 장치 및 시스템, 및 유전자진단 함수 생성 장치 및 시스템
Yin et al. Using the structure of genome data in the design of deep neural networks for predicting amyotrophic lateral sclerosis from genotype
Raimondi et al. Multilevel biological characterization of exomic variants at the protein level significantly improves the identification of their deleterious effects
US20220223229A1 (en) Analyzing device, analyzing method and storage medium storing program
Babadi et al. GATK-gCNV enables the discovery of rare copy number variants from exome sequencing data
Bosio et al. eDiVA—Classification and prioritization of pathogenic variants for clinical diagnostics
Umlai et al. Genome sequencing data analysis for rare disease gene discovery
Meng et al. Evaluation of an automated genome interpretation model for rare disease routinely used in a clinical genetic laboratory
WO2008007630A1 (fr) Méthode et appareil de recherche de protéine
Romero et al. An evaluation of pipelines for DNA variant detection can guide a reanalysis protocol to increase the diagnostic ratio of genetic diseases
Fazal et al. RExPRT: a machine learning tool to predict pathogenicity of tandem repeat loci
US20220293214A1 (en) Methods of analyzing genetic variants based on genetic material
WO2023136296A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2023136297A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及びプログラム
Liu et al. Performance evaluation of computational methods for splice-disrupting variants and improving the performance using the machine learning-based framework
Kuru et al. PHACT: Phylogeny-aware computing of tolerance for missense mutations
Zhu et al. A robust pipeline for ranking carrier frequencies of autosomal recessive and X-linked Mendelian disorders
Ichikawa et al. A landscape of complex tandem repeats within individual human genomes
WO2023181370A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Barbosa et al. Computational prediction of human deep intronic variation
US20230053405A1 (en) Neural network for variant calling
US20230289569A1 (en) Non-Transitory Computer Readable Medium, Information Processing Device, Information Processing Method, and Method for Generating Learning Model
Veeramachaneni Data analysis in rare disease diagnostics
Barbitoff et al. Bioinformatics of germline variant discovery for rare disease diagnostics: current approaches and remaining challenges