JP2020046867A - 癌特異的遺伝子制御ネットワークの生成方法、生成用プログラム及び生成用装置 - Google Patents

癌特異的遺伝子制御ネットワークの生成方法、生成用プログラム及び生成用装置 Download PDF

Info

Publication number
JP2020046867A
JP2020046867A JP2018174060A JP2018174060A JP2020046867A JP 2020046867 A JP2020046867 A JP 2020046867A JP 2018174060 A JP2018174060 A JP 2018174060A JP 2018174060 A JP2018174060 A JP 2018174060A JP 2020046867 A JP2020046867 A JP 2020046867A
Authority
JP
Japan
Prior art keywords
transcription factor
gene
cancer
transcription
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018174060A
Other languages
English (en)
Other versions
JP7209334B2 (ja
Inventor
明彦 小長谷
Akihiko Konagaya
明彦 小長谷
バラタ カルブアジ
Balata Calbuaji
バラタ カルブアジ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokyo Institute of Technology NUC
Original Assignee
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Institute of Technology NUC filed Critical Tokyo Institute of Technology NUC
Priority to JP2018174060A priority Critical patent/JP7209334B2/ja
Publication of JP2020046867A publication Critical patent/JP2020046867A/ja
Application granted granted Critical
Publication of JP7209334B2 publication Critical patent/JP7209334B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

【課題】癌特異的遺伝子制御ネットワークの生成方法を提供する。【解決手段】転写因子複合体を表す複数のタンパク質ノードP1、P2と、転写因子をコードする転写因子遺伝子を表す、複数の遺伝子ノードG1〜G4と、ソースノードである遺伝子ノードとターゲットノードであるタンパク質ノードを連結し、転写因子への翻訳を表す翻訳エッジ(実線矢印)と、ソースノードであるタンパク質ノードとターゲットノードである遺伝子ノードを連結し、転写因子又は転写因子複合体による転写因子遺伝子の発現の制御を表す、転写制御エッジ(破線矢印)とを含む有向グラフで表される、転写因子遺伝子制御ネットワークを生成する。生成された転写因子遺伝子制御ネットワーク中のノード及びエッジから、正常細胞と癌細胞との間で示差的に発現される転写因子遺伝子及びそれがコードする転写因子に関するノード及びエッジを選択して癌特異的遺伝子制御ネットワークを生成する。【選択図】図1

Description

本発明は、癌特異的遺伝子制御ネットワークの生成方法、生成用プログラム及び生成用装置に関する。
次世代シーケンシング技術が進歩し、ゲノムデータを用いて様々なタイプの解析が可能となった。例えば、次世代シークエンサーを使用したRNA−seq解析によって、正常細胞と癌細胞との間の遺伝子発現差解析を行うことができる。遺伝子の発現差分析の結果に基づいて多くの分析が実施可能である。その中で最も重要な分析の1つは、遺伝子発現ネットワーク解析である。当該ネットワーク解析により、癌に関与する遺伝子同士の相互作用を理解することができる。
遺伝子発現の調節には転写因子が関与している。位置重みマトリクス(position weight matrix、以下で「PWM」とも呼ぶ)の形態で表される転写因子結合マトリクスと、エンハンサー及びプロモーター領域のアノテーションデータとをペアリングすることによって転写因子遺伝子に関するネットワークを探索できることが知られている(引用文献1)。
Marback,D.,et.al, Nature Methods, 13 (4), pp. 366-370 (2016)
引用文献1に記載の方法で得られたネットワークは、転写因子をコードする遺伝子を標的遺伝子に直接結び付けている。すなわち、遺伝子−遺伝子の相互作用のみを評価している。したがって当該ネットワークから、翻訳工程における遺伝子からタンパク質への関係を見ることはできない。
従って本発明は、遺伝子の転写及び翻訳工程を反映した転写因子ネットワークを生成し、そして当該転写因子ネットワークに癌に関与する遺伝子の発現情報を反映させた癌特異的遺伝子制御ネットワークを生成することを目的とする。また、当該癌特異的遺伝子制御ネットワークを利用することで、新規抗癌剤の標的となる遺伝子及びタンパク質の探索を支援すること、そしてその結果として新規抗癌剤を提供することを目的とする。
本発明者らは上記課題に鑑み、鋭意検討した結果、転写因子遺伝子と転写因子との間の相互作用を示す転写因子遺伝子制御ネットワークを生成するための優れた方法を見出した。そして当該ネットワークに、正常細胞と癌細胞との間における遺伝子の発現差分析の結果を反映することで、これまでに知られていない癌特異的遺伝子制御ネットワークが生成できることを見出し、本発明に至った。
本発明の一以上の実施形態は、以下を含む。
<1>
転写因子、又は複数の転写因子を含む転写因子複合体を表す、複数のタンパク質ノードと、
前記転写因子をコードする転写因子遺伝子を表す、複数の遺伝子ノードと、
ソースノードである遺伝子ノードとターゲットノードであるタンパク質ノードを連結し、前記転写因子への翻訳を表す翻訳エッジと、
ソースノードであるタンパク質ノードとターゲットノードである遺伝子ノードを連結し、前記転写因子又は前記転写因子複合体による前記転写因子遺伝子の発現の制御を表す、転写制御エッジと
を含む有向グラフで表される、転写因子遺伝子制御ネットワークを生成する工程;及び
前記工程により生成された転写因子遺伝子制御ネットワーク中のノード及びエッジから、正常細胞と癌細胞との間で示差的に発現される転写因子遺伝子及びそれがコードする転写因子に関するノード及びエッジを選択して癌特異的遺伝子制御ネットワークを生成する工程
を含む、癌特異的遺伝子制御ネットワークを生成する方法。
<2>
転写因子遺伝子制御ネットワークの生成工程は、
(1)前記転写因子遺伝子制御ネットワークを構成する可能性のある複数の転写因子候補及び転写因子複合体候補の各々について、
転写因子候補名、転写因子複合体候補名並びに前記転写因子候補及び転写因子複合体候補をコードする遺伝子名のデータと、
前記転写因子候補及び転写因子複合体候補が結合するヌクレオチド配列の位置重みマトリクス(PWM)データと、
前記転写因子候補及び転写因子複合体候補をコードする遺伝子の第1転写制御領域の配列データと
を用意し、
(2)転写因子候補名及び転写因子複合体候補名とそれらをコードする遺伝子名のデータに基づいて、タンパク質ノード、遺伝子ノード及び翻訳エッジのデータを取得し、
(3)複数の転写因子候補及び転写因子複合体候補の各々のPWMデータと、転写因子候補及び転写因子複合体候補をコードする遺伝子の第1転写制御領域の配列データとの間で配列マッチングを行うことによって、転写制御エッジのデータを取得し、
(4)前記(2)及び(3)で取得されたデータを統合することによって、転写因子遺伝子制御ネットワークを生成すること
を含む、<1>に記載の方法。
<3>
正常細胞と癌細胞との間で示差的に発現される転写因子遺伝子及びそれがコードする転写因子に関するノード及びエッジを選択する工程は、正常細胞における遺伝子と癌細胞における遺伝子との間の発現量変動解析を行い、発現量に変動のあった遺伝子及びそれがコードするタンパク質に関するノード及びエッジを選択することを含む、<1>又は<2>に記載の方法。
<4>
ヒトの癌特異的遺伝子制御ネットワークを生成する、<1>〜<3>のいずれか1つに記載の方法。
<5>
前記癌が、胆管癌、肺腺癌、大腸癌及び肝細胞癌から成る群から選択される、<1>〜<4>のいずれか1つに記載の方法。
<6>
生成した癌特異的遺伝子制御ネットワークから選択された、1つの遺伝子ノードに対応する遺伝子の第2転写制御領域に結合する転写因子又は転写因子複合体を表すタンパク質ノードを、前記癌特異的遺伝子制御ネットワークの中から特定する工程、
をさらに含む、<1>〜<5>のいずれか1つに記載の方法。
<7>
第1転写制御領域がプロモーター領域であり、第2転写制御領域がエンハンサー領域、プロモーター領域及びサイレンサー領域を含む領域である、<6>に記載の方法。
<8>
選択される遺伝子ノードは、HDAC2遺伝子を表す遺伝子ノードである、<6>又は<7>に記載の方法。
<9>
少なくとも2つの癌において共通する、癌特異的遺伝子制御サブネットワークを生成する方法であって、
<1>〜<8>のいずれか1つに記載の方法にしたがって生成された少なくとも2つの癌特異的遺伝子制御ネットワークを比較することによって、それらに共通する癌特異的遺伝子制御サブネットワークを生成する工程
を含む、方法。
<10>
<1>〜<8>のいずれか1つに記載の癌特異的遺伝子制御ネットワークの生成方法をコンピュータに実行させる、前記癌特異的遺伝子制御ネットワークの生成用コンピュータプログラム。
<11>
<9>に記載の癌特異的遺伝子制御サブネットワークの生成方法をコンピュータに実行させる、前記癌特異的遺伝子制御サブネットワークの生成用コンピュータプログラム。
<12>
転写因子、又は複数の転写因子を含む転写因子複合体を表す、複数のタンパク質ノードと、
前記転写因子をコードする転写因子遺伝子を表す、複数の遺伝子ノードと、
ソースノードである遺伝子ノードとターゲットノードであるタンパク質ノードを連結し、前記転写因子への翻訳を表す翻訳エッジと、
ソースノードであるタンパク質ノードとターゲットノードである遺伝子ノードを連結し、前記転写因子又は前記転写因子複合体による前記転写因子遺伝子の発現の制御を表す、転写制御エッジと
を含む有向グラフで表される、転写因子遺伝子制御ネットワークを生成する、第1生成部と;
前記第1生成部により生成された転写因子遺伝子制御ネットワーク中のノード及びエッジから、正常細胞と癌細胞との間で示差的に発現される転写因子遺伝子及びそれがコードする転写因子に関するノード及びエッジを選択して癌特異的遺伝子制御ネットワークを生成する、第2生成部と
を備える、癌特異的遺伝子制御ネットワークの生成用装置。
<13>
生成された癌特異的遺伝子制御ネットワークから選択された、1つの遺伝子ノードに対応する遺伝子の第2転写制御領域に結合する転写因子又は転写因子複合体を表すタンパク質ノードを、前記癌特異的遺伝子制御ネットワークの中から特定する、第1特定部をさらに備える、<12>に記載の装置。
<14>
少なくとも2つの癌において共通する、癌特異的遺伝子制御サブネットワークの生成用装置であって、
<1>〜<8>のいずれか1つに記載の方法にしたがって生成された少なくとも2つの癌特異的遺伝子制御ネットワークを取得する、取得部と、
前記少なくとも2つの癌特異的遺伝子制御ネットワークを比較することによって、それらに共通する癌特異的遺伝子制御サブネットワークを生成する、第3生成部と
を備える、装置。
<15>
生成された癌特異的遺伝子制御サブネットワークから選択された、1つの遺伝子ノードに対応する遺伝子の第2転写制御領域に結合する転写因子又は転写因子複合体を表すタンパク質ノードを、前記癌特異的遺伝子制御サブネットワークの中から特定する、第2特定部をさらに備える、<14>に記載の装置。
<16>
FOXO1、RORA、MEF2A及びSOX5から成る群から選択される少なくとも1つの転写因子の発現促進剤を含む、癌を治療するための組成物。
<17>
前記転写因子の発現促進剤が、前記転写因子の発現ベクターである、<16>に記載の組成物。
<18>
FOXO1、RORA、MEF2A及びSOX5から成る群から選択される少なくとも1つの転写因子の発現促進剤を含む、HDAC2の発現を抑制するための組成物。
<19>
前記転写因子の発現促進剤が、前記転写因子の発現ベクターである、<18>に記載の組成物。
<20>
癌の治療方法であって、それを必要とする対象へFOXO1、RORA、MEF2A及びSOX5から成る群から選択される少なくとも1つの転写因子の発現促進剤を投与する工程を含む、方法。
<21>
癌の治療に使用するための医薬の製造における、FOXO1、RORA、MEF2A及びSOX5から成る群から選択される少なくとも1つの転写因子の発現促進剤の使用。
<22>
癌の治療に使用するための、FOXO1、RORA、MEF2A及びSOX5から成る群から選択される少なくとも1つの転写因子の発現促進剤。
<23>
HDAC2の発現を抑制するための方法であって、それを必要とする対象へFOXO1、RORA、MEF2A及びSOX5から成る群から選択される少なくとも1つの転写因子の発現促進剤を投与する工程を含む、方法。
<24>
HDAC2の発現を抑制するための医薬の製造における、FOXO1、RORA、MEF2A及びSOX5から成る群から選択される少なくとも1つの転写因子の発現促進剤の使用。
<25>
HDAC2の発現を抑制するための、FOXO1、RORA、MEF2A及びSOX5から成る群から選択される少なくとも1つの転写因子の発現促進剤。
本発明の方法で生成される癌特異的遺伝子制御ネットワークによって、癌に関与する遺伝子及び転写因子の相互作用をより良く理解することができる。従来の(例えば非特許文献1に示される)遺伝子ネットワークでは、遺伝子−遺伝子の相互作用が評価できるのみであった。一方、本発明で生成される遺伝子ネットワークでは、生体内で実際に起こっている転写及び翻訳過程が反映されており、遺伝子−タンパク質−遺伝子の相互作用を評価することができる。また当該ネットワークを利用することで、新規抗癌剤の標的となる遺伝子及びタンパク質の探索を支援し、さらには新規抗癌剤を提供することも可能である。
図1は、転写因子遺伝子制御ネットワークの模式図である。四角で表されるP1及びP2は、タンパク質ノードを表す。円形で表されるG1〜G4は、遺伝子ノードを表す。実線矢印は翻訳エッジ(「translate_to−エッジ」とも呼ぶ)を表す。先端が円形である破線矢印は、転写制御エッジ(「bind_to−エッジ」とも呼ぶ)を表す。G1が翻訳されて得られる転写因子は、G2が翻訳されて得られる転写因子と一緒になって、複合体(ヘテロダイマー)を形成する。当該複合体は、G3の転写制御領域と結合して、G3の発現を制御する。 図2は、本明細書における「転写制御領域」の一例である。 図3は、胆管癌(BDC)、肺腺癌(LUAD)、大腸癌(CRC)及び肝細胞癌(HCC)において共通する、癌特異的遺伝子制御サブネットワークを示す。 図4は、図3の癌特異的遺伝子制御サブネットワークに、正常細胞と胆管癌細胞との間で示差的に発現されている遺伝子の情報を追加したネットワークを示す。濃いグレーで表される遺伝子ノードは、正常細胞と比較して胆管癌細胞において発現が亢進している遺伝子を表す。薄いグレーで表される遺伝子ノードは、正常細胞と比較して胆管癌細胞において発現が抑制されている遺伝子を表す。 図5は、図3の癌特異的遺伝子制御サブネットワークに、正常細胞と肺腺癌細胞との間で示差的に発現されている遺伝子の情報を追加したネットワークを示す。濃いグレーで表される遺伝子ノードは、正常細胞と比較して肺腺癌細胞において発現が亢進している遺伝子を表す。薄いグレーで表される遺伝子ノードは、正常細胞と比較して肺腺癌細胞において発現が抑制されている遺伝子を表す。 図6は、図3の癌特異的遺伝子制御サブネットワークに、正常細胞と大腸癌細胞との間で示差的に発現されている遺伝子の情報を追加したネットワークを示す。濃いグレーで表される遺伝子ノードは、正常細胞と比較して大腸癌細胞において発現が亢進している遺伝子を表す。薄いグレーで表される遺伝子ノードは、正常細胞と比較して大腸癌細胞において発現が抑制されている遺伝子を表す。 図7は、図3の癌特異的遺伝子制御サブネットワークに、正常細胞と肝細胞癌細胞との間で示差的に発現されている遺伝子の情報を追加したネットワークを示す。濃いグレーで表される遺伝子ノードは、正常細胞と比較して肝細胞癌細胞において発現が亢進している遺伝子を表す。薄いグレーで表される遺伝子ノードは、正常細胞と比較して肝細胞癌細胞において発現が抑制されている遺伝子を表す。 図8は、図3の癌特異的遺伝子制御サブネットワークにおいて、HDAC2遺伝子の第2転写制御領域(ここでは、エンハンサー領域、プロモーター領域及びサイレンサー領域を含む領域)に結合する遺伝子を特定したグラフを示す。図中、太線枠の遺伝子ノード(HDAC2、TCF3、ZNF146、ZFP64、E2F8)は、4種のがん細胞で遺伝子発現が全て亢進している、HDAC2遺伝子の第2転写制御領域に結合する転写因子をコードする遺伝子を表す。図中、グレーで塗られた点線枠の遺伝子ノード(FOXO1、RORA、MEF2A、SOX5)は、4種のがん細胞で遺伝子発現が全て抑制されている、HDAC2遺伝子の第2転写制御領域に結合する転写因子をコードする遺伝子を表す。白抜きの点線枠の遺伝子ノード(BHLHE40、PBX1)は、4種のがん細胞で遺伝子発現の亢進と抑制が混在している、HDAC2遺伝子の第2転写制御領域に結合する転写因子をコードする遺伝子を表す。 図9は、本発明の方法において使用される情報処理装置100の概略構成の一例を示す図である。 図10は、癌特異的遺伝子制御ネットワークの生成方法における全体処理の動作の例を示すフローチャートを示す。 図11は、癌特異的遺伝子制御サブネットワークの生成方法における全体処理の動作の例を示すフローチャートを示す。 図12は、本発明の方法において、タンパク質ノードの特定工程を行う際の全体処理の動作の例を示すフローチャートを示す。
以下、本発明の実施形態について、必要に応じて図面を参照しながら説明する。実施形態の構成は例示であり、本発明の構成は、実施形態の具体的構成に限定されない。
<癌特異的遺伝子制御ネットワークの生成方法>
本発明の癌特異的遺伝子制御ネットワークの生成方法は、
転写因子、又は複数の転写因子を含む転写因子複合体を表す、複数のタンパク質ノードと、
前記転写因子をコードする転写因子遺伝子を表す、複数の遺伝子ノードと、
ソースノードである遺伝子ノードとターゲットノードであるタンパク質ノードを連結し、前記転写因子への翻訳を表す翻訳エッジと、
ソースノードであるタンパク質ノードとターゲットノードである遺伝子ノードを連結し、前記転写因子又は前記転写因子複合体による前記転写因子遺伝子の発現の制御を表す、転写制御エッジと
を含む有向グラフで表される、転写因子遺伝子制御ネットワークを生成する工程;及び
前記工程により生成された転写因子遺伝子制御ネットワーク中のノード及びエッジから、正常細胞と癌細胞との間で示差的に発現される転写因子遺伝子及びそれがコードする転写因子に関するノード及びエッジを選択して癌特異的遺伝子制御ネットワークを生成する工程
を含む。
本明細書において「転写因子遺伝子制御ネットワーク」とは、転写因子と転写因子遺伝子との間の因果関係を相互作用しあうネットワークとしてモデル化したものである。転写因子遺伝子制御ネットワークは、複数のタンパク質ノードと、複数の遺伝子ノードと、翻訳エッジと、転写制御エッジとを含む、有向グラフで表すことができる。ここで、「タンパク質ノード」は転写因子、又は複数の転写因子を含む転写因子複合体を表す。また「遺伝子ノード」は、前記転写因子をコードする転写因子遺伝子を表す。「翻訳エッジ」は、ソースノードである遺伝子ノードとターゲットノードであるタンパク質ノードを連結し、前記転写因子への翻訳を表す。「転写制御エッジ」は、ソースノードであるタンパク質ノードとターゲットノードである遺伝子ノードを連結し、前記転写因子又は前記転写因子複合体による前記転写因子遺伝子の発現の制御を表す。
本明細書において「癌特異的遺伝子制御ネットワーク」とは、同一組織由来の正常細胞と癌細胞との間で示差的に発現される転写因子及びそれをコードする遺伝子に関するノード及びエッジを選択して得られる転写因子遺伝子制御ネットワークのことである。
本明細書において、「転写因子」とは、転写制御領域に結合して、遺伝子の転写の過程を調節する因子のことである。転写因子は、主として転写開始反応を調節する。転写因子は、RNAポリメラーゼをDNA上のプロモーター領域に配置するために必要な基本転写因子群、および転写領域の上流や下流に存在する転写制御領域に結合してRNAの合成開始頻度を調節する各種の転写調節因子に大別される。転写因子は、単独で、又は同一の又は異なる複数の転写因子を含む複合体(「転写因子複合体」とも呼ぶ)を形成して転写を調節する。本明細書において「転写因子複合体をコードする遺伝子」とは、当該転写因子を構成する全ての転写因子の遺伝子のことを意味する。
本明細書において、「転写制御領域」とは、転写領域の上流又は下流に存在して、遺伝子の転写レベルを調節することができる配列領域をいう。転写制御領域は、例えば、プロモーター領域、エンハンサー領域、サイレンサー領域、ターミネーター領域などであり得る。また例えば、転写制御領域は、プロモーター領域、エンハンサー領域、サイレンサー領域及びターミネーター領域から選択される少なくとも1つを含む領域であり得る。
本明細書において「プロモーター領域」とは、遺伝子の転写の開始部位を決定し、またその頻度を直接的に調節するDNA上の領域をいい、通常、RNAポリメラーゼが結合して転写を始めるポリヌクレオチド配列である。プロモーター領域は通常構造遺伝子の上流に存在するが、これに限定されず、構造遺伝子の下流にも存在し得る。
本明細書において「エンハンサー領域」とは、通常、目的遺伝子の発現効率を高めるために用いられる配列をいう。そのようなエンハンサーは当該分野において周知である。
本明細書において「サイレンサー領域」とは、通常、遺伝子発現を抑制し静止する機能を有する配列をいう。
本明細書において「ターミネーター領域」とは、通常、遺伝子のタンパク質をコードする領域の下流に位置し、DNAがmRNAに転写される際の転写の終結及びポリA配列の付加に関与する配列をいう。ターミネーターは、mRNAの安定性に関与して遺伝子の発現量に影響を及ぼすことが知られている。
本発明の癌特異的遺伝子制御ネットワークの生成方法は、任意の動物に対して適用することが可能である。好ましくは、生成される癌特異的遺伝子制御ネットワークは哺乳動物の癌特異的遺伝子制御ネットワークであり、より好ましくはヒトの癌特異的遺伝子制御ネットワークである。
本発明の癌特異的遺伝子制御ネットワークの生成方法は、任意の癌に対して適用することができる。例えば、癌腫として、脳腫瘍、皮膚癌、頸頭部癌、食道癌、肺癌(肺腺癌を含む)、胃癌、十二指腸癌、乳癌、前立腺癌、子宮頸癌、子宮体癌、膵臓癌、肝臓癌、肝細胞癌、大腸癌、結腸癌、膀胱癌、および卵巣癌などが例示される。また、肉腫としては、骨肉腫、軟骨肉腫、横紋筋肉腫、平滑筋肉腫、脂肪肉腫、および血管肉腫などが例示される。さらに、造血器腫瘍として、ホジキンリンパ腫及び非ホジキンリンパ腫を含む悪性リンパ腫;急性骨髄性白血病、慢性骨髄性白血病、急性リンパ性白血病及び慢性リンパ性白血病を含む白血病;ならびに多発性骨髄腫などが例示される。
本発明の癌特異的遺伝子制御ネットワークの生成方法における、転写因子遺伝子制御ネットワークの生成工程は、特に限定されないが、好ましくは、
(1)前記転写因子遺伝子制御ネットワークを構成する可能性のある複数の転写因子候補及び転写因子複合体候補の各々について、
転写因子候補名、転写因子複合体候補名並びに前記転写因子候補及び転写因子複合体候補をコードする遺伝子名のデータと、
前記転写因子候補及び転写因子複合体候補が結合するヌクレオチド配列の位置重みマトリクス(PWM)データと、
前記転写因子候補及び転写因子複合体候補をコードする遺伝子の第1転写制御領域の配列データと
を用意し、
(2)転写因子候補名及び転写因子複合体候補名とそれらをコードする遺伝子名のデータに基づいて、タンパク質ノード、遺伝子ノード及び翻訳エッジのデータを取得し、
(3)複数の転写因子候補及び転写因子複合体候補の各々のPWMデータと、転写因子候補及び転写因子複合体候補をコードする遺伝子の第1転写制御領域の配列データとの間で配列マッチングを行うことによって、転写制御エッジのデータを取得し、
(4)前記(2)及び(3)で取得されたデータを統合することによって、転写因子遺伝子制御ネットワークを生成すること
を含む。
データを用意する上記工程(1)は、既存のデータベースに含まれるデータを使用して行うことができる。当該データベースとしては、例えば、TRANSFAC(Wingender E., BRIEFINGS IN BIOINFORMATICS. VOL 9. NO 4. 326-332)、JASPAR (Khan A. et al., Nucleic Acids Research, VOL 46, D1, D260-D266)、HOCOMOCO (Kulakovskiy I.V. et al., Nucleic Acids Research, VOL46, D1, D252-D259)が挙げられる。
本明細書において「位置重みマトリクス(PWM)データ」とは、配列のアラインメント結果を縦に見て、各位置における塩基の出現頻度を計算して数値化した行列データのことである。PWMは、ある転写因子が結合する配列の頻度を反映しており、転写因子の結合モチーフを表す。1つの転写因子について1又は2以上のPWMが定義され得る。これは、1つの転写因子が別の転写因子と複合体を形成し得ること、リガンド依存的に転写因子の結合部位が変化し得ることに起因する。
タンパク質ノード、遺伝子ノード及び翻訳エッジのデータを取得する上記工程(2)は、例えば、以下で説明する情報処理装置のCPUにおいて行われ得る。
転写制御エッジのデータを取得する上記工程(3)は、例えば転写因子候補のPWMを入力して、それが第1転写制御領域の配列中に存在するか否かをサーチすることができる既存の解析ツールを使用して行うことができる。そのような解析ツールとしては、例えばFIMOソフトウェア(Grant C.E. et al., Bioinformatics 27(7), 2011, pp.1017-1018)、及びTRANSFACデータベースで提供されているMATCHソフトウェア(Kel A.E. et al., Nucleic Acids Research 31(13), 2003, pp.3576-3579)を挙げることができる。これらのソフトウェアに格納されているプログラムは、以下で説明する情報処理装置の記憶装置に記憶されていても良い。
第1転写制御領域の配列長さを調節することによって、ネットワークに含まれるエッジの数及びノードの数を調節することができる。転写因子遺伝子制御ネットワークを得るために適切な第1転写制御領域の長さは特に限定されない。例えば第1転写制御領域がプロモーター領域である場合、その長さは例えば5,00〜5,000ヌクレオチド長であり、好ましくは1,000〜3,000ヌクレオチド長である。
上記工程(2)及び(3)で取得されたデータを統合する工程は、転写制御エッジと連結されていないノードを除去する工程を含んでもよい。また、2つのノードが2以上の転写制御エッジで連結されている場合には、1つの転写制御エッジのみを残して他の転写制御エッジを除去する工程を含んでも良い。上記工程(2)及び(3)で取得されたデータを統合する工程は、例えば、以下で説明する情報処理装置のCPUにおいて行われ得る。
本明細書において、「正常細胞と癌細胞との間で示差的に発現される(differentially-expressed)転写因子遺伝子」とは、同一組織由来の正常細胞と癌細胞との間で、有意に発現レベルに差がある転写因子遺伝子を意味する。本発明の癌特異的遺伝子制御ネットワークの生成方法において、正常細胞と癌細胞との間で示差的に発現される転写因子遺伝子及びそれがコードする転写因子に関するノード及びエッジを選択して癌特異的遺伝子制御ネットワークを生成する工程は、正常細胞における遺伝子と癌細胞における遺伝子との間の発現量変動解析を行い、発現量に変動のあった遺伝子及びそれがコードするタンパク質に関するノード及びエッジを選択することを含んでもよい。発現量変動解析は特に限定されないが、例えば既知の癌遺伝子発現データセットをBioconductorのDESeq2、limma、edgeRなどのソフトウェアを用いて解析する方法や、テンソル分解法によって解析する方法を含む。ソフトウェアに格納されているプログラムは、以下で説明する情報処理装置の記憶装置に記憶されていても良い。あるいは、発現量変更解析をあらかじめ行って得られたデータを用いて、上記ネットワークの生成工程が行われても良い。上記ネットワークの生成工程は、例えば、以下で説明する情報処理装置のCPUにおいて行われ得る。
本発明の癌特異的遺伝子制御ネットワークの生成方法は、生成した癌特異的遺伝子制御ネットワークから選択された、1つの遺伝子ノードに対応する遺伝子の第2転写制御領域に結合する転写因子又は転写因子複合体を表すタンパク質ノードを、前記癌特異的遺伝子制御ネットワークの中から特定する工程、をさらに含んでも良い(以下で、「タンパク質ノードの特定工程」とも呼ぶ)。当該工程において、例えば、癌特異的遺伝子制御ネットワークに含まれる遺伝子ノードのうち、連結する転写制御エッジの数が多いものを選択してもよい。また、例えば以下で説明する本発明のサブネットワークの生成方法で得られたサブネットワークを構成する遺伝子ノードの1つを選択してもよい。一実施形態において、選択される遺伝子ノードは、HDAC2遺伝子を表す遺伝子ノードである。
タンパク質ノードの特定工程において、第2転写制御領域は、第1転写制御領域と同一であっても異なっても良い。一実施形態において、第1転写制御領域はプロモーター領域であり、そして第2転写制御領域はエンハンサー領域、プロモーター領域及びサイレンサー領域を含む領域である。
タンパク質ノードの特定工程は、特に限定されないが、例えば転写因子候補のPWMを入力して、それが第2転写制御領域の配列中に存在するか否かをサーチすることができる既存の解析ツール(例えばFIMOソフトウェア)を使用して行うことができる。第2転写制御領域の情報は、例えばヒト転写制御領域とそれらの推定標的遺伝子のデータベースであるGeneHancer(Fishilevich S. et al., Database, 2017, pp. 1-17)から取得できる。タンパク質ノードの特定工程は、例えば、以下で説明する情報処理装置のCPUによって行われ得る。
本発明の癌特異的遺伝子制御ネットワークの生成方法は、当該ネットワークを表す有向グラフを表示媒体(例えば紙及びコンピュータディスプレイなど)に表示すること、または当該有向グラフの情報を記憶媒体(例えばCD−ROM、DMV−ROMなど)に記憶することをさらに含んでもよい。
<少なくとも2つの癌において共通する、癌特異的遺伝子制御サブネットワークを生成する方法>
本発明の、少なくとも2つの癌において共通する、癌特異的遺伝子制御サブネットワークを生成する方法(以下で「本発明のサブネットワークの生成方法」とも呼ぶ)は、本発明の癌特異的遺伝子制御ネットワークの生成方法に従って生成された少なくとも2つの癌特異的遺伝子制御ネットワークを比較することによって、それらに共通する癌特異的遺伝子制御サブネットワークを生成する工程を含む。
遺伝子−タンパク質−遺伝子の相互作用を評価できる本発明の癌特異的遺伝子制御ネットワークは、従来型の遺伝子−遺伝子ネットワークよりも生体内での遺伝子発現制御を正しく反映しているが、複雑となり得る。複数の癌種について本発明の癌特異的遺伝子制御ネットワークを生成し、それらを比較することによって得られる癌特異的遺伝子制御サブネットワークは、個々の癌特異的遺伝子制御ネットワークよりもノード数及びエッジ数が限定されるため、その解析が容易となるメリットがある。
本発明のサブネットワークの生成方法は、任意の少なくとも2つの癌に対して適用することができる。例えば、癌腫として、脳腫瘍、皮膚癌、頸頭部癌、食道癌、肺癌(肺腺癌を含む)、胃癌、十二指腸癌、乳癌、前立腺癌、子宮頸癌、子宮体癌、膵臓癌、肝臓癌、肝細胞癌、大腸癌、結腸癌、膀胱癌、および卵巣癌などが例示される。また、肉腫としては、骨肉腫、軟骨肉腫、横紋筋肉腫、平滑筋肉腫、脂肪肉腫、および血管肉腫などが例示される。さらに、造血器腫瘍として、ホジキンリンパ腫及び非ホジキンリンパ腫を含む悪性リンパ腫;急性骨髄性白血病、慢性骨髄性白血病、急性リンパ性白血病及び慢性リンパ性白血病を含む白血病;ならびに多発性骨髄腫などが例示される。例えば、胆管癌、肺腺癌、大腸癌及び肝細胞癌から成る群から選択される。
少なくとも2つの癌特異的遺伝子制御ネットワークを比較することによって、それらに共通する癌特異的遺伝子制御サブネットワークを生成する工程は、例えば以下で説明する情報処理装置のCPUにおいて行われ得る。
本発明の癌特異的遺伝子制御サブネットワークの生成方法によって生成された癌特異的遺伝子制御サブネットワークに対して、上記のタンパク質ノードの特定工程をさらに行っても良い。一実施形態において、当該工程で選択される遺伝子ノードは、HDAC2遺伝子を表す遺伝子ノードである。
本発明のサブネットワークの生成方法は、当該サブネットワークを表す有向グラフを表示媒体(例えば紙及びコンピュータディスプレイなど)に表示すること、または当該有向グラフの情報を記憶媒体(例えばCD−ROM、DMV−ROMなど)に記憶することをさらに含んでもよい。
<情報処理装置>
本発明の癌特異的遺伝子制御ネットワークの生成方法及び本発明のサブネットワークの生成方法(以下で「本発明の方法」とも呼ぶ)は、情報処理装置を用いて行われ得る。図9は本発明の方法に使用される情報処理装置100の概略構成の一例を示す図である。
情報処理装置100は、パーソナルコンピュータ等の情報処理装置であり、ユーザにより使用される。情報処理装置100は、通信装置101と、入力装置102と、表示装置103と、記憶装置110と、CPU(Central Processing Unit)120とを有する。以下、情報処理装置100の各部について詳細に説明する。
通信装置101は、LAN等のネットワークと通信するための通信インターフェース回路を有する。通信装置101は、ネットワークを介して外部のサーバ装置(不図示)とデータの送受信を行う。通信装置101は、ネットワークを介してサーバ装置から受信したデータをCPU120に供給し、CPU120から供給されたデータをネットワークを介してサーバ装置に送信する。なお、通信装置101は、外部の装置と通信できるものであればどのようなものであってもよい。通信装置101は、入力データを外部のサーバ装置から受信し、それをCPU120に供給してもよい。ここで、癌特異的遺伝子制御ネットワークの生成方法において、入力データは、転写因子候補名及び転写因子複合体候補名のデータ、前記転写因子候補及び転写因子複合体候補をコードする遺伝子名のデータ、前記転写因子候補及び転写因子複合体候補が結合するヌクレオチド配列の位置重みマトリクス(PWM)データ、及び前記転写因子候補及び転写因子複合体候補をコードする遺伝子の転写制御領域の配列データ、を含む、転写因子遺伝子制御ネットワークの生成に使用されるデータ;並びに、正常細胞と癌細胞における遺伝子の発現量のデータ(又は正常細胞と癌細胞との間で示差的に発現される転写因子遺伝子のデータ)であり得る。また、癌特異的遺伝子制御サブネットワークの生成方法において、入力データは、少なくとも2つの癌に関する癌特異的遺伝子制御ネットワークのデータであり得る。また通信装置101は、CPU120から出力された癌特異的遺伝子制御ネットワーク及び癌特異的遺伝子制御サブネットワークのデータを外部の装置へと送信してもよい。
入力装置102は、操作部の一例であり、タッチパネル式の入力装置、キーボード、マウス等の入力デバイス及び入力デバイスから信号を取得するインターフェース回路を有する。入力装置102は、ユーザの入力を受け付け、ユーザの入力に応じた信号をCPU120に対して出力する。本発明の方法で使用される入力データは、入力装置102から入力してもよい。
表示装置103は、表示部の一例であり、液晶、有機EL(Electro-Luminescence)等から構成されるディスプレイ及びディスプレイに画像データ又は各種の情報を出力するインターフェース回路を有する。表示装置103は、CPU120と接続されて、CPU120から出力された、癌特異的遺伝子制御ネットワーク及び癌特異的遺伝子制御サブネットワークをディスプレイに表示する。
記憶装置110は、記憶部の一例である。記憶装置110は、RAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ装置、ハードディスク等の固定ディスク装置、又はフレキシブルディスク、光ディスク等の可搬用の記憶装置等を有する。また、記憶装置110には、情報処理装置100の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、例えばCD−ROM(compact disk read only memory)、DVD−ROM(digital versatile disk read only memory)等のコンピュータ読み取り可能な可搬型記録媒体からインストールされてもよい。コンピュータプログラムは、公知のセットアッププログラム等を用いて記憶装置110にインストールされる。記憶装置110は、データとして、通信装置101及び入力装置102が取得した入力データ、並びに、CPUが生成した癌特異的遺伝子制御ネットワーク及び癌特異的遺伝子制御サブネットワークのデータを記憶する。
CPU120は、予め記憶装置110に記憶されているプログラムに基づいて動作する。CPU120は、汎用プロセッサであってもよい。なお、CPU120に代えて、DSP(digital signal processor)、LSI(large scale integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等が用いられてもよい。CPU120は、第1生成部121、第2生成部122、第3生成部123、取得部124、第1特定部125及び第2特定部126を有する。
CPU120は、通信装置101、入力装置102、表示装置103及び記憶装置110と接続され、これらの各部を制御する。
図10〜12は、情報処理装置100による全体処理の動作の例を示すフローチャートである。
以下、図10〜12に示したフローチャートを参照しつつ、情報処理装置100による全体処理の動作の例を説明する。なお、以下に説明する動作のフローは、予め記憶装置110に記憶されているプログラムに基づき、主にCPU120により情報処理装置100の各要素と協働して実行される。
本発明の癌特異的遺伝子制御ネットワークの生成方法(図10)において、最初に、第1生成部121は、入力装置102を用いてユーザにより入力された、あるいは外部のサーバ装置から通信装置101が受信した、転写因子候補名、転写因子複合体候補名、前記転写因子候補及び転写因子複合体候補をコードする遺伝子名、前記転写因子候補及び転写因子複合体候補が結合するヌクレオチド配列の位置重みマトリクス(PWM)データ、並びに前記転写因子候補及び転写因子複合体候補をコードする遺伝子の第1転写制御領域の配列データを含む、転写因子遺伝子制御ネットワーク生成用データを受け付ける(ステップS101)。
次に、第1生成部121は、転写因子候補名及び転写因子複合体候補名とそれらをコードする遺伝子名のデータのリストを作成する(ステップS102)。具体的には、1つの転写因子候補名又は転写因子複合体候補名とそれをコードする1つの遺伝子名とを1セットとして、複数のセットを含むリストを作成する。
次に、第1生成部121は、複数の転写因子候補及び転写因子複合体候補の各々のPWMデータと、転写因子候補及び転写因子複合体候補をコードする遺伝子の第1転写制御領域の配列データとの間で配列マッチングを行い、遺伝子とその遺伝子の発現の制御を行う転写因子及び転写因子複合体のリストを作成する(ステップS103)。具体的には、当該配列マッチングの結果、1つの遺伝子名と、当該遺伝子の第1転写制御領域に結合するものとして抽出された1つの転写因子名又は転写因子複合体名とを1セットとして、複数のセットを含むリストを作成する。
次に、第1生成部121は、ステップS102及びステップS103で作成されたリストを統合して、転写因子遺伝子制御ネットワークを生成する(ステップS104)。当該統合について図1を参照して説明する。ステップS102で作成されたリストには、G1とP1とのセット、G2とP1とのセット、G3とP2とのセットを含む。また、ステップS103で作成されたリストには、P1とG3とのセット及びP2とG4のセットを含む。例えばP1に注目した場合、P1を含むセットとして、G1とP1とのセットG2とP1とのセット及びP1とG3とのセットが抽出される。その後、G1とP1の間及びG2とP1の間を翻訳エッジで連結し、P1とG3を転写制御エッジで連結する。同様の操作を、P2に対しても行うことによって、最終的に図1で表される転写因子遺伝子制御ネットワークを生成する。
次に、第2生成部122は、入力装置102を用いてユーザにより入力された、あるいは外部のサーバ装置から通信装置101が受信した、正常細胞と癌細胞における遺伝子の発現量のデータを受け付け、それらのデータに対して発現量解析を行い、正常細胞と癌細胞との間で示差的に発現される転写因子遺伝子名を抽出する。その後、第2生成部122は、前記ステップS104で生成された転写因子遺伝子制御ネットワークから、正常細胞と癌細胞との間で示差的に発現される転写因子遺伝子及びそれがコードする転写因子に関するノード及びエッジを選択して、癌特異的遺伝子制御ネットワークを生成する(ステップS105)。ステップS105において、第2生成部122は、正常細胞と癌細胞における遺伝子の発現量のデータの代わりに、あらかじめ発現量解析を行うことによって抽出された、正常細胞と癌細胞との間で示差的に発現される転写因子遺伝子名のデータを受け付け、それを用いて癌特異的遺伝子制御ネットワークの生成を行っても良い。
本発明の癌特異的遺伝子制御サブネットワークの生成方法(図11)においては、取得部124は、入力装置102を用いてユーザにより入力された、外部のサーバ装置から通信装置101が受信した、あるいは、第2生成部で生成された、少なくとも2つの癌特異的遺伝子制御ネットワークのデータを取得する(ステップS111)。すなわち、ここで使用される癌特異的遺伝子制御ネットワークのデータは、同一の情報処理装置を用いて生成されたものであってもよいし、別の情報処理装置を用いて生成されたものであってもよい。
次に、第3生成部123は、前記取得部に取得された少なくとも2つの癌特異的遺伝子制御ネットワークのデータを比較して、それらに共通する癌特異的遺伝子制御サブネットワークを生成する(ステップS112)。
また、本発明の方法において、癌特異的遺伝子制御ネットワーク又はサブネットワークから選択された1つの遺伝子の第2転写制御領域に結合する転写因子又は転写因子複合体を特定する工程(図12)は、以下の通り行うことができる。最初に、第1特定部125又は第2特定部126は、入力装置102を用いてユーザにより入力された、あるいは外部のサーバ装置から通信装置101が受信した、あるいは、第2生成部122又は第3生成部123で生成された、癌特異的遺伝子制御ネットワーク又はサブネットワークのデータと、それらから選択された1つの遺伝子の遺伝子名と、選択された遺伝子の第2転写制御領域の配列データと、前記癌特異的遺伝子制御ネットワーク又はサブネットワークに含まれる転写因子が結合するヌクレオチド配列のPWMデータとを含む、タンパク質ノードの特定用データを受け付ける(ステップS121)。
次に、第1特定部125又は第2特定部126は、複数の転写因子候補の各々のPWMデータと、選択された上記遺伝子の第2転写制御領域の配列データとの間で配列マッチングを行い、当該第2転写制御領域に結合する転写因子又は転写因子複合体を表すタンパク質ノードを、前記癌特異的遺伝子制御ネットワーク又はサブネットワークの中から特定する(ステップS122)。
<本発明の組成物>
一態様において、本発明は、FOXO1、RORA、MEF2A及びSOX5から成る群から選択される少なくとも1つの転写因子の発現促進剤を含む、癌を治療するための組成物である。また別の態様において、本発明は、FOXO1、RORA、MEF2A及びSOX5から成る群から選択される少なくとも1つの転写因子の発現促進剤を含む、HDAC2の発現を抑制するための組成物である。これらを合わせて、以下で「本発明の組成物」とも呼ぶ。
HDAC2は、癌細胞(例えば胆管癌、肺腺癌、大腸癌及び肝細胞癌の細胞)で高発現している。一方、本発明の方法により得られた癌特異的遺伝子制御ネットワークの情報から、FOXO1、RORA、MEF2A及びSOX5がHDAC2のプロモーター領域、エンハンサー領域及びサイレンサー領域を含む領域と結合すること、及びこれらの遺伝子発現が正常細胞と比較して上記癌細胞において低下していることが分かった。したがって、FOXO1、RORA、MEF2A及びSOX5の発現を促進することで、癌細胞におけるHDAC2の発現を抑制することができると考えられる。また、HDAC2の発現の抑制によって、最終的に癌を治療することができると考えられる。
本明細書において「転写因子の発現促進剤」は、当該転写因子の発現を促進する任意の物質である。特に限定されないが、例えば、当該転写因子をコードするポリヌクレオチドを含むベクターが挙げられる。
発明の組成物の投与対象は、ヒト又は非ヒト哺乳動物である。非ヒト哺乳動物としては具体的には、マウス、ラット、イヌ、サル、ネコ、ウマ、ウシ、ブタ、ヤギ、ヒツジなどが挙げられる。好ましくは、投与対象はヒトである。
本発明の癌を治療するための組成物において、治療されるべき癌の種類は特に限定されず、癌腫として、脳腫瘍、皮膚癌、頸頭部癌、食道癌、肺癌(肺腺癌を含む)、胃癌、十二指腸癌、乳癌、前立腺癌、子宮頸癌、子宮体癌、膵臓癌、肝臓癌、肝細胞癌、大腸癌、結腸癌、膀胱癌、および卵巣癌などが例示される。また、肉腫としては、骨肉腫、軟骨肉腫、横紋筋肉腫、平滑筋肉腫、脂肪肉腫、および血管肉腫などが例示される。さらに、造血器腫瘍として、ホジキンリンパ腫及び非ホジキンリンパ腫を含む悪性リンパ腫;急性骨髄性白血病、慢性骨髄性白血病、急性リンパ性白血病及び慢性リンパ性白血病を含む白血病;ならびに多発性骨髄腫が例示される。
本発明の組成物は、常法に従って製剤化することができ(例えば、Remington's Pharmaceutical Science, latest edition, Mark Publishing Company, Easton, U.S.A)、医薬的に許容される担体や添加物を共に含むものであってもよい。例えば界面活性剤、賦形剤、着色料、着香料、保存料、安定剤、緩衝剤、懸濁剤、等張化剤、結合剤、崩壊剤、滑沢剤、流動性促進剤、矯味剤などが挙げられる。更にこれらに制限されず、その他常用の担体が適宜使用できる。具体的には、軽質無水ケイ酸、乳糖、結晶セルロース、マンニトール、デンプン、カルメロースカルシウム、カルメロースナトリウム、ヒドロキシプロピルセルロース、ヒドロキシプロピルメチルセルロース、ポリビニルアセタールジエチルアミノアセテート、ポリビニルピロリドン、ゼラチン、中鎖脂肪酸トリグリセライド、ポリオキシエチレン硬化ヒマシ油60、白糖、カルボキシメチルセルロース、コーンスターチ、無機塩類などを担体として挙げることができる。
本発明の組成物の投与量としては、例えば、一回の投与につき体重1kgあたり0.0001mg〜1,000mgの転写因子の発現促進剤が投与される。あるいは、例えば、患者あたり0.001mg/body〜100,000mg/bodyの転写因子の発現促進剤が投与される。しかしながら、本発明の組成物の投与量はこれらに制限されるものではない。
本明細書において言及される全ての文献はその全体が引用により本明細書に取り込まれる。
以下に説明する本発明の実施例は例示のみを目的とし、本発明の技術的範囲を限定するものではない。
本発明の技術的範囲は特許請求の範囲の記載によってのみ限定される。本発明の趣旨を逸脱しないことを条件として、本発明の変更、例えば、本発明の構成要件の追加、削除及び置換を行うことができる。
実施例1
転写因子遺伝子制御ネットワークの生成
転写因子遺伝子制御ネットワークの生成のために、転写因子データベースであるTransfac Proデータベースのバージョン2017.2(以下、単に「Transfac」とも呼ぶ)を使用した。Transfacに含まれる遺伝子データのうち、PWMアノテーションが付与されているヒト転写因子遺伝子(総数1298個)を選択した。当該遺伝子の遺伝子名及び転写因子名の情報から、translate_to−エッジのリストを生成した。
上記で選択された遺伝子のDNA配列を抽出した。転写制御領域をプロモーター領域とし、各転写産物の第1エキソンの上流にあるポリヌクレオチドと定義した。転写制御領域の長さを、500nt、1000nt、2000nt、3000nt、4000nt又は5000ntとした。これらの異なる長さの転写制御領域の全てについてネットワークを作成した。選択された遺伝子のDNA配列は、ヒトゲノムのレファレンス配列のデータセットであるEnsembl HG38、及び遺伝子アノテーション情報であるEnsemble gene annotationファイルから抽出された。
通常、1つの遺伝子から複数の遺伝子産物が生じ得る。例えば図2において、BRCA2遺伝子から転写産物1〜4が生じる。この場合、各転写産物に応じて転写制御領域の範囲は異なる。本実施例において、当該転写産物の転写制御領域(図2ではプロモーター領域)を併合した領域を、当該遺伝子(図2ではBRCA2)の転写制御領域とした。
転写制御領域における、PWMとして表されるモチーフの存在を調べるために、FIMOソフトウェアを使用し、その結果に基づいて、bind_to−エッジのリストを生成した。具体的には、選択されたヒト転写因子遺伝子のPWMデータを入力して、それが標的転写因子遺伝子の転写制御領域に存在するか否かをサーチした。マッチング配列のカットオフのためにp値の閾値を0.0005に設定した。偽発見率(FDR)に加えてボンフェローニ補正を実施してq値を計算した。カットオフのためにq値の閾値と0.0005とした。
転写制御領域の長さを変更した場合における、転写因子遺伝子制御ネットワーク中のエッジの総数及びノードの総数を以下に示す。
上記で得られたtranslate_to−エッジ及びbind_to−エッジのリストのデータから、それらのデータを統合できるプログラムを組み込んだコンピュータを使用して、転写因子遺伝子制御ネットワークを得た。その際、転写制御エッジと連結してないノードを除去した。また、2つのノードが2以上の転写制御エッジで連結されている場合には、1つのエッジのみを残して他のエッジを除去した。
実施例2
癌特異的遺伝子制御ネットワークの生成
NCBI GEOデータベースから、胆管癌(BDC)、肺腺癌(LUAD)、大腸癌(CRC)及び肝細胞癌(HCC)の正常−癌データセット(それぞれ、GSE63420、GSE87340、GSE104836及びGSE77509)を取得し、発現量変動解析を実施した。BDCに関しては、SRAファイルをダウンロードし、sratoolkitを用いてfastqファイルを抽出した。Salmonソフトウエア(R. Patro et al., Nature Methods 14(4), 417-419 (2017))をquasi−mappingモードで用いてリードカウントデータを計算した。LUAD、CRCに関しては、NCBI GEOデータベースから提供されているリードカウントデータをダウンロードした。HCCに関しては、規格化されたリードカウントデータをダウンロードした。
発現差の結果を得るため、生のリードカウントデータを用い、DESeq2を利用してBDC、LUAD及びCRCのデータセットを処理した。HCCに関しては、データのタイプが規格化されたリードカウントであるという理由で、limma/voomワークフローを利用して遺伝子発現差分析を実施した。その後、実施例1で得た転写因子遺伝子制御ネットワークに含まれる遺伝子のフィルタリングを、上記データセットのデータを入力することによって正常細胞と癌細胞との間で発現量が変動している遺伝子を選択することのできるプログラムを組み込んだコンピュータを使用して実施した。その際、p値を0.05以下に調節した。それぞれの癌において、正常細胞と癌細胞との間で示差的に発現される遺伝子を、実施例1で得た転写因子ネットワークにマッピングした。その後、正常細胞と癌細胞との間で発現が変化していない遺伝子に関するノードを転写因子ネットワークから除外することにより、癌特異的遺伝子制御ネットワークを得た。
実施例3
胆管癌(BDC)、肺腺癌(LUAD)、大腸癌(CRC)及び肝細胞癌(HCC)において共通する癌特異的遺伝子制御サブネットワークの生成
実施例2で得られた4つの癌に関する癌特異的遺伝子制御ネットワークから、それらに共通するサブネットワークを探索した。
転写制御領域の長さを変更した場合における、癌特異的遺伝子制御サブネットワーク中のエッジの総数及びノードの総数を以下に示す。
プロモーター領域の長さを2,000ntに設定した場合において、BDC、LUAD、CRC及びHCCにおいて共通する癌特異的遺伝子制御サブネットワークを図3に示す。当該サブネットワークは、46個の遺伝子ノードと17個のタンパク質ノードからなる。当該サブネットワークには、HDAC2タンパク質ノードと、HDAC2遺伝子ノードを含むループ構造;タンパク質ノードとしてHDAC2、AMEF2、RORAPHA及びMEF2を含み、かつ遺伝子ノードとしてHDAC2遺伝子、RORA遺伝子及びMEF2A遺伝子を含むループ構造;並びに、タンパク質ノードとしてPLZF及びHMGIYを含み、遺伝子ノードとしてZBTB16及びHMGA1を含むループ構造が見出された。
実施例4
テンソル分解法を利用した、示差的に発現される遺伝子の選択
示差的に発現される遺伝子の抽出のために、テンソル分解に基づく特徴抽出を行った(Taguchi, Y-h., BMC Medical Genomics 2017, 10(Suppl 4): 67)。テンソル分解法は、重要な遺伝子を癌−正常ペアのデータセットから抽出することのできる教師なし法である。この方法は、ペアにしたデータセットにおいて重要な遺伝子のリストを生成するのに有効な方法であることが分かっている。
それぞれの癌データセットからの遺伝子発現プロファイルを入力として用いた。遺伝子発現プロファイルのデータは、生データ型のデータとライブラリに基づいて取得した。BDC、LUAD、CRCの遺伝子発現プロファイルは、Rに含まれるDESeq2ライブラリの分散安定化変換関数を用いて作成した。HCCデータセットに関しては、limmaライブラリからの100万当たりのカウント関数を用いて規格化した遺伝子発現データを作成した。
テンソル分解分析を実施するため、各遺伝子発現マトリックスをテンソルとして扱う。各マトリックスから三次元マトリックスMを構築してテンソルとして使用した。指数iはサンプルを示し、指数jは実験条件を示し、kは遺伝子を示す。正常と癌という2つの条件を比較するデータセットであるため、指数jは値を2つだけ持つ。そのため指数Mijkを持つ値は、条件jでのサンプルiからの遺伝子kの遺伝子発現レベルであり、ここでは正常であるか癌であるかのどちらかである。
テンソル分解特徴抽出を実行するため、RからのrTensorライブラリを使用した。HOSVD関数を用いて単値分解を計算した。p値はカイ二乗検定を用いて計算し、Benjamini−Hochberg法(Benjamini, Y. et al., Journal of the Royal Statistical Society. Series B (Methodological) 31, 289-300)を用いて補正した。p値の閾値を0.05以下に設定した。
テンソル分解法によって見出された、示差的に発現される遺伝子を強調した癌特異的遺伝子制御サブネットワークを図4〜7に示す。
実施例5
HDAC2の第2転写制御領域に結合する転写因子又は転写因子複合体を表すタンパク質ノードの特定
本実施例において、エンハンサー領域、プロモーター領域及びサイレンサー領域を含む領域を「第2転写制御領域」とした。実施例3及び4において得られた癌特異的遺伝子制御サブネットワークに含まれる遺伝子がコードする転写因子のうち、HDAC2遺伝子の第2転写制御領域に結合するものを特定した。具体的には、FIMOソフトウェアとGENEHANCERデータベースを使用し、癌特異的遺伝子制御サブネットワークに含まれる遺伝子のPWMデータを入力して、それがHDAC2遺伝子の第2転写制御領域に存在するか否かをサーチした。マッチング配列のカットオフのためにp値の閾値を0.001に設定した。このようにして発見された遺伝子のうち、胆管癌(BDC)、肺腺癌(LUAD)、大腸癌(CRC)及び肝細胞癌(HCC)の全てにおいて正常細胞と比較して発現量が変化している遺伝子として17個の遺伝子を見出した。結果を以下に示す。表中、正の数値は正常細胞と比較して発現が増大していることを示し、負の数値は正常細胞と比較して発現が低下していることを示す。この結果、RORA、MEF2A、FOXO1及びSOX5において、上記4つの癌全てで発現が低下していた。このことは、これらの転写因子の低減がHDAC2の発現増大に寄与し、癌を引き起こしていると推測される。したがって、これらの転写因子の発現促進剤を使用することで、HDAC2の発現が抑制され、癌が治療され得ると推測される。癌特異的遺伝子制御サブネットワークにおいて、HDAC2遺伝子の第2転写制御領域に結合する遺伝子を特定したグラフを図8に示す。
本発明の方法で生成される癌特異的遺伝子制御ネットワークによって、癌に関与する遺伝子及び転写因子の相互作用をより良く理解することができる。また当該ネットワークを利用することで、新規抗癌剤の標的となる遺伝子及びタンパク質の探索を支援し、さらには新規抗癌剤を提供することも可能である。
100 情報処理装置
101 通信装置
102 入力装置
103 表示装置
110 記憶装置
120 CPU
121 第1生成部
122 第2生成部
123 第3生成部
124 取得部
125 第1特定部
126 第2特定部

Claims (15)

  1. 転写因子、又は複数の転写因子を含む転写因子複合体を表す、複数のタンパク質ノードと、
    前記転写因子をコードする転写因子遺伝子を表す、複数の遺伝子ノードと、
    ソースノードである遺伝子ノードとターゲットノードであるタンパク質ノードを連結し、前記転写因子への翻訳を表す翻訳エッジと、
    ソースノードであるタンパク質ノードとターゲットノードである遺伝子ノードを連結し、前記転写因子又は前記転写因子複合体による前記転写因子遺伝子の発現の制御を表す、転写制御エッジと
    を含む有向グラフで表される、転写因子遺伝子制御ネットワークを生成する工程;及び
    前記工程により生成された転写因子遺伝子制御ネットワーク中のノード及びエッジから、正常細胞と癌細胞との間で示差的に発現される転写因子遺伝子及びそれがコードする転写因子に関するノード及びエッジを選択して癌特異的遺伝子制御ネットワークを生成する工程
    を含む、癌特異的遺伝子制御ネットワークを生成する方法。
  2. 転写因子遺伝子制御ネットワークの生成工程は、
    (1)前記転写因子遺伝子制御ネットワークを構成する可能性のある複数の転写因子候補及び転写因子複合体候補の各々について、
    転写因子候補名、転写因子複合体候補名並びに前記転写因子候補及び転写因子複合体候補をコードする遺伝子名のデータと、
    前記転写因子候補及び転写因子複合体候補が結合するヌクレオチド配列の位置重みマトリクス(PWM)データと、
    前記転写因子候補及び転写因子複合体候補をコードする遺伝子の第1転写制御領域の配列データと
    を用意し、
    (2)転写因子候補名及び転写因子複合体候補名とそれらをコードする遺伝子名のデータに基づいて、タンパク質ノード、遺伝子ノード及び翻訳エッジのデータを取得し、
    (3)複数の転写因子候補及び転写因子複合体候補の各々のPWMデータと、転写因子候補及び転写因子複合体候補をコードする遺伝子の第1転写制御領域の配列データとの間で配列マッチングを行うことによって、転写制御エッジのデータを取得し、
    (4)前記(2)及び(3)で取得されたデータを統合することによって、転写因子遺伝子制御ネットワークを生成すること
    を含む、請求項1に記載の方法。
  3. 正常細胞と癌細胞との間で示差的に発現される転写因子遺伝子及びそれがコードする転写因子に関するノード及びエッジを選択する工程は、正常細胞における遺伝子と癌細胞における遺伝子との間の発現量変動解析を行い、発現量に変動のあった遺伝子及びそれがコードするタンパク質に関するノード及びエッジを選択することを含む、請求項1又は2に記載の方法。
  4. ヒトの癌特異的遺伝子制御ネットワークを生成する、請求項1〜3のいずれか1項に記載の方法。
  5. 前記癌が、胆管癌、肺腺癌、大腸癌及び肝細胞癌から成る群から選択される、請求項1〜4のいずれか1項に記載の方法。
  6. 生成した癌特異的遺伝子制御ネットワークから選択された、1つの遺伝子ノードに対応する遺伝子の第2転写制御領域に結合する転写因子又は転写因子複合体を表すタンパク質ノードを、前記癌特異的遺伝子制御ネットワークの中から特定する工程、
    をさらに含む、請求項1〜5のいずれか1項に記載の方法。
  7. 第1転写制御領域がプロモーター領域であり、第2転写制御領域がエンハンサー領域、プロモーター領域及びサイレンサー領域を含む領域である、請求項6に記載の方法。
  8. 選択される遺伝子ノードは、HDAC2遺伝子を表す遺伝子ノードである、請求項6又は7に記載の方法。
  9. 少なくとも2つの癌において共通する、癌特異的遺伝子制御サブネットワークを生成する方法であって、
    請求項1〜8のいずれか1項に記載の方法にしたがって生成された少なくとも2つの癌特異的遺伝子制御ネットワークを比較することによって、それらに共通する癌特異的遺伝子制御サブネットワークを生成する工程
    を含む、方法。
  10. 請求項1〜8のいずれか1項に記載の癌特異的遺伝子制御ネットワークの生成方法をコンピュータに実行させる、前記癌特異的遺伝子制御ネットワークの生成用コンピュータプログラム。
  11. 請求項9に記載の癌特異的遺伝子制御サブネットワークの生成方法をコンピュータに実行させる、前記癌特異的遺伝子制御サブネットワークの生成用コンピュータプログラム。
  12. 転写因子、又は複数の転写因子を含む転写因子複合体を表す、複数のタンパク質ノードと、
    前記転写因子をコードする転写因子遺伝子を表す、複数の遺伝子ノードと、
    ソースノードである遺伝子ノードとターゲットノードであるタンパク質ノードを連結し、前記転写因子への翻訳を表す翻訳エッジと、
    ソースノードであるタンパク質ノードとターゲットノードである遺伝子ノードを連結し、前記転写因子又は前記転写因子複合体による前記転写因子遺伝子の発現の制御を表す、転写制御エッジと
    を含む有向グラフで表される、転写因子遺伝子制御ネットワークを生成する、第1生成部と;
    前記第1生成部により生成された転写因子遺伝子制御ネットワーク中のノード及びエッジから、正常細胞と癌細胞との間で示差的に発現される転写因子遺伝子及びそれがコードする転写因子に関するノード及びエッジを選択して癌特異的遺伝子制御ネットワークを生成する、第2生成部と
    を備える、癌特異的遺伝子制御ネットワークの生成用装置。
  13. 生成された癌特異的遺伝子制御ネットワークから選択された、1つの遺伝子ノードに対応する遺伝子の第2転写制御領域に結合する転写因子又は転写因子複合体を表すタンパク質ノードを、前記癌特異的遺伝子制御ネットワークの中から特定する、第1特定部をさらに備える、請求項12に記載の装置。
  14. 少なくとも2つの癌において共通する、癌特異的遺伝子制御サブネットワークの生成用装置であって、
    請求項1〜8のいずれか1項に記載の方法にしたがって生成された少なくとも2つの癌特異的遺伝子制御ネットワークを取得する、取得部と、
    前記少なくとも2つの癌特異的遺伝子制御ネットワークを比較することによって、それらに共通する癌特異的遺伝子制御サブネットワークを生成する、第3生成部と
    を備える、装置。
  15. 生成された癌特異的遺伝子制御サブネットワークから選択された、1つの遺伝子ノードに対応する遺伝子の第2転写制御領域に結合する転写因子又は転写因子複合体を表すタンパク質ノードを、前記癌特異的遺伝子制御サブネットワークの中から特定する、第2特定部をさらに備える、請求項14に記載の装置。
JP2018174060A 2018-09-18 2018-09-18 癌特異的遺伝子制御ネットワークの生成方法、生成用プログラム及び生成用装置 Active JP7209334B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018174060A JP7209334B2 (ja) 2018-09-18 2018-09-18 癌特異的遺伝子制御ネットワークの生成方法、生成用プログラム及び生成用装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018174060A JP7209334B2 (ja) 2018-09-18 2018-09-18 癌特異的遺伝子制御ネットワークの生成方法、生成用プログラム及び生成用装置

Publications (2)

Publication Number Publication Date
JP2020046867A true JP2020046867A (ja) 2020-03-26
JP7209334B2 JP7209334B2 (ja) 2023-01-20

Family

ID=69901439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018174060A Active JP7209334B2 (ja) 2018-09-18 2018-09-18 癌特異的遺伝子制御ネットワークの生成方法、生成用プログラム及び生成用装置

Country Status (1)

Country Link
JP (1) JP7209334B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696629A (zh) * 2020-06-29 2020-09-22 电子科技大学 一种rna测序数据的基因表达量计算方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120015834A1 (en) * 2010-05-28 2012-01-19 Giovanni Paternostro Methods for artificial combinatorial control of biological systems
CN105160208A (zh) * 2015-05-29 2015-12-16 杭州奥视图像技术有限公司 用于疾病亚型问题的基于网络的聚类方法
WO2017147396A1 (en) * 2016-02-24 2017-08-31 Data2Discovery Object oriented system and method having semantic substructures for machine learning
JP2018503354A (ja) * 2014-10-24 2018-02-08 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 標的遺伝子発現の数学的モデル化を用いるTGF−β細胞シグナル伝達経路活性の評価

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120015834A1 (en) * 2010-05-28 2012-01-19 Giovanni Paternostro Methods for artificial combinatorial control of biological systems
JP2018503354A (ja) * 2014-10-24 2018-02-08 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 標的遺伝子発現の数学的モデル化を用いるTGF−β細胞シグナル伝達経路活性の評価
CN105160208A (zh) * 2015-05-29 2015-12-16 杭州奥视图像技术有限公司 用于疾病亚型问题的基于网络的聚类方法
WO2017147396A1 (en) * 2016-02-24 2017-08-31 Data2Discovery Object oriented system and method having semantic substructures for machine learning

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696629A (zh) * 2020-06-29 2020-09-22 电子科技大学 一种rna测序数据的基因表达量计算方法

Also Published As

Publication number Publication date
JP7209334B2 (ja) 2023-01-20

Similar Documents

Publication Publication Date Title
Lazar et al. Comprehensive and integrated genomic characterization of adult soft tissue sarcomas
Yang et al. A gene signature for selecting benefit from hypoxia modification of radiotherapy for high-risk bladder cancer patients
McCreery et al. Evolution of metastasis revealed by mutational landscapes of chemically induced skin cancers
ES2923602T3 (es) Detección y tratamiento de enfermedades que muestran heterogeneidad celular de enfermedad y sistemas y métodos para comunicar los resultados de las pruebas
Weinhold et al. Genome-wide analysis of noncoding regulatory mutations in cancer
Li et al. Genomic analysis of head and neck squamous cell carcinoma cell lines and human tumors: a rational approach to preclinical model selection
ES2831148T3 (es) Identificación y uso de marcadores tumorales de ácido nucleico circulante
Gao et al. Forward genetic screens in mice uncover mediators and suppressors of metastatic reactivation
Iorns et al. Whole genome in vivo RNAi screening identifies the leukemia inhibitory factor receptor as a novel breast tumor suppressor
US11124836B2 (en) Method for selecting personalized tri-therapy for cancer treatment
Testa et al. Genetic alterations of metastatic colorectal cancer
Gallenne et al. Systematic functional perturbations uncover a prognostic genetic network driving human breast cancer
Vargas et al. Case study: patient-derived clear cell adenocarcinoma xenograft model longitudinally predicts treatment response
EP3077542A2 (en) Methods for identifying anti-cancer compounds
KR20210103452A (ko) 혈액암 약물 반응성 판단을 위한 바이오 마커 조성물, 바이오 마커 조성물을 이용한 혈액암 약물 반응성 판단 방법 및 혈액암 약물 반응성 판단을 위한 바이오 마커 조성물 검출용 진단칩
Dubois et al. Structural variants shape driver combinations and outcomes in pediatric high-grade glioma
Roberts Patterns of somatic genome rearrangement in human cancer
Chen et al. Global molecular alterations involving recurrence or progression of pediatric brain tumors
Fisk et al. Premetastatic shifts of endogenous and exogenous mutational processes support consolidative therapy in EGFR-driven lung adenocarcinoma
JP2020046867A (ja) 癌特異的遺伝子制御ネットワークの生成方法、生成用プログラム及び生成用装置
Zhang et al. Proteome atlas of human chromosome 8 and its multiple 8p deficiencies in tumorigenesis of the stomach, colon, and liver
Komura et al. Tertiary lymphoid structure and neutrophil–lymphocyte ratio coordinately predict outcome of pembrolizumab
Scheipl et al. Molecular profiling of soft-tissue sarcomas with FoundationOne® Heme identifies potential targets for sarcoma therapy: a single-centre experience
Sanchez et al. Integrating genomics into prognostic models for AML
Lijuan et al. Differences in T cell immune-related lncRNA and mRNA expression patterns between right-and left-sided colorectal cancers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221227

R150 Certificate of patent or registration of utility model

Ref document number: 7209334

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150