JP4495166B2 - 薬剤標的として有用なタンパク質コーディングdna配列の同定のためのコンピューターに基づく汎用的方法 - Google Patents

薬剤標的として有用なタンパク質コーディングdna配列の同定のためのコンピューターに基づく汎用的方法 Download PDF

Info

Publication number
JP4495166B2
JP4495166B2 JP2006542030A JP2006542030A JP4495166B2 JP 4495166 B2 JP4495166 B2 JP 4495166B2 JP 2006542030 A JP2006542030 A JP 2006542030A JP 2006542030 A JP2006542030 A JP 2006542030A JP 4495166 B2 JP4495166 B2 JP 4495166B2
Authority
JP
Japan
Prior art keywords
sequence
protein
genome
genes
alphanumeric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2006542030A
Other languages
English (en)
Other versions
JP2007512829A (ja
Inventor
クマール ブラーマチャリ,サミール
ダッシュ,デバシス
シャルマ,ラマカント
クマール マヘシュワリ,ジテンドラ
Original Assignee
カウンシル オブ サイエンティフィク アンド インダストリアル リサーチ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by カウンシル オブ サイエンティフィク アンド インダストリアル リサーチ filed Critical カウンシル オブ サイエンティフィク アンド インダストリアル リサーチ
Publication of JP2007512829A publication Critical patent/JP2007512829A/ja
Application granted granted Critical
Publication of JP4495166B2 publication Critical patent/JP4495166B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Peptides Or Proteins (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

本発明は、薬剤標的として有用であるタンパク質コーディングDNA配列を同定する汎用的方法に関する。より具体的に、本発明は、種々の生物体のゲノム配列データー中の新規の遺伝子であって、潜在的薬剤標的として有用な遺伝子の同定方法に関する。本発明はさらに、正確なアミノ酸配列同一性シグネチャーを通して、未知機能の仮定上のオープン・リーディング・フレーム(タンパク質)についての機能を評価する方法をさらに提供する。
ハイスループット・シーケンス技術の出現は、新たにシーケンスされたゲノムにおいて新規タンパク質コーディングDNA配列(遺伝子)の同定を必要としてきた。本発明は、ペプチドライブラリーを使用することにより、DNA配列を英数字配列へと変換する新規の方法を提供する。本発明はまた、タンパク質コーディングDNA配列を同定するために、1の入力層、30のニューロンを有する隠れ層、及び1の出力層を有する人工ニューラル・ネットワーク(フィードフォワード・バックプロパゲーション・トポロジー)を使用する方法も提供する。本発明はさらに、タンパク質コーディングDNA配列を同定するために、5個のパラメーター、つまり、トータル・スコア、平均、ゼロ率(fraction of zeroes)、最大連続非ゼロストレッチ(maximum continuous non-zero stretch)、及び分散を有する学習関数としてシグモイドを使用してニューラル・ネットワークをトレーニングする方法を提供する。
本発明の背景技術及び従来技術の参考文献
新たにシーケンスされたゲノムにおいてタンパク質コーディングDNA配列(遺伝子)を同定する最も信頼できる方法は、他の生物から近縁のホモログを見つけることである(BLAST(Altschul, S. Fら、1990)及びFASTA(Pearson, W. R., 1995))。DNA配列中の4個のヌクレオチドは、ランダムに分布することはない。コード領域内のヌクレオチドの統計的分布は、非コード領域とは有意に異なる(Bird, A., 1987)。Hidden Markov Models(HMM)に基づく方法は、これらの統計的性質を最も効率的に利用し(Salzberg, S. Lら、1998;Delcher, A. Lら、1999;Lukashin, A. V.及びBorodovsky, M.、1998)、そして公開されているアノテーションと比較して、ゲノムの全ての遺伝子の約97%〜98%を予測することができる(Delcher, A. Lら、1999)。HMMを使用して、GeneMark、Glimmerなどの様々なアルゴリズムが開発されて、原核生物の遺伝子を予測してきた。Glimmer2.0は、存在する全ての方法の中で最もうまくいった方法である(Delcher, A. Lら、1999)。しかしながら、Glimmerは、7〜20%の付加的遺伝子(擬陽性)を予測してしまう。
各々の遺伝子予測方法は、固有の長所及び短所を有する(Mathe, C.ら、2002)。予測は通常トレーニング・セットに依存しているので、コード領域についての統計が、種々のゲノムに渡って変化するため欠点が生じる。また、これらの方法は、短い長さの遺伝子(100未満のアミノ酸)を効率的に予測することができない。なぜなら、こうした遺伝子を、類似性検索又は統計分析により検出することがとても難しいからである。この問題は、遺伝子の水平移動の場合においてより大きい問題となる(Kehoe, M.Aら、1996)。この場合、これらの遺伝子のヌクレオチド配列の統計的分布は、ゲノム自身の中においても異なる。
本発明の方法は、所定の長さにおける理論上可能であるペプチドの総数と、自然において実際観察される所定の長さのペプチドの総数との間の差が、ペプチドの長さが増加するにつれて劇的に増加するという観察に基づく。例えば、理論上可能なヘプタペプチドのうちの約2%のみが、完全にシーケンスされた56種の原核生物ゲノムのプール中で観測される。オクタペプチド・レベルでは、この数はさらに0.1%未満に低減する。さらに、自然により選ばれるこれらのペプチドの多くが、コード領域内にのみ見られ、そして理論上翻訳される非コード領域においてはかなり稀であるということに注目するのは興味深い。この観察は、我々が、コード領域と非コード領域との間を区別するために、タンパク質コード配列中に存在するペプチドの自然選別の排他性を利用することを促進する。
原理上、クエリーORFをスコアするためにより長いペプチド・ストレッチを使用することは、短いペプチドを使うことより常に好ましい(Salzberg, S.L.ら、1998)が、これは十分なデーターが、予測アルゴリズムをトレーニングするために必要とされる統計パラメーターを評価するために利用できる場合に限られる。8以上の長さのアミノ酸のペプチドを使用する場合、トレーニングパラメーターを評価する十分なデーターを得ることは難しい。これは、オクタペプチドが、2個のポリペプチド間で共有される可能性が、ヘプタペプチドが共有される可能性より低いためである。その結果、我々は、7個のアミノ酸長がORFをスコアするために最適なものであると考える。
当該方法の新規性は、ヌクレオチド配列レベルではなくアミノ酸配列レベルでタンパク質コード配列に基づいて行われるということである。当該方法が生物特異的トレーニング・セットを必要としないということが注目すべき点であり、このことは他の方法に対して明らかな利点である。他の方法とは違って、GeneDecipherは、コード遺伝子及びその開始位置を予測するために、リボソーム結合部位、プロモーター配列、転写開始部位、又はコドン利用バイアスなどの目印を利用しない。加えて、当該方法は、SARS-CoVなどの小さいゲノム(Chen, Lら、2003)についての遺伝子予測の難しさを克服する。遺伝子予測以外にも、当該方法はポリペプチドについての類似性サーチ、タンパク質に対する推定される機能付与(オリゴペプチド・モチーフの存在に基づく)、及び系統発生ドメイン分析に利用でき、当該方法の汎用性及び多様性を指し示す。
GeneMark.hmm(Lukashin及びBorodovsky、1998)、Glimmer(Salzbergら、1998)などの現在のコンピューター方法は、SARSなどの小さいゲノムを分析する際に困難に直面する。Hidden Markov Models(HMM)に基づく方法は、トレーニングのために数千ものパラメーターを必要とする。これは、当該方法を、小さいゲノムの分析には適していないものとする。SARS-CoVゲノムの場合の問題となる化合物は、約30kbの長さである。今日までのウイルス遺伝子予測に最も適した方法であるZCURVE_CoV(Chenら、2003)でさえ、トレーニングに33のパラメーターを必要とする。GeneDecipherは、たった5個のパラメーターのみを必要とし、そして小さいゲノムを分析することもできる。出願人は、ecoli-k12ゲノムコード領域及び非コード領域(遺伝子として報告されていないORF)に基づいて人工ニューラル・ネットワークをトレーニングした。ウイルスゲノムについてGeneDecipherを使用して、タンパク質コード遺伝子を予測するために、更なるトレーニングが必要とされることはない。これは、他の方法に対する当該方法の明らかな利点である。
本発明の目的
本発明の主な目的は、薬剤標的として有用な、ダンパク質をコードするDNA配列(遺伝子)を予測する方法であって、コンピューターに基づく方法を提供することである。
本発明の他の主な目的は、ソフトウェアGeneDecipherを使用して、他のゲノムのORF中に存在することがわかっているオリゴペプチドを使用して、遺伝子を同定する汎用的方法を開発することである。
本発明のさらに別の目的は、病原生物により引き起こされる疾患を管理する際に適用できる方法を開発することである。
本発明のさらに別の目的は、前述の方法を実行するためのコンピューターに基づくシステムを開発することである。
本発明のさらに別の目的は、潜在的な薬剤標的として有用であり、そして広範囲の抗菌性について薬剤のスクリーニングとして役に立ち得る新規タンパク質コーディングDNA配列を同定するために、並びに感染の特異診断のために有用な方法を開発することである。本発明のさらに別の目的は、種特異的又は生物特異的タンパク質コード遺伝子を同定することである。
本発明の方法のさらに別の目的は、真核生物においてタンパク質コーディングDNA配列(エキソン)を同定することである。
本発明の別の目的は、正確なアミノ酸配列同一性のシグネチャーを通して未知機能の仮定上のオープン・リーディング・フレーム(タンパク質)に機能を割り当てることである。
本発明の要約
本発明は、他のゲノムのORF中に存在することが分かっているオリゴペプチドを使用して遺伝子を同定し、そしてGeneDecipherソフトウェアを使用して小さいゲノムを分析するために適している汎用的方法であって、以下のステップ:
既知のゲノムから、コンピューターによりアルファベット順に配列された長さ「N」のペプチドを有するペプチドライブラリーを作成し、
上記試験ゲノムを人工的に翻訳して、各リーディング・フレームにおいてポリペプチドを得て、
各ポリペプチド配列を英数字配列に変換し、ここで一の配列は、ペプチドライブラリーとの重なりに基づく各リーディング・フレームに対応する配列を有する
人工ニューラル・ネットワーク(ANN)を、英数字配列についてシグモイド学習関数でトレーニングし、
上記試験ゲノム中のタンパク質コード領域を解読し、そうして
多数の既知遺伝子及びその対応するタンパク質に位置付けられるより長いペプチド・ストレッチを同定する
を含む方法、並びに病原体により引き起こされる疾患を管理する方法であって、本発明のステップにより同定される1以上のタンパク質の機能を阻害することにより提案された薬剤候補を評価するステップを含む方法に関する。
本発明の詳細な記載
従って、本発明は、特別に開発されたソフトウェア・GeneDecipherを使用して、ゲノム中で薬剤標的として有用なタンパク質コーディングDNA配列(遺伝子)を同定する汎用的方法であって、当該方法は、以下のステップ:
既知のゲノムから、コンピューターによりアルファベット順に配列された長さ「N」のペプチドを有するペプチドライブラリーを作製し、
人工的に試験ゲノムを翻訳して各リーディング・フレームに対応するポリペプチドを得て、各ポリペプチド配列を英数字配列に変換し、ここで1の英数字配列がペプチドライブラリーとの重なりに基づく各リーディング・フレームに対応し、
人工ニューラル・ネットワーク(ANN)を、英数字配列についてシグモイド学習関数でトレーニングし、
試験ゲノムにおけるタンパク質コード領域を解読し、こうして、
多数の既知遺伝子及びその対応するタンパク質に位置されるより長いペプチド・ストレッチを同定する
を含む方法、並びに病原体により引き起こされる疾患の管理方法であって、本発明のステップにより同定される1以上のタンパク質の機能を阻害することにより、提案された薬剤候補の評価をするステップを含む方法に関する。
本発明の一の実施態様において、薬剤標的として有用であるタンパク質コーディングDNA配列を同定するコンピューターに基づく汎用的方法であって、以下のステップ:
・既知のゲノムから、コンピューターによりアルファベット順に配置される長さ「N」のオリゴペプチドを有するペプチドライブラリーを作成し
・ 当該試験ゲノムを人工的に翻訳して、各リーディング・フレームのポリペプチドを得て、
・ 各ポリペプチド配列を英数字配列に変換し、ここで、一の配列が、前記ペプチドライブラリーにおいてこれらのオリゴペプチドの出現に基づく各リーディング・フレームに対応し
・ 既知のタンパク質コーディングDNA配列及び既知の非コード領域に対応する英数字配列について、シグモイド学習関数で人工ニューラル・ネットワーク(ANN)をトレーニングし、
・ 上記試験ゲノム中のタンパク質コード領域を解読し、そして
・ 多数の既知遺伝子に位置する機能シグネチャーとして役に立つより長いペプチド・ストレッチを同定する
を含む方法が提供される。
本発明の別の実施態様では、人工ニューラル・ネットワークは、1以上の入力層、様々な数のニューロンを有する1以上の隠れ層、及び1以上の出力層を有する。
本発明のさらに別の実施態様では、隠れ層のニューロンの数は、好ましくは30である。
本発明のさらに別の実施態様では、「N」の値が4以上である。
本発明のさらに別の実施態様では、前記シグモイド学習関数は、トータル・スコア、平均、ゼロ率、最大連続非ゼロストレッチ、及び分散を含む5個のパラメーターを有する。
本発明のさらに別の実施態様では、遺伝子を同定する方法は、他のゲノム、非限定的にH.インフルエンザ(H. influenzae)、M.ゲニタリウム(M. genitalium)、E.コリ(E. coli)、B.サブチリス(B. subtilis)、A.フルギジス(A. fulgidis)、M.ツベルクロシス(M. tuberculosis)、T.パリダム(T. pallidum)、T.マリチマ(T. maritima)、シネコ・シスチス(Synecho cystis)、H.ピロリ(H. pylori)、及びSARS-CoVなどのゲノムのORF中に存在することが分かっているオリゴペプチドを使用する。
本発明のさらに別の実施態様、請求項1に記載される方法では、当該ペプチドライブラリー・データーは、明確に本発明に使用される生物体に限定されていない生物体のいずれかからとられてもよい。
本発明のさらに別の実施態様では、H.インフルエンザの配列番号1〜44の遺伝子セットが、前述の方法を使用することにより同定される。
本発明のさらに別の実施態様では、H.インフルエンザの配列番号1〜44の遺伝子に対応する配列番号170〜213のタンパク質のセットが、前述の方法を使用することにより同定される。
本発明のさらに別の実施態様では、H.ピロリの配列番号45〜60の遺伝子セットが、前述の方法を使用することにより同定される。
本発明のさらに別の実施態様では、H.ピロリの配列番号45〜60の遺伝子に対応する配列番号214〜229のタンパク質のセットが、前述の方法を使用することにより同定される。
本発明のさらに別の実施態様では、M.ツベルクロシスの配列番号61〜165の遺伝子セットが、前述の方法を使用することにより同定される。
本発明のさらに別の実施態様では、M.ツベルクロシスの配列番号61〜165の遺伝子に対応する配列番号230〜334のタンパク質のセットが、前述の方法を使用することにより同定される。
本発明のさらに別の実施態様では、配列番号166〜169のSARS-コロナ・ウイルスの遺伝子セットが、前述の方法を使用することにより同定される。
本発明のさらに別の実施態様では、SARS-コロナ・ウイルスの配列番号166〜169の遺伝子に対応する配列番号335〜338のタンパク質のセットが、前述の方法を使用することにより同定される。
本発明のさらに別の実施態様では、配列番号1〜169の遺伝子に対応する配列番号170〜338のタンパク質が、病原体により引き起こされる疾患状態を管理するために薬剤標的として、それを必要とする対象に使用される。
本発明のさらに別の実施態様では、前記病原体は、SARS-コロナ・ウイルス、H.インフルエンザ、M.ツベルクロシス、及びH.ピロリを含む群から選ばれる。
本発明のさらに別の実施態様では、前記対象は動物である。
本発明のさらに別の実施態様では、前記対象はヒトである。
本発明のさらに別の実施態様では、前記使用は、真核生物及び多細胞生物に拡大される。
ハイスループット・シーケンス技術の出現は、新たにシーケンスされたゲノムにおいて新規のタンパク質コーディングDNA配列(遺伝子)の同定を必要とする。本発明は、ペプチドライブラリーを使用することにより、DNA配列を英数字配列に変換する新規の方法を提供する。本発明はまた、タンパク質コーディングDNA配列を同定するために、1の入力層、30のニューロンを有する1の隠れ層、及び出力層を有する人工ニューラル・ネットワーク(フィードフォワード・バックプロパゲーション・トポロジー)を使用する方法を提供する。本発明は、さらに、タンパク質コーディングDNAの同定のため、5個のパラメーター、つまり、トータル・スコア、平均、ゼロ率、最大連続非ゼロストレッチ、及び分散を有する学習関数としてシグモイドを使用するニューラル・ネットワークのトレーニング法を提供する。
出願人は、自然淘汰を耐えてきた多くの生物体のタンパク質配列から得られる数百万ものペプチドを含むペプチドライブラリーと比較することにより、タンパク質コーディングDNAを同定する新規のコンピューターに基づく方法を発明した。当該方法は、遺伝子同定のための新たな一般的かつ汎用的なアプローチを記載する。コンピューターによる方法は、ペプチドライブラリー及び人工ニューラル・ネットワークの使用を介して所定のDNA配列中の全ての潜在的なオープン・リーディング・フレーム(ORF)のなかから遺伝子候補を決定する。ペプチドライブラリーは、完全にシーケンスされた56以上の真核生物ゲノムのタンパク質から得られる重なり合う潜在的なヘプタペプチド全てからなる。所定のクエリーORFは、ORFに渡ってライブラリー・ヘプタペプチド(ライブラリー中に存在するヘプタペプチド)の存在及び分布パターンに基づいた遺伝子として適格である。当該方法の性能は、感受性及び特異性が同時に高いことにより特徴付けられる。10個の完全にシーケンスされた原核生物ゲノムの分析が提供されて、本発明の方法の性能を示す。
本方法はまた、病原体の特異的なペプチド・モチーフに対する代替標的又は疾患過程の原因となる宿主タンパク質標的の予測を可能にする。本方法は、多数のタンパク質コーディング遺伝子を得るために異なるペプチド長で拡張されうるし、そして真核生物及び多細胞生物に拡張され得る。
本発明は、ペプチドライブラリーを使用することによりDNA配列を英数字配列に変換する新規の方法に関し、そして本発明はまた、タンパク質コーディングDNA配列を同定するため、1の入力層、30個のニューロンを有する1の隠れ層、及び出力層を有する人工ニューラル・ネットワーク(フィードフォワードバックプロパゲーション・トポロジー)の使用方法を提供する。本発明はさらに、5個のパラメーター、つまりトータル・スコア、平均、ゼロ率、最大連続非ゼロストレッチ、及び分散を有する学習関数としてシグモイドを使用してニューラル・ネットワークをトレーニングする方法に関し、そして本方法は、広範囲の抗菌作用について、薬剤スクリーニングとして役に立つ新規のタンパク質コード領域の同定に有用であり、並びに感染の具体的な診断に有用であり、そしてさらに、未だ未知機能の新たに同定されたタンパク質についての機能を評価するのに有用である。当該方法は、種又は菌株特異的タンパク質コード遺伝子の同定を可能にする。当該方法はまた、真核ゲノムにおけるタンパク質コード配列の同定に広げることができる。
従って、本発明は、薬剤標的として有用なタンパク質コーディングDNA配列を同定するためのコンピューターに基づく汎用方法であって、当該方法が以下のステップ:
a. 既知のゲノムから、コンピューターによりアルファベット順に配列された長さ「N」のオリゴペプチドを有するペプチドライブラリーを作成し、
b. 試験ゲノムを人工的に翻訳して各リーディング・フレーム内のポリペプドを獲得し、
c. 各ポリペプチド配列を英数字配列へと変換し、ここで一の配列は、ペプチドライブラリー内におけるこれらのオリゴペプチドの存在に基づく各リーディング・フレームに対応し、
d. シグモイド学習関数を用いて人工ニューラル・ネットワーク(ANN)を、既知のタンパク質コーディングDNA配列及び既知の非コード領域に対応する英数字配列についてトレーニングし、
e. 試験ゲノム中のタンパク質コード領域を解読し、そして
f. 多数の既知の遺伝子に位置する長いペプチド・ストレッチ(進化保存オリゴペプチド)であって、機能シグネチャ-として役に立つペプチド・ストレッチを同定する
を含む方法に関する。
さらに本発明の別の実施態様では、ANNは、1以上の入力層、様々な数のニューロンを有する1以上の隠れ層、そして1以上の出力層を有する。本発明のさらに別の実施態様では、隠れ層におけるニューロンの数は、好ましくは30である。
本発明のさらに別の実施態様では、「N」の値は4以上である。
本発明のさらに別の実施態様では、シグモイド学習関数は、トータル・スコア、平均、ゼロ率、最大連続非ゼロストレッチ、及び分散を含む5個のパラメーターを有する。
本発明のさらなる実施態様では、様々なゲノム、非限定的に、H.インフルエンザ(H. influenzae)、M.ゲニタリウム(M. genitalium)、E.コリ(E. coli)、B.サブチリス(B. subtilis)、A.フルギジス(A. fulgidis)、M.ツベルクロシス(M. tuberculosis)、T.パリダム(T. pallidum)、T.マリチマ(T. maritima)、シネコ・シスチス(Synecho cystis)、H.ピロリ(H. pylori)、及びSARS-CoVなどのゲノムのORFにおいて存在する進化的に保存されたペプチド配列を有する遺伝子を同定する方法が提供される。
本発明のさらに別の実施態様では、当該方法は、SARS-コロナ・ウイルス及びH.インフルエンザ、M.ツベルクロシス、H.ピロリのゲノムにおいて同定される169の新規の遺伝子(配列番号1〜169)を同定する。
本発明のさらなる実施態様では、SARS-コロナ・ウイルス、H.インフルエンザ、M.ツベルクロシス及びH.ピロリなどの病原体により引き起こされる病気の管理方法であって、当該方法が以下のステップ:
本方法により同定され、そして配列番号1〜169の新規の配列に対応する配列番号170〜338のタンパク質を含む群から選ばれる進化的に保存された1以上のペプチド配列の機能を阻害するための提案された薬剤候補を評価する
を含む方法が提供される。
本発明のさらに別の実施態様では、当該ペプチドライブラリー・データーは、いずれの生物から取られてもよいが、本発明において使用される生物に明確に限定されることはない。
詳細な方法論:
当該方法は、以下の5個の主要なステップ(図1において示されるように):
1. ペプチドライブラリーを作成し、
2. 所定のゲノムを6個のリーディングフレームへ人工翻訳し、
3. 各翻訳された配列を英数字配列に変換し(一の配列が、各リーディング・フレームに対応し)、
4. 人工ニューラル・ネットワーク(ANN)をトレーニングし、
5. トレーニングされたANNを使用して遺伝子を解読する
を含む。
1. ペプチドライブラリーの作成
当該方法は、所定のゲノムにおいて遺伝子を予測するための参照ペプチドライブラリーを必要とする。本発明において、出願人は、56個の完全にシーケンスされた原核生物ゲノム由来のタンパク質を使用した。我々のデーターベースについてのタンパク質ファイルを、ftp://ftp.ncbi.nlm.nih.gov/genomesからFASTAフォーマットで得た。特定のゲノム中で遺伝子を解析するペプチドライブラリーを製造するために、出願人は、いずれかのバイアスを避けるために、我々のデーターベースからその特定の種に属するタンパク質ファイルを除外する。例えば、E.コリ-k12ゲノムを分析するとき、E.コリの全ての株に対応するタンパク質ファイルを、データーベースから除外して、ペプチドライブラリーを作成する。これは、その生物体のペプチドから得られるシグナルを排除するために行われ、これは、新たにシーケンスされたゲノムを分析する場合に行われよう。これは、アノテーション付きタンパク質ファイルが利用できない新たにシーケンスされたゲノム上で遺伝子を予測する点で当該方法を増強する。ペプチドライブラリーを作成する一方、1のアミノ酸だけウィンドウをシフトすることにより、全ての潜在的な重なり合うヘプタペプチドが処理された。不要なペプチドを、ペプチドライブラリーから取り除き、そして各ペプチドに、当該ペプチドが存在する個々の生物体の数に基づく出現回数を与える。
当該出現回数は、コード領域におけるヘプタペプチドの保存の尺度である。ORF中の高出現回数を有するヘプタペプチドの存在は、ORFがタンパク質コード遺伝子であるという可能性を高める。我々のアルゴリズムでは、9以上の出現回数は、ヘプタペプチドが9以上の異なる生物のタンパク質ファイル中に存在している場合、高度に保存されたヘプタペプチドとして考えられるという前提に基づいて9として取り扱われる。保存の程度をさらに区別するために、さらに高い値を使用することは価値がない。
ヘプタペプチド・ライブラリー・データーベースは、2個のカラムからなり、1つ目のカラムは、ヘプタペプチド配列のためのカラムであり、そして2つ目のカラムは、そのヘプタペプチドのスコア(出現回数)のためのカラムである。ヘプタペプチドは、辞書の順番に並び替えられる。ペプチドライブラリーデーターベースはまた、ヘプタペプチドについての他の情報、例えばそのヘプタペプチドを含むタンパク質全ての受諾番号及びNCBIアノテーションを有する。これは、与えられたORFの推定される機能を予測するために使用することができる。同じアプローチは、系統発生ドメイン分析にも使用することができる。
2.所定ゲノムの6個のリーディングフレームへの人工的翻訳
アルゴリズムにおける第二のステップは、標準的なコドン表を使用して、クエリーゲノム全体を、6個のリーディングフレームに人工的に翻訳することである。しかしながら、ユーザーが指定するコドン表が、必要に応じて使用されてもよい。出願人は、人工的な翻訳の間、ストップコドンTTA、TAG、及びTGAに対して「z」の文字を使用し、そして標準的ではないヌクレオチドを含むトリプレット(K、N、W、R、及びSなど)の全てについて「b」の文字を使用する。
3. 各翻訳された配列の英数字配列への変換(1の配列は、各リーディング・フレームに対応する)
我々のアルゴリズムにおける次のステップは、人工的に翻訳されたアミノ酸配列であって、ストップコドン(z)の停止を有するものを、英数字配列へと変換することである。出願人は、ペプチドライブラリー内の各重なり合うヘプタペプチドについてサーチし、対応する数を割り当て(出現回数)、そして英数字配列へと付け加えた。ヘプタペプチドが、ライブラリー内に存在しない場合、数字0を割り当てる。ヘプタペプチドが、開始コドンATG、GTG、及びTTGのいずれかに対応するアミノ酸で始まる場合、出願人は、英数字配列中に「s」という文字を付加する。これは、推定の開始コドンの位置を検出するために手助けとなろう。ヘプタペプチドが、文字「z」を含む場合、出願人は、そのヘプタペプチドに対して「*」という文字を付加する。こうして、英数字配列中の連続する7の「*」(*******)は、ストップコドンのシグナルである。出願人は、文字「b」を含むヘプタペプチドに文字「-」を付加する。当該シグナルは、非標準的なヌクレオチドの性質の存在を示し、そして遺伝子又は非遺伝子の一部である配列についての情報を伝えない。そうして、英数字配列は、こうして13文字、すなわち(0〜9)の整数、「s」、「*」、及び「-」のいずれかを含むように作成される。この方法では、出願人は、全ての6個の翻訳されたタンパク質ファイルを、6の英数字配列に変換する。
4. 人工ニューラル・ネットワーク(ANN)のトレーニング
ここで使用されるニューラル・ネットワークは、マルチレイヤー・フィードフォワード・トポロジーを有する。当該ニューラル・ネットワークは、1の入力層、1の隠れ層、及び出力層からなる。これは、各ニューロンiは、次の層の各ユニットjに接続されている「十分に接続された」ニューラル・ネットワークである(図2)。各接続の荷重は、Wijにより示される。入力層における各ニューロンの状態Iiは、入力データーから直接割り当てられる。一方、隠れ層ニューロンの状態は、シグモイド関数hj=1/(1+exp-λ(Wj0+ΣWiji))、[式中、Wj0はバイアス荷重であり、そしてλ=1である]を使用することにより計算される。
バックプロパゲーション・アルゴリズムは、計算された出力と所望の出力との間の差を最小化するために使用される。千回のサイクル(エポック)の繰返しが行われる。結果として、バリデーションの最小誤差を有するエポックが同定され、そして対応する荷重(Wij)が、ANNについての最終荷重として割り当てられる。トレーニング・セット上でのネットワークトレーニングは、誤りをチェックし、そしてバック・プロパゲーションを介したバリデーション・セットを使用して最適化する。
トレーニング・セットは、NCBIに記載されるE.コリ-k12の1610個のタンパク質コード遺伝子及びE.コリ-k12の3000個のORF(20超のアミノ酸長の配列であり、開始コドン、停止コドンを同じフレーム内に有する配列のストレッチ)であって、遺伝子として報告されなかったもの(非遺伝子)からなる。「バリデーション・セット」は、トレーニング・セットにおいて使用されたものとは異なるE.コリ-k12由来の1000の既知遺伝子及び1000の非遺伝子を有する。「試験セット」は、同じ生物由来の別の1000個の遺伝子及び1000個の非遺伝子を含む。ANNのトレーニングのため、遺伝子及び非遺伝子にそれぞれ1及び0の確率値(probability value)を割り当てる。
ニューラル・ネットワークをトレーニングするため、先ず出願人は、全てのE.コリ-k12遺伝子及び非遺伝子を、上記方法(ステップ2及び3)により対応する英数字の配列へと変換する。ここで、遺伝子に対応する英数字配列が、非遺伝子に対応する英数字配列に比較して数字が多いということを気づくことは重要である。英数字配列が数字を多く含むことを定量するため、英数字配列から得られる5個のパラメーターを選択した。これらの5個のパラメーターは以下の:
(i). トータル・スコア
英数字配列の整数の全ての代数和。大雑把に言えば、スコアが高くなると、遺伝子として適格である可能性が高くなる。
(ii). ゼロ率
ゼロ率は、英数字配列中の0の文字の総数を配列中の文字の総数により割ったものに等しい。ゼロ率が高くなると、遺伝子として適格である可能性が低くなる。
(iii). 平均
平均は、トータル・スコアを配列の全体の長さで割ったものに等しい。平均が高くなると、遺伝子として適格である可能性が多くなる。実際、このパラメーターは、トータル・スコアと同じであるように見えるが、平均は、配列の長さを取り込んだものであるので重要である(単位長さあたりのスコア)。
(iv). 分散
分散とは、ORF全体についての平均出現回数についての出現回数の分散である。
(v). 最大連続非ゼロストレッチの長さ
である。
このパラメーターの値が高くなると、遺伝子として適格である可能性が高くなる。例えば「45」といったの配列領域について検討すると、ここで、「4」は、ヘプタペプチドが4の生物において保存されたということを指し、そして続いて「5」は、5の生物において保存される重なり合うヘプタペプチドを指す。これらの2個のセットの間で、共通する少なくとも1の生物が存在する場合、最終的に出願人は、生物とクエリーORFとの間で共通するオクタペプチドを有する。これは、コード領域の予測における我々の信頼性レベルを高める。例えば、配列「s45467000000*******」は、配列「s40540607000*******」と比べた場合、より遺伝子である可能性が高い。これは、1個目の配列中において保存された長いペプチド・ストレッチの存在の可能性が高いからである。1個目の配列についての当該パラメーターの値は5であり、2個目の配列については2である。
英数字配列からパラメーターを計算する一方、「s」、「*」、及び「-」が文字は除かれた。
最適組合せを見つけるために、ニューラル・ネットワークは、5個のパラメーター全てを一緒に使用するようにトレーニングされる。遺伝子及び非遺伝子の英数字配列に対応するパラメーターが計算される。トレーニング、分散及び試験セットは、6個のカラムを含み、最初の5個のカラムは、5個のパラメーターの値を含み、そして最後のカラムは、遺伝子については数字の「1」を、そして非遺伝子については数字の「0」を含む。
入力層におけるニューロンの数は、入力するデーターポイントの数と同数であった。隠れ層におけるニューロンの最適数は、当該ネットワークについて最良のエポックで誤りを最小化する間に、適合と試行により決定された。5個のパラメーターの全てを計算する人工ニューラル・ネットワークについてのコンピューター・プログラムは、C言語で書かれ、そしてRed Hat Linux(登録商標)バージョン7.3又は8.0のPC上で実行される。
ANNのトレーニング(アルゴリズムのステップ4)は、一般的に1回のみ行われ、そして同じトレーニングされたニューラル・ネットワークは、原核生物ゲノムのいずれかについて当該方法を実行するために利用できる。出願人が、生物特異的トレーニング・セットを使用する場合、結果は、幾つかの場合改善されるが、不十分であろう。これは、我々の方法が、ORFの英数字配列の数字の分布に基づいて遺伝子を予測するためである。つまり、遺伝子予測は、トレーニング・セットよりは使用されるペプチドライブラリーにより左右される。
5. トレーニングされたANNを使用した遺伝子の解読
ペプチドライブラリーの作成(ステップ1)及びANNのトレーニング(ステップ4)が、本発明の方法を実行するための準備段階として考えられる一方、ステップ2及びステップ3は、各ゲノム配列についての命令段階である。ゲノムを6個のリーディングフレームの全てにコンピューターにより翻訳し、そしてそれらを6個の英数字配列へと変換させた後に、ANNを用いた遺伝子解析が実行される。当該ステップは、さらに以下の5個のサブ・ステップに分けることができる:
1. 6個の英数字配列の全てを、潜在的なORFに分け(全ての潜在的な断片は、「s」で始まり、「*」で終わる)
2. 5個のパラメーター(トータル・スコア、ゼロ率、平均、分散、及び最大連続非ゼロストレッチの長さ)の全てを、全ての潜在的なORF(「s」と「*」との間の英数字の鎖配列の全て)について計算し、
3. トレーニングされたANNを使用して、与えられた英数字の鎖に対応するORFがタンパク質コード遺伝子であるという可能性を計算し、
4. カットオフ確率値を使用することにより、タンパク質コードORFを非コードORFからから除外し、
5. 包含されたタンパク質コード領域の全てを取り除く(Shibuya、T.及びRigoutsos, i., 2002)
2個のORFが、異なる翻訳フレームにおいて予測され、その結果一つの範囲が、完全にもう一方を含む場合、それらのうちの1つのみが、実際の遺伝子であると通常信じられている。この場合、出願人は、遺伝子としての高い確率値を有するORFを報告する。同じ確率値の場合、出願人は、長いORFを遺伝子として取り扱う。
本発明の方法は、タンパク質コード領域であるクエリーORFに一致する確率値を予測する。ANNのトレーニングを、シグモイド学習関数 =1(遺伝子について確率「1」であり、そして非遺伝子について「0」である)を使用して行い;その結果、この確率値は多くの場合、0.1以下又は0.9超になる。このため、0.1〜0.9の間のカットオフ値のいずれかは、かなり似たような結果をもたらす。我々の分析では、出願人は、デフォルトのカットオフ値0.5を使用する。当該方法が、感受性及び特異性との交換を必要としないということに注目することは重要である。なぜなら、カットオフ確率の選択は、結果に重要な因果関係を有さないからである。
別の、そして更なる態様では、本発明の特徴及び利点は、開示の目的のため与えられた本発明の現在の好ましい実施態様についての以下の記載から明らかであろう。
コンピューター・プログラムの簡単な記載
1.ファイル名:genedcodchr.cxx
アプリケーション:ヌクレオチド配列(FASTAファイル形式)を6個のそれぞれのフレームにける6の仮定上のポリペプチドへの翻訳
入力形式 :<Program_name> <Nucleotide_file> <Output1> <Output2> <frame>
例 :./genedcodchr ecoli.fna pf1 pr1 0
出力形式 :AGTFYRYmGHVNMKIYTASLPTYRYGYFSHRED.....HGOIEKSDWEzDFGTRE
2.ファイル名:searchchr.cxx
アプリケーション:(入力として与えられる)ヘプタペプチド・ライブラリーサーチを介した、ポリペプチド・ファイルの英数字配列への変換
入力形式 :<Program_name> 7 <peptide library file name> out Y <Input1> <Input2> <Output1> <Output2>
例 :./searchchr 7 ecoli.peplib out Y pf1 pr1 bf1 br1
出力形式 :s1124500001090003000020000023000000000*******0001000.....
3.ファイル名:cutf.c
アプリケーション:フォワード鎖の英数字配列からの潜在的なORF(つまり「s」〜「*」の全領域を切り出し、そして英数字配列において「s」の全ての位置を含むファイルを作る
入力形式 :<Program_name> <Input file name> <Output1> <Output2>
例 :./cutf bf1 unknown_bf1 bf1_location
出力形式 :出力1-s1111000s00000000563*、出力2-カラム中の「s」の開始位置
4.ファイル名:cutr.c
アプリケーション:リバース鎖の英数字配列から、全ての潜在的なORF(つまり、「s」〜「*」の全領域を切り出し、そして全てのORFに対応する全ての3個のフォワード・フレームについての英数字配列中の開始位置を含むファイルを作り出す
入力形式 :<Program_name> <Input file name> <Output1> <Output2>
例 :./cutr br1 unknown_br1 br1_location
出力形式 :出力1-*010340000222200067900000s000001000200s00230000s、出力2-「s」の開始位置
5.ファイル名:stat.c
アプリケーション:5個のパラメーター:ゼロ率、平均、トータル・スコア、最大連続ストレッチの長さ、及び与えられた英数字配列についての分散 を計算する。
入力形式 :<Program_name> <Input file name> <Output>1
例 :./stat unknown_bf1 bf1.data 1
出力形式 :0.334 3.2 48 15 0.452 1
6.ファイル名:train.c
アプリケーション:フィードフォワードバックプロパゲーションアルゴリズムを用い、そしてシグモイド(=1)を学習関数として使用する人工ニューラル・ネットワーク(1の隠れ層、1の入力層、及び1の出力層)のトレーニング
入力形式 :<Program_name> <Input specification file name> <Input1> <Input2> <Input3>>output
例 :./train train.spec.fast trainset.data validateset.data testset.data >train.net
出力形式 :1のカラム内に最終ニューラル・ネットワーク荷重を含む出力
7.ファイル名:recognize.c
アプリケーション:トレーニングされた荷重に基づく所定のパターンの認識と、出力としての確率値の作成
入力形式 :<Program_name> <Input specification file name> <Input1> <Input2> <Output>
例 :./recognize recognize.spec bf1.data train.net f1.out
出力形式 :pat1 probability <value>
8. ファイル名:Filter_prediction.c
アプリケーション:確率及び長さのパラメーターに基づく同じフレーム中における完全に重なるORFを取り除く
入力形式 :<Program_name> <Input1> <Input2> <Output>
例 :./Filter_prediction f1.out unknown_bf1 bf1.out.res
出力形式 :pat1 probability <value> <integer string>
9. ファイル名:locationf.c
アプリケーション:20未満のアミノ酸長の遺伝子を取り除き、そして残っているものの開始位置を、3個のフォワード・フレームの全てについての英数字配列で報告する
入力形式 :<Program_name> <Input1> <Output> <Input2>
例 :./locationf bf1.out.res bf1.out.res1 bf1_location
出力形式 :<Pattern No> <Probability value> <integer string> <Start> <End>
10. ファイル名:locationr.c
アプリケーション:20アミノ酸未満の長さの遺伝子を取り除き、そして残っているものの開始位置を、3個のリバース・フレームの全てについての英数字配列で報告する。
入力形式 :<Program_name> <Input1> <Output> <Input2>
例 :./locationr br1.out.res br1.out.res1 br1_location
出力形式 :<Pattern No> <Probability value> <integer string> <Start> <End>
11. ファイル名:finalf.c
アプリケーション:3個のフォワード・フレームについて、英数字配列の開始位置及び終端位置を、対応するゲノム位置へと変換する
入力形式 :<Program_name> <Input1> <Input2> <Input3> <Output>
例 :./finalf bf1.out.res1 bf2.out.res1 bf3.out.res1 Final_outputf
出力形式 :<Start> <End> <frame> <length> <Probability value> <integer string>
12.ファイル名:finalr.c
アプリケーション:3個のリバース・フレームについて、英数字配列の開始位置及び終端位置を、対応するゲノム位置へと変換する
入力形式 :<Program_name> <Input1> <Input2> <Input3> <Output>
例 :./finalf br1.out.res1 br2.out.res1 br3.out.res1 Final_outputr
出力形式 :<Start> <End> <frame> <length> <Probability value> <integer string>
13.ファイル名:sort.c
アプリケーション:ゲノム開始位置に沿って、最終的に予測された遺伝子を降順にプリントする
入力形式 :<Program_name> <Input1> <Input2> <Input3> <Output>
例 :./sort Final_outputf Final_outputr OUTPUTF_with_encap OUTPUTR_with_encapOUTPUT
出力形式 :<Start> <End> <Probability value>
14.ファイル名:removeencap.c
アプリケーション:他の5個のフレーム中に見られる含まれた遺伝子を取り除く
入力形式 :<Program_name> <Input1> <Input2><input3> <Output>
例 :./removeencap OUTPUTF_with_encap OUTPUTR_with_encap OUTPUT OUTPUTF OUTPUTR
出力形式 :<Start> <End> <frame> <length> <Probability value> <integer string>
本発明は薬剤標的として有用なタンパク質コーディングDNA配列を予測する新規のコンピューターに基づく方法に関する。当該方法において、オリゴペプチド・シグネチャ-の存在は、プローブとして使用された。当該方法は、汎用的であり、そして人工ニューラル・ネットワークに対して生物特異的トレーニング・セットを必ずしも必要としない。当該方法は、統計的分析に依存するばかりでなく、進化の選択圧に耐えてきた保存されたペプチド中に保持される生物学的情報と統合する。当該方法の論理的延長は、真核生物ゲノム中でタンパク質コーディングDNA配列(エキソン)を予測することであろう。
名前、株、受諾番号、及び他の詳細を含む本発明について使用される生物の詳細は、以下に与えられる。
Figure 0004495166
以下の実施例は、本発明の例示する方法により与えられ、そして本発明の範囲を制限するように解釈すべきではない。
実施例1
DNA配列の英数字配列への変換
我々のソフトウェアにおける当該モジュールの目的は、クエリーゲノム全体を、規定のコドン表を使用して6個全てのリーディングフレームにコンピューター翻訳することである。出願人は、人工的にゲノムを翻訳する間、TTA、TAG、及びTGAに対応して文字「z」を使用し、そして非標準的ヌクレオチド(K、N、W、R、及びSなど)のいずれかを含むトリプレットの全てに対して文字「b」を使用した。続いて、翻訳されたゲノム配列を、コンピューターにより英数字配列([0-9」、「s」、「*」、及び「-」)へと変換した。出願人は、ペプチドライブラリー中の重複ヘプタペプチドの各々をサーチし、対応する数字(出現回数)を割り当て、そしてそれに英数字配列を付加した。ヘプタペプチドが、ライブラリー内に存在しないならば、出願人は数字0を割り当てる。ヘプタペプチドが開始コドンATG、GTG、及びTTGのいずれかに対応するアミノ酸で始まる場合、出願人は、文字「s」を英数字配列に付加した。これは、推定の開始コドンの位置を検出するのに役に立つであろう。ヘプタペプチドが文字「z」を含む場合、出願人は、そのヘプタペプチドに対して文字「*」を付加する。こうして、英数字配列中の連続する7個の「*」(*******)は、ストップコドンのシグナルである。出願人は、文字「b」を含むヘプタペプチドについて、文字「-」を付加する。これは、非標準ヌクレオチド特性の存在を示唆する。
前述の変換は、さらに以下の6個の配列の助けを借りてさらに詳しく説明される。
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
実施例2
人工ニューラル・ネットワークのトレーニング
当該ソフトウェアにおける本モジュールの目的は、設計されたニューラル・ネットワーク(図2)を、指定された遺伝子番号及び非遺伝子番号でトレーニングすることである。本実施例では、トレーニング・セットは、NCBIがタンパク質コード遺伝子として挙げている1610個のE.コリ-k12遺伝子及び遺伝子として報告されていない(非遺伝子の)3000個のE.コリ-k12ORFからなる。バリデーション・セットは、トレーニング・セットにおいて使用されたものとは異なるE.コリ-k12由来の1000個の既知遺伝子と1000個の非遺伝子を有する。試験セットは、同じ生物由来の1000個の遺伝子と1000こ非遺伝子を含む。ANNのトレーニングのため、遺伝子及び非遺伝子は、それぞれ1と0の確率値を割り当てる。ニューラル・ネットワークをトレーニングするために、第一に、出願人は、全てのE.コリ-k12遺伝子及び非遺伝子を、上記方法により対応する英数字鎖へと変換する(ステップ2及び3)。英数字配列形式において2個のE.コリ-k12遺伝子及び2個の非遺伝子のサンプルを図3に示す。ここで、遺伝子に対応する英数字配列が、非遺伝子に対応する英数字配列に比較して数字に富むということに注目することは重要である。これは、我々の仮説を支持する。英数字配列の数字の多さを定量するために、英数字配列から得た5個のパラメーターを選択した。これらの5個のパラメーターは以下:
トータル・スコア(与えられた英数字配列内の整数の全ての代数和)、
ゼロ率(英数字配列中の0の文字の総数を、当該配列中の文字の総数で割ったもの)、
平均(トータル・スコアを当該配列の全長で割ったもの)
分散(全体のORFについての平均出現回数に対する出現回数の分散である)
最大連続非0ストレッチの長さ(中断されていない0でない数の配列中の占有率を示す)
のとおりであり、表1(a)及び1(b)に記載される。
Figure 0004495166
Figure 0004495166
英数字配列からこれらのパラメーターを計算する間、文字「s」、「*」、及び「-」が除外された。非遺伝子から遺伝子を区別することに対する各パラメーターの貢献を決定するために、ニューラル・ネットワークは、5個の全てのパラメーターを同時に使用してトレーニングされる。遺伝子及び非遺伝子の英数字配列に対応するパラメーターが計算される。トレーニング、バリデーション、及び試験セットは、6個のカラムを含み、最初の5個のカラムは5個のパラメーターの値を含み、そして最後のカラムは遺伝子について「1」を、非遺伝子について「0」を含む。
実施例3
出願人は、本発明の方法を使用して10個の原核生物ゲノムを分析した。当該方法の効率は、当該方法により予測されたタンパク質コード領域であって、NCBIに記載されたものの割合として定義された。包含されたタンパク質コード領域の全ては、特異的に開発されたプログラムにより自動的に除外された。当該方法は、NCBIに記載される遺伝子の平均92.7%を、2.8%の標準偏差で予測することができる。当該方法の感度及び特異性の値の両方は、M.ツベルクロシスH37RVゲノムを除いて高い(図3に示される)。
実施例4
タンパク質コーディングDNA配列の開始部位の予測
本発明の方法における正確な開始部位の予測率は、M.ツベルクロシスH37Rvにおいて49.5%(特異性が最も少ない)からH.ピロリ26695において81.1%へと変化する。出願人の方法は、開始コドンの存在と周囲のヘプタペプチドの保存性に基づいて開始位置を決定する。当該方法は、他の方法により予測されたクエリータンパク質コードDNA配列の開始部位を予測するために利用することができる。これは、単純にタンパク質配列を対応する整数配列へと変換し、次に周囲のヘプタペプチドに基づいて有効な開始部位「s」を決定することにより行うことができる。出願人は、E.コリK-12ゲノムからそうした3個の場合を報告し(フォワードストランドから2個、そしてリバースストランドから1個)、開始部位の予測を例示する(以下に示される)。
開始部位の予測において、数に富むこととORFの長さとの間のトレードオフが存在する。ケース1(PID16132273)において、遺伝子の開始位置は、NCBIにより85540から85630へと移された。当該遺伝子に対応する整数配列の視覚による検討により、従来の「s」の後の領域は0で満たされており、つまり言い換えると数字に富む領域ではない(以下に記載のケース1の太字領域)。現在では開始部位はシフトし、その結果、開始部位は本発明の方法により予測される数字に富む領域の前に存在する。ケース2は、開始コドンの5’上流へのシフトの例である。なぜなら、開始コドンの上流に数字に富む領域が存在するからである(「2011111」及び1の「3」及び1の「2」)。そうして、開始部位は位置4611194から4611050へとシフトした。ケース3は、従来のNCBI開始位置の上流に数字に富む領域が存在するリバースストランドにおける開始部位のシフトの例である(「16531311」及び多くのほかの数字が鎖の中に存在する)。
Figure 0004495166
Figure 0004495166
実施例5
タンパク質コーディングDNA配列の予測
当該方法は、以下のステップ:
i) http://www.ncbi.nlm.nih.govで利用できる選択された生物のタンパク質配列の全てから、重複ペプチドをコンピューターにより作成し、
ii) 上で得られた長さ「N」のペプチドを、一文字アミノ酸コードに従って、アルファベット順に分類し、
iii) 全てのペプチド及びその固有の出現の違いの生物の目録を作り、
iv) ステップ1及び2から得られるペプチドライブラリーを使用して、DNA配列を英数字配列に変換し、
v) 英数字配列から全ての潜在的なオープン・リーディング・フレーム(ORF)を取り出し、
vi) タンパク質コードDNA配列及び非コードDNA配列を区別するために、改良型ニューラル・ネットワークをトレーニングし、
vii) トレーニング済みニューラル・ネットワークを使用して、オープン・リーディング・フレーム内のDNAをコードする配列を予測し(ステップ4において得られる)、
viii) 封入されたタンパク質コーディングDNA配列を (遺伝子内の遺伝子)を取り除く
を利用することにより、公に利用できるデーターベース(NCBI)において、様々なゲノムについてタンパク質コーディングDNA配列を予測するために利用される。
本発明のステップを使用して、発明者は、以下の表2に記載されるようにSARS-コロナ・ウイルス、H.インフルエンザ、M.ツベルクロシス、及びH.ピロリから選択される生物のゲノムから、新たな169個の遺伝子を開示した。表2は、配列番号1〜配列番号169の配列における新規遺伝子を提供する。
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
GeneDecipherの系統についての感度及び特異性分析は、10の微生物ゲノムについて行われた(図3)。ウイルスゲノムについてのGeneDecipherによる更なる分析は、本明細書中に提示されている。
SARS-CoVゲノム配列:
GenBankデーターベース(http://www.ncbi.nlm.nih.gov/Entrez/genomes/viruses)に利用できる18種のSARS-CoV株の配列をダウンロードし、そして分析した。これらは、
Figure 0004495166
を含む。タンパク質コード遺伝子に関する他の情報を、http://www.ncbi.nlm.nih.gov/genomes/SARS/SAks.htmlから得た。
ウイルスゲノムについてのGeneDecipherの試験:
ウイルスゲノムについて我々の方法を試験するため、出願人は、最初にヒト呼吸器合胞体ウイルス(HRSV)を分析し、そしてGeneDecipherを使用してゲノムを完結した。GeneDecipherの結果を、従来技術のZCURVE_CoVの状態と比較を行った(表3)。ZCURVE_CoVは、NCBIで報告された11のうち、8個のアノテーション付きタンパク質を、擬陽性なしで予測できる。ZCURVE_CoVは、以下の3個の遺伝子を予測できなかった:PID9629200(位置626〜1000、非構造タンパク質2(NS2));PID9629205(位置4690〜5589、結合性糖タンパク質(G)));及びPID9629208(位置8171〜8443、マトリックスタンパク質2(M2))。GeneDecipherは、全部で11のうち10のアノテーション付きタンパク質を、擬陽性なしで予測した。GeneDecipherにより得ることができなかった遺伝子は、PID9629208(位置8171〜8443、マトリックスタンパク質2)であり、これはZCURVE_CoVによっても明らかに得ることができなかった。
HRSVゲノムにおけるタンパク質コード領域の予測の成功は、新たにシーケンスされたSARS-CoVゲノム上でタンパク質コード領域を予測するための我々の自信を増加させる。
Genedecipherを使用したSARS-CoVの分析:
出願人はGeneDecipherを使用して、SARS-CoVの18株全てを分析した(詳細な結果は、上記ウェブサイト上で利用できる)。GeneDecipherは、SARS-CoVゲノム中にて全体で15のタンパク質コード領域を予測し、それらは、ポリタンパク質1a、1ab(Sars2628のポリタンパク質1abのC末端)、及び18株の各々について知られている4個の構造タンパク質(M、N、S、及びE)を含む。GeneDecipherはまた、使用される株のゲノム配列に基づいた6〜8の更なるコード領域を予測する。これらのさらなるコード領域の全長は、61〜274アミノ酸の間で変化した。
GeneDecipherは、18株全てについて共通である12個のコード領域を予測し(表4)、そして5株に存在する1のコード領域(NCBIrefseqゲノムでSars63、Sars6)を予測する。GeneDecipherは、GZ01株におけるSars90遺伝子を予測し、そしてBJ02株特異的なSars154(NCBIrefseqゲノムではSars3b)を予測する。
これらの12の共通のタンパク質コード領域は、6の基本的なSARS-CoVのタンパク質(2個のポリタンパク質及び4個の構造タンパク質);Sars274(NCBIrefseqデーターベースでSars3a)、Sars122(NCBIrefseqデーターベースでSars7a)、Sars78(TOR2株において、シフトした開始点を有するORF14/Sars9cとして報告されている);及び3個の新たに予測された(現在のNCBIアノテーションに関していうと擬陽性の)タンパク質コード領域Sars174、Sars68、及びSars61からなった。三個の新たに予測された遺伝子は、ポリタンパク質1aゲノム領域内に完全に存在する。我々の方法は、細菌ゲノム中のかかる遺伝子を捨てるけれども、ウイルスゲノム中にかかる遺伝子を見出す可能性は除外されなかった。これらの遺伝子は、18株の全てにおいて存在するので、これらは、タンパク質コード遺伝子である可能性がある。
出願人は、上記12の遺伝子とは別に、さらに3個のコード領域、Sars63、Sars154、及びSars90を予測する。Sars63は、5株において同定され、そして残りの13株では同定されなかった。当該コード領域は、既にNCBIrefseq(Sars6)に報告されている。ここで、出願人は、Sars63(NCBIrefseqでSars6)の存在について多くコメントできない。なぜなら、Sars63は、5株において同定され、そして残りの13株で同定されないからである。これは、当該領域において非同義突然変異が高密度で存在するためである。2個のコード領域Sars154(NCBIでsars3b)、及びSars90(GZ01株において新たに予測された)は、1の株についてのみ同定される。これらの2個のコード領域は、1の株のみにおいて同定されるので、これらは、ZCURVE_CoV分析(Chenら、2003)により提案されているように、タンパク質コード領域である可能性は低い。ことなる株におけるこれらの3の遺伝子の位置は、表5に提供される。
ペプチドライブラリーが、種々の生物のゲノム配列から作られるので、与えられたタンパク質の進化的な起源を追跡することができる。当該タンパク質が、ウイルスゲノム中に存在することがわかっているヘプタペプチドを多く含む場合、当該タンパク質は、ウイルス起源であると考えられる。出願人は、5個のコアタンパク質(2個のポリタンパク質及び3個の構造タンパク質、M、N、及びS)がウイルス起源であることを発見した。3個の新たな予測を含む残りは、原核生物起源である。出願人が、同じDNA領域から、異なるフレームで、異なる起源由来のペプチドを含むタンパク質を得ることは関心が高い。ここで、同じDNA配列が、どのように生物起源及びウイルス起源の両方をコードできるかは興味深い。これは、これらの新たなタンパク質コード遺伝子が、他の既知ウイルスゲノム配列に対するホモロジーに基づく従来の試行で検出されなかった理由を説明するかもしれない。
従来のシステム-ZCURVE_CoVとの比較:
GeneDecipher、Zcurve_CoVの結果と、SARS-CoVのUrbani株及びTOR2株についての既知のアノテーションとの比較を表6aと6bに示す。
一般的に、GeneDecipherの結果は、既知のアノテーションと十分一致している。Urbani株の場合、GeneDecipherは、Sars84(X5)、Sars63(X3)、及びSars154(X2)を除く既知の遺伝子の全てを予測する。Sars84(X5)及びSars63(X3)は、ZCURVE_CoVによりサポートされるが、一方Sars154(X2)は、いずれの方法によっても予測されない。GeneDecipherは、当該株において4の新たな遺伝子であって、ZCURVE_CoVによりサポートされない遺伝子を予測する。これらの4個の遺伝子のうちSars78が、TOR2株についてORF14/Sars9cとして既に知られているということは注目すべきである。これは、当該遺伝子がUrbani株に存在する可能性を支持する。しかしながらZCURVE_CoVは、GeneDecipherによりサポートされない2の新たな遺伝子を予測する。
TOR2株についてのGeneDecipher予測は、Urbani株についての予測と同一である。この株では、GeneDecipherは、9の既知遺伝子を予測するが、既知のアノテーションを有する6個の遺伝子を予測することを失敗する。これらの6個の遺伝子は:Sars154(ORF4)、Sars98(ORF13)、Sars63(ORF7)、Sars44(ORF9)、Sars39(ORF10)、及びSars84(ORF11)である。これらの中で、Sars154(ORF4)及びSars98(ORF13)は、ZCURVE_CoVによっても見逃されている。Sars44(ORF9)及びSars39(ORF10)は、長さがかなり短いORFであり(それぞれ、44及び39アミノ酸)、そして様々なSARS株に渡って一致していないということに注目すべきである。Sars63(ORF7)は、GeneDecipherにより、5のほかの株において予測されたが、本明細書中で考慮された2の株においては予測されなかった。
突然変異分析:
18株全てにわたりSars174、Sars68、及びSars61をコードする新たに予測されたタンパク質について、複数の配列アライメント(ClustalW)を使用した分析は、
1. Sars68は、SIN2677株において、80位にてGAT→GGT(D→G)の一箇所の点突然変異を有し、
2. Sars174は、GZ01株において204位にてCGA→CGCへの、そしてBJ04株において447位にてCTG→CTTへのアミノ酸変化のない点突然変異を有し、
3. Sars61は、GZ01株において、119位にてCTG→CAG(L→Q)への一箇所の点突然変異を有する
を示す。
これらの新たに予測された3個の遺伝子は、重大な突然変異なしに18株全てにおいて存在し、そして非冗長データーベースにおいてBLSTPで重要なヒットを有さない。これは、これらの3個のタンパク質がSARS-CoVに特異的な重大な生物学的機能を有しうるということを指し示す。その結果、これらのコード配列は、SARSに対する薬剤標的候補として役に立ち得る。
機能付与:
まとめると、本出願人は、SARS-CoVにおいて15個のコード領域を予測し、その中で、四つの構造タンパク質(M、N、S、及びE)の機能は、既に割れ当てられた。ポリタンパク質1abは、レプリカーゼ活性のみを割り当てられたが、我々の分析は、当該レプリカーゼ活性が、Sars2628(ORF1abのC末端)断片と関連するということを示唆する。全長1abポリタンパク質は、6の機能的なシグネチャーを含み、その中でポリタンパク質laは、代謝酵素(表7a)と関連するシグネチャーを含む。少なくとも5の異なる生物中で類似の機能を有するタンパク質中に存在するペプチド(7以上のアミノ酸長)に基づいて、機能がポリタンパク質に割り当てられた。他の予測された遺伝子/タンパク質コード領域は、より少ないゲノム中に存在するペプチドを含む。これらのペプチドに基づいて出願人は機能を提案するが、低い信頼性しか有さなかった(表7b)。これらの発見についての生物学的関連は、依然として検討されないままである。
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
上の記載から、出願人は、SARS-CoVにおいてSars78を含む4個の新しい遺伝子を開示した。当該分析は、さらに、ORF・Sars154(Sars3bとしてRefseqに記載される)が、コード領域ではないようであるというZCURVE_CoV(Chenら、2003)の発見を裏付ける。出願人は、2個のポリペプチド1abとlaに機能を割り当てた。1abポリタンパク質のC末端の複製関連機能に加えて、出願人の分析は、ポリタンパク質laが、代謝酵素様機能と関連しうるということを示唆する。全てにおいて、6個のペプチド・シグネチャーは、GeneDecipherにより新たに予測されるタンパク質を含む他の9個のタンパク質についての推定の機能を示唆した。
利点:
1. 本発明の主要な利点は、リボソーム結合部位、プロモーター配列、転写開始部位、又はコドン利用バイアスなどの外部の証拠を使用することなく、タンパク質コーディングDNA配列を予測する新たな方法を提供することである。
2. タンパク質コーディングDNA配列の統計分析方法であって、進化の選択圧に耐えた保存されたペプチド中に保持される生物学的情報を利用する方法を提供する。
3. タンパク質コード遺伝子の開始部位の簡単な予測方法を提供する。
4. 生物特異的、株特異的タンパク質コーディングDNA配列を検出する方法を提供する。
5. 潜在的な薬剤標的として使用しうる新規のタンパク質コーディングDNA配列を提供する。
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
Figure 0004495166
図1はGeneDecipherの論理回路を示す。 図2は、ニューラル・ネットワークのアーキテクチャを示す。 図3は、10の生物についてのGeneDecipherの結果の分析を示す。

Claims (7)

  1. オリゴペプチドを用いて、タンパク質をコードするDNA配列を同定するコンピューターに基づく方法であって、以下のステップ:
    a. 既知のゲノム内のタンパク質配列をコードする領域から選択されるオリゴペプチドを含むペプチドライブラリーデーターであって、当該ペプチドライブラリーが、鎖長「N」のオリゴペプチド及び既知ゲノムにおけるその出現回数を含み、ここで当該Nの値が4以上である上記データーをコンピューターにより作成する工程;
    b. 翻訳されたゲノムから得られたポリペプチド配列を、英数字配列にコンピューターにより変換する工程であって、当該英数字配列が、既知のタンパク質をコードする配列に対応する領域、並びに既知のタンパク質をコードしないDNA配列に対応する領域を含み、これにより各ORFに対応する1の英数字配列を提供し、ここで当該英数字配列は、既知のゲノムから得たポリペプチド配列内のペプチドライブラリーの各オリゴペプチドの出現回数により決定される工程;
    c. シグモイド学習関数を用いてコンピューターにより人工ニューラル・ネットワーク(ANN)をトレーニングして、既知のゲノムにおける既知のタンパク質をコードするDNA配列に対応する英数字配列の領域、及び当該既知のゲノムにおける既知の非コード領域に対応する英数字の配列の領域を学習させる工程;
    d. コンピューターにより試験ゲノムを翻訳して、各ORFにおけるポリペプチド配列を取得する工程;
    e. コンピューターにより上記試験ゲノムから得たポリペプチド配列を、英数字配列に変換し、それにより各ORFに対応する1の英数字配列を提供する工程であって、ここで当該英数字配列が、当該試験ゲノムから得たポリペプチド配列の中における上記ペプチドライブラリーの各オリゴペプチドの出現回数により決定される工程;
    f. 当該トレーニング済みのANNを用いてタンパク質をコードするDNA配列に対応する試験ゲノムの英数字配列の領域を同定する工程;及び
    g. 試験ゲノムにおいて同定されたタンパク質をコードするDNA配列を、使用者に通知する工程
    を含み、ここで当該工程の全てがコンピューター上で行われる、前記方法。
  2. 前記人工ニューラル・ネットワークが、1以上の入力層、様々な数のニューロンを有する1以上の隠れ層、及び1以上の出力層を有する、請求項1に記載の方法。
  3. 前記隠れ層におけるニューロンの数が、30である、請求項1に記載の方法。
  4. 前記「N」の値が4以上である、請求項1に記載の方法。
  5. 前記シグモイド学習関数が、トータル・スコア、平均、ゼロ率、最大連続非ゼロストレッチ、及び分散を含む5個のパラメーターを有する、請求項1に記載の方法。
  6. 前記遺伝子同定方法が、非限定的にH.インフルエンザ(H. influenzae)、M.ゲニタリウム(M. genitalium)、E.コリ(E. coli)、B.サブチリス(B. subtilis)、A.フルギジス(A. fulgidis)、M.ツベルクロシス(M. tuberculosis)、T.パリダム(T. pallidum)、T.マリチマ(T. maritima)、シネコ・シスチス(Synecho cystis)、H.ピロリ(H. pylori)、及びSARS-CoVなどのゲノムを含む他のゲノムのORFにおいて存在することが分かっているオリゴペプチドを使用する、請求項1に記載の方法。
  7. 前記ペプチドライブラリー・データーが、H.インフルエンザ(H. influenzae)、M.ゲニタリウム(M. genitalium)、E.コリ(E. coli)、B.サブチリス(B. subtilis)、A.フルギジス(A. fulgidis)、M.ツベルクロシス(M. tuberculosis)、T.パリダム(T. pallidum)、T.マリチマ(T. maritima)、シネコ・シスチス(Synecho cystis)、H.ピロリ(H. pylori)、及びSARS-CoVからなる群から選ばれる生物から取得される、請求項1に記載の方法。
JP2006542030A 2003-12-05 2004-01-09 薬剤標的として有用なタンパク質コーディングdna配列の同定のためのコンピューターに基づく汎用的方法 Expired - Lifetime JP4495166B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US72798903A 2003-12-05 2003-12-05
PCT/IB2004/000453 WO2005057464A1 (en) 2003-12-05 2004-01-09 A computer based versatile method for identifying protein coding dna sequences useful as drug targets

Publications (2)

Publication Number Publication Date
JP2007512829A JP2007512829A (ja) 2007-05-24
JP4495166B2 true JP4495166B2 (ja) 2010-06-30

Family

ID=34677125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006542030A Expired - Lifetime JP4495166B2 (ja) 2003-12-05 2004-01-09 薬剤標的として有用なタンパク質コーディングdna配列の同定のためのコンピューターに基づく汎用的方法

Country Status (9)

Country Link
US (1) US20050136480A1 (ja)
EP (1) EP1690207B1 (ja)
JP (1) JP4495166B2 (ja)
CN (1) CN100570620C (ja)
AU (1) AU2004297721B9 (ja)
CA (1) CA2548496A1 (ja)
DE (1) DE602004029391D1 (ja)
IL (1) IL176125A (ja)
WO (1) WO2005057464A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7424370B2 (en) 2004-02-06 2008-09-09 Council Of Scientific And Industrial Research Computational method for identifying adhesin and adhesin-like proteins of therapeutic potential
US7532664B2 (en) * 2004-08-02 2009-05-12 Nokia Corporation Method and apparatus to estimate signal to interference plus noise ratio (SINR) in a multiple antenna receiver
US10957421B2 (en) 2014-12-03 2021-03-23 Syracuse University System and method for inter-species DNA mixture interpretation
JP6533415B2 (ja) * 2015-06-03 2019-06-19 株式会社日立製作所 系統樹を構築する装置、方法およびシステム
GB201607521D0 (en) * 2016-04-29 2016-06-15 Oncolmmunity As Method
US11250327B2 (en) 2016-10-26 2022-02-15 Cognizant Technology Solutions U.S. Corporation Evolution of deep neural network structures
US11507844B2 (en) 2017-03-07 2022-11-22 Cognizant Technology Solutions U.S. Corporation Asynchronous evaluation strategy for evolution of deep neural networks
US11250314B2 (en) 2017-10-27 2022-02-15 Cognizant Technology Solutions U.S. Corporation Beyond shared hierarchies: deep multitask learning through soft layer ordering
EP3724819A4 (en) 2017-12-13 2022-06-22 Cognizant Technology Solutions U.S. Corporation SCALABLE ARCHITECTURES FOR THE EVOLUTION OF DEEP NEURAL NETWORKS
US11182677B2 (en) 2017-12-13 2021-11-23 Cognizant Technology Solutions U.S. Corporation Evolving recurrent networks using genetic programming
US11527308B2 (en) 2018-02-06 2022-12-13 Cognizant Technology Solutions U.S. Corporation Enhanced optimization with composite objectives and novelty-diversity selection
WO2019157257A1 (en) 2018-02-08 2019-08-15 Cognizant Technology Solutions U.S. Corporation System and method for pseudo-task augmentation in deep multitask learning
CN108681658B (zh) * 2018-05-22 2021-09-21 贵州医科大学 一种优化外源基因在大肠杆菌中翻译速度的方法
US11481639B2 (en) 2019-02-26 2022-10-25 Cognizant Technology Solutions U.S. Corporation Enhanced optimization with composite objectives and novelty pulsation
CA3129731A1 (en) 2019-03-13 2020-09-17 Elliot Meyerson System and method for implementing modular universal reparameterization for deep multi-task learning across diverse domains
US11783195B2 (en) 2019-03-27 2023-10-10 Cognizant Technology Solutions U.S. Corporation Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions
CN110058943B (zh) * 2019-04-12 2021-09-21 三星(中国)半导体有限公司 用于电子设备的内存优化方法和设备
US12026624B2 (en) 2019-05-23 2024-07-02 Cognizant Technology Solutions U.S. Corporation System and method for loss function metalearning for faster, more accurate training, and smaller datasets
CN110970090B (zh) * 2019-11-18 2021-06-29 华中科技大学 一种用于判断待处理多肽与阳性数据集肽段相似度的方法
US11149320B1 (en) 2020-03-31 2021-10-19 Diasorin S.P.A. Assays for the detection of SARS-CoV-2
IT202000006754A1 (it) 2020-03-31 2021-10-01 Diasorin S P A Saggi per la rivelazione di SARS-CoV-2
US12099934B2 (en) * 2020-04-07 2024-09-24 Cognizant Technology Solutions U.S. Corporation Framework for interactive exploration, evaluation, and improvement of AI-generated solutions
CN111471088B (zh) * 2020-04-21 2021-02-09 北京中科微盾生物科技有限责任公司 一种抑制sars-cov-2感染的多肽、组合物及其用途
WO2021222633A2 (en) * 2020-05-01 2021-11-04 Board Of Regents, The University Of Texas System Methods for treating covid-19
US20210392133A1 (en) * 2020-06-10 2021-12-16 Bank Of America Corporation Dynamic Authentication Control System
US11775841B2 (en) 2020-06-15 2023-10-03 Cognizant Technology Solutions U.S. Corporation Process and system including explainable prescriptions through surrogate-assisted evolution
JP6843457B1 (ja) * 2020-10-23 2021-03-17 NUProtein株式会社 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム
CN114400049B (zh) * 2022-01-17 2024-06-07 腾讯科技(深圳)有限公司 肽段定量模型的训练方法、装置、计算机设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69333422T2 (de) * 1992-07-31 2004-12-16 International Business Machines Corp. Auffindung von Zeichenketten in einer Datenbank von Zeichenketten
US5989811A (en) * 1994-09-29 1999-11-23 Urocor, Inc. Sextant core biopsy predictive mechanism for non-organ confined disease status
US5845049A (en) * 1996-03-27 1998-12-01 Board Of Regents, The University Of Texas System Neural network system with N-gram term weighting method for molecular sequence classification and motif identification
JP3149824B2 (ja) * 1997-08-20 2001-03-26 東亞合成株式会社 記号列の特徴顕在化方法
US7031843B1 (en) * 1997-09-23 2006-04-18 Gene Logic Inc. Computer methods and systems for displaying information relating to gene expression data
US7657378B1 (en) * 2000-03-30 2010-02-02 Council Of Scientific & Industrial Research Computer based method for identifying peptides useful as drug targets
US6963807B2 (en) * 2000-09-08 2005-11-08 Oxford Glycosciences (Uk) Ltd. Automated identification of peptides
US6728642B2 (en) * 2001-03-29 2004-04-27 E. I. Du Pont De Nemours And Company Method of non-linear analysis of biological sequence data
JP2003167918A (ja) * 2001-11-30 2003-06-13 Sony Corp データ表示装置及びデータ表示方法

Also Published As

Publication number Publication date
JP2007512829A (ja) 2007-05-24
EP1690207B1 (en) 2010-09-29
CN100570620C (zh) 2009-12-16
IL176125A (en) 2012-09-24
US20050136480A1 (en) 2005-06-23
EP1690207A1 (en) 2006-08-16
CN1914616A (zh) 2007-02-14
AU2004297721A1 (en) 2005-06-23
IL176125A0 (en) 2006-10-05
AU2004297721B2 (en) 2011-06-09
AU2004297721B9 (en) 2012-02-02
DE602004029391D1 (de) 2010-11-11
WO2005057464A1 (en) 2005-06-23
CA2548496A1 (en) 2005-06-23

Similar Documents

Publication Publication Date Title
JP4495166B2 (ja) 薬剤標的として有用なタンパク質コーディングdna配列の同定のためのコンピューターに基づく汎用的方法
Nayfach et al. CheckV assesses the quality and completeness of metagenome-assembled viral genomes
US10042976B2 (en) Direct identification and measurement of relative populations of microorganisms with direct DNA sequencing and probabilistic methods
Zhou et al. Detecting small plant peptides using SPADA (small peptide alignment discovery application)
Wojcik et al. Prediction, assessment and validation of protein interaction maps in bacteria
Cannon et al. OrthoParaMap: distinguishing orthologs from paralogs by integrating comparative genome data and gene phylogenies
Pappas et al. Virus bioinformatics
Guo et al. ZCURVE_V: a new self-training system for recognizing protein-coding genes in viral and phage genomes
Ouzounis A recent origin of Orf3a from M protein across the coronavirus lineage arising by sharp divergence
Warren et al. Astyanax mexicanus surface and cavefish chromosome-scale assemblies for trait variation discovery
Ludwig et al. The use of rRNA gene sequence data in the classification and identification of prokaryotes
Naidenov Unleashing Genomic Insights with AB Learning: A Self-Supervised Whole-Genome Language Model
Sharma et al. Recognition and analysis of protein-coding genes in severe acute respiratory syndrome associated coronavirus
Murugaiah et al. A novel frequency based feature extraction technique for classification of corona virus genome and discovery of COVID-19 repeat pattern
Feng et al. MOBFinder: a tool for MOB typing for plasmid metagenomic fragments based on language model
Gerasimov Analysis of ngs data from immune response and viral samples
Feng et al. MOBFinder: a tool for mobilization typing of plasmid metagenomic fragments based on a language model
Nalbantoglu et al. Computational genomic signatures
Balaji Santiago Segarra
Liew et al. Data mining for Bioinformatics
Chen et al. Identification of potential SARS-CoV-2 genetic markers resulting from host domestication
Gao et al. Genomic surveillance of emerging SARS-CoV-2 Omicron variations in Tianjin Municipality, China 2022
Hiscox et al. Predicting the past and future evolutionary space of SARS-CoV-2
Ballesio et al. Determining a novel feature-space for SARS-CoV-2 sequence data
Aggarwal et al. Pangenomics in Microbial and Crop Research: Progress, Applications, and Perspectives. Genes 2022, 13, 598

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090811

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091110

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100408

R150 Certificate of patent or registration of utility model

Ref document number: 4495166

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130416

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140416

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250