JP4495166B2 - 薬剤標的として有用なタンパク質コーディングdna配列の同定のためのコンピューターに基づく汎用的方法 - Google Patents
薬剤標的として有用なタンパク質コーディングdna配列の同定のためのコンピューターに基づく汎用的方法 Download PDFInfo
- Publication number
- JP4495166B2 JP4495166B2 JP2006542030A JP2006542030A JP4495166B2 JP 4495166 B2 JP4495166 B2 JP 4495166B2 JP 2006542030 A JP2006542030 A JP 2006542030A JP 2006542030 A JP2006542030 A JP 2006542030A JP 4495166 B2 JP4495166 B2 JP 4495166B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- protein
- genome
- genes
- alphanumeric
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 117
- 108091028043 Nucleic acid sequence Proteins 0.000 title claims description 37
- 239000003596 drug target Substances 0.000 title description 12
- 108090000623 proteins and genes Proteins 0.000 claims description 214
- 102000004169 proteins and genes Human genes 0.000 claims description 75
- 238000013528 artificial neural network Methods 0.000 claims description 53
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 52
- 108010067902 Peptide Library Proteins 0.000 claims description 36
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 31
- 241000315672 SARS coronavirus Species 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 19
- 229920001184 polypeptide Polymers 0.000 claims description 18
- 108010038807 Oligopeptides Proteins 0.000 claims description 16
- 102000015636 Oligopeptides Human genes 0.000 claims description 16
- 210000002569 neuron Anatomy 0.000 claims description 13
- 241000606768 Haemophilus influenzae Species 0.000 claims description 10
- 201000008827 tuberculosis Diseases 0.000 claims description 10
- 235000014469 Bacillus subtilis Nutrition 0.000 claims description 5
- 241000588724 Escherichia coli Species 0.000 claims description 5
- 241000244587 Leucanthemopsis pallida Species 0.000 claims description 4
- 241000204051 Mycoplasma genitalium Species 0.000 claims description 4
- 241000192584 Synechocystis Species 0.000 claims description 4
- 241000012469 Trimerotropis maritima Species 0.000 claims description 4
- 108091092724 Noncoding DNA Proteins 0.000 claims description 3
- 241000711573 Coronaviridae Species 0.000 claims 1
- 108700026244 Open Reading Frames Proteins 0.000 description 39
- 108091026890 Coding region Proteins 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 15
- 150000001413 amino acids Chemical class 0.000 description 14
- 241001646716 Escherichia coli K-12 Species 0.000 description 11
- 108010076039 Polyproteins Proteins 0.000 description 11
- 238000013519 translation Methods 0.000 description 10
- 230000003612 virological effect Effects 0.000 description 10
- 101100194362 Schizosaccharomyces pombe (strain 972 / ATCC 24843) res1 gene Proteins 0.000 description 8
- 239000002773 nucleotide Substances 0.000 description 8
- 125000003729 nucleotide group Chemical group 0.000 description 8
- 108020004705 Codon Proteins 0.000 description 7
- 108091081024 Start codon Proteins 0.000 description 7
- 230000008901 benefit Effects 0.000 description 7
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 230000035772 mutation Effects 0.000 description 6
- 244000052769 pathogen Species 0.000 description 6
- 230000002441 reversible effect Effects 0.000 description 5
- 238000010200 validation analysis Methods 0.000 description 5
- 108020004414 DNA Proteins 0.000 description 4
- 101710172711 Structural protein Proteins 0.000 description 4
- 125000003275 alpha amino acid group Chemical group 0.000 description 4
- 230000001717 pathogenic effect Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 101150049389 tor2 gene Proteins 0.000 description 4
- 241000711920 Human orthopneumovirus Species 0.000 description 3
- 210000004899 c-terminal region Anatomy 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 229940000406 drug candidate Drugs 0.000 description 3
- 230000002401 inhibitory effect Effects 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 101000748061 Acholeplasma phage L2 Uncharacterized 16.1 kDa protein Proteins 0.000 description 2
- 101000827329 Acholeplasma phage L2 Uncharacterized 26.1 kDa protein Proteins 0.000 description 2
- 101000818108 Acholeplasma phage L2 Uncharacterized 81.3 kDa protein Proteins 0.000 description 2
- 101000781183 Autographa californica nuclear polyhedrosis virus Uncharacterized 20.4 kDa protein in IAP1-SOD intergenic region Proteins 0.000 description 2
- 101000947615 Clostridium perfringens Uncharacterized 38.4 kDa protein Proteins 0.000 description 2
- 108700010070 Codon Usage Proteins 0.000 description 2
- 102100031725 Cortactin-binding protein 2 Human genes 0.000 description 2
- 101000964391 Enterococcus faecalis UPF0145 protein Proteins 0.000 description 2
- 108700024394 Exon Proteins 0.000 description 2
- 101000912350 Haemophilus phage HP1 (strain HP1c1) DNA N-6-adenine-methyltransferase Proteins 0.000 description 2
- 101000748063 Haemophilus phage HP1 (strain HP1c1) Uncharacterized 11.1 kDa protein in rep-hol intergenic region Proteins 0.000 description 2
- 101000818057 Haemophilus phage HP1 (strain HP1c1) Uncharacterized 14.9 kDa protein in rep-hol intergenic region Proteins 0.000 description 2
- 101001015100 Klebsiella pneumoniae UDP-glucose:undecaprenyl-phosphate glucose-1-phosphate transferase Proteins 0.000 description 2
- 101000790844 Klebsiella pneumoniae Uncharacterized 24.8 kDa protein in cps region Proteins 0.000 description 2
- 101000790840 Klebsiella pneumoniae Uncharacterized 49.5 kDa protein in cps region Proteins 0.000 description 2
- 101710199769 Matrix protein 2 Proteins 0.000 description 2
- 241001646725 Mycobacterium tuberculosis H37Rv Species 0.000 description 2
- 101710144128 Non-structural protein 2 Proteins 0.000 description 2
- 101710199667 Nuclear export protein Proteins 0.000 description 2
- 101710197985 Probable protein Rev Proteins 0.000 description 2
- 102100040307 Protein FAM3B Human genes 0.000 description 2
- 101100139878 Schizosaccharomyces pombe (strain 972 / ATCC 24843) ran1 gene Proteins 0.000 description 2
- 101000992423 Severe acute respiratory syndrome coronavirus 2 Putative ORF9c protein Proteins 0.000 description 2
- 108700009124 Transcription Initiation Site Proteins 0.000 description 2
- 101710110895 Uncharacterized 7.3 kDa protein in cox-rep intergenic region Proteins 0.000 description 2
- 101710134973 Uncharacterized 9.7 kDa protein in cox-rep intergenic region Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 108010026228 mRNA guanylyltransferase Proteins 0.000 description 2
- 230000002503 metabolic effect Effects 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- WIGIZIANZCJQQY-UHFFFAOYSA-N 4-ethyl-3-methyl-N-[2-[4-[[[(4-methylcyclohexyl)amino]-oxomethyl]sulfamoyl]phenyl]ethyl]-5-oxo-2H-pyrrole-1-carboxamide Chemical compound O=C1C(CC)=C(C)CN1C(=O)NCCC1=CC=C(S(=O)(=O)NC(=O)NC2CCC(C)CC2)C=C1 WIGIZIANZCJQQY-UHFFFAOYSA-N 0.000 description 1
- 101000818089 Acholeplasma phage L2 Uncharacterized 25.6 kDa protein Proteins 0.000 description 1
- 101000770875 Autographa californica nuclear polyhedrosis virus Uncharacterized 14.2 kDa protein in PK1-LEF1 intergenic region Proteins 0.000 description 1
- 101000736909 Campylobacter jejuni Probable nucleotidyltransferase Proteins 0.000 description 1
- 101710132601 Capsid protein Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 102000003886 Glycoproteins Human genes 0.000 description 1
- 108090000288 Glycoproteins Proteins 0.000 description 1
- 101000748060 Haemophilus phage HP1 (strain HP1c1) Uncharacterized 8.3 kDa protein in rep-hol intergenic region Proteins 0.000 description 1
- 241001674329 Helicobacter pylori 26695 Species 0.000 description 1
- 101000623276 Herpetosiphon aurantiacus Uncharacterized 10.2 kDa protein in HgiBIM 5'region Proteins 0.000 description 1
- 101000623175 Herpetosiphon aurantiacus Uncharacterized 10.2 kDa protein in HgiCIIM 5'region Proteins 0.000 description 1
- 101000626850 Herpetosiphon aurantiacus Uncharacterized 10.2 kDa protein in HgiEIM 5'region Proteins 0.000 description 1
- 101000768313 Klebsiella pneumoniae Uncharacterized membrane protein in cps region Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 101000804418 Methanothermobacter thermautotrophicus (strain ATCC 29096 / DSM 1053 / JCM 10044 / NBRC 100330 / Delta H) Uncharacterized protein MTH_1463 Proteins 0.000 description 1
- 101000770870 Orgyia pseudotsugata multicapsid polyhedrosis virus Uncharacterized 37.2 kDa protein Proteins 0.000 description 1
- 108700005077 Viral Genes Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000000844 anti-bacterial effect Effects 0.000 description 1
- 230000000845 anti-microbial effect Effects 0.000 description 1
- 230000001580 bacterial effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000007877 drug screening Methods 0.000 description 1
- 238000007306 functionalization reaction Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 238000002887 multiple sequence alignment Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Peptides Or Proteins (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Description
新たにシーケンスされたゲノムにおいてタンパク質コーディングDNA配列(遺伝子)を同定する最も信頼できる方法は、他の生物から近縁のホモログを見つけることである(BLAST(Altschul, S. Fら、1990)及びFASTA(Pearson, W. R., 1995))。DNA配列中の4個のヌクレオチドは、ランダムに分布することはない。コード領域内のヌクレオチドの統計的分布は、非コード領域とは有意に異なる(Bird, A., 1987)。Hidden Markov Models(HMM)に基づく方法は、これらの統計的性質を最も効率的に利用し(Salzberg, S. Lら、1998;Delcher, A. Lら、1999;Lukashin, A. V.及びBorodovsky, M.、1998)、そして公開されているアノテーションと比較して、ゲノムの全ての遺伝子の約97%〜98%を予測することができる(Delcher, A. Lら、1999)。HMMを使用して、GeneMark、Glimmerなどの様々なアルゴリズムが開発されて、原核生物の遺伝子を予測してきた。Glimmer2.0は、存在する全ての方法の中で最もうまくいった方法である(Delcher, A. Lら、1999)。しかしながら、Glimmerは、7〜20%の付加的遺伝子(擬陽性)を予測してしまう。
本発明の主な目的は、薬剤標的として有用な、ダンパク質をコードするDNA配列(遺伝子)を予測する方法であって、コンピューターに基づく方法を提供することである。
本発明の他の主な目的は、ソフトウェアGeneDecipherを使用して、他のゲノムのORF中に存在することがわかっているオリゴペプチドを使用して、遺伝子を同定する汎用的方法を開発することである。
本発明のさらに別の目的は、病原生物により引き起こされる疾患を管理する際に適用できる方法を開発することである。
本発明の別の目的は、正確なアミノ酸配列同一性のシグネチャーを通して未知機能の仮定上のオープン・リーディング・フレーム(タンパク質)に機能を割り当てることである。
本発明は、他のゲノムのORF中に存在することが分かっているオリゴペプチドを使用して遺伝子を同定し、そしてGeneDecipherソフトウェアを使用して小さいゲノムを分析するために適している汎用的方法であって、以下のステップ:
既知のゲノムから、コンピューターによりアルファベット順に配列された長さ「N」のペプチドを有するペプチドライブラリーを作成し、
上記試験ゲノムを人工的に翻訳して、各リーディング・フレームにおいてポリペプチドを得て、
各ポリペプチド配列を英数字配列に変換し、ここで一の配列は、ペプチドライブラリーとの重なりに基づく各リーディング・フレームに対応する配列を有する
人工ニューラル・ネットワーク(ANN)を、英数字配列についてシグモイド学習関数でトレーニングし、
上記試験ゲノム中のタンパク質コード領域を解読し、そうして
多数の既知遺伝子及びその対応するタンパク質に位置付けられるより長いペプチド・ストレッチを同定する
を含む方法、並びに病原体により引き起こされる疾患を管理する方法であって、本発明のステップにより同定される1以上のタンパク質の機能を阻害することにより提案された薬剤候補を評価するステップを含む方法に関する。
従って、本発明は、特別に開発されたソフトウェア・GeneDecipherを使用して、ゲノム中で薬剤標的として有用なタンパク質コーディングDNA配列(遺伝子)を同定する汎用的方法であって、当該方法は、以下のステップ:
既知のゲノムから、コンピューターによりアルファベット順に配列された長さ「N」のペプチドを有するペプチドライブラリーを作製し、
人工的に試験ゲノムを翻訳して各リーディング・フレームに対応するポリペプチドを得て、各ポリペプチド配列を英数字配列に変換し、ここで1の英数字配列がペプチドライブラリーとの重なりに基づく各リーディング・フレームに対応し、
人工ニューラル・ネットワーク(ANN)を、英数字配列についてシグモイド学習関数でトレーニングし、
試験ゲノムにおけるタンパク質コード領域を解読し、こうして、
多数の既知遺伝子及びその対応するタンパク質に位置されるより長いペプチド・ストレッチを同定する
を含む方法、並びに病原体により引き起こされる疾患の管理方法であって、本発明のステップにより同定される1以上のタンパク質の機能を阻害することにより、提案された薬剤候補の評価をするステップを含む方法に関する。
・既知のゲノムから、コンピューターによりアルファベット順に配置される長さ「N」のオリゴペプチドを有するペプチドライブラリーを作成し
・ 当該試験ゲノムを人工的に翻訳して、各リーディング・フレームのポリペプチドを得て、
・ 各ポリペプチド配列を英数字配列に変換し、ここで、一の配列が、前記ペプチドライブラリーにおいてこれらのオリゴペプチドの出現に基づく各リーディング・フレームに対応し
・ 既知のタンパク質コーディングDNA配列及び既知の非コード領域に対応する英数字配列について、シグモイド学習関数で人工ニューラル・ネットワーク(ANN)をトレーニングし、
・ 上記試験ゲノム中のタンパク質コード領域を解読し、そして
・ 多数の既知遺伝子に位置する機能シグネチャーとして役に立つより長いペプチド・ストレッチを同定する
を含む方法が提供される。
本発明のさらに別の実施態様では、「N」の値が4以上である。
本発明のさらに別の実施態様では、前記シグモイド学習関数は、トータル・スコア、平均、ゼロ率、最大連続非ゼロストレッチ、及び分散を含む5個のパラメーターを有する。
本発明のさらに別の実施態様では、遺伝子を同定する方法は、他のゲノム、非限定的にH.インフルエンザ(H. influenzae)、M.ゲニタリウム(M. genitalium)、E.コリ(E. coli)、B.サブチリス(B. subtilis)、A.フルギジス(A. fulgidis)、M.ツベルクロシス(M. tuberculosis)、T.パリダム(T. pallidum)、T.マリチマ(T. maritima)、シネコ・シスチス(Synecho cystis)、H.ピロリ(H. pylori)、及びSARS-CoVなどのゲノムのORF中に存在することが分かっているオリゴペプチドを使用する。
本発明のさらに別の実施態様では、H.インフルエンザの配列番号1〜44の遺伝子に対応する配列番号170〜213のタンパク質のセットが、前述の方法を使用することにより同定される。
本発明のさらに別の実施態様では、H.ピロリの配列番号45〜60の遺伝子に対応する配列番号214〜229のタンパク質のセットが、前述の方法を使用することにより同定される。
本発明のさらに別の実施態様では、M.ツベルクロシスの配列番号61〜165の遺伝子に対応する配列番号230〜334のタンパク質のセットが、前述の方法を使用することにより同定される。
本発明のさらに別の実施態様では、SARS-コロナ・ウイルスの配列番号166〜169の遺伝子に対応する配列番号335〜338のタンパク質のセットが、前述の方法を使用することにより同定される。
本発明のさらに別の実施態様では、前記対象はヒトである。
本発明のさらに別の実施態様では、前記使用は、真核生物及び多細胞生物に拡大される。
a. 既知のゲノムから、コンピューターによりアルファベット順に配列された長さ「N」のオリゴペプチドを有するペプチドライブラリーを作成し、
b. 試験ゲノムを人工的に翻訳して各リーディング・フレーム内のポリペプドを獲得し、
c. 各ポリペプチド配列を英数字配列へと変換し、ここで一の配列は、ペプチドライブラリー内におけるこれらのオリゴペプチドの存在に基づく各リーディング・フレームに対応し、
d. シグモイド学習関数を用いて人工ニューラル・ネットワーク(ANN)を、既知のタンパク質コーディングDNA配列及び既知の非コード領域に対応する英数字配列についてトレーニングし、
e. 試験ゲノム中のタンパク質コード領域を解読し、そして
f. 多数の既知の遺伝子に位置する長いペプチド・ストレッチ(進化保存オリゴペプチド)であって、機能シグネチャ-として役に立つペプチド・ストレッチを同定する
を含む方法に関する。
本発明のさらに別の実施態様では、シグモイド学習関数は、トータル・スコア、平均、ゼロ率、最大連続非ゼロストレッチ、及び分散を含む5個のパラメーターを有する。
本方法により同定され、そして配列番号1〜169の新規の配列に対応する配列番号170〜338のタンパク質を含む群から選ばれる進化的に保存された1以上のペプチド配列の機能を阻害するための提案された薬剤候補を評価する
を含む方法が提供される。
本発明のさらに別の実施態様では、当該ペプチドライブラリー・データーは、いずれの生物から取られてもよいが、本発明において使用される生物に明確に限定されることはない。
当該方法は、以下の5個の主要なステップ(図1において示されるように):
1. ペプチドライブラリーを作成し、
2. 所定のゲノムを6個のリーディングフレームへ人工翻訳し、
3. 各翻訳された配列を英数字配列に変換し(一の配列が、各リーディング・フレームに対応し)、
4. 人工ニューラル・ネットワーク(ANN)をトレーニングし、
5. トレーニングされたANNを使用して遺伝子を解読する
を含む。
当該方法は、所定のゲノムにおいて遺伝子を予測するための参照ペプチドライブラリーを必要とする。本発明において、出願人は、56個の完全にシーケンスされた原核生物ゲノム由来のタンパク質を使用した。我々のデーターベースについてのタンパク質ファイルを、ftp://ftp.ncbi.nlm.nih.gov/genomesからFASTAフォーマットで得た。特定のゲノム中で遺伝子を解析するペプチドライブラリーを製造するために、出願人は、いずれかのバイアスを避けるために、我々のデーターベースからその特定の種に属するタンパク質ファイルを除外する。例えば、E.コリ-k12ゲノムを分析するとき、E.コリの全ての株に対応するタンパク質ファイルを、データーベースから除外して、ペプチドライブラリーを作成する。これは、その生物体のペプチドから得られるシグナルを排除するために行われ、これは、新たにシーケンスされたゲノムを分析する場合に行われよう。これは、アノテーション付きタンパク質ファイルが利用できない新たにシーケンスされたゲノム上で遺伝子を予測する点で当該方法を増強する。ペプチドライブラリーを作成する一方、1のアミノ酸だけウィンドウをシフトすることにより、全ての潜在的な重なり合うヘプタペプチドが処理された。不要なペプチドを、ペプチドライブラリーから取り除き、そして各ペプチドに、当該ペプチドが存在する個々の生物体の数に基づく出現回数を与える。
アルゴリズムにおける第二のステップは、標準的なコドン表を使用して、クエリーゲノム全体を、6個のリーディングフレームに人工的に翻訳することである。しかしながら、ユーザーが指定するコドン表が、必要に応じて使用されてもよい。出願人は、人工的な翻訳の間、ストップコドンTTA、TAG、及びTGAに対して「z」の文字を使用し、そして標準的ではないヌクレオチドを含むトリプレット(K、N、W、R、及びSなど)の全てについて「b」の文字を使用する。
我々のアルゴリズムにおける次のステップは、人工的に翻訳されたアミノ酸配列であって、ストップコドン(z)の停止を有するものを、英数字配列へと変換することである。出願人は、ペプチドライブラリー内の各重なり合うヘプタペプチドについてサーチし、対応する数を割り当て(出現回数)、そして英数字配列へと付け加えた。ヘプタペプチドが、ライブラリー内に存在しない場合、数字0を割り当てる。ヘプタペプチドが、開始コドンATG、GTG、及びTTGのいずれかに対応するアミノ酸で始まる場合、出願人は、英数字配列中に「s」という文字を付加する。これは、推定の開始コドンの位置を検出するために手助けとなろう。ヘプタペプチドが、文字「z」を含む場合、出願人は、そのヘプタペプチドに対して「*」という文字を付加する。こうして、英数字配列中の連続する7の「*」(*******)は、ストップコドンのシグナルである。出願人は、文字「b」を含むヘプタペプチドに文字「-」を付加する。当該シグナルは、非標準的なヌクレオチドの性質の存在を示し、そして遺伝子又は非遺伝子の一部である配列についての情報を伝えない。そうして、英数字配列は、こうして13文字、すなわち(0〜9)の整数、「s」、「*」、及び「-」のいずれかを含むように作成される。この方法では、出願人は、全ての6個の翻訳されたタンパク質ファイルを、6の英数字配列に変換する。
ここで使用されるニューラル・ネットワークは、マルチレイヤー・フィードフォワード・トポロジーを有する。当該ニューラル・ネットワークは、1の入力層、1の隠れ層、及び出力層からなる。これは、各ニューロンiは、次の層の各ユニットjに接続されている「十分に接続された」ニューラル・ネットワークである(図2)。各接続の荷重は、Wijにより示される。入力層における各ニューロンの状態Iiは、入力データーから直接割り当てられる。一方、隠れ層ニューロンの状態は、シグモイド関数hj=1/(1+exp-λ(Wj0+ΣWijIi))、[式中、Wj0はバイアス荷重であり、そしてλ=1である]を使用することにより計算される。
(i). トータル・スコア
英数字配列の整数の全ての代数和。大雑把に言えば、スコアが高くなると、遺伝子として適格である可能性が高くなる。
(ii). ゼロ率
ゼロ率は、英数字配列中の0の文字の総数を配列中の文字の総数により割ったものに等しい。ゼロ率が高くなると、遺伝子として適格である可能性が低くなる。
(iii). 平均
平均は、トータル・スコアを配列の全体の長さで割ったものに等しい。平均が高くなると、遺伝子として適格である可能性が多くなる。実際、このパラメーターは、トータル・スコアと同じであるように見えるが、平均は、配列の長さを取り込んだものであるので重要である(単位長さあたりのスコア)。
(iv). 分散
分散とは、ORF全体についての平均出現回数についての出現回数の分散である。
(v). 最大連続非ゼロストレッチの長さ
である。
ペプチドライブラリーの作成(ステップ1)及びANNのトレーニング(ステップ4)が、本発明の方法を実行するための準備段階として考えられる一方、ステップ2及びステップ3は、各ゲノム配列についての命令段階である。ゲノムを6個のリーディングフレームの全てにコンピューターにより翻訳し、そしてそれらを6個の英数字配列へと変換させた後に、ANNを用いた遺伝子解析が実行される。当該ステップは、さらに以下の5個のサブ・ステップに分けることができる:
1. 6個の英数字配列の全てを、潜在的なORFに分け(全ての潜在的な断片は、「s」で始まり、「*」で終わる)
2. 5個のパラメーター(トータル・スコア、ゼロ率、平均、分散、及び最大連続非ゼロストレッチの長さ)の全てを、全ての潜在的なORF(「s」と「*」との間の英数字の鎖配列の全て)について計算し、
3. トレーニングされたANNを使用して、与えられた英数字の鎖に対応するORFがタンパク質コード遺伝子であるという可能性を計算し、
4. カットオフ確率値を使用することにより、タンパク質コードORFを非コードORFからから除外し、
5. 包含されたタンパク質コード領域の全てを取り除く(Shibuya、T.及びRigoutsos, i., 2002)
2個のORFが、異なる翻訳フレームにおいて予測され、その結果一つの範囲が、完全にもう一方を含む場合、それらのうちの1つのみが、実際の遺伝子であると通常信じられている。この場合、出願人は、遺伝子としての高い確率値を有するORFを報告する。同じ確率値の場合、出願人は、長いORFを遺伝子として取り扱う。
1.ファイル名:genedcodchr.cxx
アプリケーション:ヌクレオチド配列(FASTAファイル形式)を6個のそれぞれのフレームにける6の仮定上のポリペプチドへの翻訳
入力形式 :<Program_name> <Nucleotide_file> <Output1> <Output2> <frame>
例 :./genedcodchr ecoli.fna pf1 pr1 0
出力形式 :AGTFYRYmGHVNMKIYTASLPTYRYGYFSHRED.....HGOIEKSDWEzDFGTRE
アプリケーション:(入力として与えられる)ヘプタペプチド・ライブラリーサーチを介した、ポリペプチド・ファイルの英数字配列への変換
入力形式 :<Program_name> 7 <peptide library file name> out Y <Input1> <Input2> <Output1> <Output2>
例 :./searchchr 7 ecoli.peplib out Y pf1 pr1 bf1 br1
出力形式 :s1124500001090003000020000023000000000*******0001000.....
アプリケーション:フォワード鎖の英数字配列からの潜在的なORF(つまり「s」〜「*」の全領域を切り出し、そして英数字配列において「s」の全ての位置を含むファイルを作る
入力形式 :<Program_name> <Input file name> <Output1> <Output2>
例 :./cutf bf1 unknown_bf1 bf1_location
出力形式 :出力1-s1111000s00000000563*、出力2-カラム中の「s」の開始位置
アプリケーション:リバース鎖の英数字配列から、全ての潜在的なORF(つまり、「s」〜「*」の全領域を切り出し、そして全てのORFに対応する全ての3個のフォワード・フレームについての英数字配列中の開始位置を含むファイルを作り出す
入力形式 :<Program_name> <Input file name> <Output1> <Output2>
例 :./cutr br1 unknown_br1 br1_location
出力形式 :出力1-*010340000222200067900000s000001000200s00230000s、出力2-「s」の開始位置
アプリケーション:5個のパラメーター:ゼロ率、平均、トータル・スコア、最大連続ストレッチの長さ、及び与えられた英数字配列についての分散 を計算する。
入力形式 :<Program_name> <Input file name> <Output>1
例 :./stat unknown_bf1 bf1.data 1
出力形式 :0.334 3.2 48 15 0.452 1
アプリケーション:フィードフォワードバックプロパゲーションアルゴリズムを用い、そしてシグモイド(=1)を学習関数として使用する人工ニューラル・ネットワーク(1の隠れ層、1の入力層、及び1の出力層)のトレーニング
入力形式 :<Program_name> <Input specification file name> <Input1> <Input2> <Input3>>output
例 :./train train.spec.fast trainset.data validateset.data testset.data >train.net
出力形式 :1のカラム内に最終ニューラル・ネットワーク荷重を含む出力
アプリケーション:トレーニングされた荷重に基づく所定のパターンの認識と、出力としての確率値の作成
入力形式 :<Program_name> <Input specification file name> <Input1> <Input2> <Output>
例 :./recognize recognize.spec bf1.data train.net f1.out
出力形式 :pat1 probability <value>
アプリケーション:確率及び長さのパラメーターに基づく同じフレーム中における完全に重なるORFを取り除く
入力形式 :<Program_name> <Input1> <Input2> <Output>
例 :./Filter_prediction f1.out unknown_bf1 bf1.out.res
出力形式 :pat1 probability <value> <integer string>
アプリケーション:20未満のアミノ酸長の遺伝子を取り除き、そして残っているものの開始位置を、3個のフォワード・フレームの全てについての英数字配列で報告する
入力形式 :<Program_name> <Input1> <Output> <Input2>
例 :./locationf bf1.out.res bf1.out.res1 bf1_location
出力形式 :<Pattern No> <Probability value> <integer string> <Start> <End>
アプリケーション:20アミノ酸未満の長さの遺伝子を取り除き、そして残っているものの開始位置を、3個のリバース・フレームの全てについての英数字配列で報告する。
入力形式 :<Program_name> <Input1> <Output> <Input2>
例 :./locationr br1.out.res br1.out.res1 br1_location
出力形式 :<Pattern No> <Probability value> <integer string> <Start> <End>
アプリケーション:3個のフォワード・フレームについて、英数字配列の開始位置及び終端位置を、対応するゲノム位置へと変換する
入力形式 :<Program_name> <Input1> <Input2> <Input3> <Output>
例 :./finalf bf1.out.res1 bf2.out.res1 bf3.out.res1 Final_outputf
出力形式 :<Start> <End> <frame> <length> <Probability value> <integer string>
アプリケーション:3個のリバース・フレームについて、英数字配列の開始位置及び終端位置を、対応するゲノム位置へと変換する
入力形式 :<Program_name> <Input1> <Input2> <Input3> <Output>
例 :./finalf br1.out.res1 br2.out.res1 br3.out.res1 Final_outputr
出力形式 :<Start> <End> <frame> <length> <Probability value> <integer string>
アプリケーション:ゲノム開始位置に沿って、最終的に予測された遺伝子を降順にプリントする
入力形式 :<Program_name> <Input1> <Input2> <Input3> <Output>
例 :./sort Final_outputf Final_outputr OUTPUTF_with_encap OUTPUTR_with_encapOUTPUT
出力形式 :<Start> <End> <Probability value>
アプリケーション:他の5個のフレーム中に見られる含まれた遺伝子を取り除く
入力形式 :<Program_name> <Input1> <Input2><input3> <Output>
例 :./removeencap OUTPUTF_with_encap OUTPUTR_with_encap OUTPUT OUTPUTF OUTPUTR
出力形式 :<Start> <End> <frame> <length> <Probability value> <integer string>
DNA配列の英数字配列への変換
我々のソフトウェアにおける当該モジュールの目的は、クエリーゲノム全体を、規定のコドン表を使用して6個全てのリーディングフレームにコンピューター翻訳することである。出願人は、人工的にゲノムを翻訳する間、TTA、TAG、及びTGAに対応して文字「z」を使用し、そして非標準的ヌクレオチド(K、N、W、R、及びSなど)のいずれかを含むトリプレットの全てに対して文字「b」を使用した。続いて、翻訳されたゲノム配列を、コンピューターにより英数字配列([0-9」、「s」、「*」、及び「-」)へと変換した。出願人は、ペプチドライブラリー中の重複ヘプタペプチドの各々をサーチし、対応する数字(出現回数)を割り当て、そしてそれに英数字配列を付加した。ヘプタペプチドが、ライブラリー内に存在しないならば、出願人は数字0を割り当てる。ヘプタペプチドが開始コドンATG、GTG、及びTTGのいずれかに対応するアミノ酸で始まる場合、出願人は、文字「s」を英数字配列に付加した。これは、推定の開始コドンの位置を検出するのに役に立つであろう。ヘプタペプチドが文字「z」を含む場合、出願人は、そのヘプタペプチドに対して文字「*」を付加する。こうして、英数字配列中の連続する7個の「*」(*******)は、ストップコドンのシグナルである。出願人は、文字「b」を含むヘプタペプチドについて、文字「-」を付加する。これは、非標準ヌクレオチド特性の存在を示唆する。
前述の変換は、さらに以下の6個の配列の助けを借りてさらに詳しく説明される。
人工ニューラル・ネットワークのトレーニング
当該ソフトウェアにおける本モジュールの目的は、設計されたニューラル・ネットワーク(図2)を、指定された遺伝子番号及び非遺伝子番号でトレーニングすることである。本実施例では、トレーニング・セットは、NCBIがタンパク質コード遺伝子として挙げている1610個のE.コリ-k12遺伝子及び遺伝子として報告されていない(非遺伝子の)3000個のE.コリ-k12ORFからなる。バリデーション・セットは、トレーニング・セットにおいて使用されたものとは異なるE.コリ-k12由来の1000個の既知遺伝子と1000個の非遺伝子を有する。試験セットは、同じ生物由来の1000個の遺伝子と1000こ非遺伝子を含む。ANNのトレーニングのため、遺伝子及び非遺伝子は、それぞれ1と0の確率値を割り当てる。ニューラル・ネットワークをトレーニングするために、第一に、出願人は、全てのE.コリ-k12遺伝子及び非遺伝子を、上記方法により対応する英数字鎖へと変換する(ステップ2及び3)。英数字配列形式において2個のE.コリ-k12遺伝子及び2個の非遺伝子のサンプルを図3に示す。ここで、遺伝子に対応する英数字配列が、非遺伝子に対応する英数字配列に比較して数字に富むということに注目することは重要である。これは、我々の仮説を支持する。英数字配列の数字の多さを定量するために、英数字配列から得た5個のパラメーターを選択した。これらの5個のパラメーターは以下:
トータル・スコア(与えられた英数字配列内の整数の全ての代数和)、
ゼロ率(英数字配列中の0の文字の総数を、当該配列中の文字の総数で割ったもの)、
平均(トータル・スコアを当該配列の全長で割ったもの)
分散(全体のORFについての平均出現回数に対する出現回数の分散である)
最大連続非0ストレッチの長さ(中断されていない0でない数の配列中の占有率を示す)
のとおりであり、表1(a)及び1(b)に記載される。
出願人は、本発明の方法を使用して10個の原核生物ゲノムを分析した。当該方法の効率は、当該方法により予測されたタンパク質コード領域であって、NCBIに記載されたものの割合として定義された。包含されたタンパク質コード領域の全ては、特異的に開発されたプログラムにより自動的に除外された。当該方法は、NCBIに記載される遺伝子の平均92.7%を、2.8%の標準偏差で予測することができる。当該方法の感度及び特異性の値の両方は、M.ツベルクロシスH37RVゲノムを除いて高い(図3に示される)。
タンパク質コーディングDNA配列の開始部位の予測
本発明の方法における正確な開始部位の予測率は、M.ツベルクロシスH37Rvにおいて49.5%(特異性が最も少ない)からH.ピロリ26695において81.1%へと変化する。出願人の方法は、開始コドンの存在と周囲のヘプタペプチドの保存性に基づいて開始位置を決定する。当該方法は、他の方法により予測されたクエリータンパク質コードDNA配列の開始部位を予測するために利用することができる。これは、単純にタンパク質配列を対応する整数配列へと変換し、次に周囲のヘプタペプチドに基づいて有効な開始部位「s」を決定することにより行うことができる。出願人は、E.コリK-12ゲノムからそうした3個の場合を報告し(フォワードストランドから2個、そしてリバースストランドから1個)、開始部位の予測を例示する(以下に示される)。
タンパク質コーディングDNA配列の予測
当該方法は、以下のステップ:
i) http://www.ncbi.nlm.nih.govで利用できる選択された生物のタンパク質配列の全てから、重複ペプチドをコンピューターにより作成し、
ii) 上で得られた長さ「N」のペプチドを、一文字アミノ酸コードに従って、アルファベット順に分類し、
iii) 全てのペプチド及びその固有の出現の違いの生物の目録を作り、
iv) ステップ1及び2から得られるペプチドライブラリーを使用して、DNA配列を英数字配列に変換し、
v) 英数字配列から全ての潜在的なオープン・リーディング・フレーム(ORF)を取り出し、
vi) タンパク質コードDNA配列及び非コードDNA配列を区別するために、改良型ニューラル・ネットワークをトレーニングし、
vii) トレーニング済みニューラル・ネットワークを使用して、オープン・リーディング・フレーム内のDNAをコードする配列を予測し(ステップ4において得られる)、
viii) 封入されたタンパク質コーディングDNA配列を (遺伝子内の遺伝子)を取り除く
を利用することにより、公に利用できるデーターベース(NCBI)において、様々なゲノムについてタンパク質コーディングDNA配列を予測するために利用される。
GenBankデーターベース(http://www.ncbi.nlm.nih.gov/Entrez/genomes/viruses)に利用できる18種のSARS-CoV株の配列をダウンロードし、そして分析した。これらは、
ウイルスゲノムについて我々の方法を試験するため、出願人は、最初にヒト呼吸器合胞体ウイルス(HRSV)を分析し、そしてGeneDecipherを使用してゲノムを完結した。GeneDecipherの結果を、従来技術のZCURVE_CoVの状態と比較を行った(表3)。ZCURVE_CoVは、NCBIで報告された11のうち、8個のアノテーション付きタンパク質を、擬陽性なしで予測できる。ZCURVE_CoVは、以下の3個の遺伝子を予測できなかった:PID9629200(位置626〜1000、非構造タンパク質2(NS2));PID9629205(位置4690〜5589、結合性糖タンパク質(G)));及びPID9629208(位置8171〜8443、マトリックスタンパク質2(M2))。GeneDecipherは、全部で11のうち10のアノテーション付きタンパク質を、擬陽性なしで予測した。GeneDecipherにより得ることができなかった遺伝子は、PID9629208(位置8171〜8443、マトリックスタンパク質2)であり、これはZCURVE_CoVによっても明らかに得ることができなかった。
出願人はGeneDecipherを使用して、SARS-CoVの18株全てを分析した(詳細な結果は、上記ウェブサイト上で利用できる)。GeneDecipherは、SARS-CoVゲノム中にて全体で15のタンパク質コード領域を予測し、それらは、ポリタンパク質1a、1ab(Sars2628のポリタンパク質1abのC末端)、及び18株の各々について知られている4個の構造タンパク質(M、N、S、及びE)を含む。GeneDecipherはまた、使用される株のゲノム配列に基づいた6〜8の更なるコード領域を予測する。これらのさらなるコード領域の全長は、61〜274アミノ酸の間で変化した。
GeneDecipher、Zcurve_CoVの結果と、SARS-CoVのUrbani株及びTOR2株についての既知のアノテーションとの比較を表6aと6bに示す。
一般的に、GeneDecipherの結果は、既知のアノテーションと十分一致している。Urbani株の場合、GeneDecipherは、Sars84(X5)、Sars63(X3)、及びSars154(X2)を除く既知の遺伝子の全てを予測する。Sars84(X5)及びSars63(X3)は、ZCURVE_CoVによりサポートされるが、一方Sars154(X2)は、いずれの方法によっても予測されない。GeneDecipherは、当該株において4の新たな遺伝子であって、ZCURVE_CoVによりサポートされない遺伝子を予測する。これらの4個の遺伝子のうちSars78が、TOR2株についてORF14/Sars9cとして既に知られているということは注目すべきである。これは、当該遺伝子がUrbani株に存在する可能性を支持する。しかしながらZCURVE_CoVは、GeneDecipherによりサポートされない2の新たな遺伝子を予測する。
18株全てにわたりSars174、Sars68、及びSars61をコードする新たに予測されたタンパク質について、複数の配列アライメント(ClustalW)を使用した分析は、
1. Sars68は、SIN2677株において、80位にてGAT→GGT(D→G)の一箇所の点突然変異を有し、
2. Sars174は、GZ01株において204位にてCGA→CGCへの、そしてBJ04株において447位にてCTG→CTTへのアミノ酸変化のない点突然変異を有し、
3. Sars61は、GZ01株において、119位にてCTG→CAG(L→Q)への一箇所の点突然変異を有する
を示す。
まとめると、本出願人は、SARS-CoVにおいて15個のコード領域を予測し、その中で、四つの構造タンパク質(M、N、S、及びE)の機能は、既に割れ当てられた。ポリタンパク質1abは、レプリカーゼ活性のみを割り当てられたが、我々の分析は、当該レプリカーゼ活性が、Sars2628(ORF1abのC末端)断片と関連するということを示唆する。全長1abポリタンパク質は、6の機能的なシグネチャーを含み、その中でポリタンパク質laは、代謝酵素(表7a)と関連するシグネチャーを含む。少なくとも5の異なる生物中で類似の機能を有するタンパク質中に存在するペプチド(7以上のアミノ酸長)に基づいて、機能がポリタンパク質に割り当てられた。他の予測された遺伝子/タンパク質コード領域は、より少ないゲノム中に存在するペプチドを含む。これらのペプチドに基づいて出願人は機能を提案するが、低い信頼性しか有さなかった(表7b)。これらの発見についての生物学的関連は、依然として検討されないままである。
1. 本発明の主要な利点は、リボソーム結合部位、プロモーター配列、転写開始部位、又はコドン利用バイアスなどの外部の証拠を使用することなく、タンパク質コーディングDNA配列を予測する新たな方法を提供することである。
2. タンパク質コーディングDNA配列の統計分析方法であって、進化の選択圧に耐えた保存されたペプチド中に保持される生物学的情報を利用する方法を提供する。
3. タンパク質コード遺伝子の開始部位の簡単な予測方法を提供する。
4. 生物特異的、株特異的タンパク質コーディングDNA配列を検出する方法を提供する。
5. 潜在的な薬剤標的として使用しうる新規のタンパク質コーディングDNA配列を提供する。
Claims (7)
- オリゴペプチドを用いて、タンパク質をコードするDNA配列を同定するコンピューターに基づく方法であって、以下のステップ:
a. 既知のゲノム内のタンパク質配列をコードする領域から選択されるオリゴペプチドを含むペプチドライブラリーデーターであって、当該ペプチドライブラリーが、鎖長「N」のオリゴペプチド及び既知ゲノムにおけるその出現回数を含み、ここで当該Nの値が4以上である上記データーをコンピューターにより作成する工程;
b. 翻訳されたゲノムから得られたポリペプチド配列を、英数字配列にコンピューターにより変換する工程であって、当該英数字配列が、既知のタンパク質をコードする配列に対応する領域、並びに既知のタンパク質をコードしないDNA配列に対応する領域を含み、これにより各ORFに対応する1の英数字配列を提供し、ここで当該英数字配列は、既知のゲノムから得たポリペプチド配列内のペプチドライブラリーの各オリゴペプチドの出現回数により決定される工程;
c. シグモイド学習関数を用いてコンピューターにより人工ニューラル・ネットワーク(ANN)をトレーニングして、既知のゲノムにおける既知のタンパク質をコードするDNA配列に対応する英数字配列の領域、及び当該既知のゲノムにおける既知の非コード領域に対応する英数字の配列の領域を学習させる工程;
d. コンピューターにより試験ゲノムを翻訳して、各ORFにおけるポリペプチド配列を取得する工程;
e. コンピューターにより上記試験ゲノムから得たポリペプチド配列を、英数字配列に変換し、それにより各ORFに対応する1の英数字配列を提供する工程であって、ここで当該英数字配列が、当該試験ゲノムから得たポリペプチド配列の中における上記ペプチドライブラリーの各オリゴペプチドの出現回数により決定される工程;
f. 当該トレーニング済みのANNを用いてタンパク質をコードするDNA配列に対応する試験ゲノムの英数字配列の領域を同定する工程;及び
g. 試験ゲノムにおいて同定されたタンパク質をコードするDNA配列を、使用者に通知する工程
を含み、ここで当該工程の全てがコンピューター上で行われる、前記方法。 - 前記人工ニューラル・ネットワークが、1以上の入力層、様々な数のニューロンを有する1以上の隠れ層、及び1以上の出力層を有する、請求項1に記載の方法。
- 前記隠れ層におけるニューロンの数が、30である、請求項1に記載の方法。
- 前記「N」の値が4以上である、請求項1に記載の方法。
- 前記シグモイド学習関数が、トータル・スコア、平均、ゼロ率、最大連続非ゼロストレッチ、及び分散を含む5個のパラメーターを有する、請求項1に記載の方法。
- 前記遺伝子同定方法が、非限定的にH.インフルエンザ(H. influenzae)、M.ゲニタリウム(M. genitalium)、E.コリ(E. coli)、B.サブチリス(B. subtilis)、A.フルギジス(A. fulgidis)、M.ツベルクロシス(M. tuberculosis)、T.パリダム(T. pallidum)、T.マリチマ(T. maritima)、シネコ・シスチス(Synecho cystis)、H.ピロリ(H. pylori)、及びSARS-CoVなどのゲノムを含む他のゲノムのORFにおいて存在することが分かっているオリゴペプチドを使用する、請求項1に記載の方法。
- 前記ペプチドライブラリー・データーが、H.インフルエンザ(H. influenzae)、M.ゲニタリウム(M. genitalium)、E.コリ(E. coli)、B.サブチリス(B. subtilis)、A.フルギジス(A. fulgidis)、M.ツベルクロシス(M. tuberculosis)、T.パリダム(T. pallidum)、T.マリチマ(T. maritima)、シネコ・シスチス(Synecho cystis)、H.ピロリ(H. pylori)、及びSARS-CoVからなる群から選ばれる生物から取得される、請求項1に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US72798903A | 2003-12-05 | 2003-12-05 | |
PCT/IB2004/000453 WO2005057464A1 (en) | 2003-12-05 | 2004-01-09 | A computer based versatile method for identifying protein coding dna sequences useful as drug targets |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007512829A JP2007512829A (ja) | 2007-05-24 |
JP4495166B2 true JP4495166B2 (ja) | 2010-06-30 |
Family
ID=34677125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006542030A Expired - Lifetime JP4495166B2 (ja) | 2003-12-05 | 2004-01-09 | 薬剤標的として有用なタンパク質コーディングdna配列の同定のためのコンピューターに基づく汎用的方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20050136480A1 (ja) |
EP (1) | EP1690207B1 (ja) |
JP (1) | JP4495166B2 (ja) |
CN (1) | CN100570620C (ja) |
AU (1) | AU2004297721B9 (ja) |
CA (1) | CA2548496A1 (ja) |
DE (1) | DE602004029391D1 (ja) |
IL (1) | IL176125A (ja) |
WO (1) | WO2005057464A1 (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7424370B2 (en) | 2004-02-06 | 2008-09-09 | Council Of Scientific And Industrial Research | Computational method for identifying adhesin and adhesin-like proteins of therapeutic potential |
US7532664B2 (en) * | 2004-08-02 | 2009-05-12 | Nokia Corporation | Method and apparatus to estimate signal to interference plus noise ratio (SINR) in a multiple antenna receiver |
US10957421B2 (en) | 2014-12-03 | 2021-03-23 | Syracuse University | System and method for inter-species DNA mixture interpretation |
JP6533415B2 (ja) * | 2015-06-03 | 2019-06-19 | 株式会社日立製作所 | 系統樹を構築する装置、方法およびシステム |
GB201607521D0 (en) * | 2016-04-29 | 2016-06-15 | Oncolmmunity As | Method |
US11250327B2 (en) | 2016-10-26 | 2022-02-15 | Cognizant Technology Solutions U.S. Corporation | Evolution of deep neural network structures |
US11507844B2 (en) | 2017-03-07 | 2022-11-22 | Cognizant Technology Solutions U.S. Corporation | Asynchronous evaluation strategy for evolution of deep neural networks |
US11250314B2 (en) | 2017-10-27 | 2022-02-15 | Cognizant Technology Solutions U.S. Corporation | Beyond shared hierarchies: deep multitask learning through soft layer ordering |
EP3724819A4 (en) | 2017-12-13 | 2022-06-22 | Cognizant Technology Solutions U.S. Corporation | SCALABLE ARCHITECTURES FOR THE EVOLUTION OF DEEP NEURAL NETWORKS |
US11182677B2 (en) | 2017-12-13 | 2021-11-23 | Cognizant Technology Solutions U.S. Corporation | Evolving recurrent networks using genetic programming |
US11527308B2 (en) | 2018-02-06 | 2022-12-13 | Cognizant Technology Solutions U.S. Corporation | Enhanced optimization with composite objectives and novelty-diversity selection |
WO2019157257A1 (en) | 2018-02-08 | 2019-08-15 | Cognizant Technology Solutions U.S. Corporation | System and method for pseudo-task augmentation in deep multitask learning |
CN108681658B (zh) * | 2018-05-22 | 2021-09-21 | 贵州医科大学 | 一种优化外源基因在大肠杆菌中翻译速度的方法 |
US11481639B2 (en) | 2019-02-26 | 2022-10-25 | Cognizant Technology Solutions U.S. Corporation | Enhanced optimization with composite objectives and novelty pulsation |
CA3129731A1 (en) | 2019-03-13 | 2020-09-17 | Elliot Meyerson | System and method for implementing modular universal reparameterization for deep multi-task learning across diverse domains |
US11783195B2 (en) | 2019-03-27 | 2023-10-10 | Cognizant Technology Solutions U.S. Corporation | Process and system including an optimization engine with evolutionary surrogate-assisted prescriptions |
CN110058943B (zh) * | 2019-04-12 | 2021-09-21 | 三星(中国)半导体有限公司 | 用于电子设备的内存优化方法和设备 |
US12026624B2 (en) | 2019-05-23 | 2024-07-02 | Cognizant Technology Solutions U.S. Corporation | System and method for loss function metalearning for faster, more accurate training, and smaller datasets |
CN110970090B (zh) * | 2019-11-18 | 2021-06-29 | 华中科技大学 | 一种用于判断待处理多肽与阳性数据集肽段相似度的方法 |
US11149320B1 (en) | 2020-03-31 | 2021-10-19 | Diasorin S.P.A. | Assays for the detection of SARS-CoV-2 |
IT202000006754A1 (it) | 2020-03-31 | 2021-10-01 | Diasorin S P A | Saggi per la rivelazione di SARS-CoV-2 |
US12099934B2 (en) * | 2020-04-07 | 2024-09-24 | Cognizant Technology Solutions U.S. Corporation | Framework for interactive exploration, evaluation, and improvement of AI-generated solutions |
CN111471088B (zh) * | 2020-04-21 | 2021-02-09 | 北京中科微盾生物科技有限责任公司 | 一种抑制sars-cov-2感染的多肽、组合物及其用途 |
WO2021222633A2 (en) * | 2020-05-01 | 2021-11-04 | Board Of Regents, The University Of Texas System | Methods for treating covid-19 |
US20210392133A1 (en) * | 2020-06-10 | 2021-12-16 | Bank Of America Corporation | Dynamic Authentication Control System |
US11775841B2 (en) | 2020-06-15 | 2023-10-03 | Cognizant Technology Solutions U.S. Corporation | Process and system including explainable prescriptions through surrogate-assisted evolution |
JP6843457B1 (ja) * | 2020-10-23 | 2021-03-17 | NUProtein株式会社 | 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム |
CN114400049B (zh) * | 2022-01-17 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 肽段定量模型的训练方法、装置、计算机设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69333422T2 (de) * | 1992-07-31 | 2004-12-16 | International Business Machines Corp. | Auffindung von Zeichenketten in einer Datenbank von Zeichenketten |
US5989811A (en) * | 1994-09-29 | 1999-11-23 | Urocor, Inc. | Sextant core biopsy predictive mechanism for non-organ confined disease status |
US5845049A (en) * | 1996-03-27 | 1998-12-01 | Board Of Regents, The University Of Texas System | Neural network system with N-gram term weighting method for molecular sequence classification and motif identification |
JP3149824B2 (ja) * | 1997-08-20 | 2001-03-26 | 東亞合成株式会社 | 記号列の特徴顕在化方法 |
US7031843B1 (en) * | 1997-09-23 | 2006-04-18 | Gene Logic Inc. | Computer methods and systems for displaying information relating to gene expression data |
US7657378B1 (en) * | 2000-03-30 | 2010-02-02 | Council Of Scientific & Industrial Research | Computer based method for identifying peptides useful as drug targets |
US6963807B2 (en) * | 2000-09-08 | 2005-11-08 | Oxford Glycosciences (Uk) Ltd. | Automated identification of peptides |
US6728642B2 (en) * | 2001-03-29 | 2004-04-27 | E. I. Du Pont De Nemours And Company | Method of non-linear analysis of biological sequence data |
JP2003167918A (ja) * | 2001-11-30 | 2003-06-13 | Sony Corp | データ表示装置及びデータ表示方法 |
-
2004
- 2004-01-09 WO PCT/IB2004/000453 patent/WO2005057464A1/en active Application Filing
- 2004-01-09 EP EP04701071A patent/EP1690207B1/en not_active Expired - Lifetime
- 2004-01-09 AU AU2004297721A patent/AU2004297721B9/en not_active Ceased
- 2004-01-09 DE DE602004029391T patent/DE602004029391D1/de not_active Expired - Lifetime
- 2004-01-09 CN CNB2004800408373A patent/CN100570620C/zh not_active Expired - Fee Related
- 2004-01-09 CA CA002548496A patent/CA2548496A1/en not_active Abandoned
- 2004-01-09 JP JP2006542030A patent/JP4495166B2/ja not_active Expired - Lifetime
- 2004-01-13 US US10/755,415 patent/US20050136480A1/en not_active Abandoned
-
2006
- 2006-06-05 IL IL176125A patent/IL176125A/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
JP2007512829A (ja) | 2007-05-24 |
EP1690207B1 (en) | 2010-09-29 |
CN100570620C (zh) | 2009-12-16 |
IL176125A (en) | 2012-09-24 |
US20050136480A1 (en) | 2005-06-23 |
EP1690207A1 (en) | 2006-08-16 |
CN1914616A (zh) | 2007-02-14 |
AU2004297721A1 (en) | 2005-06-23 |
IL176125A0 (en) | 2006-10-05 |
AU2004297721B2 (en) | 2011-06-09 |
AU2004297721B9 (en) | 2012-02-02 |
DE602004029391D1 (de) | 2010-11-11 |
WO2005057464A1 (en) | 2005-06-23 |
CA2548496A1 (en) | 2005-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4495166B2 (ja) | 薬剤標的として有用なタンパク質コーディングdna配列の同定のためのコンピューターに基づく汎用的方法 | |
Nayfach et al. | CheckV assesses the quality and completeness of metagenome-assembled viral genomes | |
US10042976B2 (en) | Direct identification and measurement of relative populations of microorganisms with direct DNA sequencing and probabilistic methods | |
Zhou et al. | Detecting small plant peptides using SPADA (small peptide alignment discovery application) | |
Wojcik et al. | Prediction, assessment and validation of protein interaction maps in bacteria | |
Cannon et al. | OrthoParaMap: distinguishing orthologs from paralogs by integrating comparative genome data and gene phylogenies | |
Pappas et al. | Virus bioinformatics | |
Guo et al. | ZCURVE_V: a new self-training system for recognizing protein-coding genes in viral and phage genomes | |
Ouzounis | A recent origin of Orf3a from M protein across the coronavirus lineage arising by sharp divergence | |
Warren et al. | Astyanax mexicanus surface and cavefish chromosome-scale assemblies for trait variation discovery | |
Ludwig et al. | The use of rRNA gene sequence data in the classification and identification of prokaryotes | |
Naidenov | Unleashing Genomic Insights with AB Learning: A Self-Supervised Whole-Genome Language Model | |
Sharma et al. | Recognition and analysis of protein-coding genes in severe acute respiratory syndrome associated coronavirus | |
Murugaiah et al. | A novel frequency based feature extraction technique for classification of corona virus genome and discovery of COVID-19 repeat pattern | |
Feng et al. | MOBFinder: a tool for MOB typing for plasmid metagenomic fragments based on language model | |
Gerasimov | Analysis of ngs data from immune response and viral samples | |
Feng et al. | MOBFinder: a tool for mobilization typing of plasmid metagenomic fragments based on a language model | |
Nalbantoglu et al. | Computational genomic signatures | |
Balaji | Santiago Segarra | |
Liew et al. | Data mining for Bioinformatics | |
Chen et al. | Identification of potential SARS-CoV-2 genetic markers resulting from host domestication | |
Gao et al. | Genomic surveillance of emerging SARS-CoV-2 Omicron variations in Tianjin Municipality, China 2022 | |
Hiscox et al. | Predicting the past and future evolutionary space of SARS-CoV-2 | |
Ballesio et al. | Determining a novel feature-space for SARS-CoV-2 sequence data | |
Aggarwal et al. | Pangenomics in Microbial and Crop Research: Progress, Applications, and Perspectives. Genes 2022, 13, 598 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090811 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20091110 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20091117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100309 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100408 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4495166 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130416 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140416 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |