CA2534401A1 - Methode et systeme de selection de cibles therapeutiques par l'utilisation de reseaux dynamiques d'interactions moleculaires - Google Patents
Methode et systeme de selection de cibles therapeutiques par l'utilisation de reseaux dynamiques d'interactions moleculaires Download PDFInfo
- Publication number
- CA2534401A1 CA2534401A1 CA002534401A CA2534401A CA2534401A1 CA 2534401 A1 CA2534401 A1 CA 2534401A1 CA 002534401 A CA002534401 A CA 002534401A CA 2534401 A CA2534401 A CA 2534401A CA 2534401 A1 CA2534401 A1 CA 2534401A1
- Authority
- CA
- Canada
- Prior art keywords
- molecules
- state
- graph
- vertices
- biological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
- 238000000034 method Methods 0.000 title claims abstract description 268
- 230000004001 molecular interaction Effects 0.000 title claims abstract description 69
- 230000001225 therapeutic effect Effects 0.000 title claims abstract description 69
- 230000003993 interaction Effects 0.000 claims abstract description 112
- 238000004458 analytical method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 3
- 238000004088 simulation Methods 0.000 claims description 144
- 238000004364 calculation method Methods 0.000 claims description 92
- 230000000694 effects Effects 0.000 claims description 80
- 230000008569 process Effects 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 38
- 238000012216 screening Methods 0.000 claims description 31
- 230000003068 static effect Effects 0.000 claims description 30
- 230000009471 action Effects 0.000 claims description 26
- 238000011282 treatment Methods 0.000 claims description 20
- 238000002474 experimental method Methods 0.000 claims description 17
- 230000004048 modification Effects 0.000 claims description 16
- 238000012986 modification Methods 0.000 claims description 16
- 230000031018 biological processes and functions Effects 0.000 claims description 15
- 201000010099 disease Diseases 0.000 claims description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 15
- 230000008878 coupling Effects 0.000 claims description 11
- 238000010168 coupling process Methods 0.000 claims description 11
- 238000005859 coupling reaction Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 10
- 230000002301 combined effect Effects 0.000 claims description 8
- 239000002676 xenobiotic agent Substances 0.000 claims description 8
- 230000002034 xenobiotic effect Effects 0.000 claims description 8
- 230000000670 limiting effect Effects 0.000 claims description 7
- 230000002411 adverse Effects 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 6
- 230000010355 oscillation Effects 0.000 claims description 6
- 230000007170 pathology Effects 0.000 claims description 6
- 238000012913 prioritisation Methods 0.000 claims description 4
- 238000002560 therapeutic procedure Methods 0.000 claims description 4
- 230000035790 physiological processes and functions Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000010349 pulsation Effects 0.000 claims description 2
- 241000486463 Eugraphe sigma Species 0.000 claims 2
- 229960000074 biopharmaceutical Drugs 0.000 claims 1
- 230000014509 gene expression Effects 0.000 description 63
- 239000008103 glucose Substances 0.000 description 51
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 50
- 230000005764 inhibitory process Effects 0.000 description 45
- 108090000623 proteins and genes Proteins 0.000 description 45
- 238000005259 measurement Methods 0.000 description 43
- 108020004999 messenger RNA Proteins 0.000 description 28
- 108700026244 Open Reading Frames Proteins 0.000 description 22
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 22
- 235000014680 Saccharomyces cerevisiae Nutrition 0.000 description 22
- 238000012217 deletion Methods 0.000 description 21
- 230000037430 deletion Effects 0.000 description 21
- 102000004169 proteins and genes Human genes 0.000 description 21
- 230000004913 activation Effects 0.000 description 20
- 238000001994 activation Methods 0.000 description 20
- 230000001575 pathological effect Effects 0.000 description 18
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 17
- 101100439777 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CIT2 gene Proteins 0.000 description 17
- 229930195712 glutamate Natural products 0.000 description 17
- 101100054736 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ACS1 gene Proteins 0.000 description 16
- 101150090747 TUP1 gene Proteins 0.000 description 16
- 101000842368 Homo sapiens Protein HIRA Proteins 0.000 description 15
- 101100269028 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ACS2 gene Proteins 0.000 description 15
- 238000003786 synthesis reaction Methods 0.000 description 15
- 101000780205 Homo sapiens Long-chain-fatty-acid-CoA ligase 5 Proteins 0.000 description 14
- 101000780202 Homo sapiens Long-chain-fatty-acid-CoA ligase 6 Proteins 0.000 description 14
- 102100034337 Long-chain-fatty-acid-CoA ligase 6 Human genes 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 14
- 102100030473 Protein HIRA Human genes 0.000 description 13
- 230000035945 sensitivity Effects 0.000 description 13
- 239000000126 substance Substances 0.000 description 13
- 101100032136 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PYC2 gene Proteins 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 12
- 238000000018 DNA microarray Methods 0.000 description 11
- 101100055268 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ALD3 gene Proteins 0.000 description 11
- 101100082596 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PDC5 gene Proteins 0.000 description 11
- 101100519200 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PDC6 gene Proteins 0.000 description 11
- YBCVMFKXIKNREZ-UHFFFAOYSA-N acoh acetic acid Chemical compound CC(O)=O.CC(O)=O YBCVMFKXIKNREZ-UHFFFAOYSA-N 0.000 description 11
- 238000013459 approach Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 11
- 208000037273 Pathologic Processes Diseases 0.000 description 10
- 101100281834 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FUM1 gene Proteins 0.000 description 10
- 101100028851 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PCK1 gene Proteins 0.000 description 10
- 101100082579 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PDC1 gene Proteins 0.000 description 10
- 101100032135 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PYC1 gene Proteins 0.000 description 10
- 210000004027 cell Anatomy 0.000 description 10
- 230000007423 decrease Effects 0.000 description 10
- 238000011161 development Methods 0.000 description 10
- 230000018109 developmental process Effects 0.000 description 10
- 239000003814 drug Substances 0.000 description 10
- 230000009054 pathological process Effects 0.000 description 10
- 101000734572 Homo sapiens Phosphoenolpyruvate carboxykinase, cytosolic [GTP] Proteins 0.000 description 9
- 102100034796 Phosphoenolpyruvate carboxykinase, cytosolic [GTP] Human genes 0.000 description 9
- 101100378201 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ACO1 gene Proteins 0.000 description 9
- 101100055274 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ALD6 gene Proteins 0.000 description 9
- 101100439769 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CIT1 gene Proteins 0.000 description 9
- 101100020340 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PYK2 gene Proteins 0.000 description 9
- 230000004071 biological effect Effects 0.000 description 9
- 239000001963 growth medium Substances 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 9
- 230000009897 systematic effect Effects 0.000 description 9
- 210000001519 tissue Anatomy 0.000 description 9
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 8
- QTBSBXVTEAMEQO-UHFFFAOYSA-M Acetate Chemical compound CC([O-])=O QTBSBXVTEAMEQO-UHFFFAOYSA-M 0.000 description 8
- 101000583553 Homo sapiens Phosphoglucomutase-1 Proteins 0.000 description 8
- 102100030999 Phosphoglucomutase-1 Human genes 0.000 description 8
- 101100055265 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ALD2 gene Proteins 0.000 description 8
- 101100342449 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CDC19 gene Proteins 0.000 description 8
- 101100232290 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) HXK1 gene Proteins 0.000 description 8
- 101100462087 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) LAT1 gene Proteins 0.000 description 8
- 101100076264 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MDH1 gene Proteins 0.000 description 8
- 101100290494 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MDH2 gene Proteins 0.000 description 8
- 101100129660 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MDH3 gene Proteins 0.000 description 8
- 101100447565 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PGI1 gene Proteins 0.000 description 8
- 101100083176 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PGM1 gene Proteins 0.000 description 8
- 230000001133 acceleration Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000012010 growth Effects 0.000 description 8
- 101001056308 Homo sapiens Malate dehydrogenase, cytoplasmic Proteins 0.000 description 7
- 101001033820 Homo sapiens Malate dehydrogenase, mitochondrial Proteins 0.000 description 7
- 101001072191 Homo sapiens Protein disulfide-isomerase A2 Proteins 0.000 description 7
- 101000878540 Homo sapiens Protein-tyrosine kinase 2-beta Proteins 0.000 description 7
- 102100026475 Malate dehydrogenase, cytoplasmic Human genes 0.000 description 7
- 102100039742 Malate dehydrogenase, mitochondrial Human genes 0.000 description 7
- 101100409482 Neosartorya fumigata mcsA gene Proteins 0.000 description 7
- 102100036351 Protein disulfide-isomerase A2 Human genes 0.000 description 7
- 102100037787 Protein-tyrosine kinase 2-beta Human genes 0.000 description 7
- 101100367016 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) LSC2 gene Proteins 0.000 description 7
- 101150091051 cit-1 gene Proteins 0.000 description 7
- 238000002493 microarray Methods 0.000 description 7
- 208000030825 patent ductus arteriosus 2 Diseases 0.000 description 7
- 108020004414 DNA Proteins 0.000 description 6
- 102100037181 Fructose-1,6-bisphosphatase 1 Human genes 0.000 description 6
- 101001028852 Homo sapiens Fructose-1,6-bisphosphatase 1 Proteins 0.000 description 6
- 101001072903 Homo sapiens Phosphoglucomutase-2 Proteins 0.000 description 6
- 102100036629 Phosphoglucomutase-2 Human genes 0.000 description 6
- 101100378127 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ACH1 gene Proteins 0.000 description 6
- 101100232295 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GLK1 gene Proteins 0.000 description 6
- 101100148923 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SDH1 gene Proteins 0.000 description 6
- 101100286983 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SUC2 gene Proteins 0.000 description 6
- 230000015556 catabolic process Effects 0.000 description 6
- 238000006731 degradation reaction Methods 0.000 description 6
- 239000002207 metabolite Substances 0.000 description 6
- 102000039446 nucleic acids Human genes 0.000 description 6
- 108020004707 nucleic acids Proteins 0.000 description 6
- 150000007523 nucleic acids Chemical class 0.000 description 6
- 102100023044 Cytosolic acyl coenzyme A thioester hydrolase Human genes 0.000 description 5
- 101710152190 Cytosolic acyl coenzyme A thioester hydrolase Proteins 0.000 description 5
- 101710088564 Flagellar hook-associated protein 3 Proteins 0.000 description 5
- 101000579123 Homo sapiens Phosphoglycerate kinase 1 Proteins 0.000 description 5
- 101000874160 Homo sapiens Succinate dehydrogenase [ubiquinone] iron-sulfur subunit, mitochondrial Proteins 0.000 description 5
- 101000809490 Homo sapiens UTP-glucose-1-phosphate uridylyltransferase Proteins 0.000 description 5
- 102100022201 Nuclear transcription factor Y subunit beta Human genes 0.000 description 5
- KJWZYMMLVHIVSU-IYCNHOCDSA-N PGK1 Chemical compound CCCCC[C@H](O)\C=C\[C@@H]1[C@@H](CCCCCCC(O)=O)C(=O)CC1=O KJWZYMMLVHIVSU-IYCNHOCDSA-N 0.000 description 5
- 102100028251 Phosphoglycerate kinase 1 Human genes 0.000 description 5
- 101100385969 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CYC8 gene Proteins 0.000 description 5
- 101100333438 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ENO1 gene Proteins 0.000 description 5
- 101100389403 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ENO2 gene Proteins 0.000 description 5
- 101100108588 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FBA1 gene Proteins 0.000 description 5
- 101100445888 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FBP1 gene Proteins 0.000 description 5
- 101100352598 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GPM1 gene Proteins 0.000 description 5
- 101100123437 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) HAP3 gene Proteins 0.000 description 5
- 101100123443 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) HAP4 gene Proteins 0.000 description 5
- 101100322224 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ICL1 gene Proteins 0.000 description 5
- 101100396239 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) IDH1 gene Proteins 0.000 description 5
- 101100136444 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PGK1 gene Proteins 0.000 description 5
- 101100029551 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PGM2 gene Proteins 0.000 description 5
- 101100420167 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RTG1 gene Proteins 0.000 description 5
- 101100041929 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SDH3 gene Proteins 0.000 description 5
- 101100174613 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) TDH3 gene Proteins 0.000 description 5
- 101100046763 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) TPI1 gene Proteins 0.000 description 5
- 101100371745 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) UGP1 gene Proteins 0.000 description 5
- 102100035726 Succinate dehydrogenase [ubiquinone] iron-sulfur subunit, mitochondrial Human genes 0.000 description 5
- 102100038834 UTP-glucose-1-phosphate uridylyltransferase Human genes 0.000 description 5
- 229940079593 drug Drugs 0.000 description 5
- 230000002068 genetic effect Effects 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 230000002503 metabolic effect Effects 0.000 description 5
- 230000000144 pharmacologic effect Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 102100031920 Dihydrolipoyllysine-residue succinyltransferase component of 2-oxoglutarate dehydrogenase complex, mitochondrial Human genes 0.000 description 4
- 101000992065 Homo sapiens Dihydrolipoyllysine-residue succinyltransferase component of 2-oxoglutarate dehydrogenase complex, mitochondrial Proteins 0.000 description 4
- 101000685323 Homo sapiens Succinate dehydrogenase [ubiquinone] flavoprotein subunit, mitochondrial Proteins 0.000 description 4
- 101000795074 Homo sapiens Tryptase alpha/beta-1 Proteins 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 4
- 101100352600 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GPM2 gene Proteins 0.000 description 4
- 101100072025 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) IDP1 gene Proteins 0.000 description 4
- 101100081602 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KGD1 gene Proteins 0.000 description 4
- 101100518180 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KGD2 gene Proteins 0.000 description 4
- 101100009692 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) LPD1 gene Proteins 0.000 description 4
- 101100029390 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PFK1 gene Proteins 0.000 description 4
- 101100463604 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PFK2 gene Proteins 0.000 description 4
- 101100420168 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RTG2 gene Proteins 0.000 description 4
- 101100420169 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RTG3 gene Proteins 0.000 description 4
- 101100116805 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SDH4 gene Proteins 0.000 description 4
- 101100538885 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) TUP1 gene Proteins 0.000 description 4
- 102100023155 Succinate dehydrogenase [ubiquinone] flavoprotein subunit, mitochondrial Human genes 0.000 description 4
- 102100029639 Tryptase alpha/beta-1 Human genes 0.000 description 4
- WQZGKKKJIJFFOK-VFUOTHLCSA-N beta-D-glucose Chemical compound OC[C@H]1O[C@@H](O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-VFUOTHLCSA-N 0.000 description 4
- 239000012472 biological sample Substances 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 230000006698 induction Effects 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 102100026936 2-oxoglutarate dehydrogenase, mitochondrial Human genes 0.000 description 3
- 101001042041 Bos taurus Isocitrate dehydrogenase [NAD] subunit beta, mitochondrial Proteins 0.000 description 3
- 102000004190 Enzymes Human genes 0.000 description 3
- 108090000790 Enzymes Proteins 0.000 description 3
- 101000982656 Homo sapiens 2-oxoglutarate dehydrogenase, mitochondrial Proteins 0.000 description 3
- 101000960234 Homo sapiens Isocitrate dehydrogenase [NADP] cytoplasmic Proteins 0.000 description 3
- 101000702559 Homo sapiens Probable global transcription activator SNF2L2 Proteins 0.000 description 3
- 101000579758 Homo sapiens Raftlin Proteins 0.000 description 3
- 101000702545 Homo sapiens Transcription activator BRG1 Proteins 0.000 description 3
- 102100039905 Isocitrate dehydrogenase [NADP] cytoplasmic Human genes 0.000 description 3
- 101710122479 Isocitrate lyase 1 Proteins 0.000 description 3
- 102100028208 Raftlin Human genes 0.000 description 3
- 101100054950 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ADH5 gene Proteins 0.000 description 3
- 101100001411 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ALG3 gene Proteins 0.000 description 3
- 101100226477 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FBP26 gene Proteins 0.000 description 3
- 101100228166 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GAL10 gene Proteins 0.000 description 3
- 101100229007 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GLC3 gene Proteins 0.000 description 3
- 101100489717 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GND2 gene Proteins 0.000 description 3
- 101100136607 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GPH1 gene Proteins 0.000 description 3
- 101100120177 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GSC2 gene Proteins 0.000 description 3
- 101100232292 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) HXK2 gene Proteins 0.000 description 3
- 101100179094 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) IDH2 gene Proteins 0.000 description 3
- 101100452032 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) IDP2 gene Proteins 0.000 description 3
- 101100291253 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MIG2 gene Proteins 0.000 description 3
- 101100078102 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MSN2 gene Proteins 0.000 description 3
- 101100027944 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PDB1 gene Proteins 0.000 description 3
- 101100489708 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PFK26 gene Proteins 0.000 description 3
- 101100346227 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PMI40 gene Proteins 0.000 description 3
- 101100402318 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PSA1 gene Proteins 0.000 description 3
- 101100477857 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SNF1 gene Proteins 0.000 description 3
- 101100533755 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SNF2 gene Proteins 0.000 description 3
- 101100533758 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SNF3 gene Proteins 0.000 description 3
- 101100096176 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SOL2 gene Proteins 0.000 description 3
- 101100422887 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SWI1 gene Proteins 0.000 description 3
- 101100099697 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) TKL2 gene Proteins 0.000 description 3
- 101100262766 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) UME6 gene Proteins 0.000 description 3
- 102100031027 Transcription activator BRG1 Human genes 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000008827 biological function Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000013016 damping Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001747 exhibiting effect Effects 0.000 description 3
- 238000009472 formulation Methods 0.000 description 3
- 230000003284 homeostatic effect Effects 0.000 description 3
- 238000009396 hybridization Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000010399 physical interaction Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- FQVLRGLGWNWPSS-BXBUPLCLSA-N (4r,7s,10s,13s,16r)-16-acetamido-13-(1h-imidazol-5-ylmethyl)-10-methyl-6,9,12,15-tetraoxo-7-propan-2-yl-1,2-dithia-5,8,11,14-tetrazacycloheptadecane-4-carboxamide Chemical compound N1C(=O)[C@@H](NC(C)=O)CSSC[C@@H](C(N)=O)NC(=O)[C@H](C(C)C)NC(=O)[C@H](C)NC(=O)[C@@H]1CC1=CN=CN1 FQVLRGLGWNWPSS-BXBUPLCLSA-N 0.000 description 2
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 2
- 102100034035 Alcohol dehydrogenase 1A Human genes 0.000 description 2
- 102100039702 Alcohol dehydrogenase class-3 Human genes 0.000 description 2
- 102100034044 All-trans-retinol dehydrogenase [NAD(+)] ADH1B Human genes 0.000 description 2
- 101710193111 All-trans-retinol dehydrogenase [NAD(+)] ADH4 Proteins 0.000 description 2
- 102100038910 Alpha-enolase Human genes 0.000 description 2
- 101710149863 C-C chemokine receptor type 4 Proteins 0.000 description 2
- 102100032976 CCR4-NOT transcription complex subunit 6 Human genes 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 2
- 102100039556 Galectin-4 Human genes 0.000 description 2
- 102100039555 Galectin-7 Human genes 0.000 description 2
- 102100028652 Gamma-enolase Human genes 0.000 description 2
- 101000892220 Geobacillus thermodenitrificans (strain NG80-2) Long-chain-alcohol dehydrogenase 1 Proteins 0.000 description 2
- 102100038145 Homeobox protein goosecoid-2 Human genes 0.000 description 2
- 101000780443 Homo sapiens Alcohol dehydrogenase 1A Proteins 0.000 description 2
- 101000959452 Homo sapiens Alcohol dehydrogenase class-3 Proteins 0.000 description 2
- 101000882335 Homo sapiens Alpha-enolase Proteins 0.000 description 2
- 101000608765 Homo sapiens Galectin-4 Proteins 0.000 description 2
- 101000608772 Homo sapiens Galectin-7 Proteins 0.000 description 2
- 101001058231 Homo sapiens Gamma-enolase Proteins 0.000 description 2
- 101001032616 Homo sapiens Homeobox protein goosecoid-2 Proteins 0.000 description 2
- 101000599886 Homo sapiens Isocitrate dehydrogenase [NADP], mitochondrial Proteins 0.000 description 2
- 101001094827 Homo sapiens Phosphomannomutase 1 Proteins 0.000 description 2
- 101000994626 Homo sapiens Potassium voltage-gated channel subfamily A member 1 Proteins 0.000 description 2
- 101000800099 Homo sapiens THO complex subunit 1 Proteins 0.000 description 2
- 101000801742 Homo sapiens Triosephosphate isomerase Proteins 0.000 description 2
- 102000004901 Iron regulatory protein 1 Human genes 0.000 description 2
- 108090001025 Iron regulatory protein 1 Proteins 0.000 description 2
- 102100037845 Isocitrate dehydrogenase [NADP], mitochondrial Human genes 0.000 description 2
- 102100035367 Phosphomannomutase 1 Human genes 0.000 description 2
- 101000662819 Physarum polycephalum Terpene synthase 1 Proteins 0.000 description 2
- 101000830822 Physarum polycephalum Terpene synthase 2 Proteins 0.000 description 2
- 102100034368 Potassium voltage-gated channel subfamily A member 1 Human genes 0.000 description 2
- 102100022851 Rab5 GDP/GTP exchange factor Human genes 0.000 description 2
- 101001026213 Rattus norvegicus Potassium voltage-gated channel subfamily A member 4 Proteins 0.000 description 2
- 101710203837 Replication-associated protein Proteins 0.000 description 2
- 101100107575 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) AAT1 gene Proteins 0.000 description 2
- 101100489921 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ABF1 gene Proteins 0.000 description 2
- 101100434411 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ADH1 gene Proteins 0.000 description 2
- 101100269260 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ADH2 gene Proteins 0.000 description 2
- 101100490565 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ADR1 gene Proteins 0.000 description 2
- 101100324814 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ATH1 gene Proteins 0.000 description 2
- 101100001798 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CAD1 gene Proteins 0.000 description 2
- 101100494770 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CAT8 gene Proteins 0.000 description 2
- 101100112711 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CCR4 gene Proteins 0.000 description 2
- 101100115323 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CYB2 gene Proteins 0.000 description 2
- 101100023518 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) DAL7 gene Proteins 0.000 description 2
- 101100170552 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) DLD1 gene Proteins 0.000 description 2
- 101100065859 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) EXG2 gene Proteins 0.000 description 2
- 101100335873 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GAL4 gene Proteins 0.000 description 2
- 101100335885 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GAL7 gene Proteins 0.000 description 2
- 101100336281 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GCR1 gene Proteins 0.000 description 2
- 101100448170 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GCV2 gene Proteins 0.000 description 2
- 101100504908 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GLO2 gene Proteins 0.000 description 2
- 101100176983 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GSY1 gene Proteins 0.000 description 2
- 101100176987 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GSY2 gene Proteins 0.000 description 2
- 101100504991 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GUT1 gene Proteins 0.000 description 2
- 101100178335 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) HPR1 gene Proteins 0.000 description 2
- 101100018846 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) IME1 gene Proteins 0.000 description 2
- 101100075879 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MAL32 gene Proteins 0.000 description 2
- 101100247297 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RAP1 gene Proteins 0.000 description 2
- 101100523880 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RBK1 gene Proteins 0.000 description 2
- 101100306065 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RKI1 gene Proteins 0.000 description 2
- 101100091568 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RPE1 gene Proteins 0.000 description 2
- 101100256318 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SDH2 gene Proteins 0.000 description 2
- 101100030133 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SEC53 gene Proteins 0.000 description 2
- 101100502339 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SFA1 gene Proteins 0.000 description 2
- 101100042631 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SIN3 gene Proteins 0.000 description 2
- 101100120905 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) TDH1 gene Proteins 0.000 description 2
- 101100174606 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) TDH2 gene Proteins 0.000 description 2
- 101100314406 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) TPS1 gene Proteins 0.000 description 2
- 101100207338 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) TPS2 gene Proteins 0.000 description 2
- 101100371160 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) TSL1 gene Proteins 0.000 description 2
- 101100371340 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) TYE7 gene Proteins 0.000 description 2
- 101100281982 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ZWF1 gene Proteins 0.000 description 2
- 102100033489 THO complex subunit 1 Human genes 0.000 description 2
- 102100033598 Triosephosphate isomerase Human genes 0.000 description 2
- ZSLZBFCDCINBPY-ZSJPKINUSA-N acetyl-CoA Chemical compound O[C@@H]1[C@H](OP(O)(O)=O)[C@@H](COP(O)(=O)OP(O)(=O)OCC(C)(C)[C@@H](O)C(=O)NCCC(=O)NCCSC(=O)C)O[C@H]1N1C2=NC=NC(N)=C2N=C1 ZSLZBFCDCINBPY-ZSJPKINUSA-N 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 230000009141 biological interaction Effects 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 230000004098 cellular respiration Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- VLMZMRDOMOGGFA-WDBKCZKBSA-N festuclavine Chemical compound C1=CC([C@H]2C[C@H](CN(C)[C@@H]2C2)C)=C3C2=CNC3=C1 VLMZMRDOMOGGFA-WDBKCZKBSA-N 0.000 description 2
- 238000012224 gene deletion Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004060 metabolic process Effects 0.000 description 2
- 230000009456 molecular mechanism Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 239000002547 new drug Substances 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000001991 pathophysiological effect Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000000638 stimulation Effects 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- QIVUCLWGARAQIO-OLIXTKCUSA-N (3s)-n-[(3s,5s,6r)-6-methyl-2-oxo-1-(2,2,2-trifluoroethyl)-5-(2,3,6-trifluorophenyl)piperidin-3-yl]-2-oxospiro[1h-pyrrolo[2,3-b]pyridine-3,6'-5,7-dihydrocyclopenta[b]pyridine]-3'-carboxamide Chemical compound C1([C@H]2[C@H](N(C(=O)[C@@H](NC(=O)C=3C=C4C[C@]5(CC4=NC=3)C3=CC=CN=C3NC5=O)C2)CC(F)(F)F)C)=C(F)C=CC(F)=C1F QIVUCLWGARAQIO-OLIXTKCUSA-N 0.000 description 1
- RTHCYVBBDHJXIQ-MRXNPFEDSA-N (R)-fluoxetine Chemical compound O([C@H](CCNC)C=1C=CC=CC=1)C1=CC=C(C(F)(F)F)C=C1 RTHCYVBBDHJXIQ-MRXNPFEDSA-N 0.000 description 1
- UDKCHVLMFQVBAA-UHFFFAOYSA-M Choline salicylate Chemical compound C[N+](C)(C)CCO.OC1=CC=CC=C1C([O-])=O UDKCHVLMFQVBAA-UHFFFAOYSA-M 0.000 description 1
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 206010013710 Drug interaction Diseases 0.000 description 1
- 101150087364 EXG2 gene Proteins 0.000 description 1
- 102100021710 Endonuclease III-like protein 1 Human genes 0.000 description 1
- 101150094690 GAL1 gene Proteins 0.000 description 1
- 101150015686 GPM2 gene Proteins 0.000 description 1
- 102100028501 Galanin peptides Human genes 0.000 description 1
- 101000965172 Glycine max Isocitrate lyase 1 Proteins 0.000 description 1
- 101000970385 Homo sapiens Endonuclease III-like protein 1 Proteins 0.000 description 1
- 101100121078 Homo sapiens GAL gene Proteins 0.000 description 1
- 101001040270 Homo sapiens Hydroxyacylglutathione hydrolase, mitochondrial Proteins 0.000 description 1
- 101100354855 Homo sapiens PYDC1 gene Proteins 0.000 description 1
- 101000775102 Homo sapiens Transcriptional coactivator YAP1 Proteins 0.000 description 1
- 101000878916 Homo sapiens Uncharacterized protein C17orf80 Proteins 0.000 description 1
- 102100040544 Hydroxyacylglutathione hydrolase, mitochondrial Human genes 0.000 description 1
- 101150028693 LPD1 gene Proteins 0.000 description 1
- 101100455966 Mus musculus Mall gene Proteins 0.000 description 1
- RTHCYVBBDHJXIQ-UHFFFAOYSA-N N-methyl-3-phenyl-3-[4-(trifluoromethyl)phenoxy]propan-1-amine Chemical compound C=1C=CC=CC=1C(CCNC)OC1=CC=C(C(F)(F)F)C=C1 RTHCYVBBDHJXIQ-UHFFFAOYSA-N 0.000 description 1
- 101150040422 NTH2 gene Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000012902 Nervous system disease Diseases 0.000 description 1
- 208000025966 Neurological disease Diseases 0.000 description 1
- 101150010895 PYC1 gene Proteins 0.000 description 1
- 102100039892 Pyrin domain-containing protein 1 Human genes 0.000 description 1
- LCTONWCANYUPML-UHFFFAOYSA-M Pyruvate Chemical compound CC(=O)C([O-])=O LCTONWCANYUPML-UHFFFAOYSA-M 0.000 description 1
- 241000235070 Saccharomyces Species 0.000 description 1
- 101100055273 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ALD5 gene Proteins 0.000 description 1
- 101100439738 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) CIC1 gene Proteins 0.000 description 1
- 101100067685 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GAL1 gene Proteins 0.000 description 1
- 101100018847 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) IME2 gene Proteins 0.000 description 1
- 101100401597 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MIG1 gene Proteins 0.000 description 1
- 101100291256 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MIG3 gene Proteins 0.000 description 1
- 101100023517 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MLS1 gene Proteins 0.000 description 1
- 101100078103 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MSN4 gene Proteins 0.000 description 1
- 101100153859 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) NTH1 gene Proteins 0.000 description 1
- 101100207421 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) NTH2 gene Proteins 0.000 description 1
- 101100350214 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PDA1 gene Proteins 0.000 description 1
- 101100491255 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) YAP1 gene Proteins 0.000 description 1
- 101100276456 Schizosaccharomyces pombe (strain 972 / ATCC 24843) ssn6 gene Proteins 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 102100031873 Transcriptional coactivator YAP1 Human genes 0.000 description 1
- 102100037950 Uncharacterized protein C17orf80 Human genes 0.000 description 1
- 230000036982 action potential Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003281 allosteric effect Effects 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000030833 cell death Effects 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 230000007541 cellular toxicity Effects 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000000975 co-precipitation Methods 0.000 description 1
- 238000002648 combination therapy Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 230000003412 degenerative effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000857 drug effect Effects 0.000 description 1
- 238000007877 drug screening Methods 0.000 description 1
- 230000002124 endocrine Effects 0.000 description 1
- 210000003527 eukaryotic cell Anatomy 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 229960002464 fluoxetine Drugs 0.000 description 1
- 230000004110 gluconeogenesis Effects 0.000 description 1
- 230000007946 glucose deprivation Effects 0.000 description 1
- 150000002303 glucose derivatives Chemical class 0.000 description 1
- 230000034659 glycolysis Effects 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 230000013632 homeostatic process Effects 0.000 description 1
- 239000005556 hormone Substances 0.000 description 1
- 229940088597 hormone Drugs 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 101150026107 ldh1 gene Proteins 0.000 description 1
- 101150041530 ldha gene Proteins 0.000 description 1
- 210000005171 mammalian brain Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 238000001823 molecular biology technique Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000926 neurological effect Effects 0.000 description 1
- 238000002966 oligonucleotide array Methods 0.000 description 1
- 210000003463 organelle Anatomy 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000011458 pharmacological treatment Methods 0.000 description 1
- 230000008288 physiological mechanism Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 229940035613 prozac Drugs 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011155 quantitative monitoring Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 210000002345 respiratory system Anatomy 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011820 transgenic animal model Methods 0.000 description 1
- 238000012301 transgenic model Methods 0.000 description 1
- AZDRQVAHHNSJOQ-XCIZNGPVSA-N trideuterioalumane Chemical compound [2H][Al]([2H])[2H] AZDRQVAHHNSJOQ-XCIZNGPVSA-N 0.000 description 1
- 238000000539 two dimensional gel electrophoresis Methods 0.000 description 1
- 238000009424 underpinning Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/30—Dynamic-time models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/10—Boolean models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
Abstract
La présente invention concerne le domaine de l'analyse intégrative des interactions moléculaires dans un système biologique. Elle porte en particulier sur un procédé d'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique, permettant l'analyse desdites interactions lorsqu'un stimulus est appliqué au modèle dynamique, e n vue notamment de hiérarchiser des molécules biologiques ou de sélectionner d es cibles thérapeutiques vis-à-vis d'un problème biologique donné, pour en particulier définir une action thérapeutique à appliquer auxdites molécules. L'invention porte également sur un système informatique pour l'obtention d'u n modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique, et l'analyse de ces interactions moléculaires lorsqu'un stimulus est appliqué au modèle dynamique, le système informatique comprenant au moin s une unité centrale de traitement de données relié à au moins une base de données expérimentales quantitatives.
Description
METHODE ET SYSTEME DE SELECTION DE CIBLES THERAPEUTIQUES PAR
L'UTILISATION DE RESEAUX DYNAMIQUES D'INTERACTIONS MOLECULAIRES
La présente invention concerne le domaine de l'analyse intégrative des s interactions moléculaires dans un système biologique. Elle porte en particulier sur des méthodes d'obtention et d'analyse des réseaux d'interactions moléculaires biologiques permettant, à partir de l'obtention de données expérimentales, d'identifier et de décrire les fonctionnements de ces interactions à la fois (i) entre des molécules interagissant deux à deux, 1o (ü) au niveau des résultantes des interactions s'exerçant sur une molécule donnée, et (iii) au niveau de l'ensemble du réseau d'intéractions considéré.
Encore plus particulièrement, cette méthode d'analyse permet, une fois les fonctionnements de ces interactions décrits, de prédire les conséquences, sur l'ensemble du réseau d'interactions moléculaires considéré, d'actions Is d'activations ou d'inhibitions des molécules formant ce réseau. Elle permet ainsi notamment d'identifier des cibles thérapeutiques potentielles, de comprendre des mécanismes d'actions de xénobiotiques.
L'un des enjeux actuels majeurs des entreprises biotechnologiques ef 2o pharmaceutiques, est de développer de nouveaux médicaments, plus efficaces, contre la plupart des maladies, notamment (mais non uniquement) les maladies chroniques d'origines multi-factorielles qui représentent l'essentiel de la morbidité et de la mortalité dans les pays développés : maladies cardio-vasculaires, cancers, maladies ?s psychiatriques et neurologiques, maladies immuno-allergiques, maladies endocriniennes (diabète...) etc. Les traitements actuellement disponibles pour la plupart de ces maladies ont des effets purement symptomatiques, souvent insuffisants même du point de vue purement symptomatique, sans action notable sur l'évolution propre de ces maladies, et avec souvent des ~o effets indésirables importants. Par ailleurs, on ne dispose à ce jour d'aucun traitement réellement efficace pour certains syndromes ou maladies qui
L'UTILISATION DE RESEAUX DYNAMIQUES D'INTERACTIONS MOLECULAIRES
La présente invention concerne le domaine de l'analyse intégrative des s interactions moléculaires dans un système biologique. Elle porte en particulier sur des méthodes d'obtention et d'analyse des réseaux d'interactions moléculaires biologiques permettant, à partir de l'obtention de données expérimentales, d'identifier et de décrire les fonctionnements de ces interactions à la fois (i) entre des molécules interagissant deux à deux, 1o (ü) au niveau des résultantes des interactions s'exerçant sur une molécule donnée, et (iii) au niveau de l'ensemble du réseau d'intéractions considéré.
Encore plus particulièrement, cette méthode d'analyse permet, une fois les fonctionnements de ces interactions décrits, de prédire les conséquences, sur l'ensemble du réseau d'interactions moléculaires considéré, d'actions Is d'activations ou d'inhibitions des molécules formant ce réseau. Elle permet ainsi notamment d'identifier des cibles thérapeutiques potentielles, de comprendre des mécanismes d'actions de xénobiotiques.
L'un des enjeux actuels majeurs des entreprises biotechnologiques ef 2o pharmaceutiques, est de développer de nouveaux médicaments, plus efficaces, contre la plupart des maladies, notamment (mais non uniquement) les maladies chroniques d'origines multi-factorielles qui représentent l'essentiel de la morbidité et de la mortalité dans les pays développés : maladies cardio-vasculaires, cancers, maladies ?s psychiatriques et neurologiques, maladies immuno-allergiques, maladies endocriniennes (diabète...) etc. Les traitements actuellement disponibles pour la plupart de ces maladies ont des effets purement symptomatiques, souvent insuffisants même du point de vue purement symptomatique, sans action notable sur l'évolution propre de ces maladies, et avec souvent des ~o effets indésirables importants. Par ailleurs, on ne dispose à ce jour d'aucun traitement réellement efficace pour certains syndromes ou maladies qui
2 représentent des problèmes de santé majeurs, tels que les maladies neuro-dégénératives. La principale raison de cette situation est l'insuffisance actuelle de la compréhension des mécanismes physio-pathologiques aboutissant aux conditions pathologiques concernées, et notamment s l'insuffisance de compréhension des mécanismes physiopathologiques moléculaires.
En effet, la plupart des médicaments existants ont été développés suivant une approche "pharmacologique" (désormais classique), consistant, schématiquement, à tester et sélectionner des molécules thérapeutiques 1o potentielles (un grand nombre d'entre elles étant . obtenues par des méthodes de synthèse organique artificielle, notamment de type chimie combinatoire) sur des modèles physiopathologiques cellulaires et / ou animaux. Ces modèles sont censés reproduire tout ou pa -rtie des symptômes ou des modifications observées dans la pathologie. Cependant, Is une compréhension des mécanismes physiologiques, et notamment des mécanismes moléculaires, mis en jeu dans ces modèles, n'est pas requise pour leur mise en oeuvre. Cette approche, fondée sur le crible à grande échelle de petites molécules de synthèse, présente donc l'avantage d'être relativement peu dépendante de la compréhension fine des processus 2o physio-pathologiques impliqués dans les maladies concernées. Elle présente cependant une limite majeure, à laquelle elle est progressivement arrivée depuis environ deux décennies : sa dépendance vis à vis des modèles physiopathologiques utilisés, avec actuellement un épuisement des modèles génériques. Ceci est notamment lié au fait que la plupart de 2s ces modèles ont été développés dans une logique d'interdépendance réciproque entre l'observation d'effets de molécules thérapeutiques et l'analyse progressive des actions pharmacologiques (moléculaires) de ces molécules. Ces modèles sont donc pour la plupart dépendants des effets pharmacologiques initialement observés, et ne permettent plus que de ~o développer des médicaments d'effets proches de ceux déjà existants. Cette
En effet, la plupart des médicaments existants ont été développés suivant une approche "pharmacologique" (désormais classique), consistant, schématiquement, à tester et sélectionner des molécules thérapeutiques 1o potentielles (un grand nombre d'entre elles étant . obtenues par des méthodes de synthèse organique artificielle, notamment de type chimie combinatoire) sur des modèles physiopathologiques cellulaires et / ou animaux. Ces modèles sont censés reproduire tout ou pa -rtie des symptômes ou des modifications observées dans la pathologie. Cependant, Is une compréhension des mécanismes physiologiques, et notamment des mécanismes moléculaires, mis en jeu dans ces modèles, n'est pas requise pour leur mise en oeuvre. Cette approche, fondée sur le crible à grande échelle de petites molécules de synthèse, présente donc l'avantage d'être relativement peu dépendante de la compréhension fine des processus 2o physio-pathologiques impliqués dans les maladies concernées. Elle présente cependant une limite majeure, à laquelle elle est progressivement arrivée depuis environ deux décennies : sa dépendance vis à vis des modèles physiopathologiques utilisés, avec actuellement un épuisement des modèles génériques. Ceci est notamment lié au fait que la plupart de 2s ces modèles ont été développés dans une logique d'interdépendance réciproque entre l'observation d'effets de molécules thérapeutiques et l'analyse progressive des actions pharmacologiques (moléculaires) de ces molécules. Ces modèles sont donc pour la plupart dépendants des effets pharmacologiques initialement observés, et ne permettent plus que de ~o développer des médicaments d'effets proches de ceux déjà existants. Cette
3 PCT/FR2004/002064 approche a progressivement évolué vers un coût élevé lié à un taux d'échec important dans le développement de nouveaux médicaments.
Le développement de modèles animaux par transgénèse n'a pas, à ce jour, résolu ce problème de l'épuisement des modèles physiopathologiques : en s effet, d'une part il s'avère que les gènes modifiés par transgénèse ne sont en général pas eux-mêmes des cibles thérapeutiques, et d'autre part l'approche de criblage de petites molécules de synthèse nécessite, pour être mise en oeuvre de façon efficace, une orientation de la synthèse, soit par analogie avec des molécules existantes (ce qui ne permet le plus io souvent pas d'innovation thérapeutique importante), soit par la connaissance préalable de la (ou des) molécules) cible(s), auxquelles on n'a pas directement accès par les modèles transgéniques. Par ailleurs, dans .le cas des modèles d'animaux transgéniques de-type knock-out, le fait qu'un gène cible thérapeutique éventuel ait été éliminé empêche tout Is criblage de molécules pharmacologiques potentiellement actives sur ce gène ou la protéine pour laquelle il code.
De ce fait, l'approche qui est de plus en plus mise en oeuvre pour développer de nouveaux traitements pharmacologiques est une autre approche, dite "physiologique" ou "compréhensive", qui consiste à explorer 2o et comprendre les mécanismes physiopathologiques, et notamment les mécanismes physiopathologiques moléculaires, aboutissant à la pathologie concernée, afin de définir les molécules de l'organisme à soigner, qui seront les molécules-cibles (ou "cibles thérapeutiques") des traitements chimiques. L'identification de ces molécules-cibles permet alors, dans un ?s second temps, d'effectuer des cribles de molécules thérapeutiques potentielles de synthèse afin d'identifier celles qui vont modifier directement d'activité biologique de ces cibles thérapeutiques, ou encore d'effectuer des synthèses orientées de telles molécules thérapeutiques lorsque la structure spatiale des molécules-cibles est connue.
3o Schématiquement, dans cette seconde approche, l'accent est mis sur la compréhension des mécanismes moléculaires physiologiques et
Le développement de modèles animaux par transgénèse n'a pas, à ce jour, résolu ce problème de l'épuisement des modèles physiopathologiques : en s effet, d'une part il s'avère que les gènes modifiés par transgénèse ne sont en général pas eux-mêmes des cibles thérapeutiques, et d'autre part l'approche de criblage de petites molécules de synthèse nécessite, pour être mise en oeuvre de façon efficace, une orientation de la synthèse, soit par analogie avec des molécules existantes (ce qui ne permet le plus io souvent pas d'innovation thérapeutique importante), soit par la connaissance préalable de la (ou des) molécules) cible(s), auxquelles on n'a pas directement accès par les modèles transgéniques. Par ailleurs, dans .le cas des modèles d'animaux transgéniques de-type knock-out, le fait qu'un gène cible thérapeutique éventuel ait été éliminé empêche tout Is criblage de molécules pharmacologiques potentiellement actives sur ce gène ou la protéine pour laquelle il code.
De ce fait, l'approche qui est de plus en plus mise en oeuvre pour développer de nouveaux traitements pharmacologiques est une autre approche, dite "physiologique" ou "compréhensive", qui consiste à explorer 2o et comprendre les mécanismes physiopathologiques, et notamment les mécanismes physiopathologiques moléculaires, aboutissant à la pathologie concernée, afin de définir les molécules de l'organisme à soigner, qui seront les molécules-cibles (ou "cibles thérapeutiques") des traitements chimiques. L'identification de ces molécules-cibles permet alors, dans un ?s second temps, d'effectuer des cribles de molécules thérapeutiques potentielles de synthèse afin d'identifier celles qui vont modifier directement d'activité biologique de ces cibles thérapeutiques, ou encore d'effectuer des synthèses orientées de telles molécules thérapeutiques lorsque la structure spatiale des molécules-cibles est connue.
3o Schématiquement, dans cette seconde approche, l'accent est mis sur la compréhension des mécanismes moléculaires physiologiques et
4 physiopathologiques sous-tendant la maladie. Cette approche est elle aussi ancienne, puisqu'elle a débuté avec des techniques et méthodes de chimie organique permettant d'identifier et d'analyser des molécules intra-cellulaires (par exemple : description du cycle de ICrebs), et elle s'est s développée en intégrant les techniques et méthodes de la biologie moléculaire depuis environ 15 - ê0 ans (séquençage d'acides nucléiques, clonage, transgénèse...). II ne s'agit donc pas d'utiliser un modèle cellulaire ou animal physiopathologique pour cribler des petites molécules de synthèse à la recherche d'un effet thérapeutique, mais d'analyser d'abord 1o le processus pathologique dans ces modèles (ou, lorsque c'est possible, directement chez l'Homme) afin de déterminer les cascades d'évènements moléculaires menant à l'état pathologique pour identifier des cibles thérapeutiques potentielles. L'étape de synthèse de nouvelles molécules thérapeutiques n'intervient donc que dans un second temps.
1s Cette approche "compréhensive" a aussi permis le développement de médicaments, mais elle s'est longtemps heurté à une limite majeure jusqu'au milieu des années 1990, il était extrêmement difficile d'étudier plus d'une ou deux molécules en méme temps. En conséquence, les cascades d'événements moléculaires décrites n'incluaient que quelques dizaines de 2o molécules dans le meilleur des cas, alors que plusieurs dizaines de milliers de molécules différentes sont présentes dans une cellule eucaryote donnée. Cette approche ne permettait donc pas d'étudier les processus pathologiques en intégrant la complexité de ces processus, ceci particulièrement en ce qui concerne les maladies à déterminisme multi-2s factoriel. Enfin, sa logique tendait vers l'identification de cibles thérapeutiques uniques, mal adaptées pour soigner des maladies où une action sur une seule cible n'est pas suffisante. De fait, dans la plupart de ces maladies, la focalisation des traitements sur des actions pharmacologiques limitées s'est accompagnée de l'augmentation en miroir 3o du nombre de médicaments prescrits à un méme patient (ainsi, la plupart des maladies cardio-vasculaires, des maladies psychiatriques, etc. sont s aujourd'hui traitées par poly-thérapie, et avec souvent des effets insuffisants et des interactions médicamenteuses difficiles à gérer et parfois néfastes). Les progrès enregistrés par cette approche ont essentiellement concerné la diminution des effets indésirables des traitements (ceux-ci s ayant des actions moléculaires plus ciblées), sans être pour autant accompagnés d'une amélioration notable des effets thérapeutiques (un exemple en est le développement de la fluoxetine (Prozac ~).
Dans ce contexte, il était crucial de pouvoir passer d'une analyse des processus pathologiques molécule par molécule à une analyse en parallèle io de l'ensemble des molécules impliquées, permettant seule de rendre compte de la complexité de ces processus pathologiques.
Ceci a été rendu partiellement possible depuis la fin des années 1990 par deux processus parallèles : d-'une part l'identification d'une grande partie des molécules constitutives d'organismes vivants tels que l'homme et Is certains animaux modèles (séquençage de génomes entiers, identification en cours de l'ensemble des gènes présents dans ces génomes, déduction en cours des protéines correspondantes), et, d'autre part, le développement de techniques de biologie moléculaire qui permettent d'étudier un grand nombre de molécules différentes dans un même tissu.
2o La plus significative de ces techniques, citée ici à titre d'exemple, est celle des puces à ADN permettant l'analyse en parallèle de virtuellement tous les ARN messagers présents dans un type cellulaire ou un tissu donné
(Schena et al., 1995, Quantitative monitoring of Bene expression patterns with a eomplementary DNA microarray, Science 270: 467-470; Lockhort et as al., 1996, Expression monitoring by hybridization to high-density oligonucleotide arrays, Nature Biotechnology 14:1675-1680; Blanchard et al., 1996, Sequence to array: Probing the genome's secrets, Nature Biotechnology 14, 1649; brevet U.S. No. 5,569,588, publié le 29 Oct. 1996, Ashby et al., pour Methods for Drug Screening). Des méthodes d'analyse 3o protéique à grande échelle ont aussi été développées, telles que l'utilisation d'hybrides dans la levure, le couplage électrophorèse 2D - spectrographie de masse, etc (McCormacket al., 1997, Direct analysis and identification of proteins in mixtures by LC,MS,MS and database searching at the low femtomole level, Anal. Chem. 69(4):767-776; Chait, Trawling for proteins in the post-genome era, Nature ~iotechnology 14:1544) ou sont actuellement s en cours de développement (notamment la co-précipitation à .grande échelle de protéines sur micro-colonnes).
Cependant, à ce jour, ces évolutions technologiques ont mené à la génération d'une grande masse de données biologiques, toujours croissante, sans que des techniques et méthodes satisfaisantes d'analyse 1o et d'exploitation de ces données n'aient été développées. Ceci a entraîné
le développement d'outils de biologie intégrative pour ~ les interpréter et sélectionner des cibles thérapeutiques pertinentes parmi une grande masse de données expérimentales générées.
Les méthodes de biologie intégrative visent à analyser le rôle des molécules présentes dans l'organisme à soigner en tenant compte (donc en intégrant) dans cette analyse des autres molécules avec lesquelles elles interagissent. Leur objectif est donc de permettre d'obtenir des modèles 2o des cascades (ou réseaux) d'interactions moléculaires du vivant, notamment de celles impliquées dans les processus pathologiques. Dans le contexte de la sélection de cibles thérapeutiques, de tels modèles visent à étre appliqués pour sélectionner ces cibles. Plus précisément, une telle application doit permettre de prédire les conséquences des actions 2s d'activation ou d'inhibition des molécules du réseau, afin d'identifier celles qui auront un effet thérapeutique. II n'est envisageable de réaliser de telles prédictions à grande échelle et de façon suffisamment fiable que si le modèle permet de pratiquer des simulations systématiques des effets d'actions d'inhibition ou d'activation des molécules de la cascade.
Les méthodes de modélisation proposées aujourd'hui sont d'une part, des méthodes produisant des modèles statiques et, d'autre part, des méthodes produisant des modèles dynamiques.
Les méthodes de modélisation produisant des modèles statiques consistent s à construire des graphes statiques représentant des cascades d'interactions de molécules biologiques à partir de données de la littérature scientifique (publications dans des revues, analyse de profils d'expressions de molécules, prise en compte de données de séquences, etc.). Le graphe résultant peut être représenté sous la forme d'un schéma, le plus souvent 1o en deux dimensions, dont les nceuds (ou sommets) du graphe sont les molécules, et où ces noeuds sont reliés par des trait ou des flèches (ou arcs, ou sommets du graphe) représentant les interactions entre les molécules. Des exemples de graphes statiques sont ceux construits dans diverses bases de données publiques telles que par exemple la base is KEGG (M. Kanehisa and S. Goto : KEGG : Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Research, 28(1) : 27-30, 2000).
Cette méthode de modélisation aboutit à des résultats purement qualitatifs.
Elle ne suffit pas à la mise en oeuvre de simulations quantitatives et dynamiques pour prédire les effets d'actions sur des cibles thérapeutiques 2o potentielles. Cette limite est source d'un taux d'erreurs très important dans la sélection des cibles. De plus, il est extrêmement difficile pour un expert biologiste d'analyser de façon cohérente un graphe de plus de quelques dizaines de molécules, et cela devient impossible pour des graphes de plus d'une centaine de molécules. En conséquence, les cascades d'interactions ?s moléculaires analysées sont de taille très réduite par rapport aux cascades réellement mises en jeu dans les organismes vivants, donc très incomplètes, et cette méthode ne permet pas de chercher des cibles de façon exhaustive. Mise en oeuvre seule, elle est donc insuffisante au regard des enjeux cités plus haut.
~o Dans les méthodes produisant des modèles dynamiques, les graphes statiques représentant les cascades d'interactions moléculaires sont utilisés pour créer des modèles dynamiques de ces graphes, reproduisant autant que faire se peut le comportement dynamique de la cascade biologique étudiée (ou voie biologique). Les méthodes utilisées à ce jour pour réaliser de tels modèles sont s Les méthodes qualitatives - La méthode des réseaux booléens.
- La méthode des formalismes logiques généralisés.
- La méthode des formalismes fondés sur des règles (aussi appelés "rule-baseei" ou "knowledge-based").
1o Les méthodes probabilistes - La méthode des équations stochastiques.
- La méthode des réseaux Bayésiens.
Les méthodes d'équations différentielles - La méthode des équations différentielles ordinaires non linéaires.
1s - La méthode des équations différentielles décomposées-linéaires (piecewise-linear differential equations).
- La méthode des équations différentielles partielles et modèles de' distribution spatiale.
Les méthodes mixtes 20 - La méthode des équations différentielles qualitatives.
Les principes sous jacents à ces différentes méthodes sont résumés dans le tableau 1 ci-dessous.
(1) (2) (3) (4) (5) Mthode Intgration FormalismeVariables FonctionsModle de donnes utilises continuesdterministe quantitatives Mthodes qualitatives Rseaux Partielle On/off DiscrtisationNon Non boolens de x;
Formalismes Partielle DiscrtisationDiscrtisationNon Non logiques des variablesde x;
nraliss Formalismes Non On/off Variables Non Non non "ride-based" quantitatives Mthodes probabilistes : -Equations Oui Probabilitx; Oui Non stochastiques de raction chimi ue Rseaux Oui Probabilitx; Oui - Non Baysiens de raction chimique Mthodes d'quations diffrentielles , :
Equations Oui Synthse/ x; Oui Oui diffrentielles Dgradation ordinaires non linaires Equations Oui Synthse/ x; Oui Oui diffrentielles Dgradation linaires Equations Oui Synthse/ x; Oui Oui diffrentielles Dgradation/
artielles Diffusion Mthodes m ixtes Equations Oui Synthse! DiscrtisationNon Non diffrentielles Dgradationde x;
et qualitatives Discrtisation des variables Tableau 1 :Comparaison des méthodes de modélisation : principes sous jacents Ce tableau doit être lu en considérant les éléments suivants (1 ) Intégration de données quantitatives : certaines méthodes ne sont pas conçues pour utiliser et analyser des données quantitatives expérimentales biologiques (formalismes cule-basec~, ou les modifient de façon importante lorsqu'elles imposent une discrétisation des variables (réseaux booléens, s etc.), d'où la notation : intégration "partielle". Ces méthodes ont toutes été
initialement conçues pour s'affranchir au maximum de telles données. Ceci les limite dans leur fiabilité et dans leur possibilité d'application pour la recherche systématique de cibles thérapeutiques sur de grands réseaux.
(2) Formalisme : il s'agit des principes de représentation des interactions 1o biologiques utilisés dans la méthode. ~n/off : les molécules sont soit présentes, soit absentes, sans état intermédiaire possible. Discrétisation des variables : le taux des molécules peut prendre un nombre limité de valeurs finies ; il s'agit d'un raffinement du formalisme.précédent,.-mais qui représente mal la réalité biologique où les taux des molécules varient de 1s façon continue. Probabilité de réaction chimique : spécifique des méthodes probabilistes où l'évolution du réseau est liée à la probabilité estimée des évènements moléculaires individuels. Synthèse/ Dégradation : les effets des interactions sont représentées comme limités à des réactions de synthèse ou de dégradation des molécules, ces représentations étant 2o celles des équations élémentaires de chimie, en général limitées à la loi d'action de masse (dont l'expression élémentaire est : si A+B-~C, à
l'équilibre : [C]=k1 [A][B]). Diffusion : la diffusion des molécules dans le système biologique étudié ou hors du système biologique étudié (par exemple une cellule) est aussi prise en compte, comme équivalente à une ~s synthèse ou à une dégradation (respectivement) au sein du système.
(3) Variables utilisées : toutes les méthodes existantes définissent les variables comme étant le taux, ou la concentration, ou la quantité totale, des molécules, noté ici x; pour la molécule i , et non sa proportion de variation par rapport à un état étalon x;0.
(4) Fonctions continues : pour une fonction continue, les variables changent de façon continue (comme c'est le cas dans les systèmes biologiques réels) et non discrète.
1s Cette approche "compréhensive" a aussi permis le développement de médicaments, mais elle s'est longtemps heurté à une limite majeure jusqu'au milieu des années 1990, il était extrêmement difficile d'étudier plus d'une ou deux molécules en méme temps. En conséquence, les cascades d'événements moléculaires décrites n'incluaient que quelques dizaines de 2o molécules dans le meilleur des cas, alors que plusieurs dizaines de milliers de molécules différentes sont présentes dans une cellule eucaryote donnée. Cette approche ne permettait donc pas d'étudier les processus pathologiques en intégrant la complexité de ces processus, ceci particulièrement en ce qui concerne les maladies à déterminisme multi-2s factoriel. Enfin, sa logique tendait vers l'identification de cibles thérapeutiques uniques, mal adaptées pour soigner des maladies où une action sur une seule cible n'est pas suffisante. De fait, dans la plupart de ces maladies, la focalisation des traitements sur des actions pharmacologiques limitées s'est accompagnée de l'augmentation en miroir 3o du nombre de médicaments prescrits à un méme patient (ainsi, la plupart des maladies cardio-vasculaires, des maladies psychiatriques, etc. sont s aujourd'hui traitées par poly-thérapie, et avec souvent des effets insuffisants et des interactions médicamenteuses difficiles à gérer et parfois néfastes). Les progrès enregistrés par cette approche ont essentiellement concerné la diminution des effets indésirables des traitements (ceux-ci s ayant des actions moléculaires plus ciblées), sans être pour autant accompagnés d'une amélioration notable des effets thérapeutiques (un exemple en est le développement de la fluoxetine (Prozac ~).
Dans ce contexte, il était crucial de pouvoir passer d'une analyse des processus pathologiques molécule par molécule à une analyse en parallèle io de l'ensemble des molécules impliquées, permettant seule de rendre compte de la complexité de ces processus pathologiques.
Ceci a été rendu partiellement possible depuis la fin des années 1990 par deux processus parallèles : d-'une part l'identification d'une grande partie des molécules constitutives d'organismes vivants tels que l'homme et Is certains animaux modèles (séquençage de génomes entiers, identification en cours de l'ensemble des gènes présents dans ces génomes, déduction en cours des protéines correspondantes), et, d'autre part, le développement de techniques de biologie moléculaire qui permettent d'étudier un grand nombre de molécules différentes dans un même tissu.
2o La plus significative de ces techniques, citée ici à titre d'exemple, est celle des puces à ADN permettant l'analyse en parallèle de virtuellement tous les ARN messagers présents dans un type cellulaire ou un tissu donné
(Schena et al., 1995, Quantitative monitoring of Bene expression patterns with a eomplementary DNA microarray, Science 270: 467-470; Lockhort et as al., 1996, Expression monitoring by hybridization to high-density oligonucleotide arrays, Nature Biotechnology 14:1675-1680; Blanchard et al., 1996, Sequence to array: Probing the genome's secrets, Nature Biotechnology 14, 1649; brevet U.S. No. 5,569,588, publié le 29 Oct. 1996, Ashby et al., pour Methods for Drug Screening). Des méthodes d'analyse 3o protéique à grande échelle ont aussi été développées, telles que l'utilisation d'hybrides dans la levure, le couplage électrophorèse 2D - spectrographie de masse, etc (McCormacket al., 1997, Direct analysis and identification of proteins in mixtures by LC,MS,MS and database searching at the low femtomole level, Anal. Chem. 69(4):767-776; Chait, Trawling for proteins in the post-genome era, Nature ~iotechnology 14:1544) ou sont actuellement s en cours de développement (notamment la co-précipitation à .grande échelle de protéines sur micro-colonnes).
Cependant, à ce jour, ces évolutions technologiques ont mené à la génération d'une grande masse de données biologiques, toujours croissante, sans que des techniques et méthodes satisfaisantes d'analyse 1o et d'exploitation de ces données n'aient été développées. Ceci a entraîné
le développement d'outils de biologie intégrative pour ~ les interpréter et sélectionner des cibles thérapeutiques pertinentes parmi une grande masse de données expérimentales générées.
Les méthodes de biologie intégrative visent à analyser le rôle des molécules présentes dans l'organisme à soigner en tenant compte (donc en intégrant) dans cette analyse des autres molécules avec lesquelles elles interagissent. Leur objectif est donc de permettre d'obtenir des modèles 2o des cascades (ou réseaux) d'interactions moléculaires du vivant, notamment de celles impliquées dans les processus pathologiques. Dans le contexte de la sélection de cibles thérapeutiques, de tels modèles visent à étre appliqués pour sélectionner ces cibles. Plus précisément, une telle application doit permettre de prédire les conséquences des actions 2s d'activation ou d'inhibition des molécules du réseau, afin d'identifier celles qui auront un effet thérapeutique. II n'est envisageable de réaliser de telles prédictions à grande échelle et de façon suffisamment fiable que si le modèle permet de pratiquer des simulations systématiques des effets d'actions d'inhibition ou d'activation des molécules de la cascade.
Les méthodes de modélisation proposées aujourd'hui sont d'une part, des méthodes produisant des modèles statiques et, d'autre part, des méthodes produisant des modèles dynamiques.
Les méthodes de modélisation produisant des modèles statiques consistent s à construire des graphes statiques représentant des cascades d'interactions de molécules biologiques à partir de données de la littérature scientifique (publications dans des revues, analyse de profils d'expressions de molécules, prise en compte de données de séquences, etc.). Le graphe résultant peut être représenté sous la forme d'un schéma, le plus souvent 1o en deux dimensions, dont les nceuds (ou sommets) du graphe sont les molécules, et où ces noeuds sont reliés par des trait ou des flèches (ou arcs, ou sommets du graphe) représentant les interactions entre les molécules. Des exemples de graphes statiques sont ceux construits dans diverses bases de données publiques telles que par exemple la base is KEGG (M. Kanehisa and S. Goto : KEGG : Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Research, 28(1) : 27-30, 2000).
Cette méthode de modélisation aboutit à des résultats purement qualitatifs.
Elle ne suffit pas à la mise en oeuvre de simulations quantitatives et dynamiques pour prédire les effets d'actions sur des cibles thérapeutiques 2o potentielles. Cette limite est source d'un taux d'erreurs très important dans la sélection des cibles. De plus, il est extrêmement difficile pour un expert biologiste d'analyser de façon cohérente un graphe de plus de quelques dizaines de molécules, et cela devient impossible pour des graphes de plus d'une centaine de molécules. En conséquence, les cascades d'interactions ?s moléculaires analysées sont de taille très réduite par rapport aux cascades réellement mises en jeu dans les organismes vivants, donc très incomplètes, et cette méthode ne permet pas de chercher des cibles de façon exhaustive. Mise en oeuvre seule, elle est donc insuffisante au regard des enjeux cités plus haut.
~o Dans les méthodes produisant des modèles dynamiques, les graphes statiques représentant les cascades d'interactions moléculaires sont utilisés pour créer des modèles dynamiques de ces graphes, reproduisant autant que faire se peut le comportement dynamique de la cascade biologique étudiée (ou voie biologique). Les méthodes utilisées à ce jour pour réaliser de tels modèles sont s Les méthodes qualitatives - La méthode des réseaux booléens.
- La méthode des formalismes logiques généralisés.
- La méthode des formalismes fondés sur des règles (aussi appelés "rule-baseei" ou "knowledge-based").
1o Les méthodes probabilistes - La méthode des équations stochastiques.
- La méthode des réseaux Bayésiens.
Les méthodes d'équations différentielles - La méthode des équations différentielles ordinaires non linéaires.
1s - La méthode des équations différentielles décomposées-linéaires (piecewise-linear differential equations).
- La méthode des équations différentielles partielles et modèles de' distribution spatiale.
Les méthodes mixtes 20 - La méthode des équations différentielles qualitatives.
Les principes sous jacents à ces différentes méthodes sont résumés dans le tableau 1 ci-dessous.
(1) (2) (3) (4) (5) Mthode Intgration FormalismeVariables FonctionsModle de donnes utilises continuesdterministe quantitatives Mthodes qualitatives Rseaux Partielle On/off DiscrtisationNon Non boolens de x;
Formalismes Partielle DiscrtisationDiscrtisationNon Non logiques des variablesde x;
nraliss Formalismes Non On/off Variables Non Non non "ride-based" quantitatives Mthodes probabilistes : -Equations Oui Probabilitx; Oui Non stochastiques de raction chimi ue Rseaux Oui Probabilitx; Oui - Non Baysiens de raction chimique Mthodes d'quations diffrentielles , :
Equations Oui Synthse/ x; Oui Oui diffrentielles Dgradation ordinaires non linaires Equations Oui Synthse/ x; Oui Oui diffrentielles Dgradation linaires Equations Oui Synthse/ x; Oui Oui diffrentielles Dgradation/
artielles Diffusion Mthodes m ixtes Equations Oui Synthse! DiscrtisationNon Non diffrentielles Dgradationde x;
et qualitatives Discrtisation des variables Tableau 1 :Comparaison des méthodes de modélisation : principes sous jacents Ce tableau doit être lu en considérant les éléments suivants (1 ) Intégration de données quantitatives : certaines méthodes ne sont pas conçues pour utiliser et analyser des données quantitatives expérimentales biologiques (formalismes cule-basec~, ou les modifient de façon importante lorsqu'elles imposent une discrétisation des variables (réseaux booléens, s etc.), d'où la notation : intégration "partielle". Ces méthodes ont toutes été
initialement conçues pour s'affranchir au maximum de telles données. Ceci les limite dans leur fiabilité et dans leur possibilité d'application pour la recherche systématique de cibles thérapeutiques sur de grands réseaux.
(2) Formalisme : il s'agit des principes de représentation des interactions 1o biologiques utilisés dans la méthode. ~n/off : les molécules sont soit présentes, soit absentes, sans état intermédiaire possible. Discrétisation des variables : le taux des molécules peut prendre un nombre limité de valeurs finies ; il s'agit d'un raffinement du formalisme.précédent,.-mais qui représente mal la réalité biologique où les taux des molécules varient de 1s façon continue. Probabilité de réaction chimique : spécifique des méthodes probabilistes où l'évolution du réseau est liée à la probabilité estimée des évènements moléculaires individuels. Synthèse/ Dégradation : les effets des interactions sont représentées comme limités à des réactions de synthèse ou de dégradation des molécules, ces représentations étant 2o celles des équations élémentaires de chimie, en général limitées à la loi d'action de masse (dont l'expression élémentaire est : si A+B-~C, à
l'équilibre : [C]=k1 [A][B]). Diffusion : la diffusion des molécules dans le système biologique étudié ou hors du système biologique étudié (par exemple une cellule) est aussi prise en compte, comme équivalente à une ~s synthèse ou à une dégradation (respectivement) au sein du système.
(3) Variables utilisées : toutes les méthodes existantes définissent les variables comme étant le taux, ou la concentration, ou la quantité totale, des molécules, noté ici x; pour la molécule i , et non sa proportion de variation par rapport à un état étalon x;0.
(4) Fonctions continues : pour une fonction continue, les variables changent de façon continue (comme c'est le cas dans les systèmes biologiques réels) et non discrète.
(5) Modèle déterministe : une fois le modèle calculé, le réseau ne peut s passer d'un état à un autre que par un seul chemin (séquence. unique d'états intermédiaires). Le fait qu'un modèle soit déterministe permet d'obtenir une croissance linéaire de la quantité de calculs lors des simulations. A l'inverse, dans les modèles non déterministes, la quantité de calcul requise lors des simulations tend à croitre de façon exponentielle 1o avec la taille du réseau, pouvant aboutir à une impossibilité de mise en oeuvre pour de grands réseaux.
Du fait de leurs .caractéristiques résumées dans le tableau 1, ces différentes méthodes nécessitent des pré-requis et sont utilisables dans 1s des applications qui sont résumées dans le tableau 2 ci-dessous Pr-requis Applications (1) (2) (3) (4) (5) Niveau CroissanceTaille Applicable Mise en aeuvre requis de de la maximale des rseaux pour de connaissancequantit rseau mis de 1000 l'identification de Mthode fonctionnellecalcul en aeuvr 100000 , systmatique de du rseau requise molcules cibles en biologiquefonction thrapeutiques de la taille du rseau Mthodes qualitatives Rseaux <100 C C Non Non boolens molcules Formalismes <100 logiques C C Non Non nraliss molcules .
Formalismes <100 C B Non Non " cule-based molcules "
Mthds -.
probabilistes Equations B C <100 Non Non stochastiques molcules Rseaux <100 A C Non Non Ea siens molcules Mthodes d'quations .
diffrentielles Equations diffrentielles <100 C ~
ordinaires molcules Non Non non linaires Equations <100 diffrentiellesC A Non Non linaires molcules Equations diffrentiellesC C Non Non artielles molc ules Mthodes -m ixtes Equations <100 diffrentiellesC C Non Non ualitatives molcules I arceau z : comparaison des méthodes de modélisation de l'art antérieur : pré-requis et applications possibles Le tableau 2 doit étre lu en considérant les éléments suivants (1) Connaissance fonctionnelle du réseau biologique Niveau A : connaissance de l'existence en soi des interactions moléculaires, et au moins une partie de leurs orientations et une partie des effets des interactions (activation/ inhibition ou synthèse/ dégradation).
s Seule fa connaissance de niveau A est largement disponible à ce jour. Par conséquent, seule une méthode ne requérant qu'une connaissance de niveau A peut être appliquée à des réseaux étendus.
Niveau S : niveau A avec toutes les orientations des interactions et de tous les effets des interactions. .
1o Niveau C : connaissance fonctionnelle étendue du réseau, c'est-à-diré
niveau S plus d'autres données telles que : constantes des vitesses des réactions chimiques, description d'effets de seuil, description d'effets allostériques, etc. A ce jour, quel que soit l'organisme vivant considéré, pour la plupart des molécules des réseaux d'interactions moléculaires les 1s connaissances de niveau C ne sont pas disponibles. Une description fonctionnelle détaillée du réseau biologique est nécessaire à la mise en pauvre de la méthode lorsque des connaissances de niveau C sont requises. Du fait de l'indisponibilité des connaissances de niveau C pour la plupart des molécules, toute méthode requérant ce type de connaissance 2o pour sa mise en pauvre ne peut être appliquée qu'à de très petits réseaux bien étudiés et connus (quelques dizaines de molécules au maximum) et est de fait inadaptée à son application à de grands réseaux (de plus de 100 à 150 molécules).
(2) Puissance de calcul 2s Niveau A : croissance linéaire avec la taille du réseau (en nombre de molécules) de la quantité de calcul requise. Ceci correspond à la possibilité
de mise en oeuvre sur un serveur de puissance standard (grand public).
Les méthodes mettant en pauvre des calculs dont la quantité croît de façon linéaire avec la taille du réseau peuvent être appliquées à des réseaux 3o étendus (sous réserve de ne pas présenter d'autre limite à cette application).
Niveau B : croissance de la quantité de calcul intermédiaire entre les cas A
et C. Les méthodes mettant en ceuvre des calculs dont la quantité croît de façon intermédiaire entre A et C sont théoriquement applicables à des réseaux étendus mais à un coût élevé voire très élevé (et sous réserve de s ne pas présenter d'autre limite à cette application).
Niveau C : croissance exponentielle avec la taille du réseau (en nombre de molécules) de la quantité de calcul requise. Toute méthode mettant en oeuvre des calculs dont la quantité croît de façon exponentielle avec la taille du réseau requiert une très grande puissance de calcul. A titre d'exemple, 1o certaines applications des réseaux bayésiens nécessitent environ 30 minutes de temps de calcul sur un serveur équipé d'un processeur de 1,2 Giga Hertz pour un réseau de 8 molécules : sur un réseau de 32 molécules, le temps de calcul sur le même ordinateur serait dans ce cas de plus d'un an et demi. En pratique, même avec des ordinateurs les plus 1s puissants actuels les méthodes présentant une croissance exponentielle du temps de calcul ne sont pas applicables à de grands ou très grands réseaux (quelques milliers à quelques dizaines de milliers de molécules et plus ; certaines d'entre elles ne sont pas applicables même à des réseaux de quelques centaines de molécules).
20 (3) Taille maximale de réseau mis en oeuvre : il s'agit de la taille maximale des réseaux sur lesquelles la méthode a pu être mise en pauvre à ce jour avec succès.
(4) Applicable à des réseaux de 1000 à 100000 molécules : cette possibilité
d'application est liée (i) aux principes intrinsèques de la méthode (par 2s exemple les réseaux Bayésiens, qui sont des réseaux linéaires et donc non adaptés à de grands réseaux biologiques comprenant des boucles de rétro-contrôle ne peuvent pas étre appliqués à de grands réseaux), (ü) au niveau A, B ou C de connaissance fonctionnelle du réseau biologique requise, la nécessité d'une connaissance de niveau C rendant de fait la méthode ~o inadaptée aux grands réseaux, et la nécessité d'une connaissance de niveau B la rendant très difficilement applicable à de tels réseaux, et (iii) à
la puissance de calcul requise (niveaux A, B ou C), une croissance du temps de calcul de niveau C étant de fait non compatible avec une mise en oeuvre sur de grands réseaux, et une croissance de niveau B rendant la méthode trés difFicilement applicable à de tels réseaux.
s (5) Mise en oeuvre pour l'identification systématique de cibles thérapeutiques : il s'agit de la mise en oeuvre effective de la méthode dans une recherche systématique de cibles au sein du réseau, sans a priori.
Aucune des méthodes existantes n'a pu être mise en ouvre dans cette application à ce jour.
1o Toutes ces méthodes sont peu fiables dans leurs prédictions dès lors que le réseau dépasse une cinquantaine de molécules. Elles sont donc mal adaptées pour réaliser des modèles dynamiques corrects des réseaux d'interactions moléculaires des organismes vivants qui présentent les 1s caractéristiques suivantes - un grand nombre de types moléculaires différents sont impliqués de quelques centaines à quelques draines de milliers, voire centaine de milliers, - les cascades mettent en jeu des boucles de rétro-action, avec une ao redondance des circuits, - les vitesses de propagation des activations / inhibitions des molécules au sein des réseaux sont différentes en fonction des circuits (i.e. des chemins de propagation au sein du réseau), - des réseaux extrêmement complexes difficiles à modéliser.
2s Pour être réellement applicable à la prise en compte des données de génomique, transcriptomique et protéomique produites à grande échelle, dans un objéctif d'identification systématique de cibles thérapeutiques, les modèles dynamïques construits doivent permettre de modéliser des cascades d'interactions moléculaires telles que décrites ci-dessus.
~o Le fait de produire un modèle de la dynamique d'un réseau d'interactions moléculaires biologiques ne suffit pas en soi pour pouvoir sélectionner de façon fiable et rationnelle de nouvelles cibles thérapeutiques. A ce jour, toutes les méthodes développées n'ont pu étre appliquées qu'à la simple s description de processus moléculaires dans des réseaux biologiques de petite taille (quelques draines de molécules au plus) et à quelques simulations visant à reproduire des modifications connues du réseau.
Aucune n'a éfié appliquée à la sélection systématique de cibles thérapeutiques parmi l'ensemble des molécules du réseau, y compris sur 1o ces petits réseaux, et a f~rti~ri sur de grands réseaux. En effet, une telle application requiert la mise en oeuvre d'une stratégie de simulations appropriée, telle que décrite dans l'invention, et qui n'a pas été décrite avec les méthodes -existantes (et pour certaines d'entre elles, n'est pas applicable mëme sur de petits réseaux).
1s Cette application, à savoir la sélection de cibles thérapeutiques à partir de modélisations dynamiques des réseaux d'interactions moléculaires de grande taille effectivement mis en jeu dans les processus pathologiques n'est donc pas atteint par les méthodes décrites à ce jour.
La présente invention a pour objectif de fournir une méthode d'obtention de 2o modèles dynamiques de réseaux d'interactions moléculaires dans un système biologique, qui rendent possibles ce type d'applications. .
Pour une bonne intelligibilité de ce texte, un certain nombre de termes sont définis ci-dessous.
Par interaction moléculaire entre deux (ou plus) molécules biologiques, il 2s est entendu ici une interaction où une molécule (ou plus) active ou inhibe une autre molécule (ou plus). Le cas où une molécule d'un type donné
interagit avec une autre molécule du même type n'est qu'un cas particulier de cette définition générale. Deux molécules sont définies ici comme étant du même type si elles ont la même formule chimique.
~o L'activation (ou l'inhibition, respectivement) est définie ici comme l'augmentation (ou la diminution, respectivement) de l'activité biologique de la (ou des) molécules) sur laquelle (ou lesquelles) s'exerce l'interaction considérée. Cette augmentation (ou cette diminution, respectivement) de l'activité biologique peut correspondre soit à une augmentation (ou une diminution, respectivement) du nombre de molécules d'un type donné
s présentes dans le système biologique analysé, chacune gardant la même activité (ou fonction) biologique, soit à une augmentation (ou une diminution, respectivement) de l'activité des molécules d'un type donné, leur nombre restant constant, soit à une combinaison de ces deux mécanismes, soit à la résultante de ces deux mécanismes. L'activation (ou 1o l'inhibition, respectivement) peut aussi être :la qonséquence d'une augmentation (ou d'une diminution, respectivement) du nombre de molécules associée à une diminution . (ou une augmentation, respectivement) de leur activité biologique, si la résultante globale en est une augmentation globale (ou une diminution globale, respectivement) de 1s l'activité, et vice-versa.
L'activation (ou l'inhibition, respectivement) peut être non-nulle ou nulle en fonction des molécules considérées et du système biologique considéré.
Elle peut être variable au cours du temps. Le fait que certaines interactions du réseau d'interactions moléculaires considéré correspondent à une 2o activation (ou une inhibition, respectivement) nulle n'est qu'un cas particulier du champ de l'invention. .
L'aetivité biologique d'une (ou de) molécules) biologiques) considérées) correspond à toute capacité de la (ou des) molécules considérées à avoir une interaction chimique etlou physique avec toute autre molécule d'un 2s autre type (ou avec une autre molécule du même type). Cette interaction chimique et/ou physique peut résulter ou non dans l'acquisition (ou la perte) par une des molécules interagissant de capacités à avoir une interaction chimique etlou physique avec toute autre molécule d'un autre type (ou avec une autre molécule du même type). Les interactions chimiques sont toute ~o interaction entre deux molécules (ou plus) provoquant une réaction chimique (pouvant être représentée par une modification de la formule chimique d'une molécule, ou la synthèse, ou la dégradation d'une molécule). Les interactions physiques sont toute interaction entre deux molécules (ou plus) provoquant la formation d'un complexe stable ou instable entre ces molécules. Des exemples d'activités biologiques de s molécules et d'interactions moléculaires correspondantes sont (de façon non exclusive) : l'activité d'activation de la transcription d'un gène donné
(interaction moléculaire : protéine (facteur de transcription) - ADN), l'activité. de mise en oeuvre d'une réaction chimique (interaction moléculaire : protéine (enzyme) - molécule (substrat), permettant la 1o transformation de la molécule-substrat en molécule-produit de la réaction chimique), l'activité de formation d'un complexe moléculaire protéique ayant lui-méme telle ou telle activité biologique (interaction moléculaire protéine - (sous-unité -du complexe) - protéine (sous-unité du complexe)), etc.
1s Par m~lécule bi~logique, il est entendu ici toute molécule, quelle que soit sa complexité, présente dans le système biologique considéré.
Par système bi~logique, il est entendu ici tout organisme vivant, qu'il soit procaryote ou eucaryote, et qu'il soit unicellulaire ou pluricellulaire, et que le système biologique corresponde à cet organisme dans son entier ou à une 2o partie de cet organisme. A titre d'exemples, on peut citer Organismes entiers - Une cellule (eucaryote ou procaryote) dans son ensemble.
- Un ensemble de cellules interagissant directement ou indirectement entre elles, ou n'interagissant pas entre elles 2s 0 l'ensemble des cellules en culture dans une boite de Pétri ;
0 l'ensemble des cellules en formant un organe ou une partie de cet organe : noyau amygdalien d'un cerveau de mammifère.
- Un être vivant pluricellulaire.
- Les différents exemples plus leur environnement.
~o Partie d'un organisme - Un organelle d'une cellule, tel qu'une mitochondrie.
- Un ensemble de molécules participant à une fonction biologique donnée, tel qu'un ensemble de molécules participant à la respiration cellulaire, ou un ensemble de molécules participant à la mort cellulaire, que cet ensemble de molécules soit constitué de toutes s les molécules participant à ladite fonction biologique où une partie seulement d'entre elles.
L'ensemble des molécules formant le réseau d'interactions moléculaires tel qu'il est décrit sous forme d'un graphe statique dans la figure 2 est un exemple de système biologique.
1o De nombreux graphes statiques sont par exemple. disponibles dans la base de données publique KEGG (M. Kanehisa and S. Goto : KEGG : Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Research, 2~(1) : 27-30, 2000). -Tout système biologique est constitué de molécules, ces molécules 1s interagissant les unes avec les autres de façon plus ou moins stable et variable au cours du temps et des effets de l'environnement de ce système sur le système biologique lui-méme. A titre d'exemple, l'apoptose (mécanisme de mort cellulaire) est la résultante de l'interaction de multiples molécules (hormones, protéines, seconds messagers, etc...) qui, pour 2o certaines d'entre elles, ont des interactions physiques ou chimiques plus ou moins stables au cours du temps.
Par réseau d'interactions moléculaires il est entendu ici l'ensemble des molécules analysées par la méthode de l'invention associé à l'ensemble (ou une partie de cet ensemble) de leurs interactions biologiques possibles.
as Le réseau peut comprendre toutes les molécules du système biologique concerné, ou seulement une partie de ces molécules. Pour plus de clarté, le réseau peut être représenté visuellement sous la forme d'un graphe (comme un exemple en est donné dans la description ci-dessous). C'est ce type de représentation visuelle qui est à l'origine de l'utilisation du terme de ~o "réseau". Une telle représentation n'est cependant pas un pré-requis de l'invention. Le réseau peut aussi être représenté par un tableau (ou une matrice) dont par exemple chaque ligne correspond à une des molécules du réseau et dont les colonnes correspondent aux caractéristiques des interactions biologiques possibles de ces molécules (ou d'une partie de ces interactions ou de leurs caractéristiques).
s Un graphe est ici une représentation du réseau d'interactions moléculaires sous la forme d'un graphe dont les sommets (ou noeuds) correspondent aux molécules du réseau d'interactions moléculaires représenté et dont les arrêtes (ou arcs) reliant les sommets correspondent aux interactions moléculaires du réseau d'interactions moléculaires représenté. Dans la 1o suite du texte, il sera très souvent fait référence à un tel graphe, bien qu'il ne soit pas indispensable d'en réaliser un physiquement. Etant donné qu'if ne s'agit que d'une représentation symbolique du réseau, une référence au graphe correspond en réalité à une référence au -réseau.
Par variable associée à un sommet du graphe, il est entendu ici une Is variable quantitative au sens mathématique du terme, pouvant prendre des valeurs numériques, et dont la valeur à un état donné du graphe représente l'état du sommet correspondant en ce qui concerne une quantité se rapportant à une molécule du système biologique considéré. Suivant les cas, cette quantité peut âtre un niveau d'expression d'un gène exprimé
2o dans le système biologique (par exemple, l'abondance d'ARN messagers, mesurable notamment par la technique des puces à ADN), un niveau d'abondance d'une protéine, un niveau d'activité d'une protéine, un niveau d'abondance d'un métabolite, etc, pourvu que la quantité considérée soit mesurable expérimentalement, par un moyen direct ou non.
2s Un état d'un graphe est un graphe pour lequel une valeur numérique est donnée pour chaque variable (associée à chaque sommet). Le cas où une valeur numérique non nulle n'est donnée que pour une partie des variables (et associée aux sommets correspondants), une autre partie des variables (associées à d'autres sommets) étant nulles, n'est qu'un cas particulier ~o d'état du graphe. Un état du graphe donné est une représentation d'un état réel ou simulé du réseau d'interactions moléculaires correspondant, et par extension une représentation d'un état réel ou simulé du système biologique correspondant. A titre d'exemple, dans certaines représentations d'un réseau d'interactions moléculaires sous la forme d'un graphe, le fait de donner à une variable associée à un sommet du graphe la valeur nulle peut s correspondre à une représentation de la situation où la molécule correspondant à ce sommet n'est pas présente dans le réseau d'interactions (ce qui ne signifie pas qu'elle n'est pas présente dans le système biologique), ou bien de la situation où son activité biologique est nulle. Le fait de donner une valeur nulle à un certain nombre de variables Io correspond donc à considérer qu'à un temps donné celles-ci n'interagissent pas avec le reste du réseau, mais leur valeur peut devenir non nulle à un autre temps suite à une modification de l'état du réseau. Le fait de donner une valeur nulle à une variable ne revient donc pas nécessairement à
exclure le sommet correspondant du réseau.
is Dans certains cas particuliers, il est possible de donner une valeur constamment nulle à un certain nombre de variables, ce qui correspond alors à exclure les sommets correspondants du réseau et donc à travailler sur un sous-réseau. Pour travailler sur un sous-réseau, on préférera toutefois faire une hypothèse conservatrice, c'est-à-dire considérer la 2o valeur des variables exclues comme constante, ce qui permet de ne pas modifier la structure du réseau.
L'invention concerne également un système informatique pour l'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un 2s système biologique, et l'analyse de ces interactions moléculaires lorsqu'un stimulus est appliqué au modèle dynamique, comprenant au moins une unité centrale de traitement de données reliée à au moins une base de données expérimentales quantitatives, le système informatique comprenant ~o A) un module de construction d'un graphe statique, dont les sommets représentent des molécules biologiques et les arcs représentent des interactions physico-chimiques existant entre ces molécules, chaque sommet étant associé à une variable quantitative mesurée expérimentalement et chaque arc du graphe étant associé à une relation mathématique; et s B) un module d'apprentissage pour calculer les paramètres de .chaque relation à partir des données expérimentales quantitatives concernant les sommets du graphe, par la mise en oeuvre de techniques d'apprentissage par descente de gradient utilisées pour le paramétrage de réseaux.
Io Le système informatique selon l'invention peut en outre comprendre C) un module de simulation pour effectuer plusieurs procédures itératives de simulation consistant à imposer un stimulus à un -état de graphe mesuré expérimentalement et choisi comme e< état à
is modifier », le stimulus modifiant la valeur d'une ou de plusieurs des variables quantitatives associées aux sommets du graphe, constituant ainsi un état de départ de la simulation à partir duquel un calcul de propagation est effectué au sein du graphe, pour l'obtention d'un e< état final du graphe »; et ?o D) un module d'itération pour la modification du stimulus.
Le système informatique selon l'invention peut en outre comprendre E) un module de calcul de proximité entre l' « état final d'un graphe » et l' « état à modifier », ou entre l' « état final d'un graphe » et un état as voulu, et de hiérarchisation des sommets et des stimuli imposés sur les sommets du graphe, les sommets hiérarchisés correspondant à
des cibles thérapeutiques classées.
Le système informatique selon l'invention forme un outil d'analyse de ~o données expérimentales biologiques, et notamment un outil de hiérarchisation de molécules biologiques vis-à-vis d'un problème biologique.
La présente invention a entre autres pour objet d'apporter des solutions s techniques aux difficultés exposées plus haut, notamment en apportant la possibilité de construire des modèles dynamiques utilisables pour des réseaux d'interactions moléculaires de plus de 100, de plus de 200 molécules ou méme davantage, dans les applications décrites.
Un premier aspect de l'invention est un procédé d'obtention d'un modèle 1o dynamique d'un réseau d'interactions moléculaires . dans un système biologique, permettant l'analyse desdites interactions et plus précisément permettant l'analyse dudit réseau d'interactions lorsqu'un stimulus est appliqué au modèle dynamique, en vue notamment de hiérarchiser des molécules biologiques ou de sélectionner des cibles thérapeutiques vis-à-Is vis d'un problème biologique donné, pour en particulier définir une action thérapeutique à appliquer auxdites molécules, ledit procédé étant mis en oeuvre par un système informatique et comprenant les étapes suivantes A) à partir d'un graphe statique dont les sommets représentent des molécules biologiques et les arcs représentent des interactions 2o physico-chimiques existant entre ces molécules, associer une variable quantitative Xi mesurée expérimentalement à chaque sommet i, et une relation mathématique à chaque arc du graphe, chacune desdites relations présentant les caractéristiques suivantes 2s - elle comprend un terme inertiel (i) qui tend vers une limite finie;
- elle comprend un terme (ü) tendant à faire revenir les variables X; à
leur état initial, de signe inverse au terme inertiel (i), et dont la variation en fonction du temps croit en valeur absolue de façon plus lente que la variation en fonction du temps du terme inertiel (i);
- elle comporte un facteur de pondération w;j qui permet de tenir compte de la combinaison d'effets pouvant s'exercer sur chaque sommet du graphe;
~) calculer les paramètres de chaque relation à partir de données s expérimentales quantitatives concernant les sommets du graphe, par la mise en oeuvre de techniques d'apprentissage par descente de gradient utilisées pour le paramétrage de réseaux.
Le signe réel du terme (ü) est déterminé par le résultat du calcul de son ou 1o ses paramètre(s). Ce terme (ü) est de signe inverse au terme (i) une fois les paramètres calculés, mais cela n'apparaît pas obligatoirement dans sa formulation mathématique, où l'on ne précise pas a priori le signe du ou des paramètres) associé(s). -1s Dans une mise en oeuvre préférée du procédé ci-dessus, chaque variable quantitative associée à un sommet représente la variation relative de la quantité de la molécule correspondant audit sommet, par rapport à un état étalon du système biologique. Comme mentionné ci-dessus, la "quantité de la molécule associée à un sommet" peut concerner n'importe quel aspect 2o mesurable directement ou non ce cette molécule, qu'il s'agisse de sa concentration, son activité, son taux d'expression, etc. Dans cette variante où les X; sont des rapports à un état étalon, ledit état étalon est de préférence un état stable du système biologique, dans lequel la quantité de chaque molécule associée à un sommet du graphe est mesurable 2s expérimentalement. Comme reprécisé dans la description d'une mise en oeuvre pratique ci-dessous, cet état étalon peut correspondre à un état physiologique donné (par exemple sain ou malade) réellement observable, ou à un état artificiel du système, par exemple à l'état d'un pool de plusieurs échantillons biologiques prélevés dans des conditions ~o expérimentales différentes.
Les variations relatives de quantité des molécules du réseau sont donc représentées sous la forme de variables dépendantes des variations relatives de quantité des molécules interagissant sur elles (i.e. en interaction avec elles et en amont dans le réseau en termes de propagation s des activations / inhibitions). La définition des variables correspond directement aux mesures expérimentales disponibles : en effet, dans la plupart des technologies de biologie moléculaire (dont les criblages d'expression d'ARN messagers), la quantité absolue des molécules présentes dans le système biologique d'intérêt.-n'est pas mesurée (ni 1o mesurable) ; seule la proportion de leur variation par rapport à un état de référence esfi mesurable.
Soit les -n molécules j (1-gin), représentée par les n sommets j (1~n) du-réseau, interagissant sur la molécule i, représentée par le sommet i du Is réseau. Dans les procédés d'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un systéme biologique selon l'invention, les~termes inertiel (i) et de retour à l'état initial (ü) permettent de calculer les valeurs de Xi et les variations de valeurs de Xi au cours du temps en fonction des valeurs des Xj (1~n) et des variations des valeurs des Xj 20 (1 gin) au cours du temps.
Par l'expression "terme inertiel", on entend - une résistance au changement, résistance notamment initiale, et - un délai pour arriver à la variation maximale, ce qui permet de rendre compte des complexités des propagations dans le 2s réseau.
En particulier, le terme inertiel (i) a pour objet de permettre d'intégrer une résistance des variables au changement et un décalage temporel entre les modifications des variables en amont et aval du réseau. II introduit en particulier - l'intégration du facteur temps - la prise en compte des différences de vitesses de propagation au sein du réseau en fonction des sous-circuits - la prise en compte des retards temporels consécutifs aux influences des boucles de rétro-contr~le sur la propagation dans le réseau, et s - il permet de calculer les cinétiques des interactions moléculaires au sein du réseau directement à partir des données expérimentales, sans connaissance préalable des constantes de vitesse de ces cinétiques, et sans faire d'a priori sur d'éventuels autres paramètres.
Ge terme inertiel (i) tend vers une limite finie, ce qui permet d'éviter des 1o divergences importantes lors des simulations (amélioration de leur fiabilité) : ceci évite le risque de divergence (ou d' "explosion") des valeurs des variables liées à des propagations itératives dans des boucles de rétro-action-ou lors de simulations portant -sur des temps prolongés. Le -fait de pouvoir, en évitant de telles divergences, obtenir des convergences 1s satisfaisantes lors de simulations portant sur des durées longues (qui soient en rapport par exemple avec les temps d'installation de processus pathologiques), est une caractéristique importante de l'invention.
La formulation de ce terme inertiel est de préférence peu contraignante, et permet de rendre compte de formes multiples de relations. Pour cela, il 2o peut âtre avantageusement exprimé sous la forme d'une relation mathématique présentant une ou plusieurs inflexion(s), ce qui permet de limiter les contraintes imposées aux modèles et de pouvoir pratiquer des modélisations fiables dans les situations où la forme des cinétiques n'est pas connue a priori, ce qui est une situation constante dès que l'on 2s modélise un grand réseau (plus d'une centaine de molécules). Des exemples de telles sous-relations mathématiques pouvant être utilisées sont les relations sigmoïdes, les relations d'oscillation, et, d'une façon générale, toute fonction mathématique tendant à une ou des limites) finies) et pouvant être infléchie.
Le terme (ü) tendant à faire revenir les variables à leur état initial (ou d'équilibre antérieur), permet de rendre compte des phénomènes d'homéostasie et de l'existence d'états d'équilibre du réseau, tout en diminuant de façon significative les risques de divergence lors des s simulations (amélioration de leur fiabilité). Une fois les paramètres des relations mathématiques calculés, il est de signe réel inverse au terme inertiel (i), et sa variation au cours du temps croit en valeur absolue de façon plus lente (i.e., de façon temporellement plus tardive) que la variation en fonction du temps du terme inertiel (i). w io Par le terme (i), X; et les variations de X; dépendent des X~ (1-gin) et des variations des X~ (1 gin). Le terme (i), qui fait tendre X; vers une valeur finie, est donc exprimé en fonction des X~ (1--gin).
Le terme-(ü) est, lui, exprimé en fonction de X; -(et non des X~ (1~n)). La valeur de ce terme ne peut donc changer que si la valeur de X; change, Is celle-ci changeant si les valeurs des X; (1~n) changent.
Toute variation initiale de l'effet du terme (ü) sur la valeur calculée de X;
peut donc être considérée comme consécutive à une variation préalable de l'effet du terme (i) sur la valeur calculée de X;. Ceci s'applique notamment si l'on considère qu'il existe un état stable du réseau ; à l'état stable, les 2o termes (i) et (ü) s'équilibrent, de telle sorte que X; reste constant ; à
partir de cet état, toute variation de X; est consécutive à une situation où l'effet du terme (i) sur la variation de X; est plus grand en valeur absolue que l'effet du terme (ü) sur la variation de X;.
En effet, une fois les paramètres des termes (i) et (ü) calculés, le terme (ü) 2s calculé est de signe opposé au terme (i) calculé, et tend, lors du calcul des valeurs de X; à diminuer l'effet du terme (i) sur les variations des valeurs de X;. .
Par conséquent, X; ne peut présenter une variation que si, à un temps donné au moins, la variation de X; au temps suivant calculée par le terme ~o (ü) est inférieure en valeur absolue à la variation de X; au temps suivant calculée par le terme (i).
En d'autres termes, X; ne peut présenter une variation, à partir d'un état stable, que si, sur un espace de temps donné au moins, la variation de la valeur calculée du terme (ü) est inférieure en valeur absolue à la variation de la valeur calculée du terme (i).
s Cette caractéristique est inhérente au fait que le terme (i) est exprimé en fonction des X~ (1-gin) alors que le terme (ü) est exprimé en fonction de X;.
A partir d'un état stable, la variation du terme (ü) est initialement inférieure en valeur absolue à la variation du terme (i).
Lors de l'wolution de la valeur de X; au cours du temps, l'effet du terme (ü) 1o sur la variation de X; peut, ou non, devenir supérieur à l'effet du terme (i) sur la variation de X;. Si c'est le cas, X; va tendre à retourner vers sa valeur initiale.
En fonction des valeurs des paramètres calculés des termes (i) et (ü), des valeurs des X~ (1-gin) et des valeurs de X;, X; peut éventuellement retourner Is à sa valeur initiale, ceci notamment si les X~ (1~n) retournent à leur valeur initiale.
Si un stimulus est appliqué de façon constante sur un ou plusieurs sommets du réseau, on peut cependant aboutir à une situation où les X~
(1~n) ne retournent pas à leur valeur initiale. ~ans ce cas, X; peut ne pas 2o retourner à sa valeur initiale. Si, à un temps donné, les effets des termes (i) et (ü) sur la variation de X; s'équilibrent à nouveau, on aboutira alors à une nouvelle stabilité de X;, à une valeur différente de sa valeur initiale.
La méthode permet donc de rendre compte du passage du réseau d'un état stable donné à un autre état stable, différent. Elle permet aussi de rendre 2s compte de l'évolution du réseau lors d'états instables.
Enfin, comme le terme (i) fait tendre X; vers une limite finie, et comme le terme (ü) est exprimé en fonction de X;, le terme (ü) est contraint par X; :
par la résultante des termes (i) et (ü) la valeur calculée de X; ne peut sortir d'un intervalle fini. Cette caractéristique (X; tendant vers une limite finie par le ~o terme (i) et expression du terme (ü) en fonction de X;) permet de rendre compte d'états stables, et de contraindre les valeurs de X; dans un intervalle fini.
Le fait de pouvoir calculer les paramètres des relations associées aux arcs s du graphe directement à partir des données expérimentales, sans nécessiter d'hypothèse préalable ou de fixation à des valeurs arbitraires, est rendu possible par l'utilisation de relations de forme peu contraignante, ne requérant pas une connaissance préalable des cinétiques des interactions moléculaires.
1o Comme mentionné ci-dessus, les procédés d'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique selon l'invention comportent une deuxième étape (étape B), dans laquelle on calcule les paramètres des relations associées à chacun is des arcs du graphe, à partir de données expérimentales quantitatives concernant les sommets du graphe. Ce calcul est effectué de préférence par la mise en oeuvre de techniques d'apprentissage. On obtient alors un graphe dynamique, entièrement déterministe, consistant au graphe statique aux arrétes duquel sont désormais associées des relations mathématiques 2o dont les paramètres ont tous été définis numériquement.
Cette étape de calcul peut être effectuée par l'utilisation de procédures d'apprentissage utilisées pour le paramétrage de réseaux en intelligence artificielle, par exemple celles développées en informatique dans les méthodes de "réseaux de neurones" (dont les réseaux de neurones 2s récurrents) par descente de gradient "simple" (en prenant comme base de calcul les couples de données (X;, X~) fournis par les données expérimentales indépendamment les uns des autres), ou par descente de gradient dans le temps (où ces couples ne sont pas considérés comme indépendants). Les couples de données (X;, X~) fournis par les données ~o expérimentales sont définis comme suit : soit i une molécule du réseau, représentée par le commet i, et soit j toute molécule du réseau interagissant sur i, représentée par le sommet j. X; et X~ sont les variables associées aux sommets i et j, respectivement. Les mesures expérimentales des valeurs des X; et des X~ dans des conditions expérimentales données et à des temps expérimentaux donnés permettent d'obtenir des valeurs s numériques des X; et des X~. Un couple de données expérimentales (X;, X;) correspond aux valeurs mesurées de X; et X~ à un état expérimental donné
(méme temps, même condition expérimentale).
Les données expérimentales utilisées pour réaliser l'étape B) mentionnée ci-dessus présentent les caractéristiques suivantes.:
1o Nature des d~nnées expérimentales. Ces données sont des données quantitatives concernant les molécules (correspondant aux sommets du graphe) et sont par exemple des niveaux d'expression de gènes exprimés dans le système .biologique (par la - mesure de l'abondance d'ARN
messagers, par exemple par la technique des puces à ADN) et / ou des is niveaux d'abondance de protéines et /ou des niveaux d'activité des protéines et / ou des niveaux d'abondance de métabolites. Comme précisé
plus haut, ces données sont exprimables sous la forme d'une proportion de variation de quantité par rapport à une situation de référence (état étalon).
2o Compilation des données de réseau statique (ou graphe statique identification d'interaetions j ~ i) et des données expérimentales (mesures de valeurs des variables ~C;). Ces données peuvent être extraites de la littérature scientifique au sens large, ceci incluant les bases de données biologiques publiques ou privées (telles que par exemple la base de 2s données "TRANSFAC' du "German Research Centre for Siotechnology"
(GBF) accessible par l'adresse internet : http://transfac. bq f.de/ (Wingender et al., 2001, The TRANSFAC system on gene expression regulation, Nucleic Acids Research, 29 (1) : 281-283), ou encore la base de données " BIOMOLECULAR INTERACTION NETVIlORK DATABASE" (BIND) de 30 l'université de Toronto, accessible par l'adresse internet http://www.bind.ca (Rader et al., 2003, BIND : the biomolecular interaction neflNOrk database, Nucleic Acids Research 31 : 248-250), ou encore la base de données KEGG (M. Kanehisa and S. Goto : KEGG : Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Research, 28(1) : 27-30, 2000), ou bien être générées par des expériences de biologie s moléculaire dédiées, notamment par l'utilisation des techniques de criblages à grande échelle. En fonction du système biologique d'intérêt, des molécules formant le réseau d'interactions moléculaires, de la problématique scientifique biologique (étude d'un modèle de maladie, étude de toxicité d'un produit, étude de processus du développement, etc.), des 1o paradigmes expérimentaux adéquats ou disponibles (çultures de cellules, étude de tissus, etc.), la personne de l'art définira le type de données expérimentales d'intérêt. Des exemples du type de données utilisables en fonction des applications de l'invention sont donnés ci-après, dans la description de la méthode des simulations.
1s L'homme du métier mettra donc en oeuvre la ou les méthodes de compilation lui convenant le mieux pour effectuer cette étape, qui intervient en amont de la méthode d'analyse constituant la présente invention.
Enregistrement des d~nnées expérimentales. Ces données expérimentales ?o sont enregistrées avantageusement dans une base de données, de nombreux systèmes de bases de données existant pour ce faire et pouvant être mis en oeuvre et utilisés de façon simple par toute personne de l'art du domaine de la bio-informatique (bases de données commerciales Oracle, Microsoft SQL server, FileMaker, bases de données d'accès libre as postgreSQL). Ces données peuvent aussi être enregistrées sous le format d'un tableau ou d'un fichier plat.
Indexation des données expérimentales. Ces données expérimentales peuvent être indexées automatiquement au graphe. Le rôle de cette 3o indexation est de relier chaque donnée expérimentale à l'objet biologique correspondant du graphe (sommet du graphe, ou arrête du graphe pour les couples de données (X;, X~), de façon à pouvoir utiliser conjointement ces deux types d'informations (données expérimentales et graphe) lors de la mise en oeuvre du système de calcul des paramètres.
De nombreux systèmes de bases de données commerciaux ou gratuits s permettent de créer cet indexage sans difficulté technique particulière pour l'homme de l'art du domaine de la biologie ou de la bio-informatique (bases de données commerciales ~racle, Microsoft SQL server, FileMaker, bases de données d'accès libre : postgreSQL). Alternativement, si les données concernant le graphe et les résultats expérimentaux ~~nt été enregistrées to sous le format de tableaux ou de fichiers plats, ou d'un tableau ou fichier plat commun, ces données étant liées de fait dans ce cas, cette étape d'indexation peut ne pas être nécessaire en soi.
Forme des données expérimentales. Dans une mise en oeuvre 1s préférentielle, les données expérimentales des valeurs des couples (X;, Xj) sont sous la forme de cinétiques d'expression. Par cinétique d'expression il est entendu ici un ensemble de séries de données expérimentales ordonnées dans le temps, chaque série de données correspondant à un ensemble de valeurs de couples (X;, Xj) mesurés expérimentalement à un 2o temps donné. Chaque série de données peut concerner soit l'ensemble des sommets du graphe, soit uniquement un sous-ensemble de ces sommets.
Les différents temps correspondent à des temps successifs au cours de l'observation d'un processus biologique mettant en oeuvre le système biologique modélisé par le graphe, que ce processus soit naturel ou induit 2s artificiellement en laboratoire. Une telle cinétique comprend de préférence au moins trois temps successifs, et, pour améliorer la qualité du calcul des paramètres, plus de trois temps.
Plusieurs cinétiques indépendantes, correspondant à des processus biologiques différents (i.e., mettant en jeu des sous-réseaux différents d'un 3o même réseau global, ces sous-réseaux pouvant ou non présenter des parties communes), peuvent être utilisées simultanément. Ceci peut permettre d'améliorer la qualité du calcul des paramètres, et donc la qualité
des simulations.
Dès lors qu'au moins une cinétique d'expression est disponible, il est possible d'utiliser simultanément aussi des données expérimentales des s valeurs des couples (X;, Xj) obtenues par des expériences indépendantes les unes des autres (sans description de cinétiques d'évolution du système biologique étudié au cours du temps).
La méthode de calcul des paramètres des relations, à l'étape B) des 1o méthodes de l'invention, tient de préférence compte des principes suivants Mesure expérimentale- d'un ètat stable du système biologique. Le graphe est considéré comme étant dans un état stable de rèférence à un temps Is donné, cet état stable étant mesurable expérimentalement. L'état stable de rèfèrence en question correspond à un état existant et mesurable du système biologique étudié, pouvant être considéré comme stable dans le temps vis-à-vis du processus biologique modélisé. Bien qu'un système biologique soit le plus souvent, du fait de ses interactions avec 20 l'environnement et de ses rythmes biologiques propres, en train de se modifier, on peut définir, du fait de l'existence des processus homéostatiques, des états où ces modifications sont au maximum "oscillantes" autour d'états homéostatiques, et a priori de faible amplitude.
Dans cet état, le processus modélisé n'est pas lui-même en train d'évoluer 2s significativement.
Cet état ne doit pas étre confondu avec l'état étalon. L'état étalon, qui est défini arbitrâirement par l'expérimentateur biologiste sert à effectuer des mesures quantitatives expérimentales. L'état stable de référence correspond à un état réel du système modélisé (i.e., non artificiel), et sert ~o de référence pour le calcul des paramètres du modèle. II est considéré
comme un état du système où les processus d'activation et d'inhibition au sein du réseau sont équilibrés, ou présentent des oscillations faibles autour d'un état d'équilibre théorique. II représente l'état vers lequel le système tend en général à retourner lors des simulations. II peut être le même, ou différent, de l'état étalon.
s L'état stable de référence est directement mesurable expérimentalement dès lors que le problème biologique étudié permet de définir un état de référence du système biologique.
A titre d'exemple, une culture cellulaire dont le nombre de cellules est arrivé
à un plateau (absence de divisions cellulaires) et dans un milieu de culture 1o stable, avant toute induction de stimulus, ou un animal adulte sain avant toute induction de processus pathologique, peuvent être considérés comme des états stables de référence. Dans le premier cas, les cascades d'interactions moléculaires mises en jeu par le stimulus dont on cherche à
modéliser les conséquences ne sont pas activées au-delà des processus Is homéostatiques. Dans le second cas, les cascades mises en jeu par le processus pathologique à modéliser ne sont pas non plus en oeuvre : l'état de référence est stable vis à vis du processus biologique modélisé. L'état stable ne doit pas nécessairement être l'état initial du système biologique dans le cadre du processus biologique étudié.
2o Dans un autre exemple, l'état sain peut être considéré comme un état stable initial de référence si l'on étudie l'installation d'un processus pathologique à partir de cet état sain.
La mesure des X; de l'ensemble des sommets du graphe dans cet état est utilisée, dans le calcul des paramètres, comme référence stable du graphe, 2s notamment pour la procédure de minimisation des erreurs.
L'état stable est défini mathématiquement par le vecteur de l'ensemble des valeurs expérimentales des variables de chaque sommet mesurées à l'état biologique correspondant (mesures effectuées pour tous les sommets du graphe).
3o Dans une mise en oeuvre préférentielle, l'état étalon pour les. mesures est l'état stable. Dans ce cas, comme les variables sont définies par (voir l'exemple 1 de mise en ceuvre) : X; = x;t/x;o, en théorie, à l'état stable, puisque le réseau ne se modifie pas, quel que soit t, x;t = x;o, donc X; = 1, pour tout sommet i. C'est le fait d'induire une modification du réseau par l'application de stimuli lors des expériences biologiques qui va "déstabiliser"
s le réseau, aboutissant à ia mesure de cinétiques où X;t ~ X;o et X; ~ 1.
Dans cette mise en oeuvre, on peut donc éventuellement définir un état stable arbitraire où quel que soit i, X; = 1.
En pratique, lors de la mesure expérimentale de cinëtiques, au premier temps (t0), les X; sont proches de 1 en général (si l'état étalon de mesure 1 o est le temps t0).
Mais ce qui est important n'est pas tant le fait que les X; soient égaux à 1 en théorie et proches de 1 lors des mesures expérimentales, mais le fait en soit que cet état soit considéré comme stable.
En effet, lors du calcul de paramètres des relations mathématiques entre 15 les X; et les X~ par des techniques de réseaux de neurones avec minimisation des erreurs, le fait de définir un état comme stable (au moins au début de la cinétique) introduit une contrainte forte dans le calcul des paramètres et améliore ainsi significativement leur calcul.
Pour que le modèle obtenu soit pertinent vis-à-vis du ou des processus 2o biologiques) étudié(s), il est préférable de s'assurer que cet état stable existe biologiquement, en le validant, par sa mesure expérimentale. Si l'état stable est différent de l'état étalon, les valeurs des X; à l'état stable ne peuvent être définies rationnellement que par leur mesure expérimentale.
II est également possible de décider arbitrairement de le définir par b' i, 2s X; = 1, et d'introduire (au sens "ajouter") ce vecteur des X; au temps initial des cinétiques sans l'avoir mesuré. Ceci revient à considérer l'état étalon comme stable, arbitrairement. Ceci est souvent possible si l'état étalon ne correspond pas à un pool de tissus biologiques différents.
Dans une mise en oeuvre préférentielle, les données expérimentales sont 3o mesurées au cours d'une cinétique (voir plus haut). Dans le cas où fe processus biologique d'intérêt est étudié au cours du passage d'un état stable initial à un état stable final, et où des mesures expérimentales sont effectuées à ces deux états et à des temps intermédiaires, deux états stables sont définis : l'état initial et l'état final de la cinétique du processus biologique étudié. Cependant, le fait de disposer de mesures s expérimentales correspondant à deux états stables n'est pas un pré-requis à la mise en oeuvre de l'invention.
Le tait de dëfinir un état stable n'est pas non plus un pré-requis à fa mise en oeuvre de l'invention.
io Lissage des données : si l'ensemble des données expérimentales est très restreint, une procédure de lissage des données expérimentales peut étre mise en oeuvre -préalablement au calcul des -paramètres, pour permettre d'augmenter le nombre de valeurs de couples (X;, Xj) disponibles, en Is calculant des valeurs intermédiaires de ces couples à partir de la courbe lissée. Cette procédure, classique, ne pose pas de difficulté particulière à
l'homme de l'art.
Le calcul des paramètres des relations (X;, Xj) est effectué par la mise en 20 oeuvre de techniques d'apprentissage utilisées pour le paramétrage de réseaux en intelligence artificielle (telles que celles mises en oeuvre pour les réseaux de neurones), à partir des données expérimentales quantitatives concernant les variables du graphe.
A titre d'exemple, ce calcul peut utiliser des algorithmes de résolution as numérique de propagation ou de rétro-propagation avec calcul de l'erreur.
Des paramètres sont arbitrairement fixés, une propagation ou une rétro-propagation est effectuée, puis !'erreur est calculée entre les résultats calculés et les résultats expérimentaux. Les paramètres sont corrigés en conséquence, et le processus de propagation et de calcul d'erreur est 3o repris de façon itérative. Le choix d'une fonction d'erreur et la mise en oeuvre de ce type de calcul ne pose pas de difficulté particulière à l'homme du métier.
Un deuxième aspect de la présente invention concerne un procédé
s d'analyse d'un réseau d'interactions moléculaires dans un système biologique, comportant les étapes suivantes A') utilisation d'un modèle dynamique du réseau d'interactions moléculaires, ledit modèle étant susceptible d'être obtenu, par un procédé décrit ci-dessus, et construit à partir d'.un graphe statique 1o dont les sommets représentent des molécules biologiques du système biologique et les arrêtes représentent des interactions physico-chimiques entre ces molécules, et à partir des données expérimentales concernant les taux ou les activités de ces molécules biologiques.
1s C) un état du graphe, mesuré expérimentalement, est choisi comme "état à modifier", et la durée du processus biologique à simuler est définie et découpée en une série de pas de temps, D) plusieurs procédures itératives de simulation sont effectuées, comprenant chacune les étapes suivantes 2o a) un stimulus est imposé à l'état à modifier, c'est-à-dire que la valeur d'une ou de plusieurs des variables quantitatives associées aux sommets du graphe est modifiée, constituant ainsi un état de départ de la simulation ;
b) à partir de l'état de départ de la simulation, un calcul de 2s propagation est effectué au sein du graphe.
Le calcul de propagation au sein du graphe peut être effectué pendant un nombre de pas de temps tel que la durée de la simulation n'excède pas la durée du processus biologique à simuler définie à l'étape C).
3o Toutefois, il est également possible de laisser la simulation se poursuivre au-delà de la durée du processus biologique à simuler définie à l'étape C), par exemple si on cherche à voir si le réseau va à terme trouver un nouvel état stable (état d'équilibre) et si on ne sait pas a priori combien de temps cela va prendre. II est important de noter que la durée de la simulation définie à l'étape C) peut être plus longue que celle des cinétiques s expérimentales utilisées pour le calcul des paramètres (ou plus courte).
Selon une variante du procédé d'analyse d'un réseau d'interactions moléculaires décrit ci-dessus, seules les étapes C), D)a) et D)b) ci-dessus sont effectuées,~en utilisant (sans le reconstruire) un modèle dynamique du 1o réseau d'interactions moléculaires choisi, ledit modèle étant susceptible d'être obtenu par un procédé tels que les procédés d'obtention de modèles dynamiques de réseaux d'interactions moléculaires décrits plus hauts.
Un autre aspect particulièrement important de la présente invention est un ts procédé de sélection de cibles thérapeutiques mettant en eeuvre un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique, par la mise en oeuvre d'un système informatique, comprenant les étapes et caractéristiques suivantes A') utilisation d'un modèle dynamique du réseau d'interactions 2o moléculaires, ledit modèle étant susceptible d'être obtenu, par un procédé décrit ci-dessus, et construit à partir d'un graphe statique dont les sommets représentent des molécules biologiques du système biologique et les arrêtes représentent des interactions physico chimiques entre ces molécules, et à partir de données expérimentales 2s concernant les taux ou les activités de ces molécules biologiques;
C) un état du graphe, mesuré expérimentalement, est choisi comme "état à modifier", et la durée du processus biologique à simuler est définie et découpée en une série de pas de temps; et un état du graphe correspondant à un "état à atteindre" du système biologique 3o est choisi comme "état final du graphe" à atteindre;
D) plusieurs procédures itératives de simulation sont effectuées, comprenant chacune les étapes suivantes a) un stimulus est imposé à l'état à modifier, c'est-à-dire que la valeur d'une ou de plusieurs des variables quantitatives associées aux s sommets du graphe est modifiée, constituant ainsi un état de départ de la simulation ;
b) à partir de l'état de départ de la simulation, un calcul de propagation est effectué au sein du graphe ;
c) un calcul de proximité entre l"'état final du graphe " obtenu à l'issue to de l'étape b) et l'état à modifier, ou entre I"'état final du graphe " et un état voulu est effectué ;
E) à partir de l'ensemble des proximités statistiques calculées à l'étape D), les - sommets, et les stimuli imposés sur ces sommets, sont hiérarchisés, les sommets hiérarchisés correspondant à des cibles ts thérapeutiques classées.
Bien entendu, et comme pour le procédé d'analyse d'un réseau d'interactions, le procédé de sélection de cibles thérapeutiques selon l'invention peut être mis en oeuvre en effectuant uniquement les étapes C) 2o à E) ci-dessus en utilisant, sans le reconstruire, un modèle dynamique susceptible d'être obtenu par des méthodes d'obtention de tels modèles, décrites plus haut. De même, l'étape D) b) peut être poursuivie au-delà de la durée spécifiée à l'étape C) ?s L'étape A') des procédés ci-dessus peut être réalisée de la même façon que les étapes A) et B) des procédés d'obtention de modèles dynamiques de réseaux d'interactions décrits plus haut.
Dans ces procédés, l'étape C) peut être réalisée en tenant compte des 3o éléments suivants, lorsque le cas de figure s'y prête Pas de temps : La durée du processus biologique à simuler est découpée en une série de pas de temps, régulièrement espacés ou non ; les pas de temps sont définis de façon à être préférablement plus petits que les durées expérimentales réelles séparant les séries de données s expérimentales quantitatives utilisées pour le calcul des paramètres des relations. La définition de ces pas de temps est rendue nécessaire par le fait que tout processus informatique de simulation dynamique consiste à
calculer des états à des temps discrets, rendant la discrétisation du temps nécessaire. ~n obtient donc une série de temps consécutifs, sur lesquels 1o va étre effectuée la simulation. Le premier temps de la série est appelé le temps initial. Ce temps initial correspond à l'état de départ du graphe, défini plus bas.
États du graphe pour les simulations : Un état du graphe, mesuré
is expérimentalement, et correspondant à un état que l'on veut modifier du système biologique, est défini (par exemple un état pathologique). Cet état est appelé "l'état à modifier". Dans certains cas, l'homme du métier peut savoir que les différences entre l'état à modifier et l'état stable de référence concernent essentiellement un sous-ensemble des molécules du réseau, et 2o décider de ne mesurer expérimentalement que les valeurs des variables correspondantes, les autres X; étant alors, par défaut, fixés aux valeurs de l'état stable de référence. Un état du graphe (mesuré expérimentalement ou défini arbitrairement), correspondant à un état que l'on veut atteindre du système biologique, est éventuellement défini (par exemple un état sain).
2s Cet état est appelé "l'état à atteindre".
Identification de molécules-cibles thérapeutiques pour une pathologie donnée Dans une mise en oeuvre préférentielle de l'invention, l'état à modifier et ;o l'état à atteindre sont définis comme suit On pratique les simuiations d'actions sur les sommets du graphe à partir d'un état à modifier du graphe identique ou similaire à son état tel qu'observé expérimentalement dans la condition pathologique (par exemple par criblage d'expression des ARN messagers sur puces à ADN à
s partir de tissus pathologiques).
On définit l'état à atteindre comme étant un état proche d'un état non pathologique de référence (tel que mesuré lui aussi par l'observation expérimentale de la condition non pathologique, par exemple par criblage d'expression des ARN messagers sur puces à ADN 'à partir de tissus Io sains).
Le processus de simulation consiste alors à identifier les sommets, et les stimuli sur ces sommets, qui, en partant de l'état à modifier (l'état pathologique), permettent le mieux de faire évoluer le graphe (en partie ou entièrement) vers un état proche de l'état à atteindre (état non Is pathologique).
Identification des m~lécules-cibles thérapeutiques de traitements existants ou en cours de développement, et pour lesquels aucune ou une partie seulement des cibles sont connues (ce qui est le cas de nombreux ?o médicaments actuels).
Dans ce cas, l'état à modifier est défini comme ci-dessus, et l'état à
atteindre est défini comme l'état, ou un état proche, de celui obtenu expérimentalement lors de l'administration de ce traitement (tel que mesuré
par exemple par criblage d'expression des ARN messagers sur puces à
2s ADN à partir de tissus pathologiques qui ont été soumis au traitement concerné).
Le processus de simulation consiste alors à identifier les sommets, et les stimuli sir ces sommets, qui, en partant de l'état à modifier (l'état pathologique), permettent le mieux de faire évoluer le graphe (en partie ou ~o entièrement) vers un état proche de l'état à atteindre (état pathologique sous traitement).
Cette mise en eeuvre particulière peut aussi être réalisée en définissant l'état à modifier comme tout état 6 possible du système biologique étudié
(par exemple l'état sain), et l'état à atteindre comme l'état obtenu après l'administration du traitement concerné au système biologique à l'état E.
Dans les procédés d'analyse de réseaux d'interactions et de sélection de cibles selon l'invention, l'étape D) est réalisée en considérant les éléments suivants Io Stimulus : Un stimulus est imposé à l'état à modifier. Ce stimulus est exercé sous la forme de la variation de la valeur d'une ou de plusieurs variables) du graphe (correspondant à un ou plusieurs sommet(s)), c'est-à-dire d'une-augmentation ou d'une diminution de cette ôu ces valeur(s), selon la simulation souhaitée. Les valeurs de toutes les autres variables 1s restent inchangées. On obtient donc un nouvel état du graphe, qui est "l'état de dèpari" de la simulation. L'état de départ et l'état à modifier ne diffèrent donc que par la valeur de la ou des variables) modifiée(s), toutes les valeurs de toutes les autres variables étant identiques. Cet état est défini comme correspondant au premier temps de ia simulation. Dans une 2o mise en oeuvre particulière du procédé, les stimuli portent à chaque fois sur un seul sommet.
Propagation : A partir de l'état de départ de la simulation, un calcul de propagation est effectué au sein du réseau. Cette propagation consiste à
2s calculer les nouvelles valeurs de toutes les variables au pas de temps suivant, aboutissant à un nouvel état du graphe, et à recommencer le calcul à partir de ce nouvel état pour le pas de temps suivant, et ainsi de suite.
Cette propagation se prolonge pendant le nombre de pas de temps (donc la durée biologique) définie par l'expérimentateur en fonction de la question ~o biologique posée. Elle peut éventuellement étre prolongée jusqu'à
l'apparition d'un nouvel état stable du graphe (un nouvel état d'équilibre), ou être arrétée avant. Au terme de cette simulation, un nouvel état ("état finaP') du graphe est obtenu.
Itération : Le processus précédent est répété avec un nouveau stimulus, s portant sur un ou plusieurs autres) sommets) du graphe, ou portant éventuellement sur le(s) mêmes) sommets) du graphe avec l'imposition d'une nouvelle valeur à la ou aux variable(s).
Ce processus peut être répété de façon itérative sur tous les sommets individuellement, éventuellement en imposant plusieurs valeurs (en nombre 1o fini) par variable de manière à tester des gammes d'activation ou d'inhibition sur tous les noeuds. Dans ce cas, le résultat de l'étape E) est une hiérarchisation des sommets, et des stimuli imposés sur ces sommets.
Ce classement correspond donc au classement des sommets; de celui sur lequel un stimulus est le plus susceptible d'aboutir à l'état voulu à partir de Is l'état à modifier, jusqu'à celui sur lequel un stimulus est le moins susceptible d'avoir cet effet. A chaque proximité correspond en effet un et un seul sommet et une et une seule valeur de stimulation sur ce sommet.Si l'effet recherché est l'amélioration d'un état pathologique, ce classement est celui des cibles thérapeutiques potentielles, de la plus probable à la 2o moins probable.
Bien que présenté ici de manière séquentielle, l'ensemble des propagations effectuées peut étre calculé de manière parallèle.
A l'étape D)c), la proximité de chaque état final obtenu à l'étape D)b) peut 2s être calculée soit par rapport à l'état à modifier choisi à l'étape C), soit par rapport à un autre état, mesuré expérimentalement ou déterminé
arbitrairement, et défini comme I"'état à atteindre", qui peut être, par exemple, un état sain. II peu s'agir de l'état de référence défini plus haut.
3o Une fois les calculs de proximité de graphes effectués pour toutes les simulations, l'étape E) consiste à classer l'ensemble des multiplets (sommet(s) du graphe - stimulus) en ordre hiérarchique (croissant ou décroissant) correspondant directement à l'ordre hiérarchique (croissant ou décroissant, respectivement) des proximités qui leur sont associées. Aux sommets du graphe correspondent directement les molécules du réseau s biologique, qui sont donc hiérarchisées de fait.
Cette hiérarchisation ne pose aucun problème technique à l'homme de l'art, les proximités étant des valeurs numériques positives pouvant être directement hiérarchisées de la plus grande à la plus petite, ou inversement.
1o Le résultat de ce classement peut étre avantageusement produit sous forme de liste ou de tableau, ou sous tout autre type de format, et / ou stocké dans une base de données en vue d'une utilisation ultérieure.
Quels que soient les niveaux de proximité des graphes, une hiérarchisation is des multiplets (sommet(s) du graphe - stimulus) selon cette méthode sera toujours obtenue. L'invention permet donc toujours d'obtenir un résultat, en fonction des connaissances biologiques et des techniques de mesure expérimentales utilisées. Elle ne requiert pas de connaissance préalable étendue des processus physiopathologiques moléculaires en oeuvre dans 20 le processus pathologique analysé. Toutes les molécules du réseau d'interactions moléculaires sont considérées a priori (avant mise en oeuvre de l'invention) comme des molécules cibles thérapeutiques potentielles sans en exclure aucune, les molécules cibles thérapeutiques étant sélectionnées a posteriori (après mise en oeuvre de l'invention) sur des 2s critères statistiques objectifs (calculs de proximités). Cette méthode est utilisable de façon systématique et automatisée quelle que soit la pathologie étudiée, dès lors qu'il est possible de définir un état à modifier.
Ceci la rend notamment particulièrement adaptée à une utilisation dans le cadre de processus industriels de sélection systématique à grande échelle ~o de cibles thérapeutiques, en utilisant les données expérimentales fournies par les technologies de criblages molëculaires à grande échelle.
Dans le cas de l'identification de cibles thérapeutiques, le classement hiérarchique des molécules du réseau biologique correspond directement au classement hiérarchique de ces molécules considérées comme cibles s thérapeutiques. L'invention permet donc d'obtenir un classement des cibles thérapeutiques potentielles hiérarchisées selon des critéres statistiques objectifs, en fonction des données expérimentales (mesures des X;) et des connaissances fonctionnelles du réseau (existence d'interactions moléculaires). Dans les cas où il est possible de définir à la fois.un état à
Io modifier et un état à atteindre, les meilleures cibles thérapeutiques potentielles sont considérées comme étant celles correspondant aux proximités les meilleures avec l'état à atteindre.
Dans les cas où la définition d'un état à atteindre n'est pas possible (ce qui Is devrait étre exceptionnel, l'état sain pouvant à priori toujours être utilisé par défaut comme état à atteindre pour les processus pathologiques), il est possible de hiérarchiser les multiplets (sommet(s) du graphe - stimulus) par leur proximité avec l'état à modifier, et de classer les molécules du réseau biologique considérées comme cibles thérapeutiques potentielles 2o en suivant une hiérarchie directement inverse de celle des proximités : les meilleures cibles thérapeutiques potentielles sont considérées comme étant celles correspondant aux proximités les plus mauvaises par rapport à l'état à modifier.
as Un point important est que cette invention permet non seulement d'identifier des molécules-cibles thérapeutiques, mais aussi de prédire le sens de l'action théràpeutique qu'il sera nécessaire d'appliquer sur ces molécules (activation ou inhibition).
~o Les cibles thérapeutiques sont donc sélectionnées à partir des données concernant l'ensemble des molécules étudiées, et non seulement celles concernant spécifiquement les molécules-cibles, puisque le critère utilisé
pour la hiérarchisation dépend de l'évolution du graphe dans son ensemble, donc de l'ensemble des mesures expérimentales d'expression et/ou d'activation de toutes les molécules représentées dans le graphe, et s non la simple évolution des mesures expérimentales d'expression et/ou d'activation des seules molécules cibles. II s'agit donc bien d'une méthode intégrative répondant aux besoins actuels tels que définis plus haut, notamment en ce qui concerne des maladies à déterminisme multi-factoriel, apportant clairement un progrès par rapport aux méthodes de sélection de io cibles thérapeutiques existantes. .
La méthode d'identification des cibles décrite ci-dessus comporte les caractéristiques avantageuses suivantes - Les calculs sont fondés sur méthode non probabiliste, ce qui élimine 1s toute limitation en termes de temps de calcul, au contraire des méthodes des équations stochastiques et des réseaux bayésiens.
- L'invention intègre les données expérimentales quantitatives, ce qui la différencie des méthodes qualitatives (réseaux booléens, formalismes logiques généralisés, formalismes fondés sur des -règles), permet 2o d'éviter des contraintes et hypothèses sur le fonctionnement du réseau, et permet d'augmenter la fiabilité des simulations.
- Le fait de définir les variables comme similaires aux données expérimentales effectivement mesurables permet de calculer les paramètres des relations de façon optimale (sans avoir à extrapoler les 2s valeurs des variables).
- Le fait d'établir, pour tout sommet du graphe, une relation directe entre la variable qui lui est associée et les variables associées aux sommets du graphe agissant sur ce sommet permet la mise en oeuvre directe de méthodes de calcul des paramètres dérivées des méthodes ~o d'apprentissage de réseaux de neurones par calcul de l'erreur minimale qui sont compatibles avec des réseaux de grande taille en termes de temps de calcul.
- Une fois les paramètres calculés, les simulations sont très peu coûteuses en temps de calcul, le réseau étant déterministe. Geci est s aussi compatible avec l'application de l'invention à des réseaux de grande taille.
- Les limitations de divergence introduites dans les relations ou t fonctions permettent de pratiquer des simulations sur des cinétiques longues et des réseaux de grande taille avec une fiabilité satisfaisante.
1o - Les connaissances de l'existence d'interactions entre les molécules du réseau, et de l'orientation d'une partie de ces interactions, sont suffisantes pour la mise en oeuvre de l'invention. La connaissance du type d'interaction (activation ou inhibition) peut être avantageusement utilisée lorsqu'elle est disponible, mais elle n'est pas indispensable.
Is Aucune autre connaissance qualitative supplémentaire concernant le réseau n'est requise. Pour les grands réseaux d'interactions moléculaires (plus d'une centaine de molécules) ces connaissances sont en général les seules disponibles aujourd'hui.
2o La qualification de cette méthode, suivant les critères considérés dans les tableaux 1 et 2 ci-dessus, est donc la suivante ~~~ y) Cg) (4) (5) Mthode Intgration FormalismeVariables FonctionsModle de donnes utilises continuesdterministe uantitatives Inertie/
Mthode de Tendance Oui dX;/X;o Oui Oui l'invention au retour l'tat initial ~ apieau s 2s II est important de noter que le formalisme permettant de prendre en compte l'inertie/ tendance au retour à l'état initial est spécifique à
l'invention. En effet, dans la méthode de la présente invention, les conséquences des interactions sont représentées comme résultant d'une résistance au changement des taux de molécules suite à une modification quantitative de l'activité biologique d'au moins une molécule interagissant s sur elles et une tendance à revenir à l'état initial ; cette représentation permet d'éviter de faire des hypothèses sur le fonctionnement du système (effets de seuil, types de réactions chimiques, etc.) et de tenir compte des données ou variables éventuellement non connues ou non mesurées, l'inertie et la tendance au retour à l'état initial représentant la résultante des 1o multiples phénomènes biologiques impliqués dans une interaction donnée (temps de synthèse de la molécule, existence d'un rétro-contrôle négatif concomitant, temps de transport des molécules jusqu'au compartiment cellulaire où elles sont actives, etc.) ; le formalisme de l'invention est donc fondamentalement différent de celui des autres méthodes existantes Is (comparer avec le tableau 1).
Pr-requis A lications ~
(1) (2) (3) (4) (5) Niveau requisCroissanceTaille ApplicableMise en aeuvre de de la maximale de rseaux pouf de connaissancequantit rseau mis de 1000 l'identification de Mthode fonctionnellecalcul en aeuvre 100000 systmatique de du rseau requise molcules cibles en biologique fonction thrapeutiques de la taille du rseau Mthode de A A >100 Oui Oui l'invention Tableau 4 Selon une variante des procédés de sélection de cibles thérapeutiques 2o décrits plus haut, un premier classement hiérarchique des sommets, considérés individuellement, est obtenu en effectuant les étapes A) à E) en imposant, pour chacune des simulations de l'étape D), des stimuli qui concernent un sommet unique ; une étape D2) est ensuite effectuée, correspondant à l'étape D) dans laquelle les stimuli imposés à chaque simulation sont exercés sur deux sommets, soit en testant toutes les combinaisons de deux sommets possibles, soit en limitant ces calculs aux combinaisons de deux sommets parmi un certain nombre des sommets les mieux classés à l'étape E). Enfin, une étape E2) de classement s hiérarchique des associations de deux sommets sur lesquels des stimuli sont le plus susceptibles d'avoir l'effet voulu est effectuée à partir de l'ensemble des proximités statistiques calculées à l'étape D2).
A partir de la variante ci-dessus, les étapes D) .et E) peuvent étre répétées 1o de façon itérative, en augmentant à chaque fois le nombre de sommets sur lesquels sont exercés les stimuli. Ainsi, le procédé peut comporter une étape D3) suivant l'étape E2) et correspondant à l'étape D) dans laquelle les stimuli imposés à chaque simulation sont-exercés sur trois sommetsï -soit en testant toutes les combinaisons de trois sommets possibles, soit en m limitant ces calculs aux combinaisons de trois sommets choisis parmi un certain nombre des sommets les mieux classés à l'étape E) et des combinaisons de deux sommets les mieux classées à l'étape EZ), ladite étape D3) étant suivie d'une étape E3) de classement hiérarchique des associations de trois sommets sur lesquels des stimuli sont le plus 2o susceptibles d'avoir l'effet voulu. Des étapes D4) et E4), avec des stimuli sur 4 sommets peuvent ensuite être rajoutées, et ainsi de suite. Ces procédés de sélection de cibles thérapeutiques comportent de préférence une étape finale de classement statistique des proximités de graphes de toutes les simulations effectuées, intégrant l'ensemble des classements 2s précédemment obtenus.
Dans les procédés de l'invention, lorsqu'une simulation implique des stimuli sur une combinaison de sommets, les stimuli exercés sur ces différents sommets peuvent être appliqués simultanément ou non, c'est-à-dire que la ~o simulation peut tenir compte d'un décalage temporel entre les stimuli exercés sur différents sommets.
s0 Dans une mise en ceuvre de l'invention, la relation entre X; et ies X~ est établie, pour au moins une partie des interactions physico-chimiques entre les molécules du réseau, par une relation inertielle découlant de celle de s l'oscillateur harmonique en physique, associée à un facteur d'amortissement suffisamment important pour limiter l'oscillation à un seul cycle.
Plus précisément, une relation de ce type entre X; et chaque X~, deux à
deux est de la forme : .
io w;~ .X~ = m; .(d2Xi / dt2) + 2 .A;; .(dX; / dt) + w;j~ .X;, dans laquelle m; .(d2Xi / dt2) + cu;~2 .X; correspond au terme inertiel (i), 2 .A;; .(dX; / dt) correspond au terme de retour à l'état initial (ü), X; est une variable associée à la molécule i dX; / dt est la dérivée de X; en fonction du temps is d2X; / dt2 est la dérivée seconde de X; en fonction du temps X~ est une variable associée à la molécule j, m; représente l'inertie de i, A;j régit le retour à l'état d'équilibre de X;, la pulsation c~;j correspond au temps de réponse de X; à la variation de ?o Xj, et w;~ est un facteur de couplage représentant la force de l'interaction entre les molécules i et j, correspondant à une pondération de l'effet de chaque molécule j sur la molécule i vis-à-vis de la résultante de l'ensemble des effets combinés de toutes les molécules j exerçant un 2s efFet sur i.
Selon une autre mise en oeuvre des procédés de l'invention, pour au moins une partie des interactions physico-chimiques entre les molécules du réseau, la relation entre les variables X; et X~, deux à deux est établie par ~o une relation sigmoïde comportant un facteur de retardement associée à
une fonction de décroissance linéaire.
Un autre type de relation entre les variables X; et Xj, décrit plus en détail ci-après, utilisable dans les procédés de l'invention pour modéliser au moins une partie des interactions physico-chimiques entre les molécules du s système biologique, est de la forme (dX;/dt) = fCl; . [ 1 / (1 + ~ ~ wi].x] - bi) j _ ~2~ _ X; ~ où
le terme sigmoïde 6C1; . [1 / (1 + e-~ W7.x - bi)j correspond au terme inertiel (i), et le terme K2; . X; correspond au terme de retour à l'état initial (ü), avec 1o X; = variable associée au sommet i, .
Xj = variable associée au sommet j, wij = facteur de couplage représentant la force de l'interaction entre ies molécules i et j, correspondant à une pondération de l'effet de chaque molécule j sur la molécule i vis-à-vis de la résultante de l'ensemble des ]s effets combinés de toutes les molécules j exerçant un effet sur i., bi = facteur de retardement, tCl; = facteur de limite maximale de variation de X;, et IC2; = facteur de retour à l'équilibre.
2o Dans les procédés ci-dessus, la relation entre les variables X; et Xj, peut également être, pour au moins une partie des interactions considérées, une fonction polynôme de type W;j Xj = E bm;.X;m = b~p_1~; .X;p 1 + ... + b3; .X 3 + bzi .X 2 + b1. .Xi +
boi , [m:1 ~ p-1 ]
2s d'ordre strictement inférieur au nombre p de couples (X;t, Xjt) de valeurs expérimentales du niveau de taux ou d'activité X; ou Xj des molécules i et j, respectivement, à différents instants t, les paramètres bm; étant calculés à
partir des p couples expérimentaux (X;t, Xjt) disponibles, et wj étant un facteur de couplage représentant la force de l'interaction entre les ~o molécules i et j, correspondant à une pondération de l'effet de chaque molécule j sur la molécule i vis-à-vis de la résultante de l'ensemble des effets combinés de toutes les molécules j exerçant un effet sur i.
Des fonctions de type dérivée W;j Xj = ~ am;j.~dmX;/dtm~ , [m:0~p'-11 p' étant un entier tel que 1 < p' > p - 1, et p étant défini tel que ci-dessus, peuvent également être utilisées dans les procédés de l'invention pour modéliser au moins une partie des interactions physico-chimiques entre les 1o molécules du système biologique.
Ceci peut notamment étre mis en oeuvre avec p'=3.
La résultante globale de n interactions exercées par des molécules 1 à n sur une molécule i peut étre, dans les procédés de l'invention, et pour au Is moins une partie des molécules du réseau, une somme pondérée des actions des molécules 1 à n sur la molécule i, de fa forme Fc(~j~i)=~a;j.fj;,où
G:1~n1 G:l~n1 fj; est la fonction associée à l'arc (i, j) pour chaque couple (i,' j) et 2o a;j = (dXj/dt) / ~ (dXj/dt).
fi:1 ~nl Une telle somme pondérée peut également être faite avec a;j = (dZXj/dt2) / ~ (d2Xj/dt2).
~5 p:~~nl La présente invention porte également sur un procédé de détermination du mode d'action d'un xénobiotique, consistant à mettre en oeuvre un procédé
d'analyse d'un réseau d'interactions moléculaires dans un système ~o biologique, tels que ceux décrits plus haut, dans les conditions suivantes (i) le système biologique dans lequel un réseau d'interactions moléculaires est étudié est concerné par l'action du xénobiotique ;
(ü) I"'état à modifier" choisi à l'étape C), correspond à un état observé expérimentalement avant l'administration dudit xénobiotique ;
(iii) on identifie les modifications à apporter au cours de l'étape D)a) s pour que le calcul effectué à l'étape D)b) montre une évolution du système vers un état proche de l'état observé après administration du xénobiotique.
Un autre aspect de l'invention est une méthode de prédiction ,d'effets 1o indésirables de traitements appliquant un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique, par la mise en oeuvre d'un système informatique.
Dans cet aspect de l'invention, les étapes et caractéristiques de la méthode sont les mémes que précédemment, la seule modification consistant dans i5 l'adaptation suivante Une fois identifiées les molécules-cibles d'un traitement, on analyse sur des parties du graphe représentatives de fonctions physiologiques connues, par des simulations mettant en jeu fa méme méthode que dans les aspects précédents de l'invention (étapes A à E, éventuellement A à Ek lorsque les 2o étapes D et E sont répétées de façon itérative en appliquant les stimuli sur des combinaisons de sommets allant jusqu'à k sommets), les conséquences de l'application du traitement sur ces molécules cibles. Cette analyse consiste à identifier les éventuelles évolutions de ces sous-parties de graphes vers de nouveaux états proches d'autres états pathologiques Zs de référence (tels que définis par l'observation expérimentale de ces conditions pathologiques, selon des méthodes similaires à ce qui est décrit plus haut).
A titre d'exemple, l'observation lors des simulations de l'évolution du sous graphe de l'apoptose vers un état final ayant une grande proximité avec un état de référence de ce graphe correspondant à une activation de cette voie physiologique (telle que définie à partir de données concernant un ou s4 des tissus affectés par des processus de dégénérescence cellulaire) permet de prédire un effet de toxicité cellulaire du traitement dans le ou les tissu concernés.
Cet aspect de l'invention consiste donc à mettre en oeuvre un procédé
s d'analyse tel que décrit plus haut, dans les conditions suivantes (i) le système biologique dans lequel un réseau d'interactions moléculaires est étudié est concerné par le traitement ;
(ü) les modifications de l'étape D)a) correspondent aux modifications des niveaux de taux ou d'activité des molécules cibles observées Io ou souhaitées lors de l'application du traitement ;
(iii) l'étape D)b) de calcul de l'évolution du système biologique est suivie d'une analyse de sous-parties du système correspondant à
des fonctions physiologiques connues, afin d'identifier les éventuelles évolutions de ces sous-parties vers des états Is proches d'états pathologiques de référence.
La présente invention porte également sur un procédé pour hiérarchiser des cibles thérapeutiques potentielles pour une pathologie, consistant à
identifier des cibles thérapeutiques par un procédé selon l'invention, puis à
2o prédire les éventuels effets indésirables d'un traitement visant ces cibles, et enfin à déterminer le rapport "bénéfice thérapeutique / effets indésirables"
d'une action sur chacune des cibles thérapeutiques potentielles.
Comme exposé ci-dessus, un des avantages principaux de la présente ?s invention, dans ses différents aspects, est de permettre de travailler sur des graphes ou réseaux de molécules en interaction comportant un grand nombre de molécules. Dans l'ensemble des procédés de l'invention, décrits plus haut, le nombre de variables X; du réseau d'interactions moléculaires considéré est donc de préférence supérieur à 100, supérieur à 200, voire supérieur à 300.
L'invention concerne aussi un procédé d'analyse tel que décrit plus haut faisant appel à l'utilisation des réseaux d'interaction moléculaire de l'invention, lesdits réseaux étant associés pour former un hypergraphe de réseaux.
Selon cette variante de réalisation de l'invention, le nombre de variables X;
de chaque réseau d'interactions moléculaires est inférieur à environ 100 et le nombre de réseaux associés pour former l'hypergraphe est compris entre 2 et environ 100.
1o Un autre aspect de l'invention est une méthode d'extension des graphes à
partir de résultats de criblages expérimentaux des variations de taux d'expression ou d'activité de molécules, appliquant un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique, par la 1s mise en oeuvre d'un système informatique.
Dans cet aspect de l'invention, les étapes et caractéristiques de la méthode sont les mémes que précédemment, la seule modification consistant dans l'adaptation suivante Dans cette application, la méthode est mise en oeuvre pour identifier de 2o nouvelles interactions moléculaires. Ceci peut être réalisé par le couplage de la méthode de l'invention décrite plus haut, avec des méthodes statistiques de recherche de corrélation entre des points dans un espace à
n dimensions (par exemple analyse factorielle, classifications hiérarchiques, etc.) telles que (mais de façon non exclusive) celles utilisées as à ce jour pour rechercher des corrélations de l'expression de gènes à
partir des résultats de criblage d'ARN messagers sur puces à ADN ("elustering"
de gènes). A titre d'exemple de méthode de "çlustering", on peut citer Eisen MB, Spellman PT, Brown PO and Botstein D (1998), Cluster Analysis and Display of Genome-llVide Expression Patterns, Proc Natl Acad Sci U S A
30 95, 14863-8. Un exemple de système logiciel d'accès libre permettant de réaliser des analyses de clustering disponible sur internat est le logiciel "cluster 3.0", développé par le Laboratory of DNA Information Analysis of Humas Genome Center, http://www.ims.u-tokyo.ac.jp/imswww/index-e.htmllnstitute of Medical Science, Universit rL of Tokyo, au Japon (4-6-1 Shirokanedai, Minato-ku, Tokyo 108-8639 JAPAN). Le logiciel "cluster 3.0"
s est diseonible sur le site internet http://bonsai.ims.u-toky~.ac.jp/~mdehoon/software/cluster/. Les données expérimentales utilisées peuvent par exemple être celles produites par les criblages d'expression d'ARN messagers sur puces à ADN.
Ce couplage consiste à utiliser les paramétrages calculés par la mise en 1o oeuvre de l'invention pour re-calculer une nouvelle matrice de données expérimentales de mesure d'expression de taux ~ou d'activité des molécules, en éliminant des matrices de résultats expérimentaux d'origine les facteurs d'interactions moléculaires inclus dans -le modèle dynamique paramétré (tels que la composante de résistance dynamique ou inertielle), 15 puis à effectuer les recherches de corrélation. Ce "nettoyage" des matrices de résultats d'origine consiste en d'autres termes à en éliminer le "bruit statistique" lié à ces facteurs, ces facteurs étant alors considérés comme introduisant des distorsions, dans les mesures réellement observées des taux d'expression ou d'activité des molécules, par rapport à ce qu'auraient 2o été ces mesures, d'un point de vue théorique, en l'absence de ces facteurs.
A titre d'exemple, la résistance dynamique de l'expression d'un gène A
donné (donc l'inertie de la modification du taux d'ARN messager correspondant) à deux stimulations distinctes exercées par les molécules B
et C (elles mêmes distinctes) peut varier, empêchant avant tout "nettoyage"
2s de ce type de mettre en évidence à la fois une corrélation entre l'expression de A et l'activité de la molécule B, et une corrélation entre l'expression de A
et l'activité de la molécule C.
L'invention porte donc sur l'utilisation d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique susceptible d'être 30 obtenu par un procédé tel que décrit plus haut, pour étendre un graphe statique dont les sommets représentent des molécules biologiques et les arcs représentent des interactions physico-chimiques entre ces molécules.
D'autres avantages et caractéristiques de la présente invention s apparaissent dans les exemples ci-après de mise en oeuvre pratique des procédés de l'invention, qui illustrent de façon non limitative les méthodes décrites ci-dessus.
Les schémas et figures ci-après illustrent également certains aspects de 1o l'invention La figure 1 représente un schéma synthétique des diverses étapes d'une méthode d'identification des cibles selon la présente invention.
La figure 2 représente un schéma du graphe construit dans l'exemple 4.
Ce graphe comporte 116 molécules dans le réseau d'interactions is moléculaires (116 sommets), et 329 interactions moléculaires entre ces molécules. Chaque rectangle représente une molécule du réseau (= un sommet du graphe). Chaque flèche représente une interaction entre deux molécules (= une arrête du graphe) ; le sens des flèches représente le sens des interactions : si la flèche va de la molécule A vers la molécule B, cela 2o signifie que la molécule A a une action d'activation ou d'inhibition potentielles de la molécule B ; certaines flèches sont à double sens interaction bilatérale. Le texte au sein de chaque rectangle correspond à
l'abréviation du nom de fa protéine telle que décrite dans le texte. Le calcul des paramètres des relations entre les sommets du graphe et les ?s simulations ont été réalisées sur l'ensemble de ce graphe (exemple 4).
La figure 3 montre des exemples graphiques de cinétiques calculées (triangles) et' observées (carrés), pour quelques gènes (exemple 4). Figure 3A : ORF YBL015W (ACH1). Figure 3B : ORF YMR169C (ALD3). Figure 3C : ORF YIL125W (KGD1). Figure 3D : ORF YNL071W (PDA2). Figure ~0 3E : ORF YAL054C (ACS1 ). Figure 3F : ORF YFL01 ~C (LPD1 ).
La figure 4 représente un schéma du graphe construit dans l'exemple 5.
Ce graphe comporte 133 molécules dans le réseau d'interactions moléculaires (133 sommets), et 407 interactions moléculaires entre ces molécules.
La signalétique des rectangles, flèches et des textes au sein de chaque s rectangle est la même que celle précédemment décrite, en référence à la figure 2.
La figure 5 montre des exemples de courbes de paramétrage, dans lesquels les cinétiques mesurées expérimentalement sont représentées en blanc et les .cinétiques cafcuiêes par simulation sont représentées en noir, Io pour quelques molécules (exemple 5). Figure 5A : .ICL 1 (YER065C).
Figure 5B : IDH1 (YNL037C). Figure 5C : ACH1 (YBL015W). Figùre 5D
PCK1 (YKR097W).
La figure 6 représente un schéma de classification des molécules du réseau par classification hiérarchique des distances calculées entre d'une is part l'état à atteindre et d'autre part les états obtenus par simulation (exemple 5).
Les ordonnées correspondent aux valeurs de distance calculées. En abscisse les 133 molécules du réseau sont classées de gauche à droite de celle associée à la distance la plus faible à celle associée à la distance la 2o plus élevée, chaque point correspondant à une molécule du réseau.
Exemales Exemple 1 : Mise en oeuvre pratigue de l'étape A) - (1) Les variables associées aux sommets du graphe Soit i une molécule donnée du réseau, et x; sa quantité (ou sa concentration) au sein du système biologique étudié. Soit x;o la mesure ~o expérimentale effectivement réalisée de i à un « état étalon » du système biologique, utilisé lors des mesures. Soit x;t la mesure expérimentale effectivement réalisée de i à un instant t. La variable utilisée est (1) X. _ (x~t/x~o).
L'état étalon est un état mesurable utilisé pour pratiquer les mesures s biologiques, contre lequel toutes les autres mesures sont quantifiées. II
peut correspondre à un état artificiel du système, par exemple à un pool de plusieurs échantillons biologiques prélevés dans des conditions expérimentales différentes (état artificiel), ou à un état réellement observable (non artificiel) du système. - ,.
1o Gette variable correspond bien au type de mesures biologiques effectivement réalisables. A. titre d'exemple, lors des mesures de taux d'ARN messagers sur puces à ADN, la mesure effectivement réalisée pour chaque ARN à un temps-expérimental -t donné est le rapport du signal émis par l'hybridation dés ARN présents dans l'échantillon biologiqûe au temps t is sur le signal émis par les ARN de méme type présents dans l'échantillon à
un état étalon du système biologique étudié (par exemple le temps initial de l'expérience biologique). Seule cette mesure peut être considérée comme fiable, la quantité réelle de molécules d'ARN n'étant pas directement mesurable car elle dépend de~ paramètres expérimentaux non directement 2o contrôlés (rendement des réactions de marquage des sondes, rendement des hybridations sur la puces, etc., ces paramètres différant de façon non prédictible entre deux ARN de type différent donnés). La quantité de signal mesuré à l'état étalon sert donc d'étalon de mesure pour celle aux autres temps, en se fondant sur l'hypothèse que pour un type d'ARN donné, les 25 paramètres expérimentaux influant sur le signal finalement émis sont les mêmes.
X; correspond donc directement aux mesures quantitatives biologiques réellement productibles dans l'état actuel des techniques de biologie moléculaire.
~o Les variables X;, X~ etc. sont donc égales à (x;t/x;o), (x~t/x~o) etc.
- (2) Les relations associées aux arrêtes du graphe et reliant les variables Soient n sommets j~, j2,..., jn du graphe (correspondant à n molécules du s réseau) qui agissent sur un sommet i (orientation du graphe des j vers i).
Ces relations définissent une relation directe entre X; et les X~ (X~~, Xj2, . . . ,Xjn) Terme inertiel de ces relations 1o Ce terme correspond à une fonction continue des X~. .Ce terme comporte .
une composante inertielle. Par inertie, on entend le fait que X; présente une résistance au changement suite à une variation des X~ : plus précisément, ce terme de la relation doit permettre de rendre compte du comportement suivant des variables : suite à une variation donnée d'un ou plusieurs des 1s X~, la vitesse de variation de X; va être initialement faible, puis s'accélérer progressivement.
Ce terme doit aussi permettre de rendre compte du comportement suivant des variables : suite à la variation d'un ou plusieurs des X~, X; va progressivement atteindre une nouvelle valeur finie correspondant à la 2o variation maximale de X; (pic de variation) ; ceci revient à dire que la vitesse de variation de X;, après avoir augmenté, va diminuer et progressivement tendre vers 0. II y a donc une inflexion de la courbe de X;
en fonction du temps.
as Commentaires Le fait de comporter une composante inertielle introduit de fait l'expression d'un retard temporel de la variation de X; suite à la variation de X~ : en l'absence d'autres interactions s'exerçant sur i, le pic de variation de X;
tend à survenir après le pic de variation de X~.
~o Le fait de comporter une composante inertielle permet donc de rendre compte du décalage temporel dans les variations des X; lors de la propagation des activation / inhibitions dans le réseau. A l'inverse, le fait d'introduire un simple décalage temporel par d'autres méthodes mathématiques n'introduira pas systématiquement un terme inertiel.
s Terme de retour à l'état initial de ces relations Ce terme tend à ramener X; à son niveau initial.
II correspond à une fonction continue de X; toujours croissante en valeur absolue avec X; : plus la variation de X; est forte, plus ce terme augmente en valeur absolue et tend à ramener X; à son niveau de départ.
1o Le couplage de ces deux termes permet de définir une relation générale pouvant rendre compte de cinétiques variables et non linéaires.
Plusieurs relations mathématiques peuvent comporter ces caractéristiques 1s et âtre utilisées pour établir une relation entre X; et les X~. Le fait de présenter une inflexion, d'être contraint par une limite maximale finie, et de tendre au retour à l'état initial peut âtre obtenu notamment par Dans un aspect de l'invention, la relation entre X; et les Xj est établie par 2o une relation inertielle découlant de celle de l'oscillateur harmonique en physique associée à un facteur d'amortissement suffisamment important pour limiter l'oscillation à un seul cycle.
Pour plus de clarté dans la description, une relation de ce type entre X; et chaque X~, deux à deux est de la forme 2s (1) w;~ .X~ = m; .(d2Xi / dt2) + 2 .A;~ .(dX; / dt) + w;~2 .X;
Le terme : m; .(d2Xi / dtz) + w;~2 .X; correspond au terme inertiel Le terme : 2 .A;~ .(dX; / dt) correspond au terme de retour à l'état initial X; = variable associée à la molécule i dX; / dt = dérivée de X; en fonction du temps ~o d2X; / dt2 = dérivée seconde de X; en fonction du temps X~ = variable associée à la molécule j m; = inertie de i (résistance au changement) A;~ = amortissement (régit le retour à l'état d'équilibre de X; ).
c~;~ = pulsation (temps de réponse de X; au stimulus représenté par XI) w;~ = facteur de couplage représentant la force de l'interaction entre les s molécules i et j, correspondant à une pondération de l'effet de chaque molécule j sur la molécule i vis à vis de la résultante de l'ensemble des effets combinés de toutes les molécules j exerçant un effet sur i.
Une variante formellement équivalente également utilisable de cette 1o relation entre X; et X~ consiste à se ramener à un cas.particulier où m;
est considéré comme une constante ; dans ce cas on peut éliminer le paramètre m; de l'équation. La formulation de l'équation reste globalement la même w;1 .X1 = (d2X; / dt2) + 2 .A;1 (dX; / dt) + c~;12 .X;
Dans les deux cas, si : ~ A;1 ~ ? 1 , l'amortissement est tel qu'il n'y a plus qu'une seule « oscillation » de X;. En d'autres termes, cette relation fait varier X; à partir de son niveau de départ, jusqu'à une variation maximale, puis tend à le faire revenir à son état initial. ' Pour mettre en ceuvre l'invention, on définit donc une relation entre X; et l'ensemble des XI
Dans un aspect de l'invention, celle-ci est définie par une sommation pondérée des effets des XI sur la résultante sur X;
2s (2) ~ (w;1 . X1) + c;= m; .(d2Xi / dt2) + 2 .A;1 .(dX; / dt) + c~;12 .X;
G:1 ~nl OU:
(3) ~ (w;1 . X1) + c; =(d2X; / dt2) + 2 .A;1 (dX; / dt) + c~;~2 .X;
G:1-~nl w;~ = facteur de pondération c; = facteur de correction, du fait des marges d'erreurs possibles dans les données expérimentales, non indispensable.
La définition des autres paramètres et variables est la même que précédemment.
s X; ; dX; / dt ; d2 X; / dt2 et Xl sont des données fournies expérimentalement ou directement calculés à partir de ces données. Par exemple, ces données peuvent être obtenues par des criblages d'expressions d'ARNm.
Les inconnues de cette équation en sont les paramètres ( m; ; l~;] ; w;] ; w1 ), qui sont à fixer pour entièrement définir la relation-en vue de simulations.
]o On pose que quel que soit i et quel que soit j, ~ A;] ~ >_ 1.
Dans un autre aspect de l'invention, la relation entre X; et f ensemble des Xl est définie par une somme dont la pondération inclut- un terme variable au cours du temps et tenant compte explicitement des vitesses respectives 1s des modifications des Xj, vitesses représentées par les dérivées :
dX](t)/dt, noté dans la suite dXl/dt. Ceci revient à considérer que les vitesses de variation des X] (des molécules j) influencent la résultante globale de leurs actions sur la cinétique de X; (de la molécule i).
On définit 20 (4) a;] _ ( dXl / dt ) / ~ ( dX] / dt ) ; a;1 étant un facteur de pondération.
(j:1 ~ n]
ag est directement calculable, à partir des données quantitatives expérimentales, pour chaque temps expérimental. Ce facteur de pondération varie en fonction du temps.
2s Dans ce cas, la relation entre X; et l'ensemble des Xl est définie comme suit (5) ~ (a;] ~. w;] . X1) + c; = m; .(d2Xi l dt2) + 2 .A;] .(dX; I dt) + w;~2 .X;
[j:1 ~ n]
OU:
30 (6) ~ (a;] . w;] . X]) + c; =(d2X; / dt2) + 2 .A;1 (dX; / dt) + w;12 .X;
G:1 ~ n1 La définition des paramètres et variables est la méme que précédemment.
Les équations (2) et (3) reviennent à un cas particulier des équations (5) et
Du fait de leurs .caractéristiques résumées dans le tableau 1, ces différentes méthodes nécessitent des pré-requis et sont utilisables dans 1s des applications qui sont résumées dans le tableau 2 ci-dessous Pr-requis Applications (1) (2) (3) (4) (5) Niveau CroissanceTaille Applicable Mise en aeuvre requis de de la maximale des rseaux pour de connaissancequantit rseau mis de 1000 l'identification de Mthode fonctionnellecalcul en aeuvr 100000 , systmatique de du rseau requise molcules cibles en biologiquefonction thrapeutiques de la taille du rseau Mthodes qualitatives Rseaux <100 C C Non Non boolens molcules Formalismes <100 logiques C C Non Non nraliss molcules .
Formalismes <100 C B Non Non " cule-based molcules "
Mthds -.
probabilistes Equations B C <100 Non Non stochastiques molcules Rseaux <100 A C Non Non Ea siens molcules Mthodes d'quations .
diffrentielles Equations diffrentielles <100 C ~
ordinaires molcules Non Non non linaires Equations <100 diffrentiellesC A Non Non linaires molcules Equations diffrentiellesC C Non Non artielles molc ules Mthodes -m ixtes Equations <100 diffrentiellesC C Non Non ualitatives molcules I arceau z : comparaison des méthodes de modélisation de l'art antérieur : pré-requis et applications possibles Le tableau 2 doit étre lu en considérant les éléments suivants (1) Connaissance fonctionnelle du réseau biologique Niveau A : connaissance de l'existence en soi des interactions moléculaires, et au moins une partie de leurs orientations et une partie des effets des interactions (activation/ inhibition ou synthèse/ dégradation).
s Seule fa connaissance de niveau A est largement disponible à ce jour. Par conséquent, seule une méthode ne requérant qu'une connaissance de niveau A peut être appliquée à des réseaux étendus.
Niveau S : niveau A avec toutes les orientations des interactions et de tous les effets des interactions. .
1o Niveau C : connaissance fonctionnelle étendue du réseau, c'est-à-diré
niveau S plus d'autres données telles que : constantes des vitesses des réactions chimiques, description d'effets de seuil, description d'effets allostériques, etc. A ce jour, quel que soit l'organisme vivant considéré, pour la plupart des molécules des réseaux d'interactions moléculaires les 1s connaissances de niveau C ne sont pas disponibles. Une description fonctionnelle détaillée du réseau biologique est nécessaire à la mise en pauvre de la méthode lorsque des connaissances de niveau C sont requises. Du fait de l'indisponibilité des connaissances de niveau C pour la plupart des molécules, toute méthode requérant ce type de connaissance 2o pour sa mise en pauvre ne peut être appliquée qu'à de très petits réseaux bien étudiés et connus (quelques dizaines de molécules au maximum) et est de fait inadaptée à son application à de grands réseaux (de plus de 100 à 150 molécules).
(2) Puissance de calcul 2s Niveau A : croissance linéaire avec la taille du réseau (en nombre de molécules) de la quantité de calcul requise. Ceci correspond à la possibilité
de mise en oeuvre sur un serveur de puissance standard (grand public).
Les méthodes mettant en pauvre des calculs dont la quantité croît de façon linéaire avec la taille du réseau peuvent être appliquées à des réseaux 3o étendus (sous réserve de ne pas présenter d'autre limite à cette application).
Niveau B : croissance de la quantité de calcul intermédiaire entre les cas A
et C. Les méthodes mettant en ceuvre des calculs dont la quantité croît de façon intermédiaire entre A et C sont théoriquement applicables à des réseaux étendus mais à un coût élevé voire très élevé (et sous réserve de s ne pas présenter d'autre limite à cette application).
Niveau C : croissance exponentielle avec la taille du réseau (en nombre de molécules) de la quantité de calcul requise. Toute méthode mettant en oeuvre des calculs dont la quantité croît de façon exponentielle avec la taille du réseau requiert une très grande puissance de calcul. A titre d'exemple, 1o certaines applications des réseaux bayésiens nécessitent environ 30 minutes de temps de calcul sur un serveur équipé d'un processeur de 1,2 Giga Hertz pour un réseau de 8 molécules : sur un réseau de 32 molécules, le temps de calcul sur le même ordinateur serait dans ce cas de plus d'un an et demi. En pratique, même avec des ordinateurs les plus 1s puissants actuels les méthodes présentant une croissance exponentielle du temps de calcul ne sont pas applicables à de grands ou très grands réseaux (quelques milliers à quelques dizaines de milliers de molécules et plus ; certaines d'entre elles ne sont pas applicables même à des réseaux de quelques centaines de molécules).
20 (3) Taille maximale de réseau mis en oeuvre : il s'agit de la taille maximale des réseaux sur lesquelles la méthode a pu être mise en pauvre à ce jour avec succès.
(4) Applicable à des réseaux de 1000 à 100000 molécules : cette possibilité
d'application est liée (i) aux principes intrinsèques de la méthode (par 2s exemple les réseaux Bayésiens, qui sont des réseaux linéaires et donc non adaptés à de grands réseaux biologiques comprenant des boucles de rétro-contrôle ne peuvent pas étre appliqués à de grands réseaux), (ü) au niveau A, B ou C de connaissance fonctionnelle du réseau biologique requise, la nécessité d'une connaissance de niveau C rendant de fait la méthode ~o inadaptée aux grands réseaux, et la nécessité d'une connaissance de niveau B la rendant très difficilement applicable à de tels réseaux, et (iii) à
la puissance de calcul requise (niveaux A, B ou C), une croissance du temps de calcul de niveau C étant de fait non compatible avec une mise en oeuvre sur de grands réseaux, et une croissance de niveau B rendant la méthode trés difFicilement applicable à de tels réseaux.
s (5) Mise en oeuvre pour l'identification systématique de cibles thérapeutiques : il s'agit de la mise en oeuvre effective de la méthode dans une recherche systématique de cibles au sein du réseau, sans a priori.
Aucune des méthodes existantes n'a pu être mise en ouvre dans cette application à ce jour.
1o Toutes ces méthodes sont peu fiables dans leurs prédictions dès lors que le réseau dépasse une cinquantaine de molécules. Elles sont donc mal adaptées pour réaliser des modèles dynamiques corrects des réseaux d'interactions moléculaires des organismes vivants qui présentent les 1s caractéristiques suivantes - un grand nombre de types moléculaires différents sont impliqués de quelques centaines à quelques draines de milliers, voire centaine de milliers, - les cascades mettent en jeu des boucles de rétro-action, avec une ao redondance des circuits, - les vitesses de propagation des activations / inhibitions des molécules au sein des réseaux sont différentes en fonction des circuits (i.e. des chemins de propagation au sein du réseau), - des réseaux extrêmement complexes difficiles à modéliser.
2s Pour être réellement applicable à la prise en compte des données de génomique, transcriptomique et protéomique produites à grande échelle, dans un objéctif d'identification systématique de cibles thérapeutiques, les modèles dynamïques construits doivent permettre de modéliser des cascades d'interactions moléculaires telles que décrites ci-dessus.
~o Le fait de produire un modèle de la dynamique d'un réseau d'interactions moléculaires biologiques ne suffit pas en soi pour pouvoir sélectionner de façon fiable et rationnelle de nouvelles cibles thérapeutiques. A ce jour, toutes les méthodes développées n'ont pu étre appliquées qu'à la simple s description de processus moléculaires dans des réseaux biologiques de petite taille (quelques draines de molécules au plus) et à quelques simulations visant à reproduire des modifications connues du réseau.
Aucune n'a éfié appliquée à la sélection systématique de cibles thérapeutiques parmi l'ensemble des molécules du réseau, y compris sur 1o ces petits réseaux, et a f~rti~ri sur de grands réseaux. En effet, une telle application requiert la mise en oeuvre d'une stratégie de simulations appropriée, telle que décrite dans l'invention, et qui n'a pas été décrite avec les méthodes -existantes (et pour certaines d'entre elles, n'est pas applicable mëme sur de petits réseaux).
1s Cette application, à savoir la sélection de cibles thérapeutiques à partir de modélisations dynamiques des réseaux d'interactions moléculaires de grande taille effectivement mis en jeu dans les processus pathologiques n'est donc pas atteint par les méthodes décrites à ce jour.
La présente invention a pour objectif de fournir une méthode d'obtention de 2o modèles dynamiques de réseaux d'interactions moléculaires dans un système biologique, qui rendent possibles ce type d'applications. .
Pour une bonne intelligibilité de ce texte, un certain nombre de termes sont définis ci-dessous.
Par interaction moléculaire entre deux (ou plus) molécules biologiques, il 2s est entendu ici une interaction où une molécule (ou plus) active ou inhibe une autre molécule (ou plus). Le cas où une molécule d'un type donné
interagit avec une autre molécule du même type n'est qu'un cas particulier de cette définition générale. Deux molécules sont définies ici comme étant du même type si elles ont la même formule chimique.
~o L'activation (ou l'inhibition, respectivement) est définie ici comme l'augmentation (ou la diminution, respectivement) de l'activité biologique de la (ou des) molécules) sur laquelle (ou lesquelles) s'exerce l'interaction considérée. Cette augmentation (ou cette diminution, respectivement) de l'activité biologique peut correspondre soit à une augmentation (ou une diminution, respectivement) du nombre de molécules d'un type donné
s présentes dans le système biologique analysé, chacune gardant la même activité (ou fonction) biologique, soit à une augmentation (ou une diminution, respectivement) de l'activité des molécules d'un type donné, leur nombre restant constant, soit à une combinaison de ces deux mécanismes, soit à la résultante de ces deux mécanismes. L'activation (ou 1o l'inhibition, respectivement) peut aussi être :la qonséquence d'une augmentation (ou d'une diminution, respectivement) du nombre de molécules associée à une diminution . (ou une augmentation, respectivement) de leur activité biologique, si la résultante globale en est une augmentation globale (ou une diminution globale, respectivement) de 1s l'activité, et vice-versa.
L'activation (ou l'inhibition, respectivement) peut être non-nulle ou nulle en fonction des molécules considérées et du système biologique considéré.
Elle peut être variable au cours du temps. Le fait que certaines interactions du réseau d'interactions moléculaires considéré correspondent à une 2o activation (ou une inhibition, respectivement) nulle n'est qu'un cas particulier du champ de l'invention. .
L'aetivité biologique d'une (ou de) molécules) biologiques) considérées) correspond à toute capacité de la (ou des) molécules considérées à avoir une interaction chimique etlou physique avec toute autre molécule d'un 2s autre type (ou avec une autre molécule du même type). Cette interaction chimique et/ou physique peut résulter ou non dans l'acquisition (ou la perte) par une des molécules interagissant de capacités à avoir une interaction chimique etlou physique avec toute autre molécule d'un autre type (ou avec une autre molécule du même type). Les interactions chimiques sont toute ~o interaction entre deux molécules (ou plus) provoquant une réaction chimique (pouvant être représentée par une modification de la formule chimique d'une molécule, ou la synthèse, ou la dégradation d'une molécule). Les interactions physiques sont toute interaction entre deux molécules (ou plus) provoquant la formation d'un complexe stable ou instable entre ces molécules. Des exemples d'activités biologiques de s molécules et d'interactions moléculaires correspondantes sont (de façon non exclusive) : l'activité d'activation de la transcription d'un gène donné
(interaction moléculaire : protéine (facteur de transcription) - ADN), l'activité. de mise en oeuvre d'une réaction chimique (interaction moléculaire : protéine (enzyme) - molécule (substrat), permettant la 1o transformation de la molécule-substrat en molécule-produit de la réaction chimique), l'activité de formation d'un complexe moléculaire protéique ayant lui-méme telle ou telle activité biologique (interaction moléculaire protéine - (sous-unité -du complexe) - protéine (sous-unité du complexe)), etc.
1s Par m~lécule bi~logique, il est entendu ici toute molécule, quelle que soit sa complexité, présente dans le système biologique considéré.
Par système bi~logique, il est entendu ici tout organisme vivant, qu'il soit procaryote ou eucaryote, et qu'il soit unicellulaire ou pluricellulaire, et que le système biologique corresponde à cet organisme dans son entier ou à une 2o partie de cet organisme. A titre d'exemples, on peut citer Organismes entiers - Une cellule (eucaryote ou procaryote) dans son ensemble.
- Un ensemble de cellules interagissant directement ou indirectement entre elles, ou n'interagissant pas entre elles 2s 0 l'ensemble des cellules en culture dans une boite de Pétri ;
0 l'ensemble des cellules en formant un organe ou une partie de cet organe : noyau amygdalien d'un cerveau de mammifère.
- Un être vivant pluricellulaire.
- Les différents exemples plus leur environnement.
~o Partie d'un organisme - Un organelle d'une cellule, tel qu'une mitochondrie.
- Un ensemble de molécules participant à une fonction biologique donnée, tel qu'un ensemble de molécules participant à la respiration cellulaire, ou un ensemble de molécules participant à la mort cellulaire, que cet ensemble de molécules soit constitué de toutes s les molécules participant à ladite fonction biologique où une partie seulement d'entre elles.
L'ensemble des molécules formant le réseau d'interactions moléculaires tel qu'il est décrit sous forme d'un graphe statique dans la figure 2 est un exemple de système biologique.
1o De nombreux graphes statiques sont par exemple. disponibles dans la base de données publique KEGG (M. Kanehisa and S. Goto : KEGG : Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Research, 2~(1) : 27-30, 2000). -Tout système biologique est constitué de molécules, ces molécules 1s interagissant les unes avec les autres de façon plus ou moins stable et variable au cours du temps et des effets de l'environnement de ce système sur le système biologique lui-méme. A titre d'exemple, l'apoptose (mécanisme de mort cellulaire) est la résultante de l'interaction de multiples molécules (hormones, protéines, seconds messagers, etc...) qui, pour 2o certaines d'entre elles, ont des interactions physiques ou chimiques plus ou moins stables au cours du temps.
Par réseau d'interactions moléculaires il est entendu ici l'ensemble des molécules analysées par la méthode de l'invention associé à l'ensemble (ou une partie de cet ensemble) de leurs interactions biologiques possibles.
as Le réseau peut comprendre toutes les molécules du système biologique concerné, ou seulement une partie de ces molécules. Pour plus de clarté, le réseau peut être représenté visuellement sous la forme d'un graphe (comme un exemple en est donné dans la description ci-dessous). C'est ce type de représentation visuelle qui est à l'origine de l'utilisation du terme de ~o "réseau". Une telle représentation n'est cependant pas un pré-requis de l'invention. Le réseau peut aussi être représenté par un tableau (ou une matrice) dont par exemple chaque ligne correspond à une des molécules du réseau et dont les colonnes correspondent aux caractéristiques des interactions biologiques possibles de ces molécules (ou d'une partie de ces interactions ou de leurs caractéristiques).
s Un graphe est ici une représentation du réseau d'interactions moléculaires sous la forme d'un graphe dont les sommets (ou noeuds) correspondent aux molécules du réseau d'interactions moléculaires représenté et dont les arrêtes (ou arcs) reliant les sommets correspondent aux interactions moléculaires du réseau d'interactions moléculaires représenté. Dans la 1o suite du texte, il sera très souvent fait référence à un tel graphe, bien qu'il ne soit pas indispensable d'en réaliser un physiquement. Etant donné qu'if ne s'agit que d'une représentation symbolique du réseau, une référence au graphe correspond en réalité à une référence au -réseau.
Par variable associée à un sommet du graphe, il est entendu ici une Is variable quantitative au sens mathématique du terme, pouvant prendre des valeurs numériques, et dont la valeur à un état donné du graphe représente l'état du sommet correspondant en ce qui concerne une quantité se rapportant à une molécule du système biologique considéré. Suivant les cas, cette quantité peut âtre un niveau d'expression d'un gène exprimé
2o dans le système biologique (par exemple, l'abondance d'ARN messagers, mesurable notamment par la technique des puces à ADN), un niveau d'abondance d'une protéine, un niveau d'activité d'une protéine, un niveau d'abondance d'un métabolite, etc, pourvu que la quantité considérée soit mesurable expérimentalement, par un moyen direct ou non.
2s Un état d'un graphe est un graphe pour lequel une valeur numérique est donnée pour chaque variable (associée à chaque sommet). Le cas où une valeur numérique non nulle n'est donnée que pour une partie des variables (et associée aux sommets correspondants), une autre partie des variables (associées à d'autres sommets) étant nulles, n'est qu'un cas particulier ~o d'état du graphe. Un état du graphe donné est une représentation d'un état réel ou simulé du réseau d'interactions moléculaires correspondant, et par extension une représentation d'un état réel ou simulé du système biologique correspondant. A titre d'exemple, dans certaines représentations d'un réseau d'interactions moléculaires sous la forme d'un graphe, le fait de donner à une variable associée à un sommet du graphe la valeur nulle peut s correspondre à une représentation de la situation où la molécule correspondant à ce sommet n'est pas présente dans le réseau d'interactions (ce qui ne signifie pas qu'elle n'est pas présente dans le système biologique), ou bien de la situation où son activité biologique est nulle. Le fait de donner une valeur nulle à un certain nombre de variables Io correspond donc à considérer qu'à un temps donné celles-ci n'interagissent pas avec le reste du réseau, mais leur valeur peut devenir non nulle à un autre temps suite à une modification de l'état du réseau. Le fait de donner une valeur nulle à une variable ne revient donc pas nécessairement à
exclure le sommet correspondant du réseau.
is Dans certains cas particuliers, il est possible de donner une valeur constamment nulle à un certain nombre de variables, ce qui correspond alors à exclure les sommets correspondants du réseau et donc à travailler sur un sous-réseau. Pour travailler sur un sous-réseau, on préférera toutefois faire une hypothèse conservatrice, c'est-à-dire considérer la 2o valeur des variables exclues comme constante, ce qui permet de ne pas modifier la structure du réseau.
L'invention concerne également un système informatique pour l'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un 2s système biologique, et l'analyse de ces interactions moléculaires lorsqu'un stimulus est appliqué au modèle dynamique, comprenant au moins une unité centrale de traitement de données reliée à au moins une base de données expérimentales quantitatives, le système informatique comprenant ~o A) un module de construction d'un graphe statique, dont les sommets représentent des molécules biologiques et les arcs représentent des interactions physico-chimiques existant entre ces molécules, chaque sommet étant associé à une variable quantitative mesurée expérimentalement et chaque arc du graphe étant associé à une relation mathématique; et s B) un module d'apprentissage pour calculer les paramètres de .chaque relation à partir des données expérimentales quantitatives concernant les sommets du graphe, par la mise en oeuvre de techniques d'apprentissage par descente de gradient utilisées pour le paramétrage de réseaux.
Io Le système informatique selon l'invention peut en outre comprendre C) un module de simulation pour effectuer plusieurs procédures itératives de simulation consistant à imposer un stimulus à un -état de graphe mesuré expérimentalement et choisi comme e< état à
is modifier », le stimulus modifiant la valeur d'une ou de plusieurs des variables quantitatives associées aux sommets du graphe, constituant ainsi un état de départ de la simulation à partir duquel un calcul de propagation est effectué au sein du graphe, pour l'obtention d'un e< état final du graphe »; et ?o D) un module d'itération pour la modification du stimulus.
Le système informatique selon l'invention peut en outre comprendre E) un module de calcul de proximité entre l' « état final d'un graphe » et l' « état à modifier », ou entre l' « état final d'un graphe » et un état as voulu, et de hiérarchisation des sommets et des stimuli imposés sur les sommets du graphe, les sommets hiérarchisés correspondant à
des cibles thérapeutiques classées.
Le système informatique selon l'invention forme un outil d'analyse de ~o données expérimentales biologiques, et notamment un outil de hiérarchisation de molécules biologiques vis-à-vis d'un problème biologique.
La présente invention a entre autres pour objet d'apporter des solutions s techniques aux difficultés exposées plus haut, notamment en apportant la possibilité de construire des modèles dynamiques utilisables pour des réseaux d'interactions moléculaires de plus de 100, de plus de 200 molécules ou méme davantage, dans les applications décrites.
Un premier aspect de l'invention est un procédé d'obtention d'un modèle 1o dynamique d'un réseau d'interactions moléculaires . dans un système biologique, permettant l'analyse desdites interactions et plus précisément permettant l'analyse dudit réseau d'interactions lorsqu'un stimulus est appliqué au modèle dynamique, en vue notamment de hiérarchiser des molécules biologiques ou de sélectionner des cibles thérapeutiques vis-à-Is vis d'un problème biologique donné, pour en particulier définir une action thérapeutique à appliquer auxdites molécules, ledit procédé étant mis en oeuvre par un système informatique et comprenant les étapes suivantes A) à partir d'un graphe statique dont les sommets représentent des molécules biologiques et les arcs représentent des interactions 2o physico-chimiques existant entre ces molécules, associer une variable quantitative Xi mesurée expérimentalement à chaque sommet i, et une relation mathématique à chaque arc du graphe, chacune desdites relations présentant les caractéristiques suivantes 2s - elle comprend un terme inertiel (i) qui tend vers une limite finie;
- elle comprend un terme (ü) tendant à faire revenir les variables X; à
leur état initial, de signe inverse au terme inertiel (i), et dont la variation en fonction du temps croit en valeur absolue de façon plus lente que la variation en fonction du temps du terme inertiel (i);
- elle comporte un facteur de pondération w;j qui permet de tenir compte de la combinaison d'effets pouvant s'exercer sur chaque sommet du graphe;
~) calculer les paramètres de chaque relation à partir de données s expérimentales quantitatives concernant les sommets du graphe, par la mise en oeuvre de techniques d'apprentissage par descente de gradient utilisées pour le paramétrage de réseaux.
Le signe réel du terme (ü) est déterminé par le résultat du calcul de son ou 1o ses paramètre(s). Ce terme (ü) est de signe inverse au terme (i) une fois les paramètres calculés, mais cela n'apparaît pas obligatoirement dans sa formulation mathématique, où l'on ne précise pas a priori le signe du ou des paramètres) associé(s). -1s Dans une mise en oeuvre préférée du procédé ci-dessus, chaque variable quantitative associée à un sommet représente la variation relative de la quantité de la molécule correspondant audit sommet, par rapport à un état étalon du système biologique. Comme mentionné ci-dessus, la "quantité de la molécule associée à un sommet" peut concerner n'importe quel aspect 2o mesurable directement ou non ce cette molécule, qu'il s'agisse de sa concentration, son activité, son taux d'expression, etc. Dans cette variante où les X; sont des rapports à un état étalon, ledit état étalon est de préférence un état stable du système biologique, dans lequel la quantité de chaque molécule associée à un sommet du graphe est mesurable 2s expérimentalement. Comme reprécisé dans la description d'une mise en oeuvre pratique ci-dessous, cet état étalon peut correspondre à un état physiologique donné (par exemple sain ou malade) réellement observable, ou à un état artificiel du système, par exemple à l'état d'un pool de plusieurs échantillons biologiques prélevés dans des conditions ~o expérimentales différentes.
Les variations relatives de quantité des molécules du réseau sont donc représentées sous la forme de variables dépendantes des variations relatives de quantité des molécules interagissant sur elles (i.e. en interaction avec elles et en amont dans le réseau en termes de propagation s des activations / inhibitions). La définition des variables correspond directement aux mesures expérimentales disponibles : en effet, dans la plupart des technologies de biologie moléculaire (dont les criblages d'expression d'ARN messagers), la quantité absolue des molécules présentes dans le système biologique d'intérêt.-n'est pas mesurée (ni 1o mesurable) ; seule la proportion de leur variation par rapport à un état de référence esfi mesurable.
Soit les -n molécules j (1-gin), représentée par les n sommets j (1~n) du-réseau, interagissant sur la molécule i, représentée par le sommet i du Is réseau. Dans les procédés d'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un systéme biologique selon l'invention, les~termes inertiel (i) et de retour à l'état initial (ü) permettent de calculer les valeurs de Xi et les variations de valeurs de Xi au cours du temps en fonction des valeurs des Xj (1~n) et des variations des valeurs des Xj 20 (1 gin) au cours du temps.
Par l'expression "terme inertiel", on entend - une résistance au changement, résistance notamment initiale, et - un délai pour arriver à la variation maximale, ce qui permet de rendre compte des complexités des propagations dans le 2s réseau.
En particulier, le terme inertiel (i) a pour objet de permettre d'intégrer une résistance des variables au changement et un décalage temporel entre les modifications des variables en amont et aval du réseau. II introduit en particulier - l'intégration du facteur temps - la prise en compte des différences de vitesses de propagation au sein du réseau en fonction des sous-circuits - la prise en compte des retards temporels consécutifs aux influences des boucles de rétro-contr~le sur la propagation dans le réseau, et s - il permet de calculer les cinétiques des interactions moléculaires au sein du réseau directement à partir des données expérimentales, sans connaissance préalable des constantes de vitesse de ces cinétiques, et sans faire d'a priori sur d'éventuels autres paramètres.
Ge terme inertiel (i) tend vers une limite finie, ce qui permet d'éviter des 1o divergences importantes lors des simulations (amélioration de leur fiabilité) : ceci évite le risque de divergence (ou d' "explosion") des valeurs des variables liées à des propagations itératives dans des boucles de rétro-action-ou lors de simulations portant -sur des temps prolongés. Le -fait de pouvoir, en évitant de telles divergences, obtenir des convergences 1s satisfaisantes lors de simulations portant sur des durées longues (qui soient en rapport par exemple avec les temps d'installation de processus pathologiques), est une caractéristique importante de l'invention.
La formulation de ce terme inertiel est de préférence peu contraignante, et permet de rendre compte de formes multiples de relations. Pour cela, il 2o peut âtre avantageusement exprimé sous la forme d'une relation mathématique présentant une ou plusieurs inflexion(s), ce qui permet de limiter les contraintes imposées aux modèles et de pouvoir pratiquer des modélisations fiables dans les situations où la forme des cinétiques n'est pas connue a priori, ce qui est une situation constante dès que l'on 2s modélise un grand réseau (plus d'une centaine de molécules). Des exemples de telles sous-relations mathématiques pouvant être utilisées sont les relations sigmoïdes, les relations d'oscillation, et, d'une façon générale, toute fonction mathématique tendant à une ou des limites) finies) et pouvant être infléchie.
Le terme (ü) tendant à faire revenir les variables à leur état initial (ou d'équilibre antérieur), permet de rendre compte des phénomènes d'homéostasie et de l'existence d'états d'équilibre du réseau, tout en diminuant de façon significative les risques de divergence lors des s simulations (amélioration de leur fiabilité). Une fois les paramètres des relations mathématiques calculés, il est de signe réel inverse au terme inertiel (i), et sa variation au cours du temps croit en valeur absolue de façon plus lente (i.e., de façon temporellement plus tardive) que la variation en fonction du temps du terme inertiel (i). w io Par le terme (i), X; et les variations de X; dépendent des X~ (1-gin) et des variations des X~ (1 gin). Le terme (i), qui fait tendre X; vers une valeur finie, est donc exprimé en fonction des X~ (1--gin).
Le terme-(ü) est, lui, exprimé en fonction de X; -(et non des X~ (1~n)). La valeur de ce terme ne peut donc changer que si la valeur de X; change, Is celle-ci changeant si les valeurs des X; (1~n) changent.
Toute variation initiale de l'effet du terme (ü) sur la valeur calculée de X;
peut donc être considérée comme consécutive à une variation préalable de l'effet du terme (i) sur la valeur calculée de X;. Ceci s'applique notamment si l'on considère qu'il existe un état stable du réseau ; à l'état stable, les 2o termes (i) et (ü) s'équilibrent, de telle sorte que X; reste constant ; à
partir de cet état, toute variation de X; est consécutive à une situation où l'effet du terme (i) sur la variation de X; est plus grand en valeur absolue que l'effet du terme (ü) sur la variation de X;.
En effet, une fois les paramètres des termes (i) et (ü) calculés, le terme (ü) 2s calculé est de signe opposé au terme (i) calculé, et tend, lors du calcul des valeurs de X; à diminuer l'effet du terme (i) sur les variations des valeurs de X;. .
Par conséquent, X; ne peut présenter une variation que si, à un temps donné au moins, la variation de X; au temps suivant calculée par le terme ~o (ü) est inférieure en valeur absolue à la variation de X; au temps suivant calculée par le terme (i).
En d'autres termes, X; ne peut présenter une variation, à partir d'un état stable, que si, sur un espace de temps donné au moins, la variation de la valeur calculée du terme (ü) est inférieure en valeur absolue à la variation de la valeur calculée du terme (i).
s Cette caractéristique est inhérente au fait que le terme (i) est exprimé en fonction des X~ (1-gin) alors que le terme (ü) est exprimé en fonction de X;.
A partir d'un état stable, la variation du terme (ü) est initialement inférieure en valeur absolue à la variation du terme (i).
Lors de l'wolution de la valeur de X; au cours du temps, l'effet du terme (ü) 1o sur la variation de X; peut, ou non, devenir supérieur à l'effet du terme (i) sur la variation de X;. Si c'est le cas, X; va tendre à retourner vers sa valeur initiale.
En fonction des valeurs des paramètres calculés des termes (i) et (ü), des valeurs des X~ (1-gin) et des valeurs de X;, X; peut éventuellement retourner Is à sa valeur initiale, ceci notamment si les X~ (1~n) retournent à leur valeur initiale.
Si un stimulus est appliqué de façon constante sur un ou plusieurs sommets du réseau, on peut cependant aboutir à une situation où les X~
(1~n) ne retournent pas à leur valeur initiale. ~ans ce cas, X; peut ne pas 2o retourner à sa valeur initiale. Si, à un temps donné, les effets des termes (i) et (ü) sur la variation de X; s'équilibrent à nouveau, on aboutira alors à une nouvelle stabilité de X;, à une valeur différente de sa valeur initiale.
La méthode permet donc de rendre compte du passage du réseau d'un état stable donné à un autre état stable, différent. Elle permet aussi de rendre 2s compte de l'évolution du réseau lors d'états instables.
Enfin, comme le terme (i) fait tendre X; vers une limite finie, et comme le terme (ü) est exprimé en fonction de X;, le terme (ü) est contraint par X; :
par la résultante des termes (i) et (ü) la valeur calculée de X; ne peut sortir d'un intervalle fini. Cette caractéristique (X; tendant vers une limite finie par le ~o terme (i) et expression du terme (ü) en fonction de X;) permet de rendre compte d'états stables, et de contraindre les valeurs de X; dans un intervalle fini.
Le fait de pouvoir calculer les paramètres des relations associées aux arcs s du graphe directement à partir des données expérimentales, sans nécessiter d'hypothèse préalable ou de fixation à des valeurs arbitraires, est rendu possible par l'utilisation de relations de forme peu contraignante, ne requérant pas une connaissance préalable des cinétiques des interactions moléculaires.
1o Comme mentionné ci-dessus, les procédés d'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique selon l'invention comportent une deuxième étape (étape B), dans laquelle on calcule les paramètres des relations associées à chacun is des arcs du graphe, à partir de données expérimentales quantitatives concernant les sommets du graphe. Ce calcul est effectué de préférence par la mise en oeuvre de techniques d'apprentissage. On obtient alors un graphe dynamique, entièrement déterministe, consistant au graphe statique aux arrétes duquel sont désormais associées des relations mathématiques 2o dont les paramètres ont tous été définis numériquement.
Cette étape de calcul peut être effectuée par l'utilisation de procédures d'apprentissage utilisées pour le paramétrage de réseaux en intelligence artificielle, par exemple celles développées en informatique dans les méthodes de "réseaux de neurones" (dont les réseaux de neurones 2s récurrents) par descente de gradient "simple" (en prenant comme base de calcul les couples de données (X;, X~) fournis par les données expérimentales indépendamment les uns des autres), ou par descente de gradient dans le temps (où ces couples ne sont pas considérés comme indépendants). Les couples de données (X;, X~) fournis par les données ~o expérimentales sont définis comme suit : soit i une molécule du réseau, représentée par le commet i, et soit j toute molécule du réseau interagissant sur i, représentée par le sommet j. X; et X~ sont les variables associées aux sommets i et j, respectivement. Les mesures expérimentales des valeurs des X; et des X~ dans des conditions expérimentales données et à des temps expérimentaux donnés permettent d'obtenir des valeurs s numériques des X; et des X~. Un couple de données expérimentales (X;, X;) correspond aux valeurs mesurées de X; et X~ à un état expérimental donné
(méme temps, même condition expérimentale).
Les données expérimentales utilisées pour réaliser l'étape B) mentionnée ci-dessus présentent les caractéristiques suivantes.:
1o Nature des d~nnées expérimentales. Ces données sont des données quantitatives concernant les molécules (correspondant aux sommets du graphe) et sont par exemple des niveaux d'expression de gènes exprimés dans le système .biologique (par la - mesure de l'abondance d'ARN
messagers, par exemple par la technique des puces à ADN) et / ou des is niveaux d'abondance de protéines et /ou des niveaux d'activité des protéines et / ou des niveaux d'abondance de métabolites. Comme précisé
plus haut, ces données sont exprimables sous la forme d'une proportion de variation de quantité par rapport à une situation de référence (état étalon).
2o Compilation des données de réseau statique (ou graphe statique identification d'interaetions j ~ i) et des données expérimentales (mesures de valeurs des variables ~C;). Ces données peuvent être extraites de la littérature scientifique au sens large, ceci incluant les bases de données biologiques publiques ou privées (telles que par exemple la base de 2s données "TRANSFAC' du "German Research Centre for Siotechnology"
(GBF) accessible par l'adresse internet : http://transfac. bq f.de/ (Wingender et al., 2001, The TRANSFAC system on gene expression regulation, Nucleic Acids Research, 29 (1) : 281-283), ou encore la base de données " BIOMOLECULAR INTERACTION NETVIlORK DATABASE" (BIND) de 30 l'université de Toronto, accessible par l'adresse internet http://www.bind.ca (Rader et al., 2003, BIND : the biomolecular interaction neflNOrk database, Nucleic Acids Research 31 : 248-250), ou encore la base de données KEGG (M. Kanehisa and S. Goto : KEGG : Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Research, 28(1) : 27-30, 2000), ou bien être générées par des expériences de biologie s moléculaire dédiées, notamment par l'utilisation des techniques de criblages à grande échelle. En fonction du système biologique d'intérêt, des molécules formant le réseau d'interactions moléculaires, de la problématique scientifique biologique (étude d'un modèle de maladie, étude de toxicité d'un produit, étude de processus du développement, etc.), des 1o paradigmes expérimentaux adéquats ou disponibles (çultures de cellules, étude de tissus, etc.), la personne de l'art définira le type de données expérimentales d'intérêt. Des exemples du type de données utilisables en fonction des applications de l'invention sont donnés ci-après, dans la description de la méthode des simulations.
1s L'homme du métier mettra donc en oeuvre la ou les méthodes de compilation lui convenant le mieux pour effectuer cette étape, qui intervient en amont de la méthode d'analyse constituant la présente invention.
Enregistrement des d~nnées expérimentales. Ces données expérimentales ?o sont enregistrées avantageusement dans une base de données, de nombreux systèmes de bases de données existant pour ce faire et pouvant être mis en oeuvre et utilisés de façon simple par toute personne de l'art du domaine de la bio-informatique (bases de données commerciales Oracle, Microsoft SQL server, FileMaker, bases de données d'accès libre as postgreSQL). Ces données peuvent aussi être enregistrées sous le format d'un tableau ou d'un fichier plat.
Indexation des données expérimentales. Ces données expérimentales peuvent être indexées automatiquement au graphe. Le rôle de cette 3o indexation est de relier chaque donnée expérimentale à l'objet biologique correspondant du graphe (sommet du graphe, ou arrête du graphe pour les couples de données (X;, X~), de façon à pouvoir utiliser conjointement ces deux types d'informations (données expérimentales et graphe) lors de la mise en oeuvre du système de calcul des paramètres.
De nombreux systèmes de bases de données commerciaux ou gratuits s permettent de créer cet indexage sans difficulté technique particulière pour l'homme de l'art du domaine de la biologie ou de la bio-informatique (bases de données commerciales ~racle, Microsoft SQL server, FileMaker, bases de données d'accès libre : postgreSQL). Alternativement, si les données concernant le graphe et les résultats expérimentaux ~~nt été enregistrées to sous le format de tableaux ou de fichiers plats, ou d'un tableau ou fichier plat commun, ces données étant liées de fait dans ce cas, cette étape d'indexation peut ne pas être nécessaire en soi.
Forme des données expérimentales. Dans une mise en oeuvre 1s préférentielle, les données expérimentales des valeurs des couples (X;, Xj) sont sous la forme de cinétiques d'expression. Par cinétique d'expression il est entendu ici un ensemble de séries de données expérimentales ordonnées dans le temps, chaque série de données correspondant à un ensemble de valeurs de couples (X;, Xj) mesurés expérimentalement à un 2o temps donné. Chaque série de données peut concerner soit l'ensemble des sommets du graphe, soit uniquement un sous-ensemble de ces sommets.
Les différents temps correspondent à des temps successifs au cours de l'observation d'un processus biologique mettant en oeuvre le système biologique modélisé par le graphe, que ce processus soit naturel ou induit 2s artificiellement en laboratoire. Une telle cinétique comprend de préférence au moins trois temps successifs, et, pour améliorer la qualité du calcul des paramètres, plus de trois temps.
Plusieurs cinétiques indépendantes, correspondant à des processus biologiques différents (i.e., mettant en jeu des sous-réseaux différents d'un 3o même réseau global, ces sous-réseaux pouvant ou non présenter des parties communes), peuvent être utilisées simultanément. Ceci peut permettre d'améliorer la qualité du calcul des paramètres, et donc la qualité
des simulations.
Dès lors qu'au moins une cinétique d'expression est disponible, il est possible d'utiliser simultanément aussi des données expérimentales des s valeurs des couples (X;, Xj) obtenues par des expériences indépendantes les unes des autres (sans description de cinétiques d'évolution du système biologique étudié au cours du temps).
La méthode de calcul des paramètres des relations, à l'étape B) des 1o méthodes de l'invention, tient de préférence compte des principes suivants Mesure expérimentale- d'un ètat stable du système biologique. Le graphe est considéré comme étant dans un état stable de rèférence à un temps Is donné, cet état stable étant mesurable expérimentalement. L'état stable de rèfèrence en question correspond à un état existant et mesurable du système biologique étudié, pouvant être considéré comme stable dans le temps vis-à-vis du processus biologique modélisé. Bien qu'un système biologique soit le plus souvent, du fait de ses interactions avec 20 l'environnement et de ses rythmes biologiques propres, en train de se modifier, on peut définir, du fait de l'existence des processus homéostatiques, des états où ces modifications sont au maximum "oscillantes" autour d'états homéostatiques, et a priori de faible amplitude.
Dans cet état, le processus modélisé n'est pas lui-même en train d'évoluer 2s significativement.
Cet état ne doit pas étre confondu avec l'état étalon. L'état étalon, qui est défini arbitrâirement par l'expérimentateur biologiste sert à effectuer des mesures quantitatives expérimentales. L'état stable de référence correspond à un état réel du système modélisé (i.e., non artificiel), et sert ~o de référence pour le calcul des paramètres du modèle. II est considéré
comme un état du système où les processus d'activation et d'inhibition au sein du réseau sont équilibrés, ou présentent des oscillations faibles autour d'un état d'équilibre théorique. II représente l'état vers lequel le système tend en général à retourner lors des simulations. II peut être le même, ou différent, de l'état étalon.
s L'état stable de référence est directement mesurable expérimentalement dès lors que le problème biologique étudié permet de définir un état de référence du système biologique.
A titre d'exemple, une culture cellulaire dont le nombre de cellules est arrivé
à un plateau (absence de divisions cellulaires) et dans un milieu de culture 1o stable, avant toute induction de stimulus, ou un animal adulte sain avant toute induction de processus pathologique, peuvent être considérés comme des états stables de référence. Dans le premier cas, les cascades d'interactions moléculaires mises en jeu par le stimulus dont on cherche à
modéliser les conséquences ne sont pas activées au-delà des processus Is homéostatiques. Dans le second cas, les cascades mises en jeu par le processus pathologique à modéliser ne sont pas non plus en oeuvre : l'état de référence est stable vis à vis du processus biologique modélisé. L'état stable ne doit pas nécessairement être l'état initial du système biologique dans le cadre du processus biologique étudié.
2o Dans un autre exemple, l'état sain peut être considéré comme un état stable initial de référence si l'on étudie l'installation d'un processus pathologique à partir de cet état sain.
La mesure des X; de l'ensemble des sommets du graphe dans cet état est utilisée, dans le calcul des paramètres, comme référence stable du graphe, 2s notamment pour la procédure de minimisation des erreurs.
L'état stable est défini mathématiquement par le vecteur de l'ensemble des valeurs expérimentales des variables de chaque sommet mesurées à l'état biologique correspondant (mesures effectuées pour tous les sommets du graphe).
3o Dans une mise en oeuvre préférentielle, l'état étalon pour les. mesures est l'état stable. Dans ce cas, comme les variables sont définies par (voir l'exemple 1 de mise en ceuvre) : X; = x;t/x;o, en théorie, à l'état stable, puisque le réseau ne se modifie pas, quel que soit t, x;t = x;o, donc X; = 1, pour tout sommet i. C'est le fait d'induire une modification du réseau par l'application de stimuli lors des expériences biologiques qui va "déstabiliser"
s le réseau, aboutissant à ia mesure de cinétiques où X;t ~ X;o et X; ~ 1.
Dans cette mise en oeuvre, on peut donc éventuellement définir un état stable arbitraire où quel que soit i, X; = 1.
En pratique, lors de la mesure expérimentale de cinëtiques, au premier temps (t0), les X; sont proches de 1 en général (si l'état étalon de mesure 1 o est le temps t0).
Mais ce qui est important n'est pas tant le fait que les X; soient égaux à 1 en théorie et proches de 1 lors des mesures expérimentales, mais le fait en soit que cet état soit considéré comme stable.
En effet, lors du calcul de paramètres des relations mathématiques entre 15 les X; et les X~ par des techniques de réseaux de neurones avec minimisation des erreurs, le fait de définir un état comme stable (au moins au début de la cinétique) introduit une contrainte forte dans le calcul des paramètres et améliore ainsi significativement leur calcul.
Pour que le modèle obtenu soit pertinent vis-à-vis du ou des processus 2o biologiques) étudié(s), il est préférable de s'assurer que cet état stable existe biologiquement, en le validant, par sa mesure expérimentale. Si l'état stable est différent de l'état étalon, les valeurs des X; à l'état stable ne peuvent être définies rationnellement que par leur mesure expérimentale.
II est également possible de décider arbitrairement de le définir par b' i, 2s X; = 1, et d'introduire (au sens "ajouter") ce vecteur des X; au temps initial des cinétiques sans l'avoir mesuré. Ceci revient à considérer l'état étalon comme stable, arbitrairement. Ceci est souvent possible si l'état étalon ne correspond pas à un pool de tissus biologiques différents.
Dans une mise en oeuvre préférentielle, les données expérimentales sont 3o mesurées au cours d'une cinétique (voir plus haut). Dans le cas où fe processus biologique d'intérêt est étudié au cours du passage d'un état stable initial à un état stable final, et où des mesures expérimentales sont effectuées à ces deux états et à des temps intermédiaires, deux états stables sont définis : l'état initial et l'état final de la cinétique du processus biologique étudié. Cependant, le fait de disposer de mesures s expérimentales correspondant à deux états stables n'est pas un pré-requis à la mise en oeuvre de l'invention.
Le tait de dëfinir un état stable n'est pas non plus un pré-requis à fa mise en oeuvre de l'invention.
io Lissage des données : si l'ensemble des données expérimentales est très restreint, une procédure de lissage des données expérimentales peut étre mise en oeuvre -préalablement au calcul des -paramètres, pour permettre d'augmenter le nombre de valeurs de couples (X;, Xj) disponibles, en Is calculant des valeurs intermédiaires de ces couples à partir de la courbe lissée. Cette procédure, classique, ne pose pas de difficulté particulière à
l'homme de l'art.
Le calcul des paramètres des relations (X;, Xj) est effectué par la mise en 20 oeuvre de techniques d'apprentissage utilisées pour le paramétrage de réseaux en intelligence artificielle (telles que celles mises en oeuvre pour les réseaux de neurones), à partir des données expérimentales quantitatives concernant les variables du graphe.
A titre d'exemple, ce calcul peut utiliser des algorithmes de résolution as numérique de propagation ou de rétro-propagation avec calcul de l'erreur.
Des paramètres sont arbitrairement fixés, une propagation ou une rétro-propagation est effectuée, puis !'erreur est calculée entre les résultats calculés et les résultats expérimentaux. Les paramètres sont corrigés en conséquence, et le processus de propagation et de calcul d'erreur est 3o repris de façon itérative. Le choix d'une fonction d'erreur et la mise en oeuvre de ce type de calcul ne pose pas de difficulté particulière à l'homme du métier.
Un deuxième aspect de la présente invention concerne un procédé
s d'analyse d'un réseau d'interactions moléculaires dans un système biologique, comportant les étapes suivantes A') utilisation d'un modèle dynamique du réseau d'interactions moléculaires, ledit modèle étant susceptible d'être obtenu, par un procédé décrit ci-dessus, et construit à partir d'.un graphe statique 1o dont les sommets représentent des molécules biologiques du système biologique et les arrêtes représentent des interactions physico-chimiques entre ces molécules, et à partir des données expérimentales concernant les taux ou les activités de ces molécules biologiques.
1s C) un état du graphe, mesuré expérimentalement, est choisi comme "état à modifier", et la durée du processus biologique à simuler est définie et découpée en une série de pas de temps, D) plusieurs procédures itératives de simulation sont effectuées, comprenant chacune les étapes suivantes 2o a) un stimulus est imposé à l'état à modifier, c'est-à-dire que la valeur d'une ou de plusieurs des variables quantitatives associées aux sommets du graphe est modifiée, constituant ainsi un état de départ de la simulation ;
b) à partir de l'état de départ de la simulation, un calcul de 2s propagation est effectué au sein du graphe.
Le calcul de propagation au sein du graphe peut être effectué pendant un nombre de pas de temps tel que la durée de la simulation n'excède pas la durée du processus biologique à simuler définie à l'étape C).
3o Toutefois, il est également possible de laisser la simulation se poursuivre au-delà de la durée du processus biologique à simuler définie à l'étape C), par exemple si on cherche à voir si le réseau va à terme trouver un nouvel état stable (état d'équilibre) et si on ne sait pas a priori combien de temps cela va prendre. II est important de noter que la durée de la simulation définie à l'étape C) peut être plus longue que celle des cinétiques s expérimentales utilisées pour le calcul des paramètres (ou plus courte).
Selon une variante du procédé d'analyse d'un réseau d'interactions moléculaires décrit ci-dessus, seules les étapes C), D)a) et D)b) ci-dessus sont effectuées,~en utilisant (sans le reconstruire) un modèle dynamique du 1o réseau d'interactions moléculaires choisi, ledit modèle étant susceptible d'être obtenu par un procédé tels que les procédés d'obtention de modèles dynamiques de réseaux d'interactions moléculaires décrits plus hauts.
Un autre aspect particulièrement important de la présente invention est un ts procédé de sélection de cibles thérapeutiques mettant en eeuvre un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique, par la mise en oeuvre d'un système informatique, comprenant les étapes et caractéristiques suivantes A') utilisation d'un modèle dynamique du réseau d'interactions 2o moléculaires, ledit modèle étant susceptible d'être obtenu, par un procédé décrit ci-dessus, et construit à partir d'un graphe statique dont les sommets représentent des molécules biologiques du système biologique et les arrêtes représentent des interactions physico chimiques entre ces molécules, et à partir de données expérimentales 2s concernant les taux ou les activités de ces molécules biologiques;
C) un état du graphe, mesuré expérimentalement, est choisi comme "état à modifier", et la durée du processus biologique à simuler est définie et découpée en une série de pas de temps; et un état du graphe correspondant à un "état à atteindre" du système biologique 3o est choisi comme "état final du graphe" à atteindre;
D) plusieurs procédures itératives de simulation sont effectuées, comprenant chacune les étapes suivantes a) un stimulus est imposé à l'état à modifier, c'est-à-dire que la valeur d'une ou de plusieurs des variables quantitatives associées aux s sommets du graphe est modifiée, constituant ainsi un état de départ de la simulation ;
b) à partir de l'état de départ de la simulation, un calcul de propagation est effectué au sein du graphe ;
c) un calcul de proximité entre l"'état final du graphe " obtenu à l'issue to de l'étape b) et l'état à modifier, ou entre I"'état final du graphe " et un état voulu est effectué ;
E) à partir de l'ensemble des proximités statistiques calculées à l'étape D), les - sommets, et les stimuli imposés sur ces sommets, sont hiérarchisés, les sommets hiérarchisés correspondant à des cibles ts thérapeutiques classées.
Bien entendu, et comme pour le procédé d'analyse d'un réseau d'interactions, le procédé de sélection de cibles thérapeutiques selon l'invention peut être mis en oeuvre en effectuant uniquement les étapes C) 2o à E) ci-dessus en utilisant, sans le reconstruire, un modèle dynamique susceptible d'être obtenu par des méthodes d'obtention de tels modèles, décrites plus haut. De même, l'étape D) b) peut être poursuivie au-delà de la durée spécifiée à l'étape C) ?s L'étape A') des procédés ci-dessus peut être réalisée de la même façon que les étapes A) et B) des procédés d'obtention de modèles dynamiques de réseaux d'interactions décrits plus haut.
Dans ces procédés, l'étape C) peut être réalisée en tenant compte des 3o éléments suivants, lorsque le cas de figure s'y prête Pas de temps : La durée du processus biologique à simuler est découpée en une série de pas de temps, régulièrement espacés ou non ; les pas de temps sont définis de façon à être préférablement plus petits que les durées expérimentales réelles séparant les séries de données s expérimentales quantitatives utilisées pour le calcul des paramètres des relations. La définition de ces pas de temps est rendue nécessaire par le fait que tout processus informatique de simulation dynamique consiste à
calculer des états à des temps discrets, rendant la discrétisation du temps nécessaire. ~n obtient donc une série de temps consécutifs, sur lesquels 1o va étre effectuée la simulation. Le premier temps de la série est appelé le temps initial. Ce temps initial correspond à l'état de départ du graphe, défini plus bas.
États du graphe pour les simulations : Un état du graphe, mesuré
is expérimentalement, et correspondant à un état que l'on veut modifier du système biologique, est défini (par exemple un état pathologique). Cet état est appelé "l'état à modifier". Dans certains cas, l'homme du métier peut savoir que les différences entre l'état à modifier et l'état stable de référence concernent essentiellement un sous-ensemble des molécules du réseau, et 2o décider de ne mesurer expérimentalement que les valeurs des variables correspondantes, les autres X; étant alors, par défaut, fixés aux valeurs de l'état stable de référence. Un état du graphe (mesuré expérimentalement ou défini arbitrairement), correspondant à un état que l'on veut atteindre du système biologique, est éventuellement défini (par exemple un état sain).
2s Cet état est appelé "l'état à atteindre".
Identification de molécules-cibles thérapeutiques pour une pathologie donnée Dans une mise en oeuvre préférentielle de l'invention, l'état à modifier et ;o l'état à atteindre sont définis comme suit On pratique les simuiations d'actions sur les sommets du graphe à partir d'un état à modifier du graphe identique ou similaire à son état tel qu'observé expérimentalement dans la condition pathologique (par exemple par criblage d'expression des ARN messagers sur puces à ADN à
s partir de tissus pathologiques).
On définit l'état à atteindre comme étant un état proche d'un état non pathologique de référence (tel que mesuré lui aussi par l'observation expérimentale de la condition non pathologique, par exemple par criblage d'expression des ARN messagers sur puces à ADN 'à partir de tissus Io sains).
Le processus de simulation consiste alors à identifier les sommets, et les stimuli sur ces sommets, qui, en partant de l'état à modifier (l'état pathologique), permettent le mieux de faire évoluer le graphe (en partie ou entièrement) vers un état proche de l'état à atteindre (état non Is pathologique).
Identification des m~lécules-cibles thérapeutiques de traitements existants ou en cours de développement, et pour lesquels aucune ou une partie seulement des cibles sont connues (ce qui est le cas de nombreux ?o médicaments actuels).
Dans ce cas, l'état à modifier est défini comme ci-dessus, et l'état à
atteindre est défini comme l'état, ou un état proche, de celui obtenu expérimentalement lors de l'administration de ce traitement (tel que mesuré
par exemple par criblage d'expression des ARN messagers sur puces à
2s ADN à partir de tissus pathologiques qui ont été soumis au traitement concerné).
Le processus de simulation consiste alors à identifier les sommets, et les stimuli sir ces sommets, qui, en partant de l'état à modifier (l'état pathologique), permettent le mieux de faire évoluer le graphe (en partie ou ~o entièrement) vers un état proche de l'état à atteindre (état pathologique sous traitement).
Cette mise en eeuvre particulière peut aussi être réalisée en définissant l'état à modifier comme tout état 6 possible du système biologique étudié
(par exemple l'état sain), et l'état à atteindre comme l'état obtenu après l'administration du traitement concerné au système biologique à l'état E.
Dans les procédés d'analyse de réseaux d'interactions et de sélection de cibles selon l'invention, l'étape D) est réalisée en considérant les éléments suivants Io Stimulus : Un stimulus est imposé à l'état à modifier. Ce stimulus est exercé sous la forme de la variation de la valeur d'une ou de plusieurs variables) du graphe (correspondant à un ou plusieurs sommet(s)), c'est-à-dire d'une-augmentation ou d'une diminution de cette ôu ces valeur(s), selon la simulation souhaitée. Les valeurs de toutes les autres variables 1s restent inchangées. On obtient donc un nouvel état du graphe, qui est "l'état de dèpari" de la simulation. L'état de départ et l'état à modifier ne diffèrent donc que par la valeur de la ou des variables) modifiée(s), toutes les valeurs de toutes les autres variables étant identiques. Cet état est défini comme correspondant au premier temps de ia simulation. Dans une 2o mise en oeuvre particulière du procédé, les stimuli portent à chaque fois sur un seul sommet.
Propagation : A partir de l'état de départ de la simulation, un calcul de propagation est effectué au sein du réseau. Cette propagation consiste à
2s calculer les nouvelles valeurs de toutes les variables au pas de temps suivant, aboutissant à un nouvel état du graphe, et à recommencer le calcul à partir de ce nouvel état pour le pas de temps suivant, et ainsi de suite.
Cette propagation se prolonge pendant le nombre de pas de temps (donc la durée biologique) définie par l'expérimentateur en fonction de la question ~o biologique posée. Elle peut éventuellement étre prolongée jusqu'à
l'apparition d'un nouvel état stable du graphe (un nouvel état d'équilibre), ou être arrétée avant. Au terme de cette simulation, un nouvel état ("état finaP') du graphe est obtenu.
Itération : Le processus précédent est répété avec un nouveau stimulus, s portant sur un ou plusieurs autres) sommets) du graphe, ou portant éventuellement sur le(s) mêmes) sommets) du graphe avec l'imposition d'une nouvelle valeur à la ou aux variable(s).
Ce processus peut être répété de façon itérative sur tous les sommets individuellement, éventuellement en imposant plusieurs valeurs (en nombre 1o fini) par variable de manière à tester des gammes d'activation ou d'inhibition sur tous les noeuds. Dans ce cas, le résultat de l'étape E) est une hiérarchisation des sommets, et des stimuli imposés sur ces sommets.
Ce classement correspond donc au classement des sommets; de celui sur lequel un stimulus est le plus susceptible d'aboutir à l'état voulu à partir de Is l'état à modifier, jusqu'à celui sur lequel un stimulus est le moins susceptible d'avoir cet effet. A chaque proximité correspond en effet un et un seul sommet et une et une seule valeur de stimulation sur ce sommet.Si l'effet recherché est l'amélioration d'un état pathologique, ce classement est celui des cibles thérapeutiques potentielles, de la plus probable à la 2o moins probable.
Bien que présenté ici de manière séquentielle, l'ensemble des propagations effectuées peut étre calculé de manière parallèle.
A l'étape D)c), la proximité de chaque état final obtenu à l'étape D)b) peut 2s être calculée soit par rapport à l'état à modifier choisi à l'étape C), soit par rapport à un autre état, mesuré expérimentalement ou déterminé
arbitrairement, et défini comme I"'état à atteindre", qui peut être, par exemple, un état sain. II peu s'agir de l'état de référence défini plus haut.
3o Une fois les calculs de proximité de graphes effectués pour toutes les simulations, l'étape E) consiste à classer l'ensemble des multiplets (sommet(s) du graphe - stimulus) en ordre hiérarchique (croissant ou décroissant) correspondant directement à l'ordre hiérarchique (croissant ou décroissant, respectivement) des proximités qui leur sont associées. Aux sommets du graphe correspondent directement les molécules du réseau s biologique, qui sont donc hiérarchisées de fait.
Cette hiérarchisation ne pose aucun problème technique à l'homme de l'art, les proximités étant des valeurs numériques positives pouvant être directement hiérarchisées de la plus grande à la plus petite, ou inversement.
1o Le résultat de ce classement peut étre avantageusement produit sous forme de liste ou de tableau, ou sous tout autre type de format, et / ou stocké dans une base de données en vue d'une utilisation ultérieure.
Quels que soient les niveaux de proximité des graphes, une hiérarchisation is des multiplets (sommet(s) du graphe - stimulus) selon cette méthode sera toujours obtenue. L'invention permet donc toujours d'obtenir un résultat, en fonction des connaissances biologiques et des techniques de mesure expérimentales utilisées. Elle ne requiert pas de connaissance préalable étendue des processus physiopathologiques moléculaires en oeuvre dans 20 le processus pathologique analysé. Toutes les molécules du réseau d'interactions moléculaires sont considérées a priori (avant mise en oeuvre de l'invention) comme des molécules cibles thérapeutiques potentielles sans en exclure aucune, les molécules cibles thérapeutiques étant sélectionnées a posteriori (après mise en oeuvre de l'invention) sur des 2s critères statistiques objectifs (calculs de proximités). Cette méthode est utilisable de façon systématique et automatisée quelle que soit la pathologie étudiée, dès lors qu'il est possible de définir un état à modifier.
Ceci la rend notamment particulièrement adaptée à une utilisation dans le cadre de processus industriels de sélection systématique à grande échelle ~o de cibles thérapeutiques, en utilisant les données expérimentales fournies par les technologies de criblages molëculaires à grande échelle.
Dans le cas de l'identification de cibles thérapeutiques, le classement hiérarchique des molécules du réseau biologique correspond directement au classement hiérarchique de ces molécules considérées comme cibles s thérapeutiques. L'invention permet donc d'obtenir un classement des cibles thérapeutiques potentielles hiérarchisées selon des critéres statistiques objectifs, en fonction des données expérimentales (mesures des X;) et des connaissances fonctionnelles du réseau (existence d'interactions moléculaires). Dans les cas où il est possible de définir à la fois.un état à
Io modifier et un état à atteindre, les meilleures cibles thérapeutiques potentielles sont considérées comme étant celles correspondant aux proximités les meilleures avec l'état à atteindre.
Dans les cas où la définition d'un état à atteindre n'est pas possible (ce qui Is devrait étre exceptionnel, l'état sain pouvant à priori toujours être utilisé par défaut comme état à atteindre pour les processus pathologiques), il est possible de hiérarchiser les multiplets (sommet(s) du graphe - stimulus) par leur proximité avec l'état à modifier, et de classer les molécules du réseau biologique considérées comme cibles thérapeutiques potentielles 2o en suivant une hiérarchie directement inverse de celle des proximités : les meilleures cibles thérapeutiques potentielles sont considérées comme étant celles correspondant aux proximités les plus mauvaises par rapport à l'état à modifier.
as Un point important est que cette invention permet non seulement d'identifier des molécules-cibles thérapeutiques, mais aussi de prédire le sens de l'action théràpeutique qu'il sera nécessaire d'appliquer sur ces molécules (activation ou inhibition).
~o Les cibles thérapeutiques sont donc sélectionnées à partir des données concernant l'ensemble des molécules étudiées, et non seulement celles concernant spécifiquement les molécules-cibles, puisque le critère utilisé
pour la hiérarchisation dépend de l'évolution du graphe dans son ensemble, donc de l'ensemble des mesures expérimentales d'expression et/ou d'activation de toutes les molécules représentées dans le graphe, et s non la simple évolution des mesures expérimentales d'expression et/ou d'activation des seules molécules cibles. II s'agit donc bien d'une méthode intégrative répondant aux besoins actuels tels que définis plus haut, notamment en ce qui concerne des maladies à déterminisme multi-factoriel, apportant clairement un progrès par rapport aux méthodes de sélection de io cibles thérapeutiques existantes. .
La méthode d'identification des cibles décrite ci-dessus comporte les caractéristiques avantageuses suivantes - Les calculs sont fondés sur méthode non probabiliste, ce qui élimine 1s toute limitation en termes de temps de calcul, au contraire des méthodes des équations stochastiques et des réseaux bayésiens.
- L'invention intègre les données expérimentales quantitatives, ce qui la différencie des méthodes qualitatives (réseaux booléens, formalismes logiques généralisés, formalismes fondés sur des -règles), permet 2o d'éviter des contraintes et hypothèses sur le fonctionnement du réseau, et permet d'augmenter la fiabilité des simulations.
- Le fait de définir les variables comme similaires aux données expérimentales effectivement mesurables permet de calculer les paramètres des relations de façon optimale (sans avoir à extrapoler les 2s valeurs des variables).
- Le fait d'établir, pour tout sommet du graphe, une relation directe entre la variable qui lui est associée et les variables associées aux sommets du graphe agissant sur ce sommet permet la mise en oeuvre directe de méthodes de calcul des paramètres dérivées des méthodes ~o d'apprentissage de réseaux de neurones par calcul de l'erreur minimale qui sont compatibles avec des réseaux de grande taille en termes de temps de calcul.
- Une fois les paramètres calculés, les simulations sont très peu coûteuses en temps de calcul, le réseau étant déterministe. Geci est s aussi compatible avec l'application de l'invention à des réseaux de grande taille.
- Les limitations de divergence introduites dans les relations ou t fonctions permettent de pratiquer des simulations sur des cinétiques longues et des réseaux de grande taille avec une fiabilité satisfaisante.
1o - Les connaissances de l'existence d'interactions entre les molécules du réseau, et de l'orientation d'une partie de ces interactions, sont suffisantes pour la mise en oeuvre de l'invention. La connaissance du type d'interaction (activation ou inhibition) peut être avantageusement utilisée lorsqu'elle est disponible, mais elle n'est pas indispensable.
Is Aucune autre connaissance qualitative supplémentaire concernant le réseau n'est requise. Pour les grands réseaux d'interactions moléculaires (plus d'une centaine de molécules) ces connaissances sont en général les seules disponibles aujourd'hui.
2o La qualification de cette méthode, suivant les critères considérés dans les tableaux 1 et 2 ci-dessus, est donc la suivante ~~~ y) Cg) (4) (5) Mthode Intgration FormalismeVariables FonctionsModle de donnes utilises continuesdterministe uantitatives Inertie/
Mthode de Tendance Oui dX;/X;o Oui Oui l'invention au retour l'tat initial ~ apieau s 2s II est important de noter que le formalisme permettant de prendre en compte l'inertie/ tendance au retour à l'état initial est spécifique à
l'invention. En effet, dans la méthode de la présente invention, les conséquences des interactions sont représentées comme résultant d'une résistance au changement des taux de molécules suite à une modification quantitative de l'activité biologique d'au moins une molécule interagissant s sur elles et une tendance à revenir à l'état initial ; cette représentation permet d'éviter de faire des hypothèses sur le fonctionnement du système (effets de seuil, types de réactions chimiques, etc.) et de tenir compte des données ou variables éventuellement non connues ou non mesurées, l'inertie et la tendance au retour à l'état initial représentant la résultante des 1o multiples phénomènes biologiques impliqués dans une interaction donnée (temps de synthèse de la molécule, existence d'un rétro-contrôle négatif concomitant, temps de transport des molécules jusqu'au compartiment cellulaire où elles sont actives, etc.) ; le formalisme de l'invention est donc fondamentalement différent de celui des autres méthodes existantes Is (comparer avec le tableau 1).
Pr-requis A lications ~
(1) (2) (3) (4) (5) Niveau requisCroissanceTaille ApplicableMise en aeuvre de de la maximale de rseaux pouf de connaissancequantit rseau mis de 1000 l'identification de Mthode fonctionnellecalcul en aeuvre 100000 systmatique de du rseau requise molcules cibles en biologique fonction thrapeutiques de la taille du rseau Mthode de A A >100 Oui Oui l'invention Tableau 4 Selon une variante des procédés de sélection de cibles thérapeutiques 2o décrits plus haut, un premier classement hiérarchique des sommets, considérés individuellement, est obtenu en effectuant les étapes A) à E) en imposant, pour chacune des simulations de l'étape D), des stimuli qui concernent un sommet unique ; une étape D2) est ensuite effectuée, correspondant à l'étape D) dans laquelle les stimuli imposés à chaque simulation sont exercés sur deux sommets, soit en testant toutes les combinaisons de deux sommets possibles, soit en limitant ces calculs aux combinaisons de deux sommets parmi un certain nombre des sommets les mieux classés à l'étape E). Enfin, une étape E2) de classement s hiérarchique des associations de deux sommets sur lesquels des stimuli sont le plus susceptibles d'avoir l'effet voulu est effectuée à partir de l'ensemble des proximités statistiques calculées à l'étape D2).
A partir de la variante ci-dessus, les étapes D) .et E) peuvent étre répétées 1o de façon itérative, en augmentant à chaque fois le nombre de sommets sur lesquels sont exercés les stimuli. Ainsi, le procédé peut comporter une étape D3) suivant l'étape E2) et correspondant à l'étape D) dans laquelle les stimuli imposés à chaque simulation sont-exercés sur trois sommetsï -soit en testant toutes les combinaisons de trois sommets possibles, soit en m limitant ces calculs aux combinaisons de trois sommets choisis parmi un certain nombre des sommets les mieux classés à l'étape E) et des combinaisons de deux sommets les mieux classées à l'étape EZ), ladite étape D3) étant suivie d'une étape E3) de classement hiérarchique des associations de trois sommets sur lesquels des stimuli sont le plus 2o susceptibles d'avoir l'effet voulu. Des étapes D4) et E4), avec des stimuli sur 4 sommets peuvent ensuite être rajoutées, et ainsi de suite. Ces procédés de sélection de cibles thérapeutiques comportent de préférence une étape finale de classement statistique des proximités de graphes de toutes les simulations effectuées, intégrant l'ensemble des classements 2s précédemment obtenus.
Dans les procédés de l'invention, lorsqu'une simulation implique des stimuli sur une combinaison de sommets, les stimuli exercés sur ces différents sommets peuvent être appliqués simultanément ou non, c'est-à-dire que la ~o simulation peut tenir compte d'un décalage temporel entre les stimuli exercés sur différents sommets.
s0 Dans une mise en ceuvre de l'invention, la relation entre X; et ies X~ est établie, pour au moins une partie des interactions physico-chimiques entre les molécules du réseau, par une relation inertielle découlant de celle de s l'oscillateur harmonique en physique, associée à un facteur d'amortissement suffisamment important pour limiter l'oscillation à un seul cycle.
Plus précisément, une relation de ce type entre X; et chaque X~, deux à
deux est de la forme : .
io w;~ .X~ = m; .(d2Xi / dt2) + 2 .A;; .(dX; / dt) + w;j~ .X;, dans laquelle m; .(d2Xi / dt2) + cu;~2 .X; correspond au terme inertiel (i), 2 .A;; .(dX; / dt) correspond au terme de retour à l'état initial (ü), X; est une variable associée à la molécule i dX; / dt est la dérivée de X; en fonction du temps is d2X; / dt2 est la dérivée seconde de X; en fonction du temps X~ est une variable associée à la molécule j, m; représente l'inertie de i, A;j régit le retour à l'état d'équilibre de X;, la pulsation c~;j correspond au temps de réponse de X; à la variation de ?o Xj, et w;~ est un facteur de couplage représentant la force de l'interaction entre les molécules i et j, correspondant à une pondération de l'effet de chaque molécule j sur la molécule i vis-à-vis de la résultante de l'ensemble des effets combinés de toutes les molécules j exerçant un 2s efFet sur i.
Selon une autre mise en oeuvre des procédés de l'invention, pour au moins une partie des interactions physico-chimiques entre les molécules du réseau, la relation entre les variables X; et X~, deux à deux est établie par ~o une relation sigmoïde comportant un facteur de retardement associée à
une fonction de décroissance linéaire.
Un autre type de relation entre les variables X; et Xj, décrit plus en détail ci-après, utilisable dans les procédés de l'invention pour modéliser au moins une partie des interactions physico-chimiques entre les molécules du s système biologique, est de la forme (dX;/dt) = fCl; . [ 1 / (1 + ~ ~ wi].x] - bi) j _ ~2~ _ X; ~ où
le terme sigmoïde 6C1; . [1 / (1 + e-~ W7.x - bi)j correspond au terme inertiel (i), et le terme K2; . X; correspond au terme de retour à l'état initial (ü), avec 1o X; = variable associée au sommet i, .
Xj = variable associée au sommet j, wij = facteur de couplage représentant la force de l'interaction entre ies molécules i et j, correspondant à une pondération de l'effet de chaque molécule j sur la molécule i vis-à-vis de la résultante de l'ensemble des ]s effets combinés de toutes les molécules j exerçant un effet sur i., bi = facteur de retardement, tCl; = facteur de limite maximale de variation de X;, et IC2; = facteur de retour à l'équilibre.
2o Dans les procédés ci-dessus, la relation entre les variables X; et Xj, peut également être, pour au moins une partie des interactions considérées, une fonction polynôme de type W;j Xj = E bm;.X;m = b~p_1~; .X;p 1 + ... + b3; .X 3 + bzi .X 2 + b1. .Xi +
boi , [m:1 ~ p-1 ]
2s d'ordre strictement inférieur au nombre p de couples (X;t, Xjt) de valeurs expérimentales du niveau de taux ou d'activité X; ou Xj des molécules i et j, respectivement, à différents instants t, les paramètres bm; étant calculés à
partir des p couples expérimentaux (X;t, Xjt) disponibles, et wj étant un facteur de couplage représentant la force de l'interaction entre les ~o molécules i et j, correspondant à une pondération de l'effet de chaque molécule j sur la molécule i vis-à-vis de la résultante de l'ensemble des effets combinés de toutes les molécules j exerçant un effet sur i.
Des fonctions de type dérivée W;j Xj = ~ am;j.~dmX;/dtm~ , [m:0~p'-11 p' étant un entier tel que 1 < p' > p - 1, et p étant défini tel que ci-dessus, peuvent également être utilisées dans les procédés de l'invention pour modéliser au moins une partie des interactions physico-chimiques entre les 1o molécules du système biologique.
Ceci peut notamment étre mis en oeuvre avec p'=3.
La résultante globale de n interactions exercées par des molécules 1 à n sur une molécule i peut étre, dans les procédés de l'invention, et pour au Is moins une partie des molécules du réseau, une somme pondérée des actions des molécules 1 à n sur la molécule i, de fa forme Fc(~j~i)=~a;j.fj;,où
G:1~n1 G:l~n1 fj; est la fonction associée à l'arc (i, j) pour chaque couple (i,' j) et 2o a;j = (dXj/dt) / ~ (dXj/dt).
fi:1 ~nl Une telle somme pondérée peut également être faite avec a;j = (dZXj/dt2) / ~ (d2Xj/dt2).
~5 p:~~nl La présente invention porte également sur un procédé de détermination du mode d'action d'un xénobiotique, consistant à mettre en oeuvre un procédé
d'analyse d'un réseau d'interactions moléculaires dans un système ~o biologique, tels que ceux décrits plus haut, dans les conditions suivantes (i) le système biologique dans lequel un réseau d'interactions moléculaires est étudié est concerné par l'action du xénobiotique ;
(ü) I"'état à modifier" choisi à l'étape C), correspond à un état observé expérimentalement avant l'administration dudit xénobiotique ;
(iii) on identifie les modifications à apporter au cours de l'étape D)a) s pour que le calcul effectué à l'étape D)b) montre une évolution du système vers un état proche de l'état observé après administration du xénobiotique.
Un autre aspect de l'invention est une méthode de prédiction ,d'effets 1o indésirables de traitements appliquant un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique, par la mise en oeuvre d'un système informatique.
Dans cet aspect de l'invention, les étapes et caractéristiques de la méthode sont les mémes que précédemment, la seule modification consistant dans i5 l'adaptation suivante Une fois identifiées les molécules-cibles d'un traitement, on analyse sur des parties du graphe représentatives de fonctions physiologiques connues, par des simulations mettant en jeu fa méme méthode que dans les aspects précédents de l'invention (étapes A à E, éventuellement A à Ek lorsque les 2o étapes D et E sont répétées de façon itérative en appliquant les stimuli sur des combinaisons de sommets allant jusqu'à k sommets), les conséquences de l'application du traitement sur ces molécules cibles. Cette analyse consiste à identifier les éventuelles évolutions de ces sous-parties de graphes vers de nouveaux états proches d'autres états pathologiques Zs de référence (tels que définis par l'observation expérimentale de ces conditions pathologiques, selon des méthodes similaires à ce qui est décrit plus haut).
A titre d'exemple, l'observation lors des simulations de l'évolution du sous graphe de l'apoptose vers un état final ayant une grande proximité avec un état de référence de ce graphe correspondant à une activation de cette voie physiologique (telle que définie à partir de données concernant un ou s4 des tissus affectés par des processus de dégénérescence cellulaire) permet de prédire un effet de toxicité cellulaire du traitement dans le ou les tissu concernés.
Cet aspect de l'invention consiste donc à mettre en oeuvre un procédé
s d'analyse tel que décrit plus haut, dans les conditions suivantes (i) le système biologique dans lequel un réseau d'interactions moléculaires est étudié est concerné par le traitement ;
(ü) les modifications de l'étape D)a) correspondent aux modifications des niveaux de taux ou d'activité des molécules cibles observées Io ou souhaitées lors de l'application du traitement ;
(iii) l'étape D)b) de calcul de l'évolution du système biologique est suivie d'une analyse de sous-parties du système correspondant à
des fonctions physiologiques connues, afin d'identifier les éventuelles évolutions de ces sous-parties vers des états Is proches d'états pathologiques de référence.
La présente invention porte également sur un procédé pour hiérarchiser des cibles thérapeutiques potentielles pour une pathologie, consistant à
identifier des cibles thérapeutiques par un procédé selon l'invention, puis à
2o prédire les éventuels effets indésirables d'un traitement visant ces cibles, et enfin à déterminer le rapport "bénéfice thérapeutique / effets indésirables"
d'une action sur chacune des cibles thérapeutiques potentielles.
Comme exposé ci-dessus, un des avantages principaux de la présente ?s invention, dans ses différents aspects, est de permettre de travailler sur des graphes ou réseaux de molécules en interaction comportant un grand nombre de molécules. Dans l'ensemble des procédés de l'invention, décrits plus haut, le nombre de variables X; du réseau d'interactions moléculaires considéré est donc de préférence supérieur à 100, supérieur à 200, voire supérieur à 300.
L'invention concerne aussi un procédé d'analyse tel que décrit plus haut faisant appel à l'utilisation des réseaux d'interaction moléculaire de l'invention, lesdits réseaux étant associés pour former un hypergraphe de réseaux.
Selon cette variante de réalisation de l'invention, le nombre de variables X;
de chaque réseau d'interactions moléculaires est inférieur à environ 100 et le nombre de réseaux associés pour former l'hypergraphe est compris entre 2 et environ 100.
1o Un autre aspect de l'invention est une méthode d'extension des graphes à
partir de résultats de criblages expérimentaux des variations de taux d'expression ou d'activité de molécules, appliquant un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique, par la 1s mise en oeuvre d'un système informatique.
Dans cet aspect de l'invention, les étapes et caractéristiques de la méthode sont les mémes que précédemment, la seule modification consistant dans l'adaptation suivante Dans cette application, la méthode est mise en oeuvre pour identifier de 2o nouvelles interactions moléculaires. Ceci peut être réalisé par le couplage de la méthode de l'invention décrite plus haut, avec des méthodes statistiques de recherche de corrélation entre des points dans un espace à
n dimensions (par exemple analyse factorielle, classifications hiérarchiques, etc.) telles que (mais de façon non exclusive) celles utilisées as à ce jour pour rechercher des corrélations de l'expression de gènes à
partir des résultats de criblage d'ARN messagers sur puces à ADN ("elustering"
de gènes). A titre d'exemple de méthode de "çlustering", on peut citer Eisen MB, Spellman PT, Brown PO and Botstein D (1998), Cluster Analysis and Display of Genome-llVide Expression Patterns, Proc Natl Acad Sci U S A
30 95, 14863-8. Un exemple de système logiciel d'accès libre permettant de réaliser des analyses de clustering disponible sur internat est le logiciel "cluster 3.0", développé par le Laboratory of DNA Information Analysis of Humas Genome Center, http://www.ims.u-tokyo.ac.jp/imswww/index-e.htmllnstitute of Medical Science, Universit rL of Tokyo, au Japon (4-6-1 Shirokanedai, Minato-ku, Tokyo 108-8639 JAPAN). Le logiciel "cluster 3.0"
s est diseonible sur le site internet http://bonsai.ims.u-toky~.ac.jp/~mdehoon/software/cluster/. Les données expérimentales utilisées peuvent par exemple être celles produites par les criblages d'expression d'ARN messagers sur puces à ADN.
Ce couplage consiste à utiliser les paramétrages calculés par la mise en 1o oeuvre de l'invention pour re-calculer une nouvelle matrice de données expérimentales de mesure d'expression de taux ~ou d'activité des molécules, en éliminant des matrices de résultats expérimentaux d'origine les facteurs d'interactions moléculaires inclus dans -le modèle dynamique paramétré (tels que la composante de résistance dynamique ou inertielle), 15 puis à effectuer les recherches de corrélation. Ce "nettoyage" des matrices de résultats d'origine consiste en d'autres termes à en éliminer le "bruit statistique" lié à ces facteurs, ces facteurs étant alors considérés comme introduisant des distorsions, dans les mesures réellement observées des taux d'expression ou d'activité des molécules, par rapport à ce qu'auraient 2o été ces mesures, d'un point de vue théorique, en l'absence de ces facteurs.
A titre d'exemple, la résistance dynamique de l'expression d'un gène A
donné (donc l'inertie de la modification du taux d'ARN messager correspondant) à deux stimulations distinctes exercées par les molécules B
et C (elles mêmes distinctes) peut varier, empêchant avant tout "nettoyage"
2s de ce type de mettre en évidence à la fois une corrélation entre l'expression de A et l'activité de la molécule B, et une corrélation entre l'expression de A
et l'activité de la molécule C.
L'invention porte donc sur l'utilisation d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique susceptible d'être 30 obtenu par un procédé tel que décrit plus haut, pour étendre un graphe statique dont les sommets représentent des molécules biologiques et les arcs représentent des interactions physico-chimiques entre ces molécules.
D'autres avantages et caractéristiques de la présente invention s apparaissent dans les exemples ci-après de mise en oeuvre pratique des procédés de l'invention, qui illustrent de façon non limitative les méthodes décrites ci-dessus.
Les schémas et figures ci-après illustrent également certains aspects de 1o l'invention La figure 1 représente un schéma synthétique des diverses étapes d'une méthode d'identification des cibles selon la présente invention.
La figure 2 représente un schéma du graphe construit dans l'exemple 4.
Ce graphe comporte 116 molécules dans le réseau d'interactions is moléculaires (116 sommets), et 329 interactions moléculaires entre ces molécules. Chaque rectangle représente une molécule du réseau (= un sommet du graphe). Chaque flèche représente une interaction entre deux molécules (= une arrête du graphe) ; le sens des flèches représente le sens des interactions : si la flèche va de la molécule A vers la molécule B, cela 2o signifie que la molécule A a une action d'activation ou d'inhibition potentielles de la molécule B ; certaines flèches sont à double sens interaction bilatérale. Le texte au sein de chaque rectangle correspond à
l'abréviation du nom de fa protéine telle que décrite dans le texte. Le calcul des paramètres des relations entre les sommets du graphe et les ?s simulations ont été réalisées sur l'ensemble de ce graphe (exemple 4).
La figure 3 montre des exemples graphiques de cinétiques calculées (triangles) et' observées (carrés), pour quelques gènes (exemple 4). Figure 3A : ORF YBL015W (ACH1). Figure 3B : ORF YMR169C (ALD3). Figure 3C : ORF YIL125W (KGD1). Figure 3D : ORF YNL071W (PDA2). Figure ~0 3E : ORF YAL054C (ACS1 ). Figure 3F : ORF YFL01 ~C (LPD1 ).
La figure 4 représente un schéma du graphe construit dans l'exemple 5.
Ce graphe comporte 133 molécules dans le réseau d'interactions moléculaires (133 sommets), et 407 interactions moléculaires entre ces molécules.
La signalétique des rectangles, flèches et des textes au sein de chaque s rectangle est la même que celle précédemment décrite, en référence à la figure 2.
La figure 5 montre des exemples de courbes de paramétrage, dans lesquels les cinétiques mesurées expérimentalement sont représentées en blanc et les .cinétiques cafcuiêes par simulation sont représentées en noir, Io pour quelques molécules (exemple 5). Figure 5A : .ICL 1 (YER065C).
Figure 5B : IDH1 (YNL037C). Figure 5C : ACH1 (YBL015W). Figùre 5D
PCK1 (YKR097W).
La figure 6 représente un schéma de classification des molécules du réseau par classification hiérarchique des distances calculées entre d'une is part l'état à atteindre et d'autre part les états obtenus par simulation (exemple 5).
Les ordonnées correspondent aux valeurs de distance calculées. En abscisse les 133 molécules du réseau sont classées de gauche à droite de celle associée à la distance la plus faible à celle associée à la distance la 2o plus élevée, chaque point correspondant à une molécule du réseau.
Exemales Exemple 1 : Mise en oeuvre pratigue de l'étape A) - (1) Les variables associées aux sommets du graphe Soit i une molécule donnée du réseau, et x; sa quantité (ou sa concentration) au sein du système biologique étudié. Soit x;o la mesure ~o expérimentale effectivement réalisée de i à un « état étalon » du système biologique, utilisé lors des mesures. Soit x;t la mesure expérimentale effectivement réalisée de i à un instant t. La variable utilisée est (1) X. _ (x~t/x~o).
L'état étalon est un état mesurable utilisé pour pratiquer les mesures s biologiques, contre lequel toutes les autres mesures sont quantifiées. II
peut correspondre à un état artificiel du système, par exemple à un pool de plusieurs échantillons biologiques prélevés dans des conditions expérimentales différentes (état artificiel), ou à un état réellement observable (non artificiel) du système. - ,.
1o Gette variable correspond bien au type de mesures biologiques effectivement réalisables. A. titre d'exemple, lors des mesures de taux d'ARN messagers sur puces à ADN, la mesure effectivement réalisée pour chaque ARN à un temps-expérimental -t donné est le rapport du signal émis par l'hybridation dés ARN présents dans l'échantillon biologiqûe au temps t is sur le signal émis par les ARN de méme type présents dans l'échantillon à
un état étalon du système biologique étudié (par exemple le temps initial de l'expérience biologique). Seule cette mesure peut être considérée comme fiable, la quantité réelle de molécules d'ARN n'étant pas directement mesurable car elle dépend de~ paramètres expérimentaux non directement 2o contrôlés (rendement des réactions de marquage des sondes, rendement des hybridations sur la puces, etc., ces paramètres différant de façon non prédictible entre deux ARN de type différent donnés). La quantité de signal mesuré à l'état étalon sert donc d'étalon de mesure pour celle aux autres temps, en se fondant sur l'hypothèse que pour un type d'ARN donné, les 25 paramètres expérimentaux influant sur le signal finalement émis sont les mêmes.
X; correspond donc directement aux mesures quantitatives biologiques réellement productibles dans l'état actuel des techniques de biologie moléculaire.
~o Les variables X;, X~ etc. sont donc égales à (x;t/x;o), (x~t/x~o) etc.
- (2) Les relations associées aux arrêtes du graphe et reliant les variables Soient n sommets j~, j2,..., jn du graphe (correspondant à n molécules du s réseau) qui agissent sur un sommet i (orientation du graphe des j vers i).
Ces relations définissent une relation directe entre X; et les X~ (X~~, Xj2, . . . ,Xjn) Terme inertiel de ces relations 1o Ce terme correspond à une fonction continue des X~. .Ce terme comporte .
une composante inertielle. Par inertie, on entend le fait que X; présente une résistance au changement suite à une variation des X~ : plus précisément, ce terme de la relation doit permettre de rendre compte du comportement suivant des variables : suite à une variation donnée d'un ou plusieurs des 1s X~, la vitesse de variation de X; va être initialement faible, puis s'accélérer progressivement.
Ce terme doit aussi permettre de rendre compte du comportement suivant des variables : suite à la variation d'un ou plusieurs des X~, X; va progressivement atteindre une nouvelle valeur finie correspondant à la 2o variation maximale de X; (pic de variation) ; ceci revient à dire que la vitesse de variation de X;, après avoir augmenté, va diminuer et progressivement tendre vers 0. II y a donc une inflexion de la courbe de X;
en fonction du temps.
as Commentaires Le fait de comporter une composante inertielle introduit de fait l'expression d'un retard temporel de la variation de X; suite à la variation de X~ : en l'absence d'autres interactions s'exerçant sur i, le pic de variation de X;
tend à survenir après le pic de variation de X~.
~o Le fait de comporter une composante inertielle permet donc de rendre compte du décalage temporel dans les variations des X; lors de la propagation des activation / inhibitions dans le réseau. A l'inverse, le fait d'introduire un simple décalage temporel par d'autres méthodes mathématiques n'introduira pas systématiquement un terme inertiel.
s Terme de retour à l'état initial de ces relations Ce terme tend à ramener X; à son niveau initial.
II correspond à une fonction continue de X; toujours croissante en valeur absolue avec X; : plus la variation de X; est forte, plus ce terme augmente en valeur absolue et tend à ramener X; à son niveau de départ.
1o Le couplage de ces deux termes permet de définir une relation générale pouvant rendre compte de cinétiques variables et non linéaires.
Plusieurs relations mathématiques peuvent comporter ces caractéristiques 1s et âtre utilisées pour établir une relation entre X; et les X~. Le fait de présenter une inflexion, d'être contraint par une limite maximale finie, et de tendre au retour à l'état initial peut âtre obtenu notamment par Dans un aspect de l'invention, la relation entre X; et les Xj est établie par 2o une relation inertielle découlant de celle de l'oscillateur harmonique en physique associée à un facteur d'amortissement suffisamment important pour limiter l'oscillation à un seul cycle.
Pour plus de clarté dans la description, une relation de ce type entre X; et chaque X~, deux à deux est de la forme 2s (1) w;~ .X~ = m; .(d2Xi / dt2) + 2 .A;~ .(dX; / dt) + w;~2 .X;
Le terme : m; .(d2Xi / dtz) + w;~2 .X; correspond au terme inertiel Le terme : 2 .A;~ .(dX; / dt) correspond au terme de retour à l'état initial X; = variable associée à la molécule i dX; / dt = dérivée de X; en fonction du temps ~o d2X; / dt2 = dérivée seconde de X; en fonction du temps X~ = variable associée à la molécule j m; = inertie de i (résistance au changement) A;~ = amortissement (régit le retour à l'état d'équilibre de X; ).
c~;~ = pulsation (temps de réponse de X; au stimulus représenté par XI) w;~ = facteur de couplage représentant la force de l'interaction entre les s molécules i et j, correspondant à une pondération de l'effet de chaque molécule j sur la molécule i vis à vis de la résultante de l'ensemble des effets combinés de toutes les molécules j exerçant un effet sur i.
Une variante formellement équivalente également utilisable de cette 1o relation entre X; et X~ consiste à se ramener à un cas.particulier où m;
est considéré comme une constante ; dans ce cas on peut éliminer le paramètre m; de l'équation. La formulation de l'équation reste globalement la même w;1 .X1 = (d2X; / dt2) + 2 .A;1 (dX; / dt) + c~;12 .X;
Dans les deux cas, si : ~ A;1 ~ ? 1 , l'amortissement est tel qu'il n'y a plus qu'une seule « oscillation » de X;. En d'autres termes, cette relation fait varier X; à partir de son niveau de départ, jusqu'à une variation maximale, puis tend à le faire revenir à son état initial. ' Pour mettre en ceuvre l'invention, on définit donc une relation entre X; et l'ensemble des XI
Dans un aspect de l'invention, celle-ci est définie par une sommation pondérée des effets des XI sur la résultante sur X;
2s (2) ~ (w;1 . X1) + c;= m; .(d2Xi / dt2) + 2 .A;1 .(dX; / dt) + c~;12 .X;
G:1 ~nl OU:
(3) ~ (w;1 . X1) + c; =(d2X; / dt2) + 2 .A;1 (dX; / dt) + c~;~2 .X;
G:1-~nl w;~ = facteur de pondération c; = facteur de correction, du fait des marges d'erreurs possibles dans les données expérimentales, non indispensable.
La définition des autres paramètres et variables est la même que précédemment.
s X; ; dX; / dt ; d2 X; / dt2 et Xl sont des données fournies expérimentalement ou directement calculés à partir de ces données. Par exemple, ces données peuvent être obtenues par des criblages d'expressions d'ARNm.
Les inconnues de cette équation en sont les paramètres ( m; ; l~;] ; w;] ; w1 ), qui sont à fixer pour entièrement définir la relation-en vue de simulations.
]o On pose que quel que soit i et quel que soit j, ~ A;] ~ >_ 1.
Dans un autre aspect de l'invention, la relation entre X; et f ensemble des Xl est définie par une somme dont la pondération inclut- un terme variable au cours du temps et tenant compte explicitement des vitesses respectives 1s des modifications des Xj, vitesses représentées par les dérivées :
dX](t)/dt, noté dans la suite dXl/dt. Ceci revient à considérer que les vitesses de variation des X] (des molécules j) influencent la résultante globale de leurs actions sur la cinétique de X; (de la molécule i).
On définit 20 (4) a;] _ ( dXl / dt ) / ~ ( dX] / dt ) ; a;1 étant un facteur de pondération.
(j:1 ~ n]
ag est directement calculable, à partir des données quantitatives expérimentales, pour chaque temps expérimental. Ce facteur de pondération varie en fonction du temps.
2s Dans ce cas, la relation entre X; et l'ensemble des Xl est définie comme suit (5) ~ (a;] ~. w;] . X1) + c; = m; .(d2Xi l dt2) + 2 .A;] .(dX; I dt) + w;~2 .X;
[j:1 ~ n]
OU:
30 (6) ~ (a;] . w;] . X]) + c; =(d2X; / dt2) + 2 .A;1 (dX; / dt) + w;12 .X;
G:1 ~ n1 La définition des paramètres et variables est la méme que précédemment.
Les équations (2) et (3) reviennent à un cas particulier des équations (5) et
(6) où l'on pose arbitrairement a;i = 1.
s Dans un autre aspect de l'invention, la relation entre X; et l'ensemble des Xi est définie par une somme dont la pondération inclut un terme variable au cours du temps et tenant compte explicitement des accélérations respectives des modifications des Xj, accélérations représentées par les ]o dérivées secondes : d2Xi(t)/dt2 notées dans la suite d2Xi(t)/dt2. Ceci revient à considérer que les accélérations des variations des Xi (des molécules j) influencent la résultante globale de leurs actions sur la cinétique de X; (de la molécule i).
On définit Is (7) a;i = ( d2Xi / dt2 ) / ~ ( d2Xi / dt2 ) ; a;i étant un facteur de pondération.
(j:1 ~nj Ici aussi, a;i est directement calculable, à partir des données quantitatives expérimentales, pour chaque temps expérimental. Ce facteur de pondération varie en fonction du temps.
2o Dans ce cas, la relation entre X; et l'ensemble des Xi est définie comme précédemment (8) ~ (a;i . w;i . Xi) + c;= m; .(d2Xi / dt2) + 2 .A;i .(dX; / dt) + c~;i2.X;
[j:1-jnl OU:
2s (9) ~ (a;i . wg . Xi) + c; =(d2X; / dt2) + 2 .~;i (dX; / dt) + t~;i2 .X;
fi:1 ~ n1 La définition des paramètres et variables est la même que précédemment.
Seule la définition des paramètres a;i (et par conséquent leur valeur et les valeurs calculées des autres paramètres) diffère par rapport à l'aspect ~o précédent de l'invention.
6s Ici aussi, Les équations (2) et (3) reviennent à un cas particulier des équations (8) et (9) où l'on pose arbitrairement a;j = 1.
s Dans la mesure où les temps auxquels sont effectuées les mesures expérimentales sont longs par rapport aux accélérations, il est préférable de définir les pondérations par rapport aux vitesses que par rapport aux accélérations.
1o - (2) Dans un autre aspect de l'invention, la relati~n entre X; et les X~
est établie par une relation sigmoïde comportant un facteur de retardement associée à une relation de décroissance linéaire.
Dans ce cas, dans ûne mise en oeuvre préférentielle, 1â relation entre Xet les Xj sera Is (10) (dX;/dt) = K1; . [ 1 / (1 + e ~'"~'.xj - bi) j ! K2. . 'X. ; pour l'ensemble des sommets j ayant une action sur i (notés sommets j).
Dans cette formulation, la relation associée aux arrêtes correspondant à
une interaction moléculaire inhibitrice pourra être l'inverse de celle associée aux arrêtes correspondant à une interaction activatrice (courbe sigmoïde 2o décroissante ou croissante, respectivement), cette caractéristique étant directement obtenue lors du calcul des paramètres, par leurs signes positifs ou négatifs.
Le terme sigmoïde K . [ 1 / ( 1 + e-~ '"y.x~ - b') 1 1i 2s correspond au terme inertiel Le terme - K2i . Xi correspond au terme de retour à l'état initial.
X; = variable associée au sommet i.
~o X~ = variable associée au sommet j.
wij = facteur de pondération de l'effet de j sur i lorsque plusieurs sommets (j~, j2, ...,j~) agissent sur le sommet i.
bi = facteur de retardement K~; = facteur de limite maximale de variation de X; . Son utilisation est liée s au fait que le terme sigmoïde varie entre 0 (variation de 0 %) et 1 (variation de 100%). Ce facteur est donc requis pour rendre compte des situations ou X; varie de plus de 100%.
1C2; = facteur de retour à l'équilibre.
1o Dans cet aspect de l'invention, la résultante pondérée de la combinaison des effets de l'ensemble des Xi sur X; est incluse d'emblée. L'effet combiné
de l'ensemble des Xi est représenté ici aussi par une somme pondérée, dans le terme inertiel.
Dans un autre aspect de l'invention, la relation entre les X; et les Xi est ~s établie similairement à l'aspect précédent, mais avec l'introduction d'un facteur de pondération supplémentaire a;i tel que défini par les équations (4) ou (7) précédentes. Dans ce cas, dans une mise en oeuvre préférentielle, la relation entre X; et les Xi sera (7 7) (dX;/dt) = K~; . [1 / (1 + e ~a~i. W~i.xi -b~ ) j _ ~2~ . Xi ; pour l'ensemble des 2o sommets j ayant une action sur i (notés sommets j).
La définition des paramètres et variables est ia même que précédemment ;
ie paramétre a;i est défini soit par l'équation (4), soit par l'équation (7) précédentes. L'équation (10) revient à un cas particulier de l'équation (11 ) où l'on pose arbitrairement 2s a;i = 1.
Le paramètre a;i est un terme variable au cours du temps et tenant compte explicifiement des vitesses respectives des modifications des Xi, ou des accélérations respectives des Xi, selon que a;i est défini par l'équation (4) ou l'équation (7), respectivement.
~o Dans la mesure où les temps auxquels sont effectuées les mesures expérimentales sont longs par rapport aux accélérations, il est préférable de définir les facteurs de pondération a;~ par rapport aux vitesses (équation (4)) que par rapport aux accélérations (équation (7)).
Equation (4) (4) a;j=(dX~/dt)/~(dX~/dt) [j:1 ~ nj Equation (7)
s Dans un autre aspect de l'invention, la relation entre X; et l'ensemble des Xi est définie par une somme dont la pondération inclut un terme variable au cours du temps et tenant compte explicitement des accélérations respectives des modifications des Xj, accélérations représentées par les ]o dérivées secondes : d2Xi(t)/dt2 notées dans la suite d2Xi(t)/dt2. Ceci revient à considérer que les accélérations des variations des Xi (des molécules j) influencent la résultante globale de leurs actions sur la cinétique de X; (de la molécule i).
On définit Is (7) a;i = ( d2Xi / dt2 ) / ~ ( d2Xi / dt2 ) ; a;i étant un facteur de pondération.
(j:1 ~nj Ici aussi, a;i est directement calculable, à partir des données quantitatives expérimentales, pour chaque temps expérimental. Ce facteur de pondération varie en fonction du temps.
2o Dans ce cas, la relation entre X; et l'ensemble des Xi est définie comme précédemment (8) ~ (a;i . w;i . Xi) + c;= m; .(d2Xi / dt2) + 2 .A;i .(dX; / dt) + c~;i2.X;
[j:1-jnl OU:
2s (9) ~ (a;i . wg . Xi) + c; =(d2X; / dt2) + 2 .~;i (dX; / dt) + t~;i2 .X;
fi:1 ~ n1 La définition des paramètres et variables est la même que précédemment.
Seule la définition des paramètres a;i (et par conséquent leur valeur et les valeurs calculées des autres paramètres) diffère par rapport à l'aspect ~o précédent de l'invention.
6s Ici aussi, Les équations (2) et (3) reviennent à un cas particulier des équations (8) et (9) où l'on pose arbitrairement a;j = 1.
s Dans la mesure où les temps auxquels sont effectuées les mesures expérimentales sont longs par rapport aux accélérations, il est préférable de définir les pondérations par rapport aux vitesses que par rapport aux accélérations.
1o - (2) Dans un autre aspect de l'invention, la relati~n entre X; et les X~
est établie par une relation sigmoïde comportant un facteur de retardement associée à une relation de décroissance linéaire.
Dans ce cas, dans ûne mise en oeuvre préférentielle, 1â relation entre Xet les Xj sera Is (10) (dX;/dt) = K1; . [ 1 / (1 + e ~'"~'.xj - bi) j ! K2. . 'X. ; pour l'ensemble des sommets j ayant une action sur i (notés sommets j).
Dans cette formulation, la relation associée aux arrêtes correspondant à
une interaction moléculaire inhibitrice pourra être l'inverse de celle associée aux arrêtes correspondant à une interaction activatrice (courbe sigmoïde 2o décroissante ou croissante, respectivement), cette caractéristique étant directement obtenue lors du calcul des paramètres, par leurs signes positifs ou négatifs.
Le terme sigmoïde K . [ 1 / ( 1 + e-~ '"y.x~ - b') 1 1i 2s correspond au terme inertiel Le terme - K2i . Xi correspond au terme de retour à l'état initial.
X; = variable associée au sommet i.
~o X~ = variable associée au sommet j.
wij = facteur de pondération de l'effet de j sur i lorsque plusieurs sommets (j~, j2, ...,j~) agissent sur le sommet i.
bi = facteur de retardement K~; = facteur de limite maximale de variation de X; . Son utilisation est liée s au fait que le terme sigmoïde varie entre 0 (variation de 0 %) et 1 (variation de 100%). Ce facteur est donc requis pour rendre compte des situations ou X; varie de plus de 100%.
1C2; = facteur de retour à l'équilibre.
1o Dans cet aspect de l'invention, la résultante pondérée de la combinaison des effets de l'ensemble des Xi sur X; est incluse d'emblée. L'effet combiné
de l'ensemble des Xi est représenté ici aussi par une somme pondérée, dans le terme inertiel.
Dans un autre aspect de l'invention, la relation entre les X; et les Xi est ~s établie similairement à l'aspect précédent, mais avec l'introduction d'un facteur de pondération supplémentaire a;i tel que défini par les équations (4) ou (7) précédentes. Dans ce cas, dans une mise en oeuvre préférentielle, la relation entre X; et les Xi sera (7 7) (dX;/dt) = K~; . [1 / (1 + e ~a~i. W~i.xi -b~ ) j _ ~2~ . Xi ; pour l'ensemble des 2o sommets j ayant une action sur i (notés sommets j).
La définition des paramètres et variables est ia même que précédemment ;
ie paramétre a;i est défini soit par l'équation (4), soit par l'équation (7) précédentes. L'équation (10) revient à un cas particulier de l'équation (11 ) où l'on pose arbitrairement 2s a;i = 1.
Le paramètre a;i est un terme variable au cours du temps et tenant compte explicifiement des vitesses respectives des modifications des Xi, ou des accélérations respectives des Xi, selon que a;i est défini par l'équation (4) ou l'équation (7), respectivement.
~o Dans la mesure où les temps auxquels sont effectuées les mesures expérimentales sont longs par rapport aux accélérations, il est préférable de définir les facteurs de pondération a;~ par rapport aux vitesses (équation (4)) que par rapport aux accélérations (équation (7)).
Equation (4) (4) a;j=(dX~/dt)/~(dX~/dt) [j:1 ~ nj Equation (7)
(7) a;~=(d~Xj/dt2)/~(d~X~/dt2) [j:1-~ n) 1o - (3) Cependant, d'autres types de relations mathématiques non citées ici comportant les caractéristiques décrites dans l'invention pourraient aussi être utilisées, leur utilisation dans le cadre de l'invention étant alors considérée comme tombant sous le coup du présent brevet.
- (4) II doit être entendu ici que l'utilisation de relations mathématiques 1s non explicitées ici mais qui permettent de reprendre tout ou partie des caractéristiques décrites ci-dessus entrent dans le cadre de l'invention.
Ainsi, il est possible, de façon non limitative, d'établir une relation entre ?C; et X~ qui respecte l'existence d'inflexion de la courbe de X; en fonction du temps, et une limite maximale de X; dans l'intervalle des données 2o expérimentales utilisées et dans les intervalles de temps expérimentaux par une fonction polynôme, ou une fonction sinus ou cosinus, etc.
Exemple 2 : Mise en oeuvre pratictue de l'étape B) De multiples techniques de procédures d'apprentissage, dont par descente as de gradient au sein de graphes, sont disponibles pour effectuer le calcul des paramètres dans le domaine public (notamment en utilisant les transformées de Laplace, ou encore la méthode développée par Pearlmutter, 'Gradient calculations for dynamic recurrent neural networks a survey', IEEE transactions on neural networks, 1995). Un autre exemple ~o de méthode de calcul consiste à mette en oeuvre la méthode de résolution numérique adaptative d'ordre S de Runge-Kutta (permettant d'utiliser un pas de temps non constant dans les données expérimentales) associée à
un apprentissage par BPTT (back propagation through filme).
Le choix de la procédure d'apprentissage est notamment lié aux algorithmes utilisés pour définir la relation entre les couples (X;, Xj). La s personne de l'art pourra facilement effectuer ce choix, et le mettre en oeuvre.
Le choix et la mise en oeuvre d'une fonction d'erreur ne posent pas de difficulté particulière. En effet, plusieurs fonctions d'erreur peuvent être > o utilisées, et sont disponibles dans la littérature. A titre d'exemples, des types de fonctions d'erreur utilisables sont E = ~ ! [ X1 i(t) - X2i (t)]~ . dt i t ' avec : X1;(t) : valeur de X; au temps t calculée par simulation Is avec : X2;(t) : valeur de X; au temps t mesurée expérimentalement.
Ou encore l'erreur globale relative aux trajectoires données pour l'apprentissage [ ~ ~ ( X1i(t) - X2i(t ) )2 ~ ~ ~ ( X2i(t) )2 ]
i t i t 20 ~ = racine carrée du terme entre crochets [ ].
X1;(t) et X2;(t ) étant définis comme ci-dessus.
On peut également, pour calculer l'erreur relative locale (au niveau de la trajectoire d'un sommet du graphe), utiliser la formule [ ~ ( X1i(t) - X2i(t ) )2 ~ ~ ( X2i(t) )2 ]
25 t t ~l = racine carrée du ferme entre crochets : [ ]
X1;(t) et X2;(t ) étant définis comme ci-dessus.
Dans le cas de la mise en oeuvre d'une relation X;, X~ de type inertielle ~o adaptée de l'oscillateur harmonique, et dans une mise en oeuvre préférentielle, les contraintes suivantes seront imposées lors du calcul des paramètres Un seuillage sera introduit en imposant que pour toute relation élémentaire (X;, X~), les paramètres calculés respectent s ~;~ > c~;~ (ce qui revient à imposer un amortissement important), ou encore, m; = valeur maximale calculée pour l'ensemble des relations (Xi, xj), ces deux critères pouvant être associés.
1o Au terme du calcul des paramètres, le graphe (ou réseau) est entièrement déterminé par les relations mathématiques associées aux arrétes du graphe : il s'agit d'un réseau entièrement déterministe. Le graphe correspondant est orienté. Le réseau est peut être représenté -de façon explicite par la mise en pauvre de techniques de représentation de réseaux is de neurones utilisées en intelligence artificielle. Il s'agit d'un réseau non booléen, ni bayésien, ni organisé en couches, permettant de représenter des redondances des circuits et des boucles de rétro-action. Ge réseau déterministe permet la mise en ceuvre de simulations sans coût de calcul notable, même pour un graphe de très grande taille.
Exemple 3 : Mise en pauvre uratie~ue de l'étaie D) Propagati~n De nombreuses méthodes de propagation sont disponibles dans la 2s littérature, adaptées des technologies de réseaux de neurones développées en intelligence artificielle, et leur mise en pauvre ne pose pas de difficulté particulière à l'homme de l'art, le graphe dynamique étant entièrement déterministe à ce stade de la mise en pauvre.
A titre d'exemples de méthodes de propagation, on peut citer le logiciel ~o Neural Network Toolbox 4Ø2, développé dans l'environnement de calcul MATLAB, disponible à l'adresse internat htt~://www.mathtools.net/MATLAB/Neural Networks/index.html, commercialisé par la société The MathWorks, Inc. Ce logiciel de mise en oeuvre de réseau de neurones permet notamment de réaliser des propagations dans un réseau. D'autres exemples de propagations sont s intégrés aux méthodes de Runge dCutta et de Pearlmutter citées dans le présent texte.
La propagation est inhérente aux méthodes d'apprentissage citées à
l'exemple 2. L'étape de simulation consiste donc à utiliser la méthode de propagation mise en oruvre de l'étape B, ou toute autre méthode de Io propagation jugée adéquate par l'homme de l'art.
Plusieurs principes sont toutefois préférentiellement respectés lors de la mise en oeuvre des simulations Dans une mise en couvre particulière de l'invention, des procédures de is seuillage sont associées à la méthode de propagation choisie, afin de diminuer les divergences (donc d'améliorer les convergences, c'est à dire la fiabilité). Celles-ci peuvent porter sur - Un seuillage inférieur (c'est à dire que toute valeur d'une variable prédite en dessous de 0 est ramenée à 0 (où à une valeur de bruit de fond 2o minimale si celui-ci peut être défini par les données expérimentales) Seuillage : pour toute molécule i, quelle que soit la valeur X; , X; <.0 => X;
_ 0.
- Un seuillage supérieur : en imposant un seuil maximal aux valeurs des X;
pouvant être obtenues lors des simulations (par exemple en fixant un seuil 2s maximal correspondant à un facteur multiplicatif (pouvant de façon non exclusive être fixé entre 1 et 10) des valeurs maximales observées expérimentalement pour chaque X; ; ce facteur peut éventuellement être défini lors de simulations de résultats expérimentaux réels disponibles en testant plusieurs valeurs de ce facteur.
~o - L'introduction de contraintes dans les boucles lors des simulations :
Ceci peut être réalisé par plusieurs méthodes, non exclusives les unes des autres, cette liste n'étant pas limitative. Toutes ces méthodes visent à
imposer des contraintes, soit au nombre de boucles effectuées, soit aux gammes de valeurs des X;
o Limitation du nombre de boucles pouvant être effectuées s lors des simulations, le nombre maximal de boucles pouvant être défini à partir de l'analyse de données expérimentales réelles en tenant compte de la durée des simulations.
o Utilisation du seuillage tel que décrit ci dessus pour éviter des phénomènes d' e< explosion » dans des boucles, celles-lo ci allant alors se stabiliser au niveau maximal autorisé du seuil.
Itération La pratique d'itérations est couramment utilisée en informatique. Elle Is consiste ici à répéter la séquence de calculs de propagation en modifiant de façon systématique les stimuli. Elle peut ou non inclure une stratégie de calcul parallèle. Elle est facile à mettre en oeuvre par l'homme de l'art et ne nécessite pas d'étre plus détaillée.
2o En permettant de décrire l'effet de telle ou telle modification du réseau sur l'ensemble du réseau, ces simulations visent à analyser le système biologique dans son ensemble, et donc à répondre aux enjeux cités plus haut. Ces simulations consistent donc à décrire l'évolution de l'ensemble des molécules du réseau d'interactions moléculaires au cours du temps 2s suite aux stimuli « virtuels » initiaux, y compris, si cela s'avère biologiquement important, jusqu'à un nouvel état d'équilibre du graphe.
Ces stimuli « virtuels » peuvent être appliqués de façon systématique sur chaque sommet du graphe, mais il est aussi possible d'effectuer plusieurs stimuli en même temps, ou de façon séquentielle, sur plusieurs sommets.
Proximité des états du graphe Un calcul statistique de proximité entre chaque état final calculé et l'état voulu, ou entre chaque état final et l'état à modifier, est effectué. II
permet, pour chaque sommet, d'associer un critère statistique (proximité obtenue) au sommet sur lequel s'est exercé le stimulus et au stimulus exercé sur ce s sommet.
De nombreuses possibilités de comparaison statistique des états d'un graphe existent, et leur choix ne pose pas de difficulté pour l'homme de l'art.
A titre d'exemple, la distance entre deux états d'un graphe peut âtre io calculée comme suit Si X~; est la valeur de la variable X; à l'état 1 du graphe ;
Si X2; est la valeur de la variable Xi à l'état 2 du graphe, on peut calculer une distance mathématique entre les états 1 et 2 du graphe par : .
D = ~ (X~i - X2i )~
~s Ou encore D-~[~(X1i-X2i)2~~(X2i)2]
i i ~ - racine carree du terme entre crochets : [
D'autres méthodes de statistiques classiques telles que comparaisons des populations, etc... sont aussi disponibles.
Les éléments de comparaison des graphes, sont de deux ordres - Points de convergence des valeurs X; (end point), par exemple par 2s comparaison des populations de X; finaux entre états de graphes par statistiques classiques de comparaisons de populations (moyennes, variance... ).
- Cinétiques de chaque molécule i (par exemple par comparaison des différences d'intégrales des courbes de cinétiques, et comparaison des .~o populations de différences d'intégrales). II est ainsi possible de comparer, par exemple, la cinétique des X; au cours de l'établissement d'un processus pathologique à celle suite à un stimulus tel que défini plus haut, permettant de hiérarchiser les sommets et les stimuli par l'écart qu'ils provoquent par rapport au processus pathologique, en ne se limitant pas aux points de convergence. Dans ce cas, il est possible par exemple d'estimer la distance s entre les deux cinétiques du graphe par les fonctions d'erreur citées plus haut E = ~ ~ C ~1i(t) - ~2i (t)J2 . dt i t ~u encore 1 0 ~ ~ ~ ~ ( ~1i(t) - ~2i(t ) )2 ~ ~ ~ ( ~2i(t) )2 i t i t Ces -deux types- de comparaisons permettent d'évaluer statistiquement la proximité des graphes, dans les procédures de simulations décrites plus ts haut.
- D'autres types d'analyse d'analyse de proximité peuvent être mis en eeuvre : voir par exemple : Pearlmutter, 'Gradient calculations for dynamic recurrent neural networks : a survey', IEEE transactions on neural networlcs, 1995.
ao Le choix et la mise en oeuvre de ces comparaisons sera facilement réalisée par l'homme de l'art et ne requiert pas plus de description ici.
Exemple 4 : modélisations et simulations â partir d'un graphe statigue de 116 molécules 2s Données biologiques utilisées 1) Un graphe statique correspondant à un réseau d'interactions moléculaires dans la levure (Saccharomyces cerevisiae, organisme vivant eucaryote pouvant être considéré comme un système biologique répondant aux critères de complexité cités plus haut) a été construit par une saisie ~o manuelle dans un fichier plat de type txt (sans mettre en oeuvre de système automatisé particulier), à partir des données de la base de données KEGG : Kyoto Encyclopedia of Genes and Genomes, données en accès libre à !'adresse internet http://www.genome.ad.jip/keg,~q/keg"a2.html.
Ce graphe est plus particulièrement centré sur les mécanismes de la s respiration cellulaire (glycolyse, néoglucogénèse, métabolisme du Pyruvate et de l'acetyl CoA, etc.). II comprend 116 molécules, enzymes ou facteurs de transcription. II comprend 329 interactions uni- ou bi-directionnelles entre ces molécules.
Le graphe statique correspondant à ce réseau d'interactions moléculaires 1o est donné ici à titre d'exemple, sous deux formes - Schéma (figure 2). Sur ce schéma, chaque rectangle représente :une protéine. Les lettres dans le rectangle sont les abréviations usuelles du nom de la protéine, selon la nomenclature de KEGG et de SGD
Saccharomyces Genome Database développée par le Department of 1s Genetics at the School of Medicine, Université Stanford, USA.
- Tableau représentant les interactions moléculaires (Tableau 5 ci-dessous).
Ce tableau présente les données de graphe statique sous une forme directement utilisable par un système informatique de modélisation et de 2o simulation tel que décrit dans l'invention.
A A B B
Code ORF Abrviation Code ORF Abrviation sens C
YLR304C AC01 YDL066W IDP1 A<->B
YLR304C ACO1 YLR174W IDP2 A<->B
YAL054C ACS1 YNR001C CIT1 A<->B
YAL054C ACS1 YCR005C CIT2 A<->B
YAL054C ACS1 YNL071W PDA2 A<->B
YAL054C ACS1 YLR044C PDC1 A<->B
YAL054C ACS1 YLR134W PDC5 A<->B
YAL054C ACS1 YGR087C PDC6 A<->B
YAL054C ACS1 YAL038W PYK1 A<->B
YAL054C ACS1 YOR347C PYK2 A<->B
YLR153C ACS2 YNR001 C CIT1 A<->B
YLR153C ACS2 YCR005C CIT2 A<->B
YLR153C ACS2 YNL071W PDA2 A<->B
YLR153C ACS2 YLR044C PDC1 A<->B
YLR153C ACS2 YLR134W PDC5 A<->B
YLR153C ACS2 YGR087C PDC6 A<->B
YLR153C ACS2 YAL038W PYK1 A<->B
YLR153C ACS2 YOR347C PYK2 A<->B
YBR145W AD.H5 YMR169C ALD3 A-B
YMR170C ALD2 YAL054C ACS1 A<->B
YMR170C ALD2 YLR153C ACS2 A<->B
YMR169C ALD3 YAL054C ACS1 A<->B
YMR169C ALD3 YLR153C ACS2 A<->B
YPL061W ALD6 YAL054C ACS1 A<->B
YPL061W ALD6 YLR153C ACS2 A<->B
YNR001 C CIT1 YLR304C AC01 A<->B
YCR005C CIT2 YLR304C AC01 A<->B
YGR254W ENO1 YKL152C GPM1 A<->B
YGR254W ENO1 YDL021W GPM2 A<->B
YHR174W EN02 YKL152C GPM1 A<->B
YHR174W ENO2 YDL021W GPM2 A<->B
YDR261C E)CG2 YIL162W SUC2 A-B
YDR261 C E)CG2 YFR053C HXK1 A-B
YKL060C FBA1 YDR050C TP11 A<->B
YLR377C FBP1 YGR240C PFK1 A<->B
YLR37~7C FBP1 YMR205C PFK2 A<->B
YPL262W FUM1 YKL085W MDH1 A<->B
YPL262W FUM1 YOL126C MDH2 A<->B
YPL262W FUM1 YDL078C MDH3 A<->B
YEL011W GLC3 YPR160W GPH1 A<->B
YCL040W GLK1 YBR196C PG11 ~ A<->B
YKL152C GPM1 YCR012W PGK1 A<->B
YDL021 W GPM2 YCR012W PGK1 A<->B
C
C
YBL021C HAP3 YKL148C SDH1 A-B.
YBL021C HAP3 YIL125W KGD1 ~ A-B
YBL021 C HAP3 YDR148C KGD2 ~ ~ A-B..
YKL109W HAP4 YKL141W SDH3 A-B:
YKL109W HAP4 YFL018C LPD1 . A-B
YFR053C HXK1 YGR240C PFK1 ~A-B
YDR148C KGD2 YFL018C LPD1 A<->B
YDR148C KGD2 YGR244C LSC2 A<->B
YFL018C LPD1 YBR221C PDB1 q<->g YBR299W MAL32 YFR053C HXK1 A-g YKL085W MDH1 YNR001C CIT1 A<->B
YKL085W MDH1 YCR005C CIT2 A<->B
YKL085W MDH1 YKR097W PCK1 A<->B
YKL085W MDH1 YGL062W PYC1 A<->B
YKL085W MDH1 YBR218C PYC2 A<->g YOL126C MDH2 YNR001 C CIT1 A<->B
YOL126C MDH2 YCR005C CIT2 A<->B
YOL126C MDH2 YKR097W PCK1 A<->B
YOL126C MDH2 YGL062W PYC1 A<->B
YOL126C MDH2 YBR218C PYC2 A<->B
YDL078C MDH3 YNR001C CIT1 A<->B
' YDL078C MDH3 YCR005C CIT2 A<->B
YDL078C MDH3 YKR097W PCK1 A<->B
YDL078C MDH3 YGL062W PYC1 A<->g YDL078C MDH3 YBR218C PYC2 A<->B
YMR037C MSN2 YFR053C HXK1 A-g YKR097W PCK1 YNR001 C CIT1 A<->B
YKR097W PCK1 YCR005C CIT2 A<->B
YKR097W PCK1 YGR254W EN01 A<->B
YKR097W PCK1 YHR174W EN02 A<->B
YNL071W PDA2 YNR001C CIT1 A<->B
YNL071W PDA2 YCR005C CIT2 A<->B
YBR221C PDB1 YNL071W PDA2~ A-B
YLR044C PDC1 YMR170C ALD2 ' A<->B
YLR044C PDC1 YMR169C ALD3 ~ A<->B
YLR044C PDC1 YPL061W ALD6 A<->B
YLR134W PDCS YMR170C ALD2 A<->B
YLR134W PDC5 YMR169C ALD3 A<->B
YLR134W PDC5 YPL061W ALD6 A<->B
YGR087C PDC6 YMR170C ALD2 A<->B
YGR087C PDC6 YMR169C ALD3 A<->B
YGR087C PDC6 YPL061W ALD6 A<->B
YGR240C PFK1 YLR377C FBP1 A<->B
YMR205C PFK2 YLR377C FBP1 A<->B
YIL107C PFK26 YJL155C FBP26 A<->B
YBR196C PG11 YKL127W PGM1 A<->B
YBR196C PG11 YMR105C PGM2 A<->B
YCR012W PGK1 YGR192C TDH3 A<->B
YKL127W PGM1 YCL040W GLK1 A<->B
YKL127W PGM1 YKL035W UGP1 _ A<->B
-YMR105C PGM2 YCL040W GLK1 A<->B
YMR105C PGM2 YKL035W UGP1 A<->B
YGLOCa2W PYC1 YNR001C CIT1 ~ A<->B
YGL062W PYC1 YCR005C CIT2 A<->B
YGL062W PYC1 YLR044C PDC1 A<->B
YGL062W PYC1 YLR134W PDCS A<->B
YGL062W PYC1 YGR087C PDC6' ~ A<-~B
~
YBR218.C PYC2 YNR001 C CIT1 ~ A<->B
-YBR218C PYC2 YCR005C C.IT2 ' A<->B
.
YBR218C PYC2 YLR044C PDC1 A<->B
YBR218C PYC2 YLR134W PDC5 A<->B
YBR218C PYC2 YGR087C PDC6~ A<->B
YAL038W PYK1 YLR044C PDC1 A<->B
YAL038W PYK1 YLR134W PDC5 A<->B
YAL038W PYK1 YGR087C PDC6 A<->B
YOR347C PYK2 YLR044C PDC1 A<->B
YOR347C PYK2 YLR134W PDCS A<->B
YOR347C PYK2 YGR087C PDC6 A<->B
~
YOL067C RTG1 YNL037C lDH1 A-B
.
YCR073W-A Sol2 YGR256W GND2 A-B
YBR112C SSN6 YER065C ICL1 A=B
YIL162W SUC2 YBR196C PG11 A<->B
YIL162W SUC2 YKL127W PGM1 A<->B
YIL162W SUC2 YMR105C PGM2 A<->B
YGR192C TDH3 YKL060C FBA1 A<->B
YGR192C TDH3 YDR050C TP11 A<->B
YDR050C TP11 YKL060C FBA1 A<->B
YKL035W UGP1 YKL127W PGM1 A<->B
YNL241 C Z1/VF1 YCR073W-A Sol2 A-B
YKL148C SDH1 YPL262W FUM1 A<->B
YLL041C SDH2 YPL262W FUM1 A<->B
YKL141W SDH3 YPL262W FUM1 A<->B
YDR178W SDH4 YPL262W FUM1 A<->B
YGR244C LSC2 YKL148C SDH1 A<->B
YGR244C LSC2 YLL041 C SDH2 A<->B
YGR244C LSC2 YKL141W SDH3 A<->B
YGR244C LSC2 YDR178W SDH4 A<->B
~ aumau ~ : r«presenian~n au graphe s~us r~rme ae rameau Le graphe représente les 329 interactions entre les 116 molécules du réseau. Les interactions sont représentées entre les molécules deux à
s deux.
Colonnes A : première molécule Colonnes B : seconde molécûle Sens : sens de l'interaction : A-B : de A vers B
B-A : de B vers A
t° A<-> B : interaction dans les deux sens.
Ce tableau établit aussi la correspondance entre les codes ORF (open reading frame) de la base de données SGD (Dolinski, K., Balakrishnan, R., Christie, K. R., Costanzo, M. C., Dwight, S. S., Engel, S. R., Fisk, D. G., Is Hirschman, J. E., Hong, E. L., Issel-Tarver, L., Sethuraman, A., Theesfeld, C. L., Binkley, G., Lane, C., Schroeder, M., Dong, S., Weng, S., Andrada, R., Botstein, D., and Cherry, J. M. "Saccharomyces Genome ~atabase "
http://www.yeastgenome.org/), et les abréviations des noms des protéines (elles aussi de SGD). Les codes ORF sont uniques pour une protéine 2o donnée et permettent de l'identifier sans aucune ambiguïté. Ils permettent aussi d'établir un lien non ambigu avec les résultats de criblages sur puces à ADN (correspondance des séquences nucléiques des ARN messagers correspondants).
2) Des données de criblage d'expression d'ARN messagers sur puces à
2s ADN concernant l'ensemble de ces gènes ont été saisies à partir de la publication : DeRisi JL, lyer VR, Brown PO : Exploring the metabolic and genetic control of gene expression on a genomic scale, Science. 1997 Oct 24;278(5338):680-6.
Cette publication décrit une expérience de culture de levures dans des conditions où la concentration de glucose dans le milieu de culture diminue s progressivement (du fait de son utilisation par les levures pour la fermentation, du glucose m'étant rajouté à !a culture à aucun terrtps de l'expérience). Au cours du temps, les levures présentent une modification de leûr métabolisme, leur systéme respiratoire passant d'un fonctionnement en -fermentation à un fonctionnément en respirati~n 1o aérobie.
Cette culture de levures a été étudiée au cours du temps, notamment par la pratique de criblages d'expression de la quasi-totalité des ARN messagers de levure sur puces à ADN. Ces criblages ont été effectués à des temps successifs, les résultats produisant donc une cinétique de niveau ts d'expression pour chaque ARN messager. Les résultats montrent des variations du niveau d'expression d'un certain nombre d'ARN messagers au cours du temps, ceux-ci étant plus particulièrement nombreux parmi les ARN messagers des protéines de la respiration cellulairé, dont une partie importante est représentée dans le graphe décrit ci dessus. Dans ces ?o conditions expérimentales, !e graphe que nous avons construit présente donc un évolution dynamique au cours du temps, qui est représentée par les cinétiques des molécules du réseau (donc les sommets du graphe).
II sera clair au lecteur que le graphe statique est déjà d'une taille trop grande, et comprend trop d'interactions et de boucles, pour permettre, 2s même à un expert, de prédire correctement à partir du seul graphe statique son évolution dynamique telle qu'observée expérimentalement sans la mise en oeuvre d'une méthode de modélisation dynamique adaptée.
L'ensemble des données expérimentales de criblage d'expression d'ARN
messagers sur puces à ADN correspondant à cet article sont disponibles sur le site internat de l'Université de Stanford à l'adresse http://cmgm.stanford.edu/pbrown/explore/array.txt.
A partir de ces données, les données expérimentales correspondant spécifiquement aux ARN messagers des molécules du graphe -ont été
s saisies manuellement (procédure de copier-coller dans un fichier plat de type txt) sous la forme suivante : chaque ligne correspond à une molécule du graphe, la première colonne identifiant l'ORF (open reading frame) par son code SGD, les colonnes suivantes correspondant aux mesures expérimentales. Les tableaux 6 à 8 ci-dessous donnent des exemples de 1o données pour quelques molécules du graphe, données extraites de la page http://cmgm.stanford.edu/pbrown/explore/array.txt. ~ ' ORF NOm G1-BkgG2-BkgG3-BkgG4-BkgG5-BkgG6-BkgG7-Bkg YCR005c CIT2 1540 1244 1875 1727 1241 1904 1644 Tableau 6 ORF Nom R1-Bkg R2-BkgR3-BkgR4-BkgR5-BkgR6-BkgR7-Bkg YCR005c CIT2 1092 1138 2007 1328 695 3962 7997 > s Tableau 7 ORF Nom Rl.RatioR2.RatioR3.RatioR4.RatioRS.RatioR6.RatioR7.Ratio YSR218C PYC2 1.18 1.23 .77 .75 .79 .71 2.7 YCR005c CIT2 .71 .92 1.08 .77 .56 2.08 4.76 Tableau 8 Tableaux 6 à 8 : Exemples de données de criblages sur puces à ADN
2o pour 2 des molécules du graphe, à partir des résultats de l'article :
DeRisi JL, lyer VR, Brown PO : Exploring the metabolic and genetic control of gene expression on a genomic scale, Science. 1997 Oct 24;278(5338):680-6.
Les données complètes sont disponibles sur la page internet http://cmam.stanford.edu/pbrownlexplore/arra .~. Compte tenu de la taille du tableau des données complètes, il n'en est montré ici qu'une partie.
L'homme de l'art pourra très facilement récupérer les données s correspondant aux autres molécules du graphe utilisé dans cet exemple, sur cette page internet qui correspond directement au tableau de l'ensemble des données.
Les criblages d'expression des ARN messagers ont été réalisés toutes les 1o deux heures, pendant 12 heures, ce qui correspond à 7 temps expérimentaux (le temps initial plus les 6 temps suivants). Ceux-ci correspondent aux notations 1 à 7. Le lecteur trouvera toutes les explications correspondant à l'obtention de ces mesures dans l'article cité
en référence.
1s Nom = abréviation du nom du gène (selon SGD) ~RF = code de l'open reading frame (selon SGD) G = condition expérimentale correspondant à "l'état. étalon" du graphe tel que décrit dans l'invention. Cet état étalon, dans cette série d'expériences, 2o correspond à l'état initial de culture des levures. G1, G2, G3, G4, G5, G6, G7 correspondent tous au même échantillon biologique étalon.
R = états du graphe aux divers temps expérimentaux.
R1 correspond à l'état initial de culture des levures (méme échantillon biologique que G1), au temps T0. R2 : TO + 2,5 heures, R3 : TO + 4 heures, ?s R4 : TO + 6 heures, R5 : TO + 7,5 heures, R6 : TO + 9,5 heures, R7 : TO +
11,5 heures.
Les séries de valeurs G-Bkg et R-Bkg correspondent à des mesures absolues de signal. Par rapport au présent texte, les séries G-Bkg 3o correspondent à x;0, et les séries R-Bkg correspondent à x;t.
G1-Bkg = mesure de G1 moins le bruit de fond (background) lors des mesures exprimentales.
G2-Bkg = mesure de G2 moins le bruit de fond (background)lors des mesures exprimentales.
s G3-Bkg = mesure de G3 moins le bruit de fond (background)lors des mesures exprimentales.
G4-Bkg = mesure de G4 moins le bruit de fond (background)lors des mesures exprimentales.
G5-Bkg = mesure de G5 moins le bruit de fond (background)lors des 1o mesures exprimentales.
G6-Bkg = mesure de G6 moins le bruit de fond (baekground)lors des mesures exprimentales.
G7-Bkg = mesure de G7 moins- le- bruit de fond (background)lors des mesures exprimentales.
is Les variations des valeurs mesures sont lies aux variations des rendements des diverses ractions mises en oeuvre dans hode la mt de mesure (puces ADN) et comme justifient l'utilisation d'un tat talon rfrence de mesure.
2o R1-Bkg = mesure de R1 moinslebruitde fond(background)lorsdes mesures exprimentales.
R2-Bkg = mesure de R2 moinslebruitde fond(background)lorsdes mesures exprimentales.
R3-Bkg = mesure de R3 moinslebruitde fond(background)lorsdes 2s mesures exprimentales.
R4-Bkg = mesure de R4. moinslebruitde fond(background)lorsdes mesures exprimentales.
R5-Bkg = mesure de R5 moinslebruitde fond(background)lorsdes mesures exprimentales.
~o R6-Bkg = mesure de R6 moinslebruitde fond(background)lorsdes mesures exprimentales.
R7-Bkg = mesure de R7 moins le bruit de fond (background) lors des mesures expérimentales.
R 1. Ratio, R2. Ratio, R3. Ratio, R4. Ratio, R5. Ratio, R6. Ratio, R7. Ratio s correspondent aux rapports R-Bkg l G-Bkg à chacun des 7 temps expérimentaux : ils correspondent aux variables telles que définies dans la description de l'invention : X; = x;t / xo.
On a donc produit deux tableaux sous la forme de fichiers~plats de type txt, 1o avec une correspondance mutuelle par le code ORF ete chaque molécule.
Dans cet exemple de mise en oeuvre, il n'a pas été nécèssaire d'utiliser de système de base de données.
Mise en ouvre de la méthode is Les étapes A et B ont été mises en ceuvre comme suit Un lissage des données expérimentales a été effectué afin de disposer de plus de points temporels.
On a considéré que si la concentration en glucose dans le milieu de culture des levures avait été maintenue constante en supplémentant en glucose le 2o milieu de culture, l'état initial, qui correspond aux mesures expérimentales au temps T0, serait un état stable. Ceci est en accord avec les données expérimentales disponibles et avec le texte de la publication dont ont été
extraites les données.
Par ailleurs., on sait que si la culture de levures est à nouveau ?s supplémentée en glucose après le temps 7 (To + 12 heures), elle va revenir à son état initial. Un état final du graphe a donc été défini comme suit tendance du système biologique étudié à revenir à son état initial au temps To + 36 heures, et les données expérimentales obtenues à To ont été
répliquées à ce temps. Ceci a été fait afin d'ajouter une contrainte, logique vis-à-vis de l'expérience, lors du calcul des paramètres des fonctions. Ceci n'est cependant pas à considérer comme une étape de mise en oeuvre indispensable à la mise en oeuvre de l'invention, mais comme un exemple s de définition des états stables du système biologique à partir de cet exemple précis.
La relation utilisée entre les variables X; correspondant à la molécule i et les variables X~ correspondant aux molécules j interagissant sur i a été la suivante to (d~C;/dt) = tC~; . [1 / (1 + ~ ~W~~.x~-b~ ) j _ ~2~ . ~(~
Le calcul des paramètres a été effectué à partir des . données expérimentalès par une méthode classique d'apprentissage de réseaux de neurones, plus précisément à partir des algorithmes de la méthode de Runge ICutta de rétro-propagation dans le temps (BPTT : baclr pr~pagation Is through time). Les calculs ont été effectués en double précision.
Le reste des méthodes mises en oeuvre, qui ne posent pas de difficulté
particulière à l'homme de l'art, ont été effectuées comme décrit plus haut.
Un graphe dynamique, entièrement déterministe a ainsi été obtenu, permettant de réaliser des simulations.
Rësultats Lors des simulations, l'efficacité de la méthode a été vérifiée. En effet, le résultat de divergence moyen (erreur relative globale) des simulations par rapport aux données expérimentales est d'environ 0,30, cette divergence 2s étant essentiellement concentrée sur 8 sommets (molécules) du graphe, pour cette série de données, alors que pour les 108 sommets (molécules) restant, la divergence est très faible.
~9 Ce résultat d'erreur relative globale montre que les cinétiques calculées lors des simulations sont proches des données réelles, car des cinétiques aléatoires auraient donné un calcul d'erreur supérieur à 1.
La divergence globale des simulations par rapport aux données s expérimentales sur l'ensemble du graphe et l'ensemble des cinétiques a été estimée par le calcul d'erreur relative suivant Erreur globale relative:
[ ~ ~ ( X1i(t) - X2i(t ) )2 ~ ~ ~ ( X2i(t) )2 ]
i t i t 1o ~l = racine carrée du terme entre crochets [ ].
X1;(t) = valeur de X; calculée au temps t de la simulation, X2;(t ) = valeur de X; mesurée expérimentalement au temps t.
~ = somme des valeurs aux différents temps t is Ce résultat de simulation est satisfaisant, d'autant plus si l'on tient compte du taux d'erreurs de mesures, puisqu'il est légèrement inférieur au taux d'erreurs de mesures lors des expériences ayant servi à générer les données expérimentales sur puces à ADN.
Le taux de non-reproductibilité des données expérimentales peut étre 2o estimé par le rapport R1.Ratio des données expérimentales (Tableau 8), et est globalement de 14% dans cet exemple.
Ce résultat de divergence globale est obtenu par un calcul d'erreur relative permettant de comparer deux cinétiques (ou trajectoires) dans leur ensemble. II ne peut naturellement pas être utilisé pour estimer le taux de 2s non-reproductibilité des données expérimentales puisqu'on ne dispose ici que d'une seule cinétique expérimentale, pour ces conditions expérimentales, pour chaque molécule du réseau. Le calcul de ce taux de non-reproductibilité a donc été effectuë par la moyenne des ratios R1.
Le fait que ces deux calculs d'erreurs soient différents ne permet pas de les comparer directement au sens strict. Cependant, on voit que l'erreur relative globale des simulations et le taux de non-reproductibilité des mesures expérimentales sont proches : 0,3 et 0,14 respectivement, 1 étant s le seuil au dessus duquel les simulations et les mesures peuvent être considérées comme non-fiables.
Bien qu'il soit possible par la méthode de l'invention de descendre lors des simulations à un résultat de divergence inférieur au taux de non-reproductibilité des données expérimentales, il est clairement inutile de 1o descendre à un résultat de divergence inférieur à cette limite de reproductibilité des données expérimentales, quelles que soient celles-ci. .
En effet, puisque des données expérimentales sont utilisées pour le calcul des paramètres, cela reviendrait à introduire tout de même un risque de divergence vis-à-vis du phénomène biologique réel '. étudié, dont la Is divergence vis-à-vis des mesures expérimentales peut être estimée égale au taux de non-reproductibilité des expériences de mesure, sans que l'on puisse prédire le sens de cette divergence (qui peut de plus varier en fonction des molécules du réseau).
A titre d'exemple, le tableau 9 donne le détail des calculs des divergences 2o de l'ensemble des cinétiques lors des simulations pour l'ensemble des molécules du réseau, sous la forme d'un tableau récapitulatif.
Taux d'erreurs relatives molcule par molcule lors des simulations Code ORF Erreur Code ORF Erreur Code ORF Erreur Code ORF Erreur YKL106W 0,439906YMR170C 0,658778YDL021W 0,356443YNL241C 0,238029 YNR001C 0,557923YIR031C 0,287518YNL216W 0,330334YBR299W 0,223996 YCR005C 0,603893YNL117W 0,555319YOR344C 0,345711YGR240C 0,656938 YLR304C 0,611941YMR169C 0,323143YMR105C 0,477063YIL107C 0,440545 YAL054C 0,719416YLR044C 0,548165YDR261C 0,20506 YMR205C 0,45229 YNL071W 0,322178YER178W 0,171016YKL127W 0,298067.YER003C 0,366261 YLR153C 0,368722YBR221C 0,19549 YBR196C 0,376657YPR026W 0,436716 YKL085W 0,499697YFL018C 0,173079YNL032C 0,450714YJL121C 0,371399 YOL126C 0,80045 YPL262W 0,519434YDR216W 0,434734YDR423C 0,266008 _ YDL078C 0,348449~YKL148C 0,471327YOL004W 0,104797YML:100W 0,41:1204 ~ .
YBL021C 0,137275YKL141W 0,501865YOR290C '0,13138YDL'168W 0,1...44.725 ~
YKL109W 0,558143YIL125W 0,593086YPL016W 0,0633654YGR192C 0,274425 YKR097W 0,594474YDR148C 0,449052YAL021C -0,104898YJR009C 0,821626 YGL062W 0,617472YHR174W 0,422694YFR053C 0,563052YJL052W 1,04515 YBR218C 0,519166YGR254W 0,194786YCL040W 0,330382YEL011W 0,540345 YOL067C 0,0981591YIL162W 0,58694 YBR117C 0,503985YCR036W 0,272221 ~
YBL103C 0,255736YOL086C 0,310685YBR126C 0,401095YGR256W 0,448943 .
YBR112C 0,219397YBR145W 0,156328YDR074W 0,40.1062YFR015C 0,492893 YER065C 0,592483YMR303C 0,309401YDR272W 0,568757YLR258W 0,481474 YNL037C 0,452065YMR037C 0,660788YCR012W 0,612743YBR019C 0,367005 YOR136W 0,156624YKL062W 0,219838YPL248C 0,176129YKL060C 1,27125 YDL066W 0,188101YDL174C 0,252933YGL253W 0,461389YCR073W-A0,383641 YLR174W 0,559782YML054C 0,596073YPR160W 0,162637YJL155C 0,394901 YBL015W 0,517625YMR189W 0,0996465YOR095C 0,368831YFL045C 0,474401 YLR134W 0,526367YLL041C 0,478881YKL035W 0,360385YDR050C 1,05587 YGR087C 0,553019YDR178W 0,41253 YGR032W 0,240247YBR018C 0,395082 YAL038W 0,60519 YGR244C 0,383062YLR377C 0,35616 YDL055C 0,436756 YOR347C 0,296306YPL075W 0,327211YDR001C 0,371987YBR020W 0,163797 .
YPL061W 0,547283YKL152C 0,427984YBR001C 0,41725 YBL082C 0,217509 i aaieau ~ : i aateau recap~tmatit des divergences lors des simulations pour l'ensemble des molécules du réseau Les divergences ont été estimées pour chaque molécule du réseau par le calcul de l'erreur relative sur l'ensemble de la trajectoire de la molécule concernée, suivant la formule suivante (erreur relative locale) [ ~ ( X1i(t) " X2i(t ) ) ~ ~ ( X2i(t) ) ]
t t X1;(t) = valeur de X; calculée au temps t de la simulation, X2;(t ) = valeur de X; mesurée expérimentalement au temps t, ~ = somme des valeurs aux différents temps t 1o ~l = racine carrée du terme entre les crochets [ ] _ Ce calcul revient à calculer la différence d'intégrale entre les courbes des cinétiques observes expérimentalement et les cinétiques calculées lors des simülàtions. Ellé concerne donc aussi bien l'ensemble dé la cinétique que l'état final.
> s Dans une variante de cet exemple, la modélisation et les simulations ont été mises en oeuvre de la même manière que décrite ci-dessus, et à partir des mémes données biologiques, avec la seule modification suivante lors du calcul des parâmètres par rétro-propagation dans le temps Les variables associées aux sommets du graphe ne recevant pas d'arc ou 2o arréte, c'est-à-dire correspondant aux molécules ne recevant pas d'interaction ("inputs" du graphe) ont été exclues du calcul d'erreur globale lors de l'apprentissage, leurs valeurs restant donc fixées aux valeurs expérimentales mesurées pendant cette procédure. Ceci a été effectué
- afin d'éviter de simuler des cinétiques sur ces sommets lors de La 2s descente de gradient ce qui risque de majorer les erreurs, - et car ces sommets ne recevant pas eux mémes d'inputs, leurs cinétiques sont de fait indépendantes des résultats de calculs des paramètres des relations mathématiques reliant les sommets.
En d'autres termes, seules les molécules recevant au moins une interaction (arréte orientée vers le sommet du graphe leur correspondant) ont été
prises en compte pour le calcul d'erreur fors de l'apprentissage.
Afin d'éviter toute confusion, cette variante ne consiste bien sûr pas à
s enlever du graphe les sommets "inputs", mais à imposer que leur cinétique reste la cinétique mesurée expérimentalement, ceci uniquement lors des simulations pratiquées pendant les calculs d'erreur de ta procédure de calcul des paramètres par rétro-propagation dans le temps. Les paramètres des relations mathématiques reliant ces sommets à d'autres sommets du 1o graphe sont donc calculés, comme pour toutes les autres arrêtes du graphe, et le modèle dynamique finalement obtenu inclut ces sommets.
Dans cette variante,- les résultats de simulation obtenus ont été similaires à
ceux montrés ci-dessus, bien que légèrement meilleurs.
La figure 3 donne à titre d'exemple les cinétiques mesurées Is expérimentalement et les cinétiques calculées par simulation pour quelques gènes représentatifs de l'ensemble des résultats obtenus par la mise en oeuvre de cette variante.
Exemple 5 : Modélisations, simulations et validation de la capacité
2o prédictive à partir d'un graphe statictue de 133 molécules Cet exemple montre la mise en oeuvre de l'ensemble de la méthode (étapes A et B ou A', puis C, D, E) et son efficacité prédictive dans une application similaire à une identification l sélection de cibles thérapeutiques.
Données biologiques utilisées 1) Un graphe statique correspondant à un réseau d'interactions moléculaires dans la levure (Saccharomyces cerevisiae, organisme vivant pouvant être considéré comme un système biologique répondant aux critères de complexité cités plus haut) a été construit selon les mêmes principes que dans l'exemple 4. Ce graphe inclut plus particulièrement le graphe de l'exemple 4, mais avec des molécules et des interactions s supplémentaires. II comprend 133 molécules, enzymes ou facteurs de transcription. II comprend 4.07 interactions uni- ou bi-directionnelles entre ces molécules.
Le graphe statique correspondant à ce réseau d'interactions moléculaires no est donné ici à titre d'exemple, sous deux formes : .
- Schéma (figure 4). Les principes de représentation et les commentaires explicatifs sont les mêmes que pour l'exemple 4 (figure 2).
- Tableau représentant les interactions moléculaires additionnelles par rapport au graphe statique de l'exemple 4 (Tableau 10 ci-dessous). Le Is tableau complet représentant le graphe statique utilisé dans cet exemple 5 est donc l'addition des tableaux 5 et 10.
A A ~ B _ B
Code ORF Abrviation Code ORF Abrviation sens Acetate Acetate YBL015W ACH1 A-B
Acetate Acetate YLR304C AC01 A-B
Acetate Acetate YAL054C ACS1 A-B
Acetate Acetate YLR153C ACS2 A-B
Acetate Acetate YMR170C ALD2 . A-B
Acetate Acetate YMR169C ALD3 A-B
Acetate Acetate YPL061 W ALD6 A-B
Acetate Acetate YNR001C CIT1 A-B
Acetate Acetate YCR005C CIT2 A-B
Glucose Glucose YBR019C GAL10 A-B
Glucose Glucose YCL040W GLK1 A-B
Glucose Glucose YFR053C H?CK1 A-B
Glucose Glucose YGL253W HXK2 A-B
Glucose Glucose YGL209W MIG2 A-B
Glucose Glucose YMR037C MSN2 A-B
Glucose Glucose YBR196C PG11 A-B
Glucose Glucose YKL127W PGM1 A-B
Glucose Glucose YMR105C PGM2 A-B
Glucose Glucose YGL252C RTG2 A-B
Glucose Glucose YDR477W SNF1 A-B
Glucose Glucose YDL194W SNF3 A-B
Glutamate Glutamate YLR304C AC01 A-B
Glutamate Glutamate YOL067C RTG1 A-B
Glutamate Glutamate YGL252C RTG2 A-B
-Glutamate Glutamate YBL103C _ A-B
YJR094C IME1 YDR207C UME6 A<->B
YGL209W MIG2 YFR053C H)CIC1 A-B
YBR112C SSN6 YCR084C TUP1 A<->B
YPL016W SWI1 YOR290C SNF2 A<->B
Tableau 10 : Interactions moléculaires additionnelles par rapp~rt au graphe statique de l'exemple 4 Les commentaires du tableau 10 sont similaires à ceux du tableau 5.
s 2) Des données de criblage d'expression d'ARN messagers sur puces à
ADN concernant l'ensemble de ces gènes ont été saisies à partir de la même publication que. dans l'exemple 4 et selon les mêmes principes DeRisi JL, lyer VR, Brown PO : Exploring the metabolic and genetic control Io of gene expression on a genomic scale, Science. 1997 Oct 24 ;278(5338) :680-6.
Par ailleurs, 3 métabolites ont été introduits parmi les 133 molécules du réseau. Contrairement aux autres molécules du réseau, ces métabolites Is n'ont naturellement pas d'ARN messager correspondant. Leurs valeurs ont été définies comme suit Glucose : ses concentrations au cours du temps ont été mesurées par les auteurs de la publication, aux mêmes temps que ceux auxquels ont été
zo pratiqués les mesures d'expression d'ARN messagers. Les concentrations correspondantes sont données graphiquement dans la figure 4 de l'article cité. Afin d'exprimer ces valeurs sous forme de ratio, chaque valeur de la concentration en Glucose dans le milieu de culture à un temps donné a été
divisée par la concentration en Glucose au temps initial de l'expérience zs (ceci afin de mesurer les ratios par rapport au même référentiel que pour les mesures d'ARN messagers, dont les ratios sont exprimés par le rapport de la mesure au temps t divisée par la mesure au temps initial). Cette variable associée au glucose correspond bien aux variables telles que définies dans la description de l'invention : X; = x;t / xo.
~o II en résulte pour le glucose les valeurs de variable suivantes Molcule du rseau : Glucose Temps exprimental0 2,5 4 6 7,5 9,5 11,5 (heures) Valeur du 1 0.973680.921050.736840.394730.010530.00052 ratio Tableau 11 : Valeurs de la variable ass~ciée à la molécule du graphe Glucose s Acétate et Glutamate : les concentrations de ces molécules n'ont pas été
mesurées par les auteurs. II a donc été décidé d'extrapoler des valeurs pour ces molécules à partir de la connaissance du système biologique étudié et de la description des expériences dans l'article. Dans la mesure 1o où cette expérience est essentiellement fondée sur la chute progressive de la concentration en glucose dans le milieu de culture et où les autres paramètres du milieu de culture sont en première approximation considérés comme constants, il a été considéré que les concentrations du Glutamate et de l'Acétate, respectivement, étaient constantes au cours de is l'expérience.
Le fait de travailler avec des ratios permet donc de fixer leurs valeurs selon les mémes principes que pour le Glucose X. = x~t ~ xo , 2o Donc au temps initial (T0 = 0), X;o = x~o ~ x~o = 1, Et, la valeur de X; étant considérée comme constante au cours du temps, elle reste toujours égale à 1. ' II en découle le tableau de valeurs suivant ?s Molcule du rseau : Glutamate Temps exprimental0 2,5 4 6 7,5 9,5 11,5 (heures) Valeur du ratio Molcule du rseau : Actate Temps exprimental0 2,5 4 6 7;5 9,5 11,5 (heures) _ Valeur ' du ratio i aaieau ~~ : vapeurs des variables associées respectivement à la molécule du graphe : Glutamate et à la molécule du graphe : Acétate ~n a donc produit deux tableaux sous la forme de fichiers plats de type txt, s avec une correspondance mutuelle par le code ORF de chaque molécule (concernant les protéines / ARN messagers) ou le nom de molécule (concernant le Glucose, le Glutamate et l'Acétate). Dans cet exemple de mise en oeuvre il n'a pas été nécessaire d'utiliser de base de données.
1o Mise en eeuvre de la méthode Les étapes A et B ou l'étape A' ont été mises en oeuvre de manière similaire à l'exemple 4 1s Un lissage des données a été effectué par extrapolation linéaire.
On a considéré que l'état initial, qui correspond aux mesures expérimentales au temps T0, serait un état stable si le milieu de culture avait été maintenu constant en le supplémentant en glucose.
A la différence de l'exemple 4, on n'a pas défini un état final du graphe qui correspondrait à un retour à l'état initial suite à une supp(émentation en glucose après le temps 7 (T0 + 12 heures). Les seules données s expérimentales à avoir étë utilisées pour le calcul des paramètres ont donc été les données effectivement décrites dans l'article et présentes sur le site internet de l'Université de Stanford à l'adresse http:/lcmgm.stanford.edu/pbrown/explore/arra~, et correspondantes aux molécules du réseau, sans aucune extrapolation autre que celle concernant to les molécules Glucose, Glutamate et Acétate décrites plus haut.
De même que dans !'exemple 4, la relation utilisée entre les variables X;
correspondant à la molécule i et les variables X~- correspondant aux molécules j interagissant sur i a été la suivante Is (dX;/dt) = K~~ . [1 / (1 + e ~w~~.x-n. ) 1 _ ~~~ . ~~
Le pas d'apprentissage pour le calcul des paramètres a été fixé à 1â
minutes.
Le calcul des paramètres et le reste des méthodes mises en oeuvre a été
effectué comme décrit dans l'exemple 4, aboutissant à l'obtention d'un graphe dynamique, entièrement déterministe, permettant de réaliser des simulations.
L'étape C a été mise en oeuvre comme suit L'objectif a été de montrer fa capacité de la méthode à prédire un résultat ~o nouveau non utilisé pour la construction du graphe dynamique.
Toujours dans le même article : DeRisi JL, lyer VR, Brown PO : Exploring the metabolic and genetic control of gene expression on a genomic scale, Science. 1997 Oct 24 ;278(5338) :680-6, les auteurs ont aussi effectué un criblage d'expression d'ARN messagers d'une souche génétiquement s modifiée de levure, dans laquelle a été effectué le « knock out »
(« délétion ») du gène TUP1 (code de son ORF dans la base de données SGD : YCR084C), présent dans le graphe statique de 133 molécules. Ces données n'ont pas été utilisées pour la construction du graphe dynamique lors des étapes A et B. . ' 1o Les conditions de culture et de criblage de cette souche sont amplement décrites dans l'article, mais pour plu, s, de clarté dans la description de cet exemple de mise en oeuvre, on peut- noter les points- suivants concernant ce criblage : la souche génétiquement modifiée a été cultivée dans les 1s mêmes conditions de culture que la souche sauvage utilisée pour le reste des expériences, en présence de glucose, ce qui correspond pour la souche sauvage aux conditions de culture au temps initial des autres criblages effectués et décrits dans l'exemple 4 (T = TO). Ce criblage a été
effectué en mesurant les rapports entre le niveau d'expression de chaque 2o gène dans la souche présentant la délétion du gène TUP1 par rapport au niveau d'expression du même gène dans la souche ne présentant pas de délétion (souche sauvage). Ces données sont donc exprimées par rapport au même référentiel de mesure que celles décrivant les cinétiques lors de la privation de glucose (voir exemple 4), ce référentiel correspondant au 2s temps initial des autres criblages effectués et décrits dans l'exemple 4 (T
=
TO).
Afin de montrer la capacité de la méthode à sélectionner de façon pertinente des molécules-cibles sur lesquelles une action biologique ou ~o pharmacologique permet de faire évoluer le système biologique étudié vers un état donné, on a donc utilisé le graphe dynamique obtenu par la mise en oeuvre des étapes A et B pour poser la question suivante : « où faudrait-il agir sur le réseau de 133 molécules pour faire évoluer ce réseau vers un état le plus proche possible de l'état décrit par le criblage d'expression de la souche présentant la délétion du géne TUP1 ? » Cette question est s exactement du même type que celles posées dans la description de la mise en oeuvre de la méthode en vue de la sélection de cibles thérapeutiques.
Dans la mesure où la souche de levure présentant la délétion du gène TUP1 ne diffère initialement de la souche « sauvage » que par cette 1o délétion, on a donc défini « l'état à modifier » du graphe comme étant l'état de référence de la souche sauvage cultivée en présence de glucose, c'est à dire son état au temps initial des autres criblages effectués, décrits dans l'exemple-4 (T = TO) et dont les résultats pour 130 des molécules du réseau (autres que Glucose, Glutamate et Acétate) sont disponibles sur le site 1s internat de l'Université de Stanford à l'adresse htt~:llcmam.stanford.edu/pbrown/explore/array.txt.
Les données de criblage d'expression d'ARN messagers correspondant à
cet état ont donc été celles du temps initial utilisé pour la construction du 2o graphe dynamique. Ces données permettent de définir numériquement l'état à modifier : une valeur numérique de ratio d'expression est associée à
chaque molécule du réseau ; concernant les trois métabolites Glucose, Glutamate et Acétate, leur valeur dans l'état à modifier a aussi été leur valeur au temps 0 telle que décrite plus haut. Cette définition de l'état à
2s modifier est donnée ici à titre d'exemple. Un autre état à modifier aurait pu être défini par l'homme de l'art face à la mise en oeuvre de l'invention pour d'autres applications.
L'étape D a été mise en oeuvre comme suit ~o Cette étape consiste à pratiquer des simulations itératives, telles que décrites dans l'invention.
La question posée à laquelle les simulations devaient répondre a été : « où
s faudrait-il agir sur le réseau de 133 molécules pour faire évoluer ce réseau vers un état le plus proche possible de l'état décrit par le criblage d'expression de la souche présentant la délétion du gène TUP1 ? »
La souche de levure présentant la délétion du gène TUP1 ne diffère 1o initialement de la souche « sauvage » que par cette délétion. Cette délétion revenant à une inhibition constante de l'expression du gène TUP1, les simulations ont consisté à simuler, de façon itérative, l'inhibition constante de chacune des 133 molécules du réseau, et à effectuer un calcul de propagation au cours du temps de cette inhibition au sein du réseau. Pour Is chaque simulation, une seule molécule du réseau a été inhibée, puisque l'état à atteindre correspond à une évolution du système biologique modélisé (la souche de levure) suite à une seule inhibition (délétion du gène TUP1). On a donc réalisé 133 simulations.
2o D'après les commentaires des auteurs, les données expérimentales de l'article et les données de criblage d'expression d'ARN messagers concernant la souche présentant la délétion du gène TUP1 (accessibles sur le site internet de l'Université de Stanford à l'adresse http://cmgm.stanford.edu/pbrown/explore/tupsearch.html), la délétion du 2s gène était incomplète dans cette expérience biologique, le ratio : [niveau d'expression du gène TUP1 dans la souche délétée] / [niveau d'expression du gène TUP1 dans la souche sauvage] étant égal à 0,1 dans une mesure, et à 0,45 lors de la réplication de la mesure (moyenne : 0,28) . Dans le cas d'une délétion complète ce ratio aurait été égal en théorie à 0, et égal en ~o pratique au bruit expérimental de mesure.
Pour la mise en oeuvre des simulations, afin de pouvoir reproduire une inhibition de type délétion, on a donc défini numériquement l'inhibition, pour chaque molécule du graphe, comme la multiplication par un facteur 0,1 du niveau d'expression de cette molécule au temps initial (état à modifier tel s que défini plus haut), ce facteur correspondant à la valeur de l'inhibition la plus forte mesurée expérimentalement pour ce gène.
Donc pour chacune des 133 simulations effectues, la simulation a consisté à imposer une valeur X; constante dans le temps telle que ?C; _ [0ï1 1o . X;o j à une molécule unique i du graphe (X;o = valeur_ d'expression (ratio) de la molécule i au temps expérimental initial T = TO),~ les valeurs -des X;
des autres molécules étant initialement fixées à leur valeur dans l'état à
modifier défini plus- haut, et libres d'évoluer dans le graphe dynamique en fonction des calculs de propagation. Pour chacune des 133 simulations, la 1s molécule i a été différente : l'effet de chaque inhibition d'un facteur 0,1 sur chaque molécule du graphe a été testé de façon systématique.
Dans cet exemple de mise en ceuvre, l'inhibition a été imposée comme constante dans le temps fors des simulations : ainsi, lors des calculs de 2o propagation, un éventuel retour de propagation sur la molécule i inhibée (« feedback ») a été sans effet sur cette inhibition (X; restant stable à sa valeur initiale de simulation). Ceci a été effectué afin de reproduire l'effet de la délétion d'un gène, quï est elle-même constante dans le temps. Ceci n'est cependant pas un pré-requis de la mise en oeuvre de l'invention. Dans 2s fa mise en oeuvre de l'invention pour d'autres applications, l'homme de l'art peut décider de simuler des activations ou des inhibitions non constantes dans le temps, où à des temps différents. , Le calcul de propagation au sein du graphe suite à chacune des 133 3o inhibitions a été poursuivi pendant une durée simulée de 12 heures.
Ces éléments étant posés, l'étape D a été mise en oeuvre comme décrit dans l'invention, sans particularité notable, et sans présenter de difficulté
particuliére pour l'homme de l'art. Les calculs de simulations, consistant à
propager l'inhibition initiale au cours du temps ont été réalisées par les s mêmes principes et les mêmes outils que les simulations faisant partie de la procédure de calcul des paramètres.
Chacune des 133 simulations de l'étape D a ainsi aboutit, au temps 12 heures (durée de la propagation simulëe), au calcul d'une nouvelle valeur 1o numérique associée à chaque molécule du réseau, définissant un état du graphe : « état obtenu par simulation ». On a donc obtenu 133 « états obtenus par simulation » différents.
L'étape E a été mise en oeuvre comme suit Cette étape consiste à hiérarchiser les molécules du graphe, et les effets exercés sur ces molécules lors des simulations, en référence à la proximité
plus ou moins grande de la résultante de ces effets avec un état du graphe à atteindre.
Dans cet exemple de mise en oeuvre, l'état à atteindre a été l'état de la souche de levure présentant une délétion du gène TUP1 décrite plus haut.
Ces données de criblage d'expression d'ARN messagers dans les 2s conditions de délétion du gène TUP1 sont disponibles sur le site internet de l'Université de Stanford à l'adresse http://cmgm.stanford.edu/pbrown/explore/tupsearch.html . Elles ont été
saisies manuellement pour chaque molécule du graphe par une requête concernant l'ORF de cette molécule à cette adresse et insérées dans un ~o fichier plat de type txt sous la forme (par exemple pour le gëne CIT1 ) ORF NOM VALEUR
YNR001 C CIT1 0.85 Tableau 13 : Exemple de donnée de criblage sur puce à ADN pour une molécule du graphe, dans la condition expérimentale de délétion du gène TUP1, à partir des résultats de (article : DeRisi JL, lyer VR; Brown PO : Expioring the metabolic and genetic control of gens expression on a s genomic scale, Science. 1997 Oct 24 ;278(5338) :680-6. Pour chaque molécule i, la valeur du X; mesurée expérimentalement correspond à la colonne « Avg. R/G a> dans les données expérimentales accessibles sur le site internat : http://cmam.stanford.edu/pbrown/explore/tupsearch.html.
1o La valeur du X; correspondant au Glucose pour la souche présentant.:la délétion du gène TUP1 a été fixée à 1 puisque le criblage a été pratiqué sur une culture en présence de glucose. Les valeurs des X; correspondant, au Glutamate et à !'Acétate pour la souche présentant la délétion-du gène TUP1 ont été fixées à 1 puisque le criblage a été pratiqué sur une souche 1s dans un milieu de culture identique à celui de la souche sauvage au temps 0 (entre les deux cultures; les ratios des métabolites dans le milieu de culture sont donc égaux à 1).
ORF NOM ValeurORF NOM ValeurORF NOM Valeur YKLIOW AAT1 0.64 YDL021W GPM2 0.99 YCR012W PGK1 1.74 YKL112W ABF1 0.87 YGR032W GSC2 1.69 YKL127W PGM1 1.19 YBL015W ACH1 0.85 YFR015C GSY1 4.26 YMR105C PGM2 0.54 YLR304C AC01 1.26 YLR258W GSY2 1.02 YER003C PM140 0.92 YAL054C ACS1 0.84 YHL032C GUT1 1.06 YDL055C PSA1 1.24 YLR153C ACS2 1.28 YBL021C HAP3 0.65 YGL062W PYC1 0.74 YOL086C ADH1 0.97 YKL109W HAP4 1.37 YBR218C PYC2 1.25 YMR303C ADH2 1.48 YDR138W HPR1 0.60 YAL038W PYK1 1.74 YBR145W ADH5 0.89 YFR053C HXK1 1.13 YOR347C PYK2 1.25 YDR216W ADR1 1.55 YGL253W HXK2 2.00 YNL216W RAP1 1.00 YMR170C ALD2 0.61 YER065C ICL1 0.96 YCR036W RBK1 1_00 YMR169C ALD3 0.69 YNL037C IDH1 0.74 YBL082C RHK1 1_17 YPL061W ALD6 1.69 YOR136W IDH2 0.80 YOR095C RKI1 1.22 YPR026W ATH1 1.23 YDL066W IDP1 0.75 YJL121C RPE1 1.21 YDR423C CAD1 1.08 YLR174WIDP2 0.75 YOL067C RTG1 0.84 YMR280C CAT8 0.79 YJR094CIME1 1.14 YGL252C RTG2 0.76 YAL021C CCR4 0.92 YJL106WIME2 1.44 YBL103C RTG3 0.71 YNR001C CIT1 0.85 YIL125WKGD1 0.99 YKL148C SDH1 0.81 YCR005C CIT2 0.93 YDR148CKGD2 0.86 YLL041 SDH2 0.70 C .
YML054C CYB2 0.70 YFL018CLPD1 0.90 YKL141W SDH3 1.12 YIR031C DAL7 0.86 YGR244CLSC2 1.73 YDR178W SDH4 1.10 YDL174C DLD1 0.68 YBR299WMAL32 7.23 YFL045C SEC53 1.69 YGR254W EN01 1.77 YKL085WMDH1 0.85 YDL168W SFA1 0.76 YHR174W ENO2 1.61 YOL126CMDH2 0.95 YOL004W SIN3 1.05 YDR261 EXG2 1.29 YDL078CMDH3 0.92 YDR477W SNF1 1.41 C ' YKL060C FBA1 1.47 YGL035CMIG1 0.95 YOR290C SNF2 0.82 YLR377C FBP1 1.13 YGL209WMIG2 1.33 YDL194V11 SNF3 0.71 YJL155C FBP261.47 YER028CMIG3 0.90 YCR073W-A Sol2 0.79 .
YPL262W FUM1 0.79 YNL117WMLS1 0.68 YBR-112C SSN6 0.93--YBR020W GAL1 1.14 YMR037CMSN2 0.44 YIL162W SUC2 8.71 YBR019C GAL100.63 YKL062WMSN4 3.66 YPL016W SWI1 1.04 YPL248C GAL4 0.75 YDR001CNTH1 0.83 YJL052W TDH1 1.91 YBR018C GAL7 0.67 YBR001 NTH2 0.87 YJR009C TDH2 1.72 C
YPL075W GCR1 1.02 YKR097WPCK1 1.15 YGR192C TDH3 1.64 YMR189W GCV2 0.97 YER178WPDA1 1.35 YBR117C TKL2 1.32 YEL011W GLC3 1.10 YNL071WPDA2 0.92 YDR050C TPI1 1.32 YCL040W GLK1 0.83 YBR221CPDB1 1.04 YBR126C TPS1 0.61 YDR272W GLO2 0.81 YLR044CPDC1 1.19 YDR074W TPS2 0.72 YGR256W GND2 1.01 YLR134WPDC5 1.55 YML100W TSL1 0.34 YPR160W GPH1 1.11 YGR087CPDC6 1.13 YCR084C TUP1 0.1 YKL152C GPM1 1.34 YGR240CPFK1 2.06 YOR344C TYE7 0.97 YNL241C ZWF1 0.65 YMR205CPFK2 0.67 YKL035W UGP1 2.16 YIL107C PFK261.17 YML007WYAP1 0.43 NOM NOM Valeur YBR196C PGI1 2.48 NOM NOM ValeurGlutamate Glutamate1 YDR207C UME6 0.99 GlucoseGlucose1 Actate Actate 1 ~ ormeau -m : ms~e compieze ores vapeurs ae netat a atteindre tel que défini plus haut L'ensemble de ces valeurs définit donc numériquement un état du graphe s « l'état à atteindre ».
L'étape E consiste alors à calculer la distance entre d'une part « l'état à
atteindre » du graphe, et d'autre part chacun des 133 « états obtenus par simulation » du graphe obtenus à l'étape D.
s Ce calcul de distance est décrit précédemment (proximité des états du graphe) et ne pose pas de difficulté particulière à l'homme de l'art. II
consiste à comparer deux états du graphe en comparant deux à deux l'ensemble des valeurs X; associées à chaque molécule i du graphe.
1o Dans cet exemple précis, le calcul de distance utilisé a été effectué en deux étapes L'étape 1 a consisté à effectuer une première classification par des calculs 1s de distance de façon classique Distance d'ordre 1 : somme des valeurs absolues des différences entre les valeurs des X; mesurées expérimentalement lors de la délétion du gène TUP1 (X;2 dans La formule ci-dessous) et les valeurs des X; mesurées par simulation (X;~ dans la formule ci-dessous) 20 ~ ~ ~~~ - ~~z ~n a donc obtenu 133 calculs de distance, chacun correspondant à la distance entre d'une part l'état obtenu par simulation d'une propagation de 2s 12 heures suite à l'inhibition d'une des molécules du graphe d'un facteur 0,1 et d'autre part l'état à atteindre.
Ces 133 distances calculées ont ensuite été classées en ordre de valeur croissant (de la plus grande proximité avec l'état à atteindre vers la plus ~o grande distance avec l'état à atteindre). Cette classification correspond directement à la classification des molécules du graphe, de celle dont l'inhibition fait évoluer le graphe vers un état le plus proche de l'état à
atteindre, à celle dont (inhibition fait évoluer le graphe vers un état le plus éloigné de l'état à atteindre : il en a résulté une classification directe, et donc une hiérarchisation, des molécules-cibles sur lesquelles agir par s inhibition pour faire évoluer le graphe vers l'état qu'il présente lorsque le gène TUP1 est déiété.
L'étape 2 a consisté, à la suite de cette première classification, à
l'affiner, Les molécules mieux classées que les molécules « outputs » du graphe 1o lors du classement précédent (distances les plus faibles) ont été classées à
nouveau entre elles par un second calcul de distance plus qualitatif : la diffërence entre la « sensibilitë » et la e< spécificité » des simulations distance = sensibilité - spécificité. -Cette étape de classificatian est donnée ici à titre d'exemple mais n'est pas indispensable à la mise en oeuvre de 1s l'étape E.
La sensibilité et la spécificité des simulations ont été calculées comme suit A partir des données expérimentales mesurées lors du criblage 2o d'expression d'ARN messagers de la souche de levure présentant une délétion du gène TUP1, on a identifié toutes les molécules du graphe présentant une variation d'expression supérieure à un facteur 2 par rapport à l'état de référence (souche de levure sauvage au temps initial T = TO en présence de glucose), soit un groupe A de molécules.
De même, pour chaque e< état obtenu par simulation » on a identifié toutes les molécules du graphe présentant une variation d'expression supérieure à un facteur 2 par rapport à l'état de référence (souche de levure sauvage au temps initial T = TO en présence de glucose), soit un groupe B; de molécules. B; = groupe de toutes les molécules du graphe présentant une variation d'expression supérieure à un facteur 2 par rapport à l'état de référence suite à la simulation de l'inhibition de la molécule i du graphe.
La sensibilité a alors été définie, pour chacune des 133 simulations, comme s le nombre de molécules du groupe B; effectivement présentes dans le groupe A. Cela revient à évaluer, pour les variations quantitativement importantes d'expression des molécules (supérieures à un facteur 2) si la simulation induit effectivement les variations présentes dans les données expérimentales de l'état à atteindre. Plus la valeur de la sensibilité est io élevée, plus la distance entre les deux états du graphe comparés est faible.
La spécificité a alors été définie, pour chacune des 133 simulations, comme - le nombre de molécules du groupe B; absentes du groupe A. Cela revient à
évaluer, pour les variations quantitativement importantes d'expression des is molécules (supérieures à un facteur 2) si la simulation n'induit pas des variations d'expression absentes dans les données expérimentales de l'état à atteindre. Plus la valeur de la spécificité est faible, plus la distance entre les deux états du graphe comparés est faible.
2o La différence sensibilité - spécificité revient donc à évaluer la distance sur les critères combinés de l'induction par la simulation des variations d'expression présentes dans l'état à atteindre et de la non-induction par la simulation de variations d'expression absentes dans l'état à atteindre.
2s Ces deux calculs (sensibilité et spécificité) reviennent simplement à
compter 'pour chaque état du graphe le nombre de variables X; dont la valeur est supérieure à 2 ou inférieure à 0,5 et ne posent aucune difficulté à
l'homme de l'art. Ils peuvent d'ailleurs être effectués manuellement.
3o La différence entre les deux valeurs, sensibilité - spécificité, est elle aussi très simple et peut par exemple être calculée de façon manuelle, ou automatique par un tableau de logiciel Excel (Microsoft) ou tout autre logiciel équivalent.
Résultats Résultats de la mise en ceuvre des étapes A et B ou de l'étape A' Lors des simulations, l'efficacité de la méthode a été vérifiée.
1o Dans l'exemple montré ici, le calcul d'erreur. globale relative d'apprentissage a été de 25,90 %, ce qui est satisfaisant. Ce résultat d'erreur relative globale montre que les cinétiques calculées lors des simulations sont proches des données- réelles ; des cinétiques aléatoires auraient donné un calcul d'erreur supérieur à 1.
Exemple de courbes de paramétrage La figure 5 donne à titre d'exempte les cinétiques mesurées expérimentalement (en blanc) et les cinétiques calculées par simulation (en noir) pour quelques molécules représentatives de l'ensemble des 2o résultats obtenus par la mise en aeuvre de cette variante des étapes A et B
ou de l'étape A'.
On voit que ce résultat est très satisfaisant, d'autant plus si l'on tient compte des erreurs de mesures. Les considérations de l'exemple 4 à ce 2s sujet restent pertinentes ici aussi. Le calcul des paramètres effectué à
l'étape B a donc permis d'obtenir un graphe dynamique rendant bien compte des données expérimentales utilisées pour le calcul.
Résultats de la mise en oeuvre des étapes C, D et E (capacité prédictive de ~o l'invention) Ces trois étapes aboutissent à la classification hiérarchique des molécules par classification hiérarchique des distances calculées entre d'une part l'état à atteindre (délétion du gène TUP1) et d'autre part les 133 états obtenus par simulation.
s Lors de la mise en oeuvre de ces étapes de simulations, l'efficacité de la méthode a été vérifiée.
Le résultat de la première étape de classification est résumé à titre 1o d'exemple dans le tableau suivant, sous la forme d'un tableau récapitulatif.
Chaque molécule du réseau est classée par la distance entre l'état à
atteindre du graphe et l'état du graphe obtenu par la simulation de l'inhibition constante-par un facteur-0,1 de cette molécule. -Classeme Classeme' Abrviati brviatio nt de nt de ode ORF la ode ORF on du la n du de la nom stance molcule de la nom stance molcule molcule de la comme molcule de comme molcule cible la cible otentielle molcule otentielle YCR084C TUP1 50,30921 YDL174C DLD1 54,9756f8 YOL004W SIN3 51,00632 YDL066W IDP1 55,866369 YMR170C ALD2 51,10743 YML054C CYB2 56,105570 YPL075W GCR1 51,10824 YJL121C RPE1 56,321271 YKL112W ABF1 51,123 5 YDR477W SNF1 56,561572 YAL021C CCR4 51,26946 YML007W YAP1 56,607473 YBL015W ACH1 51,34137 YPR160W GPH1 56,891 74 YBR221C PDB1 51,38658 YGR192C TDH3 57,855575 YDR423C CAD1 51,45569 YGR244C LSC2 59,390476 YDL194W SNF3 51,474910 YKL148C SDH1 59,611177 YDR138W HPR1 51,488511 YOR095C RKI1 60,012278 Acetate Acetate 51,62 12 YKL085W MDH1 60,318879 YML100W TSL1 51,665813 YDR261C EXG2 61,768280 YKL152C GPM1 51,744214 YCR073W Sol2 62,425381 YER028C MIG3 51,885215 YLL041C SDH2 65,127982 YPL016W SWI1 51,931516 YFL018C LPD1 65,529383 YBR019C GAL10 52,098517 YDL168W SFA1 67,379184 YNL037C IDH1 52,104318 YPL248C GAL4 69,027785 YNL241C ZWF1 52,155419 YDR001C NTH1 70,665686 YLR174W IDP2 52,185420 YKL035W UGP1 70,733187 YER003C PM140 52,274721 YDR216W ADR1 71,666188 YOR347C PYK2 52,313122 YOR290C SNF2 75,399889 YLR377C FBP1 52,322223 YOR344C TYE7 75,558 90 YBR018C GAL7 52,330924 YMR303C ADH2 76,304391 YIL125W KGD1 52,415725 YKL127W PGM1 76,366992 YBR020W GAL1 52,532226 YGR240C PFK1 80,794893 YMR189W GCV2 52,56 27 YMR205C PFK2 80,863894 YPR026W ATH1 52,560228 YKL062W MSN4 80,923495 YJR094C IME1 52,618 29 YBR112C SSN6 81,024996 YHL032C GUT1 52,62 30 YOL126C MDH2 81,397297 YCR036W RBK1 52,62 30 YGL253W HXK2 81,410598 YBL082C RHK1 52,62 30 YDR207C UME6 81,728399 YJL106W IME2 52,624533 YBR117C TKL2 81,8707100 YGR032W GSC2 52,666834 YDR050C TPI1 81,9934101 YJL155C FBP26 52,68 35 YGR256W GND2 82,2732102 YDR178W SDH4 52,691236 YKL060C FBA1 82,6368103 YOR136W IDH2 52,706137 YCR012W PGK1 82,914 104 YBR126C TPS1 52,706638 YPL262W FUM1 84,2271105 YNL117W MLS1 52,730539 YNL216W RAP1 88,1744106 YJR009C TDH2 52,742540 YER178W PDA1 93,9945107 YLR304C ACO1 52,768641 YPL061W ALD6 94,028 108 YLR258W GSY2 52,786242 YIR031C DAL7. 95,3142109 YJL052W TDH1 52,791943 YBR145W ADH5 96,306 110 YEL011W GLC3 52,814844 YGL062W PYC1 96,4488111 YCL040W GLK1 52,846845 YMR169C ALD3 96,6949112 YFR015C GSY1 52;853246 YAL038W PYK1 96,757 113 YDL055C PSA1 52,935547 YOL086C ADH1 96,8929114 YAL054C ACS1 52,952148 YLR134W PDCS 97,253 115 YIL162W SUC2 53,000249 YLR044C PDC1 97,4796116 YCR005C CIT2 53,036750 YBL103C RTG3 97,6865117 YFL045C SEC53 53,040651 YLR153C ACS2 98,144 118 YDR074W TPS2 53,095 52 YGR087C PDC6 99,9862119 YBR001C NTH2 53,195 53 YKL106W AAT1 99,9904120 YIL107C PFK26 53,213554 YGR254W EN01 100,173121 YDR272W GL02 53,226 55 YOL067C RTG1 100,764122 YGL209W MIG2 53,226756 YGL252C RTG2 100,985123 YKR097W PCK1 53,403257 YBR218C PYC2 101,788124 YER065C ICL1 53,475258 YHR174W EN02 103,602125 YGL035C MIG1 53,620659 YBL021C HAP3 104,029126 YKL141W SDH3 53,699 60 YNL071W PDA2 105,661127 YFR053C HXK1 53,743161 YDL078C MDH3 106,786128 YBR299W MAL32 53,937562 YDL021W GPM2 107,919129 YNR001C CIT1 54,006763 YMR280C CAT8 114,496130 GlutamateGlutamate54,019964 YMR037C MSN2 136,244131 YMR 1050PGM2 54,134165 Glucose Glucose148, 132 YKL109W HAP4 54,604 66 YBR196C PGI1 149,879133 YDR148C KGD2 54,690667 nabieau ~s : uistances entre l'état à atteindre du graphe et l'état du graphe obtenu par la simulation de l'inhibition constante par un facteur 0,1 de chaque molécule s Le classement par ordre croissant des distances donne directement le classement des molécules de celle dont l'inhibition est la plus susceptible de provoquer l'état à atteindre du graphe à celle dont l'inhibition est La moins susceptible de la provoquer. ~n voit que la molécule TUP1 est classée en première position, ce qui est bien le résultat attendu. La méthode est donc validée.
s La figure 6 donne à titre d'exemple une représentation schématique de ce résultat de classification des molécules du réseau. Chaque point correspond à une molécule du réseau. Les ordonnées correspondent aux valeurs de distance calculées. En abscisse les 133 molécules du réseau sont classées 'de gauche à droite de celle associée à la distance la plus 1o faible à celle associée à la distance la plus élevée. .
II est évident qu'on a bien obtenu directement . une classification des molécules du graphe. Celle-ci est- de même nature et a-été obtenue selon les mêmes méthodes que celle qui serait obtenue dans une application de 1s l'invention pour la recherche de cibles thérapeutiques.
Selon cette classification, la molécule TUP1 est classée en première position. Ce résultat est tout à fait satisfaisant. A titre d'exemple, le test expérimental des 5 premières molécules telles que classées ici donnerait Zo donc un taux de succès de 100% pour la sélection de la molécule pertinente.
Cette classification présente aussi l'intérêt de pouvoir définir un « bornage » de l'ensemble des molécules-cibles sélectionnées. En effet, 2s certaines molécules du graphe n'envoient pas d'interaction vers une autre molécule (ce sont donc des « sorties » ou « outputs » du graphe « molécules outputs » dans la suite du texte) ; la simulation de l'inhibition de ces molécules n'entraîne donc pas de propagation de l'inhibition au sein du graphe qui reste donc globalement stable (puisqu'on a considéré que 30 l'état initial était stable). De ce fait, ces molécules sont d'ailleurs classées dans un groupe contigu, de la 27iéme position à la 30ième position. Les molécules moins bien classées que les molécules outputs ne sont donc pas intéressantes en tant que molécule-cible.
En d'autres termes, le classement peut être interprété comme suit : la s molécule la mieux placée est celle dont la simulation d'inhibition aboutit à
l'état du graphe le plus proche de l'état à atteindre. Pour les molécules suivantes on s'éloigne progressivement de l'état à atteindre, en se dirigeant vers l'état à modifier qu'on atteint lorsqu'on arrive aux molécules outputs (cet état n'étant pas modifié lors de fa simulation de l'inhibition des 1o molécules outputs, à la molécule output près). Au delà des molécules outputs, les simulations d'inhibition aboutissent à des états du graphe qui s'éloignent progressivement à la fois de fëtat à atteindre et de l'état à
modifier.
1s On a bien aboutit à la sélection d'un nombre limité de molécules-cibles (celles qui sont mieux classées que les outputs, ici 26 molécules), qui sont elles-mêmes hiérarchisées en terme de priorité. Le classement de la molécule TUP1 montre que cette hiérarchisation est satisfaisante.
2o L'étape 2 de classification (le calcul sensibilité - spécificité), bien que non indispensable compte-tenu du résultat qui précède, a été ensuite mise en oeuvre afin d'améliorer fa classification des cibles. Elfe n'a été appliquée qu'aux molécules du graphe mieux classées que les molécules outputs à
l'étape précédente (é6 molécules). Le classement ainsi obtenu est donné
2s dans le tableau 17.
Etape E : second type de classement des molcules :
classement qualitatif DifiFrence : [Sensibilit - Spcificit]
Code ORF Abrviation Sensibilit - Spcificit Acetate Acetate 0 YIL125W I<GD1 -1 YOR347C PYI<2 -5 Tableau 17 : Hiérarchie finale des molécules-cibles sélectionnées (les 26 molécules avant les outputs) Les molécules sont classées en ordre décroissant de la différence arithmétique [sensibilité - spécificité]. On voit que TUP1 est la seule s molécule du graphe pour laquelle la sensibilité est supérieure à la spécificité. Ceci l'individualise des autres sur des critères qualitatifs. Ici encore, TUP1 est en première position dans la hiérarchie des cibles potentielles.
1o La molécule-cible TUP1 est classée en première position. C'est bien la molécule du graphe dont l'inhibition par délétion du gène induit l'évolution du système biologique étudié vers l'état à atteindre. L'efficacité de la méthode est donc vérifiée : sélection d'un nombre restreint de molécules-cibles, et pertinence du classement hiérarchique de ces cibles.
1s L'ensemble de la mise en oeuvre des étapes A et B, ou A', puis C, D et E a été réalisé plus d'une dizaine de fois, et a systématiquement donné des résultats similaires à chaque fois (avec classement de TUP1 toujours dans les 5 premières molécules par le premier mode de classement). Ceci montre sans ambiguïté la reproductibilité de la méthode ainsi que son efFicacité.
s Si le classement des molécules était effectué au hasard, la probabilité de classer la molécule TUP1 en première position ne serait que de 0,0075 (_ 1/133), et la probabilité de répéter 10 fois ce classement de l'ordre de 5.10-3~ (= 0,0075°). II est clair que le résultat obtenu dans cet exemple de mise 1o en oeuvre n'est pas dû au hasard et est extrêmement significatif.
Ceci montre la capacité de la méthode à prévoir la cible sur laquelle il faudrait agir, et le type d'action (ici une inhibition) pour atteindre un état donné, c'est à dire la capacité de la méthode à identifier l sélectionner /
1s classer des cibles thérapeutiques.
- (4) II doit être entendu ici que l'utilisation de relations mathématiques 1s non explicitées ici mais qui permettent de reprendre tout ou partie des caractéristiques décrites ci-dessus entrent dans le cadre de l'invention.
Ainsi, il est possible, de façon non limitative, d'établir une relation entre ?C; et X~ qui respecte l'existence d'inflexion de la courbe de X; en fonction du temps, et une limite maximale de X; dans l'intervalle des données 2o expérimentales utilisées et dans les intervalles de temps expérimentaux par une fonction polynôme, ou une fonction sinus ou cosinus, etc.
Exemple 2 : Mise en oeuvre pratictue de l'étape B) De multiples techniques de procédures d'apprentissage, dont par descente as de gradient au sein de graphes, sont disponibles pour effectuer le calcul des paramètres dans le domaine public (notamment en utilisant les transformées de Laplace, ou encore la méthode développée par Pearlmutter, 'Gradient calculations for dynamic recurrent neural networks a survey', IEEE transactions on neural networks, 1995). Un autre exemple ~o de méthode de calcul consiste à mette en oeuvre la méthode de résolution numérique adaptative d'ordre S de Runge-Kutta (permettant d'utiliser un pas de temps non constant dans les données expérimentales) associée à
un apprentissage par BPTT (back propagation through filme).
Le choix de la procédure d'apprentissage est notamment lié aux algorithmes utilisés pour définir la relation entre les couples (X;, Xj). La s personne de l'art pourra facilement effectuer ce choix, et le mettre en oeuvre.
Le choix et la mise en oeuvre d'une fonction d'erreur ne posent pas de difficulté particulière. En effet, plusieurs fonctions d'erreur peuvent être > o utilisées, et sont disponibles dans la littérature. A titre d'exemples, des types de fonctions d'erreur utilisables sont E = ~ ! [ X1 i(t) - X2i (t)]~ . dt i t ' avec : X1;(t) : valeur de X; au temps t calculée par simulation Is avec : X2;(t) : valeur de X; au temps t mesurée expérimentalement.
Ou encore l'erreur globale relative aux trajectoires données pour l'apprentissage [ ~ ~ ( X1i(t) - X2i(t ) )2 ~ ~ ~ ( X2i(t) )2 ]
i t i t 20 ~ = racine carrée du terme entre crochets [ ].
X1;(t) et X2;(t ) étant définis comme ci-dessus.
On peut également, pour calculer l'erreur relative locale (au niveau de la trajectoire d'un sommet du graphe), utiliser la formule [ ~ ( X1i(t) - X2i(t ) )2 ~ ~ ( X2i(t) )2 ]
25 t t ~l = racine carrée du ferme entre crochets : [ ]
X1;(t) et X2;(t ) étant définis comme ci-dessus.
Dans le cas de la mise en oeuvre d'une relation X;, X~ de type inertielle ~o adaptée de l'oscillateur harmonique, et dans une mise en oeuvre préférentielle, les contraintes suivantes seront imposées lors du calcul des paramètres Un seuillage sera introduit en imposant que pour toute relation élémentaire (X;, X~), les paramètres calculés respectent s ~;~ > c~;~ (ce qui revient à imposer un amortissement important), ou encore, m; = valeur maximale calculée pour l'ensemble des relations (Xi, xj), ces deux critères pouvant être associés.
1o Au terme du calcul des paramètres, le graphe (ou réseau) est entièrement déterminé par les relations mathématiques associées aux arrétes du graphe : il s'agit d'un réseau entièrement déterministe. Le graphe correspondant est orienté. Le réseau est peut être représenté -de façon explicite par la mise en pauvre de techniques de représentation de réseaux is de neurones utilisées en intelligence artificielle. Il s'agit d'un réseau non booléen, ni bayésien, ni organisé en couches, permettant de représenter des redondances des circuits et des boucles de rétro-action. Ge réseau déterministe permet la mise en ceuvre de simulations sans coût de calcul notable, même pour un graphe de très grande taille.
Exemple 3 : Mise en pauvre uratie~ue de l'étaie D) Propagati~n De nombreuses méthodes de propagation sont disponibles dans la 2s littérature, adaptées des technologies de réseaux de neurones développées en intelligence artificielle, et leur mise en pauvre ne pose pas de difficulté particulière à l'homme de l'art, le graphe dynamique étant entièrement déterministe à ce stade de la mise en pauvre.
A titre d'exemples de méthodes de propagation, on peut citer le logiciel ~o Neural Network Toolbox 4Ø2, développé dans l'environnement de calcul MATLAB, disponible à l'adresse internat htt~://www.mathtools.net/MATLAB/Neural Networks/index.html, commercialisé par la société The MathWorks, Inc. Ce logiciel de mise en oeuvre de réseau de neurones permet notamment de réaliser des propagations dans un réseau. D'autres exemples de propagations sont s intégrés aux méthodes de Runge dCutta et de Pearlmutter citées dans le présent texte.
La propagation est inhérente aux méthodes d'apprentissage citées à
l'exemple 2. L'étape de simulation consiste donc à utiliser la méthode de propagation mise en oruvre de l'étape B, ou toute autre méthode de Io propagation jugée adéquate par l'homme de l'art.
Plusieurs principes sont toutefois préférentiellement respectés lors de la mise en oeuvre des simulations Dans une mise en couvre particulière de l'invention, des procédures de is seuillage sont associées à la méthode de propagation choisie, afin de diminuer les divergences (donc d'améliorer les convergences, c'est à dire la fiabilité). Celles-ci peuvent porter sur - Un seuillage inférieur (c'est à dire que toute valeur d'une variable prédite en dessous de 0 est ramenée à 0 (où à une valeur de bruit de fond 2o minimale si celui-ci peut être défini par les données expérimentales) Seuillage : pour toute molécule i, quelle que soit la valeur X; , X; <.0 => X;
_ 0.
- Un seuillage supérieur : en imposant un seuil maximal aux valeurs des X;
pouvant être obtenues lors des simulations (par exemple en fixant un seuil 2s maximal correspondant à un facteur multiplicatif (pouvant de façon non exclusive être fixé entre 1 et 10) des valeurs maximales observées expérimentalement pour chaque X; ; ce facteur peut éventuellement être défini lors de simulations de résultats expérimentaux réels disponibles en testant plusieurs valeurs de ce facteur.
~o - L'introduction de contraintes dans les boucles lors des simulations :
Ceci peut être réalisé par plusieurs méthodes, non exclusives les unes des autres, cette liste n'étant pas limitative. Toutes ces méthodes visent à
imposer des contraintes, soit au nombre de boucles effectuées, soit aux gammes de valeurs des X;
o Limitation du nombre de boucles pouvant être effectuées s lors des simulations, le nombre maximal de boucles pouvant être défini à partir de l'analyse de données expérimentales réelles en tenant compte de la durée des simulations.
o Utilisation du seuillage tel que décrit ci dessus pour éviter des phénomènes d' e< explosion » dans des boucles, celles-lo ci allant alors se stabiliser au niveau maximal autorisé du seuil.
Itération La pratique d'itérations est couramment utilisée en informatique. Elle Is consiste ici à répéter la séquence de calculs de propagation en modifiant de façon systématique les stimuli. Elle peut ou non inclure une stratégie de calcul parallèle. Elle est facile à mettre en oeuvre par l'homme de l'art et ne nécessite pas d'étre plus détaillée.
2o En permettant de décrire l'effet de telle ou telle modification du réseau sur l'ensemble du réseau, ces simulations visent à analyser le système biologique dans son ensemble, et donc à répondre aux enjeux cités plus haut. Ces simulations consistent donc à décrire l'évolution de l'ensemble des molécules du réseau d'interactions moléculaires au cours du temps 2s suite aux stimuli « virtuels » initiaux, y compris, si cela s'avère biologiquement important, jusqu'à un nouvel état d'équilibre du graphe.
Ces stimuli « virtuels » peuvent être appliqués de façon systématique sur chaque sommet du graphe, mais il est aussi possible d'effectuer plusieurs stimuli en même temps, ou de façon séquentielle, sur plusieurs sommets.
Proximité des états du graphe Un calcul statistique de proximité entre chaque état final calculé et l'état voulu, ou entre chaque état final et l'état à modifier, est effectué. II
permet, pour chaque sommet, d'associer un critère statistique (proximité obtenue) au sommet sur lequel s'est exercé le stimulus et au stimulus exercé sur ce s sommet.
De nombreuses possibilités de comparaison statistique des états d'un graphe existent, et leur choix ne pose pas de difficulté pour l'homme de l'art.
A titre d'exemple, la distance entre deux états d'un graphe peut âtre io calculée comme suit Si X~; est la valeur de la variable X; à l'état 1 du graphe ;
Si X2; est la valeur de la variable Xi à l'état 2 du graphe, on peut calculer une distance mathématique entre les états 1 et 2 du graphe par : .
D = ~ (X~i - X2i )~
~s Ou encore D-~[~(X1i-X2i)2~~(X2i)2]
i i ~ - racine carree du terme entre crochets : [
D'autres méthodes de statistiques classiques telles que comparaisons des populations, etc... sont aussi disponibles.
Les éléments de comparaison des graphes, sont de deux ordres - Points de convergence des valeurs X; (end point), par exemple par 2s comparaison des populations de X; finaux entre états de graphes par statistiques classiques de comparaisons de populations (moyennes, variance... ).
- Cinétiques de chaque molécule i (par exemple par comparaison des différences d'intégrales des courbes de cinétiques, et comparaison des .~o populations de différences d'intégrales). II est ainsi possible de comparer, par exemple, la cinétique des X; au cours de l'établissement d'un processus pathologique à celle suite à un stimulus tel que défini plus haut, permettant de hiérarchiser les sommets et les stimuli par l'écart qu'ils provoquent par rapport au processus pathologique, en ne se limitant pas aux points de convergence. Dans ce cas, il est possible par exemple d'estimer la distance s entre les deux cinétiques du graphe par les fonctions d'erreur citées plus haut E = ~ ~ C ~1i(t) - ~2i (t)J2 . dt i t ~u encore 1 0 ~ ~ ~ ~ ( ~1i(t) - ~2i(t ) )2 ~ ~ ~ ( ~2i(t) )2 i t i t Ces -deux types- de comparaisons permettent d'évaluer statistiquement la proximité des graphes, dans les procédures de simulations décrites plus ts haut.
- D'autres types d'analyse d'analyse de proximité peuvent être mis en eeuvre : voir par exemple : Pearlmutter, 'Gradient calculations for dynamic recurrent neural networks : a survey', IEEE transactions on neural networlcs, 1995.
ao Le choix et la mise en oeuvre de ces comparaisons sera facilement réalisée par l'homme de l'art et ne requiert pas plus de description ici.
Exemple 4 : modélisations et simulations â partir d'un graphe statigue de 116 molécules 2s Données biologiques utilisées 1) Un graphe statique correspondant à un réseau d'interactions moléculaires dans la levure (Saccharomyces cerevisiae, organisme vivant eucaryote pouvant être considéré comme un système biologique répondant aux critères de complexité cités plus haut) a été construit par une saisie ~o manuelle dans un fichier plat de type txt (sans mettre en oeuvre de système automatisé particulier), à partir des données de la base de données KEGG : Kyoto Encyclopedia of Genes and Genomes, données en accès libre à !'adresse internet http://www.genome.ad.jip/keg,~q/keg"a2.html.
Ce graphe est plus particulièrement centré sur les mécanismes de la s respiration cellulaire (glycolyse, néoglucogénèse, métabolisme du Pyruvate et de l'acetyl CoA, etc.). II comprend 116 molécules, enzymes ou facteurs de transcription. II comprend 329 interactions uni- ou bi-directionnelles entre ces molécules.
Le graphe statique correspondant à ce réseau d'interactions moléculaires 1o est donné ici à titre d'exemple, sous deux formes - Schéma (figure 2). Sur ce schéma, chaque rectangle représente :une protéine. Les lettres dans le rectangle sont les abréviations usuelles du nom de la protéine, selon la nomenclature de KEGG et de SGD
Saccharomyces Genome Database développée par le Department of 1s Genetics at the School of Medicine, Université Stanford, USA.
- Tableau représentant les interactions moléculaires (Tableau 5 ci-dessous).
Ce tableau présente les données de graphe statique sous une forme directement utilisable par un système informatique de modélisation et de 2o simulation tel que décrit dans l'invention.
A A B B
Code ORF Abrviation Code ORF Abrviation sens C
YLR304C AC01 YDL066W IDP1 A<->B
YLR304C ACO1 YLR174W IDP2 A<->B
YAL054C ACS1 YNR001C CIT1 A<->B
YAL054C ACS1 YCR005C CIT2 A<->B
YAL054C ACS1 YNL071W PDA2 A<->B
YAL054C ACS1 YLR044C PDC1 A<->B
YAL054C ACS1 YLR134W PDC5 A<->B
YAL054C ACS1 YGR087C PDC6 A<->B
YAL054C ACS1 YAL038W PYK1 A<->B
YAL054C ACS1 YOR347C PYK2 A<->B
YLR153C ACS2 YNR001 C CIT1 A<->B
YLR153C ACS2 YCR005C CIT2 A<->B
YLR153C ACS2 YNL071W PDA2 A<->B
YLR153C ACS2 YLR044C PDC1 A<->B
YLR153C ACS2 YLR134W PDC5 A<->B
YLR153C ACS2 YGR087C PDC6 A<->B
YLR153C ACS2 YAL038W PYK1 A<->B
YLR153C ACS2 YOR347C PYK2 A<->B
YBR145W AD.H5 YMR169C ALD3 A-B
YMR170C ALD2 YAL054C ACS1 A<->B
YMR170C ALD2 YLR153C ACS2 A<->B
YMR169C ALD3 YAL054C ACS1 A<->B
YMR169C ALD3 YLR153C ACS2 A<->B
YPL061W ALD6 YAL054C ACS1 A<->B
YPL061W ALD6 YLR153C ACS2 A<->B
YNR001 C CIT1 YLR304C AC01 A<->B
YCR005C CIT2 YLR304C AC01 A<->B
YGR254W ENO1 YKL152C GPM1 A<->B
YGR254W ENO1 YDL021W GPM2 A<->B
YHR174W EN02 YKL152C GPM1 A<->B
YHR174W ENO2 YDL021W GPM2 A<->B
YDR261C E)CG2 YIL162W SUC2 A-B
YDR261 C E)CG2 YFR053C HXK1 A-B
YKL060C FBA1 YDR050C TP11 A<->B
YLR377C FBP1 YGR240C PFK1 A<->B
YLR37~7C FBP1 YMR205C PFK2 A<->B
YPL262W FUM1 YKL085W MDH1 A<->B
YPL262W FUM1 YOL126C MDH2 A<->B
YPL262W FUM1 YDL078C MDH3 A<->B
YEL011W GLC3 YPR160W GPH1 A<->B
YCL040W GLK1 YBR196C PG11 ~ A<->B
YKL152C GPM1 YCR012W PGK1 A<->B
YDL021 W GPM2 YCR012W PGK1 A<->B
C
C
YBL021C HAP3 YKL148C SDH1 A-B.
YBL021C HAP3 YIL125W KGD1 ~ A-B
YBL021 C HAP3 YDR148C KGD2 ~ ~ A-B..
YKL109W HAP4 YKL141W SDH3 A-B:
YKL109W HAP4 YFL018C LPD1 . A-B
YFR053C HXK1 YGR240C PFK1 ~A-B
YDR148C KGD2 YFL018C LPD1 A<->B
YDR148C KGD2 YGR244C LSC2 A<->B
YFL018C LPD1 YBR221C PDB1 q<->g YBR299W MAL32 YFR053C HXK1 A-g YKL085W MDH1 YNR001C CIT1 A<->B
YKL085W MDH1 YCR005C CIT2 A<->B
YKL085W MDH1 YKR097W PCK1 A<->B
YKL085W MDH1 YGL062W PYC1 A<->B
YKL085W MDH1 YBR218C PYC2 A<->g YOL126C MDH2 YNR001 C CIT1 A<->B
YOL126C MDH2 YCR005C CIT2 A<->B
YOL126C MDH2 YKR097W PCK1 A<->B
YOL126C MDH2 YGL062W PYC1 A<->B
YOL126C MDH2 YBR218C PYC2 A<->B
YDL078C MDH3 YNR001C CIT1 A<->B
' YDL078C MDH3 YCR005C CIT2 A<->B
YDL078C MDH3 YKR097W PCK1 A<->B
YDL078C MDH3 YGL062W PYC1 A<->g YDL078C MDH3 YBR218C PYC2 A<->B
YMR037C MSN2 YFR053C HXK1 A-g YKR097W PCK1 YNR001 C CIT1 A<->B
YKR097W PCK1 YCR005C CIT2 A<->B
YKR097W PCK1 YGR254W EN01 A<->B
YKR097W PCK1 YHR174W EN02 A<->B
YNL071W PDA2 YNR001C CIT1 A<->B
YNL071W PDA2 YCR005C CIT2 A<->B
YBR221C PDB1 YNL071W PDA2~ A-B
YLR044C PDC1 YMR170C ALD2 ' A<->B
YLR044C PDC1 YMR169C ALD3 ~ A<->B
YLR044C PDC1 YPL061W ALD6 A<->B
YLR134W PDCS YMR170C ALD2 A<->B
YLR134W PDC5 YMR169C ALD3 A<->B
YLR134W PDC5 YPL061W ALD6 A<->B
YGR087C PDC6 YMR170C ALD2 A<->B
YGR087C PDC6 YMR169C ALD3 A<->B
YGR087C PDC6 YPL061W ALD6 A<->B
YGR240C PFK1 YLR377C FBP1 A<->B
YMR205C PFK2 YLR377C FBP1 A<->B
YIL107C PFK26 YJL155C FBP26 A<->B
YBR196C PG11 YKL127W PGM1 A<->B
YBR196C PG11 YMR105C PGM2 A<->B
YCR012W PGK1 YGR192C TDH3 A<->B
YKL127W PGM1 YCL040W GLK1 A<->B
YKL127W PGM1 YKL035W UGP1 _ A<->B
-YMR105C PGM2 YCL040W GLK1 A<->B
YMR105C PGM2 YKL035W UGP1 A<->B
YGLOCa2W PYC1 YNR001C CIT1 ~ A<->B
YGL062W PYC1 YCR005C CIT2 A<->B
YGL062W PYC1 YLR044C PDC1 A<->B
YGL062W PYC1 YLR134W PDCS A<->B
YGL062W PYC1 YGR087C PDC6' ~ A<-~B
~
YBR218.C PYC2 YNR001 C CIT1 ~ A<->B
-YBR218C PYC2 YCR005C C.IT2 ' A<->B
.
YBR218C PYC2 YLR044C PDC1 A<->B
YBR218C PYC2 YLR134W PDC5 A<->B
YBR218C PYC2 YGR087C PDC6~ A<->B
YAL038W PYK1 YLR044C PDC1 A<->B
YAL038W PYK1 YLR134W PDC5 A<->B
YAL038W PYK1 YGR087C PDC6 A<->B
YOR347C PYK2 YLR044C PDC1 A<->B
YOR347C PYK2 YLR134W PDCS A<->B
YOR347C PYK2 YGR087C PDC6 A<->B
~
YOL067C RTG1 YNL037C lDH1 A-B
.
YCR073W-A Sol2 YGR256W GND2 A-B
YBR112C SSN6 YER065C ICL1 A=B
YIL162W SUC2 YBR196C PG11 A<->B
YIL162W SUC2 YKL127W PGM1 A<->B
YIL162W SUC2 YMR105C PGM2 A<->B
YGR192C TDH3 YKL060C FBA1 A<->B
YGR192C TDH3 YDR050C TP11 A<->B
YDR050C TP11 YKL060C FBA1 A<->B
YKL035W UGP1 YKL127W PGM1 A<->B
YNL241 C Z1/VF1 YCR073W-A Sol2 A-B
YKL148C SDH1 YPL262W FUM1 A<->B
YLL041C SDH2 YPL262W FUM1 A<->B
YKL141W SDH3 YPL262W FUM1 A<->B
YDR178W SDH4 YPL262W FUM1 A<->B
YGR244C LSC2 YKL148C SDH1 A<->B
YGR244C LSC2 YLL041 C SDH2 A<->B
YGR244C LSC2 YKL141W SDH3 A<->B
YGR244C LSC2 YDR178W SDH4 A<->B
~ aumau ~ : r«presenian~n au graphe s~us r~rme ae rameau Le graphe représente les 329 interactions entre les 116 molécules du réseau. Les interactions sont représentées entre les molécules deux à
s deux.
Colonnes A : première molécule Colonnes B : seconde molécûle Sens : sens de l'interaction : A-B : de A vers B
B-A : de B vers A
t° A<-> B : interaction dans les deux sens.
Ce tableau établit aussi la correspondance entre les codes ORF (open reading frame) de la base de données SGD (Dolinski, K., Balakrishnan, R., Christie, K. R., Costanzo, M. C., Dwight, S. S., Engel, S. R., Fisk, D. G., Is Hirschman, J. E., Hong, E. L., Issel-Tarver, L., Sethuraman, A., Theesfeld, C. L., Binkley, G., Lane, C., Schroeder, M., Dong, S., Weng, S., Andrada, R., Botstein, D., and Cherry, J. M. "Saccharomyces Genome ~atabase "
http://www.yeastgenome.org/), et les abréviations des noms des protéines (elles aussi de SGD). Les codes ORF sont uniques pour une protéine 2o donnée et permettent de l'identifier sans aucune ambiguïté. Ils permettent aussi d'établir un lien non ambigu avec les résultats de criblages sur puces à ADN (correspondance des séquences nucléiques des ARN messagers correspondants).
2) Des données de criblage d'expression d'ARN messagers sur puces à
2s ADN concernant l'ensemble de ces gènes ont été saisies à partir de la publication : DeRisi JL, lyer VR, Brown PO : Exploring the metabolic and genetic control of gene expression on a genomic scale, Science. 1997 Oct 24;278(5338):680-6.
Cette publication décrit une expérience de culture de levures dans des conditions où la concentration de glucose dans le milieu de culture diminue s progressivement (du fait de son utilisation par les levures pour la fermentation, du glucose m'étant rajouté à !a culture à aucun terrtps de l'expérience). Au cours du temps, les levures présentent une modification de leûr métabolisme, leur systéme respiratoire passant d'un fonctionnement en -fermentation à un fonctionnément en respirati~n 1o aérobie.
Cette culture de levures a été étudiée au cours du temps, notamment par la pratique de criblages d'expression de la quasi-totalité des ARN messagers de levure sur puces à ADN. Ces criblages ont été effectués à des temps successifs, les résultats produisant donc une cinétique de niveau ts d'expression pour chaque ARN messager. Les résultats montrent des variations du niveau d'expression d'un certain nombre d'ARN messagers au cours du temps, ceux-ci étant plus particulièrement nombreux parmi les ARN messagers des protéines de la respiration cellulairé, dont une partie importante est représentée dans le graphe décrit ci dessus. Dans ces ?o conditions expérimentales, !e graphe que nous avons construit présente donc un évolution dynamique au cours du temps, qui est représentée par les cinétiques des molécules du réseau (donc les sommets du graphe).
II sera clair au lecteur que le graphe statique est déjà d'une taille trop grande, et comprend trop d'interactions et de boucles, pour permettre, 2s même à un expert, de prédire correctement à partir du seul graphe statique son évolution dynamique telle qu'observée expérimentalement sans la mise en oeuvre d'une méthode de modélisation dynamique adaptée.
L'ensemble des données expérimentales de criblage d'expression d'ARN
messagers sur puces à ADN correspondant à cet article sont disponibles sur le site internat de l'Université de Stanford à l'adresse http://cmgm.stanford.edu/pbrown/explore/array.txt.
A partir de ces données, les données expérimentales correspondant spécifiquement aux ARN messagers des molécules du graphe -ont été
s saisies manuellement (procédure de copier-coller dans un fichier plat de type txt) sous la forme suivante : chaque ligne correspond à une molécule du graphe, la première colonne identifiant l'ORF (open reading frame) par son code SGD, les colonnes suivantes correspondant aux mesures expérimentales. Les tableaux 6 à 8 ci-dessous donnent des exemples de 1o données pour quelques molécules du graphe, données extraites de la page http://cmgm.stanford.edu/pbrown/explore/array.txt. ~ ' ORF NOm G1-BkgG2-BkgG3-BkgG4-BkgG5-BkgG6-BkgG7-Bkg YCR005c CIT2 1540 1244 1875 1727 1241 1904 1644 Tableau 6 ORF Nom R1-Bkg R2-BkgR3-BkgR4-BkgR5-BkgR6-BkgR7-Bkg YCR005c CIT2 1092 1138 2007 1328 695 3962 7997 > s Tableau 7 ORF Nom Rl.RatioR2.RatioR3.RatioR4.RatioRS.RatioR6.RatioR7.Ratio YSR218C PYC2 1.18 1.23 .77 .75 .79 .71 2.7 YCR005c CIT2 .71 .92 1.08 .77 .56 2.08 4.76 Tableau 8 Tableaux 6 à 8 : Exemples de données de criblages sur puces à ADN
2o pour 2 des molécules du graphe, à partir des résultats de l'article :
DeRisi JL, lyer VR, Brown PO : Exploring the metabolic and genetic control of gene expression on a genomic scale, Science. 1997 Oct 24;278(5338):680-6.
Les données complètes sont disponibles sur la page internet http://cmam.stanford.edu/pbrownlexplore/arra .~. Compte tenu de la taille du tableau des données complètes, il n'en est montré ici qu'une partie.
L'homme de l'art pourra très facilement récupérer les données s correspondant aux autres molécules du graphe utilisé dans cet exemple, sur cette page internet qui correspond directement au tableau de l'ensemble des données.
Les criblages d'expression des ARN messagers ont été réalisés toutes les 1o deux heures, pendant 12 heures, ce qui correspond à 7 temps expérimentaux (le temps initial plus les 6 temps suivants). Ceux-ci correspondent aux notations 1 à 7. Le lecteur trouvera toutes les explications correspondant à l'obtention de ces mesures dans l'article cité
en référence.
1s Nom = abréviation du nom du gène (selon SGD) ~RF = code de l'open reading frame (selon SGD) G = condition expérimentale correspondant à "l'état. étalon" du graphe tel que décrit dans l'invention. Cet état étalon, dans cette série d'expériences, 2o correspond à l'état initial de culture des levures. G1, G2, G3, G4, G5, G6, G7 correspondent tous au même échantillon biologique étalon.
R = états du graphe aux divers temps expérimentaux.
R1 correspond à l'état initial de culture des levures (méme échantillon biologique que G1), au temps T0. R2 : TO + 2,5 heures, R3 : TO + 4 heures, ?s R4 : TO + 6 heures, R5 : TO + 7,5 heures, R6 : TO + 9,5 heures, R7 : TO +
11,5 heures.
Les séries de valeurs G-Bkg et R-Bkg correspondent à des mesures absolues de signal. Par rapport au présent texte, les séries G-Bkg 3o correspondent à x;0, et les séries R-Bkg correspondent à x;t.
G1-Bkg = mesure de G1 moins le bruit de fond (background) lors des mesures exprimentales.
G2-Bkg = mesure de G2 moins le bruit de fond (background)lors des mesures exprimentales.
s G3-Bkg = mesure de G3 moins le bruit de fond (background)lors des mesures exprimentales.
G4-Bkg = mesure de G4 moins le bruit de fond (background)lors des mesures exprimentales.
G5-Bkg = mesure de G5 moins le bruit de fond (background)lors des 1o mesures exprimentales.
G6-Bkg = mesure de G6 moins le bruit de fond (baekground)lors des mesures exprimentales.
G7-Bkg = mesure de G7 moins- le- bruit de fond (background)lors des mesures exprimentales.
is Les variations des valeurs mesures sont lies aux variations des rendements des diverses ractions mises en oeuvre dans hode la mt de mesure (puces ADN) et comme justifient l'utilisation d'un tat talon rfrence de mesure.
2o R1-Bkg = mesure de R1 moinslebruitde fond(background)lorsdes mesures exprimentales.
R2-Bkg = mesure de R2 moinslebruitde fond(background)lorsdes mesures exprimentales.
R3-Bkg = mesure de R3 moinslebruitde fond(background)lorsdes 2s mesures exprimentales.
R4-Bkg = mesure de R4. moinslebruitde fond(background)lorsdes mesures exprimentales.
R5-Bkg = mesure de R5 moinslebruitde fond(background)lorsdes mesures exprimentales.
~o R6-Bkg = mesure de R6 moinslebruitde fond(background)lorsdes mesures exprimentales.
R7-Bkg = mesure de R7 moins le bruit de fond (background) lors des mesures expérimentales.
R 1. Ratio, R2. Ratio, R3. Ratio, R4. Ratio, R5. Ratio, R6. Ratio, R7. Ratio s correspondent aux rapports R-Bkg l G-Bkg à chacun des 7 temps expérimentaux : ils correspondent aux variables telles que définies dans la description de l'invention : X; = x;t / xo.
On a donc produit deux tableaux sous la forme de fichiers~plats de type txt, 1o avec une correspondance mutuelle par le code ORF ete chaque molécule.
Dans cet exemple de mise en oeuvre, il n'a pas été nécèssaire d'utiliser de système de base de données.
Mise en ouvre de la méthode is Les étapes A et B ont été mises en ceuvre comme suit Un lissage des données expérimentales a été effectué afin de disposer de plus de points temporels.
On a considéré que si la concentration en glucose dans le milieu de culture des levures avait été maintenue constante en supplémentant en glucose le 2o milieu de culture, l'état initial, qui correspond aux mesures expérimentales au temps T0, serait un état stable. Ceci est en accord avec les données expérimentales disponibles et avec le texte de la publication dont ont été
extraites les données.
Par ailleurs., on sait que si la culture de levures est à nouveau ?s supplémentée en glucose après le temps 7 (To + 12 heures), elle va revenir à son état initial. Un état final du graphe a donc été défini comme suit tendance du système biologique étudié à revenir à son état initial au temps To + 36 heures, et les données expérimentales obtenues à To ont été
répliquées à ce temps. Ceci a été fait afin d'ajouter une contrainte, logique vis-à-vis de l'expérience, lors du calcul des paramètres des fonctions. Ceci n'est cependant pas à considérer comme une étape de mise en oeuvre indispensable à la mise en oeuvre de l'invention, mais comme un exemple s de définition des états stables du système biologique à partir de cet exemple précis.
La relation utilisée entre les variables X; correspondant à la molécule i et les variables X~ correspondant aux molécules j interagissant sur i a été la suivante to (d~C;/dt) = tC~; . [1 / (1 + ~ ~W~~.x~-b~ ) j _ ~2~ . ~(~
Le calcul des paramètres a été effectué à partir des . données expérimentalès par une méthode classique d'apprentissage de réseaux de neurones, plus précisément à partir des algorithmes de la méthode de Runge ICutta de rétro-propagation dans le temps (BPTT : baclr pr~pagation Is through time). Les calculs ont été effectués en double précision.
Le reste des méthodes mises en oeuvre, qui ne posent pas de difficulté
particulière à l'homme de l'art, ont été effectuées comme décrit plus haut.
Un graphe dynamique, entièrement déterministe a ainsi été obtenu, permettant de réaliser des simulations.
Rësultats Lors des simulations, l'efficacité de la méthode a été vérifiée. En effet, le résultat de divergence moyen (erreur relative globale) des simulations par rapport aux données expérimentales est d'environ 0,30, cette divergence 2s étant essentiellement concentrée sur 8 sommets (molécules) du graphe, pour cette série de données, alors que pour les 108 sommets (molécules) restant, la divergence est très faible.
~9 Ce résultat d'erreur relative globale montre que les cinétiques calculées lors des simulations sont proches des données réelles, car des cinétiques aléatoires auraient donné un calcul d'erreur supérieur à 1.
La divergence globale des simulations par rapport aux données s expérimentales sur l'ensemble du graphe et l'ensemble des cinétiques a été estimée par le calcul d'erreur relative suivant Erreur globale relative:
[ ~ ~ ( X1i(t) - X2i(t ) )2 ~ ~ ~ ( X2i(t) )2 ]
i t i t 1o ~l = racine carrée du terme entre crochets [ ].
X1;(t) = valeur de X; calculée au temps t de la simulation, X2;(t ) = valeur de X; mesurée expérimentalement au temps t.
~ = somme des valeurs aux différents temps t is Ce résultat de simulation est satisfaisant, d'autant plus si l'on tient compte du taux d'erreurs de mesures, puisqu'il est légèrement inférieur au taux d'erreurs de mesures lors des expériences ayant servi à générer les données expérimentales sur puces à ADN.
Le taux de non-reproductibilité des données expérimentales peut étre 2o estimé par le rapport R1.Ratio des données expérimentales (Tableau 8), et est globalement de 14% dans cet exemple.
Ce résultat de divergence globale est obtenu par un calcul d'erreur relative permettant de comparer deux cinétiques (ou trajectoires) dans leur ensemble. II ne peut naturellement pas être utilisé pour estimer le taux de 2s non-reproductibilité des données expérimentales puisqu'on ne dispose ici que d'une seule cinétique expérimentale, pour ces conditions expérimentales, pour chaque molécule du réseau. Le calcul de ce taux de non-reproductibilité a donc été effectuë par la moyenne des ratios R1.
Le fait que ces deux calculs d'erreurs soient différents ne permet pas de les comparer directement au sens strict. Cependant, on voit que l'erreur relative globale des simulations et le taux de non-reproductibilité des mesures expérimentales sont proches : 0,3 et 0,14 respectivement, 1 étant s le seuil au dessus duquel les simulations et les mesures peuvent être considérées comme non-fiables.
Bien qu'il soit possible par la méthode de l'invention de descendre lors des simulations à un résultat de divergence inférieur au taux de non-reproductibilité des données expérimentales, il est clairement inutile de 1o descendre à un résultat de divergence inférieur à cette limite de reproductibilité des données expérimentales, quelles que soient celles-ci. .
En effet, puisque des données expérimentales sont utilisées pour le calcul des paramètres, cela reviendrait à introduire tout de même un risque de divergence vis-à-vis du phénomène biologique réel '. étudié, dont la Is divergence vis-à-vis des mesures expérimentales peut être estimée égale au taux de non-reproductibilité des expériences de mesure, sans que l'on puisse prédire le sens de cette divergence (qui peut de plus varier en fonction des molécules du réseau).
A titre d'exemple, le tableau 9 donne le détail des calculs des divergences 2o de l'ensemble des cinétiques lors des simulations pour l'ensemble des molécules du réseau, sous la forme d'un tableau récapitulatif.
Taux d'erreurs relatives molcule par molcule lors des simulations Code ORF Erreur Code ORF Erreur Code ORF Erreur Code ORF Erreur YKL106W 0,439906YMR170C 0,658778YDL021W 0,356443YNL241C 0,238029 YNR001C 0,557923YIR031C 0,287518YNL216W 0,330334YBR299W 0,223996 YCR005C 0,603893YNL117W 0,555319YOR344C 0,345711YGR240C 0,656938 YLR304C 0,611941YMR169C 0,323143YMR105C 0,477063YIL107C 0,440545 YAL054C 0,719416YLR044C 0,548165YDR261C 0,20506 YMR205C 0,45229 YNL071W 0,322178YER178W 0,171016YKL127W 0,298067.YER003C 0,366261 YLR153C 0,368722YBR221C 0,19549 YBR196C 0,376657YPR026W 0,436716 YKL085W 0,499697YFL018C 0,173079YNL032C 0,450714YJL121C 0,371399 YOL126C 0,80045 YPL262W 0,519434YDR216W 0,434734YDR423C 0,266008 _ YDL078C 0,348449~YKL148C 0,471327YOL004W 0,104797YML:100W 0,41:1204 ~ .
YBL021C 0,137275YKL141W 0,501865YOR290C '0,13138YDL'168W 0,1...44.725 ~
YKL109W 0,558143YIL125W 0,593086YPL016W 0,0633654YGR192C 0,274425 YKR097W 0,594474YDR148C 0,449052YAL021C -0,104898YJR009C 0,821626 YGL062W 0,617472YHR174W 0,422694YFR053C 0,563052YJL052W 1,04515 YBR218C 0,519166YGR254W 0,194786YCL040W 0,330382YEL011W 0,540345 YOL067C 0,0981591YIL162W 0,58694 YBR117C 0,503985YCR036W 0,272221 ~
YBL103C 0,255736YOL086C 0,310685YBR126C 0,401095YGR256W 0,448943 .
YBR112C 0,219397YBR145W 0,156328YDR074W 0,40.1062YFR015C 0,492893 YER065C 0,592483YMR303C 0,309401YDR272W 0,568757YLR258W 0,481474 YNL037C 0,452065YMR037C 0,660788YCR012W 0,612743YBR019C 0,367005 YOR136W 0,156624YKL062W 0,219838YPL248C 0,176129YKL060C 1,27125 YDL066W 0,188101YDL174C 0,252933YGL253W 0,461389YCR073W-A0,383641 YLR174W 0,559782YML054C 0,596073YPR160W 0,162637YJL155C 0,394901 YBL015W 0,517625YMR189W 0,0996465YOR095C 0,368831YFL045C 0,474401 YLR134W 0,526367YLL041C 0,478881YKL035W 0,360385YDR050C 1,05587 YGR087C 0,553019YDR178W 0,41253 YGR032W 0,240247YBR018C 0,395082 YAL038W 0,60519 YGR244C 0,383062YLR377C 0,35616 YDL055C 0,436756 YOR347C 0,296306YPL075W 0,327211YDR001C 0,371987YBR020W 0,163797 .
YPL061W 0,547283YKL152C 0,427984YBR001C 0,41725 YBL082C 0,217509 i aaieau ~ : i aateau recap~tmatit des divergences lors des simulations pour l'ensemble des molécules du réseau Les divergences ont été estimées pour chaque molécule du réseau par le calcul de l'erreur relative sur l'ensemble de la trajectoire de la molécule concernée, suivant la formule suivante (erreur relative locale) [ ~ ( X1i(t) " X2i(t ) ) ~ ~ ( X2i(t) ) ]
t t X1;(t) = valeur de X; calculée au temps t de la simulation, X2;(t ) = valeur de X; mesurée expérimentalement au temps t, ~ = somme des valeurs aux différents temps t 1o ~l = racine carrée du terme entre les crochets [ ] _ Ce calcul revient à calculer la différence d'intégrale entre les courbes des cinétiques observes expérimentalement et les cinétiques calculées lors des simülàtions. Ellé concerne donc aussi bien l'ensemble dé la cinétique que l'état final.
> s Dans une variante de cet exemple, la modélisation et les simulations ont été mises en oeuvre de la même manière que décrite ci-dessus, et à partir des mémes données biologiques, avec la seule modification suivante lors du calcul des parâmètres par rétro-propagation dans le temps Les variables associées aux sommets du graphe ne recevant pas d'arc ou 2o arréte, c'est-à-dire correspondant aux molécules ne recevant pas d'interaction ("inputs" du graphe) ont été exclues du calcul d'erreur globale lors de l'apprentissage, leurs valeurs restant donc fixées aux valeurs expérimentales mesurées pendant cette procédure. Ceci a été effectué
- afin d'éviter de simuler des cinétiques sur ces sommets lors de La 2s descente de gradient ce qui risque de majorer les erreurs, - et car ces sommets ne recevant pas eux mémes d'inputs, leurs cinétiques sont de fait indépendantes des résultats de calculs des paramètres des relations mathématiques reliant les sommets.
En d'autres termes, seules les molécules recevant au moins une interaction (arréte orientée vers le sommet du graphe leur correspondant) ont été
prises en compte pour le calcul d'erreur fors de l'apprentissage.
Afin d'éviter toute confusion, cette variante ne consiste bien sûr pas à
s enlever du graphe les sommets "inputs", mais à imposer que leur cinétique reste la cinétique mesurée expérimentalement, ceci uniquement lors des simulations pratiquées pendant les calculs d'erreur de ta procédure de calcul des paramètres par rétro-propagation dans le temps. Les paramètres des relations mathématiques reliant ces sommets à d'autres sommets du 1o graphe sont donc calculés, comme pour toutes les autres arrêtes du graphe, et le modèle dynamique finalement obtenu inclut ces sommets.
Dans cette variante,- les résultats de simulation obtenus ont été similaires à
ceux montrés ci-dessus, bien que légèrement meilleurs.
La figure 3 donne à titre d'exemple les cinétiques mesurées Is expérimentalement et les cinétiques calculées par simulation pour quelques gènes représentatifs de l'ensemble des résultats obtenus par la mise en oeuvre de cette variante.
Exemple 5 : Modélisations, simulations et validation de la capacité
2o prédictive à partir d'un graphe statictue de 133 molécules Cet exemple montre la mise en oeuvre de l'ensemble de la méthode (étapes A et B ou A', puis C, D, E) et son efficacité prédictive dans une application similaire à une identification l sélection de cibles thérapeutiques.
Données biologiques utilisées 1) Un graphe statique correspondant à un réseau d'interactions moléculaires dans la levure (Saccharomyces cerevisiae, organisme vivant pouvant être considéré comme un système biologique répondant aux critères de complexité cités plus haut) a été construit selon les mêmes principes que dans l'exemple 4. Ce graphe inclut plus particulièrement le graphe de l'exemple 4, mais avec des molécules et des interactions s supplémentaires. II comprend 133 molécules, enzymes ou facteurs de transcription. II comprend 4.07 interactions uni- ou bi-directionnelles entre ces molécules.
Le graphe statique correspondant à ce réseau d'interactions moléculaires no est donné ici à titre d'exemple, sous deux formes : .
- Schéma (figure 4). Les principes de représentation et les commentaires explicatifs sont les mêmes que pour l'exemple 4 (figure 2).
- Tableau représentant les interactions moléculaires additionnelles par rapport au graphe statique de l'exemple 4 (Tableau 10 ci-dessous). Le Is tableau complet représentant le graphe statique utilisé dans cet exemple 5 est donc l'addition des tableaux 5 et 10.
A A ~ B _ B
Code ORF Abrviation Code ORF Abrviation sens Acetate Acetate YBL015W ACH1 A-B
Acetate Acetate YLR304C AC01 A-B
Acetate Acetate YAL054C ACS1 A-B
Acetate Acetate YLR153C ACS2 A-B
Acetate Acetate YMR170C ALD2 . A-B
Acetate Acetate YMR169C ALD3 A-B
Acetate Acetate YPL061 W ALD6 A-B
Acetate Acetate YNR001C CIT1 A-B
Acetate Acetate YCR005C CIT2 A-B
Glucose Glucose YBR019C GAL10 A-B
Glucose Glucose YCL040W GLK1 A-B
Glucose Glucose YFR053C H?CK1 A-B
Glucose Glucose YGL253W HXK2 A-B
Glucose Glucose YGL209W MIG2 A-B
Glucose Glucose YMR037C MSN2 A-B
Glucose Glucose YBR196C PG11 A-B
Glucose Glucose YKL127W PGM1 A-B
Glucose Glucose YMR105C PGM2 A-B
Glucose Glucose YGL252C RTG2 A-B
Glucose Glucose YDR477W SNF1 A-B
Glucose Glucose YDL194W SNF3 A-B
Glutamate Glutamate YLR304C AC01 A-B
Glutamate Glutamate YOL067C RTG1 A-B
Glutamate Glutamate YGL252C RTG2 A-B
-Glutamate Glutamate YBL103C _ A-B
YJR094C IME1 YDR207C UME6 A<->B
YGL209W MIG2 YFR053C H)CIC1 A-B
YBR112C SSN6 YCR084C TUP1 A<->B
YPL016W SWI1 YOR290C SNF2 A<->B
Tableau 10 : Interactions moléculaires additionnelles par rapp~rt au graphe statique de l'exemple 4 Les commentaires du tableau 10 sont similaires à ceux du tableau 5.
s 2) Des données de criblage d'expression d'ARN messagers sur puces à
ADN concernant l'ensemble de ces gènes ont été saisies à partir de la même publication que. dans l'exemple 4 et selon les mêmes principes DeRisi JL, lyer VR, Brown PO : Exploring the metabolic and genetic control Io of gene expression on a genomic scale, Science. 1997 Oct 24 ;278(5338) :680-6.
Par ailleurs, 3 métabolites ont été introduits parmi les 133 molécules du réseau. Contrairement aux autres molécules du réseau, ces métabolites Is n'ont naturellement pas d'ARN messager correspondant. Leurs valeurs ont été définies comme suit Glucose : ses concentrations au cours du temps ont été mesurées par les auteurs de la publication, aux mêmes temps que ceux auxquels ont été
zo pratiqués les mesures d'expression d'ARN messagers. Les concentrations correspondantes sont données graphiquement dans la figure 4 de l'article cité. Afin d'exprimer ces valeurs sous forme de ratio, chaque valeur de la concentration en Glucose dans le milieu de culture à un temps donné a été
divisée par la concentration en Glucose au temps initial de l'expérience zs (ceci afin de mesurer les ratios par rapport au même référentiel que pour les mesures d'ARN messagers, dont les ratios sont exprimés par le rapport de la mesure au temps t divisée par la mesure au temps initial). Cette variable associée au glucose correspond bien aux variables telles que définies dans la description de l'invention : X; = x;t / xo.
~o II en résulte pour le glucose les valeurs de variable suivantes Molcule du rseau : Glucose Temps exprimental0 2,5 4 6 7,5 9,5 11,5 (heures) Valeur du 1 0.973680.921050.736840.394730.010530.00052 ratio Tableau 11 : Valeurs de la variable ass~ciée à la molécule du graphe Glucose s Acétate et Glutamate : les concentrations de ces molécules n'ont pas été
mesurées par les auteurs. II a donc été décidé d'extrapoler des valeurs pour ces molécules à partir de la connaissance du système biologique étudié et de la description des expériences dans l'article. Dans la mesure 1o où cette expérience est essentiellement fondée sur la chute progressive de la concentration en glucose dans le milieu de culture et où les autres paramètres du milieu de culture sont en première approximation considérés comme constants, il a été considéré que les concentrations du Glutamate et de l'Acétate, respectivement, étaient constantes au cours de is l'expérience.
Le fait de travailler avec des ratios permet donc de fixer leurs valeurs selon les mémes principes que pour le Glucose X. = x~t ~ xo , 2o Donc au temps initial (T0 = 0), X;o = x~o ~ x~o = 1, Et, la valeur de X; étant considérée comme constante au cours du temps, elle reste toujours égale à 1. ' II en découle le tableau de valeurs suivant ?s Molcule du rseau : Glutamate Temps exprimental0 2,5 4 6 7,5 9,5 11,5 (heures) Valeur du ratio Molcule du rseau : Actate Temps exprimental0 2,5 4 6 7;5 9,5 11,5 (heures) _ Valeur ' du ratio i aaieau ~~ : vapeurs des variables associées respectivement à la molécule du graphe : Glutamate et à la molécule du graphe : Acétate ~n a donc produit deux tableaux sous la forme de fichiers plats de type txt, s avec une correspondance mutuelle par le code ORF de chaque molécule (concernant les protéines / ARN messagers) ou le nom de molécule (concernant le Glucose, le Glutamate et l'Acétate). Dans cet exemple de mise en oeuvre il n'a pas été nécessaire d'utiliser de base de données.
1o Mise en eeuvre de la méthode Les étapes A et B ou l'étape A' ont été mises en oeuvre de manière similaire à l'exemple 4 1s Un lissage des données a été effectué par extrapolation linéaire.
On a considéré que l'état initial, qui correspond aux mesures expérimentales au temps T0, serait un état stable si le milieu de culture avait été maintenu constant en le supplémentant en glucose.
A la différence de l'exemple 4, on n'a pas défini un état final du graphe qui correspondrait à un retour à l'état initial suite à une supp(émentation en glucose après le temps 7 (T0 + 12 heures). Les seules données s expérimentales à avoir étë utilisées pour le calcul des paramètres ont donc été les données effectivement décrites dans l'article et présentes sur le site internet de l'Université de Stanford à l'adresse http:/lcmgm.stanford.edu/pbrown/explore/arra~, et correspondantes aux molécules du réseau, sans aucune extrapolation autre que celle concernant to les molécules Glucose, Glutamate et Acétate décrites plus haut.
De même que dans !'exemple 4, la relation utilisée entre les variables X;
correspondant à la molécule i et les variables X~- correspondant aux molécules j interagissant sur i a été la suivante Is (dX;/dt) = K~~ . [1 / (1 + e ~w~~.x-n. ) 1 _ ~~~ . ~~
Le pas d'apprentissage pour le calcul des paramètres a été fixé à 1â
minutes.
Le calcul des paramètres et le reste des méthodes mises en oeuvre a été
effectué comme décrit dans l'exemple 4, aboutissant à l'obtention d'un graphe dynamique, entièrement déterministe, permettant de réaliser des simulations.
L'étape C a été mise en oeuvre comme suit L'objectif a été de montrer fa capacité de la méthode à prédire un résultat ~o nouveau non utilisé pour la construction du graphe dynamique.
Toujours dans le même article : DeRisi JL, lyer VR, Brown PO : Exploring the metabolic and genetic control of gene expression on a genomic scale, Science. 1997 Oct 24 ;278(5338) :680-6, les auteurs ont aussi effectué un criblage d'expression d'ARN messagers d'une souche génétiquement s modifiée de levure, dans laquelle a été effectué le « knock out »
(« délétion ») du gène TUP1 (code de son ORF dans la base de données SGD : YCR084C), présent dans le graphe statique de 133 molécules. Ces données n'ont pas été utilisées pour la construction du graphe dynamique lors des étapes A et B. . ' 1o Les conditions de culture et de criblage de cette souche sont amplement décrites dans l'article, mais pour plu, s, de clarté dans la description de cet exemple de mise en oeuvre, on peut- noter les points- suivants concernant ce criblage : la souche génétiquement modifiée a été cultivée dans les 1s mêmes conditions de culture que la souche sauvage utilisée pour le reste des expériences, en présence de glucose, ce qui correspond pour la souche sauvage aux conditions de culture au temps initial des autres criblages effectués et décrits dans l'exemple 4 (T = TO). Ce criblage a été
effectué en mesurant les rapports entre le niveau d'expression de chaque 2o gène dans la souche présentant la délétion du gène TUP1 par rapport au niveau d'expression du même gène dans la souche ne présentant pas de délétion (souche sauvage). Ces données sont donc exprimées par rapport au même référentiel de mesure que celles décrivant les cinétiques lors de la privation de glucose (voir exemple 4), ce référentiel correspondant au 2s temps initial des autres criblages effectués et décrits dans l'exemple 4 (T
=
TO).
Afin de montrer la capacité de la méthode à sélectionner de façon pertinente des molécules-cibles sur lesquelles une action biologique ou ~o pharmacologique permet de faire évoluer le système biologique étudié vers un état donné, on a donc utilisé le graphe dynamique obtenu par la mise en oeuvre des étapes A et B pour poser la question suivante : « où faudrait-il agir sur le réseau de 133 molécules pour faire évoluer ce réseau vers un état le plus proche possible de l'état décrit par le criblage d'expression de la souche présentant la délétion du géne TUP1 ? » Cette question est s exactement du même type que celles posées dans la description de la mise en oeuvre de la méthode en vue de la sélection de cibles thérapeutiques.
Dans la mesure où la souche de levure présentant la délétion du gène TUP1 ne diffère initialement de la souche « sauvage » que par cette 1o délétion, on a donc défini « l'état à modifier » du graphe comme étant l'état de référence de la souche sauvage cultivée en présence de glucose, c'est à dire son état au temps initial des autres criblages effectués, décrits dans l'exemple-4 (T = TO) et dont les résultats pour 130 des molécules du réseau (autres que Glucose, Glutamate et Acétate) sont disponibles sur le site 1s internat de l'Université de Stanford à l'adresse htt~:llcmam.stanford.edu/pbrown/explore/array.txt.
Les données de criblage d'expression d'ARN messagers correspondant à
cet état ont donc été celles du temps initial utilisé pour la construction du 2o graphe dynamique. Ces données permettent de définir numériquement l'état à modifier : une valeur numérique de ratio d'expression est associée à
chaque molécule du réseau ; concernant les trois métabolites Glucose, Glutamate et Acétate, leur valeur dans l'état à modifier a aussi été leur valeur au temps 0 telle que décrite plus haut. Cette définition de l'état à
2s modifier est donnée ici à titre d'exemple. Un autre état à modifier aurait pu être défini par l'homme de l'art face à la mise en oeuvre de l'invention pour d'autres applications.
L'étape D a été mise en oeuvre comme suit ~o Cette étape consiste à pratiquer des simulations itératives, telles que décrites dans l'invention.
La question posée à laquelle les simulations devaient répondre a été : « où
s faudrait-il agir sur le réseau de 133 molécules pour faire évoluer ce réseau vers un état le plus proche possible de l'état décrit par le criblage d'expression de la souche présentant la délétion du gène TUP1 ? »
La souche de levure présentant la délétion du gène TUP1 ne diffère 1o initialement de la souche « sauvage » que par cette délétion. Cette délétion revenant à une inhibition constante de l'expression du gène TUP1, les simulations ont consisté à simuler, de façon itérative, l'inhibition constante de chacune des 133 molécules du réseau, et à effectuer un calcul de propagation au cours du temps de cette inhibition au sein du réseau. Pour Is chaque simulation, une seule molécule du réseau a été inhibée, puisque l'état à atteindre correspond à une évolution du système biologique modélisé (la souche de levure) suite à une seule inhibition (délétion du gène TUP1). On a donc réalisé 133 simulations.
2o D'après les commentaires des auteurs, les données expérimentales de l'article et les données de criblage d'expression d'ARN messagers concernant la souche présentant la délétion du gène TUP1 (accessibles sur le site internet de l'Université de Stanford à l'adresse http://cmgm.stanford.edu/pbrown/explore/tupsearch.html), la délétion du 2s gène était incomplète dans cette expérience biologique, le ratio : [niveau d'expression du gène TUP1 dans la souche délétée] / [niveau d'expression du gène TUP1 dans la souche sauvage] étant égal à 0,1 dans une mesure, et à 0,45 lors de la réplication de la mesure (moyenne : 0,28) . Dans le cas d'une délétion complète ce ratio aurait été égal en théorie à 0, et égal en ~o pratique au bruit expérimental de mesure.
Pour la mise en oeuvre des simulations, afin de pouvoir reproduire une inhibition de type délétion, on a donc défini numériquement l'inhibition, pour chaque molécule du graphe, comme la multiplication par un facteur 0,1 du niveau d'expression de cette molécule au temps initial (état à modifier tel s que défini plus haut), ce facteur correspondant à la valeur de l'inhibition la plus forte mesurée expérimentalement pour ce gène.
Donc pour chacune des 133 simulations effectues, la simulation a consisté à imposer une valeur X; constante dans le temps telle que ?C; _ [0ï1 1o . X;o j à une molécule unique i du graphe (X;o = valeur_ d'expression (ratio) de la molécule i au temps expérimental initial T = TO),~ les valeurs -des X;
des autres molécules étant initialement fixées à leur valeur dans l'état à
modifier défini plus- haut, et libres d'évoluer dans le graphe dynamique en fonction des calculs de propagation. Pour chacune des 133 simulations, la 1s molécule i a été différente : l'effet de chaque inhibition d'un facteur 0,1 sur chaque molécule du graphe a été testé de façon systématique.
Dans cet exemple de mise en ceuvre, l'inhibition a été imposée comme constante dans le temps fors des simulations : ainsi, lors des calculs de 2o propagation, un éventuel retour de propagation sur la molécule i inhibée (« feedback ») a été sans effet sur cette inhibition (X; restant stable à sa valeur initiale de simulation). Ceci a été effectué afin de reproduire l'effet de la délétion d'un gène, quï est elle-même constante dans le temps. Ceci n'est cependant pas un pré-requis de la mise en oeuvre de l'invention. Dans 2s fa mise en oeuvre de l'invention pour d'autres applications, l'homme de l'art peut décider de simuler des activations ou des inhibitions non constantes dans le temps, où à des temps différents. , Le calcul de propagation au sein du graphe suite à chacune des 133 3o inhibitions a été poursuivi pendant une durée simulée de 12 heures.
Ces éléments étant posés, l'étape D a été mise en oeuvre comme décrit dans l'invention, sans particularité notable, et sans présenter de difficulté
particuliére pour l'homme de l'art. Les calculs de simulations, consistant à
propager l'inhibition initiale au cours du temps ont été réalisées par les s mêmes principes et les mêmes outils que les simulations faisant partie de la procédure de calcul des paramètres.
Chacune des 133 simulations de l'étape D a ainsi aboutit, au temps 12 heures (durée de la propagation simulëe), au calcul d'une nouvelle valeur 1o numérique associée à chaque molécule du réseau, définissant un état du graphe : « état obtenu par simulation ». On a donc obtenu 133 « états obtenus par simulation » différents.
L'étape E a été mise en oeuvre comme suit Cette étape consiste à hiérarchiser les molécules du graphe, et les effets exercés sur ces molécules lors des simulations, en référence à la proximité
plus ou moins grande de la résultante de ces effets avec un état du graphe à atteindre.
Dans cet exemple de mise en oeuvre, l'état à atteindre a été l'état de la souche de levure présentant une délétion du gène TUP1 décrite plus haut.
Ces données de criblage d'expression d'ARN messagers dans les 2s conditions de délétion du gène TUP1 sont disponibles sur le site internet de l'Université de Stanford à l'adresse http://cmgm.stanford.edu/pbrown/explore/tupsearch.html . Elles ont été
saisies manuellement pour chaque molécule du graphe par une requête concernant l'ORF de cette molécule à cette adresse et insérées dans un ~o fichier plat de type txt sous la forme (par exemple pour le gëne CIT1 ) ORF NOM VALEUR
YNR001 C CIT1 0.85 Tableau 13 : Exemple de donnée de criblage sur puce à ADN pour une molécule du graphe, dans la condition expérimentale de délétion du gène TUP1, à partir des résultats de (article : DeRisi JL, lyer VR; Brown PO : Expioring the metabolic and genetic control of gens expression on a s genomic scale, Science. 1997 Oct 24 ;278(5338) :680-6. Pour chaque molécule i, la valeur du X; mesurée expérimentalement correspond à la colonne « Avg. R/G a> dans les données expérimentales accessibles sur le site internat : http://cmam.stanford.edu/pbrown/explore/tupsearch.html.
1o La valeur du X; correspondant au Glucose pour la souche présentant.:la délétion du gène TUP1 a été fixée à 1 puisque le criblage a été pratiqué sur une culture en présence de glucose. Les valeurs des X; correspondant, au Glutamate et à !'Acétate pour la souche présentant la délétion-du gène TUP1 ont été fixées à 1 puisque le criblage a été pratiqué sur une souche 1s dans un milieu de culture identique à celui de la souche sauvage au temps 0 (entre les deux cultures; les ratios des métabolites dans le milieu de culture sont donc égaux à 1).
ORF NOM ValeurORF NOM ValeurORF NOM Valeur YKLIOW AAT1 0.64 YDL021W GPM2 0.99 YCR012W PGK1 1.74 YKL112W ABF1 0.87 YGR032W GSC2 1.69 YKL127W PGM1 1.19 YBL015W ACH1 0.85 YFR015C GSY1 4.26 YMR105C PGM2 0.54 YLR304C AC01 1.26 YLR258W GSY2 1.02 YER003C PM140 0.92 YAL054C ACS1 0.84 YHL032C GUT1 1.06 YDL055C PSA1 1.24 YLR153C ACS2 1.28 YBL021C HAP3 0.65 YGL062W PYC1 0.74 YOL086C ADH1 0.97 YKL109W HAP4 1.37 YBR218C PYC2 1.25 YMR303C ADH2 1.48 YDR138W HPR1 0.60 YAL038W PYK1 1.74 YBR145W ADH5 0.89 YFR053C HXK1 1.13 YOR347C PYK2 1.25 YDR216W ADR1 1.55 YGL253W HXK2 2.00 YNL216W RAP1 1.00 YMR170C ALD2 0.61 YER065C ICL1 0.96 YCR036W RBK1 1_00 YMR169C ALD3 0.69 YNL037C IDH1 0.74 YBL082C RHK1 1_17 YPL061W ALD6 1.69 YOR136W IDH2 0.80 YOR095C RKI1 1.22 YPR026W ATH1 1.23 YDL066W IDP1 0.75 YJL121C RPE1 1.21 YDR423C CAD1 1.08 YLR174WIDP2 0.75 YOL067C RTG1 0.84 YMR280C CAT8 0.79 YJR094CIME1 1.14 YGL252C RTG2 0.76 YAL021C CCR4 0.92 YJL106WIME2 1.44 YBL103C RTG3 0.71 YNR001C CIT1 0.85 YIL125WKGD1 0.99 YKL148C SDH1 0.81 YCR005C CIT2 0.93 YDR148CKGD2 0.86 YLL041 SDH2 0.70 C .
YML054C CYB2 0.70 YFL018CLPD1 0.90 YKL141W SDH3 1.12 YIR031C DAL7 0.86 YGR244CLSC2 1.73 YDR178W SDH4 1.10 YDL174C DLD1 0.68 YBR299WMAL32 7.23 YFL045C SEC53 1.69 YGR254W EN01 1.77 YKL085WMDH1 0.85 YDL168W SFA1 0.76 YHR174W ENO2 1.61 YOL126CMDH2 0.95 YOL004W SIN3 1.05 YDR261 EXG2 1.29 YDL078CMDH3 0.92 YDR477W SNF1 1.41 C ' YKL060C FBA1 1.47 YGL035CMIG1 0.95 YOR290C SNF2 0.82 YLR377C FBP1 1.13 YGL209WMIG2 1.33 YDL194V11 SNF3 0.71 YJL155C FBP261.47 YER028CMIG3 0.90 YCR073W-A Sol2 0.79 .
YPL262W FUM1 0.79 YNL117WMLS1 0.68 YBR-112C SSN6 0.93--YBR020W GAL1 1.14 YMR037CMSN2 0.44 YIL162W SUC2 8.71 YBR019C GAL100.63 YKL062WMSN4 3.66 YPL016W SWI1 1.04 YPL248C GAL4 0.75 YDR001CNTH1 0.83 YJL052W TDH1 1.91 YBR018C GAL7 0.67 YBR001 NTH2 0.87 YJR009C TDH2 1.72 C
YPL075W GCR1 1.02 YKR097WPCK1 1.15 YGR192C TDH3 1.64 YMR189W GCV2 0.97 YER178WPDA1 1.35 YBR117C TKL2 1.32 YEL011W GLC3 1.10 YNL071WPDA2 0.92 YDR050C TPI1 1.32 YCL040W GLK1 0.83 YBR221CPDB1 1.04 YBR126C TPS1 0.61 YDR272W GLO2 0.81 YLR044CPDC1 1.19 YDR074W TPS2 0.72 YGR256W GND2 1.01 YLR134WPDC5 1.55 YML100W TSL1 0.34 YPR160W GPH1 1.11 YGR087CPDC6 1.13 YCR084C TUP1 0.1 YKL152C GPM1 1.34 YGR240CPFK1 2.06 YOR344C TYE7 0.97 YNL241C ZWF1 0.65 YMR205CPFK2 0.67 YKL035W UGP1 2.16 YIL107C PFK261.17 YML007WYAP1 0.43 NOM NOM Valeur YBR196C PGI1 2.48 NOM NOM ValeurGlutamate Glutamate1 YDR207C UME6 0.99 GlucoseGlucose1 Actate Actate 1 ~ ormeau -m : ms~e compieze ores vapeurs ae netat a atteindre tel que défini plus haut L'ensemble de ces valeurs définit donc numériquement un état du graphe s « l'état à atteindre ».
L'étape E consiste alors à calculer la distance entre d'une part « l'état à
atteindre » du graphe, et d'autre part chacun des 133 « états obtenus par simulation » du graphe obtenus à l'étape D.
s Ce calcul de distance est décrit précédemment (proximité des états du graphe) et ne pose pas de difficulté particulière à l'homme de l'art. II
consiste à comparer deux états du graphe en comparant deux à deux l'ensemble des valeurs X; associées à chaque molécule i du graphe.
1o Dans cet exemple précis, le calcul de distance utilisé a été effectué en deux étapes L'étape 1 a consisté à effectuer une première classification par des calculs 1s de distance de façon classique Distance d'ordre 1 : somme des valeurs absolues des différences entre les valeurs des X; mesurées expérimentalement lors de la délétion du gène TUP1 (X;2 dans La formule ci-dessous) et les valeurs des X; mesurées par simulation (X;~ dans la formule ci-dessous) 20 ~ ~ ~~~ - ~~z ~n a donc obtenu 133 calculs de distance, chacun correspondant à la distance entre d'une part l'état obtenu par simulation d'une propagation de 2s 12 heures suite à l'inhibition d'une des molécules du graphe d'un facteur 0,1 et d'autre part l'état à atteindre.
Ces 133 distances calculées ont ensuite été classées en ordre de valeur croissant (de la plus grande proximité avec l'état à atteindre vers la plus ~o grande distance avec l'état à atteindre). Cette classification correspond directement à la classification des molécules du graphe, de celle dont l'inhibition fait évoluer le graphe vers un état le plus proche de l'état à
atteindre, à celle dont (inhibition fait évoluer le graphe vers un état le plus éloigné de l'état à atteindre : il en a résulté une classification directe, et donc une hiérarchisation, des molécules-cibles sur lesquelles agir par s inhibition pour faire évoluer le graphe vers l'état qu'il présente lorsque le gène TUP1 est déiété.
L'étape 2 a consisté, à la suite de cette première classification, à
l'affiner, Les molécules mieux classées que les molécules « outputs » du graphe 1o lors du classement précédent (distances les plus faibles) ont été classées à
nouveau entre elles par un second calcul de distance plus qualitatif : la diffërence entre la « sensibilitë » et la e< spécificité » des simulations distance = sensibilité - spécificité. -Cette étape de classificatian est donnée ici à titre d'exemple mais n'est pas indispensable à la mise en oeuvre de 1s l'étape E.
La sensibilité et la spécificité des simulations ont été calculées comme suit A partir des données expérimentales mesurées lors du criblage 2o d'expression d'ARN messagers de la souche de levure présentant une délétion du gène TUP1, on a identifié toutes les molécules du graphe présentant une variation d'expression supérieure à un facteur 2 par rapport à l'état de référence (souche de levure sauvage au temps initial T = TO en présence de glucose), soit un groupe A de molécules.
De même, pour chaque e< état obtenu par simulation » on a identifié toutes les molécules du graphe présentant une variation d'expression supérieure à un facteur 2 par rapport à l'état de référence (souche de levure sauvage au temps initial T = TO en présence de glucose), soit un groupe B; de molécules. B; = groupe de toutes les molécules du graphe présentant une variation d'expression supérieure à un facteur 2 par rapport à l'état de référence suite à la simulation de l'inhibition de la molécule i du graphe.
La sensibilité a alors été définie, pour chacune des 133 simulations, comme s le nombre de molécules du groupe B; effectivement présentes dans le groupe A. Cela revient à évaluer, pour les variations quantitativement importantes d'expression des molécules (supérieures à un facteur 2) si la simulation induit effectivement les variations présentes dans les données expérimentales de l'état à atteindre. Plus la valeur de la sensibilité est io élevée, plus la distance entre les deux états du graphe comparés est faible.
La spécificité a alors été définie, pour chacune des 133 simulations, comme - le nombre de molécules du groupe B; absentes du groupe A. Cela revient à
évaluer, pour les variations quantitativement importantes d'expression des is molécules (supérieures à un facteur 2) si la simulation n'induit pas des variations d'expression absentes dans les données expérimentales de l'état à atteindre. Plus la valeur de la spécificité est faible, plus la distance entre les deux états du graphe comparés est faible.
2o La différence sensibilité - spécificité revient donc à évaluer la distance sur les critères combinés de l'induction par la simulation des variations d'expression présentes dans l'état à atteindre et de la non-induction par la simulation de variations d'expression absentes dans l'état à atteindre.
2s Ces deux calculs (sensibilité et spécificité) reviennent simplement à
compter 'pour chaque état du graphe le nombre de variables X; dont la valeur est supérieure à 2 ou inférieure à 0,5 et ne posent aucune difficulté à
l'homme de l'art. Ils peuvent d'ailleurs être effectués manuellement.
3o La différence entre les deux valeurs, sensibilité - spécificité, est elle aussi très simple et peut par exemple être calculée de façon manuelle, ou automatique par un tableau de logiciel Excel (Microsoft) ou tout autre logiciel équivalent.
Résultats Résultats de la mise en ceuvre des étapes A et B ou de l'étape A' Lors des simulations, l'efficacité de la méthode a été vérifiée.
1o Dans l'exemple montré ici, le calcul d'erreur. globale relative d'apprentissage a été de 25,90 %, ce qui est satisfaisant. Ce résultat d'erreur relative globale montre que les cinétiques calculées lors des simulations sont proches des données- réelles ; des cinétiques aléatoires auraient donné un calcul d'erreur supérieur à 1.
Exemple de courbes de paramétrage La figure 5 donne à titre d'exempte les cinétiques mesurées expérimentalement (en blanc) et les cinétiques calculées par simulation (en noir) pour quelques molécules représentatives de l'ensemble des 2o résultats obtenus par la mise en aeuvre de cette variante des étapes A et B
ou de l'étape A'.
On voit que ce résultat est très satisfaisant, d'autant plus si l'on tient compte des erreurs de mesures. Les considérations de l'exemple 4 à ce 2s sujet restent pertinentes ici aussi. Le calcul des paramètres effectué à
l'étape B a donc permis d'obtenir un graphe dynamique rendant bien compte des données expérimentales utilisées pour le calcul.
Résultats de la mise en oeuvre des étapes C, D et E (capacité prédictive de ~o l'invention) Ces trois étapes aboutissent à la classification hiérarchique des molécules par classification hiérarchique des distances calculées entre d'une part l'état à atteindre (délétion du gène TUP1) et d'autre part les 133 états obtenus par simulation.
s Lors de la mise en oeuvre de ces étapes de simulations, l'efficacité de la méthode a été vérifiée.
Le résultat de la première étape de classification est résumé à titre 1o d'exemple dans le tableau suivant, sous la forme d'un tableau récapitulatif.
Chaque molécule du réseau est classée par la distance entre l'état à
atteindre du graphe et l'état du graphe obtenu par la simulation de l'inhibition constante-par un facteur-0,1 de cette molécule. -Classeme Classeme' Abrviati brviatio nt de nt de ode ORF la ode ORF on du la n du de la nom stance molcule de la nom stance molcule molcule de la comme molcule de comme molcule cible la cible otentielle molcule otentielle YCR084C TUP1 50,30921 YDL174C DLD1 54,9756f8 YOL004W SIN3 51,00632 YDL066W IDP1 55,866369 YMR170C ALD2 51,10743 YML054C CYB2 56,105570 YPL075W GCR1 51,10824 YJL121C RPE1 56,321271 YKL112W ABF1 51,123 5 YDR477W SNF1 56,561572 YAL021C CCR4 51,26946 YML007W YAP1 56,607473 YBL015W ACH1 51,34137 YPR160W GPH1 56,891 74 YBR221C PDB1 51,38658 YGR192C TDH3 57,855575 YDR423C CAD1 51,45569 YGR244C LSC2 59,390476 YDL194W SNF3 51,474910 YKL148C SDH1 59,611177 YDR138W HPR1 51,488511 YOR095C RKI1 60,012278 Acetate Acetate 51,62 12 YKL085W MDH1 60,318879 YML100W TSL1 51,665813 YDR261C EXG2 61,768280 YKL152C GPM1 51,744214 YCR073W Sol2 62,425381 YER028C MIG3 51,885215 YLL041C SDH2 65,127982 YPL016W SWI1 51,931516 YFL018C LPD1 65,529383 YBR019C GAL10 52,098517 YDL168W SFA1 67,379184 YNL037C IDH1 52,104318 YPL248C GAL4 69,027785 YNL241C ZWF1 52,155419 YDR001C NTH1 70,665686 YLR174W IDP2 52,185420 YKL035W UGP1 70,733187 YER003C PM140 52,274721 YDR216W ADR1 71,666188 YOR347C PYK2 52,313122 YOR290C SNF2 75,399889 YLR377C FBP1 52,322223 YOR344C TYE7 75,558 90 YBR018C GAL7 52,330924 YMR303C ADH2 76,304391 YIL125W KGD1 52,415725 YKL127W PGM1 76,366992 YBR020W GAL1 52,532226 YGR240C PFK1 80,794893 YMR189W GCV2 52,56 27 YMR205C PFK2 80,863894 YPR026W ATH1 52,560228 YKL062W MSN4 80,923495 YJR094C IME1 52,618 29 YBR112C SSN6 81,024996 YHL032C GUT1 52,62 30 YOL126C MDH2 81,397297 YCR036W RBK1 52,62 30 YGL253W HXK2 81,410598 YBL082C RHK1 52,62 30 YDR207C UME6 81,728399 YJL106W IME2 52,624533 YBR117C TKL2 81,8707100 YGR032W GSC2 52,666834 YDR050C TPI1 81,9934101 YJL155C FBP26 52,68 35 YGR256W GND2 82,2732102 YDR178W SDH4 52,691236 YKL060C FBA1 82,6368103 YOR136W IDH2 52,706137 YCR012W PGK1 82,914 104 YBR126C TPS1 52,706638 YPL262W FUM1 84,2271105 YNL117W MLS1 52,730539 YNL216W RAP1 88,1744106 YJR009C TDH2 52,742540 YER178W PDA1 93,9945107 YLR304C ACO1 52,768641 YPL061W ALD6 94,028 108 YLR258W GSY2 52,786242 YIR031C DAL7. 95,3142109 YJL052W TDH1 52,791943 YBR145W ADH5 96,306 110 YEL011W GLC3 52,814844 YGL062W PYC1 96,4488111 YCL040W GLK1 52,846845 YMR169C ALD3 96,6949112 YFR015C GSY1 52;853246 YAL038W PYK1 96,757 113 YDL055C PSA1 52,935547 YOL086C ADH1 96,8929114 YAL054C ACS1 52,952148 YLR134W PDCS 97,253 115 YIL162W SUC2 53,000249 YLR044C PDC1 97,4796116 YCR005C CIT2 53,036750 YBL103C RTG3 97,6865117 YFL045C SEC53 53,040651 YLR153C ACS2 98,144 118 YDR074W TPS2 53,095 52 YGR087C PDC6 99,9862119 YBR001C NTH2 53,195 53 YKL106W AAT1 99,9904120 YIL107C PFK26 53,213554 YGR254W EN01 100,173121 YDR272W GL02 53,226 55 YOL067C RTG1 100,764122 YGL209W MIG2 53,226756 YGL252C RTG2 100,985123 YKR097W PCK1 53,403257 YBR218C PYC2 101,788124 YER065C ICL1 53,475258 YHR174W EN02 103,602125 YGL035C MIG1 53,620659 YBL021C HAP3 104,029126 YKL141W SDH3 53,699 60 YNL071W PDA2 105,661127 YFR053C HXK1 53,743161 YDL078C MDH3 106,786128 YBR299W MAL32 53,937562 YDL021W GPM2 107,919129 YNR001C CIT1 54,006763 YMR280C CAT8 114,496130 GlutamateGlutamate54,019964 YMR037C MSN2 136,244131 YMR 1050PGM2 54,134165 Glucose Glucose148, 132 YKL109W HAP4 54,604 66 YBR196C PGI1 149,879133 YDR148C KGD2 54,690667 nabieau ~s : uistances entre l'état à atteindre du graphe et l'état du graphe obtenu par la simulation de l'inhibition constante par un facteur 0,1 de chaque molécule s Le classement par ordre croissant des distances donne directement le classement des molécules de celle dont l'inhibition est la plus susceptible de provoquer l'état à atteindre du graphe à celle dont l'inhibition est La moins susceptible de la provoquer. ~n voit que la molécule TUP1 est classée en première position, ce qui est bien le résultat attendu. La méthode est donc validée.
s La figure 6 donne à titre d'exemple une représentation schématique de ce résultat de classification des molécules du réseau. Chaque point correspond à une molécule du réseau. Les ordonnées correspondent aux valeurs de distance calculées. En abscisse les 133 molécules du réseau sont classées 'de gauche à droite de celle associée à la distance la plus 1o faible à celle associée à la distance la plus élevée. .
II est évident qu'on a bien obtenu directement . une classification des molécules du graphe. Celle-ci est- de même nature et a-été obtenue selon les mêmes méthodes que celle qui serait obtenue dans une application de 1s l'invention pour la recherche de cibles thérapeutiques.
Selon cette classification, la molécule TUP1 est classée en première position. Ce résultat est tout à fait satisfaisant. A titre d'exemple, le test expérimental des 5 premières molécules telles que classées ici donnerait Zo donc un taux de succès de 100% pour la sélection de la molécule pertinente.
Cette classification présente aussi l'intérêt de pouvoir définir un « bornage » de l'ensemble des molécules-cibles sélectionnées. En effet, 2s certaines molécules du graphe n'envoient pas d'interaction vers une autre molécule (ce sont donc des « sorties » ou « outputs » du graphe « molécules outputs » dans la suite du texte) ; la simulation de l'inhibition de ces molécules n'entraîne donc pas de propagation de l'inhibition au sein du graphe qui reste donc globalement stable (puisqu'on a considéré que 30 l'état initial était stable). De ce fait, ces molécules sont d'ailleurs classées dans un groupe contigu, de la 27iéme position à la 30ième position. Les molécules moins bien classées que les molécules outputs ne sont donc pas intéressantes en tant que molécule-cible.
En d'autres termes, le classement peut être interprété comme suit : la s molécule la mieux placée est celle dont la simulation d'inhibition aboutit à
l'état du graphe le plus proche de l'état à atteindre. Pour les molécules suivantes on s'éloigne progressivement de l'état à atteindre, en se dirigeant vers l'état à modifier qu'on atteint lorsqu'on arrive aux molécules outputs (cet état n'étant pas modifié lors de fa simulation de l'inhibition des 1o molécules outputs, à la molécule output près). Au delà des molécules outputs, les simulations d'inhibition aboutissent à des états du graphe qui s'éloignent progressivement à la fois de fëtat à atteindre et de l'état à
modifier.
1s On a bien aboutit à la sélection d'un nombre limité de molécules-cibles (celles qui sont mieux classées que les outputs, ici 26 molécules), qui sont elles-mêmes hiérarchisées en terme de priorité. Le classement de la molécule TUP1 montre que cette hiérarchisation est satisfaisante.
2o L'étape 2 de classification (le calcul sensibilité - spécificité), bien que non indispensable compte-tenu du résultat qui précède, a été ensuite mise en oeuvre afin d'améliorer fa classification des cibles. Elfe n'a été appliquée qu'aux molécules du graphe mieux classées que les molécules outputs à
l'étape précédente (é6 molécules). Le classement ainsi obtenu est donné
2s dans le tableau 17.
Etape E : second type de classement des molcules :
classement qualitatif DifiFrence : [Sensibilit - Spcificit]
Code ORF Abrviation Sensibilit - Spcificit Acetate Acetate 0 YIL125W I<GD1 -1 YOR347C PYI<2 -5 Tableau 17 : Hiérarchie finale des molécules-cibles sélectionnées (les 26 molécules avant les outputs) Les molécules sont classées en ordre décroissant de la différence arithmétique [sensibilité - spécificité]. On voit que TUP1 est la seule s molécule du graphe pour laquelle la sensibilité est supérieure à la spécificité. Ceci l'individualise des autres sur des critères qualitatifs. Ici encore, TUP1 est en première position dans la hiérarchie des cibles potentielles.
1o La molécule-cible TUP1 est classée en première position. C'est bien la molécule du graphe dont l'inhibition par délétion du gène induit l'évolution du système biologique étudié vers l'état à atteindre. L'efficacité de la méthode est donc vérifiée : sélection d'un nombre restreint de molécules-cibles, et pertinence du classement hiérarchique de ces cibles.
1s L'ensemble de la mise en oeuvre des étapes A et B, ou A', puis C, D et E a été réalisé plus d'une dizaine de fois, et a systématiquement donné des résultats similaires à chaque fois (avec classement de TUP1 toujours dans les 5 premières molécules par le premier mode de classement). Ceci montre sans ambiguïté la reproductibilité de la méthode ainsi que son efFicacité.
s Si le classement des molécules était effectué au hasard, la probabilité de classer la molécule TUP1 en première position ne serait que de 0,0075 (_ 1/133), et la probabilité de répéter 10 fois ce classement de l'ordre de 5.10-3~ (= 0,0075°). II est clair que le résultat obtenu dans cet exemple de mise 1o en oeuvre n'est pas dû au hasard et est extrêmement significatif.
Ceci montre la capacité de la méthode à prévoir la cible sur laquelle il faudrait agir, et le type d'action (ici une inhibition) pour atteindre un état donné, c'est à dire la capacité de la méthode à identifier l sélectionner /
1s classer des cibles thérapeutiques.
Claims (39)
1. Procédé d'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique, permettant l'analyse dudit réseau d'interactions lorsqu'un stimulus est appliqué au modèle dynamique, en vue notamment de hiérarchiser des molécules biologiques ou de sélectionner des cibles thérapeutiques vis-à-vis d'un problème biologique donné, pour en particulier définir une action thérapeutique à appliquer auxdites molécules, ledit procédé étant mis en oeuvre par un système informatique et comprenant les étapes suivantes:
A) à partir d'un graphe statique dont les sommets représentent des molécules biologiques et les arcs représentent des interactions physico-chimiques existant entre ces molécules, associer une variable quantitative X; mesurée expérimentalement à chaque sommet i, et une relation mathématique à chaque arc du graphe, chacune desdites relations présentant les caractéristiques suivantes:
- elle comprend un terme inertiel (i) qui tend vers une limite finie;
- elle comprend un terme (ii) tendant à faire revenir les variables X; à
leur état initial, de signe inverse au terme inertiel (i), et dont la variation en fonction du temps croit en valeur absolue de façon plus lente que la variation en fonction du temps du terme inertiel (i);
- elle comporte un facteur de pondération W ij qui permet de tenir compte de la combinaison d'effets pouvant s'exercer sur chaque sommet du graphe;
B) calculer les paramètres de chaque relation à partir de données expérimentales quantitatives concernant les sommets du graphe, par la mise en oeuvre de techniques d'apprentissage par descente de gradient utilisées pour le paramétrage de réseaux.
A) à partir d'un graphe statique dont les sommets représentent des molécules biologiques et les arcs représentent des interactions physico-chimiques existant entre ces molécules, associer une variable quantitative X; mesurée expérimentalement à chaque sommet i, et une relation mathématique à chaque arc du graphe, chacune desdites relations présentant les caractéristiques suivantes:
- elle comprend un terme inertiel (i) qui tend vers une limite finie;
- elle comprend un terme (ii) tendant à faire revenir les variables X; à
leur état initial, de signe inverse au terme inertiel (i), et dont la variation en fonction du temps croit en valeur absolue de façon plus lente que la variation en fonction du temps du terme inertiel (i);
- elle comporte un facteur de pondération W ij qui permet de tenir compte de la combinaison d'effets pouvant s'exercer sur chaque sommet du graphe;
B) calculer les paramètres de chaque relation à partir de données expérimentales quantitatives concernant les sommets du graphe, par la mise en oeuvre de techniques d'apprentissage par descente de gradient utilisées pour le paramétrage de réseaux.
2. Procédé d'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique selon la revendication 1, dans lequel les relations mathématiques associées aux arcs sont continues.
3. Procédé d'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique selon la revendication 1 ou 2, dans lequel chaque variable quantitative X i associée à un sommet représente la variation relative de la quantité de la molécule correspondant audit sommet, par rapport à la quantité de la même molécule dans un état étalon du système biologique.
4. Procédé d'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique selon l'une des revendications 1 à 3, dans lequel le terme inertiel (i) est exprimé sous la forme d'une relation mathématique présentant une ou plusieurs inflexion(s).
5. Procédé d'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique selon la revendication 4, dans lequel le terme inertiel (i) est exprimé sous la forme d'une relation sigmoïde ou d'une relation d'oscillation.
6. Procédé d'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique selon l'une quelconque des revendications 1 à 5, dans lequel l'étape B) est effectuée par descente de gradient simple, en prenant comme base de calcul les couples de données (X i, X j) fournis par les données expérimentales, indépendamment les uns des autres, ou par descente de gradient dans le temps, les couples (X i, X j) n'étant alors pas considérés comme indépendants les uns des autres.
7. Procédé d'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique selon l'une quelconque des revendications 3 à 6, dans lequel les données expérimentales quantitatives concernant les sommets du graphe sont obtenues par l'utilisation des techniques de criblage à grande échelle.
8. Procédé d'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique selon l'une quelconque des revendications 3 à 6, dans lequel l'état étalon est un état stable du système biologique, dans lequel la quantité de chaque molécule associée à un sommet du graphe est mesurée expérimentalement.
9. Procédé d'analyse d'un- réseau d'interactions moléculaires dans un système biologique, par la mise en oeuvre d'un système informatique, comportant les étapes suivantes :
A') utilisation d'un modèle dynamique du réseau d'interactions moléculaires, ledit modèle étant construit à partir d'un graphe statique dont les sommets représentent des molécules biologiques du système biologique et les arrêtes représentent des interactions physico-chimiques entre ces molécules, et à partir de données expérimentales concernant les taux ou les activités de ces molécules biologiques et susceptible d'être obtenu, par un procédé selon l'une quelconque des revendications 1 à 8, , C) un état du graphe, mesuré expérimentalement, est choisi comme "état à modifier", et la durée du processus biologique à simuler est définie et découpée en une série de pas de temps, D) plusieurs procédures itératives de simulation sont effectuées, comprenant chacune les étapes suivantes :
a) un stimulus est imposé à l'état à modifier, c'est-à-dire que la valeur d'une ou de plusieurs des variables quantitatives associées aux sommets du graphe est modifiée, constituant ainsi un état de départ de la simulation ;
b) à partir de l'état de départ de la simulation, un calcul de propagation est effectué au sein du graphe.
A') utilisation d'un modèle dynamique du réseau d'interactions moléculaires, ledit modèle étant construit à partir d'un graphe statique dont les sommets représentent des molécules biologiques du système biologique et les arrêtes représentent des interactions physico-chimiques entre ces molécules, et à partir de données expérimentales concernant les taux ou les activités de ces molécules biologiques et susceptible d'être obtenu, par un procédé selon l'une quelconque des revendications 1 à 8, , C) un état du graphe, mesuré expérimentalement, est choisi comme "état à modifier", et la durée du processus biologique à simuler est définie et découpée en une série de pas de temps, D) plusieurs procédures itératives de simulation sont effectuées, comprenant chacune les étapes suivantes :
a) un stimulus est imposé à l'état à modifier, c'est-à-dire que la valeur d'une ou de plusieurs des variables quantitatives associées aux sommets du graphe est modifiée, constituant ainsi un état de départ de la simulation ;
b) à partir de l'état de départ de la simulation, un calcul de propagation est effectué au sein du graphe.
10. Procédé de sélection de cibles thérapeutiques mettant en oeuvre un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique, par la mise en oeuvre d'un système informatique, comprenant les étapes et caractéristiques suivantes :
A') : utilisation d'un modèle dynamique du réseau d'interactions moléculaires, ledit modèle étant construit à partir d'un graphe statique dont les sommets représentent des molécules biologiques du système -biologique et les arrêtes représentent des interactions physico-chimiques entre ces molécules et à partir de données expérimentales concernant les taux ou les activités de ces molécules biologiques et susceptible d'être obtenu, par un procédé selon l'une quelconque des revendications 1 à 8, ;
C) un état du graphe, mesuré expérimentalement, est choisi comme "état à modifier", et la durée du processus biologique à simuler est définie et découpée en une série de pas de temps, et un état du graphe correspondant à un "état à atteindre" du système biologique est choisi comme "état final du graphe" à atteindre;
D) plusieurs procédures itératives de simulation sont effectuées, comprenant chacune les étapes suivantes :
a) un stimulus est imposé à l'état à modifier, c'est-à-dire que la valeur d'une ou de plusieurs des variables quantitatives associées aux sommets du graphe est modifiée, constituant ainsi un état de départ de la simulation ;
b) à partir de l'état de départ de la simulation, un calcul de propagation est effectué au sein du graphe ;
c) un calcul de proximité entre l'"'état final du graphe " obtenu à l'issue de l'étape b) et l'état à modifier, ou entre l"'état final du graphe " et un état voulu est effectué ;
E) à partir de l'ensemble des proximités statistiques calculées à l'étape D), les sommets, et les stimuli imposés sur ces sommets, sont hiérarchisés, les sommets hiérarchisés correspondant à des cibles thérapeutiques classées.
A') : utilisation d'un modèle dynamique du réseau d'interactions moléculaires, ledit modèle étant construit à partir d'un graphe statique dont les sommets représentent des molécules biologiques du système -biologique et les arrêtes représentent des interactions physico-chimiques entre ces molécules et à partir de données expérimentales concernant les taux ou les activités de ces molécules biologiques et susceptible d'être obtenu, par un procédé selon l'une quelconque des revendications 1 à 8, ;
C) un état du graphe, mesuré expérimentalement, est choisi comme "état à modifier", et la durée du processus biologique à simuler est définie et découpée en une série de pas de temps, et un état du graphe correspondant à un "état à atteindre" du système biologique est choisi comme "état final du graphe" à atteindre;
D) plusieurs procédures itératives de simulation sont effectuées, comprenant chacune les étapes suivantes :
a) un stimulus est imposé à l'état à modifier, c'est-à-dire que la valeur d'une ou de plusieurs des variables quantitatives associées aux sommets du graphe est modifiée, constituant ainsi un état de départ de la simulation ;
b) à partir de l'état de départ de la simulation, un calcul de propagation est effectué au sein du graphe ;
c) un calcul de proximité entre l'"'état final du graphe " obtenu à l'issue de l'étape b) et l'état à modifier, ou entre l"'état final du graphe " et un état voulu est effectué ;
E) à partir de l'ensemble des proximités statistiques calculées à l'étape D), les sommets, et les stimuli imposés sur ces sommets, sont hiérarchisés, les sommets hiérarchisés correspondant à des cibles thérapeutiques classées.
11. Procédé selon les revendications 9 ou 10, dans lequel les relations mathématiques associées aux arcs du graphe à l'étape A') sont continues.
12. Procédé selon l'une quelconque des revendications 9 à 11, dans lequel le calcul de propagation effectué à l'étape D) b) est effectué pendant un nombre de pas de temps tel que la durée de la simulation n'excède pas la durée du processus biologique à simuler définie à l'étape C).
13. Procédé selon l'une quelconque des revendications 9 à 12, dans lequel les pas de temps définis à l'étape C) sont d'un ordre de grandeur inférieur à celui des durées expérimentales réelles séparant les séries de données expérimentales quantitatives utilisées pour le calcul des paramètres des relations, à l'étape B) d'un procédé selon l'une quelconque des revendications 1 à 8.
14. Procédé de sélection de cibles thérapeutiques selon l'une quelconque des revendications 10 à 13, dans lequel les stimuli imposés à l'étape D) a) concernent, pour chacune des simulations, un sommet unique, et dans lequel le résultat de l'étape E) est un classement des sommets, de celui sur lequel un stimulus est le plus susceptible d'aboutir à l'état voulu à partir de l'état à modifier, jusqu'à celui sur lequel un stimulus est le moins susceptible d'avoir cet effet.
15. Procédé de sélection de cibles thérapeutiques selon l'une quelconque des revendications 10 à 13, comprenant les étapes suivantes - un premier classement hiérarchique des sommets est obtenu en effectuant les étapes A'), C), D) et E) en imposant, pour chacune des simulations de l'étape D), des stimuli qui concernent un sommet unique ;
- une étape supplémentaire D2) est ensuite effectuée, correspondant à
l'étape D) dans laquelle les stimuli imposés à chaque simulation sont exercés sur deux sommets, soit en testant toutes les combinaisons de deux sommets possibles, soit en limitant ces calculs aux combinaisons de deux sommets parmi un certain nombre des sommets les mieux classés à l'étape E), - à partir de l'ensemble des proximités statistiques calculées à l'étape D2), une étape supplémentaire E2) de classement hiérarchique des associations de deux sommets sur lesquels des stimuli sont le plus susceptibles d'avoir l'effet voulu, est effectuée.
- une étape supplémentaire D2) est ensuite effectuée, correspondant à
l'étape D) dans laquelle les stimuli imposés à chaque simulation sont exercés sur deux sommets, soit en testant toutes les combinaisons de deux sommets possibles, soit en limitant ces calculs aux combinaisons de deux sommets parmi un certain nombre des sommets les mieux classés à l'étape E), - à partir de l'ensemble des proximités statistiques calculées à l'étape D2), une étape supplémentaire E2) de classement hiérarchique des associations de deux sommets sur lesquels des stimuli sont le plus susceptibles d'avoir l'effet voulu, est effectuée.
16. Procédé de sélection de cibles thérapeutiques selon la revendication 15, comportant en outre une étape D3) correspondant à l'étape D) dans laquelle les stimuli imposés à chaque simulation sont exercés sur trois sommets, soit en testant toutes les combinaisons de trois sommets possibles, soit en limitant ces calculs aux combinaisons de trois sommets choisis parmi un certain nombre des sommets les mieux classés à l'étape E) et des combinaisons de deux sommets les mieux classées à l'étape E2), ladite étape D3) étant suivie d'une étape E3) de classement hiérarchique des associations de trois sommets sur lesquels des stimuli sont le plus susceptibles d'avoir l'effet voulu.
17. Procédé de sélection de cibles thérapeutiques selon la revendication 16, comportant en outre une étape D4) correspondant à l'étape D) dans laquelle les stimuli imposés à chaque simulation sont exercés sur quatre sommets, soit en testant toutes les combinaisons de quatre sommets possibles, soit en limitant ces calculs aux combinaisons de quatre sommets choisis parmi un certain nombre des sommets et combinaisons de sommets les mieux classés aux étapes E), E2) et E3), ladite étape D4) étant suivie d'une étape E4) de classement hiérarchique des associations de quatre sommets sur lesquels des stimuli sont le plus susceptibles d'avoir l'effet voulu.
18. Procédé de sélection de cibles thérapeutiques selon la revendication 17, dans lequel les étapes D et E sont répétées de façon itérative en augmentant le nombre de sommets sur lesquels s'exercent les stimuli imposés pour les simulations.
19. Procédé de sélection de cibles thérapeutiques selon l'une quelconque des revendications 10 à 13 et 15 à 18, dans lequel, pour les simulations impliquant des stimuli sur plusieurs sommets, les stimuli sont exercés sur ces différents sommets simultanément ou non.
20. Procédé de sélection de cibles thérapeutiques selon l'une quelconque des revendications 15 à 19, comportant en outre une étape de classement statistique des proximités de graphes de toutes les simulations effectuées, intégrant l'ensemble des classements précédemment obtenus.
21. Procédé selon l'une quelconque des revendications 9 à 20, dans lequel l'étape A') correspond sensiblement aux étapes A) et/ou B) de l'une quelconque des revendications 1 à 8.
22. Procédé selon l'une quelconque des revendications 1 à 21, dans lequel pour au moins une partie des interactions physico-chimiques entre les molécules du système biologique, la relation entre les variables X i et X j,, deux à deux est de la forme :
w ij .X j = m i .(d2Xi / dt2) + 2 ..lambda.ij .(dX i / dt) + .omega.ij .X i, dans laquelle m i .(d2Xi / dt2) + .omega.ij2 .X i correspond au terme inertiel (i), 2 ..lambda.ij .(dX i / dt) correspond au terme de retour à l'état initial (ii), X i est une variable associée à la molécule i dX i / dt est la dérivée de X i en fonction du temps d2X i / dt2 est la dérivée seconde de X; en fonction du temps X j est une variable associée à la molécule j, m i représente l'inertie de i, A ij régit le retour à l'état d'équilibre de X i, la pulsation .omega. ij correspond au temps de réponse de X i à la variation de X j, et w ij est un facteur de couplage représentant la force de l'interaction entre les molécules i et j, correspondant à une pondération de l'effet de chaque molécule j' sur la molécule i vis-à-vis de la résultante de l'ensemble des effets combinés de toutes les molécules j exerçant un effet sur i.
w ij .X j = m i .(d2Xi / dt2) + 2 ..lambda.ij .(dX i / dt) + .omega.ij .X i, dans laquelle m i .(d2Xi / dt2) + .omega.ij2 .X i correspond au terme inertiel (i), 2 ..lambda.ij .(dX i / dt) correspond au terme de retour à l'état initial (ii), X i est une variable associée à la molécule i dX i / dt est la dérivée de X i en fonction du temps d2X i / dt2 est la dérivée seconde de X; en fonction du temps X j est une variable associée à la molécule j, m i représente l'inertie de i, A ij régit le retour à l'état d'équilibre de X i, la pulsation .omega. ij correspond au temps de réponse de X i à la variation de X j, et w ij est un facteur de couplage représentant la force de l'interaction entre les molécules i et j, correspondant à une pondération de l'effet de chaque molécule j' sur la molécule i vis-à-vis de la résultante de l'ensemble des effets combinés de toutes les molécules j exerçant un effet sur i.
23. Procédé selon l'une quelconque des revendications 1 à 22, dans lequel pour au moins une partie des interactions physico-chimiques entre les molécules du système biologique, la relation entre les variables X i et X j, deux à deux est établie par une relation sigmoïde comportant un facteur de retardement associée à une fonction de décroissance linéaire.
24. Procédé selon la revendication 23, dans lequel pour au moins une partie des interactions physico-chimiques entre les molécules du système biologique, la relation entre les variables X i et X j, est de la forme :
(dX j/dt) = K1i . [ 1 / ( 1 + e -.SIGMA.ij.Xj - bi)] K2i . X i , où :
le terme sigmoïde K11 . [1 / (1 + e -.SIGMA.wijXj - bi)] correspond au terme inertiel (i), le terme K2i . X i correspond au terme de retour à l'état initial (ii), avec X i = variable associée au sommet i, X j = variable associée au sommet j, wij = facteur de couplage représentant la force de l'interaction entre les molécules i et j, correspondant à une pondération de l'effet de chaque molécule j sur la molécule i vis-à-vis de la résultante de l'ensemble des effets combinés de toutes les molécules j exerçant un effet sur i., bi = facteur de retardement, K1i = facteur de limite maximale de variation de X i, et K2i = facteur de retour à l'équilibre.
(dX j/dt) = K1i . [ 1 / ( 1 + e -.SIGMA.ij.Xj - bi)] K2i . X i , où :
le terme sigmoïde K11 . [1 / (1 + e -.SIGMA.wijXj - bi)] correspond au terme inertiel (i), le terme K2i . X i correspond au terme de retour à l'état initial (ii), avec X i = variable associée au sommet i, X j = variable associée au sommet j, wij = facteur de couplage représentant la force de l'interaction entre les molécules i et j, correspondant à une pondération de l'effet de chaque molécule j sur la molécule i vis-à-vis de la résultante de l'ensemble des effets combinés de toutes les molécules j exerçant un effet sur i., bi = facteur de retardement, K1i = facteur de limite maximale de variation de X i, et K2i = facteur de retour à l'équilibre.
25. Procédé selon l'une quelconque des revendications 1 à 24, dans lequel pour au moins une partie des interactions physico-chimiques entre les molécules du système biologique, la relation entre les variables X i et X j, est une fonction polynôme de type d'ordre strictement inférieur au nombre p de couples (X it, X jt) de valeurs expérimentales du niveau de taux ou d'activité X i ou X j des molécules i et j, respectivement, à différents instants t, les paramètres b mi étant calculés à partir des p couples expérimentaux (X it, X it) disponibles, et W
ij étant un facteur de couplage représentant la force de l'interaction entre les molécules i et j, correspondant à une pondération de l'effet de chaque molécule j sur la molécule i vis-à-vis de la résultante de l'ensemble des effets combinés de toutes les molécules j exerçant un effet sur i.
ij étant un facteur de couplage représentant la force de l'interaction entre les molécules i et j, correspondant à une pondération de l'effet de chaque molécule j sur la molécule i vis-à-vis de la résultante de l'ensemble des effets combinés de toutes les molécules j exerçant un effet sur i.
26. Procédé selon l'une quelconque des revendications 1 à 25, dans lequel pour au moins une partie des interactions physico-chimiques entre les molécules du système biologique, la relation entre les variables X i et X j, est une fonction de type dérivée de polynôme avec 1 < p' < p - 1, p étant le nombre de couples expérimentaux (X it, X jt) disponibles.
27. Procédé selon la revendication 26, dans lequel p'=3.
28. Procédé selon l'une quelconque des revendications 1 à 27, dans lequel pour au moins une partie des molécules du système biologique, la résultante globale de n interactions exercées par des molécules 1 à n sur une molécule i est une somme pondérée des actions des molécules 1 à n sur la molécule i, de la forme f ji est la relation associée à l'arc (i, j) pour chaque couple (i, j) et
29. Procédé selon l'une quelconque des revendications 1 à 27, dans lequel pour au moins une partie des molécules du système biologique, la résultante globale de n interactions exercées par des molécules 1 à n sur une molécule i est une somme pondérée des actions des molécules 1 à n sur la molécule i, de la forme f ji est la relation associée à l'arc (i, j) pour chaque couple (i, j) et
30. Procédé de détermination du mode d'action d'un xénobiotique, consistant à mettre en oeuvre un procédé selon la revendication 9 ou 10 dans les conditions suivantes:
(i) le système biologique dans lequel un réseau d'interactions moléculaires est étudié est concerné par l'action du xénobiotique ;
(ii) l'état à modifier" choisi à l'étape C), correspond à un état observé
expérimentalement avant l'administration dudit xénobiotique ;
(iii) on identifie les modifications à apporter au cours de l'étape D)a) pour que le calcul effectué à l'étape D)b) montre une évolution du système vers un état proche de l'état observé après administration du xénobiotique.
(i) le système biologique dans lequel un réseau d'interactions moléculaires est étudié est concerné par l'action du xénobiotique ;
(ii) l'état à modifier" choisi à l'étape C), correspond à un état observé
expérimentalement avant l'administration dudit xénobiotique ;
(iii) on identifie les modifications à apporter au cours de l'étape D)a) pour que le calcul effectué à l'étape D)b) montre une évolution du système vers un état proche de l'état observé après administration du xénobiotique.
31. Procédé de prédiction d'éventuels effets indésirables d'un traitement, consistant à mettre en oeuvre un procédé selon la revendication 9 ou 10 dans les conditions suivantes:
(i) le système biologique dans lequel un réseau d'interactions moléculaires est étudié est concerné par le traitement ;
(ii) les modifications de l'étape D)a) correspondent aux modifications des niveaux de taux ou d'activité
des molécules cibles observées ou souhaitées lors de l'application du traitement ;
(iii) l'étape D)b) de calcul de l'évolution du système biologique est suivie d'une analyse de sous-parties du système correspondant à des fonctions physiologiques connues, afin d'identifier les éventuelles évolutions de ces sous-parties vers des états proches d'états pathologiques de référence.
(i) le système biologique dans lequel un réseau d'interactions moléculaires est étudié est concerné par le traitement ;
(ii) les modifications de l'étape D)a) correspondent aux modifications des niveaux de taux ou d'activité
des molécules cibles observées ou souhaitées lors de l'application du traitement ;
(iii) l'étape D)b) de calcul de l'évolution du système biologique est suivie d'une analyse de sous-parties du système correspondant à des fonctions physiologiques connues, afin d'identifier les éventuelles évolutions de ces sous-parties vers des états proches d'états pathologiques de référence.
32. Procédé pour hiérarchiser des cibles thérapeutiques potentielles pour une pathologie, consistant à mettre en oeuvre un procédé selon l'une quelconque des revendications 9 à 29 et 31, puis à déterminer le rapport "bénéfice thérapeutique / effets indésirables" d'une action sur chacune des cibles thérapeutiques potentielles.
33. Procédé selon l'une quelconque des revendications 1 à 32, dans lequel le nombre de variables X i du réseau d'interactions moléculaires considéré est supérieur à environ 100, supérieur à environ 200, ou supérieur à environ 300.
34. Procédé selon l'une quelconque des revendications 1 à 32, dans lequel le nombre de variables X; des réseaux d'interactions moléculaires considéré est inférieur à environ 100 et en ce que l'on associe lesdits réseaux d'interactions moléculaires, pour former une association de réseaux.
35. Procédé selon la revendication 34, dans lequel le nombre de réseaux associés est compris entre 2 et environ 100.
36. Utilisation d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique susceptible d'être obtenu par un procédé selon l'une quelconque des revendications précédentes, pour étendre un graphe statique dont les sommets représentent des molécules biologiques et les arcs représentent des interactions physico-chimiques entre ces molécules, pour identifier de nouvelles interactions moléculaires.
37. Système informatique pour l'obtention d'un modèle dynamique d'un réseau d'interactions moléculaires dans un système biologique, et l'analyse de ces interactions moléculaires lorsqu'un stimulus est appliqué au modèle dynamique, comprenant au moins une unité
centrale de traitement de données reliée à au moins une base de données expérimentales quantitatives, caractérisé en ce qu'il comprend A) un module de construction d'un graphe statique, dont les sommets représentent des molécules biologiques et les arcs représentent des interactions physico-chimiques existant entre ces molécules, chaque sommet étant associé à une variable quantitative mesurée expérimentalement et chaque arc du graphe étant associé à une relation mathématique; et C) un module d'apprentissage pour calculer les paramètres de chaque relation à partir des données expérimentales quantitatives concernant les sommets du graphe, par la mise en oeuvre de techniques d'apprentissage par descente de gradient utilisées pour le paramétrage de réseaux.
centrale de traitement de données reliée à au moins une base de données expérimentales quantitatives, caractérisé en ce qu'il comprend A) un module de construction d'un graphe statique, dont les sommets représentent des molécules biologiques et les arcs représentent des interactions physico-chimiques existant entre ces molécules, chaque sommet étant associé à une variable quantitative mesurée expérimentalement et chaque arc du graphe étant associé à une relation mathématique; et C) un module d'apprentissage pour calculer les paramètres de chaque relation à partir des données expérimentales quantitatives concernant les sommets du graphe, par la mise en oeuvre de techniques d'apprentissage par descente de gradient utilisées pour le paramétrage de réseaux.
33. Système informatique selon la revendication 37, caractérisé en ce qu'il comprend également :
D) un module de simulation pour effectuer plusieurs procédures itératives de simulation consistant à imposer un stimulus à un état de graphe mesuré expérimentalement et choisi comme e< état à
modifier », le stimulus modifiant la valeur d'une ou de plusieurs des variables quantitatives associées aux sommets du graphe, constituant ainsi un état de départ de la simulation à partir duquel un calcul de propagation est effectué au sein du graphe, pour l'obtention d'un e< état final du graphe »; et E) un module d'itération pour la modification du stimulus.
D) un module de simulation pour effectuer plusieurs procédures itératives de simulation consistant à imposer un stimulus à un état de graphe mesuré expérimentalement et choisi comme e< état à
modifier », le stimulus modifiant la valeur d'une ou de plusieurs des variables quantitatives associées aux sommets du graphe, constituant ainsi un état de départ de la simulation à partir duquel un calcul de propagation est effectué au sein du graphe, pour l'obtention d'un e< état final du graphe »; et E) un module d'itération pour la modification du stimulus.
39. Système informatique selon la revendication 38, caractérisé en ce qu'il comprend également E) un module de calcul de proximité entre l' « état final d'un graphe » et l' « état à modifier », ou entre l' « état final d'un graphe » et un état voulu, et de hiérarchisation des sommets et des stimuli imposés sur les sommets du graphe, les sommets hiérarchisés correspondant à
des cibles thérapeutiques classées.
des cibles thérapeutiques classées.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0309557 | 2003-08-01 | ||
FR0309557A FR2858446B1 (fr) | 2003-08-01 | 2003-08-01 | Methode d'analyse de reseaux d'interactions moleculaires biologiques |
PCT/FR2004/002064 WO2005013173A2 (fr) | 2003-08-01 | 2004-07-30 | Methode et systeme de selection de cibles therapeutiques par l'utilisation de reseaux dynamiques d'interactions moleculaires |
Publications (1)
Publication Number | Publication Date |
---|---|
CA2534401A1 true CA2534401A1 (fr) | 2005-02-10 |
Family
ID=34043752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CA002534401A Abandoned CA2534401A1 (fr) | 2003-08-01 | 2004-07-30 | Methode et systeme de selection de cibles therapeutiques par l'utilisation de reseaux dynamiques d'interactions moleculaires |
Country Status (5)
Country | Link |
---|---|
US (1) | US20060235670A1 (fr) |
EP (1) | EP1649405A2 (fr) |
CA (1) | CA2534401A1 (fr) |
FR (1) | FR2858446B1 (fr) |
WO (1) | WO2005013173A2 (fr) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7667582B1 (en) * | 2004-10-14 | 2010-02-23 | Sun Microsystems, Inc. | Tool for creating charts |
CA2726175A1 (fr) | 2008-05-27 | 2009-12-23 | Memorial Sloan-Kettering Cancer Center | Modeles de perturbations combinatoires de systemes biologiques vivants |
EP2715586A2 (fr) * | 2011-06-01 | 2014-04-09 | Albert-Ludwigs-Universität Freiburg | Procédé de modélisation, d'optimisation, de paramétrage, de test et / ou de validation d'un réseau dynamique ou de perturbations de réseau |
EP2530615A1 (fr) * | 2011-06-01 | 2012-12-05 | Albert-Ludwigs-Universität Freiburg | Procédé de modélisation, optimisation, paramétrage, test et/ou validation des perturbations de réseau dynamique |
EP3298524A4 (fr) | 2015-05-22 | 2019-03-20 | CSTS Health Care Inc. | Mesures thermodynamiques portant sur des réseaux d'interaction protéine-protéine pour le traitement du cancer |
US10366324B2 (en) * | 2015-09-01 | 2019-07-30 | Google Llc | Neural network for processing graph data |
US11456053B1 (en) | 2017-07-13 | 2022-09-27 | X Development Llc | Biological modeling framework |
CN109635439B (zh) * | 2018-12-12 | 2023-05-05 | 新疆大学 | 基于传播动力学的扰动环境下生产网络连锁效应研究方法 |
CN116844645B (zh) * | 2023-08-31 | 2023-11-17 | 云南师范大学 | 一种基于多视角分层超图的基因调控网络推断方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2001286880A1 (en) * | 2000-11-28 | 2002-06-11 | Physiome Sciences, Inc. | System for modeling biological pathways |
AU2002355996A1 (en) * | 2001-08-16 | 2003-03-03 | Biotech Research Venture Pte Limited | Method for modelling biochemical pathways |
-
2003
- 2003-08-01 FR FR0309557A patent/FR2858446B1/fr not_active Expired - Fee Related
-
2004
- 2004-07-30 EP EP04786022A patent/EP1649405A2/fr not_active Withdrawn
- 2004-07-30 WO PCT/FR2004/002064 patent/WO2005013173A2/fr active Application Filing
- 2004-07-30 CA CA002534401A patent/CA2534401A1/fr not_active Abandoned
-
2006
- 2006-01-31 US US11/342,707 patent/US20060235670A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2005013173A2 (fr) | 2005-02-10 |
WO2005013173A3 (fr) | 2005-09-29 |
FR2858446B1 (fr) | 2007-11-09 |
FR2858446A1 (fr) | 2005-02-04 |
US20060235670A1 (en) | 2006-10-19 |
EP1649405A2 (fr) | 2006-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Derex et al. | Cumulative cultural evolution within evolving population structures | |
Stodden | Open science: policy implications for the evolving phenomenon of user-led scientific innovation | |
Moshiri et al. | FAVITES: simultaneous simulation of transmission networks, phylogenetic trees and sequences | |
Noble | Differential and integral views of genetics in computational systems biology | |
Wiegand | Performance of using multiple stepwise algorithms for variable selection | |
Lucas et al. | Plant systems biology: network matters | |
Kiemer et al. | Comparative interactomics: comparing apples and pears? | |
Korfmann et al. | Deep learning in population genetics | |
Wang et al. | How to cluster gene expression dynamics in response to environmental signals | |
Yaeger et al. | Passive and driven trends in the evolution of complexity | |
Dutilh et al. | Assessment of phylogenomic and orthology approaches for phylogenetic inference | |
EP2454714A1 (fr) | Simulation d'un agrégat évolutif du monde réel, notamment pour gestion de risque | |
US20060235670A1 (en) | Method and system for selecting therapeutic targets using molecular interaction dynamic networks | |
CN113012770A (zh) | 基于多模态深度神经网络的药物-药物相互作用事件预测方法、系统、终端及可读存储介质 | |
Knowles | Closed-loop evolutionary multiobjective optimization | |
Ruffieux et al. | Efficient inference for genetic association studies with multiple outcomes | |
Pélissier et al. | Computational model reveals a stochastic mechanism behind germinal center clonal bursts | |
Bi et al. | Construction of multiscale genome-scale metabolic models: Frameworks and challenges | |
Silliman et al. | Base-substitution mutation rate across the nuclear genome of Alpheus snapping shrimp and the timing of isolation by the Isthmus of Panama | |
Wang et al. | Effect of regulatory architecture on broad versus narrow sense heritability | |
Lelandais et al. | Comparative functional genomics of stress responses in yeasts | |
EP1934873A1 (fr) | Procede pour determiner l'etat d'un ensemble de cellules et systeme pour la mise en oeuvre dudit procede | |
Oloulade et al. | Cancer drug response prediction with surrogate modeling-based graph neural architecture search | |
Engel | DNA Systems Under Internal and External Forcing: An Exploration Using Coarse-Grained Modelling | |
Harvey et al. | UK Bioinformatics: current landscapes and future horizons |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EEER | Examination request | ||
FZDE | Discontinued |
Effective date: 20140730 |