FR2908906A1 - Methode d'evaluation des correlations entre des informations structurees et normalisees sur de variations genetiques entre des humains et leurs donnees cliniques personnelles de patient a partir de dossiers medicaux electroniques - Google Patents

Methode d'evaluation des correlations entre des informations structurees et normalisees sur de variations genetiques entre des humains et leurs donnees cliniques personnelles de patient a partir de dossiers medicaux electroniques Download PDF

Info

Publication number
FR2908906A1
FR2908906A1 FR0756143A FR0756143A FR2908906A1 FR 2908906 A1 FR2908906 A1 FR 2908906A1 FR 0756143 A FR0756143 A FR 0756143A FR 0756143 A FR0756143 A FR 0756143A FR 2908906 A1 FR2908906 A1 FR 2908906A1
Authority
FR
France
Prior art keywords
data
clinical
patients
warehouse
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0756143A
Other languages
English (en)
Inventor
Philip David Settimi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
General Electric Co
Original Assignee
General Electric Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by General Electric Co filed Critical General Electric Co
Publication of FR2908906A1 publication Critical patent/FR2908906A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

Différents modes de réalisation de la présente invention proposent un système et une méthode d'évaluation des corrélations entre des variations génétiques et des informations cliniques. La méthode (400) comprend la normalisation (440) d'une ou plusieurs données génotypiques et de données cliniques associées à chaque patient parmi plusieurs patients d'une population de patients, la réception d'un ou plusieurs états cliniques obtenus d'un utilisateur, la sélection (450) d'un sous-ensemble de patients parmi la population, en fonction des états cliniques, et la détermination (470) d'une ou plusieurs corrélations entre au moins l'un des états cliniques et une ou plusieurs des données génotypiques et cliniques pour le sous-ensemble de patients.

Description

B 07-2437 FR 1 Société dite : GENERAL ELECTRIC COMPANY Méthode
d'évaluation des corrélations entre des informations structurées et normalisées sur des variations génétiques entre des humains et leurs données cliniques personnelles de patient à partir de dossiers médicaux électroniques de patients Invention de : SETTIMI Philip David Priorité d'une demande de brevet déposé aux Etats-Unis d'Amérique le 17 novembre 2006 sous le n 11/601.358 2908906 2 Méthode d'évaluation des corrélations entre des informations structurées et normalisées sur des variations génétiques entre des humains et leurs données cliniques personnelles de patients à partir de dossiers médicaux électroniques de patients La présente invention se rapporte d'une manière générale à la recherche et à l'analyse de données de dossiers médicaux électroniques. En particulier, la présente invention concerne l'évaluation de corrélations entre des informations génétiques et cliniques incluses dans des dossiers médicaux électroniques. Les hôpitaux utilisent en général des systèmes informatiques pour gérer les différents services hospitaliers, et des données concernant chaque patient sont recueillies par différents systèmes informatiques. Par exemple, un patient peut être admis à l'hôpital pour subir une échographie transthoracique ("TTE") Les informations sur le patient (par exemple ses données démographiques et son assurance) pourraient être obtenues par le système d'information hospitalier ("HIS") et enregistrées dans un dossier patient. Ces informations pourraient ensuite être transmises par exemple au système du service de cardiologie (connu sous la désignation "système d'informations cardiovasculaires" ou "CVIS"). En général, le CVIS est un produit d'une société, tandis que le HIS est le produit d'une autre société. Cela a pour résultat que les bases de données des deux systèmes peuvent être différentes. En outre, les systèmes d'information peuvent capter/retenir et envoyer des niveaux de granularité différents dans les données. Dès lors que le CVIS a reçu les informations concernant le patient, ce dernier peut être inscrit pour subir un examen TTE au service d'échographie. Ensuite, le TTE est réalisé par le radiologue. Des images et des mesures sont prises et envoyées au serveur CVIS. Le médecin qui les exploite (par exemple un échocardiologue) s'installe devant un poste de visualisation et établit l'étude TTE du patient. Ensuite, l'échocardiologue commence à passer en revue les images et les mesures et rédige un rapport médical complet. Lorsque l'échocardiologue a terminé son rapport, celui-ci est transmis au serveur CVIS où il est enregistré et associé au patient par le biais de données d'identification de patient. Ce rapport médical 2908906 3 complet est un exemple du type de rapport qui pourrait être envoyé à un gisement de données en vue d'une exploration publique des données. Des instructions de médication, telles qu'une documentation et/ou des prescriptions, ainsi que des résultats de laboratoire et des signes vitaux, 5 peuvent également être générées électroniquement et enregistrées dans un gisement de données. A l'heure actuelle, les fabricants d'appareils médicaux et les sociétés pharmaceutiques doivent faire face à un défi croissant pour recueillir des données cliniques sur l'utilisation de leurs produits dans la vie réelle. Etant 10 donné que les rapports médicaux sur les patients sont progressivement informatisés, il est plus facile d'obtenir des données sur l'utilisation réelle. D'autre part, les données sont plus faciles à combiner et à analyser (par exemple à explorer) pour fournir plus d'informations utiles. La technologie médicale étant de plus en plus pointue, l'analyse 15 clinique peut également devenir de plus en plus élaborée. Des volumes de données croissants sont générés et archivés électroniquement. Avec l'arrivée de systèmes d'information cliniques, l'histoire d'un patient devient disponible en appuyant simplement sur un bouton. Bien que les facilités d'accès aux informations présentent des avantages, le temps est un bien précieux dans un 20 cadre clinique. Pour bénéficier entièrement des avancées de la technologie médicale, il est hautement souhaitable d'organiser et de normaliser des informations cliniques. Des méthodes d'entrepôt de données ont été utilisées pour agréger, éliminer des éléments superflus, transférer, communiquer et analyser des 25 informations de patients à partir de facturations de prestations médicales et de dossiers médicaux électroniques ("EMR"). Les données de patients peuvent être extraites de plusieurs bases de données EMR se trouvant dans des sites de fournisseurs de soins aux patients ("PCP"), en des lieux géographiquement dispersés, puis être transportées et stockées dans un entrepôt de données 30 central. Cet entrepôt central peut être une source d'informations pour des rapports de profil de population de la productivité des médecins, pour des soins préventifs, des statistiques de gestion des maladies et la recherche sur les résultats cliniques. 2908906 4 Actuellement, les travaux pour évaluer des corrélations entre des données génotypiques et phénotypiques dans la population humaine sont menés dans le cadre d'études cliniques relativement petites et contrôlées, qui utilisent des dossiers médicaux sur papier. Ces travaux nécessitent beaucoup 5 de temps et de ressources. De plus, ils se font sur base de papier et ont donc peu de chances d'identifier des associations subtiles entre la variabilité génétique et la prédisposition phénotypique. Par exemple, il est peu probable que ces travaux découvrent des associations subtiles ou des corrélations entre la variabilité génétique (par exemple une propension à un polymorphisme de 10 nucléotide unique particulier ("SNP") ou à une combinaison de SNP) et des expressions phénotypiques réelles de traits associées à la variabilité génétique. Les travaux actuels pour obtenir de telles corrélations et associations sont également limités par les syntaxes différentes utilisées dans des essais cliniques différents. Afin d'évaluer et de comprendre totalement ces 15 corrélations et associations, il est souvent avantageux d'étudier de plus gros volumes de données, provenant par exemple d'essais cliniques multiples. Cependant, des informations génétiques et cliniques peuvent être enregistrées en utilisant des termes ou des syntaxes différents dans des essais cliniques différents. Par exemple, un état ou un événement clinique tel qu'une crise 20 cardiaque peut être exprimé ou enregistré comme "crise cardiaque" dans un essai, comme "infarctus du myocarde" dans un autre essai, comme "MI" ou "MI aigu" ou comme "AMI" dans encore un autre essai. Cependant, si les données cliniques provenant de deux ou plusieurs de ces essais étaient combinées (ainsi qu'avec des informations génétiques correspondantes) afin 25 d'évaluer des corrélations entre un ou plusieurs SNP ainsi que les risques de crise cardiaque, les syntaxes différentes gêneraient, voire empêcheraient, une évaluation correcte d'une quelconque de ces corrélations. En d'autres termes, l'absence d'un vocabulaire médical contrôlé fait qu'il est peu probable d'apporter des preuves probantes de telles associations ou corrélations, en 30 raison de la variété des langages cliniques choisis pour décrire les manifestations d'états cliniques ou de maladies sur le patient. Par conséquent, il existe un besoin de disposer de méthodes perfectionnées pour évaluer des corrélations entre des variations génétiques 2908906 5 parmi les patients et des données cliniques personnelles des patients, provenant de dossiers médicaux électroniques établis lors de différents essais. Différents modes de réalisation de la présente invention proposent une méthode d'évaluation des corrélations entre des variations génétiques et des 5 informations cliniques. La méthode comprend la normalisation d'une ou plusieurs données génotypiques et de données cliniques associées à chaque patient parmi plusieurs patients d'une population de patients, la réception d'un ou plusieurs états cliniques obtenus d'un utilisateur, la sélection d'un sous-ensemble de patients parmi la population, en fonction des états cliniques, et la 10 détermination d'une ou plusieurs corrélations entre au moins l'un des états cliniques et une ou plusieurs des données génotypiques et cliniques pour le sous-ensemble de patients. Dans un mode de réalisation, la méthode comprend en outre la réception d'une ou plusieurs desdites données génotypiques et desdites 15 données cliniques provenant de chaque mémoire d'une pluralité de mémoires de données distantes, lesdites mémoires de données distantes contenant des données obtenues de différents essais cliniques. Dans un mode de réalisation, ladite étape de normalisation comprend : - la détermination d'un ou plusieurs synonymes pour un terme utilisé pour 20 décrire une expression phénotypique d'un trait incluse dans lesdites données cliniques; et - l'établissement de la correspondance entre ledit terme et un terme commun appartenant à un vocabulaire contrôlé, ledit terme commun étant représentatif dudit terme et desdits synonymes. 25 Dans un mode de réalisation, ladite étape de normalisation comprend : - la détermination d'un ou plusieurs synonymes pour un terme utilisé pour décrire une expression phénotypique d'un trait incluse dans lesdites données cliniques; et - le codage desdites données cliniques avec une classification de ladite 30 expression phénotypique dudit trait, ladite classification étant représentative de ladite expression phénotypique dudit terme et desdits synonymes. Dans un mode de réalisation, ledit système comprend : 2908906 6 - un système d'entrepôt de données normalisant une ou plusieurs données génotypiques et données cliniques associées à un patient parmi plusieurs patients d'une population de patients; et - un dispositif informatique recevant un ou plusieurs états cliniques obtenus 5 d'un utilisateur, créant un sous-ensemble de patients à partir de ladite population, sur la base d'une comparaison desdits états cliniques avec lesdites données cliniques, et déterminant une ou plusieurs corrélations entre au moins un desdits états cliniques et une ou plusieurs desdites données génotypiques et lesdites données cliniques pour ledit sous-ensemble de 10 patients. Dans un mode de réalisation, ledit système reçoit une ou plusieurs desdites données génotypiques et desdites données cliniques de chaque mémoire parmi une pluralité de mémoires de données distantes, lesdites mémoires de données distantes contenant des données obtenues de différents 15 essais cliniques. Dans un mode de réalisation, ledit système normalise une ou plusieurs desdites données génotypiques et desdites données cliniques en déterminant un ou plusieurs synonymes pour un terme utilisé pour décrire une expression phénotypique d'un trait incluse dans lesdites données cliniques, et en 20 établissant la correspondance entre ledit terme et un terme commun appartenant à un vocabulaire contrôlé, ledit terme commun étant représentatif dudit terme et desdits synonymes. Dans un mode de réalisation, lesdites corrélations englobent un ou plusieurs calculs d'un degré de concordance entre au moins un desdits états 25 cliniques et une ou plusieurs desdites données génotypiques et desdites données cliniques. Dans un mode de réalisation, ledit système comprend : - un dispositif informatique effectuant la normalisation des données génotypiques et/ou des données cliniques associées à chaque patient parmi 30 plusieurs patients, provenant de plusieurs sources et reçues dans un système d'entrepôt de données, la sélection d'un ou plusieurs patients parmi ladite pluralité de patients, en fonction d'un ou plusieurs paramètres, et la détermination d'une corrélation entre un ou plusieurs desdits paramètres et au moins une desdites données génotypiques et desdites données cliniques 2908906 7 associées à plusieurs desdits patients sélectionnés parmi ladite pluralité de patients, dans lequel plusieurs sources de ladite pluralité de sources utilisent différents termes pour communiquer lesdites données génotypiques et 5 lesdites données cliniques audit système d'entrepôt de données. Dans un mode de réalisation, ladite pluralité de sources comprend une pluralité de mémoires de données distantes contenant des données obtenues de différents essais cliniques. Dans un mode de réalisation, lesdites données cliniques englobent une 10 expression phénotypique codifiée d'un trait. Dans un mode de réalisation, ledit dispositif informatique sélectionne lesdits patients, si un ou plusieurs desdits paramètres concordent avec une ou plusieurs desdites données génotypiques et desdites données cliniques pour chacun des patients sélectionnés. 15 Dans un mode de réalisation, ledit dispositif informatique sélectionne lesdits patients, si un degré de concordance entre un ou plusieurs desdits paramètres et une ou plusieurs desdites données génotypiques et desdites données cliniques pour chacun des patients sélectionnés dépasse un seuil. Dans un mode de réalisation, lesdits paramètres peuvent être changés 20 de manière dynamique pour modifier lesdits patients sélectionnés. D'autre part, différents modes de réalisation de la présente invention proposent un moyen de stockage exploitable par ordinateur, comprenant un ensemble d'instructions pour un ordinateur. Ces instructions englobent un sous-programme de normalisation de données, un sous-programme de 25 sélection de patients et un sous-programme de corrélation. Le sous-programme de normalisation de données est configuré pour normaliser une ou plusieurs données génotypiques et données cliniques associées à chaque patient parmi plusieurs patients d'une population de patients. Le sous-programme de sélection de patients est configuré pour sélectionner un sous-ensemble de 30 patients dans la population, en fonction d'un ou plusieurs états cliniques saisis par un utilisateur. Le sous-programme de corrélation est configuré pour déterminer une ou plusieurs corrélations entre au moins l'un des états cliniques et une ou plusieurs des données génotypiques et cliniques pour le sous-ensemble de patients. 2908906 8 Enfin, différents modes de réalisation de la présente invention proposent une méthode de détermination des corrélations entre des données génétiques et des données médicales. La méthode comprend la réception de données génotypiques et de données cliniques associées à chaque patient parmi 5 plusieurs patients, à partir de plusieurs sources, où deux ou plusieurs sources emploient des termes différents pour communiquer les données génotypiques et/ou cliniques, et comprend la normalisation des données génotypiques et/ou cliniques, la sélection d'un ou plusieurs patients parmi la pluralité de patients, en fonction d'un ou plusieurs paramètres, et la détermination d'une corrélation 10 entre un ou plusieurs des paramètres et au moins une des données génotypiques et cliniques associées à deux ou plusieurs des patients sélectionnés. La figure 1 représente un schéma d'un système de stockage de dossiers EMR, conforme à un mode de réalisation de la technologie décrite dans la 15 présente invention, la figure 2 représente un schéma d'une architecture d'entrepôt de données conforme à un mode de réalisation de la technologie décrite dans la présente invention, la figure 3 représente un schéma d'un système d'agrégation de données 20 génétiques et/ou cliniques, conforme à un mode de réalisation de la technologie décrite dans la présente invention, et la figure 4 représente un organigramme d'une méthode d'évaluation d'une ou plusieurs corrélations entre des données génétiques et cliniques, conformément à un mode de réalisation de la technologie décrite dans la 25 présente invention. Le résumé qui précède, ainsi que la description détaillée ci-après de certains modes de réalisation de la technologie décrite ici, seront mieux compris en relation avec les dessins annexés. Pour illustrer l'invention, certains modes de réalisation sont représentés dans les dessins. Toutefois, il convient 30 de noter que la présente invention n'est pas limitée aux dispositions ni aux instruments représentés dans les dessins annexés. La technologie décrite ici propose, entre autres, une méthode perfectionnée pour combiner des données génétiques avec des données cliniques plus traditionnelles, de nature codifiée, et pour utiliser ces ensembles 2908906 9 de données afin d'établir et tester différentes hypothèses et corrélations entre des maladies, des traits, des états/problèmes médicaux et, par exemple, des facteurs environnementaux. Cette technologie permet l'intégration d'une source de données, telles que des données génétiques codifiées, à une nouvelle source 5 de données, par exemple des données cliniques codifiées, obtenues de plusieurs sources différentes. Cela permet de codifier des nomenclatures différentes utilisées par des sources différentes des données cliniques, de manière à faciliter les comparaisons entre les données cliniques et les données génétiques. 10 La figure 1 représente un schéma d'un système 100 destiné à stocker des EMR conformément à un mode de réalisation de la présente technologie. Des systèmes PCP 108 se trouvant dans différents sites PCP sont connectés à un réseau 106. Ces systèmes PCP 108 envoient des données médicales de patients (incluses dans les EMR) à un entrepôt de données situé sur un système 15 d'entrepôt de données 104. Les systèmes PCP 108 comprennent en général des logiciels d'application pour réaliser l'extraction de données, ainsi qu'un ou plusieurs dispositifs de stockage pour enregistrer les EMR associés à des patients traités sur le site PCP. De plus, les systèmes PCP 108 peuvent comprendre des systèmes d'utilisateur de PCP 110 pour accéder aux données 20 EMR, en vue de lancer l'extraction de données et d'entrer une chaîne de mot de passe devant être utilisée pour crypter un identifiant de patient. Les systèmes d'utilisateur de PCP 110 peuvent être reliés directement au système PCP 108, ou bien ils peuvent accéder au système PCP 108 via le réseau 106. Chaque système d'utilisateur de PCP 110 peut être réalisé en 25 utilisant un ordinateur universel exécutant un programme informatique pour mettre en oeuvre les processus décrits ici. Les systèmes d'utilisateur de PCP 110 peuvent être des ordinateurs personnels ou des terminaux reliés à un ordinateur central. Si les systèmes 110 sont des ordinateurs personnels, le traitement décrit ici peut être partagé par un système d'utilisateur de PCP 110 30 et un système PCP 108 en fournissant une appliquette au système d'utilisateur de PCP 110. Le dispositif de stockage situé dans le système PCP 108 peut être réalisé en utilisant différents moyens de stockage de l'information électronique, tels qu'un protocole de transfert de fichiers ("FTP"). Bien 2908906 10 entendu, le dispositif de stockage peut également être réalisé en utilisant la mémoire contenue dans le système PCP 108, ou bien il peut s'agir d'un dispositif physique distinct. Le dispositif de stockage contient des informations variées, y compris une base de données EMR. 5 En plus, le système de la figure 1 comprend un ou plusieurs systèmes d'utilisateur d'entrepôt de données 102, via lesquels un utilisateur final peut adresser une requête à un programme d'application du système d'entrepôt de données 104 pour accéder à des dossiers particuliers stockés dans l'entrepôt de données. Dans un exemple de mode de réalisation de la présente invention, les 10 utilisateurs finaux peuvent être des membres du personnel d'un PCP, des membres d'une équipe de recherche d'une entreprise pharmaceutique et des membres du personnel de sociétés fabriquant des produits médicaux. Les systèmes d'utilisateur d'entrepôt de données 102 peuvent être connectés directement au système d'entrepôt de données 104 ou bien être 15 couplés au système d'entrepôt de données 104 via le réseau 106. Chaque système d'utilisateur d'entrepôt de données 102 peut être réalisé en utilisant un ordinateur universel exécutant un programme informatique pour mettre en oeuvre les processus décrits ici. Les systèmes d'utilisateur d'entrepôt de données 102 peuvent être des ordinateurs personnels ou des terminaux reliés à 20 un ordinateur central. Si les systèmes 102 sont des ordinateurs personnels, le traitement décrit ici peut être partagé par un système d'utilisateur d'entrepôt de données 102 et le système d'entrepôt de données 104 en fournissant une appliquette au système d'utilisateur d'entrepôt de données 102. Le réseau 106 peut être constitué d'un ou plusieurs types de réseaux 25 connus, tels qu'un réseau local ("LAN"), un grand réseau ("WAN"), un intranet ou un réseau global (par exemple Internet). Un système d'utilisateur d'entrepôt de données 102 peut être couplé au système d'entrepôt de données 104 à travers différents réseaux (par exemple intranet et Internet), de sorte qu'il n'est pas nécessaire de connecter tous les systèmes d'utilisateur d'entrepôt de 30 données 102 au système d'entrepôt 104 via le même réseau. De manière similaire, un système PCP 108 peut être connecté au système central d'exploration de données 104 à travers différents réseaux (par exemple intranet et Internet), de sorte qu'il n'est pas nécessaire de connecter tous les systèmes PCP 108 au système d'entrepôt 104 via le même réseau. 2908906 11 Un ou plusieurs des systèmes d'utilisateur d'entrepôt de données 102, les systèmes PCP 108 et le système d'entrepôt de données 104 peuvent être connectés au réseau 106 par une liaison sans fil, et le réseau 106 peut être un réseau sans fil. Dans un exemple de mode de réalisation, le réseau 106 est 5 l'Internet, et chaque système d'utilisateur d'entrepôt de données 102 exécute une application d'interface utilisateur pour se connecter directement au système d'entrepôt de données 104. Selon un autre mode de réalisation, le système d'utilisateur d'entrepôt de données 102 peut exécuter un navigateur Web pour entrer en contact avec le système d'entrepôt 104 via le réseau 106. 10 En variante, un système d'utilisateur d'entrepôt de données 102 peut être réalisé en utilisant un dispositif programmé principalement pour accéder au réseau 106, par exemple la télévision du Web. Le système d'entrepôt de données 104 peut être réalisé en utilisant un serveur fonctionnant en réponse à un programme informatique stocké dans un 15 moyen de mémorisation accessible au serveur. Le système d'entrepôt 104 peut fonctionner comme serveur de réseau (souvent appelé "serveur Web") pour communiquer avec les systèmes d'utilisateur d'entrepôt de données 102 et les systèmes PCP 108. Le système d'entrepôt 104 effectue l'envoi et la réception d'informations vers des systèmes d'utilisateur d'entrepôt de données 102 et des 20 systèmes PCP 108 et en provenance de ceux-ci et peut exécuter des tâches associées. Le système d'entrepôt 104 peut également comprendre un pare-feu pour empêcher l'accès non autorisé au système 104 et appliquer des limitations quelconques à un accès autorisé. Par exemple, un administrateur peut avoir accès à l'ensemble du système et être autorisé à en modifier des parties, et un 25 membre du personnel du PCP peut avoir accès uniquement pour prendre connaissance d'un sous-ensemble des dossiers de l'entrepôt de données pour des patients précis. Dans un exemple de mode de réalisation, l'administrateur a la possibilité d'ajouter de nouveaux utilisateurs, d'effacer des utilisateurs et d'établir des privilèges d'utilisateurs. Le pare-feu peut être réalisé en utilisant 30 du matériel et/ou des logiciels classiques, connus de la technique antérieure. Le système d'entrepôt de données 104 fonctionne également comme serveur d'application. Il exécute un ou plusieurs programmes d'application pour donner accès au gisement de données de l'entrepôt de données, ainsi que des programmes d'application pour importer des données de patients dans une 2908906 12 zone de transfert, puis dans l'entrepôt de données. De plus, le système d'entrepôt de données 104 peut exécuter une ou plusieurs applications pour créer des rapports de cohortes de patients et envoyer ces rapports aux systèmes PCP 108. Le traitement peut être partagé par le système d'utilisateur d'entrepôt 5 de données 102 et le système d'entrepôt 104 en fournissant une application (par exemple une appliquette java) au système d'utilisateur d'entrepôt de données 102. En variante, le système d'utilisateur d'entrepôt de données 102 peut comprendre une application de logiciel autonome pour réaliser une partie du traitement décrit ici. De manière similaire, le traitement peut être partagé 10 par le système PCP 108 et le système d'entrepôt de données 104 en fournissant une application au système PCP 108 et en variante, le système PCP 108 peut comprendre une application de logiciel autonome pour réaliser une partie du traitement décrit ici. Bien entendu, il est possible d'utiliser des serveurs distincts pour exécuter les fonctions de serveur de réseau et les fonctions de 15 serveur d'application. En variante, le serveur de réseau, le pare-feu et le serveur d'application peuvent être constitués d'un serveur unique exécutant des programmes informatiques pour remplir les fonctions requises. Le dispositif de stockage du système d'entrepôt de données 104 peut être réalisé en utilisant différents dispositifs de stockage d'informations 20 électroniques, par exemple un serveur FTP. Bien entendu, le dispositif de stockage peut être réalisé en utilisant la mémoire contenue dans le système d'entrepôt de données 104, ou bien il peut s'agir d'un dispositif physique distinct. Le dispositif de stockage contient des informations variées, y compris un entrepôt contenant des données médicales de patients provenant d'un ou 25 plusieurs PCP. Le système 104 peut également fonctionner comme serveur de banque de données et coordonner l'accès à des données d'application, y compris des données enregistrées dans le dispositif de stockage. L'entrepôt de données peut être stocké physiquement en tant que base de données unique, avec un accès restreint en fonction de caractéristiques d'utilisateur, ou bien il 30 peut être stocké physiquement dans plusieurs bases de données, comprenant des parties de la base de données sur les systèmes d'utilisateur d'entrepôt de données 102 ou le système d'entrepôt de données 104. Dans un exemple de mode de réalisation, le gisement de données est réalisé en utilisant un système de base de données relationnel, et le système de base de données fournit 2908906 13 différentes vues des données à différents utilisateurs finaux, en fonction de caractéristiques d'utilisateur final. La figure 2 représente un schéma d'une architecture d'entrepôt de données 200, conformément à un mode de réalisation de la technologie décrite 5 ici. Les données de patients sont extraites de bases de données EMR situées dans les systèmes PCP 108. Un dossier de base de données EMR comprend des données médicales, telles que le nom et l'adresse du patient, les médications, les allergies, des observations, des diagnostics et des informations d'assurance maladie. Les systèmes PCP 108 comportent des logiciels 10 d'application pour extraire des données de patients de la base de données EMR. Ensuite, ces données sont transportées (par exemple via Hypertext Transfer Protocol ("HTTP") ou Secure HTTP ("HTTPS")) sur le réseau 106 jusqu'au système d'entrepôt de données 104. Le système d'entrepôt de données 104 comprend des logiciels pour 15 remplir unefonction d'importation de données 206. Cette fonction 206 réalise l'agrégation de données de patients depuis des sites multiples et stocke ensuite les données dans une zone de transfert de données 208. Les données reçues de systèmes PCP 108 multiples sont normalisées, vérifiées pour savoir si elles sont valides et complètes et sont soit corrigées soit signalées comme 20 défectueuses. Les données des systèmes PCP 108 multiples peuvent ensuite être combinées pour constituer une base de données relationnelle. L'agrégation et le transfert des données, effectuées de la manière décrite, permettent de soumettre les données à des interrogations sensées et efficaces, soit en tant qu'entité, soit de façon spécifique à chaque site PCP 108 individuel. Les 25 données de patients "désidentifiées" sont ensuite transférées dans un entrepôt de données 210 où elles sont disponibles pour des interrogations. Des rapports de cohortes de patients 212 sont générés par des logiciels d'application installés sur le système d'entrepôt de données 104 et sont renvoyés aux systèmes PCP 108 en vue de leur utilisation par les fournisseurs 30 de soins primaires pour traiter des patients individuels. Les rapports de cohortes de patients 212 peuvent être générés automatiquement en exécutant une interrogation standard sur une base périodique. Des membres du personnel d'un PCP, d'une équipe de recherche pharmaceutique et du personnel de sociétés fabriquant des produits médicaux peuvent par exemple tous tenir des 2908906 14 rapports de cohortes de patients 212. De plus, des rapports de cohortes de patients 212 peuvent être créés par un utilisateur final qui accède à un système d'utilisateur d'entrepôt de données 102 pour créer des rapports personnalisés ou lancer la tenue de rapports standards. En outre, des rapports de cohortes de 5 patients 212 peuvent être générés automatiquement en réponse au logiciel d'application installé dans le système d'entrepôt de données 104, en déterminant que des combinaisons particulières de données pour un patient sont stockées dans l'entrepôt de données. Un exemple de rapport 212 englobe tous les patients avec une maladie précise, qui ont été traités avec une 10 médication particulière. Un autre exemple de rapport 212 englobe des patients d'un âge et d'un sexe précis, qui ont des résultats de test précis. Par exemple, un rapport 212 peut lister toutes les femmes ayant une maladie cardiaque, qui prennent un médicament thérapeutique de remplacement hormonal. Le rapport 212 peut lister toutes les patientes ayant des dossiers dans le système 15 d'entrepôt de données 104 qui remplissent ces critères. Selon un exemple de mode de réalisation, chaque site PCP reçoit le rapport complet, et selon un autre mode de réalisation, chaque site PCP peut recevoir le rapport uniquement pour des patients traités par le site PCP. La figure 3 représente un schéma d'un système d'agrégation de 20 données génétiques et/ou cliniques 300, conforme à un mode de réalisation de la technologie décrite ici. Ce système 300 comprend un entrepôt de données central 310, plusieurs mémoires de données 320 et un dispositif informatique 330. Bien que la figure 3 montre sept mémoires de données 320, le système 300 peut comprendre un nombre quelconque de mémoires de données 320. Par 25 exemple, il est possible de prévoir une seule mémoire de données 320 ou bien beaucoup plus que sept mémoires de données 320 dans le système 300. Selon un mode de réalisation de la technologie décrite ici, l'entrepôt 310 est similaire au système d'entrepôt de données 104 de la figure 1. De plus, selon un mode de réalisation de la technologie, une ou plusieurs mémoires de 30 données 320 sont similaires aux systèmes PCP 108 de la figure 1. L'entrepôt 310 et chacune des mémoires de données 320 comprennent un moyen de stockage 340 pour des données électroniques. Par exemple, l'entrepôt 310 et les mémoires de données 320 peuvent chacun comporter une unité de disque dur, des ordinateurs de serveurs ou d'autres moyens de 2908906 15 stockage électroniques. Selon un mode de réalisation de la technologie décrite ici, l'entrepôt 310 peut être réalisé en utilisant un serveur fonctionnant en réponse à un programme informatique enregistré dans un moyen de stockage accessible au serveur. L'entrepôt 310 peut fonctionner comme un serveur de 5 réseau (souvent appelé "serveur Web") pour communiquer avec une ou plusieurs mémoires de données 320. Le dispositif informatique 330 comprend un dispositif électronique quelconque capable d'exécuter un ou plusieurs ensembles d'instructions. Par exemple, le dispositif informatique 330 peut comporter un ordinateur 10 personnel de bureau ou portable ("PC") ou bien un dispositif informatique mobile, susceptible d'exécuter une ou plusieurs applications logicielles. Le dispositif informatique 330 est capable de communiquer avec l'entrepôt 310 via une connexion câblée ou sans fil. Par exemple, le dispositif informatique 330 peut être connecté à l'entrepôt 310 par un ou plusieurs réseaux, tels qu'un 15 LAN, un WAN, un intranet ou un réseau global (par exemple Internet). Le dispositif informatique 330 peut être couplé à l'entrepôt 310 par de multiples réseaux (par exemple intranet et Internet). Le dispositif informatique 330 comprend un périphérique d'entrée et un périphérique de sortie (non représentés). Le dispositif informatique 330 20 peut par exemple comprendre une souris, un stylet, un microphone et/ou un clavier en tant que périphérique d'entrée. En tant que périphérique de sortie, le dispositif informatique 330 peut comprendre un écran d'ordinateur, un écran à cristaux liquides ("LCD"), une imprimante et/ou un haut-parleur. Le dispositif informatique 330 comprend également une mémoire 350 25 exploitable par ordinateur, ou communique avec une telle mémoire. Cette mémoire 350 exploitable par ordinateur peut être similaire ou identique au moyen de stockage 340. Par exemple, le dispositif informatique 330 peut comprendre une unité de disque dur, un lecteur de disques compacts ("CD"), une clé USB ou n'importe quel autre type de mémoire capable de stocker une 30 ou plusieurs applications logicielles. La mémoire peut être incluse dans le dispositif informatique 330 ou être physiquement distante de celui-ci. Par exemple, la mémoire peut être accessible au dispositif informatique 330 via une connexion de réseau câblé ou sans fil. 2908906 16 La mémoire 350 accessible au dispositif informatique 330 comporte un ensemble d'instructions pour un ordinateur (décrit en détail plus loin). Cet ensemble d'instructions inclut un ou plusieurs sous-programmes pouvant être exécutés par un dispositif informatique 330. L'ensemble d'instructions peut 5 être constitué d'une ou plusieurs applications logicielles ou d'un code informatique. Les mémoires de données 320 sont configurées pour stocker des données cliniques et/ou génétiques d'une pluralité de patients dans le cadre d'une pluralité d'expériences ou d'essais médicaux. Par exemple, une partie ou 10 la totalité de chaque mémoire de données 320 peut être dédiée au stockage de données cliniques et/ou génétiques provenant d'un essai médical particulier dans un hôpital ou un PCP donné ou un groupe d'hôpitaux ou de PCP. Selon un mode de réalisation de la technologie décrite ici, l'entrepôt 310 effectue l'envoi et la réception d'informations vers une ou plusieurs 15 mémoires de données 320 et en provenance de celles-ci. Selon un mode de réalisation, l'entrepôt 310 peut également comprendre un pare-feu pour empêcher l'accès non autorisé aux données stockées dans l'entrepôt 310 et appliquer des limitations quelconques à un accès autorisé. Par exemple, un administrateur peut avoir accès à l'ensemble du système et être autorisé à en 20 modifier des parties, et un membre du personnel du PCP peut avoir accès uniquement pour prendre connaissance d'un sous-ensemble des données stockées dans l'entrepôt 310 pour des patients précis. L'entrepôt 310 peut également fonctionner comme serveur d'application. Il peut exécuter un ou plusieurs programmes d'application pour 25 donner accès aux données stockées dans l'entrepôt 310, ainsi que des programmes d'application pour importer des données de patients dans une zone de transfert, puis dans l'entrepôt 310. De plus, l'entrepôt 310 peut exécuter une ou plusieurs applications pour créer des rapports de cohortes de patients et envoyer ces rapports à une ou plusieurs mémoires de données 320. 30 Le traitement peut être partagé par l'entrepôt 310 et une ou plusieurs mémoires de données 320 en fournissant une application (par exemple une appliquette java) à l'entrepôt 310. Selon un autre mode de réalisation, l'entrepôt 310 peut comprendre une application de logiciel autonome pour réaliser une partie du traitement décrit ici. Bien entendu, il est possible d'utiliser des serveurs 2908906 17 distincts pour exécuter les fonctions de serveur de réseau et les fonctions de serveur d'application. En variante, le serveur de réseau, le pare-feu et le serveur d'application peuvent être constitués d'un serveur unique exécutant des programmes informatiques pour remplir les fonctions requises. 5 L'entrepôt 310 et chacune des mémoires de données 320 communiquent électroniquement via une ou plusieurs liaisons câblées ou sans fil. Par exemple, l'entrepôt 310 et une ou plusieurs mémoires de données 320 peuvent transmettre des données via une connexion de réseau sécurisée ou non sécurisée. La connexion peut être constituée d'un ou plusieurs réseaux, tels 10 qu'un LAN, un WAN, un intranet ou un réseau global (par exemple Internet). Une ou plusieurs mémoires de données 320 peuvent être couplées à l'entrepôt 310 par de multiples réseaux (par exemple intranet et Internet), de sorte qu'il n'est pas nécessaire que toutes les mémoires de données 320 soient couplées à l'entrepôt 310 par le même réseau. 15 Selon un mode de réalisation de la présente invention, une ou plusieurs mémoires de données 320 se trouvent à distance de l'entrepôt 310. En d'autres termes, une ou plusieurs mémoires de données 320 sont séparées physiquement et/ou géographiquement de l'entrepôt 310. Les données cliniques stockées dans les mémoires de données 320 20 englobent des expressions phénotypiques d'un trait génétique. Selon un mode de réalisation, les expressions phénotypiques sont codifiées selon un code utilisé par le PCP qui stocke des données cliniques dans une ou plusieurs mémoires de données 320 précises. Par exemple, les données cliniques peuvent être stockées dans un dossier EMR pour un ou plusieurs patients. Les 25 EMR peuvent inclure des codes ou termes quelconques pour décrire une ou plusieurs maladies, états, événements médicaux et/ou facteurs médicaux liée à un ou plusieurs patients. Les EMR peuvent stocker des données concernant par exemple des états ou des maladies chroniques (tels que le diabète, une maladie cardiaque, le SIDA, un cancer, la cataracte), des allergies (par exemple à des 30 facteurs pharmaceutiques ou environnementaux tels que la fumée, la poussière ou des animaux), des réactions indésirables survenues dans le passé suite à des thérapies médicales et/ou des facteurs environnementaux, et/ou d'autres problèmes médicaux d'ordre général pour chaque patient d'une pluralité de 2908906 18 patients recherchant un traitement médical auprès d'un PCP précis et/ou participant à un essai/une expérience médical(e) précis(e). Les données génétiques stockées dans les mémoires de données 320 (appelées également "données génotypiques") englobent toute information 5 structurée représentative d'une information génétique. Par exemple, les données génétiques peuvent englober des données représentatives d'un ou plusieurs SNP pour un ou plusieurs patients. Dans un autre exemple, les données génétiques peuvent englober des données représentatives d'une combinaison de SNP pour un ou plusieurs patients. Selon un mode de 10 réalisation, les données génétiques d'un ou plusieurs patients sont stockées dans un EMR similaire ou identique au EMR contenant les données cliniques pour les mêmes patients. Comme décrit plus haut, un problème avec des systèmes EMR existants réside dans le fait que des essais médicaux, des hôpitaux, des 15 cliniques et des PCP peuvent utiliser des syntaxes ou des termes différents pour enregistrer des données médicales, y compris des données cliniques et génétiques. Par exemple, plusieurs mémoires de données 320 peuvent chacune stocker des données génétiques et/ou cliniques utilisant
des terminologies ou des syntaxes différentes de celles des autres mémoires de données 320. Par 20 conséquent, lors du fonctionnement, la technologie décrite ici normalise les données cliniques et/ou génétiques de manière à ce que ces données (et les corrélations parmi les différentes données) puissent être analysées plus facilement et de façon plus précise. La figure 4 représente un organigramme d'une méthode 400 pour 25 évaluer une ou plusieurs corrélations entre des données génétiques et cliniques, conformément à un mode de réalisation de la présente technologie. Bien que la figure 4 décrive et illustre un mode de réalisation de la présente technologie, les modes de mise en oeuvre de la technologie ne sont pas tous limités aux pas précis décrits et illustrés dans la figure 4. Par exemple, un ou plusieurs pas 30 peuvent être ajoutés, supprimés, combinés ou réarrangés dans la méthode 400, sans sortir du cadre de la présente invention. Premièrement, au pas 410, des données médicales sont obtenues d'un hôpital, d'une clinique ou d'un autre PCP. Ces données médicales peuvent contenir des données cliniques et/ou génétiques. Par exemple, les données 2908906 19 médicales peuvent contenir des données cliniques telles que des résultats de tests cliniques, un état, une maladie ou d'autres problèmes médicaux, une allergie, un facteur environnemental (par exemple le fait qu'un patient vit dans un foyer avec un ou plusieurs fumeurs ou à proximité de lignes de haute 5 tension, et autres) et/ou une expression phénotypique codifiée d'un trait (qui peut inclure des données quelconques parmi les données cliniques énumérées ci-dessus). Ensuite, au pas 420, les données médicales sont stockées dans un ou plusieurs dossiers EMR, dans une ou plusieurs mémoires de données 320 10 utilisées par le PCP qui a obtenu les données médicales. Selon un mode de réalisation de la présente technologie, les données cliniques et les données génétiques pour les patients sont stockées ensemble dans des EMR dans les mémoires de données 320. Selon un autre mode de réalisation, les données cliniques sont stockées séparément des données génétiques dans les mémoires 15 de données 320. Par exemple, les données cliniques pour un patient particulier peuvent être stockées dans un EMR d'une mémoire 320 précise et les données génétiques pour le même patient peuvent être stockées dans un EMR différent, dans la même mémoire 320 ou dans une mémoire différente. Au pas 420, les données médicales sont stockées dans plusieurs 20 mémoires de données 320 utilisant des syntaxes ou des terminologies différentes. Comme décrit plus haut, cette syntaxe ou terminologie est probablement différente de celle utilisée par un autre PCP pour enregistrer des données médicales. Par exemple, d'autres PCP peuvent désigner les mêmes données cliniques relatives au diabète par des termes tels que "diabétique", 25 "diabète", diabète de type I", "diabète de type 1" ou "diabète juvénile". De plus, d'autres PCP peuvent utiliser une terminologie commune telle que des codes ICD-9 (International Classification of Diseases, Ninth Revision û Classification Internationale des Maladies (CIM), Neuvième Révision), des codes ICD-10, ou des codes CPT (Current Procedure Terminology û 30 Terminologie de Procédure Actuelle) pour enregistrer des données médicales. Selon un autre mode de réalisation, une terminologie commune à un utilisateur ou un groupe d'utilisateurs de la présente technologie peut être utilisée. Par exemple, un médecin particulier ou un groupe de médecins et/ou d'hôpitaux peut avoir son vocabulaire préféré qu'il souhaite employer. Bien que des 2908906 20 terminologies communes soient citées à titre d'exemple ici, différents modes de réalisation de la présente technologie englobent l'utilisation de codes propres à l'utilisateur, des procédés de codage, la syntaxe ou la terminologie. Ensuite, au pas 430, les données médicales sont reçues par l'entrepôt 5 310. Selon un mode de réalisation de la présente technologie, ces données médicales sont "poussées" par une ou plusieurs mémoires de données 320 vers l'entrepôt 310. Par exemple, les données médicales peuvent être communiquées par une mémoire 320 à l'entrepôt 310, sans que la mémoire 320 reçoive une demande ou requête de l'entrepôt 310. Les données médicales 10 peuvent être poussées jusqu'à l'entrepôt 310 sur une base périodique, chaque fois que les données sont obtenues ou en réponse à une requête d'utilisateur, par exemple. Selon un autre mode de réalisation, les données médicales sont "tirées" depuis une ou plusieurs mémoires de données 320 vers l'entrepôt 310. Par 15 exemple, les données médicales peuvent être communiquées par une mémoire 320 à l'entrepôt 310, en réponse à une demande ou requête transmise par l'entrepôt 310 à la mémoire 320. L'entrepôt 310 peut communiquer la requête à la mémoire 320 sur une base périodique ou en réponse à une requête d'utilisateur, par exemple.
20 Ensuite, au pas 440, une partie ou la totalité des données médicales communiquées à l'entrepôt 310 est normalisée, après sa réception par l'entrepôt 310. Par exemple, la totalité ou une partie des données cliniques et/ou génétiques stockées dans une mémoire 320 donnée peut être normalisée. Par "normalisation", on entend que les différents termes et les différentes syntaxes 25 utilisées par différents PCP lors de l'enregistrement des données médicales sont modifiés ou mis en correspondance pour établir un vocabulaire médical contrôlé commun, utilisé pour toutes les données médicales. Selon un autre mode de réalisation, la normalisation des données peut inclure la modification ou la mise en correspondance des termes des données 30 médicales pour constituer un vocabulaire utilisé par un sous-ensemble de tous les utilisateurs de la présente technologie. Par exemple, au lieu d'utiliser le même vocabulaire commun pour tous les hôpitaux ou toutes les cliniques, un ou plusieurs hôpitaux ou cliniques ou un autre sous-ensemble d'utilisateurs peuvent employer leur propre vocabulaire commun. Selon un tel mode de 2908906 21 réalisation, le vocabulaire qui est commun seulement au sous-ensemble peut être différent du vocabulaire médical contrôlé commun utilisé par un ou plusieurs autres sous-ensembles d'utilisateurs. Les données médicales peuvent être normalisées par la mise en 5 correspondance des termes et de la syntaxe utilisés pour décrire des données cliniques et/ou génétiques contenues dans un dossier EMR avec un vocabulaire contrôlé commun. Cela signifie que chaque terme parmi plusieurs termes qui peuvent être considérés comme synonymes et/ou décrivent la même expression phénotypique ou des expressions similaires d'un trait, d'un état 10 médical, d'une maladie ou d'un problème est associé à un code ou un terme unique appartenant à un vocabulaire contrôlé. Par exemple, le terme "diabète juvénile" peut apparaître dans un EMR communiqué à l'entrepôt 310, et le terme "diabète de type 1" peut figurer dans un autre EMR transmis à l'entrepôt 310. Ces termes peuvent ensuite être mis en correspondance avec un terme qui 15 est commun à tous les synonymes de "diabète juvénile" et "diabète de type 1" dans les EMR respectifs. Un tel terme commun peut par exemple être "diabète de type I". L'association de termes peut également être effectuée pour n'importe quel terme ou code utilisé pour décrire des données génétiques dans un EMR.
20 Les termes communs peuvent être inscrits sur une liste ou un tableau stocké à l'entrepôt 310. Cette liste ou ce tableau peut également comporter tous les synonymes du terme commun. Ensuite, lorsque les données cliniques et/ou génétiques sont communiquées dans un EMR à l'entrepôt 310, le ou les termes utilisés pour décrire ces données cliniques et/ou génétiques peuvent être 25 relevés dans le dossier EMR et comparés aux synonymes figurant dans la liste ou le tableau de termes communs. Si une correspondance est trouvée pour le ou les termes utilisés pour décrire les données cliniques et/ou génétiques dans la liste ou le tableau, le terme commun pour tous les synonymes associés aux données cliniques et/ou génétiques est ensuite mis en correspondance avec le 30 ou les termes utilisés pour décrire ces données. Par exemple, un terme utilisé pour décrire une expression phénotypique d'un trait, communiquée en tant que données cliniques dans un EMR, peut être associé à un terme commun représentatif d'un groupe de synonymes de l'expression phénotypique du trait.
2908906 22 Selon un autre mode de réalisation de la présente technologie, des données médicales peuvent être normalisées en classifiant les termes et la syntaxe, utilisés pour décrire des données cliniques et/ou génétiques contenues dans un EMR, à l'aide d'un terme arbitraire, tel qu'un code ou une 5 classification numérique ou alphanumérique. Par exemple, des termes dans les données médicales peuvent être normalisés en les codifiant avec un code ICD. Cela signifie que chaque terme parmi plusieurs termes pouvant être considérés comme synonymes ou décrivant le même problème médical ou des problèmes similaires est codifié en associant le terme à un code ou un terme arbitraire 10 unique. Par exemple, le terme "diabète juvénile" peut apparaître dans un EMR communiqué à l'entrepôt 310, et le terme "diabète de type 1" peut figurer dans un autre EMR transmis à l'entrepôt 310. Ces termes peuvent ensuite être codifiés avec un code numérique qui est commun à un groupe de synonymes de "diabète juvénile".
15 Les codes ou les termes arbitraires peuvent être inscrits dans une liste ou un tableau à l'entrepôt 310. Cette liste ou ce tableau peut également comporter un groupe de synonymes du code ou des termes arbitraires. Ensuite, lorsque par exemple une expression phénotypique d'un trait est communiquée dans un EMR à l'entrepôt 310, le terme utilisé pour décrire cette expression 20 phénotypique du trait peut être relevé dans le dossier EMR et comparé aux synonymes figurant dans la liste ou le tableau de codes/termes arbitraires. Si une correspondance est trouvée, le dossier EMR est codifié avec le code commun à un groupe de synonymes associés à l'expression phénotypique du trait.
25 Ensuite, au pas 450, un ou plusieurs sous-ensembles de patients sont créés. Cette création peut avoir pour but de diviser la totalité de la population de données cliniques ou médicales codifiées en un ou plusieurs groupes (c'est-à-dire sous-ensembles) de patients ayant en commun une ou plusieurs expressions phénotypiques d'un trait, des états médicaux, des maladies, des 30 problèmes médicaux ou des facteurs environnementaux. Ces sous-ensembles peuvent être créés par un utilisateur en sélectionnant ou en saisissant d'abord au moins un état clinique, ce qu'il peut faire à l'aide du dispositif informatique 330. Les états cliniques entrés par l'utilisateur comprennent un ou plusieurs paramètres relatifs aux données 2908906 23 cliniques et/ou génétiques dans un ou plusieurs des EMR stockés dans l'entrepôt de données 310. Les états cliniques entrés par l'utilisateur peuvent comprendre toutes sortes de données médicales ou génétiques, de problèmes, d'états ou de maladies. Par exemple, les états cliniques peuvent être des 5 maladies, des affections chroniques, des handicaps, des réactions indésirables à des thérapies médicales, des allergies, des facteurs environnementaux et d'autres problèmes médicaux. Les facteurs environnementaux peuvent englober toutes les informations concernant l'environnement dans lequel vit ou travaille un patient. Par exemple, le fait qu'un patient fume, vit dans un foyer 10 avec des fumeurs, travaille dans un environnement chargé de fumée, est le descendant d'une personne décédée d'un carcinome bronchogénique, vit à proximité de lignes de haute tension et a des parents présentant un ou plusieurs autres états cliniques constitue chaque fois un exemple de facteur environnemental. De plus, le régime d'un patient et/ou ses habitudes d'exercice 15 physique sont également des exemples de facteurs environnementaux. Dans un autre exemple, il est possible de créer au pas 450 un sous-ensemble de patients qui inclut tous les patients qui prennent un médicament particulier délivré uniquement sur ordonnance, tel que le Lipitor. Un autre sous-ensemble peut être créé et inclure tous les patients qui ont été examinés 20 en raison d'un problème médical particulier, en utilisant un test clinique ou de laboratoire particulier. Par exemple, un sousensemble peut inclure tous les patients qui ont été examinés suite à un effondrement musculaire, en utilisant un test mesurant les enzymes musculaires. Il est possible d'utiliser plus d'un état clinique pour créer ou générer un 25 sous-ensemble. En continuant avec l'exemple ci-dessus, on peut créer un sous-ensemble incluant tous les patients qui prennent un médicament particulier délivré sur ordonnance et ont un problème médical ou un résultat de test de laboratoire particulier. Par exemple, un sous-ensemble peut inclure tous les patients qui prennent du Lipitor (par exemple avec un certain dosage ou plus) 30 et présentent un effondrement musculaire (mesuré par exemple avec un test de laboratoire pour des enzymes musculaires). Les états cliniques peuvent également inclure des données génétiques. Par exemple, les états cliniques peuvent inclure un ou plusieurs SNP ou une ou plusieurs combinaisons de SNP.
2908906 24 L'utilisateur peut entrer les états cliniques par l'intermédiaire du dispositif informatique 330. Par exemple, il peut utiliser un dispositif d'entrée pour taper ou sélectionner un ou plusieurs états cliniques affichés sur un périphérique de sortie, pour les inscrire sur une liste générée par ordinateur.
5 Les états cliniques sont utilisés pour générer une population, ou un groupe, de patients présentant un ou plusieurs états cliniques similaires ou identiques, comme décrit plus haut. Cela signifie que la liste d'états cliniques est utilisée par le dispositif informatique 330 pour chercher dans la totalité ou dans un sous-ensemble des dossiers EMR (ou dans la totalité ou dans un sous- 10 ensemble des données contenues dans un ou plusieurs EMR), afin de trouver des états cliniques identiques ou similaires dans le ou les EMR. Si une correspondance pour un ou plusieurs des états cliniques entrés par l'utilisateur est trouvée dans un ou plusieurs EMR, ces EMR et les patients associés sont inclus dans un sous-ensemble de patients devant être examinés.
15 Comme décrit plus haut, les données cliniques et/ou génétiques incluses dans des EMR stockés dans l'entrepôt 310 sont normalisées au pas 440, de sorte que des termes différents, utilisés pour décrire des données cliniques et/ou génétiques identiques ou similaires, dans différents EMR provenant de différentes mémoires de données 320 sont mis en correspondance 20 avec un terme commun ou sont codés avec le même code ou un code similaire. Ainsi, les données médicales entrées par des personnes, des hôpitaux ou des groupes différents, utilisant des termes, des syntaxes ou des vocabulaires différents peuvent être facilement explorées ou parcourues pour fournir unsous-ensemble de patients présentant des états médicaux ou cliniques 25 identiques ou similaires. Selon un mode de réalisation de la présente technologie, le dispositif informatique 330 sélectionne seulement les EMR contenant des données qui correspondent à chaque état clinique inclus dans la liste. Par conséquent, si une liste comporte cinq états cliniques et un EMR comporte des données 30 correspondant à quatre états cliniques ou moins, ce dossier EMR n'est pas sélectionné. D'un autre côté, si une liste comporte cinq états cliniques et un EMR comporte des données correspondant à ces cinq états cliniques, le EMR est sélectionné.
2908906 25 Selon un autre mode de réalisation de la présente technologie, le dispositif informatique 330 sélectionne uniquement les EMR contenant des données qui correspondent à un nombre d'états cliniques inclus dans la liste qui dépasse un seuil. Par exemple, si un seuil est fixé à trois correspondances 5 et une liste comporte cinq états cliniques, un EMR doit comporter des données qui correspondent à au moins trois des états cliniques de la liste. Si le dossier EMR comporte uniquement des données qui correspondent à deux états cliniques ou moins de la liste, il n'est pas sélectionné. Selon un autre mode de réalisation de la présente technologie, le 10 dispositif informatique 330 sélectionne des EMR avec des données qui correspondent à un nombre d'états cliniques inclus dans la liste qui atteint ou dépasse un seuil parmi plusieurs seuils. Par exemple, trois seuils peuvent être fixés, respectivement à cinq correspondances (entre des données EMR et la liste d'états cliniques), à trois correspondances et à une correspondance. Si un 15 EMR comporte des données qui correspondent à un nombre suffisant d'états cliniques pour atteindre ou dépasser l'un de ces seuils, il est sélectionné et placé dans une catégorie associée au seuil de correspondances. En poursuivant avec l'exemple ci-dessus, un EMR comportant des données qui correspondent à deux états cliniques est placé dans la catégorie de EMR comportant des 20 données qui correspondent à au moins un mais à moins de trois états cliniques; un EMR avec des données correspondant à trois états cliniques est placé dans la catégorie de EMR avec des données correspondant à au moins trois mais à moins de cinq états cliniques; et un EMR avec des données correspondant à huit états cliniques est placé dans la catégorie de EMR avec des données 25 correspondant à au moins cinq états cliniques. En triant les EMR en fonction du nombre de correspondances entre les données de EMR et la liste d'états cliniques, un utilisateur de la présente technologie peut obtenir plusieurs populations de patients, parmi lesquelles il peut sélectionner en fonction du nombre de correspondances entre les données de EMR et la liste. Là aussi, on 30 poursuit l'exemple, en supposant qu'il y a un ensemble de 100 EMR et les seuils précités, où 25 EMR comportent des données correspondant à au moins un mais à moins de trois états cliniques de la liste, 5 EMR comportent des données correspondant à au moins trois mais à moins de cinq états cliniques de la liste, 2 EMR comportent des données correspondant à au moins cinq états 2908906 26 cliniques et 68 EMR ne comportent aucune donnée correspondant à un état clinique, un utilisateur peut sélectionner le groupe de 25 EMR pour son analyse. Selon un autre mode de réalisation, le dispositif informatique 330 5 sélectionne des EMR comportant des données qui correspondent à un nombre d'états cliniques de la liste qui atteint ou dépasse un ou plusieurs seuils. Par exemple, trois seuils peuvent être fixés respectivement à cinq correspondances (entre des données de EMR et la liste d'états cliniques) (désigné par "Catégorie 5"), à trois correspondances ("Catégorie 3") et à une correspondance 10 ("Catégorie 1"). Si un EMR comporte des données qui correspondent à un nombre suffisant d'états cliniques pour atteindre ou dépasser un ou plusieurs seuils, il est sélectionné et placé dans chaque catégorie associée au nombre seuil de correspondances qui est atteint ou dépassé par les données du EMR. Si on poursuit l'exemple ci-dessus, un EMR avec des données correspondant à 15 deux états cliniques est placé dans la Catégorie 1; un EMR avec des données correspondant à trois états cliniques est placé à la fois dans la Catégorie 1 et dans la Catégorie 3; et un EMR avec des données correspondant à huit états cliniques est placé dans les Catégories 1, 3 et 5. En triant les EMR en fonction du nombre de correspondances entre les données de EMR et la liste d'états 20 cliniques, un utilisateur de la présente technologie peut obtenir plusieurs populations de patients, parmi lesquelles il peut sélectionner en fonction du nombre de correspondances entre les données de EMR et la liste. Selon un mode de réalisation de la présente technologie, un utilisateur peut entrer plusieurs listes d'états cliniques et obtenir plusieurs sous-ensembles 25 de EMR et/ou de patients qui correspondent à une ou plusieurs des listes (comme décrit plus haut). Ensuite, il peut utiliser le dispositif informatique 330 pour sélectionner la ou les listes qu'il souhaite utiliser pour son analyse des données. Selon un mode de réalisation de la présente technologie, après avoir 30 entré une liste d'états cliniques et obtenu un sous-ensemble de EMR et/ou de patients qui correspondent à une ou plusieurs de ces listes, l'utilisateur peut se servir du périphérique d'entrée du dispositif informatique 330 pour modifier un ou plusieurs états cliniques de la liste et visualiser le ou les changements correspondants du sous-ensemble de EMR et/ou de patients correspondant à la 2908906 27 liste modifiée. Ce changement du sous-ensemble de EMR et/ou de patients peut avoir lieu sensiblement en temps réel. L'expression "sensiblement en temps réel" signifie que le changement dans la liste et/ou le changement correspondant dans le sous-ensemble de EMR/patients se produit et est 5 présenté à l'utilisateur sur un périphérique de sortie en un laps de temps qui ne dépasse pas celui nécessaire au dispositif informatique 330, à l'entrepôt 310 et/ou aux mémoires de données 320 pour sélectionner et présenter les données. Cela signifie qu'aucun retard intentionnel n'est ajouté à la sélection des données correspondant à la liste modifiée. En autorisant un utilisateur à 10 modifier ainsi de façon dynamique la liste et le sous-ensemble de EMR/patients, l'utilisateur peut modifier rapidement un ou plusieurs paramètres/états cliniques de la liste, afin de connaître les conséquences sur le nombre de EMR/patients qui correspondent à la liste après le ou les changements.
15 Après avoir créé un ou plusieurs sous-ensembles de patients au pas 450, l'utilisateur peut sélectionner un ou plusieurs de ces sous-ensembles au pas 460. Par exemple, plusieurs sous-ensembles peuvent être créés au pas 450, et un sous-ensemble peut être préféré (et sélectionné) par rapport à d'autres sous-ensembles. Un de ces sous-ensembles sélectionnés peut par exemple être 20 celui comportant le plus grand nombre de patients. Dans un autre exemple, un sous-ensemble peut être sélectionné parce qu'il comporte un nombre de patients qui dépasse un seuil. La sélection d'un sous-ensemble peut être effectuée manuellement ou automatiquement. Par exemple, l'utilisateur peut sélectionner manuellement un sous-ensemble via un périphérique d'entrée 25 connecté au dispositif informatique 330. Selon un autre exemple, un sous-ensemble peut être sélectionné automatiquement si le nombre de patients du sous-ensemble est égal ou supérieur à un seuil ou représente le plus grand nombre de patients, comparé aux autres sous-ensembles. Ensuite, au pas 470, on détermine s'il existe une corrélation parmi les 30 données génétiques associées aux patients du sous-ensemble sélectionné. Cela signifie qu'une fois un sous-ensemble de patients sélectionné, on détermine si un nombre statistiquement significatif des patients est associé à des EMR ou présente des EMR avec des données identiques ou similaires. Par exemple, on peut déterminer au pas 470 si un nombre statistiquement significatif de 2908906 28 patients présente le même SNP, la même pluralité de SNP ou le même problème médical. Selon un mode de réalisation de la présente invention, la ou les corrélations sont déterminées ou calculées entre des données génétiques 5 incluses dans le sous-ensemble de EMR et un ou plusieurs états cliniques de la liste générée au pas 450. Cela signifie que l'on détermine si un nombre suffisant de patients est associé à des EMR comportant des données génétiques identiques ou similaires. Par exemple, si un nombre de patients qui est supérieur à un seuil possède des EMR avec le(s) même(s) SNP(s) ou le(s) 10 même(s) groupe(s) de SNP(s), il est établi qu'une corrélation existe. Une telle détermination est utile pour trouver des corrélations par exemple entre des problèmes médicaux, des maladies, des facteurs environnementaux ou des allergies et certaines données génétiques, telles que des SNP ou des groupes de SNP.
15 Selon un autre mode de réalisation de la présente technologie, le ou les états cliniques sélectionnés par un utilisateur pour créer une liste de EMR au pas 450 sont constitués de données génétiques. Par exemple, l'utilisateur sélectionne un ou plusieurs SNP ou groupes de SNP en tant qu'états cliniques. Ensuite, au pas 470, on détermine si un nombre suffisant de patients est 20 associé aux EMR comportant des données cliniques identiques ou similaires. Par exemple, si un nombre de patients dépassant un seuil présente des EMR avec le même problème médical, la même allergie, le même facteur environnemental ou la même maladie, il est établi qu'une corrélation existe. Une telle détermination est utile pour trouver des corrélations "image-miroir" 25 pour celles décrites plus haut. En particulier, une telle détermination est utile pour trouver des corrélations entre des données génétiques, telles que des SNP ou des groupes de SNP, et certains problèmes médicaux, tels que des maladies et des allergies. Selon un mode de réalisation de la présente technologie, une 30 corrélation entre des états cliniques et des données cliniques et/ou génétiques n'est trouvée au pas 470 que si un nombre de patients ou de EMR dépasse un seuil. Par exemple, si un seuil est fixé à 70 et si plus de 70 patients ou EMR présentent des données génétiques et/ou cliniques identiques ou similaires (comme décrit plus haut), il existe une corrélation.
2908906 29 Selon un autre mode de réalisation de la présente technologie, une corrélation entre des états cliniques et des données cliniques et/ou génétiques n'est trouvée au pas 470 que si un pourcentage de patients ou de EMR sélectionnés au pas 460 dépasse un seuil. Par exemple, si un seuil est fixé à 70 5 pour cent et si plus de 70 pour cent des patients ou des EMR sélectionnés au pas 460 présentent des données génétiques et/ou cliniques identiques ou similaires (comme décrit plus haut), il existe une corrélation. Ensuite, au pas 480, si on détermine qu'une ou plusieurs corrélations existent, l'utilisateur est averti par le dispositif informatique 330, dès qu'une 10 corrélation est trouvée. Cet avertissement peut par exemple être un affichage visuel ou un son émis sur un périphérique de sortie du dispositif informatique 330. Selon un autre mode de réalisation de la présente technologie, un ou plusieurs pas de la méthode 400 sont supprimés ou exécutés dans un ordre qui 15 est différent de celui décrit plus haut et illustré dans la figure 4. Par exemple, le pas 460 peut être supprimé. Dans un tel exemple, la méthode 400 passe de la création d'un ou plusieurs sous-ensembles de patients (au pas 450) à la détermination pour savoir s'il existe des corrélations entre les données génétiques des patients du sous-ensemble et leurs problèmes/états médicaux 20 associés (au pas 470). La présente invention propose, entre autres, une méthode automatisée pour réduire une grande population de patients ou de EMR à un sous-ensemble déterminé en fonction d'une liste d'états cliniques, saisie par un utilisateur, où le sous-ensemble de patients/EMR peut ensuite être analysé pour déterminer si 25 des données génétiques et/ou cliniques quelconques sont communes au sous-ensemble de patients/EMR. Une telle méthode offre une possibilité plus rapide et plus efficace pour réaliser l'analyse d'un grand volume de données génétiques et cliniques. De plus, comme les données obtenues d'une pluralité d'essais cliniques, de PCP, d'hôpitaux et de cliniques (par exemple) sont 30 normalisées avant l'analyse, les corrélations entre des patients/EMR et des données cliniques et/ou génétiques peuvent être déterminées, même si un grand nombre ou la totalité des sources des données utilisent des syntaxes différentes pour enregistrer les données.
2908906 30 Selon un autre mode de réalisation de la technologie décrite ici, le pas 440 précède le pas 430. Cela signifie que la normalisation des données stockées dans les différentes mémoires de données 320 a lieu avant que les données ne soient communiquées à l'entrepôt 310. La normalisation peut être 5 effectuée par un dispositif informatique similaire ou identique au dispositif informatique 330 qui est connecté à une mémoire de données 320. Ainsi, les données incluses dans un EMR qui est stocké dans une mémoire 320 sont normalisées avant d'être reçues par l'entrepôt 310, de sorte qu'il n'est pas nécessaire de prévoir une normalisation supplémentaire.
10 Comme décrit plus haut, selon un mode de réalisation de la présente technologie, une mémoire exploitable par ordinateur est accessible au dispositif informatique 330 et comprend un ensemble d'instructions pour un ordinateur. Cet ensemble d'instructions englobe un ou plusieurs sous-programmes pouvant être exécutés sur le dispositif informatique 330.
15 L'ensemble d'instructions peut être constitué d'une ou plusieurs applications logicielles ou d'un code informatique. L'ensemble d'instructions peut comprendre un sous-programme de normalisation de données configuré pour normaliser une ou plusieurs des données génotypiques et données cliniques associées à chaque patient d'une 20 population de patients. Comme décrit plus haut en relation avec le pas 440 de la méthode 400, les données cliniques et/ou génétiques (ou génotypiques) peuvent être stockées dans des dossiers EMR, dans différentes mémoires de données 320. Dès que plusieurs de ces EMR (qui peuvent chacun inclure des termes et des syntaxes différents pour décrire les données cliniques et/ou 25 génétiques) sont reçus par l'entrepôt 310, le sous-programme de normalisation peut amener le dispositif informatique 330 à normaliser les données. Cela signifie que le sous-programme de normalisation peut recevoir les données et en effectuer la normalisation. Comme décrit plus haut, la normalisation des données peut consister par exemple à établir des correspondances entre des 30 termes, utilisés pour décrire des états médicaux ou des informations génétiques identiques ou similaires, et un terme commun unique, ou à codifier des synonymes des états médicaux ou des informations génétiques identiques ou similaires avec un code alphanumérique.
2908906 31 Selon un autre mode de réalisation de la présente technologie, le programme de normalisation de données peut être inclus dans un second ensemble d'instructions qui est stocké sur un support exploitable par ordinateur et accessible à un ou plusieurs dispositifs informatiques communiquant avec 5 une ou plusieurs mémoires de données 320. Comme décrit plus haut, la normalisation des données peut avoir lieu avant que les données ne soient communiquées par la ou les mémoires de données 320 à l'entrepôt 310. Dans un tel mode de réalisation, le sous-programme de normalisation peut fonctionner sur un dispositif informatique ou amener un tel dispositif, qui 10 communique avec une mémoire de données 320, à normaliser les données, avant que les données du dossier EMR ne soient transmises à l'entrepôt 310. L'ensemble d'instructions peut également comprendre un sous-programme de sélection de patients configuré pour sélectionner un sous-ensemble de patients dans la population précitée, en fonction d'un ou plusieurs 15 états cliniques saisis par un utilisateur. Comme décrit plus haut en relation avec le pas 450 de la méthode 400, un sous-ensemble de EMR peut être sélectionne dans un groupe de EMR stockés dans l'entrepôt 310, par exemple en fonction de plusieurs états cliniques saisis par l'utilisateur. Le sous-programme de sélection de patients peut fonctionner sur le dispositif 20 informatique 330 ou amener celui-ci à sélectionner le sous-ensemble de EMR dans le groupe de EMR d'entrepôt 310. L'ensemble d'instructions peut également comprendre un sous-programme de corrélation configuré pour déterminer une ou plusieurs corrélations entre au moins un des états cliniques et une ou plusieurs des 25 données génétiques et cliniques. Comme décrit plus haut en relation avec le pas 470 de la méthode 400, une ou plusieurs corrélations ou relations entre un ou plusieurs états cliniques saisis par un utilisateur (tels qu'un problème médical ou un SNP/groupe de SNP) et des données génétiques et/ou cliniques, incluses dans les EMR sélectionnés par le sous-programme de sélection de 30 patients au pas 460, peuvent être calculées. Le sous-programme de corrélation peut fonctionner sur le dispositif informatique 330 ou amener celui-ci à déterminer ou calculer les corrélations, si elles existent, entre les états cliniques et les données, comme décrit plus haut.
2908906 32 Selon un mode de réalisation de la présente technologie, l'ensemble d'instructions peut comprendre un sous-programme de notification configuré pour avertir un utilisateur lorsque une ou plusieurs corrélations calculées ou déterminées par le sous-programme de corrélation dépassent un ou plusieurs 5 seuils. Comme décrit plus haut en relation avec le pas 480 de la méthode 400, dès qu'une corrélation a été déterminée par le sous-programme de corrélation, une notification est communiquée à un utilisateur. Par exemple, le sous-programme de notification peut fonctionner sur le dispositif informatique 330 ou amener celui-ci à fournir un affichage visuel sur un écran ou un signal 10 audio via un haut-parleur. Selon un mode de réalisation de la présente technologie, l'ensemble d'instructions peut comprendre un sous-programme d'entrée configuré pour modifier un ou plusieurs seuils avec lesquels est comparé un degré de correspondance entre un ou plusieurs états cliniques sélectionnés par un 15 utilisateur et des données génétiques et/ou cliniques dans le sous-ensemble de EMR. Comme décrit plus haut, un utilisateur peut se servir d'un périphérique d'entrée du dispositif informatique 330 pour modifier un ou plusieurs états cliniques sur la liste d'états cliniques et visualiser tout changement correspondant du sous-ensemble de EMR et/ou de patients qui correspondent à 20 la liste modifiée. Par exemple, le sous-programme d'entrée peut recevoir des entrées d'un utilisateur sous forme de sélection ou de désélection (c'est-à-dire la suppression d'un ou plusieurs états cliniques sur une liste d'états cliniques précédemment sélectionné par l'utilisateur) d'un ou plusieurs états cliniques. Le sous-programme d'entrée peut ensuite fonctionner sur le dispositif 25 informatique 330 ou amener celui-ci à modifier la liste d'états cliniques et, par conséquent, amener le sous-programme de sélection de patients à modifier les EMR inclus dans le sous-ensemble de EMR sélectionné par le sous-programme de sélection de patients. L'effet technique de l'ensemble d'instructions décrit ci-dessus consiste, 30 entre autres, à mettre à disposition une méthode automatisée pour réduire une grande population de patients ou de dossiers EMR à un sous-ensemble déterminé en fonction d'une liste d'états cliniques saisie par un utilisateur, où le sous-ensemble de patients/EMR peut ensuite être analysé pour déterminer si des données génétiques et/ou cliniques quelconques sont communes au sous- 2908906 33 ensemble de patients/EMR. L'ensemble d'instructions offre ainsi une possibilité plus rapide et plus efficace pour réaliser l'analyse d'un grand volume de données génétiques et cliniques. De plus, comme les données obtenues d'une pluralité d'essais cliniques, de PCP, d'hôpitaux et de cliniques 5 (par exemple) sont normalisées avant l'analyse, les corrélations entre des patients/EMR et des données cliniques et/ou génétiques peuvent être déterminées, même si un grand nombre ou la totalité des sources des données utilisent des syntaxes différentes pour enregistrer les données. Bien que l'invention ait été décrite avec référence à des exemples de 10 modes de réalisation, l'homme de métier comprendra que diverses modifications peuvent être apportées et des équivalences peuvent être substituées à des éléments de l'invention, sans sortir du cadre de celle-ci. De plus, de nombreuses modifications peuvent être apportées pour adapter une situation particulière ou un matériel particulier aux enseignements de 15 l'invention, sans sortir du cadre essentiel de celle-ci. Par conséquent, la présente invention n'est pas limitée au mode de réalisation particulier qui est divulgué comme étant la meilleure manière de mettre en oeuvre l'invention, mais l'invention englobe tous les modes de réalisation qui se situent dans le cadre des revendications annexées. En outre, l'utilisation des termes "premier", 20 "second" et ainsi de suite n'indique en aucun cas un ordre ou une importance mais ces termes sont employés pour distinguer les éléments entre eux. Enfin, bien que des éléments, des modes de réalisation et des applications particuliers de la présente invention aient été représentés et décrits, il va de soi que l'invention n'est pas limitée à ceux-ci et que des 25 modifications peuvent être apportées par l'homme de métier, notamment à la lumière de l'enseignement qui précède.

Claims (14)

REVENDICATIONS
1. Système d'évaluation des corrélations entre des variations génétiques et des informations cliniques, ledit système comprenant : - un système d'entrepôt de données (310) normalisant une ou plusieurs données génotypiques et données cliniques associées à un patient parmi plusieurs patients d'une population de patients; et - un dispositif informatique (330) recevant un ou plusieurs états cliniques obtenus d'un utilisateur, créant un sous-ensemble de patients à partir de ladite population, sur la base d'une comparaison desdits états cliniques avec lesdites données cliniques, et déterminant une ou plusieurs corrélations entre au moins un desdits états cliniques et une ou plusieurs desdites données génotypiques et lesdites données cliniques pour ledit sous-ensemble de patients.
2. Système selon la revendication 1, dans lequel ledit système d'entrepôt de données (310) reçoit une ou plusieurs desdites données génotypiques et desdites données cliniques de chaque mémoire parmi une pluralité de mémoires de données distantes (320), lesdites mémoires de données distantes (320) contenant des données obtenues de différents essais cliniques.
3. Système selon la revendication 1, dans lequel ledit système d'entrepôt de données (310) normalise une ou plusieurs desdites données génotypiques et desdites données cliniques en déterminant un ou plusieurs synonymes pour un terme utilisé pour décrire une expression phénotypique d'un trait incluse dans lesdites données cliniques, et en établissant la correspondance entre ledit terme et un terme commun appartenant à un vocabulaire contrôlé, ledit terme commun étant représentatif dudit terme et desdits synonymes.
4. Système selon la revendication 1, dans lequel lesdites corrélations englobent un ou plusieurs calculs d'un degré de concordance entre au moins un desdits états cliniques et une ou plusieurs desdites données génotypiques et desdites données cliniques.
5. Système pour déterminer des corrélations entre des données génétiques et des données médicales, ledit système comprenant : 2908906 35 - un dispositif informatique (330) effectuant la normalisation des données génotypiques et/ou des données cliniques associées à chaque patient parmi plusieurs patients, provenant de plusieurs sources et reçues dans un système d'entrepôt de données (310), la sélection d'un ou plusieurs patients parmi 5 ladite pluralité de patients, en fonction d'un ou plusieurs paramètres, et la détermination d'une corrélation entre un ou plusieurs desdits paramètres et au moins une desdites données génotypiques et desdites données cliniques associées à plusieurs desdits patients sélectionnés parmi ladite pluralité de patients, 10 dans lequel plusieurs sources de ladite pluralité de sources (320) utilisent différents termes pour communiquer lesdites données génotypiques et lesdites données cliniques audit système d'entrepôt de données (310).
6. Système selon la revendication 5, dans lequel ladite pluralité de sources (320) comprend une pluralité de mémoires de données distantes 15 (320) contenant des données obtenues de différents essais cliniques.
7. Système selon la revendication 5, dans lequel lesdites données cliniques englobent une expression phénotypique codifiée d'un trait.
8. Système selon la revendication 5, dans lequel ledit dispositif informatique (330) sélectionne lesdits patients, si un ou plusieurs desdits 20 paramètres concordent avec une ou plusieurs desdites données génotypiques et desdites données cliniques pour chacun des patients sélectionnés.
9. Système selon la revendication 8, dans lequel ledit dispositif informatique (330) sélectionne lesdits patients, si un degré de concordance entre un ou plusieurs desdits paramètres et une ou plusieurs desdites données 25 génotypiques et desdites données cliniques pour chacun des patients sélectionnés dépasse un seuil.
10. Système selon la revendication 5, dans lequel lesdits paramètres peuvent être changés de manière dynamique pour modifier lesdits patients sélectionnés. 30
11. Méthode d'évaluation des corrélations entre des variations génétiques et des informations cliniques, ladite méthode comprenant : - la normalisation (440) d'une ou plusieurs données génotypiques et de données cliniques associées à chaque patient d'une pluralité de patients d'une population de patients; 2908906 36 - la réception d'un ou plusieurs états cliniques obtenus d'un utilisateur; - la création (460) d'un sousensemble de patients parmi ladite population, sur la base d'une comparaison desdits états cliniques avec lesdites données cliniques; et 5 - la détermination (470) d'une ou plusieurs corrélations entre au moins un desdits états cliniques et une ou plusieurs desdites données génotypiques et desdites données cliniques pour ledit sous-ensemble de patients.
12. Méthode selon la revendication 11, comprenant en outre la réception d'une ou plusieurs desdites données génotypiques et desdites 10 données cliniques provenant de chaque mémoire d'une pluralité de mémoires de données distantes, lesdites mémoires de données distantes contenant des données obtenues de différents essais cliniques.
13. Méthode selon la revendication 11, dans laquelle ladite étape de normalisation (440) comprend : 15 - la détermination d'un ou plusieurs synonymes pour un terme utilisé pour décrire une expression phénotypique d'un trait incluse dans lesdites données cliniques; et - l'établissement de la correspondance entre ledit terme et un terme commun appartenant à un vocabulaire contrôlé, ledit terme commun étant représentatif 20 dudit terme et desdits synonymes.
14. Méthode selon la revendication 11, dans laquelle ladite étape de normalisation (440) comprend : - la détermination d'un ou plusieurs synonymes pour un terme utilisé pour décrire une expression phénotypique d'un trait incluse dans lesdites données 25 cliniques; et - le codage desdites données cliniques avec une classification de ladite expression phénotypique dudit trait, ladite classification étant représentative de ladite expression phénotypique dudit terme et desdits synonymes.
FR0756143A 2006-11-17 2007-06-29 Methode d'evaluation des correlations entre des informations structurees et normalisees sur de variations genetiques entre des humains et leurs donnees cliniques personnelles de patient a partir de dossiers medicaux electroniques Withdrawn FR2908906A1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/601,358 US20070294113A1 (en) 2006-06-14 2006-11-17 Method for evaluating correlations between structured and normalized information on genetic variations between humans and their personal clinical patient data from electronic medical patient records

Publications (1)

Publication Number Publication Date
FR2908906A1 true FR2908906A1 (fr) 2008-05-23

Family

ID=38352761

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0756143A Withdrawn FR2908906A1 (fr) 2006-11-17 2007-06-29 Methode d'evaluation des correlations entre des informations structurees et normalisees sur de variations genetiques entre des humains et leurs donnees cliniques personnelles de patient a partir de dossiers medicaux electroniques

Country Status (3)

Country Link
US (1) US20070294113A1 (fr)
FR (1) FR2908906A1 (fr)
GB (1) GB2443896A (fr)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8122073B2 (en) 2006-09-29 2012-02-21 The Invention Science Fund I Computational systems for biomedical data
US7853626B2 (en) * 2006-09-29 2010-12-14 The Invention Science Fund I, Llc Computational systems for biomedical data
US20080082359A1 (en) * 2006-09-29 2008-04-03 Searete Llc, A Limited Liability Corporation Of State Of Delaware Computational systems for biomedical data
US10095836B2 (en) 2006-09-29 2018-10-09 Gearbox Llc Computational systems for biomedical data
US20080082364A1 (en) * 2006-09-29 2008-04-03 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US20080082306A1 (en) * 2006-09-29 2008-04-03 Searete Llc Computational systems for biomedical data
US10546652B2 (en) * 2006-09-29 2020-01-28 Gearbox Llc Computational systems for biomedical data
US10068303B2 (en) 2006-09-29 2018-09-04 Gearbox Llc Computational systems for biomedical data
US10503872B2 (en) * 2006-09-29 2019-12-10 Gearbox Llc Computational systems for biomedical data
US20080082307A1 (en) * 2006-09-29 2008-04-03 Searete Llc Computational systems for biomedical data
US20080082583A1 (en) * 2006-09-29 2008-04-03 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US20080082584A1 (en) * 2006-09-29 2008-04-03 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US20080082271A1 (en) * 2006-09-29 2008-04-03 Searete Llc Computational systems for biomedical data
US20080091730A1 (en) * 2006-09-29 2008-04-17 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US8930178B2 (en) * 2007-01-04 2015-01-06 Children's Hospital Medical Center Processing text with domain-specific spreading activation methods
US7844609B2 (en) 2007-03-16 2010-11-30 Expanse Networks, Inc. Attribute combination discovery
US7505867B2 (en) * 2007-05-21 2009-03-17 General Electric Co. System and method for predicting medical condition
US8117048B1 (en) * 2008-10-31 2012-02-14 Independent Health Association, Inc. Electronic health record system and method for an underserved population
US8108406B2 (en) 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
EP3276526A1 (fr) 2008-12-31 2018-01-31 23Andme, Inc. Recherche de parents dans une base de données
EP3522172B1 (fr) 2009-04-27 2021-10-20 Children's Hospital Medical Center Procédé pour estimer une condition neuropsychiatrique d'un sujet humain
US20140160132A1 (en) * 2011-07-12 2014-06-12 Carnegie Mellon University Visual representations of structured association mappings
US11869671B1 (en) 2011-09-14 2024-01-09 Cerner Innovation, Inc. Context-sensitive health outcome surveillance and signal detection
US11380440B1 (en) * 2011-09-14 2022-07-05 Cerner Innovation, Inc. Marker screening and signal detection
US8990250B1 (en) * 2011-10-11 2015-03-24 23Andme, Inc. Cohort selection with privacy protection
JP6640857B2 (ja) * 2014-12-19 2020-02-05 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 医療用ブレスレット規格
US11139051B2 (en) 2018-10-02 2021-10-05 Origent Data Sciences, Inc. Systems and methods for designing clinical trials
WO2021133164A1 (fr) * 2019-12-24 2021-07-01 Mimos Berhad Données non structurées dans un entrepôt de données d'entreprise

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9904585D0 (en) * 1999-02-26 1999-04-21 Gemini Research Limited Clinical and diagnostic database
US6812339B1 (en) * 2000-09-08 2004-11-02 Applera Corporation Polymorphisms in known genes associated with human disease, methods of detection and uses thereof
US20020128860A1 (en) * 2001-01-04 2002-09-12 Leveque Joseph A. Collecting and managing clinical information
AU785425B2 (en) * 2001-03-30 2007-05-17 Genetic Technologies Limited Methods of genomic analysis
CA2464613A1 (fr) * 2001-11-02 2003-05-15 Siemens Corporate Research, Inc. Exploration de donnees relatives a des patients pour depister un cancer du poumon
EP1324254A1 (fr) * 2001-12-21 2003-07-02 Siemens Aktiengesellschaft Système de recherche de l'histoire d'un patient ou des archives utilisant des mots clefs
JP2003288346A (ja) * 2002-03-27 2003-10-10 Fujitsu Ltd ゲノム解析方法、ゲノム解析プログラムおよびゲノム解析装置
AU2003257082A1 (en) * 2002-08-02 2004-02-23 Rosetta Inpharmatics Llc Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits
US8131471B2 (en) * 2002-08-08 2012-03-06 Agilent Technologies, Inc. Methods and system for simultaneous visualization and manipulation of multiple data types
US20050027566A1 (en) * 2003-07-09 2005-02-03 Haskell Robert Emmons Terminology management system
US7876772B2 (en) * 2003-08-01 2011-01-25 Foundry Networks, Llc System, method and apparatus for providing multiple access modes in a data communications network
US20050075832A1 (en) * 2003-09-22 2005-04-07 Ikeguchi Edward F. System and method for continuous data analysis of an ongoing clinical trial
US20050267691A1 (en) * 2004-05-25 2005-12-01 Hiromasa Kurita Information service system based on genetic character
US20060136143A1 (en) * 2004-12-17 2006-06-22 General Electric Company Personalized genetic-based analysis of medical conditions
EP1839229A4 (fr) * 2004-12-30 2010-01-20 Proventys Inc Procedes, systemes et programmes informatiques d'elaboration et d'utilisation de modeles predictifs permettant de prevoir une pluralite de resultats medicaux, d'evaluer des strategies d'intervention et de valider simultanement une causalite de biomarqueurs

Also Published As

Publication number Publication date
GB0712154D0 (en) 2007-08-01
GB2443896A (en) 2008-05-21
US20070294113A1 (en) 2007-12-20

Similar Documents

Publication Publication Date Title
FR2908906A1 (fr) Methode d'evaluation des correlations entre des informations structurees et normalisees sur de variations genetiques entre des humains et leurs donnees cliniques personnelles de patient a partir de dossiers medicaux electroniques
Silva de Lima et al. Home‐based monitoring of falls using wearable sensors in Parkinson's disease
Lee et al. Association between cataract extraction and development of dementia
US10902953B2 (en) Clinical outcome tracking and analysis
Voss et al. Feasibility and utility of applications of the common data model to multiple, disparate observational health databases
FR2902553A1 (fr) Systemes et procedes pour identifier et/ou evaluer des risques potentiels d'intolerance associes a une therapie medicale.
US11923056B1 (en) Discovering context-specific complexity and utilization sequences
Östenson et al. Self‐reported non‐severe hypoglycaemic events in Europe
McCaughan et al. Online support groups for women with breast cancer
JacksonJames et al. Translational health disparities research in a data-rich world
Carr et al. Advances in families and health research in the 21st century
Slutske et al. Genetic and environmental influences on disordered gambling in men and women
US20130179176A1 (en) Computer implemented method for determining the presence of a disease in a patient
Howells et al. Exploring the experiences of changes to support access to primary health care services and the impact on the quality and safety of care for homeless people during the COVID-19 pandemic: a study protocol for a qualitative mixed methods approach
JP2021531606A (ja) 記憶障害を治療するためのシステムおよび方法
Acharya et al. Screening for diabetes risk using integrated dental and medical electronic health record data
US20240212859A1 (en) Predicting addiction relapse and decision support tool
Tierney et al. Inpatient opioid use disorder treatment by generalists is associated with linkage to opioid treatment programs after discharge
Künnapuu et al. Trajectories: a framework for detecting temporal clinical event sequences from health data standardized to the Observational Medical Outcomes Partnership (OMOP) Common Data Model
Woo et al. The information needs of patients with atrial fibrillation: A scoping review
US20170109501A1 (en) System and methods for assessing patient ability for shared-decision making
Gowthami et al. Exploring the effectiveness of machine learning algorithms for early detection of Type-2 Diabetes Mellitus
Moynihan et al. Analysis and visualisation of electronic health records data to identify undiagnosed patients with rare genetic diseases
US20050283386A1 (en) Method and system for marketing a treatment regimen
Sundaram et al. A randomized trial of computer-based reminders and audit and feedback to improve HIV screening in a primary care setting

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20150227