GR1010503B

GR1010503B - Μεθοδος και συστημα για την αυτοματοποιημενη αξιολογηση βιολογικων δεδομενων

Info

Publication number: GR1010503B
Application number: GR20220100706A
Authority: GR
Inventors: Αντωνιος Σαλακιδης; Χρηστος Καραπιπερης
Original assignee: Dnasequence Srl Hellas,
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2023-07-07
Also published as: WO2024042341A1

Abstract

Η επινόηση αναφέρεται σε μέθοδο για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων και σε σύστημα εφαρμογής της. Με βάση ένα σύνολο δεδομένων που παράγεται μετά από βιοπληροφορική ανάλυση βάσεων δεδομένων και ένα ερώτημα σε φυσική γλώσσα, δίκτυα τεχνητής νοημοσύνης παράγουν ένα περιορισμένο και ταξινομημένο υποσύνολο αποτελεσμάτων, που ικανοποιούν το ερώτημα και τα οποία χρησιμοποιούνται για την αυτόματη παραγωγή μιας αναφοράς σε φυσική γλώσσα. Υπάρχουν δε και πρόσθετα δίκτυα τεχνητής νοημοσύνης για την εξέταση μιας σειράς παραμέτρων των αποτελεσμάτων και για την ακρίβεια της παραγόμενης αναφοράς σε φυσική γλώσσα.

Description

ΠΕΡΙΓΡΑΦΗ

ΜΕΘΟΔΟΣ ΚΑΙ ΣΥΣΤΗΜΑ ΓΙΑ ΤΗΝ ΑΥΤΟΜΑΤΟΠΟΙΗΜΕΝΗ

ΑΞΙΟΛΟΓΗΣΗ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Το ιστορικό της επινόησης

Μέχρι σήμερα η υπάρχουσα τεχνολογία για την ανάλυση του μικροβιώματος περιλαμβάνει την λήψη του δείγματος, την προετοιμασία του, την ανάλυση του από μια συσκευή ανάλυσης (next generation sequencing) για την εξαγωγή μοριακών αλληλουχιών σε ψηφιακή μορφή, την ταυτοποίηση των μικροοργανισμών, την στατιστική ανάλυση των αποτελεσμάτων και κατόπιν την χειροκίνητη αναζήτηση, ανάλυση και συνάφεια των αποτελεσμάτων σε σχέση με το ερώτημα που έχει τεθεί και είναι η αιτία που πραγματοποιήθηκε η παραπάνω διαδικασία.

Το στάδιο της ερμηνείας είναι μία επίπονη και χρονοβόρος, εν’ πολλοίς, διαδικασία. Περιλαμβάνει την αναζήτηση σε βάσεις δεδομένων πληροφοριών σε σχέση με τον κάθε οργανισμό ή μοριακή αλληλουχία που ανευρίσκεται στο εξεταζόμενο δείγμα και την εν συνεχεία συσχέτιση των αποτελεσμάτων και την εξαγωγή συμπερασμάτων με βάση την υφιστάμενη βιβλιογραφία. Επιπλέον λόγω της χειρωνακτικής της φύσης είναι επιρρεπής σε παραγωγή συμπερασμάτων εσφαλμένων, ελλείπων, ανακριβών και παραπλανητικών.

Αυτά τα προβλήματα δεν επιτρέπουν την αξιοποίηση των σύγχρονων μεθόδων γονιδιακής ανάλυσης και την εκμετάλλευση του πλήρους δυναμικού τους. Αυτό συνιστά τροχοπέδη για την εμπορική αξιοποίησή τους και την αξιοποίηση τους στην επίλυση σοβαρών ζητημάτων σχετιζόμενα με το γονιδιακό αποτύπωμα και μικροβίωμα σε πληθώρα τομέων όπως η κλινική έρευνα, η ασφάλεια τροφίμων, η βιο-ασφάλεια εγκαταστάσεων κλπ.

Το προτεινόμενο σύστημα περιλαμβάνει μία γνωσιακή μέθοδο, που αυτοματοποιεί πλήρως την διαδικασία της επεξήγησης των αποτελεσμάτων που προκύπτουν από βιολογικά πειράματα - αναλύσεις.

Στόχος της παρούσας εφεύρεσης είναι η παρουσίαση μίας μεθόδου και ενός συστήματος για την πλήρη αυτοματοποίηση της διαδικασίας της επεξήγησης των αποτελεσμάτων των βιολογικών πειραμάτων.

Η μέθοδος, αλλά και το σύστημα εφαρμογής της επιλύουν δύο σημαντικά προβλήματα. Το πρώτο αφορά την εξαγωγή γνωσιακών δεδομένων (cognitive data), μετα-δεδομένων από δημόσιες και ιδιόκτητες βάσεις δεδομένων, καθώς και τη δυνατότητα της αυτοματοποιημένης επεξεργασίας τους για την εξόρυξη γνώσης. Το δεύτερο αφορά τη διαδικασία της ερμηνείας των αποτελεσμάτων με την παραγωγή γνωσιακών δεδομένων σε μορφή αναφοράς.

Συνοπτική περιγραφή των σγεδίων

Στο Σχήμα 1 παρουσιάζεται ένα λογικό διάγραμμα με τα βήματα της μεθόδου για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων. Στο Σχήμα 2 παρουσιάζεται το διάγραμμα ροής της μεθόδου, μαζί με την αξιολόγηση των αποτελεσμάτων που παράγονται i) από την σημασιολογική αναζήτηση και ii) από αλγόριθμο παραγωγής του κειμένου της αναφοράς.

Περιγραφή της εφεύρεσης

Το προτεινόμενο σύστημα υλοποιεί μία μέθοδο βασισμένη στην γνωσιακή τεχνολογία (cognitive technology). Τα γνωσιακά μοντέλα τεχνητής νοημοσύνης που αποτελούν και τις διαφορετικές δομές - τμήματα που λειτουργούν με συγκεκριμένη σειρά. Στο επίπεδο εισόδου, στο επίπεδο κύριας επεξεργασίας και στο επίπεδο εξόδου.

Η διαδικασία ξεκινά με ένα σύνολο δεδομένων (dataset) που παράγεται μετά την βιοπληροφορική ανάλυση όπου περιλαμβάνει κατ’ ελάχιστο τον ταξινομικό κωδικό (tax identification number) και ποσοτικές πληροφορίες, όπως για παράδειγμα τον αριθμό των reads ή οι Επιχειρησιακές Ταξινομικές Μονάδες (Operational Taxonomic units -OTUs). Με βάση τον ταξινομικό κωδικό γίνεται μία αναζήτηση στις διαθέσιμες βιβλιογραφικές βάσεις δεδομένων και εντοπίζονται όλες οι δημοσιεύσεις που αναφέρουν τους συγκεκριμένους μικροοργανισμούς. Τα αποτελέσματα με τις συγκεκριμένες δημοσιεύσεις αποτελούν το σύνολο δεδομένων εισόδου της μεθόδου, όπου σε συνδυασμό με το ερώτημα του χρήστη αποτελούν την είσοδο της σημασιολογικής αναζήτησης στις συγκεκριμένες δημοσιεύσεις. Η αναζήτηση γίνεται στο σύνολο δεδομένων με χρήση ενός πρώτου συνόλου μετασχηματιζόμενων εκπαιδευόμενων μοντέλων (transformer trained models), όπως ενδεικτικά αναφέρονται τα Bert, Bio-Bert XLNet ή RoBERTa. Για κάθε ερώτημα εισόδου που δίνεται ως είσοδος, από τον χρήστη υπολογίζεται ένα διάνυσμα (embedding) και στη συνέχεια εκτελείται σύγκριση μεταξύ των διανυσμάτων υπολογίζοντας την απόσταση τους (εσωτερικό γινόμενο). Για να βελτιωθεί ο χρόνος εκτέλεσης του αλγορίθμου παράλληλα με το ήδη εκπαιδευμένο μοντέλο δύναται να έχουν ήδη υπολογιστεί τα διανύσματα (embedding) της διαθέσιμης βιβλιογραφίας. Με αυτή την προσέγγιση μειώνεται σημαντικά ο χρόνος εκτέλεσης των μοντέλων από την έναρξη του ερωτήματος μέχρι τα αποτελέσματα της αναζήτησης. Παράδειγμα δημόσιας βάσης που χρησιμοποιείται για την εκπαίδευση των μοντέλων είναι η βάση της Pub Med με περίπου 33 εκατομμύρια επιστημονικές δημοσιεύσεις, ενώ τα δεδομένα που παράγονται από συγκεκριμένα ερωτήματα είναι περίπου 50.000 με 100.000 επιστημονικές δημοσιεύσεις.

Στο δεύτερο στάδιο το αποτέλεσμα της αναζήτησης είναι μία λίστα που εμφανίζει την κάθε δημοσίευση και τη βαθμολογία (score) της σημασιολογικής αναζήτησης σε φθίνουσα ταξινόμηση, έτσι ώστε τα σχετικά έγγραφα με τη μεγαλύτερη βαθμολογία να εμφανίζονται στην κορυφή της λίστας. Τα αποτελέσματα της σημασιολογικής ανάλυσης, ήτοι το ταξινομημένο και περιορισμένο σύνολο δεδομένων, υφίστανται εκ’ νέου επεξεργασία φυσικής γλώσσας από δίκτυα τεχνητής νοημοσύνης και κατόπιν μέρος αυτών τροφοδοτεί νέα ερωτήματα με στόχο να βελτιώσουν ή να αξιολογήσουν τα αποτελέσματα της αναζήτησης με αυτοματοποιημένο τρόπο και χωρίς την ανθρώπινη παρέμβαση.

Το δεύτερο δίκτυο τεχνητής νοημοσύνης που χρησιμοποιείται σε αυτό το στάδιο είναι βασισμένο σε μεθόδους αναδρομικών νευρωνικών δικτύων, όπως ενδεικτικά Recurrent neural network, Hidden Markov model, Maximum-entropy Markov model (MEMM) ή naive Bayes classifier, Συγκεκριμένα τα αποτελέσματα της αναζήτησης βαθμολογούνται με βάση την σημασιολογική τους ανάλυση σε σχέση με το ερώτημα που έχει τεθεί από τον χρήστη. Τα αναδρομικά νευρωνικά δίκτυα εξετάζουν μία σειρά από παραμέτρους (metrics) όπως ακρίβεια (Accuracy, correct decisions/total decisions), ακρίβεια (Precision) , ανάκληση (Recall), FI score, μέσος όρος όλων των αμοιβαίων θέσεων (Mean Reciprocal Rank (MRR)), μέση ακρίβεια (Mean Average Precision (MAP)), σφάλμα ρίζας μέσου τετραγώνου (Root Mean Squared Error (RMSE)), περιπλοκή (Perplexity) κτλ. Με αυτό τον τρόπο έχουμε την συνεχή εκπαίδευση του δικτύου και εξασφαλίζουμε ότι θα προωθηθούν στο επόμενο στάδιο μόνο τα αποτελέσματα που θα ξεπεράσουν ένα συγκεκριμένο κατώφλι που μπορεί να οριστεί παραμετρικά εκ των προτέρων.

Στο τρίτο στάδιο το αποτέλεσμα της σημασιολογικής ανάλυσης είναι ένα νέο περιορισμένο και ταξινομημένο σύνολο δεδομένων (limited dataset), το οποίο μαζί με την περιγραφή του προβλήματος σε φυσική γλώσσα από τον χρήστη αποτελεί την είσοδο του σε ένα τρίτο δίκτυο τεχνητής νοημοσύνης όπου παράγει το τελικό αποτέλεσμα, ήτοι την αναφορά (report) σε μορφή φυσικής γλώσσας μέσω μετασχηματιζόμενων εκπαιδευόμενων μοντέλων (transformer trained models), όπως για παράδειγμα τα GPT-2, GPT-3. Τα δύο μοντέλα είναι προ-εκπαιδευμένα, αλλά γίνεται επιπλέον βελτιστοποίησή στην εκπαίδευσή τους με δεδομένα από ακαδημαϊκές δημοσιεύσεις. Τα GPT μοντέλα και ειδικά το GPT-3 είναι ένα πανίσχυρο μοντέλο για την παραγωγή κειμένου σε φυσική γλώσσα που βασίζεται στην αρχιτεκτονική του μετασχηματισμού, είναι προ-εκπαιδευμένο και η εκπαίδευση του γίνεται χωρίς επίβλεψη (unsupervised training). Λειτουργεί με την πρόβλεψη του επόμενου διακριτικού (token) δίνοντας μια ακολουθία διακριτικών (tokens) και μπορεί να το κάνει για εργασίες επεξεργασίας φυσικής γλώσσας (NLP), στις οποίες δεν έχει εκπαιδευτεί. Επιπρόσθετα για την καλύτερη απόδοση του μοντέλου μέσω της διαδικασίας της βελτιστοποίησης (fine-tuning) το μοντέλο έχει εκπαιδευτεί με δημοσιεύσεις που σχετίζονται με τα domains που εφαρμόζονται οι -omics τεχνολογίες για να βελτιωθεί η απόδοση του.

Σε εναλλακτική εφαρμογή της επινόησης και με ζητούμενο την πλήρη αυτοματοποίηση της μεθόδου προστίθεται ένα επιπλέον στάδιο αξιολόγησης των αποτελεσμάτων μέσω νευρωσικών δικτύων. Στο Σχ. 2 παρουσιάζεται το διάγραμμα ροής συμπεριλαμβανομένων της αξιολόγησης των αποτελεσμάτων που παράγονται i) από την σημασιολογική αναζήτηση και ii) από αλγόριθμο παραγωγής του κειμένου της αναφοράς.

Το εν λόγω στάδιο αυτόματης αξιολόγησης αφορά την παραγόμενη αναφορά από το στάδιο παραγωγής κειμένου, ήτοι από το τρίτο στάδιο. Τα αποτελέσματα του σταδίου αξιολογούνται και βαθμολογούνται. Χρησιμοποιούνται μοντέλα αξιολόγησης, όπως Latent semantic analysis ή Semantic hashing ώστε να επικυρωθούν τα αποτελέσματα σε μορφή φυσικής γλώσσα που έχουν παραχθεί. Η διαδικασία που ακολουθείται για την επικύρωση των αποτελεσμάτων αφορά την προεπεξεργασία (preprocessing), το βάρος (weighting), τη μοναδική τιμή αποσύνθεσης (singular value decomposition (SVD)), τη βαθμολόγηση (rating), τις προσαρμογές (adjustments) και την ακρίβεια (accuracy). Εφόσον το τελικό αποτέλεσμα της ακρίβειας ξεπεράσει ένα συγκεκριμένο κατώφλι που μπορεί να οριστεί παραμετρικά εκ των προτέρων, τότε η τελική αναφορά γίνεται αποδεκτή και είναι διαθέσιμη στον χρήστη του συστήματος. Διαφορετικά έχουμε την επανάληψη της διαδικασίας της παραγωγής κειμένου.

Με αυτό τον τρόπο έχουμε την άμεση δημιουργία γνωσιακών δεδομένων εννοιολογικά σημαντικών αναφορών επί των αναλυθέντων δειγμάτων, οι οποίες επιτρέπουν την άμεση εξαγωγή συμπερασμάτων. Το τελικό αποτέλεσμα της μεθόδου είναι η αυτοματοποιημένη ερμηνεία βιολογικών δεδομένων. Τα γνωσιακά δεδομένα που παράγονται αφορούν συγκεκριμένα συμπεράσματα, ενώ η τελική αναφορά που παράγεται ως έξοδος, υποστηρίζεται πλήρως από ακαδημαϊκές δημοσιεύσεις.

Claims

ΑΞΙΩΣΕΙΣ

1. Μέθοδος για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων, τριών σταδίων, όπου στο πρώτο στάδιο ως είσοδος λαμβάνεται ένα σύνολο δεδομένων που παράγεται μετά από βιοπληροφορική ανάλυση βάσεων δεδομένων και περιλαμβάνει κατ’ ελάχιστο τον ταξινομικό κωδικό για την αναζήτηση στις βάσεις δεδομένων και ένα ερώτημα σε φυσική γλώσσα, ώστε να παραχθεί ως έξοδος ένα περιορισμένο σύνολο δεδομένων που περιλαμβάνει τον συγκεκριμένο ταξινομικό κωδικό και όπου με βάση το ερώτημα χρήστη σε φυσική γλώσσα γίνεται, με χρήση ενός πρώτου συνόλου μετασχηματιζόμενων εκπαιδευόμενων μοντέλων, υπολογισμός ενός διανύσματος και σύγκριση μεταξύ των διανυσμάτων υπολογίζοντας την απόσταση τους ώστε να σχηματιστεί μία λίστα που εμφανίζει την κάθε δημοσίευση και τη βαθμολογία της σημασιολογικής αναζήτησης σε φθίνουσα ταξινόμηση, στο δεύτερο στάδιο το ταξινομημένο και περιορισμένο σύνολο δεδομένων τροφοδοτείται σε δίκτυο τεχνητής νοημοσύνης βασισμένο σε μεθόδους αναδρομικών νευρωνικών δικτύων για την εξέταση μίας σειράς από παραμέτρους και την προώθηση στο επόμενο επίπεδο μόνο των αποτελεσμάτων που ξεπερνούν ένα συγκεκριμένο, προκαθορισμένο κατώφλι στις τιμές των παραμέτρων, στο τρίτο στάδιο το περιορισμένο και ταξινομημένο σύνολο δεδομένων που ξεπέρασε το κατώφλι στις τιμές των παραμέτρων χρησιμοποιείται ως είσοδος σε ένα τρίτο δίκτυο τεχνητής νοημοσύνης, όπου με χρήση τρίτου συνόλου μετασχηματιζόμενων εκπαιδευόμενων μοντέλων, παράγεται αναφορά σε μορφή φυσικής γλώσσας.

2. Μέθοδος για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων, σύμφωνα με την αξίωση 1, όπου η αναφορά σε μορφή φυσικής γλώσσας που προέκυψε από το τρίτο στάδιο αξιολογείται από μοντέλα αξιολόγησης σε μια σειρά δεδομένων ώστε αν το τελικό αποτέλεσμα της ακρίβειας ξεπεράσει ένα συγκεκριμένο, προκαθορισμένο κατώφλι να γίνεται αποδοχή της αναφοράς και προώθηση στον χρήστη.

3. Σύστημα για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων, αποτελούμενο από ένα πρώτο δίκτυο τεχνητής νοημοσύνης που χρησιμοποιεί ένα πρώτο σύνολο μετασχηματιζόμενων εκπαιδευόμενων μοντέλων για την σημασιολογική ανάλυση και την ταξινόμηση ενός συνόλου επιστημονικών δεδομένων με βάση το ερώτημα ενός χρήστη σε φυσική γλώσσα και παράγει μία λίστα με την κάθε σχετική δημοσίευση και τη βαθμολογία της σημασιολογική ς αναζήτησης σε φθίνουσα ταξινόμηση, από ένα δεύτερο δίκτυο τεχνητής νοημοσύνης, που χρησιμοποιεί μεθόδους αναδρομικών νευρωνικών δικτύων, εξετάζει τη λίστα με το ταξινομημένο και περιορισμένο σύνολο δεδομένων για μία σειρά παραμέτρων και προωθεί στο επόμενο επίπεδο μόνο τα αποτελέσματα που ξεπερνούν ένα συγκεκριμένο, προκαθορισμένο κατώφλι στις τιμές των παραμέτρων, και από ένα τρίτο δίκτυο τεχνητής νοημοσύνης, που χρησιμοποιεί ένα δεύτερο σύνολο μετασχηματιζόμενων εκπαιδευόμενων μοντέλων, που λαμβάνει ως είσοδο τη λίστα των σχετικών δημοσιεύσεων που ξεπέρασαν το κατώφλι στις τιμές των παραμέτρων και παράγει ως έξοδο την τελική αναφορά σε μορφή φυσικής γλώσσας.

4. Σύστημα για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων, σύμφωνα με την αξίωση 3, όπου ένα τέταρτο δίκτυο τεχνητής νοημοσύνης, που χρησιμοποιεί μοντέλα αξιολόγησης, αξιολογεί μία σειρά δεδομένων στην τελική αναφορά σε μορφή φυσικής γλώσσας και εάν το τελικό αποτέλεσμα της ακρίβειας ξεπερνά ένα συγκεκριμένο, προκαθορισμένο κατώφλι, η τελική αναφορά γίνεται αποδεκτή.