GR1010503B - Μεθοδος και συστημα για την αυτοματοποιημενη αξιολογηση βιολογικων δεδομενων - Google Patents
Μεθοδος και συστημα για την αυτοματοποιημενη αξιολογηση βιολογικων δεδομενων Download PDFInfo
- Publication number
- GR1010503B GR1010503B GR20220100706A GR20220100706A GR1010503B GR 1010503 B GR1010503 B GR 1010503B GR 20220100706 A GR20220100706 A GR 20220100706A GR 20220100706 A GR20220100706 A GR 20220100706A GR 1010503 B GR1010503 B GR 1010503B
- Authority
- GR
- Greece
- Prior art keywords
- data
- natural language
- artificial intelligence
- stage
- report
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000011511 automated evaluation Methods 0.000 title claims abstract description 7
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000013210 evaluation model Methods 0.000 claims description 3
- 238000007622 bioinformatic analysis Methods 0.000 claims description 2
- 238000003766 bioinformatics method Methods 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 10
- 230000001149 cognitive effect Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 4
- 244000005700 microbiome Species 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 241000566145 Otus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- Evolutionary Biology (AREA)
- Bioethics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
Η επινόηση αναφέρεται σε μέθοδο για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων και σε σύστημα εφαρμογής της. Με βάση ένα σύνολο δεδομένων που παράγεται μετά από βιοπληροφορική ανάλυση βάσεων δεδομένων και ένα ερώτημα σε φυσική γλώσσα, δίκτυα τεχνητής νοημοσύνης παράγουν ένα περιορισμένο και ταξινομημένο υποσύνολο αποτελεσμάτων, που ικανοποιούν το ερώτημα και τα οποία χρησιμοποιούνται για την αυτόματη παραγωγή μιας αναφοράς σε φυσική γλώσσα. Υπάρχουν δε και πρόσθετα δίκτυα τεχνητής νοημοσύνης για την εξέταση μιας σειράς παραμέτρων των αποτελεσμάτων και για την ακρίβεια της παραγόμενης αναφοράς σε φυσική γλώσσα.
Description
ΠΕΡΙΓΡΑΦΗ
ΜΕΘΟΔΟΣ ΚΑΙ ΣΥΣΤΗΜΑ ΓΙΑ ΤΗΝ ΑΥΤΟΜΑΤΟΠΟΙΗΜΕΝΗ
ΑΞΙΟΛΟΓΗΣΗ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ
Το ιστορικό της επινόησης
Μέχρι σήμερα η υπάρχουσα τεχνολογία για την ανάλυση του μικροβιώματος περιλαμβάνει την λήψη του δείγματος, την προετοιμασία του, την ανάλυση του από μια συσκευή ανάλυσης (next generation sequencing) για την εξαγωγή μοριακών αλληλουχιών σε ψηφιακή μορφή, την ταυτοποίηση των μικροοργανισμών, την στατιστική ανάλυση των αποτελεσμάτων και κατόπιν την χειροκίνητη αναζήτηση, ανάλυση και συνάφεια των αποτελεσμάτων σε σχέση με το ερώτημα που έχει τεθεί και είναι η αιτία που πραγματοποιήθηκε η παραπάνω διαδικασία.
Το στάδιο της ερμηνείας είναι μία επίπονη και χρονοβόρος, εν’ πολλοίς, διαδικασία. Περιλαμβάνει την αναζήτηση σε βάσεις δεδομένων πληροφοριών σε σχέση με τον κάθε οργανισμό ή μοριακή αλληλουχία που ανευρίσκεται στο εξεταζόμενο δείγμα και την εν συνεχεία συσχέτιση των αποτελεσμάτων και την εξαγωγή συμπερασμάτων με βάση την υφιστάμενη βιβλιογραφία. Επιπλέον λόγω της χειρωνακτικής της φύσης είναι επιρρεπής σε παραγωγή συμπερασμάτων εσφαλμένων, ελλείπων, ανακριβών και παραπλανητικών.
Αυτά τα προβλήματα δεν επιτρέπουν την αξιοποίηση των σύγχρονων μεθόδων γονιδιακής ανάλυσης και την εκμετάλλευση του πλήρους δυναμικού τους. Αυτό συνιστά τροχοπέδη για την εμπορική αξιοποίησή τους και την αξιοποίηση τους στην επίλυση σοβαρών ζητημάτων σχετιζόμενα με το γονιδιακό αποτύπωμα και μικροβίωμα σε πληθώρα τομέων όπως η κλινική έρευνα, η ασφάλεια τροφίμων, η βιο-ασφάλεια εγκαταστάσεων κλπ.
Το προτεινόμενο σύστημα περιλαμβάνει μία γνωσιακή μέθοδο, που αυτοματοποιεί πλήρως την διαδικασία της επεξήγησης των αποτελεσμάτων που προκύπτουν από βιολογικά πειράματα - αναλύσεις.
Στόχος της παρούσας εφεύρεσης είναι η παρουσίαση μίας μεθόδου και ενός συστήματος για την πλήρη αυτοματοποίηση της διαδικασίας της επεξήγησης των αποτελεσμάτων των βιολογικών πειραμάτων.
Η μέθοδος, αλλά και το σύστημα εφαρμογής της επιλύουν δύο σημαντικά προβλήματα. Το πρώτο αφορά την εξαγωγή γνωσιακών δεδομένων (cognitive data), μετα-δεδομένων από δημόσιες και ιδιόκτητες βάσεις δεδομένων, καθώς και τη δυνατότητα της αυτοματοποιημένης επεξεργασίας τους για την εξόρυξη γνώσης. Το δεύτερο αφορά τη διαδικασία της ερμηνείας των αποτελεσμάτων με την παραγωγή γνωσιακών δεδομένων σε μορφή αναφοράς.
Συνοπτική περιγραφή των σγεδίων
Στο Σχήμα 1 παρουσιάζεται ένα λογικό διάγραμμα με τα βήματα της μεθόδου για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων. Στο Σχήμα 2 παρουσιάζεται το διάγραμμα ροής της μεθόδου, μαζί με την αξιολόγηση των αποτελεσμάτων που παράγονται i) από την σημασιολογική αναζήτηση και ii) από αλγόριθμο παραγωγής του κειμένου της αναφοράς.
Περιγραφή της εφεύρεσης
Το προτεινόμενο σύστημα υλοποιεί μία μέθοδο βασισμένη στην γνωσιακή τεχνολογία (cognitive technology). Τα γνωσιακά μοντέλα τεχνητής νοημοσύνης που αποτελούν και τις διαφορετικές δομές - τμήματα που λειτουργούν με συγκεκριμένη σειρά. Στο επίπεδο εισόδου, στο επίπεδο κύριας επεξεργασίας και στο επίπεδο εξόδου.
Η διαδικασία ξεκινά με ένα σύνολο δεδομένων (dataset) που παράγεται μετά την βιοπληροφορική ανάλυση όπου περιλαμβάνει κατ’ ελάχιστο τον ταξινομικό κωδικό (tax identification number) και ποσοτικές πληροφορίες, όπως για παράδειγμα τον αριθμό των reads ή οι Επιχειρησιακές Ταξινομικές Μονάδες (Operational Taxonomic units -OTUs). Με βάση τον ταξινομικό κωδικό γίνεται μία αναζήτηση στις διαθέσιμες βιβλιογραφικές βάσεις δεδομένων και εντοπίζονται όλες οι δημοσιεύσεις που αναφέρουν τους συγκεκριμένους μικροοργανισμούς. Τα αποτελέσματα με τις συγκεκριμένες δημοσιεύσεις αποτελούν το σύνολο δεδομένων εισόδου της μεθόδου, όπου σε συνδυασμό με το ερώτημα του χρήστη αποτελούν την είσοδο της σημασιολογικής αναζήτησης στις συγκεκριμένες δημοσιεύσεις. Η αναζήτηση γίνεται στο σύνολο δεδομένων με χρήση ενός πρώτου συνόλου μετασχηματιζόμενων εκπαιδευόμενων μοντέλων (transformer trained models), όπως ενδεικτικά αναφέρονται τα Bert, Bio-Bert XLNet ή RoBERTa. Για κάθε ερώτημα εισόδου που δίνεται ως είσοδος, από τον χρήστη υπολογίζεται ένα διάνυσμα (embedding) και στη συνέχεια εκτελείται σύγκριση μεταξύ των διανυσμάτων υπολογίζοντας την απόσταση τους (εσωτερικό γινόμενο). Για να βελτιωθεί ο χρόνος εκτέλεσης του αλγορίθμου παράλληλα με το ήδη εκπαιδευμένο μοντέλο δύναται να έχουν ήδη υπολογιστεί τα διανύσματα (embedding) της διαθέσιμης βιβλιογραφίας. Με αυτή την προσέγγιση μειώνεται σημαντικά ο χρόνος εκτέλεσης των μοντέλων από την έναρξη του ερωτήματος μέχρι τα αποτελέσματα της αναζήτησης. Παράδειγμα δημόσιας βάσης που χρησιμοποιείται για την εκπαίδευση των μοντέλων είναι η βάση της Pub Med με περίπου 33 εκατομμύρια επιστημονικές δημοσιεύσεις, ενώ τα δεδομένα που παράγονται από συγκεκριμένα ερωτήματα είναι περίπου 50.000 με 100.000 επιστημονικές δημοσιεύσεις.
Στο δεύτερο στάδιο το αποτέλεσμα της αναζήτησης είναι μία λίστα που εμφανίζει την κάθε δημοσίευση και τη βαθμολογία (score) της σημασιολογικής αναζήτησης σε φθίνουσα ταξινόμηση, έτσι ώστε τα σχετικά έγγραφα με τη μεγαλύτερη βαθμολογία να εμφανίζονται στην κορυφή της λίστας. Τα αποτελέσματα της σημασιολογικής ανάλυσης, ήτοι το ταξινομημένο και περιορισμένο σύνολο δεδομένων, υφίστανται εκ’ νέου επεξεργασία φυσικής γλώσσας από δίκτυα τεχνητής νοημοσύνης και κατόπιν μέρος αυτών τροφοδοτεί νέα ερωτήματα με στόχο να βελτιώσουν ή να αξιολογήσουν τα αποτελέσματα της αναζήτησης με αυτοματοποιημένο τρόπο και χωρίς την ανθρώπινη παρέμβαση.
Το δεύτερο δίκτυο τεχνητής νοημοσύνης που χρησιμοποιείται σε αυτό το στάδιο είναι βασισμένο σε μεθόδους αναδρομικών νευρωνικών δικτύων, όπως ενδεικτικά Recurrent neural network, Hidden Markov model, Maximum-entropy Markov model (MEMM) ή naive Bayes classifier, Συγκεκριμένα τα αποτελέσματα της αναζήτησης βαθμολογούνται με βάση την σημασιολογική τους ανάλυση σε σχέση με το ερώτημα που έχει τεθεί από τον χρήστη. Τα αναδρομικά νευρωνικά δίκτυα εξετάζουν μία σειρά από παραμέτρους (metrics) όπως ακρίβεια (Accuracy, correct decisions/total decisions), ακρίβεια (Precision) , ανάκληση (Recall), FI score, μέσος όρος όλων των αμοιβαίων θέσεων (Mean Reciprocal Rank (MRR)), μέση ακρίβεια (Mean Average Precision (MAP)), σφάλμα ρίζας μέσου τετραγώνου (Root Mean Squared Error (RMSE)), περιπλοκή (Perplexity) κτλ. Με αυτό τον τρόπο έχουμε την συνεχή εκπαίδευση του δικτύου και εξασφαλίζουμε ότι θα προωθηθούν στο επόμενο στάδιο μόνο τα αποτελέσματα που θα ξεπεράσουν ένα συγκεκριμένο κατώφλι που μπορεί να οριστεί παραμετρικά εκ των προτέρων.
Στο τρίτο στάδιο το αποτέλεσμα της σημασιολογικής ανάλυσης είναι ένα νέο περιορισμένο και ταξινομημένο σύνολο δεδομένων (limited dataset), το οποίο μαζί με την περιγραφή του προβλήματος σε φυσική γλώσσα από τον χρήστη αποτελεί την είσοδο του σε ένα τρίτο δίκτυο τεχνητής νοημοσύνης όπου παράγει το τελικό αποτέλεσμα, ήτοι την αναφορά (report) σε μορφή φυσικής γλώσσας μέσω μετασχηματιζόμενων εκπαιδευόμενων μοντέλων (transformer trained models), όπως για παράδειγμα τα GPT-2, GPT-3. Τα δύο μοντέλα είναι προ-εκπαιδευμένα, αλλά γίνεται επιπλέον βελτιστοποίησή στην εκπαίδευσή τους με δεδομένα από ακαδημαϊκές δημοσιεύσεις. Τα GPT μοντέλα και ειδικά το GPT-3 είναι ένα πανίσχυρο μοντέλο για την παραγωγή κειμένου σε φυσική γλώσσα που βασίζεται στην αρχιτεκτονική του μετασχηματισμού, είναι προ-εκπαιδευμένο και η εκπαίδευση του γίνεται χωρίς επίβλεψη (unsupervised training). Λειτουργεί με την πρόβλεψη του επόμενου διακριτικού (token) δίνοντας μια ακολουθία διακριτικών (tokens) και μπορεί να το κάνει για εργασίες επεξεργασίας φυσικής γλώσσας (NLP), στις οποίες δεν έχει εκπαιδευτεί. Επιπρόσθετα για την καλύτερη απόδοση του μοντέλου μέσω της διαδικασίας της βελτιστοποίησης (fine-tuning) το μοντέλο έχει εκπαιδευτεί με δημοσιεύσεις που σχετίζονται με τα domains που εφαρμόζονται οι -omics τεχνολογίες για να βελτιωθεί η απόδοση του.
Σε εναλλακτική εφαρμογή της επινόησης και με ζητούμενο την πλήρη αυτοματοποίηση της μεθόδου προστίθεται ένα επιπλέον στάδιο αξιολόγησης των αποτελεσμάτων μέσω νευρωσικών δικτύων. Στο Σχ. 2 παρουσιάζεται το διάγραμμα ροής συμπεριλαμβανομένων της αξιολόγησης των αποτελεσμάτων που παράγονται i) από την σημασιολογική αναζήτηση και ii) από αλγόριθμο παραγωγής του κειμένου της αναφοράς.
Το εν λόγω στάδιο αυτόματης αξιολόγησης αφορά την παραγόμενη αναφορά από το στάδιο παραγωγής κειμένου, ήτοι από το τρίτο στάδιο. Τα αποτελέσματα του σταδίου αξιολογούνται και βαθμολογούνται. Χρησιμοποιούνται μοντέλα αξιολόγησης, όπως Latent semantic analysis ή Semantic hashing ώστε να επικυρωθούν τα αποτελέσματα σε μορφή φυσικής γλώσσα που έχουν παραχθεί. Η διαδικασία που ακολουθείται για την επικύρωση των αποτελεσμάτων αφορά την προεπεξεργασία (preprocessing), το βάρος (weighting), τη μοναδική τιμή αποσύνθεσης (singular value decomposition (SVD)), τη βαθμολόγηση (rating), τις προσαρμογές (adjustments) και την ακρίβεια (accuracy). Εφόσον το τελικό αποτέλεσμα της ακρίβειας ξεπεράσει ένα συγκεκριμένο κατώφλι που μπορεί να οριστεί παραμετρικά εκ των προτέρων, τότε η τελική αναφορά γίνεται αποδεκτή και είναι διαθέσιμη στον χρήστη του συστήματος. Διαφορετικά έχουμε την επανάληψη της διαδικασίας της παραγωγής κειμένου.
Με αυτό τον τρόπο έχουμε την άμεση δημιουργία γνωσιακών δεδομένων εννοιολογικά σημαντικών αναφορών επί των αναλυθέντων δειγμάτων, οι οποίες επιτρέπουν την άμεση εξαγωγή συμπερασμάτων. Το τελικό αποτέλεσμα της μεθόδου είναι η αυτοματοποιημένη ερμηνεία βιολογικών δεδομένων. Τα γνωσιακά δεδομένα που παράγονται αφορούν συγκεκριμένα συμπεράσματα, ενώ η τελική αναφορά που παράγεται ως έξοδος, υποστηρίζεται πλήρως από ακαδημαϊκές δημοσιεύσεις.
Claims (4)
1. Μέθοδος για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων, τριών σταδίων, όπου στο πρώτο στάδιο ως είσοδος λαμβάνεται ένα σύνολο δεδομένων που παράγεται μετά από βιοπληροφορική ανάλυση βάσεων δεδομένων και περιλαμβάνει κατ’ ελάχιστο τον ταξινομικό κωδικό για την αναζήτηση στις βάσεις δεδομένων και ένα ερώτημα σε φυσική γλώσσα, ώστε να παραχθεί ως έξοδος ένα περιορισμένο σύνολο δεδομένων που περιλαμβάνει τον συγκεκριμένο ταξινομικό κωδικό και όπου με βάση το ερώτημα χρήστη σε φυσική γλώσσα γίνεται, με χρήση ενός πρώτου συνόλου μετασχηματιζόμενων εκπαιδευόμενων μοντέλων, υπολογισμός ενός διανύσματος και σύγκριση μεταξύ των διανυσμάτων υπολογίζοντας την απόσταση τους ώστε να σχηματιστεί μία λίστα που εμφανίζει την κάθε δημοσίευση και τη βαθμολογία της σημασιολογικής αναζήτησης σε φθίνουσα ταξινόμηση, στο δεύτερο στάδιο το ταξινομημένο και περιορισμένο σύνολο δεδομένων τροφοδοτείται σε δίκτυο τεχνητής νοημοσύνης βασισμένο σε μεθόδους αναδρομικών νευρωνικών δικτύων για την εξέταση μίας σειράς από παραμέτρους και την προώθηση στο επόμενο επίπεδο μόνο των αποτελεσμάτων που ξεπερνούν ένα συγκεκριμένο, προκαθορισμένο κατώφλι στις τιμές των παραμέτρων, στο τρίτο στάδιο το περιορισμένο και ταξινομημένο σύνολο δεδομένων που ξεπέρασε το κατώφλι στις τιμές των παραμέτρων χρησιμοποιείται ως είσοδος σε ένα τρίτο δίκτυο τεχνητής νοημοσύνης, όπου με χρήση τρίτου συνόλου μετασχηματιζόμενων εκπαιδευόμενων μοντέλων, παράγεται αναφορά σε μορφή φυσικής γλώσσας.
2. Μέθοδος για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων, σύμφωνα με την αξίωση 1, όπου η αναφορά σε μορφή φυσικής γλώσσας που προέκυψε από το τρίτο στάδιο αξιολογείται από μοντέλα αξιολόγησης σε μια σειρά δεδομένων ώστε αν το τελικό αποτέλεσμα της ακρίβειας ξεπεράσει ένα συγκεκριμένο, προκαθορισμένο κατώφλι να γίνεται αποδοχή της αναφοράς και προώθηση στον χρήστη.
3. Σύστημα για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων, αποτελούμενο από ένα πρώτο δίκτυο τεχνητής νοημοσύνης που χρησιμοποιεί ένα πρώτο σύνολο μετασχηματιζόμενων εκπαιδευόμενων μοντέλων για την σημασιολογική ανάλυση και την ταξινόμηση ενός συνόλου επιστημονικών δεδομένων με βάση το ερώτημα ενός χρήστη σε φυσική γλώσσα και παράγει μία λίστα με την κάθε σχετική δημοσίευση και τη βαθμολογία της σημασιολογική ς αναζήτησης σε φθίνουσα ταξινόμηση, από ένα δεύτερο δίκτυο τεχνητής νοημοσύνης, που χρησιμοποιεί μεθόδους αναδρομικών νευρωνικών δικτύων, εξετάζει τη λίστα με το ταξινομημένο και περιορισμένο σύνολο δεδομένων για μία σειρά παραμέτρων και προωθεί στο επόμενο επίπεδο μόνο τα αποτελέσματα που ξεπερνούν ένα συγκεκριμένο, προκαθορισμένο κατώφλι στις τιμές των παραμέτρων, και από ένα τρίτο δίκτυο τεχνητής νοημοσύνης, που χρησιμοποιεί ένα δεύτερο σύνολο μετασχηματιζόμενων εκπαιδευόμενων μοντέλων, που λαμβάνει ως είσοδο τη λίστα των σχετικών δημοσιεύσεων που ξεπέρασαν το κατώφλι στις τιμές των παραμέτρων και παράγει ως έξοδο την τελική αναφορά σε μορφή φυσικής γλώσσας.
4. Σύστημα για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων, σύμφωνα με την αξίωση 3, όπου ένα τέταρτο δίκτυο τεχνητής νοημοσύνης, που χρησιμοποιεί μοντέλα αξιολόγησης, αξιολογεί μία σειρά δεδομένων στην τελική αναφορά σε μορφή φυσικής γλώσσας και εάν το τελικό αποτέλεσμα της ακρίβειας ξεπερνά ένα συγκεκριμένο, προκαθορισμένο κατώφλι, η τελική αναφορά γίνεται αποδεκτή.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GR20220100706A GR1010503B (el) | 2022-08-25 | 2022-08-25 | Μεθοδος και συστημα για την αυτοματοποιημενη αξιολογηση βιολογικων δεδομενων |
PCT/GR2023/000042 WO2024042341A1 (en) | 2022-08-25 | 2023-08-02 | Method and system for the automated valuation of biological data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GR20220100706A GR1010503B (el) | 2022-08-25 | 2022-08-25 | Μεθοδος και συστημα για την αυτοματοποιημενη αξιολογηση βιολογικων δεδομενων |
Publications (1)
Publication Number | Publication Date |
---|---|
GR1010503B true GR1010503B (el) | 2023-07-07 |
Family
ID=87887939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
GR20220100706A GR1010503B (el) | 2022-08-25 | 2022-08-25 | Μεθοδος και συστημα για την αυτοματοποιημενη αξιολογηση βιολογικων δεδομενων |
Country Status (2)
Country | Link |
---|---|
GR (1) | GR1010503B (el) |
WO (1) | WO2024042341A1 (el) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009111581A1 (en) * | 2008-03-04 | 2009-09-11 | Nextbio | Categorization and filtering of scientific data |
US20200349179A1 (en) * | 2019-04-30 | 2020-11-05 | International Business Machines Corporation | Dynamic faceted search on a document corpus |
EP3869511A1 (en) * | 2018-10-15 | 2021-08-25 | Patsnap Limited | Method and system for annotating scope of claims of gene sequence, method and system for searching gene sequence, and method and system for annotating information of gene sequence |
WO2021195143A1 (en) * | 2020-03-23 | 2021-09-30 | Sorcero, Inc. | Ontology-augmented interface |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11001900B2 (en) * | 2015-06-30 | 2021-05-11 | Psomagen, Inc. | Method and system for characterization for female reproductive system-related conditions associated with microorganisms |
US20210038654A1 (en) * | 2018-03-16 | 2021-02-11 | Persephone Biosciences | Compositions for modulating gut microflora populations, enhancing drug potency and treating cancer, and methods for making and using same |
-
2022
- 2022-08-25 GR GR20220100706A patent/GR1010503B/el active IP Right Grant
-
2023
- 2023-08-02 WO PCT/GR2023/000042 patent/WO2024042341A1/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009111581A1 (en) * | 2008-03-04 | 2009-09-11 | Nextbio | Categorization and filtering of scientific data |
EP3869511A1 (en) * | 2018-10-15 | 2021-08-25 | Patsnap Limited | Method and system for annotating scope of claims of gene sequence, method and system for searching gene sequence, and method and system for annotating information of gene sequence |
US20200349179A1 (en) * | 2019-04-30 | 2020-11-05 | International Business Machines Corporation | Dynamic faceted search on a document corpus |
WO2021195143A1 (en) * | 2020-03-23 | 2021-09-30 | Sorcero, Inc. | Ontology-augmented interface |
Non-Patent Citations (1)
Title |
---|
XUAN ZHOU ; SHIPING CHEN ; ATHMAN BOUGUETTAYA ; KAI XU: "Supporting Bioinformatic Experiments with a Service Query Engine", SERVICES - I, 2009 WORLD CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 6 July 2009 (2009-07-06), Piscataway, NJ, USA , pages 717 - 723, XP031559285, ISBN: 978-0-7695-3708-5 * |
Also Published As
Publication number | Publication date |
---|---|
WO2024042341A1 (en) | 2024-02-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN110543564B (zh) | 基于主题模型的领域标签获取方法 | |
CN107220295A (zh) | 一种人民矛盾调解案例搜索和调解策略推荐方法 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN111079419B (zh) | 一种基于大数据的国防科技热词发现方法及系统 | |
CN113906417A (zh) | 用于搜索检索和排名的神经网络 | |
CN109063171B (zh) | 基于语义的资源匹配方法 | |
Elayidom et al. | A generalized data mining framework for placement chance prediction problems | |
CN106960003A (zh) | 抄袭检测中的基于机器学习的源检索的查询生成方法 | |
Alagukumar et al. | Classification of microarray gene expression data using associative classification | |
CN110909785B (zh) | 基于语义层级的多任务Triplet损失函数学习方法 | |
CN113434418A (zh) | 知识驱动的软件缺陷检测与分析方法及系统 | |
CN114611491A (zh) | 基于文本挖掘技术的智慧政务舆情分析研究方法 | |
CN113032573B (zh) | 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统 | |
CN103425748B (zh) | 一种文档资源建议词的挖掘方法和装置 | |
Mustafa et al. | A comprehensive evaluation of metadata-based features to classify research paper’s topics | |
CN113190684B (zh) | 一种基于路径质量判别的强化学习知识图谱推理方法 | |
Maskat et al. | Pay-as-you-go configuration of entity resolution | |
Mustafa et al. | Optimizing document classification: Unleashing the power of genetic algorithms | |
CN110299194A (zh) | 基于综合特征表示与改进宽深度模型的相似病例推荐方法 | |
CN112258235A (zh) | 一种电力营销稽核新业务发现方法及系统 | |
CN116644174A (zh) | 一种基于科技政策的资源分类筛选方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PG | Patent granted |
Effective date: 20230808 |