GR1010503B - Μεθοδος και συστημα για την αυτοματοποιημενη αξιολογηση βιολογικων δεδομενων - Google Patents

Μεθοδος και συστημα για την αυτοματοποιημενη αξιολογηση βιολογικων δεδομενων Download PDF

Info

Publication number
GR1010503B
GR1010503B GR20220100706A GR20220100706A GR1010503B GR 1010503 B GR1010503 B GR 1010503B GR 20220100706 A GR20220100706 A GR 20220100706A GR 20220100706 A GR20220100706 A GR 20220100706A GR 1010503 B GR1010503 B GR 1010503B
Authority
GR
Greece
Prior art keywords
data
natural language
artificial intelligence
stage
report
Prior art date
Application number
GR20220100706A
Other languages
English (en)
Inventor
Αντωνιος Σαλακιδης
Χρηστος Καραπιπερης
Original Assignee
Dnasequence Srl Hellas,
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dnasequence Srl Hellas, filed Critical Dnasequence Srl Hellas,
Priority to GR20220100706A priority Critical patent/GR1010503B/el
Publication of GR1010503B publication Critical patent/GR1010503B/el
Priority to PCT/GR2023/000042 priority patent/WO2024042341A1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Mathematical Physics (AREA)
  • Public Health (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Epidemiology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Η επινόηση αναφέρεται σε μέθοδο για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων και σε σύστημα εφαρμογής της. Με βάση ένα σύνολο δεδομένων που παράγεται μετά από βιοπληροφορική ανάλυση βάσεων δεδομένων και ένα ερώτημα σε φυσική γλώσσα, δίκτυα τεχνητής νοημοσύνης παράγουν ένα περιορισμένο και ταξινομημένο υποσύνολο αποτελεσμάτων, που ικανοποιούν το ερώτημα και τα οποία χρησιμοποιούνται για την αυτόματη παραγωγή μιας αναφοράς σε φυσική γλώσσα. Υπάρχουν δε και πρόσθετα δίκτυα τεχνητής νοημοσύνης για την εξέταση μιας σειράς παραμέτρων των αποτελεσμάτων και για την ακρίβεια της παραγόμενης αναφοράς σε φυσική γλώσσα.

Description

ΠΕΡΙΓΡΑΦΗ
ΜΕΘΟΔΟΣ ΚΑΙ ΣΥΣΤΗΜΑ ΓΙΑ ΤΗΝ ΑΥΤΟΜΑΤΟΠΟΙΗΜΕΝΗ
ΑΞΙΟΛΟΓΗΣΗ ΒΙΟΛΟΓΙΚΩΝ ΔΕΔΟΜΕΝΩΝ
Το ιστορικό της επινόησης
Μέχρι σήμερα η υπάρχουσα τεχνολογία για την ανάλυση του μικροβιώματος περιλαμβάνει την λήψη του δείγματος, την προετοιμασία του, την ανάλυση του από μια συσκευή ανάλυσης (next generation sequencing) για την εξαγωγή μοριακών αλληλουχιών σε ψηφιακή μορφή, την ταυτοποίηση των μικροοργανισμών, την στατιστική ανάλυση των αποτελεσμάτων και κατόπιν την χειροκίνητη αναζήτηση, ανάλυση και συνάφεια των αποτελεσμάτων σε σχέση με το ερώτημα που έχει τεθεί και είναι η αιτία που πραγματοποιήθηκε η παραπάνω διαδικασία.
Το στάδιο της ερμηνείας είναι μία επίπονη και χρονοβόρος, εν’ πολλοίς, διαδικασία. Περιλαμβάνει την αναζήτηση σε βάσεις δεδομένων πληροφοριών σε σχέση με τον κάθε οργανισμό ή μοριακή αλληλουχία που ανευρίσκεται στο εξεταζόμενο δείγμα και την εν συνεχεία συσχέτιση των αποτελεσμάτων και την εξαγωγή συμπερασμάτων με βάση την υφιστάμενη βιβλιογραφία. Επιπλέον λόγω της χειρωνακτικής της φύσης είναι επιρρεπής σε παραγωγή συμπερασμάτων εσφαλμένων, ελλείπων, ανακριβών και παραπλανητικών.
Αυτά τα προβλήματα δεν επιτρέπουν την αξιοποίηση των σύγχρονων μεθόδων γονιδιακής ανάλυσης και την εκμετάλλευση του πλήρους δυναμικού τους. Αυτό συνιστά τροχοπέδη για την εμπορική αξιοποίησή τους και την αξιοποίηση τους στην επίλυση σοβαρών ζητημάτων σχετιζόμενα με το γονιδιακό αποτύπωμα και μικροβίωμα σε πληθώρα τομέων όπως η κλινική έρευνα, η ασφάλεια τροφίμων, η βιο-ασφάλεια εγκαταστάσεων κλπ.
Το προτεινόμενο σύστημα περιλαμβάνει μία γνωσιακή μέθοδο, που αυτοματοποιεί πλήρως την διαδικασία της επεξήγησης των αποτελεσμάτων που προκύπτουν από βιολογικά πειράματα - αναλύσεις.
Στόχος της παρούσας εφεύρεσης είναι η παρουσίαση μίας μεθόδου και ενός συστήματος για την πλήρη αυτοματοποίηση της διαδικασίας της επεξήγησης των αποτελεσμάτων των βιολογικών πειραμάτων.
Η μέθοδος, αλλά και το σύστημα εφαρμογής της επιλύουν δύο σημαντικά προβλήματα. Το πρώτο αφορά την εξαγωγή γνωσιακών δεδομένων (cognitive data), μετα-δεδομένων από δημόσιες και ιδιόκτητες βάσεις δεδομένων, καθώς και τη δυνατότητα της αυτοματοποιημένης επεξεργασίας τους για την εξόρυξη γνώσης. Το δεύτερο αφορά τη διαδικασία της ερμηνείας των αποτελεσμάτων με την παραγωγή γνωσιακών δεδομένων σε μορφή αναφοράς.
Συνοπτική περιγραφή των σγεδίων
Στο Σχήμα 1 παρουσιάζεται ένα λογικό διάγραμμα με τα βήματα της μεθόδου για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων. Στο Σχήμα 2 παρουσιάζεται το διάγραμμα ροής της μεθόδου, μαζί με την αξιολόγηση των αποτελεσμάτων που παράγονται i) από την σημασιολογική αναζήτηση και ii) από αλγόριθμο παραγωγής του κειμένου της αναφοράς.
Περιγραφή της εφεύρεσης
Το προτεινόμενο σύστημα υλοποιεί μία μέθοδο βασισμένη στην γνωσιακή τεχνολογία (cognitive technology). Τα γνωσιακά μοντέλα τεχνητής νοημοσύνης που αποτελούν και τις διαφορετικές δομές - τμήματα που λειτουργούν με συγκεκριμένη σειρά. Στο επίπεδο εισόδου, στο επίπεδο κύριας επεξεργασίας και στο επίπεδο εξόδου.
Η διαδικασία ξεκινά με ένα σύνολο δεδομένων (dataset) που παράγεται μετά την βιοπληροφορική ανάλυση όπου περιλαμβάνει κατ’ ελάχιστο τον ταξινομικό κωδικό (tax identification number) και ποσοτικές πληροφορίες, όπως για παράδειγμα τον αριθμό των reads ή οι Επιχειρησιακές Ταξινομικές Μονάδες (Operational Taxonomic units -OTUs). Με βάση τον ταξινομικό κωδικό γίνεται μία αναζήτηση στις διαθέσιμες βιβλιογραφικές βάσεις δεδομένων και εντοπίζονται όλες οι δημοσιεύσεις που αναφέρουν τους συγκεκριμένους μικροοργανισμούς. Τα αποτελέσματα με τις συγκεκριμένες δημοσιεύσεις αποτελούν το σύνολο δεδομένων εισόδου της μεθόδου, όπου σε συνδυασμό με το ερώτημα του χρήστη αποτελούν την είσοδο της σημασιολογικής αναζήτησης στις συγκεκριμένες δημοσιεύσεις. Η αναζήτηση γίνεται στο σύνολο δεδομένων με χρήση ενός πρώτου συνόλου μετασχηματιζόμενων εκπαιδευόμενων μοντέλων (transformer trained models), όπως ενδεικτικά αναφέρονται τα Bert, Bio-Bert XLNet ή RoBERTa. Για κάθε ερώτημα εισόδου που δίνεται ως είσοδος, από τον χρήστη υπολογίζεται ένα διάνυσμα (embedding) και στη συνέχεια εκτελείται σύγκριση μεταξύ των διανυσμάτων υπολογίζοντας την απόσταση τους (εσωτερικό γινόμενο). Για να βελτιωθεί ο χρόνος εκτέλεσης του αλγορίθμου παράλληλα με το ήδη εκπαιδευμένο μοντέλο δύναται να έχουν ήδη υπολογιστεί τα διανύσματα (embedding) της διαθέσιμης βιβλιογραφίας. Με αυτή την προσέγγιση μειώνεται σημαντικά ο χρόνος εκτέλεσης των μοντέλων από την έναρξη του ερωτήματος μέχρι τα αποτελέσματα της αναζήτησης. Παράδειγμα δημόσιας βάσης που χρησιμοποιείται για την εκπαίδευση των μοντέλων είναι η βάση της Pub Med με περίπου 33 εκατομμύρια επιστημονικές δημοσιεύσεις, ενώ τα δεδομένα που παράγονται από συγκεκριμένα ερωτήματα είναι περίπου 50.000 με 100.000 επιστημονικές δημοσιεύσεις.
Στο δεύτερο στάδιο το αποτέλεσμα της αναζήτησης είναι μία λίστα που εμφανίζει την κάθε δημοσίευση και τη βαθμολογία (score) της σημασιολογικής αναζήτησης σε φθίνουσα ταξινόμηση, έτσι ώστε τα σχετικά έγγραφα με τη μεγαλύτερη βαθμολογία να εμφανίζονται στην κορυφή της λίστας. Τα αποτελέσματα της σημασιολογικής ανάλυσης, ήτοι το ταξινομημένο και περιορισμένο σύνολο δεδομένων, υφίστανται εκ’ νέου επεξεργασία φυσικής γλώσσας από δίκτυα τεχνητής νοημοσύνης και κατόπιν μέρος αυτών τροφοδοτεί νέα ερωτήματα με στόχο να βελτιώσουν ή να αξιολογήσουν τα αποτελέσματα της αναζήτησης με αυτοματοποιημένο τρόπο και χωρίς την ανθρώπινη παρέμβαση.
Το δεύτερο δίκτυο τεχνητής νοημοσύνης που χρησιμοποιείται σε αυτό το στάδιο είναι βασισμένο σε μεθόδους αναδρομικών νευρωνικών δικτύων, όπως ενδεικτικά Recurrent neural network, Hidden Markov model, Maximum-entropy Markov model (MEMM) ή naive Bayes classifier, Συγκεκριμένα τα αποτελέσματα της αναζήτησης βαθμολογούνται με βάση την σημασιολογική τους ανάλυση σε σχέση με το ερώτημα που έχει τεθεί από τον χρήστη. Τα αναδρομικά νευρωνικά δίκτυα εξετάζουν μία σειρά από παραμέτρους (metrics) όπως ακρίβεια (Accuracy, correct decisions/total decisions), ακρίβεια (Precision) , ανάκληση (Recall), FI score, μέσος όρος όλων των αμοιβαίων θέσεων (Mean Reciprocal Rank (MRR)), μέση ακρίβεια (Mean Average Precision (MAP)), σφάλμα ρίζας μέσου τετραγώνου (Root Mean Squared Error (RMSE)), περιπλοκή (Perplexity) κτλ. Με αυτό τον τρόπο έχουμε την συνεχή εκπαίδευση του δικτύου και εξασφαλίζουμε ότι θα προωθηθούν στο επόμενο στάδιο μόνο τα αποτελέσματα που θα ξεπεράσουν ένα συγκεκριμένο κατώφλι που μπορεί να οριστεί παραμετρικά εκ των προτέρων.
Στο τρίτο στάδιο το αποτέλεσμα της σημασιολογικής ανάλυσης είναι ένα νέο περιορισμένο και ταξινομημένο σύνολο δεδομένων (limited dataset), το οποίο μαζί με την περιγραφή του προβλήματος σε φυσική γλώσσα από τον χρήστη αποτελεί την είσοδο του σε ένα τρίτο δίκτυο τεχνητής νοημοσύνης όπου παράγει το τελικό αποτέλεσμα, ήτοι την αναφορά (report) σε μορφή φυσικής γλώσσας μέσω μετασχηματιζόμενων εκπαιδευόμενων μοντέλων (transformer trained models), όπως για παράδειγμα τα GPT-2, GPT-3. Τα δύο μοντέλα είναι προ-εκπαιδευμένα, αλλά γίνεται επιπλέον βελτιστοποίησή στην εκπαίδευσή τους με δεδομένα από ακαδημαϊκές δημοσιεύσεις. Τα GPT μοντέλα και ειδικά το GPT-3 είναι ένα πανίσχυρο μοντέλο για την παραγωγή κειμένου σε φυσική γλώσσα που βασίζεται στην αρχιτεκτονική του μετασχηματισμού, είναι προ-εκπαιδευμένο και η εκπαίδευση του γίνεται χωρίς επίβλεψη (unsupervised training). Λειτουργεί με την πρόβλεψη του επόμενου διακριτικού (token) δίνοντας μια ακολουθία διακριτικών (tokens) και μπορεί να το κάνει για εργασίες επεξεργασίας φυσικής γλώσσας (NLP), στις οποίες δεν έχει εκπαιδευτεί. Επιπρόσθετα για την καλύτερη απόδοση του μοντέλου μέσω της διαδικασίας της βελτιστοποίησης (fine-tuning) το μοντέλο έχει εκπαιδευτεί με δημοσιεύσεις που σχετίζονται με τα domains που εφαρμόζονται οι -omics τεχνολογίες για να βελτιωθεί η απόδοση του.
Σε εναλλακτική εφαρμογή της επινόησης και με ζητούμενο την πλήρη αυτοματοποίηση της μεθόδου προστίθεται ένα επιπλέον στάδιο αξιολόγησης των αποτελεσμάτων μέσω νευρωσικών δικτύων. Στο Σχ. 2 παρουσιάζεται το διάγραμμα ροής συμπεριλαμβανομένων της αξιολόγησης των αποτελεσμάτων που παράγονται i) από την σημασιολογική αναζήτηση και ii) από αλγόριθμο παραγωγής του κειμένου της αναφοράς.
Το εν λόγω στάδιο αυτόματης αξιολόγησης αφορά την παραγόμενη αναφορά από το στάδιο παραγωγής κειμένου, ήτοι από το τρίτο στάδιο. Τα αποτελέσματα του σταδίου αξιολογούνται και βαθμολογούνται. Χρησιμοποιούνται μοντέλα αξιολόγησης, όπως Latent semantic analysis ή Semantic hashing ώστε να επικυρωθούν τα αποτελέσματα σε μορφή φυσικής γλώσσα που έχουν παραχθεί. Η διαδικασία που ακολουθείται για την επικύρωση των αποτελεσμάτων αφορά την προεπεξεργασία (preprocessing), το βάρος (weighting), τη μοναδική τιμή αποσύνθεσης (singular value decomposition (SVD)), τη βαθμολόγηση (rating), τις προσαρμογές (adjustments) και την ακρίβεια (accuracy). Εφόσον το τελικό αποτέλεσμα της ακρίβειας ξεπεράσει ένα συγκεκριμένο κατώφλι που μπορεί να οριστεί παραμετρικά εκ των προτέρων, τότε η τελική αναφορά γίνεται αποδεκτή και είναι διαθέσιμη στον χρήστη του συστήματος. Διαφορετικά έχουμε την επανάληψη της διαδικασίας της παραγωγής κειμένου.
Με αυτό τον τρόπο έχουμε την άμεση δημιουργία γνωσιακών δεδομένων εννοιολογικά σημαντικών αναφορών επί των αναλυθέντων δειγμάτων, οι οποίες επιτρέπουν την άμεση εξαγωγή συμπερασμάτων. Το τελικό αποτέλεσμα της μεθόδου είναι η αυτοματοποιημένη ερμηνεία βιολογικών δεδομένων. Τα γνωσιακά δεδομένα που παράγονται αφορούν συγκεκριμένα συμπεράσματα, ενώ η τελική αναφορά που παράγεται ως έξοδος, υποστηρίζεται πλήρως από ακαδημαϊκές δημοσιεύσεις.

Claims (4)

ΑΞΙΩΣΕΙΣ
1. Μέθοδος για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων, τριών σταδίων, όπου στο πρώτο στάδιο ως είσοδος λαμβάνεται ένα σύνολο δεδομένων που παράγεται μετά από βιοπληροφορική ανάλυση βάσεων δεδομένων και περιλαμβάνει κατ’ ελάχιστο τον ταξινομικό κωδικό για την αναζήτηση στις βάσεις δεδομένων και ένα ερώτημα σε φυσική γλώσσα, ώστε να παραχθεί ως έξοδος ένα περιορισμένο σύνολο δεδομένων που περιλαμβάνει τον συγκεκριμένο ταξινομικό κωδικό και όπου με βάση το ερώτημα χρήστη σε φυσική γλώσσα γίνεται, με χρήση ενός πρώτου συνόλου μετασχηματιζόμενων εκπαιδευόμενων μοντέλων, υπολογισμός ενός διανύσματος και σύγκριση μεταξύ των διανυσμάτων υπολογίζοντας την απόσταση τους ώστε να σχηματιστεί μία λίστα που εμφανίζει την κάθε δημοσίευση και τη βαθμολογία της σημασιολογικής αναζήτησης σε φθίνουσα ταξινόμηση, στο δεύτερο στάδιο το ταξινομημένο και περιορισμένο σύνολο δεδομένων τροφοδοτείται σε δίκτυο τεχνητής νοημοσύνης βασισμένο σε μεθόδους αναδρομικών νευρωνικών δικτύων για την εξέταση μίας σειράς από παραμέτρους και την προώθηση στο επόμενο επίπεδο μόνο των αποτελεσμάτων που ξεπερνούν ένα συγκεκριμένο, προκαθορισμένο κατώφλι στις τιμές των παραμέτρων, στο τρίτο στάδιο το περιορισμένο και ταξινομημένο σύνολο δεδομένων που ξεπέρασε το κατώφλι στις τιμές των παραμέτρων χρησιμοποιείται ως είσοδος σε ένα τρίτο δίκτυο τεχνητής νοημοσύνης, όπου με χρήση τρίτου συνόλου μετασχηματιζόμενων εκπαιδευόμενων μοντέλων, παράγεται αναφορά σε μορφή φυσικής γλώσσας.
2. Μέθοδος για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων, σύμφωνα με την αξίωση 1, όπου η αναφορά σε μορφή φυσικής γλώσσας που προέκυψε από το τρίτο στάδιο αξιολογείται από μοντέλα αξιολόγησης σε μια σειρά δεδομένων ώστε αν το τελικό αποτέλεσμα της ακρίβειας ξεπεράσει ένα συγκεκριμένο, προκαθορισμένο κατώφλι να γίνεται αποδοχή της αναφοράς και προώθηση στον χρήστη.
3. Σύστημα για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων, αποτελούμενο από ένα πρώτο δίκτυο τεχνητής νοημοσύνης που χρησιμοποιεί ένα πρώτο σύνολο μετασχηματιζόμενων εκπαιδευόμενων μοντέλων για την σημασιολογική ανάλυση και την ταξινόμηση ενός συνόλου επιστημονικών δεδομένων με βάση το ερώτημα ενός χρήστη σε φυσική γλώσσα και παράγει μία λίστα με την κάθε σχετική δημοσίευση και τη βαθμολογία της σημασιολογική ς αναζήτησης σε φθίνουσα ταξινόμηση, από ένα δεύτερο δίκτυο τεχνητής νοημοσύνης, που χρησιμοποιεί μεθόδους αναδρομικών νευρωνικών δικτύων, εξετάζει τη λίστα με το ταξινομημένο και περιορισμένο σύνολο δεδομένων για μία σειρά παραμέτρων και προωθεί στο επόμενο επίπεδο μόνο τα αποτελέσματα που ξεπερνούν ένα συγκεκριμένο, προκαθορισμένο κατώφλι στις τιμές των παραμέτρων, και από ένα τρίτο δίκτυο τεχνητής νοημοσύνης, που χρησιμοποιεί ένα δεύτερο σύνολο μετασχηματιζόμενων εκπαιδευόμενων μοντέλων, που λαμβάνει ως είσοδο τη λίστα των σχετικών δημοσιεύσεων που ξεπέρασαν το κατώφλι στις τιμές των παραμέτρων και παράγει ως έξοδο την τελική αναφορά σε μορφή φυσικής γλώσσας.
4. Σύστημα για την αυτοματοποιημένη αξιολόγηση βιολογικών δεδομένων, σύμφωνα με την αξίωση 3, όπου ένα τέταρτο δίκτυο τεχνητής νοημοσύνης, που χρησιμοποιεί μοντέλα αξιολόγησης, αξιολογεί μία σειρά δεδομένων στην τελική αναφορά σε μορφή φυσικής γλώσσας και εάν το τελικό αποτέλεσμα της ακρίβειας ξεπερνά ένα συγκεκριμένο, προκαθορισμένο κατώφλι, η τελική αναφορά γίνεται αποδεκτή.
GR20220100706A 2022-08-25 2022-08-25 Μεθοδος και συστημα για την αυτοματοποιημενη αξιολογηση βιολογικων δεδομενων GR1010503B (el)

Priority Applications (2)

Application Number Priority Date Filing Date Title
GR20220100706A GR1010503B (el) 2022-08-25 2022-08-25 Μεθοδος και συστημα για την αυτοματοποιημενη αξιολογηση βιολογικων δεδομενων
PCT/GR2023/000042 WO2024042341A1 (en) 2022-08-25 2023-08-02 Method and system for the automated valuation of biological data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GR20220100706A GR1010503B (el) 2022-08-25 2022-08-25 Μεθοδος και συστημα για την αυτοματοποιημενη αξιολογηση βιολογικων δεδομενων

Publications (1)

Publication Number Publication Date
GR1010503B true GR1010503B (el) 2023-07-07

Family

ID=87887939

Family Applications (1)

Application Number Title Priority Date Filing Date
GR20220100706A GR1010503B (el) 2022-08-25 2022-08-25 Μεθοδος και συστημα για την αυτοματοποιημενη αξιολογηση βιολογικων δεδομενων

Country Status (2)

Country Link
GR (1) GR1010503B (el)
WO (1) WO2024042341A1 (el)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009111581A1 (en) * 2008-03-04 2009-09-11 Nextbio Categorization and filtering of scientific data
US20200349179A1 (en) * 2019-04-30 2020-11-05 International Business Machines Corporation Dynamic faceted search on a document corpus
EP3869511A1 (en) * 2018-10-15 2021-08-25 Patsnap Limited Method and system for annotating scope of claims of gene sequence, method and system for searching gene sequence, and method and system for annotating information of gene sequence
WO2021195143A1 (en) * 2020-03-23 2021-09-30 Sorcero, Inc. Ontology-augmented interface

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11001900B2 (en) * 2015-06-30 2021-05-11 Psomagen, Inc. Method and system for characterization for female reproductive system-related conditions associated with microorganisms
US20210038654A1 (en) * 2018-03-16 2021-02-11 Persephone Biosciences Compositions for modulating gut microflora populations, enhancing drug potency and treating cancer, and methods for making and using same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009111581A1 (en) * 2008-03-04 2009-09-11 Nextbio Categorization and filtering of scientific data
EP3869511A1 (en) * 2018-10-15 2021-08-25 Patsnap Limited Method and system for annotating scope of claims of gene sequence, method and system for searching gene sequence, and method and system for annotating information of gene sequence
US20200349179A1 (en) * 2019-04-30 2020-11-05 International Business Machines Corporation Dynamic faceted search on a document corpus
WO2021195143A1 (en) * 2020-03-23 2021-09-30 Sorcero, Inc. Ontology-augmented interface

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XUAN ZHOU ; SHIPING CHEN ; ATHMAN BOUGUETTAYA ; KAI XU: "Supporting Bioinformatic Experiments with a Service Query Engine", SERVICES - I, 2009 WORLD CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 6 July 2009 (2009-07-06), Piscataway, NJ, USA , pages 717 - 723, XP031559285, ISBN: 978-0-7695-3708-5 *

Also Published As

Publication number Publication date
WO2024042341A1 (en) 2024-02-29

Similar Documents

Publication Publication Date Title
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN110543564B (zh) 基于主题模型的领域标签获取方法
CN102411563A (zh) 一种识别目标词的方法、装置及系统
CN106777957B (zh) 不平衡数据集上生物医学多参事件抽取的新方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN113906417A (zh) 用于搜索检索和排名的神经网络
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN111079419B (zh) 一种基于大数据的国防科技热词发现方法及系统
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN106529580A (zh) 结合edsvm的软件缺陷数据关联分类方法
CN109063171B (zh) 基于语义的资源匹配方法
Elayidom et al. A generalized data mining framework for placement chance prediction problems
Alagukumar et al. Classification of microarray gene expression data using associative classification
CN110909785B (zh) 基于语义层级的多任务Triplet损失函数学习方法
CN106960003A (zh) 抄袭检测中的基于机器学习的源检索的查询生成方法
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
CN113032573B (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN103425748B (zh) 一种文档资源建议词的挖掘方法和装置
CN113190684B (zh) 一种基于路径质量判别的强化学习知识图谱推理方法
Maskat et al. Pay-as-you-go configuration of entity resolution
Mustafa et al. A comprehensive evaluation of metadata-based features to classify research paper’s topics
Mustafa et al. Optimizing document classification: Unleashing the power of genetic algorithms
CN111522945A (zh) 一种基于卡方检验的诗词风格分析方法
CN116431763A (zh) 面向领域的科技项目查重方法及系统

Legal Events

Date Code Title Description
PG Patent granted

Effective date: 20230808