BG112772A - Метод за адаптивно извличане на in silico знания и вземане на решения, базиран на анализ на големи геномни данни - Google Patents

Метод за адаптивно извличане на in silico знания и вземане на решения, базиран на анализ на големи геномни данни Download PDF

Info

Publication number
BG112772A
BG112772A BG112772A BG11277218A BG112772A BG 112772 A BG112772 A BG 112772A BG 112772 A BG112772 A BG 112772A BG 11277218 A BG11277218 A BG 11277218A BG 112772 A BG112772 A BG 112772A
Authority
BG
Bulgaria
Prior art keywords
workflows
differentiated
machine learning
data
phase
Prior art date
Application number
BG112772A
Other languages
English (en)
Other versions
BG67367B1 (bg
Inventor
Десислава Иванова
Иванова Боровска Пламенка
Пламенка Боровска
Антонова Иванова Десислава
Original Assignee
Технически Университет - София
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Технически Университет - София filed Critical Технически Университет - София
Priority to BG112772A priority Critical patent/BG67367B1/bg
Publication of BG112772A publication Critical patent/BG112772A/bg
Publication of BG67367B1 publication Critical patent/BG67367B1/bg

Links

Landscapes

  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

Метод са адаптивно извличане на ин силико знания и вземане на решения, базиран на анализ на големи геномни данни, който съдържа две паралелни и корелирани изчислителни фази, фаза на машинно обучение и оперативна фаза, които се припокриват и изпълняват едновременно, с информационен обмен. Всяка фаза оперира над 4 типа изчислителни работни потоци за анализ на данни - описателен, диагностичен, прогнозен и предписателен анализ. Дескриптивният, диагностичният и прогнозният диференцирани работни потоци са базирани на модели, докато прогнозният диференциран работен поток използва модели за конструиране на препоръки за персонализираната терапия и правила за класифициране в целева група за прецизна терапия. Входните данни са 4 набори - секвенирани геноми, резултати от клинични тестове, параметри на индивидуалния стил на живот на пациента и фактори на околната среда. В рамките на фазата на машинното обучение се изграждат паралелни диференцирани работни потоци, като тези с най-висока оценка за акуратност, прецизност и сензитивност, се използват за конструирането на интегриран работен поток за откриване на знания, със следните изходни резултати: картиране на гени, свързани с рака, детектиране на мутации, персонализирана диагностика на рака и препоръки за целева група за прецизна терапия на пациента. Изходните данни се верифицират от експерт, като при необходимост наборите данни се модифицират и диференцираните работни потоци се изпълняват отново във фазата на машинното обучение. Процесът се повтаря итеративно до верифициране от експерта онколог. Методът е адаптивен по отношение на генетични, биологични и медицински аспекти, както и в изчислителен аспект - скалируемост, реконфигурация на хардуерни и софтуерни ресурси.

Description

МЕТОД ЗА АДАПТИВНО ИЗВЛИЧАНЕ НА IN SILICO ЗНАНИЯ И ВЗЕМАНЕ НА РЕШЕНИЯ БАЗИРАН НА АНАЛИЗ НА ГОЛЕМИ ГЕНОМНИ ДАННИ
ОБЛАСТ НА ТЕХНИКАТА
Областта е интердисциплинарна и обхваща биоинформатиката, компютърните науки, изкуствения интелект и прецизната медицина. Фокусът е върху откриване на нови in silico знания на основата на анализ на големи геномни данни за целите на изчислителната биология, персонализираната и прецизната медицина. In silico медицината, персонализираната медицина и прецизната медицина са „горещите“ области на съвременните научни изследвания. In silico медицината, известна също като изчислителна медицина, е приложението на in silico изследвания на проблеми, свързани със здравеопазването и медицината. Тя представлява директното използване на компютърни модели и симулации при определянето на диагнозата, лечението или превенцията за дадено заболяване. Персонализирана медицина се отнася до приспособяването на медицинското лечение към индивидуалните характеристики на всеки пациент, като не предполага създаването на лекарства или медицински устройства, които са уникални за пациента, а по-скоро способността да се класифицират индивидите в субпопулации, които се различават по чувствителността си към определена болест, в биологията и/или прогнозата на тези заболявания, които те могат да развият, или в отговор на специфично лечение.
ПРЕДШЕСТВАЩО СЪСТОЯНИЕ НА ТЕХНИКАТА
Понастоящем, големите данни (Big Data) се определят като революция в научните изследвания и една от най-перспективните тенденции в областта на ИТ. Това даде тласък на интензивното развитие на методите и технологиите за обработка на големи масиви от данни в последните години и доведе до радикални промени в парадигмите за научни изследвания. Предшестващата парадигма за научни изследвания е изчислителна наука. Изчислителната парадигма в научните изследвания обхваща компютърните модели и симулации (in silico експериментиране), които се наложиха поради изключителната сложност на теоретичния анализ, който в много случаи е неприложим. В резултат на компютърните симулации се генерира огромно количество данни от експериментите. Недостатък - налага се да се правят статистически проби с цел намаляване на обема на обработваните данни.
ТЕХНИЧЕСКА СЪЩНОСТ
Методът съдържа две паралелни и корелирани изчислителни фази, фаза на машинно обучение и оперативна фаза, които се припокриват и изпълняват едновременно, с информационен обмен. И двете фази се основават на модели и правила, като използват паралелно както методи за класификация, така и методи за клъстериране при анализа на данните. Всяка фаза функционира като изчислителен конвейер, съдържащ три основни компонента: (1) предварителна обработка на данните; (2) откриване на in-silco знания и автоматизирано вземане на решение, и (3) постобработка на резултатите — визуализация и оценка на полезността на откритото знания.
Във фазата на предварителната обработка на данните се осъществява селекция на характеристиките на основата на метаевристични алгоритми на за комбинаторно търсене и метода анализ на главните компоненти, като множеството на характеристиките се редуцира посредством итеративно изпълнение на метода за машинно обучение. Пост-обработката на данните обхваща верификация, валидиране и оценка на полезността и приложимостта на откритото знания, както и визуализация на получените резултати.
Всяка фаза оперира над 4 типа изчислителни работни потоци за анализ на данни описателен, диагностичен, прогнозен и предписателен анализи. Изчислителният работен поток представлява шаблон, дефиниращ консистентна имплементация на процеси или поток от задачи, които се планират и координират на основата на систематичен план. Научните работни потоци осигуряват метод за дефиниране на високо ниво на целите на експеримента, моделирани посредством работен поток от научни задачи, особено в случаите, когато изходните данни от изпълнението на една задача се използват като входни данни за следващата задача.
За случая на рака на гърдата, описателният аналитичен работен поток е отговорен за идфентифицирането на гените, асоциирани с рака на гърдата (BRCA1 и BRCA2) и картирането им в генома на пациента. Целта на диагностичния аналитичен работен поток е да открие възможни мутации в гените, асоциирани с рака на гърдата. Прогнозният аналитичен работен поток използва като входни данни резултатите от дескриптивния аналитичен работен поток и данни за вида на раковите клетки, като определя типа на рака, неговата злокачественост и прогнозна оценка на живота. Предписателният аналитичен работен поток конструира препоръки за персонализирана терапия на основата на изходните резултати от диагностичния работен поток, данните за индивидуалния стил на живота на пациента и фактори на околната среда, след което класифицира пациента в целева група за прецизна терапия.
Дескриптивният, диагностичният и прогнозният диференцирани работни потоци са базирани на модели поради огромното разнообразие на геномите и на техните междугенни пространства като се визират основно структурната специфика на промотерите и енхансерите. Прогнозният диференциран работен поток използва модели за конструиране на препоръки за персонализираната терапия и правила за класифициране в целева група за прецизна терапия.
През фазата на машинното обучение на метода се изгражда хранилище на синтезирани колекции от модели и правила, които се използват в оперативната фаза на метода за изграждането на интегриран работен поток. Фазата на машинното обучение се изпълнява offline с наборите от данни за обучение и валидиране, като основните изчислителни единици са 4 колекции от диференцирани работни потоци, като всяка колекция съдържа диференцирани потоци от един тип - дескриптивен, диагностичен, прогнозен или предписателен. Оперативната фаза се изпълнява online и обработва входни потоци от данни — секвениран геном на пациента, данни от клинични тестове, данни за индивидуалния стил на живота на пациента и фактори на околната среда. Основната изчислителна единица в оперативната фаза е интегриран работен поток за откриване на знания, изграден от 4 диференцирани работни потока (дескриптивен, диагностичен, прогнозен и предписателен).
Във фазата на машинното обучение се обработват паралелно 4 пакета от диференцирани работни потоци, използващи различни модели за машинно обучение, вкл. методи за класифициране и клъстериране. Наборите данни за обучение за 4 типа: (1) генетични данни на пациента, (2) резултати от клинични тестове, (3) параметри на индивидуалния стил на живота на пациента, и (4) фактори на околната среда.
Времето за изпълнение на фазата на машинното обучение е голямо, като за ускоряване на фазата пакетите от диференцирани работни потоци се обработват паралелно. Всеки диференциран работен поток изгражда модел, който се запазва в хранилището на работните потоци. Изходният резултат на всеки диференциран работен поток се валидира и се верифицира от експерт по молекулярна биология, генетик или онколог, респективно. В случай на положителни резултати при валидирането и верификацията, работния поток се запазва в хранилището, след което се подлага на оценки за акуратност, прецизност и сензитивност. Работните потоци в хранилището се подлагат на сравнителен анализ относно акуратност, прецизност и сензитивност и от всеки пакет диференцирани работни потоци се селектират оптималните с цел изграждане на интегриран работен поток в оперативната фаза.
В случаите, когато верификацията и валидирането на резултатите от работния поток са неуспешни, наборите данни се подлагат на модифициране и обновяване и отново се използват във вазата за машинно обучение.
В рамките на оперативната фаза се изпълнява един интегриран работен поток, изграден от четирите оптимални диференцирани работни потоци от хранилището, по един от всеки пакет. Оперативната фаза се изпълнява online и обработва поточните данни на пациента - генетични данни, резултати от клинични тестове, параметри на индивидуалния стил на живот на пациента, и фактори на околната среда. Оперативната фаза генерира следните изходни данни - генетична специфика на пациента - спец. На гените, свързани с рака на гърдата, мутации, персонализирана диагностика на рака на пациента, оценки на злокачественост на рака и очаквана продължителност на живота, препоръки за персонализирана терапия на пациента и целева група за прецизна терапия.
Знанието, открито в оперативната фаза се подлага на оценка от експерт - онколог, като оценките могат да бъдат „потвърждение“, „отхвърляне“, или „модифициране“. В случай на експертни оценки „отхвърляне, модифициране“ използваните диференцирани работни потоци в рамките на интегрирания работен поток в оперативната фаза се маркират като „невалидни“ в хранилището и съответните набори данни за обучение и валидиране се модифицират и обновяват, след което се стартира ново обучение във фазата на машинното обучение. Процесът се повтаря итеративно до получаване на оценка „потвърждение“ от експерта-онколог .
ОПИСАНИЕ НА ПРИЛОЖЕНИТЕ ФИГУРИ
Фигура 1 Схема на метода с двете фази — на машинно обучение и оперативна фаза
Фигура 2 Схема на фазата на машинното обучение на метода
Фигура 3 Конфигуриране на интегрирания работен поток в оперативната фаза от диференцираните работни потоци, създадени във фазата на машинното обучение с максимални оценки за акуратност, прецизност и сензитивност
Фигура 4 Концептуален модел на умен дигитален консултант за рак на гърдата, имплементиран на основата на метода
ПРИМЕРИ ЗА ИЗПЪЛНЕНИЕ
Приложимостта на предложения метод е за проектиране, имплементиране и развитие на софтуер на умен дигитален консултант в помощ на онколога (за рак на гърдата), който помага и асистира онколозите да обработват, управляват и интерпретират огромното количество информация при диагностицирането на болестта.
Софуерът е написан на езика Python и е развит в средата на клъстерната платформа Apache Spark, при използването на съответните софтуерни библиотеки за машинно обучение и библиотеки за числена обработка, както и софтуер за множествено подреждане на биологични секвенции.

Claims (1)

  1. Метод са адаптивно извличане на ин силико знания и вземане на решения базиран на анализ на големи геномни данни, който съдържа две паралелни и корелирани изчислителни фази, фаза на машинно обучение и оперативна фаза, които се припокриват и изпълняват едновременно, с информационен обмен. Всяка фаза оперира над 4 типа изчислителни работни потоци за анализ на данни - описателен, диагностичен, прогнозен и предписателен анализи. Дескриптивният, диагностичният и прогнозният диференцирани работни потоци са базирани на модели, докато прогнозният диференциран работен поток използва модели за конструиране на препоръки за персонализираната терапия и правила за класифициране в целева група за прецизна терапия. Входните данни са 4 набори - секвенирани геноми, резултати от клинични тестове, параметри на индивидуалния стил на живот на пациента и фактори на околната среда. В рамките на фазата на машинното обучение се изграждат паралелни диференцирани работни потоци, като тези с най-висока оценка за акуратност, прецизност и сензитивност, се използват за конструирането на интегриран работен поток за откриване на знания, със следните изходни резултати: картиране на гени, свързани с рака, детектиране на мутации, персонализирана диагностика на рака и препоръки за целева група за прецизна терапия на пациента. Изходните данни се верифицират от експерт, като при необходимост наборите данни се модифицират и диференцираните работни потоци се изпълняват отново във фазата на машинното обучение. Процесът се повтаря итеративно до верифициране от експерта онколог. Методът е адаптивен по отношение на генетични, биологични и медицински аспекти
BG112772A 2018-07-12 2018-07-12 Метод за извличане на in silico знания и вземане на решения на базата на анализ на големи биомедицински данни BG67367B1 (bg)

Priority Applications (1)

Application Number Priority Date Filing Date Title
BG112772A BG67367B1 (bg) 2018-07-12 2018-07-12 Метод за извличане на in silico знания и вземане на решения на базата на анализ на големи биомедицински данни

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
BG112772A BG67367B1 (bg) 2018-07-12 2018-07-12 Метод за извличане на in silico знания и вземане на решения на базата на анализ на големи биомедицински данни

Publications (2)

Publication Number Publication Date
BG112772A true BG112772A (bg) 2020-01-31
BG67367B1 BG67367B1 (bg) 2021-08-31

Family

ID=74855538

Family Applications (1)

Application Number Title Priority Date Filing Date
BG112772A BG67367B1 (bg) 2018-07-12 2018-07-12 Метод за извличане на in silico знания и вземане на решения на базата на анализ на големи биомедицински данни

Country Status (1)

Country Link
BG (1) BG67367B1 (bg)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114252807A (zh) * 2021-12-24 2022-03-29 国网湖北省电力有限公司经济技术研究院 一种基于寿命差异化现象的变压器寿命预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114252807A (zh) * 2021-12-24 2022-03-29 国网湖北省电力有限公司经济技术研究院 一种基于寿命差异化现象的变压器寿命预测方法
CN114252807B (zh) * 2021-12-24 2023-07-14 国网湖北省电力有限公司经济技术研究院 一种基于寿命差异化现象的变压器寿命预测方法

Also Published As

Publication number Publication date
BG67367B1 (bg) 2021-08-31

Similar Documents

Publication Publication Date Title
Alghamdi et al. Deep learning approaches for detecting COVID-19 from chest X-ray images: A survey
Lopez-Garcia et al. Transfer learning with convolutional neural networks for cancer survival prediction using gene-expression data
Jang et al. Applications of deep learning for the analysis of medical data
Binder et al. Big data in medical science—a biostatistical view: Part 21 of a series on evaluation of scientific publications
Mathema et al. Deep learning facilitates multi-data type analysis and predictive biomarker discovery in cancer precision medicine
Pramanik et al. Deep feature selection using local search embedded social ski-driver optimization algorithm for breast cancer detection in mammograms
Dlamini et al. AI and precision oncology in clinical cancer genomics: From prevention to targeted cancer therapies-an outcomes based patient care
Sekaran et al. Predicting autism spectrum disorder from associative genetic markers of phenotypic groups using machine learning
Tripathi et al. Recent advances and application of generative adversarial networks in drug discovery, development, and targeting
Pandya et al. Medical image diagnosis for disease detection: A deep learning approach
Parhami et al. A comparison of deep neural network models for cluster cancer patients through somatic point mutations
Yaqoob et al. Optimizing gene selection and cancer classification with hybrid sine cosine and cuckoo search algorithm
Jadoon et al. Deep learning-based multi-modal ensemble classification approach for human breast cancer prognosis
Sethi et al. Long Short-Term Memory-Deep Belief Network based Gene Expression Data Analysis for Prostate Cancer Detection and Classification
Shibahara et al. Deep learning generates custom-made logistic regression models for explaining how breast cancer subtypes are classified
Tan et al. Cervical cancer classification from pap smear images using deep convolutional neural network models
BG112772A (bg) Метод за адаптивно извличане на in silico знания и вземане на решения, базиран на анализ на големи геномни данни
Tashtoush et al. Enhanced convolutional neural network for non-small cell lung cancer classification
Subasi et al. Advanced pattern recognition tools for disease diagnosis
Attique et al. DeepBCE: evaluation of deep learning models for identification of immunogenic B-cell epitopes
EP4315190A1 (en) Graph database techniques for machine learning
Jia et al. DCCAFN: deep convolution cascade attention fusion network based on imaging genomics for prediction survival analysis of lung cancer
Boruah et al. CaDenseNet: a novel deep learning approach using capsule network with attention for the identification of HIV-1 integration site
Mythili et al. CTCHABC-hybrid online sequential fuzzy Extreme Kernel learning method for detection of Breast Cancer with hierarchical Artificial Bee
Borovska et al. Intelligent method for adaptive in silico knowledge discovery based on big genomic data analytics