JP7443401B2 - 生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするためのシステムおよび方法、顕微鏡ならびにトレーニングされた機械学習アルゴリズム - Google Patents
生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするためのシステムおよび方法、顕微鏡ならびにトレーニングされた機械学習アルゴリズム Download PDFInfo
- Publication number
- JP7443401B2 JP7443401B2 JP2021572433A JP2021572433A JP7443401B2 JP 7443401 B2 JP7443401 B2 JP 7443401B2 JP 2021572433 A JP2021572433 A JP 2021572433A JP 2021572433 A JP2021572433 A JP 2021572433A JP 7443401 B2 JP7443401 B2 JP 7443401B2
- Authority
- JP
- Japan
- Prior art keywords
- training data
- language
- biological
- machine learning
- dimensional representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 255
- 238000010801 machine learning Methods 0.000 title claims description 186
- 238000004422 calculation algorithm Methods 0.000 title claims description 179
- 238000000034 method Methods 0.000 title claims description 46
- 230000008569 process Effects 0.000 title description 12
- 238000000386 microscopy Methods 0.000 title description 5
- 230000000007 visual effect Effects 0.000 claims description 110
- 108090000623 proteins and genes Proteins 0.000 claims description 40
- 102000004169 proteins and genes Human genes 0.000 claims description 38
- 239000002773 nucleotide Substances 0.000 claims description 25
- 125000003729 nucleotide group Chemical group 0.000 claims description 25
- 230000008827 biological function Effects 0.000 claims description 24
- 238000003860 storage Methods 0.000 claims description 20
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 18
- 230000004071 biological effect Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 230000006399 behavior Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 description 51
- 230000006870 function Effects 0.000 description 36
- 239000013598 vector Substances 0.000 description 24
- 238000010606 normalization Methods 0.000 description 19
- 230000004913 activation Effects 0.000 description 18
- 238000001994 activation Methods 0.000 description 18
- 238000011176 pooling Methods 0.000 description 18
- 238000002474 experimental method Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 11
- 230000007246 mechanism Effects 0.000 description 10
- 238000003066 decision tree Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 150000001413 amino acids Chemical class 0.000 description 5
- 239000002775 capsule Substances 0.000 description 5
- 230000003197 catalytic effect Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 108090000765 processed proteins & peptides Proteins 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 210000001519 tissue Anatomy 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 230000037361 pathway Effects 0.000 description 4
- 102000004196 processed proteins & peptides Human genes 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 108020004414 DNA Proteins 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 150000002632 lipids Chemical class 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 210000004940 nucleus Anatomy 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 210000003463 organelle Anatomy 0.000 description 3
- 229920001184 polypeptide Polymers 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- BAWFJGJZGIEFAR-NNYOXOHSSA-N NAD zwitterion Chemical compound NC(=O)C1=CC=C[N+]([C@H]2[C@@H]([C@H](O)[C@@H](COP([O-])(=O)OP(O)(=O)OC[C@@H]3[C@H]([C@@H](O)[C@@H](O3)N3C4=NC=NC(N)=C4N=C3)O)O2)O)=C1 BAWFJGJZGIEFAR-NNYOXOHSSA-N 0.000 description 2
- 108091034117 Oligonucleotide Proteins 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 210000004292 cytoskeleton Anatomy 0.000 description 2
- 210000000172 cytosol Anatomy 0.000 description 2
- 238000013501 data transformation Methods 0.000 description 2
- 150000004676 glycans Chemical class 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229950006238 nadide Drugs 0.000 description 2
- 108091033319 polynucleotide Proteins 0.000 description 2
- 229920001282 polysaccharide Polymers 0.000 description 2
- 239000005017 polysaccharide Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004960 subcellular localization Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000014616 translation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000995051 Brenda Species 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 102100031181 Glyceraldehyde-3-phosphate dehydrogenase Human genes 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 241001478740 Lilium sp. Species 0.000 description 1
- 102000029749 Microtubule Human genes 0.000 description 1
- 108091022875 Microtubule Proteins 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 241000726445 Viroids Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004791 biological behavior Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000006696 biosynthetic metabolic pathway Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 210000000170 cell membrane Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 210000000805 cytoplasm Anatomy 0.000 description 1
- 238000001493 electron microscopy Methods 0.000 description 1
- 210000001163 endosome Anatomy 0.000 description 1
- 230000005714 functional activity Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000004110 gluconeogenesis Effects 0.000 description 1
- 108020004445 glyceraldehyde-3-phosphate dehydrogenase Proteins 0.000 description 1
- 230000034659 glycolysis Effects 0.000 description 1
- 238000007901 in situ hybridization Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 210000003712 lysosome Anatomy 0.000 description 1
- 230000001868 lysosomic effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 210000004688 microtubule Anatomy 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004879 molecular function Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 229930027945 nicotinamide-adenine dinucleotide Natural products 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 238000012576 optical tweezer Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000002220 organoid Anatomy 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
以下では、装置および/または方法のいくつかの例を、単なる例として、添付の図面を参照しながら説明する。
形状=bs×ch×高さ×幅
であってもよく、ここで、bsは、バッチサイズ(例えば、確率的勾配降下最適化の1つのミニバッチにロードされる画像の数)であり、chは、フィルタの数(例えば、入力画像のための「チャネル」の数に等しく、例えば、RGB画像の場合にはch=3である)であり、高さは、画像内の行の数であり、幅は、画像内の列の数である。例えば、顕微鏡は、より多くの次元(例えば、軸方向の次元(z)、スペクトル放射の次元、寿命の次元、スペクトル励起の次元および/またはステージの次元)を生成可能であってもよく、これらの次元を、視覚認識ニューラルネットワークによって追加的に処理することができる。しかしながら、以下の例は、単にチャネル、高さおよび幅を有するケースに関連しているに過ぎない場合がある(例えば、ch>3である例も実施可能である)。
ch_0 演算前の入力テンソルのチャネルの数。
X Xは、上述したような形状のn次元のテンソルであってもよい。
conv(nin,nout,k,s)(x) n次元の畳み込み演算430(例えば、図示の例では2Dの畳み込み)であり、ninの入力チャネル(例えば、空間フィルタ)と、noutの出力チャネルと、k×k(例えば、3×3)のカーネルサイズと、テンソルXに適用されるs×s(例えば、1×1)のストライドとを有する。
relu(x)={x<0の場合には0、そうでない場合にはx} 正規化線形ユニットは、図示のように畳み込み後に実行される非線形性である。グラフにおいて、この演算は、“Relu”420として描写されている。
bn(x)=(x-μ)/σ バッチ正規化は、各自のそれぞれのバッチの平均μおよび標準偏差σに正規化されたテンソルXを取得する。グラフにおいて、この演算は、“BatchNormalization”410として描写されている。
fc(x)=Wx+b 全結合層は、線形演算子であり、ここで、Wは、重みであり、bは、バイアス項である(例えば、bは、グラフには図示されていない)。
m(x) 前の層からの活性化によって開始する、形状(1,64,256,256)のテンソルXに適用されるボトルネック構成を有するResNetブロック400が、図4に示されている。
Hl_B(x) ボトルネック構成を有する緻密層600が、図6に示されている。
Hl_A 注意機構を有する緻密層700。
・トークン埋め込みを検出する:例えば、それぞれの生物学的分子(例えば、ヌクレオチド、タンパク質)に関する科学刊行物におけるヌクレオチド/タンパク質配列またはテキスト記述/キャプションの形態での生物学的分子の表現に基づいて、第1の言語/言語学モデル(例えば、RNN、LSTM)をトレーニングすること。例えば、生成されたトークン埋め込みは、モデルのトレーニング中に導出可能である。この第1のトレーニング段階自体の最終的な結果(例えば、配列における次の要素の予測)は、関心対象ではない場合がある。しかしながら、予測目標を定義することにより、トレーニングの精度および/または速度を改善することができる。
・それぞれのトークン埋め込みへの画像(例えば、それぞれの生物学的分子の画像)のマッピング。換言すれば、言語/言語学モデルのトレーニングの生物学的テキスト入力を表現する生物学的構造から画像を選択することができる。これらの画像を、第2段階のトレーニングのために使用することができる。対応する生物学的テキスト記述を有する画像のデータベースが使用される場合には、画像のこのマッピングは、不要となり得る。
・第1のモデルにより検出されたそれぞれのトークン埋め込みを予測するための画像認識モデル(例えばCNN、カプセルネットワーク)の第2段階のトレーニング。入力は、それぞれの生物学的分子の画像である。画像は、第1のモデルによって生成されたトークン埋め込みに含まれている意味論にマッピング可能である。
102 生物学的関連の言語ベースの入力トレーニングデータ
104 生物学関連の画像ベースの入力トレーニングデータ
110 1つまたは複数のプロセッサ
120 1つまたは複数のストレージデバイス
200 データベース;リポジトリ
210 生物学関連の言語ベースの入力トレーニングデータ;生物学的配列
220 言語認識機械学習アルゴリズム;テキストモデル
230 言語認識機械学習アルゴリズムのエンコーダ経路
240 言語認識機械学習アルゴリズムのデコーダ経路
250 生物学関連の言語ベースの出力トレーニングデータ;予測
260 第1の高次元表現;隠れ表現;潜在ベクトル;トークン埋め込み
300 リポジトリ
310 生物学関連の画像ベースの入力トレーニングデータ;画像
320 視覚認識機械学習アルゴリズム;視覚モデル
330 第2の高次元表現;隠れ表現;潜在ベクトル;トークン埋め込み
400 視覚認識ニューラルネットワークの部分;ResNetブロック
410 バッチ正規化演算
420 ReLu演算
430 畳み込み演算
440 加算演算
500 視覚認識ニューラルネットワークの部分;ResNet-CBAMブロック
510 大域平均プーリング演算
520 大域最大プーリング演算
530 連結演算
540 シグモイド演算
550 乗算演算
560 平均値演算
570 最大値演算
600 視覚認識ニューラルネットワークの部分;ボトルネック構成を有する緻密層
700 視覚認識ニューラルネットワークの部分;注意機構を有する緻密層
800 機械学習アルゴリズムをトレーニングするためのシステム
810 顕微鏡
820 コンピュータデバイス
900 生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするための方法
910 生物学関連の言語ベースの入力トレーニングデータを受信する
920 第1の高次元表現を生成する
930 生物学関連の言語ベースの出力トレーニングデータを生成する
940 言語認識機械学習アルゴリズムを調整する
950 生物学関連の画像ベースの入力トレーニングデータを受信する
960 第2の高次元表現を生成する
970 視覚認識機械学習アルゴリズムを調整する
Claims (12)
- 1つまたは複数のプロセッサ(110)と、1つまたは複数のストレージデバイス(120)と、を含むシステム(100)であって、前記システム(100)は、
生物学関連の言語ベースの入力トレーニングデータ(102,210)を受信し、前記生物学関連の言語ベースの入力トレーニングデータ(102,210)は、ヌクレオチド配列、タンパク質配列、生物学的分子もしくは生物学的構造の記述、生物学的分子もしくは生物学的構造の挙動の記述、または、生物学的機能もしくは生物学的活動の記述のうちの少なくとも1つであり、
前記1つまたは複数のプロセッサ(110)によって実行される言語認識機械学習アルゴリズム(220)によって、前記生物学関連の言語ベースの入力トレーニングデータ(102,210)の第1の高次元表現(260)を生成し、前記第1の高次元表現(260)は、それぞれ異なる値を有する少なくとも3つのエントリを含み、
前記1つまたは複数のプロセッサ(110)によって実行される前記言語認識機械学習アルゴリズム(220)によって、前記第1の高次元表現(260)に基づいて、生物学関連の言語ベースの出力トレーニングデータ(250)を生成し、
前記生物学関連の言語ベースの入力トレーニングデータ(102,210)と、前記生物学関連の言語ベースの出力トレーニングデータ(250)と、の比較に基づいて、前記言語認識機械学習アルゴリズム(220)を調整し、
前記生物学関連の言語ベースの入力トレーニングデータ(102,210)に関連付けられた生物学関連の画像ベースの入力トレーニングデータ(104,310)を受信し、
前記1つまたは複数のプロセッサ(110)によって実行される視覚認識機械学習アルゴリズム(320)によって、前記生物学関連の画像ベースの入力トレーニングデータ(104,310)の第2の高次元表現(330)を生成し、前記第2の高次元表現(330)は、それぞれ異なる値を有する少なくとも3つのエントリを含み、
前記第1の高次元表現(260)と前記第2の高次元表現(330)との比較に基づいて、前記視覚認識機械学習アルゴリズム(320)を調整する、
ように構成されており、
前記生物学関連の言語ベースの入力トレーニングデータ(102,210)は、生物学的配列であり、
前記生物学関連の言語ベースの出力トレーニングデータ(250)は、前記生物学的配列における次の要素についての予測を含み、
前記生物学関連の画像ベースの入力トレーニングデータ(104,310)は、ヌクレオチドもしくはヌクレオチド配列を含む生物学的構造、タンパク質もしくはタンパク質配列を含む生物学的構造、生物学的分子、生物学的組織、特定の挙動を有する生物学的構造、または、特定の生物学的機能もしくは特定の生物学的活動を有する生物学的構造のうちの少なくとも1つの画像の画像トレーニングデータである、
システム。 - 前記第1の高次元表現(260)の1つまたは複数のエントリの値は、特定の生物学的機能または特定の生物学的活動が存在する尤度に比例する、
請求項1記載のシステム。 - 前記第2の高次元表現(330)の1つまたは複数のエントリの値は、特定の生物学的機能または特定の生物学的活動が存在する尤度に比例する、
請求項1または2記載のシステム。 - 前記第1の高次元表現(260)のエントリの値の50%超および前記第2の高次元表現(330)のエントリの値の50%超は、0に等しくない、
請求項1から3までのいずれか1項記載のシステム。 - 前記第1の高次元表現(260)の5つを超えるエントリの値は、前記第1の高次元表現(260)のエントリの最大絶対値の10%よりも大きく、
前記第2の高次元表現(330)の5つを超えるエントリの値は、前記第2の高次元表現(330)のエントリの最大絶対値の10%よりも大きい、
請求項1から4までのいずれか1項記載のシステム。 - 前記生物学関連の言語ベースの入力トレーニングデータ(102,210)は、20文字を超える長さを含む、
請求項1から5までのいずれか1項記載のシステム。 - 前記システムは、生物学関連の言語ベースの入力トレーニングデータセットのトレーニンググループのうちのそれぞれの生物学関連の言語ベースの入力トレーニングデータ(102,210)ごとに、
第1の高次元表現(260)を生成することと、
生物学関連の言語ベースの出力トレーニングデータ(250)を生成することと、
前記言語認識機械学習アルゴリズム(220)を調整することと、
を繰り返すように構成されている、
請求項1から6までのいずれか1項記載のシステム。 - 前記生物学関連の言語ベースの入力トレーニングデータセットの前記トレーニンググループのうちの第1の生物学関連の言語ベースの入力トレーニングデータ(102,210)の長さは、前記生物学関連の言語ベースの入力トレーニングデータセットの前記トレーニンググループのうちの第2の生物学関連の言語ベースの入力トレーニングデータ(102,210)の長さとは異なる、
請求項7記載のシステム。 - 前記システムは、生物学関連の画像ベースの入力トレーニングデータセットのトレーニンググループのうちのそれぞれの生物学関連の画像ベースの入力トレーニングデータ(104,310)ごとに、
第2の高次元表現(330)を生成することと、
前記視覚認識機械学習アルゴリズム(320)を調整することと、
を繰り返すように構成されている、
請求項1から8までのいずれか1項記載のシステム。 - 請求項1から9までのいずれか1項記載のシステムを含む、顕微鏡。
- システムによって、生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするための方法(900)であって、前記方法は、
生物学関連の言語ベースの入力トレーニングデータを前記システムが受信するステップ(910)であって、前記生物学関連の言語ベースの入力トレーニングデータ(102,210)は、ヌクレオチド配列、タンパク質配列、生物学的分子もしくは生物学的構造の記述、生物学的分子もしくは生物学的構造の挙動の記述、または、生物学的機能もしくは生物学的活動の記述のうちの少なくとも1つであるステップと、
言語認識機械学習アルゴリズムによって、前記生物学関連の言語ベースの入力トレーニングデータの第1の高次元表現を前記システムが生成するステップであって、前記第1の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリを含むステップ(920)と、
前記言語認識機械学習アルゴリズムによって、前記第1の高次元表現に基づいて、前記生物学関連の言語ベースの出力トレーニングデータを前記システムが生成するステップ(930)と、
前記生物学関連の言語ベースの入力トレーニングデータと、前記生物学関連の言語ベースの出力トレーニングデータと、の比較に基づいて、前記言語認識機械学習アルゴリズムを前記システムが調整するステップ(940)と、
前記生物学関連の言語ベースの入力トレーニングデータに関連付けられた生物学関連の画像ベースの入力トレーニングデータを前記システムが受信するステップ(950)と、
視覚認識機械学習アルゴリズムによって、前記生物学関連の画像ベースの入力トレーニングデータの第2の高次元表現を前記システムが生成するステップであって、前記第2の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリを含むステップ(960)と、
前記第1の高次元表現と前記第2の高次元表現との比較に基づいて、前記視覚認識機械学習アルゴリズムを前記システムが調整するステップ(970)と、
を含み、
前記生物学関連の言語ベースの入力トレーニングデータ(102,210)は、生物学的配列であり、
前記生物学関連の言語ベースの出力トレーニングデータ(250)は、前記生物学的配列における次の要素についての予測を含み、
前記生物学関連の画像ベースの入力トレーニングデータ(104,310)は、ヌクレオチドもしくはヌクレオチド配列を含む生物学的構造、タンパク質もしくはタンパク質配列を含む生物学的構造、生物学的分子、生物学的組織、特定の挙動を有する生物学的構造、または、特定の生物学的機能もしくは特定の生物学的活動を有する生物学的構造のうちの少なくとも1つの画像の画像トレーニングデータである、
方法(900)。 - プロセッサによって実行されるときに請求項11記載の方法を実施するためのプログラムコードを有する、コンピュータプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2019/064960 WO2020244774A1 (en) | 2019-06-07 | 2019-06-07 | A system and method for training machine-learning algorithms for processing biology-related data, a microscope and a trained machine learning algorithm |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022542639A JP2022542639A (ja) | 2022-10-06 |
JP7443401B2 true JP7443401B2 (ja) | 2024-03-05 |
Family
ID=66810816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021572433A Active JP7443401B2 (ja) | 2019-06-07 | 2019-06-07 | 生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするためのシステムおよび方法、顕微鏡ならびにトレーニングされた機械学習アルゴリズム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220246244A1 (ja) |
EP (1) | EP3981003A1 (ja) |
JP (1) | JP7443401B2 (ja) |
CN (1) | CN114450751A (ja) |
WO (1) | WO2020244774A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11599749B1 (en) * | 2019-12-23 | 2023-03-07 | Thales Sa | Method of and system for explainable knowledge-based visual question answering |
US11961287B2 (en) * | 2020-10-02 | 2024-04-16 | Servicenow Canada Inc. | Method and system for meaningful counterfactual explanations |
CN112906813A (zh) * | 2021-03-09 | 2021-06-04 | 中南大学 | 一种基于密度聚类和胶囊神经网络的浮选工况识别方法 |
CN113065588A (zh) * | 2021-03-24 | 2021-07-02 | 齐鲁工业大学 | 基于双线性注意力网络的医学影像数据分类方法及系统 |
CN112949841B (zh) * | 2021-05-13 | 2022-08-16 | 德鲁动力科技(成都)有限公司 | 一种基于Attention的CNN神经网络的行人重识别方法 |
CN113178229B (zh) * | 2021-05-31 | 2022-03-08 | 吉林大学 | 一种基于深度学习的rna和蛋白质结合位点的识别方法 |
CN113449801B (zh) * | 2021-07-08 | 2023-05-02 | 西安交通大学 | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 |
CN113517030B (zh) * | 2021-07-19 | 2022-09-20 | 中国人民解放军国防科技大学 | 基于病毒传播网络的基因序列表示学习方法 |
CN113658047A (zh) * | 2021-08-18 | 2021-11-16 | 北京石油化工学院 | 一种结晶图像超分辨率重建方法 |
CN113762278B (zh) * | 2021-09-13 | 2023-11-17 | 中冶路桥建设有限公司 | 一种基于目标检测的沥青路面损坏识别方法 |
CN113920989B (zh) * | 2021-12-13 | 2022-04-01 | 中国科学院自动化研究所 | 一种语音识别与语音翻译端到端系统及设备 |
CN114778485B (zh) * | 2022-06-16 | 2022-09-06 | 中化现代农业有限公司 | 基于近红外光谱和注意力机制网络的品种鉴定方法及系统 |
CN115099275B (zh) * | 2022-06-29 | 2023-07-07 | 西南医科大学 | 一种基于人工神经网络的心律失常诊断模型的训练方法 |
CN116052774B (zh) * | 2022-07-04 | 2023-11-28 | 湖南中医药大学 | 基于深度学习的关键miRNA识别方法及系统 |
CN116204674B (zh) * | 2023-04-28 | 2023-07-18 | 中国科学技术大学 | 一种基于视觉概念词关联结构化建模的图像描述方法 |
CN116913383B (zh) * | 2023-09-13 | 2023-11-28 | 鲁东大学 | 一种基于多模态的t细胞受体序列分类方法 |
CN117572379B (zh) * | 2024-01-17 | 2024-04-12 | 厦门中为科学仪器有限公司 | 一种基于cnn-cbam收缩二分类网络的雷达信号处理方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10127475B1 (en) | 2013-05-31 | 2018-11-13 | Google Llc | Classifying images |
-
2019
- 2019-06-07 US US17/596,290 patent/US20220246244A1/en active Pending
- 2019-06-07 EP EP19729529.8A patent/EP3981003A1/en active Pending
- 2019-06-07 JP JP2021572433A patent/JP7443401B2/ja active Active
- 2019-06-07 WO PCT/EP2019/064960 patent/WO2020244774A1/en active Application Filing
- 2019-06-07 CN CN201980099039.4A patent/CN114450751A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10127475B1 (en) | 2013-05-31 | 2018-11-13 | Google Llc | Classifying images |
Non-Patent Citations (2)
Title |
---|
MENDIETA, M. et al.,A cross-modal transfer approach for histological images: A case study in aquaculture for disease identification using zero-shot learning,2017 IEEE Second Ecuador Technical Chapters Meeting (ETCM) [online],IEEE,2018年01月08日,[retrieved on 2023.08.23],<URL: https://ieeexplore.ieee.org/document/8247501>,DOI : 10.1109/ETCM.2017.8247501 |
SOCHER, R. et al.,Zero-Shot Learning Through Cross-Modal Transfer,arXiv[online],2013年,p.1-7,[retrieved on 2023.08.23],<URL: https://arxiv.org/abs/1301.3666> |
Also Published As
Publication number | Publication date |
---|---|
JP2022542639A (ja) | 2022-10-06 |
US20220246244A1 (en) | 2022-08-04 |
EP3981003A1 (en) | 2022-04-13 |
WO2020244774A1 (en) | 2020-12-10 |
CN114450751A (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7443401B2 (ja) | 生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするためのシステムおよび方法、顕微鏡ならびにトレーニングされた機械学習アルゴリズム | |
Zhu et al. | Converting tabular data into images for deep learning with convolutional neural networks | |
Shafiq et al. | Deep residual learning for image recognition: A survey | |
Emmert-Streib et al. | An introductory review of deep learning for prediction models with big data | |
Alom et al. | A state-of-the-art survey on deep learning theory and architectures | |
Elbasir et al. | DeepCrystal: a deep learning framework for sequence-based protein crystallization prediction | |
Hu et al. | Efficient forward architecture search | |
Arowolo et al. | A survey of dimension reduction and classification methods for RNA-Seq data on malaria vector | |
US20230011970A1 (en) | Method and an apparatus for predicting a future state of a biological system, a system and a computer program | |
Zuo et al. | Dataset-aware multi-task learning approaches for biomedical named entity recognition | |
JP7346603B2 (ja) | 生物学関連のデータを処理するためのシステムおよび方法ならびに顕微鏡 | |
Ullah et al. | PScL-DDCFPred: an ensemble deep learning-based approach for characterizing multiclass subcellular localization of human proteins from bioimage data | |
US11960518B2 (en) | System and method for processing biology-related data, a system and method for controlling a microscope and a microscope | |
Geete et al. | Robust transcription factor binding site prediction using deep neural networks | |
Dionysiou et al. | Convolutional neural networks in combination with support vector machines for complex sequential data classification | |
Ranjan et al. | λ-Scaled-attention: A novel fast attention mechanism for efficient modeling of protein sequences | |
US12026191B2 (en) | System and method for processing biology-related data, a system and method for controlling a microscope and a microscope | |
Masurkar et al. | Human protein subcellular localization using convolutional neural network as feature extractor | |
US20240212109A1 (en) | Systems and methods for training a machine-learning algorithm and application of a machine-learning model for denoising images | |
US20220245188A1 (en) | A system and method for processing biology-related data, a system and method for controlling a microscope and a microscope | |
Eichenberger | Applications of deep learning in biology | |
EP3980938A1 (en) | A system and method for generating a biology-related image-based output data set of a typical image of a biological structure and a system and method for training a generative adversarial network | |
Purohit | Sequence-based Protein Interaction Site Prediction using Computer Vision and Deep Learning | |
Szymborski et al. | INTREPPPID-An Orthologue-Informed Quintuplet Network for Cross-Species Prediction of Protein-Protein Interaction | |
Samiei | Meta-Learning for Cancer Phenotype Prediction from Gene Expression Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220607 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7443401 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |