JP7443401B2

JP7443401B2 - 生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするためのシステムおよび方法、顕微鏡ならびにトレーニングされた機械学習アルゴリズム

Info

Publication number: JP7443401B2
Application number: JP2021572433A
Authority: JP
Inventors: カッペルコンスタンティン
Original assignee: Leica Microsystems CMS GmbH
Current assignee: Leica Microsystems CMS GmbH
Priority date: 2019-06-07
Filing date: 2019-06-07
Publication date: 2024-03-05
Anticipated expiration: 2039-06-07
Also published as: JP2022542639A; US20220246244A1; EP3981003A1; WO2020244774A1; CN114450751A

Description

各例は、生物学関連のデータの処理に関する。

多くの生物学的用途において、膨大な量のデータが生成される。例えば、画像は、莫大な量の生物学的構造から取得され、データベースに格納される。生物学的データを手動で分析するのは、非常に時間および費用がかかる。

したがって、生物学関連のデータを処理するための改善されたコンセプトが必要とされている。

この要求は、請求項の主題によって満たすことができる。

いくつかの実施形態は、１つまたは複数のプロセッサと、１つまたは複数のストレージデバイスと、を含むシステムに関する。当該システムは、生物学関連の言語ベースの入力トレーニングデータを受信し、１つまたは複数のプロセッサによって実行される言語認識機械学習アルゴリズムによって、生物学関連の言語ベースの入力トレーニングデータの第１の高次元表現を生成するように構成されている。第１の高次元表現は、それぞれ異なる値を有する少なくとも３つのエントリを含む。さらに、当該システムは、１つまたは複数のプロセッサによって実行される言語認識機械学習アルゴリズムによって、第１の高次元表現に基づいて、生物学関連の言語ベースの出力トレーニングデータを生成し、生物学関連の言語ベースの入力トレーニングデータと、生物学関連の言語ベースの出力トレーニングデータと、の比較に基づいて、言語認識機械学習アルゴリズムを調整するように構成されている。さらに、当該システムは、生物学関連の言語ベースの入力トレーニングデータに関連付けられた生物学関連の画像ベースの入力トレーニングデータを受信し、１つまたは複数のプロセッサによって実行される視覚認識機械学習アルゴリズムによって、生物学関連の画像ベースの入力トレーニングデータの第２の高次元表現を生成するように構成されている。第２の高次元表現は、それぞれ異なる値を有する少なくとも３つのエントリを含む。さらに、当該システムは、第１の高次元表現と第２の高次元表現との比較に基づいて、視覚認識機械学習アルゴリズムを調整するように構成されている。

言語認識機械学習アルゴリズムを使用することによって、生物学的テキスト入力を高次元表現にマッピングすることができる。高次元表現が（ワンホットエンコーディングされた表現とは対照的に）種々の異なる値を有するエントリを有することを可能にすることによって、意味論的に類似した生物学的入力を、類似した高次元表現にマッピングすることができる。画像を、言語認識機械学習アルゴリズムによってトレーニングされた高次元表現にマッピングするために、視覚認識機械学習アルゴリズムをトレーニングすることにより、類似した生物学的コンテンツを有する画像を、類似した高次元表現にマッピングすることもできる。その結果、相応にトレーニングされた視覚認識機械学習アルゴリズムによる画像の分類が、意味論的に正確である尤度または少なくとも意味論的に近似する尤度を、大幅に改善することができる。さらに、相応にトレーニングされた視覚認識機械学習アルゴリズムが、トレーニングされていない画像を、類似した意味の高次元表現に近い高次元表現に、または意味論的に一致する高次元表現により正確にマッピングすることが可能となり得る。トレーニングされた言語認識機械学習アルゴリズムおよび／またはトレーニングされた視覚認識機械学習アルゴリズムは、生物学関連の言語ベースおよび／または画像ベースの入力データの、意味論的に正確な分類または非常に精確な分類を提供することが可能であり得る提案されているコンセプトによって取得可能である。トレーニングされた言語認識機械学習アルゴリズムおよび／またはトレーニングされた視覚認識機械学習アルゴリズムは、言語ベースの検索入力または画像ベースの検索入力に基づいて、複数の生物学的画像の中から生物学関連の画像を検索すること、生物学関連の画像をタグ付けすること、典型的な画像を検出または生成することおよび／または同様の用途を可能にすることができる。

図面の簡単な説明
以下では、装置および／または方法のいくつかの例を、単なる例として、添付の図面を参照しながら説明する。

生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするためのシステムの概略図である。言語認識機械学習アルゴリズムのトレーニングの概略図である。視覚認識機械学習アルゴリズムのトレーニングの概略図である。視覚認識ニューラルネットワークのうちの、ＲｅｓＮｅｔアーキテクチャに基づいた部分の計算グラフである。視覚認識ニューラルネットワークのうちの、変更されたＣＢＡＭブロックを有するＲｅｓＮｅｔアーキテクチャに基づいた部分の計算グラフである。視覚認識ニューラルネットワークのうちの、ＤｅｎｓｅＮｅｔアーキテクチャに基づいた部分の計算グラフである。視覚認識ニューラルネットワークのうちの、注意機構を有するＤｅｎｓｅＮｅｔアーキテクチャに基づいた部分の計算グラフである。生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするためのシステムの概略図である。生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするための方法のフローチャートである。

次に、いくつかの例が示されている添付の図面を参照しながら、種々の例をより完全に説明する。図面において、線、層および／または領域の厚さは、見やすくするために誇張されている場合がある。

したがって、さらなる例によって種々の修正形態および代替形態を実現することが可能であるが、そのうちのいくつかの特定の例が図面に示されており、続いて詳細に説明される。しかしながら、この詳細な説明は、さらなる例を、説明されている特定の形態に限定するものではない。さらなる例は、本開示の範囲内に含まれる全ての修正形態、均等形態および代替形態を網羅することができる。同一または同様の参照符号は、図面の説明全体にわたり同様または類似の要素を指しており、それらの要素を、互いに比較したとき、同一または類似の機能を提供しながら、同一または変更された形態で実現することができる。

ある要素が別の要素と「接続されている」または「結合されている」と記載されている場合、これらの要素は、直接的に接続または結合されていてもよいし、または１つまたは複数の介在要素を介して接続または結合されていてもよいと理解される。２つの要素ＡおよびＢが「または」を使用して組み合わされている場合、このことは、明示的または暗示的に別様に定義されていない限り、全ての可能な組み合わせ、すなわちＡのみ、ＢのみならびにＡおよびＢが開示されているものと理解されたい。同じ組み合わせについての代替的な表現は、「ＡおよびＢのうちの少なくとも１つ」または「Ａおよび／またはＢ」である。同じことは、必要な変更を加えて、３つ以上の要素の組み合わせにも当てはまる。

特定の例を説明する目的で本明細書において用いられる用語は、さらなる例を限定することを意図するものではない。“a”，“an”および“the”のような単数形が用いられ、単一の要素のみを用いることが必須であると明示的または暗示的に定義されていないときはいつでも、さらなる例が、複数の要素を用いて同じ機能を実現してもよい。同様に、ある機能が複数の要素を用いて実装されるものとして後で説明されている場合、さらなる例が、単一の要素または処理エンティティを用いて同じ機能を実現してもよい。さらに、“comprises（含む）”、“comprising（含んでいる）”、“includes（含む）”および／または“including（含んでいる）”という用語は、使用される場合、記載された特徴、整数、ステップ、操作、プロセス、動作、要素および／または構成要素の存在を指定するが、１つまたは複数の他の特徴、整数、ステップ、操作、プロセス、動作、要素、構成要素および／またはそれらの任意のグループの存在または追加を排除しないと理解される。

別様に定義されていない限り、全ての用語（技術用語および科学用語を含む）は、本明細書において、各例が属する分野の通常の意味で使用されている。

図１は、１つの実施形態による、生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするためのシステム１００の概略図を示す。システム１００は、１つまたは複数のプロセッサ１１０と、１つまたは複数のストレージデバイス１２０と、を含む。システム１００は、生物学関連の言語ベースの入力トレーニングデータ１０２を受信するように構成されている。さらに、システム１００は、１つまたは複数のプロセッサ１１０によって実行される言語認識機械学習アルゴリズムによって、生物学関連の言語ベースの入力トレーニングデータ１０２の第１の高次元表現を生成するように構成されている。第１の高次元表現は、それぞれ異なる値を有する少なくとも３つのエントリ（または互いに異なる値を有する少なくとも２０個のエントリ、少なくとも５０個のエントリ、または少なくとも１００個のエントリ）を含む。さらに、システム１００は、１つまたは複数のプロセッサ１１０によって実行される言語認識機械学習アルゴリズムによって、第１の高次元表現に基づいて、生物学関連の言語ベースの出力トレーニングデータを生成するように構成されている。さらに、システム１００は、生物学関連の言語ベースの入力トレーニングデータ１０２と、生物学関連の言語ベースの出力トレーニングデータと、の比較に基づいて、言語認識機械学習アルゴリズムを調整するように構成されている。さらに、システム１００は、生物学関連の言語ベースの入力トレーニングデータ１０２に関連付けられた生物学関連の画像ベースの入力トレーニングデータ１０４を受信するように構成されている。さらに、システム１００は、１つまたは複数のプロセッサ１１０によって実行される視覚認識機械学習アルゴリズムによって、生物学関連の画像ベースの入力トレーニングデータ１０４の第２の高次元表現を生成するように構成されている。第２の高次元表現は、それぞれ異なる値を有する少なくとも３つのエントリ（または互いに異なる値を有する少なくとも２０個のエントリ、少なくとも５０個のエントリ、または少なくとも１００個のエントリ）を含む。さらに、システム１００は、第１の高次元表現と第２の高次元表現との比較に基づいて、視覚認識機械学習アルゴリズムを調整するように構成されている。

生物学関連の言語ベースの入力トレーニングデータ１０２は、生物学的構造、生物学的機能、生物学的挙動、または生物学的活動に関連するテキスト入力であってもよい。例えば、生物学関連の言語ベースの入力トレーニングデータ１０２は、ヌクレオチド配列、タンパク質配列、生物学的分子もしくは生物学的構造の記述、生物学的分子もしくは生物学的構造の挙動の記述および／または生物学的機能もしくは生物学的活動の記述であってもよい。テキスト入力は、実験またはデータセットの文脈での、生物学的分子（例えば、多糖類、ポリ／オリゴヌクレオチド、タンパク質、または脂質）またはその挙動を記述する自然言語であってもよい。また、ヌクレオチド配列、タンパク質配列、または制御されたクエリ言語でのようなテキストであってもよい。例えば、生物学関連の言語ベースの入力トレーニングデータ１０２は、ヌクレオチド配列またはタンパク質配列であってもよい。なぜなら、多種多様な種々の配列が既知であり、データベースにおいて利用可能であり、かつ／またはこれらの配列に関して生物学的機能および／または生物学的活動が既知であるからである。生物学関連の言語ベースの入力トレーニングデータ１０２は、２０文字を超える（または４０文字を超える、６０文字を超える、もしくは８０文字を超える）長さを含むことができる。例えば、ヌクレオチド配列（ＤＮＡ／ＲＮＡ）は、アミノ酸に関して３つの塩基対が指定されているので、ポリペプチド配列（例えば、ペプチド、タンパク質）よりも約３倍長いことが多い。例えば、生物学関連の言語ベースの入力トレーニングデータ１０２は、生物学関連の言語ベースの入力トレーニングデータがタンパク質配列またはアミノ酸である場合には、２０文字を超える長さを含むことができる。生物学関連の言語ベースの入力トレーニングデータ１０２は、生物学関連の言語ベースの入力トレーニングデータがヌクレオチド配列または自然言語での記述テキストである場合には、６０文字を超える長さを含むことができる。例えば、生物学関連の言語ベースの入力トレーニングデータ１０２は、少なくとも１つの非数値文字（例えば、アルファベット文字）を含むことができる。生物学関連の言語ベースの入力トレーニングデータ１０２は、トークンまたは入力トークンとも称され得る。生物学関連の言語ベースの入力トレーニングデータ１０２は、１つまたは複数のストレージデバイス１２０から、もしくはストレージデバイスによって格納されたデータベースから受信可能であるか、またはユーザによって入力可能である。生物学関連の言語ベースの入力トレーニングデータは、トレーニンググループのうちの第１の生物学関連の言語ベースの入力トレーニングデータセット（例えば、入力文字のシーケンス、例えば、ヌクレオチド配列またはタンパク質配列）であってもよい。トレーニンググループは、複数の生物学関連の言語ベースの入力トレーニングデータセットを含むことができる。

生物学関連の言語ベースの出力トレーニングデータは、オプションとして次の要素の予測を含む、生物学関連の言語ベースの入力トレーニングデータ１０２と同じ種類のものであってもよい。例えば、生物学関連の言語ベースの入力トレーニングデータ１０２は、生物学的配列（例えば、ヌクレオチド配列またはタンパク質配列）であってもよく、生物学関連の言語ベースの出力トレーニングデータも、生物学的配列（例えば、ヌクレオチド配列またはタンパク質配列）であってもよい。言語認識機械学習アルゴリズムは、生物学関連の言語ベースの出力トレーニングデータが、オプションとして生物学的配列の次の要素の予測を含む、生物学関連の言語ベースの入力トレーニングデータ１０２と等しくなるようにトレーニング可能である。別の例では、生物学関連の言語ベースの入力トレーニングデータ１０２は、粗視化された検索用語の生物学的クラスであってもよく、生物学関連の言語ベースの出力トレーニングデータも、粗視化された検索用語の生物学的クラスであってもよい。

択一的に、生物学関連の言語ベースの出力トレーニングデータは、生物学関連の言語ベースの入力トレーニングデータ１０２とは異なる種類のものである。例えば、生物学関連の言語ベースの入力トレーニングデータ１０２は、生物学的配列（例えば、ヌクレオチド配列またはタンパク質配列）であり、生物学関連の言語ベースの出力トレーニングデータは、粗視化された検索用語の生物学的クラスである。この例では、入力トレーニングデータ１０２として使用されるそれぞれの生物学的配列は、生物学的用語のグループのうちの１つの粗視化された検索用語に属することができ、言語認識機械学習アルゴリズムは、入力トレーニングデータとして使用されるそれぞれの生物学的配列を、生物学的用語のグループのうちの対応する粗視化された検索用語に分類するようにトレーニング可能である。

生物学的用語のグループは、同じ生物学的トピックに属する複数の粗視化された検索用語（またはいわゆる分子生物学的主題の見出し用語）を含むことができる。生物学的用語のグループは、触媒活性（例えば、抽出物および生成物を表す単語を使用する何らかの反応方程式として）、触媒経路（例えば、どの経路が関与しているか、例えば、糖分解）、触媒部位および／または触媒領域（例えば、結合部位、活性部位、ヌクレオチド結合部位）であってもよく、ＧＯ（遺伝子オントロジー）（例えば、分子機能、例えば、ニコチンアミドアデニンジヌクレオチドＮＡＤ結合、微小管結合）、ＧＯ生物学的機能（例えば、アポトーシス、グルコネオゲネシス）、酵素および／または経路データベース（例えば、ＢＲＥＮＤＡ／ＥＣ番号またはＵｎｉＰａｔｈｗａｙｓにおける、例えば、ｓｉｃ機能のための一意の識別子）であってもよく、細胞内局在（例えば、サイトゾル、核、細胞骨格）、ファミリーおよび／またはドメイン（例えば、翻訳後修飾のための、例えば、結合部位、モチーフ）であってもよく、オープンリーディングフレーム、一塩基多型、制限部位（例えば、制限酵素によって認識されるオリゴヌクレオチド）および／または生合成経路（例えば、脂質、多糖類、ヌクレオチド、またはタンパク質の生合成）であってもよい。例えば、生物学的用語のグループは、細胞内局在のグループであってもよく、粗視化された検索用語は、細胞質ゾル、核および細胞骨格であってもよい。

生物学関連の言語ベースの出力トレーニングデータは、言語認識機械学習アルゴリズムのデコーダによって生成可能である。例えば、第１の高次元表現を生成するために、現在のパラメータのセット（例えば、ニューラルネットワークの重み）を用いて言語認識機械学習アルゴリズムを適用することによって、生物学関連の言語ベースの出力トレーニングデータを生成することができる。言語認識機械学習アルゴリズムの現在のパラメータのセットは、言語認識機械学習アルゴリズムの調整中に更新可能である。

生物学関連の画像ベースの入力トレーニングデータ１０４は、ヌクレオチドもしくはヌクレオチド配列を含む生物学的構造、タンパク質もしくはタンパク質配列を含む生物学的構造、生物学的分子、生物学的組織、特定の挙動を有する生物学的構造および／または特定の生物学的機能もしくは特定の生物学的活動を有する生物学的構造の画像の画像トレーニングデータ（例えば、トレーニング画像のピクセルデータ）であってもよい。生物学的構造は、分子、ウイロイドもしくはウイルス、人工もしくは天然の膜で包囲された小胞、（細胞小器官のような）細胞内構造、細胞、スフェロイド、オルガノイド、三次元細胞培養、生物学的組織、臓器スライス、または生体内もしくは生体外の臓器の一部であってもよい。例えば、生物学的構造の画像は、細胞内または組織内のタンパク質の位置の画像であってもよいし、または標識されたヌクレオチドプローブが結合する内因性ヌクレオチド（例えば、ＤＮＡ）を有する細胞または組織の画像（例えば、ｉｎｓｉｔｕハイブリダイゼーション）であってもよい。画像トレーニングデータは、画像のそれぞれの色次元（例えば、ＲＧＢ表現の場合には３つの色次元）について、画像のそれぞれのピクセルに対するピクセル値を含むことができる。例えば、画像診断法に応じて、励起波長または発光波長、蛍光寿命、偏光、三空間次元でのステージ位置、種々異なる撮像角度に関連して、他のチャネルを適用してもよい。生物学関連の画像ベースの入力トレーニングデータ１０４は、ＸＹピクセルマップ、体積測定データ（ＸＹＺ）、時系列データ（ＸＹ＋Ｔ）、またはそれらの組み合わせ（ＸＹＺＴ）であってもよい。さらに、画像ソースの種類に応じて、チャネル（例えば、スペクトル発光帯）、励起波長、ステージ位置、マルチウェルプレートまたはマルチポジショニング実験および／またはミラーでのような論理的位置および／またはライトシート撮像でのような対物レンズ位置のような、追加的な次元を含むことができる。例えば、ピクセルマップまたは高次元のピクチャーとして画像をユーザが入力してもよいし、またはデータベースが提供してもよい。視覚認識機械学習アルゴリズムは、この画像を意味論的埋め込み（例えば、第２の高次元表現）に変換することができる。例えば、生物学関連の画像ベースの入力トレーニングデータ１０４は、生物学関連の言語ベースの入力トレーニングデータ１０２に対応する。例えば、生物学関連の画像ベースの入力トレーニングデータは、生物学関連の画像ベースの入力トレーニングデータ１０４が生物学関連の言語ベースの入力トレーニングデータ１０２に関連付けられるように、生物学関連の言語ベースの入力トレーニングデータ１０２によって記述された生物学的構造を表現する。生物学関連の画像ベースの入力トレーニングデータ１０４は、１つまたは複数のストレージデバイスから、もしくはストレージデバイスによって格納されたデータベースから受信可能であるか、またはユーザによって入力可能である。生物学関連の画像ベースの入力トレーニングデータ１０４は、トレーニンググループのうちの第１の生物学関連の画像ベースの入力トレーニングデータセットであってもよい。トレーニンググループは、複数の生物学関連の画像ベースの入力トレーニングデータセットを含むことができる。

高次元表現（例えば、第１および第２の高次元表現）は、隠れ表現、潜在ベクトル、埋め込み、意味論的埋め込みおよび／またはトークン埋め込みであってもよく、かつ／または隠れ表現、潜在ベクトル、埋め込み、意味論的埋め込みおよび／またはトークン埋め込みとも称され得る。

第１の高次元表現および／または第２の高次元表現は、（例えば、数値のみを含む）数値表現であってもよい。第１の高次元表現および／または第２の高次元表現は、正の値のみを含むことができるか、または正の値を有するエントリと負の値を有するエントリとを含むことができる。対照的に、生物学関連の言語ベースの入力トレーニングデータは、アルファベット文字または他の非数字文字のみを含むことができるか、またはアルファベット文字、他の非数字文字および／または数字の混合物を含むことができる。第１の高次元表現および／または第２の高次元表現は、１００を超える次元（または３００もしくは５００を超える次元）を含むことができ、かつ／または１００００未満の次元（または３０００未満または１０００未満の次元）を含むことができる。高次元表現のそれぞれのエントリは、高次元表現の１つの次元であってもよい（例えば、１００次元を有する高次元表現は、１００個のエントリを含む）。例えば、３００を超えて１０００未満の次元を有する高次元表現を使用することにより、意味論的相関を有する生物学関連のデータのために適した表現が可能となり得る。第１の高次元表現は、第１のベクトルであってもよく、第２の高次元表現は、第２のベクトルであってもよい。第１の高次元表現のエントリおよび第２の高次元表現のエントリのためにベクトル表現が使用される場合には、効率的な比較および／または他の計算（例えば、正規化）を実施することができるが、他の表現（例えば、行列として）も可能であり得る。例えば、第１の高次元表現および／または第２の高次元表現は、正規化されたベクトルであってもよい。第１の高次元表現および第２の高次元表現は、同じ値（例えば、１）に正規化可能である。例えば、（例えば、言語認識機械学習アルゴリズムおよび／または視覚認識機械学習アルゴリズムの）モデルの最後の層は、追加的に正規化を実行することができる非線形演算を表現することができる。例えば、最初のモデル（言語モデル）が交差エントロピー損失関数によってトレーニングされている場合には、いわゆるソフトマックス演算：

を使用することができ、ここで、ｙ_ｉは、入力値に対応するモデルの予測であり、Ｋは、全ての入力値の数である。

例えば、第１の高次元表現および／または第２の高次元表現は、ワンホットエンコーディングされた表現とは対照的に、０に等しくない値を有する複数の異なるエントリ（少なくとも３つ）を含むことができる。０に等しくない値を有する複数の異なるエントリを有することができる高次元表現を使用することにより、高次元表現同士の間の意味論的な関係性に関する情報を再現することができる。例えば、第１の高次元表現のエントリの値の５０％超（または７０％超もしくは９０％超）および／または第２の高次元表現のエントリの値の５０％超（または７０％超もしくは９０％超）は、０に等しくなくてもよい。ワンホットエンコーディングされた表現が、０に等しくない２つ以上のエントリを有することも時にはあるが、高い値を有するエントリは１つだけであり、その他の全てのエントリは、ノイズレベル（例えば、その１つの高い値の１０％未満）の値を有する。対照的に、第１の高次元表現の５つを超えるエントリ（または２０を超えるエントリもしくは５０を超えるエントリ）の値を、例えば、第１の高次元表現のエントリの最大絶対値の１０％よりも大きく（または２０％よりも大きく、もしくは３０％よりも大きく）することができる。さらに、第２の高次元表現の５つを超えるエントリ（または２０を超えるエントリもしくは５０を超えるエントリ）の値を、例えば、第２の高次元表現のエントリの最大絶対値の１０％よりも大きく（または２０％よりも大きく、もしくは３０％よりも大きく）することができる。例えば、第１の高次元表現および／または第２の高次元表現のそれぞれのエントリは、－１～１の間の値を含むことができる。

第１の高次元表現は、言語認識機械学習アルゴリズムのエンコーダによって生成可能である。例えば、第１の高次元表現は、生物学関連の言語ベースの入力トレーニングデータ１０２に、現在のパラメータのセットを用いて言語認識機械学習アルゴリズムを適用することによって生成される。言語認識機械学習アルゴリズムの現在のパラメータのセットは、言語認識機械学習アルゴリズムの調整中に更新可能である。例えば、言語認識機械学習アルゴリズムの調整は、複数の言語認識ニューラルネットワークの重みの調整を含み、言語認識ニューラルネットワークの重みの最終的なセットが、１つまたは複数のストレージデバイス１２０によって格納されていてもよい。さらに、第２の高次元表現は、生物学関連の画像ベースの入力トレーニングデータに、現在のパラメータのセットを用いて視覚認識機械学習アルゴリズムを適用することによって生成可能である。視覚認識機械学習アルゴリズムの現在のパラメータのセットは、視覚認識機械学習アルゴリズムの調整中に更新可能である。例えば、視覚認識機械学習アルゴリズムの調整は、複数の視覚認識ニューラルネットワークの重みの調整を含み、視覚認識ニューラルネットワークの重みの最終的なセットが、１つまたは複数のストレージデバイス１２０によって格納されていてもよい。

第１の高次元表現の１つまたは複数のエントリの値および／または第２の高次元表現の１つまたは複数のエントリの値は、特定の生物学的機能または特定の生物学的活動が存在する尤度に比例することができる。入力データセットの意味論的な類似性を維持する高次元表現を生成するマッピングを使用することにより、意味論的に類似した高次元表現同士は、意味論的に類似性の低い高次元表現同士よりも互いにより近い距離を有することができる。さらに、２つの高次元表現が、同じまたは類似した特定の生物学的機能または特定の生物学的活動を有する入力データセットを表現している場合には、これらの２つの高次元表現の１つまたは複数のエントリは、同じまたは類似した値を有することができる。意味論の維持により、高次元表現の１つまたは複数のエントリは、特定の生物学的機能または特定の生物学的活動の発生または存在を示すことができる。例えば、高次元表現の１つまたは複数のエントリの値が高くなればなるほど、これらの１つまたは複数のエントリと相関する生物学的機能または生物学的活動が存在する尤度がより高くなり得る。

システム１００は、トレーニンググループのうちの複数の生物学関連の言語ベースの入力トレーニングデータセットの各々のために、第１の高次元表現を生成することを繰り返すことができる。さらに、システム１００は、それぞれの生成された第１の高次元表現ごとに、生物学関連の言語ベースの出力トレーニングデータを生成することができる。システム１００は、トレーニンググループのうちの複数の生物学関連の言語ベースの入力トレーニングデータセットの、生物学関連の言語ベースの入力トレーニングデータと、対応する生物学関連の言語ベースの出力トレーニングデータとのそれぞれの比較に基づいて、言語認識機械学習アルゴリズムを調整することができる。換言すれば、システム１００は、生物学関連の言語ベースの入力トレーニングデータセットのトレーニンググループのうちのそれぞれの生物学関連の言語ベースの入力トレーニングデータごとに、第１の高次元表現を生成することと、生物学関連の言語ベースの出力トレーニングデータを生成することと、言語認識機械学習アルゴリズムを調整することとを繰り返すように構成可能である。トレーニンググループは、トレーニング目標（例えば、しきい値を下回るように損失関数の出力を変化させること）を満たすことができるように十分な生物学関連の言語ベースの入力トレーニングデータセットを含むことができる。

言語認識機械学習アルゴリズムのトレーニング中に生成された複数の全ての第１の高次元表現は、潜在空間または意味論的空間と称され得る。

システム１００は、トレーニンググループのうちの複数の生物学関連の画像ベースの入力トレーニングデータセットの各々のために、第２の高次元表現を生成することを繰り返すことができる。さらに、システム１００は、第１の高次元表現と、対応する第２の高次元表現とのそれぞれの比較に基づいて、視覚認識機械学習アルゴリズムを調整することができる。換言すれば、システム１００は、生物学関連の画像ベースの入力トレーニングデータセットのトレーニンググループのうちのそれぞれの生物学関連の画像ベースの入力トレーニングデータごとに、第２の高次元表現を生成することと、視覚認識機械学習アルゴリズムを調整することとを繰り返すことができる。トレーニンググループは、トレーニング目標（例えば、しきい値を下回るように損失関数の出力を変化させること）を満たすことができるように十分な生物学関連の画像ベースの入力トレーニングデータセットを含むことができる。

生物学関連の言語ベースの入力トレーニングデータセットのトレーニンググループは、生物学関連の画像ベースの入力トレーニングデータセットのトレーニンググループよりも多くのエントリを含むことができる。例えば、生物学関連の言語ベースの入力トレーニングデータセットが、複数の異なるヌクレオチド配列またはタンパク質配列である場合には、対応するヌクレオチドまたは対応するタンパク質を含んでいる生物学的構造の画像よりも、より多数の異なるヌクレオチド配列またはタンパク質配列を有するデータベースを、トレーニングのために利用することが可能であり得る。さらに、トレーニングされた第１の高次元表現の数が、トレーニングされた第２の高次元表現の数よりも多い場合には、トレーニングされていない生物学関連の画像ベースの入力データのゼロショット学習が可能となり得る。トレーニングされた視覚認識機械学習アルゴリズムは、見たことのない生物学関連の画像ベースの入力データを、意味論的に類似した生物学関連の言語ベースの入力データの１つまたは複数の第１の高次元表現までの距離が短い第２の高次元表現にマッピングすることができる。択一的に、例えば、生物学関連の言語ベースの入力トレーニングデータセットが、生物学的分子または生物学的構造の種々の挙動の記述であるか、または生物学的機能または生物学的活動の記述である場合には、生物学関連の言語ベースの入力トレーニングデータセットのトレーニンググループは、生物学関連の画像ベースの入力トレーニングデータセットのトレーニンググループよりも少ないエントリを含むことができる。なぜなら、この種の入力データについてのそれぞれ異なる入力データセットの数は、制限され得るからである（例えば、５００未満、１００未満、または５０未満のそれぞれ異なる生物学関連の言語ベースの入力トレーニングデータセット）。

例えば、システム１００は、言語認識機械学習アルゴリズムと、視覚認識機械学習アルゴリズム（例えば、視覚意味論的モデルとも称される）との組み合わせを使用する。言語認識機械学習アルゴリズムおよび／または視覚認識機械学習アルゴリズムは、深層学習アルゴリズムおよび／または人工知能アルゴリズムであってもよい。

言語認識機械学習アルゴリズムは、テキストモデル、言語モデル、または言語学モデルとも称され得る。言語認識機械学習アルゴリズムは、言語認識ニューラルネットワークであってもよいし、または言語認識ニューラルネットワークを含んでいてもよい。言語認識ニューラルネットワークは、３０を超える層（または５０もしくは８０を超える層）および／または５００未満の層（または３００もしくは２００未満の層）を含むことができる。言語認識ニューラルネットワークは、リカレントニューラルネットワーク、例えば長短期記憶ネットワークであってもよい。リカレントニューラルネットワーク、例えば長短期記憶ネットワークを使用することにより、生物学関連の言語ベースの入力データのための高精度の言語認識機械学習アルゴリズムを提供することができる。しかしながら、他の言語認識アルゴリズムを適用することも可能であり得る。例えば、言語認識機械学習アルゴリズムは、可変長の入力データを取り扱うことができるアルゴリズム（例えば、Ｔｒａｎｓｆｏｒｍｅｒ－ＸＬアルゴリズム）であってもよい。例えば、生物学関連の言語ベースの入力トレーニングデータセットのトレーニンググループのうちの第１の生物学関連の言語ベースの入力トレーニングデータの長さは、生物学関連の言語ベースの入力トレーニングデータセットのトレーニンググループのうちの第２の生物学関連の言語ベースの入力トレーニングデータの長さとは異なる。Ｔｒａｎｓｆｏｒｍｅｒ－ＸＬアルゴリズムとしてアルゴリズムを使用することにより、モデルは、比較的長い配列および可変長の配列の両方にわたって構造を検知することが可能となり得る。ニューラルネットワークを使用する他の言語モデルアーキテクチャとは一線を画すことができるＴｒａｎｓｆｏｒｍｅｒ－ＸＬに固有の性質は、分析されている最中のそれぞれのセグメントの隠れ状態が次のセグメントの隠れ状態を取得するために再利用されるという事実に基づいて、意味論的な依存関係を可変長にわたって学習することができるという能力に因るものであり得る。この種の状態の蓄積により、連続するセグメント同士の間に回帰的かつ意味論的な結びつきを構築することが可能となり得る。このようにして、生物学的機能をエンコーディングする長期的な依存関係を捉えることが可能となる。例えば、ヌクレオチド配列では、以前は遠く離れていたヌクレオチド配列を効果的に連結する遺伝子の転写中に、長いＤＮＡのストレッチが切り取られる（例えば、スプライシングされる）。Ｔｒａｎｓｆｏｒｍｅｒ－ＸＬアーキテクチャを使用することにより、このような長期的な依存関係を捉えることが可能となり得る。さらに、タンパク質配列では、（アルファヘリックスまたはベータシートのような）連続するポリペプチド二次構造が、しばしば、いわゆる「折り畳み」（例えば、空間内での二次構造の三次元配置）を形成する。これらの折り畳みは、それぞれ一意の生物学的機能を有するタンパク質サブドメインの一部であってもよい。したがって、意味論的埋め込みにエンコーディングされるべき生物学的機能を正確に捉えるためには、長期的な意味論的な依存関係が重要であり得る。他のアプローチは、固定長の依存関係しか学習することができない可能性があり、これにより、正確な意味論を学習するためのモデルの能力が制限される可能性がある。例えば、タンパク質配列は、典型的に、数十から数百のアミノ酸の長さである（１つのアミノ酸は、タンパク質配列における１文字として表現される）。「意味論」、例えば（生物学ではポリペプチド、モチーフ、またはドメインと称される）配列からの部分文字列の生物学的機能は、長さに関して種々異なり得る。したがって、可変長の依存関係に適合することができるＴｒａｎｓｆｏｒｍｅｒ－ＸＬのようなアーキテクチャを使用することができる。

言語認識機械学習アルゴリズムは、生物学関連の言語ベースの入力トレーニングデータ１０２と、生物学関連の言語ベースの出力トレーニングデータと、の比較に基づいて、言語認識機械学習アルゴリズムのパラメータを調整することによってトレーニング可能である。例えば、この比較に基づいて、言語認識ニューラルネットワークのネットワーク重みを調整することができる。言語認識機械学習アルゴリズムのパラメータ（例えば、ネットワーク重み）の調整は、損失関数（例えば、交差エントロピー損失関数）を考慮して実施可能である。損失関数は、予測と既存の注釈との間の等価性の程度である実際値をもたらすことができる。トレーニングは、損失関数が最小になるまで、内部自由度（例えば、ニューラルネットワークの重み）を変化させることができる。例えば、言語認識機械学習アルゴリズムの調整のための、生物学関連の言語ベースの入力トレーニングデータ１０２と、生物学関連の言語ベースの出力トレーニングデータと、の比較は、交差エントロピー損失関数に基づくことができる。例えば、Ｍ＞２（例えば、マルチクラス分類）の場合には、観測ごとにそれぞれのクラスラベルについての別個の損失を計算することができ、その結果を、

のように合計することができ、ここで、Ｍは、クラスの数（例えば、細胞小器官の場合には、核、細胞質、原形質膜、ミトコンドリア）であり、ｌｏｇは、自然対数であり、ｙは、クラスラベルｃが観測ｏのための正確な分類である場合、バイナリインジケータ（０または１）であり、ｐは、観測ｏがクラスｃのものである予測確率である。

言語認識機械学習アルゴリズムをトレーニングするために交差エントロピー損失関数を使用することにより、トレーニングを高速に収束させることができ、かつ／または生物学関連のデータのために十分にトレーニングされたアルゴリズムを提供することができるが、他の損失関数を使用することも可能である。

視覚認識機械学習アルゴリズムは、画像認識モデル、視覚モデル、または画像分類器とも称され得る。視覚認識機械学習アルゴリズムは、視覚認識ニューラルネットワークであってもよいか、視覚認識ニューラルネットワークを含んでいてもよい。視覚認識ニューラルネットワークは、２０を超える層（または４０もしくは８０を超える層）および／または４００未満の層（または２００もしくは１５０未満の層）を含むことができる。視覚認識ニューラルネットワークは、畳み込みニューラルネットワークまたはカプセルネットワークであってもよい。畳み込みニューラルネットワークまたはカプセルネットワークを使用することにより、生物学関連の画像ベースの入力データのための高精度の視覚認識機械学習アルゴリズムを提供することができる。しかしながら、他の視覚認識アルゴリズムを適用することも可能であり得る。例えば、視覚認識ニューラルネットワークは、複数の畳み込み層および複数のプーリング層を含むことができる。しかしながら、例えば畳み込みのために、カプセルネットワークが使用される場合および／またはストライド＝１の代わりにストライド＝２が使用される場合には、プーリング層を回避することができる。視覚認識ニューラルネットワークは、正規化線形ユニット活性化関数を使用することができる。正規化線形ユニット活性化関数を使用することにより、生物学関連の画像ベースの入力データのための高精度の視覚認識機械学習アルゴリズムを提供することができるが、他の活性化関数（例えば、ハードタン活性化関数、シグモイド活性化関数、またはタン活性化関数）を適用することも可能であり得る。

例えば、視覚認識ニューラルネットワークは、畳み込みニューラルネットワークアーキテクチャを含んでいてもよく、かつ／または入力画像のサイズに応じた深さのＲｅｓＮｅｔまたはＤｅｎｓｅＮｅｔであってもよい。例えば、３８４×３８４ピクセルの画像ピクセルサイズまでは、５０層の深さまでのＲｅｓＮｅｔアーキテクチャが、良好な結果を提供することができる。約５１２×５１２～８００×８００ピクセルまでは、１０１層の深さを有するＲｅｓＮｅｔを使用することができる。これらの画像サイズよりも大きい場合には、ＲｅｓＮｅｔ１５１、ＤｅｎｓｅＮｅｔ１２１、またはＤｅｎｓｅＮｅｔ１６９のような、より深いアーキテクチャを使用することができる。

視覚認識機械学習アルゴリズムは、対応する入力トレーニングデータの、言語認識機械学習アルゴリズムによって生成された高次元表現と、視覚認識機械学習アルゴリズムによって生成された高次元表現と、の比較に基づいて、視覚認識機械学習アルゴリズムのパラメータを調整することによってトレーニング可能である。例えば、この比較に基づいて、視覚認識ニューラルネットワークのネットワーク重みを調整することができる。視覚認識機械学習アルゴリズムのパラメータ（例えば、ネットワーク重み）の調整は、損失関数を考慮して実施可能である。例えば、視覚認識機械学習アルゴリズムの調整のための、第１の高次元表現と第２の高次元表現との比較は、コサイン類似性損失関数に基づくことができる。視覚認識機械学習アルゴリズムをトレーニングするためにコサイン類似性損失関数を使用することにより、トレーニングを高速に収束させることができ、かつ／または生物学関連のデータのために十分にトレーニングされたアルゴリズムを提供することができるが、他の損失関数を使用することも可能である。

例えば、視覚モデルは、意味論的埋め込み空間において（例えば、ベクトルとして）どのようにして画像を表現すべきかを学習することができる。したがって、予測Ａ（第２の高次元表現）と、グラウンドトゥルースＢ（第１の高次元表現）とを表現することができる、２つのベクトルの距離に対する尺度を使用することができる。例えば、１つの尺度は、

の形態で定義されるようなコサイン類似性であり、予測ＡとグラウンドトゥルースＢとのドット積を、（例えば、Ｌ２－ノルムまたはユークリッドノルムのように）各自のそれぞれの絶対値のドット積で除算したものである。

図２は、（例えば、トークン埋め込みの検出を示す）言語認識機械学習アルゴリズム２２０のトレーニングの一例を示す。データベース２００から、または実行中の実験における撮像装置（例えば、顕微鏡）から到来する生物学的配列または自然言語２１０（例えば、ヌクレオチド配列、例えば、ＧＡＴＴＡＣＡ）に対して、テキストモデル２２０をトレーニングすることができる。自然言語処理（ＮＬＰ）タスクは、例えば、文（独立変数）における次の単語（従属変数）を予測することであるか、または短いストレッチのテキスト２５０が与えられた場合に、次の文字（例えば、ヌクレオチド配列における次のヌクレオチド、例えば、ＧＡＴＴＡＣＡに続くＣ）を予測することである。他のＮＬＰタスクは、テキストまたは翻訳から感情を予測することを含むことができる。生物学的配列の文脈では、独立変数は、タンパク質配列もしくはヌクレオチド配列、またはそれらの短いストレッチであってもよい。従属変数は、配列における次の要素、または前述の粗視化された検索用語のいずれか、またはそれらの組み合わせであってもよい。トレーニング中、データは、隠れ表現２６０（第１の高次元表現）を学習するためにエンコーダ経路２３０を通過し、この隠れ表現２６０から有用な予測２５０（例えば、生物学関連の言語ベースの出力トレーニングデータ）を行うためにデコーダ経路２４０を通過することができる。定量的メトリック（例えば、損失関数）は、グラウンドトゥルースデータに対する予測の精度を測定することができる。モデルのトレーニング可能なパラメータに関するこの損失関数の勾配を使用して、これらのトレーニング可能なパラメータを調整することができる。損失関数のための事前に設定されたしきい値に到達するまで、このトレーニングを繰り返すことができる。トレーニング中におけるトークン埋め込みの検出の結果は、それぞれのトークンから各自のそれぞれの埋め込み、例えば、潜在ベクトル２６０（第１の高次元表現）へのマッピングであってもよい。潜在空間は、意味論的空間を表現することができる。例えば、この埋め込みによって、それぞれのトークン（例えば、単語、ペプチド、またはポリヌクレオチド）に意味を割り当てることができる。

予測２５０は、生物学関連の言語ベースの出力トレーニングデータｙによって表現可能である。例えば、ｙ＝Ｗ＊Ｘであり、ここで、Ｘは、生物学関連の言語ベースの入力トレーニングデータ（例えば、生物学的配列）であり、Ｗは、モデルのトレーニングされたパラメータである。さらに、バイアス項が含まれていてもよい。

オプションとして、言語認識機械学習アルゴリズムをトレーニングした後、トークン埋め込みに画像をマッピングすることができる。換言すれば、生物学関連の言語ベースの入力トレーニングデータに対応する生物学的構造を表示している画像を選択することができる。例えば、生物学関連の言語ベースの入力トレーニングデータは、ヌクレオチド配列（例えば、図２のＧＡＴＴＡＣＡ）であってもよく、このヌクレオチド配列を含んでいる生物学的構造の画像を選択することができる。複数の生物学関連の言語ベースの入力トレーニングデータセットに対応する複数の画像を、視覚認識機械学習アルゴリズムをトレーニングするためのトレーニングセットとして選択することができる。このようなトレーニング画像のデータベースが既に利用可能である場合には、トレーニング画像の選択を省略してもよい。

視覚モデルは、例えば、画像内にどの細胞内コンパートメントが表示されているかの画像のクラスを予測することのような、コンピュータ視覚タスクを担うことができる。他の用途では、視覚モデルは、ワンホットエンコーディングされたラベルを従属変数として取得する。例えば、システム１００は、上述したように、テキストモデルによって学習されたそれぞれのトークン埋め込みに画像クラスをマッピングする。例えば、クラス“ｐ５３”、“ヒストンＨ１”および“ＧＡＰＤＨ”を予測することを学習する画像分類器であれば、３つのタンパク質のためのそれぞれのタンパク質配列のトークン埋め込みを予測することを学習するであろう（例えば、ヌクレオチド配列または科学刊行物中のテキスト記述から学習されたトークン埋め込みにも同じことが当てはまり得る）。グラウンドトゥルースデータにおけるマッピング自体は、関心対象である分子を表示しているピクチャーと、トレーニングのために使用された生物学的配列または自然言語の各自のそれぞれの意味論的埋め込みとのルックアップテーブルであってもよい。

言語認識機械学習アルゴリズムを介した入力テキストの順方向経路によって取得することができる高次元表現２６０のみを、関心対象にすることができる。トレーニングのために、言語分類問題を定義することができる。例えば、ソフトマックス層は、高次元表現２６０の決定に従うことができ、トレーニングのために、交差エントロピー損失関数を使用することができる。図２には、テキストを再び生成する追加的なデコーダ経路２４０が示されており、これは、モデルがテキストを出力する場合を表現している。例えば、最初の単語が入力されると、文の後半の予測を行うことができる。生物学関連の用途の場合には、例えば、配列の最初の部分を入力することができ、配列の後半または次の文字のみを特定の確率で予測することができる。高次元表現２６０のみが関心対象であるので、この予測２５０は、関心対象ではないかもしれないが、この予測によってトレーニングを改善することができる。その場合、図３の視覚モデルは、高次元表現２６０をグラウンドトゥルース３３０として予測することができる。この用途では、損失関数として、交差エントロピー損失関数の代わりにコサイン距離関数を使用することができる。両方のベクトル２６０，３３０を０または１に正規化することはできない可能性がある。ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎを使用して数を制御可能に維持することができるので、ベクトルの値が１よりはるかに大きくなることはないだろう。

図３は、視覚認識機械学習アルゴリズム３２０のトレーニングの一例を示す。トークン埋め込みを予測するために、視覚モデル３２０のトレーニングを実施することができる。図３に示されているように、公開または私的な画像データベースのようなデータリポジトリ３００からの、または実行中の実験における顕微鏡からの画像３１０に対して、視覚モデル３２０をトレーニングすることができる。従属変数は、テキストモデルによって学習されて、オプションとして上述したような画像クラスにマッピングされる、対応するトークン埋め込み３３０（第２の高次元表現）であってもよい。視覚モデルは、先行するトレーニング段階においてテキストモデルによって学習された生物学的機能の意味論を含んでいる画像クラスの表現を予測することを学習することができる。

図４は、視覚認識ニューラルネットワークのうちの、ＲｅｓＮｅｔアーキテクチャに基づいた部分４００（例えばＲｅｓＮｅｔブロック）の一例を示す。例えば、視覚認識ニューラルネットワークは、（例えば、ＲｅｓＮｅｔに類似する）以下のパラメータを用いて記述可能である。テンソルの次元（例えば、深層ニューラルネットワークを通過したデータ）は、
形状＝ｂｓ×ｃｈ×高さ×幅
であってもよく、ここで、ｂｓは、バッチサイズ（例えば、確率的勾配降下最適化の１つのミニバッチにロードされる画像の数）であり、ｃｈは、フィルタの数（例えば、入力画像のための「チャネル」の数に等しく、例えば、ＲＧＢ画像の場合にはｃｈ＝３である）であり、高さは、画像内の行の数であり、幅は、画像内の列の数である。例えば、顕微鏡は、より多くの次元（例えば、軸方向の次元（ｚ）、スペクトル放射の次元、寿命の次元、スペクトル励起の次元および／またはステージの次元）を生成可能であってもよく、これらの次元を、視覚認識ニューラルネットワークによって追加的に処理することができる。しかしながら、以下の例は、単にチャネル、高さおよび幅を有するケースに関連しているに過ぎない場合がある（例えば、ｃｈ＞３である例も実施可能である）。

視覚認識ニューラルネットワークは、計算グラフとして表現可能であり、演算は、入力データ（例えば、テンソル）に対する特定の演算を表現する「層」として要約可能である。以下の表記を使用することができる：
ｃｈ＿０演算前の入力テンソルのチャネルの数。
ＸＸは、上述したような形状のｎ次元のテンソルであってもよい。
ｃｏｎｖ（ｎ_ｉｎ，ｎ_ｏｕｔ，ｋ，ｓ）（ｘ）ｎ次元の畳み込み演算４３０（例えば、図示の例では２Ｄの畳み込み）であり、ｎ_ｉｎの入力チャネル（例えば、空間フィルタ）と、ｎ_ｏｕｔの出力チャネルと、ｋ×ｋ（例えば、３×３）のカーネルサイズと、テンソルＸに適用されるｓ×ｓ（例えば、１×１）のストライドとを有する。
ｒｅｌｕ（ｘ）＝｛ｘ＜０の場合には０、そうでない場合にはｘ｝正規化線形ユニットは、図示のように畳み込み後に実行される非線形性である。グラフにおいて、この演算は、“Ｒｅｌｕ”４２０として描写されている。
ｂｎ（ｘ）＝（ｘ－μ）／σ バッチ正規化は、各自のそれぞれのバッチの平均μおよび標準偏差σに正規化されたテンソルＸを取得する。グラフにおいて、この演算は、“ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ”４１０として描写されている。
ｆｃ（ｘ）＝Ｗｘ＋ｂ全結合層は、線形演算子であり、ここで、Ｗは、重みであり、ｂは、バイアス項である（例えば、ｂは、グラフには図示されていない）。

ここで、ｎ_ｉｎおよびｎ_ｏｕｔは、現在の活性化の入力チャネルおよび出力チャネルの次元である。
ｍ（ｘ）前の層からの活性化によって開始する、形状（１，６４，２５６，２５６）のテンソルＸに適用されるボトルネック構成を有するＲｅｓＮｅｔブロック４００が、図４に示されている。

いくつかのボトルネックブロックは、空間的な次元を２分の１にダウンサンプリングすることができ、その一方で、チャネル（例えば、空間フィルタ）の数を４倍にアップサンプリングすることができる。ＲｅｓＮｅｔブロックをグループで組み合わせて、１８～１５２層の全体的なアーキテクチャをもたらすことができる。例えば、５０、１０１、または１５２の層およびボトルネックを使用して、ＲｅｓＮｅｔブロックおよび／または事前活性化を用いるＲｅｓＮｅｔブロックを、提案されているコンセプトの視覚認識ニューラルネットワークのために使用することができる。

例えば、視覚認識ニューラルネットワークは、少なくとも、第１のバッチ正規化演算４１０と、これに後続する第１のＲｅＬｕ演算４２０と、これに後続する第１の畳み込み演算４３０（例えば、１×１）と、これに後続する第２のバッチ正規化演算４１０と、これに後続する第２のＲｅＬｕ演算４２０と、これに後続する第２の畳み込み演算４３０（例えば、３×３）と、これに後続する（例えば、第２の畳み込み演算の出力と、第１のバッチ正規化演算の入力とを加算する）加算演算４４０と、を含むことができる。第１のバッチ正規化演算４１０の前に、加算演算４４０の後に、かつ／または第１のバッチ正規化演算４１０と加算演算４４０との間に、１つまたは複数の追加的な演算を実施してもよい。

図５は、視覚認識ニューラルネットワーク４００のうちの、ＲｅｓＮｅｔアーキテクチャに基づいた部分５００（例えば、修正されたＲｅｓＮｅｔ－ＣＢＡＭ（畳み込みブロック注意モジュール）ブロック）の一例を示す。例えば、ＲｅｓＮｅｔ－ＣＢＡＭブロック５００は、空間注意と組み合わされたＲｅｓＮｅｔブロックにおいて、いわゆるチャネル注意ブロックを使用することができる。

図４に関連して使用した表記に加えて、以下の表記を使用することができる：

大域平均プーリングは、高さおよび幅の次元にわたって平均化することによって、次元（ｂｓ×ｃｈ×ｈ×ｗ）を有するテンソルＸを、次元（ｂｓ×ｃｈ×１×１）に崩壊させる。グラフにおいて、この演算は、“ＧｌｏｂａｌＡｖｅｒａｇｅＰｏｏｌ”５１０として描写されている。

大域最大プーリングは、高さおよび幅の次元にわたって最大値を選択することによって、次元（ｂｓ×ｃｈ×ｈ×ｗ）を有するテンソルＸを、次元（ｂｓ×ｃｈ×１×１）に崩壊させる。グラフにおいて、この演算は、“ＧｌｏｂａｌＭａｘＰｏｏｌ”５２０として描写されている。

チャネル注意のためには、大域平均プーリング５１０単体の代わりに、大域平均プーリング５１０と大域最大プーリング５２０との連結５３０を使用することができる。このようにして、モデルは、モデルを外れ値に対してもより弾性にする「ソフトな」大域平均プーリングと、その一方で最大限の活性化の維持とを、両方とも学習することができる。したがって、モデルは、どちらを強調すべきかを決定することが可能であり得る。例えば、前の演算の出力を、大域平均プーリング演算５１０および大域最大プーリング演算５２０のための入力として提供することができ、大域平均プーリング演算５１０の出力と、大域最大プーリング演算５２０の出力とを、同じ後続の演算（例えば、連結）への入力として提供することができる。

さらに、小型のＭＬＰ（多層パーセプトロン）の代わりに１×１カーネルサイズを使用することができ、これにより、チャネル注意モジュールにおけるいくらかの冗長的な平坦化演算および非絞り込み演算を省略することができる。

チャネル注意モジュールおよび空間注意モジュールの両方は、最後の活性化関数としてシグモイド非線形性５４０を使用することができる。このようにして、ＲｅＬＵ活性化を使用した場合よりも有利な特徴スケーリングを得ることができる。

オプションとして、勾配が過度に大きくなることを回避するために、チャネル注意と空間注意との間で、チャネル注意を用いたスケーリングが行われた直後にバッチ正規化４１０を実行してもよい。

先行するＲｅｓＮｅｔボトルネックブロックの出力と、ＣＢＡＭブロックの出力とは、図５に示されているように加算される。ＣＢＡＭブロックは、“大域平均プーリング”５１０および“大域最大プーリング”５２０によって開始し、最後の“Ｍｕｌ”（乗算）５５０によって終了する。

のボトルネックブロックを、図５に示されているＲｎ＿ＣＢＡＭ（ｘ）によって置換することにより、これらのＲｎ＿ＣＢＡＭ（ｘ）構築ブロックからＲｅｓＮｅｔアーキテクチャを組み立てることができる。例えば、提案されているコンセプトのために５０、１０１および１５２の層を有する比較的深いアーキテクチャを使用することができるが、他の深さも可能であり得る。

平均値演算５６０および最大値演算５７０は、平均値演算５６０を介して次元ｃｈにわたる算術的な平均値を生成し（例えば、１×６４×２５６×２５６は、１×１×２５６×２５６を取得する）、最大値演算５７０を介して次元ｃｈに沿った最大値投影を生成することによって、一緒に動作することができる。後続の連結演算５３０は、２つの投影の結果を連結する。

例えば、視覚認識ニューラルネットワークは、少なくとも、第１のバッチ正規化演算４１０と、これに後続する第１のＲｅＬｕ演算４２０と、これに後続する第１の畳み込み演算４３０（例えば、カーネルサイズ１×１）と、これに後続する第２のバッチ正規化演算４１０と、これに後続する第２のＲｅＬｕ演算４２０と、これに後続する第２の畳み込み演算４３０（例えば、カーネルサイズ３×３）と、これに後続する大域平均プーリング演算５１０と、これに並列な大域最大プーリング演算５２０と、これらに後続する第１の連結演算５３０と、これに後続する第３の畳み込み演算４３０（例えば、１×１）と、これに後続する第３のＲｅＬｕ演算４２０と、これに後続する第４の畳み込み演算４３０（例えば、カーネルサイズ１×１）と、これに後続する第１のシグモイド演算５４０と、これに後続する（例えば、第１のシグモイド演算の出力と、第２の畳み込み演算の出力とを乗算する）第１の乗算（Ｍｕｌ）演算５５０と、これに後続する第３のバッチ正規化演算４１０と、これに後続する平均値演算５６０と、これに並列な最大値演算５７０と、これらに後続する第２の連結演算５３０と、これに後続する第５の畳み込み演算４３０（例えば、カーネルサイズ７×７）と、これに後続する第２のシグモイド演算５４０と、これに後続する（例えば、第２のシグモイド演算の出力と、第３のバッチ正規化演算の出力とを乗算する）第２の乗算（Ｍｕｌ）演算５５０と、これに後続する（例えば、第２の乗算演算の出力と、前のブロックからの入力とを加算する）加算演算４４０と、を含むことができる。第２の畳み込み演算と第３のバッチ正規化演算との間の演算を、チャネル注意モジュールと称することができ、第１の乗算演算と第２の乗算演算との間の演算を、空間注意モジュールと称することができる。第１のバッチ正規化演算から第２の畳み込み演算までの演算を、ＲｅｓＮｅｔボトルネックブロックと称することができ、第２の畳み込み演算と第２の乗算演算との間の演算を、ＣＢＡＭブロックと称することができる。ＣＢＡＭブロックを使用して、モデルが正確な特徴に焦点を合わせるように第２の畳み込みをスケーリングすることができる。第１のバッチ正規化演算４１０の前に、加算演算４４０の後に、かつ／または第１のバッチ正規化演算４１０と加算演算４４０との間に、１つまたは複数の追加的な演算を実施してもよい。

図６は、視覚認識ニューラルネットワークのうちの、ＤｅｎｓｅＮｅｔアーキテクチャに基づいた部分６００（例えば、ボトルネック構成を有する緻密層）の一例を示す。ＲｅｓＮｅｔに代わるアーキテクチャは、ＤｅｎｓｅＮｅｔと称され、このＤｅｎｓｅＮｅｔは、上流の層の活性化を下流の層へ直接的に提供可能にするために、（例えば、ＲｅｓＮｅｔの場合のような加算の代わりに）連続的な活性化マップを連結することに基づいている。提案されているコンセプトの場合には、個々の緻密層Ｈｌ＿Ｂ（ｘ）のレベルに対して注意機構が追加されたＤｅｎｓｅＮｅｔアーキテクチャを使用することができる。チャネル注意機構を、疎化されたＤｅｎｓｅＮｅｔと組み合わせることができる。

提案されているコンセプトの場合には、空間注意およびチャネル注意の両方を緻密層と組み合わせることができる。（例えば、図４および図５に関連して）ＲｅｓＮｅｔアーキテクチャに関して説明したように、オプションとして、チャネルと空間注意モジュールとの間でバッチ正規化を使用することも可能である。注意経路の出力を緻密層の出力に加算する代わりに、緻密層によって新たに生成されたｋ個の活性化に注意機構のみを適用してもよく、注意経路の再スケーリングされた出力を緻密層の入力と最後に連結させてもよい。例えば、全く最初の緻密層を除いた全ての層に関して、活性化は、注意機構が取り付けられた前の緻密層を既に通過している。連続的に再スケーリングしても、結果はこれ以上改善されない可能性がある。逆に、そのような再スケーリングは、必要に応じてネットワークがより下流の層で注意に関する新たな再スケーリングを学習することを、妨げることさえあり得る。さらに、ｋ個の新たに作成された層だけに注意を向けることにより、計算複雑性を低減することができ、計算複雑性を制限するためのパッチとしての縮小比率ｒの必要性を省略することができる。緻密層およびＤｅｎｓｅＮｅｔブロックのために、疎構成ではなく完全構成を使用することができる。

図４および図５に関連して使用した表記に加えて、以下の表記を使用することができる：
Ｈｌ＿Ｂ（ｘ）ボトルネック構成を有する緻密層６００が、図６に示されている。

次元（ｂｓ，ｃｈ，ｈ，ｗ）を有する入力テンソルＸは、それぞれ事前活性化（ｂｎ＋ｒｅｌｕ）を有する２つの連続する畳み込みを通過する。第１の畳み込みは、１×１カーネルを有し、ｃｈ個の活性化を出力する。第２の畳み込みは、３×３カーネルを有し、ｋ個の活性化のみを出力する。この例では、ｋ＝１６である。最後に、１６個の新たな活性化が緻密層の入力と連結される。この例では、ｃｈ＝６４であり、したがって、出力は、ｃｈ＋ｋ＝８０個の活性化を有する。

視覚認識ニューラルネットワークのうちの、図４に示されている部分と比較すると、加算演算４４０が（例えば、第２の畳み込み演算の出力と、第１のバッチ正規化演算の入力との）連結演算５３０によって置換されている。さらなる詳細は、図４に関連して説明されている。

図７は、視覚認識ニューラルネットワークのうちの、ＤｅｎｓｅＮｅｔアーキテクチャに基づいた部分７００（例えば、注意機構を有する緻密層）の一例を示す。

図４、図５および図６に関連して使用した表記に加えて、以下の表記を使用することができる：
Ｈｌ＿Ａ注意機構を有する緻密層７００。

ＤｅｎｓｅＮｅｔのこの構築ブロックを、提案されているコンセプトのために使用することができる。上述したＲｅｓＮｅｔに関して説明した注意機構と同様に、連続する２つの注意モジュールにそれぞれチャネル注意および空間注意が導入される。注意経路の出力は、緻密層の出力と連結される。

の要素を、各自のそれぞれのＨｌ＿Ａ（ｘ）相手側要素によって置換することにより、これらのＨｌ＿Ａ（ｘ）構築ブロックからＤｅｎｓｅＮｅｔを取得することができる。

視覚認識ニューラルネットワークのうちの、図５に示されている部分と比較すると、加算演算４４０が（例えば、第２の乗算演算の出力と、第１のバッチ正規化演算の入力との）連結演算５３０によって置換されている。さらなる詳細は、図５に関連して説明されている。

システム１００は、図４～図７のうちの１つに示されているような部分を含む視覚認識ニューラルネットワークを使用するように構成可能である。

システム１００は、コンピュータデバイス内に配置されている１つまたは複数のプロセッサ１１０および１つまたは複数のストレージデバイス１２０を備えるコンピュータデバイス（例えば、パーソナルコンピュータ、ラップトップ、タブレットコンピュータ、または携帯電話）であってもよいし、またはこれを含んでいてもよい。あるいは、システム１００は、分散コンピュータシステム（例えば、ローカルクライアントおよび１つまたは複数のリモートサーバファームおよび／またはデータセンター等の様々な場所に分散されている１つまたは複数のプロセッサ１１０および１つまたは複数のストレージデバイス１２０を備えるクラウドコンピューティングシステム）であってもよい。システム１００は、システム１００の種々の構成要素を結合するためのシステムバスを含むデータ処理システムを含むことができる。システムバスは、システム１００の種々の構成要素間の通信リンクを提供することができ、シングルバスとして、複数のバスの組み合わせとして、または任意の他の適切な手法で実装可能である。システムバスには、電子アセンブリを結合することができる。電子アセンブリは、任意の回路または回路の組み合わせを含んでいてもよい。１つの実施形態では、電子アセンブリは、任意の種類のものとすることができる、プロセッサを含んでいる。本明細書で使用されるように、プロセッサは、例えば、顕微鏡または顕微鏡部品（例えば、カメラ）のマイクロプロセッサ、マイクロコントローラ、複合命令セットコンピューティング（ＣＩＳＣ）マイクロプロセッサ、縮小命令セットコンピューティング（ＲＩＳＣ）マイクロプロセッサ、超長命令語（ＶＬＩＷ）マイクロプロセッサ、グラフィックプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、マルチコアプロセッサ、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、または任意の他の種類のプロセッサまたは処理回路等のあらゆる種類の計算回路を意図していてもよいが、これらに限定されない。電子アセンブリに含まれ得る他の種類の回路は、カスタム回路、特定用途向け集積回路（ＡＳｌＣ）等であってもよく、例えばこれは、携帯電話、タブレットコンピュータ、ラップトップコンピュータ、双方向無線機および類似の電子システム等の無線装置において使用される１つまたは複数の回路（通信回路等）である。システム１００は、ランダムアクセスメモリ（ＲＡＭ）の形態のメインメモリ等の特定の用途に適した１つまたは複数の記憶素子を含み得る１つまたは複数のストレージデバイス１２０、１つまたは複数のハードドライブおよび／またはコンパクトディスク（ＣＤ）、フラッシュメモリカード、デジタルビデオディスク（ＤＶＤ）等のリムーバブルメディアを扱う１つまたは複数のドライブ等を含んでいる。システム１００は、ディスプレイ装置、１つまたは複数のスピーカおよびキーボードおよび／またはマウス、トラックボール、タッチスクリーン、音声認識装置を含み得るコントローラ、またはシステムのユーザがシステム１００に情報を入力することおよびシステム１００から情報を受け取ることを可能にする任意の他の装置も含んでいてもよい。

さらに、システム１００は、コンピュータデバイスまたは分散コンピュータシステムに接続された顕微鏡を含むことができる。顕微鏡は、生物学的標本から画像を撮影することによって生物学関連の画像ベースの入力トレーニングデータ１０４を生成するように構成可能である。

顕微鏡は、光学顕微鏡（例えば、超解像顕微鏡またはナノ顕微鏡のような、回折限界顕微鏡またはサブ回折限界顕微鏡）であってもよい。顕微鏡は、スタンドアロン顕微鏡であってもよいし、または付属の構成要素（例えば、共焦点スキャナ、追加的なカメラ、レーザ、気候室、自動装填機構、液体搬送システム、付属の光学構成要素、例えば、追加的な多光子光路、ライトシート撮像、光ピンセットなど）を有する顕微鏡システムであってもよい。生物学的配列（例えば、タンパク質、核酸、脂質）に関連するオブジェクトの画像を撮影することができる限り、他の画像ソースを使用することも可能である。例えば、上記または下記の実施形態による顕微鏡により、深部を発見する顕微鏡法が可能となり得る。

システム１００のさらなる詳細および態様は、提案されているコンセプトおよび／または上記または下記（例えば、図８～図９）の１つまたは複数の例に関連して言及される。システム１００は、提案されているコンセプトおよび／または上記または下記の１つまたは複数の例の１つまたは複数の態様に対応する１つまたは複数の追加的なオプションの特徴を含むことができる。

いくつかの実施形態は、図１～図７のうちの１つまたは複数に関連して説明したようなシステムを含む顕微鏡に関する。択一的に、顕微鏡は、図１～図７のうちの１つまたは複数に関連して説明したようなシステムの一部であってもよい。図８は、機械学習アルゴリズムをトレーニングするためのシステム８００の概略図を示す。生物学的標本の画像を撮影するように構成された顕微鏡８１０は、機械学習アルゴリズムをトレーニングするように構成されたコンピュータデバイス８２０（例えば、パーソナルコンピュータ、ラップトップ、タブレットコンピュータ、または携帯電話）に接続されている。顕微鏡８１０およびコンピュータデバイス８２０は、図１～図７のうちの１つまたは複数に関連して説明したように実装可能である。

図９は、生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするための方法のフローチャートである。方法９００は、生物学関連の言語ベースの入力トレーニングデータを受信すること９１０と、言語認識機械学習アルゴリズムによって、生物学関連の言語ベースの入力トレーニングデータの第１の高次元表現を生成すること９２０と、を含む。第１の高次元表現は、それぞれ異なる値を有する少なくとも３つのエントリを含む。さらに、方法９００は、言語認識機械学習アルゴリズムによって、第１の高次元表現に基づいて、生物学関連の言語ベースの出力トレーニングデータを生成すること９３０と、生物学関連の言語ベースの入力トレーニングデータと、生物学関連の言語ベースの出力トレーニングデータと、の比較に基づいて、言語認識機械学習アルゴリズムを調整すること９４０と、を含む。さらに、方法９００は、生物学関連の言語ベースの入力トレーニングデータに関連付けられた生物学関連の画像ベースの入力トレーニングデータを受信すること９５０と、視覚認識機械学習アルゴリズムによって、生物学関連の画像ベースの入力トレーニングデータの第２の高次元表現を生成すること９６０と、を含む。第２の高次元表現は、それぞれ異なる値を有する少なくとも３つのエントリを含む。さらに、方法９００は、第１の高次元表現と第２の高次元表現との比較に基づいて、視覚認識機械学習アルゴリズムを調整すること９７０を含む。

言語認識機械学習アルゴリズムを使用することによって、生物学的テキスト入力を高次元表現にマッピングすることができる。高次元表現が（ワンホットエンコーディングされた表現とは対照的に）種々の異なる値を有するエントリを有することを可能にすることによって、意味論的に類似した生物学的入力を、類似した高次元表現にマッピングすることができる。画像を、言語認識機械学習アルゴリズムによってトレーニングされた高次元表現にマッピングするために、視覚認識機械学習アルゴリズムをトレーニングすることにより、類似した生物学的コンテンツを有する画像を、類似した高次元表現にマッピングすることもできる。その結果、相応にトレーニングされた視覚認識機械学習アルゴリズムによる画像の分類が、意味論的に正確である尤度または少なくとも意味論的に近似する尤度を、大幅に改善することができる。さらに、相応にトレーニングされた視覚認識機械学習アルゴリズムが、トレーニングされていない画像を、類似した意味の高次元表現に近い高次元表現に、または意味論的に一致する高次元表現に、より正確にマッピングすることが可能となり得る。トレーニングされた言語認識機械学習アルゴリズムおよび／またはトレーニングされた視覚認識機械学習アルゴリズムは、生物学関連の言語ベースおよび／または画像ベースの入力データの、意味論的に正確な分類または非常に精確な分類を提供することが可能であり得る提案されているコンセプトによって取得可能である。トレーニングされた言語認識機械学習アルゴリズムおよび／またはトレーニングされた視覚認識機械学習アルゴリズムは、言語ベースの検索入力または画像ベースの検索入力に基づいて、複数の生物学的画像の中から生物学関連の画像を検索すること、生物学関連の画像をタグ付けすること、典型的な画像を検出または生成することおよび／または同様の用途を可能にすることができる。

方法９００のさらなる詳細および態様は、提案されているコンセプトおよび／または上記または下記（例えば、図１～図８）の１つまたは複数の例に関連して言及される。方法９００は、提案されているコンセプトおよび／または上記または下記の１つまたは複数の例の１つまたは複数の態様に対応する１つまたは複数の追加的なオプションの特徴を含むことができる。

いくつかの実施形態は、トレーニングされた機械学習アルゴリズムであって、当該機械学習アルゴリズムは、生物学関連の言語ベースの入力トレーニングデータを受信することと、言語認識機械学習アルゴリズムによって、生物学関連の言語ベースの入力トレーニングデータの第１の高次元表現を生成することとによってトレーニングされた、機械学習アルゴリズムに関する。第１の高次元表現は、それぞれ異なる値を有する少なくとも３つのエントリを含む。さらに、トレーニングされた機械学習アルゴリズムは、言語認識機械学習アルゴリズムによって、第１の高次元表現に基づいて、生物学関連の言語ベースの出力トレーニングデータを生成することと、生物学関連の言語ベースの入力トレーニングデータと、生物学関連の言語ベースの出力トレーニングデータと、の比較に基づいて、言語認識機械学習アルゴリズムを調整することとによってトレーニングされている。さらに、トレーニングされた機械学習アルゴリズムは、生物学関連の言語ベースの入力トレーニングデータに関連付けられた生物学関連の画像ベースの入力トレーニングデータを受信することと、視覚認識機械学習アルゴリズムによって、生物学関連の画像ベースの入力トレーニングデータの第２の高次元表現を生成することであって、なお、第２の高次元表現は、それぞれ異なる値を有する少なくとも３つのエントリを含む、こととによってトレーニングされている。さらに、トレーニングされた機械学習アルゴリズムは、第１の高次元表現と第２の高次元表現との比較に基づいて、視覚認識機械学習アルゴリズムを調整することによってトレーニングされている。

トレーニングされた機械学習アルゴリズムは、トレーニングされた視覚認識機械学習アルゴリズム（例えば、調整された視覚認識機械学習アルゴリズム）および／またはトレーニングされた言語認識機械学習アルゴリズム（例えば、調整された言語認識機械学習アルゴリズム）であってもよい。トレーニングされた機械学習アルゴリズムの少なくとも一部は、ストレージデバイスによって格納された、学習されたパラメータ（例えば、ニューラルネットワークの重み）であってもよい。

トレーニングされた機械学習アルゴリズムのさらなる詳細および態様は、提案されているコンセプトおよび／または上記または下記（例えば、図１～図９）の１つまたは複数の例に関連して言及される。トレーニングされた機械学習アルゴリズムは、提案されているコンセプトおよび／または上記または下記の１つまたは複数の例の１つまたは複数の態様に対応する１つまたは複数の追加的なオプションの特徴を含むことができる。

以下では、（例えば図１～図９のうちの１つまたは複数に関連して）上記の実施形態のうちの１つまたは複数に関する用途および／または実装の詳細のいくつかの例について説明する。

例えば、一般的に生物学および顕微鏡法は、特に膨大な量のデータを生成しており、これらのデータには注釈が乏しいか、または全く注釈が付されないことが多い。多くの場合、振り返ってみて、どの注釈が有用であったか、または実験の時点でどの新しい生物学的発見が知られていないかが明らかになるだけである。提案されているコンセプトに基づいて、データベースに格納された、または顕微鏡における実行中の実験の一部としての、大量の画像データの意味論的な探索およびタグ付けを可能にすることにより、このようなデータにアクセスすることが可能となり得る。実験は、１回限りの実験であってもよいし、またはスクリーニングキャンペーンのような長期的な実験の一部であってもよい。

実行中の実験の文脈において、提案されているコンセプトは、単一細胞内、細胞小器官内、または組織内で発現されるタンパク質のような標本だけでなく、臓器または発達状態のようなより一般的な構造の一部でもある生物学的構造の検索を自動化するために役立つことができる。このようにして、標本中の関連する部分を検出するための時間のかかるステップを自動化することが可能となり得る。そうでなければ、このステップは、時間的なプレッシャーの下で（例えば、高価な研究機器が期間限定的に予約されていたため）、不快な環境（例えば、騒々しい暗室）で、反復的な手動での作業を行う人間の専門家を必要とし得る。提案されているコンセプトは、個々のバイアスを回避することにより、このステップをより客観的なものにすることもできる。

提案されているコンセプトは、これまで見たことのない種類の画像の分類または注釈付けを意味するゼロショット学習を可能にすることができる。提案されているコンセプトの画像モデル部分は、ワンホットエンコーディングされたクラスではなく意味論的埋め込み（例えば、高次元表現）を予測することができるので、提案されているコンセプトは、意味論的空間（例えば、複数の高次元表現）における未知の画像に対する最も近い一致を検出することが可能であり得る。例えば、以前は未知であった微視的構造内の生物学的機能を検出する新たな発見が可能となり得る。例えば、データベース内に一致する情報が見つからない場合には、提案されているコンセプトは、画像または利用可能な情報に基づいて、欠落している情報を推測することができる。これにより、注釈がないまたは注釈が乏しい大量の既存のデータの検索が可能となり得る。

提案されているコンセプトは、意味論的テキスト埋め込みを画像モデル（例えば、畳み込みニューラルネットワーク、ＣＮＮ）と組み合わせて、光学顕微鏡法または電子顕微鏡法からのような注釈のないまたは注釈の乏しい生物学的画像、画像スタック、時間経過、またはこれらの組み合わせを検索可能にするか、またはそれらから生物学的情報を抽出する深層学習アプローチを使用することができる。１つの態様によれば、顕微鏡法において、テキストモデルと視覚モデルとの（例えば、言語認識アルゴリズムと視覚認識アルゴリズムとの）組み合わせを使用することができる。

提案されている視覚的・意味論的モデル（例えば、言語認識機械学習アルゴリズムと視覚認識機械学習アルゴリズムとの組み合わせ）は、２段階のプロセスに基づくことができる。段階１は、テキスト認識タスクを解くために、生物学的配列に対してテキストモデル（例えば、言語認識アルゴリズム）をトレーニングすることができる。次いで、段階２では、段階１のモデルによって検出された意味論的埋め込みを、視覚モデル（例えば、視覚認識アルゴリズム）によって予測されるべき目標値として使用することができる。この組み合わせおよびオプションとして実行中の実験中での顕微鏡における用途は、種々の用途を可能にすることができる。

例えば、分類タスクのために他の視覚モデルがトレーニングされているワンホットエンコーディングされたクラスベクトルは、それぞれのクラスを完全に無関係として扱い、したがって、クラスの如何なる意味論も捉えることはできない。対照的に、段階１のテキストモデルは、意味論を（例えば、潜在ベクトル、意味論的埋め込み、または高次元表現とも称される）トークン埋め込みとして捉えることができる。トークンは、文字、単語、または生物学的分子の文脈では二次構造、結合モチーフ、触媒部位、プロモーター配列などであってもよい。次いで、視覚モデルを、これらの意味論的埋め込みに対してトレーニングすることができ、したがって、視覚モデルは、トレーニングされた同じクラスに対してのみならず、トレーニングセットに含まれていない新しいクラスに対しても予測を行うことができる。したがって、意味論的埋め込み空間は、生物学的機能のプロキシとして機能することができる。提案されている撮像システム（例えば、顕微鏡）によって撮像される類似の機能を有する分子は、この埋め込み空間において隣り合うものとして見えることができる。対照的に、ワンホットエンコーディングされたクラスベクトルを予測する他の分類器を用いた場合には、生物学的機能に関する情報を利用することができない。したがって、他の分類器は、これまで見たことのないクラスに関する予測を行うこと（「ゼロショット学習」）に失敗し、それらのクラスが誤分類された場合には、予測されたクラスは、実際のクラスとは完全に無関係であることが多い。

提案されているコンセプトは、深層ニューラルネットワークでのように、テキスト上でトレーニングされ、テキストの隠れ表現として意味論的埋め込みを学習するテキストモデル（例えば、言語モデル）を組み合わせることによって、予測モデルをトレーニングすることができる。タンパク質配列またはヌクレオチド配列のような生物学的配列をテキストとして使用してもよい。他の実施形態は、生物学的分子の機能を記述するために科学刊行物で使用されるテキストのような自然言語を使用してもよい。視覚モデル（例えば、畳み込みニューラルネットワーク、ＣＮＮ）は、（例えば、他の方法で使用されるワンホットエンコーディングされた特徴ベクトルとは異なり）各自のそれぞれの埋め込みを予測するようにトレーニング可能である。

例えば、提案されているコンセプトの１つの態様は、言語モデル（またはテキストモデル）と視覚モデルとの組み合わせに基づいて構築されたシステムおよび実施形態を説明する。

言語モデルは、長短期記憶（ＬＳＴＭ）モデルのような深層リカレントニューラルネットワーク（ＲＮＮ）として実行可能である。視覚モデルは、深層畳み込みニューラルネットワーク（ＣＮＮ）として実行可能である。他の実施形態は、種々異なる種類の深層学習モデルまたは機械学習モデルを使用してもよい。例えば、視覚モデルは、カプセルネットワークとして実行可能である。

種々異なる知識ドメインにわたるテキスト情報と視覚情報とを組み合わせることによって、視覚モデルは、トレーニング時に用いられた画像の真の意味論的表現を学習することが可能となり得る。例えば、画像分類の分野では、ＣＮＮは、１つの単語で画像コンテンツを記述する種々のクラスを予測するようにトレーニング可能である。この単語は、ワンホットエンコーディングされたベクトルとして表現可能である。ワンホットエンコーディングの場合には、“Lilium sp. pollen grain（ユリ花粉粒）”および“Endosomes（エンドソーム）”に対するエンコーディングは、これら２つの細胞小器官が、細胞小器官および花粉粒よりも互いに格段に類似していたとしても、“Endosomes（エンドソーム）”および“Lysosomes（リソソーム）”と同程度の近さであるか、または同程度に離れている。したがって、ワンホットエンコーディングされたベクトルを予測するようにトレーニングされた視覚モデルは、完全に正しいかまたは完全に間違っているかのいずれかとなり得る。しかしながら、クラスの（例えば、言語モデルによって学習される）意味論的埋め込みを予測するようにモデルがトレーニングされる場合には、その予測を、この埋め込み空間における意味論的に関連するオブジェクトに、より近づけることができる。

例えば、提案されているコンセプトによれば、言語モデルは、テキスト上でトレーニングされ、テキストの隠れ表現として意味論的埋め込みを学習する。例えば、文における次の単語を予測するようにトレーニングされた言語モデルは、５００次元の潜在ベクトルにおいて単語を表現することができる。他の次元も可能である。自然言語処理では、５０次元～１０００次元の間の潜在ベクトルを使用することができる。提案されているコンセプトは、タンパク質配列またはヌクレオチド配列のような生物学的配列をテキストとして使用し、各自のそれぞれの埋め込みを予測するように視覚モデルをトレーニングすることができる。生物学的配列は、生物学的機能をエンコーディングすることができ、したがって、「生物学的言語」の形態として理解可能である。さらに、画像を表現するために自然言語も使用することができる。なぜなら、タンパク質配列またはヌクレオチド配列のような生物学的エンティティの機能的役割を説明する多数の科学刊行物が存在するだけでなく、顕微鏡画像を特徴付ける際にこの情報を有用にする細胞内局在、または発達状態および／もしくは代謝状態も存在するからである。

トレーニングされたモデルを取得するためのステップは、例えば、以下であってもよい：
・トークン埋め込みを検出する：例えば、それぞれの生物学的分子（例えば、ヌクレオチド、タンパク質）に関する科学刊行物におけるヌクレオチド／タンパク質配列またはテキスト記述／キャプションの形態での生物学的分子の表現に基づいて、第１の言語／言語学モデル（例えば、ＲＮＮ、ＬＳＴＭ）をトレーニングすること。例えば、生成されたトークン埋め込みは、モデルのトレーニング中に導出可能である。この第１のトレーニング段階自体の最終的な結果（例えば、配列における次の要素の予測）は、関心対象ではない場合がある。しかしながら、予測目標を定義することにより、トレーニングの精度および／または速度を改善することができる。
・それぞれのトークン埋め込みへの画像（例えば、それぞれの生物学的分子の画像）のマッピング。換言すれば、言語／言語学モデルのトレーニングの生物学的テキスト入力を表現する生物学的構造から画像を選択することができる。これらの画像を、第２段階のトレーニングのために使用することができる。対応する生物学的テキスト記述を有する画像のデータベースが使用される場合には、画像のこのマッピングは、不要となり得る。
・第１のモデルにより検出されたそれぞれのトークン埋め込みを予測するための画像認識モデル（例えばＣＮＮ、カプセルネットワーク）の第２段階のトレーニング。入力は、それぞれの生物学的分子の画像である。画像は、第１のモデルによって生成されたトークン埋め込みに含まれている意味論にマッピング可能である。

例えば、トークン埋め込みは、図２に示されているようにテキストモデルを構築することによって検出可能である。リポジトリ２００から生物学的配列２１０を独立変数としてテキストモデル２２０に渡すことができる。テキストモデルは、短いストレッチの配列から次の文字（例えば、タンパク質配列におけるアミノ酸、またはヌクレオチド配列における塩基）を予測するなどの言語処理タスクを担うことができる。他の言語処理タスクは、適切であるが別の異なる種類の埋め込みを検出することが可能であり得る。そのようなタスクは、ホモロジー予測、文における次の単語の予測などを含むことができる。データは、隠れ表現を学習するためにエンコーダ経路２３０を通過し、この隠れ表現から有用な予測２５０を行うためにデコーダ経路を通過することができる。隠れ表現は、潜在空間への埋め込み（例えば、高次元ベクトル）とみなすことができる。トレーニングされたモデルにおいて、このトークン埋め込みは、それぞれのトークンの、各自のそれぞれの潜在ベクトル２６０へのマッピングを表現することができる。自然言語処理タスクを担っているテキストモデルでは、トークンは、単語と同等であってもよく、トークン埋め込みは、単語埋め込みであってもよい。

例えば、視覚モデルは、図３に示されているようにトークンベクトルを予測するようにトレーニングされている。データリポジトリ３００から、または実行中の実験中の顕微鏡から、画像３１０を独立変数として視覚モデル３２０の入力に渡すことができる。従属変数として、所望のイメージクラスにマッピングされたトークン埋め込み３３０を、出力においてモデルに示すことができる。視覚モデルは、それぞれの入力ごとにトークン埋め込みを予測することを学習することができる。

実施形態は、機械学習モデルまたは機械学習アルゴリズムの使用に基づいていてもよい。機械学習は、モデルおよび推論に依存する代わりに、コンピュータシステムが、明示的な命令を使用することなく、特定のタスクを実行するために使用し得るアルゴリズムおよび統計モデルを参照してもよい。例えば、機械学習では、ルールに基づくデータ変換の代わりに、過去のデータおよび／またはトレーニングデータの分析から推論されるデータ変換が使用されてもよい。例えば、画像コンテンツは、機械学習モデルを用いて、または機械学習アルゴリズムを用いて分析されてもよい。機械学習モデルが画像コンテンツを分析するために、機械学習モデルは、入力としてのトレーニング画像と出力としてのトレーニングコンテンツ情報を用いてトレーニングされてもよい。多数のトレーニング画像および／またはトレーニングシーケンス（例えば単語または文）および関連するトレーニングコンテンツ情報（例えばラベルまたは注釈）によって機械学習モデルをトレーニングすることによって、機械学習モデルは、画像コンテンツを認識することを「学習」するので、トレーニングデータに含まれていない画像コンテンツが機械学習モデルを用いて認識可能になる。同じ原理が、同じように他の種類のセンサデータに対して使用されてもよい：トレーニングセンサデータと所望の出力を用いて機械学習モデルをトレーニングすることによって、機械学習モデルは、センサデータと出力との間の変換を「学習し」、これは、機械学習モデルに提供された非トレーニングセンサデータに基づいて出力を提供するために使用可能である。

機械学習モデルは、トレーニング入力データを用いてトレーニングされてもよい。上記の例は、「教師あり学習」と称されるトレーニング方法を使用する。教師あり学習では、機械学習モデルは、複数のトレーニングサンプルを用いてトレーニングされ、ここで各サンプルは複数の入力データ値と複数の所望の出力値を含んでいてもよく、すなわち各トレーニングサンプルは、所望の出力値と関連付けされている。トレーニングサンプルと所望の出力値の両方を指定することによって、機械学習モデルは、トレーニング中に、提供されたサンプルに類似する入力サンプルに基づいてどの出力値を提供するのかを「学習」する。教師あり学習の他に、半教師あり学習が使用されてもよい。半教師あり学習では、トレーニングサンプルの一部は、対応する所望の出力値を欠いている。教師あり学習は、教師あり学習アルゴリズム、例えば分類アルゴリズム、回帰アルゴリズムまたは類似度学習アルゴリズムに基づいていてもよい。出力が、値の限られたセットに制限される場合、すなわち入力が値の限られたセットのうちの１つに分類される場合、分類アルゴリズムが使用されてもよい。出力が（範囲内の）任意の数値を有していてもよい場合、回帰アルゴリズムが使用されてもよい。類似度学習アルゴリズムは、分類アルゴリズムと回帰アルゴリズムの両方に類似していてもよいが、２つのオブジェクトがどの程度類似しているかまたは関係しているかを測定する類似度関数を用いた例からの学習に基づいている。教師あり学習または半教師あり学習の他に、機械学習モデルをトレーニングするために教師なし学習が使用されてもよい。教師なし学習では、入力データ（だけ）が供給される可能性があり、教師なし学習アルゴリズムは、例えば、入力データをグループ化またはクラスタリングすること、データに共通性を見出すことによって入力データにおいて構造を見出すために使用されてもよい。クラスタリングは、複数の入力値を含んでいる入力データを複数のサブセット（クラスター）に割り当てることであるので、同じクラスター内の入力値は１つまたは複数の（事前に定められた）類似度判断基準に従って類似しているが、別のクラスターに含まれている入力値と類似していない。

強化学習は機械学習アルゴリズムの第３のグループである。換言すれば、強化学習は機械学習モデルをトレーニングするために使用されてもよい。強化学習では、１つまたは複数のソフトウェアアクター（「ソフトウェアエージェント」と称される）が、周囲において行動を取るようにトレーニングされる。取られた行動に基づいて、報酬が計算される。強化学習は、（報酬の増加によって明らかにされるように）累積報酬が増加し、与えられたタスクでより良くなるソフトウェアエージェントが得られるように行動を選択するように、１つまたは複数のソフトウェアエージェントをトレーニングすることに基づいている。

さらに、いくつかの技術が、機械学習アルゴリズムの一部に適用されてもよい。例えば、特徴表現学習が使用されてもよい。換言すれば、機械学習モデルは、少なくとも部分的に特徴表現学習を用いてトレーニングされてもよい、かつ／または機械学習アルゴリズムは、特徴表現学習構成要素を含んでいてもよい。表現学習アルゴリズムと称され得る特徴表現学習アルゴリズムは、自身の入力に情報を保存するだけでなく、多くの場合、分類または予測を実行する前の前処理ステップとして、有用にするように情報の変換も行ってもよい。特徴表現学習は、例えば、主成分分析またはクラスター分析に基づいていてもよい。

いくつかの例では、異常検知（すなわち、外れ値検知）が使用されてもよく、これは、入力またはトレーニングデータの大部分と著しく異なることによって疑念を引き起こしている入力値の識別を提供することを目的としている。換言すれば、機械学習モデルは、少なくとも部分的に異常検知を用いてトレーニングされてもよく、かつ／または機械学習アルゴリズムは、異常検知構成要素を含んでいてもよい。

いくつかの例では、機械学習アルゴリズムは、予測モデルとして決定木を使用してもよい。換言すれば、機械学習モデルは、決定木に基づいていてもよい。決定木において、項目（例えば、入力値のセット）に関する観察は、決定木のブランチによって表されてもよく、この項目に対応する出力値は、決定木のリーフによって表されてもよい。決定木は、出力値として離散値と連続値の両方をサポートしてもよい。離散値が使用される場合、決定木は、分類木として表されてもよく、連続値が使用される場合、決定木は、回帰木として表されてもよい。

相関ルールは、機械学習アルゴリズムにおいて使用され得る別の技術である。換言すれば、機械学習モデルは、１つまたは複数の相関ルールに基づいていてもよい。相関ルールは、大量のデータにおける変数間の関係を識別することによって作成される。機械学習アルゴリズムは、データから導出された知識を表す１つまたは複数の相関的なルールを識別してもよい、かつ／または利用してもよい。これらのルールは、例えば、知識を格納する、操作するまたは適用するために使用されてもよい。

機械学習アルゴリズムは通常、機械学習モデルに基づいている。換言すれば、用語「機械学習アルゴリズム」は、機械学習モデルを作成する、トレーニングするまたは使用するために使用され得る命令のセットを表していてもよい。用語「機械学習モデル」は、例えば、機械学習アルゴリズムによって実行されるトレーニングに基づいて学習した知識を表すデータ構造および／またはルールのセットを表していてもよい。実施形態では、機械学習アルゴリズムの用法は、基礎となる１つの機械学習モデル（または基礎となる複数の機械学習モデル）の用法を意味していてもよい。機械学習モデルの用法は、機械学習モデルおよび／または機械学習モデルであるデータ構造／ルールのセットが機械学習アルゴリズムによってトレーニングされることを意味していてもよい。

例えば、機械学習モデルは、人工ニューラルネットワーク（ＡＮＮ）であってもよい。ＡＮＮは、網膜または脳において見出されるような、生物学的ニューラルネットワークによって影響を与えられるシステムである。ＡＮＮは、相互接続された複数のノードと、ノード間の、複数の接合部分、いわゆるエッジを含んでいる。通常、３種類のノードが存在しており、すなわち入力値を受け取る入力ノード、他のノードに接続されている（だけの）隠れノードおよび出力値を提供する出力ノードが存在している。各ノードは、人工ニューロンを表していてもよい。各エッジは、１つのノードから別のノードに、情報を伝達してもよい。ノードの出力は、その入力の和の（非線形）関数として定義されてもよい。ノードの入力は、入力を提供するエッジまたはノードの「重み」に基づく関数において使用されてもよい。ノードおよび／またはエッジの重みは、学習過程において調整されてもよい。換言すれば、人工ニューラルネットワークのトレーニングは、与えられた入力に対して所望の出力を得るために、人工ニューラルネットワークのノードおよび／またはエッジの重みを調整することを含んでいてもよい。

択一的に、機械学習モデルは、サポートベクターマシン、ランダムフォレストモデルまたは勾配ブースティングモデルであってもよい。サポートベクターマシン（すなわち、サポートベクターネットワーク）は、例えば、分類または回帰分析においてデータを分析するために使用され得る、関連する学習アルゴリズムを伴う、教師あり学習モデルである。サポートベクターマシンは、２つのカテゴリのいずれかに属する複数のトレーニング入力値を伴う入力を提供することによってトレーニングされてもよい。サポートベクターマシンは、２つのカテゴリのいずれかに新しい入力値を割り当てるようにトレーニングされてもよい。択一的に、機械学習モデルは、確率有向非巡回グラフィカルモデルであるベイジアンネットワークであってもよい。ベイジアンネットワークは、有向非巡回グラフを用いて、確率変数とその条件付き依存性のセットを表していてもよい。択一的に、機械学習モデルは、検索アルゴリズムと自然淘汰の過程を模倣した発見的方法である遺伝的アルゴリズムに基づいていてもよい。

本明細書で使用されるように、用語「および／または（かつ／または）」は、関連する記載項目のうちの１つまたは複数の項目のあらゆる全ての組み合わせを含んでおり、「／」として略記されることがある。

いくつかの態様を装置の文脈において説明してきたが、これらの態様が、対応する方法の説明も表していることが明らかであり、ここではブロックまたは装置がステップまたはステップの特徴に対応している。同様に、ステップの文脈において説明された態様は、対応する装置の対応するブロックまたは項目または特徴の説明も表している。ステップの一部または全部は、例えば、プロセッサ、マイクロプロセッサ、プログラマブルコンピュータまたは電子回路等のハードウェア装置（またはハードウェア装置を使用すること）によって実行されてもよい。いくつかの実施形態では、極めて重要なステップのいずれか１つまたは複数が、そのような装置によって実行されてもよい。

一定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装され得る。この実装は、非一過性の記録媒体によって実行可能であり、非一過性の記録媒体は、各方法を実施するために、プログラマブルコンピュータシステムと協働する（または協働することが可能である）、電子的に読取可能な制御信号が格納されている、デジタル記録媒体等であり、これは例えば、フロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリである。したがって、デジタル記録媒体は、コンピュータ読取可能であってもよい。

本発明のいくつかの実施形態は、本明細書に記載のいずれかの方法が実施されるように、プログラマブルコンピュータシステムと協働することができる、電子的に読取可能な制御信号を有するデータ担体を含んでいる。

一般的に、本発明の実施形態は、プログラムコードを備えるコンピュータプログラム製品として実装可能であり、このプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときにいずれかの方法を実施するように作動する。このプログラムコードは、例えば、機械可読担体に格納されていてもよい。例えば、コンピュータプログラムは、非一過性の記録媒体に格納されていてもよい。いくつかの実施形態は、実行されるときに提案されているコンセプトまたは上述した１つもしくは複数の例による方法を実施するための機械可読命令を含む、非一過性の記録媒体に関する。

別の実施形態は、機械可読担体に格納されている、本明細書に記載のいずれかの方法を実施するためのコンピュータプログラムを含んでいる。

したがって、換言すれば、本発明の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに本明細書に記載のいずれかの方法を実施するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の別の実施形態は、プロセッサによって実行されるときに本明細書に記載のいずれかの方法を実施するために、格納されているコンピュータプログラムを含んでいる記録媒体（またはデータ担体またはコンピュータ読取可能な媒体）である。データ担体、デジタル記録媒体または被記録媒体は、典型的に、有形である、かつ／または非一過性である。本発明の別の実施形態は、プロセッサと記録媒体とを含んでいる、本明細書に記載されたような装置である。

したがって、本発明の別の実施形態は、本明細書に記載のいずれかの方法を実施するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは例えば、データ通信接続、例えばインターネットを介して転送されるように構成されていてもよい。

別の実施形態は、処理手段、例えば、本明細書に記載のいずれかの方法を実施するように構成または適合されているコンピュータまたはプログラマブルロジックデバイスを含んでいる。

別の実施形態は、本明細書に記載のいずれかの方法を実施するために、インストールされたコンピュータプログラムを有しているコンピュータを含んでいる。

本発明の別の実施形態は、本明細書に記載のいずれかの方法を実施するためのコンピュータプログラムを（例えば、電子的にまたは光学的に）受信機に転送するように構成されている装置またはシステムを含んでいる。受信機は、例えば、コンピュータ、モバイル機器、記憶装置等であってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するために、ファイルサーバを含んでいてもよい。

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）が、本明細書に記載された方法の機能の一部または全部を実行するために使用されてもよい。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書に記載のいずれかの方法を実施するためにマイクロプロセッサと協働してもよい。一般的に、有利には、任意のハードウェア装置によって方法が実施される。

１００生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするためのシステム
１０２生物学的関連の言語ベースの入力トレーニングデータ
１０４生物学関連の画像ベースの入力トレーニングデータ
１１０１つまたは複数のプロセッサ
１２０１つまたは複数のストレージデバイス
２００データベース；リポジトリ
２１０生物学関連の言語ベースの入力トレーニングデータ；生物学的配列
２２０言語認識機械学習アルゴリズム；テキストモデル
２３０言語認識機械学習アルゴリズムのエンコーダ経路
２４０言語認識機械学習アルゴリズムのデコーダ経路
２５０生物学関連の言語ベースの出力トレーニングデータ；予測
２６０第１の高次元表現；隠れ表現；潜在ベクトル；トークン埋め込み
３００リポジトリ
３１０生物学関連の画像ベースの入力トレーニングデータ；画像
３２０視覚認識機械学習アルゴリズム；視覚モデル
３３０第２の高次元表現；隠れ表現；潜在ベクトル；トークン埋め込み
４００視覚認識ニューラルネットワークの部分；ＲｅｓＮｅｔブロック
４１０バッチ正規化演算
４２０ＲｅＬｕ演算
４３０畳み込み演算
４４０加算演算
５００視覚認識ニューラルネットワークの部分；ＲｅｓＮｅｔ－ＣＢＡＭブロック
５１０大域平均プーリング演算
５２０大域最大プーリング演算
５３０連結演算
５４０シグモイド演算
５５０乗算演算
５６０平均値演算
５７０最大値演算
６００視覚認識ニューラルネットワークの部分；ボトルネック構成を有する緻密層
７００視覚認識ニューラルネットワークの部分；注意機構を有する緻密層
８００機械学習アルゴリズムをトレーニングするためのシステム
８１０顕微鏡
８２０コンピュータデバイス
９００生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするための方法
９１０生物学関連の言語ベースの入力トレーニングデータを受信する
９２０第１の高次元表現を生成する
９３０生物学関連の言語ベースの出力トレーニングデータを生成する
９４０言語認識機械学習アルゴリズムを調整する
９５０生物学関連の画像ベースの入力トレーニングデータを受信する
９６０第２の高次元表現を生成する
９７０視覚認識機械学習アルゴリズムを調整する

Claims

１つまたは複数のプロセッサ（１１０）と、１つまたは複数のストレージデバイス（１２０）と、を含むシステム（１００）であって、前記システム（１００）は、
生物学関連の言語ベースの入力トレーニングデータ（１０２，２１０）を受信し、前記生物学関連の言語ベースの入力トレーニングデータ（１０２，２１０）は、ヌクレオチド配列、タンパク質配列、生物学的分子もしくは生物学的構造の記述、生物学的分子もしくは生物学的構造の挙動の記述、または、生物学的機能もしくは生物学的活動の記述のうちの少なくとも１つであり、
前記１つまたは複数のプロセッサ（１１０）によって実行される言語認識機械学習アルゴリズム（２２０）によって、前記生物学関連の言語ベースの入力トレーニングデータ（１０２，２１０）の第１の高次元表現（２６０）を生成し、前記第１の高次元表現（２６０）は、それぞれ異なる値を有する少なくとも３つのエントリを含み、
前記１つまたは複数のプロセッサ（１１０）によって実行される前記言語認識機械学習アルゴリズム（２２０）によって、前記第１の高次元表現（２６０）に基づいて、生物学関連の言語ベースの出力トレーニングデータ（２５０）を生成し、
前記生物学関連の言語ベースの入力トレーニングデータ（１０２，２１０）と、前記生物学関連の言語ベースの出力トレーニングデータ（２５０）と、の比較に基づいて、前記言語認識機械学習アルゴリズム（２２０）を調整し、
前記生物学関連の言語ベースの入力トレーニングデータ（１０２，２１０）に関連付けられた生物学関連の画像ベースの入力トレーニングデータ（１０４，３１０）を受信し、
前記１つまたは複数のプロセッサ（１１０）によって実行される視覚認識機械学習アルゴリズム（３２０）によって、前記生物学関連の画像ベースの入力トレーニングデータ（１０４，３１０）の第２の高次元表現（３３０）を生成し、前記第２の高次元表現（３３０）は、それぞれ異なる値を有する少なくとも３つのエントリを含み、
前記第１の高次元表現（２６０）と前記第２の高次元表現（３３０）との比較に基づいて、前記視覚認識機械学習アルゴリズム（３２０）を調整する、
ように構成されており、
前記生物学関連の言語ベースの入力トレーニングデータ（１０２，２１０）は、生物学的配列であり、
前記生物学関連の言語ベースの出力トレーニングデータ（２５０）は、前記生物学的配列における次の要素についての予測を含み、
前記生物学関連の画像ベースの入力トレーニングデータ（１０４，３１０）は、ヌクレオチドもしくはヌクレオチド配列を含む生物学的構造、タンパク質もしくはタンパク質配列を含む生物学的構造、生物学的分子、生物学的組織、特定の挙動を有する生物学的構造、または、特定の生物学的機能もしくは特定の生物学的活動を有する生物学的構造のうちの少なくとも１つの画像の画像トレーニングデータである、
システム。
前記第１の高次元表現（２６０）の１つまたは複数のエントリの値は、特定の生物学的機能または特定の生物学的活動が存在する尤度に比例する、
請求項１記載のシステム。
前記第２の高次元表現（３３０）の１つまたは複数のエントリの値は、特定の生物学的機能または特定の生物学的活動が存在する尤度に比例する、
請求項１または２記載のシステム。
前記第１の高次元表現（２６０）のエントリの値の５０％超および前記第２の高次元表現（３３０）のエントリの値の５０％超は、０に等しくない、
請求項１から３までのいずれか１項記載のシステム。
前記第１の高次元表現（２６０）の５つを超えるエントリの値は、前記第１の高次元表現（２６０）のエントリの最大絶対値の１０％よりも大きく、
前記第２の高次元表現（３３０）の５つを超えるエントリの値は、前記第２の高次元表現（３３０）のエントリの最大絶対値の１０％よりも大きい、
請求項１から４までのいずれか１項記載のシステム。
前記生物学関連の言語ベースの入力トレーニングデータ（１０２，２１０）は、２０文字を超える長さを含む、
請求項１から５までのいずれか１項記載のシステム。
前記システムは、生物学関連の言語ベースの入力トレーニングデータセットのトレーニンググループのうちのそれぞれの生物学関連の言語ベースの入力トレーニングデータ（１０２，２１０）ごとに、
第１の高次元表現（２６０）を生成することと、
生物学関連の言語ベースの出力トレーニングデータ（２５０）を生成することと、
前記言語認識機械学習アルゴリズム（２２０）を調整することと、
を繰り返すように構成されている、
請求項１から６までのいずれか１項記載のシステム。
前記生物学関連の言語ベースの入力トレーニングデータセットの前記トレーニンググループのうちの第１の生物学関連の言語ベースの入力トレーニングデータ（１０２，２１０）の長さは、前記生物学関連の言語ベースの入力トレーニングデータセットの前記トレーニンググループのうちの第２の生物学関連の言語ベースの入力トレーニングデータ（１０２，２１０）の長さとは異なる、
請求項７記載のシステム。
前記システムは、生物学関連の画像ベースの入力トレーニングデータセットのトレーニンググループのうちのそれぞれの生物学関連の画像ベースの入力トレーニングデータ（１０４，３１０）ごとに、
第２の高次元表現（３３０）を生成することと、
前記視覚認識機械学習アルゴリズム（３２０）を調整することと、
を繰り返すように構成されている、
請求項１から８までのいずれか１項記載のシステム。
請求項１から９までのいずれか１項記載のシステムを含む、顕微鏡。
システムによって、生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするための方法（９００）であって、前記方法は、
生物学関連の言語ベースの入力トレーニングデータを前記システムが受信するステップ（９１０）であって、前記生物学関連の言語ベースの入力トレーニングデータ（１０２，２１０）は、ヌクレオチド配列、タンパク質配列、生物学的分子もしくは生物学的構造の記述、生物学的分子もしくは生物学的構造の挙動の記述、または、生物学的機能もしくは生物学的活動の記述のうちの少なくとも１つであるステップと、
言語認識機械学習アルゴリズムによって、前記生物学関連の言語ベースの入力トレーニングデータの第１の高次元表現を前記システムが生成するステップであって、前記第１の高次元表現は、それぞれ異なる値を有する少なくとも３つのエントリを含むステップ（９２０）と、
前記言語認識機械学習アルゴリズムによって、前記第１の高次元表現に基づいて、前記生物学関連の言語ベースの出力トレーニングデータを前記システムが生成するステップ（９３０）と、
前記生物学関連の言語ベースの入力トレーニングデータと、前記生物学関連の言語ベースの出力トレーニングデータと、の比較に基づいて、前記言語認識機械学習アルゴリズムを前記システムが調整するステップ（９４０）と、
前記生物学関連の言語ベースの入力トレーニングデータに関連付けられた生物学関連の画像ベースの入力トレーニングデータを前記システムが受信するステップ（９５０）と、
視覚認識機械学習アルゴリズムによって、前記生物学関連の画像ベースの入力トレーニングデータの第２の高次元表現を前記システムが生成するステップであって、前記第２の高次元表現は、それぞれ異なる値を有する少なくとも３つのエントリを含むステップ（９６０）と、
前記第１の高次元表現と前記第２の高次元表現との比較に基づいて、前記視覚認識機械学習アルゴリズムを前記システムが調整するステップ（９７０）と、
を含み、
前記生物学関連の言語ベースの入力トレーニングデータ（１０２，２１０）は、生物学的配列であり、
前記生物学関連の言語ベースの出力トレーニングデータ（２５０）は、前記生物学的配列における次の要素についての予測を含み、
前記生物学関連の画像ベースの入力トレーニングデータ（１０４，３１０）は、ヌクレオチドもしくはヌクレオチド配列を含む生物学的構造、タンパク質もしくはタンパク質配列を含む生物学的構造、生物学的分子、生物学的組織、特定の挙動を有する生物学的構造、または、特定の生物学的機能もしくは特定の生物学的活動を有する生物学的構造のうちの少なくとも１つの画像の画像トレーニングデータである、
方法（９００）。
プロセッサによって実行されるときに請求項１１記載の方法を実施するためのプログラムコードを有する、コンピュータプログラム。