JP2022542752A - 生物学関連のデータを処理するためのシステムおよび方法、顕微鏡を制御するためのシステムおよび方法ならびに顕微鏡 - Google Patents

生物学関連のデータを処理するためのシステムおよび方法、顕微鏡を制御するためのシステムおよび方法ならびに顕微鏡 Download PDF

Info

Publication number
JP2022542752A
JP2022542752A JP2021572431A JP2021572431A JP2022542752A JP 2022542752 A JP2022542752 A JP 2022542752A JP 2021572431 A JP2021572431 A JP 2021572431A JP 2021572431 A JP2021572431 A JP 2021572431A JP 2022542752 A JP2022542752 A JP 2022542752A
Authority
JP
Japan
Prior art keywords
dimensional representation
image
dimensional
representations
microscope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021572431A
Other languages
English (en)
Other versions
JP7526211B2 (ja
Inventor
カッペル コンスタンティン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leica Microsystems CMS GmbH
Original Assignee
Leica Microsystems CMS GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leica Microsystems CMS GmbH filed Critical Leica Microsystems CMS GmbH
Publication of JP2022542752A publication Critical patent/JP2022542752A/ja
Application granted granted Critical
Publication of JP7526211B2 publication Critical patent/JP7526211B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

生物学関連のデータを処理するためのシステム(100)は、1つまたは複数のストレージデバイス(120)に結合された1つまたは複数のプロセッサ(110)を含む。システム(100)は、生物学関連の画像ベースの検索データ(103)を受信するように構成され、かつ1つまたは複数のプロセッサ(110)によって実行されるトレーニングされた視覚認識機械学習アルゴリズムによって、生物学関連の画像ベースの検索データ(103)の第1の高次元表現を生成するように構成されている。第1の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリを含む。さらに、システム(100)は、複数の生物学関連の画像ベースの入力データセットまたは複数の生物学関連の言語ベースの入力データセットの複数の第2の高次元表現(105)を取得するように構成されている。付加的に、システム(100)は、第1の高次元表現を、1つまたは複数のプロセッサ(110)によって、複数の第2の高次元表現の各第2の高次元表現(105)と比較するように構成されている。

Description

本例は、生物学関連データの処理および/または顕微鏡の制御に関する。
多くの生物学的用途において、膨大な量のデータが生成される。例えば、画像は、莫大な量の生物学的構造から取得され、データベースに格納される。生物学データを手動で分析することは、非常に時間および費用がかかる。
したがって、生物学関連データを処理するための、かつ/または顕微鏡の制御のための改善されたコンセプトが必要とされている。
この要求は、請求項の主題によって満たすことができる。
いくつかの実施形態は、1つまたは複数のストレージデバイスに結合された1つまたは複数のプロセッサを含むシステムに関する。このシステムは、生物学関連の画像ベースの検索データを受信するように構成され、かつ1つまたは複数のプロセッサによって実行されるトレーニングされた視覚認識機械学習アルゴリズムによって、生物学関連の画像ベースの検索データの第1の高次元表現を生成するように構成されている。第1の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリを含む。さらに、システムは、複数の生物学関連の画像ベースの入力データセットまたは複数の生物学関連の言語ベースの入力データセットの複数の第2の高次元表現を取得するように構成されている。付加的に、システムは、第1の高次元表現を、複数の第2の高次元表現の各第2の高次元表現と比較するように構成されている。
視覚認識機械学習アルゴリズムを使用することによって、画像ベースの検索要求を高次元表現にマッピングすることができる。高次元表現が(ワンホットエンコーディングされた表現とは対照的に)種々異なる値を有するエントリを含むことを可能にすることによって、意味論的に類似した生物学的検索用語を、類似の高次元表現にマッピングすることができる。複数の生物学関連の画像ベースの入力データセットまたは複数の生物学関連の言語ベースの入力データセットの高次元表現を取得することによって、高次元表現は、検索要求の高次元表現と同等もしくは類似のものを見つけることができる。このようにして、検索要求に対応する画像またはテキストを見つけることが可能になる場合がある。このようにして、トレーニングされた視覚認識機械学習アルゴリズムは、画像ベースの検索入力に基づいて、複数の生物学的画像(例えば生物学的画像のデータベース)の中から生物学関連の画像を検索すること、または複数の生物学関連のテキスト(例えば科学論文コレクションまたはライブラリ)の中から生物学関連のテキストを検索することを可能にすることができる。既存のデータベース内での検索、または実行中の実験によって生成された画像(例えば1つまたは複数の生物学的標本の顕微鏡によって撮像された画像)は、たとえ画像が事前にラベル付けやタグ付けされていなかったとしても可能になる場合がある。
いくつかの実施形態は、1つまたは複数のプロセッサおよび1つまたは複数のストレージデバイスを含むシステムに関する。このシステムは、画像ベースの検索データを受信するように構成され、かつ1つまたは複数のプロセッサによって実行されるトレーニングされた視覚認識機械学習アルゴリズムによって、画像ベースの検索データの第1の高次元表現を生成するように構成されている。第1の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリを含む。さらに、システムは、複数の画像ベースの入力データセットの複数の第2の高次元表現を取得するように構成され、かつ第1の高次元表現と複数の第2の高次元表現の各第2の高次元表現との比較に基づいて、複数の第2の高次元表現から1つの第2の高次元表現を選択するように構成されている。付加的に、システムは、選択された第2の高次元表現に基づいて、顕微鏡の動作を制御するための制御信号を提供するように構成されている。
視覚認識機械学習アルゴリズムを使用することによって、画像ベースの検索要求を高次元表現にマッピングすることができる。高次元表現が(ワンホットエンコーディングされた表現とは対照的に)種々異なる値を有するエントリを含むことを可能にすることによって、意味論的に類似した検索用語を、類似の高次元表現にマッピングすることができる。複数の画像ベースの入力データセットの高次元表現を取得することによって、検索用語の高次元表現は、検索用語の高次元表現と同等もしくは類似のものを見つけることができる。このようにして、検索要求に対応する画像を見つけることが可能になる場合がある。この情報を用いることにより、顕微鏡は、関心箇所のさらなる画像を(例えば、より大きな倍率、異なる光、またはフィルタで)撮像することができるようにするために、画像が撮像された各位置に駆動することができる。このようにして、検体(例えば生物学的標本または集積回路)は、検索要求に対応する箇所を見つけるために、最初は低倍率で撮像されてもよく、その後、関心箇所をより詳細に分析してもよい。
いくつかの実施形態は、1つまたは複数のストレージデバイスに結合された1つまたは複数のプロセッサを含むシステムに関する。このシステムは、1つまたは複数のプロセッサによって実行されるクラスタリングアルゴリズムによって、複数の画像ベースの入力データセットの複数の第2の高次元表現の複数のクラスターを決定するように構成されている。さらに、システムは、複数のクラスターの所定のクラスターのクラスター中心の第1の高次元表現を決定し、かつ第1の高次元表現と複数の第2の高次元表現の各第2の高次元表現またはそのサブセットとの比較に基づいて、複数の第2の高次元表現から1つの第2の高次元表現を選択するように構成されている。付加的に、システムは、選択された第2の高次元表現に基づいて、顕微鏡の動作を制御するための制御信号を提供するように構成されている。
第2の高次元表現のクラスターを識別することにより、意味論的に類似した内容に対応する第2の高次元表現をクラスターに結合することができる。クラスター中心を決定し、比較によってクラスター中心に最も近い1つまたは複数の第2の高次元表現を識別することにより、クラスターの典型的な画像を表す1つまたは複数の画像を見つけてもよい。例えば、異なるクラスターは、生物学的標本の異なる特徴部分(例えば、サイトゾル、核、細胞骨格)に対応する第2の高次元表現を含むことができる。システムは、顕微鏡が1つまたは複数のクラスターの典型的な画像が撮像された位置に移動するように(例えば様々な顕微鏡パラメータを用いてこの位置でより多くの画像を撮像するように)、制御信号を提供できる場合もある。
以下では、装置および/または方法のいくつかの例を、単なる例として、添付の図面を参照しながら説明する。
生物学関連のデータを処理するためのシステムの概略図である。 生物学関連のデータを処理するための別のシステムの概略図である。 生物学関連のデータを処理するための別のシステムの概略図である。 顕微鏡を制御するためのシステムの概略図である。 生物学関連の画像ベースの検索データに基づいて顕微鏡を制御するためのシステムの概略図である。 顕微鏡を制御するためのシステムの概略図である。 クラスタリングアルゴリズムにより、生物関連の画像ベースの検索データに基づいて顕微鏡を制御するためのシステムの概略図である。 クラスタリングアルゴリズムにより、生物学関連のデータを処理するためのシステムの概略図である。 データを処理するためのシステムの概略図である。 生物学関連のデータを処理するための方法のフローチャートである。 顕微鏡を制御するための方法のフローチャートである。 顕微鏡を制御するための別の方法のフローチャートである。
次に、いくつかの例が示されている添付の図面を参照しながら、様々な例をより完全に説明する。図面において、線、層および/または領域の厚さは、見やすくするために誇張されている場合がある。
したがって、さらなる例によって様々な修正形態および代替形態を実現することが可能であるが、そのうちのいくつかの特定の例が図面に示されており、続いて詳細に説明される。しかしながら、この詳細な説明は、さらなる例を、説明されている特定の形態に限定するものではない。さらなる例は、本開示の範囲内に含まれるすべての修正形態、均等形態および代替形態を網羅することができる。同一または同様の参照符号は、図面の説明全体にわたり同様または類似の要素を指しており、それらの要素を、互いに比較したとき、同一または類似の機能を提供しながら、同一または変更された形態で実現することができる。
ある要素が別の要素と「接続されている」または「結合されている」と記載されている場合、これらの要素は、直接的に接続または結合されていてもよいし、または1つまたは複数の介在要素を介して接続または結合されていてもよいと理解される。2つの要素AおよびBが「または」を使用して組み合わされている場合、このことは、明示的または暗示的に別様に定義されていない限り、すべての可能な組み合わせ、すなわちAのみ、BのみならびにAおよびBが開示されているものと理解されたい。同じ組み合わせについての代替的な表現は、「AおよびBのうちの少なくとも1つ」または「Aおよび/またはB」である。同じことは、必要な変更を加えて、3つ以上の要素の組み合わせにも当てはまる。
特定の例を説明する目的で本明細書において用いられる用語は、さらなる例を限定することを意図するものではない。“a”,“an”および“the”のような単数形が用いられ、単一の要素のみを用いることが必須であると明示的または暗示的に定義されていないときはいつでも、さらなる例が、複数の要素を用いて同じ機能を実現してもよい。同様に、ある機能が複数の要素を用いて実装されるものとして後で説明されている場合、さらなる例が、単一の要素または処理エンティティを用いて同じ機能を実現してもよい。さらに、“comprises(含む)”、“comprising(含んでいる)”、“includes(含む)”および/または“including(含んでいる)”という用語は、使用される場合、記載された特徴、整数、ステップ、操作、プロセス、動作、要素および/または構成要素の存在を指定するが、1つまたは複数の他の特徴、整数、ステップ、操作、プロセス、動作、要素、構成要素および/またはそれらの任意のグループの存在または追加を排除しないと理解される。
別様に定義されていない限り、すべての用語(技術用語および科学用語を含む)は、本明細書において、各例が属する分野の通常の意味で使用されている。
図1は、一実施形態による、生物学関連のデータを処理するためのシステム100の概略図を示す。このシステム100は、1つまたは複数のストレージデバイス120に結合された1つまたは複数のプロセッサ110を含む。システム100は、(第1の)生物学関連の画像ベースの検索データ103を受信するように構成され、かつ1つまたは複数のプロセッサ110によって実行されるトレーニングされた視覚認識機械学習アルゴリズムによって、(第1の)生物学関連の画像ベースの検索データ103の第1の高次元表現を生成するように構成されている。第1の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリ(または互いに異なる値を有する少なくとも20のエントリ、少なくとも50のエントリ、もしくは少なくとも100のエントリ)を含む。さらに、システム100は、複数の生物学関連の画像ベースの入力データセットまたは複数の生物学関連の言語ベースの入力データセットの複数の第2の高次元表現105を取得するように構成されている。付加的に、システム100は、1つまたは複数のプロセッサ110によって、第1の高次元表現を、複数の第2の高次元表現の各第2の高次元表現105と比較するように構成されている。
生物学関連の画像ベースの検索データ103は、ヌクレオチドまたはヌクレオチド配列を含む生物学的構造、タンパク質もしくはタンパク質配列を含む生物学的構造、生物学的分子、生物学的組織、特定の挙動を有する生物学的構造および/または特定の生物学的機能もしくは特定の生物学的活動を有する生物学的構造の画像の画像データ(例えば画像のピクセルデータ)であってもよい。生物学的構造は、分子、ウイロイドもしくはウイルス、人工もしくは天然の膜で包囲された小胞、(細胞小器官のような)細胞内構造、細胞、スフェロイド、オルガノイド、三次元細胞培養、生物学的組織、臓器スライス、または生体内もしくは生体外の臓器の一部であってもよい。例えば、生物学的構造の画像は、細胞内または組織内のタンパク質の位置の画像であってもよいし、または標識されたヌクレオチドプローブが結合する内因性ヌクレオチド(例えば、DNA)を有する細胞または組織の画像(例えば、in situハイブリダイゼーション)であってもよい。画像データは、画像の各色次元(例えばRGB表現の場合は3つの色次元)について、画像の各ピクセルに対するピクセル値を含むことができる。例えば、画像診断法に応じて、励起波長もしくは発光波長、蛍光寿命、偏光、3つの空間次元でのステージ位置、異なる撮像角度に関連して、他のチャネルを適用してもよい。生物学関連の画像ベースの検索データ103は、XYピクセルマップ、体積測定データ(XYZ)、時系列データ(XY+T)、またはそれらの組み合わせ(XYZT)であってもよい。さらに、画像ソースの種類に応じて、チャネル(例えばスペクトル発光帯)、励起波長、ステージ位置、マルチウェルプレートもしくはマルチポジショニング実験および/またはミラーでのような論理的な位置、かつ/またはライトシート撮像におけるような対物レンズ位置などのような付加的な次元が含まれていてもよい。例えば、ピクセルマップもしくはより高次元のピクチャーとして画像をユーザが入力してもよいし、またはデータベースが提供してもよい。生物学関連の画像ベースの検索データ103は、1つまたは複数のストレージデバイスから、もしくはストレージデバイスによって格納されたデータベースから受信されてもよいし、ユーザによって入力されてもよい。
高次元表現(例えば第1および第2の高次元表現)は、隠れ表現、潜在ベクトル、埋め込み、意味論的埋め込みおよび/またはトークン埋め込みであってもよく、かつ/または隠れ表現、潜在ベクトル、埋め込み、意味論的埋め込みおよび/またはトークン埋め込みとも称されてもよい。
第1の高次元表現および/または第2の高次元表現は、(例えば数値のみを含む)数値表現であってもよい。第1の高次元表現および/または第2の高次元表現は、100を超える次元(または300もしくは500を超える次元)を含むことができ、かつ/または10000未満の次元(または3000未満もしくは1000未満の次元)を含むことができる。高次元表現の各エントリは、高次元表現の1つの次元であってもよい(例えば、100次元を有する高次元表現は、100個のエントリを含む)。例えば、300を超えて1000未満の次元を有する高次元表現を使用することにより、意味論的相関を有する生物学関連のデータのために適した表現が可能となり得る。第1の高次元表現は第1のベクトルであってもよく、各第2の高次元表現は、各第2のベクトルであってもよい。ベクトル表現が、第1の高次元表現のエントリおよび第2の高次元表現のエントリのために使用される場合、効率的な比較および/または他の計算(例えば、正規化)が実装されてもよいが、他の表現(例えば、行列としての表現)が可能な場合もある。例えば、第1の高次元表現および/または第2の高次元表現は、正規化されたベクトルであってよい。第1の高次元表現および第2の高次元表現は、同じ値(例えば1)に正規化されてもよい。例えば、トレーニングされた言語認識機械学習アルゴリズムの最後の層は、付加的に正規化を実行することができる非線形演算を表すことができる。第1の高次元表現および/または第2の高次元表現は、トレーニングされた視覚認識機械学習アルゴリズムによって生成されてもよい。このトレーニングされた視覚認識機械学習アルゴリズムは、損失関数によってトレーニングされたものであってよく、これにより、トレーニングされた視覚認識機械学習アルゴリズムは、正規化された高次元表現を出力する。しかしながら、第1の高次元表現および第2の高次元表現を正規化するための他のアプローチが適用可能な場合もある。
例えば、第1の高次元表現および/または第2の高次元表現は、ワンホットエンコーディングされた表現とは対照的に、0に等しくない値を有する様々なエントリ(少なくとも3つ)を含むことができる。第1の高次元表現に対応して、複数の第2の高次元表現の各第2の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリ(または互いに異なる値を有する少なくとも20のエントリ、少なくとも50のエントリ、もしくは少なくとも100のエントリ)を含むことができる。0に等しくない値を有する様々なエントリを有することができる高次元表現を用いることにより、高次元表現間の意味論的関係性に関する情報を再現することができる。例えば、第1の高次元表現のエントリの値の50%超(または70%超もしくは90%超)および/または第2の高次元表現のエントリの値の50%超(または70%超もしくは90%超)は、0に等しくなくてもよい。ワンホットエンコーディングされた表現が、0に等しくない2つ以上のエントリを有することも時にはあるが、高い値を有するエントリは1つだけであり、その他のすべてのエントリは、ノイズレベル(例えば、その1つの高い値の10%未満)の値を有する。対照的に、第1の高次元表現の5つを超えるエントリ(または20を超えるエントリもしくは50を超えるエントリ)の値を、例えば、第1の高次元表現のエントリの最大絶対値の10%よりも大きく(または20%よりも大きく、もしくは30%よりも大きく)することができる。さらに、複数の第2の高次元表現の各第2の高次元表現の5つを超えるエントリ(または20を超えるもしくは50を超えるエントリ)の値を、第2の高次元表現のエントリの各最大絶対値の10%よりも大きく(または20%よりも大きく、もしくは30%よりも大きく)してもよい。例えば、複数の第2の高次元表現の1つの第2の高次元表現の5つを超えるエントリ(または20を超えるエントリもしくは50を超えるエントリ)の値を、1つの第2の高次元表現のエントリの最大絶対値の10%よりも大きく(または20%よりも大きく、もしくは30%よりも大きく)してもよい。例えば、第1の高次元表現および/または第2の高次元表現の各エントリは、-1~1の値を含むことができる。
第1の高次元表現は、トレーニングされたパラメータのセットを有するトレーニングされた視覚認識機械学習アルゴリズムの少なくとも一部(例えばエンコーダ)を、生物学関連の画像ベースの検索データ103に適用することによって生成されてもよい。例えば、第1の高次元表現を、トレーニングされた視覚認識機械学習アルゴリズムによって生成することは、第1の高次元表現が、トレーニングされた視覚認識機械学習アルゴリズムのエンコーダによって生成されることを意味し得る。トレーニングされた視覚認識機械学習アルゴリズムのパラメータのトレーニングされたセットは、以下で説明するように、視覚認識機械学習アルゴリズムのトレーニング中に取得されてもよい。
第1の高次元表現の1つまたは複数のエントリの値および/または第2の高次元表現の1つまたは複数のエントリの値は、特定の生物学的機能または特定の生物学的活動が存在する尤度に比例してもよい。入力データセットの意味論的な類似性を維持した高次元表現を生成するマッピングを使用することにより、意味論的に類似した高次元表現同士は、意味論的に類似性の低い高次元表現同士よりも互いにより近い距離を有することができる。さらに、2つの高次元表現が、同じもしくは類似の特定の生物学的機能または特定の生物学的活動を有する入力データセットを表現している場合には、これらの2つの高次元表現の1つまたは複数のエントリは、同じもしくは類似の値を有することができる。意味論の維持により、高次元表現の1つまたは複数のエントリは、特定の生物学的機能または特定の生物学的活動の発生または存在を示すことができる。例えば、高次元表現の1つまたは複数のエントリの値が高くなればなるほど、これらの1つまたは複数のエントリと相関する生物学的機能または生物学的活動が存在する尤度がより高くなり得る。
トレーニングされた視覚認識機械学習アルゴリズムは、画像認識モデルまたは視覚モデルと称されてもよい。トレーニングされた視覚認識機械学習アルゴリズムは、トレーニングされた視覚認識ニューラルネットワークであってもよく、あるいはトレーニングされた視覚認識ニューラルネットワークを含み得る。トレーニングされた視覚認識ニューラルネットワークは、20を超える層(または40もしくは80を超える層)および/または400未満の層(または200未満もしくは150未満の層)を含むことができる。トレーニングされた視覚認識ニューラルネットワークは、畳み込みニューラルネットワークまたはカプセルネットワークであってもよい。畳み込みニューラルネットワークまたはカプセルネットワークを使用することにより、生物学関連の画像ベースのデータのために高い精度を有するトレーニングされた視覚認識機械学習アルゴリズムを提供することができる。しかしながら、他の視覚認識アルゴリズムを適用することも可能であり得る。例えば、トレーニングされた視覚認識ニューラルネットワークは、複数の畳み込み層および複数のプーリング層を含むことができる。しかしながら、例えば、畳み込みのために、カプセルネットワークが使用される場合および/またはストライド=1の代わりにストライド=2が使用される場合には、プーリング層を回避することができる。トレーニングされた視覚認識ニューラルネットワークは、正規化線形ユニット活性化関数を使用することができる。正規化線形ユニット活性化関数を使用することにより、生物学関連の画像ベースの入力データのための高精度のトレーニングされた視覚認識機械学習アルゴリズムを提供することができるが、他の活性化関数(例えばハードタン活性化関数、シグモイド活性化関数またはタン活性化関数)が適用可能な場合もある。例えば、トレーニングされた視覚認識ニューラルネットワークは、畳み込みニューラルネットワークを含むことができ、かつ/または入力画像のサイズに依存する深度のResNetまたはDenseNetであってよい。
複数の生物学関連の画像ベースの入力データセットまたは複数の生物学関連の言語ベースの入力データセットの複数の第2の高次元表現105は、(例えば、1つまたは複数のストレージデバイスによって格納された)データベースから第2の高次元表現105を受信することによって取得されてもよいし、あるいは複数の生物学関連の画像ベースの入力データセットもしくは複数の生物学関連の言語ベースの入力データセットに基づき複数の第2の高次元表現105を生成することによって取得されてもよい。例えば、システム100は、複数の第2の高次元表現が、複数の生物学関連の複数の画像ベースの入力データセットに基づいている場合、1つまたは複数のプロセッサによって実行されるトレーニングされた視覚認識機械学習アルゴリズムによって、複数の第2の高次元表現の所定の第2の高次元表現を生成することにより、第2の高次元表現を取得するように構成されてもよい。例えばトレーニングされた視覚モデルは、意味論的埋め込み空間における画像を表現できる場合がある(例えば第2の高次元表現として)。代替的に、システム100は、複数の第2の高次元表現が、複数の生物学関連の複数の言語ベースの入力データセットに基づいている場合、1つまたは複数のプロセッサによって実行されるトレーニングされた言語認識機械学習アルゴリズムによって、複数の第2の高次元表現の所定の第2の高次元表現を生成することにより、第2の高次元表現を取得するように構成されてもよい。任意選択的に、第2の高次元表現は、図6、図7aおよび/または図7bに関連して説明するようにクラスタリングされてもよく、次いで、第1の高次元表現が、クラスター中心の各第2の高次元表現と、またはクラスター中心に最も近い第2の高次元表現と比較されてもよい。
生物学関連の画像ベースの検索データ103と同様に、複数の生物学関連の画像ベースの入力データセットの各生物学関連の画像ベースの入力データセットは、ヌクレオチドもしくはヌクレオチド配列を含む生物学的構造、タンパク質もしくはタンパク質配列を含む生物学的構造、生物学的分子、生物学的組織、特定の挙動を有する生物学的構造および/または特定の生物学的機能もしくは特定の生物学的活動を有する生物学的構造の画像の画像データ(例えば、画像のピクセルデータ)であってもよい。トレーニングされた視覚認識機械学習アルゴリズムは、これらの画像の画像データを意味論的埋め込み(例えば第2の高次元表現)に変換することができる。複数の生物学関連の画像ベースの入力データセットは、1つまたは複数のストレージデバイスから、もしくはストレージデバイスによって格納されたデータベースから受信されてもよい。
複数の生物学関連の言語ベースの入力データセットの各生物学関連の言語ベースの入力データセットは、生物学的構造、生物学的機能、生物学的挙動、または生物学的活動に関連するテキスト形式入力であってもよい。例えば生物学関連の言語ベースの入力データセットは、ヌクレオチド配列、タンパク質配列、生物学的分子もしくは生物学的構造の記述、生物学的分子もしくは生物学的構造の挙動の記述および/または生物学的機能もしくは生物学的活動の記述であってもよい。テキスト形式入力は、実験もしくはデータセットの文脈における生物学的分子(例えば多糖類、ポリ/オリゴヌクレオチド、タンパク質、もしくは脂質)またはその挙動を記述する自然言語であってもよい。例えば、生物学関連の言語ベースの検索データ101は、ヌクレオチド配列、タンパク質配列、または生物学的用語のグループのうちの粗視化された検索用語であってもよい。
生物学的用語のグループは、同じ生物学的トピックに属する複数の粗視化された検索用語(またはいわゆる分子生物学的主題の見出し用語)を含むことができる。生物学的用語のグループは、触媒活性(例えば、抽出物および生成物の単語を使用したある種の反応方程式として)、触媒経路(例えば、どの経路が関与しているか、例えば糖分解)、触媒部位および/または触媒領域(例えば、結合部位、活性部位、ヌクレオチド結合部位)であってもよく、GO遺伝子オントロジー(例えば、分子機能、例えばニコチンアミドアデニンジヌクレオチドNAD結合、微小管結合)、GO生物学的機能(例えば、アポトーシス、グルコネオゲネシス)、酵素および/または経路データベース(例えば、BRENDA/EC番号またはUniPathwayにおける、例えば、sic機能のための一意の識別子)であってもよく、細胞内局在(例えば、サイトゾル、核、細胞骨格)、ファミリーおよび/またはドメイン(例えば、翻訳後修飾のための、例えば、結合部位、モチーフ)であってもよく、オープンリーディングフレーム、一塩基多型、制限部位(例えば、制限酵素によって認識されるオリゴヌクレオチド)および/または生合成経路(例えば、脂質、多糖類、ヌクレオチド、またはタンパク質の生合成)であってもよい。例えば、生物学的用語のグループは、細胞内局在のグループであってもよく、粗視化された検索用語は、サイトゾル、核および細胞骨格であってもよい。
複数の生物学関連の言語ベースの入力データセットのうちの生物学関連の言語ベースの入力データセットは、粗視化された検索用語が生物学関連の言語ベースの入力データセットとして使用される場合には、50文字未満(または30文字未満もしくは20文字未満)の長さを含むことができ、かつ/またはヌクレオチド配列もしくはタンパク質配列が生物学関連の言語ベースの入力データセットとして使用される場合には、20文字を超える(または40文字を超える、60文字を超える、もしくは80文字を超える)長さを含むことができる。例えば、ヌクレオチド配列(DNA/RNA)は、3つの塩基対がアミノ酸のためにコード化されているので、ポリペプチド配列(例えば、ペプチド、タンパク質)よりも約3倍長いことが多い。例えば、生物学関連の言語ベースの入力データセットは、生物学関連の言語ベースの入力データセットがタンパク質配列またはアミノ酸である場合には、20文字を超える長さを含むことができる。生物学関連の言語ベースの入力データセットは、生物学関連の言語ベースの入力データセットがヌクレオチド配列または自然言語での記述テキストである場合には、60文字を超える長さを含むことができる。例えば、生物学関連の言語ベースの入力データセットは、少なくとも1つの非数値文字(例えばアルファベット文字)を含むことができる。
トレーニングされた言語認識機械学習アルゴリズムは、テキスト形式モデル、テキストモデル、または言語モデルと称されてもよい。言語認識機械学習アルゴリズムは、トレーニングされた言語認識ニューラルネットワークであってもよく、あるいはトレーニングされた言語認識ニューラルネットワークを含むことができる。トレーニングされた言語認識ニューラルネットワークは、30を超える層(または50もしくは80を超える層)および/または500未満の層(または300もしくは200未満の層)を含むことができる。トレーニングされた言語認識ニューラルネットワークは、リカレントニューラルネットワーク、例えば長短期記憶ネットワークであってもよい。リカレントニューラルネットワーク、例えば長短期記憶ネットワークを使用することにより、生物学関連の言語ベースのデータのための高精度の言語認識機械学習アルゴリズムを提供することができる。しかしながら、他の言語認識アルゴリズムが適用可能な場合もある。例えば、トレーニングされた言語認識機械学習アルゴリズムは、可変長の入力データを取り扱うことができるアルゴリズム(例えばTransformer-XLアルゴリズム)であってもよい。例えば、第1の生物学関連の言語ベースの入力データセットの長さは、第2の生物学関連の言語ベースの入力データセットの長さとは異なる。タンパク質配列は、例えば、典型的には、数十~数百のアミノ酸の長さである(1つのアミノ酸がタンパク質配列における1文字として表現される)。「意味論」、例えば、(生物学ではポリペプチド、モチーフ、またはドメインと称される)配列からの部分文字列の生物学的機能は、長さにおいて可変である。したがって、可変長の入力を受信することができるアーキテクチャを使用することができる。
1つまたは複数のプロセッサ110は、第1の高次元表現を、複数の第2の高次元表現の各第2の高次元表現と比較するように構成されてもよい。第1の高次元表現は、第1の高次元表現と第2の高次元表現との間の距離を計算することによって、第2の高次元表現と比較されてもよい。第1の高次元表現と第2の高次元表現との間の距離(例えばユークリッド距離またはearth mover’s distance)は、第1の高次元表現と第2の高次元表現とがベクトル(例えば正規化されたベクトル)によって表現されている場合には、少ない労力で計算することができる。距離の計算は、複数の第2の高次元表現の第2の高次元表現ごとに繰り返されてもよい。例えば、第1の高次元表現と、複数の第2の高次元表現の各第2の高次元表現と、の比較は、ユークリッド距離関数またはearth mover’s distance関数に基づいている。計算された距離に基づくことにより、システム100は、選択基準(例えば最も近い距離を有するかまたは距離閾値内にある1つまたは複数の第2の高次元表現)に基づいて、1つまたは複数の第2の高次元表現を選択することができる。例えば、システム100は、比較に基づいて、複数の第2の高次元表現のうちの第1の高次元表現に最も近い第2の高次元表現を選択するように構成されてもよい。システム100は、選択基準を満たす1つまたは複数の第2の高次元表現、複数の生物学関連の画像ベースの入力データセットのうちの1つまたは複数の第2の高次元表現に対応する1つまたは複数の生物学関連の画像ベースの入力データセットおよび/または複数の生物学関連の言語ベースの入力データセットのうちの1つまたは複数の第2の高次元表現に対応する1つまたは複数の生物学関連の言語ベースの入力データセットを出力または格納することができる。例えば、システム100は、最も近い第2の高次元表現、複数の生物学関連の画像ベースの入力データセットのうちの最も近い第2の高次元表現に対応する生物学関連の画像ベースの入力データセットおよび/または複数の生物学関連の言語ベースの入力データセットのうちの最も近い第2の高次元表現に対応する生物学関連の言語ベースの入力データセットを出力および/または格納することができる。
0に等しくない複数のエントリを有する高次元表現を使用しているため、2つ以上の高次元表現の組み合わせが、2つ以上の検索用語の論理的な組み合わせを検索するために可能になる場合がある。例えば、ユーザは、2つ以上の検索画像および1つまたは複数の論理演算子(例えばAND演算子もしくはNOT演算子)を入力することができ、対応する生成された第1の高次元表現は、論理演算子に基づいて組み合わされてもよい。例えば、システム100は、第2の生物学関連の画像ベースの検索データおよび論理演算子に基づく情報を受信するように構成されてもよい。さらに、システム100は、1つまたは複数のプロセッサによって実行されるトレーニングされた言語認識機械学習アルゴリズムによって、第2の生物学関連の画像ベースの検索データの第1の高次元表現を生成することができる。付加的に、システム100は、論理演算子に従って、第1の生物学関連の画像ベースの検索データの第1の高次元表現と、第2の生物学関連の画像ベースの検索データの第1の高次元表現と、の組み合わせに基づき、結合された高次元表現を決定することができる。結合された高次元表現は、正規化された高次元表現(例えば正規化されたベクトル)であってよい。
さらに、システム100は、結合された高次元表現を、複数の第2の高次元表現の各第2の高次元表現と比較することができる。結合された高次元表現と、複数の第2の高次元表現の各第2の高次元表現と、の比較に基づいて、1つまたは複数の第2の高次元表現が、選択基準(例えば最も近い距離を有するかまたは距離閾値内にある1つまたは複数の第2の高次元表現)に基づいて選択されてもよい。
システム100は、選択基準を満たす1つまたは複数の第2の高次元表現、複数の生物学関連の画像ベースの入力データセットのうちの1つまたは複数の第2の高次元表現に対応する1つまたは複数の生物学関連の画像ベースの入力データセットおよび/または複数の生物学関連の言語ベースの入力データセットのうちの1つまたは複数の第2の高次元表現に対応する1つまたは複数の生物学関連の言語ベースの入力データセットを出力または格納することができる。選択された1つまたは複数の生物学関連の画像ベースの入力データセット(例えば、生物学的画像)または選択された1つまたは複数の生物学関連の言語ベースの入力データセット(例えば、生物学的テキスト)は、第1の生物学関連の画像ベースの検索データと、第2の生物学関連の画像ベースの検索データと、論理演算子に基づく情報とによって表される検索用語の論理的な組み合わせを含む生物学的構造を示すまたは記述することができる。このようにして、2つ以上の検索画像の論理的な組み合わせの検索が可能になる場合がある。論理演算子は、AND演算子、OR演算子またはNOT演算子であってよい。NOT演算子は、望ましくないヒットを抑制することができる。NOT演算は、否定された検索用語のための検索によって決定されてもよい。例えば、否定された検索用語の埋め込み(例えば第1の高次元表現)が生成され、反転されてもよい。次いで、否定された検索用語の埋め込みに最も近いk個の埋め込みが、画像に関連付けられた複数の埋め込み(複数の第2の高次元表現)の中から決定され、複数の埋め込みから除去されてもよい。任意選択的に、残りの複数の埋め込みの平均(例えばメドイドまたは算術平均)が決定されてもよい。この新規に計算された第2の高次元表現は、より正確なヒットを取得するための埋め込み空間における新規のクエリのために役立たせることができる。OR演算は、各検索用語についての最も近い要素もしくはk個(ただしkは2~Nの整数)の最も近い要素(第2の高次元表現)を決定することによって実装されてもよい。例えば、すべてのOR結合された検索用語は、ループ内で検索されてもよいし、最も近いもしくはk個の最も近いヒットが出力されてもよい。さらに、複数の論理演算子の組み合わせは、式を解析し、検索を順次もしくは内側から外側へ行うことによって可能になる場合がある。
例えば、論理演算子は、AND演算子であり、結合された高次元表現は、第1の生物学関連の画像ベースの検索データの第1の高次元表現および第2の生物学関連の画像ベースの検索データの第1の高次元表現を加算および/または平均化することによって決定される。例えば、第1の生物学関連の画像ベースの検索データの第1の高次元表現および第2の生物学関連の画像ベースの検索データの第1の高次元表現の算術平均が決定されてもよい。例えば、算術平均は、次式、
Figure 2022542752000002
によって決定されてもよい。ただし、yiは、第1の高次元表現であり、Nは、平均化されるベクトルの数(例えば論理結合された検索用語の数)である。算術平均の決定は、正規化された高次元表現をもたらすことができる。代替的に、幾何平均、調和平均、二次平均、またはメドイドが使用されてもよい。このメドイドは、穴を有する分布(例えばデータ点のない密閉領域)に関する大きな誤差を回避するために使用されてもよい。メドイドは、平均に最も近い要素を見つけることができる。メドイドmは、次式、
Figure 2022542752000003
によって定義されてもよい。ただし、Yは、埋め込み全体(複数の第2の高次元表現)であり、yiは、第2の高次元表現の1つであり、
Figure 2022542752000004
は、検索用語に対応する埋め込み(第1の高次元表現)であり、dは、距離メトリック(例えば、ユークリッド距離またはL2ノルム)である。例えば、平均に最も近いYの要素が見つけられてもよく、その後、メドイドに最も近いk個の要素が(例えばクイックソートアルゴリズムによって)決定されてもよい。
上述のように、生物学関連の画像ベースの検索データ103は、様々なタイプのものであってよい(例えば、ヌクレオチド配列もしくはタンパク質配列を含む生物学的構造の画像、または生物学的用語のグループのうちの粗視化された検索用語を表す生物学的構造の画像)。単一の視覚認識機械学習アルゴリズムは、1つのタイプの入力のみを処理するようにトレーニングされてよい。したがって、システム100は、生物学関連の画像ベースの検索データ103に基づいて、複数のトレーニングされた視覚認識機械学習アルゴリズムから所定の視覚言語認識機械学習アルゴリズムを選択するように構成されてもよい。例えば、複数のトレーニングされた視覚認識機械学習アルゴリズムは、1つまたは複数のストレージデバイス120によって格納されてもよく、システム100は、生物学関連の画像ベースの検索データ103として受信した入力のタイプに依存して、トレーニングされた視覚認識機械学習アルゴリズムの1つを選択することができる。例えば、トレーニングされた視覚認識機械学習アルゴリズムは、生物学関連の画像ベースの検索データ103を分類するように構成された分類アルゴリズム(例えば視覚認識機械学習アルゴリズム)によって、複数のトレーニングされた視覚認識機械学習アルゴリズムから選択されてもよい。
システム100は、顕微鏡に実装されてもよいし、顕微鏡に接続されてもよいし、あるいは顕微鏡を含むことができる。顕微鏡は、1つまたは複数の生物学的標本の画像を撮像することによって、生物学関連の画像ベースの検索データ103および/または複数の生物学関連の画像ベースの入力データセットを取得するように構成されてもよい。複数の生物学関連の画像ベースの入力データセットは、1つまたは複数のストレージデバイス120によって格納されてもよく、かつ/または複数の第2の高次元表現を生成するために提供されてもよい。
システム100のさらなる詳細および態様は、提案されているコンセプトおよび/または上記もしくは下記(例えば、図2~図7)の1つまたは複数の例に関連して言及される。システム100は、提案されているコンセプトおよび/または上記もしくは下記の1つまたは複数の例の1つまたは複数の態様に対応する1つまたは複数の追加的なオプションの特徴を含むことができる。
図2は、一実施形態による、生物学関連のデータを処理するためのシステム200の概略図を示す。ユーザは、画像201(例えば生物学関連の画像ベースの検索データ)を、例えば特定のタンパク質配列またはヌクレオチド配列を含む生物学的構造の画像として使用してクエリを開始することができる。例えば、システム200は、テキスト形式モデルの意味論的埋め込みに基づいてトレーニングされ、タンパク質配列(例えばタンパク質配列データベース)、ヌクレオチド配列(例えばヌクレオチド配列データベース)、科学刊行物(例えば生物関連の刊行物のデータベース)、またはブログ投稿、研究グループのホームページ、オンライン記事、ディスカッションフォーラム、ソーシャルメディアへの投稿などの関心オブジェクトの役割および/または生物学的機能を説明する他のテキストの多くに基づいてトレーニングされた視覚モデル220(例えばCNN)を含む。例えば、視覚モデル220は、以下で説明するように、トレーニング中にこれらの意味論的埋め込みが予測されるように学習されてきたが、モデルをトレーニングする他の手法が可能な場合もある。ユーザ入力201(例えばクエリテキスト)は、最初に視覚モデル210によって各クラス(例えばタンパク質配列またはヌクレオチド配列を含む生物学的構造の画像)に分類されてもよく、システム200は、入力テキストのクラスを処理するために必要な1つまたは複数の視覚モデルを含むそのようなモデルのリポジトリから、このクラスに対する適正な第2の視覚モデル230を見つけることができる。次いで、クエリ画像201は、予めトレーニングされた各視覚モデル230(トレーニングされた視覚認識機械学習アルゴリズム)を通る順方向パスを使用して、各埋め込み260(第1の高次元表現)に変換される。データベース240内の(例えば、1つまたは複数のストレージデバイスによって格納されている)画像データまたは顕微鏡における実行中の実験の一部としての画像データは、予めトレーニングされた視覚モデル220を通る順方向パスを介して各埋め込み250(複数の第2の高次元表現)に変換されてもよい。予めトレーニングされた視覚モデル220および第2の視覚モデル230は、同じ視覚モデル(トレーニングされた視覚認識機械学習アルゴリズム)であってもよい。例えば性能上の理由から、この部分は、ユーザクエリに先行して実行し、適切なデータベース255に格納することができ(例えば1つまたは複数のストレージデバイスによって格納される)、あるいは例えば画像データと共に格納することができる。データベース240およびデータベース255は、同一もしくは同じであってもよいが、それらは異なるデータベースであってもよい。しかしながら、実行中の実験のように単一もしくは少数の画像について、画像の順方向パスは、オンザフライで行うことができ、したがって、視覚的埋め込み250の中間ストレージ255をバイパスすること257ができる。例えば、画像リポジトリ240は、パブリックもしくはプライベートデータベースを表すことができ、あるいは実行中の実験の間に顕微鏡の記録媒体を表すことができる。生成された2つの種類の埋め込み、つまりクエリテキスト260に対する埋め込みおよび画像に対する埋め込み250は、埋め込み空間において比較すること270ができる(例えば、それらの相対距離を計算することができる)。ユークリッド距離またはEarth mover’s distanceなどの様々な距離メトリックをこの比較のために使用することができる。他の距離メトリックが使用されてもよい(例えば、クラスタリングにおいて使用される距離メトリック)。例えば、最も近い埋め込み280を決定し、各画像290をリポジトリ240内で検索してユーザに戻してもよい。戻される画像の数は、ユーザによって予め決定されてもよいし、距離閾値もしくは他の基準に従って計算されてもよい。例えば、1つまたは複数の最も近い埋め込みのための検索は、複数の埋め込み250(複数の第2の高次元表現)からk個(ただしkは整数)の最も近い要素を提供することができる。例えば、検索クエリの埋め込みと複数の埋め込み250のすべての要素との間のユークリッド距離(L2ノルム)が決定されてもよい。結果としての距離(例えば、複数の埋め込みにおける要素と同じ数)は、ソートされてもよいし、最小の距離を有する要素もしくはk個の最小の距離を有するk個の要素が出力されてもよい。
システム200のさらなる詳細および態様は、提案されているコンセプトおよび/または上記もしくは下記(例えば、図1、図3~図7)の1つまたは複数の例に関連して言及される。システム200は、提案されているコンセプトおよび/または上記もしくは下記の1つまたは複数の例の1つまたは複数の態様に対応する1つまたは複数の追加的なオプションの特徴を含むことができる。
図3は、一実施形態による、生物学関連のデータを処理するためのシステム300の概略図を示す。ユーザは、画像201(例えば生物学関連の画像ベースの検索データ)を、例えば特定のタンパク質配列またはヌクレオチド配列を含む生物学的構造の画像として使用してクエリを開始することができる。任意選択的に、適切な分類器210(例えばニューラルネットワーク、入力タイプに依存した統計的機械学習アルゴリズム)を使用したクエリ201の事前分類が実行されてもよい。この事前分類は、いくつかの実施形態では、スキップすることができる315。事前分類の結果は、適切なモデル230を選択するために使用されてもよく、これは、特徴抽出器として機能する予めトレーニングされたモデル230によって、ユーザクエリ201を、関連する意味論的埋め込み260に変換することができる。
ユーザ入力と、データソース240から到来する画像とが、この意味論的埋め込み空間内で結合されて処理される。データソース240は、プライベートもしくはパブリックデータリポジトリ、または顕微鏡などの撮像デバイスであり得る。データは、タイプ画像、テキスト、粗視化された検索用語、またはデータソースによって記録された器具固有データであってもよい。例えば、テキスト形式モデルの意味論的埋め込みに基づいてトレーニングされ、タンパク質配列(例えばタンパク質配列データベース)、ヌクレオチド配列(例えばヌクレオチド配列データベース)、科学刊行物(例えば生物学関連の刊行物のデータベース)、またはブログ投稿、研究グループのホームページ、オンライン記事、ディスカッションフォーラムもしくはソーシャルメディアへの投稿などの関心オブジェクトの役割および生物学的機能を説明する他のテキストの多くに基づいてトレーニングされた視覚モデル220(例えばCNN)が含まれていてもよい。視覚モデル220は、トレーニング中にこれらの意味的埋め込みを予測するように予めトレーニングされたものであってもよい。第1の視覚モデル220と入力特徴抽出器230(例えば第2の視覚モデル)の両方は、例えば、同じ埋め込み空間上でトレーニングされる。第1の視覚モデル220および特徴抽出器230は、同じ視覚モデル(トレーニングされた視覚認識機械学習アルゴリズム)であってもよい。次いで、クエリ201は、入力特徴抽出器230を通る順方向パスを使用して、その各埋め込み260に変換される。データベース、または顕微鏡における実行中の実験の一部であるデータソース240からのデータは、予めトレーニングされたモデル220(視覚モデル)を通る順方向パスを介してその各埋め込み250に変換されてもよい。例えば、性能上の理由から、この手順は、ユーザクエリに先行して行われ、意味論的埋め込みは、適切なデータベース255に、または例えば画像データと共に格納され得る。データベース240およびデータベース255は、同一もしくは同じであってもよいが、それらは異なるデータベースであってもよい。しかしながら、実行中の実験のように単一もしくは少数の画像について、画像の順方向パスは、オンザフライで行うことができ、したがって、視覚的埋め込みの中間ストレージ255をバイパスすること257ができる。生成された2種類の埋め込み、すなわちクエリ260に対する1つの埋め込みならびにデータソースに対する埋め込み250は、ここでは、埋め込み空間において比較すること270ができる(例えばそれらの相対距離を計算することができる)。この比較のために、ユークリッド距離またはEarth mover’s distanceなど、異なる距離メトリックを使用することができる。他の距離メトリックが使用されてもよい。例えば、クラスタリングにおいて使用される距離メトリックが機能する場合がある。
システム300は、最も近い埋め込み280を決定することができ、リポジトリ240または実行中の実験における各データ(例えば画像)を検索し、それらのデータを戻すこと381ができる。最後のステップは、実施形態の正確な目的に依存して異なる下流のプロセスステップをもたらすことができる。いくつかのケースでは、サンプル座標およびステージ座標に関して発見されたオブジェクトの座標などのデータによって、実行中の実験のコースを変更することができる画像ソース(例えば顕微鏡)に供給することが必要になる場合がある(383)。いくつかの実施形態では、各データは、実行中の実験を調整するかまたはさらなるデータを処理することを決定することができるユーザ385に出力されてもよい。他の実施形態は、各データを、さらなる検索のためにデータベース387にアーカイブすることができる。代替的に、まだ意味論的埋め込み空間における各データは、任意の入力データタイプに戻すように変換されてもよいし、科学刊行物、ソーシャルメディアへのエントリもしくはブログ投稿390、同じ生物学的分子の画像393、または配列アライメントによって識別されたものとしての生物学的配列395を検索するパブリックデータベース389に問い合わせするために使用されてもよい。見つけられた情報はすべて、現在実行中の実験または検索されたデータに由来するリポジトリに記録された画像の機能的な注釈として、ユーザ385に戻すことができ、かつ/またはデータベース387に書き込むことができる。
図3は、画像クエリを使用した画像間検索の一例を示すことができる。1つの実施形態では、画像リポジトリ240は、パブリックもしくはプライベートデータベースを表すことができ、別の実施形態では、画像リポジトリ240は、実行中の実験の間に顕微鏡の記録媒体を表すことができる。
システム300のさらなる詳細および態様は、提案されているコンセプトおよび/または上記もしくは下記(例えば、図1~図2および図4~図7)の1つまたは複数の例に関連して言及される。システム300は、提案されているコンセプトおよび/または上記もしくは下記の1つまたは複数の例の1つまたは複数の態様に対応する1つまたは複数の追加的なオプションの特徴を含むことができる。
図4は、一実施形態による、顕微鏡を制御するためのシステム400の概略図を示す。システム400は、1つまたは複数のプロセッサ110および1つまたは複数のストレージデバイス120を含んでいる。システム400は、画像ベースの検索データ401を受信するように構成され、かつ1つまたは複数のプロセッサ110によって実行されるトレーニングされた視覚認識機械学習アルゴリズムによって画像ベースの検索データ401の第1の高次元表現を生成するように構成されている。第1の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリ(または互いに異なる値を有する少なくとも20のエントリ、少なくとも50のエントリ、もしくは少なくとも100のエントリ)を含む。さらに、システム400は、複数の画像ベースの入力データセットの複数の第2の高次元表現405を取得するように構成され、かつ1つまたは複数のプロセッサ110によって実行された第1の高次元表現と複数の第2の高次元表現の各第2の高次元表現405との比較に基づいて、複数の第2の高次元表現から1つの第2の高次元表現405を選択するように構成されている。付加的に、このシステム400は、選択された第2の高次元表現405に基づいて、顕微鏡の動作を制御するための制御信号411を提供するように構成されている。
画像ベースの検索データ401は、分析すべき検体の画像の画像データ(例えば、画像のピクセルデータ)であってもよい。分析すべき検体は、生物学的標本、集積回路、または顕微鏡によって撮像することのできる任意の他の検体であってもよい。例えば、検体が生物学的標本である場合、画像ベースの検索データ401は、ヌクレオチドまたはヌクレオチド配列を含む生物学的構造、タンパク質またはタンパク質配列を含む生物学的構造、生物学的分子、生物学的組織、特定の挙動を有する生物学的構造および/または特定の生物学的機能もしくは特定の生物学的活動を有する生物学的構造の画像であってもよい。例えば、検体が集積回路である場合、画像ベースの検索データ401は、サブ回路(例えばメモリセル、コンバータセル、ESD保護回路)、回路素子(例えばトランジスタ、キャパシタ、もしくはコイル)、または構造素子(例えばゲート、ビア、パッド、もしくはスペーサ)の画像であってもよい。
複数の第2の高次元表現405は、データベースから取得されてもよいし、または視覚認識機械学習アルゴリズムによって生成されてもよい。例えば、システム400は、1つまたは複数のプロセッサ110によって実行される視覚認識機械学習アルゴリズムによって、複数の画像ベースの入力データセットの複数の第2の高次元表現405を生成するように構成されていてもよい。
顕微鏡は、検体の複数の画像を撮像するように構成されてもよい。複数の画像ベースの入力データセットは、検体の複数の画像を表すことができる。複数の画像ベースの入力データセットは、顕微鏡によって検体から撮像された画像の画像データであってもよい。例えば、複数の画像は、所望の倍率で単一の画像によって撮像するのには大きすぎる検体全体もしくは検体の関心領域をカバーするために、検体の異なる位置から撮像されてもよい。複数の画像の各画像の画像データは、複数の画像ベースの入力データセットのうちの1つの画像ベースの入力データセットを表すことができる。システム400は、画像が撮像された位置を格納するように構成されてもよい。これらの位置は、対応する画像と共に、または対応する第2の高次元表現405と共に格納されてもよい。システム400は顕微鏡を含むことができ、または顕微鏡がシステム400に接続されていてもよく、または顕微鏡がシステム400を含むこともできる。
システム400は、複数の第2の高次元表現のうちの選択基準(例えば第1の高次元表現に最も近い第2の高次元表現)を満たす第2の高次元表現を選択することができる。第1の高次元表現と複数の第2の高次元表現の各第2の高次元表現との比較により、第1の高次元表現に最も近い1つまたは複数の第2の高次元表現を提供することができる。システム400は、この比較に基づいて、第1の高次元表現に最も近い複数の第2の高次元表現の1つまたは複数の第2の高次元表現を選択するように構成されてもよい。
システム400は、選択された第2の高次元表現に基づいて顕微鏡ターゲット位置を決定するように構成されてもよい。顕微鏡ターゲット位置は、選択された第2の高次元表現に対応する、画像が撮像された位置であってもよい。例えば顕微鏡ターゲット位置は、選択された第2の高次元表現と共に、または選択された第2の高次元表現に対応する画像と共に格納された位置であってもよい。顕微鏡ターゲット位置は、選択された第2の高次元表現に対応する画像ベースの入力データによって表された画像が撮像された位置であってもよい。
システム400は、決定された顕微鏡ターゲット位置に基づいて、顕微鏡の動作を制御するための制御信号を提供するように構成されてもよい。この制御信号411は、運動、倍率、光源選択、フィルタ選択および/または他の顕微鏡機能を制御するために顕微鏡に提供される電気信号であってもよい。例えば、制御信号411は、顕微鏡ターゲット位置まで駆動するために顕微鏡をトリガするように構成されていてもよい。例えば、顕微鏡の光学系および/または検体テーブルは、制御信号411に応じて顕微鏡ターゲット位置まで移動されてもよい。このようにして、検索の結果であった位置における検体からさらなる画像を撮像することができる。例えば、より高い倍率、異なる光源および/または異なるフィルタを有する画像を、関心領域から撮像することができる。例えば、言語ベースの検索データ405は、大きな生物学的標本における細胞核のための検索を表すことができ、システム400は、顕微鏡を細胞核の位置まで駆動させるための制御信号411を提供することができる。複数の細胞核が見つけられるならば、システム400は、制御信号411を供給するように構成されてもよく、それにより、この顕微鏡は、これらの位置でより多くの画像を撮像するために、順次異なる位置に駆動される。
システム400のさらなる詳細および態様は、提案されているコンセプトおよび/または上記もしくは下記(例えば、図1~図3および図5~図7)の1つまたは複数の例に関連して言及される。システム400は、提案されているコンセプトおよび/または上記もしくは下記の1つまたは複数の例の1つまたは複数の態様に対応する1つまたは複数の追加的なオプションの特徴を含むことができる。
図5は、一実施形態による、生物学関連の画像ベースの検索データに基づいて、顕微鏡を制御するためのシステム500の概略図を示す。このシステム500は、図4に関連して説明したシステムと同様に実装されてもよい。システム500は、ユーザによって提供されたクエリ画像に類似する画像を見つけることができる場合があり、実行中の実験を変更することができる。顕微鏡501は、見つけられた類似画像のすべての位置にステージを戻すことができる。
例えばユーザは、画像を入力550(例えば生物学関連の画像ベースの検索データ)として使用するクエリを開始することができ、実験を開始することができる。上記もしくは下記のように、ユーザ入力は、予めトレーニングされた視覚モデル220を通過させてもよい。この視覚モデル220を通る順方向パスは、画像260の意味論的埋め込み(第1の高次元表現)を作成することができる。顕微鏡501は、一連の画像510(例えば上記もしくは下記で定義されるような一連のタイプ)を作成することができる。画像510は、各埋め込み250(複数の第2の高次元表現)を作成するために、前と同じ視覚モデル220を順方向に通過させてもよい。これらの後者の埋め込みとユーザクエリからの埋め込みとの間の距離は、ステップ270で計算されてもよい。この距離を閾値処理することによって定義される類似画像または予め決定されたもしくは自動的に見つけられた検索結果の数が、記録された埋め込み250の中から見つかる場合もある。これらの各座標は、ステップ580で見つけられてもよいし、ステップ595でこれらの新規の座標を記録するために順に実験を変更することができる顕微鏡にステップ590で戻されてもよい。座標のタイプや実験の変更の詳細については、例えば上記もしくは下記に記載されている。1つの画像のみの問い合わせの代わりに、ユーザは、複数の画像を同時に問い合わせるために送信することができる。
この実施形態の変形形態では、クエリ画像550は、ユーザによって手動で入力されていなくてもよいが、同じまたは別の撮像デバイスの別の実験の結果であってもよく、これは、この実験に対するクエリを自動的にトリガする。この実施形態の別の変形形態では、クエリ画像550は、データベースから(例えば、順に手動で、または撮像装置もしくは実験装置によって入力され得る検索クエリの結果として)到来し、この実験に対するクエリを自動的にトリガすることができる。
図5は、ユーザによって定義された入力画像に基づいて実行中の実験を問い合わせするための画像間検索の一例を示すことができる。
システム500のさらなる詳細および態様は、提案されているコンセプトおよび/または上記もしくは下記(例えば、図1~図4および図6~図11)の1つまたは複数の例に関連して言及される。システム500は、提案されているコンセプトおよび/または上記もしくは下記の1つまたは複数の例の1つまたは複数の態様に対応する1つまたは複数の追加的なオプションの特徴を含むことができる。
図6は、一実施形態による、顕微鏡を制御するためのシステムの概略図を示す。このシステム600は、1つまたは複数のストレージデバイス120に結合された1つまたは複数のプロセッサ110を含む。システム600は、1つまたは複数のプロセッサ110によって実行されるクラスタリングアルゴリズムによって、複数の画像ベースの入力データセットの複数の第2の高次元表現405の複数のクラスターを決定するように構成されている。さらに、このシステム600は、複数のクラスターの所定のクラスターのクラスター中心の第1の高次元表現を決定し、かつ第1の高次元表現と複数の第2の高次元表現の各第2の高次元表現405またはそのサブセットとの比較に基づいて、複数の第2の高次元表現から1つの第2の高次元表現405を選択するように構成されている。付加的に、このシステム600は、選択された第2の高次元表現に基づいて、顕微鏡の動作を制御するための制御信号411を提供するように構成されている。
第2の高次元表現405の1つのクラスターは、互いに小さな距離を含む複数の第2の高次元表現405を表すことができる。例えば、1つのクラスターの第2の高次元表現405は、他のクラスターの第2の高次元表現405よりも互いに小さな距離を含むことができ、かつ/または複数のクラスターの任意の他のクラスター中心に対してよりも自身のクラスターのクラスター中心に対してより小さな距離を含むことができる。複数のクラスターの各クラスターは、少なくとも5つ(または少なくとも10、少なくとも20、もしくは少なくとも50)の第2の高次元表現405を含むことができる。
クラスタリングアルゴリズムは、機械学習アルゴリズム、例えば、k平均クラスタリングアルゴリズム、平均シフトクラスタリングアルゴリズム、kメドイドクラスタリングアルゴリズム、サポートベクターマシンアルゴリズム、ランダムフォレストアルゴリズム、または勾配ブースティングアルゴリズムであってもよいし、これらを含むこともできる。
システム600は、複数のクラスターの各クラスターについて、クラスター中心の第1の高次元表現を決定することができる。システム600は、例えば、クラスターの第2の高次元表現と、クラスターのすべての第2の高次元表現に対して最小の全体距離を有する第2の高次元表現との線形結合、またはクラスターの第2の高次元表現の非線形結合を計算することによって、クラスター中心の第1の高次元表現を決定することができる。
システム600は、1つまたは複数のプロセッサ110によって実行される視覚認識機械学習アルゴリズムによって、複数の画像ベースの入力データセットの複数の第2の高次元表現を生成するように構成されてもよい。
システム600は、比較に基づいて、前記複数の第2の高次元表現のうちの前記第1の高次元表現に最も近い1つまたは複数の第2の高次元表現を選択するように構成することができる。
システム600は、選択された第2の高次元表現に基づいて顕微鏡ターゲット位置を決定するように構成されてもよい。顕微鏡ターゲット位置は、選択された第2の高次元表現に対応する画像ベースの入力データによって表された画像が撮像された位置であってもよい。制御信号は、顕微鏡ターゲット位置まで駆動するために顕微鏡をトリガするように構成されてもよい。
システム600は、検体の複数の画像を撮像するように構成された顕微鏡をさらに含むことができる。複数の画像ベースの入力データセットは、検体の複数の画像を表すことができる。
システム600のさらなる詳細および態様は、提案されているコンセプトおよび/または上記もしくは下記(例えば、図1~図5および図7a~図11)の1つまたは複数の例に関連して言及される。システム600は、提案されているコンセプトおよび/または上記もしくは下記の1つまたは複数の例の1つまたは複数の態様に対応する1つまたは複数の追加的なオプションの特徴を含むことができる。
図7aは、一実施形態による、クラスタリングアルゴリズムを使用することによって生物学関連の画像ベースの検索データに基づき顕微鏡を制御するためのシステム700の概略図を示す。このシステム700は、図6に関連して説明したシステムと同様に実装されてもよい。顕微鏡501は、一連の画像510を生成することができ、これらの一連の画像510の座標が格納されている。以下で説明するように予めトレーニングされた視覚モデル220は、順方向パスを用いて、各埋め込み250(例えば、潜在ベクトル、複数の第2の高次元表現)を計算することができる。結果としての埋め込みセット250は、k平均クラスタリング、平均シフトクラスタリングなどの適切なクラスタリングアルゴリズム740によってクラスタリングされてもよい。各クラスターについて中心750が、各潜在ベクトル250の組み合わせを計算することによって決定されてもよい。例えば、(クラスターの第2の高次元表現の)線形組み合わせが使用されてもよい。非線形を含む他の組み合わせが代替的に適用されてもよい。このようにして、潜在的なベクトル自体であるクラスター中心760が取得されてもよい。上記もしくは下記のように適切な距離メトリックを適用することによって、画像検索は、それらの埋め込みが見つけられたクラスター中心に最も類似しているそれらの画像を取得するために、獲得された一連の画像510に基づいて実行すること770ができる。類似度閾値は、自動的に計算され、ユーザによって提供されてもよいし、かつ/または検索結果をユーザに表示し、所望の画像をユーザに選択させることによって取得および/または緻密化させてもよい。緻密化された検索結果の座標がステップ580で取得されて、ステップ590で顕微鏡に戻されてもよく、この顕微鏡は、順に、これらの座標で新規の画像を記録するステップ595のために実験を変更することができる。これらの新規の画像は、顕微鏡で利用可能な(例えば、異なる照明設定もしくは検出設定、異なる対物レンズ、ズームなど)任意のハードウェアパラメータ(例えば1つまたは複数またはすべてのパラメータ)に関して、以前と同じ機器設定もしくは異なる機器設定を有することができる。すべてのステップ580、590および595では、ユーザが任意選択的に検索結果を緻密化することができる、あるいはどの座標を獲得するか、どの画像モダリティを使用するか、どのクラスの画像を獲得し、どれを無視するかについて決定を下すことができるユーザ対話が可能であってもよい。
上記のような意味での座標は、ステージ位置(横方向位置)、タイムスタンプ、z位置(軸方向位置)、照明波長、検出波長、(例えばライトシート顕微鏡法におけるような)ミラー位置、ループ内の反復数、サンプル内の論理的位置(マルチウェルプレート内のウェルまたはマルチポジショニング実験における規定位置など)、時間ゲート記録における時間ゲート、蛍光寿命画像におけるナノ秒タイムスタンプおよび/または一連の画像を記録できる次元に沿って顕微鏡が利用できる他の任意のハードウェアパラメータであってもよい。
図7aは、意味論的埋め込みの教師なしクラスタリングを使用することによって実行中の実験を問い合わせするための画像間検索の一例を示すことができる。
システム700のさらなる詳細および態様は、提案されているコンセプトおよび/または上記もしくは下記(例えば、図1~図6および図7b~図11)の1つまたは複数の例に関連して言及される。システム700は、提案されているコンセプトおよび/または上記もしくは下記の1つまたは複数の例の1つまたは複数の態様に対応する1つまたは複数の追加的なオプションの特徴を含むことができる。
図7bは、一実施形態による、クラスタリングアルゴリズムを使用することによって生物学関連のデータを処理するためのシステム790の概略図を示す。このシステム790は、図6および/または図7aに関連して説明したシステムと同様に実装されてもよい。
顕微鏡501は、意味論的埋め込み250を計算するために予めトレーニングされた視覚モデル220を通過する一連の画像510を生成することができる。後者は、図6および/または図7aに関連して説明したのと同様にクラスタリングされている。任意の新規のクラスターまたは用語番号閾値もしくは距離測定閾値によって定義される外れ値は、k平均クラスタリング、平均シフトクラスタリングなどの適切なクラスタリングアルゴリズム740によって識別されてもよい。例えば、4つの動作のうちの1つまたはそれらの組み合わせがその後に行われてもよい。新規のクラスターの座標は、現下で実行中の実験を変更し、例えば図7bに関連して説明したように画像モダリティを変更するステップ791のために顕微鏡に送信してもよい。付加的または代替的に、新規に見つけられた意味論的埋め込みのクラスターに対応する画像は、順に現下で実行中の実験を変更することができるか、または取るべき他の行動について決定を下すことができるユーザ792に戻されてもよい。付加的または代替的に、新規に見つけられた埋め込みおよびそれらの対応する画像ならびにメタデータは、将来的な検索のための注釈としてリポジトリ793に格納されてもよい。付加的または代替的に、新規に見つけられたクラスターの意味論的埋め込みは、生物学的配列、自然言語、または粗視化された検索用語に変換することができ、科学刊行物、ソーシャルメディアへのエントリもしくはブログ投稿795、同じ生物学的分子796の画像、または配列アライメント797によって識別されたものとしての生物学的配列を検索するパブリックデータベース794に問い合わせするために使用されてもよい。見つけられた情報はすべて、現在実行中の実験に記録された画像の機能的な注釈として、ユーザに戻すことができ、かつ/またはデータベースに書き込むことができる。
システム790は、新規の関心構造(例えば表現型)の識別を可能にすることができる。
1つの態様によれば、クラスタリングは、記録中に行われてもよい。このようにして、生物学的表現型に対応し得る様々なクラスの画像が認識されてもよい。(例えば、kメドイドクラスタリングのk平均法によって決定される)これらの画像の例は、ユーザに提示されてもよい。ユーザは、どの表現型が検体に含まれているかを認識することができる。ユーザは、これらの表現型を手動で検索する時間を節約することができ、またどれくらいの頻度で表現型が出現するかについての記述統計も付加的に得ることができる。さらに、表現型の無関係なクラスまたは実験的なアーチファクトが、(例えば、より高い解像度もしくは時系列で)詳細な記録において検出されて省かれてもよい。このようにして、記録のための時間と後続のデータ分析のための時間とが節約されてもよい。
1つの態様によれば、(例えば、実行中の実験の画像を使用する代わりに)既に利用可能なデータが、それらの格納された意味論的埋め込みに基づき、教師なしクラスタリングによって分析されてもよい。このようにして、既存のクラスが検出されてもよい。これらのクラスは、注釈としてデータベースに追加されて、さらに将来的な検索のために使用されてもよい。
1つの態様によれば、実行中の実験のデータは、教師なしクラスタリングによって分類され、さらに(例えば、図7aのように)処理されてもよい。
システム790のさらなる詳細および態様は、提案されているコンセプトおよび/または上記もしくは下記(例えば図1~図7aおよび図8~図11)の1つまたは複数の例に関連して言及される。システム790は、提案されているコンセプトおよび/または上記もしくは下記の1つまたは複数の例の1つまたは複数の態様に対応する1つまたは複数の任意付加的特徴を含むことができる。
図1~図7bのうちの1つに関連して説明するシステムは、1つまたは複数のプロセッサと、コンピュータデバイスに配置された1つまたは複数のストレージデバイスとを有するコンピュータデバイス(例えばパーソナルコンピュータ、ラップトップ、タブレットコンピュータ、または携帯電話)を含むことができ、またはそのようなコンピュータデバイスであってもよい。あるいはシステムは、分散型コンピューティングシステム(例えば、ローカルクライアントおよび1つまたは複数のリモートサーバファームおよび/またはデータセンター等の様々な場所に分散されている1つまたは複数のプロセッサおよび1つまたは複数のストレージデバイスを有するクラウドコンピューティングシステム)であってもよい。システムは、システムの様々なコンポーネントを結合するためのシステムバスを含むデータ処理システムを含むことができる。このシステムバスは、システムの様々なコンポーネント間の通信リンクを提供することができ、さらにシングルバスとして、複数のバスの組み合わせとして、または任意の他の適切な手法で実装されてもよい。システムバスには、電子アセンブリを結合することができる。電子アセンブリは、任意の回路または回路の組み合わせを含んでいてもよい。1つの実施形態では、電子アセンブリは、任意の種類のものとすることができる、プロセッサを含んでいる。本明細書で使用されるように、プロセッサは、例えば、顕微鏡または顕微鏡部品(例えば、カメラ)のマイクロプロセッサ、マイクロコントローラ、複合命令セットコンピューティング(CISC)マイクロプロセッサ、縮小命令セットコンピューティング(RISC)マイクロプロセッサ、超長命令語(VLIW)マイクロプロセッサ、グラフィックプロセッサ、デジタル信号プロセッサ(DSP)、マルチコアプロセッサ、フィールド・プログラマブル・ゲート・アレイ(FPGA)、または任意の他の種類のプロセッサまたは処理回路等のあらゆる種類の計算回路を意図していてもよいが、これらに限定されない。電子アセンブリに含まれ得る他の種類の回路は、カスタム回路、特定用途向け集積回路(ASlC)等であってもよく、例えばこれは、携帯電話、タブレットコンピュータ、ラップトップコンピュータ、双方向無線機および類似の電子システム等の無線装置において使用される1つまたは複数の回路等(通信回路等)である。システムは、ランダムアクセスメモリ(RAM)の形態のメインメモリ等の特定の用途に適した1つまたは複数の記憶素子を順に含み得る1つまたは複数のストレージデバイス、1つまたは複数のハードドライブおよび/またはコンパクトディスク(CD)、フラッシュメモリカード、デジタルビデオディスク(DVD)等のリムーバブルメディアを処理する1つまたは複数のドライブ等を含んでいる。システムは、ディスプレイデバイス、1つまたは複数のスピーカおよびキーボード、かつ/またはマウス、トラックボール、タッチスクリーン、音声認識デバイスを含み得るコントローラ、あるいはシステムのユーザがシステムに情報を入力することおよびシステムから情報を受信することを可能にする任意の他のデバイスを含むこともできる。
付加的に、システムは、コンピュータデバイスまたは分散型コンピューティングシステムに接続された顕微鏡を含むことができる。顕微鏡は、1つまたは複数の検体から画像を撮像することによって生物学関連の画像ベースの入力データセットを生成するように構成されてもよい。
顕微鏡は、光学顕微鏡(例えば超解像顕微鏡またはナノ顕微鏡のような、回折限界顕微鏡またはサブ回折限界顕微鏡)であってもよい。顕微鏡は、取り付けられたコンポーネント(例えば、共焦点スキャナ、付加的カメラ、レーザー、気候室、自動装填機構、液体処理システム、付加的多光子光路、光ピンセットなどの取り付けられた光学的コンポーネント)を有するスタンドアロン顕微鏡または顕微鏡システムであってよい。生物学的配列(例えば、タンパク質、核酸、脂質)または例えば他の検体に関連するオブジェクトの画像を撮像することができるならば、他の画像ソースが使用されてもよい。例えば、上記または下記の実施形態による顕微鏡により、深部を発見する顕微鏡法が可能となり得る。
本システムのさらなる詳細および態様は、提案されているコンセプトおよび/または上記もしくは下記(例えば図1~図11)の1つまたは複数の例に関連して言及される。本システムは、提案されているコンセプトおよび/または上記もしくは下記の1つまたは複数の例の1つまたは複数の態様に対応する1つまたは複数の追加的なオプションの特徴を含むことができる。
いくつかの実施形態は、図1~図7bのうちの1つまたは複数に関連して説明したようなシステムを含む顕微鏡に関する。代替的に、顕微鏡は、図1~図7bのうちの1つまたは複数に関連して説明したようなシステムの一部であってもよいし、当該システムに接続されていてもよい。図8は、一実施形態による、データを処理するためのシステム800の概略図を示す。1つまたは複数の検体(例えば生物学的標本または集積回路)の画像を撮像するように構成された顕微鏡810は、データを処理するように構成されたコンピュータデバイス820(例えばパーソナルコンピュータ、ラップトップ、タブレットコンピュータ、または携帯電話)に接続されている。顕微鏡810およびコンピュータデバイス820は、図1~図7bのうちの1つまたは複数に関連して説明したように実装されてもよい。
図9は、一実施形態による、生物学関連の画像ベースの検索データを処理するための方法のフローチャートを示す。方法900は、生物学関連の画像ベースの検索データを受信するステップ910と、トレーニングされた視覚認識機械学習アルゴリズムによって、生物学関連の画像ベースの検索データの第1の高次元表現を生成するステップ920と、を含む。第1の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリを含む。さらに、方法900は、複数の生物学関連の画像ベースの入力データセットまたは複数の生物学関連の言語ベースの入力データセットの複数の第2の高次元表現を取得するステップ930を含む。付加的に、方法900は、第1の高次元表現を、複数の第2の高次元表現の各第2の高次元表現と比較するステップ940を含む。
視覚認識機械学習アルゴリズムを使用することによって、画像ベースの検索要求を高次元表現にマッピングすることができる。高次元表現が(ワンホットエンコーディングされた表現とは対照的に)種々異なる値を有するエントリを含むことを可能にすることによって、意味論的に類似した生物学的検索用語を、類似の高次元表現にマッピングすることができる。複数の生物学関連の画像ベースの入力データセットまたは複数の生物学関連の言語ベースの入力データセットの高次元表現を取得することによって、高次元表現は、検索要求の高次元表現と同等もしくは類似のものを見つけることができる。このようにして、検索要求に対応する画像またはテキストを見つけることが可能になる場合がある。このようにして、トレーニングされた視覚認識機械学習アルゴリズムは、画像ベースの検索入力に基づいて、複数の生物学的画像(例えば生物学的画像のデータベース)の中から生物学関連の画像を検索すること、または複数の生物学関連のテキスト(例えば科学論文コレクションまたはライブラリ)の中から生物学関連のテキストを検索することを可能にすることができる。既存のデータベース内での検索、または実行中の実験によって生成された画像(例えば1つまたは複数の生物学的標本の顕微鏡によって撮像された画像)は、たとえ画像が事前にラベル付けやタグ付けされていなかったとしても、可能になる場合がある。
方法900のさらなる詳細および態様は、提案されているコンセプトおよび/または上記もしくは下記(例えば図1~図7b)の1つまたは複数の例に関連して言及される。方法900は、提案されているコンセプトおよび/または上記もしくは下記の1つまたは複数の例の1つまたは複数の態様に対応する1つまたは複数の追加的なオプションの特徴を含むことができる。
図10は、一実施形態による、顕微鏡を制御するための方法のフローチャートを示す。方法1000は、画像ベースの検索データを受信するステップ1010と、トレーニングされた視覚認識機械学習アルゴリズムによって、画像ベースの検索データの第1の高次元表現を生成するステップ1020と、を含む。第1の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリを含む。さらに、方法1000は、複数の画像ベースの入力データセットの複数の第2の高次元表現を取得するステップ1030と、第1の高次元表現と複数の第2の高次元表現の各第2の高次元表現との比較に基づいて、複数の第2の高次元表現から1つの第2の高次元表現を選択するステップ1040と、を含む。付加的に、方法1000は、選択された第2の高次元表現に基づいて、顕微鏡の動作を制御するステップ1050を含む。
視覚認識機械学習アルゴリズムを使用することによって、画像ベースの検索要求を高次元表現にマッピングすることができる。高次元表現が(ワンホットエンコーディングされた表現とは対照的に)種々異なる値を有するエントリを含むことを可能にすることによって、意味論的に類似した生物学的検索用語を、類似の高次元表現にマッピングすることができる。複数の画像ベースの入力データセットの高次元表現を取得することによって、検索用語の高次元表現は、検索用語の高次元表現と同等もしくは類似のものを見つけることができる。このようにして、検索要求に対応する画像を見つけることが可能になる場合がある。この情報を用いることにより、顕微鏡は、関心箇所のさらなる画像を(例えば、より大きな倍率、異なる光、またはフィルタで)撮像することができるようにするために、画像が撮像された各位置に駆動することができる。このようにして、検体(例えば生物学的標本または集積回路)は、検索要求に対応する箇所を見つけるために、最初は低倍率で撮像されてもよく、その後、関心箇所をより詳細に分析してもよい。
方法1000のさらなる詳細および態様は、提案されているコンセプトおよび/または上記もしくは下記(例えば図1~図7b)の1つまたは複数の例に関連して言及される。方法1000は、提案されているコンセプトおよび/または上記もしくは下記の1つまたは複数の例の1つまたは複数の態様に対応する1つまたは複数の追加的なオプションの特徴を含むことができる。
図11は、一実施形態による、顕微鏡を制御するための別の方法のフローチャートを示す。この方法1100は、クラスタリングアルゴリズムによって、複数の画像ベースの入力データセットの複数の第2の高次元表現の複数のクラスターを決定するステップ1110と、複数のクラスターの所定のクラスターのクラスター中心の第1の高次元表現を決定するステップ1120と、を含む。さらに、方法1100は、第1の高次元表現と複数の第2の高次元表現の各第2の高次元表現またはそのサブセットとの比較に基づいて、複数の第2の高次元表現から1つの第2の高次元表現を選択するステップ1130を含む。付加的に、方法1100は、選択された第2の高次元表現に基づいて、顕微鏡の動作を制御するための制御信号を提供するステップ1140を含む。
第2の高次元表現のクラスターを識別することにより、意味論的に類似した内容に対応する第2の高次元表現をクラスターに結合することができる。クラスター中心を決定し、比較によってクラスター中心に最も近い1つまたは複数の第2の高次元表現を識別することにより、クラスターの典型的な画像を表す1つまたは複数の画像を見つけてもよい。例えば、異なるクラスターは、生物学的標本の異なる特徴部分(例えば、サイトゾル、核、細胞骨格)に対応する第2の高次元表現を含むことができる。システムは、顕微鏡が1つまたは複数のクラスターの典型的な画像が撮像された位置に移動するように(例えば様々な顕微鏡パラメータを用いてこの位置でより多くの画像を撮像するように)制御信号を提供できる場合もある。
方法1100のさらなる詳細および態様は、提案されているコンセプトおよび/または上記もしくは下記(例えば図1~図10)の1つまたは複数の例に関連して言及される。方法1100は、提案されているコンセプトおよび/または上記もしくは下記の1つまたは複数の例の1つまたは複数の態様に対応する1つまたは複数の追加的なオプションの特徴を含むことができる。
以下では、(例えば図1~図11の1つまたは複数に関連して)上記の実施形態の1つまたは複数のための用途および/または実施の詳細のいくつかの例を説明する。
1つの態様によれば、データベースまたは実行中の顕微鏡実験における画像間検索機能が提案される。画像間検索のタイプは、第1ステージのテキスト形式モデルによって作成されたクエリの意味論的埋め込みに基づいていてもよい。第2ステージの画像モデルは、これらの意味論的埋め込みを画像に関連付けることができ、したがって画像領域をテキスト領域に接続する。ヒットの関連性は、意味論的埋め込み空間内の距離メトリックに従ってスコア化されてもよい。これは、完全一致の検索のみでなく、関連する意味論を有する類似画像の検索も可能にすることができる。生物学関連の意味論の文脈においては、類似の生物学的機能を意味し得る。1つの態様によれば、実行中の実験において検体を検索することができ、クエリ画像に類似した画像や検体内で以前は未知であったオブジェクトを検索することができる。
一般に生物学や特に顕微鏡検査では、膨大な量のデータが生成される可能性があり、これらのデータは、注釈が不十分であったり、注釈がまったくなかったりすることが多い。例えば、どの注釈が有用であったかは、振り返ってみなければ明らかにならないことがあり、また実験時点では未知であった新たな生物学的発見がなされる場合もある。画像データに重点をおいてもよいが、提案されるコンセプトは必ずしも画像データに限定されるものではない。画像は、2Dピクセルマップを超えて、むしろ3つの空間次元、時間次元ならびに例えば使用される蛍光色素の物理的特性または撮像システムの特性に関連するさらなる次元を有する多次元画像テンソルを包含することができる。1つの態様によれば、そのようなデータは、データベースに格納された大量の画像データの意味論的検索を可能にすることによって、または顕微鏡で実行中の実験の一部としてアクセス可能になる場合がある。実験は、一回限りの実験であってもよいし、またはスクリーニングキャンペーンのような長期的な実験の一部であってもよい。
画像間検索は、入力クエリに類似する画像の検索を、データベースにおいてだけでなく、検体を検索可能なデータリソースに変更することができる実行中の実験(例えば現下の検体)においても可能にすることができる。付加的または代替的に、画像間検索は、実行中の実験における画像の自動的なクラスタリングや、現下の検体、将来的な検体、または画像リポジトリからのすべての関連画像の検索を可能にすることができる。これにより、検体内のまれなイベントまたは以前は未知であった(例えば、ユーザによって特定されていない)オブジェクトを見つけることができる知識発見ツールを表すことができる。
1つの態様によれば、画像間検索は、任意選択的に実行中の実験の間に、画像ソースとして顕微鏡に問い合わせるために使用されてよく、さらにこの実行中の実験を変更するために使用されてよい。
統計的機械学習を使用する画像間検索の他の実現(例えばサポートベクターマシン、ランダムフォレスト、または勾配ブースティング)は、熟練者によってキュレーションまたはエンジニアリングされた画像特徴に依存しなければならない場合がある。画像の高次元性は、そのような古典的な機械学習アプローチの精度を低下させる可能性がある。提案されているコンセプトの1つの態様によれば、深層学習(例えばCNN、カプセルネットワーク)は、例えば、画像の認識精度を高めることができる、複数のスケールにおいてより多くの画像特徴の活用を自動的に可能にする、画像特徴を抽出するために使用されてもよい。さらに、画像は、ワンホットエンコーディングされたベクトルの代わりに意味論的埋め込みにマッピングされてもよく、これは、以前は見えなかった類似画像が見つかることを可能にさせる。生物学的標本の画像に見られる形態の大きなばらつきのため、提案されているコンセプトは、当たり外れが大きい他のアプローチよりも高いヒット率を有することができる。
画像間検索の例は、以下のステップ、すなわち、
1.画像から意味論的トークン埋め込みを予測するようにトレーニングされた視覚モデルは、クエリ画像を、関連する意味論的埋め込みに変換することができるステップと、
2.同じ視覚モデルは、撮像デバイスまたはデータベースから到来する一連の画像の各埋め込みを生成することもできるステップと、
3.クエリの意味論的埋め込みと画像との間の埋め込み空間内の距離メトリックに従って、関連する最も近いヒットが検索され、スコア化されるステップと、
4.任意選択的に、実行中の実験において、ヒットの物理的座標を実験の変更のために使用し、これらの座標において画像の代替的な記録を開始することができるステップと、
に基づいていてもよい。モデルは、以下で説明するようにトレーニングされてもよいが、異なる手法でトレーニングされてもよい。
例えば、クエリの意味論的埋め込みを取得するための4つの択一的な手法(例えば上記のステップ1)は、以下のもの、すなわち、
a)ユーザによる手動入力、
b)(同じまたは他の)撮像デバイスによる実験の結果、
c)データベースから(例えば、撮像デバイスまたは別の実験デバイスの使用による手動クエリまたは自動クエリ)、
d)撮像デバイスおよびモデルによって生成された画像埋め込みの教師なしクラスタリングおよび算術的組み合わせ、
であってもよい。
1つの態様によれば、ユーザは、テキストの代わりに画像を用いてデータベースに問い合わせることができる。データベース内のすべての画像は、上記もしくは下記で説明するように1つまたは複数の予めトレーニングされた視覚モデル(例えばCNN)を使用して埋め込みに変換されていてもよい。この埋め込みは、画像データと共に、同じまたは異なるデータベースに格納されてもよい。ユーザクエリは、同じ視覚モデルを通る順方向パスによって埋め込みに変換されてもよい。適切な距離メトリックを使用することにより、意味論的に(埋め込み空間において)最も近い画像が検索されて戻されてもよい。この比較のために、ユークリッド距離またはEarth mover’s distanceなどの異なる距離メトリックが使用されてもよいが、他の距離メトリックが使用されてもよい。ここではクラスタリングで使用されるほとんどの距離メトリックが機能し得る。
例えば、ユーザによって供給された、または実行中の実験の間に顕微鏡によって獲得されたばかりの任意の画像は、検体全体において意味論的関連画像を発見するために使用することができる。変換および類似度検索は、前述のものと同様に実行されてもよい。顕微鏡によって獲得されたデータは、例えばモザイク(例えば、現下の視野よりも大きい範囲をカバーする画像のセット)内の各画像の論理座標、または例えば物理的なステージ座標を画像データに関連付けることができるように配置されてもよい。
画像間検索は、既存のデータベースまたは実行中の実験からのデータに任意の画像を問い合わせるために有用であり得る。実行中の実験の文脈では、顕微鏡によって獲得された任意の画像は、類似画像を見つけるべくデータベースに問い合わせるために使用することができる。この画像の他の注釈によって、さらなる情報を検索することができ、当該画像の構造および機能に関する新たな洞察を得ることができる。これは、顕微鏡を、意味論的情報および機能情報によって画像データを拡張できるインテリジェントラボアシスタントに変えることができ、したがって、データの解釈が支援される。
1つの態様によれば、検体全体においてユーザが提供する画像または記録された画像に類似する画像を見つけることができる。検索可能な画像本体は、プレスキャンの使用により顕微鏡によって記録することができる。このプレスキャンは、現下の視野よりも大きな領域または体積をカバーすることができる。クエリ画像は、ユーザによって提供することができ、またはユーザによって現下の実験から選択することができ、または予めトレーニングされた視覚モデルによって自動的に選択することができる。これにより、関心位置のみが、異なる撮像条件およびモダリティ(例えばより多くの色、異なる倍率、付加的な寿命情報など)と共に詳細に記録されてもよいものなので時間を節約することができる。これにより、実際に格納されるのが関心画像のみなので記憶領域を節約することもでき、残りは破棄してもよい。
代替的または付加的に、自動クラスタリングが実行されてもよく、顕微鏡は、どの異なる意味論的クラスが検体中に存在するのかを指示することによって、ユーザが新たな洞察を得ることを支援することができる。プレスキャンおよびクラスタリングステップを自動化することによって、ユーザは、すべてのオブジェクト(例えば、単一細胞、器官、組織、オルガノイドIDおよびそれらの一部)を手動で見つけ、識別し、さらに特徴付けるための多くの時間を節約することができる。さらに、意味論的埋め込み空間が、生物学的に関連するテキスト形式データからの埋め込みの作成のために画像を意味のある生物学に直接関連付けることができる客観的類似度測定として役立てることができるため、バイアスは除去されてもよい。
事実上、検体は、提案された顕微鏡によって検索可能なデータリソースに変換される可能性がある。
提案された画像間検索の用途は、基礎生物学的研究(例えば関連データの検索補助および実験記録時間の短縮)および/または創薬におけるヒット検証および毒性検査などであってもよい。
トレーニングされた言語認識機械学習アルゴリズムおよび/またはトレーニングされた視覚認識機械学習アルゴリズムは、以下に説明するトレーニングによって取得されてもよい。生物学関連のデータを処理すべく機械学習アルゴリズムをトレーニングするためのシステムは、1つまたは複数のプロセッサおよび1つまたは複数のストレージデバイスを含むことができる。このシステムは、生物学関連の言語ベースの入力トレーニングデータを受信するように構成されてもよい。付加的に、システムは、1つまたは複数のプロセッサによって実行される言語認識機械学習アルゴリズムによって、生物学関連の言語ベースの入力トレーニングデータの第1の高次元表現を生成するように構成されてもよい。第1の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリを含む。さらに、システムは、1つまたは複数のプロセッサによって実行される言語認識機械学習アルゴリズムによって、第1の高次元表現に基づき生物学関連の言語ベースの出力トレーニングデータを生成するように構成されてもよい。付加的に、システムは、生物学関連の言語ベースの入力トレーニングデータと生物学関連の言語ベースの出力トレーニングデータとの比較に基づいて、言語認識機械学習アルゴリズムを調整するように構成されてもよい。付加的に、システムは、生物学関連の言語ベースの入力トレーニングデータに関連付けられた生物学関連の画像ベースの入力トレーニングデータを受信するように構成されてもよい。さらに、システムは、1つまたは複数のプロセッサによって実行される視覚認識機械学習アルゴリズムによって、生物学関連の画像ベースの入力トレーニングデータの第2の高次元表現を生成するように構成されてもよい。第2の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリを含む。さらに、システムは、第1の高次元表現と第2の高次元表現との比較に基づいて、視覚認識機械学習アルゴリズムを調整するように構成されてもよい。
生物学関連の言語ベースの入力トレーニングデータは、生物学的構造、生物学的機能、生物学的挙動、または生物学的活動に関連するテキスト形式入力であってもよい。例えば、生物学関連の言語ベースの入力トレーニングデータは、ヌクレオチド配列、タンパク質配列、生物学的分子もしくは生物学的構造の記述、生物学的分子もしくは生物学的構造の挙動の記述および/または生物学的機能もしくは生物学的活動の記述であってもよい。生物学関連の言語ベースの入力トレーニングデータは、トレーニンググループの第1の生物学関連の言語ベースの入力トレーニングデータセット(例えば、入力文字の配列、例えばヌクレオチド配列もしくはタンパク質配列)であってよい。トレーニンググループは、複数の生物学関連の言語ベースの入力トレーニングデータセットを含むことができる。
生物学関連の言語ベースの出力トレーニングデータは、任意選択的に次の要素の予測を含む、生物学関連の言語ベースの入力トレーニングデータと同じタイプであってよい。例えば、生物学関連の言語ベースの入力トレーニングデータは、生物学的配列(例えばヌクレオチド配列またはタンパク質配列)であってもよく、生物学関連の言語ベースの出力トレーニングデータも、生物学的配列(例えばヌクレオチド配列またはタンパク質配列)であってもよい。言語認識機械学習アルゴリズムは、生物学関連の言語ベースの出力トレーニングデータが、任意選択的に生物学的配列の次の要素の予測を含む、生物学関連の言語ベースの入力トレーニングデータと等しくなるようにトレーニングされてもよい。別の例では、生物学関連の言語ベースの入力トレーニングデータは、粗視化された検索用語の生物学的クラスであってもよく、生物学関連の言語ベースの出力トレーニングデータも、粗視化された検索用語の生物学的クラスであってもよい。
生物学関連の画像ベースの入力トレーニングデータは、ヌクレオチドもしくはヌクレオチド配列を含む生物学的構造、タンパク質もしくはタンパク質配列を含む生物学的構造、生物学的分子、生物学的組織、特定の挙動を有する生物学的構造および/または特定の生物学的機能もしくは特定の生物学的活動を有する生物学的構造の画像の画像トレーニングデータ(例えばトレーニング画像のピクセルデータ)であってもよい。生物学関連の画像ベースの入力トレーニングデータは、トレーニンググループの第1の生物学関連の画像ベースの入力トレーニングデータセットであってもよい。トレーニンググループは、複数の生物学関連の画像ベースの入力トレーニングデータセットを含むことができる。
生物学関連の言語ベースの入力トレーニングデータは、トレーニンググループの生物学関連の言語ベースの入力トレーニングデータセット(例えば、入力文字の配列、例えばヌクレオチド配列もしくはタンパク質配列)であってよい。トレーニンググループは、複数の生物学関連の言語ベースの入力トレーニングデータセットを含むことができる。システムは、トレーニンググループの各複数の生物学関連の言語ベースの入力トレーニングデータセットのための第1の高次元表現の生成を繰り返すことができる。さらに、システムは、生成された各第1の高次元表現のための生物学関連の言語ベースの出力トレーニングデータを生成することができる。システムは、トレーニンググループの複数の生物学関連の言語ベースの入力トレーニングデータセットの生物学関連の言語ベースの入力トレーニングデータと、対応する生物学関連の言語ベースの出力トレーニングデータとの各比較に基づいて、言語認識機械学習アルゴリズムを調整することができる。換言すれば、システムは、第1の高次元表現の生成、生物学関連の言語ベースの出力トレーニングデータの生成および生物学関連の言語ベースの入力トレーニングデータセットのトレーニンググループの各生物学関連の言語ベースの入力トレーニングデータのための言語認識機械学習アルゴリズムの調整を繰り返すように構成されてもよい。トレーニンググループは、トレーニングターゲット(例えば、閾値を下回る損失関数の出力の変化)を満たすことができるように、十分な生物学関連の言語ベースの入力トレーニングデータセットを含むことができる。
言語認識機械学習アルゴリズムのトレーニング中に生成された複数のすべての第1の高次元表現は、潜在的空間または意味論的空間と称されてもよい。
システムは、トレーニンググループの各複数の生物学関連の画像ベースの入力トレーニングデータセットのための第2の高次元表現の生成を繰り返すことができる。さらに、システムは、第1の高次元表現と、対応する第2の高次元表現との各比較に基づいて、視覚認識機械学習アルゴリズムを調整することができる。換言すれば、システムは、第2の高次元表現の生成と、生物学関連の画像ベースの入力トレーニングデータセットのトレーニンググループの各生物学関連の画像ベースの入力トレーニングデータのための視覚認識機械学習アルゴリズムの調整とを繰り返すことができる。トレーニンググループは、トレーニングターゲット(例えば、閾値を下回る損失関数の出力の変化)を満たすことができるように、十分な生物学関連の画像ベースの入力トレーニングデータセットを含むことができる。
例えば、システム100は、言語認識機械学習アルゴリズムと視覚認識機械学習アルゴリズム(例えば、意味論的視覚モデルとも称される)との組み合わせを使用する。言語認識機械学習アルゴリズムおよび/または視覚認識機械学習アルゴリズムは、深層学習アルゴリズムおよび/または人工知能アルゴリズムであってよい。
トレーニングは、高速に収束することができ、かつ/または言語認識機械学習アルゴリズムをトレーニングするためのクロスエントロピ損失関数を使用することによって、生物学関連のデータのための十分にトレーニングされたアルゴリズムを提供することができるが、他の損失関数を使用することもできる。
視覚認識機械学習アルゴリズムは、言語認識機械学習アルゴリズムによって生成された高次元表現と、対応する入力トレーニングデータの視覚認識機械学習アルゴリズムによって生成された高次元表現と、の比較に基づいて、視覚認識機械学習アルゴリズムのパラメータを調整することによってトレーニング可能である。例えば、視覚認識ニューラルネットワークのネットワーク重みは、比較に基づいて調整されてもよい。視覚認識機械学習アルゴリズムのパラメータ(例えばネットワーク重み)の調整は、損失関数を考慮して行われてよい。例えば、視覚認識機械学習アルゴリズムの調整のための第1の高次元表現と第2の高次元表現との比較は、コサイン類似度損失関数に基づいていてもよい。トレーニングは、高速に収束することができ、かつ/または視覚認識機械学習アルゴリズムをトレーニングするためのコサイン類似度損失関数を使用することによって、生物学関連のデータのための十分にトレーニングされたアルゴリズムを提供することができるが、他の損失関数を使用することもできる。
例えば、視覚モデルは、意味論的埋め込み空間において(例えばベクトルとして)画像をどのように表すべきかを学習することができる。そのため、予測A(第2の高次元表現)およびグラウンドトゥルースB(第1の高次元表現)を表すことができる、2つのベクトルの距離に関する測定を使用することができる。例えば、測定は、次式、
Figure 2022542752000005
で定義されるコサイン類似度である。ただし、予測Aのドット積およびグラウンドトゥルースBのドット積は、それらの各振幅のドット積によって除算される(例えば、L2ノルムまたはユークリッドノルムにおけるように)。
機械学習アルゴリズムをトレーニングするためのシステムの非トレーニング特有の態様に関するさらなる詳細は、提案されているコンセプトおよび/または上記もしくは下記(例えば図1~図11)の1つまたは複数の例に関連して言及される。
実施形態は、機械学習モデルまたは機械学習アルゴリズムの使用に基づいていてもよい。機械学習は、モデルおよび推論に依存する代わりに、コンピュータシステムが、明示的な命令を使用することなく、特定のタスクを実行するために使用し得るアルゴリズムおよび統計モデルを参照してもよい。例えば、機械学習では、ルールに基づくデータ変換の代わりに、過去のデータおよび/またはトレーニングデータの分析から推論されるデータ変換が使用されてもよい。例えば、画像コンテンツは、機械学習モデルを用いて、または機械学習アルゴリズムを用いて分析されてもよい。機械学習モデルが画像コンテンツを分析するために、機械学習モデルは、入力としてのトレーニング画像と出力としてのトレーニングコンテンツ情報を用いてトレーニングされてもよい。多数のトレーニング画像および/またはトレーニングシーケンス(例えば単語または文)および関連するトレーニングコンテンツ情報(例えばラベルまたは注釈)によって機械学習モデルをトレーニングすることによって、機械学習モデルは、画像コンテンツを認識することを「学習」するので、トレーニングデータに含まれていない画像コンテンツが機械学習モデルを用いて認識可能になる。同じ原理が、同じように他の種類のセンサデータに対して使用されてもよい:トレーニングセンサデータと所望の出力を用いて機械学習モデルをトレーニングすることによって、機械学習モデルは、センサデータと出力との間の変換を「学習し」、これは、機械学習モデルに提供された非トレーニングセンサデータに基づいて出力を提供するために使用可能である。
機械学習モデルは、トレーニング入力データを用いてトレーニングされてもよい。上記の例は、「教師あり学習」と称されるトレーニング方法を使用する。教師あり学習では、機械学習モデルは、複数のトレーニングサンプルを用いてトレーニングされ、ここで各サンプルは複数の入力データ値と複数の所望の出力値を含んでいてもよく、すなわち各トレーニングサンプルは、所望の出力値と関連付けされている。トレーニングサンプルと所望の出力値の両方を指定することによって、機械学習モデルは、トレーニング中に、提供されたサンプルに類似する入力サンプルに基づいてどの出力値を提供するのかを「学習」する。教師あり学習の他に、半教師あり学習が使用されてもよい。半教師あり学習では、トレーニングサンプルの一部は、対応する所望の出力値を欠いている。教師あり学習は、教師あり学習アルゴリズム、例えば分類アルゴリズム、回帰アルゴリズムまたは類似度学習アルゴリズムに基づいていてもよい。出力が、値の限られたセットに制限される場合、すなわち入力が値の限られたセットのうちの1つに分類される場合、分類アルゴリズムが使用されてもよい。出力が(範囲内の)任意の数値を有していてもよい場合、回帰アルゴリズムが使用されてもよい。類似度学習アルゴリズムは、分類アルゴリズムと回帰アルゴリズムの両方に類似していてもよいが、2つのオブジェクトがどの程度類似しているかまたは関係しているかを測定する類似度関数を用いた例からの学習に基づいている。教師あり学習または半教師あり学習の他に、機械学習モデルをトレーニングするために教師なし学習が使用されてもよい。教師なし学習では、入力データ(だけ)が供給される可能性があり、教師なし学習アルゴリズムは、例えば、入力データをグループ化またはクラスタリングすること、データに共通性を見出すことによって入力データにおいて構造を見出すために使用されてもよい。クラスタリングは、複数の入力値を含んでいる入力データを複数のサブセット(クラスター)に割り当てることであるので、同じクラスター内の入力値は1つまたは複数の(事前に定められた)類似度判断基準に従って類似しているが、別のクラスターに含まれている入力値と類似していない。
強化学習は機械学習アルゴリズムの第3のグループである。換言すれば、強化学習は機械学習モデルをトレーニングするために使用されてもよい。強化学習では、1つまたは複数のソフトウェアアクター(「ソフトウェアエージェント」と称される)が、周囲において行動を取るようにトレーニングされる。取られた行動に基づいて、報酬が計算される。強化学習は、(報酬の増加によって明らかにされるように)累積報酬が増加し、与えられたタスクでより良くなるソフトウェアエージェントが得られるように行動を選択するように、1つまたは複数のソフトウェアエージェントをトレーニングすることに基づいている。
さらに、いくつかの技術が、機械学習アルゴリズムの一部に適用されてもよい。例えば、特徴表現学習が使用されてもよい。換言すれば、機械学習モデルは、少なくとも部分的に特徴表現学習を用いてトレーニングされてもよい、かつ/または機械学習アルゴリズムは、特徴表現学習構成要素を含んでいてもよい。表現学習アルゴリズムと称され得る特徴表現学習アルゴリズムは、自身の入力に情報を保存するだけでなく、多くの場合、分類または予測を実行する前の前処理ステップとして、有用にするように情報の変換も行ってもよい。特徴表現学習は、例えば、主成分分析またはクラスター分析に基づいていてもよい。
いくつかの例では、異常検知(すなわち、外れ値検知)が使用されてもよく、これは、入力またはトレーニングデータの大部分と著しく異なることによって疑念を引き起こしている入力値の識別を提供することを目的としている。換言すれば、機械学習モデルは、少なくとも部分的に異常検知を用いてトレーニングされてもよく、かつ/または機械学習アルゴリズムは、異常検知構成要素を含んでいてもよい。
いくつかの例では、機械学習アルゴリズムは、予測モデルとして決定木を使用してもよい。換言すれば、機械学習モデルは、決定木に基づいていてもよい。決定木において、項目(例えば、入力値のセット)に関する観察は、決定木のブランチによって表されてもよく、この項目に対応する出力値は、決定木のリーフによって表されてもよい。決定木は、出力値として離散値と連続値の両方をサポートしてもよい。離散値が使用される場合、決定木は、分類木として表されてもよく、連続値が使用される場合、決定木は、回帰木として表されてもよい。
相関ルールは、機械学習アルゴリズムにおいて使用され得る別の技術である。換言すれば、機械学習モデルは、1つまたは複数の相関ルールに基づいていてもよい。相関ルールは、大量のデータにおける変数間の関係を識別することによって作成される。機械学習アルゴリズムは、データから導出された知識を表す1つまたは複数の相関的なルールを識別してもよい、かつ/または利用してもよい。これらのルールは、例えば、知識を格納する、操作するまたは適用するために使用されてもよい。
機械学習アルゴリズムは通常、機械学習モデルに基づいている。換言すれば、用語「機械学習アルゴリズム」は、機械学習モデルを作成する、トレーニングするまたは使用するために使用され得る命令のセットを表していてもよい。用語「機械学習モデル」は、例えば、機械学習アルゴリズムによって実行されるトレーニングに基づいて学習した知識を表すデータ構造および/またはルールのセットを表していてもよい。実施形態では、機械学習アルゴリズムの用法は、基礎となる1つの機械学習モデル(または基礎となる複数の機械学習モデル)の用法を意味していてもよい。機械学習モデルの用法は、機械学習モデルおよび/または機械学習モデルであるデータ構造/ルールのセットが機械学習アルゴリズムによってトレーニングされることを意味していてもよい。
例えば、機械学習モデルは、人工ニューラルネットワーク(ANN)であってもよい。ANNは、網膜または脳において見出されるような、生物学的ニューラルネットワークによって影響を与えられるシステムである。ANNは、相互接続された複数のノードと、ノード間の、複数の接合部分、いわゆるエッジを含んでいる。通常、3種類のノードが存在しており、すなわち入力値を受け取る入力ノード、他のノードに接続されている(だけの)隠れノードおよび出力値を提供する出力ノードが存在している。各ノードは、人工ニューロンを表していてもよい。各エッジは、1つのノードから別のノードに、情報を伝達してもよい。ノードの出力は、その入力の和の(非線形)関数として定義されてもよい。ノードの入力は、入力を提供するエッジまたはノードの「重み」に基づく関数において使用されてもよい。ノードおよび/またはエッジの重みは、学習過程において調整されてもよい。換言すれば、人工ニューラルネットワークのトレーニングは、与えられた入力に対して所望の出力を得るために、人工ニューラルネットワークのノードおよび/またはエッジの重みを調整することを含んでいてもよい。
代替的に、機械学習モデルは、サポートベクターマシン、ランダムフォレストモデルまたは勾配ブースティングモデルであってもよい。サポートベクターマシン(すなわち、サポートベクターネットワーク)は、例えば、分類または回帰分析においてデータを分析するために使用され得る、関連する学習アルゴリズムを伴う、教師あり学習モデルである。サポートベクターマシンは、2つのカテゴリのいずれかに属する複数のトレーニング入力値を伴う入力を提供することによってトレーニングされてもよい。サポートベクターマシンは、2つのカテゴリのいずれかに新しい入力値を割り当てるようにトレーニングされてもよい。択一的に、機械学習モデルは、確率有向非巡回グラフィカルモデルであるベイジアンネットワークであってもよい。ベイジアンネットワークは、有向非巡回グラフを用いて、確率変数とその条件付き依存性のセットを表していてもよい。択一的に、機械学習モデルは、検索アルゴリズムと自然淘汰の過程を模倣した発見的方法である遺伝的アルゴリズムに基づいていてもよい。
本明細書で使用されるように、用語「および/または(かつ/または)」は、関連する記載項目のうちの1つまたは複数の項目のあらゆるすべての組み合わせを含んでおり、「/」として略記されることがある。
いくつかの態様を装置の文脈において説明してきたが、これらの態様が、対応する方法の説明も表していることが明らかであり、ここではブロックまたは装置がステップまたはステップの特徴に対応している。同様に、ステップの文脈において説明された態様は、対応する装置の対応するブロックまたは項目または特徴の説明も表している。ステップの一部または全部は、例えば、プロセッサ、マイクロプロセッサ、プログラマブルコンピュータまたは電子回路等のハードウェア装置(またはハードウェア装置を使用すること)によって実行されてもよい。いくつかの実施形態では、極めて重要なステップのいずれか1つまたは複数が、そのような装置によって実行されてもよい。
一定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装され得る。この実装は、非一過性の記憶媒体によって実行可能であり、非一過性の記憶媒体は、各方法を実施するために、プログラマブルコンピュータシステムと協働する(または協働することが可能である)、電子的に読取可能な制御信号が格納されている、デジタル記憶媒体等であり、これは例えば、フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROMおよびEPROM、EEPROMまたはFLASHメモリである。したがって、デジタル記憶媒体は、コンピュータ読取可能であってもよい。
本発明のいくつかの実施形態は、本明細書に記載のいずれかの方法が実施されるように、プログラマブルコンピュータシステムと協働することができる、電子的に読取可能な制御信号を有するデータ担体を含んでいる。
一般的に、本発明の実施形態は、プログラムコードを備えるコンピュータプログラム製品として実装可能であり、このプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときにいずれかの方法を実施するように作動する。このプログラムコードは、例えば、機械可読担体に格納されていてもよい。例えば、コンピュータプログラムは、非一過性の記憶媒体に格納されていてもよい。いくつかの実施形態は、実行されるときに提案されているコンセプトまたは上述した1つもしくは複数の例による方法を実施するための機械可読命令を含む、非一過性の記憶媒体に関する。
別の実施形態は、機械可読担体に格納されている、本明細書に記載のいずれかの方法を実施するためのコンピュータプログラムを含んでいる。
したがって、換言すれば、本発明の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに本明細書に記載のいずれかの方法を実施するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の別の実施形態は、プロセッサによって実行されるときに本明細書に記載のいずれかの方法を実施するために、格納されているコンピュータプログラムを含んでいる記憶媒体(またはデータ担体またはコンピュータ読取可能な媒体)である。データ担体、デジタル記憶媒体または記録媒体は、典型的に、有形である、かつ/または非一過性である。本発明の別の実施形態は、プロセッサと記憶媒体とを含んでいる、本明細書に記載されたような装置である。
したがって、本発明の別の実施形態は、本明細書に記載のいずれかの方法を実施するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは例えば、データ通信接続、例えばインターネットを介して転送されるように構成されていてもよい。
別の実施形態は、処理手段、例えば、本明細書に記載のいずれかの方法を実施するように構成または適合されているコンピュータまたはプログラマブルロジックデバイスを含んでいる。
別の実施形態は、本明細書に記載のいずれかの方法を実施するために、インストールされたコンピュータプログラムを有しているコンピュータを含んでいる。
本発明の別の実施形態は、本明細書に記載のいずれかの方法を実施するためのコンピュータプログラムを(例えば、電子的にまたは光学的に)受信機に転送するように構成されている装置またはシステムを含んでいる。受信機は、例えば、コンピュータ、モバイル機器、記憶装置等であってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するために、ファイルサーバを含んでいてもよい。
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)が、本明細書に記載された方法の機能の一部または全部を実行するために使用されてもよい。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書に記載のいずれかの方法を実施するためにマイクロプロセッサと協働してもよい。一般的に、有利には、任意のハードウェア装置によって方法が実施される。
100 生物学関連のデータを処理するためのシステム
103 生物学関連の画像ベースの検索データ
105 第2の高次元表現
110 1つまたは複数のプロセッサ
120 1つまたは複数のストレージデバイス
200 生物学関連のデータを処理するためのシステム
201 クエリ、検索クエリ、生物学関連の画像ベースの検索データ
210 視覚モデル、分類器
220 トレーニングされた視覚認識機械学習アルゴリズム、視覚モデル
230 トレーニングされた視覚認識機械学習アルゴリズム、視覚モデル
240 データベース
250 埋め込み、複数の第2の高次元表現
255 データベース、中間ストレージ
257 バイパスする
260 埋め込み、第1の高次元表現
270 埋め込み空間における比較
280 最も近い埋め込み
290 各画像
300 生物学関連のデータを処理するためのシステム
315 スキップされた事前分類
381 最も近い埋め込みに対応する画像を戻す
383 データによる画像ソースへの供給
385 ユーザ
387 データベース
389 パブリックデータベース
390 科学刊行物、ソーシャルメディアへのエントリ、またはブログ投稿
393 生物学的分子の画像
395 生物学的配列
400 顕微鏡を制御するためのシステム
401 画像ベースの検索データ
405 第2の高次元表現
411 制御信号
500 顕微鏡を制御するためのシステム
501 顕微鏡
510 画像
550 クエリ、検索クエリ、画像ベースの検索データ
580 各座標を見つける
590 各座標を顕微鏡に戻す
595 各座標、新規の座標
600 顕微鏡を制御するためのシステム
700 顕微鏡を制御するためのシステム
740 クラスタリングアルゴリズム
750 クラスター中心の決定
760 クラスター中心の潜在ベクトル
770 距離メトリックの適用
790 クラスタリングアルゴリズムの使用によって生物学関連のデータを処理するためのシステム
791 画像モダリティの変更
792 ユーザ
793 リポジトリ
794 パブリックデータベース
795 科学刊行物、ソーシャルメディアへのエントリ、またはブログ投稿
796 生物学的分子の画像
797 生物学的配列
800 機械学習アルゴリズムをトレーニングするためのシステム
810 顕微鏡
820 コンピュータデバイス
900 生物学関連の画像ベースの検索データを処理するための方法
910 生物学関連の画像ベースの検索データを受信するステップ
920 第1の高次元表現を生成するステップ
930 複数の第2の高次元表現を取得するステップ
940 第1の高次元表現を各第2の高次元表現と比較するステップ
1000 顕微鏡を制御するための方法
1010 画像ベースの検索データを受信するステップ
1020 第1の高次元表現を生成するステップ
1030 複数の第2の高次元表現を取得するステップ
1040 第2の高次元表現を選択するステップ
1050 顕微鏡の動作を制御するステップ
1100 顕微鏡を制御するための方法
1110 複数のクラスターを決定するステップ
1120 第1の高次元表現を決定するステップ
1130 第2の高次元表現を選択するステップ
1140 制御信号を供給するステップ

Claims (35)

  1. 1つまたは複数のプロセッサ(110)および1つまたは複数のストレージデバイス(120)を含むシステム(100,200,300)であって、前記システム(100,200,300)は、
    生物学関連の画像ベースの検索データ(103)を受信し、
    前記1つまたは複数のプロセッサ(110)によって実行されるトレーニングされた視覚認識機械学習アルゴリズムによって、前記生物学関連の画像ベースの検索データ(103)の第1の高次元表現(260)を生成し、前記第1の高次元表現(260)は、それぞれ異なる値を有する少なくとも3つのエントリを含み、
    複数の生物学関連の画像ベースの入力データセットまたは複数の生物学関連の言語ベースの入力データセットの複数の第2の高次元表現(105,250)を取得し、
    前記第1の高次元表現(260)を、前記複数の第2の高次元表現(105,250)の各第2の高次元表現(105,250)と比較するように構成されている、
    システム(100,200,300)。
  2. 前記生物学関連の画像ベースの検索データ(103)は、ヌクレオチド配列を含む生物学的構造、タンパク質配列を含む生物学的構造、生物学的分子、生物学的組織、特定の挙動を有する生物学的構造、または、特定の生物学的機能もしくは特定の生物学的活動を有する生物学的構造の少なくとも1つの画像の画像データである、
    請求項1記載のシステム。
  3. 前記第1の高次元表現(260)の1つまたは複数のエントリの値は、特定の生物学的機能または特定の生物学的活動が存在する尤度に比例する、
    請求項1または2記載のシステム。
  4. 前記第2の高次元表現(105,250)の1つまたは複数のエントリの値は、特定の生物学的機能または特定の生物学的活性の存在の確度に比例する、
    請求項1から3までのいずれか1項記載のシステム。
  5. 前記システム(100)は、前記比較に基づいて、前記複数の第2の高次元表現(105,250)のうちの前記第1の高次元表現(260)に最も近い第2の高次元表現を選択するように構成されている、
    請求項1から4までのいずれか1項記載のシステム。
  6. 前記システム(100)は、前記最も近い第2の高次元表現、前記複数の生物学関連の画像ベースの入力データセットのうちの前記最も近い第2の高次元表現に対応する生物学関連の画像ベースの入力データセット、または前記複数の生物学関連の言語ベースの入力データセットのうちの前記最も近い第2の高次元表現に対応する生物学関連の言語ベースの入力データセットのうちの少なくとも1つを出力するように構成されている、
    請求項5記載のシステム。
  7. 前記第1の高次元表現(260)と、前記複数の第2の高次元表現の各第2の高次元表現(105,250)と、の比較は、ユークリッド距離関数またはearth mover’s distance関数に基づいている、
    請求項1から6までのいずれか1項記載のシステム。
  8. 前記第1の高次元表現(260)および前記第2の高次元表現(105,250)は、数値表現である、
    請求項1から7までのいずれか1項記載のシステム。
  9. 前記第1の高次元表現(260)および前記第2の高次元表現(105,250)は、それぞれ100を超える次元を含む、
    請求項1から8までのいずれか1項記載のシステム。
  10. 前記第1の高次元表現(260)は、第1のベクトルであり、
    前記第2の高次元表現(105,250)は、第2のベクトルである、
    請求項1から9までのいずれか1項記載のシステム。
  11. 前記第1の高次元表現(260)のエントリの値の50%超および前記第2の高次元表現(105,250)のエントリの値の50%超は、0に等しくない、
    請求項1から10までのいずれか1項記載のシステム。
  12. 前記第1の高次元表現(260)の5つを超えるエントリの値は、前記第1の高次元表現(260)のエントリの最大絶対値の10%よりも大きく、
    前記複数の第2の高次元表現の各第2の高次元表現(105,250)の5つを超えるエントリの値は、前記第2の高次元表現(105,250)の各最大絶対値の10%よりも大きい、
    請求項1から11までのいずれか1項記載のシステム。
  13. 前記トレーニングされた視覚認識機械学習アルゴリズムは、トレーニングされた視覚認識ニューラルネットワークを含む、
    請求項1から12までのいずれか1項記載のシステム。
  14. 前記トレーニングされた視覚認識ニューラルネットワークは、30を超える層を含む、
    請求項13記載のシステム。
  15. 前記トレーニングされた視覚認識ニューラルネットワークは、畳み込みニューラルネットワークまたはカプセルネットワークである、
    請求項13または14記載のシステム。
  16. 前記トレーニングされた視覚認識ニューラルネットワークは、複数の畳み込み層と、複数のプーリング層と、を含む、
    請求項13、14、または15記載のシステム。
  17. 前記トレーニングされた視覚認識ニューラルネットワークは、正規化線形ユニット活性化関数を使用する、
    請求項13から16までのいずれか1項記載のシステム。
  18. 前記システム(100)は、前記1つまたは複数のプロセッサによって実行される前記トレーニングされた視覚認識機械学習アルゴリズムによって、前記複数の生物学関連の画像ベースの入力データセットまたは前記複数の生物学関連の言語ベースの入力データセットの前記複数の第2の高次元表現の所定の第2の高次元表現(105,250)を生成することによって、前記第2の高次元表現(105,250)を取得するように構成され、前記複数の第2の高次元表現の各第2の高次元表現(105,250)は、それぞれ異なる値を有する少なくとも3つのエントリを含む、
    請求項1から17までのいずれか1項記載のシステム。
  19. 前記システムは、生物学的標本の画像を撮像することによって、前記複数の生物学関連の画像ベースの入力データセットを取得するように構成された顕微鏡(501,810)をさらに含む、
    請求項1から18までのいずれか1項記載のシステム。
  20. 前記システム(100)は、前記生物学関連の画像ベースの検索データ(103)に基づいて、前記複数のトレーニングされた視覚認識機械学習アルゴリズムから所定のトレーニングされた視覚認識機械学習アルゴリズムを選択するように構成されている、
    請求項1から19までのいずれか1項記載のシステム。
  21. 前記システム(100)は、
    第2の生物学関連の画像ベースの検索データおよび論理演算子に基づく情報を受信し、
    前記1つまたは複数のプロセッサ(110)によって実行される前記トレーニングされた視覚認識機械学習アルゴリズムによって、前記第2の生物学関連の画像ベースの検索データの第1の高次元表現を生成し、
    前記論理演算子に従って、第1の生物学関連の画像ベースの検索データ(103)の前記第1の高次元表現(260)と、第2の生物学関連の画像ベースの検索データの前記第1の高次元表現と、の組み合わせに基づき、結合された高次元表現を決定し、
    前記結合された高次元表現を、複数の第2の高次元表現の各第2の高次元表現(105,250)と比較する、
    ように構成されている、
    請求項1から20までのいずれか1項記載のシステム。
  22. 前記論理演算子は、AND演算子であり、前記結合された高次元表現は、前記第1の生物学関連の画像ベースの検索データ(103)の前記第1の高次元表現(260)および前記第2の生物学関連の画像ベースの検索データの前記第1の高次元表現を加算することによって決定される、
    請求項21記載のシステム。
  23. 前記システム(100)は、顕微鏡(501,810)の動作を制御するように構成されている、
    請求項1から22までのいずれか1項記載のシステム。
  24. 1つまたは複数のプロセッサ(110)および1つまたは複数のストレージデバイス(120)を含むシステム(400,500)であって、前記システム(400,500)は、
    画像ベースの検索データ(401)を受信し、
    前記1つまたは複数のプロセッサ(110)によって実行されるトレーニングされた視覚認識機械学習アルゴリズムによって、前記画像ベースの検索データ(401)の第1の高次元表現を生成し、前記第1の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリを含み、
    複数の画像ベースの入力データセットの複数の第2の高次元表現(405)を取得し、
    前記第1の高次元表現と、前記複数の第2の高次元表現の各第2の高次元表現(405)と、の比較に基づいて、前記複数の第2の高次元表現から1つの第2の高次元表現(405)を選択し、
    前記選択された第2の高次元表現に基づいて、顕微鏡(501,810)の動作を制御するための制御信号(411)を提供する、
    ように構成されているシステム(400,500)。
  25. 1つまたは複数のプロセッサ(110)および1つまたは複数のストレージデバイス(120)を含むシステム(600,700,790)であって、前記システム(600,700,790)は、
    前記1つまたは複数のプロセッサ(110)によって実行されるクラスタリングアルゴリズムによって、複数の画像ベースの入力データセットの複数の第2の高次元表現(405)の複数のクラスターを決定し、
    前記複数のクラスターの所定のクラスターのクラスター中心の第1の高次元表現を決定し、
    前記第1の高次元表現と、前記複数の第2の高次元表現の各第2の高次元表現(405)またはそのサブセットと、の比較に基づいて、前記複数の第2の高次元表現から1つの第2の高次元表現(405)を選択し、
    前記選択された第2の高次元表現に基づいて、顕微鏡の動作を制御するための制御信号(411)を提供する、
    ように構成されているシステム(600,700,790)。
  26. 前記クラスタリングアルゴリズムは、k平均クラスタリングアルゴリズムまたは平均シフトクラスタリングアルゴリズムを含む、
    請求項24記載のシステム。
  27. 前記システムは、前記選択された第2の高次元表現に基づいて顕微鏡ターゲット位置を決定するように構成され、前記顕微鏡ターゲット位置は、前記選択された第2の高次元表現に対応する、画像ベースの入力データによって表された画像が撮像された位置であり、前記制御信号は、前記顕微鏡ターゲット位置まで駆動するために前記顕微鏡をトリガするように構成されている、
    請求項24から26までのいずれか1項記載のシステム。
  28. 前記システムは、前記1つまたは複数のプロセッサ(110)によって実行される視覚認識機械学習アルゴリズムによって、前記複数の画像ベースの入力データセットの前記複数の第2の高次元表現を生成するように構成されている、
    請求項24から27までのいずれか1項記載のシステム。
  29. 前記システムは、前記比較に基づいて、前記複数の第2の高次元表現のうちの前記第1の高次元表現に最も近い第2の高次元表現を選択するように構成されている、
    請求項24から28までのいずれか1項記載のシステム。
  30. 前記システムは、検体の複数の画像を撮像するように構成された顕微鏡をさらに含み、前記複数の画像ベースの入力データセットは、前記検体の複数の画像を表す、
    請求項24から29までのいずれか1項記載のシステム。
  31. 顕微鏡であって、請求項1から30までのいずれか1項記載のシステムを含んでいる、顕微鏡。
  32. 生物学関連の画像ベースの検索データを処理するための方法(900)であって、前記方法は、
    生物学関連の画像ベースの検索データを受信するステップ(910)と、
    トレーニングされた視覚認識機械学習アルゴリズムによって、前記生物学関連の画像ベースの検索データの第1の高次元表現を生成するステップ(920)であって、前記第1の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリを含むステップ(920)と、
    複数の生物学関連の画像ベースの入力データセットまたは複数の生物学関連の言語ベースの入力データセットの複数の第2の高次元表現を取得するステップ(930)と、
    前記第1の高次元表現を、前記複数の第2の高次元表現の各第2の高次元表現と比較するステップ(940)と、
    を含む方法(900)。
  33. 顕微鏡を制御するための方法(1000)であって、前記方法は、
    画像ベースの検索データを受信するステップ(1010)と、
    トレーニングされた視覚認識機械学習アルゴリズムによって、前記画像ベースの検索データの第1の高次元表現を生成するステップ(1020)であって、前記第1の高次元表現は、それぞれ異なる値を有する少なくとも3つのエントリを有するステップ(1020)と、
    複数の画像ベースの入力データセットの複数の第2の高次元表現を取得するステップ(1030)と、
    前記第1の高次元表現と、前記複数の第2の高次元表現の各第2の高次元表現と、の比較に基づいて、前記複数の第2の高次元表現から1つの第2の高次元表現を選択するステップ(1040)と、
    前記選択された前記第2の高次元表現に基づいて、前記顕微鏡の動作を制御するステップ(1050)と、
    を含む方法(1000)。
  34. 顕微鏡を制御するための方法(1100)であって、前記方法は、
    クラスタリングアルゴリズムによって、複数の画像ベースの入力データセットの複数の第2の高次元表現の複数のクラスターを決定するステップ(1110)と、
    前記複数のクラスターの所定のクラスターのクラスター中心の第1の高次元表現を決定するステップ(1120)と、
    前記第1の高次元表現と、前記複数の第2の高次元表現の各第2の高次元表現またはそのサブセットと、の比較に基づいて、前記複数の第2の高次元表現から1つの第2の高次元表現を選択するステップ(1130)と、
    前記選択された第2の高次元表現に基づいて、前記顕微鏡の動作を制御するための制御信号を提供するステップ(1140)と、
    を含む方法(1100)。
  35. コンピュータプログラムであって、プログラムがプロセッサによって実行されるときに、請求項32から34までのいずれか1項記載の方法を実行するためのプログラムコードを含む、コンピュータプログラム。
JP2021572431A 2019-06-07 2019-06-07 生物学関連のデータを処理するためのシステムおよび方法、顕微鏡を制御するためのシステムおよび方法ならびに顕微鏡 Active JP7526211B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2019/064978 WO2020244779A1 (en) 2019-06-07 2019-06-07 A system and method for processing biology-related data, a system and method for controlling a microscope and a microscope

Publications (2)

Publication Number Publication Date
JP2022542752A true JP2022542752A (ja) 2022-10-07
JP7526211B2 JP7526211B2 (ja) 2024-07-31

Family

ID=66867116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021572431A Active JP7526211B2 (ja) 2019-06-07 2019-06-07 生物学関連のデータを処理するためのシステムおよび方法、顕微鏡を制御するためのシステムおよび方法ならびに顕微鏡

Country Status (5)

Country Link
US (1) US12026191B2 (ja)
EP (1) EP3981008A1 (ja)
JP (1) JP7526211B2 (ja)
CN (1) CN114375477A (ja)
WO (1) WO2020244779A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11599749B1 (en) * 2019-12-23 2023-03-07 Thales Sa Method of and system for explainable knowledge-based visual question answering
US12001491B2 (en) * 2022-02-01 2024-06-04 Jpmorgan Chase Bank, N.A. Method and system for automated public information discovery
CN116030454B (zh) * 2023-03-28 2023-07-18 中南民族大学 一种基于胶囊网络和多语言模型的文字识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004259061A (ja) * 2003-02-26 2004-09-16 Intec Web & Genome Informatics Corp 情報検索装置、情報検索方法、及び情報検索プログラム
WO2014103664A1 (ja) * 2012-12-26 2014-07-03 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2017520864A (ja) * 2014-04-09 2017-07-27 エントルピー インコーポレーテッドEntrupy Inc. 微視的差異からの機械学習を使用する物体の真贋鑑定
JP2018119969A (ja) * 2014-06-16 2018-08-02 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレーテッドSiemens Healthcare Diagnostics Inc. 血液学用デジタルホログラフィ顕微鏡検査データ分析

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE422064T1 (de) * 2001-04-12 2009-02-15 Cellavision Ab Verfahren in der mikroskopie und mikroskop, wobei teilbilder aufgezeichnet und in demselben koordinatensystem im puzzle-verfahren angeordnet werden, um eine präzise positionierung der mikroskopstufe zu ermöglichen
JP2005269605A (ja) * 2004-02-20 2005-09-29 Fuji Photo Film Co Ltd デジタル図鑑システム、図鑑検索方法、図鑑検索プログラム
US8319829B2 (en) 2008-05-16 2012-11-27 Ffei Limited Method and system for controlling the position of a microscope lens
JP6160187B2 (ja) * 2013-04-09 2017-07-12 ソニー株式会社 分析装置、分析プログラム及び分析システム
US10769501B1 (en) * 2017-02-15 2020-09-08 Google Llc Analysis of perturbed subjects using semantic embeddings
US11531844B2 (en) * 2018-03-16 2022-12-20 The United States Of America, As Represented By The Secretary, Department Of Health & Human Services Using machine learning and/or neural networks to validate stem cells and their derivatives (2-D cells and 3-D tissues) for use in cell therapy and tissue engineered products

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004259061A (ja) * 2003-02-26 2004-09-16 Intec Web & Genome Informatics Corp 情報検索装置、情報検索方法、及び情報検索プログラム
WO2014103664A1 (ja) * 2012-12-26 2014-07-03 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2017520864A (ja) * 2014-04-09 2017-07-27 エントルピー インコーポレーテッドEntrupy Inc. 微視的差異からの機械学習を使用する物体の真贋鑑定
JP2018119969A (ja) * 2014-06-16 2018-08-02 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレーテッドSiemens Healthcare Diagnostics Inc. 血液学用デジタルホログラフィ顕微鏡検査データ分析

Also Published As

Publication number Publication date
JP7526211B2 (ja) 2024-07-31
US20220245188A1 (en) 2022-08-04
EP3981008A1 (en) 2022-04-13
CN114375477A (zh) 2022-04-19
US12026191B2 (en) 2024-07-02
WO2020244779A1 (en) 2020-12-10

Similar Documents

Publication Publication Date Title
JP7443401B2 (ja) 生物学関連のデータを処理するための機械学習アルゴリズムをトレーニングするためのシステムおよび方法、顕微鏡ならびにトレーニングされた機械学習アルゴリズム
Bolón-Canedo et al. Recent advances and emerging challenges of feature selection in the context of big data
Sommer et al. Machine learning in cell biology–teaching computers to recognize phenotypes
Pastore et al. Annotation-free learning of plankton for classification and anomaly detection
Huang et al. From quantitative microscopy to automated image understanding
Glory et al. Automated subcellular location determination and high-throughput microscopy
Zhou et al. Informatics challenges of high-throughput microscopy
Cai et al. Joint stage recognition and anatomical annotation of drosophila gene expression patterns
JP7526211B2 (ja) 生物学関連のデータを処理するためのシステムおよび方法、顕微鏡を制御するためのシステムおよび方法ならびに顕微鏡
JP7526210B2 (ja) 生物学関連のデータを処理するためのシステムおよび方法、顕微鏡を制御するためのシステムおよび方法ならびに顕微鏡
Sanchez-Fernandez et al. CLOOME: contrastive learning unlocks bioimaging databases for queries with chemical structures
JP7346603B2 (ja) 生物学関連のデータを処理するためのシステムおよび方法ならびに顕微鏡
Tizhoosh et al. On image search in histopathology
Yuan et al. Automated annotation of developmental stages of Drosophila embryos in images containing spatial patterns of expression
Chowdhury et al. Active deep learning reduces annotation burden in automatic cell segmentation
Tiwari et al. An optimal feature selection method for histopathology tissue image classification using adaptive jaya algorithm
WO2023205478A1 (en) Data integration, knowledge extraction and methods thereof
Gancheva et al. SOA based system for big genomic data analytics and knowledge discovery
Janosch et al. Unbiased phenotype detection using negative controls
US20240273877A1 (en) Methods, systems, and computer programs for adjusting a first and a second machine-learning model and for pro-cessing a set of images, imaging system
Verma et al. Systems biology-driven hypotheses tested in vivo: the need to advancing molecular imaging tools
Sharma et al. Bio-inspired algorithm-based hyperparameter tuning for drug-target binding affinity prediction in healthcare
WO2020244777A1 (en) A system and method for generating a biology-related image-based output data set of a typical image of a biological structure and a system and method for training a generative adversarial network
Islam et al. Deep Multi-Modal Approach for Protein Function Prediction and Classification
Gou et al. Application of attention mechanism in image search

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220607

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230808

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240719

R150 Certificate of patent or registration of utility model

Ref document number: 7526211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150