JP2021524099A - 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法 - Google Patents

異なるデータモダリティの統計モデルを統合するためのシステムおよび方法 Download PDF

Info

Publication number
JP2021524099A
JP2021524099A JP2020564186A JP2020564186A JP2021524099A JP 2021524099 A JP2021524099 A JP 2021524099A JP 2020564186 A JP2020564186 A JP 2020564186A JP 2020564186 A JP2020564186 A JP 2020564186A JP 2021524099 A JP2021524099 A JP 2021524099A
Authority
JP
Japan
Prior art keywords
modality
data
feature vector
training
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020564186A
Other languages
English (en)
Other versions
JPWO2019221985A5 (ja
JP7317050B2 (ja
Inventor
エム. ロスバーグ、ジョナサン
エム. ロスバーグ、ジョナサン
エーザー、ウムット
マイヤー、マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quantum Si Inc
Original Assignee
Quantum Si Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quantum Si Inc filed Critical Quantum Si Inc
Publication of JP2021524099A publication Critical patent/JP2021524099A/ja
Publication of JPWO2019221985A5 publication Critical patent/JPWO2019221985A5/ja
Application granted granted Critical
Publication of JP7317050B2 publication Critical patent/JP7317050B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

第1モダリティからの入力データおよび第1モダリティとは異なる第2モダリティからの入力データを含む複数のモダリティからの入力データを受信するように構成されたマルチモーダル統計モデルを使用して、予測タスクを実行する手法。手法は、マルチモーダル統計モデルを指定する情報を取得する工程であって、マルチモーダル統計モデルを指定する情報は、マルチモーダル統計モデルの複数の構成要素のそれぞれのパラメータの値を含み、複数の構成要素は、第1モダリティおよび第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む工程と、第1データモダリティの第1入力データを取得する工程と、第1入力データを第1エンコーダに提供して、第1特徴ベクトルを生成する工程と、共同モダリティ表現、第1モダリティ埋め込み、および第1特徴ベクトルを使用して、第2特徴ベクトルを特定する工程と、予測子と第2特徴ベクトルを使用して予測タスクの予測を生成する工程と、を含む。

Description

本願は、異なるデータモダリティの統計モデルを統合するためのシステムおよび方法に関する。
機械学習の技術は、複数のモダリティからのデータが利用可能な場合の問題にしばしば適用される。データは、それぞれのデータソース、データタイプ、データ収集技術、センサ、および/または環境によって特徴付けられ得る、異なる取得フレームワークを使用して収集され得る。あるモダリティに関連付けられているデータは、異なるモダリティに関連付けられているデータを収集するために使用される取得フレームワークとは異なる取得フレームワークを使用することで収集されてよい。例えば、ある種類のセンサまたは実験手法によって収集されたデータは、別の種類のセンサまたは実験手法によって収集されたデータとは異なるモダリティを有する。別の例として、ある種類のデータ(例えば、画像データ)は、別の種類のデータ(例えば、テキストデータ)と同じモダリティではない。
特定のモダリティのデータを処理する従来の統計モデルは多い。例えば、畳み込みニューラルネットワークを画像に適用することで、画像に表示されているオブジェクトを識別する問題を解決し得る。別の例として、回帰型ニューラルネットワークは、音声認識のために音声データに適用され得る。
しかし、複数の異なるデータモダリティからのデータを効果的に利用できる統計的機械学習モデルを訓練して使用することはより困難である。このようなマルチモーダル統計機械学習モデルは、関心のある問題(例えば、患者が特定の薬物治療に反応するかどうかの予測)に関連して用いられる多数の異種データソース(患者のDNA、RNA、およびタンパク質の発現データ、1つまたは複数のモダリティにおける患者の医用画像、患者の病歴、患者が罹っているかもしれない病気に関する情報等)が存在する医学や生物学を含む、さまざまな分野における幅広い適用が見込まれる。
本願は、異なるデータモダリティの統計モデルを統合するためのシステムおよび方法に関する。
いくつかの実施形態は、第1モダリティからの入力データおよび第1モダリティとは異なる第2モダリティからの入力データを含む複数のモダリティからの入力データを受信するように構成されたマルチモーダル統計モデルを訓練する方法を含む。方法は、第1モダリティのラベル付けされていない訓練データおよび第2モダリティのラベル付けされていない訓練データを含むラベル付けされていない訓練データにアクセスする、ラベル付けされていない訓練データアクセス工程と、第1モダリティのラベル付けされた訓練データおよび第2モダリティのラベル付けされた訓練データを含むラベル付けされた訓練データにアクセスする、ラベル付けされた訓練データアクセス工程と、マルチモーダル統計モデルを2段階で訓練する、訓練工程であって、マルチモーダル統計モデルは、第1モダリティおよび第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む複数の構成要素を含み、訓練工程は、自己教師あり学習手法およびラベル付けされていない訓練データを使用して、第1モダリティ埋め込みおよび第2モダリティ埋め込みと共同モダリティ表現とのパラメータの値を推定することにより、少なくとも部分的に第1訓練段階を実行する、第1訓練段階実行工程および、教師あり学習手法およびラベル付けされた訓練データを使用して、予測子のパラメータの値を推定することにより、少なくとも部分的に第2訓練段階を実行する、第2訓練段階実行工程、を含む訓練工程と、マルチモーダル統計モデルの複数の構成要素のパラメータの予測値を記憶することにより、マルチモーダル統計モデルを指定する情報を少なくとも部分的に記憶する工程と、を備える。
いくつかの実施形態は、1つ以上のコンピュータハードウェアプロセッサと、1つ以上の非一時的なコンピュータ可読記憶媒体と、を備えるシステムを含み、非一時的なコンピュータ可読記憶媒体は、1つ以上のコンピュータハードウェアプロセッサによって実行された場合、1つ以上のコンピュータハードウェアプロセッサに、第1モダリティからの入力データおよび第1モダリティとは異なる第2モダリティからの入力データを含む複数のモダリティからの入力データを受信するように構成されたマルチモーダル統計モデルを訓練する方法、を実行させるプロセッサ実行可能な命令を記憶する。方法は、第1モダリティのラベル付けされていない訓練データおよび第2モダリティのラベル付けされていない訓練データを含むラベル付けされていない訓練データにアクセスする工程と、第1モダリティのラベル付けされた訓練データおよび第2モダリティのラベル付けされた訓練データを含むラベル付けされた訓練データにアクセスする工程と、マルチモーダル統計モデルを2段階で訓練する、訓練工程であって、マルチモーダル統計モデルは、第1モダリティおよび第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む複数の構成要素を含み、訓練工程は、自己教師あり学習手法およびラベル付けされていない訓練データを使用して、第1モダリティ埋め込みおよび第2モダリティ埋め込みと共同モダリティ表現とのパラメータの値を推定することにより、少なくとも部分的に第1訓練段階を実行する、第1訓練段階実行工程および、教師あり学習手法およびラベル付けされた訓練データを使用して、予測子のパラメータの値を推定することにより、少なくとも部分的に第2訓練段階を実行する、第2訓練段階実行工程、を含む訓練工程と、マルチモーダル統計モデルの複数の構成要素のパラメータの予測値を記憶することにより、マルチモーダル統計モデルを指定する情報を少なくとも部分的に記憶する工程と、を含む。
いくつかの実施形態は、1つ以上の非一時的なコンピュータ可読記憶媒体を含み、非一時的なコンピュータ可読記憶媒体は、1つ以上のコンピュータハードウェアプロセッサによって実行された場合、1つ以上のコンピュータハードウェアプロセッサに、第1モダリティからの入力データおよび第1モダリティとは異なる第2モダリティからの入力データを含む複数のモダリティからの入力データを受信するように構成されたマルチモーダル統計モデルを訓練する方法、を実行させるプロセッサ実行可能な命令を記憶する。方法は、第1モダリティのラベル付けされていない訓練データおよび第2モダリティのラベル付けされていない訓練データを含むラベル付けされていない訓練データにアクセスする工程と、第1モダリティのラベル付けされた訓練データおよび第2モダリティのラベル付けされた訓練データを含むラベル付けされた訓練データにアクセスする工程と、マルチモーダル統計モデルを2段階で訓練する、訓練工程であって、マルチモーダル統計モデルは、第1モダリティおよび第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む複数の構成要素を含み、訓練工程は、自己教師あり学習手法およびラベル付けされていない訓練データを使用して、第1モダリティ埋め込みおよび第2モダリティ埋め込みと共同モダリティ表現とのパラメータの値を推定することにより、少なくとも部分的に第1訓練段階を実行する、第1訓練段階実行工程および、教師あり学習手法およびラベル付けされた訓練データを使用して、予測子のパラメータの値を推定することにより、少なくとも部分的に第2訓練段階を実行する、第2訓練段階実行工程、を含む訓練工程と、マルチモーダル統計モデルの複数の構成要素のパラメータの予測値を記憶することにより、マルチモーダル統計モデルを指定する情報を少なくとも部分的に記憶する工程と、を含む。
いくつかの実施形態では、訓練工程は、第1訓練段階の前に第1エンコーダおよび第2エンコーダのパラメータの値を推定する工程をさらに含む。
いくつかの実施形態では、訓練工程は、第1訓練段階の前に第1モダリティおよび第2モダリティの第1デコーダおよび第2デコーダのパラメータの値をそれぞれ推定する工程をさらに含む。
いくつかの実施形態では、訓練工程は、第1訓練段階中に、第1エンコーダおよび第2エンコーダのパラメータの値の推定を、共同モダリティ表現のパラメータの値の推定と共同でする工程をさらに含む。
いくつかの実施形態では、訓練工程は、第1訓練段階中に、第1モダリティの第1デコーダおよび第2モダリティの第2デコーダのパラメータの値を推定する工程をさらに含む。
いくつかの実施形態では、第1訓練段階実行工程は、第1モダリティのラベル付けされていない訓練データにおける第1データ入力にアクセスする工程と、第1データ入力を第1エンコーダに提供して、第1特徴ベクトルを生成する工程と、共同モダリティ表現、第1モダリティ埋め込み、および第1特徴ベクトルを使用して、第2特徴ベクトルを特定する、第2特徴ベクトル特定工程と、第2特徴ベクトルを入力として第1デコーダに提供して、第1データ出力を生成する工程と、を含む。
いくつかの実施形態では、方法は、第1データ出力を第1データ入力と比較する工程と、比較の結果に基づき、共同モダリティ表現の1つ以上のパラメータの1つ以上の値を更新する工程と、をさらに含む。
いくつかの実施形態では、第1訓練段階実行工程は、第1モダリティのラベル付けされていない訓練データにおける第1入力にアクセスする工程と、第1入力データを第1エンコーダに提供して、第1特徴ベクトルを生成する工程と、共同モダリティ表現、第2モダリティ埋め込み、および第1特徴ベクトルを使用して、第2特徴ベクトルを特定する工程と、第2特徴ベクトルを入力として第2モダリティの第2デコーダに提供して、第2出力データを生成する工程と、を含む。
いくつかの実施形態では、第1エンコーダはd次元ベクトルを出力するように構成され、共同モダリティ表現はN個のm次元ベクトルを含み、第1モダリティ埋め込みはm*dの重みを含む。
いくつかの実施形態では、第2特徴ベクトル特定工程は、第1モダリティ埋め込みを使用することにより、共同モダリティ表現を第1モダリティの空間に投影して、N個のd次元ベクトルを取得する工程と、共同モダリティ表現におけるN個のd次元ベクトルの中から、類似性メトリックに従って第1特徴ベクトルに最も類似する第3特徴ベクトルを特定する工程と、第1特徴ベクトルを第3特徴ベクトルと集約することにより第2特徴ベクトルを生成する工程と、を含む。
いくつかの実施形態では、第2特徴ベクトル特定工程は、第1モダリティ埋め込みを使用することにより、共同モダリティ表現を第1モダリティの空間に投影して、N個のd次元ベクトルを取得する工程と、N個のd次元ベクトルの少なくとも一部と第1特徴ベクトルとの間の類似性に従って、共同モダリティ表現におけるN個のd次元ベクトルの少なくとも一部の重みを算出する工程と、第1特徴ベクトルを、算出された重みによって重み付けされたN個のd次元ベクトルの少なくとも一部の加重和と集約することにより第2特徴ベクトルを生成する工程と、を含む。
いくつかの実施形態では、マルチモーダル統計モデルは、第1タスク埋め込みおよび第2タスク埋め込みをさらに備え、訓練工程は、第2訓練段階中に、第1タスク埋め込みおよび第2タスク埋め込みのパラメータの値の推定を、予測子のパラメータの値の推定と共同でする工程をさらに含む。
いくつかの実施形態では、第1エンコーダはニューラルネットワークを含む。いくつかの実施形態では、ニューラルネットワークは畳み込みニューラルネットワークである。いくつかの実施形態では、ニューラルネットワークは回帰型ニューラルネットワークである。
いくつかの実施形態では、第1訓練段階は、確率的勾配降下法を使用して共同モダリティ表現のパラメータの値を推定する工程をさらに含む。いくつかの実施形態では、第1訓練段階は、確率的勾配降下法を使用して第1モダリティ埋め込みおよび第2モダリティ埋め込みのパラメータの値を推定する工程をさらに含む。
いくつかの実施形態では、第1モダリティのラベル付けされていない訓練データは画像を含む。いくつかの実施形態では、第2モダリティのラベル付けされていない訓練データはテキストを含む。いくつかの実施形態では、第1モダリティのラベル付けされていない訓練データはタンパク質配列データを含む。いくつかの実施形態では、第2モダリティのラベル付けされていない訓練データは、タンパク質ファミリーデータ、生物学的プロセスオントロジーデータ、分子機能オントロジーデータ、細胞構成要素オントロジーデータ、または分類学的種ファミリーデータを含む。
いくつかの実施形態では、方法は、第3モダリティのラベル付けされていない訓練データにアクセスする工程と、第3モダリティのラベル付けされた訓練データにアクセスする工程と、マルチモーダル統計モデルを拡張して、第3モダリティの第3エンコーダおよび第3モダリティ埋め込みを含める工程と、自己教師あり学習手法および第3モダリティのラベル付けされていない訓練データを使用して、第3モダリティ埋め込みおよび共同モダリティ表現のパラメータの値を更新することおよび、教師あり学習手法および第3モダリティのラベル付けされた訓練データを使用して、予測子のパラメータの値を更新することによりマルチモーダル統計モデルを更新する工程と、をさらに備える。
いくつかの実施形態では、マルチモーダル統計モデルは、第1モダリティおよび第2モダリティとは異なる第3モダリティから入力データを受信するように構成され、第3モダリティ埋め込みをさらに含み、ラベル付けされていない訓練データアクセス工程は、第3モダリティのラベル付けされていない訓練データにアクセスする工程を含み、ラベル付けされた訓練データアクセス工程は、第3モダリティのラベル付けされた訓練データにアクセスする工程を含み、第1訓練段階実行工程は、第3モダリティのラベル付けされていない訓練データにさらに基づき第3モダリティ埋め込みのパラメータの値を推定する工程をさらに含み、第2訓練段階実行工程は、第3モダリティのラベル付けされた訓練データにさらに基づき予測子のパラメータの値を推定する工程を含む。
いくつかの実施形態は、第1モダリティからの入力データおよび第1モダリティとは異なる第2モダリティからの入力データを含む複数のモダリティからの入力データを受信するように構成されたマルチモーダル統計モデルを使用して、予測タスクを実行する方法を含む。方法は、マルチモーダル統計モデルを指定する情報を取得する工程であって、マルチモーダル統計モデルを指定する情報は、マルチモーダル統計モデルの複数の構成要素のそれぞれのパラメータの値を含み、複数の構成要素は、第1モダリティおよび第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む工程と、第1データモダリティの第1入力データを取得する工程と、第1入力データを第1エンコーダに提供して、第1特徴ベクトルを生成する工程と、共同モダリティ表現、第1モダリティ埋め込み、および第1特徴ベクトルを使用して、第2特徴ベクトルを特定する、第2特徴ベクトル特定工程と、予測子および第2特徴ベクトルを使用して予測タスクの予測を生成する、予想生成工程と、を備える。
いくつかの実施形態は、第1モダリティからの入力データおよび第1モダリティとは異なる第2モダリティからの入力データを含む複数のモダリティからの入力データを受信するように構成されたマルチモーダル統計モデルを使用して、予測タスクを実行するシステムを含む。システムは1つ以上のコンピュータハードウェアプロセッサと、1つ以上の非一時的なコンピュータ可読記憶媒体と、を備えるシステムであって、1つ以上の非一時的なコンピュータ可読記憶媒体は、1つ以上のコンピュータハードウェアプロセッサによって実行された場合、1つ以上のコンピュータハードウェアプロセッサに、マルチモーダル統計モデルを指定する情報を取得する工程であって、マルチモーダル統計モデルを指定する情報は、マルチモーダル統計モデルの複数の構成要素のそれぞれのパラメータの値を含み、複数の構成要素は、第1モダリティおよび第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む工程と、第1データモダリティの第1入力データを取得する工程と、第1入力データを第1エンコーダに提供して、第1特徴ベクトルを生成する工程と、共同モダリティ表現、第1モダリティ埋め込み、および第1特徴ベクトルを使用して、第2特徴ベクトルを特定する工程と、予測子と第2特徴ベクトルを使用して予測タスクの予測を生成する工程と、を実行させるプロセッサ実行可能な命令を記憶するシステム。
いくつかの実施形態は、1つ以上の非一時的なコンピュータ可読記憶媒体を含む。非一時的なコンピュータ可読記憶媒体は、1つ以上のコンピュータハードウェアプロセッサによって実行された場合、1つ以上のコンピュータハードウェアプロセッサに、マルチモーダル統計モデルを指定する情報を取得する工程であって、マルチモーダル統計モデルを指定する情報は、マルチモーダル統計モデルの複数の構成要素のそれぞれのパラメータの値を含み、複数の構成要素は、第1モダリティおよび第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む工程と、第1データモダリティの第1入力データを取得する工程と、第1入力データを第1エンコーダに提供して、第1特徴ベクトルを生成する工程と、共同モダリティ表現、第1モダリティ埋め込み、および第1特徴ベクトルを使用して、第2特徴ベクトルを特定する工程と、予測子と第2特徴ベクトルを使用して予測タスクの予測を生成する工程と、を実行させるプロセッサ実行可能な命令を記憶する。
いくつかの実施形態では、方法は、第2データモダリティの第2入力データを取得する工程と、第2入力データを第2エンコーダに提供して、第3特徴ベクトルを生成する工程と、共同モダリティ表現、第2モダリティ埋め込み、および第3特徴ベクトルを使用して、第4特徴ベクトルを特定する工程と、をさらに備え、第4特徴ベクトルを使用して予想生成工程を実行する。
いくつかの実施形態では、マルチモーダル統計モデルは、第1モダリティおよび第2モダリティの第1タスク埋め込みおよび第2タスク埋め込みを含み、予想生成工程は、第1タスク埋め込みを使用して第2特徴ベクトルを重み付けする工程と、第2タスク埋め込みを使用して第4特徴ベクトルを重み付けする工程と、重み付けされた第2特徴ベクトルおよび第4特徴ベクトルと予測子とを使用して、予測タスクの予測を生成する工程と、をさらに含む。
いくつかの実施形態では、方法は、重み付けされた第2特徴ベクトルおよび第4特徴ベクトルを予測子に提供する工程をさらに備える。
いくつかの実施形態では、第1エンコーダはd次元ベクトルを出力するように構成され、共同モダリティ表現はN個のm次元ベクトルを含み、第1モダリティ埋め込みはmxdの重みを含む。
いくつかの実施形態では、第2特徴ベクトル特定工程は、第1モダリティ埋め込みを使用することにより、共同モダリティ表現を第1モダリティの空間に投影して、N個のd次元ベクトルを取得する工程と、共同モダリティ表現におけるN個のd次元ベクトルの中から、類似性メトリックに従って第1特徴ベクトルに最も類似する第3特徴ベクトルを特定する工程と、第1モダリティ埋め込みにおける重みを使用して第3特徴ベクトルの次元を重み付けすることにより第2特徴ベクトルを生成する工程と、を含む。
いくつかの実施形態では、第2特徴ベクトル特定工程は、第1モダリティ埋め込みを使用することにより、共同モダリティ表現を第1モダリティの空間に投影して、N個のd次元ベクトルを取得する工程と、共同モダリティ表現におけるN個のd次元ベクトルの中から、類似性メトリックに従って第1特徴ベクトルに最も類似する第3特徴ベクトルを特定する工程と、第1特徴ベクトルを第3特徴ベクトルと集約することにより第2特徴ベクトルを生成する工程と、を含む。
いくつかの実施形態では、第2特徴ベクトル特定工程は、第1モダリティ埋め込みを使用することにより、共同モダリティ表現を第1モダリティの空間に投影して、N個のd次元ベクトルを取得する工程と、N個のd次元ベクトルの少なくとも一部と第1特徴ベクトルとの間の類似性に従って、共同モダリティ表現におけるN個のd次元ベクトルの少なくとも一部の重みを算出する工程と、算出された重みによって重み付けられたN個のd次元ベクトルの少なくとも一部の加重和として第2特徴ベクトルを生成する工程と、を含む。
いくつかの実施形態では、第1エンコーダはニューラルネットワークを含む。いくつかの実施形態では、ニューラルネットワークは、畳み込みニューラルネットワークである。いくつかの実施形態では、ニューラルネットワークは回帰型ニューラルネットワークである。
いくつかの実施形態では、第1モダリティの入力データは1つ以上の画像を含む。いくつかの実施形態では、第2モダリティの入力データはテキストを含む。いくつかの実施形態では、第1モダリティの入力データはタンパク質配列データを含む。いくつかの実施形態では、第2モダリティの入力データは、タンパク質ファミリーデータ、生物学的プロセスオントロジーデータ、分子機能オントロジーデータ、細胞構成要素オントロジーデータ、または分類学的種ファミリーデータを含む。
前述の概念および以下でより詳細に説明される追加の概念の全ての組み合わせは、そのような概念が相互に矛盾しない限り、本明細書に開示される本発明の主題の一部であると考察されることが理解されるべきである。
以下の図を参照して、技術の様々な非限定的な実施形態を説明する。図は必ずしも縮尺通りに描かれているわけではないことが理解されるべきである。
本明細書に記載の技術のいくつかの実施形態による、自己教師あり学習手法を使用する単一モダリティの統計モデルのための知識ベースの訓練を示す図。 本明細書に記載の技術のいくつかの実施形態による、自己教師あり学習手法を使用するマルチモーダル統計モデルの第1訓練段階を示す図。 本明細書に記載の技術のいくつかの実施形態による、教師あり学習手法を使用するマルチモーダル統計モデルの第2訓練段階を示す図。 本明細書に記載の技術のいくつかの実施形態による、第1段階は自己教師あり学習を含み、第2段階は教師あり学習を含む、2段階の訓練手順を使用してマルチモーダル統計モデルを訓練する例示的な処理のフローチャート。 本明細書に記載の技術のいくつかの実施形態による、予測タスクのためのマルチモーダル統計モデルを使用する例示的な処理400のフローチャート。 本明細書に記載の技術のいくつかの実施形態による、従来の技術と比較した予測タスクにおけるマルチモーダル統計モデルの性能を示す図。 本明細書に記載の技術のいくつかの実施形態による、エンコーダおよびデコーダを示す図。 本明細書に記載の技術のいくつかの実施形態による、エンコーダおよびデコーダを示す図。 本明細書に記載の技術のいくつかの実施形態を実装し得る例示的なコンピュータシステムの構成要素を示す図。
複数のモダリティからのデータを入力として受信および処理するように構成された統計モデルは、マルチモーダル統計モデルと呼ばれる場合がある。本発明者らは、それぞれが異なる各自のモダリティでデータを処理するように設計された複数の個々の統計モデルを統合しマルチモーダル統計モデルを生成する、新規な技術を開発することによって、新しいクラスのマルチモーダル統計モデルを開発した。本明細書に記載の技術は、異なるモダリティおよび/または任意の他の適切な種類の統計モデル用に訓練された複数の深層学習モデルを統合するために使用され得る。本発明者らによって開発された技術は、マルチモーダル統計モデルを構築する従来技術の欠点に対処する。これらの欠点に対処することにより、本発明者らは、従来の機械学習システムおよびそれらを実装するために使用されるコンピュータ技術を改善する技術を開発した。
マルチモーダル統計モデルを訓練する従来の機械学習手法では、マルチモーダル統計モデルが、複数のモダリティのそれぞれからのリンクデータを使用して「同期的に」訓練される必要があり、これにより、訓練データは、統計モデルが処理するように訓練される各モダリティからのデータを各々含む。このような同時訓練の必要性は大きな制限であり、少数(例えば2か3)を超えるモダリティからのデータを受信および処理が可能なマルチモーダル統計モデルの設計を妨げる。一方では、はるかに多くのデータモダリティからの処理が入力可能なマルチモーダル統計モデルが、例えば医学や生物学などの分野で必要である。
リンクデータを収集する必要があるので、同期的訓練は大きな制限である。あるモダリティに対する訓練データは、マルチモーダル統計モデルが処理するように訓練された他の全てのモダリティにおける対応する訓練データを各々有する必要がある。このような訓練データの収集は、法外に高額で極めて時間がかかるため、データの収集とラベル付けに数百または数千の工数を要する。同時訓練が可能でありリンクデータが2つのデータモダリティで利用可能であったとしても、後で別のデータモダリティの新しいデータが取得された場合、新しいデータを既存のデータにリンクする必要があり(再び時間がかかり高額)、さらに統計モデル全体を再訓練しなければならない。つまり、同期的訓練は、少数(すなわち2か3)を超えるモダリティのマルチモーダル統計モデルを生成および更新することを非現実的で、実際にはほぼ不可能にする。
本発明者らによって開発され、本明細書に記載される技術は、統計モデルが処理するように訓練されている複数のモダリティのそれぞれからのリンクデータを使用して訓練を同期的に実行する必要なしに、マルチモーダル統計モデルの効率的な作成および更新を可能にする。従来の技術とは異なり、本発明者らは、マルチモーダル統計モデルの非同期的訓練および更新を可能にする手法を開発した。非同期的訓練は、本明細書に記載の革新的な共有コードブックアーキテクチャによって可能になる。このアーキテクチャでは、それぞれのモダリティでデータを処理するため事前に訓練された個別の統計モデルが、それぞれの潜在表現を共同モダリティ表現に結合することによって統合され、それにより個別のモデル間の情報が共有される。
本発明者らは、個別の統計モデルを統合する革新的なアーキテクチャを開発しただけでなく、複数のモダリティのそれぞれからの訓練データを使用してこのアーキテクチャの構成要素を非同期的に訓練し、また追加的なデータが利用可能になった際に訓練された構成要素のパラメータを更新するための新規なアルゴリズムを作成した。本明細書に記載の技術は、任意の適切な数のデータモダリティ(例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16等)のデータを受信および処理するマルチモーダル統計モデルの訓練に適用可能である。図5を参照して以下に記載されるように、本発明者らは、従来の技術では不可能であった、6つの異なるモダリティ(タンパク質構造予測の問題)で生じるデータを処理するマルチモーダル統計モデルを生成するために新しい技術を使用した。
非同期的訓練を利用することで、従来の技術に比べて、初めて、任意の適切な数のデータモダリティのマルチモーダル統計モデルを生成可能になるという改善が得られるだけでなく、そのような機械学習システムを訓練し展開するために使用されるコンピュータ技術も向上する。特に、本明細書に記載のマルチモーダル統計モデルは、(全てのモダリティにわたってリンクされた訓練データインスタンスが必要ないため)より少ない訓練データで訓練され得る。これはつまり、このようなモデルを訓練し展開するために使用する必要のあるコンピューティング資源がより少なくて済むことを意味する。具体的には、必要なプロセッサの能力と時間、必要なメモリ、およびそのようなデータの送信に必要なネットワーク資源(ネットワーク帯域幅など)がより少なくて済み、これらの全てがコンピュータの機能を直接的に向上させる。
本発明者らによって開発された技術は、本発明者らによって開発され本明細書に記載された訓練の技術およびマルチモーダル統計モデルの使用を通じ、異なるデータモダリティ用に構築された統計モデルの効率的な統合を可能にするため、「UNITY」フレームワークと呼ばれることがある。
したがって、いくつかの実施形態は、第1モダリティからの入力データおよび第1モダリティとは異なる第2モダリティからの入力データを含む複数のモダリティからの入力データを受信するように構成されたマルチモーダル統計モデルを訓練する手法を提供する。該手法は、(1)第1モダリティのラベル付けされていない訓練データおよび第2モダリティのラベル付けされていない訓練データを含むラベル付けされていない訓練データにアクセスする、ラベル付けされていない訓練データアクセス工程と、(2)第1モダリティのラベル付けされた訓練データおよび第2モダリティのラベル付けされた訓練データを含むラベル付けされた訓練データにアクセスする、ラベル付けされた訓練データアクセス工程と、(3)マルチモーダル統計モデルを2段階で訓練する、訓練工程であって、マルチモーダル統計モデルは、第1モダリティおよび第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む複数の構成要素を含み、訓練工程は、(A)自己教師あり学習手法およびラベル付けされていない訓練データを使用して、第1モダリティ埋め込みおよび第2モダリティ埋め込みと共同モダリティ表現とのパラメータの値を推定することにより、少なくとも部分的に第1訓練段階を実行する、第1訓練段階実行工程および、(B)教師あり学習手法およびラベル付けされた訓練データを使用して、予測子のパラメータの値を推定することにより、少なくとも部分的に第2訓練段階を実行する、第2訓練段階実行工程、を含む訓練工程と、(4)マルチモーダル統計モデルの複数の構成要素のパラメータの予測値を記憶することにより、マルチモーダル統計モデルを指定する情報を少なくとも部分的に記憶する工程と、を含む。
いくつかの実施形態では、マルチモーダル統計モデルの第1訓練段階の前に第1エンコーダおよび第2エンコーダのパラメータの値が推定されてよい。統合される個々の統計モデルが事前に訓練され、その各エンコーダのパラメータが推定されている場合にこのようになってよい。他の実施形態では、エンコーダのパラメータは、初めて推定および/またはマルチモーダル統計モデルの訓練中に更新されてよい。同様に、第1デコーダおよび第2デコーダは、マルチモーダル統計モデルの訓練前または訓練中に訓練されてよい。
いくつかの実施形態では、共同モダリティ表現は、N個のm次元ベクトルを含むコードブックでよい。統合される個々の統計モデルは、入力の潜在表現を生成し、この潜在表現を使用して共同モダリティ表現における類似の1つまたは複数のベクトルを特定するように構成されてよい。次に、特定されたベクトルを使用して、予測タスクに使用可能な特徴の新しいセットを生成してよい。このように、あるモダリティに対して生成された特徴は更新され、異なるモダリティで収集された情報を、共通のコードブックの使用を介して反映してよい。
いくつかの実施形態では、第1訓練段階実行工程は、(A)第1モダリティのラベル付けされていない訓練データにおける第1データ入力にアクセスする工程と、(B)第1データ入力を第1エンコーダに提供して、第1特徴ベクトルを生成する工程と、(C)共同モダリティ表現、第1モダリティ埋め込み、および第1特徴ベクトルを使用して、第2特徴ベクトルを特定する、第2特徴ベクトル特定工程と、(D)第2特徴ベクトルを入力として第1デコーダに提供して、第1データ出力を生成する工程と、を含む。そして、第1データ出力は第1データ入力と比較されてよく、比較の結果に基づき(例えば、確率的勾配降下法を使用して)、共同モダリティ表現の1つまたは複数のパラメータ値が更新されてよい。
いくつかの実施形態では、第2特徴ベクトル特定工程は、(A)第1モダリティ埋め込みを使用することにより、共同モダリティ表現を第1モダリティの空間に投影して、N個のd次元ベクトルを取得する工程と、(B)N個のd次元ベクトルの少なくとも一部と第1特徴ベクトルとの間の類似性に従って、共同モダリティ表現におけるN個のd次元ベクトルの少なくとも一部の重みを算出する工程と、(C)第1特徴ベクトルを、算出された重みによって重み付けされたN個のd次元ベクトルの少なくとも一部の加重和と集約することにより第2特徴ベクトルを生成する工程と、を含む。
いくつかの実施形態では、訓練されるマルチモーダル統計モデルは、第1タスク埋め込みおよび第2タスク埋め込みをさらに備え、訓練工程は、第2訓練段階中に、第1タスク埋め込みおよび第2タスク埋め込みのパラメータの値の推定を、予測子のパラメータの値の推定と共同でする工程をさらに含む。
いくつかの実施形態では、第1エンコーダは畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、または任意の他の適切な種類の統計モデルのニューラルネットワークでよい。
いくつかの実施形態では、第1モダリティのラベル付けされていない訓練データは画像を含み、第2モダリティのラベル付けされていない訓練データはテキストを含む。いくつかの実施形態では、第1モダリティのラベル付けされていない訓練データはタンパク質配列データを含み、第2モダリティのラベル付けされていない訓練データは、タンパク質ファミリーデータ、生物学的プロセスオントロジーデータ、分子機能オントロジーデータ、細胞構成要素オントロジーデータ、または分類学的種ファミリーデータを含む。
いくつかの実施形態は、第1モダリティからの入力データおよび第1モダリティとは異なる第2モダリティからの入力データを含む複数のモダリティからの入力データを受信するように構成されたマルチモーダル統計モデルを使用して、予測タスクを実行する手法を含む。該方法は、(A)マルチモーダル統計モデルを指定する情報を取得する工程であって、マルチモーダル統計モデルを指定する情報は、マルチモーダル統計モデルの複数の構成要素のそれぞれのパラメータの値を含み、複数の構成要素は、第1モダリティおよび第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む工程と、(B)第1データモダリティの第1入力データを取得する工程と、(C)第1入力データを第1エンコーダに提供して、第1特徴ベクトルを生成する工程と、(D)共同モダリティ表現、第1モダリティ埋め込み、および第1特徴ベクトルを使用して、第2特徴ベクトルを特定する第2特徴ベクトル特定工程と、(E)予測子および第2特徴ベクトルを使用して予測タスクの予測を生成する、予想生成工程と、を備える。
いくつかの実施形態では、手法は、(A)第2データモダリティの第2入力データを取得する工程と、(B)第2入力データを第2エンコーダに提供して、第3特徴ベクトルを生成する工程と、(C)共同モダリティ表現、第2モダリティ埋め込み、および第3特徴ベクトルを使用して、第4特徴ベクトルを特定する工程と、をさらに備えてよい。第2特徴ベクトルおよび第4特徴ベクトルを使用して予想生成工程を実行してよい。
いくつかの実施形態では、マルチモーダル統計モデルは、第1モダリティおよび第2モダリティの第1タスク埋め込みおよび第2タスク埋め込みを含んでよく、予想生成工程は、第1タスク埋め込みを使用して第2特徴ベクトルを重み付けする工程と、第2タスク埋め込みを使用して第4特徴ベクトルを重み付けする工程と、重み付けされた第2特徴ベクトルおよび第4特徴ベクトルと予測子とを使用して、予測タスクの予測を生成する工程と、をさらに含んでよい。
上記され以下でより詳細に説明される技術は、特定の方法で技術が実装されることに限定されないので、複数のうちの任意の方法で実装され得ることが理解されるべきである。実装の詳細の例は、説明のみを目的として本明細書に記載されている。さらに、本明細書に記載の技術の態様は特定の技術または技術の組み合わせの使用に限定されないので、本明細書に開示される技術は、個別にまたは任意の適切な組み合わせで使用することができる。
図1は、本明細書に記載の技術のいくつかの実施形態による、自己教師あり学習手法を使用する単一モダリティの統計モデル100のための知識ベースの訓練を示す図である。統計モデル100は、エンコーダ104、デコーダ110、および知識ベースを表すメモリ105を含む個別のパラメータを有する複数の構成要素を含む。
この例では、エンコーダ104およびデコーダ110は、左から右に下向きに延びる対角線を有する塗りつぶしパターンによって示されるように事前に訓練されており、メモリ105は、左から右に上向きに伸びる対角線を有する塗りつぶしパターンによって示されるようにまだ訓練されていないものとする。しかしながら、以下でより詳細に説明するように、いくつかの実施形態では、個々の統計モデルは、初めて訓練されるか、または少なくともマルチモーダル統計モデルの訓練中に更新されてよい。
いくつかの実施形態では、エンコーダ104は、入力を受信し、(入力データの次元よりも低い次元を有し得る)潜在表現を出力するように構成されてよく、第1デコーダは、潜在表現から入力データを再構築するように構成されてよい。いくつかの実施形態では、エンコーダおよびデコーダは、オートエンコーダの一部であってよい。いくつかの実施形態では、統計モデル100はニューラルネットワークモデルであってよく、エンコーダ104およびデコーダ110は、エンコーダ104およびデコーダ110のパラメータが各ニューラルネットワーク層の重みを含むように、1つまたは複数のニューラルネットワーク層を含んでよい。ただし、エンコーダ104およびデコーダ110は、ニューラルネットワークであることに限定されず、任意の他の適切な種類の統計モデルであり得ることが理解されるべきである。
いくつかの実施形態では、メモリ105のパラメータ値は、統計モデル100の出力が統計モデル100への入力を可能な限り近く再現するように、自己教師あり学習を使用して推定されてよい。したがって、いくつかの実施形態では、訓練中に、統計モデル100の出力が入力と比較され、確率的勾配降下法(エンコーダとデコーダがニューラルネットワークの場合、バックプロパゲーションを使用して算出された勾配を有する)または任意の他の適切な訓練アルゴリズムを使用して、入力と出力との間の距離の測定に基づき、メモリ105のパラメータ値が繰り返し更新される。
例えば、いくつかの実施形態では、訓練データは、第1エンコーダ104への入力102として提供されてよい。エンコーダ104は、入力102に基づいて、第1特徴表現106を生成する。特徴表現106は、メモリ105を使用して、第2特徴表現108を取得するために使用される。いくつかの実施形態では、メモリ105は、特徴表現106の次元と同じ次元を有する複数のベクトルを記憶し得る。例えば、特徴表現108はd次元ベクトルであってよく、メモリ105はN個のd次元ベクトルを記憶してよい。いくつかの実施形態では、第2特徴表現108は、メモリ105内のベクトルから、(コサイン類似度、ユークリッド距離等の類似性の適切な測定に従って)第1特徴表現106に最も類似するベクトルを選択し、そして選択したベクトルを、集約演算107(合計、乗算、算術平均化、幾何学的平均化、または任意の他の適切な演算であってよい)を介して特徴表現106に追加することにより取得されてよい。いくつかの実施形態では、第2特徴表現108は、特徴表現106を用いてメモリ105内のベクトルの加重線形結合を集約することによって生成され、各ベクトルに対する重みは、ベクトルと特徴表現106との間の距離に比例してよい。第2特徴表現は、デコーダ110へ入力として提供される。次に、デコーダ110の出力は、エンコーダ104に提供される入力と比較され、メモリ105のパラメータ値の少なくとも一部は、エンコーダ104への入力とデコーダ110の出力との間の差に基づいて更新されてよい。
図1を参照して説明した実施形態では、エンコーダ104およびデコーダ110が訓練されているものとするが、他の実施形態では、エンコーダ104およびデコーダ110のパラメータ値は、初めて推定および/またはメモリ105のパラメータ値が推定されると同時に更新されてよい。
図1の例示的な例は、図1は、事前に訓練された複数の統計モデルを単一のマルチモーダル統計モデルに統合するために本発明者らによって開発された技術を理解するのに役立つ。特に、本明細書に記載されるように、マルチモーダル統計モデルは、共同モダリティ表現を通じて異なるモダリティ間で情報を共有することを可能にする。単一モダリティの統計モデル100の訓練および使用中にアクセスされるメモリ105のように、共同モダリティ表現(例えば、図2Aおよび2Bに示される知識ベース230)は、本明細書に記載のマルチモーダル統計モデル(例えば、モデル250)の訓練および使用中にアクセスされる。
本明細書に記載されるように、共同モダリティ表現にアクセスしてあるモダリティの算出を実行する場合、その内容は、最初に、モダリティ埋め込みを使用してそのモダリティに投影されてよい。このようなモダリティ投影は、本明細書に記載されるマルチモーダル統計モデルの一部を構成する。
図1に関連して説明したように、単一モダリティ統計モデル100は、メモリ105を含み、これは、事前に訓練されたエンコーダ104、デコーダ110、および(分類タスクに関してラベル付けされる必要のない)訓練データを使用する自己教師あり学習を使用して訓練されてよい。本発明者らによって開発されたマルチモーダル統計モデル(例えば、マルチモーダル統計モデル250)は、共同モダリティ表現(例えば、知識ベース230)および複数のモダリティ埋め込み(例えば、モダリティ埋め込み232)を含み、これは、本明細書に記載されるように図2A、2B、および3の参照を含む自己教師あり学習を使用して訓練され、また、本明細書に記載されるように図2および4の参照を含む予測に使用されてよい。
いくつかの実施形態では、本発明者によって開発されたマルチモーダル統計モデルは、2段階の訓練手順を使用して訓練されてよい。第1訓練段階は、自己教師あり訓練手法を使用して実行され、共同モダリティ表現およびモダリティ埋め込みのパラメータの学習を含む。第2段階は、教師あり訓練手法を使用して実行され、(適切な予測タスク用の)予測子およびタスクの埋め込みのパラメータの学習を含む。図2Aおよび2Bは、いくつかの実施形態において、マルチモーダル統計モデルのどの構成要素がこれらの2つの段階のそれぞれで学習されるかを示している。
図2Aは、明細書に記載の技術のいくつかの実施形態による、自己教師あり学習手法を使用するマルチモーダル統計モデルの第1訓練段階を示す図である。図2Aに示されるように、統計モデルは、第1モダリティのエンコーダ204、第2モダリティのエンコーダ214、知識ベース230、ならびに第1モダリティおよび第2モダリティの各々に対する埋め込みを含むモダリティ埋め込み232を含む、個別のパラメータを有する複数の構成要素を含む。さらに、図2Aに示されるように、訓練環境200は、第1モダリティのデコーダ210および第2モダリティのデコーダ220を含む。これらのデコーダはマルチモーダル統計モデルの一部ではなく、自己教師あり訓練段階でマルチモーダル統計モデルを訓練するために使用される。デコーダは、図2Bに示すように、予測には使用されない。
図2Aに示される実施形態では、エンコーダ204および214、ならびにデコーダ210および220は、左から右に下向きに延びる対角線を有する塗りつぶしパターンによって示されるように事前に訓練されており、知識ベース230およびモダリティ埋め込み232は、左から右に上向きに伸びる対角線を有する塗りつぶしパターンによって示されるようにまだ訓練されていないものとする。しかしながら、本明細書に記載されるようにいくつかの実施形態では、1つまたは複数のエンコーダおよびデコーダは、初めて訓練されるか、または少なくともマルチモーダル統計モデルの訓練中に更新されてよい。
いくつかの実施形態では、エンコーダ204、エンコーダ214、デコーダ210、およびデコーダ220の各々は、1つまたは複数のニューラルネットワーク層を含む個別のニューラルネットワークであってよい。該層は、1つまたは複数の畳み込み層、1つまたは複数のプーリング層、1つまたはサブサンプリング層、1つまたは複数の全結合層、および/または任意の他の適切な層を含んでよい。しかしながら、エンコーダ204および214、ならびにデコーダ210および220のいずれも、ニューラルネットワークモデルに限定されず、任意の他の適切な種類の統計モデルであってよい。本明細書に記載の技術の態様はこの点では限定されない。
いくつかの実施形態では、(共同モダリティ表現の一例である)知識ベース230は、N個のm次元ベクトルを含んでよい。これらのベクトルは、行列(例えば、Nxm行列)または任意の他の適切なデータ構造を使用して記憶および/または表現されてよい。本明細書に記載の技術の態様はこの点では限定されない。
いくつかの実施形態では、各モダリティ埋め込みは、知識ベース230をそれぞれのモダリティ空間に投影するように構成されてよい。例えば、いくつかの実施形態では、投影演算237を使用し、第1モダリティに対する(モダリティ埋め込み232の)モダリティ埋め込みを使用して、知識ベース230を第1モダリティに投影することで、知識ベース230の第1モダリティビュー238を取得してよい。投影演算は、第1モダリティに対する埋め込みモダリティの一部として重み234を利用してよい。別の例として、いくつかの実施形態では、投影演算239を使用し、第2モダリティに対する(モダリティ埋め込み232の)モダリティ埋め込みを使用して、知識ベース230を第2モダリティに投影することで、知識ベース230の第2モダリティビュー240を取得してよい。投影演算は、第2モダリティに対する埋め込みモダリティの一部として重み236を利用してよい。
いくつかの実施形態では、各モダリティ埋め込みは、投影された知識ベース内のベクトルの次元がそのモダリティ空間内の潜在表現の次元と一致するように、知識ベース230をそれぞれのモダリティ空間に投影するように構成されてよい。例えば、知識ベース230がN個のm次元ベクトルを含み、N=512およびm=64であり、第1モダリティのエンコーダによって生成される潜在表現がd次元ベクトルで、d=10とする。この例では、第1モダリティに対するモダリティ埋め込みは、mxd(64x10)行列であってよい。これを512x64の知識ベース230に適用すると、第1モダリティに対して知識ベース230の512x10のビューを生成する。さらに、第2モダリティのエンコーダによって生成された潜在表現がp次元ベクトルで、p=12とする。すると、第1モダリティに対するモダリティ埋め込みは、mxp(64x12)行列であってよい。これを512x64の知識ベース230に適用すると、第2モダリティに対して知識ベース230の512x12のビューを生成する。前述の例から理解できるように、モダリティ埋め込みは特に(例えばあるモダリティでは10次元であって、別のモダリティでは12次元のように)潜在表現の次元が同じではない状況における異なるモダリティの統計モデルの統合を可能とする。
マルチモーダル統計モデルの第1(自己教師あり)訓練段階の態様は、図3を参照して以下でより詳細に説明される。
図2Bは、本明細書に記載の技術のいくつかの実施形態による、教師あり学習手法を使用するマルチモーダル統計モデル250の第2訓練段階を示す図である。図2Bに示されるように、マルチモーダル統計モデル250は、予測タスク256の予測子252およびタスク埋め込み254を含む。
図2Bに示される実施形態では、エンコーダ204および214、デコーダ210および220、知識ベース230、およびモダリティ埋め込み232は、左から右に下向きに延びる対角線を有する塗りつぶしパターンによって示されるように事前に訓練されており、予測子252およびタスク埋め込み254は、左から右に上向きに延びる対角線を有する塗りつぶしパターンによって示されるようにものとする。しかしながら、本明細書に記載されるように、いくつかの実施形態では、1つまたは複数のエンコーダ、デコーダ、モダリティ埋め込み、および共同モダリティ表現は、初めて訓練されるか、または少なくともマルチモーダル統計モデルを訓練する第2段階中に更新されてよい。
いくつかの実施形態では、予測子252は、入力特徴を出力にマッピングする(例えば、分類器の場合は離散ラベル、または回帰器の場合は連続変数)任意の適切な種類の統計モデルであってよい。例えば、予測子252は、線形モデル(例えば、線形回帰モデル)、一般化線形モデル(例えば、ロジスティック回帰、プロビット回帰)、ニューラルネットワークまたは他の非線形回帰モデル、ガウス混合モデル、サポートベクターマシン、決定木モデル、ランダムフォレストモデル、ベイジアン階層モデル、マルコフランダムフィールド、および/または任意の他の適切な種類の統計モデルを含んでよい。本明細書に記載の技術の態様はこの点では限定されない。
いくつかの実施形態では、タスク埋め込み254を使用して、演算256および258を介して、第1モダリティおよび第2モダリティからの特徴の寄与を重み付けしてよい。例えば、図2Bに示されるように、特徴表現208は、演算256を介して、第1モダリティのタスク埋め込みを使用して重み付けされ、特徴表現218は、演算258を介して、第2モダリティのタスク埋め込みを使用して重み付けされてよい。これらの加重特徴表現は、演算260を介して(例えば、加重和または積として)集約され、予測子252の入力を生成してよい。特徴表現に対するタスク埋め込みにより引き起こされる重み付けは、点ごとの乗法重み付け(例えば、アダマール積)であってよい。
マルチモーダル統計モデルの第2(教師あり)訓練段階の態様は、図3を参照して以下でより詳細に説明される。
<マルチモーダル統計モデルの訓練>
図3は、本明細書に記載の技術のいくつかの実施形態による、第1段階は自己教師あり学習を含み、第2段階は教師あり学習を含む、2段階の訓練手順を使用してマルチモーダル統計モデルを訓練する例示的な処理300のフローチャートである。処理300は、任意の適切なコンピューティング装置によって実行されてよい。例えば、処理300は、1つまたは複数のグラフィックス処理ユニット(GPU)、クラウドコンピューティングサービスによって提供される1つまたは複数のコンピューティング装置、および/または任意の他の適切なコンピューティング装置によって実行されてよい。本明細書に記載の技術の態様はこの点では限定されない。
図3に示され以下に説明される実施形態では、処理300は、2つのモダリティ(第1モダリティおよび第2モダリティ)から入力を受信するように構成されたマルチモーダル統計モデルを訓練するために使用される。しかしながら、任意の適切な数のモダリティ(例えば、3、4、5、6、7、8、9、10、11、12など)から入力を受信するように構成されたマルチモーダル統計モデルを訓練するために、処理300が使用され得ることが理解されるべきである。本明細書に記載の技術の態様はこの点では限定されない。
この例では、処理300の開始前に、各統計モデルは第1モダリティおよび第2モダリティ用に訓練されているものとする。特に、第1エンコーダおよび第1デコーダを含む第1統計モデルが第1モダリティについて訓練されており、第2エンコーダおよび第2デコーダを含む第2統計モデルが第2モダリティについて訓練されているものとする。第1統計モデルは、第1モダリティにおけるデータを使用して訓練されたオートエンコーダ型統計モデルであってよい。第2統計モデルは、第2モダリティにおけるデータを使用して訓練されたオートエンコーダ型の統計であってよい。しかしながら、以下でより詳細に説明するように、いくつかの実施形態では、個々の統計モデルは、初めて訓練されるか、または少なくともマルチモーダル統計モデルの訓練中に更新されてよい。
いくつかの実施形態では、処理300の実行中に訓練されるマルチモーダル統計モデルは、各モダリティのエンコーダ構成要素、共同モダリティ表現構成要素、各モダリティのモダリティ埋め込み構成要素、予測子構成要素、および各モダリティのタスク埋め込み構成要素を含んでよく、また処理300は、これらの構成要素の1つまたは複数のそれぞれのパラメータ値を推定するために使用されてよい。例えば、図2Bのマルチモーダル統計モデル250は、エンコーダ204、エンコーダ214、知識ベース230、モダリティ埋め込み232、予測子252、およびタスク埋め込み254を含み、該構成要素230、232、252、および254のパラメータは、処理300の一部として推定されてよい。(統合されている個々の統計モデルの一部であり得る)複数のモダリティのそれぞれのデコーダは、マルチモーダル統計モデルの一部でなくてもよいことが理解されるべきである。それにかかわらず、そのようなデコーダは、以下でより詳細に説明されるように、自己教師あり学習の段階で、マルチモーダル統計モデルを訓練するために使用されてよい。
処理300は動作302で開始し、第1モダリティのための第1の訓練された統計モデルのパラメータおよび第2モダリティのための第2の訓練された統計モデルのパラメータがアクセスされる。パラメータは、ローカルストレージから、リモートストレージからネットワークを介して、または任意の他の適切なソースからアクセスされてよい。
いくつかの実施形態では、第1の訓練された統計モデルは、オートエンコーダを含んでよく、動作302でアクセスされ得るパラメータの個別のセットを各々に有する第1エンコーダおよび第1デコーダを含んでよい。第1エンコーダは、入力として、第1モダリティを有するデータを受信し、(入力データの次元よりも低い次元を有し得る)潜在表現を出力するように構成されてよく、第1デコーダは、潜在表現から入力データを再構築するように構成されてよい。いくつかの実施形態では、第1の訓練された統計モデルは、ニューラルネットワーク(例えば、順伝播型ニューラルネットワーク、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、全結合型ニューラルネットワーク等)であってよく、第1エンコーダおよび第1デコーダは、第1エンコーダおよび第1デコーダのパラメータが各ニューラルネットワーク層の重みを含むように、1つまたは複数のニューラルネットワーク層を含んでよい。ただし、第1の訓練された統計モデルはニューラルネットワークであることに限定されず、任意の他の適切な統計モデルであり得ることが理解されるべきである。
いくつかの実施形態では、第2の訓練された統計モデルは、オートエンコーダを含んでよく、動作302でアクセスされ得るパラメータの個別のセットを各々に有する第2エンコーダおよび第2デコーダを含んでよい。第2エンコーダは、入力として、第2モダリティを有するデータを受信し、(入力データの次元よりも低い次元を有し得る)潜在表現を出力するように構成されてよく、第2デコーダは、潜在表現から入力データを再構築するように構成されてよい。いくつかの実施形態では、第2の訓練された統計モデルは、ニューラルネットワーク(例えば、順伝播型ニューラルネットワーク、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、全結合型ニューラルネットワーク等)であってよく、第2エンコーダおよび第2デコーダは、第1エンコーダおよび第1デコーダのパラメータが各ニューラルネットワーク層の重みを含むように、1つまたは複数のニューラルネットワーク層を含んでよい。ただし、第2の訓練された統計モデルはニューラルネットワークであることに限定されず、任意の他の適切な統計モデルであり得ることが理解されるべきである。
いくつかの実施形態では、第1エンコーダおよび第2エンコーダは、異なるモダリティのデータを受信するように構成されているため、互いに異なる。そのような実施形態では、第1デコーダおよび第2デコーダは互いに異なる。いくつかのそのような実施形態では、エンコーダがニューラルネットワークとしてそれぞれ実装される場合、エンコーダのニューラルネットワークアーキテクチャが異なる(例えば、層の数が異なる、タイプ層の種類が異なる、層の次元が異なる、非線形性が異なる等)。一例として、第1エンコーダは、入力として画像を受信し、画像の潜在表現を生成するように構成されてよく、第2エンコーダは、入力としてテキストを受信し、テキストの潜在表現を生成するように構成されてよい。別の例として、第1エンコーダは、タンパク質配列データの潜在表現を受信および生成するように構成されてよく、第2エンコーダは、タンパク質ファミリーデータの潜在表現を受信および生成するように構成されてよい。さらに別の例として、第1エンコーダは、第1種類(例えば、超音波)の医用画像の潜在表現を受信および生成するように構成されてよく、第2エンコーダは、第1種類とは異なる第2種類(例えば、MRI画像)の医用画像の潜在表現を受信および生成するように構成されてよい。
いくつかの実施形態では、第1エンコーダの出力で生成される潜在表現は、第2エンコーダの出力で生成される潜在表現と同じ次元を有し得る。例えば、以下でより詳細に説明するように、第1エンコーダは、タンパク質配列の表現(例えば、20x1024のワンホットエンコードされたタンパク質配列)を入力として受信し、10x1の潜在表現を返してよい。この例では、第2エンコーダは入力として生物過程入力(例えば、24937次元ベクトルとしてワンホットエンコードされ得る)を受信し、10x1の潜在表現を返してよい。しかしながら、異なるモダリティの埋め込みの使用により柔軟性が提供され、それにより異なるモダリティの潜在表現の次元が異なるので、潜在表現が同じ次元である必要はない。
図2Aは、動作302でアクセスされ得るパラメータの一例を示す。特に、エンコーダ204(第1エンコーダ)、デコーダ210(第1デコーダ)、エンコーダ214(第2エンコーダ)、およびデコーダ218のパラメータは、動作302でアクセスされてよい。
次に、処理300は動作303に進み、ラベル付けされていない訓練データが第1モダリティおよび第2モダリティの各々に対してアクセスされる。動作303でアクセスされるラベル付けされていない訓練データは、動作306において自己教師あり学習を使用するマルチモーダル統計モデルを訓練する第1段階に使用されてよい。第1訓練段階の一部として、ラベル付けされていない訓練データを使用して、マルチモーダル統計モデルの1つまたは複数の構成要素のパラメータを推定してよい。構成要素は、動作302でアクセスされるパラメータを有する第1統計モデルおよび第2統計モデルを統合することを可能にする。例えば、マルチモーダル統計モデル(例えば、図2Bに示されるモデル250)は、共同モダリティ表現(例えば、知識ベース230)、第1モダリティ埋め込み(例えば、モダリティ埋め込み232の一部)、および第2モダリティ埋め込み(例えば、モダリティ埋め込み232の一部)を含んでよく、動作306中に、ラベル付けされていない訓練データが使用され、共同モダリティ表現、第1モダリティ埋め込み、および第2モダリティ埋め込みのパラメータを推定してよい。
動作303でアクセスされるラベル付けされていない訓練データは、第1モダリティおよび第2モダリティのそれぞれの訓練データを含むが、これらのデータは、同期してまたは纏めて収集される必要はないことが理解されるべきである。第1モダリティのラベル付けされていない訓練データは、第2モダリティのラベル付けされていない訓練データとは別に生成されてよい。異なるモダリティのラベル付けされていない訓練データは、異なるエンティティにより異なる時間に生成され、および/または異なるデータベースに記憶されてよい。第1モダリティの訓練データは、第2モダリティの訓練データより多くてもよく、反対に、第2モダリティの訓練データが、第1モダリティの訓練データより多くてもよい。第1モダリティおよび第2モダリティの訓練データをペアにする必要はないので、1対1で対応しなくともよい。いくつかの実施形態では、動作303で取得された訓練データはラベル付けされてよいが、動作306での第1訓練段階中に訓練データが使用される際に、該ラベルは破棄または無視されてよい。
次に、処理300は動作304に進み、ラベル付けされた訓練データが第1モダリティおよび第2モダリティの各々に対してアクセスされる。動作304でアクセスされるラベル付けされた訓練データは、動作308において教師あり学習を使用するマルチモーダル統計モデルを訓練する第2段階に使用されてよい。第2訓練段階の一部として、ラベル付けされた訓練データを使用して、マルチモーダル統計モデルの1つまたは複数の構成要素のパラメータを推定してよい。構成要素は、動作302でアクセスされるパラメータを有する第1統計モデルおよび第2統計モデルを統合し、これらのモデルを使用して予測タスクを実行することを可能にする。例えば、マルチモーダル統計モデル(例えば、図2Bに示されるモデル250)は、予測子(例えば、予測子252)、第1タスク埋め込み(例えば、タスク埋め込み254の一部)、および第2モダリティ埋め込み(例えば、タスク埋め込み254の一部)を含んでよく、動作308中に、ラベル付けされた訓練データが使用され、予測子、第1タスク埋め込み、および/または第2モダリティ埋め込みのパラメータを推定してよい。
動作304でアクセスされるラベル付けされた訓練データは、第1モダリティおよび第2モダリティのそれぞれの訓練データを含むが、これらのデータは、同期してまたは纏めて収集される必要はない。第1モダリティのラベル付けされた訓練データは、第2モダリティのラベル付けされた訓練データとは別に生成されてよい。異なるモダリティのラベル付けされた訓練データは、異なるエンティティにより異なる時間に生成され、および/または異なるデータベースに記憶されてよい。第1モダリティの訓練データは、第2モダリティの訓練データより多くてもよく、反対に、第2モダリティの訓練データが、第1モダリティの訓練データより多くてもよい。第1モダリティおよび第2モダリティの訓練データをペアにする必要はないので、1対1で対応しなくともよい。
次に、処理300は動作305に進み、マルチモーダル統計モデルは2段階の手順を使用して訓練される。最初に、動作306において、動作303で取得されたラベル付けされていないデータを使用して、自己教師あり学習手法によって、マルチモーダル統計モデルの1つまたは複数の構成要素のパラメータ値を推定する。次に、動作308において、動作304で取得されたラベル付けされたデータを使用して、教師あり学習手法によって、マルチモーダル統計モデルの1つまたは複数の追加的構成要素のパラメータ値を推定する。これらの動作の各々について、以下でさらに詳しく説明する。
いくつかの実施形態では、動作306は、自己教師あり学習手法を使用して、マルチモーダル統計モデルの1つまたは複数の構成要素のパラメータ値を推定することを含んでよい。いくつかの実施形態では、共同モダリティ表現のパラメータ(例えば、図2Bの例における知識ベース230)は、動作306で推定されてよい。さらに、いくつかの実施形態では、1つまたは複数のモダリティ埋め込み(例えば、1つまたは複数のモダリティ埋め込み232)のパラメータは、動作306で推定されてよい。
いくつかの実施形態では、動作306の一部として推定されるパラメータ値は、自己教師あり学習を使用して推定されてよい。自己教師あり学習を使用した統計モデルの訓練は、出力において入力を再現するよう統計モデルを訓練することを含んでよい。したがって、いくつかの実施形態では、特定のデータが統計モデルへの入力として提供されてよく、また、統計モデルの出力が全く同じ特定のデータと比較されてよい。次に、統計モデルのパラメータの1つまたは複数の値が、統計モデルの出力と統計モデルに提供される特定のデータとの差に基づいて更新されてよい(例えば、確率的勾配降下または任意の他の適切な訓練アルゴリズムを使用して)。該差は、統計モデルの出力が、現在のパラメータ値のセットで演算された場合、入力をどれだけ正確に再現するかの尺度を提供する。
いくつかの実施形態では、動作303でアクセスされるラベル付けされていない訓練データを使用して、マルチモーダル統計モデルにおける共同モダリティ表現およびモダリティ埋め込みのパラメータ値を推定してよい。パラメータ値は、例えば、確率的勾配降下法などの反復学習アルゴリズムを使用して推定してよい。反復学習アルゴリズムは、マルチモーダル統計モデルのエンコーダへの入力としてラベル付けされていない訓練データの少なくとも一部を提供し、対応するデコーダを使用して出力を生成し、入力を生成した出力と比較し、ならびに入力と出力との差に基づき共同モダリティ表現および/またはモダリティ埋め込みのパラメータ値を更新することを含んでよい。
例えば、いくつかの実施形態では、第1モダリティの訓練データは、第1モダリティの第1エンコーダ(例えば、エンコーダ204)への入力として提供されてよい。第1エンコーダの出力(例えば、特徴表現206)、共同モダリティ表現(例えば、知識ベース230)、および第1モダリティ埋め込み(例えば、モダリティ埋め込み232のうちの1つ)を使用して、第1モダリティの第1デコーダ(例えば、デコーダ210)への入力(例えば、特徴表現208)を生成してよい。次に、デコーダ210の出力は、第1エンコーダに提供される入力と比較され、共同モダリティ表現および/または第1モダリティ埋め込みのパラメータ値の少なくとも一部は、第1エンコーダへの入力と第1デコーダの出力との間の差に基づいて更新されてよい。
この例では、第1エンコーダの出力から第1デコーダへの入力を生成はすることは、以下を含んでよい。(1)共同モダリティ表現を第1モダリティの空間に投影して、複数の投影されたベクトルを取得すること、(2)複数の投影されたベクトルのそれぞれと第1エンコーダの出力との間の距離(例えば、余弦距離および/または任意の他の適切な種類の距離測定値)を算出し、これらの距離を使用して(例えば、ソフトマックス加重を使用することにより)投影されたベクトルの重みを算出すること、および(3)第1エンコーダの出力を用いて、算出された重みによって重み付けされた投影されたベクトルの加重和を集約することによって、第1デコーダへの入力を生成すること。例えば、共同モダリティ表現は、N個のm次元ベクトル(Nxm行列として表現および/または記憶され得る)を含んでよく、第1モダリティにmxdとして表現され得る第1モダリティ投影を使用して共同モダリティ表現を投影して、N個のd次元ベクトル(Nxd行列として表現され得る)を生成してよい。第1エンコーダの出力(例えば、図2Aに示される特徴表現206)とN個のd次元ベクトルのそれぞれとの間の距離が算出および使用され、N個のd次元ベクトルのそれぞれの重みが取得されてよい。次に、第1デコーダへの入力(例えば、特徴表現208)は、算出された重みによって重み付けされたN個のd次元ベクトルの加重和を有する特徴表現206の集約707(例えば、合計、積、算術平均、幾何平均)として算出されてよい。他の実施形態では、第1デコーダへの入力は、投影された共同モダリティ表現における複数のd次元ベクトルの加重平均ではなく、第1エンコーダの出力と、適切に選択された距離測定値(例えば、余弦距離)によるN個のd次元ベクトルのうち第1エンコーダの出力に最も近いベクトルの合計であってよい。本明細書に記載の技術の態様はこの点では限定されない。さらに他の実施形態では、第1デコーダへの入力は、(上記のように算出された)N個のd次元ベクトルの加重和、または第1エンコーダの出力に最も類似するが第1エンコーダの出力と集約されない(上記のように特定された)ベクトルであってよい。
別の例としては、いくつかの実施形態では、第2モダリティの訓練データは、第2モダリティの第2エンコーダ(例えば、エンコーダ214)への入力として提供されてよい。第2エンコーダの出力(例えば、特徴表現216)、共同モダリティ表現(例えば、知識ベース230)、および第2モダリティ埋め込み(例えば、モダリティ埋め込み232のうちの1つ)を使用して、集約演算217によって第2モダリティの第2デコーダ(例えば、デコーダ220)への入力(例えば、特徴表現218)を生成してよい。次に、デコーダ220の出力は、第2エンコーダに提供される入力と比較され、共同モダリティ表現および/または第2モダリティ埋め込みのパラメータ値の少なくとも一部は、第2エンコーダへの入力と第2デコーダの出力との間の差に基づいて更新されてよい。
いくつかの実施形態では、動作308は、教師あり学習手法を使用して、マルチモーダル統計モデルの1つまたは複数の構成要素のパラメータ値を推定することを含んでよい。いくつかの実施形態では、予測子のパラメータ(例えば、図2Bの例における予測子252)は、動作308で推定されてよい。さらに、いくつかの実施形態では、1つまたは複数のタスク埋め込み(例えば、1つまたは複数のタスク埋め込み254)のパラメータは、動作308で推定されてよい。
いくつかの実施形態では、動作306の一部として推定されるパラメータ値は、動作304でアクセスされるラベル付けされた訓練データに基づき教師あり学習を使用して推定されてよい。いくつかの実施形態では、特定のデータが統計モデルへの入力として提供されてよく、また、統計モデルの出力が該特定のデータのラベルと比較されてよい。次に、統計モデルのパラメータの1つまたは複数の値が、統計モデルの出力と統計モデルに提供される特定のデータのラベルとの差に基づいて更新されてよい(例えば、確率的勾配降下または任意の他の適切な訓練アルゴリズムを使用して)。該差は、統計モデルの出力が、現在のパラメータ値のセットで演算された場合、提供されるラベルをどれだけ正確に再現するかの尺度を提供する。
いくつかの実施形態では、第2訓練段階中に使用される損失(または費用)関数は、マルチモーダル統計モデルの予測子の構成要素が訓練されるタスクの種類に応じて選択されてよい。例えば、タスクがマルチラベル排他分類を含む場合、クロスエントロピー損失を使用してよい。別の例として、タスクが連続分布の予測を含む場合、損失関数でカルバック・ライブラー・ダイバージェンスを使用してよい。
いくつかの実施形態では、第2段階の実行中は、第1訓練段階中に推定されたパラメータ値は固定されてよい。例えば、共同モダリティ表現およびモダリティ埋め込みのパラメータ値は第1訓練段階中に推定された後、第2訓練段階中は固定されたままでよいが、予測子およびタスク埋め込みのパラメータ値は第2訓練段階中に推定される。
動作308が完了し、それにより動作305が完了した後、訓練されたマルチモーダル統計モデルは、その後の使用のために、動作310で記憶されてよい。訓練されたマルチモーダル統計モデルの記憶は、該マルチモーダル統計モデルの1つまたは複数の構成要素のパラメータ値の記憶を含む。いくつかの実施形態では、訓練されたマルチモーダル統計モデルの記憶は、以下の構成要素、すなわち共同モダリティ表現、第1モダリティ埋め込み、第2モダリティ埋め込み、予測子、第1タスク埋め込み、および第2タスク埋め込みのうちの1つまたは複数について、動作305中に推定されたパラメータ値を記憶することを含む。本明細書に記載の技術の態様はこの点では限定されないので、パラメータ値は、任意の適切な形式で記憶してよい。パラメータ値は、1つまたは複数のコンピュータ可読記憶媒体(例えば、1つまたは複数のメモリ)を使用して記憶してよい。
処理300は例示的なものであり、変形例があることが理解されるべきである。例えば、処理300は、2つのモダリティを有する入力を受信するように構成されたマルチモーダル統計モデルを訓練することを参照して説明されるが、処理300は、2つを超えるモダリティ(例えば、3、4、5、6、7、8、9、10等のモダリティ)から入力を受信するように構成されたマルチモーダル統計モデルを訓練するために変更されてよい。いくつかのそのような実施形態では、複数のモダリティのそれぞれに対する共同モダリティ表現およびモダリティ埋め込みは、自己教師あり学習の段階(動作306)中に学習される。複数のモダリティのそれぞれに対する予測子およびタスク埋め込みは、教師あり学習の段階(動作308)中に学習される。
上記のように、いくつかの実施形態では、各モダリティのエンコーダおよびデコーダは、処理300の実行前に学習されてよい。しかしながら、いくつかの実施形態では、1つまたは複数のエンコーダおよび/またはデコーダは、それらのパラメータ値が初めて推定されるように、および/または処理300中に更新されるように、処理300中に学習されてよい。
マルチモーダル統計モデルを訓練する手法の追加的な態様は、自己教師ありおよび教師あり訓練の段階に関する以下の説明から理解され得る。
<自己教師あり訓練段階>
∈Xをモダリティiの入力データポイントとし、t∈Tを次のようなxの圧縮表現とする。
Figure 2021524099
ここで、ψは、i番目のモダリティのエンコーダを表すエンコード関数である。共同モダリティ表現(本明細書では知識ベースとも記載される)をnxm行列Mとする。ここで、nは共同モダリティ表現のエントリ数を示し、mは各エントリの次元を示す。共同モダリティ表現は、モダリティ埋め込みE(自己教師あり訓練段階中に学習されるmxd行列)を使用して、i番目のモダリティの表現空間に線形投影されてよい。
Figure 2021524099
次に、表現tと投影された共同モダリティ表現
Figure 2021524099
の行との間のコサイン類似度により、共同モダリティ表現の各エントリ(例えば、メモリ行列の各行)の類似度スコアが得られる。これを、
Figure 2021524099
に近似するソフトマックス関数を使用して以下に従い確率に変換してよい。
Figure 2021524099
ここで、は温度変数であり、分布のシャープネス/エントロピーを示す。投影された共同モダリティ表現行列のエントリ
Figure 2021524099
の加重平均が、i番目のモダリティデコーダΦ
Figure 2021524099
への入力として提供される。
ネットワークパラメータの少なくとも一部(例えば、エンコーダ、デコーダ、共同モダリティ表現、およびモダリティ埋め込みのパラメータ値の一部または全て)に関する再構成損失の勾配が逆伝播され、パラメータは以下の確率的勾配降下アルゴリズムを介して更新される。
Figure 2021524099
ここで、
Figure 2021524099
は時間tでのj番目のパラメータであり、λとμはそれぞれ学習率と運動量のパラメータであり、
Figure 2021524099
は損失関数である。損失関数は、クロスエントロピー、カルバック・ライブラー・ダイバージェンス、L1距離、L2距離(ユークリッド距離)、および/または任意の他の適切な損失関数であってよい。本明細書に記載の技術の態様はこの点では限定されない。
<教師あり訓練段階>
タスクをy∈Yで表されるラベルまたは値を予測するものとして定義する。データペア(X,Y)が存在する場合、自己教師あり学習段階で訓練された共同モダリティ表現およびx∈XのエンコーダΨ(x)を使用して、上記の式に示すように、表現t∈Tを生成する。次に、特徴表現
Figure 2021524099
とタスク埋め込みUの間でアダマール積を以下に従い実行する。
Figure 2021524099
最後に、フォワードパスについて、予測された表現をタスク予測子に提供する。
Figure 2021524099
タスクの種類に適した損失関数が選択される。例えば、タスクがマルチラベル排他分類である場合、クロスエントロピー損失を使用してよい。別の例として、タスクが連続分布の予測である場合、カルバック・ライブラー・ダイバージェンス等の情報理論的尺度を損失関数として使用してよい。損失関数の選択にかかわらず、タスク予測子Πおよびタスク埋め込みUのパラメータに関する損失の勾配は、上記の確率的勾配降下法の式に示すように、算出され、逆伝播されてよい。
<予測のためのマルチモーダル統計モデルの使用>
図4は、本明細書に記載の技術のいくつかの実施形態による、予測タスクのためのマルチモーダル統計モデルを使用する例示的な処理400のフローチャートである。処理400は、任意の適切なコンピューティング装置によって実行されてよい。例えば、処理400は、1つまたは複数のグラフィックス処理ユニット(GPU)、クラウドコンピューティングサービスによって提供される1つまたは複数のコンピューティング装置、および/または任意の他の適切なコンピューティング装置によって実行されてよい。本明細書に記載の技術の態様はこの点では限定されない。
この例では、処理400の開始前に、少なくとも2つの異なるモダリティの入力を受信するように構成されたマルチモーダル統計モデルが訓練されており、そのパラメータが記憶されているものとする。例えば、処理400の開始前に、マルチモーダル統計モデルは、本明細書に記載の2段階訓練処理300を使用して訓練されていてもよい。
処理400は動作402で開始し、事前に訓練されたマルチモーダル統計モデルを指定する情報がアクセスされる。マルチモーダル統計モデルを指定する情報は、任意の適切な形式であってよく、ローカルストレージから、リモートストレージからネットワークを介して、または任意の他の適切なソースからアクセスされてよい。本明細書に記載の技術の態様はこの点では限定されない。情報は、マルチモーダル統計モデルのパラメータの値を含んでよい。マルチモーダル統計モデルは、パラメータを有する構成要素を含んでよく、マルチモーダル統計モデルを指定する情報は、これらの1つまたは複数の構成要素のそれぞれのパラメータのパラメータ値を含んでよい。例えば、マルチモーダル統計モデルは、共同モダリティ表現、予測子、ならびに複数のモダリティのそれぞれについて、個別のエンコーダ、個別のモダリティ埋め込み、および個別のタスク埋め込みを含んでよい。動作402でアクセスされる情報は、これらの構成要素の値を含んでよい。
図4を参照に記載される実施形態では、(パラメータがアクセスされる)マルチモーダル統計モデルは、2つのモダリティ(第1モダリティおよび第2モダリティ)からの入力を受信するように構成されているものとする。しかしながら、他の実施形態では、マルチモーダル統計モデルは、任意の適切な数のモダリティ(例えば、3、4、5、6、7、8、9、10、11、12など)から入力を受信するように構成され得ることが理解されるべきである。本明細書に記載の技術の態様はこの点では限定されない。
次に、処理400は動作404に進み、第1データモダリティ(例えば、タンパク質配列データ)について入力データが取得される。いくつかの実施形態では、入力データは、第1モダリティのエンコーダに提供するのに適した表現になるよう変換されるか、または別な方法で前処理されてよい。例えば、カテゴリカルデータは、第1モダリティのエンコーダに提供される前にワンホットエンコードされてよい。別の例として、画像データは、第1モダリティのエンコーダに提供される前にサイズ変更されてよい。しかしながら、他の実施形態では、変換および/または前処理は必要とされないか、または実行されなくてよい。
次に、処理400は動作406に進み、出力として第1特徴ベクトルを生成する第1エンコーダへの入力として入力データが提供される。例えば、図2Bに示されるように、モダリティ「A」の入力202は、モダリティ「A」のエンコーダ204への入力として提供され、エンコーダ204は、第1特徴ベクトル(例えば、出力としての特徴表現206)を生成する。
次に、処理400は、動作408に進み、動作406で(第1エンコーダの出力で)生成された第1特徴ベクトルは、共同モダリティ表現および第1モダリティ埋め込みと共に使用されて、第2特徴ベクトルを生成する。例えば、図2Bに示されるように、第1特徴ベクトル(例えば、特徴表現206)は、モダリティ埋め込み232の1つおよび知識ベース230と共に使用され、第2特徴ベクトル(例えば、特徴表現208)を特定(例えば、生成または選択)してよい。
第2特徴ベクトルは、本明細書に記載されたいずれかの方法で特定されてよい。例えば、いくつかの実施形態では、第2特徴ベクトルを特定することは、以下を含んでよい。(1)共同モダリティ表現(例えば、知識ベース230)を第1モダリティの空間に投影して、複数の投影されたベクトルを取得すること、(2)複数の投影されたベクトルのそれぞれと第1特徴ベクトル(例えば、特徴表現206)との間の距離(例えば、余弦距離および/または任意の他の適切な種類の距離測定値)を算出し、これらの距離を使用して(例えば、ソフトマックス加重を使用することにより)投影されたベクトルの重みを算出すること、および(3)算出された重みによって重み付けされた投影されたベクトルの加重和として第2特徴ベクトルを生成すること。例えば、共同モダリティ表現は、N個のm次元ベクトル(Nxm行列として表現および/または記憶され得る)を含んでよく、第1モダリティにmxdとして表現され得る第1モダリティ投影を使用して共同モダリティ表現を投影して、N個のd次元ベクトル(Nxd行列として表現され得る)を生成してよい。第1エンコーダによる第1特徴ベクトル出力(例えば、図2Aに示される特徴表現206)とN個のd次元ベクトルのそれぞれとの間の距離が算出および使用され、N個のd次元ベクトルのそれぞれの重みが取得されてよい。次に、第2特徴ベクトル(例えば、特徴表現208)は、算出された重みによって重み付けされたN個のd次元ベクトルの加重和として算出されてよい。他の実施形態では、第2特徴ベクトルは、投影された共同モダリティ表現の複数のd次元ベクトルの加重平均ではなく、N個のd次元の投影されたベクトルの中から、第1エンコーダによって生成された第1特徴ベクトルに最も近いベクトルを、適切に選択された距離測定値(例えば、余弦距離)に従って選択することにより特定されてよい。
次に、処理400は動作410に進み、第2特徴ベクトルを使用して、予測子および第1モダリティのタスク埋め込み(両方ともマルチモーダル統計モデルの構成要素)を使用して予測タスクの予測を生成する。これは、任意の適切な方法で行われてよい。例えば、第1モダリティのタスク埋め込みは、第2特徴ベクトルの次元と同じ次元を有してよい。この例では、タスクの埋め込みの重みを使用して、第2特徴ベクトルの値を点ごとに乗算して(例えば、アダマール積のように)、予測子への入力を生成してよい。次に、予測子は、この入力に基づいてタスクの予測を出力してよい。例えば、図2Bに示されるように、第2特徴ベクトル(例えば、表現208)は、タスク埋め込み254の第1タスク埋め込みによって点ごとに変更(例えば、乗算)されて予測子252への入力として提供され、予測タスク256への出力を生成してよい。
処理400の上記の記載から理解されるように、マルチモーダル統計モデルを使用して、単一モダリティからの入力のみを使用してタスクの予測を生成してよい。これは、入力が複数の異なるモダリティから異なる時間に利用可能である場合、入力が非同期的に利用可能になった際に、マルチモーダル統計モデルへの入力として提供されてよいことを意味する。
いくつかの実施形態では、マルチモーダル統計モデルは、同期的に演算されてよく、2つのモダリティからのペアにされた入力または3つ以上のモダリティからのリンクされた入力を処理するために使用されてよい。例えば、第1モダリティの第1入力(例えば、入力202)は、第1モダリティのエンコーダ(例えば、エンコーダ204)への入力として提供され、第1特徴ベクトル(例えば、特徴表現206)を生成してよい。第1特徴ベクトルは、共同モダリティ表現(例えば、知識ベース230)および第1モダリティ表現(例えば、モダリティ表現232)と共に使用され、第2特徴ベクトル(例えば、特徴表現208)を特定(例えば、生成または選択)してよい。この例では、第1モダリティの第1入力(例えば、入力202)は、第2モダリティの第1入力(例えば、入力212)とペアにされてよい(例えば、マルチモーダル統計モデルへの入力として同時に提供される)。第2モダリティの第1入力(例えば、入力212)は、第2モダリティのエンコーダ(例えば、エンコーダ214)への入力として提供され、第3特徴ベクトル(例えば、特徴表現216)を特定(例えば、生成または選択)してよい。第1特徴ベクトルは、共同モダリティ表現(例えば、知識ベース230)および第2モダリティ表現(例えば、モダリティ表現232)と共に使用され、第4特徴ベクトル(例えば、特徴表現218)を生成してよい。次に、第2特徴ベクトルおよび第4特徴ベクトルは、第1モダリティおよび第2モダリティのタスク埋め込みによって変更されてよく、その結果は組み合わされ(例えば、座標ごとの加算260によって)、予測子(例えば、予測子252)への入力として提供され、タスク256の予測を提供してよい。
<実施例:タンパク質構造予測>
ここでは、タンパク質構造を予測する例示的な問題について、本明細書に記載される異なるデータモダリティの深層学習統計モデルを統合する手法を説明する。分子生物学において予測モデルを構築する従来の手法はしばしば不十分であり、結果として得られるモデルは、望ましい性能特性(例えば、精度)を欠く。
利用可能な各種の生物学データの予測モデリングに対応する共通のフレームワークを構築することは、以下のような数々の理由により非常に困難である。
ソースの不均一性:調査され得る潜在的に数千の異なる分子実体が存在し、データは様々な形式またはモダリティで取得される。
高次元性:観測データは、入力空間の全ての可能な構成を疎に抽出する。したがって、ほとんどの場合、利用可能なデータは疎かつ不十分である。
実験的ノイズ:生物学的データ収集はしばしばノイズが多く、実験的バイアスや特異性に悩まされる。
一致しないモダリティおよび不完全性:実験や観察は一度に2、3のモダリティに限定されているため、データは非常に不完全になる。
このような困難なモデリングコンテキストにおいて高品質な予測モデルを構築する従来の手法は、ドメインレベルの深い知見と知識を表現する強力な事前分布に依存する。しかしながら、そのような事前分布を指定する能力は、利用可能なドメインレベルの知識の量によって制限される。たとえば、広範なドメイン知識がない場合、BLASTクエリを実行して(最も近い既知の配列を見つけて)、上位ヒットから機能割り当てを転送することで、新しく発見された種のタンパク質配列に機能的な注釈を付けることが可能である。ただし、この手法は、特に目的のタンパク質が関与する生物学的プロセスを識別する場合、非常に不正確で誤解を招くと報告されている。より優れて機能するモデルには、タンパク質、アミノ酸モチーフ、生物学的プロセスへの関与等に関する長年の蓄積されたドメイン知識を要する。
本明細書に記載される手法は、完全に一致するデータポイント(各データポイントは、複数の異なるモダリティからそれぞれ寄与を含む)を含むための訓練データを必要とすることなく、複数のモダリティに対応することで上記の課題に対処する。本明細書に記載される共同モダリティ表現は、クロスモダリティ特徴抽出のためのデータ駆動型の事前分布を提供する。これにより、個々のモデルが正規化され、追加の圧縮が軽減される。追加圧縮の各ビットは、2倍のラベル付けされたデータを有することに等しい。
本明細書に記載の技術は、タンパク質機能予測タスクについて以下に説明される。初めに、554452個のタンパク質を含むSwiss−Protデータベースをダウンロードし、以下の6つの異なるデータモダリティを選択した。(1)タンパク質配列、(2)pfamドメイン、(3)生物学的プロセスオントロジー、(4)分子機能オントロジー、(5)細胞構成要素オントロジー、(6)種の分類学的ファミリー。機能的な注釈(オントロジー)は非常に不完全で、ノイズが多い可能性がある。結果の評価を容易にするため、CAFA2(second Critical Assessment of Functional Annotation)コンソーシアムのテストセットとして定義されているタンパク質を除外した。
<実装の詳細>
機能オントロジー予測がタスクだが、これらのオントロジーを個別のモダリティとして扱った。本明細書に記載される手法を機能オントロジー予測タスクに適用するには、エンコーダ、デコーダ、共同モダリティ表現、モダリティ埋め込み、およびタスク埋め込みの態様を指定する必要がある。
<エンコーダ>
この例示的な例では、タンパク質配列入力用のエンコーダは、4つの畳み込みブロックを含み、それぞれがサイズ20の10個のフィルタを備えた1D畳み込みを含み、その後に層の正規化、ストライド3を伴うサイズ3の1次元最大プーリング、およびReLU(rectified linear unit)の活性化が続く。4つの畳み込みブロックの後に、エンコーダは、サイズ11の10個のカーネルとサイズ1への適応1d最大プーリングを備えた別の畳み込み層を含む。その結果、タンパク質配列エンコーダは、10×1024のワンホットエンコードされたタンパク質配列入力を受け取り(配列が1024より短い場合、入力はすべてゼロで埋められる)、10×1の潜在表現を返す。
カテゴリカルデータソースのエンコーダとして埋め込み辞書を使用した。埋め込み辞書のインデックス付けは、ワンホットエンコードされた入力データをバイアス項なしで線形層に転送することに等しいが、入力が非常に疎であるため、計算効率がはるかに高い。最初のエントリは不明なカテゴリまたはパディングインデックス用に常に確保されているため、埋め込み辞書のサイズは各モダリティのカテゴリ数より1つ大きい。実験で使用した実際のサイズは、生物学的プロセス、分子機能、細胞成分、分類学的ファミリー、およびpfamドメインに対して、それぞれ24937、9572、3185、1779、および11679である。埋め込みの次元は10になるように選択される。
<デコーダ>
タンパク質配列のデコーダは、デコンボリューションブロックの6つの連続層を含む。各ブロックには、フィルタの数が128、フィルタサイズが6、ストライドが3、両端が1で埋められたデコンボリューション演算が含まれ、その後に層の正規化および勾配0.1の漏洩ReLUの活性化が続く。
カテゴリカルモダリティのデコーダは、サイズ10×Nの全結合型線形層になるように選択され、共同モダリティ表現(知識ベース等)から返された表現を取得し、全てのクラスのシグモイド活性化スコアを返す(Nは各モダリティのクラスの数)。
<共同モダリティ表現およびモダリティ投影>
共同モダリティ表現は、64次元の512個のベクトルを含む。この例では、これらのベクトルは512×64の行列に記憶されてよい。行は、更新毎にL2で正規化される。この例においては6つのモダリティがあるため、6つのモダリティ埋め込みがあり、それぞれが64×10の行列を使用して表される。各モダリティ埋め込みは、共同モダリティ表現をそれぞれのモダリティの表現空間に投影する。
<損失関数>
配列の再構築には、配列内のすべてのアミノ酸残基について、20の可能なアミノ酸にわたる確率分布に対して算出されたクロスエントロピー損失を使用した。パディングされた領域を除外した。3つのオントロジーモダリティおよびpfamドメインモダリティについては、負のサンプリング手順とマージン値1で最大マージン損失を使用した。分類学的ファミリーモダリティについては、クロスエントロピーを使用した。
<訓練>
学習率が10−3、バッチサイズが25の「Adam」と呼ばれるSGDオプティマイザーのバリアントを使用した。以下の2つの異なるシナリオをテストした。(1)ペアにされたデータを使用した同期的訓練、(2)ペアにされていないデータを使用した非同期的訓練。
ペアにされたデータを使用して訓練する場合、他の全てのパラメータと同様に、全てのモダリティにわたって、全ての再構成損失から生じる勾配の合計に関して、共同モダリティ表現の重みが更新される。
非同期的に訓練する場合、各モダリティのパラメータは、共同モダリティ表現を照会することによって1つずつ訓練される。共同モダリティ表現の重みは、モダリティが独自の再構築目的で訓練される毎に更新される。全てのモダリティに3回行い、毎回完全に収束するまで訓練した。モダリティを訓練する毎に、共同モダリティ表現のパラメータの学習率を下げた。
<結果>
図5に示されるように、初期の実験は、タンパク質の機能的な注釈をする上記のマルチモーダル統計モデルが、広範な特徴量エンジニアリングを必要とする他のモデルの競合する従来の手法よりも大幅に優れた動作をすることを示す。図5に示されるように、上記のマルチモーダル統計モデルの平均AUROC(area under receiver operating characteristic curve)は、競合する従来手法のものよりも高い。図5に示される競合する手法の性能は、2016年9月7日にGenome Biology, volume 17, page 184に掲載された「An expanded evaluation of protein function prediction methods shows an improvement in accuracy」というタイトルの記事でさらに議論され、この記事は参照によりその全体が本明細書に組み込まれる。
<理論的基盤>
本明細書に記載されているマルチモーダル統計モデルのさらなる態様は、以下の議論から理解され得る。
<関連情報の抽出>
Xが固定した確率測度ρ(x)の信号(メッセージ)空間を示し、Τがその量子化されたコードブックまたは圧縮表現を示すとする。
各x∈Xについて、コードブック内の代表またはコードワードへの確率的マッピングを求め、t∈Tは条件付き確率密度関数(pdf)p(t│x)によって特徴付けられる。このマッピングは、各ブロックが確率p(t│x)でコードブック要素t∈Tに関連付けられているXのソフト分割を誘導する。コードワードt∈Tの全確率は、次の式で与えられる。
Figure 2021524099
同じコードワードにマップされるXの要素の平均量は2H(X│T)であり、ここで、
Figure 2021524099
である。
量子化の品質は、混乱なくコードブックの要素を指定するために必要な「レート」または「メッセージあたりの平均ビット数」によって決定される。Xの要素ごとのこの数は、相互情報量によって以下から制限される。
Figure 2021524099
この式は、Xの量の平均分割の量に対する比によって与えられる、Xの分割の平均濃度と考えてよい。すなわち、
Figure 2021524099
である。
<情報のボトルネック>
究極的には、任意の予測タスクについて、入力空間Xから予測(ラベル)空間Yに関連する情報のみを保持する表現空間Tへのマッピングp(t│x)を学習したい。言い換えれば、マッピングp(t│x)に関して次の関数を最小化することによって捕捉可能なTとYの間の相互情報量を最大化しながら、XとTの間の相互情報量を最小化したい。
Figure 2021524099
ここで、βはトレードオフパラメータである。
<入力圧縮限界>
最高の予測性能のため、データ処理の不均衡により上限I(T;Y)≦I(X;Y)に制限されるI(T;Y)を最大化することを目的とする。XおよびYに無制限のデータ量がある場合、同時分布p(x,y)に任意に近似できるため、Xのコンパクトな表現を必要としない。しかしながら、データ量はしばしば限られているため、p(x│y)を十分には推定できない。したがって、入力を圧縮してモデルを正則化する必要がある。I(X;T)を最小化することで複雑さを減少させる。
ここで、
Figure 2021524099
は、限られたサンプルからの相互情報量の経験的推定を示す。一般化の限界は次のように示される。
Figure 2021524099
および
Figure 2021524099
特に、上限は表現K=|T|2I(T;X)の濃度に依存する。言い換えると、追加圧縮の追加的1ビットは、同じ一般化ギャップのデータのサイズを2倍にすることに等しい。
<マルチモーダル予測の圧縮>
モダリティXおよびXが、XおよびXをそれぞれ予測することになるTおよびT表現に圧縮される、単純なクロスモダリティ予測設定を考えてみる。図6Aに示すように、観測された変数XおよびXは、XおよびXの圧縮表現である潜在確率変数TおよびTによって表されている。第1モダリティおよび第2モダリティの潜在確率変数TおよびTは、それぞれ、第1モダリティおよび第2モダリティのエンコーダの出力として定義されてよい。図6Bに示すように、潜在確率変数TおよびTを使用して、変数XおよびXを予測してよい。第1モダリティおよび第2モダリティのデコーダをそれぞれ使用して、潜在表現TおよびTから変数XおよびXを予測してよい。
この場合、最小化するラグランジアンは次の式で与えられる。
Figure 2021524099
したがって、圧縮している間、圧縮された表現TとTが互いに可能な限り情報を提供するようにしたい。この式は、TおよびTの間の相互情報量(相関)を最大化しながら、X、TおよびX、Tの間の相互情報量を最小化することにより、XおよびXを最大限に圧縮する必要があることを示す。本明細書に記載されるフレームワークでは、TおよびTの間の相互情報量の最大化は、エンコードされた各入力を、コードブック内のコードワード、つまり、共同モダリティ表現(例えば、知識ベース230)の1つまたは加重平均に強制的に一致させることで実現してよい。一致したエントリは、その後、自己教師あり訓練段階中にデコーダへの入力として提供される。
直感的に、クロスモダリティ駆動型の圧縮表現を学習することにより、多くのモダリティにわたってラベル付けされた(またはペアにされた)データを活用し、一般化ギャップを減らす。
本明細書で提供される本開示の実施形態のいずれかに関連して使用され得るコンピュータシステム700の例示的な実装が、図7に示されている。コンピュータシステム700は、1つまたは複数のコンピュータハードウェアプロセッサ700と、非一時的なコンピュータ可読記憶媒体(例えば、メモリ720および1つまたは複数の不揮発性記憶装置730)を含む1つまたは複数の製品とを含んでよい。プロセッサ710は、任意の適切な方法で、メモリ720および不揮発性記憶装置730へのデータの書き込みおよびデータの読み取りを制御してよい。本明細書に記載の機能のいずれかを実行するために、プロセッサ710は、1つまたは複数の非一時的なコンピュータ可読記憶媒体(例えば、メモリ720)に記憶された1つまたは複数のプロセッサ実行可能な命令を実行してよく、非一時的なコンピュータ可読記憶媒体は、プロセッサ710によって実行するためのプロセッサ実行可能な命令を記憶する非一時的なコンピュータ可読記憶媒体として機能してよい。
「プログラム」または「ソフトウェア」という用語は、本明細書では一般的な意味で使用され、コンピュータまたは他の(物理的または仮想的)プロセッサをプログラムして上記の実施形態の様々な態様を実装するために使用できる、任意の種類のコンピュータコードまたはプロセッサ実行可能な命令のセットを指す。さらに、一態様によれば、実行された時に本明細書で提供される開示の方法を実行する1つまたは複数のコンピュータプログラムは、単一のコンピュータまたはプロセッサ上に存在する必要はなく、異なるコンピュータまたはプロセッサ間にモジュール方式で分散され、本明細書で提供される開示の様々な態様を実装してよい。
プロセッサ実行可能な命令は、プログラムモジュールなど、1つまたは複数のコンピュータまたは他の装置によって実行される複数の形式であってよい。一般的に、プログラムモジュールには、特定のタスクを実行したり、特定の抽象データ型を実装したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。通常、プログラムモジュールの機能は組み合わされるか分散されてよい。
また、データ構造は、任意の適切な形式で、1つまたは複数の非一時的なコンピュータ可読記憶媒体に記憶され得る。説明を簡単にするために、データ構造は、データ構造内の場所によって関連付けられたフィールドを持つように示されている場合がある。そのような関係は、非一時的なコンピュータ可読媒体において、フィールド間の関係を伝達する場所を有するフィールドにストレージを割り当てることにより同様に達成されてよい。しかしながら、ポインタ、タグ、またはデータ要素間の関係を確立するその他のメカニズムの使用を含む、任意の適切なメカニズムが使用されて、データ構造のフィールド内の情報間の関係を確立してよい。
様々な発明の概念が1つまたは複数の処理として具体化されてよく、その例が提供されている。各処理の一部として実行される動作は、任意の適切な方法で命令されてよい。したがって、例示的な実施形態においては連続的な動作として示されているが、記載とは異なる順序で動作が実行される実施形態が構築されてよく、いくつかの動作を同時に実行することを含み得る。
本明細書および特許請求の範囲で使用されているように、1つまたは複数の要素のリストに関連する「1つ以上の」という文言は、要素のリスト中の任意の1つまたは複数の要素から選択される1つ以上の要素を意味すると理解されるべきであるが、要素のリスト内に具体的に挙げられた1つ1つの要素の1つ以上を必ずしも含む必要はなく、要素のリスト内の要素の任意の組み合わせを除外するものでもない。この定義により、「1つ以上の」という文言が指す要素のリスト内で具体的に特定される要素以外の要素が、具体的に特定される要素に関連するまたは関連しないにかかわらず、選択的に存在してもよい。したがって、例えば、「AおよびBの少なくとも一方」(または同様に、「AまたはBの少なくとも一方」、または同様に「Aおよび/またはBの少なくとも一方」)は、一実施形態では1つ以上、選択的には2つ以上の、Bが存在しないA(および選択的にはB以外の要素を含む)を含むこと、別の実施形態では1つ以上、選択的には2つ以上の、Aが存在しないB(および選択的にはA以外の要素を含む)を含むこと、さらに別の実施形態では1つ以上、選択的には2つ以上の、Aおよび1つ以上の、選択的には2つ以上のB(さらに選択的には他の要素を含む)を含むこと、等を指し得る。
本明細書および特許請求の範囲で使用される「および/または」という文言は、そのように結合された要素、すなわち、ある場合には結合的に存在し、他の場合には分離的に存在する要素の「いずれか一方または両方」を意味すると理解されるべきである。「および/または」で挙げられた複数の要素も同様に、すなわち、そのように結合された要素の「1つまたは複数の」と解釈されるべきである。「および/または」という文言で具体的に特定される要素以外の他の要素が、具体的に特定される要素に関連するまたは関連しないにかかわらず、選択的に存在してよい。したがって、非限定的な例として、「Aおよび/またはB」への言及は、「含む」などの制限のない文言と併せて使用される場合、一実施形態ではAのみ(選択的にはB以外の要素を含む)、別の実施形態ではBのみ(選択的にはA以外の要素を含む)、さらに別の実施形態では、AおよびBの両方(選択的には他の要素を含む)、等を指し得る。
請求項の要素を変更するための特許請求の範囲での「第1」、「第2」、「第3」などの序数用語の使用は、それ自体では、ある請求項の要素の別の請求項の要素に対する優先順位、先行、または順序、または方法の動作が実行される時間的な順序を示唆するものではない。このような用語は、ある名前を持つ1つの請求項の要素を(序数用語の使用を除けば)同じ名前を持つ別の要素から区別するためのラベルとしてのみ使用される。本明細書で使用される表現および用語は、説明を目的としたものであり、限定的と見なされるべきではない。「含む」、「からなる」、「有する」、「含有する」、「伴う」、およびそれらの変形の使用は、その後に挙げられる項目および追加の項目を包含することを意味する。
本明細書に記載された技術の複数の実施形態は詳細に説明されており、様々な変更例および改善が当業者に対して容易に生じるであろう。そのような変更例および改善は、本開示の精神および範囲内にあることが意図される。したがって、前述の説明は例であるに過ぎず、限定的であることを意図するものではない。技術は、以下の特許請求の範囲およびその同等物の定義に従ってのみ制限される。

Claims (43)

  1. 第1モダリティからの入力データおよび前記第1モダリティとは異なる第2モダリティからの入力データを含む複数のモダリティからの入力データを受信するように構成されたマルチモーダル統計モデルを訓練する方法であって、前記方法は
    前記第1モダリティのラベル付けされていない訓練データおよび前記第2モダリティのラベル付けされていない訓練データを含むラベル付けされていない訓練データにアクセスする、ラベル付けされていない訓練データアクセス工程と、
    前記第1モダリティのラベル付けされた訓練データおよび前記第2モダリティのラベル付けされた訓練データを含むラベル付けされた訓練データにアクセスする、ラベル付けされた訓練データアクセス工程と、
    前記マルチモーダル統計モデルを2段階で訓練する、訓練工程であって、前記マルチモーダル統計モデルは、前記第1モダリティおよび前記第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む複数の構成要素を含み、前記訓練工程は、
    自己教師あり学習手法および前記ラベル付けされていない訓練データを使用して、前記第1モダリティ埋め込みおよび前記第2モダリティ埋め込みと前記共同モダリティ表現とのパラメータの値を推定することにより、少なくとも部分的に第1訓練段階を実行する、第1訓練段階実行工程および、
    教師あり学習手法および前記ラベル付けされた訓練データを使用して、前記予測子のパラメータの値を推定することにより、少なくとも部分的に第2訓練段階を実行する、第2訓練段階実行工程、を含む訓練工程と、
    前記マルチモーダル統計モデルの前記複数の構成要素のパラメータの予測値を記憶することにより、前記マルチモーダル統計モデルを指定する情報を少なくとも部分的に記憶する工程と、を備える方法。
  2. 前記訓練工程は、前記第1訓練段階の前に前記第1エンコーダおよび前記第2エンコーダのパラメータの値を推定する工程をさらに含む、請求項1に記載の方法。
  3. 前記訓練工程は、前記第1訓練段階の前に前記第1モダリティおよび前記第2モダリティの第1デコーダおよび第2デコーダのパラメータの値をそれぞれ推定する工程をさらに含む、請求項2に記載の方法。
  4. 前記訓練工程は、前記第1訓練段階中に、前記第1エンコーダおよび前記第2エンコーダのパラメータの値の推定を、前記共同モダリティ表現のパラメータの値の推定と共同でする工程をさらに含む、請求項1または先行する請求項のいずれか一項に記載の方法。
  5. 前記訓練工程は、前記第1訓練段階中に、前記第1モダリティの第1デコーダおよび前記第2モダリティの第2デコーダのパラメータの値を推定する工程をさらに含む、請求項4または先行する請求項のいずれか一項に記載の方法。
  6. 前記第1訓練段階実行工程は、
    前記第1モダリティの前記ラベル付けされていない訓練データにおける第1データ入力にアクセスする工程と、
    前記第1データ入力を前記第1エンコーダに提供して、第1特徴ベクトルを生成する工程と、
    前記共同モダリティ表現、前記第1モダリティ埋め込み、および前記第1特徴ベクトルを使用して、第2特徴ベクトルを特定する、第2特徴ベクトル特定工程と、
    前記第2特徴ベクトルを入力として第1デコーダに提供して、第1データ出力を生成する工程と、を含む請求項1または先行する請求項のいずれか一項に記載の方法。
  7. 前記第1データ出力を前記第1データ入力と比較する工程と、
    前記比較の結果に基づき、前記共同モダリティ表現の1つ以上のパラメータの1つ以上の値を更新する工程と、をさらに含む請求項6または先行する請求項のいずれか一項に記載の方法。
  8. 前記第1訓練段階実行工程は、
    前記第1モダリティの前記ラベル付けされていない訓練データにおける第1入力にアクセスする工程と、
    前記第1入力データを前記第1エンコーダに提供して、第1特徴ベクトルを生成する工程と、
    前記共同モダリティ表現、前記第2モダリティ埋め込み、および前記第1特徴ベクトルを使用して、第2特徴ベクトルを特定する工程と、
    前記第2特徴ベクトルを入力として前記第2モダリティの第2デコーダに提供して、第2出力データを生成する工程と、を含む請求項1または先行する請求項のいずれか一項に記載の方法。
  9. 前記第1エンコーダはd次元ベクトルを出力するように構成され、前記共同モダリティ表現はN個のm次元ベクトルを含み、前記第1モダリティ埋め込みはm*dの重みを含む、請求項6または先行する請求項のいずれか一項に記載の方法。
  10. 前記第2特徴ベクトル特定工程は、
    前記第1モダリティ埋め込みを使用することにより、前記共同モダリティ表現を前記第1モダリティの空間に投影して、N個のd次元ベクトルを取得する工程と、
    前記共同モダリティ表現における前記N個のd次元ベクトルの中から、類似性メトリックに従って前記第1特徴ベクトルに最も類似する第3特徴ベクトルを特定する工程と、
    前記第1特徴ベクトルを前記第3特徴ベクトルと集約することにより前記第2特徴ベクトルを生成する工程と、を含む請求項9に記載の方法。
  11. 前記第2特徴ベクトル特定工程は、
    前記第1モダリティ埋め込みを使用することにより、前記共同モダリティ表現を前記第1モダリティの空間に投影して、N個のd次元ベクトルを取得する工程と、
    前記N個のd次元ベクトルの少なくとも一部と前記第1特徴ベクトルとの間の類似性に従って、前記共同モダリティ表現における前記N個のd次元ベクトルの前記少なくとも一部の重みを算出する工程と、
    前記第1特徴ベクトルを、算出された前記重みによって重み付けされた前記N個のd次元ベクトルの前記少なくとも一部の加重和と集約することにより前記第2特徴ベクトルを生成する工程と、を含む請求項9または先行する請求項のいずれか一項に記載の方法。
  12. 前記マルチモーダル統計モデルは、第1タスク埋め込みおよび第2タスク埋め込みをさらに備え、前記訓練工程は、前記第2訓練段階中に、前記第1タスク埋め込みおよび前記第2タスク埋め込みのパラメータの値の推定を、前記予測子のパラメータの値の推定と共同でする工程をさらに含む、請求項1または先行する請求項のいずれか一項に記載の方法。
  13. 前記第1エンコーダはニューラルネットワークを含む、請求項1または先行する請求項のいずれか一項に記載の方法。
  14. 前記ニューラルネットワークは畳み込みニューラルネットワークである、請求項13または先行する請求項のいずれか一項に記載の方法。
  15. 前記ニューラルネットワークは回帰型ニューラルネットワークである、請求項13または先行する請求項のいずれか一項に記載の方法。
  16. 前記第1訓練段階は、確率的勾配降下法を使用して前記共同モダリティ表現の前記パラメータの前記値を推定する工程をさらに含む、請求項1または先行する請求項のいずれか一項に記載の方法。
  17. 前記第1訓練段階は、前記確率的勾配降下法を使用して前記第1モダリティ埋め込みおよび前記第2モダリティ埋め込みの前記パラメータの前記値を推定する工程をさらに含む、請求項16または先行する請求項のいずれか一項に記載の方法。
  18. 前記第1モダリティの前記ラベル付けされていない訓練データは画像を含む、請求項1または先行する請求項のいずれか一項に記載の方法。
  19. 前記第2モダリティのラベル付けされていない訓練データはテキストを含む、請求項18または先行する請求項のいずれか一項に記載の方法。
  20. 前記第1モダリティのラベル付けされていない訓練データはタンパク質配列データを含む、請求項1または先行する請求項のいずれか一項に記載の方法。
  21. 前記第2モダリティのラベル付けされていない訓練データは、タンパク質ファミリーデータ、生物学的プロセスオントロジーデータ、分子機能オントロジーデータ、細胞構成要素オントロジーデータ、または分類学的種ファミリーデータを含む、請求項20または先行する請求項のいずれか一項に記載の方法。
  22. 第3モダリティのラベル付けされていない訓練データにアクセスする工程と、
    前記第3モダリティのラベル付けされた訓練データにアクセスする工程と、
    前記マルチモーダル統計モデルを拡張して、前記第3モダリティの第3エンコーダおよび第3モダリティ埋め込みを含める工程と、
    自己教師あり学習手法および前記第3モダリティの前記ラベル付けされていない訓練データを使用して、前記第3モダリティ埋め込みおよび前記共同モダリティ表現のパラメータの値を更新することおよび、
    教師あり学習手法および前記第3モダリティの前記ラベル付けされた訓練データを使用して、前記予測子のパラメータの値を更新することにより
    前記マルチモーダル統計モデルを更新する工程と、をさらに備える請求項1または先行する請求項のいずれか一項に記載の方法。
  23. 前記マルチモーダル統計モデルは、前記第1モダリティおよび前記第2モダリティとは異なる第3モダリティから入力データを受信するように構成され、第3モダリティ埋め込みをさらに含み、
    前記ラベル付けされていない訓練データアクセス工程は、前記第3モダリティのラベル付けされていない訓練データにアクセスする工程を含み、
    前記ラベル付けされた訓練データアクセス工程は、前記第3モダリティのラベル付けされた訓練データにアクセスする工程を含み、
    前記第1訓練段階実行工程は、前記第3モダリティの前記ラベル付けされていない訓練データにさらに基づき前記第3モダリティ埋め込みのパラメータの値を推定する工程をさらに含み、
    前記第2訓練段階実行工程は、前記第3モダリティの前記ラベル付けされた訓練データにさらに基づき前記予測子のパラメータの値を推定する工程を含む、請求項1または先行する請求項のいずれか一項に記載の方法。
  24. 1つ以上のコンピュータハードウェアプロセッサと、
    1つ以上の非一時的なコンピュータ可読記憶媒体と、を備えるシステムであって、前記非一時的なコンピュータ可読記憶媒体は、前記1つ以上のコンピュータハードウェアプロセッサによって実行された場合、前記1つ以上のコンピュータハードウェアプロセッサに、第1モダリティからの入力データおよび前記第1モダリティとは異なる第2モダリティからの入力データを含む複数のモダリティからの入力データを受信するように構成されたマルチモーダル統計モデルを訓練する方法、を実行させるプロセッサ実行可能な命令を記憶し、前記方法は
    前記第1モダリティのラベル付けされていない訓練データおよび前記第2モダリティのラベル付けされていない訓練データを含むラベル付けされていない訓練データにアクセスする工程と、
    前記第1モダリティのラベル付けされた訓練データおよび前記第2モダリティのラベル付けされた訓練データを含むラベル付けされた訓練データにアクセスする工程と、
    前記マルチモーダル統計モデルを2段階で訓練する、訓練工程であって、前記マルチモーダル統計モデルは、前記第1モダリティおよび前記第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む複数の構成要素を含み、前記訓練工程は、
    自己教師あり学習手法および前記ラベル付けされていない訓練データを使用して、前記第1モダリティ埋め込みおよび前記第2モダリティ埋め込みと前記共同モダリティ表現とのパラメータの値を推定することにより、少なくとも部分的に第1訓練段階を実行する、第1訓練段階実行工程および、
    教師あり学習手法および前記ラベル付けされた訓練データを使用して、前記予測子のパラメータの値を推定することにより、少なくとも部分的に第2訓練段階を実行する、第2訓練段階実行工程、を含む訓練工程と、
    前記マルチモーダル統計モデルの前記複数の構成要素のパラメータの予測値を記憶することにより、前記マルチモーダル統計モデルを指定する情報を少なくとも部分的に記憶する工程と、を含むシステム。
  25. 前記共同モダリティ表現は、複数のm次元ベクトルを含み、前記システムは、前記複数のm次元ベクトルを記憶するように構成されたメモリをさらに備える、請求項24に記載のシステム。
  26. 1つ以上の非一時的なコンピュータ可読記憶媒体であって、前記非一時的なコンピュータ可読記憶媒体は、1つ以上のコンピュータハードウェアプロセッサによって実行された場合、前記1つ以上のコンピュータハードウェアプロセッサに、第1モダリティからの入力データおよび前記第1モダリティとは異なる第2モダリティからの入力データを含む複数のモダリティからの入力データを受信するように構成されたマルチモーダル統計モデルを訓練する方法、を実行させるプロセッサ実行可能な命令を記憶し、前記方法は
    前記第1モダリティのラベル付けされていない訓練データおよび前記第2モダリティのラベル付けされていない訓練データを含むラベル付けされていない訓練データにアクセスする工程と、
    前記第1モダリティのラベル付けされた訓練データおよび前記第2モダリティのラベル付けされた訓練データを含むラベル付けされた訓練データにアクセスする工程と、
    前記マルチモーダル統計モデルを2段階で訓練する、訓練工程であって、前記マルチモーダル統計モデルは、前記第1モダリティおよび前記第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む複数の構成要素を含み、前記訓練工程は、
    自己教師あり学習手法および前記ラベル付けされていない訓練データを使用して、前記第1モダリティ埋め込みおよび前記第2モダリティ埋め込みと前記共同モダリティ表現とのパラメータの値を推定することにより、少なくとも部分的に第1訓練段階を実行する、第1訓練段階実行工程および、
    教師あり学習手法および前記ラベル付けされた訓練データを使用して、前記予測子のパラメータの値を推定することにより、少なくとも部分的に第2訓練段階を実行する、第2訓練段階実行工程、を含む訓練工程と、
    前記マルチモーダル統計モデルの前記複数の構成要素のパラメータの予測値を記憶することにより、前記マルチモーダル統計モデルを指定する情報を少なくとも部分的に記憶する工程と、を含む非一時的なコンピュータ可読記憶媒体。
  27. 第1モダリティからの入力データおよび前記第1モダリティとは異なる第2モダリティからの入力データを含む複数のモダリティからの入力データを受信するように構成されたマルチモーダル統計モデルを使用して、予測タスクを実行する方法であって、前記方法は
    前記マルチモーダル統計モデルを指定する情報を取得する工程であって、前記マルチモーダル統計モデルを指定する情報は、前記マルチモーダル統計モデルの複数の構成要素のそれぞれのパラメータの値を含み、前記複数の構成要素は、前記第1モダリティおよび前記第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む工程と、
    前記第1データモダリティの第1入力データを取得する工程と、
    前記第1入力データを前記第1エンコーダに提供して、第1特徴ベクトルを生成する工程と、
    前記共同モダリティ表現、前記第1モダリティ埋め込み、および前記第1特徴ベクトルを使用して、第2特徴ベクトルを特定する、第2特徴ベクトル特定工程と、
    前記予測子および前記第2特徴ベクトルを使用して前記予測タスクの予測を生成する、予想生成工程と、を備える方法。
  28. 前記第2データモダリティの第2入力データを取得する工程と、
    前記第2入力データを前記第2エンコーダに提供して、第3特徴ベクトルを生成する工程と、
    前記共同モダリティ表現、前記第2モダリティ埋め込み、および前記第3特徴ベクトルを使用して、第4特徴ベクトルを特定する工程と、をさらに備え
    前記第4特徴ベクトルを使用して前記予想生成工程を実行する、請求項27に記載の方法。
  29. 前記マルチモーダル統計モデルは、前記第1モダリティおよび前記第2モダリティの第1タスク埋め込みおよび第2タスク埋め込みを含み、前記予想生成工程は、
    前記第1タスク埋め込みを使用して前記第2特徴ベクトルを重み付けする工程と、
    前記第2タスク埋め込みを使用して前記第4特徴ベクトルを重み付けする工程と、
    重み付けされた前記第2特徴ベクトルおよび前記第4特徴ベクトルと前記予測子とを使用して、前記予測タスクの前記予測を生成する工程と、をさらに含む請求項28または先行する請求項のいずれか一項に記載の方法。
  30. 重み付けされた前記第2特徴ベクトルおよび前記第4特徴ベクトルを前記予測子に提供する工程をさらに備える、請求項29または先行する請求項のいずれか一項に記載の方法。
  31. 前記第1エンコーダはd次元ベクトルを出力するように構成され、前記共同モダリティ表現はN個のm次元ベクトルを含み、前記第1モダリティ埋め込みはmxdの重みを含む、請求項27または先行する請求項のいずれか一項に記載の方法。
  32. 前記第2特徴ベクトル特定工程は、
    前記第1モダリティ埋め込みを使用することにより、前記共同モダリティ表現を前記第1モダリティの空間に投影して、N個のd次元ベクトルを取得する工程と、
    前記共同モダリティ表現における前記N個のd次元ベクトルの中から、類似性メトリックに従って前記第1特徴ベクトルに最も類似する第3特徴ベクトルを特定する工程と、
    前記第1モダリティ埋め込みにおける重みを使用して前記第3特徴ベクトルの次元を重み付けすることにより前記第2特徴ベクトルを生成する工程と、を含む請求項31または先行する請求項のいずれか一項に記載の方法。
  33. 前記第2特徴ベクトル特定工程は、
    前記第1モダリティ埋め込みを使用することにより、前記共同モダリティ表現を前記第1モダリティの空間に投影して、N個のd次元ベクトルを取得する工程と、
    前記共同モダリティ表現における前記N個のd次元ベクトルの中から、類似性メトリックに従って前記第1特徴ベクトルに最も類似する第3特徴ベクトルを特定する工程と、
    前記第1特徴ベクトルを前記第3特徴ベクトルと集約することにより前記第2特徴ベクトルを生成する工程と、を含む請求項31または先行する請求項のいずれか一項に記載の方法。
  34. 前記第2特徴ベクトル特定工程は、
    前記第1モダリティ埋め込みを使用することにより、前記共同モダリティ表現を前記第1モダリティの空間に投影して、N個のd次元ベクトルを取得する工程と、
    前記N個のd次元ベクトルの少なくとも一部と前記第1特徴ベクトルとの間の類似性に従って、前記共同モダリティ表現における前記N個のd次元ベクトルの前記少なくとも一部の重みを算出する工程と、
    算出された前記重みによって重み付けられた前記N個のd次元ベクトルの前記少なくとも一部の加重和として前記第2特徴ベクトルを生成する工程と、を含む請求項32または先行する請求項のいずれか一項に記載の方法。
  35. 前記第1エンコーダはニューラルネットワークを含む、請求項27または先行する請求項のいずれか一項に記載の方法。
  36. 前記ニューラルネットワークは、畳み込みニューラルネットワークである請求項35または先行する請求項のいずれか一項に記載の方法。
  37. 前記ニューラルネットワークは回帰型ニューラルネットワークである、請求項35または先行する請求項のいずれか一項に記載の方法。
  38. 前記第1モダリティの入力データは1つ以上の画像を含む、請求項27または先行する請求項のいずれか一項に記載の方法。
  39. 前記第2モダリティの入力データはテキストを含む、請求項27または先行する請求項のいずれか一項に記載の方法。
  40. 前記第1モダリティの入力データはタンパク質配列データを含む、請求項39または先行する請求項のいずれか一項に記載の方法。
  41. 前記第2モダリティの入力データは、タンパク質ファミリーデータ、生物学的プロセスオントロジーデータ、分子機能オントロジーデータ、細胞構成要素オントロジーデータ、または分類学的種ファミリーデータを含む、請求項40または先行する請求項のいずれか一項に記載の方法。
  42. 第1モダリティからの入力データおよび前記第1モダリティとは異なる第2モダリティからの入力データを含む複数のモダリティからの入力データを受信するように構成されたマルチモーダル統計モデルを使用して、予測タスクを実行するシステムであって、前記システムは
    1つ以上のコンピュータハードウェアプロセッサと、
    1つ以上の非一時的なコンピュータ可読記憶媒体と、を備えるシステムであって、前記1つ以上の非一時的なコンピュータ可読記憶媒体は、前記1つ以上のコンピュータハードウェアプロセッサによって実行された場合、前記1つ以上のコンピュータハードウェアプロセッサに、
    前記マルチモーダル統計モデルを指定する情報を取得する工程であって、前記マルチモーダル統計モデルを指定する情報は、前記マルチモーダル統計モデルの複数の構成要素のそれぞれのパラメータの値を含み、前記複数の構成要素は、前記第1モダリティおよび前記第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む工程と、
    前記第1データモダリティの第1入力データを取得する工程と、
    前記第1入力データを前記第1エンコーダに提供して、第1特徴ベクトルを生成する工程と、
    前記共同モダリティ表現、前記第1モダリティ埋め込み、および前記第1特徴ベクトルを使用して、第2特徴ベクトルを特定する工程と、
    前記予測子と前記第2特徴ベクトルを使用して前記予測タスクの予測を生成する工程と、を実行させるプロセッサ実行可能な命令を記憶するシステム。
  43. 1つ以上の非一時的なコンピュータ可読記憶媒体であって、前記1つ以上のコンピュータハードウェアプロセッサによって実行された場合、前記1つ以上のコンピュータハードウェアプロセッサに、
    マルチモーダル統計モデルを指定する情報を取得する工程であって、前記マルチモーダル統計モデルを指定する情報は、前記マルチモーダル統計モデルの複数の構成要素のそれぞれのパラメータの値を含み、前記複数の構成要素は、第1モダリティおよび第2モダリティの入力データをそれぞれ処理する第1エンコーダおよび第2エンコーダと、第1モダリティ埋め込みおよび第2モダリティ埋め込みと、共同モダリティ表現と、予測子とを含む工程と、
    前記第1データモダリティの第1入力データを取得する工程と、
    前記第1入力データを前記第1エンコーダに提供して、第1特徴ベクトルを生成する工程と、
    前記共同モダリティ表現、前記第1モダリティ埋め込み、および前記第1特徴ベクトルを使用して、第2特徴ベクトルを特定する工程と、
    前記予測子と前記第2特徴ベクトルを使用して予測タスクの予測を生成する工程と、を実行させるプロセッサ実行可能な命令を記憶する1つ以上の非一時的なコンピュータ可読記憶媒体。
JP2020564186A 2018-05-14 2019-05-08 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法 Active JP7317050B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862671068P 2018-05-14 2018-05-14
US62/671,068 2018-05-14
US201862678074P 2018-05-30 2018-05-30
US62/678,074 2018-05-30
PCT/US2019/031255 WO2019221985A1 (en) 2018-05-14 2019-05-08 Systems and methods for unifying statistical models for different data modalities

Publications (3)

Publication Number Publication Date
JP2021524099A true JP2021524099A (ja) 2021-09-09
JPWO2019221985A5 JPWO2019221985A5 (ja) 2022-05-31
JP7317050B2 JP7317050B2 (ja) 2023-07-28

Family

ID=66641492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020564186A Active JP7317050B2 (ja) 2018-05-14 2019-05-08 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法

Country Status (10)

Country Link
US (3) US10956787B2 (ja)
EP (1) EP3794512A1 (ja)
JP (1) JP7317050B2 (ja)
KR (1) KR20210010505A (ja)
CN (1) CN112119411A (ja)
AU (1) AU2019269312A1 (ja)
BR (1) BR112020022270A2 (ja)
CA (1) CA3098447A1 (ja)
MX (1) MX2020012276A (ja)
WO (1) WO2019221985A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7311120B1 (ja) 2022-03-16 2023-07-19 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム
WO2023166959A1 (ja) * 2022-03-01 2023-09-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 学習方法、及び、プログラム

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10956787B2 (en) 2018-05-14 2021-03-23 Quantum-Si Incorporated Systems and methods for unifying statistical models for different data modalities
US11971963B2 (en) 2018-05-30 2024-04-30 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
US11967436B2 (en) 2018-05-30 2024-04-23 Quantum-Si Incorporated Methods and apparatus for making biological predictions using a trained multi-modal statistical model
EP3618287B1 (en) * 2018-08-29 2023-09-27 Université de Genève Signal sampling with joint training of learnable priors for sampling operator and decoder
US11386306B1 (en) * 2018-12-13 2022-07-12 Amazon Technologies, Inc. Re-identification of agents using image analysis and machine learning
US11704573B2 (en) * 2019-03-25 2023-07-18 Here Global B.V. Method, apparatus, and computer program product for identifying and compensating content contributors
CA3081168A1 (en) * 2019-05-22 2020-11-22 Royal Bank Of Canada System and method for machine learning architecture for partially-observed multimodal data
US11520993B2 (en) * 2019-07-24 2022-12-06 Nec Corporation Word-overlap-based clustering cross-modal retrieval
US20210027157A1 (en) * 2019-07-24 2021-01-28 Nec Laboratories America, Inc. Unsupervised concept discovery and cross-modal retrieval in time series and text comments based on canonical correlation analysis
KR20220039791A (ko) * 2019-08-02 2022-03-29 플래그쉽 파이어니어링 이노베이션스 브이아이, 엘엘씨 기계 학습 안내된 폴리펩티드 설계
CN111091010A (zh) * 2019-11-22 2020-05-01 京东方科技集团股份有限公司 相似度确定、网络训练、查找方法及装置和存储介质
US11727913B2 (en) * 2019-12-23 2023-08-15 Adobe Inc. Automatically associating context-based sounds with text
EP3851560A1 (en) * 2020-01-16 2021-07-21 Recherche 2000 Inc. Methods and systems for detecting faults in electrolysers having electrolysis cells
US11251896B2 (en) * 2020-03-03 2022-02-15 Mitsubishi Electric Research Laboratories, Inc. Generative model for inverse design of materials, devices, and structures
CN111461304B (zh) * 2020-03-31 2023-09-15 北京小米松果电子有限公司 分类神经网络的训练方法、文本分类方法、装置及设备
CN111625858B (zh) * 2020-05-10 2023-04-07 武汉理工大学 一种垂直领域下的智能化多模态数据脱敏方法和装置
US11664037B2 (en) * 2020-05-22 2023-05-30 Electronics And Telecommunications Research Institute Methods of encoding and decoding speech signal using neural network model recognizing sound sources, and encoding and decoding apparatuses for performing the same
US20210365965A1 (en) * 2020-05-25 2021-11-25 Microsoft Technology Licensing, Llc Self-supervised system generating embeddings representing sequenced activity
US20210374499A1 (en) * 2020-05-26 2021-12-02 International Business Machines Corporation Iterative deep graph learning for graph neural networks
CN111797589A (zh) * 2020-05-29 2020-10-20 华为技术有限公司 一种文本处理网络、神经网络训练的方法以及相关设备
US11868428B2 (en) 2020-07-21 2024-01-09 Samsung Electronics Co., Ltd. Apparatus and method with compressed neural network computation
US11461681B2 (en) * 2020-10-14 2022-10-04 Openstream Inc. System and method for multi-modality soft-agent for query population and information mining
CN112667071A (zh) * 2020-12-18 2021-04-16 宜通世纪物联网研究院(广州)有限公司 基于随机变分信息的手势识别方法、装置、设备及介质
CN112735569B (zh) * 2020-12-31 2022-09-02 四川大学华西医院 脑肿瘤多模态mri术前胶质瘤手术区结果输出系统及方法
CN112991350B (zh) * 2021-02-18 2023-06-27 西安电子科技大学 一种基于模态差异缩减的rgb-t图像语义分割方法
CN113033622B (zh) * 2021-03-05 2023-02-03 北京百度网讯科技有限公司 跨模态检索模型的训练方法、装置、设备和存储介质
CN113360673B (zh) * 2021-06-21 2023-07-07 浙江师范大学 多模态知识图谱的实体对齐方法、装置及存储介质
CN113688938B (zh) * 2021-09-07 2023-07-28 北京百度网讯科技有限公司 确定对象情感的方法、训练情感分类模型的方法及装置
CN114124520A (zh) * 2021-11-22 2022-03-01 浙江大学 基于多模态的拟态waf执行体实现方法
WO2023105673A1 (ja) * 2021-12-08 2023-06-15 日本電信電話株式会社 学習装置、推定装置、学習方法、推定方法及びプログラム
AU2022204142B1 (en) * 2022-06-14 2022-10-06 Curvebeam Ai Limited Method and System for Material Decomposition in Dual- or Multiple-Energy X-ray Based Imaging
CN114840327B (zh) * 2022-06-29 2022-12-02 阿里巴巴达摩院(杭州)科技有限公司 多模态多任务的处理方法、设备及系统
CN115604475A (zh) * 2022-08-12 2023-01-13 西安电子科技大学(Cn) 一种多模态信源联合编码方法
US20240071105A1 (en) * 2022-08-24 2024-02-29 Nec Laboratories America, Inc. Cross-modal self-supervised learning for infrastructure analysis
KR20240029127A (ko) * 2022-08-26 2024-03-05 한국전자기술연구원 환경정보 인식을 위한 계층적 전이학습 기반의 딥러닝 모델 생성 시스템 및 방법
US20240169261A1 (en) * 2022-11-10 2024-05-23 Lg Electronics Inc. Method and device for domain generalized incremental learning under covariate shift
CN116091907B (zh) * 2023-04-12 2023-08-15 四川大学 一种基于非互斥三元对比学习的图像篡改定位模型及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017122785A1 (en) * 2016-01-15 2017-07-20 Preferred Networks, Inc. Systems and methods for multimodal generative machine learning
WO2018042211A1 (en) * 2016-09-05 2018-03-08 Kheiron Medical Technologies Ltd Multi-modal medical image processing

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5814565A (en) 1995-02-23 1998-09-29 University Of Utah Research Foundation Integrated optic waveguide immunosensor
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US6202049B1 (en) 1999-03-09 2001-03-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
US7175811B2 (en) 2000-04-28 2007-02-13 Edgelight Biosciences Micro-array evanescent wave fluorescence detection device
US6917726B2 (en) 2001-09-27 2005-07-12 Cornell Research Foundation, Inc. Zero-mode clad waveguides for performing spectroscopy with confined effective observation volumes
FR2813121A1 (fr) 2000-08-21 2002-02-22 Claude Weisbuch Dispositif perfectionne de support d'elements chromophores
US7738086B2 (en) 2005-05-09 2010-06-15 The Trustees Of Columbia University In The City Of New York Active CMOS biosensor chip for fluorescent-based detection
US7426322B2 (en) 2005-07-20 2008-09-16 Searete Llc. Plasmon photocatalysis
US8975216B2 (en) 2006-03-30 2015-03-10 Pacific Biosciences Of California Articles having localized molecules disposed thereon and methods of producing same
EP3936857B1 (en) 2006-09-01 2023-06-21 Pacific Biosciences Of California, Inc. Substrates, systems and methods for analyzing materials
US8207509B2 (en) 2006-09-01 2012-06-26 Pacific Biosciences Of California, Inc. Substrates, systems and methods for analyzing materials
FR2908888B1 (fr) 2006-11-21 2012-08-03 Centre Nat Rech Scient Dispositif pour la detection exaltee de l'emission d'une particule cible
WO2009082706A1 (en) 2007-12-21 2009-07-02 The Trustees Of Columbia University In The City Of New York Active cmos sensor array for electrochemical biomolecular detection
AU2009292629B2 (en) 2008-09-16 2014-03-20 Pacific Biosciences Of California, Inc. Substrates and optical systems and methods of use thereof
JP5229478B2 (ja) 2008-12-25 2013-07-03 日本電気株式会社 統計モデル学習装置、統計モデル学習方法、およびプログラム
US8278728B2 (en) 2009-10-17 2012-10-02 Florida Institute Of Technology Array of concentric CMOS photodiodes for detection and de-multiplexing of spatially modulated optical channels
US8467061B2 (en) 2010-02-19 2013-06-18 Pacific Biosciences Of California, Inc. Integrated analytical system and method
US8865078B2 (en) 2010-06-11 2014-10-21 Industrial Technology Research Institute Apparatus for single-molecule detection
EP3305400A3 (en) 2011-10-28 2018-06-06 Illumina, Inc. Microarray fabrication system and method
US9606060B2 (en) 2012-01-13 2017-03-28 California Institute Of Technology Filterless time-domain detection of one or more fluorophores
JP2013211616A (ja) 2012-03-30 2013-10-10 Sony Corp 端末装置、端末制御方法、プログラム、および情報処理システム
US9372308B1 (en) 2012-06-17 2016-06-21 Pacific Biosciences Of California, Inc. Arrays of integrated analytical devices and methods for production
US9223084B2 (en) 2012-12-18 2015-12-29 Pacific Biosciences Of California, Inc. Illumination of optical analytical devices
US9607014B2 (en) 2013-10-31 2017-03-28 Adobe Systems Incorporated Image tagging
WO2015064672A1 (ja) * 2013-11-01 2015-05-07 Eizo株式会社 画像高画質化装置、画像表示装置、画像高画質化方法及びコンピュータプログラム
US9765395B2 (en) 2014-04-28 2017-09-19 Nanomedical Diagnostics, Inc. System and method for DNA sequencing and blood chemistry analysis
US20160170982A1 (en) 2014-12-16 2016-06-16 Yahoo! Inc. Method and System for Joint Representations of Related Concepts
US9666748B2 (en) 2015-01-14 2017-05-30 International Business Machines Corporation Integrated on chip detector and zero waveguide module structure for use in DNA sequencing
CN107615121B (zh) 2015-03-16 2021-04-16 加利福尼亚太平洋生物科学股份有限公司 用于自由空间光耦合的集成装置及系统
US10872699B2 (en) 2016-03-25 2020-12-22 Siemens Healthcare Gmbh Case-based reasoning in the cloud using deep learning
US10534613B2 (en) * 2017-04-28 2020-01-14 Intel Corporation Supporting learned branch predictors
CN107506370A (zh) * 2017-07-07 2017-12-22 大圣科技股份有限公司 多媒体数据深度挖掘方法、存储介质及电子设备
US20190026655A1 (en) 2017-07-19 2019-01-24 Petuum Inc. Machine Learning System for Patient Similarity
US20190279075A1 (en) 2018-03-09 2019-09-12 Nvidia Corporation Multi-modal image translation using neural networks
US20190325293A1 (en) * 2018-04-19 2019-10-24 National University Of Singapore Tree enhanced embedding model predictive analysis methods and systems
US10956787B2 (en) 2018-05-14 2021-03-23 Quantum-Si Incorporated Systems and methods for unifying statistical models for different data modalities
US11971963B2 (en) 2018-05-30 2024-04-30 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model
US11967436B2 (en) 2018-05-30 2024-04-23 Quantum-Si Incorporated Methods and apparatus for making biological predictions using a trained multi-modal statistical model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017122785A1 (en) * 2016-01-15 2017-07-20 Preferred Networks, Inc. Systems and methods for multimodal generative machine learning
WO2018042211A1 (en) * 2016-09-05 2018-03-08 Kheiron Medical Technologies Ltd Multi-modal medical image processing

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023166959A1 (ja) * 2022-03-01 2023-09-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 学習方法、及び、プログラム
JP7311120B1 (ja) 2022-03-16 2023-07-19 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
US20190347523A1 (en) 2019-11-14
KR20210010505A (ko) 2021-01-27
BR112020022270A2 (pt) 2021-02-23
US11494589B2 (en) 2022-11-08
JP7317050B2 (ja) 2023-07-28
CA3098447A1 (en) 2019-11-21
CN112119411A (zh) 2020-12-22
US20210192290A1 (en) 2021-06-24
EP3794512A1 (en) 2021-03-24
US11875267B2 (en) 2024-01-16
MX2020012276A (es) 2021-01-29
US10956787B2 (en) 2021-03-23
US20230039210A1 (en) 2023-02-09
AU2019269312A1 (en) 2020-11-19
WO2019221985A1 (en) 2019-11-21

Similar Documents

Publication Publication Date Title
JP7317050B2 (ja) 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法
CN114067160B (zh) 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法
CN111353076B (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
Li et al. 2-D stochastic configuration networks for image data analytics
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN110674323B (zh) 基于虚拟标签回归的无监督跨模态哈希检索方法及系统
CN109948735B (zh) 一种多标签分类方法、系统、装置及存储介质
CN109447096B (zh) 一种基于机器学习的扫视路径预测方法和装置
CN113821668A (zh) 数据分类识别方法、装置、设备及可读存储介质
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN114743037A (zh) 一种基于多尺度结构学习的深度医学图像聚类方法
Bhardwaj et al. Computational biology in the lens of CNN
CN113378938B (zh) 一种基于边Transformer图神经网络的小样本图像分类方法及系统
Williams et al. Sensing with shallow recurrent decoder networks
CN116561314B (zh) 基于自适应阈值选择自注意力的文本分类方法
CN111695570B (zh) 一种基于变分原型推理的小样本下语义分割方法
CN113591955A (zh) 一种提取图数据的全局信息的方法、系统、设备及介质
CN116383441A (zh) 社群检测方法、装置、计算机设备和存储介质
CN111259176A (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN111626332B (zh) 一种基于图卷积极限学习机的快速半监督分类方法
Bucci et al. Leveraging the structure of dynamical systems for data-driven modeling
US20240152799A1 (en) Generative graph modeling framework
WO2023226310A1 (zh) 一种分子优化方法以及装置
CN117274732A (zh) 一种基于情景记忆驱动构建优化扩散模型的方法和系统
Schau Exploring the Efficiency of Zero-Cost Proxies in NAS for Human Action Recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220506

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220523

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230516

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230718

R150 Certificate of patent or registration of utility model

Ref document number: 7317050

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150