JP2023501469A - リカレント・ニューラル・ネットワークを用いたマルチモーダル・データの融合 - Google Patents
リカレント・ニューラル・ネットワークを用いたマルチモーダル・データの融合 Download PDFInfo
- Publication number
- JP2023501469A JP2023501469A JP2022526694A JP2022526694A JP2023501469A JP 2023501469 A JP2023501469 A JP 2023501469A JP 2022526694 A JP2022526694 A JP 2022526694A JP 2022526694 A JP2022526694 A JP 2022526694A JP 2023501469 A JP2023501469 A JP 2023501469A
- Authority
- JP
- Japan
- Prior art keywords
- data
- data set
- modalities
- vectors
- modality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 30
- 230000004927 fusion Effects 0.000 title claims description 15
- 230000000306 recurrent effect Effects 0.000 title claims description 9
- 239000013598 vector Substances 0.000 claims abstract description 90
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000006399 behavior Effects 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000013135 deep learning Methods 0.000 claims abstract description 21
- 230000002123 temporal effect Effects 0.000 claims abstract description 19
- 230000002596 correlated effect Effects 0.000 claims abstract description 13
- 238000003860 storage Methods 0.000 claims description 34
- 230000015654 memory Effects 0.000 claims description 30
- 238000013473 artificial intelligence Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 27
- 238000004891 communication Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 9
- 230000001747 exhibiting effect Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 239000013604 expression vector Substances 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims 2
- 238000002156 mixing Methods 0.000 claims 1
- 239000010410 layer Substances 0.000 description 36
- 230000006870 function Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 22
- 210000004027 cell Anatomy 0.000 description 15
- 230000000875 corresponding effect Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 9
- 239000008186 active pharmaceutical agent Substances 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 7
- 238000007726 management method Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 230000000670 limiting effect Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- SPBWHPXCWJLQRU-FITJORAGSA-N 4-amino-8-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-oxopyrido[2,3-d]pyrimidine-6-carboxamide Chemical compound C12=NC=NC(N)=C2C(=O)C(C(=O)N)=CN1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O SPBWHPXCWJLQRU-FITJORAGSA-N 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000013439 planning Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
Description
のシーケンスであり、Kはシーケンスの長さであり、
はシーケンス内のl番目(l=1,...,K)の単語のベクトル表現であり、Vは語彙サイズである。埋め込み層を使用して各ベクトル
を低次元の密ベクトル
に変換し、これは線形変換
を用いて行われ、ただし、
である。この変換により、単語の次元が語彙サイズVからdwに削減され、dw≪Vである。テキスト・モジュール(112)からの出力として、本明細書では、表現ベクトルのセット(114)を示している。各ベクトルは、ニュース記事またはドキュメントなどのテキスト・ベースのドキュメントを表す。1つの実施形態では、表現ベクトル(114)は、各ベクトルに関連付けられた対応するタイム・スタンプに基づいて順番に並べられる。たとえば、1つの実施形態では、各ベクトルは、記事の公開またはリリースを識別する対応するタイム・スタンプを有するニュース記事である。
および前の出力ベクトル
を取り込んで、メモリ・セル
を更新し、その後、elの単語表現
を出力する。両方とも
であり、dhは隠れニューロンの数である。したがって、LSTMは再帰関数fを次のように表す。l=1,...,Kに対して、
メモリ・セル
が内部で更新される。このネットワーク・コンポーネントは、期間tに収集された全てのニュース・ストーリーに適用され、ベクトルのシーケンスnewst={s1,s2,...sn}を出力し、nはタイム・スタンプtで収集されたニュース・ストーリーの総数である。ニュース・ストーリーなどのテキスト記事、または関連する単語のシーケンスに対して、各ベクトルが表現される。
と表されるm個の値のシーケンス(222)、および前の隠れ状態
(224)である。同様に、newstのシーケンスなどの入力サンプル(212)は、{s1,s2,...sn}と表され、また、前のセルの状態
(214)である。ネットワークは、以下のようにニュース表現シーケンスの平均状態に適用される2つの別々の単層ニューラル・ネットワークを使用して、初期セル状態
および初期隠れ状態
を初期化することから始まる。
ここで、
であり、
であり、
であり、dsはAsyncLSTM内のニューラル・ユニットの数であり、ネットワーク・パラメータはモデル全体で一緒に訓練される。
ここで、alはアライメント・ベクトルであり、pl(230)は確率質量分布である。Wa、Ua、ba、およびvaは、ニューロンを接続し、調整の対象となる重みである。重みは次のように定義され、すなわち、
および
である。パラメータvaは、各アライメント・ベクトルal,jをスカラーに変換し、softmax関数などの関数を通過させて、出力での確率質量を確保するように学習される。係数(230)は、ニュース表現シーケンス(212)にわたる確率質量分布である。それらの確率質量によってスケーリングされたこれらのベクトルからの情報は、適応的なコンテキスト・ベクトルvl(240)を次のように生成することにより、時系列にわたる学習処理に影響を与える。
ここで、v0はゼロ・ベクトルとして初期化される。各期間tにおいて、係数(230)の最後の状態は、時系列モダリティのパフォーマンス/挙動に関するテキスト・モダリティの関連情報または相関情報をキャプチャする。
と定義される。gate1(254)で利用される関数ilは、
と定義される。gate2(256)で利用される関数
は、
と定義される。gate3(258)で利用される関数olは、
と定義される。各ゲートにおいて、Uはニューラル・モデルの重み行列を表し、時間の経過と共に学習される。次いで、現在のセル状態
(260)および隠れ状態
(270)が更新され、AsyncLSTMの次のセルに入力として転送され、ここで、現在の状態は、
と定義され、隠れ状態は、
と定義される。隠れ状態は、時系列入力と、リカレント・ニューラル・ネットワーク(RNN)メモリ・セルと、テキスト・ニュースからの関連情報とに基づいて時系列データの新しい状態を推測するニューラル関数である。第1の入力フィードに対応するモダリティなどのテキスト・ニュース・ドメインで学習された情報を、第2の入力フィードに対応する時系列モダリティをモデル化する際の全てのステップに緊密に統合することにより、ニューラル・ネットワークは、時系列データの進行に伴って第1の入力フィード内の関連データを発見する際の作業の負担を分散させる。
、
および
を3つの隣接する取引データの調整後終値とする。
である場合、t+1日の市場心理は楽観的である。
である場合、t+1の市場心理は悲観的である。
である場合、t+1の市場の動きは上昇である。
である場合、t+1の市場の動きは下落である。
オンデマンド・セルフ・サービス:クラウド・コンシューマは、サービスのプロバイダとの人的な対話を必要とせずに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
ブロード・ネットワーク・アクセス:能力はネットワークを介して利用することができ、異種のシンまたはシック・クライアント・プラットフォーム(たとえば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的なメカニズムを介してアクセスされる。
リソース・プーリング:プロバイダのコンピューティング・リソースをプールして、様々な物理リソースおよび仮想リソースが需要に応じて動的に割り当ておよび再割り当てされるマルチ・テナント・モデルを使用して複数のコンシューマにサービス提供する。一般にコンシューマは、提供されるリソースの正確な位置に対して何もできず、知っているわけでもないが、より上位の抽象化レイヤ(たとえば、国、州、またはデータセンタなど)では位置を特定可能であり得るという点で位置非依存の感覚がある。
迅速な弾力性:能力を迅速かつ弾力的に、場合によっては自動的にプロビジョニングして素早くスケール・アウトし、迅速に解放して素早くスケール・インすることができる。コンシューマにとって、プロビジョニング可能な能力は無制限であるように見えることが多く、任意の時間に任意の数量で購入することができる。
測定されるサービス:クラウドシステムは、サービスのタイプ(たとえば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント)に適したある抽象化レイヤでの計量機能を活用して、リソースの使用を自動的に制御し、最適化する。リソース使用量を監視、管理、および報告して、利用されるサービスのプロバイダおよびコンシューマの両方に透明性を提供することができる。
ソフトウェア・アズ・ア・サービス(SaaS):コンシューマに提供される能力は、クラウド・インフラストラクチャ上で動作するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ(たとえば、ウェブ・ベースの電子メール)などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。コンシューマは、限定されたユーザ固有のアプリケーション構成設定を可能性のある例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、さらには個々のアプリケーション機能を含む、基盤となるクラウド・インフラストラクチャを管理も制御もしない。
プラットフォーム・アズ・ア・サービス(PaaS):コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、コンシューマが作成または取得したアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成を制御する。
インフラストラクチャ・アズ・ア・サービス(IaaS):コンシューマに提供される能力は、オペレーティング・システムおよびアプリケーションを含むことができる任意のソフトウェアをコンシューマがデプロイして動作させることが可能な、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングすることである。コンシューマは、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションを制御し、場合によっては選択したネットワーキング・コンポーネント(たとえば、ホスト・ファイアウォール)を限定的に制御する。
プライベート・クラウド:クラウド・インフラストラクチャは組織専用に運用される。これは組織または第三者によって管理され得、構内または構外に存在し得る。
コミュニティ・クラウド:クラウド・インフラストラクチャはいくつかの組織によって共有され、共通の懸念(たとえば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項など)を有する特定のコミュニティをサポートする。これは組織または第三者によって管理され得、構内または構外に存在し得る。
パブリック・クラウド:クラウド・インフラストラクチャは、一般大衆または大規模な業界団体に対して利用可能にされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性を可能にする標準化技術または独自技術(たとえば、クラウド間の負荷分散のためのクラウド・バースティング)によって結合された2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)を合成したものである。
Claims (20)
- コンピュータ・システムであって、
メモリに動作可能に結合されたプロセッサと、
前記プロセッサと通信し、深層学習技術を利用してモダリティにまたがってデータを融合するための機械学習(ML)ツールを有する人工知能(AI)プラットフォームと、
含み、前記ツールは、
第1のデータ・セットに動作可能に結合された第1のデータ・フィード・マネージャであって、前記第1のデータ・セットは第1のデータ・フォーマットの第1のモダリティを有する、前記第1のデータ・フィード・マネージャと、
第2のデータ・セットに動作可能に結合された第2のデータ・フィード・マネージャであって、前記第2のデータ・セットは第2のデータ・フォーマットの第2のモダリティを有し、前記第2のモダリティは前記第1のモダリティとは異なる、前記第2のデータ・フィード・マネージャと、
を含み、
前記第1のデータ・フィード・マネージャは、前記第1のデータ・セットを第1のベクトルのセットへとエンコードし、
前記第2のデータ・フィード・マネージャは、前記第2のデータ・セットを第2のベクトルのセットへとエンコードし、
前記ツールはさらに、
前記第1および第2のデータ・フィード・マネージャに動作可能に結合された分析器であって、前記分析器は、人工リカレント・ニューラル・ネットワーク(RNN)を活用して、前記エンコードされた第1および第2のデータ・セットを分析し、前記分析は、前記第1および第2のデータ・モダリティからのエンコードされた特徴を反復的かつ非同期的に融合することを含み、前記融合することは、相関する時間的挙動を示す前記第1および第2のデータ・セットからのベクトルを組み合わせることを含む、前記分析器
を含み、
前記融合されたベクトルは出力データとして返される、コンピュータ・システム。 - 前記第1のデータ・セットからの第1の入力データはタイム・スタンプ付きのテキスト・データ・フィードを表し、前記第2のデータ・セットからの第2の入力データは時系列データを表す、請求項1に記載のシステム。
- 前記反復的かつ非同期的な融合は、前記RNNが、前記第2のデータ・セットの前記時系列データの時間的挙動を前記第1のデータ・セットからのエンコードされた表現ベクトルと相互に関連付けることを含む、請求項2に記載のシステム。
- 前記反復的かつ非同期的な融合は、前記RNNが、前記エンコードされた第2のデータ・セットで確認されたパターンに無関係な1つまたは複数の表現ベクトルを前記第1のデータ・セットから除外することを含む、請求項2に記載のシステム。
- テキスト・ベースのモダリティをエンコードすることは、前記第1のデータ・フィード・マネージャが、単語間の意味的依存関係を学習し、前記テキストを各入力テキスト・ドキュメントの表現ベクトルへと集約することを含む、請求項2ないし4のいずれかに記載のシステム。
- 前記エンコードされた第1および第2のデータ・セットの分析は、前記RNNが、異なるサンプリング周波数の少なくとも2つの時間的シーケンスから情報を探索して相互に関係付けることをさらに含む、請求項1ないし5のいずれかに記載のシステム。
- 深層学習技術を利用してモダリティにまたがってデータを融合するための方法であって、
コンピューティング・デバイスによって、マルチモーダル・データ・セットを受け取ることであって、前記マルチモーダル・データ・セットは、第1のモダリティを有する第1のデータ・セットおよび第2のモダリティを有する第2のデータ・セットを含む2つ以上のモダリティからの異なるフォーマットのデータを含む、前記受け取ることと、
前記第1のデータ・セットを1つまたは複数の第1のベクトルへとエンコードすることと、前記第2のデータ・セットを1つまたは複数の第2のベクトルへとエンコードすることとを含む、前記第1および第2のデータ・セットを別々に処理することと、
前記処理されたマルチモーダル・データ・セットを分析することであって、前記分析することは、前記第1および第2のデータ・モダリティからのエンコードされた特徴を反復的かつ非同期的に融合することを含み、前記融合することは、相関する時間的挙動を示す前記第1および第2のデータ・セットからのベクトルを組み合わせることを含む、前記分析することと、
前記融合されたベクトルを出力データとして返すことと、
を含む、方法。 - 前記第1のデータ・セットからの第1の入力データはタイム・スタンプ付きのテキスト・データ・フィードを表し、前記第2のデータ・セットからの第2の入力データは時系列データを表す、請求項7に記載の方法。
- 前記反復的かつ非同期的な融合は、前記第2のデータ・セットの前記時系列データの時間的挙動を前記第1のデータ・セットからのエンコードされた表現ベクトルと相互に関連付けることを含む、請求項8に記載の方法。
- 前記反復的かつ非同期的な融合は、前記エンコードされた第2のデータ・セットで確認されたパターンに無関係な1つまたは複数の表現ベクトルを前記第1のデータ・セットから除外することを含む、請求項8に記載の方法。
- テキスト・ベースのモダリティをエンコードすることは、単語間の意味的依存関係を学習し、前記テキストを各入力テキスト・ドキュメントの表現ベクトルへと集約することを含む、請求項8ないし10のいずれかに記載の方法。
- 前記処理されたマルチモーダル・データ・セットを分析することは、異なるサンプリング周波数の少なくとも2つの時間的シーケンスから情報を探索して相互に関係付けることをさらに含む、請求項8ないし11のいずれかに記載の方法。
- 前記処理されたマルチモーダル・データ・セットを分析することであって、前記分析することは、前記第1および第2のデータ・モダリティからのエンコードされた特徴を反復的かつ非同期的に融合することを含み、前記融合することは、相関する時間的挙動を示す前記第1および第2のデータ・セットからのベクトルを組み合わせることを含む、前記分析することは、前記処理されたマルチモーダル・データ・セットを分析することであって、前記分析することは、前記第1および第2のデータ・モダリティからのエンコードされたベクトルを融合することを含み、前記融合することは、前記マルチモーダル・データに含まれる前記モダリティのデータのパフォーマンス挙動間の相関する時間的挙動を示す前記第1および第2のデータ・セットからのベクトルを組み合わせることを含む、前記分析することを含み、
前記融合されたベクトルを出力データとして返すことは、共通の挙動をエンコードした前記融合されたベクトルを返すことを含む、
請求項9ないし12のいずれかに記載の方法。 - 前記第1のモダリティはテキスト・データであり、前記第2のモダリティは時系列データであり、前記融合することは、前記時系列モダリティの現在の状態についての前記テキスト・データへのアテンションの確率質量を取得することをさらに含む、請求項13に記載の方法。
- 前記処理されたマルチモーダル・データ・セットを分析することは、深層学習技術を利用して前記モダリティにまたがってデータを融合することを含む、請求項13または14に記載の方法。
- 前記第1のデータ・セットからの第1の入力データはタイム・スタンプ付きのテキスト・データ・フィードを表し、前記第2のデータ・セットからの第2の入力データは数値の時系列データを表し、前記エンコードされたベクトルを融合することは、前記タイム・スタンプ付きのテキスト・データに照らして前記数値の時系列データを参照することをさらに含む、請求項14または15に記載の方法。
- 前記エンコードされたベクトルを融合することは教師なしで行われる、請求項13ないし16のいずれかに記載の方法。
- 前記マルチモーダル・データは、医療データ、気候データ、コンピュータ・ビジョン・データ、金融データ、またはそれらの組み合わせのうちの1つまたは複数を含む、請求項13ないし17のいずれかに記載の方法。
- 深層学習技術を利用してモダリティにまたがってデータを融合するためのコンピュータ・プログラム製品であって、
処理回路によって読み取り可能であり、請求項7ないし18のいずれかに記載の方法を実行するための、前記処理回路によって実行するための命令を記憶するコンピュータ可読記憶媒体
を備える、コンピュータ・プログラム製品。 - コンピュータ可読媒体に記憶され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行された場合に、請求項7ないし18のいずれかに記載の方法を実行するためのソフトウェア・コード部分を含む、コンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/683,649 | 2019-11-14 | ||
US16/683,649 US11915123B2 (en) | 2019-11-14 | 2019-11-14 | Fusing multimodal data using recurrent neural networks |
PCT/IB2020/060577 WO2021094920A1 (en) | 2019-11-14 | 2020-11-10 | Fusing multimodal data using recurrent neural networks |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023501469A true JP2023501469A (ja) | 2023-01-18 |
Family
ID=75908197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022526694A Pending JP2023501469A (ja) | 2019-11-14 | 2020-11-10 | リカレント・ニューラル・ネットワークを用いたマルチモーダル・データの融合 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11915123B2 (ja) |
JP (1) | JP2023501469A (ja) |
CN (1) | CN114730383A (ja) |
AU (1) | AU2020385264B2 (ja) |
GB (1) | GB2604552A (ja) |
WO (1) | WO2021094920A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102189311B1 (ko) * | 2018-08-21 | 2020-12-09 | 두산중공업 주식회사 | 학습된 모델을 이용한 해석 장치 및 이를 위한 방법 |
JP2020052145A (ja) * | 2018-09-25 | 2020-04-02 | トヨタ自動車株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
US20210027157A1 (en) * | 2019-07-24 | 2021-01-28 | Nec Laboratories America, Inc. | Unsupervised concept discovery and cross-modal retrieval in time series and text comments based on canonical correlation analysis |
US11915123B2 (en) * | 2019-11-14 | 2024-02-27 | International Business Machines Corporation | Fusing multimodal data using recurrent neural networks |
CN113254741B (zh) * | 2021-06-16 | 2021-09-28 | 苏州大学 | 基于融合模态内和模态间关系的数据处理方法及系统 |
CN113239184B (zh) * | 2021-07-09 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 知识库获取方法、装置、计算机设备及存储介质 |
CN113779934B (zh) * | 2021-08-13 | 2024-04-26 | 远光软件股份有限公司 | 多模态信息提取方法、装置、设备及计算机可读存储介质 |
US20230206058A1 (en) * | 2021-12-29 | 2023-06-29 | Fidelity Information Services, Llc | Processing sequences of multi-modal entity features using convolutional neural networks |
CN115062328B (zh) * | 2022-07-12 | 2023-03-10 | 中国科学院大学 | 一种基于跨模态数据融合的信息智能解析方法 |
CN115994541B (zh) * | 2023-03-22 | 2023-07-07 | 金蝶软件(中国)有限公司 | 界面语义数据生成方法、装置、计算机设备和存储介质 |
CN116452241B (zh) * | 2023-04-17 | 2023-10-20 | 广西财经学院 | 一种基于多模态融合神经网络的用户流失概率计算方法 |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6415268B1 (en) | 1998-07-20 | 2002-07-02 | Semmen I. Korisch | Method of recovering the real value of a stock from the stock pricing data |
US6532449B1 (en) | 1998-09-14 | 2003-03-11 | Ben Goertzel | Method of numerical times series prediction based on non-numerical time series |
US6745150B1 (en) | 2000-09-25 | 2004-06-01 | Group 1 Software, Inc. | Time series analysis and forecasting program |
US8285619B2 (en) | 2001-01-22 | 2012-10-09 | Fred Herz Patents, LLC | Stock market prediction using natural language processing |
US8867891B2 (en) * | 2011-10-10 | 2014-10-21 | Intellectual Ventures Fund 83 Llc | Video concept classification using audio-visual grouplets |
US8699852B2 (en) * | 2011-10-10 | 2014-04-15 | Intellectual Ventures Fund 83 Llc | Video concept classification using video similarity scores |
US11534122B2 (en) * | 2012-09-20 | 2022-12-27 | Virginia Tech Intellectual Properties, Inc. | Stationary source computed tomography and CT-MRI systems |
US9734730B2 (en) * | 2013-01-31 | 2017-08-15 | Sri International | Multi-modal modeling of temporal interaction sequences |
US9892745B2 (en) * | 2013-08-23 | 2018-02-13 | At&T Intellectual Property I, L.P. | Augmented multi-tier classifier for multi-modal voice activity detection |
US9476730B2 (en) * | 2014-03-18 | 2016-10-25 | Sri International | Real-time system for multi-modal 3D geospatial mapping, object recognition, scene annotation and analytics |
WO2016100816A1 (en) | 2014-12-19 | 2016-06-23 | United Technologies Corporation | Sensor data fusion for prognostics and health monitoring |
DE102016101643A1 (de) * | 2015-01-29 | 2016-08-04 | Affectomatics Ltd. | Filterung von durch bias verzerrten messwerten der affektiven reaktion |
US10303768B2 (en) | 2015-05-04 | 2019-05-28 | Sri International | Exploiting multi-modal affect and semantics to assess the persuasiveness of a video |
US10185996B2 (en) | 2015-07-15 | 2019-01-22 | Foundation Of Soongsil University Industry Cooperation | Stock fluctuation prediction method and server |
US11087228B2 (en) * | 2015-08-12 | 2021-08-10 | Bae Systems Information And Electronic Systems Integration Inc. | Generic probabilistic approximate computational inference model for streaming data processing |
JP6966439B2 (ja) * | 2015-11-20 | 2021-11-17 | ジェネテック インコーポレイテッド | メディア・ストリーミング |
US10884503B2 (en) * | 2015-12-07 | 2021-01-05 | Sri International | VPA with integrated object recognition and facial expression recognition |
US10410113B2 (en) * | 2016-01-14 | 2019-09-10 | Preferred Networks, Inc. | Time series data adaptation and sensor fusion systems, methods, and apparatus |
US9805255B2 (en) * | 2016-01-29 | 2017-10-31 | Conduent Business Services, Llc | Temporal fusion of multimodal data from multiple data acquisition systems to automatically recognize and classify an action |
US10799186B2 (en) * | 2016-02-12 | 2020-10-13 | Newton Howard | Detection of disease conditions and comorbidities |
US10402697B2 (en) * | 2016-08-01 | 2019-09-03 | Nvidia Corporation | Fusing multilayer and multimodal deep neural networks for video classification |
US11205103B2 (en) * | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10339421B2 (en) | 2017-03-30 | 2019-07-02 | Toyota Motor Engineering & Manufacturing North America, Inc. | RGB-D scene labeling with multimodal recurrent neural networks |
US20180300621A1 (en) | 2017-04-13 | 2018-10-18 | International Business Machines Corporation | Learning dependencies of performance metrics using recurrent neural networks |
US10431000B2 (en) | 2017-07-18 | 2019-10-01 | Sony Corporation | Robust mesh tracking and fusion by using part-based key frames and priori model |
US10664716B2 (en) * | 2017-07-19 | 2020-05-26 | Vispek Inc. | Portable substance analysis based on computer vision, spectroscopy, and artificial intelligence |
US10891539B1 (en) * | 2017-10-31 | 2021-01-12 | STA Group, Inc. | Evaluating content on social media networks |
CN108229662A (zh) | 2018-01-03 | 2018-06-29 | 华南理工大学 | 一种基于两阶段学习的多模态时间序列建模方法 |
US20190341025A1 (en) * | 2018-04-18 | 2019-11-07 | Sony Interactive Entertainment Inc. | Integrated understanding of user characteristics by multimodal processing |
CN108805087B (zh) | 2018-06-14 | 2021-06-15 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的时序语义融合关联判断子系统 |
CN108846375B (zh) | 2018-06-29 | 2019-06-18 | 山东大学 | 一种基于神经网络的多模态协同学习方法及装置 |
US10223586B1 (en) * | 2018-07-15 | 2019-03-05 | Cognigo Research Ltd. | Multi-modal electronic document classification |
CN109376896B (zh) | 2018-08-29 | 2022-05-20 | 国网重庆市电力公司南岸供电分公司 | 一种基于多模融合的配电网短期负荷预测方法 |
US11034357B2 (en) * | 2018-09-14 | 2021-06-15 | Honda Motor Co., Ltd. | Scene classification prediction |
US10482334B1 (en) * | 2018-09-17 | 2019-11-19 | Honda Motor Co., Ltd. | Driver behavior recognition |
US10860873B2 (en) * | 2018-09-17 | 2020-12-08 | Honda Motor Co., Ltd. | Driver behavior recognition and prediction |
US20210397926A1 (en) * | 2018-09-29 | 2021-12-23 | VII Philip Alvelda | Data representations and architectures, systems, and methods for multi-sensory fusion, computing, and cross-domain generalization |
US20200175148A1 (en) * | 2018-12-04 | 2020-06-04 | George Mason University | Collaborative context-aware visual authentication question protocol |
CN109598387A (zh) | 2018-12-14 | 2019-04-09 | 华东师范大学 | 基于双向跨模态注意力网络模型的股价预测方法及系统 |
CN110021165A (zh) | 2019-03-18 | 2019-07-16 | 浙江工业大学 | 一种基于Autoencoder-LSTM融合模型的交通流预测方法 |
US11568315B2 (en) * | 2019-03-22 | 2023-01-31 | Royal Bank Of Canada | Systems and methods for learning user representations for open vocabulary data sets |
US11862145B2 (en) * | 2019-04-20 | 2024-01-02 | Behavioral Signal Technologies, Inc. | Deep hierarchical fusion for machine intelligence applications |
US11915123B2 (en) | 2019-11-14 | 2024-02-27 | International Business Machines Corporation | Fusing multimodal data using recurrent neural networks |
JP2023050146A (ja) | 2021-09-29 | 2023-04-10 | Ntn株式会社 | スクロールコンプレッサの環状シール部材 |
-
2019
- 2019-11-14 US US16/683,649 patent/US11915123B2/en active Active
-
2020
- 2020-11-10 GB GB2208680.5A patent/GB2604552A/en active Pending
- 2020-11-10 WO PCT/IB2020/060577 patent/WO2021094920A1/en active Application Filing
- 2020-11-10 CN CN202080079712.0A patent/CN114730383A/zh active Pending
- 2020-11-10 AU AU2020385264A patent/AU2020385264B2/en active Active
- 2020-11-10 JP JP2022526694A patent/JP2023501469A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
GB202208680D0 (en) | 2022-07-27 |
US20210150315A1 (en) | 2021-05-20 |
GB2604552A (en) | 2022-09-07 |
WO2021094920A1 (en) | 2021-05-20 |
US11915123B2 (en) | 2024-02-27 |
AU2020385264B2 (en) | 2023-12-14 |
CN114730383A (zh) | 2022-07-08 |
AU2020385264A1 (en) | 2022-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023501469A (ja) | リカレント・ニューラル・ネットワークを用いたマルチモーダル・データの融合 | |
US11455473B2 (en) | Vector representation based on context | |
US20200380017A1 (en) | Automatic feature learning from a relational database for predictive modelling | |
US20220083906A1 (en) | Federated learning technique for applied machine learning | |
US20200394542A1 (en) | Automatic visualization and explanation of feature learning output from a relational database for predictive modelling | |
US10885332B2 (en) | Data labeling for deep-learning models | |
US10956816B2 (en) | Enhancing rating prediction using reviews | |
CN115461724A (zh) | 应用的多对象优化 | |
JP2023526579A (ja) | 強化学習を用いた教師なしテキスト要約 | |
US10671928B2 (en) | Adaptive analytical modeling tool | |
CN113557534A (zh) | 深度森林模型开发和训练 | |
JP2023537082A (ja) | 機械学習パイプラインの自動選択を最適化するためのメタ学習の活用 | |
JP2023510241A (ja) | 仮想エージェント対話システムの会話ログの検索方法、システム、プログラム | |
US11620334B2 (en) | Commercial video summaries using crowd annotation | |
US11681501B2 (en) | Artificial intelligence enabled open source project enabler and recommendation platform | |
US11556558B2 (en) | Insight expansion in smart data retention systems | |
US20220207384A1 (en) | Extracting Facts from Unstructured Text | |
US11734602B2 (en) | Methods and systems for automated feature generation utilizing formula semantification | |
US20220083876A1 (en) | Shiftleft topology construction and information augmentation using machine learning | |
US20220188674A1 (en) | Machine learning classifiers prediction confidence and explanation | |
US11288322B2 (en) | Conversational agents over domain structured knowledge | |
US11455467B2 (en) | Relation extraction using full dependency forests | |
US11645110B2 (en) | Intelligent generation and organization of user manuals | |
US10902046B2 (en) | Breaking down a high-level business problem statement in a natural language and generating a solution from a catalog of assets | |
WO2022194086A1 (en) | A neuro-symbolic approach for entity linking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221220 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230424 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240319 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240419 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20240419 |