JP2023501469A

JP2023501469A - リカレント・ニューラル・ネットワークを用いたマルチモーダル・データの融合

Info

Publication number: JP2023501469A
Application number: JP2022526694A
Authority: JP
Inventors: ダン、スアン－ホン; シャー、サイド、ユーサフ; ゼルフォス、ペトロス; グレコ、ナンシー、アン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-11-14
Filing date: 2020-11-10
Publication date: 2023-01-18
Also published as: GB202208680D0; US20210150315A1; GB2604552A; WO2021094920A1; US11915123B2; AU2020385264B2; CN114730383A; AU2020385264A1

Abstract

実施形態は、深層学習技術を利用してモダリティにまたがってデータを融合するためのシステム、プログラム製品、および方法に関する。第１のモダリティを有する第１のデータ・セットおよび第２のモダリティを有する第２のデータ・セットを含むマルチモーダル・データ・セットが受け取られ、第２のモダリティは第１のモダリティとは異なる。第１および第２のデータ・セットが処理され、この処理は、第１のデータ・セットを１つまたは複数の第１のベクトルへとエンコードすることと、第２のデータ・セットを１つまたは複数の第２のベクトルへとエンコードすることとを含む。処理されたマルチモーダル・データ・セットが分析され、第１および第２のモダリティからのエンコードされた特徴が反復的かつ非同期的に融合される。融合されたモダリティは、相関する時間的挙動を示す第１および第２のデータ・セットからの組み合わせられたベクトルを含む。そして、融合されたベクトルが出力データとして返される。

Description

本実施形態は、２つ以上のモダリティにまたがってデータを融合するように構成される人工知能プラットフォームに関する。より詳細には、実施形態は、数値の時系列データを表す少なくとも１つのモダリティと、タイム・スタンプ付きのテキスト・データを表す少なくとも１つのモダリティとを有するマルチモーダル・データ・セットが与えられた場合に、時間と共に進行する数値の時系列データのパフォーマンスおよび挙動と強く相関するテキスト特徴のサブセットを自動的に発見することに関する。

ほぼ全ての分野に関するデータが、様々なソースから様々なフォーマットおよびモダリティで生じている。近年の深層学習技術は、複数のモダリティおよびフォーマットからの情報を活用して、画像キャプショニング、医療診断、治療勧告などの様々なタスクを実行するためのモデルを作成する。複数のモダリティからのデータを融合する方法に関する様々な技術が文献で提案されている。

３つの一般的な融合技術は、（ａ）初期融合（Early fusion）（データ特徴レベル）、（ｂ）後期融合（Late fusion）（決定レベル）、および（ｃ）中間融合（Intermediate fusion）（（ａ）－（ｂ）間のトレードオフ）である。融合モデルの大部分では、所与の目的で複数のモダリティにまたがって有用な特徴を抽出するために、異なるモダリティからのデータをタイム・スタンプまたは間隔単位で適切に対応付ける（align）必要がある。データの粒度、サンプリング、またはデータの性質により、全てのモダリティを対応付けることは実現不可能であり得、これはまた、モダリティを適切に対応付けるために、モダリティに関する事前知識があることを前提としている。したがって、当技術分野では、上記の問題に対処する必要がある。

第１の態様から見ると、本発明は、メモリに動作可能に結合されたプロセッサと、プロセッサと通信し、深層学習技術を利用してモダリティにまたがってデータを融合するための機械学習（ＭＬ）ツールを有する人工知能（ＡＩ）プラットフォームと、を含み、ツールは、第１のデータ・セットに動作可能に結合された第１のデータ・フィード・マネージャであって、第１のデータ・セットは第１のデータ・フォーマットの第１のモダリティを有する、第１のデータ・フィード・マネージャと、第２のデータ・セットに動作可能に結合された第２のデータ・フィード・マネージャであって、第２のデータ・セットは第２のデータ・フォーマットの第２のモダリティを有し、第２のモダリティは第１のモダリティとは異なる、第２のデータ・フィード・マネージャと、を含み、第１のデータ・フィード・マネージャは、第１のデータ・セットを第１のベクトルのセットへとエンコードし、第２のデータ・フィード・マネージャは、第２のデータ・セットを第２のベクトルのセットへとエンコードし、ツールは、第１および第２のデータ・フィード・マネージャに動作可能に結合された分析器であって、分析器は、人工リカレント・ニューラル・ネットワーク（ＲＮＮ）を活用して、エンコードされた第１および第２のデータ・セットを分析し、分析は、第１および第２のデータ・モダリティからのエンコードされた特徴を反復的かつ非同期的に融合することを含み、融合することは、相関する時間的挙動を示す第１および第２のデータ・セットからのベクトルを組み合わせることを含む、分析器を含み、融合されたベクトルは出力データとして返される、コンピュータ・システムを提供する。

さらなる態様から見ると、本発明は、深層学習技術を利用してモダリティにまたがってデータを融合するためのコンピュータ・プログラム製品であって、コンピュータ・プログラム製品は、プログラム・コードを具現化したコンピュータ可読記憶媒体を含み、プログラム・コードは、プロセッサによって実行可能であり、マルチモーダル・データ・セットを受け取ることであって、マルチモーダル・データ・セットは、第１のモダリティを有する第１のデータ・セットおよび第２のモダリティを有する第２のデータ・セットを含む２つ以上のモダリティからの異なるフォーマットのデータを含む、受け取ることと、第１のデータ・セットを１つまたは複数の第１のベクトルへとエンコードすることと、第２のデータ・セットを１つまたは複数の第２のベクトルへとエンコードすることとを含む、第１および第２のデータ・セットを別々に処理することと、処理されたマルチモーダル・データ・セットを分析することであって、分析することは、第１および第２のデータ・モダリティからのエンコードされた特徴を反復的かつ非同期的に融合することを含み、モダリティを融合することは、相関する時間的挙動を示す第１および第２のデータ・セットからのベクトルを組み合わせることを含む、分析することと、融合されたベクトルを出力データとして返すことと、を行うためのものである、コンピュータ・プログラム製品を提供する。

さらなる態様から見ると、本発明は、コンピューティング・デバイスによって、マルチモーダル・データ・セットを受け取ることであって、マルチモーダル・データ・セットは、第１のモダリティを有する第１のデータ・セットおよび第２のモダリティを有する第２のデータ・セットを含む２つ以上のモダリティからの異なるフォーマットのデータを含む、受け取ることと、第１のデータ・セットを１つまたは複数の第１のベクトルへとエンコードすることと、第２のデータ・セットを１つまたは複数の第２のベクトルへとエンコードすることとを含む、第１および第２のデータ・セットを別々に処理することと、処理されたマルチモーダル・データ・セットを分析することであって、分析することは、第１および第２のデータ・モダリティからのエンコードされた特徴を反復的かつ非同期的に融合することを含み、融合することは、相関する時間的挙動を示す第１および第２のデータ・セットからのベクトルを組み合わせることを含む、分析することと、融合されたベクトルを出力データとして返すことと、を含む、方法を提供する。

さらなる態様から見ると、本発明は、深層学習技術を利用してモダリティにまたがってデータを融合するためのコンピュータ・プログラム製品であって、処理回路によって読み取り可能であり、本発明のステップを実行するための方法を実行するための、処理回路によって実行するための命令を記憶するコンピュータ可読記憶媒体を備える、コンピュータ・プログラム製品を提供する。

さらなる態様から見ると、本発明は、コンピュータ可読媒体に記憶され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、上記プログラムがコンピュータ上で実行された場合に、本発明のステップを実行するためのソフトウェア・コード部分を含む、コンピュータ・プログラムを提供する。

実施形態は、人工知能プラットフォームを利用してモダリティにまたがってデータを融合することによって、テキスト・ベースのデータと数値の時系列データとの相関関係を特定するためのシステム、コンピュータ・プログラム製品、および方法を含む。

一態様では、人工知能（ＡＩ）プラットフォームをサポートするためのコンピュータ・システムが提供される。図示のように、プロセッサはメモリに動作可能に結合され、ＡＩプラットフォームと通信する。ＡＩプラットフォームには、深層学習技術を利用してモダリティにまたがってデータを融合するためのツールが提供される。ツールは、第１のデータ・フィード・マネージャ、第２のデータ・フィード・マネージャ、および分析器を含む。第１のデータ・フィード・マネージャは第１のデータ・セットに動作可能に結合され、第１のデータ・セットは第１のデータ・フォーマットの第１のモダリティを表す。第２のデータ・フィード・マネージャは第２のデータ・セットに動作可能に結合され、第２のデータ・セットは第２のデータ・フォーマットの第２のモダリティを表す。第１および第２のデータ・モダリティは異なる。第１のデータ・フィード・マネージャは、第１のデータ・セットを第１のベクトルのセットへとエンコードするように機能する。第２のデータ・フィード・マネージャは、第２のデータ・セットを第２のベクトルのセットへとエンコードするように機能する。分析器は、第１および第２のデータ・フィード・マネージャの両方に動作可能に結合され、人工リカレント・ニューラル・ネットワークを活用して、エンコードされた第１および第２のデータ・セットを分析するように機能する。分析器は、第１および第２のデータ・モダリティからのエンコードされた特徴を反復的かつ非同期的に融合し、融合することは、相関する時間的挙動を示す第１および第２のデータ・セットからのベクトルを組み合わせる。そして、融合されたベクトルが出力データとして返される。

他の態様では、深層学習技術を利用して２つ以上のモダリティにまたがってデータを融合するためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、プロセッサによって実行可能なプログラム・コードを具現化したコンピュータ可読記憶媒体を含む。２つ以上のデータ・セットを受け取るためのプログラム・コードが提供され、データ・セットのそれぞれは、第１のモダリティを有する第１のデータ・セットおよび第２のモダリティを有する第２のデータ・セットを含む異なるデータ・モダリティを表す。プログラム・コードは、第１および第２のデータ・セットを別々に処理する。第１のデータ・セットは１つまたは複数の第１のベクトルへとエンコードされ、第２のデータ・セットは１つまたは複数の第２のベクトルへとエンコードされる。処理されたマルチモーダル・データ・セットが分析され、第１および第２のモダリティからのエンコードされた特徴が反復的かつ非同期的に融合される。融合されたモダリティは、相関する時間的挙動を示す第１および第２のデータ・セットからの組み合わせられたベクトルを含む。そして、プログラム・コードは、融合されたベクトルを出力データとして返す。

さらに他の態様では、深層学習技術を利用して２つ以上のモダリティにまたがってデータを融合するための方法が提供される。第１のモダリティを有する第１のデータ・セットおよび第２のモダリティを有する第２のデータ・セットを含むマルチモーダル・データ・セットが受け取られる。第１のモダリティは第２のモダリティとは異なる。第１および第２のデータ・セットが処理され、この処理は、第１のデータ・セットを１つまたは複数の第１のベクトルへとエンコードすることと、第２のデータ・セットを１つまたは複数の第２のベクトルへとエンコードすることとを含む。処理されたマルチモーダル・データ・セットが分析され、第１および第２のモダリティからのエンコードされた特徴が反復的かつ非同期的に融合される。融合されたモダリティは、相関する時間的挙動を示す第１および第２のデータ・セットからの組み合わせられたベクトルを含む。そして、融合されたベクトルが出力データとして返される。

これらおよび他の特徴および利点は、添付の図面と併せて、現在好ましい実施形態の以下の詳細な説明から明らかになろう。

本明細書で参照される図面は、本明細書の一部を形成する。図面に示す特徴は、特に明記していない限り、全ての実施形態ではなく、いくつかの実施形態のみを例示することを意図している。

ニューラル・ネットワークのアーキテクチャを示す図である。図１に示したニューラル・ネットワーク・アーキテクチャに組み込まれたＡｓｙｎｃＬＳＴＭのメモリ・セルを示す図である。リカレント・ニューラル・ネットワークを使用したマルチモーダル・データからの融合を示すフローチャートである。マルチモーダル・データの融合をサポートするための統合された人工知能プラットフォームを有するコンピュータ・システムを示すシステム図である。金融市場に適用された図１のニューラル・ネットワーク・アーキテクチャを示すブロック図である。図４で図示および説明した人工知能プラットフォーム・ツールおよびそれらに関連するアプリケーション・プログラム・インターフェースを示すブロック図である。図１～図６に関して上記で説明したシステムおよび処理を実装するための、クラウド・ベースのサポート・システムのコンピュータ・システム／サーバの例を示すブロック図である。クラウド・コンピュータ環境を示すブロック図である。クラウド・コンピューティング環境によって提供される機能的抽象化モデル・レイヤのセットを示すブロック図である。

本明細書で概略的に説明および図示している本実施形態のコンポーネントは、多種多様な異なる構成で配置および設計され得ることは容易に理解されよう。したがって、図に提示した本実施形態の装置、システム、方法、およびコンピュータ・プログラム製品の実施形態の以下の詳細な説明は、特許請求する実施形態の範囲を限定することを意図したものではなく、選択した実施形態を表すものにすぎない。

本明細書全体を通じた「選択した実施形態（select embodiment）」、「１つの実施形態（one embodiment）」、または「一実施形態（an embodiment）」への言及は、その実施形態に関連して説明する特定の特徴、構造、または特性が少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書全体における様々な場所での「選択した実施形態」、「１つの実施形態において」、または「一実施形態において」という句の出現は、必ずしも同じ実施形態を指すとは限らない。

例示した実施形態は、図面を参照することによって十分に理解され、図面全体を通して同様の部分を同様の番号で示す。以下の説明は単なる例を意図しており、本明細書で特許請求する実施形態と一致するデバイス、システム、および処理の特定の選択した実施形態を単に例示している。

人工知能（ＡＩ）は、人間に関係するコンピュータおよびコンピュータ動作に向けたコンピュータ・サイエンスの分野に関連している。ＡＩは、機械が情報に基づいて意思決定を行うことにより、所与のトピックで成功する可能性を最大化することができる場合の知能を指す。より具体的には、ＡＩはデータ・セットから、問題を解決し、関連性のある推奨を提供するように学習することができる。たとえば、人工知能コンピュータ・システムの分野では、自然言語システム（たとえば、ＩＢＭ（Ｒ）のＷａｔｓｏｎ（Ｒ）人工知能コンピュータ・システム、または他の自然言語質問応答システムなど）は、システムが獲得した知識に基づいて自然言語を処理する。自然言語を処理するために、システムはデータベースまたは知識のコーパスから得られたデータで訓練され得るが、得られた結果は様々な理由で誤っており、または不正確になり得る。ＩＢＭ（Ｒ）およびＩＢＭ（Ｒ）のＷａｔｓｏｎ（Ｒ）は、世界中の多くの管轄区域で登録されたインターナショナル・ビジネスマシーン・コーポレーションの商標である）。

ＡＩのサブセットである機械学習（ＭＬ：machine learning）は、アルゴリズムおよび対応するニューラル・ネットワークを利用して、データから学習し、このデータに基づいて先見性を生み出す。より具体的には、ＭＬは、明示的にプログラムされていないタスクを実行することにより学習行動を実演することができるニューラル・ネットワークの作成を通じたＡＩの適用である。深層学習は、システムが前の層の出力に基づいて複数の選択肢の層を使用することによって複雑なタスクを遂行し、ますます賢く、より抽象的な結論を生み出すことができるニューラル・ネットワークＭＬの一種である。

深層学習は、ニューラル・ネットワークを連続した層に組み込んでデータから反復的に学習する機械学習の方法である。ニューラル・ネットワークは、神経系が機能する方法のモデルである。基本単位はニューロンと呼ばれ、ニューロンは典型的には層へと編成される。ニューラル・ネットワークは、ニューロンの抽象的なバージョンのような多数の相互接続された処理ユニットをシミュレートすることによって機能する。ニューラル・ネットワークには典型的には３つの部分があり、これには、入力フィールドを表すユニットを有する入力層、１つまたは複数の隠れ層、およびターゲット・フィールドを表す１つまたは複数のユニットを有する出力層が含まれる。ユニットは様々な接続強度または重みで接続される。入力データは最初の層に提示され、各ニューロンから次の層の全てのニューロンに値が伝播される。基本的なレベルでは、ニューラル・ネットワークの各層は、出力および入力に動作可能に結合された１つまたは複数の作用素または関数を含む。最後の隠れ層の作用素または関数からの出力を、本明細書では活性化と呼ぶ。最終的に、出力層から結果が提供される。深層学習の複雑なニューラル・ネットワークは、人間の脳の機能の仕方をエミュレートするように設計されているので、定義が不十分な抽象概念および問題をサポートするようにコンピュータを訓練することができる。ニューラル・ネットワークおよび深層学習は、画像認識、音声、およびコンピュータ・ビジョンの応用例で使用されることが多い。

ＡＩ、特に深層学習は、自動運転、機械翻訳、および音声認識などの多くの領域で大きな進歩を遂げ、我々の社会に多大な影響を与えている。リカレント・ニューラル・ネットワーク（ＲＮＮ）は、自然言語処理（ＮＬＰ：natural language processing）で使用されている人工ニューラル・ネットワークの一種である。ＲＮＮは、データの順次的な特性を認識し、パターンを使用して結果を予測するように設計されている。本明細書で図示および説明するように、ＲＮＮは、データを短期記憶セルおよび長期記憶セルに分類するように変更された長短期記憶（ＬＳＴＭ：Long Short-Term Memory）ユニットで構築される。以下で詳細に説明する変更されたＬＳＴＭを非同期ＲＮＮ（ＡｓｙｎｃＬＳＴＭ：Asynchronous RNN）と呼び、ＡｓｙｎｃＬＳＴＭは、時系列データ・モダリティおよびテキスト・データ・モダリティなどの複数の異なるデータ・モダリティからのエンコードされた特徴を反復的に融合する。非同期ＲＮＮからの出力は、時系列の挙動の説明を含む。

図１を参照すると、ニューラル・ネットワーク・アーキテクチャの実例としてダイアグラム（１００）が提供されている。図示のように、モデルは２つの入力フィードからデータを受け取り、これらを本明細書では、第１のフィード（１１０）、たとえば、ｆｅｅｄ_０、および第２のフィード（１２０）、たとえば、ｆｅｅｄ_１として示す。第１のフィード（１１０）に投入されるデータは第１のフィード・モダリティを表し、第２のフィード（１２０）に投入されるデータは第２のモダリティを表し、第１および第２のモダリティは異なる。説明の目的で、第１のフィード（１１０）はテキスト・データを含み、第２のフィード（１２０）は時系列データを含むが、フィードのモダリティの数は限定と見なされるべきではない。

図示のように、第１のフィード（１１０）は、自然言語処理（ＮＬＰ）用に構成されるテキスト・モジュール（１１２）に動作可能に結合される。テキスト・モジュール（１１２）は、第１のフィード（１１０）に存在する単語間の意味的依存関係を学習し、それらを各ドキュメントの表現ベクトル（representative vector）へと集約し、または１つの実施形態では、各ニュース・ストーリーの表現ベクトルへと集約する。各期間ｔでのテキスト・モジュール（１１２）への入力は、ニュース・ストーリーまたは記事（article）のシーケンスｎである。転じて、各ニュース・ストーリーまたはニュース記事もまた単語のシーケンスであり、個々に分析されてエンコードされる。ｊ番目のニュース・ストーリーは

のシーケンスであり、Ｋはシーケンスの長さであり、

はシーケンス内のｌ番目（ｌ＝１，．．．，Ｋ）の単語のベクトル表現であり、Ｖは語彙サイズである。埋め込み層を使用して各ベクトル

を低次元の密ベクトル

に変換し、これは線形変換

を用いて行われ、ただし、

である。この変換により、単語の次元が語彙サイズＶからｄ_ｗに削減され、ｄ_ｗ≪Ｖである。テキスト・モジュール（１１２）からの出力として、本明細書では、表現ベクトルのセット（１１４）を示している。各ベクトルは、ニュース記事またはドキュメントなどのテキスト・ベースのドキュメントを表す。１つの実施形態では、表現ベクトル（１１４）は、各ベクトルに関連付けられた対応するタイム・スタンプに基づいて順番に並べられる。たとえば、１つの実施形態では、各ベクトルは、記事の公開またはリリースを識別する対応するタイム・スタンプを有するニュース記事である。

それぞれが１つのテキスト記事またはドキュメント（１１０）に関するものである、埋め込まれた単語のシーケンス｛ｅ_１，ｅ_２，．．．ｅ_Ｋ｝がテキスト・モジュール（１１２）に供給され、テキスト・モジュール（１１２）は、テキスト記事またはドキュメント（１１０）に関するエンコードされた文脈的特徴または表現ベクトルを生成するように学習する単層または多層ＬＳＴＭ（またはＢｉ－ＬＳＴＭ）ネットワーク（１１２）によって実装される。ネットワーク（１１２）は、並べられた単語間の文脈的依存関係を調べて、最良のドキュメント表現を学習する。ＬＳＴＭユニットの主要部分の１つは、時間の経過に伴う入力シーケンスの重要な情報を保存するメモリ・セル、およびセルに出入りする情報の流れを調節する非線形のゲーティング・ユニットである。入力シーケンス内の各ステップｌにおいて、ＬＳＴＭは、入力単語埋め込みｅ_ｌ、その前のセル状態

および前の出力ベクトル

を取り込んで、メモリ・セル

を更新し、その後、ｅ_ｌの単語表現

を出力する。両方とも

であり、ｄ_ｈは隠れニューロンの数である。したがって、ＬＳＴＭは再帰関数ｆを次のように表す。ｌ＝１，．．．，Ｋに対して、

メモリ・セル

が内部で更新される。このネットワーク・コンポーネントは、期間ｔに収集された全てのニュース・ストーリーに適用され、ベクトルのシーケンスｎｅｗｓ_ｔ＝｛ｓ_１，ｓ_２，．．．ｓ_ｎ｝を出力し、ｎはタイム・スタンプｔで収集されたニュース・ストーリーの総数である。ニュース・ストーリーなどのテキスト記事、または関連する単語のシーケンスに対して、各ベクトルが表現される。

ＡｓｙｎｃＬＳＴＭ（１３０）は、様々な長さの複数の入力シーケンスを管理するように構成される。本明細書に示すように、ＡｓｙｎｃＬＳＴＭ（１３０）は、第１の入力ｆｅｅｄ_０（１１０）からの埋め込まれたテキスト・ドキュメント（たとえば、ニュース・ストーリー）のシーケンス向けの入力（１１６）と、第２の入力ｆｅｅｄ_１（１２０）からの数値の時系列データの入力（１２２）とを含む、２つのモダリティからの入力を活用する。１つの実施形態では、第１の入力ｆｅｅｄ_０（１１０）は、ｎｅｗｓ_ｔ＝｛ｓ_１，ｓ_２，．．．ｓ_ｎ｝として表現ベクトルへとエンコードされたニュース・ストーリー向けのものである。ＡｓｙｎｃＬＳＴＭ（１３０）は、異なるデータ・モダリティからのエンコードされた特徴を非同期的な方法で反復的に融合する。ＡｓｙｎｃＬＳＴＭ（１３０）は、時系列をモデル化しながら、テキスト・モダリティと相互に関係付ける複数のステップを実行して、時系列で学習されたパターンに無関係なニュース・ベクトルを徐々に除外しつつ、時系列データの現在の挙動状態またはパフォーマンスとよく対応付くニュース・ベクトルを保持する。テキスト・データからのエンコード結果（１１４）および時系列データからのエンコード結果（１３２）を連結層（１５０）で組み合わせて、エンコード結果を単一のベクトルに集約し、多層パーセプトロン・ネットワーク（１６０）を通過させ、多層パーセプトロン・ネットワーク（１６０）は、定義された期間の時系列データの挙動のラベルの形態で出力（１７０）を生成する。

図２を参照すると、ＡｓｙｎｃＬＳＴＭのメモリ・セル（２８０）の実例としてダイアグラム（２００）が提供されている。図１で説明したように、ＡｓｙｎｃＬＳＴＭは、本明細書ではテキスト・データとも呼ぶ、第１の入力ｆｅｅｄ_０（１１０）からの埋め込まれたテキスト・ストーリーのシーケンスと、第２の入力ｆｅｅｄ_１（１２０）からの数値の時系列データの入力（１２２）とを含む、２つのデータのモダリティを受け取る。テキストおよび時系列のモダリティは異なる周波数でサンプリングされているので、それらのシーケンスの長さは異なる。さらに、テキストは一般的なものであり、モデルにノイズをもたらし得る。ＡｓｙｎｃＬＳＴＭは、様々な長さの複数の入力シーケンスを処理するように設計および構成される。本明細書で図示および説明しているモデルは、テキスト表現ベクトルと時系列の時間ステップとを相互に関係付ける複数のステップを用いて、２つのデータ・モダリティ間の相互の影響を活用する。ＡｓｙｎｃＬＳＴＭは、時系列シーケンスを進むにつれて、時系列で学習されたパターンに無関係なニュース・ベクトルを徐々に除外し、時系列シーケンスに非常によく対応付くニュース・ストーリーへのアテンションの確率質量を取得する。

メモリ・セル（２８０）への入力は、第２の入力ｆｅｅｄ_１からの時系列データ（２２０）と、第１の入力ｆｅｅｄ_０からのテキスト・データ（２１０）とを含む。時系列データに関して、各時点ｔでの入力サンプル（２２０）は、

と表されるｍ個の値のシーケンス（２２２）、および前の隠れ状態

（２２４）である。同様に、ｎｅｗｓ_ｔのシーケンスなどの入力サンプル（２１２）は、｛ｓ_１，ｓ_２，．．．ｓ_ｎ｝と表され、また、前のセルの状態

（２１４）である。ネットワークは、以下のようにニュース表現シーケンスの平均状態に適用される２つの別々の単層ニューラル・ネットワークを使用して、初期セル状態

および初期隠れ状態

を初期化することから始まる。

ここで、

であり、

であり、ｄ_ｓはＡｓｙｎｃＬＳＴＭ内のニューラル・ユニットの数であり、ネットワーク・パラメータはモデル全体で一緒に訓練される。

ＡｓｙｎｃＬＳＴＭは、テキスト・ドメインで学習された情報を、実行する全てのステップに組み込んで、時系列について選択的に理由付け（reasoning）を行う。系列シーケンス（２２０）の各時間ステップｌにおいて、ＡｓｙｎｃＬＳＴＭはテキスト表現シーケンスを検索し、それらに確率質量を割り当て、この割り当ては、最新の隠れ状態（２２４）でキャプチャされた時系列シーケンスの学習された信号との対応付け（alignment）を目的としている。１つの実施形態では、各ニュース表現ベクトル（２１２）に関連する確率質量は、ｌ番目のタイム・スタンプにおいて以下のように計算される。ｌ＝１，．．．，ｍに対して、

ここで、ａ_ｌはアライメント・ベクトルであり、ｐ_ｌ（２３０）は確率質量分布である。Ｗ_ａ、Ｕ_ａ、ｂ_ａ、およびｖ_ａは、ニューロンを接続し、調整の対象となる重みである。重みは次のように定義され、すなわち、

および

である。パラメータｖ_ａは、各アライメント・ベクトルａ_ｌ，ｊをスカラーに変換し、ｓｏｆｔｍａｘ関数などの関数を通過させて、出力での確率質量を確保するように学習される。係数（２３０）は、ニュース表現シーケンス（２１２）にわたる確率質量分布である。それらの確率質量によってスケーリングされたこれらのベクトルからの情報は、適応的なコンテキスト・ベクトルｖ_ｌ（２４０）を次のように生成することにより、時系列にわたる学習処理に影響を与える。

ここで、ｖ_０はゼロ・ベクトルとして初期化される。各期間ｔにおいて、係数（２３０）の最後の状態は、時系列モダリティのパフォーマンス／挙動に関するテキスト・モダリティの関連情報または相関情報をキャプチャする。

図示のように、ＡｓｙｎｃＬＳＴＭは、関連するニュース・ストーリーの現在の表現と、前のコンテキスト・ベクトルｖ_ｌ－１（２４２）との平均情報として、最新のコンテキスト・ベクトルを構築する。テキスト・ニュースから集約されたベクトルは、ｇａｔｅ_０（２５２）、ｇａｔｅ_１（２５４）、ｇａｔｅ_２（２５６）、およびｇａｔｅ_３（２５８）を含む全てのゲートへの情報フローを調節する。ｇａｔｅ_０（２５２）で利用される関数ｆ_ｌは、時系列データの現在の状態とテキスト・ニュースとの間のアライメント・ベクトルであり、

と定義される。ｇａｔｅ_１（２５４）で利用される関数ｉ_ｌは、

と定義される。ｇａｔｅ_２（２５６）で利用される関数

は、

と定義される。ｇａｔｅ_３（２５８）で利用される関数ｏ_ｌは、

と定義される。各ゲートにおいて、Ｕはニューラル・モデルの重み行列を表し、時間の経過と共に学習される。次いで、現在のセル状態

（２６０）および隠れ状態

（２７０）が更新され、ＡｓｙｎｃＬＳＴＭの次のセルに入力として転送され、ここで、現在の状態は、

と定義され、隠れ状態は、

と定義される。隠れ状態は、時系列入力と、リカレント・ニューラル・ネットワーク（ＲＮＮ）メモリ・セルと、テキスト・ニュースからの関連情報とに基づいて時系列データの新しい状態を推測するニューラル関数である。第１の入力フィードに対応するモダリティなどのテキスト・ニュース・ドメインで学習された情報を、第２の入力フィードに対応する時系列モダリティをモデル化する際の全てのステップに緊密に統合することにより、ニューラル・ネットワークは、時系列データの進行に伴って第１の入力フィード内の関連データを発見する際の作業の負担を分散させる。

第１の入力フィードで発見された関連データは、第２の入力フィード内のパターンを学習するために利用される。ＡｓｙｎｃＬＳＴＭは、時系列を徐々に進むにつれて、第２の入力フィードで学習されたパターンと最も合致しない、第１の入力フィードからのデータを徐々に排除する。ニューラル・ネットワークは、最後の確率質量ベクトルｐ_ｍによってキャプチャされた第１の入力フィード内のデータのセットに収束し、そのベクトルのエントリを使用して、第１の入力フィードで表された個々のニュース・ストーリーの重要度を解釈する。

図３を参照すると、リカレント・ニューラル・ネットワークを使用したマルチモーダル・データの融合を説明するためのフロー・チャート（３００）が提供されている。２つのモダリティがデータ・フィードとして定義および構成され、これには、第１のモダリティの第１のデータ・フィードを確立すること（３０２）と、第２のモダリティの第２のデータ・フィードを確立すること（３０４）とが含まれる。図示および説明しているモダリティは、第１のデータ・フィードで受け取られたテキスト・データと、第２のデータ・フィードで受け取られた時系列データとを含む。１つの実施形態では、追加のまたは異なるモダリティが利用され得、したがって、本明細書で図示および説明しているモダリティは限定と見なされるべきではない。入力フィード（３０２）および（３０４）のそれぞれは、異なる長さを有し得る。第１のデータ・フィードのテキスト・データは、図２で図示および説明したように、ベクトルのシーケンスへとエンコードされる（３０６）。ステップ（３０６）におけるテキストのエンコードされたベクトルの数量は、テキスト・データのサンプリング・サイズに基づく。第２のデータ・フィードで表される時系列データは、ＡｓｙｎｃＬＳＴＭによって取り込まれ、長期的な依存関係を学習するために隠れ状態ベクトルへとエンコードされる（３０８）。ＡｓｙｎｃＬＳＴＭは、時系列モダリティをモデル化しながら、第１のデータ・フィードのテキスト・モダリティと相互に関係付ける複数のステップを実行し、無関係なデータを徐々に除外しつつ、時系列データの現在の挙動状態およびパフォーマンスと対応付くデータを保持する（３１０）。より具体的には、ステップ（３１０）でのフィルタリングは、時系列データとテキスト・データとを比較して、対応付け、すなわち、フィードで表されたデータの関係が存在するか否かを確認および実行することを含む。第１のデータ・フィードおよび第２のデータ・フィードからのエンコード結果は融合され、たとえば、組み合わせられ（３１２）、定義された時間間隔中の第２のデータ・フィードの挙動を解釈するかまたは別の方法で説明する、第１のデータ・フィードからのデータの対応付けを表す。融合されたデータ（３１２）、たとえば、融合されたベクトルを、本明細書ではモダリティ間データとも呼ぶ。融合されたデータ（３１２）は、第２の入力フィードからの時系列の挙動およびパフォーマンスと密接に対応付けられた第１の入力フィードからのテキスト・データを表す。結果的に、データ・モダリティにまたがったデータのサブセットの対応付けが確認され、出力データとして返される。

図４を参照すると、マルチモーダル・データの融合をサポートするための統合された人工知能プラットフォームを有するコンピュータ・システム（４００）の概略図が示されている。図示のように、ネットワーク接続（４０５）を介して複数のコンピューティング・デバイス（４８０）、（４８２）、（４８４）、（４８６）、（４８８）、および（４９０）と通信するサーバ（４１０）が提供される。サーバ（４１０）は、バス（４１４）を介してメモリ（４１６）と通信する処理ユニット（４１２）を有して構成される。サーバ（４１０）は、コンピューティング・デバイス（４８０）、（４８２）、（４８４）、（４８６）、（４８８）、および（４９０）のうちの１つまたは複数からネットワーク（４０５）を介して深層学習ニューラル・ネットワークをサポートするように構成される人工知能（ＡＩ）プラットフォーム（４５０）を有するものとして示している。より具体的には、コンピューティング・デバイス（４８０）、（４８２）、（４８４）、（４８６）、（４８８）、および（４９０）は、１つまたは複数の有線または無線あるいはその両方のデータ通信リンクを介して互いに通信し、また、他のデバイスまたはコンポーネントと通信し、各通信リンクは、ワイヤ、ルータ、スイッチ、送信機、受信機などのうちの１つまたは複数を含み得る。このネットワーク化された構成では、サーバ（４１０）およびコンピュータ・ネットワーク（４０５）は、通信の検出、認識、および解決を可能にする。サーバ（４１０）は、通信リンク（４０２）および（４０４）を介してコンピュータ・ネットワークと動作可能に通信する。リンク（４０２）および（４０４）は、有線または無線であり得る。サーバ（４１０）の他の実施形態は、本明細書に示した以外のコンポーネント、システム、サブシステム、またはデバイス、あるいはそれらの組み合わせと共に使用され得る。

ＡＩプラットフォーム（４５０）は、本明細書では、深層学習技術を利用して２つ以上のモダリティにまたがってデータを融合するためのツールを有して構成されるものとして示している。より具体的には、ツールは、異なるデータ・モダリティからのエンコードされた特徴を非同期的な方法で反復的に融合する。本明細書に示すツールは、第１のデータ・フィード・マネージャ（４５２）および第２のデータ・フィード・マネージャ（４５４）を含む。第１のデータ・フィード・マネージャ（４５２）は、動作可能に結合されたデバイス（４８０）～（４９０）のうちの１つからリンク（４０２）を介して伝達される第１のデータ・フィードｆｅｅｄ_Ａ（４５２_Ａ）に動作可能に結合される。第１のデータ・フィードｆｅｅｄ_Ａ（４５２_Ａ）で表されるデータは、第１のモダリティを有する。同様に、第２のデータ・フィード・マネージャ（４５４）は、動作可能に結合されたデバイス（４８０）～（４９０）のうちの１つからリンク（４０２）を介して伝達される第２のデータ・フィードｆｅｅｄ_Ｂ（４５２_Ｂ）に動作可能に結合される。第２のデータ・フィードｆｅｅｄ_Ｂ（４５２_Ｂ）で表されるデータは、第２のモダリティを有する。第１および第２のモダリティは異なる。したがって、第１および第２のデータ・フィード・マネージャ、それぞれ、（４５２）および（４５４）は、ネットワーク接続（４０５）を介して複数のソースから収集される異種のデータ向けのものである。

第１および第２のデータ・フィード、それぞれ、（４５２_Ａ）および（４５２_Ｂ）の各々が、処理の対象となる。より具体的には、第１のデータ・フィード・マネージャ（４５２）は、ｆｅｅｄ_Ａ（４５２_Ａ）にエンコードまたはエンコード処理を施し、第２のデータ・フィード・マネージャ（４５４）は、ｆｅｅｄ_Ｂ（４５２_Ｂ）にエンコードまたはエンコード処理を施す。第１のフィード（４５２_Ａ）は第１のデータ・フィード・マネージャ（４５２）によって第１のベクトルのセット（４６２）へとエンコードされ、第２のフィード（４５２_Ｂ）は第２のデータ・フィード・マネージャ（４５４）によって第２のベクトルのセット（４６４）へとエンコードされる。テキスト・ベースのモダリティの場合、対応するデータ・フィード・マネージャは、単語間の意味的依存関係を学習し、対応するテキストを各入力テキスト・ドキュメントの表現ベクトルへと集約する。１つの実施形態では、エンコードおよび対応するエンコード処理は、並列に行われる。したがって、異なるデータ・モダリティを表す第１および第２のデータ・フィードには、対応するベクトルへのエンコードが施される。

図示のように、人工リカレント・ニューラル・ネットワーク（ＲＮＮ）分析器（４５６）は、第１および第２のフィード・マネージャ、それぞれ、（４５２）および（４５４）に動作可能に結合される。分析器は、エンコードされた第１のデータ・フィード・モダリティおよび第２のデータ・フィード・モダリティの両方をモデル化し、モダリティの一方または両方の挙動の説明を提供するように機能する。１つの実施形態では、ＲＮＮは、図１で図示および説明した非同期の長短期記憶（ＡｓｙｎｃＬＳＴＭ）である。分析器（４５６）は、第１および第２のエンコードされたデータ・セット、それぞれ、（４６２）および（４６４）を分析する。この分析は、第１および第２のデータ・モダリティからのエンコードされた特徴を反復的かつ非同期的に融合することを含み、融合することは、第１および第２のデータ・セットからのベクトルを組み合わせることを含み、この組み合わせは相関する時間的挙動を示す。

たとえば、１つの実施形態では、第１のデータ・フィードｆｅｅｄ_Ａ（４５２_Ａ）はタイム・スタンプ付きのテキスト・モダリティを表し、これはテキスト・ベースの記事、レポート、およびソーシャル・メディア・データ・フィードの形態であり得、第２のデータ・フィードｆｅｅｄ_Ｂ（４５２_Ｂ）は時系列データ・モダリティを表す。この例では、分析器（４５６）は時系列モダリティおよびテキスト・モダリティの両方をモデル化し、反復的かつ非同期的な融合によって、競争力のある予測精度を維持しながら、関連するニュース・ストーリーの簡潔なセットによる時系列の挙動の説明を提供する。分析器（４５６）による分析は、同じまたは異なるサンプリング周波数の少なくとも２つの時間的シーケンスからの情報を相互に関係付けるための探索を含む。融合することは、分析器（４５６）が、エンコードされた第２のデータ・セット（４６４）で確認されたパターンとは無関係な１つまたは複数の表現ベクトルを第１のデータ・フィード（４５２Ａ）から除外することを伴う。したがって、分析器（４５６）は、第１のデータ・フィードのモダリティから学習された意味情報を全ての時間ステップに直接組み込んで、第２のデータ・フィードの時系列データ・モダリティの挙動について理由付けを行えるようにして、これを可能にする。

本明細書に示すツールは、第１および第２のフィード・マネージャ、それぞれ、（４５２）および（４５４）、ならびに分析器（４５６）を含むが、これらに限定されない。ＡＩプラットフォーム（４５０）は、ネットワーク（４０５）を介してコンピューティング・デバイス（４８０）～（４９０）のうちの２つ以上から入力を受信し、本明細書ではコーパスまたは知識ベースとも呼ぶデータ・ソース（４７０）を活用して、ＲＮＮおよび他のデータに選択的にアクセスし得る。図示のように、データ・ソース（４７０）は、分析器（４５６）によって作成および管理される複数のデータ・セットおよび対応するＲＮＮを有するライブラリ（４７２）を用いて構成される。たとえば、本明細書に示すように、ライブラリ（４７２）は、ＲＮＮ_０（４７４）およびＲＮＮ_１（４７６）を含む２つのＲＮＮ、ならびに関連する第１および第２のデータ・セットを有するものとして示している。ＲＮＮ_０（４７４）は第１のデータ・セット（４７４_Ａ）および第２のデータ・セット（４７４_Ｂ）を含み、第１および第２のデータ・セットは異なるモダリティを有し、ＲＮＮ_１（４７６）は異なるモダリティを有する第１のデータ・セット（４７６_Ａ）および第２のデータ・セット（４７６_Ｂ）を含む。第１のデータ・セット（４７４_Ａ）および（４７６_Ａ）は第１のデータ・フィード・マネージャ（４５２）によってエンコードされ、第２のデータ・セット（４７４_Ｂ）および（４７６_Ｂ）は第２のデータ・フィード・マネージャ（４５４）によってエンコードされる。１つの実施形態では、第３のデータ・モダリティからなる第３のデータ・セットが、分析器（４５６）によってエンコードおよび管理され得る。追加のデータ・モダリティの数量は限定と見なされるべきではない。したがって、データ・セットおよび対応するニューラル・モデルは、サーバ（４１０）およびＡＩプラットフォーム（４５０）に動作可能に結合された知識ベース（４７０）に対してローカルなものとして示している。

分析器および対応するＲＮＮが、第２のデータ・フィードで表された所与の時系列を説明する関連するテキスト情報を第１のデータ・フィードから教師なしで発見することは当技術分野では理解される。以下は、ＲＮＮおよび対応するデータ探索の適用例である。金融市場のユースケースの場合、市場は楽観的または悲観的であると予測される。市場予測は、株式の調整後終値の２次微分を用いて計算される。第１のモダリティは、株式に関連するまたは株式を識別するテキスト・データであり、第２のモダリティは、株式の価格および一定期間にわたる価格の変化を対象とする時系列データである。

、

および

を３つの隣接する取引データの調整後終値とする。

である場合、ｔ＋１日の市場心理は楽観的である。

である場合、ｔ＋１の市場心理は悲観的である。

である場合、ｔ＋１の市場の動きは上昇である。

である場合、ｔ＋１の市場の動きは下落である。

他の例では、株式および金融ニュースからのマルチモダリティ・データを使用して金融市場のパフォーマンスを把握し、金融ニュース・データのシグナルが利用できる場合、金融市場のボラティリティを把握し、テキスト・ニュース・データの次の語句などの特定の部分が市場パフォーマンスに今後影響を及ぼすか否かを把握する。図５を参照すると、金融市場に適用された図１のニューラル・ネットワーク・アーキテクチャ（５２０）を説明するためのブロック図（５００）が提供されている。図示のように、四半期報告書が第１のフィード（５０２）で表され、ニュース記事が第２のフィード（５０４）で表される。四半期報告書およびニュース記事はどちらもテキスト・データであり、自然言語処理（ＮＬＰ）用に構成されるテキスト・モジュール（５１２）によって受け取られる。テキスト・モジュール（５１２）は、第１のフィード（５０２）および第２のフィード（５０４）に存在する単語間の意味的依存関係を学習し、それらを各ドキュメントの表現ベクトルへと集約し、または１つの実施形態では各ニュース・ストーリーの表現ベクトルへと集約する。各期間ｔでのテキスト・モジュール（５１２）への入力は、ニュース・ストーリーまたは記事のシーケンスｎである。各ニュース・ストーリーまたはニュース記事は個々に分析されてエンコードされる。同様に、第３のデータ・フィード（５０６）は、株式取引データの形態の時系列データである。第３のデータ・フィードは、動作可能に結合された非同期ＬＳＴＭ（ＡｓｙｎｃＬＳＴＭ）ネットワーク（５３０）によって受け取られ、ＡｓｙｎｃＬＳＴＭは、エンコードされた文脈的特徴を生成するように学習する。ニューラル・ネットワーク・アーキテクチャの残りの要素については、図１で図示および説明している。このアーキテクチャからの出力（５７４）は、株式の時系列の挙動およびパフォーマンス（５７２）に関連付けて最も関連性の高いニュース（５７０）をハイライトすることによる、ニュースのフィルタリングに向けたものである。より具体的には、ニュース（５７０）およびパフォーマンスの挙動（５７２）が出力（５７４）へと融合される。

ネットワーク（４０５）は、様々な実施形態では、ローカル・ネットワーク接続およびリモート接続を含み得、それによって、人工知能プラットフォーム（４５０）は、ローカルおよびグローバル、たとえば、インターネットを含む任意の規模の環境で動作し得る。さらに、ＡＩプラットフォーム（４５０）は、ネットワーク・アクセス可能なソースまたは構造化データ・ソースあるいはその両方から抽出された、またはそれらにおいて表現された様々な知識を利用できるようにするフロントエンド・システムとして機能する。このように、いくつかの処理がＡＩプラットフォーム（４５０）に入力し、ＡＩプラットフォーム（４５０）は、要求を受信し、それに応じて応答するための１つまたは複数の入力インターフェースまたはポータルも含む。

アプリケーション・プログラム・インターフェース（ＡＰＩ）は、１つまたは複数のコンピューティング環境で実行され得る２つ以上のアプリケーション間の、たとえば、呼び出しプロトコルなどのソフトウェア媒介として当技術分野では理解される。図４で図示および説明したＡＩプラットフォーム（４５０）に関して、ツール（４５２）～（４５６）のうちの１つまたは複数およびそれらに関連する機能をサポートするための１つまたは複数のＡＰＩが利用され得る。図６を参照すると、ツール（４５２）～（４５６）およびそれらに関連するＡＰＩを示すブロック図（６００）が提供されている。図示のように、複数のツールがＡＩプラットフォーム（６０５）に組み込まれ、ツールは、本明細書で（６５２）として示し、ＡＰＩ_０（６１２）に関連付けられた第１のデータ・フィード・マネージャ（４５２）と、本明細書で（６５４）として示し、ＡＰＩ_１（６１４）に関連付けられた第２のデータ・フィード・マネージャ（４５４）と、本明細書で（６５６）として示し、ＡＰＩ_２（６１６）に関連付けられた分析器（４５６）とを含むが、これらに限定されない。各ＡＰＩは、図４で説明した、それぞれに結合されたマネージャの機能をサポートして使用可能にし、１つまたは複数の言語およびインターフェース規格で実装され得る。ＡＰＩ_０（６１２）は、第１のモダリティを有する第１のデータ・フィードを処理およびエンコードする機能的サポートを提供し、ＡＰＩ_１（６１４）は、第１のモダリティとは異なる第２のモダリティを有する第２のデータ・フィードを処理およびエンコードする機能的サポートを提供し、ＡＰＩ_２（６１６）は、２つ以上のモダリティにまたがってデータを融合し、同じまたは異なるサンプリング周波数の少なくとも２つの時間的シーケンスからの情報を相互に関係付ける機能的サポートを提供する。

図示のように、ＡＰＩ（６１２）、（６１４）、および（６１６）のそれぞれはＡＰＩオーケストレータ（６７０）に動作可能に結合され、これは別名オーケストレーション層として知られており、別々のＡＰＩを一緒に透過的にスレッド化する抽象化層として機能することが当技術分野で理解される。１つの実施形態では、別々のＡＰＩの機能が結合され得、または組み合わせられ得る。そのため、本明細書に示すＡＰＩの構成は限定と見なされるべきではない。したがって、本明細書に示すように、ツールの機能は、それぞれのＡＰＩによって具現化またはサポートされ得る。

本明細書で図示および説明する実施形態は、リスクを最小化するために１つまたは複数のドメインにまたがる活動のオーケストレーションを提供するためのインテリジェントなコンピュータ・プラットフォームで使用するためのコンピュータ・システムの形態であり得る。ツール（４５２）～（４５６）およびそれらに関連する機能の態様は、単一の場所のコンピュータ・システム／サーバで具現化され得、または１つの実施形態では、コンピューティング・リソースを共有するクラウド・ベースのシステムで構成され得る。図７を参照すると、図１～図６に関して上記で説明したシステム、ツール、および処理を実装するための、クラウド・コンピューティング環境（７１０）における、以下ホスト（７０２）と呼ぶコンピュータ・システム／サーバ（７０２）の例を示すブロック図（７００）が提供されている。ホスト（７０２）は、他の多くの汎用または専用のコンピューティング・システム環境または構成で動作可能である。ホスト（７０２）での使用に適し得るよく知られているコンピューティング・システム、環境、または構成、あるいはそれらの組み合わせの例には、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドもしくはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサベースのシステム、セット・トップ・ボックス、プログラム可能な家庭用電化製品、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステム、デバイスのいずれかを含むファイル・システム（たとえば、分散ストレージ環境および分散クラウド・コンピューティング環境）、ならびにこれらの均等物が含まれるが、これらに限定されない。

ホスト（７０２）は、コンピュータ・システムによって実行されるプログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的なコンテキストで説明し得る。一般に、プログラム・モジュールには、特定のタスクを実行するかまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などが含まれ得る。ホスト（７０２）は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散クラウド・コンピューティング環境において実践され得る。分散クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカルおよびリモート両方のコンピュータ・システム記憶媒体に配置され得る。

図７に示すように、ホスト（７０２）は、汎用コンピューティング・デバイスの形態で示している。ホスト（７０２）のコンポーネントは、１つまたは複数のプロセッサまたは処理ユニット（７０４）、たとえば、ハードウェア・プロセッサと、システム・メモリ（７０６）と、システム・メモリ（７０６）を含む様々なシステム・コンポーネントをプロセッサ（７０４）に結合するバス（７０８）とを含み得るが、これらに限定されない。バス（７０８）は、メモリ・バスまたはメモリ・コントローラ、ペリフェラル・バス、アクセラレーテッド・グラフィックス・ポート、および様々なバス・アーキテクチャのいずれかを使用するプロセッサまたはローカル・バスを含む、いくつかのタイプのバス構造のいずれかの１つまたは複数を表す。限定ではなく例として、そのようなアーキテクチャには、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオ・エレクトロニクス規格協会（ＶＥＳＡ）ローカル・バス、および周辺機器相互接続（ＰＣＩ）バスが含まれる。ホスト（７０２）は、典型的には、様々なコンピュータ・システム可読媒体を含む。そのような媒体は、ホスト（７０２）によってアクセス可能な任意の利用可能な媒体であり得、揮発性および不揮発性の媒体、取り外し可能および取り外し不可能な媒体の両方を含む。

メモリ（７０６）は、ランダム・アクセス・メモリ（ＲＡＭ）（７３０）またはキャッシュ・メモリ（７３２）あるいはその両方などの、揮発性メモリの形態のコンピュータ・システム可読媒体を含むことができる。単なる例として、取り外し不可能な不揮発性の磁気媒体（図示しない、典型的には「ハード・ドライブ」と呼ばれるもの）に読み書きするためのストレージ・システム（７３４）を設けることができる。図示していないが、取り外し可能な不揮発性の磁気ディスク（たとえば、「フロッピー（Ｒ）・ディスク」）に読み書きするための磁気ディスク・ドライブと、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、または他の光学媒体などの取り外し可能な不揮発性の光学ディスクに読み書きするための光学ディスク・ドライブと、を設けることができる。そのような例では、それぞれを、１つまたは複数のデータ・メディア・インターフェースによってバス（７０８）に接続することができる。

プログラム・モジュール（７４２）のセット（少なくとも１つ）を有するプログラム／ユーティリティ（７４０）は、限定ではなく例として、オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データと同様に、メモリ（７０６）に記憶され得る。オペレーティング・システム、１つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データまたはそれらの何らかの組み合わせのそれぞれは、ネットワーキング環境の一実装形態を含み得る。プログラム・モジュール（７４２）は一般に、深層学習技術を利用して２つ以上のモダリティにまたがってデータを融合するための実施形態の機能または方法論あるいはその両方を実行する。たとえば、プログラム・モジュールのセット（７４２）は、図４で説明したツール（４５２）～（４５６）を含み得る。

ホスト（７０２）はまた、キーボード、ポインティング・デバイスなどの１つまたは複数の外部デバイス（７１４）、ディスプレイ（７２４）、ユーザがホスト（７０２）とやり取りすることを可能にする１つまたは複数のデバイス、ならびに／あるいはホスト（７０２）が１つまたは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス（たとえば、ネットワーク・カード、モデムなど）と通信し得る。そのような通信は、入力／出力（Ｉ／Ｏ）インターフェース（７２２）を介して行うことができる。またさらに、ホスト（７０２）は、ネットワーク・アダプタ（７２０）を介して、ローカル・エリア・ネットワーク（ＬＡＮ）、一般的なワイド・エリア・ネットワーク（ＷＡＮ）、またはパブリック・ネットワーク（たとえば、インターネット）、あるいはそれらの組み合わせなどの、１つまたは複数のネットワークと通信することができる。図示のように、ネットワーク・アダプタ（７２０）は、バス（７０８）を介してホスト（７０２）の他のコンポーネントと通信する。１つの実施形態では、分散ファイル・システム（図示せず）の複数のノードは、Ｉ／Ｏインターフェース（７２２）またはネットワーク・アダプタ（７２０）を介してホスト（７０２）と通信する。図示していないが、他のハードウェアまたはソフトウェアあるいはその両方のコンポーネントを、ホスト（７０２）と併用できることを理解されたい。例には、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージ・システムなどが含まれるが、これらに限定されない。

本文書では、「コンピュータ・プログラム媒体」、「コンピュータ使用可能媒体」、および「コンピュータ可読媒体」という用語は一般に、ＲＡＭ（７３０）、キャッシュ（７３２）、およびストレージ・システム（７３４）、たとえば、リムーバブル・ストレージ・ドライブおよびハード・ディスク・ドライブに取り付けられたハード・ディスクなどを含むメイン・メモリ（７０６）などの媒体を指すために使用する。

コンピュータ・プログラム（コンピュータ制御ロジックとも呼ばれる）は、メモリ（７０６）に記憶される。コンピュータ・プログラムはまた、ネットワーク・アダプタ（７２０）などの通信インターフェースを介して受信され得る。そのようなコンピュータ・プログラムは、実行された場合に、コンピュータ・システムが本明細書で論じている本実施形態の機能を実行することを可能にする。具体的には、コンピュータ・プログラムは、実行された場合に、処理ユニット（７０４）がコンピュータ・システムの機能を実行することを可能にする。したがって、そのようなコンピュータ・プログラムは、コンピュータ・システムのコントローラを表す。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のために命令を保持および記憶可能な有形のデバイスとすることができる。コンピュータ可読記憶媒体は、たとえば、限定はしないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ダイナミックまたはスタティック・ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラム可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、磁気ストレージ・デバイス、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリー・スティック（Ｒ）、フロッピー（Ｒ）・ディスク、命令が記録されたパンチ・カードまたは溝の隆起構造などの機械的にコード化されたデバイス、およびこれらの任意の適切な組み合わせが含まれる。コンピュータ可読記憶媒体は、本明細書で使用する場合、たとえば、電波または他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を伝搬する電磁波（たとえば、光ファイバ・ケーブルを通過する光パルス）、または有線で伝送される電気信号などの一過性の信号自体であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいは、たとえば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくは無線ネットワーク、またはそれらの組み合わせなどのネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。各コンピューティング／処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶する。

本実施形態の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいは、Ｊａｖａ（Ｒ）、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組み合わせで書かれたソース・コードまたはオブジェクト・コードであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロン・ソフトウェア・パッケージとして、部分的にユーザのコンピュータ上かつ部分的にリモート・コンピュータ上で、あるいは完全にリモート・コンピュータもしくはサーバまたはサーバのクラスタ上で実行され得る。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得、または（たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータへの接続がなされ得る。いくつかの実施形態では、たとえば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路は、実施形態の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用してコンピュータ可読プログラム命令を実行することによって、電子回路を個人向けにし得る。

１つの実施形態では、ホスト（７０２）は、クラウド・コンピューティング環境のノードである。当技術分野で知られているように、クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとのやり取りによって迅速にプロビジョニングおよび解放することができる、設定可能なコンピューティング・リソース（たとえば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共有プールへの便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも５つの特徴と、少なくとも３つのサービス・モデルと、少なくとも４つのデプロイメント・モデルとを含み得る。そのような特徴の例は以下の通りである。
オンデマンド・セルフ・サービス：クラウド・コンシューマは、サービスのプロバイダとの人的な対話を必要とせずに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
ブロード・ネットワーク・アクセス：能力はネットワークを介して利用することができ、異種のシンまたはシック・クライアント・プラットフォーム（たとえば、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準的なメカニズムを介してアクセスされる。
リソース・プーリング：プロバイダのコンピューティング・リソースをプールして、様々な物理リソースおよび仮想リソースが需要に応じて動的に割り当ておよび再割り当てされるマルチ・テナント・モデルを使用して複数のコンシューマにサービス提供する。一般にコンシューマは、提供されるリソースの正確な位置に対して何もできず、知っているわけでもないが、より上位の抽象化レイヤ（たとえば、国、州、またはデータセンタなど）では位置を特定可能であり得るという点で位置非依存の感覚がある。
迅速な弾力性：能力を迅速かつ弾力的に、場合によっては自動的にプロビジョニングして素早くスケール・アウトし、迅速に解放して素早くスケール・インすることができる。コンシューマにとって、プロビジョニング可能な能力は無制限であるように見えることが多く、任意の時間に任意の数量で購入することができる。
測定されるサービス：クラウドシステムは、サービスのタイプ（たとえば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント）に適したある抽象化レイヤでの計量機能を活用して、リソースの使用を自動的に制御し、最適化する。リソース使用量を監視、管理、および報告して、利用されるサービスのプロバイダおよびコンシューマの両方に透明性を提供することができる。

サービス・モデルは以下の通りである。
ソフトウェア・アズ・ア・サービス（ＳａａＳ）：コンシューマに提供される能力は、クラウド・インフラストラクチャ上で動作するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ（たとえば、ウェブ・ベースの電子メール）などのシン・クライアント・インターフェースを介して様々なクライアント・デバイスからアクセス可能である。コンシューマは、限定されたユーザ固有のアプリケーション構成設定を可能性のある例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、さらには個々のアプリケーション機能を含む、基盤となるクラウド・インフラストラクチャを管理も制御もしない。
プラットフォーム・アズ・ア・サービス（ＰａａＳ）：コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、コンシューマが作成または取得したアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境構成を制御する。
インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）：コンシューマに提供される能力は、オペレーティング・システムおよびアプリケーションを含むことができる任意のソフトウェアをコンシューマがデプロイして動作させることが可能な、処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングすることである。コンシューマは、基盤となるクラウド・インフラストラクチャを管理も制御もしないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションを制御し、場合によっては選択したネットワーキング・コンポーネント（たとえば、ホスト・ファイアウォール）を限定的に制御する。

デプロイメント・モデルは以下の通りである。
プライベート・クラウド：クラウド・インフラストラクチャは組織専用に運用される。これは組織または第三者によって管理され得、構内または構外に存在し得る。
コミュニティ・クラウド：クラウド・インフラストラクチャはいくつかの組織によって共有され、共通の懸念（たとえば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項など）を有する特定のコミュニティをサポートする。これは組織または第三者によって管理され得、構内または構外に存在し得る。
パブリック・クラウド：クラウド・インフラストラクチャは、一般大衆または大規模な業界団体に対して利用可能にされ、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド：クラウド・インフラストラクチャは、固有のエンティティのままであるが、データおよびアプリケーションの移植性を可能にする標準化技術または独自技術（たとえば、クラウド間の負荷分散のためのクラウド・バースティング）によって結合された２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）を合成したものである。

クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、および意味論的相互運用性に重点を置いたサービス指向型である。クラウド・コンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。

ここで図８を参照すると、例示的なクラウド・コンピューティング・ネットワーク（８００）が示されている。図示のように、クラウド・コンピューティング・ネットワーク（８００）は、１つまたは複数のクラウド・コンピューティング・ノード（８１０）を有するクラウド・コンピューティング環境（８５０）を含み、これらを使用して、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信し得る。これらのローカル・コンピューティング・デバイスの例には、パーソナル・デジタル・アシスタント（ＰＤＡ）もしくは携帯電話（８５４Ａ）、デスクトップ・コンピュータ（８５４Ｂ）、ラップトップ・コンピュータ（８５４Ｃ）、または自動車コンピュータ・システム（８５４Ｎ）、あるいはそれらの組み合わせなどが含まれるが、これらに限定されない。さらに、ノード（８１０）内の個々のノードは相互に通信し得る。これらは、たとえば、上述のプライベート、コミュニティ、パブリック、もしくはハイブリッド・クラウド、またはそれらの組み合わせなど、１つまたは複数のネットワークにおいて物理的または仮想的にグループ化され得る（図示せず）。これにより、クラウド・コンピューティング環境（８００）は、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを維持する必要がない、インフラストラクチャ・アズ・ア・サービス、プラットフォーム・アズ・ア・サービス、またはソフトウェア・アズ・ア・サービス、あるいはそれらの組み合わせを提供することが可能になる。図８に示したコンピューティング・デバイス（８５４Ａ～Ｎ）のタイプは例示的なものにすぎないことを意図しており、クラウド・コンピューティング環境（８５０）は、任意のタイプのネットワークまたはネットワーク・アドレス指定可能接続（たとえば、ウェブ・ブラウザを使用）あるいはその両方を介して任意のタイプのコンピュータ化デバイスと通信できることを理解されたい。

ここで図９を参照すると、図８のクラウド・コンピューティング・ネットワークによって提供される機能的抽象化レイヤ（９００）のセットが示されている。図９に示したコンポーネント、レイヤ、および機能は例示的なものにすぎないことを意図しており、実施形態はこれらに限定されないことを事前に理解されたい。図示のように、以下のレイヤ、すなわち、ハードウェアおよびソフトウェア・レイヤ（９１０）、仮想化レイヤ（９２０）、管理レイヤ（９３０）、およびワークロード・レイヤ（９４０）、ならびに対応する機能が提供される。

ハードウェアおよびソフトウェア・レイヤ（９１０）は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム、一例では、ＩＢＭ（Ｒ）ｚＳｅｒｉｅｓ（Ｒ）システム、ＲＩＳＣ（縮小命令セット・コンピュータ）アーキテクチャ・ベースのサーバ、一例では、ＩＢＭ（Ｒ）ｐＳｅｒｉｅｓ（Ｒ）システム、ＩＢＭ（Ｒ）ｘＳｅｒｉｅｓ（Ｒ）システム、ＩＢＭ（Ｒ）ＢｌａｄｅＣｅｎｔｅｒ（Ｒ）システム、ストレージ・デバイス、ネットワークおよびネットワーキング・コンポーネントが含まれる。ソフトウェア・コンポーネントの例には、ネットワーク・アプリケーション・サーバ・ソフトウェア、一例では、ＩＢＭ（Ｒ）ＷｅｂＳｐｈｅｒｅ（Ｒ）アプリケーション・サーバ・ソフトウェア、およびデータベース・ソフトウェア、一例では、ＩＢＭ（Ｒ）ＤＢ２（Ｒ）データベース・ソフトウェアが含まれる。（ＩＢＭ（Ｒ）、ｚＳｅｒｉｅｓ（Ｒ）、ｐＳｅｒｉｅｓ（Ｒ）、ｘＳｅｒｉｅｓ（Ｒ）、ＢｌａｄｅＣｅｎｔｅｒ（Ｒ）、ＷｅｂＳｐｈｅｒｅ（Ｒ）、およびＤＢ２（Ｒ）は、世界中の多くの管轄区域で登録されたインターナショナル・ビジネスマシーン・コーポレーションの商標である）。

仮想化レイヤ（９２０）は抽象化レイヤを提供し、抽象化レイヤから、仮想エンティティの以下の例、すなわち、仮想サーバ、仮想ストレージ、仮想プライベート・ネットワークを含む仮想ネットワーク、仮想アプリケーションおよびオペレーティング・システム、ならびに仮想クライアントが提供され得る。

一例では、管理レイヤ（９３０）は、以下の機能、すなわち、リソース・プロビジョニング、計量および価格決定、ユーザ・ポータル、サービス・レイヤ管理、およびＳＬＡ計画および履行を提供し得る。リソース・プロビジョニングは、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的調達を提供する。計量および価格決定は、クラウド・コンピューティング環境内でリソースが利用されたときの費用追跡と、これらのリソースの消費に対する会計または請求とを提供する。一例では、これらのリソースはアプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、クラウド・コンシューマおよびタスクの同一性検証だけでなく、データおよび他のリソースに対する保護も提供する。ユーザ・ポータルは、コンシューマおよびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レイヤ管理は、要求されるサービス・レイヤが満たされるような、クラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レイヤ合意（ＳＬＡ）の計画および履行は、ＳＬＡによれば将来要求されると予想されるクラウド・コンピューティング・リソースの事前手配および調達を提供する。

ワークロード・レイヤ（９４０）は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。このレイヤから提供され得るワークロードおよび機能の例には、マッピングおよびナビゲーション、ソフトウェア開発およびライフサイクル管理、仮想教室教育配信、データ分析処理、取引処理、ならびに深層学習モダリティ間データ分析、が含まれるが、これらに限定されない。

自然言語入力を評価し、対応するコミュニケーションにおいて質問を検出し、検出された質問を回答またはサポート・コンテンツあるいはその両方で解決するためのシステム、方法、装置、およびコンピュータ・プログラム製品を本明細書で開示していることは理解されよう。

本実施形態の特定の実施形態を図示および説明してきたが、実施形態およびそのより広い態様から逸脱することなく、本明細書の教示に基づいて変更および修正が行われ得ることは当業者には明らかであろう。したがって、添付の特許請求の範囲は、実施形態の真の範囲内にある全てのそのような変更および修正をその範囲内に包含するものとする。さらに、実施形態が、添付の特許請求の範囲によってのみ定義されることを理解されたい。導入する請求項要素の特定の数を意図する場合、そのような意図はその請求項に明示的に記載し、そのような記載がない場合、そのような制限は存在しないことが当業者によって理解されよう。非限定的な例では、理解を助けるものとして、以下の添付の特許請求の範囲は、請求項要素を導入するための導入語句「少なくとも１つ」および「１つまたは複数」の使用を含む。しかしながら、そのような語句の使用は、同じ請求項が「１つまたは複数」または「少なくとも１つ」という導入語句および「ａ」または「ａｎ」などの不定冠詞を含む場合であっても、不定冠詞「ａ」または「ａｎ」による請求項要素の導入が、そのような導入した請求項要素を含む特定の請求項を、そのような要素をただ１つ含む実施形態に限定することを意味すると解釈されるべきではなく、特許請求の範囲での定冠詞の使用についても同じことが言える。

本実施形態は、システム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組み合わせであり得る。さらに、本実施形態の選択した態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）、あるいはソフトウェアもしくはハードウェアまたはその両方の態様を組み合わせた実施形態の形を取り得、これらの全てを一般に本明細書では「回路」、「モジュール」、または「システム」と呼び得る。さらに、本実施形態の態様は、本実施形態の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体（または複数の媒体）に具現化されたコンピュータ・プログラム製品の形態を取り得る。開示したシステム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組み合わせは、このように具現化されているので、深層学習技術を利用して２つ以上のモダリティにまたがってデータを融合するように機能する人工知能プラットフォームの機能および動作を改善するように動作する。

本実施形態の態様は、実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して本明細書で説明している。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装できることは理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／動作を実装するための手段を生成するように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能データ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。また、これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／動作の態様を実装する命令を含む製造品を構成するように、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラム可能データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定の方法で機能するように指示することができるものであってもよい。

また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラム可能装置、または他のデバイス上で実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックにおいて指定された機能／動作を実装するように、コンピュータ実装処理を生成すべく、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラム可能装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。

図中のフローチャートおよびブロック図は、本実施形態の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理的機能を実装するための１つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実装形態では、ブロックに記載した機能は、図示した順序以外で行われ得る。たとえば、関与する機能に応じて、連続して示した２つのブロックは、実際には実質的に同時に実行され得、またはそれらのブロックは、場合により逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせは、指定された機能もしくは動作を実行するか、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用のハードウェア・ベースのシステムによって実装できることにも気付くであろう。

本明細書では特定の実施形態を例示の目的で記載しているが、実施形態の範囲から逸脱することなく様々な修正が行われ得ることは理解されよう。たとえば、本明細書で図示および説明したモダリティで表されるデータは、金融データ、気候データ、医療データ、およびコンピュータ・ビジョン・データを含み得る。したがって、実施形態の保護の範囲は、以下の特許請求の範囲およびそれらの均等物によってのみ限定される。

Claims

コンピュータ・システムであって、
メモリに動作可能に結合されたプロセッサと、
前記プロセッサと通信し、深層学習技術を利用してモダリティにまたがってデータを融合するための機械学習（ＭＬ）ツールを有する人工知能（ＡＩ）プラットフォームと、
含み、前記ツールは、
第１のデータ・セットに動作可能に結合された第１のデータ・フィード・マネージャであって、前記第１のデータ・セットは第１のデータ・フォーマットの第１のモダリティを有する、前記第１のデータ・フィード・マネージャと、
第２のデータ・セットに動作可能に結合された第２のデータ・フィード・マネージャであって、前記第２のデータ・セットは第２のデータ・フォーマットの第２のモダリティを有し、前記第２のモダリティは前記第１のモダリティとは異なる、前記第２のデータ・フィード・マネージャと、
を含み、
前記第１のデータ・フィード・マネージャは、前記第１のデータ・セットを第１のベクトルのセットへとエンコードし、
前記第２のデータ・フィード・マネージャは、前記第２のデータ・セットを第２のベクトルのセットへとエンコードし、
前記ツールはさらに、
前記第１および第２のデータ・フィード・マネージャに動作可能に結合された分析器であって、前記分析器は、人工リカレント・ニューラル・ネットワーク（ＲＮＮ）を活用して、前記エンコードされた第１および第２のデータ・セットを分析し、前記分析は、前記第１および第２のデータ・モダリティからのエンコードされた特徴を反復的かつ非同期的に融合することを含み、前記融合することは、相関する時間的挙動を示す前記第１および第２のデータ・セットからのベクトルを組み合わせることを含む、前記分析器
を含み、
前記融合されたベクトルは出力データとして返される、コンピュータ・システム。
前記第１のデータ・セットからの第１の入力データはタイム・スタンプ付きのテキスト・データ・フィードを表し、前記第２のデータ・セットからの第２の入力データは時系列データを表す、請求項１に記載のシステム。
前記反復的かつ非同期的な融合は、前記ＲＮＮが、前記第２のデータ・セットの前記時系列データの時間的挙動を前記第１のデータ・セットからのエンコードされた表現ベクトルと相互に関連付けることを含む、請求項２に記載のシステム。
前記反復的かつ非同期的な融合は、前記ＲＮＮが、前記エンコードされた第２のデータ・セットで確認されたパターンに無関係な１つまたは複数の表現ベクトルを前記第１のデータ・セットから除外することを含む、請求項２に記載のシステム。
テキスト・ベースのモダリティをエンコードすることは、前記第１のデータ・フィード・マネージャが、単語間の意味的依存関係を学習し、前記テキストを各入力テキスト・ドキュメントの表現ベクトルへと集約することを含む、請求項２ないし４のいずれかに記載のシステム。
前記エンコードされた第１および第２のデータ・セットの分析は、前記ＲＮＮが、異なるサンプリング周波数の少なくとも２つの時間的シーケンスから情報を探索して相互に関係付けることをさらに含む、請求項１ないし５のいずれかに記載のシステム。
深層学習技術を利用してモダリティにまたがってデータを融合するための方法であって、
コンピューティング・デバイスによって、マルチモーダル・データ・セットを受け取ることであって、前記マルチモーダル・データ・セットは、第１のモダリティを有する第１のデータ・セットおよび第２のモダリティを有する第２のデータ・セットを含む２つ以上のモダリティからの異なるフォーマットのデータを含む、前記受け取ることと、
前記第１のデータ・セットを１つまたは複数の第１のベクトルへとエンコードすることと、前記第２のデータ・セットを１つまたは複数の第２のベクトルへとエンコードすることとを含む、前記第１および第２のデータ・セットを別々に処理することと、
前記処理されたマルチモーダル・データ・セットを分析することであって、前記分析することは、前記第１および第２のデータ・モダリティからのエンコードされた特徴を反復的かつ非同期的に融合することを含み、前記融合することは、相関する時間的挙動を示す前記第１および第２のデータ・セットからのベクトルを組み合わせることを含む、前記分析することと、
前記融合されたベクトルを出力データとして返すことと、
を含む、方法。
前記第１のデータ・セットからの第１の入力データはタイム・スタンプ付きのテキスト・データ・フィードを表し、前記第２のデータ・セットからの第２の入力データは時系列データを表す、請求項７に記載の方法。
前記反復的かつ非同期的な融合は、前記第２のデータ・セットの前記時系列データの時間的挙動を前記第１のデータ・セットからのエンコードされた表現ベクトルと相互に関連付けることを含む、請求項８に記載の方法。
前記反復的かつ非同期的な融合は、前記エンコードされた第２のデータ・セットで確認されたパターンに無関係な１つまたは複数の表現ベクトルを前記第１のデータ・セットから除外することを含む、請求項８に記載の方法。
テキスト・ベースのモダリティをエンコードすることは、単語間の意味的依存関係を学習し、前記テキストを各入力テキスト・ドキュメントの表現ベクトルへと集約することを含む、請求項８ないし１０のいずれかに記載の方法。
前記処理されたマルチモーダル・データ・セットを分析することは、異なるサンプリング周波数の少なくとも２つの時間的シーケンスから情報を探索して相互に関係付けることをさらに含む、請求項８ないし１１のいずれかに記載の方法。
前記処理されたマルチモーダル・データ・セットを分析することであって、前記分析することは、前記第１および第２のデータ・モダリティからのエンコードされた特徴を反復的かつ非同期的に融合することを含み、前記融合することは、相関する時間的挙動を示す前記第１および第２のデータ・セットからのベクトルを組み合わせることを含む、前記分析することは、前記処理されたマルチモーダル・データ・セットを分析することであって、前記分析することは、前記第１および第２のデータ・モダリティからのエンコードされたベクトルを融合することを含み、前記融合することは、前記マルチモーダル・データに含まれる前記モダリティのデータのパフォーマンス挙動間の相関する時間的挙動を示す前記第１および第２のデータ・セットからのベクトルを組み合わせることを含む、前記分析することを含み、
前記融合されたベクトルを出力データとして返すことは、共通の挙動をエンコードした前記融合されたベクトルを返すことを含む、
請求項９ないし１２のいずれかに記載の方法。
前記第１のモダリティはテキスト・データであり、前記第２のモダリティは時系列データであり、前記融合することは、前記時系列モダリティの現在の状態についての前記テキスト・データへのアテンションの確率質量を取得することをさらに含む、請求項１３に記載の方法。
前記処理されたマルチモーダル・データ・セットを分析することは、深層学習技術を利用して前記モダリティにまたがってデータを融合することを含む、請求項１３または１４に記載の方法。
前記第１のデータ・セットからの第１の入力データはタイム・スタンプ付きのテキスト・データ・フィードを表し、前記第２のデータ・セットからの第２の入力データは数値の時系列データを表し、前記エンコードされたベクトルを融合することは、前記タイム・スタンプ付きのテキスト・データに照らして前記数値の時系列データを参照することをさらに含む、請求項１４または１５に記載の方法。
前記エンコードされたベクトルを融合することは教師なしで行われる、請求項１３ないし１６のいずれかに記載の方法。
前記マルチモーダル・データは、医療データ、気候データ、コンピュータ・ビジョン・データ、金融データ、またはそれらの組み合わせのうちの１つまたは複数を含む、請求項１３ないし１７のいずれかに記載の方法。
深層学習技術を利用してモダリティにまたがってデータを融合するためのコンピュータ・プログラム製品であって、
処理回路によって読み取り可能であり、請求項７ないし１８のいずれかに記載の方法を実行するための、前記処理回路によって実行するための命令を記憶するコンピュータ可読記憶媒体
を備える、コンピュータ・プログラム製品。
コンピュータ可読媒体に記憶され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行された場合に、請求項７ないし１８のいずれかに記載の方法を実行するためのソフトウェア・コード部分を含む、コンピュータ・プログラム。