JP2022540473A

JP2022540473A - マルチモーダルトリプレットロスを使用した時系列およびｔｅｘｔのための教師ありクロスモーダル検索

Info

Publication number: JP2022540473A
Application number: JP2022501278A
Authority: JP
Inventors: ユンコンチェン、; ドンジンソン、; クリスチャンルメザヌ、; ハイフォンチェン、; 毅彦溝口
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-07-12
Filing date: 2020-07-02
Publication date: 2022-09-15
Anticipated expiration: 2040-07-02
Also published as: WO2021011205A1; JP7361193B2; DE112020003365T5; US20210012061A1

Abstract

（ｉ）時系列と（ｉｉ）自由形式テキストコメントとの２つの異なるモダリティに関連するトリプレットロスに基づいて共同訓練された時系列符号器（２１１）とテキスト符号器とを有するニューラルネットワークを含む、クロスモーダルデータ検索のためのシステム（２００）が提供される。データベース（２０５）は、訓練セットの符号化から抽出された特徴ベクトルと共に訓練セットを記憶する。符号化は、時系列符号器を使用して時系列を符号化し、テキスト符号器を使用してテキストコメントを符号化することによって得られる。プロセッサは、テスト時系列とテスト自由形式テキストコメントとのうちの少なくとも１つに関連するテスト入力に対応する特徴ベクトルと共に特徴空間に挿入するために、データベースからモダリティのうちの少なくとも１つに対応する特徴ベクトルを検索し、距離基準に基づいて特徴ベクトルの中から最近傍のセットを決定し、テスト結果を出力する。

Description

関連出願情報
本出願は、２０２０年７月１日に出願された米国非仮特許出願第１６／９１８，２５７号の優先権を主張し、該出願は、２０１９年７月１２日に出願された米国仮特許出願第６２／８７３，２５５号の優先権を主張し、両方ともその全体が参照により本明細書に組み込まれる。

本発明は、情報処理に関し、より詳細には、マルチモーダルトリプレットロスを用いた時系列および自由形式テキストコメントのための教師ありクロスモーダル検索に関する。
関連技術の説明

時系列データは、例えば、金融および産業の世界で普及している。時系列解析の有効性は、多くの場合、人間のユーザによって理解可能なフィードバックの欠如によって妨げられる。時系列の解釈は、しばしば、領域の専門知識を必要とする。多くの現実世界のシナリオでは、時系列は、人間の専門家によって書かれたコメントでタグ付けされる。場合によっては、コメントはカテゴリラベルにすぎないが、自由形式の自然テキストであることが多い。時系列分析を、時系列および関連する自由形式テキストに関する領域認識および解釈可能性に向けて進めることが望ましい。

本発明の態様によれば、クロスモーダルデータ検索のためのコンピュータ処理システムが提供される。コンピュータ処理システムは、トリプレットロスに基づいて共同で訓練される時系列符号器およびテキスト符号器を有するニューラルネットワークを含む。トリプレットロスは、（ｉ）時系列および（ｉｉ）自由形式テキストコメントの２つの異なるモダリティに関連し、これらはそれぞれ、時系列の訓練セットと自由形式テキストコメントの訓練セットとに対応する。コンピュータ処理システムは、訓練セットの符号化から抽出された特徴ベクトルと共に訓練セットを記憶するためのデータベースをさらに含む。符号化は、時系列符号器を使用して時系列の訓練セット内の時系列を符号化し、テキスト符号器を使用して自由形式テキストコメントの訓練セット内の自由形式テキストコメントを符号化することによって得られる。コンピュータ処理システムはまた、テスト時系列およびテスト自由形式テキストコメントのうちの少なくとも１つに関連するテスト入力に対応する少なくとも１つの特徴ベクトルと共に特徴空間に挿入するために、２つの異なるモダリティのうちの少なくとも１つに対応する特徴ベクトルをデータベースから検索し、距離基準に基づいて特徴空間内の特徴ベクトルの中から最近傍のセットを決定し、最近傍のセットに基づいてテスト入力に対するテスト結果を出力するためのハードウェアプロセッサを含む。

本発明の他の側面によれば、クロスモーダルデータ検索のためのコンピュータ実装された方法が提供されている。この方法は、トリプレットロスに基づいて時系列符号器およびテキスト符号器を有するニューラルネットワークを共同で訓練することを含む。トリプレットロスは、（ｉ）時系列と（ｉｉ）自由形式テキストコメントとの２つの異なるモダリティに関連し、これらはそれぞれ、時系列の訓練セットと自由形式テキストコメントの訓練セットとに対応する。この方法はさらに、データベースに、訓練セットの符号化から抽出された特徴ベクトルと共に訓練セットを記憶することを含む。符号化は、時系列符号器を使用して時系列の訓練セット内の時系列を符号化し、テキスト符号器を使用して自由形式テキストコメントの訓練セット内の自由形式テキストコメントを符号化することによって得られる。また、本方法は、特徴空間への挿入のために、テスト時系列とテスト自由形式テキストコメントとの少なくとも１つに関連するテスト入力に対応する少なくとも１つの特徴ベクトルと共に、データベースから２つの異なるモダリティの少なくとも１つに対応する特徴ベクトルを検索することを含む。本方法は、さらに、ハードウェアプロセッサによって、距離基準に基づいて特徴空間内の特徴ベクトルの中から最近傍のセットを決定することと、最近傍のセットに基づいてテスト入力のためのテスト結果を出力することとを含む。

本発明のさらに他の態様によれば、クロスモーダルデータ検索のためのコンピュータプログラム製品であって、プログラム命令が具現化された非一時的なコンピュータ可読記憶媒体を含むコンピュータプログラム製品であって、コンピュータによって実行可能なプログラム命令は、方法をコンピュータに実行させる。この方法は、トリプレットロスに基づいて時系列符号器およびテキスト符号器を有するニューラルネットワークを共同で訓練することを含む。トリプレットロスは、（ｉ）時系列と（ｉｉ）自由形式テキストコメントとの２つの異なるモダリティに関連し、これらはそれぞれ、時系列の訓練セットと自由形式テキストコメントの訓練セットとに対応する。この方法はさらに、データベースに、訓練セットの符号化から抽出された特徴ベクトルと共に訓練セットを記憶することを含む。符号化は、時系列符号器を使用して時系列の訓練セット内の時系列を符号化し、テキスト符号器を使用して自由形式テキストコメントの訓練セット内の自由形式テキストコメントを符号化することによって得られる。また、本方法は、特徴空間への挿入のために、テスト時系列とテスト自由形式テキストコメントとの少なくとも１つに関連するテスト入力に対応する少なくとも１つの特徴ベクトルと共に、データベースから２つの異なるモダリティの少なくとも１つに対応する特徴ベクトルを検索することを含む。本方法は、さらに、コンピュータのハードウェアプロセッサによって、距離基準に基づいて特徴空間内の特徴ベクトルの中から最近傍のセットを決定することと、最近傍のセットに基づいてテスト入力のためのテスト結果を出力することとを含む。

これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。

本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。

本発明の一実施形態による、例示的な計算装置を示すブロック図である。

本発明の一実施形態による、時系列と自由形式のテキストコメントとの間のクロスモーダル検索のための例示的なシステム／方法を示す高レベルブロック図である。

本発明の一実施形態による、時系列と自由形式のテキストコメントとの間のクロスモーダル検索のための方法のフロー図である。本発明の一実施形態による、時系列と自由形式のテキストコメントとの間のクロスモーダル検索のための方法のフロー図である。

本発明の一実施形態による、図２のテキスト符号器２１２の例示的なアーキテクチャを示すブロック図である。

本発明の一実施形態による、図２のテキスト符号器の例示的なアーキテクチャを示すブロック図である。

本発明の一実施形態による、例示的なコンピューティング環境を示すブロック図である。

本発明の実施形態によれば、マルチモーダルトリプレットロスを使用して時系列および自由形式テキストコメントのための教師ありクロスモーダル検索のためのシステムおよび方法が提供される。

本発明の実施形態は、時系列および関連する自由形式テキストから共同で学習することによって、領域認識および解釈可能性に向けて時系列分析を進めることができる。

一実施形態では、本発明は、クエリおよび取り出された結果がいずれかのモダリティであり得るクロスモーダル取り出しタスクに焦点を当てる。具体的には、本発明の１つまたは複数の実施形態は、以下の３つのアプリケーションシナリオに対処するためのニューラルネットワークアーキテクチャおよび関連する検索アルゴリズムを提供する。

（１）説明：時系列セグメントが与えられると、時系列セグメントの人間が読むことができる説明として使用することができる関連コメントを取り出す。

（２）自然言語検索：文章またはキーワードのセットを指定すると、関連する時系列セグメントを取得する。

（３）共同モダリティ探索：時系列セグメントと文章またはキーワードのセットとを与えられ、属性の部分集合がキーワードに一致し、属性の残りが与えられた時系列セグメントに類似するように、関連する時系列セグメントを検索する。

一般に、本発明の１つまたは複数の実施形態は、データアイテムのペア間の類似性のモダリティに依存しない概念の学習を可能にするアーキテクチャを提供し、クエリが与えられた場合にクローズアイテムを検索するための検索アルゴリズムを提案する。

この目的のために、２つのシーケンス符号器（時系列符号器およびテキスト符号器）が、クラス情報でラベル付けされた、両方のモダリティにおけるデータのセットから学習される。符号器は、同じクラスのインスタンスが互いに接近し、異なるクラスのインスタンスが互いに遠くなるように、データインスタンスを共通の潜在空間にマッピングするように訓練される。次いで、検索は、この共通の潜在空間内のクエリ（任意のモダリティにもあり得る）に対する（任意のモダリティの）最近傍を見つけることに基づく。学習が成功すると、ほとんどの近傍はクエリと同じクラスを共有する。つまり、取得結果はクエリと高い関連性を持つ。

図１は、本発明の一実施形態による例示的な計算装置１００を示すブロック図である。計算装置１００は、図２に関して以下で説明するシステム２００の一部とすることができる。計算装置１００は、時系列と自由形式テキストコメントとの間のクロスモーダル検索を実行するように構成される。

計算装置１００は、限定されるものではないが、コンピュータ、サーバ、ラックベースのサーバ、ブレードサーバ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイル計算装置、ウェアラブル計算装置、ネットワークアプライアンス、Ｗｅｂアプライアンス、分散計算システム、プロセッサベースのシステム、および／または消費者電子装置を含む、本明細書に記載する機能を実行することができる任意のタイプの計算またはコンピュータデバイスとして実施することができる。さらに、または代替として、計算装置１００は、物理的に分離された計算装置の１つまたは複数のコンピューティングスレッド、メモリスレッド、または他のラック、スレッド、コンピューティングシャーシ、または他の構成要素として実施され得る。図１に示すように、計算装置１００は、例示的に、プロセッサ１１０、入出力サブシステム１２０、メモリ１３０、データ記憶装置１４０、通信サブシステム１５０、および／またはサーバまたは同様の計算装置に一般的に見られる他の構成要素および装置を含む。もちろん、計算装置１００は、他の実施形態では、サーバコンピュータ（例えば、様々な入力／出力装置）に一般に見られるような他のまたは追加のコンポーネントを含むことができる。さらに、いくつかの実施形態では、例示的な構成要素のうちの１つまたは複数は、別の構成要素に組み込まれてもよく、または別の方法で別の構成要素の一部を形成してもよい。例えば、いくつかの実施形態では、メモリ１３０またはその一部をプロセッサ１１０に組み込むことができる。

プロセッサ１１０は、本明細書に記載する機能を実行することができる任意のタイプのプロセッサとして実施することができる。プロセッサ１１０は、シングルプロセッサ、マルチプロセッサ、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、シングルまたはマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラ、または他のプロセッサまたは処理／制御回路として具現化されてもよい。

メモリ１３０は、本明細書で説明する機能を実行することができる任意のタイプの揮発性または不揮発性メモリまたはデータ記憶装置として実施することができる。動作において、メモリ１３０は、オペレーティングシステム、アプリケーション、プログラム、ライブラリ、ドライバなど、計算装置１００の動作中に使用される様々なデータおよびソフトウェアを記憶することができる。メモリ１３０は、Ｉ／Ｏサブシステム１２０を介してプロセッサ１１０に通信可能に結合され、これは、プロセッサ１１０、メモリ１３０、および計算装置１００の他の構成要素との入出力操作を容易にするための回路および／または構成要素として具現化され得る。例えば、Ｉ／Ｏサブシステム１２０は、メモリコントローラハブ、入力／出力制御ハブ、プラットフォームコントローラハブ、集積制御回路、ファームウェアデバイス、通信リンク（例えば、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、光ガイド、プリント回路基板トレースなど）、および／または入力／出力動作を容易にするための他の構成要素およびサブシステムとして具現化されてもよく、またはそうでなければそれらを含んでもよい。いくつかの実施形態では、Ｉ／Ｏサブシステム１２０は、システムオンチップ（ＳＯＣ）の一部を形成し、プロセッサ１１０、メモリ１３０、および計算装置１００の他の構成要素とともに、単一の集積回路チップ上に組み込まれ得る。

データ記憶装置１４０は、例えば、メモリ装置および回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブ、または他のデータ記憶装置などの、データの短期または長期記憶のために構成された任意のタイプの装置または複数の装置として具現化され得る。データ記憶装置１４０は、時系列と自由形式のテキストコメントとの間のクロスモーダル検索のためのプログラムコード１４０Ａを記憶することができる。計算装置１００の通信サブシステム１５０は、ネットワークを介して計算装置１００と他のリモート装置との間の通信を可能にすることができる、任意のネットワークインターフェースコントローラまたは他の通信回路、装置、またはそれらの集合として実施することができる。通信サブシステム１５０は、任意の１つ以上の通信技術（例えば、有線または無線通信）および関連プロトコル（例えば、イーサネット（登録商標）、ＩｎｆｉｎｉＢａｎｄ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ（登録商標）、ＷｉＭＡＸ（登録商標）など）を使用して、そのような通信を行うように構成されてもよい。

図示のように、計算装置１００は、１つまたは複数の周辺装置１６０を含むこともできる。周辺装置１６０は、任意の数の追加の入力／出力装置、インターフェース装置、および／または他の周辺装置を含むことができる。例えば、いくつかの実施形態では、周辺装置１６０は、ディスプレイ、タッチスクリーン、グラフィック回路、キーボード、マウス、スピーカシステム、マイクロフォン、ネットワークインターフェース、および／または他の入力／出力装置、インターフェース装置、および／または周辺装置を含むことができる。

もちろん、計算装置１００は、当業者によって容易に企図されるように、他の要素（図示せず）を含むこともでき、特定の要素を省略することもできる。例えば、当業者によって容易に理解されるように、様々な他の入力装置および／または出力装置を、同じものの特定の実装に応じて、計算装置１００に含めることができる。例えば、様々なタイプの無線および／または有線の入力および／または出力装置を使用することができる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリなどを利用することもできる。処理システム１００のこれらおよび他の変形は、本明細書で提供される本発明の教示を与えられれば、当業者によって容易に企図される。

本明細書で採用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、１つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、１つまたは複数のデータ処理要素（例えば、論理回路、処理回路、命令実行デバイスなど）を含むことができる。１つまたは複数のデータ処理要素は、中央処理ユニット、画像処理ユニットおよび／または別個のプロセッサまたはコンピューティング要素ベースのコントローラ（たとえば、論理ゲートなど）に含めることができる。ハードウェアプロセッササブシステムは、１つ以上のオンボードメモリ（例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリなど）を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムは、オンボードまたはオフボードにすることができるか、またはハードウェアプロセッササブシステム（例えば、ＲＯＭ、ＲＡＭ、基本入出力システム（ＢＩＯＳ）など）によって使用するために専用にすることができる１つ以上のメモリを含むことができる。

ある実施形態では、ハードウェアプロセッササブシステムは、１つ以上のソフトウェア要素を含むことができ、実行することができる。１つ以上のソフトウェア要素は、特定の結果を達成するために、オペレーティングシステムおよび／または１つ以上のアプリケーションおよび／または特定のコードを含むことができる。

他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために１つまたは複数の電子処理機能を実行する専用の専用回路を含むことができる。そのような回路は、１つまたは複数のアプリケーション専用集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、および／またはプログラマブルロジックアレイ（ＰＬＡ）を含むことができる。

ハードウェアプロセッササブシステムのこれらおよび他の変形もまた、本発明の実施形態に従って企図される。

図２は、本発明の一実施形態による、時系列と自由形式のテキストコメントとの間のクロスモーダル検索のための例示的なシステム／方法２００を示す高レベルブロック図である。

システム／方法２００は、時系列符号器２１１およびテキスト符号器２１２を有する符号化部分２１０を含み、さらにデータベース２２０を含む。

システム／方法２００の要素の動作は、図３を参照して説明される。

図３～４は、本発明の一実施形態による、時系列と自由形式のテキストコメントとの間のクロスモーダル検索のための方法のためのフロー図である。

ブロック３１０で、時系列または自由形式テキストコメントのいずれかである一組の訓練データインスタンス２３１を受信する。

ブロック３２０において、２つのシーケンス符号器２１１，２１２を含むニューラルネットワークを構築する。テキスト符号器２１２は、ｇ^txtによって示され、トークン化されたテキストコメント（例えば、フレーズ、ワード、ワードルートなど）を入力として受け取る。ｇ^srsで示される時系列符号器２１１は、時系列を入力とする。テキスト符号器２１２は、図４に関してさらに詳細に示されている。時系列符号器２１１（図５に関してさらに詳細に示す）は、単語埋め込み５１１が完全接続層６１１に置き換えられていることを除いて、図６のテキスト符号器２１２について示したものと同じアーキテクチャを有する。

図４に示すテキスト符号器２１２のアーキテクチャ４００は、一連の畳み込み層４１３，４２２に続いて変換器ネットワーク４９０を含む。畳み込み層は、ローカルコンテキスト（例えば、テキストデータのフレーズ）を捕捉する。変換器は、シーケンス内の長期依存性を符号化する。

ニューラルネットワークの訓練フェーズでは、データセットからトリプレットがサンプリングされる。トリプレットは、３つのデータインスタンス（ａ、ｐ、ｎ）のタプルであり、各データインスタンスは、ｐがａと同じクラスを有し、ｎが異なるクラスからのものであるように、いずれのモダリティであってもよい。

両符号器２１１，２１２のパラメータは、トリプレットロスを最小化することによって共同で訓練される。このロスは、変換後、同じクラスのインスタンスが接近したままであり、異なるクラスのインスタンスが指定されたマージンａだけ分離されるように、変換の学習を促進する。Ωで示されるトリプレットのバッチのトリプレットロスは、以下のように定義される。

ここで、入力が時系列の場合はｆ＝ｇ^txtであり、入力がテキストコメントの場合はｆ＝ｇ^srsである。

「セミハード」であるトリプレットを選択するために、ハード実施例マイニング戦略が使用され、これは、訓練が、ランダムに一様にトリプレットを選択するよりも著しく速く進行することを可能にする。セミハードトリプレット（ａ、ｐ、ｎ）は、現在の変換の下で、マージン基準にほとんど違反しないものである。形式的には、以下の条件を満たす。

トリプレットにおけるインスタンスのモダリティに制限はなく、単一モダリティのトリプレット、ならびに（テキスト、シリーズ、テキスト）、（シリーズテキスト、シリーズ）などの混合モダリティを可能にする。

訓練は反復して進行する。各反復において、セミハードトリプレットの固定バッチがサンプリングされる。バッチのトリプレットロスを最適化し、確率的勾配降下を用いてネットワークのパラメータを更新する。

ブロック３３０で（ネットワークが訓練された後に対応して）、将来の検索の候補となることを意図した一組の時系列およびテキストインスタンスを選択する。時系列インスタンスを時系列符号器２１１に通し、テキストインスタンスをテキスト符号器２１２に通して、それぞれ特徴ベクトル２１１Ａ，２１２Ａを得る。インスタンスを、特徴ベクトルと共に、それらの生の形態でデータベースに記憶する。

ブロック３４０で、最近傍探索を使用して、符号器２１１，２１２ならびにデータベース２２０が利用可能な状態で、未知のクエリに関する関連データを取り出す。３つのアプリケーションシナリオのそれぞれについての具体的な手順を以下に説明する。

（１）説明：クエリが任意の長さの時系列として与えられると、それは、特徴ベクトルｘを得るために時系列符号器を通過させられる。次に、データベース２２０から、このベクトル（別名最近傍）までの最小（ユークリッド）距離を有するｋ個のテキストインスタンスを見つける。これらのテキストインスタンスは、人間が書いた自由形式のコメントであり、検索結果として返される。

（２）自然言語による時系列の検索：クエリが自由形式テキスト節（すなわち、単語または短文）として与えられると、それは、特徴ベクトルｙを得るためにテキスト符号器２１２を通過する。次に、データベース２２０から、ｙまでの距離が最小であるｋ個の時系列インスタンスを見つける。クエリテキストと同じ意味クラスを持ち、クエリとの関連性が高いこれらの時系列は、検索結果として返される。

（３）共同モダリティ探索：クエリを（時系列セグメント、テキスト節）のペアとして与え、時系列を時系列符号器２１１に通して特徴ベクトルｘ２１１Ａを取得し、テキスト節をテキスト符号器２１２に通して特徴ベクトルｙ２１２Ａを取得する。次に、データベース２２０から、ｘの時系列最近傍２４０をｎ個見つけ、ｙの時系列最近傍をｎ個見つけ、それらの共通部分を求める。ｎ＝ｋから始める。共通部分内のインスタンスの数がｋよりも小さい場合、ｎをインクリメントし、少なくともｋ個のインスタンスが検索されるまで検索を繰り返す。これらのインスタンスは、クエリ時系列とクエリテキストとの両方に意味的に類似しており、検索結果２５０として返される。

ブロック３５０で、クエリ２３２を受信する。クエリ２３２は、時系列またはテキスト形式とすることができる。

ブロック３６０で、時系列符号器２１１および／またはテキスト符号器２１２を使用してクエリを処理し、特徴空間に含まれる特徴ベクトルを生成する。

ブロック３７０で、データベース２２０からのクエリおよび特徴ベクトルの処理から得られた１つ以上の特徴ベクトルが入力された特徴空間で最近傍探索を実行して、２つのモダリティの少なくとも１つで探索結果を出力する。一実施形態では、入力モダリティは、検索結果内のその対応する出力モダリティに関連付けることができ、入力モダリティおよび出力モダリティは、いずれかの端部（本明細書で提供される教示が与えられると容易に理解されるように、その端部に対する実装および対応するシステム構成に応じた入力または出力）で同じモダリティのうちの１つまたは複数が異なるか、またはそれらを含む。

ブロック３８０で、検索結果に応答してアクションを実行する。

例示的なアクションは、例えば、コンピュータ処理システムにおける異常を認識し、異常が検出されるシステムを制御することを含むことができるが、これに限定されない。例えば、ハードウェアセンサまたはセンサネットワーク（例えば、メッシュ）からの時系列データの形態のクエリは、テキストメッセージをラベルとして使用して、異常な挙動（危険な、またはそうでなければ動作速度が速すぎる（例えば、モータ、ギアジャンクション）、危険な、またはそうでなければ過剰な動作熱（例えば、モータ、ギアジャンクション）、危険な、またはそうでなければ許容範囲外の整列（例えば、モータ、ギアジャンクションなど）として特徴付けることができる。処理パイプラインでは、初期入力時系列は、複数のテキストメッセージに処理され、次いで、所与のトピック（例えば、異常タイプ）に関して、よりフォーカスされた結果の出力時系列のためのテキストメッセージのサブセットを含むように再結合されることができる。したがって、装置は、実装に基づいて、オフにされ、その動作速度が低減され、アラインメント（例えば、ハードウェアベースの）手順が実行され、等々であり得る。

別の例示的なアクションは、履歴データに対する所与の出力時系列および／またはテキストコメントに等しい所与の動作状態の検出時に、オンまたはオフにすること、減速すること、スピードアップすること、位置調整することなどを含むハードウェアマシン制御機能などの他の機能を実行するために使用されるように、パラメータの経時変化の履歴をログ記録することができる動作パラメータトレーシングであり得る。

図５は、本発明の一実施形態による、図２のテキスト符号器２１２の例示的なアーキテクチャ５００を示すブロック図である。

アーキテクチャ５００は、単語埋め込み５１１、位置符号器５１２、畳み込み複数層５１３、正規化複数層５２１、畳み込み複数層５２２、スキップ接続５２３、正規化複数層５３１、自己注意複数層５３２、スキップ接続５３３、正規化複数層５４１、フィードフォワード複数層５４２、およびスキップ接続５４３を含む。アーキテクチャ５００は、埋め込み出力５５０を提供する。

上記の要素は、変換ネットワーク５９０を形成する。

入力はテキスト節である。入力の各トークンは、単語埋め込み層５１１によって単語ベクトルに変換される。次に、位置符号器５１２は、各トークンの位置埋め込みベクトルをトークンの単語ベクトルに追加する。結果として得られる埋め込みベクトルは、最初の畳み込み層５１３に供給され、その後、一連の残差畳み込みブロック５０１（図示および簡潔さのために１つが示されている）が続く。各残差畳み込みブロック５０１は、バッチ正規化層５２１および畳み込み層５２２と、スキップ接続５２３とを含む。次に、残差自己注意ブロック５０２がある。残差自己注意ブロック５０２は、バッチ正規化層５３１、自己注意層５３２、およびスキップ接続５３３を含む。次に、残差フィードフォワードブロック５０３がある。残差フィードフォワードブロック５０３は、バッチ正規化層５４１と、完全に接続された線形フィードフォワード層５４２と、スキップ接続５４３とを含む。このブロックからの出力ベクトル５５０は、変換ネットワーク全体の出力であり、入力テキストの特徴ベクトルである。

この特定のアーキテクチャ５００は、テキストメッセージをベクトルに符号化する目的を満たすことができる多くの可能なニューラルネットワークアーキテクチャのうちの１つにすぎない。上記の特定の実装に加えて、テキスト符号器は、再帰的ニューラルネットワークまたは１次元畳み込みニューラルネットワークの多くの変形を使用して実装することができる。これらおよび他のアーキテクチャの変形は、本明細書で提供される本発明の教示を前提として、当業者によって容易に企図される。

図６は、本発明の一実施形態による、図２の時系列符号器２１１の例示的なアーキテクチャ６００を示すブロック図である。

アーキテクチャ６００は、単語埋め込み６１１、位置符号器６１２、畳み込み層６１３、正規化層６２１、畳み込み層６２２、スキップ接続６２３、正規化層６３１、自己注意層６３２、スキップ接続６３３、正規化層６４１、フィードフォワード層６４２、およびスキップ接続６４３を含む。アーキテクチャは、出力６５０を提供する。

上記の要素は、変換ネットワーク６９０を形成する。

入力は、固定長の時系列である。各時点におけるデータベクトルは、完全接続層によって高次元潜在ベクトルに変換される。次に、位置符号器は、各タイムポイントの潜在ベクトルに位置ベクトルを付加する。結果として得られる埋め込みベクトルは、最初の畳み込み層６１３に供給され、その後に、一連の残差畳み込みブロック６０１（図示および簡潔さのために１つが示されている）が続く。各残差畳み込みブロック６０１は、バッチ正規化層６２１および畳み込み層６２２と、スキップ接続６２３とを含む。次に、残差自己注意ブロック６０２がある。残差自己注意ブロック６０２は、バッチ正規化層６３１、自己注意層６３２、およびスキップ接続６３３を含む。次に、残差フィードフォワードブロック６０３がある。残差フィードフォワードブロック６０３は、バッチ正規化層６４１と、完全に接続された線形フィードフォワード層６４２と、スキップ接続６４３とを含む。このブロックからの出力ベクトル６５０は、変換ネットワーク全体の出力であり、入力時系列の特徴ベクトルである。

この特定のアーキテクチャ６００は、時系列をベクトルに符号化する目的を満たすことができる多くの可能なニューラルネットワークアーキテクチャのうちの１つにすぎない。さらに、時系列符号器は、再帰的ニューラルネットワークまたは時間的拡張畳み込みニューラルネットワークの多くの変形を使用して実施することができる。

図７は、本発明の一実施形態による例示的なコンピューティング環境７００を示すブロック図である。

環境７００は、サーバ７１０、複数のクライアント装置（図参照番号７２０によって総称される）、被制御システムＡ７４１、被制御システムＢ７４２、および遠隔データベース７５０を含む。

環境７００のエンティティ間の通信は、１つまたは複数のネットワーク７３０を介して実行することができる。説明のために、無線ネットワーク７３０が示されている。他の実施形態では、エンティティ間の通信を容易にするために、有線、無線、および／またはそれらの組合せのいずれかを使用することができる。

サーバ７１０は、クライアント装置７２０からクエリを受信する。クエリは、時系列形式またはテキストコメント形式にすることができる。サーバ７１０は、（クエリから抽出された特徴ベクトルと共に特徴空間を移入するための特徴ベクトルを得るために）遠隔データベース７５０にアクセスすることによって導出されたクエリ結果に基づいて、システム７４１および／または７４２のうちの１つを制御することができる。一実施形態では、クエリは、制御されるシステム７４１および／または７４２に関連するデータ、例えば、センサデータであってもよいが、これに限定されない。

データベース７５０は、リモートとして示されており、分散環境内の複数の被監視システム間で共有されることが想定されているが（７４１および７４２など、数百の被監視制御システムを有することは可能ではないが）、他の実施形態では、データベース７５０をサーバ７１０に組み込むことができる。

本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェアおよびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されないソフトウェアで実施される。

実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するためのプログラムコードを提供する、コンピュータ使用可能またはコンピュータ可読媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、またはトランスポートする任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム（または装置またはデバイス）、または伝搬媒体とすることができる。媒体は、半導体または固体ステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。

各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能コンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置（例えば、プログラムメモリまたは磁気ディスク）に実体的に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で実施されるものと考えることができ、その場合、構成された記憶媒体は、コンピュータを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。

プログラムコードを記憶および／または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも１つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力／出力またはＩ／Ｏ装置（キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない）は、直接または介在するＩ／Ｏコントローラを介してシステムに結合され得る。

介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたはストレージデバイスに結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネット（登録商標）カードは、現在使用可能なネットワークアダプタのタイプの一例に過ぎない。

本明細書において、本発明の「一実施形態」又は「一実施形態」とは、その他の変形例と同様に、その実施形態に関連して説明した特定の特徴、構造、特性等が、本発明の少なくとも一実施形態に含まれることを意味するものであり、「一実施形態において」又は「一実施形態において」の語句の出現、並びに本明細書全体の様々な箇所に出現する他の変形例は、必ずしも全て同一の実施形態を意味するものではない。しかしながら、本明細書で提供される本発明の教示を前提として、１つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。

以下の「／」、「および／または」、および「少なくとも１つ」、例えば、「Ａ／Ｂ」、「Ａおよび／またはＢ」、および「ＡおよびＢの少なくとも１つ」のいずれかの使用は、第１のリストされた実施例（Ａ）のみの選択、または第２のリストされた実施例（Ｂ）のみの選択、または両方の実施例（ＡおよびＢ）の選択を包含することが意図されることを理解されたい。さらなる例として、「Ａ、Ｂ、および／またはＣ」、および「Ａ、Ｂ、およびＣの少なくとも１つ」の場合、このような句は、第１のリストされた実施例（Ａ）のみの選択、または第２のリストされた実施例（Ｂ）のみの選択、または第３のリストされた実施例（Ｃ）のみの選択、または第１および第２のリストされた実施例（ＡおよびＢ）のみの選択、または第１および第３のリストされた実施例（ＡおよびＣ）のみの選択、または第２および第３のリストされた実施例（ＢおよびＣ）のみの選択、または３つすべての実施例（ＡおよびＢおよびＣ）の選択を包含することを意図する。これは、列挙された項目の数だけ拡張することができる。

上記は、あらゆる点で例示的かつ例示的であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は、詳細な説明からではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許状によって保護されることが請求され、望まれるものは、添付の特許請求の範囲に記載されている。

Claims

クロスモーダルデータ検索のためのコンピュータ処理システムであって、
（ｉ）時系列と（ｉｉ）自由形式テキストコメントとの２つの異なるモダリティに関連するトリプレットロスに基づいて共同して訓練され、それぞれが時系列の訓練セットと自由形式テキストコメントの訓練セットとに対応する時系列符号器（２１１）とテキスト符号器（２１２）とを有するニューラルネットワークと、
前記訓練セットの符号化から抽出された特徴ベクトルと共に前記訓練セットを記憶し、前記符号化は、前記時系列符号器を使用して時系列の前記訓練セット内の前記時系列を符号化し、前記テキスト符号器を使用して自由形式テキストコメントの前記訓練セット内の前記自由形式テキストコメントを符号化することによって得られる、データベース（２０５）と、
テスト時系列とテスト自由形式テキストコメントとのうちの少なくとも１つに関連するテスト入力に対応する少なくとも１つの特徴ベクトルと共に特徴空間に挿入するために前記データベースから前記２つの異なるモダリティのうちの少なくとも１つに対応する特徴ベクトルを検索し、距離基準に基づいて前記特徴空間内の前記特徴ベクトルの中から最近傍のセットを決定し、前記最近傍のセットに基づいて前記テスト入力に対するテスト結果を出力するためのハードウェアプロセッサ（１１０）とを有するコンピュータ処理システム。
前記トリプレットロスは、第１および第２のトリプレットの値が同じ意味クラスからのものであり、第３のトリプレットの値が、前記２つの異なるモダリティのうちの様々な１つが特徴付けられる複数の意味クラスのうちの異なる意味クラスからのものであるように、前記２つの異なるモダリティの両方からのトリプレットに対するものである、請求項１に記載のコンピュータ処理システム。
前記ハードウェアプロセッサ（１１０）は、時系列の前記訓練セットと自由形式テキストコメントの前記訓練セットとのうちの少なくとも１つに対応するトリプレットにサンプリング方法を適用することによって、前記特徴空間への挿入を実行し、前記サンプリング方法は、所定のタプル内の少なくとも２つの異なる意味クラスを閾値マージン違反量未満だけ分離する事前に指定されたマージンの外側にある前記特徴ベクトルのうちの特定の１つのみを選択する、請求項１に記載のコンピュータ処理システム。
前記時系列符号器（２１１）および前記テキスト符号器（２１２）は、前記訓練セットからの同じ意味クラスのインスタンスに学習変換を適用した後、前記同じ意味クラスのインスタンスが、所与の閾値距離内の前記特徴空間内で近接したままである一方、異なる意味クラスのインスタンスが、前記所与の閾値距離とは異なる少なくとも指定されたマージン距離だけ前記特徴空間内で分離されるように、前記学習変換によって共同で訓練される、請求項１に記載のコンピュータ処理システム。
前記ハードウェアプロセッサ（１１０）は、前記訓練セットのうちの少なくとも１つに対応するトリプレットにサンプリング方法を適用することによって、前記特徴空間への挿入を実行し、前記サンプリング方法は、閾値マージン違反量未満だけ前記事前に指定されたマージン距離の外側にある前記特徴ベクトルのうちの特定の１つのみを選択する、請求項４に記載のコンピュータ処理システム。
前記テスト入力は、前記時系列符号器に適用される任意の長さの入力時系列であり、１つ以上の自由形式テキストコメントの形式で前記入力時系列の説明として前記テスト結果を取得する、請求項１に記載のコンピュータ処理システム。
前記テスト入力は、前記テキスト符号器に適用される任意の長さの入力自由形式テキストコメントであり、前記テスト結果を、前記入力自由形式テキストコメントと同じ意味クラスを有する１つまたは複数の時系列として取得する、請求項１に記載のコンピュータ処理システム。
前記テスト入力は、前記特徴空間への挿入のための第１のベクトルを得るために前記時系列符号器に適用される任意の長さの入力時系列と、前記特徴空間への挿入のための第２のベクトルを得るために前記テキスト符号器に適用される任意の長さの入力自由形式テキストコメントとの両方を含む、請求項１に記載のコンピュータ処理システム。
前記トリプレットロスは、確率的勾配降下を使用して前記ニューラルネットワークのパラメータを更新することによって最適化される、請求項１に記載のコンピュータ処理システム。
前記テスト入力は、テキストセグメント、時系列セグメント、および別のテキストセグメントのタプルを含む、請求項１に記載のコンピュータ処理システム。
前記ニューラルネットワークの複数の畳み込み層がローカルコンテキストを捕捉し、前記ニューラルネットワークの変換されたネットワークが、前記ローカルコンテキストに対する長期コンテキスト依存性を捕捉する、請求項１に記載のコンピュータ処理システム。
前記テスト入力は、ハードウェアシステムの異常検出のための少なくとも１つのハードウェアセンサの所与の時系列データを含む、請求項１に記載のコンピュータ処理システム。
前記ハードウェアプロセッサ（１１０）は、テスト結果に応答して前記ハードウェアシステムを制御する、請求項１２に記載のコンピュータ処理システム。
クロスモーダルデータ検索のためのコンピュータ実装された方法であって、
トリプレットロスに基づく時系列符号器とテキスト符号器とを有するニューラルネットワークを共同で訓練すること（３００）を含み、前記トリプレットロスは、（ｉ）時系列と（ｉｉ）自由形式テキストコメントとの２つの異なるモダリティに関連し、これらはそれぞれ、時系列の訓練セットと自由形式テキストコメントの訓練セットとに対応し、
データベースに、前記訓練セットの、前記時系列符号器を使用して時系列の訓練セット内の前記時系列を符号化し、前記テキスト符号器を使用して自由形式テキストコメントの前記訓練セット内の前記自由形式テキストコメントを符号化することによって得られる符号化から抽出された特徴ベクトルと共に前記訓練セットを記憶すること（３３０）と、
テスト時系列とテスト自由形式テキストコメントとの少なくとも１つに関連するテスト入力に対応する少なくとも１つの特徴ベクトルと共に特徴空間に挿入するために、前記データベースから前記２つの異なるモダリティの少なくとも１つに対応する特徴ベクトルを検索すること（３６０）と、
ハードウェアプロセッサによって、距離基準に基づいて前記特徴空間内の前記特徴ベクトルの中から最近傍のセットを決定し（３７０）、前記最近傍のセットに基づいて前記テスト入力に対するテスト結果を出力すること（３７０）とを含むコンピュータ実装された方法。
前記トリプレットロスは、第１および第２のトリプレットの値が同じ意味クラスからのものであり、第３のトリプレットの値が、前記２つの異なるモダリティのうちの様々な１つが特徴付けられる複数の意味クラスのうちの異なる意味クラスからのものであるように、前記２つの異なるモダリティの両方からのトリプレットに対するものである、請求項１４に記載のコンピュータ実装された方法。
前記特徴空間への挿入は、時系列の前記訓練セットと自由形式テキストコメントの前記訓練セットとのうちの少なくとも１つに対応するトリプレットにサンプリング方法を適用することによって実行され、前記サンプリング方法は、所定のタプル内の少なくとも２つの異なる意味クラスを閾値マージン違反量未満だけ分離する事前に指定されたマージンの外側にある前記特徴ベクトルのうちの特定の１つのみを選択する、請求項１４に記載のコンピュータ実装された方法。
前記時系列符号器および前記テキスト符号器は、前記訓練セットからの同じ意味クラスのインスタンスに学習変換を適用した後、前記同じ意味クラスのインスタンスが、所与の閾値距離内の前記特徴空間内で近接したままである一方で、異なる意味クラスのインスタンスが、前記所与の閾値距離とは異なる少なくとも指定されたマージン距離だけ前記特徴空間内で分離されるように、前記学習変換によって共同で訓練される、請求項１４に記載のコンピュータ実装された方法。
前記特徴空間への挿入は、前記訓練セットのうちの少なくとも１つに対応するトリプレットにサンプリング方法を適用することによって実行され、前記サンプリング方法は、閾値マージン違反量未満だけ前記事前に指定されたマージン距離の外側にある前記特徴ベクトルのうちの特定の１つのみを選択する、請求項１７に記載のコンピュータ実装された方法。
前記テスト入力は、前記時系列符号器に適用される任意の長さの入力時系列であり、１つ以上の自由形式テキストコメントの形式で前記入力時系列の説明として前記テスト結果を取得する、請求項１４に記載のコンピュータ実装された方法。
クロスモーダルデータ検索のためのコンピュータプログラム製品であって、コンピュータに方法を実行させるために前記コンピュータによって実行可能なプログラム命令を有する、一時的でないコンピュータ読み取り可能な記憶媒体を含むコンピュータプログラム製品であって、前記方法は、
トリプレットロスに基づく時系列符号器とテキスト符号器とを有するニューラルネットワークを共同で訓練すること（３００）を含み、前記トリプレットロスは、（ｉ）時系列と（ｉｉ）自由形式テキストコメントとの２つの異なるモダリティに関連し、これらはそれぞれ、時系列の訓練セットと自由形式テキストコメントの訓練セットに対応し、
データベースに、前記訓練セットの、前記時系列符号器を使用して時系列の訓練セット内の前記時系列を符号化し、前記テキスト符号器を使用して自由形式テキストコメントの前記訓練セット内の前記自由形式テキストコメントを符号化することによって得られる符号化から抽出された特徴ベクトルと共に前記訓練セットを記憶すること（３３０）と、
テスト時系列とテスト自由形式テキストコメントとの少なくとも１つに関連するテスト入力に対応する少なくとも１つの特徴ベクトルと共に特徴空間に挿入するために、前記データベースから前記２つの異なるモダリティの少なくとも１つに対応する特徴ベクトルを検索すること（３６０）と、
前記コンピュータのハードウェアプロセッサによって、距離基準に基づいて前記特徴空間内の前記特徴ベクトルの中から最近傍のセットを決定し（３７０）、前記最近傍のセットに基づいて前記テスト入力に対するテスト結果を出力することとを含むコンピュータプログラム製品。