JP7257585B2

JP7257585B2 - 深層ｃｃａ及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法

Info

Publication number: JP7257585B2
Application number: JP2022505536A
Authority: JP
Inventors: ユンコンチェン、; ファオユアン、; クリスチャンルメザヌ、; ハイフォンチェン、; 毅彦溝口; ドンジンソン、
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-08-21
Filing date: 2020-08-19
Publication date: 2023-04-13
Anticipated expiration: 2040-08-19
Also published as: US20210056127A1; DE112020003909T5; JP2022544047A; WO2021034941A1

Description

この出願は、２０１９年８月２１日に出願された米国特許仮出願第６２／８９０，０１３号、２０２０年５月７日に出願された米国特許仮出願第６３／０２１，２０８号及び２０２０年８月１８日に出願された米国特許出願第１６／９９６，１１０号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、時系列データに関し、より詳細には、深層正準相関分析（deep canonical correlation analysis：ＣＡＡ）及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法に関する。

時系列（Time-series：ＴＳ）データは、ビッグデータ時代において広く行き渡っている。１つの事例は、多数のセンサの読み取り値が複雑な時系列を構成する工業的なモニタリングである。現代のデータ分析ソフトウェアは、機械学習を用いて時系列からパターンを検出する。しかしながら、現在の分析ソフトウェアは、あまり使い易くない。例えば、以下の問題が非常に一般的である。機械学習システムは、特定の区分のタスクを実行できるが、結果は通常、説明なしに返される。ユーザは、より詳細かつ自然な方法で提示される機械の分析結果を望んでいる。時系列データの量が増加し続けるにつれて、履歴データの自動検索が必要になる。従来、セグメントの一例が検索クエリとして使用されていた。但し、多くの場合、より記述的なクエリを使用する必要がある。構造化照会言語（structured query language：ＳＱＬ）等のデータベースクエリ言語はより複雑な評価基準を表す場合があるが、標準的なユーザには理解できない。

一方、多くの現実世界のシナリオでは、時系列にはドメインの専門家によって書かれたテキストコメントがタグ付けされる。例えば、発電所のオペレータがセンサの故障に気付いたとき、該オペレータは、信号形状、原因、解決策及び予想される将来の状態を記述する注記を書くことがある。そのようなデータは、２つのモダリティの一対の事例を含む。施設には、そのようなマルチモーダルデータを、その操業の過程で大量に蓄積している可能性がある。マルチモーダルデータは、時系列データと人の記述との関係を学習するために使用できる。マルチモーダルデータは、特定のアプリケーションドメインの知識を学習するための良好なリソースでもある。そのようなデータは、取得するのに費用がかかるにもかかわらず、現在、そのようなマルチモーダルデータを簡易に利用する方法はない。

深層正準相関分析（canonical correlation analysis：ＣＣＡ）及びペアワイズクエリを備える能動学習を用いる、ペアのマルチモーダルデータに関する埋め込み学習及びクラスタリングのためのコンピュータ実装方法を提供する。本方法では、複数のセンサから時系列データを収集し、教師なしにおいて、時系列データ及び関連するコメントテキストを用いてクロスモーダル検索システムを訓練し、クエリのモダリティに応じて、時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される、前記関連するコメントテキストを取得し、関連する時系列セグメントが文またはキーワードのセットと一致するように、文またはキーワードのセットが与えられた、関連する時系列セグメントを取得し、属性の第１のサブセットがキーワードのセットに一致し、属性の第２のサブセットが時系列セグメントと類似するように、時系列セグメント及びキーワードの文章またはセットが与えられた、関連する時系列セグメントを取得する。

深層正準相関分析（ＣＣＡ）及びペアワイズクエリによる能動学習を使用して、学習及びクラスタリングするためのコンピュータ可読プログラムを備える非一時的コンピュータで読み取り可能な記録媒体が提供される。コンピュータで読み取り可能なプログラムは、コンピュータで読み取り可能なプログラムがコンピュータで実行されると、コンピュータに、
複数のセンサから時系列データを収集させ、教師なしにおいて、時系列データ及び関連するコメントテキストを用いてクロスモーダル検索システムを訓練させ、クエリのモダリティに応じて、時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される、前記関連するコメントテキストを取得させ、関連する時系列セグメントが文またはキーワードのセットと一致するように、文またはキーワードのセットが与えられた、関連する時系列セグメントを取得させ、属性の第１のサブセットがキーワードのセットに一致し、属性の第２のサブセットが時系列セグメントと類似するように、時系列セグメント及びキーワードの文章またはセットが与えられた、関連する時系列セグメントを取得させる。

深層正準相関分析（ＣＣＡ）とペアワイズクエリを用いた能動学習を用いて、ペアのマルチモーダルデータの学習とクラスタリングを埋め込むシステムが提供される。このシステムは、メモリと、
複数のセンサから時系列データを収集し、教師なしにおいて、時系列データ及び関連するコメントテキストを用いてクロスモーダル検索システムを訓練し、クエリのモダリティに応じて、
時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される、前記関連するコメントテキストを取得し、関連する時系列セグメントが文またはキーワードのセットと一致するように、文またはキーワードのセットが与えられた、関連する時系列セグメントを取得し、属性の第１のサブセットがキーワードのセットに一致し、属性の第２のサブセットが時系列セグメントと類似するように、時系列セグメント及びキーワードの文章またはセットが与えられた、関連する時系列セグメントを取得する（１３０５）ように構成された、前記メモリと通信する１つまたは複数のプロセッサと、を有する。

これらの及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。

本開示では、以下の図面を参照しながら好ましい実施形態について、以下で詳細に説明する。

図１は、本発明の一実施形態による、例示的な訓練手順全体のブロック／フロー図である。

図２は、本発明の一実施形態による、例示的な深層正準相関分析（ＣＣＡ）段階のブロック／フロー図である。

図３は、本発明の一実施形態による、例示的な半教師あり段階のブロック／フロー図である。

図４は、本発明の一実施形態による、ガウス混合モデル（ＧＭＭ）に基づく例示的な能動クエリ選択のブロック／フロー図である。

図５は、本発明の一実施形態による、能動スペクトルクラスタリングに基づく例示的なクエリ選択のブロック／フロー図である。

図６は、本発明の一実施形態による、例示的なクラスタリング手順のブロック／フロー図である。

図７は、本発明の一実施形態による、見えないクエリの関連データを取り出すための例示的な方法のブロック／フロー図である。

図８は、本発明の一実施形態による、自然言語による時系列の検索のための例示的な方法のブロック／フロー図である。

図９は、本発明の一実施形態による、結合モダリティ検索を使用するための例示的な方法のブロック／フロー図である。

図１０は、本発明の一実施形態による、例示的なクロスモード検索システムのブロック／フロー図である。

図１１は、本発明の一実施形態による、テキストコメントエンコーダの例示的なアーキテクチャのブロック／フロー図である。

図１２は、本発明の一実施形態による、ＣＣＡ及び能動ペアワイズクエリを使用するマルチモーダル検索及びクラスタリングのための例示的な処理システムのブロック／フロー図である。

図１３は、本発明の一実施形態による、ＣＣＡ及び能動ペアワイズクエリを使用するマルチモーダル検索及びクラスタリングのための例示的な方法のブロック／フロー図である。

図１４は、本発明の一実施形態による、ＣＣＡ及び能動ペアワイズクエリを使用するマルチモーダル検索及びクラスタリングのための実際のアプリケーションのブロック／フロー図である。

現実世界における時系列は、しばしばドメインの専門家によって書かれたテキストコメントでタグ付けされる。多くの既存の研究はテキストコメントの役割をクラスラベルに縮小するが、全テキストコメントを分析し、該テキストコメントを時系列と併せて考慮することで、より深く理解することができる。

時系列データは、ビッグデータ時代において広く行き渡っている。１つの事例は、工業施設（例えば、発電所）内の多数のセンサからの読み取り値が複雑なパターンを示す時系列を構成する工業的なモニタリングである。アルゴリズムは、時系列パターンを自動的に分析し、特定のタスクを解決するように設計されてきたが、これらの結果は、通常、ユーザ（人）に理解可能な説明が無く与えられる。これは、ユーザにおける結果に関する信頼性を著しく低下させ、自動分析が実際の決定プロセスに及ぼし得る潜在的な影響を制限する。

一方、時系列の有意義な解釈には、しばしばドメインの専門知識が必要である。多くの現実世界のシナリオでは、時系列が専門家によって書かれたコメントでタグ付けされる。場合によっては、コメントはカテゴリラベルにすぎないが、自由形式の自然テキストであることが多い。これらの専門家が書いたコメントは読むことが可能であり、精巧であり、ドメイン固有の理解を提供する。例えば、発電所のオペレータからのコメントには、異常信号の形状、根本原因、問題を是正するために取られる措置及び将来の状態の予測を含み得る。

これらは、ユーザが望む時系列に関して、高品質で効果的な説明のタイプである。さらに、テキストをクエリとして使用して関連する時系列セグメントを検索する必要がある。従来の単一モダリティ時系列検索システムと比べて、所望のターゲットの特性を記述するテキストを使用すると、セマンティック／抽象的で潜在的に複雑なクエリを自然な方法で形成できる。これは、ユーザの期待に合致する、より高い精度の検索結果に置き換える。

さらに、コメントデータは、多くの施設において、それらの操作の過程で蓄積されてきた。専門家からコメントを求めるコストが高いにもかかわらず、それらの大部分は、通常、再利用されない。過去のコメントは、明らかに貴重なドメイン知識を含むが、過去のコメントから価値を抽出する簡易な方法は現在存在しない。そのような知識は、そのドメインにおける重要なコンセプトを含み得る。発電所の運転のコンテキストにおいて、該コンセプトには蒸気圧及びバルブをオフにする操作を含み得る。言い換えれば、コメントはドメイン固有の知識ベースを構築するための資料を含む。関連する時系列の利用可能性は、データの追加の見解のために、コンセプト発見に関するより多くの可能性を提供する。

本発明の例示的な実施形態は、このような問題に対処するための統一されたアプローチを導入する。より具体的には、本発明の例示的な方法は、潜在的にマルチモーダルなクエリ（例えば、時系列セグメント及び／またはテキスト記述）が与えられた場合に関連する時系列セグメントまたはテキストコメントを取り出すための方法と、マルチモーダルデータセットの基礎をなす共通コンセプトを自動的に見出すための方法とを提供する。検索のために本発明の例示的な実施形態を使用するいくつかのモードがある。すなわち、時系列セグメントが与えられると、該時系列セグメントの人が読める説明として使用できる関連コメントを検索する。自然言語検索、すなわち文またはキーワードのセットが与えられると、関連する時系列セグメントを検索する。結合モダリティ検索、すなわち時系列セグメントと文またはキーワードのセットが与えられた場合、属性の部分セットがキーワードと一致し、残りの属性が与えられた時系列セグメントとほぼ同じまたは類似するように、関連する時系列セグメントを検索する。

高レベルにおいて、本発明の例示的な方法は、時系列セグメント及びテキストコメントを共通の潜在空間におけるポイントに変換し、その結果、同じクラスにおける事例及び同じペアにおける事例が互いに接近する。クロスモーダル検索は、この共通空間におけるクエリの最近傍を見つけることで実行される。コンセプトの発見は、この空間におけるデータポイントをクラスタ化することで実行される。

単なる教師ありまたは教師なしの方法と比べて、本発明の例示的な方法は、能動半教師あり学習を使用し、その結果、人の知識が学習を導くことが可能になり、一方で手作業によるラベル付けの労力が性能を犠牲にすることなく著しく低減できる。

ほとんどの能動学習アルゴリズムは、個々の事例のラベルをクエリする。しかしながら、実際には、新しいアプリケーションドメインのデータセットに含まれるコンセプトのセットはしばしば未知であり、注釈者が個々の事例に関するラベルを提供することを困難にしている。この目的ために、本発明の例示的な方法は、２つの事例が同じコンセプトに属するか否かに関するクエリのみを使用する。十分な数のペアワイズラベルを得た後、本発明の例示的な方法は、コンセプトのセット及び全ての事例のラベルを推測することを選択できる。

本発明の例示的な方法は、教師なしの方針として、深層正準相関分析（ＣＣＡ）を使用する。ＣＣＡは、２つのモダリティにおける相関情報が強調され、無相関情報（ノイズ）が最小化されるように、時系列セグメント及びテキストデータの変換を見出す。その結果、変換されたデータはクラスタ化された構造を示す傾向がある。

本発明の例示的な方法は、事前訓練段階及び能動学習段階の両方において、教師ありの方針のための正則化器として深層ＣＣＡを使用する。教師ありの方針は、モダリティにかかわらず、同じクラスの事例が異なるクラスの事例よりも互いに近くなるように埋め込みを促す。能動スペクトルクラスタリング及びガウス混合モデル（Gaussian mixture model：ＧＭＭ）に基づく２つの能動ペアワイズクエリの選択戦略を使用できる。

ブロック１０１において、マルチモードデータセットが取得される。

ブロック１０３において、深層ＣＣＡを用いて事前訓練が実行される。

ブロック１０５において、半教師あり学習が実行される。

ブロック１０７において、時系列セグメントエンコーダが使用される。

ブロック１０９において、テキストエンコーダが使用される。

全ての訓練手順は、以下のアルゴリズム１で示される。第１段階は、深層ＣＣＡを有する両方のエンコーダの教師なし事前訓練である。結果として得られる埋め込みに基づいて、第２段階はＣＣＡ正則化能動学習である。各ラウンドにおいて、能動スペクトルクラスタリングによって、またはＧＭＭ事後エントロピーベースの戦略によって、固定数の事例ペアが選択される。それらは、ドメイン知識またはいくつかの主観的基準に基づいて関係ラベルを割り当てる注釈者に示される。実際には、任意のペアのラベルを使用して、２つの事例並びにその対向モダリティにおけるそれらの対応物からなる４つの事例の間の４つの関係を定義できることに留意されたい。次に、これまでに取得された全てのラベルを使用して、本発明の例示的な実施形態は、収束するまで両方のエンコーダを訓練する。この抽出／訓練の反復は、クエリバジェットに到達するまで繰り返される。

図１をさらに参照すると、この手順は、各ペアが時系列セグメントとテキストコメントパッセージとを含む、ペアを成すデータのデータベースを獲得することから始まる。ペアを成すデータのデータベースが与えられると、各ペアは時系列セグメントとテキストコメントパッセージを含む。データペアの総数はｎで示される。本発明の例示的な方法は、ｉ番目のデータペアを（ｘ^（ｉ），ｙ^（ｉ））で示す。ここで、ｘ^（ｉ）は時系列セグメントであり、ｙ^（ｉ）はテキストコメントである。i番目の時系列セグメントの特徴ベクトルは

である。ｉ番目のテキストコメントの特徴ベクトルは

である。

は時系列セグメントの特徴行列であり、Ｈ_１のｉ番目の行を

とする。

は同様に定義されたテキストコメントの特徴行列である。

エンコーダ１０７、１０９は、深層ＣＣＡ１０３を用いて事前訓練される。その後、半教師あり学習段階１０５において、エンコーダ１０７、１０９は、深層ＣＣＡ正則化と共に、クエリされたペアワイズラベルに基づく教師あり損失を使用してさらに訓練される。２つの訓練済みのエンコーダ１０７、１０９は、この手順の結果である。

この手順の全相関計算部分の擬似コードは以下である。

ブロック２０１において、時系列セグメント及びテキストコメントが時系列エンコーダ及びテキストエンコーダをそれぞれ通過する。さらに、潜在的特徴が取得される。

ブロック２０３において、共分散行列が計算される。

ブロック２０５において、正規化共分散行列Ｓが計算される。

ブロック２０７において、Ｓの特異値分解が取得される。

ブロック２０９において、全固有値を合計することで全相関が計算される。

ブロック２１１において、エンコーダパラメータは、確率的勾配降下法によって更新される。

図３は、半教師あり学習段階の手順を示している。

本手順は、事前訓練済みのエンコーダから開始する。

ブロック３０１において、時系列セグメント及びテキストコメントが時系列及びテキストエンコーダをそれぞれ通過する。さらに、特徴ベクトルが取得される。

ブロック３０３において、提案された戦略の１つを用いてペアを選択し、選択されたペアのラベルに関する注釈をクエリする。

ブロック３０５において、今までにクエリされた全てのペアのラベルに基づいて、教師あり損失Ｌ_ｓｕｐを計算する。

ブロック３０７において、擬似コードライン２－７による総相関ｃを計算する。

ブロック３０９において、教師あり損失と総相関とを結合して全損失を得る。

ハイパーパラメータηは、交差検証によって選択される。

ブロック３１１において、両方のエンコーダのパラメータに関する総相関の勾配を計算する。さらに、確率的勾配降下法によってパラメータを更新する。

ＣＣＡ正則化半教師あり学習に関して、ＣＣＡを用いた事前訓練の後、半教師あり学習段階において、本発明の例示的な方法は、適応クエリと教師あり訓練とを交互に行う。適応クエリのために、本発明の例示的な方法は、２つの戦略（以下で詳述される）のうちのいずれか１つを用いてデータのペアを適応的に選択し、注釈者からそれらのペアワイズ関係ラベルをクエリする。ペアワイズ関係ラベルは、それらが同じクラスと考えられる場合は１（「必須リンク」）、それらが異なるクラスと考えられる場合は－１（「非リンク」）のいずれか一方である。一方で、教師あり訓練は、これらのクエリされた関係ラベルを用いて、教師ありペアワイズ損失及び教師なし深層ＣＣＡ損失の両方を有するエンコーダをさらに改善する。

クエリされたペア（ｉ，ｊ）ごとに、注釈者がそれらを同じクラスと見なす場合は関係ラベルｃ_ｉｊ＝１となり、そうでなければｃ_ｉｊ＝－１となる。全てのラベル付けされたペアのセットをＳで示す。ペアワイズ損失は、コサイン類似度を用いて計算される。

最初に、Ｓは少しの事例のペアしか含まないため、ペアワイズ損失のみを使用することは過剰適合を引き起こす傾向がある。これに対処するため、本発明の例示的な方法は、２つのモダリティのグローバルな一貫性を維持するための正則化としてＣＣＡの相関最大化の目的を含む。この正則化は、非常に低いバジェット下における能動学習の成功に有益であることが示されている。

したがって、全体の損失は、次のように定式化される。

ここで、ηは正則化の強度を制御する。

図４及び図５は、ペアワイズクエリを選択するための２つの可能な戦略の手順を示している。

図４は、ＧＭＭに基づいてペアワイズクエリを選択するための手順を示している。

ブロック４０１において、候補ペアのプールを全ペアで初期化する。

ブロック４０３において、ＧＭＭをデータに適合させる。

ブロック４０５において、全ての事例の事後確率を計算する。

ブロック４０７において、全ての事例に関するこれらの確率のエントロピーを計算する。

ブロック４０９において、総エントロピーが最大の事例のペアをプールから選択する。

ブロック４１１において、選択されたペアの数が所望の数に到達しない場合、選択されたペアと事例を共有する全てのペアをプールから削除し（ブロック４１３）、ブロック４０９に戻る。そうでない場合は、ブロック４１５に移行する。

ブロック４１５において、教師あり損失を計算し、全体の損失を得るために全相関と結合し、エンコーダパラメータを更新する。

この手順が終了すると、「半教師あり段階」（図３）の手順のブロック３０５へ移行する。

戦略１、ＧＭＭの事後不確定性。クラスの数の合理的な推定値が与えられると、本発明の例示的な方法は、ガウス混合モデルをデータに適合させる。本発明の例示的な実施形態は、各事例のクラス事後確率を計算する。この事後確率は、事例の各混合成分と関連する尤度を測定する。所属の不確定性は、事後のエントロピーによって定量化できる。ｐ（ｃｉ＝ｋ｜ｘｉ）で表されるｋ番目の成分に続いて、不確定性スコアｕｉは、

で計算される。

ペア（ｉ，ｊ）に対する不確定性スコアｕ_ｉｊは、両方の事例のエントロピーの合計として定義される。

次に、最も高い不確定性スコアを有するペアがクエリとして選択される。

図５は、能動スペクトルクラスタリングに基づいてペアワイズクエリを選択するための手順を示す。

ブロック５０１において、候補ペアのプールを全てのペアで初期化する。

ブロック５０３において、データのラプラシアン埋め込みを計算する。

ブロック５０５において、プール内の全てのペアの重みに関する第２の固有ベクトルの勾配のノルムを計算する。

ブロック５０７において、最大勾配ノルムを有する事例のペアをプールから選択する。

ブロック５０９において、選択されたペアの数が所望の数に到達しない場合、選択されたペアと事例を共有する全てのペアをプールから削除し（ブロック５１１）、ブロック５０７に戻る。そうでない場合はブロック５１３に移行する。

ブロック５１３において、教師あり損失を計算し、全体の損失を得るために全相関と結合し、エンコーダパラメータを更新する。

戦略２、能動スペクトルクラスタリング。従来の開示は、スペクトルクラスタリングの結果に対して最も影響する事例のペアを選択する戦略を提案している。クラスタリングが１つのモダリティのデータに対して実行されるか、または両方のモダリティのデータに対して実行されるかは重要ではないことが観察される。この深層ＣＣＡ事前訓練は、常にほぼユニット相関に収束し、その結果、２つの対応する事例は、通常、潜在空間において非常に近くなる。

埋め込みに関するガウスカーネルによって定義される事例のペア間の重みを示す、類似性行列をＷで表すと、

ラプラシアン行列は、以下のように計算される。

Ｌ＝Ｄ－Ｗ

ここで、Ｄ＝ｄｉａｇ（Ｗ１）であり、１は全て１のベクトルである。

Ｌのｐ番目の固有ベクトルと固有値をＶ_ｐとλ_ｐで表す。ペア（ｉ，ｊ）の重要度は、該ペアの重みに対する第２固有ベクトルｖ_２の勾配の大きさによって定量化される。

もう１つの方法は、最も不確実な事例に対するペアの影響のみを考慮する、より単純な変形例である。

ここで、ｋ_ｍｉｎ＝ａｒｇｍｉｎ_ｋ｜ｖ_２（ｋ）｜である。このスコアによれば、本発明の例示的な方法は、まだ選択されていない全ての事例のペアをランク付けし、最上位のペアが現在のラウンドのクエリとして選択される。

図６は、クラスタリングの手順を示している。

ブロック６０１において、訓練収束後、擬似コードと同様にＳの特異値分解、共分散行列Σ_１１、Σ_２２、Ｕ及びＶを取得する。

ブロック６０３において、特徴行列Ｈ_１及びＨ_２を変換することで白色化特徴Ｚ_１及びＺ_２を計算する。

ブロック６０５において、全ての時系列セグメント及び全てのテキストの白色化特徴を、それらのロウ（raw）形式と共に将来の検索のためにデータベースに保存する。

ブロック６０７において、任意のスタンダードなクラスタリングアルゴリズムを用いて、モダリティ、またはＺ_１あるいはＺ_２のいずれか一方の白色化特徴をクラスタリングする。例えば、本発明の例示的な方法は、Ｋ平均法を用いて、各インスタンスｘ^（ｉ）にラベルｌ^（ｉ）を割り当てる時系列セグメント特徴Ｚ_１をクラスタリングできる。さらに、本発明の例示的な方法は、ｌ^（ｉ）をｙ^（ｉ）に割り当てることができる。このステップで見つかったクラスタは、データセットから発見されたドメインコンセプトを構成する。

テストフェーズにおいて、タスクはクロスモード検索である。エンコーダ及びロウデータのデータベース、並びに両方のモダリティの特徴を利用可能にすることで、最近傍探索を用いて見えないクエリの関連データを検索できる。

クエリｘが時系列セグメントの場合、その特徴ｚは次のように計算される。

ｘがテキストコメントの場合、その特徴ｚは次のように計算される。

テストフェーズにおいて、エンコーダ及びロウデータのデータベース、並びに両方のモダリティの特徴が利用可能であるとき、最近傍探索を用いて見えないクエリの関連データを検索できる。

いくつかの応用シナリオの各々に対する特定の手順を、図７～図９を用いて以下で説明する。

図７は、本発明の一実施形態による、見えないクエリの関連データを検索するための例示的な方法のブロック／フロー図である。

ブロック７０１において、セグメントクエリを受け取る。

ブロック７０３において、時系列エンコーダニューラルネットワークが使用される。

ブロック７０５において、テキストの特徴がブロック７０９に供給される。

ブロック７０７において、セグメントクエリの特徴がブロック７０９に供給される。

ブロック７０９において、テキストの特徴及びセグメントクエリの特徴を同時に受信した後、最近傍探索アルゴリズムを使用する。

ブロック７１１において、関連するテキストコメントのリストが提供される。

ブロック８０１において、テキストクエリを受け取る。

ブロック８０３において、テキストエンコーダニューラルネットワークを使用する。

ブロック８０５において、セグメントの特徴がブロック８０９に供給される。

ブロック８０７において、テキストクエリの特徴がブロック８０９に供給される。

ブロック８０９において、セグメントの特徴及びテキストクエリの特徴を同時に受信した後、最近傍探索アルゴリズムを使用する。

ブロック８１１において、関連する時系列セグメントのリストが提供される。

ブロック９０１において、セグメントクエリを受け取る。

ブロック９０３において、時系列エンコーダニューラルネットワークを使用する。

ブロック９０５において、セグメントクエリの特徴がブロック９３１に供給される。

ブロック９０７において、テキストの特徴がブロック９３１に供給される。

ブロック９２１において、テキストクエリを受け取る。

ブロック９２３において、テキストエンコーダニューラルネットワークを使用する。

ブロック９２５において、テキストクエリの特徴がブロック９３１に供給される。

ブロック９３１において、テキストの特徴、セグメントクエリの特徴及びテキストクエリの特徴を同時に受信した後、最近傍探索アルゴリズムを使用する。

ブロック９３３において、関連するセグメントのリストが提供される。

クエリが任意の長さの時系列として与えられると、特徴ベクトルｘを得るために時系列エンコーダがフォワードパスされる。次に、本発明の例示的な方法は、データベースから、特徴がこのベクトル（例えば、最近傍）までの最小（ユークリッド）距離を有するｋ個のテキストインスタンスを見つける。これらのテキストインスタンスは、人が書いた自由形式のコメントであり、検索結果として返される。

自然言語による時系列の検索、すなわちクエリが自由形式のテキストパッセージ（例えば、単語または短文）として与えられると、それは、特徴ベクトルｙを得るためにテキストエンコーダを通過させられる。次に、本発明の例示的な方法は、データベースから、特徴がｙに対して最小距離を有するｋ個の時系列インスタンスを見つける。クエリテキストと同じ意味クラスを持ち、そのため該クエリとの関連性が高いこれらの時系列は、検索結果として返される。

結合モダリティ検索、すなわちクエリが（時系列セグメント、テキスト記述）のペアとして与えられると、該時系列は時系列エンコーダを通過して特徴ベクトルｘを取得し、テキスト記述はテキストエンコーダを通過して特徴ベクトルｙを取得する。次に、本発明の例示的な方法は、特徴がｘの最近傍であるｎ個の時系列セグメントと、特徴がｙの最近傍であるｎ個の時系列セグメントとをデータベースから見出し、それらの交点を取得する。本発明の例示的な方法は、ｎ＝ｋから開始する。交点におけるインスタンスの数がｋよりも少ない場合、本発明の例示的な方法は、少なくともｋ個のインスタンスが取得されるまでｎをインクリメントして検索を繰り返す。これらのインスタンスは、クエリ時系列とクエリテキストの両方と意味的に似ており、検索結果として返される。

図１０は、本発明の一実施形態による、例示的なクロスモーダル検索システムのブロック／フロー図である。

クロスモーダル検索システム１００１は、マルチモーダルニューラルネットワークを用いてテキスト及び時系列データをベクトル表現に符号化する。ニューラルネットワークは、ＴＳ－テキストペアのユーザ提供データベース１００３からの事例を用いて２段階訓練アルゴリズムによって訓練される。訓練１０１０は教師なしであり、このことは、これらのＴＳ－テキストペアのクラスラベルを必要とせず、このプロセスにおける人の関与を必要としないことを意味する。第１の段階は、（深層ＣＣＡ１０４２を用いる）深層ＣＣＡベースの事前訓練１０４０である。これは、エンコーダ１０３０が次の学習段階のための適正な表現を生成するように、ニューラルネットワークを調整する。第２段階は、能動クラスタリング１０５０である。一方はガウス混合モデル１０５４に基づくものであり、他方は能動スペクトルクラスタリング１０５６を使用する、２つのクエリペアの選択手順を使用できる。教師あり損失に加えて、この段階における方針は、深層ＣＣＡ１０５２による正則化をさらに含む。ニューラルネットワークエンコーダ１０３０が訓練された後、ユーザが提供したクエリによるデータベースからのデータの取得が検索アルゴリズム１０２０に従って実現される。

図１１は、本発明の一実施形態による、テキストコメントエンコーダの例示的なアーキテクチャ１１００のブロック／フロー図である。

本発明の例示的な方法は、各ペアが時系列セグメントとテキストコメントパッセージとを含む、ペアデータのデータベースを取得する。データペアの総数はｎで示される。ｉ番目のデータペアは（ｘ^（ｉ），ｙ^（ｉ））で示される。ここで、ｘ^（ｉ）は時系列セグメントであり、ｙ^（ｉ）はテキストである。

本発明の例示的な方法は、訓練フェーズ及びテストフェーズを含む。

本発明の例示的な方法の訓練フェーズは、一方が時系列セグメント用であり、他方がテキストコメント用である、２つのニューラルネットワークエンコーダを訓練することを含む。

時系列セグメントエンコーダ及びテキストエンコーダは、両方ともニューラルネットワークである。ｆで示される時系列セグメントエンコーダは、時系列セグメントを入力とする。ｇで示されるテキストエンコーダは、トークン化されたテキストコメントパッセージを入力とする。時系列エンコーダは、単語埋め込み層が全結合層に置き換えられることを除いて、テキストエンコーダとほぼ同じアーキテクチャを有する。アーキテクチャ１１００は、一連の畳み込み層１１１２と、それに続くトランスフォーマーネットワーク１１１０とを含む。畳み込み層１１１２はローカルコンテキスト（例えば、テキストデータのフレーズ）を捕捉する。トランスフォーマー１１１０は、シーケンスにおける長期依存性を符号化する。

処理システムは、システムバス１２０２を介して他のコンポーネントと動作可能に接続された、少なくとも１つのプロセッサまたはプロセッサ装置１２０４を含む。システムバス１２０２には、キャッシュ１２０６、リードオンリーメモリ（ＲＯＭ）１２０８、ランダムアクセスメモリ（ＲＡＭ）１２１０、入力／出力（Ｉ／Ｏ）アダプタ１２２０、ネットワークアダプタ１２３０、ユーザインタフェースアダプタ１２４０及びディスプレイアダプタ１２５０が動作可能に接続されている。時系列データ１２６０は、バス１２０２に接続されたセンサから収集できる。時系列データ１２６０は、深層ＣＣＡ及び能動ペアワイズクエリ１２３０を使用する、マルチモーダル埋め込み学習及び検索並びにクラスタリングを使用することで分析できる。

ストレージ装置１２２２は、Ｉ／Ｏアダプタ１２２０によってシステムバス１２０２に動作可能に接続されている。ストレージ装置１２２２は、ディスク記憶装置（例えば、磁気または光学ディスク記憶装置）、固体式磁気装置等のいずれかであってもよい。

トランシーバ１２３２は、ネットワークアダプタ１２３０によってシステムバス１２０２に動作可能に接続されている。

ユーザ入力装置１２４２は、ユーザインタフェースアダプタ１２４０によってシステムバス１２０２に動作可能に接続されている。ユーザ入力装置１２４２は、キーボード、マウス、キーパッド、イメージキャプチャ装置、モーションセンシング装置、マイクロフォン、あるいはこれらの装置の少なくとも２つの装置の機能を組み込んだ装置等のいずれであってもよい。もちろん、本原理の趣旨を維持する限りにおいて、他のタイプの入力装置を使用することも可能である。ユーザ入力装置１２４２は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置１２４２は、処理システムとの間で情報を入出力するために使用される。

ディスプレイ１２５２は、ディスプレイアダプタ１２５０によってシステムバス１２０２に動作可能に接続されている。

もちろん、処理システムは、当業者であれば容易に思いつくような他の要素（図示せず）を含んでいてもよく、特定の要素を省略することも可能である。例えば、処理システムには、当業者であれば容易に理解できるが、その詳細な実装に応じて、他の様々な入力装置及び／または出力装置を含むことができる。例えば、無線及び／または有線による種々の入力装置及び／または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成の追加プロセッサ、コントローラ、メモリ等を使用することも可能である。処理システムの上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。

ブロック１３０１において、複数のセンサから時系列データを収集する。

ブロック１３０３において、時系列データ及び関連するコメントテキストを使用して、教師なし法でクロスモーダル検索システムを訓練する。

ブロック１３０５において、クエリのモダリティに応じて、

時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される関連するコメントテキストを取得し、

関連する時系列セグメントが文またはキーワードのセットと一致するように、該文またはキーワードのセットが与えられた関連する時系列セグメントを取得し、

属性の第１のサブセットがキーワードのセットと一致し、属性の第２のサブセットが時系列セグメントと類似するように、与えられた時系列セグメントとキーワードの文またはセットに関連する時系列セグメントを取得する。

図１４は、本発明の一実施形態による、ＣＣＡ及び能動ペアワイズクエリを使用するマルチモーダル検索及びクラスタリングのための実用的なアプリケーションのブロック／フロー図である。

例えば、発電所の操作の状況において、施設の様々な部位に配置されたセンサ１４０２が、発電プロセスの状態を特徴付ける時系列（ＴＳ）データ１４０４を収集する。ＴＳデータ１４０４は、制御室１４１０のコンピュータに設置されたデータ分析システム１４０６に送信される。オペレータ１４０８は、モニタ上のデータを検査し、自由形式のテキスト１４０９でメモを作成できる。データが異常である場合、原因分析や解決策等の詳しい情報を含むことが予想される。テキストメモ１４０９及び時系列データ１４０４は、データベースに格納され、データ分析システム１４０６の一部である本発明の例示的な実施形態で説明されるクロスモード検索システムを訓練するために使用される。

オペレータ１４０８は、以下で詳述する多くの方法で、クロスモーダル検索システムと情報交換できる。

時系列を自然言語で説明すると、すなわち時系列セグメントが与えられると、本発明の例示的な方法は、クエリセグメント１４２０の説明として機能する関連コメントテキスト１４２２を取得する（図７）。

テキスト記述、すなわちテキスト記述１４３０（自然言語文またはキーワードのセット）を用いて履歴時系列を検索すると、本発明の例示的な方法は、該記述と一致する時系列セグメントを取得する（候補時系列１４３２）（図８）。

事例系列及びテキスト記述を伴う履歴時系列を検索すると、すなわち時系列セグメント及びテキスト記述が与えられると、本発明の例示的な方法は、該記述と一致し、さらに該事例のセグメントと類似する履歴セグメントを取得する（図９）。

要約すると、本発明の実施形態は、教師なし訓練のための方法、並びに時系列データ及びテキストデータのためのクロスモーダル検索システムを使用する方法を含む。これら２つのモダリティのペアデータを含むデータベースが与えられると、訓練済みのシステムは、データベースからユーザ指定のクエリと類似するデータを取得できる。クエリと検索結果のモダリティに応じて、システムには以下の用法がある。

時系列を自然言語で説明すると、すなわち時系列セグメントが与えられると、クエリセグメントの説明として機能する関連コメントテキストを取得する。

テキスト記述を有する履歴時系列を検索すると、すなわちテキスト記述（自然言語文またはキーワードのセット）が与えられると、該記述と一致する時系列セグメントを取得する。

参照系列及びテキスト記述を有する履歴時系列を検索すると、すなわち時系列セグメント及びテキスト記述が与えられると、該記述と一致し、クエリセグメントと類似する履歴セグメントを取得する。

高レベルにおいて、本発明の例示的な方法は、時系列セグメント及びテキストコメントを共通の潜在空間におけるポイントに変換する。その結果、同じクラスの事例及び同じペアの事例が互いに接近する。クロスモーダル検索は、この共通空間におけるクエリの最近傍を見つけることで実行される。コンセプトの発見は、この空間におけるデータポイントをクラスタリングすることで実行される。

単に教師ありまたは教師なし法と比べて、本発明の例示的な方法は能動半教師あり学習を使用する。その結果、人の知識で学習を導くことが可能であり、一方で性能を犠牲にすることなく、手動のラベル付けの労力を著しく低減できる。

ほとんどの能動学習アルゴリズムは、個々の事例のラベルをクエリする。しかしながら、実際には、新しいアプリケーションドメインのデータセットに含まれるコンセプトのセットはしばしば未知であり、注釈者が個々の事例のためのラベルを提供することを困難にしている。この目的を達成するため、本発明の例示的な方法は、２つの事例が同じコンセプトに属するか否かに関するクエリのみを使用する。十分な数のペアワイズラベルを得た後、本発明の例示的な方法は、コンセプトのセット及び全ての事例のラベルを推測することを選択できる。

本発明の例示的な方法は、教師なしの方針として、深層正準相関分析（ＣＣＡ）を使用する。ＣＣＡは、２つのモダリティにおける相関情報が強調され、無相関情報（ノイズ）が最小化するように、時系列セグメント及びテキストデータの変換を見つける。その結果、変換されたデータはクラスタ化された構造を示す傾向がある。

本発明の例示的な方法は、事前訓練段階及び能動学習段階の両方において、教師ありの方針のための正則化器として深層ＣＣＡを使用する。
教師ありの方針は、モダリティにかかわらず、同じクラスの事例が異なるクラスの事例よりも互いに近くなるように埋め込みを促進する。能動スペクトルクラスタリング及びＧＭＭに基づく２つの能動ペアワイズクエリ選択戦略が使用される。

本実施形態は、時系列及びテキストノートのための深層学習ベースのクロスモーダル検索システムを提供することで、現在の時系列分析ソフトウェアの使い易さを改善する。この例示的なシステムは、ユーザが少数の事例ペアについてリンクまたは非ラベルの提供を必要とするだけであり、これはデータセットの全ての事例についてクラスラベルの注釈を付与することと比べて人の労力を著しく低減する。

本明細書で用いる「データ」、「コンテンツ」、「情報」及び同様の用語は、様々な例示的な実施形態によって取得され、送信され、受信され、表示され、及び／または格納されることが可能なデータを示すために、交換可能に使用できる。したがって、これらの用語の使用は、開示の主旨及び範囲を制限するものと解釈されるべきではない。さらに、本明細書に別の計算デバイスからデータを受信するための計算デバイスが記載されている場合、データは、別の計算デバイスから直接受信してもよく、１つ以上の中間計算デバイス、例えば１つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局等を介して間接的に受信してもよい。同様に、本明細書にデータを別の計算デバイスに送信するための計算デバイスが記載されている場合、データは、別の計算データに直接送信してもよく、例えば、１つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局及び／または同様のもの等の１つ以上の中間計算デバイスを介して間接的に送信してもよい。

ユーザとのインタラクションを提供するための、本明細書に記載されている実施形態は、ユーザに情報を表示するためのディスプレイデバイス、例えば、ＣＲＴ（cathode ray tube）またはＬＣＤ（liquid crystal display）モニタ、キーボード、ユーザがコンピュータに入力できるポインティングデバイス、例えばマウスまたはトラックボールを有するコンピュータで実施できる。他の種類の装置もユーザとのインタラクションを提供するために使用することができる。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックとすることが可能であり、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形態で受信できる。

当業者であれば理解するように、本発明の態様は、システム、方法またはコンピュータプログラム製品として実施してもよい。したがって、本発明の態様は、全体としてハードウェアの実施形態であってもよく、全体としてソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコード等を含む）であってもよく、本明細書において、一般に「回路」、「モジュール」、「計算機」、「装置」または「システム」と呼ぶことができる、ソフトウェアとハードウェアの態様を組み合わせた実施の形態を採用してもよい。さらに、本発明の態様は、コンピュータで読み取り可能なプログラムコードを有する、１つまたは複数のコンピュータで読み取り可能な媒体で具現化された、コンピュータプログラム製品の形態を採用してもよい。

１つまたは複数のコンピュータで読み取り可能な媒体の任意の組合せを用いてもよい。コンピュータで読み取り可能な媒体は、コンピュータで読み取り可能な信号媒体またはコンピュータで読み取り可能な記録媒体であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイス、あるいは前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体的な例（以下に限定されない）は、１つ以上のワイヤ、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、携帯用コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光データ記憶装置、磁気データ記憶装置または前述した任意の適切な組み合わせを含む。本文書のコンテキストにおいて、コンピュータで読み取り可能な記録媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、またはそれを記憶できる、任意の有形媒体であってもよい。

コンピュータで読み取り可能な信号媒体には、例えば、ベースバンドで、または搬送波の一部として、コンピュータで読み取り可能なプログラムコードが具現化された伝搬データ信号を含むことができる。そのような伝播信号は、電磁、光学またはそれらの任意の適切な組み合わせを含むが、それらに限定されない、任意の様々な形態がある。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記録媒体ではなく、命令実行システム、装置または装置によって、またはそれに関連して使用するためにプログラムを通信、伝播、または移送できる、任意のコンピュータ読み取り可能な媒体であってもよい。

コンピュータで読み取り可能な媒体で具現化されるプログラムコードは、無線、有線、光ファイバケーブル、ＲＦ等、あるいは前述した任意の適切な組合せを含むが、これらに限定されない、任意の適切な媒体を用いて送信される。

本発明の態様に関する処理を実行するためのコンピュータプログラムコードは、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋等のオブジェクト指向プログラミング言語及び「Ｃ」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、１つ以上のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、（例えば、インターネットサービスプロバイダを利用したインターネットを介して）外部コンピュータと接続されてもよい。

本発明の態様について、本発明の実施形態による方法、装置（システム）、並びにコンピュータプログラム製品のフローチャート及び／またはブロック図を参照して以下で説明する。フローチャート及び／またはブロック図の各ブロック、並びにフローチャート及び／またはブロック図のブロックにおける組合せは、コンピュータプログラム命令によって実施できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを通して実行される命令が、フローチャート及び／またはブロック図の１つまたは複数のブロックまたはモジュールに指定される機能／動作を実施するための手段を作り出すようなマシンを生成するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供される。

これらのコンピュータプログラム命令は、コンピュータで読み取り可能な媒体に格納された命令が、フローチャート及び／またはブロック図の１つまたは複数のブロックまたはモジュールに指定された機能／動作を実装する命令を含む製品を生成するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、特定の方法で機能するように指示できるコンピュータで読み取り可能な媒体に格納できる。

コンピュータプログラム命令は、またコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードされて、一連の動作ステップがコンピュータ、他のプログラマブル装置または他のデバイスで実行され、コンピュータまたは他のプログラマブル装置で実行される命令が、フローチャート及び／またはブロック図のブロックまたはモジュールに指定された機能／動作を実装するためのプロセスを提供するように、コンピュータ実装プロセスを生成できる。

本明細書で使用する「プロセッサ」という用語は、例えばＣＰＵ（central processing unit）及び／または他の処理回路を含むもの等、任意の処理装置を含むことを意図しており、「プロセッサ」という用語は１つ以上の処理装置を指すことが可能であり、処理装置に関連する様々な要素は、他の処理装置によって共有されることも理解されたい。

本明細書で使用する「メモリ」という用語は、例えば、ＲＡＭ、ＲＯＭ、固定メモリデバイス（例えば、ハードドライブ）、リムーバブルメモリデバイス（例えば、ディスケット）、フラッシュメモリ等、プロセッサまたはＣＰＵに関連するメモリを含むことを意図している。このようなメモリは、コンピュータで読み取り可能な記録媒体と考えることができる。

さらに、本明細書で使用する「入力／出力装置」または「Ｉ／Ｏ装置」という用語は、例えば、処理ユニットにデータを入力するための１つまたは複数の入力装置（例えば、キーボード、マウス、スキャナ等）及び／または処理ユニットに関連する、結果を提示するための１つまたは複数の出力装置（例えば、スピーカ、ディスプレイ、プリンタなど）を含むことを意図する。

上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims

深層正準相関分析（ＣＡＡ）及びペアワイズクエリを備える能動学習を用いる、ペアマルチモーダルデータの学習及びクラスタリングを埋め込むためのプロセッサで実行されるコンピュータ実装方法であって、
複数のセンサから時系列データを収集し（１３０１）、
教師なしにおいて、前記時系列データ及び関連するコメントテキストを用いてクロスモーダル検索システムを訓練し（１３０３）、
クエリのモダリティに応じて、
前記時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される、前記関連するコメントテキストを取得し（１３０５）、
関連する時系列セグメントが文またはキーワードのセットと一致するように、前記文またはキーワードのセットが与えられた、前記関連する時系列セグメントを取得し（１３０５）、
属性の第１のサブセットが前記キーワードのセットに一致し、属性の第２のサブセットが前記時系列セグメントと類似するように、前記時系列セグメント及びキーワードの文章またはセットが与えられた、関連する時系列セグメントを取得する（１３０５）、方法。
前記時系列セグメント及び前記関連するコメントテキストは、共通の潜在空間におけるポイントに変換される、請求項１に記載の方法。
前記クロスモーダル検索システムは、前記共通の潜在空間における前記クエリの最近傍を見つける、請求項２に記載の方法。
前記クロスモーダル検索システムは、マルチモーダルニューラルネットワークを使用して、前記時系列データ及び関連するコメントテキストをベクトル表現に符号化する、請求項１に記載の方法。
前記マルチモーダルニューラルネットワークは、時系列テキストペアのユーザ提供データベースからの事例を使用する、２段階の訓練アルゴリズムによって訓練される、請求項４に記載の方法。
前記訓練アルゴリズムの第１段階は、深層ＣＣＡベースの事前訓練である、請求項５の方法。
前記訓練アルゴリズムの第２段階は、能動クラスタリングである、請求項６に記載の方法。
前記能動クラスタリングは、ガウス混合モデリング（ＧＭＭ）に基づくクエリペアの選択と、能動スペクトルクラスタリングを使用するクエリベースの選択とを含む、請求項７に記載の方法。
深層正準相関分析（ＣＡＡ）及びペアワイズクエリによる能動学習を用いる、ペアマルチモーダルデータの学習及びクラスタリングを埋め込むためのコンピュータで読み取り可能なプログラムを含む非一時的なコンピュータで読み取り可能な記録媒体であって、
コンピュータで読み取り可能なプログラムがコンピュータで実行されると、
コンピュータに、
複数のセンサから時系列データを収集させ（１３０１）、
教師なしにおいて、前記時系列データ及び関連するコメントテキストを用いてクロスモーダル検索システムを訓練させ（１３０３）、
クエリのモダリティに応じて、
前記時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される、前記関連するコメントテキストを取得させ（１３０５）、
関連する時系列セグメントが文またはキーワードのセットと一致するように、前記文またはキーワードのセットが与えられた、前記関連する時系列セグメントを取得させ（１３０５）、
属性の第１のサブセットが前記キーワードのセットに一致し、属性の第２のサブセットが前記時系列セグメントと類似するように、前記時系列セグメント及び前記キーワードの文章またはセットが与えられた、前記関連する時系列セグメントを取得させる（１３０５）、コンピュータで読み取り可能な記録媒体。
前記時系列セグメント及び前記関連するコメントテキストは、共通の潜在空間におけるポイントに変換される、請求項９に記載の非一時的なコンピュータで読み取り可能な記録媒体。
前記クロスモーダル検索システムは、前記共通の潜在空間における前記クエリの最近傍を見つける、請求項１０に記載の非一時的なコンピュータで読み取り可能な記録媒体。
前記クロスモーダル検索システムは、マルチモーダルニューラルネットワークを使用して、前記時系列データ及び関連するコメントテキストをベクトル表現に符号化する、請求項９に記載の非一時的なコンピュータで読み取り可能な記録媒体。
前記マルチモーダルニューラルネットワークは、時系列テキストペアのユーザ提供データベースからの事例を使用する、２段階の訓練アルゴリズムによって訓練される、請求項１２に記載の非一時的なコンピュータで読み取り可能な記録媒体。
前記訓練アルゴリズムの第１段階は、深層ＣＣＡベースの事前訓練である、請求項１３に記載の非一時的なコンピュータで読み取り可能な記録媒体。
前記訓練アルゴリズムの第２段階は、能動クラスタリングである、請求項１４に記載の非一時的なコンピュータで読み取り可能な記録媒体。
前記能動クラスタリングは、ガウス混合モデリング（ＧＭＭ）に基づくクエリペアの選択と、能動スペクトルクラスタリングを使用するクエリベースの選択とを含む、請求項１５に記載の非一時的なコンピュータで読み取り可能な記録媒体。
深層正準相関分析（ＣＡＡ）及びペアワイズクエリによる能動学習を用いる、ペアマルチモーダルデータの学習及びクラスタリングを埋め込むためのシステムであって、
メモリと、
複数のセンサから時系列データを収集し（１３０１）、
教師なしにおいて、前記時系列データ及び関連するコメントテキストを用いてクロスモーダル検索システムを訓練し（１３０３）、
クエリのモダリティに応じて、
前記時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される、前記関連するコメントテキストを取得し（１３０５）、
関連する時系列セグメントが文またはキーワードのセットと一致するように、前記文またはキーワードのセットが与えられた、前記関連する時系列セグメントを取得し（１３０５）、
属性の第１のサブセットが前記キーワードのセットに一致し、属性の第２のサブセットが前記時系列セグメントと類似するように、前記時系列セグメント及び前記キーワードの文章またはセットが与えられた、前記関連する時系列セグメントを取得する（１３０５）ように構成された、前記メモリと通信する１つまたは複数のプロセッサと、
を有する、システム。
前記時系列セグメント及び前記関連するコメントテキストは、共通の潜在空間におけるポイントに変換される、請求項１７に記載のシステム。
前記クロスモーダル検索システムは、前記共通の潜在空間における前記クエリの最近傍を見つける、請求項１８に記載のシステム。
前記クロスモーダル検索システムは、マルチモーダルニューラルネットワークを使用して、前記時系列データ及び関連するコメントテキストをベクトル表現に符号化する、請求項１７に記載のシステム。