JP7257585B2 - 深層cca及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法 - Google Patents

深層cca及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法 Download PDF

Info

Publication number
JP7257585B2
JP7257585B2 JP2022505536A JP2022505536A JP7257585B2 JP 7257585 B2 JP7257585 B2 JP 7257585B2 JP 2022505536 A JP2022505536 A JP 2022505536A JP 2022505536 A JP2022505536 A JP 2022505536A JP 7257585 B2 JP7257585 B2 JP 7257585B2
Authority
JP
Japan
Prior art keywords
time series
segment
query
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022505536A
Other languages
English (en)
Other versions
JP2022544047A (ja
Inventor
ユンコン チェン、
ファオ ユアン、
クリスチャン ルメザヌ、
ハイフォン チェン、
毅彦 溝口
ドンジン ソン、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2022544047A publication Critical patent/JP2022544047A/ja
Application granted granted Critical
Publication of JP7257585B2 publication Critical patent/JP7257585B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)

Description

この出願は、2019年8月21日に出願された米国特許仮出願第62/890,013号、2020年5月7日に出願された米国特許仮出願第63/021,208号及び2020年8月18日に出願された米国特許出願第16/996,110号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、時系列データに関し、より詳細には、深層正準相関分析(deep canonical correlation analysis:CAA)及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法に関する。
時系列(Time-series:TS)データは、ビッグデータ時代において広く行き渡っている。1つの事例は、多数のセンサの読み取り値が複雑な時系列を構成する工業的なモニタリングである。現代のデータ分析ソフトウェアは、機械学習を用いて時系列からパターンを検出する。しかしながら、現在の分析ソフトウェアは、あまり使い易くない。例えば、以下の問題が非常に一般的である。機械学習システムは、特定の区分のタスクを実行できるが、結果は通常、説明なしに返される。ユーザは、より詳細かつ自然な方法で提示される機械の分析結果を望んでいる。時系列データの量が増加し続けるにつれて、履歴データの自動検索が必要になる。従来、セグメントの一例が検索クエリとして使用されていた。但し、多くの場合、より記述的なクエリを使用する必要がある。構造化照会言語(structured query language:SQL)等のデータベースクエリ言語はより複雑な評価基準を表す場合があるが、標準的なユーザには理解できない。
一方、多くの現実世界のシナリオでは、時系列にはドメインの専門家によって書かれたテキストコメントがタグ付けされる。例えば、発電所のオペレータがセンサの故障に気付いたとき、該オペレータは、信号形状、原因、解決策及び予想される将来の状態を記述する注記を書くことがある。そのようなデータは、2つのモダリティの一対の事例を含む。施設には、そのようなマルチモーダルデータを、その操業の過程で大量に蓄積している可能性がある。マルチモーダルデータは、時系列データと人の記述との関係を学習するために使用できる。マルチモーダルデータは、特定のアプリケーションドメインの知識を学習するための良好なリソースでもある。そのようなデータは、取得するのに費用がかかるにもかかわらず、現在、そのようなマルチモーダルデータを簡易に利用する方法はない。
深層正準相関分析(canonical correlation analysis:CCA)及びペアワイズクエリを備える能動学習を用いる、ペアのマルチモーダルデータに関する埋め込み学習及びクラスタリングのためのコンピュータ実装方法を提供する。本方法では、複数のセンサから時系列データを収集し、教師なしにおいて、時系列データ及び関連するコメントテキストを用いてクロスモーダル検索システムを訓練し、クエリのモダリティに応じて、時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される、前記関連するコメントテキストを取得し、関連する時系列セグメントが文またはキーワードのセットと一致するように、文またはキーワードのセットが与えられた、関連する時系列セグメントを取得し、属性の第1のサブセットがキーワードのセットに一致し、属性の第2のサブセットが時系列セグメントと類似するように、時系列セグメント及びキーワードの文章またはセットが与えられた、関連する時系列セグメントを取得する。
深層正準相関分析(CCA)及びペアワイズクエリによる能動学習を使用して、学習及びクラスタリングするためのコンピュータ可読プログラムを備える非一時的コンピュータで読み取り可能な記録媒体が提供される。コンピュータで読み取り可能なプログラムは、コンピュータで読み取り可能なプログラムがコンピュータで実行されると、コンピュータに、
複数のセンサから時系列データを収集させ、教師なしにおいて、時系列データ及び関連するコメントテキストを用いてクロスモーダル検索システムを訓練させ、クエリのモダリティに応じて、時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される、前記関連するコメントテキストを取得させ、関連する時系列セグメントが文またはキーワードのセットと一致するように、文またはキーワードのセットが与えられた、関連する時系列セグメントを取得させ、属性の第1のサブセットがキーワードのセットに一致し、属性の第2のサブセットが時系列セグメントと類似するように、時系列セグメント及びキーワードの文章またはセットが与えられた、関連する時系列セグメントを取得させる。
深層正準相関分析(CCA)とペアワイズクエリを用いた能動学習を用いて、ペアのマルチモーダルデータの学習とクラスタリングを埋め込むシステムが提供される。このシステムは、メモリと、
複数のセンサから時系列データを収集し、教師なしにおいて、時系列データ及び関連するコメントテキストを用いてクロスモーダル検索システムを訓練し、クエリのモダリティに応じて、
時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される、前記関連するコメントテキストを取得し、関連する時系列セグメントが文またはキーワードのセットと一致するように、文またはキーワードのセットが与えられた、関連する時系列セグメントを取得し、属性の第1のサブセットがキーワードのセットに一致し、属性の第2のサブセットが時系列セグメントと類似するように、時系列セグメント及びキーワードの文章またはセットが与えられた、関連する時系列セグメントを取得する(1305)ように構成された、前記メモリと通信する1つまたは複数のプロセッサと、を有する。
これらの及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
本開示では、以下の図面を参照しながら好ましい実施形態について、以下で詳細に説明する。
図1は、本発明の一実施形態による、例示的な訓練手順全体のブロック/フロー図である。
図2は、本発明の一実施形態による、例示的な深層正準相関分析(CCA)段階のブロック/フロー図である。
図3は、本発明の一実施形態による、例示的な半教師あり段階のブロック/フロー図である。
図4は、本発明の一実施形態による、ガウス混合モデル(GMM)に基づく例示的な能動クエリ選択のブロック/フロー図である。
図5は、本発明の一実施形態による、能動スペクトルクラスタリングに基づく例示的なクエリ選択のブロック/フロー図である。
図6は、本発明の一実施形態による、例示的なクラスタリング手順のブロック/フロー図である。
図7は、本発明の一実施形態による、見えないクエリの関連データを取り出すための例示的な方法のブロック/フロー図である。
図8は、本発明の一実施形態による、自然言語による時系列の検索のための例示的な方法のブロック/フロー図である。
図9は、本発明の一実施形態による、結合モダリティ検索を使用するための例示的な方法のブロック/フロー図である。
図10は、本発明の一実施形態による、例示的なクロスモード検索システムのブロック/フロー図である。
図11は、本発明の一実施形態による、テキストコメントエンコーダの例示的なアーキテクチャのブロック/フロー図である。
図12は、本発明の一実施形態による、CCA及び能動ペアワイズクエリを使用するマルチモーダル検索及びクラスタリングのための例示的な処理システムのブロック/フロー図である。
図13は、本発明の一実施形態による、CCA及び能動ペアワイズクエリを使用するマルチモーダル検索及びクラスタリングのための例示的な方法のブロック/フロー図である。
図14は、本発明の一実施形態による、CCA及び能動ペアワイズクエリを使用するマルチモーダル検索及びクラスタリングのための実際のアプリケーションのブロック/フロー図である。
現実世界における時系列は、しばしばドメインの専門家によって書かれたテキストコメントでタグ付けされる。多くの既存の研究はテキストコメントの役割をクラスラベルに縮小するが、全テキストコメントを分析し、該テキストコメントを時系列と併せて考慮することで、より深く理解することができる。
時系列データは、ビッグデータ時代において広く行き渡っている。1つの事例は、工業施設(例えば、発電所)内の多数のセンサからの読み取り値が複雑なパターンを示す時系列を構成する工業的なモニタリングである。アルゴリズムは、時系列パターンを自動的に分析し、特定のタスクを解決するように設計されてきたが、これらの結果は、通常、ユーザ(人)に理解可能な説明が無く与えられる。これは、ユーザにおける結果に関する信頼性を著しく低下させ、自動分析が実際の決定プロセスに及ぼし得る潜在的な影響を制限する。
一方、時系列の有意義な解釈には、しばしばドメインの専門知識が必要である。多くの現実世界のシナリオでは、時系列が専門家によって書かれたコメントでタグ付けされる。場合によっては、コメントはカテゴリラベルにすぎないが、自由形式の自然テキストであることが多い。これらの専門家が書いたコメントは読むことが可能であり、精巧であり、ドメイン固有の理解を提供する。例えば、発電所のオペレータからのコメントには、異常信号の形状、根本原因、問題を是正するために取られる措置及び将来の状態の予測を含み得る。
これらは、ユーザが望む時系列に関して、高品質で効果的な説明のタイプである。さらに、テキストをクエリとして使用して関連する時系列セグメントを検索する必要がある。従来の単一モダリティ時系列検索システムと比べて、所望のターゲットの特性を記述するテキストを使用すると、セマンティック/抽象的で潜在的に複雑なクエリを自然な方法で形成できる。これは、ユーザの期待に合致する、より高い精度の検索結果に置き換える。
さらに、コメントデータは、多くの施設において、それらの操作の過程で蓄積されてきた。専門家からコメントを求めるコストが高いにもかかわらず、それらの大部分は、通常、再利用されない。過去のコメントは、明らかに貴重なドメイン知識を含むが、過去のコメントから価値を抽出する簡易な方法は現在存在しない。そのような知識は、そのドメインにおける重要なコンセプトを含み得る。発電所の運転のコンテキストにおいて、該コンセプトには蒸気圧及びバルブをオフにする操作を含み得る。言い換えれば、コメントはドメイン固有の知識ベースを構築するための資料を含む。関連する時系列の利用可能性は、データの追加の見解のために、コンセプト発見に関するより多くの可能性を提供する。
本発明の例示的な実施形態は、このような問題に対処するための統一されたアプローチを導入する。より具体的には、本発明の例示的な方法は、潜在的にマルチモーダルなクエリ(例えば、時系列セグメント及び/またはテキスト記述)が与えられた場合に関連する時系列セグメントまたはテキストコメントを取り出すための方法と、マルチモーダルデータセットの基礎をなす共通コンセプトを自動的に見出すための方法とを提供する。検索のために本発明の例示的な実施形態を使用するいくつかのモードがある。すなわち、時系列セグメントが与えられると、該時系列セグメントの人が読める説明として使用できる関連コメントを検索する。自然言語検索、すなわち文またはキーワードのセットが与えられると、関連する時系列セグメントを検索する。結合モダリティ検索、すなわち時系列セグメントと文またはキーワードのセットが与えられた場合、属性の部分セットがキーワードと一致し、残りの属性が与えられた時系列セグメントとほぼ同じまたは類似するように、関連する時系列セグメントを検索する。
高レベルにおいて、本発明の例示的な方法は、時系列セグメント及びテキストコメントを共通の潜在空間におけるポイントに変換し、その結果、同じクラスにおける事例及び同じペアにおける事例が互いに接近する。クロスモーダル検索は、この共通空間におけるクエリの最近傍を見つけることで実行される。コンセプトの発見は、この空間におけるデータポイントをクラスタ化することで実行される。
単なる教師ありまたは教師なしの方法と比べて、本発明の例示的な方法は、能動半教師あり学習を使用し、その結果、人の知識が学習を導くことが可能になり、一方で手作業によるラベル付けの労力が性能を犠牲にすることなく著しく低減できる。
ほとんどの能動学習アルゴリズムは、個々の事例のラベルをクエリする。しかしながら、実際には、新しいアプリケーションドメインのデータセットに含まれるコンセプトのセットはしばしば未知であり、注釈者が個々の事例に関するラベルを提供することを困難にしている。この目的ために、本発明の例示的な方法は、2つの事例が同じコンセプトに属するか否かに関するクエリのみを使用する。十分な数のペアワイズラベルを得た後、本発明の例示的な方法は、コンセプトのセット及び全ての事例のラベルを推測することを選択できる。
本発明の例示的な方法は、教師なしの方針として、深層正準相関分析(CCA)を使用する。CCAは、2つのモダリティにおける相関情報が強調され、無相関情報(ノイズ)が最小化されるように、時系列セグメント及びテキストデータの変換を見出す。その結果、変換されたデータはクラスタ化された構造を示す傾向がある。
本発明の例示的な方法は、事前訓練段階及び能動学習段階の両方において、教師ありの方針のための正則化器として深層CCAを使用する。教師ありの方針は、モダリティにかかわらず、同じクラスの事例が異なるクラスの事例よりも互いに近くなるように埋め込みを促す。能動スペクトルクラスタリング及びガウス混合モデル(Gaussian mixture model:GMM)に基づく2つの能動ペアワイズクエリの選択戦略を使用できる。
図1は、本発明の一実施形態による、例示的な訓練手順全体のブロック/フロー図である。
ブロック101において、マルチモードデータセットが取得される。
ブロック103において、深層CCAを用いて事前訓練が実行される。
ブロック105において、半教師あり学習が実行される。
ブロック107において、時系列セグメントエンコーダが使用される。
ブロック109において、テキストエンコーダが使用される。
全ての訓練手順は、以下のアルゴリズム1で示される。第1段階は、深層CCAを有する両方のエンコーダの教師なし事前訓練である。結果として得られる埋め込みに基づいて、第2段階はCCA正則化能動学習である。各ラウンドにおいて、能動スペクトルクラスタリングによって、またはGMM事後エントロピーベースの戦略によって、固定数の事例ペアが選択される。それらは、ドメイン知識またはいくつかの主観的基準に基づいて関係ラベルを割り当てる注釈者に示される。実際には、任意のペアのラベルを使用して、2つの事例並びにその対向モダリティにおけるそれらの対応物からなる4つの事例の間の4つの関係を定義できることに留意されたい。次に、これまでに取得された全てのラベルを使用して、本発明の例示的な実施形態は、収束するまで両方のエンコーダを訓練する。この抽出/訓練の反復は、クエリバジェットに到達するまで繰り返される。
Figure 0007257585000001
図1をさらに参照すると、この手順は、各ペアが時系列セグメントとテキストコメントパッセージとを含む、ペアを成すデータのデータベースを獲得することから始まる。ペアを成すデータのデータベースが与えられると、各ペアは時系列セグメントとテキストコメントパッセージを含む。データペアの総数はnで示される。本発明の例示的な方法は、i番目のデータペアを(x(i),y(i))で示す。ここで、x(i)は時系列セグメントであり、y(i)はテキストコメントである。i番目の時系列セグメントの特徴ベクトルは
Figure 0007257585000002
である。i番目のテキストコメントの特徴ベクトルは
Figure 0007257585000003
である。
Figure 0007257585000004
は時系列セグメントの特徴行列であり、Hのi番目の行を
Figure 0007257585000005
とする。
Figure 0007257585000006
は同様に定義されたテキストコメントの特徴行列である。
エンコーダ107、109は、深層CCA103を用いて事前訓練される。その後、半教師あり学習段階105において、エンコーダ107、109は、深層CCA正則化と共に、クエリされたペアワイズラベルに基づく教師あり損失を使用してさらに訓練される。2つの訓練済みのエンコーダ107、109は、この手順の結果である。
この手順の全相関計算部分の擬似コードは以下である。
Figure 0007257585000007
図2は、本発明の一実施形態による、例示的な深層正準相関分析(CCA)段階のブロック/フロー図である。
ブロック201において、時系列セグメント及びテキストコメントが時系列エンコーダ及びテキストエンコーダをそれぞれ通過する。さらに、潜在的特徴が取得される。
ブロック203において、共分散行列が計算される。
ブロック205において、正規化共分散行列Sが計算される。
ブロック207において、Sの特異値分解が取得される。
ブロック209において、全固有値を合計することで全相関が計算される。
ブロック211において、エンコーダパラメータは、確率的勾配降下法によって更新される。
図3は、半教師あり学習段階の手順を示している。
本手順は、事前訓練済みのエンコーダから開始する。
ブロック301において、時系列セグメント及びテキストコメントが時系列及びテキストエンコーダをそれぞれ通過する。さらに、特徴ベクトルが取得される。
ブロック303において、提案された戦略の1つを用いてペアを選択し、選択されたペアのラベルに関する注釈をクエリする。
ブロック305において、今までにクエリされた全てのペアのラベルに基づいて、教師あり損失Lsupを計算する。
ブロック307において、擬似コードライン2-7による総相関cを計算する。
ブロック309において、教師あり損失と総相関とを結合して全損失を得る。
Figure 0007257585000008
ハイパーパラメータηは、交差検証によって選択される。
ブロック311において、両方のエンコーダのパラメータに関する総相関の勾配を計算する。さらに、確率的勾配降下法によってパラメータを更新する。
CCA正則化半教師あり学習に関して、CCAを用いた事前訓練の後、半教師あり学習段階において、本発明の例示的な方法は、適応クエリと教師あり訓練とを交互に行う。適応クエリのために、本発明の例示的な方法は、2つの戦略(以下で詳述される)のうちのいずれか1つを用いてデータのペアを適応的に選択し、注釈者からそれらのペアワイズ関係ラベルをクエリする。ペアワイズ関係ラベルは、それらが同じクラスと考えられる場合は1(「必須リンク」)、それらが異なるクラスと考えられる場合は-1(「非リンク」)のいずれか一方である。一方で、教師あり訓練は、これらのクエリされた関係ラベルを用いて、教師ありペアワイズ損失及び教師なし深層CCA損失の両方を有するエンコーダをさらに改善する。
クエリされたペア(i,j)ごとに、注釈者がそれらを同じクラスと見なす場合は関係ラベルcij=1となり、そうでなければcij=-1となる。全てのラベル付けされたペアのセットをSで示す。ペアワイズ損失は、コサイン類似度を用いて計算される。
Figure 0007257585000009
最初に、Sは少しの事例のペアしか含まないため、ペアワイズ損失のみを使用することは過剰適合を引き起こす傾向がある。これに対処するため、本発明の例示的な方法は、2つのモダリティのグローバルな一貫性を維持するための正則化としてCCAの相関最大化の目的を含む。この正則化は、非常に低いバジェット下における能動学習の成功に有益であることが示されている。
したがって、全体の損失は、次のように定式化される。
Figure 0007257585000010
ここで、ηは正則化の強度を制御する。
図4及び図5は、ペアワイズクエリを選択するための2つの可能な戦略の手順を示している。
図4は、GMMに基づいてペアワイズクエリを選択するための手順を示している。
ブロック401において、候補ペアのプールを全ペアで初期化する。
ブロック403において、GMMをデータに適合させる。
ブロック405において、全ての事例の事後確率を計算する。
ブロック407において、全ての事例に関するこれらの確率のエントロピーを計算する。
ブロック409において、総エントロピーが最大の事例のペアをプールから選択する。
ブロック411において、選択されたペアの数が所望の数に到達しない場合、選択されたペアと事例を共有する全てのペアをプールから削除し(ブロック413)、ブロック409に戻る。そうでない場合は、ブロック415に移行する。
ブロック415において、教師あり損失を計算し、全体の損失を得るために全相関と結合し、エンコーダパラメータを更新する。
この手順が終了すると、「半教師あり段階」(図3)の手順のブロック305へ移行する。
戦略1、GMMの事後不確定性。クラスの数の合理的な推定値が与えられると、本発明の例示的な方法は、ガウス混合モデルをデータに適合させる。本発明の例示的な実施形態は、各事例のクラス事後確率を計算する。この事後確率は、事例の各混合成分と関連する尤度を測定する。所属の不確定性は、事後のエントロピーによって定量化できる。p(ci=k|xi)で表されるk番目の成分に続いて、不確定性スコアuiは、
Figure 0007257585000011
で計算される。
ペア(i,j)に対する不確定性スコアuijは、両方の事例のエントロピーの合計として定義される。
Figure 0007257585000012
次に、最も高い不確定性スコアを有するペアがクエリとして選択される。
図5は、能動スペクトルクラスタリングに基づいてペアワイズクエリを選択するための手順を示す。
ブロック501において、候補ペアのプールを全てのペアで初期化する。
ブロック503において、データのラプラシアン埋め込みを計算する。
ブロック505において、プール内の全てのペアの重みに関する第2の固有ベクトルの勾配のノルムを計算する。
ブロック507において、最大勾配ノルムを有する事例のペアをプールから選択する。
ブロック509において、選択されたペアの数が所望の数に到達しない場合、選択されたペアと事例を共有する全てのペアをプールから削除し(ブロック511)、ブロック507に戻る。そうでない場合はブロック513に移行する。
ブロック513において、教師あり損失を計算し、全体の損失を得るために全相関と結合し、エンコーダパラメータを更新する。
この手順が終了すると、「半教師あり段階」(図3)の手順のブロック305へ移行する。
戦略2、能動スペクトルクラスタリング。従来の開示は、スペクトルクラスタリングの結果に対して最も影響する事例のペアを選択する戦略を提案している。クラスタリングが1つのモダリティのデータに対して実行されるか、または両方のモダリティのデータに対して実行されるかは重要ではないことが観察される。この深層CCA事前訓練は、常にほぼユニット相関に収束し、その結果、2つの対応する事例は、通常、潜在空間において非常に近くなる。
埋め込みに関するガウスカーネルによって定義される事例のペア間の重みを示す、類似性行列をWで表すと、
Figure 0007257585000013
ラプラシアン行列は、以下のように計算される。
L=D-W
ここで、D=diag(W1)であり、1は全て1のベクトルである。
Lのp番目の固有ベクトルと固有値をVとλで表す。ペア(i,j)の重要度は、該ペアの重みに対する第2固有ベクトルvの勾配の大きさによって定量化される。
Figure 0007257585000014
もう1つの方法は、最も不確実な事例に対するペアの影響のみを考慮する、より単純な変形例である。
Figure 0007257585000015
ここで、kmin=argmin|v(k)|である。このスコアによれば、本発明の例示的な方法は、まだ選択されていない全ての事例のペアをランク付けし、最上位のペアが現在のラウンドのクエリとして選択される。
図6は、クラスタリングの手順を示している。
ブロック601において、訓練収束後、擬似コードと同様にSの特異値分解、共分散行列Σ11、Σ22、U及びVを取得する。
ブロック603において、特徴行列H及びHを変換することで白色化特徴Z及びZを計算する。
Figure 0007257585000016
Figure 0007257585000017
ブロック605において、全ての時系列セグメント及び全てのテキストの白色化特徴を、それらのロウ(raw)形式と共に将来の検索のためにデータベースに保存する。
ブロック607において、任意のスタンダードなクラスタリングアルゴリズムを用いて、モダリティ、またはZあるいはZのいずれか一方の白色化特徴をクラスタリングする。例えば、本発明の例示的な方法は、K平均法を用いて、各インスタンスx(i)にラベルl(i)を割り当てる時系列セグメント特徴Zをクラスタリングできる。さらに、本発明の例示的な方法は、l(i)をy(i)に割り当てることができる。このステップで見つかったクラスタは、データセットから発見されたドメインコンセプトを構成する。
テストフェーズにおいて、タスクはクロスモード検索である。エンコーダ及びロウデータのデータベース、並びに両方のモダリティの特徴を利用可能にすることで、最近傍探索を用いて見えないクエリの関連データを検索できる。
クエリxが時系列セグメントの場合、その特徴zは次のように計算される。
Figure 0007257585000018
xがテキストコメントの場合、その特徴zは次のように計算される。
Figure 0007257585000019
テストフェーズにおいて、エンコーダ及びロウデータのデータベース、並びに両方のモダリティの特徴が利用可能であるとき、最近傍探索を用いて見えないクエリの関連データを検索できる。
いくつかの応用シナリオの各々に対する特定の手順を、図7~図9を用いて以下で説明する。
図7は、本発明の一実施形態による、見えないクエリの関連データを検索するための例示的な方法のブロック/フロー図である。
ブロック701において、セグメントクエリを受け取る。
ブロック703において、時系列エンコーダニューラルネットワークが使用される。
ブロック705において、テキストの特徴がブロック709に供給される。
ブロック707において、セグメントクエリの特徴がブロック709に供給される。
ブロック709において、テキストの特徴及びセグメントクエリの特徴を同時に受信した後、最近傍探索アルゴリズムを使用する。
ブロック711において、関連するテキストコメントのリストが提供される。
図8は、本発明の一実施形態による、自然言語による時系列の検索のための例示的な方法のブロック/フロー図である。
ブロック801において、テキストクエリを受け取る。
ブロック803において、テキストエンコーダニューラルネットワークを使用する。
ブロック805において、セグメントの特徴がブロック809に供給される。
ブロック807において、テキストクエリの特徴がブロック809に供給される。
ブロック809において、セグメントの特徴及びテキストクエリの特徴を同時に受信した後、最近傍探索アルゴリズムを使用する。
ブロック811において、関連する時系列セグメントのリストが提供される。
図9は、本発明の一実施形態による、結合モダリティ検索を使用するための例示的な方法のブロック/フロー図である。
ブロック901において、セグメントクエリを受け取る。
ブロック903において、時系列エンコーダニューラルネットワークを使用する。
ブロック905において、セグメントクエリの特徴がブロック931に供給される。
ブロック907において、テキストの特徴がブロック931に供給される。
ブロック921において、テキストクエリを受け取る。
ブロック923において、テキストエンコーダニューラルネットワークを使用する。
ブロック925において、テキストクエリの特徴がブロック931に供給される。
ブロック931において、テキストの特徴、セグメントクエリの特徴及びテキストクエリの特徴を同時に受信した後、最近傍探索アルゴリズムを使用する。
ブロック933において、関連するセグメントのリストが提供される。
クエリが任意の長さの時系列として与えられると、特徴ベクトルxを得るために時系列エンコーダがフォワードパスされる。次に、本発明の例示的な方法は、データベースから、特徴がこのベクトル(例えば、最近傍)までの最小(ユークリッド)距離を有するk個のテキストインスタンスを見つける。これらのテキストインスタンスは、人が書いた自由形式のコメントであり、検索結果として返される。
自然言語による時系列の検索、すなわちクエリが自由形式のテキストパッセージ(例えば、単語または短文)として与えられると、それは、特徴ベクトルyを得るためにテキストエンコーダを通過させられる。次に、本発明の例示的な方法は、データベースから、特徴がyに対して最小距離を有するk個の時系列インスタンスを見つける。クエリテキストと同じ意味クラスを持ち、そのため該クエリとの関連性が高いこれらの時系列は、検索結果として返される。
結合モダリティ検索、すなわちクエリが(時系列セグメント、テキスト記述)のペアとして与えられると、該時系列は時系列エンコーダを通過して特徴ベクトルxを取得し、テキスト記述はテキストエンコーダを通過して特徴ベクトルyを取得する。次に、本発明の例示的な方法は、特徴がxの最近傍であるn個の時系列セグメントと、特徴がyの最近傍であるn個の時系列セグメントとをデータベースから見出し、それらの交点を取得する。本発明の例示的な方法は、n=kから開始する。交点におけるインスタンスの数がkよりも少ない場合、本発明の例示的な方法は、少なくともk個のインスタンスが取得されるまでnをインクリメントして検索を繰り返す。これらのインスタンスは、クエリ時系列とクエリテキストの両方と意味的に似ており、検索結果として返される。
図10は、本発明の一実施形態による、例示的なクロスモーダル検索システムのブロック/フロー図である。
クロスモーダル検索システム1001は、マルチモーダルニューラルネットワークを用いてテキスト及び時系列データをベクトル表現に符号化する。ニューラルネットワークは、TS-テキストペアのユーザ提供データベース1003からの事例を用いて2段階訓練アルゴリズムによって訓練される。訓練1010は教師なしであり、このことは、これらのTS-テキストペアのクラスラベルを必要とせず、このプロセスにおける人の関与を必要としないことを意味する。第1の段階は、(深層CCA1042を用いる)深層CCAベースの事前訓練1040である。これは、エンコーダ1030が次の学習段階のための適正な表現を生成するように、ニューラルネットワークを調整する。第2段階は、能動クラスタリング1050である。一方はガウス混合モデル1054に基づくものであり、他方は能動スペクトルクラスタリング1056を使用する、2つのクエリペアの選択手順を使用できる。教師あり損失に加えて、この段階における方針は、深層CCA1052による正則化をさらに含む。ニューラルネットワークエンコーダ1030が訓練された後、ユーザが提供したクエリによるデータベースからのデータの取得が検索アルゴリズム1020に従って実現される。
図11は、本発明の一実施形態による、テキストコメントエンコーダの例示的なアーキテクチャ1100のブロック/フロー図である。
本発明の例示的な方法は、各ペアが時系列セグメントとテキストコメントパッセージとを含む、ペアデータのデータベースを取得する。データペアの総数はnで示される。i番目のデータペアは(x(i),y(i))で示される。ここで、x(i)は時系列セグメントであり、y(i)はテキストである。
本発明の例示的な方法は、訓練フェーズ及びテストフェーズを含む。
本発明の例示的な方法の訓練フェーズは、一方が時系列セグメント用であり、他方がテキストコメント用である、2つのニューラルネットワークエンコーダを訓練することを含む。
時系列セグメントエンコーダ及びテキストエンコーダは、両方ともニューラルネットワークである。fで示される時系列セグメントエンコーダは、時系列セグメントを入力とする。gで示されるテキストエンコーダは、トークン化されたテキストコメントパッセージを入力とする。時系列エンコーダは、単語埋め込み層が全結合層に置き換えられることを除いて、テキストエンコーダとほぼ同じアーキテクチャを有する。アーキテクチャ1100は、一連の畳み込み層1112と、それに続くトランスフォーマーネットワーク1110とを含む。畳み込み層1112はローカルコンテキスト(例えば、テキストデータのフレーズ)を捕捉する。トランスフォーマー1110は、シーケンスにおける長期依存性を符号化する。
図12は、本発明の一実施形態による、CCA及び能動ペアワイズクエリを使用するマルチモーダル検索及びクラスタリングのための例示的な処理システムのブロック/フロー図である。
処理システムは、システムバス1202を介して他のコンポーネントと動作可能に接続された、少なくとも1つのプロセッサまたはプロセッサ装置1204を含む。システムバス1202には、キャッシュ1206、リードオンリーメモリ(ROM)1208、ランダムアクセスメモリ(RAM)1210、入力/出力(I/O)アダプタ1220、ネットワークアダプタ1230、ユーザインタフェースアダプタ1240及びディスプレイアダプタ1250が動作可能に接続されている。時系列データ1260は、バス1202に接続されたセンサから収集できる。時系列データ1260は、深層CCA及び能動ペアワイズクエリ1230を使用する、マルチモーダル埋め込み学習及び検索並びにクラスタリングを使用することで分析できる。
ストレージ装置1222は、I/Oアダプタ1220によってシステムバス1202に動作可能に接続されている。ストレージ装置1222は、ディスク記憶装置(例えば、磁気または光学ディスク記憶装置)、固体式磁気装置等のいずれかであってもよい。
トランシーバ1232は、ネットワークアダプタ1230によってシステムバス1202に動作可能に接続されている。
ユーザ入力装置1242は、ユーザインタフェースアダプタ1240によってシステムバス1202に動作可能に接続されている。ユーザ入力装置1242は、キーボード、マウス、キーパッド、イメージキャプチャ装置、モーションセンシング装置、マイクロフォン、あるいはこれらの装置の少なくとも2つの装置の機能を組み込んだ装置等のいずれであってもよい。もちろん、本原理の趣旨を維持する限りにおいて、他のタイプの入力装置を使用することも可能である。ユーザ入力装置1242は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置1242は、処理システムとの間で情報を入出力するために使用される。
ディスプレイ1252は、ディスプレイアダプタ1250によってシステムバス1202に動作可能に接続されている。
もちろん、処理システムは、当業者であれば容易に思いつくような他の要素(図示せず)を含んでいてもよく、特定の要素を省略することも可能である。例えば、処理システムには、当業者であれば容易に理解できるが、その詳細な実装に応じて、他の様々な入力装置及び/または出力装置を含むことができる。例えば、無線及び/または有線による種々の入力装置及び/または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成の追加プロセッサ、コントローラ、メモリ等を使用することも可能である。処理システムの上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。
図13は、本発明の一実施形態による、CCA及び能動ペアワイズクエリを使用するマルチモーダル検索及びクラスタリングのための例示的な方法のブロック/フロー図である。
ブロック1301において、複数のセンサから時系列データを収集する。
ブロック1303において、時系列データ及び関連するコメントテキストを使用して、教師なし法でクロスモーダル検索システムを訓練する。
ブロック1305において、クエリのモダリティに応じて、
時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される関連するコメントテキストを取得し、
関連する時系列セグメントが文またはキーワードのセットと一致するように、該文またはキーワードのセットが与えられた関連する時系列セグメントを取得し、
属性の第1のサブセットがキーワードのセットと一致し、属性の第2のサブセットが時系列セグメントと類似するように、与えられた時系列セグメントとキーワードの文またはセットに関連する時系列セグメントを取得する。
図14は、本発明の一実施形態による、CCA及び能動ペアワイズクエリを使用するマルチモーダル検索及びクラスタリングのための実用的なアプリケーションのブロック/フロー図である。
例えば、発電所の操作の状況において、施設の様々な部位に配置されたセンサ1402が、発電プロセスの状態を特徴付ける時系列(TS)データ1404を収集する。TSデータ1404は、制御室1410のコンピュータに設置されたデータ分析システム1406に送信される。オペレータ1408は、モニタ上のデータを検査し、自由形式のテキスト1409でメモを作成できる。データが異常である場合、原因分析や解決策等の詳しい情報を含むことが予想される。テキストメモ1409及び時系列データ1404は、データベースに格納され、データ分析システム1406の一部である本発明の例示的な実施形態で説明されるクロスモード検索システムを訓練するために使用される。
オペレータ1408は、以下で詳述する多くの方法で、クロスモーダル検索システムと情報交換できる。
時系列を自然言語で説明すると、すなわち時系列セグメントが与えられると、本発明の例示的な方法は、クエリセグメント1420の説明として機能する関連コメントテキスト1422を取得する(図7)。
テキスト記述、すなわちテキスト記述1430(自然言語文またはキーワードのセット)を用いて履歴時系列を検索すると、本発明の例示的な方法は、該記述と一致する時系列セグメントを取得する(候補時系列1432)(図8)。
事例系列及びテキスト記述を伴う履歴時系列を検索すると、すなわち時系列セグメント及びテキスト記述が与えられると、本発明の例示的な方法は、該記述と一致し、さらに該事例のセグメントと類似する履歴セグメントを取得する(図9)。
要約すると、本発明の実施形態は、教師なし訓練のための方法、並びに時系列データ及びテキストデータのためのクロスモーダル検索システムを使用する方法を含む。これら2つのモダリティのペアデータを含むデータベースが与えられると、訓練済みのシステムは、データベースからユーザ指定のクエリと類似するデータを取得できる。クエリと検索結果のモダリティに応じて、システムには以下の用法がある。
時系列を自然言語で説明すると、すなわち時系列セグメントが与えられると、クエリセグメントの説明として機能する関連コメントテキストを取得する。
テキスト記述を有する履歴時系列を検索すると、すなわちテキスト記述(自然言語文またはキーワードのセット)が与えられると、該記述と一致する時系列セグメントを取得する。
参照系列及びテキスト記述を有する履歴時系列を検索すると、すなわち時系列セグメント及びテキスト記述が与えられると、該記述と一致し、クエリセグメントと類似する履歴セグメントを取得する。
高レベルにおいて、本発明の例示的な方法は、時系列セグメント及びテキストコメントを共通の潜在空間におけるポイントに変換する。その結果、同じクラスの事例及び同じペアの事例が互いに接近する。クロスモーダル検索は、この共通空間におけるクエリの最近傍を見つけることで実行される。コンセプトの発見は、この空間におけるデータポイントをクラスタリングすることで実行される。
単に教師ありまたは教師なし法と比べて、本発明の例示的な方法は能動半教師あり学習を使用する。その結果、人の知識で学習を導くことが可能であり、一方で性能を犠牲にすることなく、手動のラベル付けの労力を著しく低減できる。
ほとんどの能動学習アルゴリズムは、個々の事例のラベルをクエリする。しかしながら、実際には、新しいアプリケーションドメインのデータセットに含まれるコンセプトのセットはしばしば未知であり、注釈者が個々の事例のためのラベルを提供することを困難にしている。この目的を達成するため、本発明の例示的な方法は、2つの事例が同じコンセプトに属するか否かに関するクエリのみを使用する。十分な数のペアワイズラベルを得た後、本発明の例示的な方法は、コンセプトのセット及び全ての事例のラベルを推測することを選択できる。
本発明の例示的な方法は、教師なしの方針として、深層正準相関分析(CCA)を使用する。CCAは、2つのモダリティにおける相関情報が強調され、無相関情報(ノイズ)が最小化するように、時系列セグメント及びテキストデータの変換を見つける。その結果、変換されたデータはクラスタ化された構造を示す傾向がある。
本発明の例示的な方法は、事前訓練段階及び能動学習段階の両方において、教師ありの方針のための正則化器として深層CCAを使用する。
教師ありの方針は、モダリティにかかわらず、同じクラスの事例が異なるクラスの事例よりも互いに近くなるように埋め込みを促進する。能動スペクトルクラスタリング及びGMMに基づく2つの能動ペアワイズクエリ選択戦略が使用される。
本実施形態は、時系列及びテキストノートのための深層学習ベースのクロスモーダル検索システムを提供することで、現在の時系列分析ソフトウェアの使い易さを改善する。この例示的なシステムは、ユーザが少数の事例ペアについてリンクまたは非ラベルの提供を必要とするだけであり、これはデータセットの全ての事例についてクラスラベルの注釈を付与することと比べて人の労力を著しく低減する。
本明細書で用いる「データ」、「コンテンツ」、「情報」及び同様の用語は、様々な例示的な実施形態によって取得され、送信され、受信され、表示され、及び/または格納されることが可能なデータを示すために、交換可能に使用できる。したがって、これらの用語の使用は、開示の主旨及び範囲を制限するものと解釈されるべきではない。さらに、本明細書に別の計算デバイスからデータを受信するための計算デバイスが記載されている場合、データは、別の計算デバイスから直接受信してもよく、1つ以上の中間計算デバイス、例えば1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局等を介して間接的に受信してもよい。同様に、本明細書にデータを別の計算デバイスに送信するための計算デバイスが記載されている場合、データは、別の計算データに直接送信してもよく、例えば、1つ以上のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局及び/または同様のもの等の1つ以上の中間計算デバイスを介して間接的に送信してもよい。
ユーザとのインタラクションを提供するための、本明細書に記載されている実施形態は、ユーザに情報を表示するためのディスプレイデバイス、例えば、CRT(cathode ray tube)またはLCD(liquid crystal display)モニタ、キーボード、ユーザがコンピュータに入力できるポインティングデバイス、例えばマウスまたはトラックボールを有するコンピュータで実施できる。他の種類の装置もユーザとのインタラクションを提供するために使用することができる。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックとすることが可能であり、ユーザからの入力は、音響入力、音声入力または触覚入力を含む任意の形態で受信できる。
当業者であれば理解するように、本発明の態様は、システム、方法またはコンピュータプログラム製品として実施してもよい。したがって、本発明の態様は、全体としてハードウェアの実施形態であってもよく、全体としてソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)であってもよく、本明細書において、一般に「回路」、「モジュール」、「計算機」、「装置」または「システム」と呼ぶことができる、ソフトウェアとハードウェアの態様を組み合わせた実施の形態を採用してもよい。さらに、本発明の態様は、コンピュータで読み取り可能なプログラムコードを有する、1つまたは複数のコンピュータで読み取り可能な媒体で具現化された、コンピュータプログラム製品の形態を採用してもよい。
1つまたは複数のコンピュータで読み取り可能な媒体の任意の組合せを用いてもよい。コンピュータで読み取り可能な媒体は、コンピュータで読み取り可能な信号媒体またはコンピュータで読み取り可能な記録媒体であってもよい。コンピュータで読み取り可能な記録媒体は、例えば、電子、磁気、光学、電磁気、赤外線または半導体システム、装置またはデバイス、あるいは前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータで読み取り可能な記録媒体のより具体的な例(以下に限定されない)は、1つ以上のワイヤ、携帯用コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、携帯用コンパクトディスクリードオンリーメモリ(CD-ROM)、光データ記憶装置、磁気データ記憶装置または前述した任意の適切な組み合わせを含む。本文書のコンテキストにおいて、コンピュータで読み取り可能な記録媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、またはそれを記憶できる、任意の有形媒体であってもよい。
コンピュータで読み取り可能な信号媒体には、例えば、ベースバンドで、または搬送波の一部として、コンピュータで読み取り可能なプログラムコードが具現化された伝搬データ信号を含むことができる。そのような伝播信号は、電磁、光学またはそれらの任意の適切な組み合わせを含むが、それらに限定されない、任意の様々な形態がある。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記録媒体ではなく、命令実行システム、装置または装置によって、またはそれに関連して使用するためにプログラムを通信、伝播、または移送できる、任意のコンピュータ読み取り可能な媒体であってもよい。
コンピュータで読み取り可能な媒体で具現化されるプログラムコードは、無線、有線、光ファイバケーブル、RF等、あるいは前述した任意の適切な組合せを含むが、これらに限定されない、任意の適切な媒体を用いて送信される。
本発明の態様に関する処理を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++等のオブジェクト指向プログラミング言語及び「C」プログラミング言語または類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで書くことができる。プログラムコードは、全体的にユーザのコンピュータで実行されてもよく、スタンドアロンソフトウェアパッケージとして部分的にユーザのコンピュータで実行されてもよく、部分的にユーザのコンピュータで実行され、かつ部分的にリモートコンピュータで実行されてもよく、全体的にリモートコンピュータまたはサーバで実行されてもよい。後者のシナリオにおいて、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータと接続されてもよく、(例えば、インターネットサービスプロバイダを利用したインターネットを介して)外部コンピュータと接続されてもよい。
本発明の態様について、本発明の実施形態による方法、装置(システム)、並びにコンピュータプログラム製品のフローチャート及び/またはブロック図を参照して以下で説明する。フローチャート及び/またはブロック図の各ブロック、並びにフローチャート及び/またはブロック図のブロックにおける組合せは、コンピュータプログラム命令によって実施できることを理解されたい。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを通して実行される命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定される機能/動作を実施するための手段を作り出すようなマシンを生成するために、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサに提供される。
これらのコンピュータプログラム命令は、コンピュータで読み取り可能な媒体に格納された命令が、フローチャート及び/またはブロック図の1つまたは複数のブロックまたはモジュールに指定された機能/動作を実装する命令を含む製品を生成するように、コンピュータ、他のプログラマブルデータ処理装置または他のデバイスに、特定の方法で機能するように指示できるコンピュータで読み取り可能な媒体に格納できる。
コンピュータプログラム命令は、またコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードされて、一連の動作ステップがコンピュータ、他のプログラマブル装置または他のデバイスで実行され、コンピュータまたは他のプログラマブル装置で実行される命令が、フローチャート及び/またはブロック図のブロックまたはモジュールに指定された機能/動作を実装するためのプロセスを提供するように、コンピュータ実装プロセスを生成できる。
本明細書で使用する「プロセッサ」という用語は、例えばCPU(central processing unit)及び/または他の処理回路を含むもの等、任意の処理装置を含むことを意図しており、「プロセッサ」という用語は1つ以上の処理装置を指すことが可能であり、処理装置に関連する様々な要素は、他の処理装置によって共有されることも理解されたい。
本明細書で使用する「メモリ」という用語は、例えば、RAM、ROM、固定メモリデバイス(例えば、ハードドライブ)、リムーバブルメモリデバイス(例えば、ディスケット)、フラッシュメモリ等、プロセッサまたはCPUに関連するメモリを含むことを意図している。このようなメモリは、コンピュータで読み取り可能な記録媒体と考えることができる。
さらに、本明細書で使用する「入力/出力装置」または「I/O装置」という用語は、例えば、処理ユニットにデータを入力するための1つまたは複数の入力装置(例えば、キーボード、マウス、スキャナ等)及び/または処理ユニットに関連する、結果を提示するための1つまたは複数の出力装置(例えば、スピーカ、ディスプレイ、プリンタなど)を含むことを意図する。
上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。

Claims (20)

  1. 深層正準相関分析(CAA)及びペアワイズクエリを備える能動学習を用いる、ペアマルチモーダルデータの学習及びクラスタリングを埋め込むためのプロセッサで実行されるコンピュータ実装方法であって、
    複数のセンサから時系列データを収集し(1301)、
    教師なしにおいて、前記時系列データ及び関連するコメントテキストを用いてクロスモーダル検索システムを訓練し(1303)、
    クエリのモダリティに応じて、
    前記時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される、前記関連するコメントテキストを取得し(1305)、
    関連する時系列セグメントが文またはキーワードのセットと一致するように、前記文またはキーワードのセットが与えられた、前記関連する時系列セグメントを取得し(1305)、
    属性の第1のサブセットが前記キーワードのセットに一致し、属性の第2のサブセットが前記時系列セグメントと類似するように、前記時系列セグメント及びキーワードの文章またはセットが与えられた、関連する時系列セグメントを取得する(1305)、方法。
  2. 前記時系列セグメント及び前記関連するコメントテキストは、共通の潜在空間におけるポイントに変換される、請求項1に記載の方法。
  3. 前記クロスモーダル検索システムは、前記共通の潜在空間における前記クエリの最近傍を見つける、請求項2に記載の方法。
  4. 前記クロスモーダル検索システムは、マルチモーダルニューラルネットワークを使用して、前記時系列データ及び関連するコメントテキストをベクトル表現に符号化する、請求項1に記載の方法。
  5. 前記マルチモーダルニューラルネットワークは、時系列テキストペアのユーザ提供データベースからの事例を使用する、2段階の訓練アルゴリズムによって訓練される、請求項4に記載の方法。
  6. 前記訓練アルゴリズムの第1段階は、深層CCAベースの事前訓練である、請求項5の方法。
  7. 前記訓練アルゴリズムの第2段階は、能動クラスタリングである、請求項6に記載の方法。
  8. 前記能動クラスタリングは、ガウス混合モデリング(GMM)に基づくクエリペアの選択と、能動スペクトルクラスタリングを使用するクエリベースの選択とを含む、請求項7に記載の方法。
  9. 深層正準相関分析(CAA)及びペアワイズクエリによる能動学習を用いる、ペアマルチモーダルデータの学習及びクラスタリングを埋め込むためのコンピュータで読み取り可能なプログラムを含む非一時的なコンピュータで読み取り可能な記録媒体であって、
    コンピュータで読み取り可能なプログラムがコンピュータで実行されると、
    コンピュータに、
    複数のセンサから時系列データを収集させ(1301)、
    教師なしにおいて、前記時系列データ及び関連するコメントテキストを用いてクロスモーダル検索システムを訓練させ(1303)、
    クエリのモダリティに応じて、
    前記時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される、前記関連するコメントテキストを取得させ(1305)、
    関連する時系列セグメントが文またはキーワードのセットと一致するように、前記文またはキーワードのセットが与えられた、前記関連する時系列セグメントを取得させ(1305)、
    属性の第1のサブセットが前記キーワードのセットに一致し、属性の第2のサブセットが前記時系列セグメントと類似するように、前記時系列セグメント及び前記キーワードの文章またはセットが与えられた、前記関連する時系列セグメントを取得させる(1305)、コンピュータで読み取り可能な記録媒体。
  10. 前記時系列セグメント及び前記関連するコメントテキストは、共通の潜在空間におけるポイントに変換される、請求項9に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  11. 前記クロスモーダル検索システムは、前記共通の潜在空間における前記クエリの最近傍を見つける、請求項10に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  12. 前記クロスモーダル検索システムは、マルチモーダルニューラルネットワークを使用して、前記時系列データ及び関連するコメントテキストをベクトル表現に符号化する、請求項9に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  13. 前記マルチモーダルニューラルネットワークは、時系列テキストペアのユーザ提供データベースからの事例を使用する、2段階の訓練アルゴリズムによって訓練される、請求項12に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  14. 前記訓練アルゴリズムの第1段階は、深層CCAベースの事前訓練である、請求項13に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  15. 前記訓練アルゴリズムの第2段階は、能動クラスタリングである、請求項14に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  16. 前記能動クラスタリングは、ガウス混合モデリング(GMM)に基づくクエリペアの選択と、能動スペクトルクラスタリングを使用するクエリベースの選択とを含む、請求項15に記載の非一時的なコンピュータで読み取り可能な記録媒体。
  17. 深層正準相関分析(CAA)及びペアワイズクエリによる能動学習を用いる、ペアマルチモーダルデータの学習及びクラスタリングを埋め込むためのシステムであって、
    メモリと、
    複数のセンサから時系列データを収集し(1301)、
    教師なしにおいて、前記時系列データ及び関連するコメントテキストを用いてクロスモーダル検索システムを訓練し(1303)、
    クエリのモダリティに応じて、
    前記時系列データの時系列セグメントから、クエリセグメントの人が読める説明として使用される、前記関連するコメントテキストを取得し(1305)、
    関連する時系列セグメントが文またはキーワードのセットと一致するように、前記文またはキーワードのセットが与えられた、前記関連する時系列セグメントを取得し(1305)、
    属性の第1のサブセットが前記キーワードのセットに一致し、属性の第2のサブセットが前記時系列セグメントと類似するように、前記時系列セグメント及び前記キーワードの文章またはセットが与えられた、前記関連する時系列セグメントを取得する(1305)ように構成された、前記メモリと通信する1つまたは複数のプロセッサと、
    を有する、システム。
  18. 前記時系列セグメント及び前記関連するコメントテキストは、共通の潜在空間におけるポイントに変換される、請求項17に記載のシステム。
  19. 前記クロスモーダル検索システムは、前記共通の潜在空間における前記クエリの最近傍を見つける、請求項18に記載のシステム。
  20. 前記クロスモーダル検索システムは、マルチモーダルニューラルネットワークを使用して、前記時系列データ及び関連するコメントテキストをベクトル表現に符号化する、請求項17に記載のシステム。
JP2022505536A 2019-08-21 2020-08-19 深層cca及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法 Active JP7257585B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201962890013P 2019-08-21 2019-08-21
US62/890,013 2019-08-21
US202063021208P 2020-05-07 2020-05-07
US63/021,208 2020-05-07
US16/996,110 US20210056127A1 (en) 2019-08-21 2020-08-18 Method for multi-modal retrieval and clustering using deep cca and active pairwise queries
US16/996,110 2020-08-18
PCT/US2020/047012 WO2021034941A1 (en) 2019-08-21 2020-08-19 A method for multi-modal retrieval and clustering using deep cca and active pairwise queries

Publications (2)

Publication Number Publication Date
JP2022544047A JP2022544047A (ja) 2022-10-17
JP7257585B2 true JP7257585B2 (ja) 2023-04-13

Family

ID=74646848

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022505536A Active JP7257585B2 (ja) 2019-08-21 2020-08-19 深層cca及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法

Country Status (4)

Country Link
US (1) US20210056127A1 (ja)
JP (1) JP7257585B2 (ja)
DE (1) DE112020003909T5 (ja)
WO (1) WO2021034941A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106163577A (zh) 2014-03-31 2016-11-23 艾欧泰克国际股份有限公司 未络合的碘的稳定组合物以及使用方法
CN113220865B (zh) * 2021-04-15 2022-06-24 山东师范大学 一种文本相似词汇检索方法、系统、介质及电子设备
US20230245183A1 (en) * 2022-01-31 2023-08-03 Capital One Services, Llc Systems and methods for generating vehicle buyback guarantees
KR102478076B1 (ko) * 2022-06-13 2022-12-15 주식회사 액션파워 음성 인식 오류 검출을 위해 학습 데이터를 생성하기 위한 방법
CN115203377A (zh) * 2022-09-09 2022-10-18 北京澜舟科技有限公司 基于检索的模型增强训练方法、系统及存储介质
CN115203380B (zh) * 2022-09-19 2022-12-20 山东鼹鼠人才知果数据科技有限公司 基于多模态数据融合的文本处理系统及其方法
CN115374191B (zh) * 2022-10-26 2023-01-31 国网湖北省电力有限公司信息通信公司 一种多源数据驱动的数据中心异构设备群聚类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127305A (zh) 2016-06-17 2016-11-16 中国科学院信息工程研究所 一种针对多源异构数据的异源间相似性度量方法
US20190018838A1 (en) 2016-03-22 2019-01-17 Sony Corporation Electronic device and method for text processing

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101266267B1 (ko) * 2006-10-05 2013-05-23 스플렁크 인코퍼레이티드 시계열 검색 엔진
US20130013536A1 (en) * 2009-12-24 2013-01-10 Nec Corporation Metric learning device, metric learning method, and recording medium
US8521671B2 (en) * 2010-04-30 2013-08-27 The Intellisis Corporation Neural network for clustering input data based on a Gaussian Mixture Model
US20160110478A1 (en) * 2014-10-17 2016-04-21 General Electric Company System and methods for quantization and featurization of time-series data
US10867256B2 (en) * 2015-07-17 2020-12-15 Knoema Corporation Method and system to provide related data
US10387531B1 (en) * 2015-08-18 2019-08-20 Google Llc Processing structured documents using convolutional neural networks
KR20180061552A (ko) * 2016-11-29 2018-06-08 한국전자통신연구원 유사사례 클러스터 기반 미래건강추이 예측모델 생성 장치 및 그 방법
US20190034497A1 (en) * 2017-07-27 2019-01-31 Nec Laboratories America, Inc. Data2Data: Deep Learning for Time Series Representation and Retrieval

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190018838A1 (en) 2016-03-22 2019-01-17 Sony Corporation Electronic device and method for text processing
CN106127305A (zh) 2016-06-17 2016-11-16 中国科学院信息工程研究所 一种针对多源异构数据的异源间相似性度量方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
下西 雅樹、外2名,読唇のためのDCCAを用いたマルチモーダルデータ拡張,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2019年02月26日,第118巻,第426号,p.41-45

Also Published As

Publication number Publication date
US20210056127A1 (en) 2021-02-25
DE112020003909T5 (de) 2022-05-12
JP2022544047A (ja) 2022-10-17
WO2021034941A1 (en) 2021-02-25

Similar Documents

Publication Publication Date Title
JP7257585B2 (ja) 深層cca及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法
US11182568B2 (en) Sentence evaluation apparatus and sentence evaluation method
CN107066464B (zh) 语义自然语言向量空间
US20170200077A1 (en) End-to-end memory networks
US11531824B2 (en) Cross-lingual information retrieval and information extraction
US20160042296A1 (en) Generating and Using a Knowledge-Enhanced Model
US11520993B2 (en) Word-overlap-based clustering cross-modal retrieval
CN105139237A (zh) 信息推送的方法和装置
US11874863B2 (en) Query expansion in information retrieval systems
US20210319280A1 (en) Interpretable node embedding
US11043208B1 (en) Systems and methods for mixed setting training for slot filling machine learning tasks in a machine learning task-oriented dialogue system
EP4334861A1 (en) Systems and methods for active curriculum learning
US20230094828A1 (en) Audio file annotation
Korade et al. Strengthening Sentence Similarity Identification Through OpenAI Embeddings and Deep Learning.
Banerjee et al. Relation extraction using multi-encoder lstm network on a distant supervised dataset
WO2022233421A1 (en) Systems and methods for real-time determinations of mental health disorders using multi-tier machine learning models based on user interactions with computer systems
CN117494815A (zh) 面向档案的可信大语言模型训练、推理方法和装置
JP2022544018A (ja) 正準相関分析に基づく時系列およびテキストコメントにおける教師なしコンセプト発見およびクロスモーダル検索
US20240095445A1 (en) Systems and methods for language modeling with textual clincal data
CN114676227B (zh) 样本生成方法、模型的训练方法以及检索方法
US20230049418A1 (en) Information quality of machine learning model outputs
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
CN118132735B (zh) 医疗规则库的生成方法和装置
US12045700B1 (en) Systems and methods of generative machine-learning guided by modal classification
CN112528026B (zh) 关键词识别方法、装置、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230403

R150 Certificate of patent or registration of utility model

Ref document number: 7257585

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350