JP2017538229A

JP2017538229A - 神経言語挙動認識システム用の知覚関連メモリ

Info

Publication number: JP2017538229A
Application number: JP2017531754A
Authority: JP
Inventors: セアウ，ミン−ジョン; スー，ガン; ヤン，タオ; コブ，ウェスレー，ケネス
Original assignee: オムニエーアイ，インコーポレイテッド
Priority date: 2014-12-12
Filing date: 2015-12-10
Publication date: 2017-12-21
Also published as: KR20170094357A; CN107003992B; CN113255333A; KR102440821B1; CN107003992A; US20220075946A1; US20160170961A1; US10409910B2; US20200193092A1; EP3230891A1; WO2016094635A1

Abstract

【課題】１つ以上のソースから得られた入力データの神経言語モデルの統語論を生成する技術を生成する。【解決手段】符号のシーケンスから構築されるディクショナリの単語のストリームが受信される。符号は、入力データから生成された正規化ベクトルの順序付きストリームから生成される。ストリーム内に同時発生する単語の組み合わせについての統計を評価する。統計は、単語の組み合わせが同時発生する頻度を含む。評価統計に基づく単語の組み合わせのモデルが更新される。モデルは、統計的に関連のある単語を同定する。連結グラフが生成される。連結グラフの各ノードは、ストリーム内の単語のうちの１つを表す。ノードを連結するエッジは、このストリームにおける単語間の確率的関係を表す。フレーズは、連結グラフに基づいて同定される。【選択図】図１

Description

[0001] 本明細書に記載の実施形態は、データ解析システム全般に関連し、特に、１つ以上のデータソースから得られた入力データの神経言語モデルの構築に関連する。

[0002] 現在利用可能な多くの監視及びモニタリングシステム（例えば、ビデオ監視システム、ＳＣＡＤＡシステム等）が、特定のアクティビティを観察し、このようなアクティビティの検出後、管理者に警告するように訓練される。

[0003] しかしながら、このようなルールベースのシステムは、どのようなアクション及び／又は対象を観察すべきかについて事前の知識を要する。アクティビティは、基礎となるアプリケーションにハードコーディングされてもよく、又は、システムは、提供された任の定義又はルールに基づいて自身を訓練してもよい。換言すると、基礎となるコードがある挙動の記述又は与えられた観察に対して警告を生成するルールを含まない限り、システムは、このような挙動を認識することができない。このようなルールベースのアプローチは、固定的である。すなわち、与えられた挙動が事前規定のルールに合致しない限り、挙動の発生は、モニタリングシステムによって未検出となり得る。システムが、自身をこのような挙動を同定するように訓練する場合であっても、このシステムは、何を同定するかについて事前にルールが基底されることを要する。

[0004] また、例えば、ビデオ監視システム等、多くのモニタリングシステムは、プロセッサパワー、ストレージ、及び帯域幅を含む、著しい量の演算リソースを要する。例えば、通常のビデオ監視システムは、通常サイズのビデオデータが故に、カメラフィード毎に大量の演算リソースを要する。リソースのコストを考慮すると、このようなシステムの規模を実現するのは困難である。

[0005] 本明細書に記載の一実施形態は、１つ以上のソースから得られた入力データの神経言語モデルの統語論を生成する方法を含む。この方法は、通常、符号のシーケンスから構築されるディクショナリの単語のストリームを受信することを含む。この符号は、入力データから生成される正規化ベクトルの順序付きストリームから生成される。ストリームにおいて同時発生する単語の組み合わせについての統計が評価される。この統計は、単語の組み合わせが同時発生する頻度を含む。単語の組み合わせのモデルは、評価統計に基づいて更新される。このモデルは、統計的に関連のある単語を同定する。連結グラフが生成される。連結グラフの各ノードは、ストリーム内の単語のうちの１つを表す。ノードを連結するエッジは、ストリーム内の単語間の関係の確率的関係を表す。フレーズは、連結グラフに基づいて同定される。

[0006] 本明細書に記載の他の実施形態は、プロセッサ上における実行時、１つ以上のソースから得られた入力データの神経言語モデルの統語論を生成する動作を実施する指示を記憶するコンピュータ可読記憶媒体を含む。この動作自体は、通常、符号のシーケンスから構築されたディクショナリの単語のストリームを受信することを含む。この符号は、入力データから生成される正規化ベクトルの順序付きストリームから生成される。ストリーム内に同時発生する単語の組み合わせについての統計が評価される。この統計は、単語の組み合わせが同時発生する頻度を含む。単語の組み合わせのモデルは、評価統計に基づいて更新される。このモデルは、統計的に関連のある単語を同定する。連結グラフが生成される。連結グラフにおける各ノードは、ストリーム内の単語のうちの１つを表す。ノードを連結するエッジは、ストリーム内における単語間の確率的関係を表す。フレーズは、連結グラフに基づいて同定される。

[0007] 本明細書に記載のさらに他の実施形態は、プロセッサと、１つ以上のソースから得られた入力データの神経言語モデルの統語論を生成する動作を実施するように構成された１つ以上のアプリケーションプログラムを記憶するメモリとを有するシステムを含む。この動作自体は、通常、符号のシーケンスから構築されたディクショナリの単語のストリームを受信することを含む。符号は、入力データから生成された正規化ベクトルの順序付きストリームから生成される。ストリーム内に同時発生する単語の組み合わせについての統計が評価される。この統計は、単語の組み合わせが同時発生する頻度を含む。単語の組み合わせのモデルは、評価統計に基づいて更新される。このモデルは、統計的に関連のある単語を同定する。連結グラフが生成される。連結グラフ内の各ノードは、ストリーム内の単語のうちの１つを表す。ノードを連結するエッジは、ストリーム内の単語間の確率的関係を表す。フレーズは、連結グラフに基づいて同定される。

[0008] 以上に参照した本開示の特徴が詳細に理解可能な方法で、実施形態を参照して、以上に簡単にまとめた本開示のより具体的な説明を行うが、その内のいくつかを添付の図面に示している。しかしながら、添付の図面は、単なる例示としての実施形態を示すものであり、従って、その範囲を限定するものと考えてはならず、他の同等に有効な実施形態が認められてもよいことに留意しなければならない。

[0009] 一実施形態に係る神経言語挙動認識システムのための一例としての演算環境を示す。 [0010] 一実施形態に係る神経言語挙動認識システムのシステム構造を示す。 [0011] 一実施形態に係る神経言語挙動認識システムにおいて使用されるセンサデータの収集方法を示す。 [0012] 一実施形態に係る知覚関連メモリを初期化する方法を示す。 [0013] 一実施形態に係る知覚関連メモリに入力されるディクショナリからの単語間の関係を表す連結グラフを示す。 [0014] 一実施形態に係る認知モジュールに統語論を送信する方法を示す。

[0015] 理解を促進するために、図面を通じて共通する同一要素を指定するのに、可能な限り、同一の参照符号を使用した。一実施形態の要素及び特徴は、さらなる再引用がなくても、他の実施形態に有利に組み込まれてもよいと考えられる。

[0016] 本明細書に記載の実施形態は、挙動認識システムを説明するものである。挙動認識システムは、異なるデータソース（例えば、ビデオデータ、構築管理データ、ＳＣＡＤＡデータ）から生データ値を収集する１つ以上のデータコレクタ要素を備えて構成されてもよい。例えば、挙動認識システムは、ビデオ監視を行うように構成されてもよい。挙動認識システムは、リアルタイムでビデオフレームを検索し、背景対象から前景対象を分離し、フレーム間で前景対象を追跡するデータコレクタ要素を含んでもよい。データコレクタ要素は、ビデオフレームデータを数値（例えば、与えられたデータ種別に対して０〜１までの範囲内）に正規化してもよい。

[0017] 一実施形態において、挙動認識システムは、収集データに神経ネットワークベース言語解析を実施する神経言語モジュールを含む。特に、センサによってモニタされる各データ種別について、神経言語モジュールは、正規化データの言語モデルを作成及び精錬する。すなわち、神経言語モジュールは、正規化データの記述に使用される文法を構築する。言語モデルは、文法の構築ブロックとして機能する符号を含む。神経言語モジュールは、単語のディクショナリを構築する符号の組み合わせを同定する。一旦ディクショナリが構築されると、神経言語モジュールは、ディクショナリ内の単語の種々の組み合わせを含むフレーズを同定する。挙動認識システムは、このような言語モデルを使用して、何が観察中であるかを記述する。言語モデルにより、挙動認識システムに、入力データ中に観察される正常アクティビティと異常アクティビティを区別させる。結果として、挙動認識システムは、異常アクティビティが発生すると随時、警告を発行することができる。

[0018] 言語モデルを生成するために、神経言語モジュールは、正規化データ値を受信し、このデータをクラスタ内に組織化する。神経言語モジュールは、各クラスタの統計を評価し、統計的に関連するクラスタを同定する。さらに、神経言語モジュールは、統計的に関連する各クラスタに対応する、例えば、文字等の符号を生成する。従って、与えられたクラスタにマッピングする入力値は、符号に対応してもよい。

[0019] 神経言語モジュールは、入力データ内に同定された符号の統計的分布に基づき、観察された符号の組み合わせ、すなわち、単語の語彙を生成、すなわち、ディクショナリを構築する。具体的には、神経言語モジュールは、異なる発生頻度で、入力データ内の符号パターンを同定してもよい。さらに、神経言語モジュールは、異なる長さ（例えば、１つの符号から最大数の符号までの単語の長さ）で、統計的に関連する符号の組み合わせを同定することができる。神経言語モジュールは、言語モデルに対するフレーズの同定に使用されるディクショナリにおいて、このような統計的に関連する符号の組み合わせを含んでもよい。

[0020] 神経言語モジュールは、ディクショナリからの単語を使用して、追加データが観察される際に他の単語に対してシーケンス内に発生する各単語の確率的関係に基づき、フレーズを生成する。例えば、神経言語モジュールは、シーケンス内に頻繁に発生する、与えられた３文字の単語と、与えられた４文字の単語との関係を同定する。神経言語モジュールは、同定されたフレーズに基づき、統語論判定を行う。

[0021] この統語論により、挙動認識システムに、事前規定されたアクティビティの補助又は案内を伴うことなく、挙動パターンの学習、同定、及び認識を行わせる。同定又は観察対象の事前規定パターンを含むルールベースの監視システムとは異なり、挙動認識システムは、入力を生成し、観察対象の挙動メモリを構築することにより、パターンを学習する。挙動認識システムは、時間経過に応じて、これらのメモリを使用し、観察データに反映される正常挙動と異常挙動とを区別する。

[0022] 例えば、神経言語モジュールは、文字、単語、フレーズを構築し、同定された各文字、単語、又はフレーズについて「希少性スコア」を推定する。（入力データにおいて観察される文字、単語、又はフレーズに対する）希少性スコアは、過去の観察に対してこの文字、単語、又はフレーズがどの程度低い頻度で発生したかを示す測定値を提供する。そこで、挙動認識システムは、希少性スコアを使用して、符号の安定モデル（すなわち、文字）、符号から構築された単語の安定モデル（すなわち、ディクショナリ）、及び単語から構築されたフレーズの安定モデル（すなわち、統語論）−まとめて神経言語モデルに対して、現在の統語論がどの程度希少であるかをともに測定してもよい。

[0023] 神経言語モジュールが継続して入力データを受信する際、神経言語モジュールは、文字、単語、及び統語論モデルを減衰、補強、及び生成してもよい。機械学習分野においては、神経言語モジュールは、新たなデータが受信され、与えられた種別の入力データの発生が増加、減少、出現、又は消滅すると、「オンラインで学習する」。

[0024] 図１は、一実施形態に係る挙動認識システム１００の要素を示す。図示の通り、挙動認識システム１００は、１つ以上の入力ソースデバイス１０５、ネットワーク１１０、及び１つ以上のコンピュータシステム１１５を含む。ネットワーク１１０は、ソースデバイス１０５によって入力されたデータをコンピュータシステム１１５に送信してもよい。通常、演算環境１００は、ネットワーク（例えば、インターネット）を介して接続された１つ以上の物理コンピュータシステム１１５を含んでもよい。あるいは、コンピュータシステム１１５は、ネットワークによって接続されたクラウドコンピューティングリソースであってもよい。例示的に、コンピュータシステム１１５は、１つ以上の中央処理装置（ＣＰＵ）１２０と、１つ以上のグラフィクス処理装置（ＧＰＵ）１２１と、ネットワーク及びＩ／Ｏインタフェース１２２と、ストレージ１２４（例えば、ディスクドライブ、光学ディスクドライブ等）と、センサ管理モジュール１３０、感覚メモリ要素１３５、及び機械学習エンジン１４０を含むメモリ１２３とを含む。ストレージ１２４は、モデルリポジトリ１４５を含む。

[0025] ＣＰＵ１２０は、メモリ１２３に記憶されたプログラミング指示を検索及び実行し、ストレージ１２４内にあるアプリケーションデータを記憶及び検索する。一実施形態において、ＧＰＵ１２１は、コンピュート・ユニファイド・デバイス・アーキテクチャ（ＣＵＤＡ）を実装する。さらに、ＧＰＵ１２１は、ＧＰＵ１２１の並列スループット構造を使用して汎用処理を提供することで、メモリ１２３に記憶されたプログラミング指示をより効果的に検索及び実行し、且つ、ストレージ１２４内にあるアプリケーションデータを記憶及び検索するように構成される。並列スループット構造は、アプリケーション及び入力データを処理するために、数千のコアを提供する。結果として、ＧＰＵ１２１は、その数千のコアを活用して、大規模並列的に読み取り及び書き込みの操作を実施する。ＧＰＵ１２１の並列演算要素を利用することにより、挙動認識システム１００に、大量の到来データ（例えば、ビデオソース及び／又はオーディオソースからの入力）をより良好に処理させる。結果として、挙動認識システム１００の規模は、比較的困難なく、実現されてもよい。

[0026] センサ管理モジュール１３０は、１つ以上のデータコレクタ要素を提供する。各コレクタ要素は、特定の入力データソース、例えば、ビデオソース、ＳＣＡＤＡ（監督制御及びデータ取得）ソース、オーディオソース等に関連付けられる。コレクタ要素は、特定の間隔（例えば、１分に１度、３０分毎に１度、３０秒毎に１度等）で、各ソースから入力データを検索（又は、センサによっては受信）する。センサ管理モジュール１３０は、データソース間の通信を制御する。さらに、センサ管理モジュール１３０は、入力データを正規化し、正規化データを感覚メモリ要素１３５に送信する。

[0027] 感覚メモリ要素１３５は、センサ管理モジュール１３０からの大容量のデータを機械学習エンジン１４０に転送するデータ記憶である。感覚メモリ要素１３５は、データを記録として記憶する。各記録は、識別子、タイムスタンプ、及びデータペイロードを含んでもよい。さらに、感覚メモリ要素１３５は、時間分類的に到来データを集積する。データが集積されてもよい単一箇所に各データコレクタ要素からの到来データを記憶することにより、機械学習エンジン１４０に、そのデータをより効率的に処理させる。さらに、コンピュータシステム１１５は、例外アクティビティに対して警告を生成する際、感覚メモリ要素１３５に記憶されたデータを参照してもよい。一実施形態において、感覚メモリ要素１３５は、メモリ１２３の仮想メモリファイルシステムを介して実装されてもよい。他の実施形態において、感覚メモリ要素１３５は、キー値共有を使用して実装される。

[0028] 機械学習エンジン１４０は、センサ管理モジュール１３５から出力されたデータを受信する。通常、機械学習エンジン１４０の要素は、正規化ベクトルの言語表現を生成する。以下にさらに説明する通り、このようにするには、機械学習エンジン１４０は、同様の特徴を有する正規化値をクラスタ化し、各クラスタに個別の符号を割り当てる。そして、機械学習エンジン１４０は、データにおける符号の再発生の組み合わせ（すなわち、単語）を同定してもよい。そして、機械学習エンジン１４０は、同様に、データにおける単語の再発生の組み合わせ（すなわち、フレーズ）を同定する。

[0029] しかしながら、図１は、挙動認識システム１００のただ１つのみの可能な配置を示していることに留意されたい。例えば、入力データソース１０５は、ネットワーク１１０を介してコンピュータシステム１１５に接続される様子が示されているが、ネットワーク１１０は、常に存在したり、又は、必要とされるわけではない（例えば、ビデオカメラ等の入力ソースは、コンピュータシステム１１５に直接接続されてもよい）。

[0030] 図２は、一実施形態に係る挙動認識システムのシステム構造を示す。図示の通り、センサ管理モジュール１３０及び機械学習エンジン１４０は、持続層２１０を介して通信する。

[0031] 持続層２１０は、コンピュータシステム１１５の要素によって使用される情報を維持するデータ記憶を含む。例えば、持続層２１０は、データコレクタモジュール２０２の特性、システム特性（例えば、コンピュータシステム１１５のシリアル番号、利用可能なメモリ、利用可能な容量等）、及びソースドライバの特性（例えば、アクティブプラグイン１１８、各データソース、正規化設定等に関連付けられたアクティブセンサ）を記述する情報を維持するデータ記憶を含む。他のデータ記憶は、学習モデル情報、システムイベント、挙動警告を維持してもよい。また、感覚メモリ要素１３５は、持続層２１０にある。

[0032] 機械学習エンジン１４０自体は、神経言語モジュール２１５と認知モジュール２２５を含む。神経言語モジュール２１５は、正規化入力データの言語解析に基づいて神経ネットワークを実施し、観察された入力データの神経言語モデルを構築する。挙動認識システムは、言語モデルを使用して、次に観察されるアクティビティを記述することができる。しかしながら、神経言語モジュール２１５は、事前規定の対象及びアクションに基づいてアクティビティを記述するのでなく、入力データから生成された符号、単語、及びフレーズに基づいて、カスタム言語を開発する。図示の通り、神経言語モジュール２１５は、データトランザクションメモリ（ＤＴＭ）要素２１６、分類解析器要素２１７、マッパ要素２１８、語彙解析器要素２１９、及び知覚関連メモリ（ＰＡＭ）要素２２０を含む。

[0033] 一実施形態において、ＤＴＭ要素２１６は、感覚メモリ要素１３５から入力データの正規化ベクトルを検索し、ＧＰＵ１２１によって提供されるパイプライン構造に入力データを段階化する。分類解析器要素２１７は、ＤＴＭ要素２１６によって組織化された正規化データを評価し、神経ネットワーク上にデータをマッピングする。一実施形態において、神経ネットワークは、自己組織化マップ（ＳＯＭ）と適合共鳴理論（ＡＲＴ）ネットワークの組み合わせである。

[0034] マッパ要素２１８は、互いに関連付けられて反復的に発生する値に基づき、データストリームをクラスタ化する。さらに、マッパ要素２１８は、各入力特徴について、クラスタセットを生成する。例えば、入力データがビデオデータに対応するという前提で、特徴は、場所、速度、加速度等を含んでもよい。マッパ要素２１８は、これらの各特徴について別のクラスタセットを生成するであろう。マッパ要素２１８は、クラスタ化入力データに基づき、符号を同定する（すなわち、文字のアルファベットを構築する）。具体的には、マッパ要素２１８は、各クラスタにおけるデータの統計的分布を判定する。例えば、マッパ要素２１８は、クラスタにおける値の分布について、平均、分散、及び標準偏差を判定する。マッパ要素２１８は、また、より多くの正規化データが受信されると、統計を更新する。さらに、各クラスタは、統計的有意性スコアに関連付けられてもよい。与えられたクラスタについての統計的有意性は、そのクラスタにマッピングする、より多くのデータが受信されるほど増加する。また、マッパ要素２１８は、マッパ要素２１８が時間経過に応じてより低い頻度でクラスタにマッピングするデータを観察するほど、クラスタの統計的有意性を減衰する。

[0035] 一実施形態において、マッパ要素２１８は、統計的有意性を有するクラスタに符号セットを割り当てる。クラスタは、そのクラスタにマッピングする入力データの閾値量を超過した場合、統計的有意性を有してもよい。符号は、入力データの神経言語解析に使用される単語の生成に使用されるアルファベットの文字として記述されてもよい。符号は、与えられたクラスタに属するデータの「曖昧な」表現を与える。

[0036] さらに、マッパ要素２１８は適応的である。すなわち、マッパ要素２１８は、正規化データから生成された新たなクラスタが、時間経過に応じて強化される（結果として、このようなクラスタは、入力データから現れた他のクラスタに比べて統計的に有意なレベルに達する）ため、これに対応する新たな符号を同定してもよい。マッパ要素２１８は、オンラインで学習し、同様の観察とより一般化されたクラスタとを統合してもよい。マッパ要素２１８は、結果として得られたクラスタに個別符号を割り当ててもよい。

[0037] 一旦クラスタが統計的有意性に達すると（すなわち、そのクラスタにマッピングするものとして観察されたデータが閾値量の点に達すると）、マッパ要素２１８は、そのクラスタにマッピングする正規化データに応じて、対応する符号の語彙解析器要素２１９への送信を開始する。一実施形態において、マッパ要素２１８は、語彙要素２１９に送信可能な符号を、最も統計的に有意なクラスタに限定する。実際には、上位３２個のクラスタに割り当てられた出力符号（すなわち、文字）は、有効であるものとして示されている。しかしながら、上位６４個、又は１２８語の最も再発生するクラスタ等、他の量も有効であると認められてもよい。時間経過に応じて、最も頻繁に観察される符号は、クラスタの統計的有意性が増す（又は減る）につれて変化することがあることに留意されたい。このように、与えられたクラスタが統計的有意性を喪失し得る。時間経過に応じて、統計的有意性の閾値が増加し得るので、与えられたクラスタにマッピングする観察データの量が閾値を満たさない場合、このクラスタは統計的有意性を喪失する。

[0038] 一実施形態において、マッパ要素２１８は、各符号について、希少性スコアを評価する。希少性スコアは、時間経過に応じた、入力データストリームにおいて観察される他の符号に対する、与えられた符号の頻度に基づくものである。希少性スコアは、神経言語モジュール２１５が追加データを受信すると、時間経過に応じて、増減してもよい。

[0039] マッパ要素２１８は、符号のストリーム（例えば、文字）、タイムスタンプデータ、希少性スコア、及び統計データ（例えば、与えられた符号に関連付けられたクラスタの表現）を語彙解析器要素２１９に送信する。語彙解析器要素２１９は、マッパ要素２１８から出力された符号に基づき、ディクショナリを構築する。実際には、マッパ要素２１８は、符号の安定的アルファベットの生成に約５０００の観察（すなわち、入力データの正規化ベクトル）を必要としてもよい。

[0040] 語彙解析器要素２１９は、マッパ要素２１８によって送信された符号から、同時発生する符号の組み合わせ、例えば、単語を含むディクショナリを構築する。語彙解析器要素２１９は、マッパ要素２１８から出力された文字及び特徴の反復的同時発生を同定し、符号ストリーム全体を通した生じる同時発生の頻度を計算する。符号の組み合わせは、特定のアクティビティ、イベント等を表してもよい。

[0041] 一実施形態において、語彙解析器要素２１９は、ディクショナリにおける単語の長さを限定し、語彙解析器要素２１９に、コンピュータシステム１１５の性能に悪影響を与えることなく、可能な組み合わせの数を同定させる。さらに、語彙解析器要素２１９は、レベルベース学習モデルを使用して、符号の組み合わせを解析し、単語を学習してもよい。語彙解析器要素２１９は、インクリメントレベル、すなわち、１文字の単語が第１のレベルで学習され、２文字の単語が第２のレベルで学習されるという具合に、最大符号組み合わせ長さまで単語を学習する。実際には、単語を最大５個又は６個の符号に限定することが有効であると示されている。

[0042] マッパ要素２１８と同様に、語彙解析器要素２１９は適応的である。すなわち、語彙解析器要素２１９は、時間経過に応じて、ディクショナリ内の単語を学習及び生成してもよい。語彙解析器要素２１９は、また、語彙解析器要素２１９が時間経過に応じて符号の次のストリームを受信する際、ディクショナリにおける単語の統計的有意性を強化又は衰退させてもよい。さらに、語彙解析器要素２１９は、単語がデータ内に再発生する頻度に基づいて、各単語についての希少性スコアを判定してもよい。希少性スコアは、神経言語モジュール２１５が追加データを処理する際、時間経過に応じて増減してもよい。

[0043] また、追加観察（すなわち、符号）が語彙解析器要素２１９に引き渡され、与えられた単語の一部として同定されると、語彙解析器要素２１９は、その単語モデルが成熟したと判定してもよい。一旦単語モデルが成熟すると、語彙解析器要素２１９は、モデルにおけるこれらの単語の観察をＰＡＭ要素２２０に出力してもよい。一実施形態において、語彙解析器要素２１９は、ＰＡＭ要素２２０に送信された単語を、最も統計的に関連のある単語に限定する。実際には、各サンプルについて、最も頻繁に発生する上位３２個の単語の出力発生が有効であるとして示されている（一方で、モデルに記憶されている最も頻繁に発生する単語は、数千の単語とすることができる）。時間経過に応じて、最も頻繁に観察される単語は、到来文字の観察頻度が変化するに連れて（又は、マッパ要素２１８による入力データのクラスタ化によって新たな文字が出るに連れて）変化してもよいことに留意されたい。

[0044] 一旦語彙解析器要素２１９がディクショナリを構築すると（すなわち、事前規定の統計的有意性に達した単語を同定すると）、語彙解析器要素２１９は、入力ストリーム内に続いて観察された単語の発生をＰＡＭ要素２２０に送信する。ＰＡＭ要素２２０は、語彙解析器要素２１９によって出力された単語でフレーズの統語論を構築する。実際には、語彙解析器要素２１９は、約１５，０００個の観察（すなわち、マッパ要素２１８からの入力文字）を受信した後、有用な単語のディクショナリを構築してもよい。

[0045] ＰＡＭ要素２２０は、語彙解析器要素２１９から出力された単語のシーケンスに基づき、フレーズの統語論を同定する。具体的には、ＰＡＭ要素２２０は、語彙解析器要素２１９によって同定された単語を受信し、連結グラフを生成するが、グラフのノードは、単語を表し、縁部は、単語間の関係を表す。ＰＡＭ要素２２０は、データストリーム内で単語が互いに連結される頻度に基づき、リンクの補強又は衰退を行ってもよい。

[0046] マッパ要素２１８及び語彙解析器要素２１９と同様に、ＰＡＭ要素２２０は、言語データにおけるフレーズの再発生頻度に基づいて、同定された各フレーズにつき、希少性スコアを判定する。希少性スコアは、神経言語モジュール２１５が追加データを処理する際、時間経過に応じて増減してもよい。

[0047] 語彙解析器要素２１９と同様に、ＰＡＭ要素２２０は、与えられたフレーズの長さを限定し、ＰＡＭ要素２２０が、コンピュータシステム１１５の性能に悪影響を与えることなく、可能な組み合わせの数を同定できるようにしてもよい。

[0048] ＰＡＭ要素２２０は、語彙解析器要素２１９から出力された単語の観察に亘って、統語論フレーズを同定する。単語の観察が蓄積するに連れて、ＰＡＭ要素２２０は、与えられたフレーズが成熟したこと、すなわち、フレーズが統計的関連性の測定値に達したことを判定してもよい。そして、ＰＡＭ要素２２０は、そのフレーズの観察を認知モジュール２２５に出力する。ＰＡＭ要素２２０は、符号、単語、フレーズ、タイムスタンプデータ、希少性スコア、及び統計的計算のストリームを含むデータを認知モジュール２２５に送信する。実際には、ＰＡＭ要素２２０は、語彙解析器要素２１９からの約５０００個の単語を観察した後、意味を成すフレーズのセットを取得してもよい。

[0049] 成熟後、生成された文字、単語、及びフレーズは、コンピュータシステム１１５が、文字、単語、及びフレーズの次の観察を安定モデルに対して比較するのに使用する入力データの安定的神経言語モデルを形成する。神経言語モジュール２１５は、新たなデータが受信されると、言語モデルを更新する。さらに、神経言語モジュール２１５は、現在観察している統語論をモデルと比較してもよい。すなわち、文字の安定的セットを構築した後、神経言語モジュール２１５は、単語の安定的モデル（例えば、ディクショナリ）を構築してもよい。次いで、神経言語モジュール２１５を使用して、フレーズの安定的モデル（例えば、統語論）を構築してもよい。その後、神経言語モジュール２１５が次の正規化データを受信したとき、モジュール２１５は、符号、単語、及びフレーズの順序付けられたストリームを出力するが、これらはすべて、安定的モデルと比較され、関心対象のパターンを同定するか、入力データのストリーム内に発生している偏差を検出することができる。

[0050] 図示の通り、認知モジュール２２５は、ワークスペース２２６、意味メモリ２３０、コードレットテンプレート２３５、エピソードメモリ２４０、長期メモリ２４５、及び例外検出要素２５０を含む。意味メモリ２３０は、上述の安定的な神経言語モデル、すなわち、マッパ要素２１８、語彙解析器要素２１９、及びＰＡＭ要素２２０からの安定的コピーを記憶する。

[0051] 一実施形態において、ワークスペース２２６は、機械学習エンジン１４０のための演算エンジンを提供する。ワークスペース２２６は、演算（例えば、例外モデル化演算）を実施し、演算からの直前の結果を記憶する。

[0052] ワークスペース２２６は、ＰＡＭ要素２２０から神経言語データを検索し、必要に応じて、このデータを認知モジュール２２５の異なる箇所に普及させる。

[0053] エピソードメモリ２４０は、直前の特定エピソードに関連した言語観察を記憶し、特定イベントの「何が」及び「いつ」等、特定の詳細を符号化してもよい。

[0054] 長期メモリ２４５は、特定のエピソード詳細を剥ぎ取って言語データの一般化を記憶する。このようにして、新たな観察が発生したとき、エピソードメモリ２４０及び長期メモリ２４５からのメモリを使用して、現在のイベントを関連付け及び理解してもよく、すなわち、新たなイベントが過去の経験（過去に観察された言語データによって表される）と比較されてもよく、時間経過に応じて、長期メモリ２４５内に記憶された情報の補強、衰退、及び調整の双方に繋がる。特定の実施形態において、長期メモリ２４５は、ＡＲＴネットワーク及び分散メモリデータ構造として実装されてもよい。しかしながら、重要なことに、このアプローチは、イベントを事前に規定することを要さない。

[0055] コードレットテンプレート２３５は、異なるイベントシーケンスを評価する実行可能なコードレット、又は、コードの小片を収集したものを提供し、１つのシーケンスがいかに他のシーケンスに続く（又は、関連する）かを判定する。コードレットテンプレート２３５は、決定論的コードレット及び推計学的コードレットを含んでもよい。より一般的には、コードレットは、入力データの言語表現から関心対象のパターンを検出してもよい。例えば、コードレットは、現在の観察を、意味メモリ２３０に記憶されている、過去に観察されたアクティビティと（すなわち、現在のフレーズ例を過去に観察されたものと）比較してもよい。実行のためにコードレットを反復的にスケジューリングし、ワークスペース２２６に対してメモリ及び知覚をコピーすることにより、認知モジュール２２５は、言語データ内に発生する挙動のパターンについて観察及び学習するのに使用される知覚サイクルを実施する。

[0056] 例外検出要素２５０は、神経言語モジュール２１５に送信される希少性スコアを評価し、希少性スコアで示される何らかの異常アクティビティに応じて、警告を発行するか否かを判定する。具体的には、例外検出要素２５０は、例えば、希少性スコアを表す希少語彙スコアモデル、希少統語論スコアモデル、及び例外モデル等の、確率的ヒストグラムモデルを提供する。希少語彙スコアモデル及び希少統語論スコアモデルは、語彙解析器要素２１９及びＰＡＭ要素２２０から送信された希少性スコアに基づいて生成される。例外モデルは、希少語彙スコアモデル及び希少統語論スコアモデルからの入力パーセンタイルを受信し、このパーセンタイルに基づき、絶対希少性スコアを生成する。例外検出要素２５０は、このスコアを評価し、与えられたスコアに基づいて警告を送信するか否かを判定する。例外検出要素２５０は、警告データを出力装置に送信してもよく、この場合、管理者は、例えば、管理コンソールを介して、この警告を閲覧してもよい。

[0057] 認知モジュール２２５は、新たな観察を意味メモリ２３０に維持された安定的な神経言語モデルの学習パターンと比較した後、これらの新たな観察の珍しさを推定することにより、意味メモリ２３０に送られた言語的内容（すなわち、同定された符号、単語、フレーズ）の学習解析を実施する。

[0058] 具体的には、例外検出要素２５０は、符号、単語、及びフレーズの各々の希少性スコアを評価して、観察データにおける異常発生を同定する。一旦例外観察が同定されると、例外要素は、警告を発行してもよい（例えば、コンピュータシステム１１５の管理者又はユーザに通知してもよい）。

[0059] 図３は、一実施形態に係る神経言語挙動認識システムにおいて使用されるセンサデータを収集する方法３００を示す。より具体的には、方法３００は、データコレクタが関連入力装置からデータを検出して、このデータを神経言語モジュール２１５に送信する方法を記述する。この例については、データコレクタモジュール２０２が与えられたフレームレートで画像データを取得するビデオソースであると想定する。当然のことながら、種々のデータコレクタモジュール２０２を使用することができる。

[0060] 方法３００は、ステップ３０５で開始し、ここでは、データコレクタモジュール２０２がソース入力装置からデータを検出（又は、受信）する。この場合、データコレクタモジュール２０２は、ホテルロビー等、特定の場所を観察するように配置されたビデオカメラ等のビデオソースからビデオフレームを検出してもよい。さらに、データコレクタモジュール２０２は、感覚メモリ要素１３５に送信するデータ値を同定する。このようにするために、データコレクタモジュール２０２は、ビデオフレームを評価して、背景対象から前景対象を分離し、同定された前景対象の外観及び運動学的情報を測定し、場面に亘って移動する前景対象（すなわち、カメラの視野）を追跡してもよい。結果として、データコレクタモジュール２０２は、ビデオフレームに示された対象の外観及び運動学的態様を特徴付けるデータ値セットを生成する。

[0061] ステップ３１０において、データコレクタモジュール２０２は、各データ値を、そのデータ値の種別に対して、例えば、０以上１以下の範囲内の数値に正規化する。例えば、運動学的特徴に関連付けられた値は、運動学的特徴に関連付けられた他の値に対して、０以上１以下に正規化される。このようにすることで、各値を共通形式に変換し、神経言語モジュール２１５に、ビデオストリームに再発生するイベントを認識させる。

[0062] 値を正規化した後、ステップ３１５において、データコレクタモジュール２０２は、与えられた値のタイムスタンプ、値のデータ種別（例えば、運動学的特徴、外観特徴、場所、位置等）に関連付けられた平均、及びそのデータ種別についての歴史的最高値及び最低値、正規化値に関連付けられた追加データを同定する。このようにすることで、データコレクタモジュール２０２に、ビデオソースが修正されるイベントでの正規化を再調整させる。具体的には、データコレクタモジュール２０２は、同定された歴史的値及び平均を参照し、正規化を再調整する。

[0063] ステップ３２０において、データコレクタモジュール２０２は、正規化値のベクトル及び関連データを感覚メモリ要素１３５に送信する。記述の通り、感覚メモリ要素１３５は、正規化値及び関連データを記憶する。そして、神経言語モジュール２１５は、感覚メモリ要素１３５から正規化値を検出し、その後、言語解析を実施する。

[0064] 図４は、一実施形態に係るＰＡＭ要素２２０を初期化する方法４００を示している。この方法４００は、ステップ４０５で開始し、ここでＰＡＭ要素２２０は、語彙解析器要素２１９から単語の観察のストリームを受信する。記述の通り、語彙解析器要素２１９は、マッパ要素２１８による出力として符号の群の統計的頻度を評価することにより、単語を生成する。符号の群（つまり、単語）が出現すると、語彙解析器要素２１９は、統計的に関連のある符号の組み合わせ、すなわち単語を同定し、この単語をＰＡＭ要素２２０に出力する。記述の通り、符号、単語、及びフレーズが同定され、ストリーム内に共通して観察されるものとして、すなわち、統計的に関連のあるものとして、その符号、単語、及びフレーズの頻度の統計的モデルを構築する。

[0065] ステップ４１０において、ＰＡＭ要素２２０は、同時発生単語の統計を評価する。このような統計は、ＰＡＭ要素２２０がどの程度の頻度で互いに同時発生する各単語を観察するかを含んでもよい。一実施形態において、この統計は、与えられた単語がどの程度の頻度で語彙解析器要素２１９によって引き渡された他の単語と同時発生するかによって判定される統計的有意性スコアを含んでもよい。各単語がともにどの程度の頻度で観察されるかを判定するために、ＰＡＭ要素２２０は、同時発生に基づいて、各単語を配置するマトリクスを生成してもよい。

[0066] ステップ４２０において、ＰＡＭ要素２２０は、連結グラフを生成する。連結グラフの各ノードは、語彙要素２１９によって出力される単語のうちの１つを表す。無向エッジは、ノードを連結して相対的頻度で同時発生する単語間の関係を示す。さらに、これらのエッジは、単語間の統計的有意性スコアに基づいて重み付けされてもよい。連結された各々一続きのノードは、挙動認識システムが、神経言語モジュール２１５に入力され、（マッパ要素２１８によって）符号にクラスタ化され、（語彙要素によって）単語に構文解析されたデータの記述に使用するフレーズを表してもよい。

[0067] 時間経過に応じて、ＰＡＭ要素２２０は、語彙解析器要素２１９から単語の追加観察を受信可能である。ＰＡＭ要素２２０は、統計的有意性スコアが増加すると、例えば、ＰＡＭ要素２２０が互いに同時発生する２つの単語の後続の例を観察すると、与えられたエッジを補強してもよい。また、ＰＡＭ要素２２０は、発生する観察が時間経過に応じて少なくなると（すなわち、統計的有意性スコアが時間経過に応じて低減すると）、エッジをなくしてもよい。

[0068] 図５は、一実施形態に係るＰＡＭ要素２２０によって生成される一例としての連結グラフ５００を示している。語彙解析器要素２１９がＰＡＭ要素２２０に単語のストリームを最初に出力したとき、ＰＡＭ要素２２０は、連結グラフ５００を生成する。

[0069] ノード（円によって表される）は、語彙解析器要素２１９によって送られる、同定された単語を表す。ノードを連結する無向エッジは、ＰＡＭ要素２２０が単語のストリーム内に同時発生する連結ワードを観察したことを表している。さらに、エッジは、２つの同時発生単語間の統計的有意性スコアに基づいて重み付けされてもよい。また、ＰＡＭ要素２２０は、統計的有意性スコアが増加又は減少すると、エッジを各々補強又は衰退させてもよい。例えば、統計的有意性スコアは、ＰＡＭ要素２２０が２つの単語間にさらなる同時発生性を観察した場合に増加してもよい。ＰＡＭ要素２２０は、増加の結果として、グラフにおける双方の単語を連結するエッジを補強することができる。

[0070] グラフ５００は、ＰＡＭ要素２２０によって同定されたフレーズの統語論を成立させる。フレーズは、与えられたフレーズ（連結グラフを通じた与えられた経路）の順に出現する各単語の確率的関係に基づき、単語ストリームに発生してもよい、単語のシーケンスである。ＰＡＭ要素２２０は、与えられた閾値を超える統計的有意性スコアを備えた同時発生単語を有する、マッパによって出力された単語のストリームにおいて観察されたフレーズを出力する。さらに、ＰＡＭ要素２２０は、ＰＡＭ要素２２０によって出力されたフレーズを特徴付けるメタデータを認知モジュール２２５に送信してもよい。例えば、ＰＡＭ要素２００は、マッパ要素２１８及び語彙解析器要素２１９によって送信された符号、単語、及び関連統計等、マッパ要素２１８及び語彙解析器要素２１９からのメタデータを含んでもよい。まとめると、符号、単語、フレーズは、これらの符号、単語、及びフレーズが観察される頻度と、マッパ要素及び語彙解析要素によって割り当てられたスコア付けとに関連するすべてのメタデータとともに、入力データを記述する神経言語モデルを形成する。次いで、認知モジュール２２５は、神経言語モデルを解析し、例えば、正常挙動及び異常挙動を同定する際に、到来データを中断する。

[0071] 図６は、一実施形態に係る、（語彙要素によって供給された単語ストリームにおける）ＰＡＭ要素によって観察されたフレーズを認知モジュール２２５に送信する方法６００を示している。具体的には、方法６００は、ＰＡＭ要素２２０が、初期化後、すなわち、完全連結グラフの初期生成後に、語彙解析器要素２１９からの到来単語をいかに処理するかを記述している。方法６００は、ステップ６０５で開始し、ここでＰＡＭ要素２２０は、語彙解析器要素２１９からの単語観察ストリームの受信を開始する。ＰＡＭ要素２２０は、例えば、単語Ａは、ストリーム内の単語Ｂの次にくる等、受信した単語間の同時発生を観察する。ＰＡＭ要素２２０は、また、入力により新たに同時発生した単語も同定してよい。

[0072] ステップ６１０において、ＰＡＭ要素２２０は、ストリーム内の各観察に関連付けられた同時発生統計を更新する。例えば、ＰＡＭ要素２２０は、ストリーム内に観察された場合、同時発生単語の対についての統計的有意性スコアを増加させてもよい。他の例として、過去に同時発生が観察されなかった単語の対が、ストリーム内に同時発生しているものとして観察されることがある。このような場合、ＰＡＭ要素２２０は、これらの単語の対について、統計的有意性スコアを増加させる。

[0073] ステップ６１５において、ＰＡＭ要素２２０は、完全連結グラフを更新する。例えば、ＰＡＭ要素２２０は、統計的有意性スコアが増加された場合、グラフの一部にてエッジを補強してもよい。さらに、ＰＡＭ要素２２０は、統計的関連性に達した（例えば、統計的有意性スコアが閾値を超えた）観察対にエッジを追加してもよい。

[0074] ステップ６２０において、ＰＡＭ要素２２０は、与えられた閾値を超える統計的有意性スコアを有する同時発生単語でフレーズを出力する。このような閾値を超えることは、与えられたフレーズが成熟しており、認知モジュール２２５に送信されてもよいことを示してもよい。また、ＰＡＭ要素２２０は、また、フレーズとともに、符号、単語、及び関連統計も送信してよい。記述の通り、このような符号、単語、及びフレーズは、挙動認識システムが入力データの記述に使用する神経言語モデルを形成する。

[0075] 本開示の一実施形態は、コンピュータシステムで使用されるプログラム製品として実装される。プログラム製品のプログラムは、実施形態の機能（本明細書に記載の方法を含む）を規定し、種々のコンピュータ可読記憶媒体上に含まれ得る。コンピュータ可読記憶媒体の例は、（ｉ）永続的に情報が記憶された書込不可の記憶媒体（例えば、光学メディアドライブによって読取可能なＣＤ−ＲＯＭ又はＤＶＤ−ＲＯＭ等、コンピュータ内の読取専用記憶装置）、（ｉｉ）変更可能な情報が記憶される書込可能な記憶媒体（例えば、ディスケットドライブ又はハードディスクドライブ内のフロッピディスク）を含む。このようなコンピュータ可読記憶媒体は、本開示の機能を対象とするコンピュータ可読指示の搬送時、本開示の一実施形態となる。他の例としての媒体は、無線通信ネットワークを含む、コンピュータ又は電話のネットワーク等を通じて、コンピュータに情報を伝達する通信媒体を含む。

[0076] 一般的に、本開示の実施形態を実装するために実行されるルーチンは、動作システム又は特定のアプリケーション、要素、プログラム、モジュール、対象、又は指示シーケンスの一部であってもよい。本開示のコンピュータプログラムは、通常、ネイティブコンピュータによって機械可読形式と、引いては実行可能な指示とに翻訳される多数の指示を備える。また、プログラムは、プログラムに局所的に存在するか、若しくはメモリ内又は記憶装置上に見出される変数及びデータ構造を備える。また、本明細書に記載の種々のプログラムは、それらが本開示の特定の実施形態に実装されるアプリケーションに基づいて、同定されてもよい。しかしながら、後続する任意の特定のプログラム用語体系は単に簡便さのために使用されており、従って、本開示がそのような用語体系によって同定及び／又は示唆される任意の特定のアプリケーションのみでの使用に限定されてはならないことを理解しなければならない。

[0077] 上述の通り、本明細書に記載の実施形態は、神経言語挙動認識システムを介して、ソース（例えば、ビデオソース、ＳＣＡＤＡソース、ネットワークセキュリティソース等）から入力されたデータを表す単語のディクショナリに基づいて統語論を判定する技術を提供する。符号、単語、及び統語論は、挙動認識システムによって観察された入力データの記述に使用される言語モデルに対する基礎を形成する。挙動認識システムは、言語モデルに基づいて挙動を解析及び学習し、観察データ内の正常アクティビティと異常アクティビティを区別する。このアプローチは、挙動及び例外の同定を行うために事前規定されたパターンに依存することなく、代わりに、場面を観察し、観察するものに関する情報を生成することによって、パターン及び挙動を学習するため、好都合である。

[0078] 以上は、本開示の実施形態を対象とするものであったが、本開示のさらに他の実施形態が、その基本的範囲から逸脱することなく考案されてもよく、その範囲は以下の特許請求の範囲によって判定される。

Claims

１つ以上のソースから得られた入力データの神経言語モデルの統語論を生成する方法であって、
入力データから生成された正規化ベクトルの順序付きストリームから生成された符号のシーケンスから構築されたディクショナリの単語のストリームを受信することと、
前記ストリーム内に同時発生する単語の組み合わせについて、前記単語の組み合わせが同時発生する頻度を含む統計を評価することと、
前記評価統計に基づき、統計的に関連する単語を同定する、単語の組み合わせのモデルを更新することと、
連結グラフの各ノードが前記ストリーム内の前記単語のうちの１つを表し、前記ノードを連結するエッジが前記ストリーム内の単語間の確率的関係を表す、前記連結グラフを生成することと、
前記連結グラフに基づき、フレーズを同定することとを備える、方法。
前記統計は、２つの単語が互いに同時発生する頻度を示す統計的有意性スコアを含む、請求項１に記載の方法。
特定の閾値を超える統計的有意性スコアを有する同時発生単語を含む１つ以上のフレーズを同定することと、
前記同定されたフレーズを出力することとをさらに備える、請求項２に記載の方法。
前記エッジは、各ノード間の統計的有意性スコアに基づいて重み付けされる、請求項１に記載の方法。
単語の第２のストリームを受信することと、
前記単語の第２のストリームに基づいて、前記同時発生単語の前記統計を更新することとをさらに備える、請求項１に記載の方法。
時間経過に応じて、観察頻度のより低い同時発生単語の統計的有意性スコアを低減することをさらに備える、請求項５に記載の方法。
時間経過に応じて、観察頻度のより高い同時発生単語の統計的有意性スコアを増加させることをさらに備える、請求項５に記載の方法。
プロセッサ上での実行時、１つ以上のソースから得られた入力データの神経言語モデルの統語論を生成する動作を実施する指示を記憶するコンピュータ可読記憶媒体であって、この動作は、
入力データから生成された正規化ベクトルの順序付きストリームから生成された符号のシーケンスから構築されたディクショナリの単語のストリームを受信することと、
前記ストリーム内に同時発生する単語の組み合わせについて、前記単語の組み合わせが同時発生する頻度を含む統計を評価することと、
前記評価統計に基づき、統計的に関連する単語を同定する、単語の組み合わせのモデルを更新することと、
連結グラフの各ノードが前記ストリーム内の前記単語のうちの１つを表し、前記ノードを連結するエッジが前記ストリーム内の単語間の確率的関係を表す、前記連結グラフを生成することと、
前記連結グラフに基づき、フレーズを同定することとを備える、コンピュータ可読記憶媒体。
前記統計は、２つの単語が互いに同時発生する頻度を示す統計的有意性スコアを含む、請求項８に記載のコンピュータ可読記憶媒体。
前記動作は、
特定の閾値を超える統計的有意性スコアを有する同時発生単語を含む１つ以上のフレーズを同定することと、
前記同定されたフレーズを出力することとをさらに備える、請求項９に記載のコンピュータ可読記憶媒体。
前記エッジは、各ノード間の統計的有意性スコアに基づいて重み付けされる、請求項８に記載のコンピュータ可読記憶媒体。
前記動作は、
単語の第２のストリームを受信することと、
前記単語の第２のストリームに基づいて、前記同時発生単語の前記統計を更新することとをさらに備える、請求項８に記載のコンピュータ可読記憶媒体。
前記動作は、時間経過に応じて、観察頻度のより低い同時発生単語の統計的有意性スコアを低減することをさらに備える、請求項１２に記載のコンピュータ可読記憶媒体。
前記動作は、時間経過に応じて、観察頻度のより高い同時発生単語の統計的有意性スコアを増加させることをさらに備える、請求項１２に記載のコンピュータ可読記憶媒体。
システムであって、
プロセッサと、
１つ以上のソースから得られた入力データの神経言語モデルの統語論を生成する動作を実施するように構成された１つ以上のアプリケーションプログラムを記憶するメモリとを備え、
前記動作は、
入力データから生成された正規化ベクトルの順序付きストリームから生成された符号のシーケンスから構築されたディクショナリの単語のストリームを受信することと、
前記ストリーム内に同時発生する単語の組み合わせについて、前記単語の組み合わせが同時発生する頻度を含む統計を評価することと、
前記評価統計に基づき、統計的に関連する単語を同定する、単語の組み合わせのモデルを更新することと、
連結グラフの各ノードが前記ストリーム内の前記単語のうちの１つを表し、前記ノードを連結するエッジが前記ストリーム内の単語間の確率的関係を表す、前記連結グラフを生成することと、
前記連結グラフに基づき、フレーズを同定することとを備える、システム。
前記統計は、２つの単語が互いに同時発生する頻度を示す統計的有意性スコアを含む、請求項１５に記載のシステム。
前記動作は、
特定の閾値を超える統計的有意性スコアを有する同時発生単語を含む１つ以上のフレーズを同定することと、
前記同定されたフレーズを出力することとをさらに備える、請求項１６に記載のシステム。
前記動作は、
単語の第２のストリームを受信することと、
前記単語の第２のストリームに基づいて、前記同時発生単語の前記統計を更新することとをさらに備える、請求項１５に記載のシステム。
前記動作は、時間経過に応じて、観察頻度のより低い同時発生単語の統計的有意性スコアを低減することをさらに備える、請求項１８に記載のシステム。
前記動作は、時間経過に応じて、観察頻度のより高い同時発生単語の統計的有意性スコアを増加させることをさらに備える、請求項１８に記載のシステム。