JP2007519993A

JP2007519993A - 周期的事象のためのクラスタリング技術

Info

Publication number: JP2007519993A
Application number: JP2006546206A
Authority: JP
Inventors: キモヘテョネン; ペッカクンプライネン; ペッコヴェフヴィレイネン
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2003-12-31
Filing date: 2004-11-26
Publication date: 2007-07-19
Also published as: US7461037B2; EP1704500A1; ATE401612T1; CN100511241C; US20050144148A1; CN1902631A; WO2005064499A1; DE602004015157D1; EP1704500B1

Abstract

データ処理システムは、物理的プロセスの数個のエンティティにおいて少なくとも一つの変量の周期的振舞いを集合的に記述するデータ配列を処理する。各周期は数個のタイムスロットを含む。入力ルーチン（２−４）は複数のデータ配列を受信し、各データ配列は複数のデータ項目を含み、そのそれぞれは一つのタイムスロットにおけるエンティティの変量を記述する。マグニチュード決定ルーチンは（２−６）、数個のエンティティのそれぞれのための平均、量、またはピークのような特定のマグニチュードパラメータを決定する。スケーリングルーチン（２−８）は、特定のマグニチュードパラメータが隠され、それらの形状だけが維持されるように、エンティティ間のデータ配列をスケーリングする。トレーニングルーチン（２−１０）は、第１の複数のスケーリングされたデータ配列を用いて、クラスタ中心のセットを決定するために、クラスタリングシステムをトレーニングする。トレーニング後に、クラスタリングルーチン（２−１２）は、第２の複数のスケーリングされたデータ配列を、トレーニングされたクラスタリングシステムへ適用する。
【選択図】図２

Description

本発明は周期的な事象に対するクラスタリング技術に関する。例えば、本発明は、物理的プロセスにおいて数個のエンティティにおける一つ以上の変量の周期的振舞いを集合的に記述するデータ配列を処理するために使用されうる。

ｋ−平均法、階層的クラスタリング技術、自己組織化マップ、または同様のもののようなクラスタリング技術は、物理的プロセスにおける可変の振舞いを解析するために広く使用されている。具体的な、しかし制限的でない例を挙げると、物理的プロセスはセルラー通信ネットワークのオペレーションが考えられる。数個のエンティティそれぞれは、セルまたはネットワークの何らかのその他のリソースであり、一つ以上の変量はトラヒック量、リソースの使用法、切断された接続の数（または割合）、または同様のもののようなパフォーマンスインジケータであることが考えられる。

従来のクラスタリング技術においては、多量の有用な情報が無視されているという欠点を有していた。

本発明の目的は、上記不利益を軽減するための方法、および該方法を実行するための装置を提供することである。本発明の目的は、独立請求項において述べられる事項によって特徴付けられる方法及び装置によって達成される。本発明の好ましい実施形態は従属請求項において開示される。

本発明は、従来のクラスタリング技術が変量を絶対的な量として取り扱っていたという発見に基づくものである。通信ネットワークとの関連で、これを理解することできる。なぜなら、例えば、限界を超えてはならないトラヒックチャネル数のような物理的リソースによって、該ネットワークが制限されるためである。それに応じて、物理的なリソースが限界を超える場合、異常な状況を考慮することは自然である。しかし、それはまさに多量な有用な情報を無駄にする絶対的な量としての変量の観測である。したがって、絶対的な値が隠されている場合、小さなエンティティの周期的振舞いが、大きなエンティティのものと同様でありうるという発想に、本発明は部分的に基づいていている。これは、物理的プロセスにおいて、数個のエンティティで少なくとも一つの変量の周期的振舞いを集合的に記述するデータ配列を処理するための方法によって達成され得る。本発明は、以下のステップを含む。

１．周期的振舞いにおける第１の周期を決定し、該第１の周期を複数のタイムスロットに分割し、
２．複数のデータ配列を決定し、各データ配列は一つのタイムスロットにおけるエンティティの変量を記述するような複数のデータ項目を含み、
３．数個のエンティティそれぞれのために、特定のマグニチュード（ｍａｇｎｉｔｕｄｅ）パラメータを決定し、
４．特定のマグニチュードパラメータが隠されるようにエンティティ間でデータ配列をスケーリング（ｓｃａｌｅ）し、
５．クラスタ中心のセットを決定するために第１の複数のスケーリングされたデータ配列を用いてクラスタリングシステムをトレーニングし、
６．該トレーニングされたクラスタリングシステムを用いて、第２の複数のスケーリングされたデータ配列をクラスタリングする。

上記ステップをより理解できるようにするために、以下においても例としてセルラー通信ネットワークを使用する。しかし、これが非制限的な例に過ぎず、どのように本発明の様々な要素がそれぞれ互いに関係しうるかを明らかにするために提供されるものに過ぎないことに、読み手は注意されたい。

ステップ１は、物理的プロセスが通信ネットワークである場合、第１の周期は典型的には２４時間の期間であって、タイムスロットは典型的には複数時間である。この２４時間の期間は、ネットワークユーザの生活リズムによって決定されるが、一時間のタイムスロットは、人間が時を測定するのに時間を使用することになれているため、単なる便宜上の選択である。しかし、コンピュータにとっては、いかなるサイズのタイムスロットも同様に実現可能であり、タイムスロットは同じ長さである必要さえない。例えば、沈黙時間（典型的には夜）の間は、タイムスロットは高い活動期間の間より長くすることができる。この「第１の周期」という用語は、例えば、７つの一日のタイムスロットをそれぞれ持つ１週間周期のような、さらなる周期が存在することを暗示する。

「周期」という用語は、統計の現実世界の現象の関連において通常であるように、広い意味で理解されるべきである。パフォーマンスインジケータが周期的であるという事実は、パフォーマンスが任意の二つの周期の間で同一であることを意味する。むしろ、この用語は全体として、複数のサイクルの二つの大きなサンプルを与えられた、周期的に繰り返すパターンが存在することを意味する。これらの周期に渡るパフォーマンスは同じになる傾向がある。しかし、差異は発生し、そして、多くのクラスタリングシステムの目的が、該差異がシステム故障か、不正なユーザの振舞いか、またはその他の異常を表しているかを決定することである。

ステップ２においては、各データ項目は１タイムスロットにおけるエンティティの変量を記述する。例えば、各データ項目は、特定のタイムスロットの間のセルラー通信ネットワークにおけるセルのパフォーマンスインジケータを記述することが考えられる。一般的には、パフォーマンスインジケータは、該タイムスロットに渡って積算され、または平均化される。データ配列は周期に渡るデータ項目の収集物である。例えば、タイムスロットが１時間の期間である場合、データ配列がトータルで２４時間の期間をカバーする２４サンプル値の（配列のような）セットであることが考えられる。データ配列が曲線のように視覚化される場合、明確な形状でありマグニチュード（サイズ）を有する。

ステップ３においては、特定のマグニチュードパラメータが各エンティティのために決定される。ステップ４においては、特定のマグニチュードパラメータが隠されるように、データ配列がエンティティ間でスケーリングされる。マグニチュードパラメータは、形状のみを残すように絶対的な量を隠されるために使用することができる任意の数学的な量である。スケーリングオペレーションは、大きいおよび小さいエンティティを他のそれぞれと互換性を良くする。言い換えると、あるエンティティからクラスタリングデータによって得られた情報は、そのサイズに関わらず、もう一つのエンティティからデータをクラスタリングするために使用されうる。（この文脈において、「サイズ」とは、トラヒックの量のようなそのパフォーマンスインジケータのマグニチュードを意味し、その地理的な特徴ではない。）

ステップ５においては、クラスタリングシステムは、クラスタ中心のセットを決定するために第１の複数のスケーリングされたデータ配列を用いてトレーニングされる。ステップ３および４に関連して記述されるようにデータ配列がスケーリングされるという事実から離れて、このトレーニングステップは、完全に従来のものとすることができる。従来のクラスタリングシステムは、いくつかの好ましいクラスタリング技術が後に記述されるが、本発明が任意の特定のクラスタリングシステムを要求しない、または任意の特定のシステムに束縛されないことを意味する。

ステップ６においては、ステップ５においてトレーニングされたクラスタリングシステムは、第２の複数のスケーリングされたデータ配列をクラスタリングするために使用される。再び、純粋に数学的観点から見ると、しかし、後述するように、エンティティ間のマグニチュードを隠すためのスケーリングされたデータ配列を使用する創意は、新規な応用への道を開く。

本発明の利点は、パフォーマンスインジケータのような変数が、所与のサイズのエンティティに制限されないために、より有効な情報が物理的プロセスから得られることである。クラスタリングに先立ってスケーリングオペレーションを実行することで、該独創的な技術は従来のクラスタリング技術と互換性がある。

本発明は、数個の応用において使用されうる。例えば、独創的な方法の手段によってクラスタリングされ、スケーリングされたデータ配列が異常状態を検出するように使用されうる。もう一つの応用において、スケーリングされたデータ配列は価格戦略を決定するために使用する。さらにもう一つの応用においては、スケーリングされたデータ配列はネットワークリソースのために最適化されたオペレーティングパラメータを決定するために使用される。このパラメータは、もう一つのネットワークリソースへそれからコピーされる。そしてさらに、本発明の技術は、そのプロファイルがあるテンプレートの顧客に厳密に一致するが、そのサービスの使用がテンプレートの加入者のそれからは異なる加入者を検出するために使用される。この情報は、検出された顧客へのサービスの宣伝をターゲットにして使用することもできる。

本発明の好ましい実施形態にしたがうと、第１の周期を使用することでクラスタリングされたデータ配列は、該第１の周期の複合である第２の周期を使用することで再クラスタリングされる。例えば、第１の周期を伴うデータ配列が、ネットワーク要素またはリソースの日毎の振舞いを表し、一方で、第２の周期を用いて再クラスタリングされたデータ配列は日毎の振舞いの発展を１年間通して表現する。

本発明のもう一つの好ましい実施形態にしたがうと、クラスタリングシステムは、管理されていないクラスタリングシステムである。監視されていないクラスタリングシステムを使用することの利点は、クラスタリング中心をそれらの先行する知識なしに発見することができることである。しかし、通常「シードバリュー（ｓｅｅｄｖａｌｕｅ）」と呼ばれるクラスタ中心を考慮する推定的な情報がある場合、そういったシードバリューを用いて監視されないクラスタリングシステムを初期化することは有益である。

該独創的な処理によって得られる情報は、新規な方法において使用される。これらの応用分野を詳細に記述する前に、以下の説明をよりコンパクトにするいくつかの用語について説明する。クラスタリングシステムはデータ配列を処理し、クラスタ中心のセットを作り出す。「プロトタイプ」という用語を、クラスタ中心を記述するデータ配列のために使用すると便利である。それら各自のインジケータを用いたプロトタイプの収集物をコードブック（ｃｏｄｅｂｏｏｋ）と呼ぶことができる。コードブックの使用は数個の利点を与える。例えば、（例えば、日毎の２４の独立したサンプルのような）一つの完全なデータスロットとしてのあるタイムスロットの間のエンティティの振舞いをアーカイブする代わりに、コードブックから最も一致するプロトタイプを選択し、最も一致するプロトタイプのインジケータを単に格納することができる。それは、明らかに多くのメモリー空間を節約する。したがって、本発明はアーカイビングデータにおいて有用である。

データ配列は、コードブックにおいてプロトタイプといつも正確に一致することはめったにない。これは、最も一致するプロトタイプからの大きな偏差が検出されるように信頼区間を定義することが有益だからである。データ配列が最も一致するプロトタイプから大きく逸脱するために、それが信頼区間の外になる場合、全体のデータ配列およびプロトタイプインジケータのみでなくアーカイブすることは有益である。さらによい代替手段は、最も一致するプロトタイプおよびパフォーマンスインジケータが信頼区間の外であるタイムスロットのインジケータ、およびそれらのタイムスロットにおける実際の（またはスケーリングされた）データ値をアーカイブすることである。

データアーカイバルにおける利点を与えることに加えて、コードブックコンセプトは、データ解析においてもまた有用である。例えば、特にエンティティ間のパフォーマンスインジケータのマグニチュードが異なる場合、任意の二つのエンティティが同様のまたはほとんど同様の態様で振舞うか否かを決定することは自明ではない。しかし、類似性の検出がコードブックにおけるプロトタイプインジケータの解析に基づいている場合、エンティティ間の同様の振舞いを検出することは比較的簡単なタスクである。

いくつかの実施形態においては、本発明はネットワークリソースにおける量のような可観測変量の履歴から失われた値を回復するために使用される。過去におけるその変量の日、週又は月の平均しか知らない場合、その変量の時間毎の振舞いの妥当な推定が、現在の時間毎の振舞いを推定することにより得ることができる。現在の時間毎の振舞いは、同じエンティティまたはその最も近く一致するプロトタイプから決定されうる。

本発明は、クラスタリングシステムに関連してよく知られているように、プログラムされたデータ処理として実行されることができる。先行技術との主要な逸脱、すなわち、観測されたエンティティ又は変量の特定のマグニチュードパラメータを隠すことが、計算ルーチンによって実行され得る。同様に、いくつかの実施形態において使用される信頼区間が計算ルーチンによって決定される。信頼区間基準が満たされた場合に、最も一致したプロトタイプインジケータのみがアーカイブされ、完全なデータは廃棄または第２の記憶装置へ移動される実施形態が、適切に構成されたデータベースシステムとして実行される。

以下に、添付図面を参照しながら好ましい実施形態を用いてより詳細に本発明を記述する。本発明は数個の応用において使用される。説明に役立つ例は異常状態を処理することである。図１は、異常を検出するためのニューラルネットワークのようなクラスタリングシステムの使用を示す。参照番号１０２は（ニューラルネットワークからは区別される）通信ネットワークのような物理的システムの要素を指す。物理的要素は数個の可観測変量を含むことが考えられる。例えば、物理的システム要素１０２が電気通信交換機である場合、その可観測変量はスループット、待機時間、不成功呼の数（または割合）、および同様のものを含む。各単位時間の間、インジケータコレクタ（ｉｎｄｉｃａｔｏｒｃｏｌｌｅｃｔｏｒ）１０６はインジケータタプル１０４を収集する。このタプルはインジケータデータベース１１０に格納される。参照番号１１２はニューラルネットワーク（または他の学習するメカニズム）１１４をトレーニングするために使用されるデータセットを指す。データセット１１２は物理的要素１０２の通常の振舞いを表示する。記憶装置１１８はトレーニングされたニューラルネットワークを含む。物理的要素１０２が観測される場合、対応するトレーニングされたニューラルネットワーク１２０は、記憶装置１１８から取り出され、異常検出メカニズム１２２へ入力されるものとして適用される。異常検出メカニズムのその他の入力は、異常な振舞いのためにテストされるべきであるインジケータセット１２４である。異常検出メカニズム１２２が、インジケータセット１２４によって記述された振舞いが異常であることを決定した場合、異常Ｐ−値および最偏位インジケータ１２６が異常履歴データベース１２８に格納される。同時に、アラーム１３０が、コンピュータスクリーンのような表示装置１３２に与えられる。

図２は本発明の原理を示すフローチャートである。ステップ２−２は周期（または多重に入れ子にされた周期）、（時間、日、週・・・のような）タイムスロット、（物理的ネットワークリソースのような）エンティティ、および（スループット、切断された呼の数、セル内のハンドオーバ数、ショートメッセージ数または同様のもののような）観測されるべき変量を決定するための準備段階である。ステップ２−４は、可観測変量のためのデータ配列を決定するためのもう一つの準備段階である。可観測変量の一つがセルにおけるハンドオーバ数であり、各タイムスロットが１時間で、周期が２４時間であると仮定すると、各データ配列を２４データ項目（数）の軌道とし、各データ項目がそれぞれの時間の間のハンドオーバ数を記述するとすると都合が良い。

ステップ２−６は各エンティティのための特定のマグニチュードパラメータを決定することを含む。特定のマグニチュードパラメータの好ましい形式は、１周期に渡る値の和（積分）または平均である。その平均値が特定のマグニチュードパラメータであると仮定すると、各エンティティのデータ配列（軌道）がそのエンティティの平均値によって割られる。それにより、その周期に渡って、各エンティティを記述するデータ項目の平均値が等しくなる。言い換えると、エンティティの特定のマグニチュードパラメータは隠されるであろう。これは、ステップ２−８において行なわれる。次に、ステップ２−１０においては、クラスタリングシステムはスケーリングされたデータ配列の第１のセット（トレーニングセット）によってトレーニングされる。このステップがクラスタリングシステムの準備およびトレーニング段階を完了する。クラスタリングシステムの実際の使用がステップ２−１２において行なわれる。これは、データ配列がエンティティの特定のマグニチュードパラメータを隠すことでスケーリングされる事実は別とすると、従来型である。

特定のマグニチュードパラメータとして平均値を使用することの典型的な利点は、図１に示され、任意のエンティティからの観測データとともにトレーニングされた異常検出システムが、相当に大きいまたは小さい容量を伴うその他のエンティティにおける異常を検出するために使用されうるということである。

図３は４つのクラスタ中心３１−３４であって、異なるサイズのエンティティのマグニチュードパラメータを隠すためにスケーリングされたものを示す。この例においては、クラスタ中心は２４エレメント軌道のグラフで表したものであり、ここでは各軌道は物理的リソースのネットワークセルにおけるトラヒック量のような毎日の振舞いを表す。本発明がそのマグニチュードからエンティティの振舞いの形状を抽出することが図３から明らかである。各軌道の平均値は同じである。これは、軌道をグラフで表したものによってカバーされる範囲が等しいことをもまた意味している。言い換えると、各軌道のための周期長が同じであるから、軌道の範囲またはマグニチュードパラメータとしての積分を用いることは、その平均値を用いることと数学的に等しい。

図４Ａは、物理的リソースのようなエンティティのための典型的なプロフィール４０を示す。物理的リソースがネットワークセルであって、可観測変量がトラヒック量であると、もう一度仮定する。一番左の欄は、月曜日は「１」、日曜日は「７」のような週における日を示す。クラスタ番号１〜４は、図３において示される４つのクラスタ中心を参照する。この例においては、プロファイル４０は、問題となっているセルのために、クラスタ４が、月曜日から木曜日及び日曜日のための最良振舞いインジケータである。最良振舞いインジケータであるその他のクラスタのための確率は無視しても良く、これは、この確率は正確には０ではないが、実用的な目的のためには無視され得ることを意味する。同様に、すべての土曜日は、プロファイル４０の最後の行によって示されるようにクラスタ３によって最もよく表される。しかし、すべての金曜日は同様ではなく、それらの８３パーセントはクラスタ１によって最もよく表されるが、それらの残り１７パーセントはクラスタ４によって最もよく表される。

図４Ｂは、より詳細な週毎のプロファイル４５を示す。確率欄のダッシュ記号は無視するのに十分小さい値を示す。この例は、実用的な目的のためには、すべての月曜日（日番号１）はクラスタ４によって最もよく表される一方で、クラスタ４は金曜日にとっては最もよい記述子となる３０％だけの可能性を有している等を示している。

図５は４つの発見された週毎のクラスタのための確率分布５０を示す。この例においては、（そのグラフによる表現が図３に示されるような）４つの択一的な週プロファイルおよび４つのクラスタ中心がある。確率分布表５０をコンパクトに維持するために、この表は１０パーセント単位でそれぞれその確率を示す。このように、例えば、４のデータ入力は４０パーセントを意味する。この確率分布５０は、週プロファイル１において、月曜日の最良表現となるために、クラスタ１および２が２０または８０パーセントの確率をそれぞれ有することを示す。このプロファイルにおいて、残りのクラスタ３および４のための確率は無視することができる。週プロファイル２において、月曜日の最良表現となるために、クラスタ１および４は７０または３０パーセントの確率をそれぞれ有し、残りのクラスタ２および３のための確率は無視することができるなど。

確率分布５０の手法を用いると、毎時間の推定を１周期に渡る平均変量をその変量の推定されるプロファイルの形状と掛け合わせることで計算することができる。

週毎のプロファイル４０、４５および／または確率分布５０は数個の応用において使用されうる。例えば、それらは、観測データをアーカイブするときに、メモリ消費を削減するために使用されうる。各２４時間周期のための絶対的な値として観測データをアーカイブすることに代わって、絶対的な値を、（平均値のような）そのセルおよび周期の特定のマグニチュードパラメータによって、スケーリングする（割る）ことも考えられ、またスケーリングの後のエンティティの振舞いが所定のプロファイルの一つに対応することが考えられる。もしそれがすると、それは、その２４時間のための、その特定のマグニチュードおよびプロファイル番号をアーカイブするのに十分である。それは、それ自身内でメモリ消費における相当な削減を起こす。

週毎のプロファイル４０、４５および／または確率分布５０のためのもう一つの応用は、改善された予測である。エンティティ間でのマグニチュードの違いを隠し、プロファイル形状に専念することで、エンティティが同様のプロファイル形状を有することが提供される任意のマグニチュードのエンティティから得られる情報を使用することが可能である。

さらにもう一つの応用は「過去の予測」をすることである。これは、例えば、過去のある時間における変量の平均値を知ることのみができるかもしれないことを意味する。その現在のプロファイル形状を知ることで、時間の関数としてその変量の過去の振舞いを推定することができる。

図６および７は、観測をアーカイブする好ましい技術を示す。ここで使用されるように、「アーカイブ」は、ある関連するデータをある時間（通常は複数年）の間格納し、関連のないデータは、廃棄されるかまたは通常はオフラインの安い規則装置に移動される。言い換えれば、アーカイブは、メモリ消費量を削減するために、何を格納し、何を廃棄するかを決定することを含む。

図６は、アーカイブ方法のフローチャートである。ステップ６−２は準備段階であり、そこでは、観測されるエンティティのための特定のマグニチュードパラメータが決定され、格納される。このステップは、図２のステップ２−６と同じである。ステップ６−４は、２４時間トラヒック値の軌道のような観測された変量のデータ配列を取得することを含む。ステップ６−６は、データ配列が観測されるエンティティのために特定のマグニチュードパラメータを用いてスケーリングされる。ステップ６−８では、スケーリングされたデータ配列がトレーニングされたクラスタリングシステムを用いてしょりされ、その最も一致するクラスタ中心を探す。ステップ６−１０においては、スケーリングされたデータ配列が最も一致するクラスタ中心から所定の信頼区間内であるか否かを決定する。そうである場合、ステップ６−１２が実行され、そこでは最も一致するクラスタ中心のインジケータのみが格納され（アーカイブされ）、現実のデータ配列が廃棄されるかまたは第２の記憶装置に移動される。一方で、スケーリングされたデータ配列が最も一致するクラスタ中心から所定の信頼区間内にない場合、ステップ６−１４が実行され、そこでは、スケーリングされたまたはスケーリングされない形式で完全なデータ配列が格納（アーカイブ）される。さらにより効果的なアーカイバルメモリの使用は、最も一致するクラスタ中心、それらは所定の信頼区間の外であるようにサンプルが最も一致するクラスタ中心から逸脱しているタイムスロット、それらのタイムスロットにおける実際のサンプル値のインジケータをアーカイブすることにより達成される。

図７は異常な状況を示す。曲線７１はネットワークリソースのような物理的エンティティの実際のスケーリングされた観測を示す。最も一致するプロトタイプ（クラスタ中心）は、カーブ７２によって示される。実際の観測７１は、１５：００、１６：００、および１７：００の３つの観測を除いて２４時間周期のほとんどの間、所定の信頼区間７３内である。

図８は、観測を格納するための好ましいデータ構造８０を示す。データ構造８０は一つのエンティティと一つの変量のための観測履歴を含む。欄８１は、２４時間期間のような周期の通し番号である。実際の観測を含むデータ配列は、特定のマグニチュードパラメータ８２を用いて割られることでスケーリングされる。それから、スケーリングされたデータ配列はトレーニングされたクラスタリングシステムを用いてクラスタリングされる。観測履歴８０は連続する１１日間のデータ入力を示す。一日のデータエントリ（または任意のその他の使用される周期）は、最も一致するクラスタ中心８３およびスケーリングされたデータ配列が所定の信頼区間内であるか否か、すなわち、それがある信頼測定より少なく、最も一致するクラスタ中心から逸脱しているかどうかを示すフラッグ８４とを含む。

ほとんどの日については、クラスタ中心２が最も近く一致した。７日および８日については、クラスタ中心３および１がそれぞれ最も一致した。しかし、１０日においては、実際の観測は図７の曲線８１に沿ったと仮定する。言い換えると、実際の観測は、１５：００に開始する３つの連続する観測を除いて最も一致するプロトタイプ（クラスタ中心）番号２（曲線８２として示される）の信頼区間内であった。それに応じて、欄８３で１０日のデータエントリはクラスタ中心２が最も一致することを示すが、欄８４のフラッグはスケーリングされた観測が全体の周期の間、信頼区間内でないことを示す。１０日については、実際の観測記録８５が存在する。実際の観測記録８５は１０日の１５：００に開始する３つの連続する時間の間の実際の観測は１２３、１５、および１９２であった。

２４時間期間のような一周期のすべてのスケーリングされた観測が信頼区間内であれば、３つの記述子、すなわち、マグニチュード（ｆｌｏａｔｎｕｍｂｅｒ）、最も一致するクラスタ中心（ｉｎｔｅｇｅｒ）、およびフラッグ８４だけが、アーカイブされなければならない。

［更なる応用］
本発明の応用は、異常状態を処理することに限定されない。本発明の一つの好ましい実施形態においては、顧客のデータ構造および彼らによって使用されるサービスが生成される。この発想は、顧客をほとんど同様のサービス分布を用いてクラスタリングすることである。この実施形態は、コードブック（ｃｏｄｅｂｏｏｋ）コンセプトの使用を生かす。任意の顧客によって使用されるサービスのセットは、データ配列（軌道）を構成する。このデータ配列は、クラスタ中心を探すために、それからクラスタリングされる。この場合、それらはそのサービスの組合せが非常に人気があるプロトタイプの顧客である。最も一致するプロトタイプの顧客からの任意の顧客の偏差は、それらの顧客によって使用されるサービスのセットにおける違いを表す。この情報は、そういったサービスをまだ使用していない顧客へのサービスの申し出のために使用されうる。通信ネットワークにおいて、そういったサービスがネットワークそれ自体を経由して申し出される。

サービスを申し出るクラスタリングベースの技術は、いくつかのサービスをまだ使用していない顧客の単純なデータベーススキャンを含むしらみ潰しの技術を超えて、ネットワークリソースのようなリソースを節約する。クラスタリング技術のリソース節約の態様は、プロトタイプの顧客が、人気のあるサービスの組合せであるサービスＡ、Ｂ、ＣおよびＤを使用し、その他の顧客がサービスＡ、ＢおよびＣを使用する場合、その顧客は、サービスＡ、ＸおよびＹを使用する顧客よりサービスＤのためのより潜在的なターゲットであるという事実に起因する。一方で、しらみ潰しの技術は、ネットワークおよびその他のリソースを、その顧客がプロトタイプの顧客に近いが完全な一致ではないか否かについて考慮することなくサービスを「無分別に」申し出る。

本発明のもう一つの実施形態においては、顧客および彼らの時間毎のサービス使用プロフィールについてのデータ構造が生成される。この実施形態は、料率が変更された場合に、時間を最適化するために使用される。本発明は、異なるサイズの同等物から情報を作成するため、そういった料率変更最適化は任意のサイズのエンティティから情報を利用することができる。

料率が変更された場合に時間を最適化するために、本発明を使用する代わりに、またはそういった使用に加えて、本発明はその他の観測されたエンティティのオペレーティングパラメータを最適化するためにも使用され得る。例えば、エンティティのサイズに関わらず、ネットワークオペレータはパラメータセットを最適化されたエンティティから最適化されていないものへコピーすることができる。この実施形態は、アクティビティ形状コードブックを生成し、エンティティの日毎の振舞いをクラスタリングすることを含む。例えば、セルラーネットワークにおいて最適化されるべきパラメータは周波数再利用パターン、サービス間の帯域割り当て、またはそういったものを含む。

本発明の更なる実施形態は、同期サービスのための送信回数最適化のためのデータ構造を含む。セルラーネットワークはマルチメディアファイルの形式において、「インフォテインメント（ｉｎｆｏｒｔａｉｎｍｅｎｔ」を配送するために、ますます使用されるであろうことが予測される。ネットワークオペレータは送信のための送信時間を最適化するために本発明を使用することができる。このネットワークは、低い予測される負荷と共に将来のタイムスロットへファイル配送をスケジューリングすることで負荷バランシングを採用することが考えられる。最適なスロットは負荷プロファイルの方法で特定することができる。ある顧客が大きな遅延を取り扱うことに用意があるように、クラスタリングによる顧客分類は選択に影響を与えることが考えられる。このネットワークは、顧客に遅延推定を示すことができる。

本発明はサービススケジューリングを最適化するためにもまた使用することができる。小さいまたは大きいサイズのエンティティからの情報は、大体は同等であるから、特定のマグニチュードを隠した後は、ネットワークまたはサービスオペレータはその他の点では可能なものより大きな情報量へのアクセスを有する。オペレータはこの情報を使用し、サービスオペレーションを最適にスケジューリングする。例えば、ネットワーク保守システムがネットワーク要素からデータログを取り出すための要求を受信することが考えられる。このシステムは推定されるトラヒックプロファイル形状を確認し、その要求されたログ検索（またはその他の保守オペレーション）をトラヒックピークの外にスケジューリングする。

［信頼区間］
以下に、信頼区間または信頼限界を決定するための好ましい技術について記載する。例えば、所定の信頼限界を超えてその最も一致するプロトタイプ（クラスタ中心）から逸脱する可変値を異常、または例外と呼ぶことができる。

信頼限界は通常ｋ・σとして計算される。ここでσは、変量の標準偏差であり、ｋは要求される信頼水準を示す被覆率である。標準的に分散されたデータのために、ｋ＝１．９６は９５パーセントの信頼水準を意味する。基礎をなす分布に関わらず、被覆率２、および３がよく使用される。

本発明の好ましい実施形態に従うと、標準偏差σが各クラスタおよびタイムスロットのために別々に計算される。例として０８：００におけるクラスタ番号１を使用する。クラスタ１に帰属する日プロファイルが組み合わされる。それから、０８：００の値の標準偏差がこれらのプロファイルから計算される。

いま、この発想は信頼限界をスケーリングし、それにより高い平均可変値とともにエンティティから発生するプロファイルのために、より厳しい信頼限界を得ることである。これは、以下によって達成することができる。

方程式１において、ｆは減少関数（単調またはステップ関数）であり、ｍｅａｎ（ｖａｒ）は、例えば、２４時間周期における一つセルにおけるトラヒックの平均値であるような、１周期における変量の平均値である。単調減少関数の好ましいバージョンは、以下のように（日のような）各周期の平均値の逆平方根である。

したがって、異なる可変依存性被覆率が各周期のために得られる。この信頼限界は以下のように表現される。

ここで、μは特定のタイムスロットのクラスタにおける平均値であり、このクラスタはｋ−平均法クラスタリングによって与えられるクラスタ中心でもあり、σは上述のクラスタにおけるデータの標準偏差である。

図９は方程式２によって決定される信頼限界の応用を示す。ｙ軸は、変量（パフォーマンスインジケータ）のスケーリングされた値を示し、ｘ軸は０から４のスケールにおける日毎の平均であり、平均値はこの例においては２である。黒円９１は観測結果を表す。水辺の線９２は、標準偏差の平均プラスマイナス２倍であるような固定された信頼限界を示す。

曲線９３は概略的に（しかし、正確ではなく）方程式２によって決定される信頼限界を示す。信頼限界によって定義づけられる信頼区間は、増加するマグニチュードパラメータを用いて徐々に（この例においては漸近的に）狭くなる。例えば、観察結果９４は、徐々に減少する信頼区間９３内であるが、固定された信頼区間９２の外である。一方、観察点９５は、徐々に減少する信頼区間９３外であるが、固定された信頼区間９２内である。変量がセル内のトラヒック量を記述すると仮定すると、徐々に減少する信頼区間９３は、トラヒックが静かである場合、よりアクティブなセルにおける方がより大きな比例的な偏差が取り扱われることを意味する。例えば、農村地帯の静かなセルは通常、時間当り１０個の呼を持ち、発言するかも知れない。誰かが、故障した携帯電話を用いて３つの失敗した呼の試みを行なった場合、これは必ずしも異常ではないが、１００の中の３０の失敗の個の試みは深刻な異常である。

技術進歩によって、本発明の概念が様々な方法で実行され得ることが、当業者には明らかであろう。本発明およびその実施形態は、上述の例には制限されないが、請求項の範囲内で変更され得る。

図１は異常検出のためのクラスタリングシステムの使用を示すブロック図である。図２は本発明の原理を示すフローチャートである。図３は異なるサイズのエンティティのマグニチュードパラメータを隠すためにスケーリングされた４つのクラスタ中心を示す。図４ＡおよびＢは二つの典型的なプロファイル記述子を示す。図５は４つの異なる週のクラスタのための確率分布を示す。図６は観測を記憶する好ましい技術を示す。図７は異常状態を示す。図８は異常状態の手当てを伴うデータをアーカイブするためのデータ構造を示す。図９は信頼区間を決定するための好ましい技術を示す。

Claims

物理的プロセスの数個のエンティティ（１０２）における少なくとも一つの変量の周期的振舞いを集合的に記述するデータ配列を処理するための方法であって、
前記方法が、
周期的振舞いにおいて第１の周期を決定し（２−２）、第１の周期を複数のタイムスロットに分割し、
複数のデータ配列を決定し（２−４）、各データ配列は一つのタイムスロットにおいてエンティティの変量を記述するように複数のデータ項目を含み、
数個のエンティティのそれぞれのために、特定のマグニチュードパラメータ（８２）を決定し（２−６）、
前記特定のマグニチュードパラメータが隠されるようにエンティティ間のデータ配列をスケーリングし（２−８）、
第１の複数のスケーリングされたデータ配列を伴うクラスタリングシステムを、クラスタ中心（３１−３４；７２、８３）のセットを決定するために、トレーニングし（２−１０）、
前記トレーニングされたクラスタリングシステムを、第２の複数のスケーリングされたデータ配列をクラスタリングするために使用する（２−１２）ことを含む方法。
前記特定のマグニチュードパラメータが各第１の周期のために別々に決定される請求項１に記載の方法。
更に、前記第１の周期の複合である第２の周期を決定し、前記第２の周期に関連してクラスタリングされたデータ配列を再クラスタリングすることを含む請求項１に記載の方法。
更に、前記隠された特定のマグニチュードパラメータをクラスタリングシステムから切り離して処理することを含む請求項１に記載の方法。
クラスタリングシステムは監視されていないクラスタリングシステムである請求項１に記載の方法。
更に、前記監視されていないクラスタリングシステムを、前記トレーニングに先立って推測的なシードバリューを用いて初期化することを含む請求項５に記載の方法。
更に、所定の信頼区間（７３、９３）を前記クラスタ中心に関連付け、
前記第２の複数のクラスタリングされたデータ配列のそれぞれのために、最も一致するクラスタ中心を決定し（６−８）、前記クラスタリングされたデータ配列が前記最も一致するクラスタ中心の前記所定の信頼区間内であるか否かを確認し（６−１０）、
信頼区間内であるときは、前記最も一致するクラスタ中心（８３）のインジケータをアーカイブし（６−１２）、問題となっているデータ配列を廃棄し、
信頼区間内でないときは、クラスタリングされたデータ配列が前記所定の信頼区間内にあるとされない、それらのタイムスロットのためのデータ配列のデータ項目（８５）をアーカイブする（６−１４）ことを含む請求項１に記載の方法。
前記信頼区間（９３）は前記記述された変量の増加するマグニチュードパラメータを用いて徐々に狭くなる請求項７に記載の方法。
更に、前記第２の複数のスケーリングされたデータ配列を、異常状態を検出するために使用することを含む請求項１に記載の方法。
前記クラスタリングされた第２の複数のスケーリングされたデータ配列を、価格戦略を決定するために使用することを含む請求項１に記載の方法。
前記スケーリングされたデータ配列が様々な加入者によるサービスの使用をあらわし、前記方法が、前記クラスタリングされた第２の複数のスケーリングされたデータ配列を、サービス公告への志願加入者を選択するために使用することを含む請求項１に記載の方法。
前記数個のエンティティがネットワークリソース（１０２）であり、前記方法が更に、
スケーリングされたデータ配列を、ネットワークリソースのための最適化されたオペレーティングパラメータのセットを決定するために使用し、
前記最適化されたオペレーティングパラメータをもう一つのネットワークリソースへコピーすることを含む請求項１に記載の方法。
物理的プロセスの数個のエンティティにおいて少なくとも一つの変量の周期的振舞いを集合的に記述するデータ配列を処理するためのデータ処理システムであって、
前記周期的振舞いが少なくとも繰り返す第１の周期を示し、各第１の周期が複数のタイムスロットを含み、
前記データ処理システムが、
複数のデータ配列を受信するための入力ルーチン（２−４）であって、各データ項目が一つのタイムスロットにおけるエンティティの変量を記述するように、各データ配列が複数のデータ項目を含む入力ルーチンと、
数個のエンティティそれぞれのために特定のマグニチュードパラメータ（８２）を決定するためのマグニチュード決定ルーチン（２−６）と、
前記特定のマグニチュードパラメータが隠されるようにエンティティ間のデータ配列をスケーリングするためのスケーリングルーチン（２−８）と、
クラスタ中心（３１−３４；８３）のセットを決定するために、第１の複数のスケーリングされたデータ配列を用いてクラスタリングシステムをトレーニングするためのトレーニングルーチンと（１１４、２−１０）と、
前記トレーニングされたクラスタリングシステムを用いて、第２のスケーリングされたデータ配列をクラスタリングするためのクラスタリングルーチン（２−１２）と、を備えるデータ処理システム。
前記マグニチュード決定ルーチンが前記特定のマグニチュードパラメータ（８２）を別々に各第１の周期のために決定するために動作する請求項１３に記載のデータ処理システム。
さらに、前記隠された特定のマグニチュードパラメータをクラスタリングシステムから切り離して処理するためのルーチンを含む請求項１３に記載のデータ処理システム。
更に、所定の信頼区間（７３、９３）を前記クラスタ中心に関連付け、
前記第２の複数の各クラスタリングされたデータ配列のために、最も一致するクラスタ中心（７２）を決定し（６−８）、および前記最も一致するクラスタ中心の前記クラスタリングされたデータ配列が前記所定の信頼区間内であるかを確認し（６−１０）、
前記所定の信頼区間内であるときは、最も一致するクラスタ中心のインジケータをアーカイブし（６−１２）、問題となっている前記データ配列を廃棄し、
前記所定の信頼区間内でないときは、クラスタリングされたデータ配列が前記所定の信頼区間内にあるとされない、それらのタイムスロットのためのデータ配列のデータ項目（８５）をアーカイブする（６−１４）、
ために動作可能であるアーカイバルルーチン（６−２・・・６−１４）を含む請求項１３に記載のデータ処理システム。