JP2001250101A

JP2001250101A - データ領域の解析方法及び表現方法

Info

Publication number: JP2001250101A
Application number: JP2000061709A
Authority: JP
Inventors: Osao Kaseda; 長生綛田; Hiroaki Tsutsui; 宏明筒井
Original assignee: Azbil Corp
Current assignee: Azbil Corp
Priority date: 2000-03-07
Filing date: 2000-03-07
Publication date: 2001-09-14
Anticipated expiration: 2020-03-07
Also published as: JP3779519B2

Abstract

(57)【要約】【課題】同一クラスに属するデータ群のばらつき程度
の把握、最適な特徴空間の選択、最適な類別モデルの生
成を容易にする。【解決手段】ｎ種類の変量で定義されるｎ次元の特徴
空間内において１つのクラスに属し、その位置が変量で
特定されるｎ次元データが入力されたとき、各変量のｍ
分割により特徴空間をｍⁿ個の分割領域に分割して、ｎ
次元データを内包する分割領域をクラスに属する学習領
域とする学習領域生成処理（ステップ１０１）と、連結
した学習領域群を１つのデータ領域とみなし、同一のデ
ータ領域内の学習領域に同一のラベルを付与するラベリ
ング処理（ステップ１０２）と、同一のラベルが付与さ
れたデータ領域ごとに近似領域を設定して表示する近似
処理（ステップ１０３，１０４）とを行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声や画像などの
パターンの認識又は状況の類別を行うコンピュータシス
テムで使用される、パターン認識又は状況類別のための
類別モデルの生成等の技術に適用して好適な、データ領
域の解析方法及び表現方法に関するものである。

【０００２】

【従来の技術】プロセス制御等の分野で使用されるシス
テムにおいては、異常な状況か否か、あるいは所定の動
作を行うべき状況であるか否か等を判別するために、状
況の類別が要求される。このような異常判定や動作決定
のための状況類別は、状況の類別に用いられる特徴量
（以下、変量と呼ぶ）によって定義される特徴空間にお
いて、異常／正常、あるいは動作Ａ／動作Ｂといったク
ラス分けをすることで状況を類別する問題ととらえるこ
とができる。

【０００３】従来、状況の類別を実現する方法として、
判別分析法が知られている。判別分析法は、数種類の変
量によって特徴付けられるクラスが存在するとき、各ク
ラスに属するデータにより、類別すべき状況がどのクラ
スに属するかを判別する方法であり、通常、統計的手法
に基づいた方法である。

【０００４】例えば、ある目標を達成したクラスをＡ、
目標を達成しなかったクラスをＢとし、変量ｘ１，ｘ
２，・・・，ｘｎ（例えば、顧客訪問回数、電話使用料
金、熱意を数量化した数値等）によって特徴付けられる
複数のデータがクラスごとに得られているとする。判別
分析法では、クラスＡ，Ｂの相違が明らかになるように
各変量に重みを与えた判別関数Ｙを考える。Ｙ＝ａ１ｘ１＋ａ２ｘ２＋・・・・＋ａｎｘｎ・・・（１）

【０００５】ａ１，ａ２，・・・・，ａｎは各変量の重
みである。なお、式（１）では、判別関数の１例とし
て、判別関数Ｙが線形の場合（各クラスの分散共分散行
列が等しい場合）を記述している。図１９は、このよう
な判別分析法を用いた状況類別方法を説明するための図
である。図１９の例では、変量ｘ１，ｘ２によって定義
される２次元の特徴空間内に、データＤａの集まりであ
るクラスＡの空間、データＤｂの集まりであるクラスＢ
の空間が存在し、判別関数Ｙを定めた様子を示してい
る。これにより、Ｙ≧０となる状況が発生すれば、この
状況はクラスＡに属すると判定でき、Ｙ＜０となる状況
が発生すれば、この状況はクラスＢに属すると判定でき
る。

【０００６】また、状況の類別を実現する他の方法とし
て、対象を特徴付ける型、様式や模様などに基づいて対
象を認識するパターン認識法が知られている。このパタ
ーン認識法としては、ニューラルネットワークを用いた
方法が提案されている（GailA.Carpenter and Stephen
Grossberg,”PATTERN RECOGNITION BY SELF-ORGANIZING
NEURAL NETWORKS”,A Bradford Book,1991）。また、
他のパターン認識法として、ＲＣＥ（Restricted Coulo
mb Energy ）ネットワークを利用した方法が提案されて
いる（D.L.Reilly,L.N.Cooper and C.Elbaum,”Self Or
ganizing Pattern Class Separator and Identifier”,
U.S.Patent No.4,326,259.Awarded Apr.20,1982 ）。

【０００７】ニューラルネットワークは、生物の脳で行
われているようなニューロンによる並列情報処理メカニ
ズムを工学的に実現しようとするものである。ニューラ
ルネットワークを状況の類別に使用する場合には、いく
つかの代表的な状況が有する変量と、これらの変量に応
じてニューラルネットワークが出力すべき判別結果とを
ニューラルネットワークに与え、所望の判別結果が得ら
れるようにニューラルネットワークを学習させる必要が
ある。ニューラルネットワークを学習させる方法として
は、通常、バックプロパゲーション（ＢａｃｋＰｒｏ
ｐａｒｇａｔｉｏｎ）法が用いられる。

【０００８】図２０は、ＲＣＥネットワークを用いた状
況類別方法を説明するための図である。ＲＣＥネットワ
ークは、線形分離不可能な多次元の空間を占めるクラス
を複数の基本図形（例えば、多次元の超球）で近似する
ことにより、特徴空間をクラス分けするものである。図
２０に示した例では、線形分離不可能なクラスＡ，Ｂの
空間を基本図形Ｃａ，Ｃｂでそれぞれ近似して、変量ｘ
１，Ｘ２で定義される２次元の特徴空間をクラス分けし
ている。

【０００９】ところで、以上のような状況類別方法で
は、類別精度を向上させるため、データ群のばらつきを
最適にするように変量を選択することが重要である。つ
まり、データ群のばらつきの程度を把握しながら最適な
変量選択を行い、それらの変量により作られる最適な特
徴空間において、データを類別するための類別モデルを
生成する必要がある。

【００１０】特徴空間内のデータ群のばらつき程度を把
握する手段としては、以下のΛ（ラムダ）統計量を利用
する方法がある。Λ統計量は、特徴空間内における異な
るクラス（例えば、クラスＡ；正常、クラスＢ；異常な
ど）に属するデータ群同士のばらつきを把握するための
指標である。この指標は、前述の線形判別関数を利用し
てデータを類別する場合の変量選択の指標として利用さ
れる。

【００１１】図２１は、Λ統計量を利用したデータ領域
の解析方法を説明するための図である。なお、図２１で
は、白丸印がクラスＡに属するデータを示し、黒丸印が
クラスＢに属するデータを示している。異なるクラスに
属するデータ群同士がなるべく離れていて、かつ同一ク
ラス内におけるデータのばらつきがなるべく小さい場合
に、Λの値はより小さい値となる。すなわち、Λ統計量
は、特徴空間内において、異なるクラスに属するデータ
を線形近似式で分離しやすいかどうかを評価する指標と
なる。図２１（ａ）の場合、図２１（ｂ）の場合に比べ
て線形分離容易であるため、Λの値は小さい。一方、図
２１（ｂ）の場合、線形分離困難であるため、Λの値は
大きい。

【００１２】また、グラフにより特徴空間内のデータの
ばらつき程度を可視化し、把握する方法がある。データ
領域を直接グラフ表示する方法としては、２変量（２次
元）以内の特徴空間のデータ領域をコンピュータ画面上
に直接表示する方法がある。また、２変量（２次元）以
上の特徴空間内のデータ領域をグラフ表示可能な低次元
グラフに射影して表示する方法もある（図２２）。

【００１３】また、多変量の特徴空間内のデータ領域を
グラフ表示する方法として、ｐ変量のデータをｐ個の頂
点を持った等辺多角形の中心と各頂点を結ぶ線分上にプ
ロットするレーダーチャート（radar chart ）、多次元
のデータの変量の１つ１つを人間の顔の輪郭、鼻、口、
目、瞳、眉などに対応させ、１つの多変量データを人間
の顔の表情として表現する顔形グラフ（face grafh）、
デンドログラムなどがある。

【００１４】

【発明が解決しようとする課題】しかしながら、Λ統計
量は、基本的には線形判別関数を利用する場合に適用さ
れるものであるため、非線形な類別手法を利用する場合
には、必ずしも有効であるとは限らないという問題点が
ある。また、Λ統計量を利用すると、異なるクラス間の
ばらつき程度を把握することができるが、同一クラスに
属するデータ群のばらつき程度を把握することが難しい
という問題点があった。

【００１５】さらに、Λ統計量を利用すると、ノイズに
よって不適切な類別モデルが生成されるという問題点が
生じる。図２３は、Λ統計量を利用した状況類別方法の
問題点を説明するための図である。図２３では、白丸印
がクラスＡに属するデータを示し、黒丸印がクラスＢに
属するデータを示している。計測されるデータには、通
常、ノイズが含まれており、そのノイズの影響により、
特徴空間内におけるデータ領域は、図２３に示すように
線形分離困難となることがある。

【００１６】この場合、本質的な領域Ａ，Ｂに属さない
ノイズデータを除去すれば、線形分離容易となる。しか
し、Λ統計量を利用するだけでは、線形分離困難である
という結果しか得られず、ノイズ除去を行えばよりよい
モデルができるのか、変量の選択からやり直さなければ
ならないのかが分からないという問題がある。つまり、
本質的には線形分離容易でも、Λ統計量では、線形分離
困難と検知されてしまう場合があり、精度のよい識別を
行うための最適な特徴空間が見いだせない可能性があ
る。

【００１７】また、Λ統計量は線形分離の容易さを把握
するための指標であるが、対象によっては線形分離困難
な場合もある。このような場合、非線形な対象の類別を
目的とした、ニューラルネットワーク、ＲＣＥネットワ
ーク、国際公開公報ＷＯ９９／２６１６４で開示された
類別モデルなどが利用される。しかしながら、このよう
な非線形な状況類別方法を利用する場合、Λ統計量だけ
では最適な特徴空間を選択することが難しいという問題
点があった。

【００１８】図２４は従来の非線形類別方法の問題点を
説明するための図である。例えば、ニューラルネットワ
ークでは、入力を座標値、出力をクラスＡ，Ｂ，Ｃ，・
・・・として、多層型のネットワークにバックプロパゲ
ーションなどの収束計算により学習させる。この場合、
同一クラスのデータ領域が複数点在するような特徴空間
（図２４（ａ））よりも、同一クラスのデータ領域が限
られた領域（例えば、１つの領域）にデータが密集し、
その形状が単純となる特徴空間（図２４（ｂ））の方が
ネットワーク構築が容易となり、学習時間が少なくな
る。また、構造が単純なことから、収束計算によるパラ
メータ同定が容易となり、誤った類別モデルを生成する
可能性が少なくなり、より精度のよい類別モデルの生成
が期待できる。

【００１９】しかし、Λ統計量は異なるクラスに属する
データ群同士のばらつきの程度を把握するためのもので
あるため、Λ統計量を用いて、同一クラスに属するデー
タ群が点在しているか密集しているかを把握したり、デ
ータ群の領域の形状を把握したりすることが難しいとい
う問題点があった。

【００２０】また、従来のグラフによる可視化では、多
変量（多次元）、多量のデータを表示することが難しい
という問題点があった。すなわち、データ領域を直接グ
ラフ表示する方法では、データを単純に描画できるのは
２次元の特徴空間までに限られるという問題がある。し
かし、複雑に要因がからむシステムの異常判定問題など
では、システムの挙動を表現するモデルの特徴空間は必
ずしも２次元以下であるとは限らないため、単純なグラ
フ描画の利用は困難である。

【００２１】また、多次元のデータを低次元グラフへ射
影する方法もあるが、この場合、本来は離れているデー
タ領域であるにもかかわらず、射影する方向により領域
が重なって１つの領域に見えてしまうといった問題点が
ある（図２５）。このような領域が重なってしまう問題
に対し、射影方向、射影面を徐々に変化させ、その都
度、射影された領域を確認していく方法もあるが、多変
量（多次元）、多量のデータの場合、繰り返し射影を行
って、ユーザが領域を具体的にイメージしていくこと
は、実質的には困難である。

【００２２】また、システムの異常判定問題などでは数
千点などという多量データを取り扱う必要があるが、レ
ーダーチャートや顔形グラフ、デンドログラムなどの多
次元の変量を対象としたグラフは、数点（多くても数十
点）を取り扱うためのものであるため、このようなグラ
フで数千点などという多量のデータを取り扱うことは難
しいという問題点があった。

【００２３】本発明は、上記課題を解決するためになさ
れたもので、同一クラスに属するデータ群のばらつき程
度の把握、最適な特徴空間（変量）の選択、最適な類別
モデルの生成が容易なデータ領域の解析方法を提供する
ことを目的とする。また、多変量（多次元）、多量のデ
ータを表示することが容易なデータ領域の表現方法を提
供することを目的とする。

【００２４】

【課題を解決するための手段】本発明のデータ領域の解
析方法は、ｎ（ｎは１以上の整数）種類の変量で定義さ
れるｎ次元の特徴空間内において１つのクラスに属し、
その位置が変量で特定されるｎ次元データが入力された
とき、各変量のｍ（ｍは１以上の整数）分割により特徴
空間をｍⁿ個の分割領域に分割して、ｎ次元データを内
包する分割領域をクラスに属する学習領域とし、入力さ
れた個々のデータと分割領域との対応付けを行う学習領
域生成処理（ステップ１０１）と、連結した学習領域群
を１つのデータ領域とみなし、同一のデータ領域内の学
習領域に同一のラベルを付与するラベリング処理（ステ
ップ１０２）とからなるものである。このように、学習
領域生成処理とラベリング処理を行うことにより、特徴
空間内の同一クラスに属するデータ群のばらつきの把握
が可能となる。また、本発明のデータ領域の解析方法の
１構成例として、特徴空間を分割する処理は、内包する
データの数が１個となる分割領域が生成される度合いが
分割数ｍに対し確率分布に従うとみなして、統計的有意
水準に基づき分割数ｍを決定する処理（ステップ２０
４）からなるものである。また、本発明のデータ領域の
解析方法の１構成例として、前記ラベリング処理は、学
習領域生成処理で生成された学習領域ごとにラベルを付
与するとともに、学習領域がとるべき真のラベルを記憶
するためのラベル表を作成する処理からなり、この処理
は、１．ラベルの付与対象となる学習領域に対して、隣
接する学習領域に付与されたラベルに基づく所定の条件
によってラベルを付与し、ラベル表を更新するステップ
（ステップ３０１〜３０４）と、２．ラベル表に記憶さ
れている真のラベルが通し番号となるようラベル表を修
正するステップ（ステップ３０５，３０６）と、３．ス
テップ１で付与されたラベルをラベル表に基づいて真の
ラベルに更新するステップ（ステップ３０７，３０８）
とからなるものである。

【００２５】また、本発明のデータ領域の表現方法は、
ｎ種類の変量で定義されるｎ次元の特徴空間内において
１つのクラスに属し、その位置が変量で特定されるｎ次
元データが入力されたとき、各変量のｍ分割により特徴
空間をｍⁿ個の分割領域に分割して、ｎ次元データを内
包する分割領域を前記クラスに属する学習領域とし、入
力された個々のデータと分割領域との対応付けを行う学
習領域生成処理と、同一クラスに属する連結した学習領
域群を１つのデータ領域とみなし、同一のデータ領域内
の学習領域に同一のラベルを付与するラベリング処理
と、同一のラベルが付与されたデータ領域ごとに近似領
域を設定して、この近似領域を表示する近似処理とから
なるデータ領域の表現方法であって、近似処理は、デー
タ領域を包含する近似領域を定義するステップ（ステッ
プ４０１）と、近似領域内の分割領域の個数をＮ、該近
似領域の近似対象となったデータ領域に含まれる学習領
域の個数をＮａとしたとき、Ｎａ／Ｎが所定値以上とな
るまで近似領域を分割して、分割終了後の近似領域を表
示するステップ（ステップ４０２，４０３）とからなる
ものである。

【００２６】また、本発明のデータ領域の表現方法の１
構成例は、同一クラスの同一データ領域を近似した、分
割終了後の近似領域のうち、１変量の方向については互
いに隣接する学習領域を持たず、残りの全ての変量につ
いては互いに隣接する学習領域を有する近似領域同士を
合成して表示するようにしたものである。また、本発明
のデータ領域の表現方法の１構成例は、近似領域が存在
する範囲を変量ごとに棒グラフで表すようにしたもので
ある。

【００２７】

【発明の実施の形態】以下、本発明の概要を記述する。
多変量の観測データを用いてシステムの異常判定、動作
状況類別などを行うために、判別分析、ニューラルネッ
トワークなどの数値データによる類別技術が利用されて
いる。このような類別技術においては、類別精度を向上
させるため、データ群のばらつきを最適にするように変
量を選択することが重要である。つまり、データ群のば
らつきの程度を把握しながら最適な変量選択を行い、そ
れらの変量により作られる最適な特徴空間において、デ
ータを類別するための類別モデルを生成する必要があ
る。

【００２８】本発明は、多次元の変量で作られる特徴空
間において、データ群のばらつきの程度、特に同一クラ
スに属するデータ群のばらつき（データ領域数）や、デ
ータ領域の大きさ、形状などを把握するための技術であ
る。本発明では、まずデータの密度に基づいて特徴空間
内に学習領域を生成する。つぎに生成した学習領域（同
一クラスのデータが属する学習領域）に対して、画像処
理技術で利用されているラベリング技術を多次元に拡張
したものを適用する。ここでは、連結した学習領域群を
１つのデータ領域であるとし，データ領域ごとにラベル
付けを行う。これにより、同一クラス内のデータに関す
る領域数（データ領域が点在しているか否か）を確認で
きる。

【００２９】次に、本発明では、文字によるデータ領域
の表示に変換することにより、データ領域を具体的な数
値で把握できるようにしている。ここでは、データ領域
を全て詳細に数値で表現しているわけではなく、まず、
ラベル付けされた領域ごとを、大まかな領域となるよう
近似処理を行う。次に、各クラスごとに、近似されたデ
ータ領域の範囲を数値で提示する。これにより、データ
のばらつき程度、データ領域の大きさ、形状などをより
具体的にイメージしやすくなる。また、上記近似は、人
間が視覚により物体の領域を把握している感覚に近い近
似であるため、データ領域を全て詳細に数値で表現する
よりも、ユーザが具体的な領域をイメージしやすい。

【００３０】以上の本発明により、特徴空間内での異な
るクラスに属するデータのばらつき程度だけでなく、同
一クラスにおけるデータのばらつき、データ群の領域の
大きさ、形状なども確認しながら、より適切な特徴空間
を決定することができ、類別精度の向上が期待できる。
また、本発明では、多次元、多量のデータにも適用可能
であるため、多数の要因が複雑に絡み合うシステムの異
常判定問題などにデータ類別技術を適用する場合に有効
な技術となる。

【００３１】以下、本発明の実施の形態について図面を
参照して詳細に説明する。図１は本発明の実施の形態と
なるデータ領域の解析方法及び表現方法を説明するため
のフローチャート図である。本発明のデータ領域の解析
方法及び表現方法を利用するコンピュータシステムは、
コンピュータ、ディスプレイ装置、キーボード、外部記
憶装置などを備えた周知の構成のものでよい。

【００３２】また、コンピュータ本体も、中央処理装置
（ＣＰＵ）、リードオンリメモリ（ＲＯＭ）、ランダム
アクセスメモリ（ＲＡＭ）、ディスプレイ装置やキーボ
ードあるいは外部記憶装置とのインタフェースをとるた
めの回路などを備えた周知の構成のものでよく、これら
の構成を１チップ化したマイクロコンピュータでもよ
い。

【００３３】ＣＰＵは、ＲＯＭ若しくはＲＡＭに記憶さ
れたプログラム、又はキーボードから入力されたコマン
ドに従って処理を実行する。また、ＣＰＵは、外部記憶
装置にデータを書き込んだり、外部記憶装置からデータ
を読み出したりすることができる。

【００３４】このようなコンピュータシステムにおい
て、本発明のデータ領域の解析方法及び表現方法を実現
させるためのプログラムは、フレキシブルディスク、Ｃ
Ｄ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカード等の記録媒
体に記録された状態で提供される。この記録媒体を外部
記憶装置に挿入すると、記録媒体に書き込まれたプログ
ラムが読み取られ、コンピュータに転送される。そし
て、ＣＰＵは、読み込んだプログラムをＲＡＭ等に書き
込む。こうして、ＣＰＵは、以下で説明するような処理
を実行する。

【００３５】次に、本発明で用いる学習領域生成方法の
基本概念について説明する。この学習領域生成方法は、
特徴空間をあるクラスに属する学習領域と、クラスに属
さない学習されていない領域とにクラス分けする方法で
ある。例えば、状況類別等の目的のために選定された変
量がｎ（ｎは１以上の整数）種類あるとすれば、特徴空
間は、このｎ種類の変量によって定義されるｎ次元の空
間である。そして、本発明では、状況の類別に好適又は
クラス間の分離性が良好であると考えられるｎ種類の変
量を選定して、各変量の最小値と最大値との間のレンジ
を変量ごとに正規化し、各変量をある数ｍ（ｍは１以上
の整数）で区切ることにより、特徴空間を有限個の領域
に分割する。

【００３６】今、データの総数がＭとなる１クラスが存
在するとき、このクラスを特徴付けるのに好適な変量を
選定して、クラス領域を包含する特徴空間を定義する。
これにより、上記クラスに属するデータは、特徴空間内
に分布し、変量によって位置が特定される点となる。各
変量をそれぞれｍ分割すれば、特徴空間は、ｍⁿ個の領
域に分割され、生成された各領域は、データを内包する
か否かでクラス分けされる。これが、学習領域生成の基
本概念であり、特徴空間を学習領域と学習されていない
領域とにクラス分けしたものは類別モデルとして利用す
ることが可能である。

【００３７】次に、特徴空間の適切なクラス分けが可能
な分割数ｍの決定方法について説明する。まず、ｍ分割
によって生成される分割領域のうち、内包するデータの
数が１個となる分割領域の数をｐとしたときの比率Ｆ
（ｍ）＝ｐ／Ｍを考える。この比率Ｆ（ｍ）は、内包す
るデータの数が１個となる分割領域の確からしさととら
えることができ、分割数ｍに対して図２のような特性を
示す。つまり、比率Ｆ（ｍ）は非減少関数であり、次式
のような性質を有する。

【００３８】

【数１】

【００３９】図２及び式（２）において、ｍ＊は、分割
数ｍを増加していったときにＦ（ｍ）＝１となった最初
の分割数ｍである。分割数ｍは整数値であり、離散的な
値しか取り得ない。しかし、例えば２分割したときの長
さ（変量のフルレンジ／２）と３分割したときの長さ
（変量のフルレンジ／３）の中間値を２．５分割という
ような有理分割に拡張して考えれば、Ｆ（ｍ）は連続で
ある。よって、比率Ｆ（ｍ）は、右連続関数であり、確
率分布関数の１つと考えられる。本発明では、連続関数
Ｆ（ｍ）を整数ｍでサンプリングしていると考えればよ
い。

【００４０】続いて、データ密度ｌについて考える。こ
こで扱うデータ密度ｌは、あるデータに着目したとき、
この着目データと最も近いデータとの距離である。ま
た、ここでの距離は、ユークリッド距離である。特徴空
間の次元をｎ、第１のデータを表すｎ種類の変量の値を
ｘ１，ｘ２，・・・・，ｘｎ、第２のデータを表すｎ種
類の変量の値をｘ１’，ｘ２’，・・・・，ｘｎ’とす
ると、第１のデータと第２のデータのユークリッド距離
は、（（ｘ１−ｘ１’）²＋（ｘ２−ｘ２’）²＋・・・
・＋（ｘｎ−ｘｎ’）²）^1/2となる。

【００４１】このようなデータ密度ｌの度数分布は正規
分布とみなせる。また、分割数ｍを増やしていったと
き、内包するデータの数が１個となる分割領域が生成さ
れる度合いが最も高くなるのは、データ密度ｌの度数が
最も高いときと考えられる。そして、上記度合いは、デ
ータ密度ｌが極めて小さいときやデータ密度ｌが極めて
大きいときには低くなると考えられる。したがって、内
包するデータの数が１個となる分割領域が生成される度
合いは、分割数ｍに対して正規分布に従うと考えられ
る。

【００４２】なお、データ密度を考えるときの距離をユ
ークリッド距離ではなく、ｍ分割によって得られる分割
領域の縦・横の長さに相当するような距離で考えれば、
正規分布に従うことは明白である。ここでの距離は、例
えばｍａｘ（｜ｘ１−ｘ１’｜，｜ｘ２−ｘ２’｜，・
・・・，｜ｘｎ−ｘｎ’｜）となる。ｍａｘは（）内の
値のうちの最大値を取り出すことを意味する。

【００４３】以上の説明により、正規分布に基づく有意
な分割数ｍを決めることが可能と考えられる。ただし、
内包するデータの数が１個となる分割領域が少なくとも
１個生成される分割数ｍについて、その平均μ及び分散
σを求めるには、クラスに属するデータの総数Ｍが２０
０個以上であることが必要となる。その理由は、Ｍ≧２
００のとき、平均μ及び分散σが真の値とみなせるから
である。

【００４４】内包するデータの数が１個となる分割領域
が少なくとも１個生成される分割数ｍについて、その平
均μ及び分散σを計算するには、以下に示す式を用いれ
ばよい。

【００４５】

【数２】

【００４６】

【数３】

【００４７】上述の有意な分割数ｍの「有意」とは、統
計の分野で用いられる言葉である。つまり、ある統計的
有意水準を定めて分割数ｍを決定することにより、この
分割数ｍは、内包するデータの数が１個となる分割領域
が生成される度合いが高く、かつ分割領域間の距離がで
きるだけ短いという条件を満たし、適切な類別モデルを
実現する値となる。なお、分割数がｍのときの比率Ｆ
（ｍ）から分割数がｍ−１のときの比率Ｆ（ｍ−１）を
引いた、Ｆ（ｍ）−Ｆ（ｍ−１）が、ｍ分割の際にデー
タの数が１個となる分割領域が生成される度合いに相当
する。

【００４８】そして、本実施の形態では、μ＋３σを統
計的有意水準とし、これに最も近い整数値を有意な分割
数ｍとする。なお、統計的有意水準は、μ＋３σに限る
ものではないことは言うまでもない。

【００４９】こうして、分割数ｍを決定することができ
る。分割数ｍを決定して、各変量をそれぞれｍ分割すれ
ば、特徴空間は、ｍⁿ個の領域に分割され、生成された
各領域は、データを内包する学習領域とデータを内包し
ない領域とにクラス分けされる。

【００５０】なお、以上の説明はクラスが１つの場合で
あって、クラスがｉ個（ｉ＝１，・・・，ｋ；ｋ≧２）
存在する場合は、上述の方法によってクラスごとに分割
数ｍｉを求め、これらに基づいて全クラスに共通な最終
的な分割数ｍを次式のように求める。

【００５１】

【数４】

【００５２】式（５）において、μｉは式（３）により
求めたクラスｉにおける平均、σｉは式（４）により求
めたクラスｉにおける分散、ｍｉ（μｉ＋３σｉ）はμ
ｉ＋３σｉにより求めたクラスｉにおける分割数であ
る。また、ｍａｘは、ｍｉ（μｉ＋３σｉ）のうちの最
大値を取り出すことを意味する。ただし、全クラスに共
通な分割数ｍを求めずに、クラス別の分割数ｍｉで後述
する処理をクラスごとに行ってもよい。

【００５３】次に、以上の方法に基づく実際の処理につ
いて説明する。図３はステップ１０１の学習領域生成処
理をより詳細に説明するためのフローチャート図であ
る。まず、コンピュータシステムの利用者は、複数種の
変量によって特徴付けられる多次元データを収集し（図
３ステップ２０１）、複数種の変量から状況の類別に好
適又はクラス間の分離性が良好であると考えられるｎ種
類の変量を選定する（ステップ２０２）。

【００５４】そして、利用者は、収集したデータをｎ種
類の変量によって特徴付けられる多次元データ（つま
り、ｎ種類の変量によって特徴空間上の位置が特定され
るデータ）としてコンピュータに入力する（ステップ２
０３）。

【００５５】例えば、２つの変量ｘ１，ｘ２によって特
徴付けられる１つのクラスＡが存在し、このクラスＡに
属する複数のデータＤが変量ｘ１，ｘ２によって定義さ
れる２次元の特徴空間Ｓ内に図４のように分布している
と仮定する。図４は２次元の特徴空間内に分布するデー
タの１例を示す図である。なお、図４では、データＤを
黒丸印で示している。

【００５６】このような変量ｘ１，ｘ２によって特徴付
けられる多数のデータＤが入力されると、コンピュータ
は、データＤをメモリに格納した後、上述の方法により
分割数ｍを決定する（ステップ２０４）。ここでは、分
割数ｍ＝３２が得られたので、変量ｘ１，ｘ２のフルレ
ンジをそれぞれ３２分割した結果を図５に示す。これ
で、特徴空間Ｓは１０２４個の領域Ｅに分割される。

【００５７】続いて、コンピュータは、ｍ分割によって
生成された分割領域ＥとデータＤとを対応づけ、特徴空
間Ｓをクラス分けする（ステップ２０５）。つまり、コ
ンピュータは、分割領域Ｅ内にデータＤが存在すれば、
この領域ＥをクラスＡに属すると認識して、このクラス
Ａに属すると判定した分割領域Ｅを学習領域Ｅａとし、
学習領域Ｅａの位置をメモリに格納する。

【００５８】図６は分割領域ＥのうちクラスＡに属する
と判定された学習領域Ｅａを示す図である。図６では、
白地の四角形が学習されていない分割領域Ｅを示し、斜
線を施した四角形が学習領域Ｅａを示している。こうし
て、ステップ１０１（ステップ２０１〜２０５）の学習
領域生成処理が終了する。

【００５９】なお、学習領域Ｅａの中には、２つ以上の
データを内包する分割領域も含まれている。このデータ
を正確に表わそうとすれば、より細かい分割が必要とな
るがデータ全体の密度を統計的に考慮した場合には図５
の分割が相応しい。

【００６０】以上のように、本実施の形態では、ｎ種類
の変量で定義されるｎ次元の特徴空間Ｓ内において１つ
のクラスに属し、その位置が前記変量で特定されるｎ次
元データＤが入力されたとき、各変量のｍ分割により特
徴空間Ｓをｍⁿ個の分割領域Ｅに分割し、この分割に際
して、内包するデータの数が１個となる分割領域が生成
される度合いが分割数ｍに対し確率分布に従うとみなし
て、統計的有意水準に基づき分割数ｍを決定する処理
と、ｎ次元データＤを内包する分割領域Ｅを前記クラス
に属する学習領域Ｅａとし、入力された個々のデータＤ
と分割領域Ｅとの対応付けを行う処理とを行う。また、
本実施の形態では、分割数ｍを、内包するデータの数が
１個となる分割領域が少なくとも１個生成される分割数
ｍについての平均と分散から、統計的有意水準に基づい
て決定する。

【００６１】こうして、本実施の形態では、各クラスの
空間を線形分離することが不可能な場合でも、各クラス
の空間を非線形的に分離可能な学習領域（類別モデル）
を生成することができる。その結果、各クラスの空間を
正確に近似でき、誤類別率の低い類別処理を行うことが
できる。

【００６２】また、統計的有意水準に基づいて分割数ｍ
を決定することにより、統計的に有意な大きさの分割領
域を生成するので、データの偏りの影響を受け難くする
ことができる。また、必要以上の分割領域を生成しない
ので、コンピュータのメモリの使用量を少なくすること
ができ、学習領域を生成する学習速度を速くすることが
できる。

【００６３】次に、以上の処理で生成された学習領域Ｅ
ａは、隣接する領域同士であっても関連付けられておら
ず、別の領域として扱われているので、このままでは同
一クラスに属するデータ群のばらつきの程度を把握する
ことは困難である。

【００６４】そこで、本発明では、連結した学習領域群
を１つのデータ領域とみなし、同一のデータ領域内の学
習領域には同一のラベル（番号又は名前）を与え、異な
るデータ領域には異なるラベルを与えるラベリング処理
を行う（ステップ１０２）。これにより，同一クラス内
のデータ領域数（データ領域が点在しているか否か）を
確認することができる。

【００６５】以下、２変量の場合を例としてラベリング
処理を説明する。図７はラベリング処理を説明するため
のフローチャート図である。最初に、コンピュータは、
ラベルカウンタＬを０に初期化すると共に、配列（ラベ
ル表）Ｔ［ｉ］を０に初期化する（図７ステップ３０
１）。

【００６６】ラベルカウンタＬは付与済みのラベル番号
の中で最大の値を示す。ここでは、ラベル番号をまだ付
与していないので、ラベルカウンタＬを０に初期化す
る。配列Ｔ［ｉ］は真のラベル番号を記憶するための変
数である。配列Ｔ［ｉ］の要素番号ｉは、学習領域Ｅａ
に付与されたラベル番号を示し、各配列要素Ｔ［１］，
Ｔ［２］，Ｔ［３］・・・・は、要素番号ｉ＝１，２，
３・・・・のラベルが付与された学習領域Ｅａがとるべ
き真のラベル番号を示す。ここでは、ラベル番号をまだ
付与していないので、各配列要素Ｔ［１］，Ｔ［２］，
Ｔ［３］・・・・を全て０に初期化する。

【００６７】次に、コンピュータは、全ての学習領域Ｅ
ａにラベル番号を与える初期ラベリング処理を行う。初
期ラベリング処理において、コンピュータは、ラベルが
まだ付いていない学習領域Ｅａを検索して、これを注目
領域（これからラベル付けをする学習領域）とする。図
８は注目領域に対するラベル付けの方法を説明するため
の説明図である。図８（ａ）では、白地が学習されてい
ない分割領域Ｅを示し、斜線部が学習領域Ｅａを示して
おり、９個の領域のうち中央の学習領域Ｅａを注目領域
としている。図８（ｂ）、図８（ｃ）についても同様で
ある。また、学習領域Ｅａ内に記されている番号は、そ
の領域Ｅａに付与されたラベル番号である。

【００６８】次いで、コンピュータは、注目領域の周囲
の隣接領域のラベル付けの状況を見て、以下のような条
件に従って注目領域にラベルを付与する。条件１：隣接する領域の中にラベル番号が付与された学
習領域Ｅａが１つも存在しない場合、ラベルカウンタＬ
をＬ＋１、すなわち１加算して、更新後のラベルカウン
タＬの値を注目領域のラベル番号とする（図８
（ａ））。さらに、配列要素Ｔ［Ｌ］＝Ｌとして、配列
Ｔ［ｉ］を更新する。

【００６９】条件２：隣接する領域の中にラベル番号が
付与された学習領域Ｅａが存在し、かつ隣接学習領域Ｅ
ａに付与されたラベル番号が１種類だけの場合、この番
号を注目領域のラベル番号とする（図８（ｂ））。

【００７０】条件３：隣接する領域の中にラベル番号が
付与された学習領域Ｅａが存在し、かつ隣接学習領域Ｅ
ａに付与されたラベル番号が２種類以上の場合、これら
ラベル番号のなかで最小の番号を注目領域のラベル番号
とする（図８（ｃ））。さらに、前記隣接学習領域Ｅａ
に付与されたラベル番号のうち注目領域の番号以外のラ
ベル番号を要素番号ｉとする配列要素を更新して、これ
ら配列要素に真のラベル番号を格納しておく。

【００７１】図８（ａ）の例では、隣接する領域の中に
ラベル番号が付与された学習領域Ｅａが１つも存在しな
いので、条件１に従って、更新後のラベルカウンタＬの
値を注目領域のラベル番号としている。また、図８
（ｂ）の例では、隣接する領域の中にラベル番号が付与
された学習領域Ｅａが存在し、かつ隣接学習領域Ｅａに
付与されたラベル番号がＬ１の１種類だけなので、条件
２に従って、ラベル番号Ｌ１を注目領域のラベル番号と
している。

【００７２】そして、図８（ｃ）の例では、隣接する領
域の中にラベル番号が付与された学習領域Ｅａが存在
し、かつ隣接学習領域Ｅａに付与されたラベル番号がＬ
２，Ｌ３，Ｌ５（ただし、Ｌ２＜Ｌ３＜Ｌ５）の３種類
なので、条件３に従って、ラベル番号がＬ２，Ｌ３，Ｌ
５のなかで最小の番号Ｌ２を注目領域のラベル番号とし
ている。

【００７３】さらに、隣接学習領域Ｅａに付与されたラ
ベル番号Ｌ２，Ｌ３，Ｌ５のうち注目領域の番号Ｌ２以
外のラベル番号Ｌ３，Ｌ５を要素番号ｉとする配列要素
Ｔ［Ｌ３］，Ｔ［Ｌ５］の値を更新する。ここでは、最
小の番号Ｌ２が真のラベル番号となるので、Ｔ［Ｌ３］
＝Ｌ２、Ｔ［Ｌ５］＝Ｌ２とする。

【００７４】以上のように、コンピュータは、注目領域
にラベル番号を付与する初期ラベリング処理を行い、付
与したラベル番号をメモリに格納して（ステップ３０
２）、配列Ｔ［ｉ］の更新が必用な場合には配列Ｔ
［ｉ］の更新を行った後（ステップ３０３）、特徴空間
Ｓ内の全学習領域Ｅａについて初期ラベリング処理が終
了したかどうかを判定する（ステップ３０４）。終了し
ていない場合、コンピュータは、ステップ３０２，３０
３の処理を繰り返す。

【００７５】図９は図６に示す各学習領域Ｅａに対して
初期ラベリング処理を行った結果を示す図である。各学
習領域Ｅａ内に記されている番号は、その領域Ｅａに付
与されたラベル番号である。図９は、変量Ｘ１の方向、
すなわち列方向に沿って注目領域を検索して、注目領域
を発見するたびに初期ラベリング処理を行い、１列分の
検索が終了した後に、次の列について注目領域の検索と
初期ラベリング処理とを行うことを特徴空間Ｓの各列ご
とに繰り返すことにより、特徴空間Ｓ内の全領域を走査
している。ただし、注目領域の検索方法はこれに限るも
のではなく、例えば学習領域Ｅａをランダムに検索して
処理してもよい。

【００７６】初期ラベリング処理の終了後、コンピュー
タは、特徴空間Ｓ内の全学習領域Ｅａについて初期ラベ
リング処理が終了した場合、配列Ｔ［ｉ］の各配列要素
を要素番号ｉが小さい方から順次調べて、配列Ｔ［ｉ］
としてメモリに格納されている真のラベル番号を通し番
号にする（ステップ３０５）。図９の例の場合、初期ラ
ベリング処理が終了した状態では、Ｔ［１］＝１、Ｔ
［２］＝２、Ｔ［３］＝１、Ｔ［４］＝１、Ｔ［５］＝
５、Ｔ［６］＝６、Ｔ［７］＝７、Ｔ［８］＝８、Ｔ
［９］＝９、Ｔ［１０］＝９となっている。

【００７７】初期ラベリング終了時の配列要素Ｔ［１］
〜Ｔ［４］が示す真のラベル番号は１又は２である。こ
れに対して、配列要素Ｔ［５］が示す真のラベル番号は
５であって、配列要素Ｔ［１］〜Ｔ［４］に対して通し
番号となっていない。したがって、コンピュータは、配
列要素Ｔ［５］＝３と修正する。

【００７８】続いて、初期ラベリング終了時の配列要素
Ｔ［６］が示す真のラベル番号は６であって、配列要素
Ｔ［１］〜Ｔ［５］に対して通し番号となっていない。
このため、コンピュータは、配列要素Ｔ［６］＝４と修
正する。

【００７９】次に、配列要素Ｔ［７］が示す真のラベル
番号は７であって、配列要素Ｔ［１］〜Ｔ［６］に対し
て通し番号となっていない。このため、コンピュータ
は、配列要素Ｔ［７］＝５と修正する。

【００８０】以下、同様にして、配列要素Ｔ［８］＝
６、Ｔ［９］＝７、Ｔ［１０］＝７とする。なお、配列
要素Ｔ［１０］では、配列要素Ｔ［９］のときに真のラ
ベル番号を９から７に修正したので、同様に７に修正す
る。このように、コンピュータは、配列Ｔ［ｉ］の各配
列要素ごとに真のラベル番号を修正する（ステップ３０
６）。

【００８１】配列Ｔ［ｉ］の修正後、コンピュータは、
全ての学習領域Ｅａのラベル番号を更新する再ラベリン
グ処理を行う（ステップ３０７）。再ラベリング処理に
おいて、コンピュータは、初期ラベリング処理によって
ラベル番号が付与された学習領域Ｅａを検索して、これ
をラベル番号更新の対象となる注目領域とする。そし
て、コンピュータは、注目領域に付与されているラベル
番号を修正後の配列Ｔ［ｉ］に従って更新する。

【００８２】例えば、ラベル番号１が付与されている注
目領域の場合、これに対応する配列要素がＴ［１］＝１
で、要素番号ｉと配列要素が示す真のラベル番号とが一
致しているので、番号更新の必要がなく、初期ラベリン
グ処理によって付与されたラベル番号１のままとする。
ラベル番号２が付与されている注目領域の場合も同様で
ある。

【００８３】一方、ラベル番号３が付与されている注目
領域の場合、これに対応する配列要素がＴ［３］＝１
で、要素番号ｉと配列要素が示す真のラベル番号とが異
なるので、初期ラベリング処理によって付与されたラベ
ル番号３を真のラベル番号１に更新する。同様に、ラベ
ル番号４が付与されている注目領域の場合、これに対応
する配列要素がＴ［４］＝１なので、初期ラベリング処
理によって付与されたラベル番号４を真のラベル番号１
に更新する。

【００８４】以下、同様にして、ラベル番号５，６，
７，８，９，１０が付与されている注目領域について
は、それぞれ真のラベル番号３，４，５，６，７，７に
更新する処理を行う。このように、コンピュータは、特
徴空間Ｓ内の学習領域Ｅａごとに再ラベリング処理を繰
り返す（ステップ３０８）。全学習領域Ｅａの再ラベリ
ング処理が終了した時点で、ステップ１０２のラベリン
グ処理が終了する。

【００８５】図１０は図９に示す各学習領域Ｅａに対し
て再ラベリング処理を行った結果を示す図である。以上
のように、本発明によれば、連結した学習領域群を１つ
のデータ領域とみなし、同一のデータ領域内の学習領域
に同一のラベルを付与するので、以下に示す表現方法の
ための処理を各データ領域ごとに行うことが可能とな
る。

【００８６】また、ラベル番号の最大値が同一クラスに
属するデータ領域の数となるので、同一クラスにおける
データ領域の数を把握することができる。これにより、
同一クラスに属するデータ群が点在しているか密集して
いるかを把握することができる。

【００８７】なお、ユークリッド距離などの類似度又は
非類似度を利用して、各データをいくつかの群（クラス
タ）に融合する方式（参考文献：安居院他、「画像の処
理と認識」、ｐ．９２−９５、昭晃堂）により、同一ク
ラス内におけるデータ領域数を把握することも考えるこ
とができるが、以下のような問題があるため、これを利
用することは現実的には困難である。

【００８８】この方式は、各データ間の類似度又は非類
似度が、あるしきい値以上又はしきい値以下となった場
合、同一クラスタとして融合し、最終的に融合されたク
ラスタ数をデータ領域と考え、同一クラスに属するデー
タ群が点在しているか密集しているかを把握するもので
ある。

【００８９】しかしながら、このように各データをクラ
スタに融合する方式では、同じクラスタにデータを融合
していくための基準、しきい値に関して、最適な値を決
めるための指針が明確でなく、試行錯誤的に決める必要
があるという問題が生じる。また、この方式では、しき
い値などの違いにより、最終的に把握されるデータ領域
数が変化してしまい、意味のあるデータ領域数のカウン
トが困難であるという問題が生じる。

【００９０】これに対し、本発明では、データ密度に応
じてデータを自動的に学習領域化することができる。ま
た、学習領域に対してラベリング処理を施すことによ
り、適切なデータ領域数の把握が可能となる。

【００９１】なお、本実施の形態では、単一クラス内の
データに対する処理について記述しているが、クラスが
ｉ個（ｉ＝１，・・・，ｋ；ｋ≧２）存在する場合は、
前述のようにクラスごとに統計的有意水準に基づいて分
割数ｍｉを求め、これらに基づいて全クラスに共通な分
割数ｍを式（５）により求めた後に、学習領域生成処理
とラベリング処理とをクラスごとに行ってもよいし、全
クラスに共通な分割数ｍを求めずに、クラス別の分割数
ｍｉを用いて学習領域生成処理とラベリング処理とをク
ラスごとに行ってもよい。

【００９２】また、本実施の形態では、変量が２種類の
場合について説明しているが、変量が２種類以上の場合
も同様にして扱えることは明らかである。ｎ変量、すな
わち特徴空間がｎ次元の場合、注目領域に対して３ⁿ−
１又はｎ×２近傍の領域を注目領域に隣接する領域と呼
ぶ。本実施の形態では、ラベリング処理に際して３ⁿ−
１近傍（２変量の場合は８近傍）を隣接する領域として
いるが、ｎ×２近傍（２変量の場合は４近傍）を隣接す
る領域としてもよく、対象に応じていずれかを用いる。

【００９３】次に、本発明では、文字によるデータ領域
の表示により、データ領域を具体的な数値で把握できる
ようにしている。ここでは、データ領域を全て詳細に数
値で表現しているわけではなく、まずラベル付けされた
データ領域が大まかな領域となるよう近似処理を行う。

【００９４】続いて、クラス及び変量ごとに、近似され
たデータ領域の範囲を数値とグラフで提示する。これに
より、データのばらつき程度、データ領域の形状や大き
さなどをより具体的にイメージしやすくなる。また、上
記近似は、人間が視覚により物体の領域を把握している
感覚に近い近似であるため、データ領域を全て詳細に数
値で表現するよりも、ユーザが具体的な領域をイメージ
しやすくなる。

【００９５】なお、以下の処理は、ラベル付けされた同
一クラス内のデータ領域ごとに実施される。また、デー
タのクラスが複数ある場合には、さらにクラスごとに以
下の処理を繰り返すことになる。まず、コンピュータ
は、ステップ１０２でラベル付けされたデータ領域に対
して近似処理を行う（ステップ１０３）。

【００９６】図１１はデータ領域の近似処理を説明する
ためのフローチャート図、図１２〜図１５はデータ領域
の近似処理を説明するための説明図である。ここでは、
図１０におけるデータ領域６を例として近似処理を説明
する。データ領域の近似処理において、最初にコンピュ
ータは、同一のラベル番号が付与されたデータ領域に対
して初期近似領域を設定する（ステップ４０１）。

【００９７】初期近似領域を設定するには、近似対象と
なるデータ領域の大きさを変量ごとに算出して、算出し
た大きさのうち最大値Ｒｍａｘを次式のように求める。Ｒｍａｘ＝ｍａｘ｛Ｒｘ１，Ｒｘ２，Ｒｘ３，・・・・Ｒｘｎ｝・・・（６）式（６）において、Ｒｘ１，Ｒｘ２，Ｒｘ３，Ｒｘｎ
は、近似対象となるデータ領域の変量ｘ１，ｘ２，ｘ
３，ｘｎ方向の大きさである。

【００９８】そして、コンピュータは、２^p-1＜Ｒｍａ
ｘ≦２^pを満たす変数ｐを求め、初期近似領域の１辺の
大きさＲ＝２^pを決定して、初期近似領域を設定する。
このとき、初期近似領域の各変量方向の大きさは全てＲ
である。また、特徴空間Ｓ内における初期近似領域の位
置は、近似の対象となるデータ領域を内包するような位
置に設定すればよい。そして、コンピュータは、初期近
似領域の大きさと位置をメモリに格納する。

【００９９】図１２の例では、データ領域の変量ｘ１方
向の大きさが１２であるため、すべての変量ｘ１，ｘ２
方向の大きさを２⁴（＝１６）として、破線で示すよう
な初期近似領域を設定している。

【０１００】続いて、コンピュータは、初期近似領域内
の分割領域Ｅの個数をＮ、該初期近似領域に含まれるデ
ータ領域内の学習領域Ｅａの個数をＮａとしたとき、Ｎ
ａ／Ｎ、すなわち初期近似領域内の領域数に対するデー
タ領域内の学習領域数の割合が所定値（本実施の形態で
は０．５）以下かどうかを判定する（ステップ４０
２）。

【０１０１】なお、ここでの計数の対象となる学習領域
Ｅａは、初期近似領域の近似対象となったデータ領域に
属するものであって、空間的な位置の上では初期近似領
域の内部に含まれる学習領域Ｅａであっても、他のデー
タ領域に属するものは数えない。例えば、データ領域６
を近似対象とする場合、このときの初期近似領域には図
１２に示すようにデータ領域７に属する学習領域が含ま
れるが、この学習領域は計数の対象としない。

【０１０２】そして、コンピュータは、前記割合が所定
値以下の場合、初期近似領域を分割して、中間近似領域
を生成する（ステップ４０３）。この分割では、初期近
似領域の各変量方向の大きさを全て１／２にする。図１
２の例では、初期近似領域内の領域数に対するデータ領
域６内の学習領域数の割合が０．５以下であるため、初
期近似領域を分割して、図１３に示すような中間近似領
域を生成している。

【０１０３】次いで、コンピュータは、中間近似領域内
の分割領域Ｅの個数をＮ、該中間近似領域に含まれるデ
ータ領域内の学習領域Ｅａの個数をＮａとしたとき、Ｎ
ａ／Ｎ、すなわち中間近似領域内の領域数に対するデー
タ領域内の学習領域数の割合が所定値（本実施の形態で
は０．５）以下かどうかを判定する（ステップ４０
２）。初期近似領域の場合と同様に、ここでの計数の対
象となる学習領域Ｅａは、中間近似領域に含まれ、かつ
該中間近似領域の生成元である初期近似領域が近似対象
としたデータ領域に属するものである。

【０１０４】そして、コンピュータは、前記割合が所定
値以下の場合、中間近似領域を各変量方向の大きさが全
て１／２となるように分割する（ステップ４０３）。コ
ンピュータは、以上のようなステップ４０２，４０３の
処理を中間近似領域ごとに繰り返して、中間近似領域内
の領域数に対するデータ領域内の学習領域数の割合が所
定値より大きくなった場合、その中間近似領域について
は分割を終了する。なお、前記割合が０、すなわち中間
近似領域内に対応する学習領域Ｅａが１つもない中間近
似領域については分割処理を実施しない。

【０１０５】このような中間近似領域の分割を繰り返す
ことにより、図１４のような最終近似領域が得られる。
この最終近似領域の確定にあたっては、データ領域内の
学習領域数Ｎａが対応する中間近似領域内の領域数Ｎに
対して著しく小さい場合（例えば、個数Ｎａが１の場
合）、この中間近似領域を無視して、最終近似領域を確
定する。

【０１０６】これにより、図１４の例では、近似領域内
に学習領域Ｅａが１個の領域を削除して、最終近似領域
を確定している。データ領域６は、３つの最終近似領域
で近似されている。

【０１０７】全ての中間近似領域について分割が終了し
て最終近似領域が確定した後、コンピュータは、最終近
似領域をよりユーザに提示しやすくするために、最終近
似領域の合成を行う（ステップ４０４）。すなわち、コ
ンピュータは、１変量の方向については互いに隣接する
学習領域Ｅａを持たず、残りの全ての変量については互
いに隣接する学習領域Ｅａを有する最終近似領域同士を
合成する。

【０１０８】図１５に、データ領域６を近似した３つの
最終近似領域を１つに合成した結果を示す。３つの最終
近似領域は、変量ｘ２の方向について隣接する学習領域
Ｅａを有し、変量ｘ１の方向については隣接する学習領
域Ｅａを持たないので、近似領域の合成が行われる。

【０１０９】コンピュータは、以上のようなステップ４
０１〜４０４の処理を各データ領域ごとに行う（ステッ
プ４０５）。図１６は図１０に示す各データ領域に対し
て近似処理を行った結果を示す図である。図１６におい
て、例えば近似領域２−１は、近似対象がデータ領域２
（ラベル番号が２）で、その１番目の最終近似領域であ
ることを示している。

【０１１０】なお、以上のような近似処理において、初
期近似領域の近似対象となるデータ領域内の学習領域Ｅ
ａが始めから１個の場合は、この学習領域Ｅａを最終近
似領域として確定する。図１０の例では、データ領域４
がこの場合に相当する。また、本実施の形態では、１つ
のクラスについて説明したが、クラスが複数ある場合に
は、クラスごとに近似処理を行うことになる。

【０１１１】次に、コンピュータは、ユーザに対して近
似領域を提示する（ステップ１０４）。この近似領域の
提示処理は、文字や棒グラフを利用して、ステップ１０
３で得た近似領域をディスプレイ装置の画面に表示した
り、印刷したりすることによって行う。以下、図１６の
近似領域を提示する場合を例にとって説明する。

【０１１２】図１０におけるデータ領域６の場合、近似
処理で得た近似領域６−１は、ｘ１＝｛１８，２９｝、
ｘ２＝｛２１，２４｝の範囲に存在する。ここで、ｘ＝
｛ａ，ｂ｝とは、その近似領域の変量ｘ成分座標の最小
値がａ、最大値がｂという意味である。

【０１１３】これを基にして、例えば図１７のような棒
グラフを利用したユーザへの近似領域の提示が可能とな
る。図１７では、データ領域６を近似した近似領域６−
１が存在する範囲を変量ｘ１，ｘ２ごとに示している。
図１７における斜線部が近似領域６−１の存在する範囲
である。他の近似領域についても、同様にして棒グラフ
で提示することが可能である。また、各近似領域を表１
のように文字で提示してもよい。

【０１１４】

【表１】

【０１１５】表１は各近似領域が存在する範囲を変量ｘ
１，ｘ２ごとに記したものである。図１７、表１は、１
つのクラス（例えば、正常データが属するクラス）につ
いて近似領域を提示したものであるが、クラスが複数あ
る場合には、クラスごとに棒グラフや表を用いて近似領
域を提示することが可能である。

【０１１６】例えば、特徴空間内にクラスＡ，Ｂ，Ｃと
いう３つのクラスに属するデータが存在する場合、図１
８のような棒グラフを利用したユーザへの近似領域の提
示が可能である。クラスＡに属するデータは、近似領域
Ａ１，Ａ２，Ａ３という３つの領域に分かれて存在し、
クラスＢに属するデータは、近似領域Ｂ１内のみに存在
し、クラスＣに属するデータは、近似領域Ｃ１，Ｃ２，
Ｃ３，Ｃ４という４つの領域に分かれて存在している。

【０１１７】図１８（ａ）に示したクラスＡの近似領域
Ａ１，Ａ２，Ａ３を文字で提示する場合を表２に示す。

【０１１８】

【表２】

【０１１９】表２において、例えば近似領域番号がＡ１
−２の近似領域は、近似対象がデータ領域１（ラベル番
号が１）で、その２番目の最終近似領域であることを示
している。近似領域Ａ１は、３つの最終近似領域Ａ１−
１，Ａ１−２，Ａ１−３を合成したものであり、近似領
域Ａ２は、１つの最終近似領域Ａ２−１からなり、近似
領域Ａ３は、５つの最終近似領域Ａ３−１，Ａ３−２，
Ａ３−３，Ａ３−４，Ａ３−５を合成したものである。

【０１２０】図１８（ｂ）に示したクラスＢの近似領域
Ｂ１を文字で提示する場合を表３に示す。

【０１２１】

【表３】

【０１２２】近似領域Ｂ１は、２つの最終近似領域Ｂ１
−１，Ｂ１−２を合成したものである。図１８（ｃ）に
示したクラスＣの近似領域Ｃ１，Ｃ２，Ｃ３，Ｃ４を文
字で提示する場合を表４に示す。

【０１２３】

【表４】

【０１２４】近似領域Ｃ１は、１つの最終近似領域Ｃ１
−１からなり、近似領域Ｃ２は、４つの最終近似領域Ｃ
２−１，Ｃ２−２，Ｃ２−３，Ｃ２−４を合成したもの
であり、近似領域Ｃ３は、２つの最終近似領域Ｃ３−
１，Ｃ３−２を合成したものであり、近似領域Ｃ４は、
１つの最終近似領域Ｃ４−１からなるものである。

【０１２５】なお、図１８では、最終近似領域をステッ
プ４０４の処理で合成した上で、合成した近似領域を棒
グラフで図示しているが、合成する前の最終近似領域ご
とに棒グラフで提示してもよく、合成する前の各最終近
似領域を同一の棒グラフ上で異なる色で提示してもよ
い。

【０１２６】また、本発明におけるデータ領域の表現方
法は、表１のような情報を利用した方法であればよく、
以上の方法に限定するものではない。つまり、複雑な形
状のデータ領域１などは、表１のような近似領域１の座
標ベクトルからデータ領域の境界を代表する点を得るこ
とができるので、座標ベクトルを簡単に、ｘ１＝｛６，
１９｝、ｘ２＝｛２，１３｝として表示することも可能
である。

【０１２７】以上のようなデータ領域の表現方法を用い
れば、２次元以上の多変量（多次元）、かつ多量データ
の場合も領域の表現が可能である。また、図１６、表１
に示したように、表現するデータ領域の複雑さに応じ
て、近似領域も複雑となる（数が多くなる）ため、対象
の複雑さを把握することが可能となる。つまり、提示さ
れた近似領域の情報を調べることで、より簡単な類別モ
デル形状となるような特徴空間を見つけることが可能と
なり、識別精度の向上が期待できる。

【０１２８】さらに、特徴空間内の近似領域が存在する
範囲を座標で把握できるため、近似領域の大きさ（面積
や体積等）を計算することができる。これにより、大き
さの小さい近似領域はノイズであると判断して、該当す
るデータを削除することができ、不適切な類別モデル生
成を防ぐことが可能となる。

【０１２９】また、図１６などのような情報と棒グラフ
とを併用することで、より分かりやすいデータ領域の表
現が可能となる。例えば、図２５のような単純な低次元
グラフへの射影だけでは、領域が重なってしまい、実際
のデータ領域が表現できない。これに対して、本発明で
は、棒グラフや表１のような情報を併用することで、た
とえ射影後の領域が重なっていても、実際は離れている
ことが把握できているため、それに応じたグラフ描画
（例えば、お互いの領域間の距離，視点からの距離，領
域が上にあるか下にあるか等に応じて領域の色を変える
など）が可能となり、より分かりやすい領域表現の実現
が期待できる。

【０１３０】さらに、本発明を適用することで、データ
について、領域ごとにラベル付けされているため、上記
文字提示に加え、他の画像処理手法を多次元に拡張して
適用することができ、より詳細な領域の形状解析（領域
内の空洞の有無の把握、包含関係の把握など）が可能と
なる。

【０１３１】この場合、以下のような手順により、空洞
の有無、包含関係の把握が可能である。（Ａ）周囲に学習されていない分割領域がある場合に
は、この領域は境界線であるとして抽出する。（Ｂ）境界線が同一領域に２本以上ある場合には、その
領域内に空洞があると判断する。（Ｃ）境界線が同一領域に２本以上あり、そのうち、す
べての変量において、境界の値が小さいほうの境界線を
内側境界線と判断する。（Ｄ）すべての変量において、上記内側境界線よりも、
他の領域の外側境界線のほうが小さい場合には、他の領
域が注目している領域に包含されていると判断できる。

【０１３２】なお、本発明のデータ領域の解析方法及び
表現方法は、以下の状況類別方法において、特徴空間内
のデータ領域を把握したり、データ領域の把握のために
データ領域を表示したり、高精度な類別を行うために最
適な特徴空間（変量）を選定したりするのに使用され
る。

【０１３３】（Ａ）国際公開公報ＷＯ９９／２６１６４
で開示された類別モデル。（Ｂ）判別分析法を用いた状況類別方法。（Ｃ）ニューラルネットワークを用いた状況類別方法。（Ｄ）ＲＣＥネットワークを用いた状況類別方法。

【０１３４】なお、以上のような状況類別方法は、以下
のような分野に適用される。（Ａ）ハンチングなどの計装不具合時の状況把握や、プ
ラントおよび機器の異常状態の検知などの異常診断。（Ｂ）状況に応じて採るべき行動の支援などの意思決
定。（Ｃ）その他一般の類別問題。

【０１３５】

【発明の効果】従来の特徴空間内のデータのばらつき程
度を定量化する手法（Λ統計量）では、線形判別を対象
としており、特徴空間内の同一クラスに属するデータ群
のばらつきの把握が困難であった。しかし、本発明で
は、ｎ種類の変量で定義されるｎ次元の特徴空間内にお
いて１つのクラスに属し、その位置が変量で特定される
ｎ次元データが入力されたとき、各変量のｍ分割により
特徴空間をｍⁿ個の分割領域に分割して、ｎ次元データ
を内包する分割領域をクラスに属する学習領域とし、入
力された個々のデータと分割領域との対応付けを行う学
習領域生成処理と、同一クラスに属する連結した学習領
域群を１つのデータ領域とみなし、同一のデータ領域内
の学習領域に同一のラベルを付与するラベリング処理と
を行うことにより、特徴空間内の同一クラスに属するデ
ータ群のばらつき（データ領域が点在するか否か）の把
握が可能となる。これにより、より適切な特徴空間の選
択（つまり、より適切な変量の選択）が可能となり、類
別精度の向上が期待できる。また、収集されたデータの
類別モデルへの近似がより容易となり、類別モデル生成
時における生成速度を高速化し、メモリ負荷を軽減する
ことができる。これは、適用する類別手法が非線形の場
合、より有効となる。また、データにノイズがある場合
にそれを検知でき、特徴空間内でノイズを削除すること
が可能となる。また、データ領域が複雑であるかどうか
を判断するための情報が提示可能である。これにより、
不適切な類別モデル生成を防ぐことができ、類別モデル
生成時における生成速度を高速化し、メモリ負荷を軽減
することができる。また、本発明により得られる情報を
もとに、詳細なデータ領域形状解析が可能となり、より
分かりやすいデータ領域表現が期待できる。

【０１３６】また、内包するデータの数が１個となる分
割領域が生成される度合いが分割数ｍに対し確率分布に
従うとみなして、統計的有意水準に基づき分割数ｍを決
定して、特徴空間を分割することにより、データ密度に
応じて自動的にデータを学習領域化し、データ領域の表
現が可能となるため、従来のようにクラスタリングを利
用した場合のようなデータのばらつき程度を把握するた
めの試行錯誤的な手順が不要となる。

【０１３７】従来のデータ領域を把握する手段（グラ
フ）では、多変量（多次元）、多量のデータを取り扱う
ことは困難であり、また実際には同一領域ではない領域
を同一領域と見誤る問題があった。しかし、本発明で
は、学習領域生成処理と、ラベリング処理と、同一のラ
ベルが付与されたデータ領域ごとに近似領域を設定し
て、この近似領域を表示する近似処理を行うことによ
り、多次元、多量のデータを取り扱うことができ、正確
にデータ領域把握、データ領域表現が可能である。ま
た、人間が視覚により物体の領域を把握している感覚に
近い近似により、データ領域を大まかに近似して提示し
ているため、データ領域を全て詳細に数値で表現するよ
りも、ユーザが具体的な領域をイメージしやすいという
利点が得られる。

【０１３８】また、同一クラスの同一データ領域を近似
した、分割終了後の近似領域のうち、１変量の方向につ
いては互いに隣接する学習領域を持たず、残りの全ての
変量については互いに隣接する学習領域を有する近似領
域同士を合成して表示することにより、同一データ領域
をまとめて表示することが可能となる。

【０１３９】また、近似領域が存在する範囲を変量ごと
に棒グラフで表すことにより、より分かりやすいデータ
領域表現が可能となる。これにより、多数の要因が複雑
に絡み合うシステムの異常判定問題などにおいても、適
切な特徴空間の選択（適切な変量の選択）が可能とな
り、類別精度の向上が期待できる。

【図面の簡単な説明】

【図１】本発明の実施の形態となるデータ領域の解析
方法及び表現方法を説明するためのフローチャート図で
ある。

【図２】分割数ｍに対する比率Ｆ（ｍ）の特性を示す
図である。

【図３】本発明の実施の形態における学習領域生成処
理を説明するためのフローチャート図である。

【図４】本発明の実施の形態において２次元の特徴空
間内に分布するデータの１例を示す図である。

【図５】図４の特徴空間において２つの変量をそれぞ
れ３２分割した結果を示す図である。

【図６】分割によって生成された領域のうちクラスに
属すると判定された学習領域を示す図である。

【図７】本発明の実施の形態におけるラベリング処理
を説明するためのフローチャート図である。

【図８】注目領域に対するラベル付けの方法を説明す
るための説明図である。

【図９】図６に示す各学習領域に対して初期ラベリン
グ処理を行った結果を示す図である。

【図１０】図９に示す各学習領域に対して再ラベリン
グ処理を行った結果を示す図である。

【図１１】本発明の実施の形態におけるデータ領域の
近似処理を説明するためのフローチャート図である。

【図１２】本発明の実施の形態におけるデータ領域の
近似処理を説明するための説明図である。

【図１３】本発明の実施の形態におけるデータ領域の
近似処理を説明するための説明図である。

【図１４】本発明の実施の形態におけるデータ領域の
近似処理を説明するための説明図である。

【図１５】本発明の実施の形態におけるデータ領域の
近似処理を説明するための説明図である。

【図１６】図１０に示す各データ領域に対して近似処
理を行った結果を示す図である。

【図１７】本発明の実施の形態における近似領域の提
示方法の１例を示す図である。

【図１８】本発明の実施の形態における近似領域の提
示方法の他の例を示す図である。

【図１９】判別分析法を用いた従来の状況類別方法を
説明するための図である。

【図２０】ＲＣＥネットワークを用いた従来の状況類
別方法を説明するための図である。

【図２１】 Λ統計量を利用した従来のデータ領域の解
析方法を説明するための図である。

【図２２】２変量以上の特徴空間内のデータ領域を低
次元グラフに射影したグラフを示す図である。

【図２３】 Λ統計量を利用した従来の状況類別方法の
問題点を説明するための図である。

【図２４】従来の非線形類別方法の問題点を説明する
ための図である。

【図２５】２変量以上の特徴空間内のデータ領域を低
次元グラフに射影した場合の問題点を説明するための図
である。

【符号の説明】

１０１…学習領域生成処理、１０２…ラベリング処理、
１０３…データ領域の近似処理、１０４…近似領域の提
示処理。

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5D015 GG01 GG03 5L096 FA38 FA53 GA34 9A001 BB02 BB03 BB04 EE07 GG05 HH16 HH21 KK32 KK54 KK55

Claims

【特許請求の範囲】

【請求項１】ｎ（ｎは１以上の整数）種類の変量で定
義されるｎ次元の特徴空間内において１つのクラスに属
し、その位置が前記変量で特定されるｎ次元データが入
力されたとき、各変量のｍ（ｍは１以上の整数）分割に
より前記特徴空間をｍⁿ個の分割領域に分割して、前記
ｎ次元データを内包する分割領域を前記クラスに属する
学習領域とし、入力された個々のデータと分割領域との
対応付けを行う学習領域生成処理と、同一クラスに属する連結した学習領域群を１つのデータ
領域とみなし、同一のデータ領域内の前記学習領域に同
一のラベルを付与するラベリング処理とからなることを
特徴とするデータ領域の解析方法。
【請求項２】請求項１記載のデータ領域の解析方法に
おいて、前記特徴空間を分割する処理は、内包するデータの数が
１個となる分割領域が生成される度合いが分割数ｍに対
し確率分布に従うとみなして、統計的有意水準に基づき
分割数ｍを決定する処理からなることを特徴とするデー
タ領域の解析方法。
【請求項３】請求項１記載のデータ領域の解析方法に
おいて、前記ラベリング処理は、前記学習領域生成処理で生成さ
れた学習領域ごとにラベルを付与すると共に、前記学習
領域がとるべき真のラベルを記憶するためのラベル表を
作成する処理からなり、この処理は、１．ラベルの付与対象となる学習領域に対して、隣接す
る学習領域に付与されたラベルに基づく所定の条件によ
ってラベルを付与し、前記ラベル表を更新するステップ
と、２．前記ラベル表に記憶されている真のラベルが通し番
号となるよう前記ラベル表を修正するステップと、３．前記ステップ１で付与されたラベルを前記ラベル表
に基づいて真のラベルに更新するステップとからなるこ
とを特徴とするデータ領域の解析方法。
【請求項４】ｎ種類の変量で定義されるｎ次元の特徴
空間内において１つのクラスに属し、その位置が前記変
量で特定されるｎ次元データが入力されたとき、各変量
のｍ分割により前記特徴空間をｍⁿ個の分割領域に分割
して、前記ｎ次元データを内包する分割領域を前記クラ
スに属する学習領域とし、入力された個々のデータと分
割領域との対応付けを行う学習領域生成処理と、同一クラスに属する連結した学習領域群を１つのデータ
領域とみなし、同一のデータ領域内の前記学習領域に同
一のラベルを付与するラベリング処理と、同一のラベルが付与されたデータ領域ごとに近似領域を
設定して、この近似領域を表示する近似処理とからなる
データ領域の表現方法であって、前記近似処理は、前記データ領域を包含する近似領域を
定義するステップと、近似領域内の前記分割領域の個数をＮ、該近似領域の近
似対象となったデータ領域に含まれる学習領域の個数を
Ｎａとしたとき、Ｎａ／Ｎが所定値以上となるまで前記
近似領域を分割して、分割終了後の近似領域を表示する
ステップとからなることを特徴とするデータ領域の表現
方法。
【請求項５】請求項４記載のデータ領域の表現方法に
おいて、同一クラスの同一データ領域を近似した、前記分割終了
後の近似領域のうち、１変量の方向については互いに隣
接する学習領域を持たず、残りの全ての変量については
互いに隣接する学習領域を有する近似領域同士を合成し
て表示することを特徴とするデータ領域の表現方法。
【請求項６】請求項４又は５記載のデータ領域の表現
方法において、前記近似領域が存在する範囲を変量ごとに棒グラフで表
すことを特徴とするデータ領域の表現方法。