JPH09325969A

JPH09325969A - 非関連属性除去装置及び非関連属性を除去するプログログラムを格納した記憶媒体

Info

Publication number: JPH09325969A
Application number: JP8251797A
Authority: JP
Inventors: Aoshi Okamoto; 青史岡本; Shunji Matsumoto; 俊二松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1996-04-01
Filing date: 1997-04-01
Publication date: 1997-12-16
Anticipated expiration: 2017-04-01
Also published as: JP3884520B2

Abstract

(57)【要約】【課題】カテゴリ分類された２値の属性からなるデータ
を対象に、データの分類や検索に重要でない非関連属性
を適確に且つ効率良く短時間で除去する。【解決手段】２値属性ａ1 〜ａn で表現され、カテゴリ
Ｃ1 〜Ｃm に分類されているデータベース１０につい
て、データ数算出手段２は、データ総数Ｓ、各カテゴリ
Ｃi 毎のデータ数Ｓi 、１又は０の値をとる各属性ａj
毎のデータ数ｔj 、及び各カテゴリＣi に対する１又は
０の値をとる各属性ａj 毎のデータ数ｔijを算出する。
重み算出手段４は、データ数算出手段２の算出結果をも
とに各カテゴリＣi に対する各属性ａj 毎の重みｗijを
算出する。分散算出手段６は、重み算出手段４で算出さ
れた重みｗijをもとに各属性ａj 毎の重みの分散ｖj を
算出する。属性除去手段８は、分散算出手段６で算出さ
れた分散ｖj とユーザ指定の閾値及び又は属性除去数を
もとに非関連な属性を除去する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データの自動分類
や類似データ検索において、分類や検索に重要でない属
性を除去する非関連属性除去装置及び非関連属性を除去
するプログラムを格納した記憶媒体に関する。大規模デ
ータベース化が進むに伴って、データの自動分類や類似
データ検索は非常に重要になっている。例えば、データ
の自動分類は図書の自動分類や特許文書のＩＰＣコード
付与等の分野で有用であり、類似データ検索はインター
ネット等の経由を含むヘルプデスクシステム（マシン対
応の質問応答システム）や一般の設計問題や診断問題に
おいて有用である。

【０００２】これらのデータの自動分類や類似データ検
索において、分類や検索に重要でない非関連属性を除去
することは、データの自動分類や類似データの検索の精
度を高め、データベースの容量の削減、および分類や検
索の高速化のために極めて重要であり、本質的である。
これらのために、分類や検索に重要でない属性を自動的
に除去することが望まれている。

【０００３】

【従来の技術】従来の技術において、カテゴリ分類され
た２値の属性からなるデータに対し、ｎフォール・クロ
ス・バリデーション（n-fole cross-validation ）を用
いて、除去する属性を決定している。ｎフォール・クロ
ス・バリデーションは、データベースに登録されている
データをランダムにｎ個のデータの集合Ｓ1 ，・・・，
Ｓn に分割する。次に、任意のデータの集合Ｓi （ｉ＝
１，・・・，ｎ）をテストデータセットとし、テストデ
ータセットＳi 以外のデータの集合を訓練データセット
として、ユーザ指定の分類手法や検索手法を全てのテス
トデータセットＳi について適用して、その分類精度や
検索精度から非関連属性の除去を行なっている。

【０００４】

【発明が解決しようとする課題】しかしながら、ｎフォ
ール・クロス・バリデーションを用いた従来の非関連属
性の除去にあっては、ランダムなサンプリングに基づく
ため、属性の除去の妥当性はサンプリングの結果に大き
く依存する。また、分割数ｎの値を大きくすると、属性
の除去の妥当性は上がるが、除去する属性の決定にかか
る時間の増大を引き起こす。

【０００５】即ち、データの分割数に対し属性数を掛け
合わせた処理回数を必要とし、除去する属性の決定に時
間がかかる。逆に、分割数ｎの値を小さくすると、除去
する属性の決定にかかる時間は小さいが、属性の除去の
妥当性は低下を引き起こす。このように従来のｎフォー
ル・クロス・バリデーションを用いた従来の非関連属性
の除去にあっては、重要な属性を除去したり、重要でな
い属性を残したりするばかりでなく、妥当な属性の除去
を行なうためには、除去属性の決定に莫大な時間がかか
るといった問題点を生じている。

【０００６】本発明は、これらの問題を解決するため、
カテゴリ分類された２値の属性からなるデータを対象
に、データの自動分類や類似データ検索に重要でない非
関連属性を適確に且つ効率良く短時間で除去できるよう
にした非関連属性除去装置及び非関連属性を除去するプ
ログラムを格納した記憶媒体供することを目的とする。

【０００７】

【課題を解決するための手段】図１は本発明の原理説明
図である。まず本発明の非関連属性除去装置で非関連属
性を除去してユーザの処理手順に従った分類や検索の対
象となるデータベース１０には、１又は０の値をとる２
値属性ａ1 〜ａn （属性数ｎ）で表現され、カテゴリＣ
1 〜Ｃm （カテゴリ数ｍ）に分類されているデータが登
録されている。

【０００８】このようなデータベース１０に対し本発明
の非関連属性除去装置１は、データ数算出手段２、重み
算出手段４、分散算出手段６及び属性除去手段８が設け
られる。更に、属性除去手段８の別の形態として、分類
精度算出手段１１又は検索精度算出手段１２を設けるこ
ともできる。データ数算出手段２は、データベース１０
を参照し、データ総数Ｓ、各カテゴリＣi 毎のデータ数
Ｓi 、１又は０の値をとる各属性ａj 毎のデータ数ｔj
、及び各カテゴリＣi に対する１又は０の値をとる各
属性ａj 毎のデータ数ｔijを算出する。

【０００９】重み算出手段４は、データ数算出手段２の
算出結果をもとに各カテゴリＣi に対する各属性ａj 毎
の重みｗijを算出する。分散算出手段６は、重み算出手
段４で算出された重みｗijをもとに各属性ａj 毎の重み
の分散ｖj を算出する。属性除去手段８は、分散算出手
段６で算出された分散ｖj とユーザ指定情報をもとに非
関連な属性を除去する。属性除去手段８に対するユーザ
情報の指定としては、重みの分散の閾値の指定、除去す
る属性数の指定、及び両者の同時指定がある。

【００１０】ユーザが本発明に詳しく、どれ位の分散の
閾値を指定すると重要でない非関連属性を除去できるか
を知っている場合等には、属性除去手段８に対しユーザ
は所望の閾値を指定する。この場合、属性除去手段８
は、分散算出手段６で算出された各属性毎の重みの分散
ｖj の内、ユーザ指定の閾値以下の属性を除去する。一
方、ユーザが本発明に詳しくない場合には、単純に除去
する最大の属性数を指定すればよい。この場合、属性除
去手段８は、分散算出手段６で算出された各属性ａj 毎
の重みの分散ｖj の内、分散が小さい属性からユーザ指
定の属性数だけ属性を除去する。

【００１１】更に、ユーザが閾値と除去する最大の属性
数の両方を指定したい場合には、属性除去手段８は、分
散算出手段６で算出された各属性ａj 毎の重みの分散ｖ
j の内、ユーザ指定の閾値以下で且つユーザ指定の属性
数を最大数とする属性を除去する。属性除去手段８によ
る非関連属性の除去を更に適確にするためには、例えば
ユーザの分類処理のための非関連属性を除去したい場合
には、分類精度算出手段１１を設け、その算出結果をも
とに非関連属性を除去することが望ましい。

【００１２】属性除去手段８に設けられた分類精度算出
手段１１は、ユーザが閾値を指定している場合、分散算
出手段６で算出された重みの分散ｖj の内、ユーザ指定
の閾値以下の各属性について、分散が小さい属性から順
に、ユーザ指定の分類処理に従って現在処理中の注目属
性を残した場合の分類精度Ａ1 ［％］と除去した場合の
分類精度Ａ2 ［％］を算出する。

【００１３】属性除去手段８は、分類精度算出手段８の
算出結果から、注目属性を残した時の分類精度Ａ1 に対
し注目属性を除去した時の分類精度Ａ2 が上回った場合
に、現在処理中の注目属性を非関連属性として除去す
る。ユーザが属性数を指定した場合についても、分類精
度算出手段１１は、分散算出手段６で算出された重みの
分散ｖj の内、ユーザ指定の属性数だけ分散の小さい順
に取り出した各属性について、分散が小さい属性から順
に、ユーザ指定の分類処理に従って注目属性を残した場
合の分類精度Ａ1 と除去した場合の分類精度Ａ2 を算出
し、属性除去手段８は、注目属性を残した時の分類精度
Ａ1 に対し注目属性を除去した時の分類精度Ａ2 が上回
った場合に、注目属性を除去する。

【００１４】またユーザが閾値と除去数の両方を指定し
た場合には、分類精度算出手段１１は、分散算出手段６
で算出された重みの分散ｖj の内、ユーザ指定の閾値以
下で且つユーザ指定の属性数を最大とする分散の小さい
順に取り出した各属性について、分散が小さい属性から
順に、ユーザ指定の分類処理に従って注目属性を残した
場合の分類精度Ａ1 と除去した場合の分類精度Ａ2 を算
出し、属性除去手段８は、注目属性を残した時の分類精
度Ａ1 に対し注目属性を除去した時の分類精度Ａ2 が上
回った場合に、注目属性を除去する。

【００１５】ユーザの検索処理のための非関連属性の除
去を更に適確にしたい場合には、属性除去手段に検索精
度算出手段１２を設け、その算出結果をもとに非関連属
性を除去することが望ましい。この場合、ユーザの閾値
指定、除去数の指定または両方の指定に対応して、処理
対象となった各属性について、検索精度算出手段１２に
よって、分散が小さい属性から順に、ユーザ指定の検索
処理に従って注目属性を残した場合の検索精度Ｂ1 と除
去した場合の検索精度Ｂ2 を算出する。この算出結果を
基に、属性除去手段８は、注目属性を残した時の検索精
度Ｂ1 に対し注目属性を除去した時の検索精度Ｂ2 が上
回った場合に、この注目属性を非関連属性として除去す
る。

【００１６】このように非関連属性を除去する際に対象
とする属性が、除去する可能性の高い属性の範囲に限定
されることから、分類や類似データ検索に重要でない非
関連属性を適確に且つ効率良く短時間で除去でき、デー
タの自動分類や類似データの検索の精度を高め、データ
ベースの容量の削減、および分類や検索の高速化が達成
できる。

【００１７】また本発明は、分類や検索に重要でない非
関連属性を除去するプログラムを格納した記憶媒体を提
供する。この非関連属性を除去するプログラムを格納し
た記憶媒体は、１又は０の値をとる２値属性ａ1 〜ａn
で表現され、カテゴリＣ1 〜Ｃm に分類されているデー
タが登録されているデータベース１０を参照し、データ
総数Ｓ、各カテゴリ毎のデータ数Ｓi 、１又は０の値を
とる各属性毎のデータ数ｔj 、及び各カテゴリに対する
１又は０の値をとる各属性毎のデータ数ｔijを算出する
データ数算出手段１；データ数算出手段２の算出結果を
もとに各カテゴリに対する各属性毎の重みｗijを算出す
る重み算出手段４；重み算出手段４で算出された重みｗ
ijをもとに各属性毎の重みの分散ｖj を算出する分散算
出手段６；分散算出手段６で算出された分散ｖj とユー
ザ指定情報をもとに非関連な属性を除去する属性除去手
段８；を備えたことを特徴とする。

【００１８】この非関連属性を除去するプログラムを格
納した記憶媒体における詳細は、悲関連属性除去装置の
場合と基本的に同じになる。

【００１９】

【発明の実施の形態】図２は本発明の非関連属性の除去
装置の基本的な実施形態のブロック図である。図２にお
いて、本発明の非関連属性除去装置１は、データ数算出
部２、重み計算部４、分散算出部６及び属性除去部８を
備える。データ数算出部２は算出結果としてデータ数テ
ーブル３を有し、重み計算部４は算出結果として重みテ
ーブル５を有し、分散算出部６は算出結果として分散テ
ーブル７を有する。

【００２０】更に属性除去部８に対しては、ユーザ指定
情報を入力するためのユーザ指定入力部８が設けられて
いる。本発明の非関連属性除去装置１に対しては、デー
タベース１０が設けられる。データベース１０には、カ
テゴリ分離された２値の属性からなるデータが格納され
ている。即ちデータベース１０には、分類カテゴリ数を
ｍとすると、カテゴリＣ1 〜Ｃm に分類されて、１また
は０の値をとる２値の属性例えば属性数ｎとなる属性ａ
1 〜ａn からなるデータが格納されている。非関連属性
除去装置１に設けられたデータ数算出部２は、カテゴリ
分類された２値の属性からなるデータベース１０のデー
タを対象にデータ数テーブル３を作成する。

【００２１】図３はデータ数算出部２で作成されるデー
タ数テーブルを示している。ここでデータベース１０の
データはカテゴリＣ1 〜Ｃm に分類され、１または０の
２値で表わされる属性はａ1 〜ａm に分類されているこ
とから、これらのカテゴリ及び属性をエントリとしてデ
ータ総数Ｓ、各カテゴリＣ1 〜Ｃm ごとのデータ数Ｓ1
〜Ｓm 、１（または０）の値をとる各属性ａ1 〜ａn ご
とのデータ数ｔ１〜ｔn 、及び各カテゴリＣ1 〜Ｃm に
対する１（または０）の値をとる各属性ａ1〜ａn ごと
のデータ数ｔ11〜ｔmnを算出して、図３のようなデータ
数テーブル３を作成する。

【００２２】ここでデータ数テーブル３のカテゴリ数１
〜ｍの一般系をｉで表わし、また属性数１〜ｎの一般系
をｊで表わすと、各カテゴリごとのデータ数はＳi 、各
属性ごとのデータ数はｔj 、各カテゴリに対する各属性
ごとのデータ数はｔijと表現することができる。図４は
図３のデータ数テーブル３の具体例である。このデータ
数テーブル３にあっては、カテゴリがＣ1 〜Ｃ3 の３つ
に分類されており、また属性もａ1 〜ａ3 の３つとなっ
ている場合について、図２のデータ数演算部２でデータ
ベース１０を参照し、一例としてデータ総数Ｓ＝６０、
カテゴリごとのデータ数Ｓ1 ＝１０、Ｓ2 ＝２０、Ｓ3
＝３０、１（または０）の値をとる属性ａ1 〜ａ3 ごと
のデータ数ｔ1 ＝１２、ｔ2 ＝１０、ｔ3 ＝１５、更に
各カテゴリＣ1 〜Ｃ3 に対する１（または０）の値をと
る各属性ａ1 〜ａ3 ごとのデータ数ｔ11＝２，ｔ21＝
４、・・・ｔ33＝５を求めている。

【００２３】図４のデータ数テーブルの具体例にあって
は、属性ａ1 が値１（または０）をとるデータ数は、各
カテゴリＣ1 〜Ｃ3 について２，４，６と平均的に出現
しており、このような属性ａ1 は分類や検索に有用な属
性でない可能性が高い。また属性ａ1 が値１（または
０）をとるデータは、カテゴリＣ1 だけに出現し、カテ
ゴリＣ2 ，Ｃ3 は０となっている。

【００２４】このような属性ａ2 は、分類や検索に非常
に有用な属性である可能性が高い。更に属性ａ3 が値１
（または０）をとるデータは、カテゴリＣ1 〜Ｃ3 に同
じ数５だけ出現している。この場合、カテゴリＣ1 に属
する出現数５を見ると、カテゴリＣに属する全出現数１
０の半分が出現しており、このような属性ａ3 はカテゴ
リＣ1 に対する正しい分類や検索のためには有用である
と考えられる。

【００２５】再び図２を参照するに、重み計算部４はデ
ータ数算出部２によってデータ数テーブル３により設定
されたパラメータに基づき、各カテゴリに対する各属性
の重みを算出し、重みテーブル５を作成する。即ち、重
み計算部４はデータ数テーブル１３に設定されたカテゴ
リ数ｍ、データ総数Ｓ、属性数ｎ、カテゴリＣi （１≦
ｉ＜ｍ）に属するデータ数Ｓi 、属性ａj （１≦ｊ＜
ｎ）が属性値１（または０）をとるデータ数ｔj 、更に
カテゴリＣｉに対し属性ａj が属性値１（または０）を
とるデータ数ｔijを基に、カテゴリＣI に対する属性ａ
j の重みｗijをある自然数ｔを用いて次式により生成
し、重みテーブル５を作成する。

【００２６】

【数１】

【００２７】図５は図２の重み計算部４で作成される重
みテーブル５の説明図であり、カテゴリＣ1 〜Ｃm 及び
属性ａ1 〜ａn をエントリとして、前記（１）式で算出
された重みｗ11〜ｗmnが格納されている。図６は図４の
データ数テーブル３の具体例を対象に、前記（１）式に
より作成された図５の重みテーブル５の具体例である。
図６の重みテーブルの具体例にあっては、属性ａ1 の各
カテゴリＣ1 〜Ｃ3 に対する重みは全て０で同じ値をと
っている。また属性ａ2 のカテゴリＣ1 〜Ｃ3 に対する
重みは５／６，−１／３，−１／２とかなりぱらついた
値をとっている。更に属性ａ3 のカテゴリＣ1 〜Ｃ3 に
対する重みは１／６，０，−１／６と比較的似た値をと
っている。

【００２８】一方、図６の重みテーブル５の具体例につ
いては、カテゴリＣ1 〜Ｃ3 に対する属性ａ1 〜ａ3 の
重みｗ11〜ｗ33は、各カテゴリに対し各属性がどの程度
重要であるかを数量的に表わしている。例えば属性ａ1
はカテゴリＣ1 〜Ｃ3 のいずれについても同程度の重要
度であり、また属性ａ2 はカテゴリＣ1 の重要度が高
く、カテゴリＣ2 ，Ｃ3 の順に重要度が低いことが分か
る。更に属性ａ3 については、カテゴリＣ1 ，Ｃ2 ，Ｃ
3 の順に重要度をもつことが分かる。

【００２９】再び図２を参照するに、非関連属性除去装
置１に設けられた分散算出部６は、重みテーブル５で設
定されたカテゴリＣi に対する属性ａj の重みｗijを用
いて、属性ａj の重みｗijの平均ｗij−を算出し、更に
カテゴリ数ｍ、属性数ｎ、カテゴリＣi に対する属性ａ
j の重みｗijおよびその平均ｗij−を用いて、属性ａj
の重みに対する分散ｖj を次式により算出し、分散テー
ブル７を生成する。

【００３０】

【数２】

【００３１】図７は図２の分散算出部６で生成された分
散テーブル７の説明図であり、（２）式により属性ａ1
〜ａn の各々について算出された分散ｖ１〜ｖn が格納
されている。図８は図７の分散テーブル７の具体例であ
り、図４のデータ数テーブル３及び図６の重みテーブル
５の具体例に基づき、前記（２）式から求めた分散を格
納している。この場合、属性ａに対する分散ｖ１は０と
いう非常に小さい値をとっている。また属性ａ2 に対す
る分散ｖ２は１９／５４という非常に大きな値をとって
いる。更に属性ａ3 に対する分散ｖ３は１／５４という
割に大きな値をとっている。このように各属性の重みの
分散を計算することで、その属性が分類や検索にどの程
度重要であるかを数量的に把握することができる。

【００３２】再び図２を参照するに、属性除去部８は分
散テーブル７の設定内容とユーザ指定入力部９からのユ
ーザ指定情報とに基づき、重要でない非関連属性を認識
してこれを除去する。ユーザ指定情報としては、重みの
分散の閾値、属性除去数があり、閾値のみの指定、除去
数のみの指定、閾値と除去数の両方の指定のいずれかを
行うことができる。

【００３３】即ち、ユーザ指定入力部９によってユーザ
が分散の閾値を指定した場合には、属性除去部８は分散
テーブル７を参照し、指定された閾値以下の分散をもつ
属性を非関連属性として除去する。このユーザが閾値を
指定する場合は、本発明による非関連属性除去装置を詳
しく知っている場合である。これに対し、ユーザが本発
明の装置に詳しくない場合や、一定数の属性を除去した
い場合などには、ユーザ指定入力部９によって任意の除
去する属性数を指定してもらう。このような除去する属
性数の指定に対し、属性除去部８は分散テーブル７を参
照し、分散の小さい属性からユーザ指定の属性数分だけ
属性を除去する。

【００３４】更にユーザ指定入力部９によってユーザが
閾値と属性数の両方を指定した場合には、属性除去部８
は分散テーブル７の中から分散の小さい順にユーザ指定
の最大属性数分だけの属性を取り出し、取り出した属性
の中で分散がユーザ指定の閾値以下の属性を除去する。
図８の分散テーブル７の具体例について属性除去を説明
すると、例えば次のようになる。今、ユーザが閾値１／
１００を指定したとすると、図８の分散０となる属性ａ
1 のみが除去される。またユーザが除去する属性数を２
と指定した場合、分散の小さい順番に属性ａ1 ，ａ2 が
除去される。

【００３５】更にユーザが閾値を１／１００、除去する
属性数２を指定した場合、属性ａ1だけが除去される。
このように、ユーザ指定情報に従って迅速且つ確実に重
要でない非関連情報を除去することができる。図９は図
２の非関連属性除去装置１における処理を示したフロー
チャートである。まずステップＳ１で、データ数算出部
２がデータベース１０を参照し、カテゴリ数ｍ、属性数
ｎ、データ総数Ｓ、カテゴリＣi ごとのデータ数ｔi 、
属性ａj ごとの１（または０）をとるデータ数ｔj 、更
にカテゴリＣj の各々に対する属性ａj ごとのデータ数
ｉｊを算出し、データ数テーブル３を作成する。

【００３６】次に重み算出処理部４がデータ数テーブル
３のパラメータに基づき、前記（１）式に従ってカテゴ
リＣi の各々に対する属性ａj ごとの重みｗijを参照し
て重みテーブル５を作成する。次に分散処理部６が、前
記（２）式に従って属性ａj の各々の重みに対する分散
ｖj を算出して分散テーブル７を作成する。最終的にス
テップＳ４で、属性除去部８がユーザ指定情報である分
散閾値及び除去数に基づいた属性の除去を行う。

【００３７】ステップＳ４の属性除去処理の詳細は、図
１０にサブルーチンとして示される。属性除去部８はス
テップＳ１でユーザによる閾値ＴＨの指定の有無をチェ
ックし、指定があれば、ステップＳ２で属性除去数Ｎの
指定の有無をチェックする。属性除去数Ｎの指定がなけ
ればステップＳ４に進み、分散テーブル７を参照し、閾
値ＴＨ以下の分散をもつ属性を全て除去する。

【００３８】一方、ステップＳ４でユーザが閾値ＴＨの
指定を行っていない場合には、ステップＳ３に進み、除
去数Ｎの指定をチェックする。除去数Ｎの指定がある
と、ステップＳ５で分散テーブル７の指定数Ｎ分の属性
を分散の小さい順に除去する。更にステップＳ１でユー
ザの閾値ＴＨの指定が判別され、且つステップＳ２で属
性除去数Ｎの指定が判別された場合には、ステップＳ６
に進み、閾値ＴＨ以下の分散をもつ属性を小さい順に最
大Ｎ個まで除去する。

【００３９】図１１は本発明の他の実施形態であり、デ
ータベース１０を対象にユーザの分類システムで使用さ
れる非関連属性の除去を最適化するため、属性除去部８
に分類精度算出部１１を新たに設けたことを特徴とす
る。それ以外の構成は図２の実施形態と同じである。属
性除去部８に設けた分類精度算出部１１は、ユーザデー
タ入力部９による閾値及びまたは属性除去数の指定に基
づき、分散テーブル７から取り出された属性を対象に、
分散の小さい属性から順に、現在処理対象となっている
データの集合Ｕをテストデータとする。そしてテストデ
ータＵを用いて任意のユーザ指定の分類手順に従って、
現在処理中の参照属性を除去した場合の分類精度Ａ1
［％］を算出すると共に、現在処理中の参照属性を残し
た場合の分類精度Ａ2 ［％］を算出する。

【００４０】属性除去部８は、分類精度算出部１１によ
る属性を除去した場合と残した場合の分類精度の算出結
果Ａ1 ，Ａ2 を比較し、属性を除去した場合に分類精度
が上がった場合には不必要な属性であることから、この
属性を除去する。属性を除去した場合に分類精度が下が
った場合には必要な属性であることから、この属性は残
す。

【００４１】このように分類精度算出部１１により属性
を除去した場合と残した場合の分類精度を算出して、除
去する属性が本当に分類に必要であるか否かを適確に判
断することで、分類に必要でない重要な属性を確実に効
率良く除去することができる。図１２は、図１１の属性
除去部８における属性除去処理のユーザ指定に対応した
フローチャートである。

【００４２】図１２において、ユーザが分散の閾値ＴＨ
を指定していた場合には、ステップＳ１，Ｓ２からステ
ップＳ４に進み、分散テーブル７から指定された閾値Ｔ
Ｈ以下の分散をもつ属性ａp （ｐ＝１，２，・・・Ｎ）
を取り出し、ステップＳ７に進み、分類精度算出部１１
の算出結果に基づいた属性除去処理を行う。またユーザ
が属性除去数Ｎのみを指定した場合には、ステップＳ１
からステップＳ３に進んで除去数Ｎの指定が判別され、
ステップＳ５において、分類テーブル７から小さい順に
指定数Ｎ分の属性ａp を取り出し、ステップＳ７で、分
類精度算出部１１の算出結果に基づいた属性除去処理を
行う。

【００４３】更にユーザが閾値ＴＨ及び除去数Ｎの両方
を指定した場合には、ステップＳ１，Ｓ２からステップ
Ｓ６に進み、分散テーブル７から閾値ＴＨ以下の分散を
もつ指定数Ｎ分の属性ａp を小さい順に取り出し、同様
にステップＳ７に進んで、分類精度算出部１１の算出結
果に基づいた属性除去処理を行う。図１３は、図１２の
ステップＳ７で行う分類精度算出結果に基づいた属性除
去処理の詳細をサブルーチンとして示している。

【００４４】図１３において、まずステップＳ１で、分
散テーブル７からユーザ指定情報に基づいて取り出され
た複数の属性ａp の中の最も分散が小さい最小分散ｖmi
n の属性ａp が値１（または０）をとるデータをデータ
ベース１０から取り出して、テストデータＵとする。続
いてステップＳ２で、テストデータＵについて、現在処
理対象となっている最小分散ｖmin の属性ａp を残し
て、ユーザ指定の分類手順に従って分類を行って分類精
度Ａ1 ［％］を算出する。次にステップＳ３で、同じテ
ストデータＵを対象に、現在処理対象となっている注目
属性ａp を除去してユーザ指定の分類手順で分類したと
きの分類精度ａ2 ［％］を算出する。

【００４５】続いてステップＳ４で、属性ａp を残した
ときの分類精度Ａ1 と除去したときの分類精度Ａ2 を比
較し、もし除去したときの分類精度Ａ2 が残したときの
分類精度Ａ1 以上であれば、この属性ａp は分類に必要
のない属性であることから、ステップＳ５で属性ａp を
除去する。これに対し属性ａp を除去したときの分類精
度Ａ2 が残したときの分類精度Ａ1 を下回ったら、属性
ａp は分類に必要な属性であることから、ステップＳ６
に進み、属性ａp を残す。

【００４６】以上の分類精度に基づいた属性除去の判定
処理が済んだならば、ステップＳ７で、処理対象となっ
ている全ての属性ａp の処理が終了したか否かチェック
し、終了していなければステップＳ８で、もし属性除去
が行われていれば処理済み属性を除外してステップＳ１
に戻り、現在残っている最小分散ｖmin の属性ａp を対
象に同様な処理を繰り返す。

【００４７】図１３の分類精度に基づいた属性除去処理
にあっては、ステップＳ５である属性ａp を除去した場
合には、既に処理済みの属性に再度戻って検証を行うリ
ターンバック検証が行われる。図１４は図１３における
リターンバック検証の説明図である。ここで図１４は、
カテゴリＣ1 〜Ｃm について除去処理の対象とする３つ
の属性ａ1 〜ａ3 が取り出された場合の処理である。ま
た属性ａ1 〜ａ3 の小さい方からの順番は、ａ1 ，ａ2
，ａ3 となっている。

【００４８】図１４（Ａ）は、最初に行われる分散が最
も小さい属性ａ1 の検証であり、属性ａ1 が１（または
０）となるデータをテストデータとしてカテゴリＣ1 〜
Ｃmのそれぞれについてブロック１３に示す分類を行
い、分類精度Ａ1 が得られたとする。次に、現在処理対
象となっている属性ａ1 を除いた属性ａ2 ，ａ3 につい
て、同じくカテゴリＣ1 〜Ｃm についてブロック１４で
テストデータに対する分類を行い、分類精度Ａ2 を求め
る。

【００４９】このようなブロック１３，ブロック１４に
おける属性ａ1 を残した場合と属性ａ1 を除去した場合
の分類精度Ａ1 ，Ａ2 は、ブロック１５で比較され、こ
の場合、属性ａ1 を除去した場合の分類精度Ａ2 が残し
ていた場合の分類精度Ａ1 より小さくなることから、ブ
ロック１６のように属性ａ1 を残す。図１４（Ｂ）は、
次に分散の小さい属性ａ2 の検証であり、属性ａ2 の値
が１（または０）となるデータベースのテストデータを
対象に、ブロック１７で属性ａ2 を残した場合の分類に
よる分類精度Ａ1 を求める。続いてブロック１８で、属
性ａ2 を除いた分類の分類精度Ａ2 を求める。

【００５０】この分類精度Ａ1 ，Ａ2 のブロック１９に
おける比較処理において、属性ａ2を除去したときの分
類精度Ａ2 が残したときの分類精度Ａ1 以上となった場
合には、属性ａ2 は不必要な属性であることから、ブロ
ック２０で属性ａ2 を除去する。図１４（Ｃ）は、図１
４（Ｂ）で属性ａ2 を除去した後のリターンバック検証
であり、この場合、再び最初の属性ａ1 に戻った属性除
去処理を行う。即ちブロック２１のように、現在残って
いる属性ａ1 ，ａ3 について、属性ａ1 の値が１（また
は０）となるデータベースのテストデータを対象に、ブ
ロック２１のように属性ａ1 を残したときの分類精度Ａ
1 と、ブロック２２のように属性ａ1 を除去したときの
分類精度Ａ2 を求める。

【００５１】この分類精度の検出結果をブロック２３で
比較した場合、属性ａ1 を除去した場合の分類精度Ａ2
が残したときの分類精度Ａ1 以上であった場合、属性ａ
1 がこのリターンバック検証において初めて不必要な属
性であることが分かり、ブロック２４で属性ａ1 を除去
する。図１５は本発明の他の実施形態であり、ユーザの
検索処理のための非関連属性の除去を更に適確にするた
め、属性除去部８に検索精度算出部１２を設け、検索精
度算出部１２の算出結果に基づいて属性除去を行うよう
にしたことを特徴とする。それ以外の構成は図２の実施
形態と同じである。

【００５２】検索精度算出部１２は、ユーザ指定の検索
システムをユーザ指定に従ったテストデータに適用し
て、対象となっている参照属性を残した場合と除去した
場合の検索精度を算出する以外は、図１１の分類精度算
出部１１と基本的に同じになる。図１６のフローチャー
トは、検索精度算出部１２を備えた図１５の属性除去部
８の属性除去処理である。属性除去処理におけるステッ
プＳ１〜Ｓ６の処理は、ユーザ指定入力部９からの閾値
及びまたは除去数の指定に基づいた分散テーブル７から
の処理対象属性の取出処理であり、図１２の分類精度に
基づいた属性除去の場合と同じである。このステップＳ
４，Ｓ５またはＳ６における分散テーブル７からの処理
対象とする属性ａp の取出後に、ステップＳ７の検索精
度に基づいた属性除去を行う。

【００５３】図１７は、図６のステップＳ７の検索精度
に基づいた属性除去処理の詳細である。図１７のフロー
チャートにあっては、ステップＳ２で、現在処理対象と
なっている属性ａp を残した場合の検索精度Ｂ1 を算出
し、ステップＳ３で、現在処理対象となっている参照属
性ａp を除去した場合の検索精度Ｂ2 を算出し、ステッ
プＳ４で両者を比較する。属性ａp を除去した場合の検
索精度Ｂ2 が残した場合の検索精度Ｂ1 より大きけれ
ば、属性ａp を除去する。属性ａp を除去した場合の検
索精度Ｂ2 が残した場合の検索精度Ｂ1 より小さけれ
ば、属性ａp は必要な属性であることからステップＳ６
で残す。

【００５４】このような処理をステップＳ７で、取り出
された全ての属性の処理が終了するまで繰り返す。また
ステップＳ５で属性ａp を除去した場合のリターンバッ
ク検証については、図１４の分類精度を算出する場合と
同じである。尚、本発明の非関連属性除去装置は、計算
機システムによるプログラム制御で通常実現される。ま
たデータベースの検索システムにおける非関連属性除去
のためのアプリケーションとして適用される場合もあ
る。また本発明は実施形態に示した数値による限定は受
けないことは勿論である。

【００５５】

【発明の効果】以上説明してきたように本発明によれ
ば、非関連属性を除去する際に対象とする属性が、除去
する可能性の高い属性の範囲に限定されることから、分
類や類似データ検索等に重要でない非関連属性を適確に
判断して効率良く短時間で除去することができ、データ
の自動分類や類似データの検索精度を高め、データベー
スの容量削減及び分類や検索の高速化を達成することが
できる。

【００５６】またユーザによって閾値や除去数等を指定
させることによって、自由に重要でない非関連属性の除
去処理の範囲を決めることができる。即ち、本発明に詳
しい場合や知識がある場合は閾値の設定、本発明に詳し
くない場合や必要な数を除去したい場合には属性除去数
の指定を行うことで、ユーザの希望に応じて最適な非関
連属性の除去処理を適確且つ迅速に行うことができる。

【００５７】更に、ユーザの分類システムや検索システ
ムに適合した非関連属性の除去を最適化するため、ユー
ザの分類システムや検索システムを使用した除去対象と
する非関連属性ごとの属性を残した場合と除去した場合
との分類精度の結果に基づいて非関連属性を除去するこ
とで、重要でない非関連属性を適確に判断して迅速に除
去することができる。

【図面の簡単な説明】

【図１】本発明の原理説明図

【図２】本発明の実施形態のブロック図

【図３】図２のデータ数テーブルの説明図

【図４】図２のデータ数テーブルの具体例の説明図

【図５】図２の重みテーブルの説明図

【図６】図２の重みテーブルの具体例の説明図

【図７】図２の分散テーブルの説明図

【図８】図２の分散テーブルの具体例の説明図

【図９】図２の非関連属性除去処理のフローチャート

【図１０】ユーザ指定に応じた図９の属性除去処理の詳
細を示したフローチャート

【図１１】属性除去を分類精度を基に行う本発明の他の
実施形態のブロック図

【図１２】ユーザ指定に応じた図１１の属性除去処理の
フローチャート

【図１３】図１２の分類精度に基づいた属性除去処理の
フローチャート

【図１４】図１３の属性除去処理におけるリターンバッ
ク検証の説明図

【図１５】属性除去を分類精度を基に行う本発明の他の
実施形態のブロック図

【図１６】ユーザ指定に応じた図１５の属性除去処理の
フローチャート

【図１７】図１６の分類精度に基づいた属性除去処理の
フローチャート

【符号の説明】

１：非関連属性除去装置２：データ数算出部（データ数算出手段）３：データ数テーブル４：重み計算部（重み計算手段）５：重みテーブル６：分散算出手段７：分散テーブル８：属性除去部（属性除去手段）９：ユーザ指定入力部１０：データベース１１：分類精度算出部（分類精度算出手段）１２：検索精度算出部（検索精度算出手段）

Claims

【特許請求の範囲】

【請求項１】分類や検索に重要でない非関連属性を除去
する非関連属性除去装置に於いて、１又は０の値をとる２値属性ａ1 〜ａn で表現され、カ
テゴリＣ1 〜Ｃm に分類されているデータが登録されて
いるデータベースと、前記データベースを参照し、データ総数Ｓ、各カテゴリ
毎のデータ数Ｓi 、１又は０の値をとる各属性毎のデー
タ数ｔj 、及び各カテゴリに対する１又は０の値をとる
各属性毎のデータ数ｔijを算出するデータ数算出手段
と、前記データ数算出手段の算出結果をもとに各カテゴリに
対する各属性毎の重みｗijを算出する重み算出手段と、前記重み算出手段で算出された重みｗijをもとに各属性
毎の重みの分散ｖj を算出する分散算出手段と、前記分散算出手段で算出された分散ｖj とユーザ指定情
報をもとに非関連な属性を除去する属性除去手段と、を
備えたことを特徴とする非関連属性除去装置。
【請求項２】請求項１記載の非関連属性除去装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た各属性毎の重みの分散ｖj の内、ユーザ指定の閾値以
下の属性を除去することを特徴とする非関連属性除去装
置。
【請求項３】請求項１記載の非関連属性除去装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た各属性毎の重みの分散ｖj の内、分散が小さい属性か
らユーザ指定の属性数だけ属性を除去することを特徴と
する非関連属性除去装置。
【請求項４】請求項１記載の非関連属性除去装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た各属性毎の重みの分散ｖj の内、ユーザ指定の閾値以
下で且つユーザ指定の属性数を最大数とする属性を除去
することを特徴とする非関連属性除去装置。
【請求項５】請求項１記載の非関連属性除装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た重みの分散の内、ユーザ指定の閾値以下の各属性につ
いて、分散が小さい属性から順に、ユーザ指定の分類処
理に従って現在処理中の注目属性を残した場合の分類精
度Ａ1 と除去した場合の分類精度Ａ2 を算出する分類精
度算出手段を備え、注目属性を残した時の分類精度Ａ1
に対し注目属性を除去した時の分類精度Ａ2 が上回った
場合に、該注目属性を除去することを特徴とする非関連
属性除去装置。
【請求項６】請求項１記載の非関連属性除装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た重みの分散の内、ユーザ指定の属性数だけ分散の小さ
い順に取り出した各属性について、分散が小さい属性か
ら順に、ユーザ指定の分類処理に従って現在処理中の注
目属性を残した場合の分類精度Ａ1 と除去した場合の分
類精度Ａ2 を算出する分類精度算出手段を備え、注目属
性を残した時の分類精度Ａ1 に対し注目属性を除去した
時の分類精度Ａ2 が上回った場合に、該注目属性を除去
することを特徴とする非関連属性除去装置。
【請求項７】請求項１記載の非関連属性除装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た重みの分散の内、ユーザ指定の閾値以下で且つユーザ
指定の属性数を最大とする分散の小さい順に取り出した
各属性について、分散が小さい属性から順に、ユーザ指
定の分類処理に従って現在処理中の注目属性を残した場
合の分類精度Ａ1 と除去した場合の分類精度Ａ2 を算出
する分類精度算出手段を備え、注目属性を残した時の分
類精度Ａ1 に対し注目属性を除去した時の分類精度Ａ2
が上回った場合に、該注目属性を除去することを特徴と
する非関連属性除去装置。
【請求項８】請求項１記載の非関連属性除装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た重みの分散の内、ユーザ指定の閾値以下の各属性につ
いて、分散が小さい属性から順に、ユーザ指定の検索処
理に従って現在処理中の注目属性を残した場合の検索精
度Ｂ1 と除去した場合の検索精度Ｂ2 を算出する検索精
度算出手段を備え、注目属性を残した時の検索精度Ｂ1
に対し注目属性を除去した時の検索精度Ｂ2 が上回った
場合に、該注目属性を除去することを特徴とする非関連
属性除去装置。
【請求項９】請求項１記載の非関連属性除装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た重みの分散の内、ユーザ指定の属性数だけ分散の小さ
い順に取り出した各属性について、分散が小さい属性か
ら順に、ユーザ指定の検索処理に従って現在処理中の注
目属性を残した場合の検索精度Ｂ1 と除去した場合の検
索精度Ｂ2 を算出する検索精度算出手段を備え、注目属
性を残した時の検索精度Ｂ1 に対し注目属性を除去した
時の検索精度Ｂ2 が上回った場合に、該注目属性を除去
することを特徴とする非関連属性除去装置。
【請求項１０】請求項１記載の非関連属性除装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た重みの分散の内、ユーザ指定の閾値以下で且つユーザ
指定の属性数を最大とする分散の小さい順に取り出した
各属性について、分散が小さい属性から順に、ユーザ指
定の検索処理に従って現在処理中の注目属性を残した場
合の検索精度Ｂ1 と除去した場合の検索精度Ｂ2 を算出
する検索精度算出手段を備え、注目属性を残した時の検
索精度Ｂ1 に対し注目属性を除去した時の検索精度Ｂ2
が上回った場合に、該注目属性を除去することを特徴と
する非関連属性除去装置。
【請求項１１】分類や検索に重要でない非関連属性を除
去するプログラムを格納した記憶媒体に於いて、１又は０の値をとる２値属性ａ1 〜ａn で表現され、カ
テゴリＣ1 〜Ｃm に分類されているデータが登録されて
いるデータベースを参照し、データ総数Ｓ、各カテゴリ
毎のデータ数Ｓi 、１又は０の値をとる各属性毎のデー
タ数ｔj 、及び各カテゴリに対する１又は０の値をとる
各属性毎のデータ数ｔijを算出するデータ数算出手段
と、前記データ数算出手段の算出結果をもとに各カテゴリに
対する各属性毎の重みｗijを算出する重み算出手段と、前記重み算出手段で算出された重みｗijをもとに各属性
毎の重みの分散ｖj を算出する分散算出手段と、前記分散算出手段で算出された分散ｖj とユーザ指定情
報をもとに非関連な属性を除去する属性除去手段と、を
備えたことを特徴とする非関連属性を除去するプログラ
ムを格納した記憶媒体非関連属性除去装置。
【請求項１２】請求項１１記載の非関連属性を除去する
プログラムを格納した記憶媒体に於いて、前記属性除去
手段は、前記分散算出手段で算出された各属性毎の重み
の分散ｖj の内、ユーザ指定の閾値以下の属性を除去す
ることを特徴とする非関連属性を除去するプログラムを
格納した記憶媒体。
【請求項１３】請求項１１記載の非関連属性を除去する
プログラムを格納した記憶媒体に於いて、前記属性除去
手段は、前記分散算出手段で算出された各属性毎の重み
の分散ｖj の内、分散が小さい属性からユーザ指定の属
性数だけ属性を除去することを特徴とする非関連属性を
除去するプログラムを格納した記憶媒体。
【請求項１４】請求項１１記載の非関連属性を除去する
プログラムを格納した記憶媒体に於いて、前記属性除去
手段は、前記分散算出手段で算出された各属性毎の重み
の分散ｖj の内、ユーザ指定の閾値以下で且つユーザ指
定の属性数を最大数とする属性を除去することを特徴と
する非関連属性を除去するプログラムを格納した記憶媒
体。
【請求項１５】請求項１１記載の非関連属性を除去する
プログラムを格納した記憶媒体に於いて、前記属性除去
手段は、前記分散算出手段で算出された重みの分散の
内、ユーザ指定の閾値以下の各属性について、分散が小
さい属性から順に、ユーザ指定の分類処理に従って現在
処理中の注目属性を残した場合の分類精度Ａ1 と除去し
た場合の分類精度Ａ2 を算出する分類精度算出手段を備
え、注目属性を残した時の分類精度Ａ1 に対し注目属性
を除去した時の分類精度Ａ2 が上回った場合に、該注目
属性を除去することを特徴とする非関連属性を除去する
プログラムを格納した記憶媒体。