JPH09325969A - 非関連属性除去装置及び非関連属性を除去するプログログラムを格納した記憶媒体 - Google Patents
非関連属性除去装置及び非関連属性を除去するプログログラムを格納した記憶媒体Info
- Publication number
- JPH09325969A JPH09325969A JP8251797A JP8251797A JPH09325969A JP H09325969 A JPH09325969 A JP H09325969A JP 8251797 A JP8251797 A JP 8251797A JP 8251797 A JP8251797 A JP 8251797A JP H09325969 A JPH09325969 A JP H09325969A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- attributes
- user
- variance
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
を対象に、データの分類や検索に重要でない非関連属性
を適確に且つ効率良く短時間で除去する。 【解決手段】2値属性a1 〜an で表現され、カテゴリ
C1 〜Cm に分類されているデータベース10につい
て、データ数算出手段2は、データ総数S、各カテゴリ
Ci 毎のデータ数Si 、1又は0の値をとる各属性aj
毎のデータ数tj 、及び各カテゴリCi に対する1又は
0の値をとる各属性aj 毎のデータ数tijを算出する。
重み算出手段4は、データ数算出手段2の算出結果をも
とに各カテゴリCi に対する各属性aj 毎の重みwijを
算出する。分散算出手段6は、重み算出手段4で算出さ
れた重みwijをもとに各属性aj 毎の重みの分散vj を
算出する。属性除去手段8は、分散算出手段6で算出さ
れた分散vj とユーザ指定の閾値及び又は属性除去数を
もとに非関連な属性を除去する。
Description
や類似データ検索において、分類や検索に重要でない属
性を除去する非関連属性除去装置及び非関連属性を除去
するプログラムを格納した記憶媒体に関する。大規模デ
ータベース化が進むに伴って、データの自動分類や類似
データ検索は非常に重要になっている。例えば、データ
の自動分類は図書の自動分類や特許文書のIPCコード
付与等の分野で有用であり、類似データ検索はインター
ネット等の経由を含むヘルプデスクシステム(マシン対
応の質問応答システム)や一般の設計問題や診断問題に
おいて有用である。
索において、分類や検索に重要でない非関連属性を除去
することは、データの自動分類や類似データの検索の精
度を高め、データベースの容量の削減、および分類や検
索の高速化のために極めて重要であり、本質的である。
これらのために、分類や検索に重要でない属性を自動的
に除去することが望まれている。
た2値の属性からなるデータに対し、nフォール・クロ
ス・バリデーション(n-fole cross-validation )を用
いて、除去する属性を決定している。nフォール・クロ
ス・バリデーションは、データベースに登録されている
データをランダムにn個のデータの集合S1 ,・・・,
Sn に分割する。次に、任意のデータの集合Si (i=
1,・・・,n)をテストデータセットとし、テストデ
ータセットSi 以外のデータの集合を訓練データセット
として、ユーザ指定の分類手法や検索手法を全てのテス
トデータセットSi について適用して、その分類精度や
検索精度から非関連属性の除去を行なっている。
ール・クロス・バリデーションを用いた従来の非関連属
性の除去にあっては、ランダムなサンプリングに基づく
ため、属性の除去の妥当性はサンプリングの結果に大き
く依存する。また、分割数nの値を大きくすると、属性
の除去の妥当性は上がるが、除去する属性の決定にかか
る時間の増大を引き起こす。
合わせた処理回数を必要とし、除去する属性の決定に時
間がかかる。逆に、分割数nの値を小さくすると、除去
する属性の決定にかかる時間は小さいが、属性の除去の
妥当性は低下を引き起こす。このように従来のnフォー
ル・クロス・バリデーションを用いた従来の非関連属性
の除去にあっては、重要な属性を除去したり、重要でな
い属性を残したりするばかりでなく、妥当な属性の除去
を行なうためには、除去属性の決定に莫大な時間がかか
るといった問題点を生じている。
カテゴリ分類された2値の属性からなるデータを対象
に、データの自動分類や類似データ検索に重要でない非
関連属性を適確に且つ効率良く短時間で除去できるよう
にした非関連属性除去装置及び非関連属性を除去するプ
ログラムを格納した記憶媒体供することを目的とする。
図である。まず本発明の非関連属性除去装置で非関連属
性を除去してユーザの処理手順に従った分類や検索の対
象となるデータベース10には、1又は0の値をとる2
値属性a1 〜an (属性数n)で表現され、カテゴリC
1 〜Cm (カテゴリ数m)に分類されているデータが登
録されている。
の非関連属性除去装置1は、データ数算出手段2、重み
算出手段4、分散算出手段6及び属性除去手段8が設け
られる。更に、属性除去手段8の別の形態として、分類
精度算出手段11又は検索精度算出手段12を設けるこ
ともできる。データ数算出手段2は、データベース10
を参照し、データ総数S、各カテゴリCi 毎のデータ数
Si 、1又は0の値をとる各属性aj 毎のデータ数tj
、及び各カテゴリCi に対する1又は0の値をとる各
属性aj 毎のデータ数tijを算出する。
算出結果をもとに各カテゴリCi に対する各属性aj 毎
の重みwijを算出する。分散算出手段6は、重み算出手
段4で算出された重みwijをもとに各属性aj 毎の重み
の分散vj を算出する。属性除去手段8は、分散算出手
段6で算出された分散vj とユーザ指定情報をもとに非
関連な属性を除去する。属性除去手段8に対するユーザ
情報の指定としては、重みの分散の閾値の指定、除去す
る属性数の指定、及び両者の同時指定がある。
閾値を指定すると重要でない非関連属性を除去できるか
を知っている場合等には、属性除去手段8に対しユーザ
は所望の閾値を指定する。この場合、属性除去手段8
は、分散算出手段6で算出された各属性毎の重みの分散
vj の内、ユーザ指定の閾値以下の属性を除去する。一
方、ユーザが本発明に詳しくない場合には、単純に除去
する最大の属性数を指定すればよい。この場合、属性除
去手段8は、分散算出手段6で算出された各属性aj 毎
の重みの分散vj の内、分散が小さい属性からユーザ指
定の属性数だけ属性を除去する。
数の両方を指定したい場合には、属性除去手段8は、分
散算出手段6で算出された各属性aj 毎の重みの分散v
j の内、ユーザ指定の閾値以下で且つユーザ指定の属性
数を最大数とする属性を除去する。属性除去手段8によ
る非関連属性の除去を更に適確にするためには、例えば
ユーザの分類処理のための非関連属性を除去したい場合
には、分類精度算出手段11を設け、その算出結果をも
とに非関連属性を除去することが望ましい。
手段11は、ユーザが閾値を指定している場合、分散算
出手段6で算出された重みの分散vj の内、ユーザ指定
の閾値以下の各属性について、分散が小さい属性から順
に、ユーザ指定の分類処理に従って現在処理中の注目属
性を残した場合の分類精度A1 [%]と除去した場合の
分類精度A2 [%]を算出する。
算出結果から、注目属性を残した時の分類精度A1 に対
し注目属性を除去した時の分類精度A2 が上回った場合
に、現在処理中の注目属性を非関連属性として除去す
る。ユーザが属性数を指定した場合についても、分類精
度算出手段11は、分散算出手段6で算出された重みの
分散vj の内、ユーザ指定の属性数だけ分散の小さい順
に取り出した各属性について、分散が小さい属性から順
に、ユーザ指定の分類処理に従って注目属性を残した場
合の分類精度A1 と除去した場合の分類精度A2 を算出
し、属性除去手段8は、注目属性を残した時の分類精度
A1 に対し注目属性を除去した時の分類精度A2 が上回
った場合に、注目属性を除去する。
た場合には、分類精度算出手段11は、分散算出手段6
で算出された重みの分散vj の内、ユーザ指定の閾値以
下で且つユーザ指定の属性数を最大とする分散の小さい
順に取り出した各属性について、分散が小さい属性から
順に、ユーザ指定の分類処理に従って注目属性を残した
場合の分類精度A1 と除去した場合の分類精度A2 を算
出し、属性除去手段8は、注目属性を残した時の分類精
度A1 に対し注目属性を除去した時の分類精度A2 が上
回った場合に、注目属性を除去する。
去を更に適確にしたい場合には、属性除去手段に検索精
度算出手段12を設け、その算出結果をもとに非関連属
性を除去することが望ましい。この場合、ユーザの閾値
指定、除去数の指定または両方の指定に対応して、処理
対象となった各属性について、検索精度算出手段12に
よって、分散が小さい属性から順に、ユーザ指定の検索
処理に従って注目属性を残した場合の検索精度B1 と除
去した場合の検索精度B2 を算出する。この算出結果を
基に、属性除去手段8は、注目属性を残した時の検索精
度B1 に対し注目属性を除去した時の検索精度B2 が上
回った場合に、この注目属性を非関連属性として除去す
る。
とする属性が、除去する可能性の高い属性の範囲に限定
されることから、分類や類似データ検索に重要でない非
関連属性を適確に且つ効率良く短時間で除去でき、デー
タの自動分類や類似データの検索の精度を高め、データ
ベースの容量の削減、および分類や検索の高速化が達成
できる。
関連属性を除去するプログラムを格納した記憶媒体を提
供する。この非関連属性を除去するプログラムを格納し
た記憶媒体は、1又は0の値をとる2値属性a1 〜an
で表現され、カテゴリC1 〜Cm に分類されているデー
タが登録されているデータベース10を参照し、データ
総数S、各カテゴリ毎のデータ数Si 、1又は0の値を
とる各属性毎のデータ数tj 、及び各カテゴリに対する
1又は0の値をとる各属性毎のデータ数tijを算出する
データ数算出手段1;データ数算出手段2の算出結果を
もとに各カテゴリに対する各属性毎の重みwijを算出す
る重み算出手段4;重み算出手段4で算出された重みw
ijをもとに各属性毎の重みの分散vj を算出する分散算
出手段6;分散算出手段6で算出された分散vj とユー
ザ指定情報をもとに非関連な属性を除去する属性除去手
段8;を備えたことを特徴とする。
納した記憶媒体における詳細は、悲関連属性除去装置の
場合と基本的に同じになる。
装置の基本的な実施形態のブロック図である。図2にお
いて、本発明の非関連属性除去装置1は、データ数算出
部2、重み計算部4、分散算出部6及び属性除去部8を
備える。データ数算出部2は算出結果としてデータ数テ
ーブル3を有し、重み計算部4は算出結果として重みテ
ーブル5を有し、分散算出部6は算出結果として分散テ
ーブル7を有する。
情報を入力するためのユーザ指定入力部8が設けられて
いる。本発明の非関連属性除去装置1に対しては、デー
タベース10が設けられる。データベース10には、カ
テゴリ分離された2値の属性からなるデータが格納され
ている。即ちデータベース10には、分類カテゴリ数を
mとすると、カテゴリC1 〜Cm に分類されて、1また
は0の値をとる2値の属性例えば属性数nとなる属性a
1 〜an からなるデータが格納されている。非関連属性
除去装置1に設けられたデータ数算出部2は、カテゴリ
分類された2値の属性からなるデータベース10のデー
タを対象にデータ数テーブル3を作成する。
タ数テーブルを示している。ここでデータベース10の
データはカテゴリC1 〜Cm に分類され、1または0の
2値で表わされる属性はa1 〜am に分類されているこ
とから、これらのカテゴリ及び属性をエントリとしてデ
ータ総数S、各カテゴリC1 〜Cm ごとのデータ数S1
〜Sm 、1(または0)の値をとる各属性a1 〜an ご
とのデータ数t1〜tn 、及び各カテゴリC1 〜Cm に
対する1(または0)の値をとる各属性a1〜an ごと
のデータ数t11〜tmnを算出して、図3のようなデータ
数テーブル3を作成する。
〜mの一般系をiで表わし、また属性数1〜nの一般系
をjで表わすと、各カテゴリごとのデータ数はSi 、各
属性ごとのデータ数はtj 、各カテゴリに対する各属性
ごとのデータ数はtijと表現することができる。図4は
図3のデータ数テーブル3の具体例である。このデータ
数テーブル3にあっては、カテゴリがC1 〜C3 の3つ
に分類されており、また属性もa1 〜a3 の3つとなっ
ている場合について、図2のデータ数演算部2でデータ
ベース10を参照し、一例としてデータ総数S=60、
カテゴリごとのデータ数S1 =10、S2 =20、S3
=30、1(または0)の値をとる属性a1 〜a3 ごと
のデータ数t1 =12、t2 =10、t3 =15、更に
各カテゴリC1 〜C3 に対する1(または0)の値をと
る各属性a1 〜a3 ごとのデータ数t11=2,t21=
4、・・・t33=5を求めている。
は、属性a1 が値1(または0)をとるデータ数は、各
カテゴリC1 〜C3 について2,4,6と平均的に出現
しており、このような属性a1 は分類や検索に有用な属
性でない可能性が高い。また属性a1 が値1(または
0)をとるデータは、カテゴリC1 だけに出現し、カテ
ゴリC2 ,C3 は0となっている。
に有用な属性である可能性が高い。更に属性a3 が値1
(または0)をとるデータは、カテゴリC1 〜C3 に同
じ数5だけ出現している。この場合、カテゴリC1 に属
する出現数5を見ると、カテゴリCに属する全出現数1
0の半分が出現しており、このような属性a3 はカテゴ
リC1 に対する正しい分類や検索のためには有用である
と考えられる。
ータ数算出部2によってデータ数テーブル3により設定
されたパラメータに基づき、各カテゴリに対する各属性
の重みを算出し、重みテーブル5を作成する。即ち、重
み計算部4はデータ数テーブル13に設定されたカテゴ
リ数m、データ総数S、属性数n、カテゴリCi (1≦
i<m)に属するデータ数Si 、属性aj (1≦j<
n)が属性値1(または0)をとるデータ数tj 、更に
カテゴリCiに対し属性aj が属性値1(または0)を
とるデータ数tijを基に、カテゴリCI に対する属性a
j の重みwijをある自然数tを用いて次式により生成
し、重みテーブル5を作成する。
みテーブル5の説明図であり、カテゴリC1 〜Cm 及び
属性a1 〜an をエントリとして、前記(1)式で算出
された重みw11〜wmnが格納されている。図6は図4の
データ数テーブル3の具体例を対象に、前記(1)式に
より作成された図5の重みテーブル5の具体例である。
図6の重みテーブルの具体例にあっては、属性a1 の各
カテゴリC1 〜C3 に対する重みは全て0で同じ値をと
っている。また属性a2 のカテゴリC1 〜C3 に対する
重みは5/6,−1/3,−1/2とかなりぱらついた
値をとっている。更に属性a3 のカテゴリC1 〜C3 に
対する重みは1/6,0,−1/6と比較的似た値をと
っている。
いては、カテゴリC1 〜C3 に対する属性a1 〜a3 の
重みw11〜w33は、各カテゴリに対し各属性がどの程度
重要であるかを数量的に表わしている。例えば属性a1
はカテゴリC1 〜C3 のいずれについても同程度の重要
度であり、また属性a2 はカテゴリC1 の重要度が高
く、カテゴリC2 ,C3 の順に重要度が低いことが分か
る。更に属性a3 については、カテゴリC1 ,C2 ,C
3 の順に重要度をもつことが分かる。
置1に設けられた分散算出部6は、重みテーブル5で設
定されたカテゴリCi に対する属性aj の重みwijを用
いて、属性aj の重みwijの平均wij−を算出し、更に
カテゴリ数m、属性数n、カテゴリCi に対する属性a
j の重みwijおよびその平均wij−を用いて、属性aj
の重みに対する分散vj を次式により算出し、分散テー
ブル7を生成する。
散テーブル7の説明図であり、(2)式により属性a1
〜an の各々について算出された分散v1〜vn が格納
されている。図8は図7の分散テーブル7の具体例であ
り、図4のデータ数テーブル3及び図6の重みテーブル
5の具体例に基づき、前記(2)式から求めた分散を格
納している。この場合、属性aに対する分散v1は0と
いう非常に小さい値をとっている。また属性a2 に対す
る分散v2は19/54という非常に大きな値をとって
いる。更に属性a3 に対する分散v3は1/54という
割に大きな値をとっている。このように各属性の重みの
分散を計算することで、その属性が分類や検索にどの程
度重要であるかを数量的に把握することができる。
散テーブル7の設定内容とユーザ指定入力部9からのユ
ーザ指定情報とに基づき、重要でない非関連属性を認識
してこれを除去する。ユーザ指定情報としては、重みの
分散の閾値、属性除去数があり、閾値のみの指定、除去
数のみの指定、閾値と除去数の両方の指定のいずれかを
行うことができる。
が分散の閾値を指定した場合には、属性除去部8は分散
テーブル7を参照し、指定された閾値以下の分散をもつ
属性を非関連属性として除去する。このユーザが閾値を
指定する場合は、本発明による非関連属性除去装置を詳
しく知っている場合である。これに対し、ユーザが本発
明の装置に詳しくない場合や、一定数の属性を除去した
い場合などには、ユーザ指定入力部9によって任意の除
去する属性数を指定してもらう。このような除去する属
性数の指定に対し、属性除去部8は分散テーブル7を参
照し、分散の小さい属性からユーザ指定の属性数分だけ
属性を除去する。
閾値と属性数の両方を指定した場合には、属性除去部8
は分散テーブル7の中から分散の小さい順にユーザ指定
の最大属性数分だけの属性を取り出し、取り出した属性
の中で分散がユーザ指定の閾値以下の属性を除去する。
図8の分散テーブル7の具体例について属性除去を説明
すると、例えば次のようになる。今、ユーザが閾値1/
100を指定したとすると、図8の分散0となる属性a
1 のみが除去される。またユーザが除去する属性数を2
と指定した場合、分散の小さい順番に属性a1 ,a2 が
除去される。
属性数2を指定した場合、属性a1だけが除去される。
このように、ユーザ指定情報に従って迅速且つ確実に重
要でない非関連情報を除去することができる。図9は図
2の非関連属性除去装置1における処理を示したフロー
チャートである。まずステップS1で、データ数算出部
2がデータベース10を参照し、カテゴリ数m、属性数
n、データ総数S、カテゴリCi ごとのデータ数ti 、
属性aj ごとの1(または0)をとるデータ数tj 、更
にカテゴリCj の各々に対する属性aj ごとのデータ数
ijを算出し、データ数テーブル3を作成する。
3のパラメータに基づき、前記(1)式に従ってカテゴ
リCi の各々に対する属性aj ごとの重みwijを参照し
て重みテーブル5を作成する。次に分散処理部6が、前
記(2)式に従って属性aj の各々の重みに対する分散
vj を算出して分散テーブル7を作成する。最終的にス
テップS4で、属性除去部8がユーザ指定情報である分
散閾値及び除去数に基づいた属性の除去を行う。
10にサブルーチンとして示される。属性除去部8はス
テップS1でユーザによる閾値THの指定の有無をチェ
ックし、指定があれば、ステップS2で属性除去数Nの
指定の有無をチェックする。属性除去数Nの指定がなけ
ればステップS4に進み、分散テーブル7を参照し、閾
値TH以下の分散をもつ属性を全て除去する。
指定を行っていない場合には、ステップS3に進み、除
去数Nの指定をチェックする。除去数Nの指定がある
と、ステップS5で分散テーブル7の指定数N分の属性
を分散の小さい順に除去する。更にステップS1でユー
ザの閾値THの指定が判別され、且つステップS2で属
性除去数Nの指定が判別された場合には、ステップS6
に進み、閾値TH以下の分散をもつ属性を小さい順に最
大N個まで除去する。
ータベース10を対象にユーザの分類システムで使用さ
れる非関連属性の除去を最適化するため、属性除去部8
に分類精度算出部11を新たに設けたことを特徴とす
る。それ以外の構成は図2の実施形態と同じである。属
性除去部8に設けた分類精度算出部11は、ユーザデー
タ入力部9による閾値及びまたは属性除去数の指定に基
づき、分散テーブル7から取り出された属性を対象に、
分散の小さい属性から順に、現在処理対象となっている
データの集合Uをテストデータとする。そしてテストデ
ータUを用いて任意のユーザ指定の分類手順に従って、
現在処理中の参照属性を除去した場合の分類精度A1
[%]を算出すると共に、現在処理中の参照属性を残し
た場合の分類精度A2 [%]を算出する。
る属性を除去した場合と残した場合の分類精度の算出結
果A1 ,A2 を比較し、属性を除去した場合に分類精度
が上がった場合には不必要な属性であることから、この
属性を除去する。属性を除去した場合に分類精度が下が
った場合には必要な属性であることから、この属性は残
す。
を除去した場合と残した場合の分類精度を算出して、除
去する属性が本当に分類に必要であるか否かを適確に判
断することで、分類に必要でない重要な属性を確実に効
率良く除去することができる。図12は、図11の属性
除去部8における属性除去処理のユーザ指定に対応した
フローチャートである。
を指定していた場合には、ステップS1,S2からステ
ップS4に進み、分散テーブル7から指定された閾値T
H以下の分散をもつ属性ap (p=1,2,・・・N)
を取り出し、ステップS7に進み、分類精度算出部11
の算出結果に基づいた属性除去処理を行う。またユーザ
が属性除去数Nのみを指定した場合には、ステップS1
からステップS3に進んで除去数Nの指定が判別され、
ステップS5において、分類テーブル7から小さい順に
指定数N分の属性ap を取り出し、ステップS7で、分
類精度算出部11の算出結果に基づいた属性除去処理を
行う。
を指定した場合には、ステップS1,S2からステップ
S6に進み、分散テーブル7から閾値TH以下の分散を
もつ指定数N分の属性ap を小さい順に取り出し、同様
にステップS7に進んで、分類精度算出部11の算出結
果に基づいた属性除去処理を行う。図13は、図12の
ステップS7で行う分類精度算出結果に基づいた属性除
去処理の詳細をサブルーチンとして示している。
散テーブル7からユーザ指定情報に基づいて取り出され
た複数の属性ap の中の最も分散が小さい最小分散vmi
n の属性ap が値1(または0)をとるデータをデータ
ベース10から取り出して、テストデータUとする。続
いてステップS2で、テストデータUについて、現在処
理対象となっている最小分散vmin の属性ap を残し
て、ユーザ指定の分類手順に従って分類を行って分類精
度A1 [%]を算出する。次にステップS3で、同じテ
ストデータUを対象に、現在処理対象となっている注目
属性ap を除去してユーザ指定の分類手順で分類したと
きの分類精度a2 [%]を算出する。
ときの分類精度A1 と除去したときの分類精度A2 を比
較し、もし除去したときの分類精度A2 が残したときの
分類精度A1 以上であれば、この属性ap は分類に必要
のない属性であることから、ステップS5で属性ap を
除去する。これに対し属性ap を除去したときの分類精
度A2 が残したときの分類精度A1 を下回ったら、属性
ap は分類に必要な属性であることから、ステップS6
に進み、属性ap を残す。
処理が済んだならば、ステップS7で、処理対象となっ
ている全ての属性ap の処理が終了したか否かチェック
し、終了していなければステップS8で、もし属性除去
が行われていれば処理済み属性を除外してステップS1
に戻り、現在残っている最小分散vmin の属性ap を対
象に同様な処理を繰り返す。
にあっては、ステップS5である属性ap を除去した場
合には、既に処理済みの属性に再度戻って検証を行うリ
ターンバック検証が行われる。図14は図13における
リターンバック検証の説明図である。ここで図14は、
カテゴリC1 〜Cm について除去処理の対象とする3つ
の属性a1 〜a3 が取り出された場合の処理である。ま
た属性a1 〜a3 の小さい方からの順番は、a1 ,a2
,a3 となっている。
も小さい属性a1 の検証であり、属性a1 が1(または
0)となるデータをテストデータとしてカテゴリC1 〜
Cmのそれぞれについてブロック13に示す分類を行
い、分類精度A1 が得られたとする。次に、現在処理対
象となっている属性a1 を除いた属性a2 ,a3 につい
て、同じくカテゴリC1 〜Cm についてブロック14で
テストデータに対する分類を行い、分類精度A2 を求め
る。
おける属性a1 を残した場合と属性a1 を除去した場合
の分類精度A1 ,A2 は、ブロック15で比較され、こ
の場合、属性a1 を除去した場合の分類精度A2 が残し
ていた場合の分類精度A1 より小さくなることから、ブ
ロック16のように属性a1 を残す。図14(B)は、
次に分散の小さい属性a2 の検証であり、属性a2 の値
が1(または0)となるデータベースのテストデータを
対象に、ブロック17で属性a2 を残した場合の分類に
よる分類精度A1 を求める。続いてブロック18で、属
性a2 を除いた分類の分類精度A2 を求める。
おける比較処理において、属性a2を除去したときの分
類精度A2 が残したときの分類精度A1 以上となった場
合には、属性a2 は不必要な属性であることから、ブロ
ック20で属性a2 を除去する。図14(C)は、図1
4(B)で属性a2 を除去した後のリターンバック検証
であり、この場合、再び最初の属性a1 に戻った属性除
去処理を行う。即ちブロック21のように、現在残って
いる属性a1 ,a3 について、属性a1 の値が1(また
は0)となるデータベースのテストデータを対象に、ブ
ロック21のように属性a1 を残したときの分類精度A
1 と、ブロック22のように属性a1 を除去したときの
分類精度A2 を求める。
比較した場合、属性a1 を除去した場合の分類精度A2
が残したときの分類精度A1 以上であった場合、属性a
1 がこのリターンバック検証において初めて不必要な属
性であることが分かり、ブロック24で属性a1 を除去
する。図15は本発明の他の実施形態であり、ユーザの
検索処理のための非関連属性の除去を更に適確にするた
め、属性除去部8に検索精度算出部12を設け、検索精
度算出部12の算出結果に基づいて属性除去を行うよう
にしたことを特徴とする。それ以外の構成は図2の実施
形態と同じである。
システムをユーザ指定に従ったテストデータに適用し
て、対象となっている参照属性を残した場合と除去した
場合の検索精度を算出する以外は、図11の分類精度算
出部11と基本的に同じになる。図16のフローチャー
トは、検索精度算出部12を備えた図15の属性除去部
8の属性除去処理である。属性除去処理におけるステッ
プS1〜S6の処理は、ユーザ指定入力部9からの閾値
及びまたは除去数の指定に基づいた分散テーブル7から
の処理対象属性の取出処理であり、図12の分類精度に
基づいた属性除去の場合と同じである。このステップS
4,S5またはS6における分散テーブル7からの処理
対象とする属性ap の取出後に、ステップS7の検索精
度に基づいた属性除去を行う。
に基づいた属性除去処理の詳細である。図17のフロー
チャートにあっては、ステップS2で、現在処理対象と
なっている属性ap を残した場合の検索精度B1 を算出
し、ステップS3で、現在処理対象となっている参照属
性ap を除去した場合の検索精度B2 を算出し、ステッ
プS4で両者を比較する。属性ap を除去した場合の検
索精度B2 が残した場合の検索精度B1 より大きけれ
ば、属性ap を除去する。属性ap を除去した場合の検
索精度B2 が残した場合の検索精度B1 より小さけれ
ば、属性ap は必要な属性であることからステップS6
で残す。
された全ての属性の処理が終了するまで繰り返す。また
ステップS5で属性ap を除去した場合のリターンバッ
ク検証については、図14の分類精度を算出する場合と
同じである。尚、本発明の非関連属性除去装置は、計算
機システムによるプログラム制御で通常実現される。ま
たデータベースの検索システムにおける非関連属性除去
のためのアプリケーションとして適用される場合もあ
る。また本発明は実施形態に示した数値による限定は受
けないことは勿論である。
ば、非関連属性を除去する際に対象とする属性が、除去
する可能性の高い属性の範囲に限定されることから、分
類や類似データ検索等に重要でない非関連属性を適確に
判断して効率良く短時間で除去することができ、データ
の自動分類や類似データの検索精度を高め、データベー
スの容量削減及び分類や検索の高速化を達成することが
できる。
させることによって、自由に重要でない非関連属性の除
去処理の範囲を決めることができる。即ち、本発明に詳
しい場合や知識がある場合は閾値の設定、本発明に詳し
くない場合や必要な数を除去したい場合には属性除去数
の指定を行うことで、ユーザの希望に応じて最適な非関
連属性の除去処理を適確且つ迅速に行うことができる。
ムに適合した非関連属性の除去を最適化するため、ユー
ザの分類システムや検索システムを使用した除去対象と
する非関連属性ごとの属性を残した場合と除去した場合
との分類精度の結果に基づいて非関連属性を除去するこ
とで、重要でない非関連属性を適確に判断して迅速に除
去することができる。
細を示したフローチャート
実施形態のブロック図
フローチャート
フローチャート
ク検証の説明図
実施形態のブロック図
フローチャート
フローチャート
Claims (15)
- 【請求項1】分類や検索に重要でない非関連属性を除去
する非関連属性除去装置に於いて、 1又は0の値をとる2値属性a1 〜an で表現され、カ
テゴリC1 〜Cm に分類されているデータが登録されて
いるデータベースと、 前記データベースを参照し、データ総数S、各カテゴリ
毎のデータ数Si 、1又は0の値をとる各属性毎のデー
タ数tj 、及び各カテゴリに対する1又は0の値をとる
各属性毎のデータ数tijを算出するデータ数算出手段
と、 前記データ数算出手段の算出結果をもとに各カテゴリに
対する各属性毎の重みwijを算出する重み算出手段と、 前記重み算出手段で算出された重みwijをもとに各属性
毎の重みの分散vj を算出する分散算出手段と、 前記分散算出手段で算出された分散vj とユーザ指定情
報をもとに非関連な属性を除去する属性除去手段と、を
備えたことを特徴とする非関連属性除去装置。 - 【請求項2】請求項1記載の非関連属性除去装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た各属性毎の重みの分散vj の内、ユーザ指定の閾値以
下の属性を除去することを特徴とする非関連属性除去装
置。 - 【請求項3】請求項1記載の非関連属性除去装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た各属性毎の重みの分散vj の内、分散が小さい属性か
らユーザ指定の属性数だけ属性を除去することを特徴と
する非関連属性除去装置。 - 【請求項4】請求項1記載の非関連属性除去装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た各属性毎の重みの分散vj の内、ユーザ指定の閾値以
下で且つユーザ指定の属性数を最大数とする属性を除去
することを特徴とする非関連属性除去装置。 - 【請求項5】請求項1記載の非関連属性除装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た重みの分散の内、ユーザ指定の閾値以下の各属性につ
いて、分散が小さい属性から順に、ユーザ指定の分類処
理に従って現在処理中の注目属性を残した場合の分類精
度A1 と除去した場合の分類精度A2 を算出する分類精
度算出手段を備え、注目属性を残した時の分類精度A1
に対し注目属性を除去した時の分類精度A2 が上回った
場合に、該注目属性を除去することを特徴とする非関連
属性除去装置。 - 【請求項6】請求項1記載の非関連属性除装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た重みの分散の内、ユーザ指定の属性数だけ分散の小さ
い順に取り出した各属性について、分散が小さい属性か
ら順に、ユーザ指定の分類処理に従って現在処理中の注
目属性を残した場合の分類精度A1 と除去した場合の分
類精度A2 を算出する分類精度算出手段を備え、注目属
性を残した時の分類精度A1 に対し注目属性を除去した
時の分類精度A2 が上回った場合に、該注目属性を除去
することを特徴とする非関連属性除去装置。 - 【請求項7】請求項1記載の非関連属性除装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た重みの分散の内、ユーザ指定の閾値以下で且つユーザ
指定の属性数を最大とする分散の小さい順に取り出した
各属性について、分散が小さい属性から順に、ユーザ指
定の分類処理に従って現在処理中の注目属性を残した場
合の分類精度A1 と除去した場合の分類精度A2 を算出
する分類精度算出手段を備え、注目属性を残した時の分
類精度A1 に対し注目属性を除去した時の分類精度A2
が上回った場合に、該注目属性を除去することを特徴と
する非関連属性除去装置。 - 【請求項8】請求項1記載の非関連属性除装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た重みの分散の内、ユーザ指定の閾値以下の各属性につ
いて、分散が小さい属性から順に、ユーザ指定の検索処
理に従って現在処理中の注目属性を残した場合の検索精
度B1 と除去した場合の検索精度B2 を算出する検索精
度算出手段を備え、注目属性を残した時の検索精度B1
に対し注目属性を除去した時の検索精度B2 が上回った
場合に、該注目属性を除去することを特徴とする非関連
属性除去装置。 - 【請求項9】請求項1記載の非関連属性除装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た重みの分散の内、ユーザ指定の属性数だけ分散の小さ
い順に取り出した各属性について、分散が小さい属性か
ら順に、ユーザ指定の検索処理に従って現在処理中の注
目属性を残した場合の検索精度B1 と除去した場合の検
索精度B2 を算出する検索精度算出手段を備え、注目属
性を残した時の検索精度B1 に対し注目属性を除去した
時の検索精度B2 が上回った場合に、該注目属性を除去
することを特徴とする非関連属性除去装置。 - 【請求項10】請求項1記載の非関連属性除装置に於い
て、前記属性除去手段は、前記分散算出手段で算出され
た重みの分散の内、ユーザ指定の閾値以下で且つユーザ
指定の属性数を最大とする分散の小さい順に取り出した
各属性について、分散が小さい属性から順に、ユーザ指
定の検索処理に従って現在処理中の注目属性を残した場
合の検索精度B1 と除去した場合の検索精度B2 を算出
する検索精度算出手段を備え、注目属性を残した時の検
索精度B1 に対し注目属性を除去した時の検索精度B2
が上回った場合に、該注目属性を除去することを特徴と
する非関連属性除去装置。 - 【請求項11】分類や検索に重要でない非関連属性を除
去するプログラムを格納した記憶媒体に於いて、 1又は0の値をとる2値属性a1 〜an で表現され、カ
テゴリC1 〜Cm に分類されているデータが登録されて
いるデータベースを参照し、データ総数S、各カテゴリ
毎のデータ数Si 、1又は0の値をとる各属性毎のデー
タ数tj 、及び各カテゴリに対する1又は0の値をとる
各属性毎のデータ数tijを算出するデータ数算出手段
と、 前記データ数算出手段の算出結果をもとに各カテゴリに
対する各属性毎の重みwijを算出する重み算出手段と、 前記重み算出手段で算出された重みwijをもとに各属性
毎の重みの分散vj を算出する分散算出手段と、 前記分散算出手段で算出された分散vj とユーザ指定情
報をもとに非関連な属性を除去する属性除去手段と、を
備えたことを特徴とする非関連属性を除去するプログラ
ムを格納した記憶媒体非関連属性除去装置。 - 【請求項12】請求項11記載の非関連属性を除去する
プログラムを格納した記憶媒体に於いて、前記属性除去
手段は、前記分散算出手段で算出された各属性毎の重み
の分散vj の内、ユーザ指定の閾値以下の属性を除去す
ることを特徴とする非関連属性を除去するプログラムを
格納した記憶媒体。 - 【請求項13】請求項11記載の非関連属性を除去する
プログラムを格納した記憶媒体に於いて、前記属性除去
手段は、前記分散算出手段で算出された各属性毎の重み
の分散vj の内、分散が小さい属性からユーザ指定の属
性数だけ属性を除去することを特徴とする非関連属性を
除去するプログラムを格納した記憶媒体。 - 【請求項14】請求項11記載の非関連属性を除去する
プログラムを格納した記憶媒体に於いて、前記属性除去
手段は、前記分散算出手段で算出された各属性毎の重み
の分散vj の内、ユーザ指定の閾値以下で且つユーザ指
定の属性数を最大数とする属性を除去することを特徴と
する非関連属性を除去するプログラムを格納した記憶媒
体。 - 【請求項15】請求項11記載の非関連属性を除去する
プログラムを格納した記憶媒体に於いて、前記属性除去
手段は、前記分散算出手段で算出された重みの分散の
内、ユーザ指定の閾値以下の各属性について、分散が小
さい属性から順に、ユーザ指定の分類処理に従って現在
処理中の注目属性を残した場合の分類精度A1 と除去し
た場合の分類精度A2 を算出する分類精度算出手段を備
え、注目属性を残した時の分類精度A1 に対し注目属性
を除去した時の分類精度A2 が上回った場合に、該注目
属性を除去することを特徴とする非関連属性を除去する
プログラムを格納した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8251797A JP3884520B2 (ja) | 1996-04-01 | 1997-04-01 | 非関連属性除去装置及び非関連属性を除去するプログログラムを格納した記憶媒体 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7851696 | 1996-04-01 | ||
JP8-78516 | 1996-04-01 | ||
JP8251797A JP3884520B2 (ja) | 1996-04-01 | 1997-04-01 | 非関連属性除去装置及び非関連属性を除去するプログログラムを格納した記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09325969A true JPH09325969A (ja) | 1997-12-16 |
JP3884520B2 JP3884520B2 (ja) | 2007-02-21 |
Family
ID=26419574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8251797A Expired - Fee Related JP3884520B2 (ja) | 1996-04-01 | 1997-04-01 | 非関連属性除去装置及び非関連属性を除去するプログログラムを格納した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3884520B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007013390A1 (ja) * | 2005-07-26 | 2007-02-01 | Sony Corporation | 情報処理装置、特徴抽出方法、記録媒体、および、プログラム |
US8234311B2 (en) | 2010-02-23 | 2012-07-31 | Sony Corporation | Information processing device, importance calculation method, and program |
US8611676B2 (en) | 2005-07-26 | 2013-12-17 | Sony Corporation | Information processing apparatus, feature extraction method, recording media, and program |
CN105302791A (zh) * | 2014-08-01 | 2016-02-03 | 上海尧博信息科技有限公司 | 专利检索用语义分析系统 |
-
1997
- 1997-04-01 JP JP8251797A patent/JP3884520B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007013390A1 (ja) * | 2005-07-26 | 2007-02-01 | Sony Corporation | 情報処理装置、特徴抽出方法、記録媒体、および、プログラム |
JP2007058842A (ja) * | 2005-07-26 | 2007-03-08 | Sony Corp | 情報処理装置、特徴抽出方法、記録媒体、および、プログラム |
US8611676B2 (en) | 2005-07-26 | 2013-12-17 | Sony Corporation | Information processing apparatus, feature extraction method, recording media, and program |
US8234311B2 (en) | 2010-02-23 | 2012-07-31 | Sony Corporation | Information processing device, importance calculation method, and program |
CN105302791A (zh) * | 2014-08-01 | 2016-02-03 | 上海尧博信息科技有限公司 | 专利检索用语义分析系统 |
Also Published As
Publication number | Publication date |
---|---|
JP3884520B2 (ja) | 2007-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN109189991B (zh) | 重复视频识别方法、装置、终端及计算机可读存储介质 | |
CN106649742A (zh) | 数据库维护方法和装置 | |
US5787424A (en) | Process and system for recursive document retrieval | |
CN103294817A (zh) | 一种基于类别分布概率的文本特征抽取方法 | |
CN111611356A (zh) | 信息查找方法、装置、电子设备及可读存储介质 | |
CN114817575B (zh) | 基于扩展模型的大规模电力事理图谱处理方法 | |
CN110928986B (zh) | 法律证据的排序和推荐方法、装置、设备及存储介质 | |
CN102063497B (zh) | 一种开放式知识共享平台及其词条处理方法 | |
CN117171331B (zh) | 基于大型语言模型的专业领域信息交互方法、装置及设备 | |
JP4143234B2 (ja) | 文書分類装置、文書分類方法及び記憶媒体 | |
CN113239268B (zh) | 一种商品推荐方法、装置及系统 | |
CN113204642A (zh) | 文本聚类方法、装置、存储介质和电子设备 | |
JPH09325969A (ja) | 非関連属性除去装置及び非関連属性を除去するプログログラムを格納した記憶媒体 | |
CN110532388B (zh) | 文本聚类的方法、设备和存储介质 | |
CN110807286A (zh) | 一种结构网格识别方法 | |
CN116226108A (zh) | 可实现不同治理程度的数据治理方法及系统 | |
CN106934007B (zh) | 关联信息的推送方法及装置 | |
CN111339287B (zh) | 摘要生成方法及装置 | |
JP4125951B2 (ja) | テキスト自動分類方法及び装置並びにプログラム及び記録媒体 | |
CN110263196B (zh) | 图像检索方法、装置、电子设备及存储介质 | |
CN111832815A (zh) | 科研热点预测方法及系统 | |
CN113656575A (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN113988149A (zh) | 一种基于粒子群模糊聚类的服务聚类方法 | |
CN112766403A (zh) | 一种基于信息增益权重的增量聚类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060711 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060907 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061024 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061117 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101124 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101124 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111124 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111124 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121124 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121124 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131124 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |