JPH10275085A - 概念階層作成装置及び概念階層作成方法 - Google Patents

概念階層作成装置及び概念階層作成方法

Info

Publication number
JPH10275085A
JPH10275085A JP9081150A JP8115097A JPH10275085A JP H10275085 A JPH10275085 A JP H10275085A JP 9081150 A JP9081150 A JP 9081150A JP 8115097 A JP8115097 A JP 8115097A JP H10275085 A JPH10275085 A JP H10275085A
Authority
JP
Japan
Prior art keywords
concept
data
class
hierarchy
concept hierarchy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9081150A
Other languages
English (en)
Inventor
Hiroshi Tsukimoto
洋 月本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP9081150A priority Critical patent/JPH10275085A/ja
Publication of JPH10275085A publication Critical patent/JPH10275085A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 一つのデータを複数の概念に多重分類する。 【解決手段】 簡単化部12が、与えられた複数のデー
タから簡単化によって作成した和積標準形の各項を、デ
ータを分類するための概念として取り出す。基本概念ク
ラス生成部16が、前記各データを、取り出された各項
を満たすデータごとに重複を許して分類することによっ
て、項ごとの概念に対応する各概念クラスを作成する。
概念階層生成部17が、作成された各概念クラスに基づ
いて概念階層を作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、各種データの分類
に用いられる概念階層を作成する技術の改良に関するも
ので、特に、一つのデータを複数の概念に多重分類でき
るようにしたものである。
【0002】
【従来の技術】データを処理するには分類が不可欠であ
り、分類には概念階層が用いられる。概念階層とは、上
位概念と、上位概念に属する下位概念との関係を表す階
層である。ここで、概念階層の例として、人間を分類す
る概念階層の一例を図16に示す。この例では、人間(h
uman) が、まず性別で男女(male/female) に分類されて
おり、同時に、男女とは独立に年齢で老若(old/young)
に分類されている。これら男女・老若という上位概念の
下に、父親(father)、母親(mother)、少年(boy)、少女
(girl)、赤ん坊(baby)という概念(クラス)が存在す
る。なお、この図にあるクラスはもちろん、人間を分類
するクラスのすべてでなく、ごく一部を例示したもので
ある。
【0003】この例では、たとえば父親は男であるの
で、男の下のクラスすなわちサブクラスであり、母親は
女のサブクラスである。図16における矢印は下位概念
が上位概念に含まれる関係を示す。また、父親は、老い
た父親もいれば若い父親もいるので、老若双方のサブク
ラスになる。母親も父親と同様に、老若双方のサブクラ
スになる。また、少年は男と若年のサブクラスになり、
少女は女と若年のサブクラスになり、赤ん坊は若年のサ
ブクラスになる。
【0004】従来、上記のような概念階層は、人が何ら
かの必要に迫られたときに、分類すべきデータの内容と
経験則に基づいて、手作業で作成することが一般的であ
った。このように、いくつものデータに基づいて、デー
タを分類しうる概念を抽出することは、帰納学習として
把握することができる。
【0005】帰納学習は、各種データから論理式、決定
木等を求める推論、学習のことである。換言すれば、帰
納学習とは、記号表現された概念集合の中から与えられ
た事例(データ)を基にしてある概念を得ることであ
る。なお、記号表現された概念集合の例は、古典命題論
理において、一定のクラスに属する命題である。
【0006】このような帰納学習は、教師あり学習と教
師なし学習に分類される。教師あり学習とは、与えられ
た事例がその概念を満足する正例か、その概念を満足し
ない負例にあらかじめ分類されているものである。多変
量解析において教師あり学習に相当するのは、目的変数
のある重回帰分析、判別分析や、外的基準のある数量化
1類、2類である。
【0007】ここで、多変量解析は、各種現象の要因と
なる変量を総合的に解明する手法であり、重回帰分析、
判別分析の他、主成分分析、因子分析、クラスター分
析、数量化理論等の手法の総称である。また、重回帰分
析は、目的変量(結果)とそれに影響を与えるいくつか
の説明変量(原因)との間において、係数・説明変量・
定数項を組み合わせて目的変量を表した1次式(重回帰
式)を作り、この式を使って目的変量の予測や制御をす
る手法である。また、判別分析は、グループ毎の標本が
測定されているとき、新たに与えられる測定値がどのグ
ループに属するかを判別するための手法である。数量化
は、アンケート調査の答のような定性的・質的データを
数量化することによって多次元解析を行う手法である。
数量化における外的基準は、特性値を意味し、重回帰分
析でいう目的変量や判別分析の各群にあたる。数量化1
類は、質的データから量的に測定される外的基準を予測
したり、説明したりするための手法である。数量化2類
は、質的データから質的な形で与えられる外的基準を判
別したり、予測したりするための手法である。
【0008】これら教師あり学習に対して、教師なし学
習とは、与えられた事例が正例と負例に分類されておら
ず、存在する事例から適当な概念を学習するもの、すな
わち見つけるものである。多変量解析において教師なし
学習に相当するのは、目的変数のない主成分分析や外的
基準のない数量化3類である。ここで、主成分分析は、
多くの説明変量の総合的特性を、できるだけ情報の損失
なしに、1個又は互いに独立な少数個の1次式で代表す
る手法であり、この場合、各1次式で表される指標が主
成分である。また、外的基準のない数量化3類とは、い
くつかのカテゴリー、例えばアンケートにおける選択
肢、に対してサンプルごとに示す反応パターンから、サ
ンプルとカテゴリーそれぞれに所定の数量を与え、反応
の似たサンプルやカテゴリーの分類をしたり、特性を調
べたりする手法である。
【0009】なお、教師なし学習は、概念を事例から形
成するので概念形成とも呼ばれる。本発明は、人工知能
等で用いられる帰納学習のうち、このような教師なし学
習全般に適用しうるものである。
【0010】前記のような概念階層については、近年、
データから概念階層を自動的に構成する技術が研究さ
れ、幾つかアルゴリズムが提案されている。その典型的
なアルゴリズムの一つはCOBWEBである(参考文
献:D.H.Fisher: Knowledge acquisition via incremen
tal conceptual clustering, Machine Learning 2, pp1
39-172, 1987. )。このCOBWEBを簡単な例で説明
する。例えば、図17に示すデータが与えられた場合
に、体表面、心室数、体温、繁殖のデータを基にして動
物を適当に分類する問題を考える。このときCOBWE
Bは図18に示す分類木を得る。
【0011】COBWEBは、このような分類木を作成
する際、分類の段階毎に、木のノードから複数の枝を出
すことによって分類を進める。そして、このように枝を
出す各分類段階で、未知の事例に対して平均予測能力を
最大にするように分類木を作成する。すなわち、あるノ
ードで新たに枝を出してサブカテゴリーを作成すると、
それを作成する前より平均予測能力が増加する。例え
ば、ほ乳類というサブカテゴリーを作成すると、ほ乳類
というサブカテゴリーを作成する前に比べて平均予測能
力が増大する。その量は
【数1】 E(正しい予測数|ほ乳類)−E(正しい予測数) と表現される。ここで、E()は期待値である。この場
合、E(正しい予測数|ほ乳類)をP(Ai =Vij|ほ
乳類)と、E(正しい予測数)をP(Ai =Vij)とい
うように定式化する。ここで、Ai は属性であり、この
例では体表面等である。また、Vijは属性値であり、例
えば、体表面の属性値は毛、羽等である。サブカテゴリ
ーを作成することによって増加する平均予測能力を評価
する量は次式で定義される。
【数2】 これをcategory utilityと呼ぶ(参考文献:M. Gluck a
nd J. Corter: Information, uncertainty and the uti
lity of categories, Proceedings of the Seventh Ann
ual Conference of the Cognitive Science Society, p
p283-287, 1985. )。
【0012】ここで、Ck はカテゴリーであり、例え
ば、C1 =ほ乳類、鳥類、C2 =は虫類、C3 =両生
類、魚類である。またnはカテゴリーの数である。CO
BWEBは、category utilityが最大になるようなサブ
カテゴリーを生成し、分類木を作成する手法である。
【0013】
【発明が解決しようとする課題】ところで、現在までに
提案されているアルゴリズムを用いて、図19に示す4
人の人間のデータから概念階層を生成すると、図20に
示す概念階層が得られる。この概念階層は、ある属性で
データを分類し、さらに別の属性で分類するという論理
構造を積み重ねることによって生成されている。したが
って、ある一つの事例は一つのクラスに属すのみで、複
数のクラスに属すことはできない。
【0014】図20の例では、各人は4個のクラス(男
(Male)かつ白人(White) 、男かつ黒人(Black) 、女(Fem
ale)かつ白人、女かつ黒人)のどこか一つのクラスに属
すのみで、各人が男性(女性)と白人(黒人)という複
数のクラスに属する構造ではない。この結果、この概念
階層の構造では、性別(男女)という概念が、人種(白
黒)という概念よりも上位の概念になっている。
【0015】しかしながら、そもそも性別と人種には、
このような上下の階層関係は存在しない。すなわち、事
実に合致した適正な概念階層は図21のような概念階層
である。図21の概念階層では、一つの事例が複数のク
ラスに属している。例えば、Markは男性(Male)と白
人(White) という二つのクラスに属している。また、図
21には、図20にあったような性別と人種の間の不自
然な上下関係も存在しない。
【0016】すなわち、概念階層を作成する従来のアル
ゴリズムに存在した問題点は、図20に示したように、
ある一つの事例を複数のクラスに同時に分類できず、ど
こか一つのクラスにしか分類できないため、概念階層に
不自然な上下関係を導入せざるを得ないということであ
る。なお、このように一つの事例(データ)を同時に複
数の概念(クラス)に分類することを、本明細書におい
て多重分類と呼ぶ。すなわち、従来技術による図20の
概念階層は、データを多重分類できていないのに対し、
望ましい図21の概念階層は、データを多重分類してい
るということになる。この多重分類は、図20及び図2
1の例からもわかるように、現実のデータ(ベース)か
ら、適切な概念階層を構成しようとする場合には、必須
の要素である。概念階層を作成する従来の手法では、こ
の多重分類を行わなかったために、現実の事実に合致し
た適切な概念階層を得ることができなかった。
【0017】本発明は、上記のような従来技術の問題点
を解決するために提案されたもので、その目的は、一つ
のデータを複数の概念に多重分類することである。ま
た、本発明の他の目的は、概念階層の作成を効率化する
ことである。
【0018】
【課題を解決するための手段】上記の目的を達成するた
め、請求項1の概念階層作成装置は、与えられた複数の
データから簡単化によって作成した和積標準形の各項
を、データを分類するための概念として取り出す手段
と、前記各データを、取り出された各項を満たすデータ
ごとに重複を許して分類することによって、項ごとの概
念に対応する各概念クラスを作成する手段と、作成され
た各概念クラスに基づいて概念階層を作成する手段と、
を有することを特徴とする。請求項4の概念階層作成方
法は、請求項1の発明を方法の観点から把握したもの
で、与えられた複数のデータから簡単化によって作成し
た和積標準形の各項を、データを分類するための概念と
して取り出すステップと、前記各データを、抽出された
各項を満たすデータごとに重複を許して分類することに
よって、項ごとの概念に対応する各概念クラスを作成す
るステップと、作成された各概念クラスに基づいて概念
階層を作成するステップと、を含むことを特徴とする。
請求項1の発明では、データを分類するための適切な概
念がデータの簡単化によって得られ、データは複数の概
念に多重分類されうるので、不自然な上下関係のない概
念階層が得られる。
【0019】請求項2の発明は、請求項1記載の概念階
層作成装置において、前記取り出す手段は、与えられた
データを論理命題とみなして簡単化することによって項
を得るように構成されたことを特徴とする。請求項2の
発明では、与えられたデータが論理命題とみなされて処
理されるが、論理命題は、論理関数などの情報処理系へ
の適合性に優れるので、処理が効率化される。
【0020】請求項3の発明は、請求項1記載の概念階
層作成装置において、前記取り出す手段は、与えられた
データに仮想的なクラスを設定して予測モデルを作成
し、作成された予測モデルから命題を得ることによって
データの簡単化を行うように構成されたことを特徴とす
る。請求項3の発明では、与えられたデータに仮想的な
クラスが設定される。例えば、与えられたデータを「存
在する」クラス、与えられたデータの補集合を「存在し
ない」クラスとするごときである。これによって、教師
なしのデータでも教師ありのデータに変換できるので、
予測モデルを得るために適用しうる解析手法が多様化
し、合理的な処理が可能となる。
【0021】
【発明の実施の形態】次に、本発明の実施の形態(以下
「実施形態」という)について、図面を参照して具体的
に説明する。
【0022】以下、図面を参照しながら本発明の一実施
形態について説明する。なお、後述する実施形態はコン
ピュータ上に実現され、実施形態の各機能は、所定の手
順(プログラム)がこのコンピュータを制御することで
実現される。例えば、入力部は、入力するプログラムや
データの態様によって種々のものを採用することがで
き、キーボードやマウスなどの入出力装置、ネットワー
ク接続装置、データ読み取り装置などを使用できる。ま
た、各記憶部は、外部から入力したデータを蓄えるため
のものであり、磁気や光ディスク装置、半導体メモリ等
の所望の装置を用いることができる。さらに、他の部分
は、コンピュータのソフトウェアによって構成されるこ
とが典型的である。
【0023】本明細書における各「部」は、実施形態の
各機能に対応する概念的なもので、必ずしも特定のハー
ドウェアやソフトウェア・ルーチンに1対1には対応し
ない。したがって、本明細書では、以下、実施形態の各
機能を有する仮想的回路ブロック(部)を想定して実施
形態を説明する。また、本実施形態における各手順の各
ステップは、その性質に反しない限り、実行順序を変更
し、複数同時に実行し、また、実行ごとに異なった順序
で実行してもよい。
【0024】A.第1実施形態 [1.構成]図1は、第1実施形態である概念階層作成
装置の構成を示す機能ブロック図である。図1に示すよ
うに、本実施形態の概念階層作成装置は、コンピュータ
上に実現される。このコンピュータは、中央演算装置
(CPU)1、キーボードやマウスなどの入力装置2、
CRTディスプレイやプリンタなどの出力装置3、及び
メインメモリやハードディスクなどの記憶装置4を備え
ている。これらの各装置は、バス5によって接続され、
相互に情報が交換される。
【0025】本実施形態の変換装置は、このようなコン
ピュータ上において実行される次のような各部分を持つ
プログラムとして構成されている。 (1) 前記入力装置2を通じて、処理対象となるデータ
や、各部を実行させるためのコマンドなどを入力するた
めの入力部10。 (2) 生成された概念階層を出力装置3に対して出力する
ための出力部11。 (3) 入力部10から与えられた複数のデータを簡単化し
て、データを分類するための概念を取り出す簡単化部1
2。 (4) 前記簡単化部12に設けられ、与えられた複数のデ
ータに仮想的なクラスを付与する仮想クラス設定部1
3。 (5) 前記簡単化部12に設けられ、仮想的なクラスが設
定されたデータから予測モデルを作成して、これを論理
関数で表現し、さらにその論理関数を和積標準形にまで
簡約化する和積標準形生成部14。 (6) 前記簡単化部12に設けられ、作成された和積標準
形に含まれる各項を、データを分類するための概念とす
るために抽出する各項の抽出部15。 (7) 簡単化部12によって抽出された各項ごとの概念に
対応する概念クラスを生成する基本概念クラス生成部1
6。 (8) 生成された概念クラスに基づいて概念階層を生成す
る概念階層生成部17。
【0026】[2.作用及び効果]上記のような構成を
有する第1実施形態の作用及び効果を、図2のフローチ
ャートに従って説明する。
【0027】[2−1.簡単化]各種データベースなど
から得られる複数のデータを入力部10から入力すると
(ステップ21)、まず、簡単化部12が、与えられた
各データを論理命題とみなして簡単化することによって
和積標準形を得る。
【0028】ここで、簡単化とは、ある論理関数をより
表現が簡単な論理関数に変換することである。例えば、
【数3】 を「x」とするのが、その一例である。これは論理回路
の簡単化等で良く知られた処理であり、また簡単化のア
ルゴリズムについては例えばクワイン・マクラスキー法
などが良く知られている(参考文献:G.Birkhoff and
T.C.Bartee: Modern Applied Algebra McGraw-Hill,197
0(一松訳,現状応用代数,新曜社,1973).)。
【0029】また、和積標準形とは、変数の論理積の論
理和から構成される論理関数のことである。例えば、
【数4】 は和積標準形である。一方、
【数5】 は和積標準形ではない。
【0030】数式4に示した和積標準形の場合は
【数6】 の3項が項となる。
【0031】例えば、図3に示すデータが与えられた場
合、各事例の内容たる命題は
【数7】 と表すことができ、これを簡単化すると
【数8】 となる。
【0032】[2−2.仮想クラスの設定]前記のよう
な簡単化を行うに当たって、入力部10から入力した図
3のデータは、教師ありの帰納学習、即ち分類学習の場
合のデータである。しかし、概念形成の場合、本来はデ
ータにクラスがないので、実際に当初与えられるデータ
は、図4に示すようなデータとなる。そして、この図4
のデータを、図中の存在するデータはクラスの値が1
で、存在しないデータのクラスの値が0とみなすことに
よって、図3の形式に変換し、変換されたこのデータを
簡単化の対象とする。すなわち、与えられた概念形成用
のデータを「存在するかどうか」という観点から見て
「存在する」とみなし、与えられていないデータに対し
ては「存在しない」と見なすことによって、仮想的なク
ラス「存在」を設定することが可能である(ステップ2
2)。そして、仮想的なクラスが設定されたデータから
予測モデルを作成し、作成された予測モデルから命題を
得ることによってデータの簡単化を行うことができる。
【0033】このように、第1実施形態によれば、教師
なしのデータでも教師ありのデータに変換できるので、
予測モデルを得るために適用しうる解析手法が多様化
し、合理的な処理が可能となる(請求項3)。
【0034】[2−3.和積標準形の作成]前記図3に
示すようなクラスが与えられたデータを対象とする教師
あり学習は「分類」学習とも呼ばれているが、第1実施
形態の目的は「多重分類」である。したがって、上記の
ように教師あり学習のデータに変換したからといって簡
単な「分類」アルゴリズムを適用すべきではない。上記
の例でも示したように、第1実施形態では、多重分類を
可能とするための概念として、論理関数の簡単化によっ
て和積標準形に含まれる各項を得ることが必要である
(ステップ23,24)。上記の例で言えば、事例1で
あるxyzと事例2である
【数9】 はxとyの双方に合致する。この場合xとyが、データ
を分類するための概念となり、この概念に合致するもの
の集合が概念クラスとなる。第1実施形態において、多
重分類を可能にしているのは、簡単化によって各項が得
られる点である。すなわち、簡単化部12は、作成され
た和積標準形の各項を、データを分類するための概念と
して取り出す。上記の例では
【数10】 となったので、x,yが求める項となる。
【0035】なお、上記のように、簡単化部12は、与
えられたデータを論理命題とみなして簡単化することに
よって項を得るが、論理命題は、論理関数などの情報処
理系への適合性に優れるので、処理が効率化される(請
求項2)。
【0036】[2−4.基本概念クラスの生成]次に、
基本概念クラス生成部16が、与えられた各データを、
簡単化部12によって抽出された各項x,yを満たすデ
ータごとに重複を許して分類することによって、項ごと
の概念に対応する各概念クラスを作成する(ステップ2
5)。このとき得られる各概念クラスを基本概念クラス
と呼ぶ。この処理は、上記項を外延的な集合表現に変換
することを意味する。図3のデータを分類した場合、概
念xに対応する基本概念クラスが{1,2,3,4}で
あり、概念yに対する基本概念クラスが{1,2,5,
6}である。
【0037】なお、概念階層を形成するための従来のア
ルゴリズムは、事例、もしくはサンプルそのものの内容
を、分類のための情報として直接扱っていたのに対し
て、本アルゴリズムは事例、サンプルを直接扱うのでは
なく、その属性表現の構成要素を概念として扱っている
ところに特徴があり、この属性表現を扱うことにより、
多重分類を可能にしている。換言すれば、従来の概念形
成の手法は外延的であるのに対し、第1実施形態におけ
る手法は内包的である。
【0038】[2−5.概念階層の生成]さらに、概念
階層生成部17が、作成された各概念クラスに基づいて
概念階層を作成する(ステップ26)。この場合、簡単
化部12によって抽出された概念を基本概念としなが
ら、統合、分割等の手法を用いて、親クラスや子クラス
等を生成することによって概念の階層構造を適宜変更
し、最終的な概念階層を生成する(ステップ27)。
【0039】例えば、図3の例から取り出された概念
x,yからは、まず、図5に示す最初の基本的な概念階
層が作成できる。この概念階層に含まれる概念x,yに
対して分割の操作を施すことによって、各概念x,yに
属する具体的なデータを子クラスとして付加すると、図
6のようになる。この図からも明らかなように、第1実
施形態において作成される概念階層では、多重分類が実
現されている。また、概念クラスxとyに対して論理積
を取ることによって概念クラス
【数11】 を生成することも可能であり、その場合には図7のよう
な概念階層になる。最初の基本的な概念クラスに対して
行うことができる操作は、分割以外に統合等が考えられ
る。具体的には、所望の基準で所望の操作を適用すれば
よいが、一例として、ある操作を行うかどうかの判断
を、前述のcategory utility等を用いて行うことも考え
られる。
【0040】上記のように、第1実施形態では、データ
を分類するための適切な概念がデータの簡単化によって
得られ、データは複数の概念に多重分類されうるので、
不自然な上下関係のない概念階層が得られる(請求項
1)。このため、データーベースのデータに基づく概念
(クラス)階層を作成する際、人力に頼ることなく、各
種データーベースから自動的に生成でき、労力の削減が
可能となる。特に、第1実施形態によれば、従来技術で
は不可能であった多重分類が可能になるので、人間が有
していると思われる自然的な概念階層を生成できること
になる。
【0041】B.第2実施形態 第2実施形態は、第1実施形態において、データに「存
在」クラスを設けて簡単化された命題を求める段階で、
重回帰分析と、重回帰分析で得られた(線形)回帰式を
低次ブール関数で近似する手法を適応する例である。図
8は、第2実施形態における処理手順を示すフローチャ
ートである(参考文献:月本 洋、松本一教、森田千
絵、回帰分析に基づく概念形成アルゴリズム、人工知能
学会研究資料、SIG-J-9401-8,pp.55-62,1994. )。
【0042】この第2実施形態では、図9に示すデータ
が与えられるものとする。また、第2実施形態におい
て、属性とは、個々の入力データに含まれる特性であ
り、例えば図9における早さ、色、価格である。また、
属性値とは、属性がとる具体的な値であり、例えば図9
におけるh、m、l等である。図9のようにデータが与
えられると、次のような処理が行われる。
【0043】[1.属性の2値表現]まず、与えられた
入力データの属性を2値表現に変換する(ステップ8
1)。すなわち、入力データを、ダミー変数によって
{0,1}の2値で表現する。ダミー変数とは次のよう
に値を定めた変数である。
【数12】 例えば、属性Aの属性値が{a1 ,a2 ,a3 }のと
き、属性値「a2 」は「0,1,0」と表される。この
処理の結果として、2値化されたデータが出力される。
【0044】[2.変数削減]次に、ダミー変数によっ
て2値化されたデータから、所定の基準に基づいて変数
が削減される(ステップ82)。これはダミー変数の導
入による線形従属性を消去するためである(例えば、前
記の例で言えばa1 +a2 +a3 =1である。)。この
処理では、各離散属性に対応するダミー変数の組から一
つずつ変数を削除する。このとき、ダミー変数の組は属
性値に相当する。また、削除される変数はクラスとの負
の相関が最も高いものとする。この処理の結果として、
変数が削減された2値化データが出力される。
【0045】[3.分類学習への帰着]続いて、変数が
削減された2値化データに対して、仮想的な分類クラス
が付与される(ステップ83)。すなわち、与えられた
事例には分類クラスがないが、この事例を同一のクラス
に属しているとみなし、クラス値1を割り付ける。これ
によって、データの形式を分類学習における形式に帰着
させることができる。この処理の結果として、クラス値
1が付いたデータが出力される。
【0046】[4.回帰分析]上記のようにクラス値1
が付いたデータに対して回帰分析を行い、線形関数
【数13】 を得る(ステップ84)。この処理の結果として、予測
モデルとしての線形関数が出力される。
【0047】[5.ブール関数近似]このように得られ
た線形関数をブール関数で近似する(ステップ5)。こ
の近似は、次のような手法で行われる。すなわち、線形
関数を
【数14】 とし、それのブール代数の原子(最小項)による展開式
【数15】 とする。
【0048】項
【数16】 が近似後のブール関数に存在する条件である
【数17】 を用いて、項の存在を低次の項から判定してゆき、存在
する項を論理和で接続してブール関数を得る。この処理
の結果として、論理命題であるブール関数が出力される
ので、このブール関数から概念として項を取り出し、さ
らに、概念クラスを生成することができる。
【0049】[6.実施例]第2実施形態における処理
の実施例を以下に示す。すなわち、入力データとして図
9のデータが与えられた場合、図9のデータに対して属
性の2値表現、変数削除、分類学習への帰着の処理を行
うと、図10のデータが得られる。さらに、図10のデ
ータを回帰分析すると
【数18】 が得られる。これをブール関数で近似すると
【数19】 が得られる。ただし、
【数20】 を満たす事例は
【数21】 を満たす事例と同じ(事例8)なので削除する。その結
果、式は
【数22】 となり、これを事例で表現すると
【数23】 となり、基本的な概念クラスは {1,3},{2,6},{4,5,7},{8} の4個になる。そして、これら概念クラスに基づく当初
の概念階層は図11のようになる。この概念階層では、
{1,3}は価格がhの事例から構成されており、同様
に、{2,6}は価格がlの事例から、{4,5,7}
は価格がrhで色がbの事例から、{8}は価格がrhで色
がrの事例から、それぞれ構成されている。この基本的
な概念クラスから概念階層を構成するとすれば、{4,
5,7}と{8}を統合して {4,5,7,8} を構成することもできる。このように統合された概念ク
ラスは、価格がrhであるデータの集合となる(図1
2)。
【0050】C.第3実施形態 第3実施形態は、宗教に関するアンケートの結果を題材
として、概念階層を作成するいくつかの態様を示すもの
である。このデータは、NHK放送世論調査所が197
3年に全国の16歳以上の国民を対象に行った調査「日
本人の意識1973」のうち、宗教・信仰に関する調査
の一部である。調査は、以下の質問にあてはまるか否か
を、複数回答可として回答してもらう形式で行われたも
のである。
【0051】1.ふだんから礼拝、お勤め、修行、布教
など宗教的な行いをしている。 2.おりにふれ、お祈りやお勤めをしている。 3.年に1,2回程度は墓参りをしている。 4.聖書、教典など宗教関係の本をおりにふれ読んでい
る。 5.この1,2年の間に、身内の安全や商売繁盛、入試
合格などを、祈願しに行ったことがある。 6.お守りやおふだなど、魔除けや縁起ものを自分の身
のまわりにおいている。 7.この1,2年の間に、おみくじを引いたり、易や占
いをしてもらったことがある。
【0052】このうち1と2は内容が似ているのでまと
め、1又は2のいずれか一方に回答していれば回答あり
とした。図13はその結果の頻度(frequency) を表して
いる。表中で、属性(attribute) Aとは質問の1+2に
相当し、お祈り・お勤めを表している。同様にBは質問
3の墓参り、Cは質問4の聖書・教典に相当し、Dは質
問5の商売・合格祈願、Eは質問6のお守り・おふだ、
Fは質問7のおみくじ・占いをそれぞれ表している。ま
た、回答の“1”は質問に対してYESを、“2”はN
Oを表している。なお、このような入力データにおいて
は、表のデータのうち出現頻度が特に小さいものを所定
の方法で捨てて、頻度の大きい事例のみを対象にするこ
とができる(参考文献:月本 洋、確率データからの帰
納学習、人工知能学会誌、Vol.7,No.5,pp.870-976,199
2.)。その結果が頻度の右の欄の1(採用する),0
(捨てる)の数値である。図13のデータのうち、1
(採用する)とされたデータに対して命題の簡単化を行
うと、
【数24】 のようになり、したがって、
【数25】 という6個の概念クラスが生成される(図14)。
【0053】例えば、
【数26】 は「お祈りやお勤めをしていない、かつ、聖書や教典な
ど宗教関係の本をおりにふれ読んでいない」ことを表し
ており、我々の日常生活に近いものがある。図14のク
ラスの中の数字は人間の数であり、アンケートに協力し
た人間の数は4243である。このような重複回答され
るアンケート場合にも、多重分類は特に必要であって、
例えば、No.64のデータは
【数27】 に多重分類される。
【0054】なお、第3実施形態では、図2と同様に通
常の手法による簡単化を用いることを前提としたが、確
率的な簡単化を適用することも可能である。確率的な簡
単化とは、あるクラスの要素がデータ中に全部そろって
いなくても、そのクラスを生成することである。たとえ
ば、No.26のデータは属性CとFには否定的回答を
しているが、採非が0(捨てる)であり、このため、C
とFに否定的回答をしているグループを表す概念クラス
【数28】 は通常の簡単化では生成されず、概念クラス
【数29】 が生成される。もし確率的簡単化の方法を用いれば、N
o.26の採非が0でも概念クラス
【数30】 を概念クラス
【数31】 の代わりに生成することができる。
【0055】上記の概念クラスを基にして、概念階層を
生成することができる。概念階層生成の手法は、下記の
ように幾つか考えられ、これらを適宜組み合わせて用い
る。例えば、 (1) category utilityを使って、統合、分割等を行う。 (2) 概念クラスに対して、論理和を取って、上位の概念
クラスを作り、論理積を取って下位の概念クラスを作
り、概念クラスとして意味のあるものだけを残す。 (3) 二つの概念クラスに含まれる構成要素の重複率が一
定値以上の場合には統合する。もしくは上位の概念クラ
スを生成する。
【0056】例えば、図14から図15の概念階層が生
成するなどである。なお、図14と図15の概念階層で
は、概念クラス
【数32】 とABDEなどが生成されており、例えば、
【数33】 は非宗教的な多数から構成されるグループを意味する。
また、概念クラスABDEは宗教的な少数から構成され
るグループを意味する。
【0057】D.他の実施形態 なお、本発明は、上記各実施形態に限定されるものでは
ないので、次に例示するような他の実施形態をも包含す
るものである。例えば、簡単化、概念クラスへの分類、
概念階層作成の各段階における具体的な手順は限定され
ず、従来の手法もしくはその改良でもよいし、何らかの
新しい手法を用いてもよい。また、本発明と組み合わせ
て用いる多変量解析の手法や予測モデルのタイプは自由
であり、対象とするデータの性質に最適なものを自由に
選択して用いればよい。また、本発明は、コンピュータ
プログラムによって実現されることが一般的と考えられ
るが、そのようなプログラムを記録した記録媒体も本発
明の一態様である。
【0058】
【発明の効果】以上説明したように、本発明によれば、
データを分類するための適切な概念がデータの簡単化に
よって得られ、データは複数の概念に多重分類されうる
ので、不自然な上下関係のない概念階層が得られる。
【図面の簡単な説明】
【図1】本発明の第1実施形態における構成を示す機能
ブロック図。
【図2】本発明の第1実施形態における処理手順を示す
フローチャート。
【図3】本発明の第1実施形態におけるデータの例を示
す図。
【図4】本発明の第1実施形態におけるデータの例を示
す図。
【図5】本発明の第1実施形態における作成途中の概念
階層を例示する図。
【図6】本発明の第1実施形態における概念階層を例示
する図。
【図7】本発明の第1実施形態における概念階層の他の
例を示す図。
【図8】本発明の第2実施形態における処理手順を示す
フローチャート。
【図9】本発明の第2実施形態におけるデータの例を示
す図。
【図10】本発明の第2実施形態における処理途中のデ
ータの内容を示す図。
【図11】本発明の第2実施形態における概念階層を例
示する図。
【図12】本発明の第2実施形態における概念階層の他
の例を示す図。
【図13】本発明の第3実施形態におけるデータの例を
示す図。
【図14】本発明の第3実施形態における概念階層を例
示する図。
【図15】本発明の第3実施形態における概念階層の他
の例を示す図。
【図16】人間の類型を表す概念階層の例を示す図。
【図17】概念階層作成のもととなるデータの例を示す
図。
【図18】図17のデータに基づく概念階層を例示する
図。
【図19】概念階層作成のもととなるデータを例示する
図。
【図20】図19のデータに基づいて従来技術によって
作成される概念階層を例示する図。
【図21】図19のデータに基づいた望ましい概念階層
を例示する図。
【符号の説明】
10…入力部 11…出力部 12…簡単化部 13…仮想クラス設定部 14…和積標準形生成部 15…各項の抽出部 16…基本概念クラス生成部 17…概念階層生成部 STEP…手順の各ステップ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 与えられた複数のデータから簡単化によ
    って作成した和積標準形の各項を、データを分類するた
    めの概念として取り出す手段と、 前記各データを、取り出された各項を満たすデータごと
    に重複を許して分類することによって、項ごとの概念に
    対応する各概念クラスを作成する手段と、 作成された各概念クラスに基づいて概念階層を作成する
    手段と、 を有することを特徴とする概念階層作成装置。
  2. 【請求項2】 前記取り出す手段は、与えられたデータ
    を論理命題とみなして簡単化することによって項を得る
    ように構成されたことを特徴とする請求項1記載の概念
    階層作成装置。
  3. 【請求項3】 前記取り出す手段は、与えられたデータ
    に仮想的なクラスを設定して予測モデルを作成し、作成
    された予測モデルから命題を得ることによってデータの
    簡単化を行うように構成されたことを特徴とする請求項
    1記載の概念階層作成装置。
  4. 【請求項4】 与えられた複数のデータから簡単化によ
    って作成した和積標準形の各項を、データを分類するた
    めの概念として取り出し、 前記各データを、抽出された各項を満たすデータごとに
    重複を許して分類することによって、項ごとの概念に対
    応する各概念クラスを作成し、 作成された各概念クラスに基づいて概念階層を作成する
    ことを特徴とする概念階層作成方法。
JP9081150A 1997-03-31 1997-03-31 概念階層作成装置及び概念階層作成方法 Pending JPH10275085A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9081150A JPH10275085A (ja) 1997-03-31 1997-03-31 概念階層作成装置及び概念階層作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9081150A JPH10275085A (ja) 1997-03-31 1997-03-31 概念階層作成装置及び概念階層作成方法

Publications (1)

Publication Number Publication Date
JPH10275085A true JPH10275085A (ja) 1998-10-13

Family

ID=13738413

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9081150A Pending JPH10275085A (ja) 1997-03-31 1997-03-31 概念階層作成装置及び概念階層作成方法

Country Status (1)

Country Link
JP (1) JPH10275085A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010134319A1 (ja) * 2009-05-18 2010-11-25 Yanase Takatoshi 知識ベースシステム、論理演算方法、プログラム、及び記録媒体
JP2012501018A (ja) * 2008-08-29 2012-01-12 プライマル フュージョン インコーポレイテッド 既存の領域定義を活用した意味概念定義および意味概念関係の統合のためのシステムおよび方法。
JP2012043459A (ja) * 2004-04-30 2012-03-01 Yoichiro Ito エキスパートシステム生成装置及びエキスパートシステム生成装置の実施方法
US10885037B2 (en) 2017-08-02 2021-01-05 Fujitsu Limited Detection method, detection apparatus, and non-transitory computer-readable storage medium
JP2021009572A (ja) * 2019-07-01 2021-01-28 富士通株式会社 予測プログラム、予測方法および予測装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012043459A (ja) * 2004-04-30 2012-03-01 Yoichiro Ito エキスパートシステム生成装置及びエキスパートシステム生成装置の実施方法
JP2012501018A (ja) * 2008-08-29 2012-01-12 プライマル フュージョン インコーポレイテッド 既存の領域定義を活用した意味概念定義および意味概念関係の統合のためのシステムおよび方法。
WO2010134319A1 (ja) * 2009-05-18 2010-11-25 Yanase Takatoshi 知識ベースシステム、論理演算方法、プログラム、及び記録媒体
US8818930B2 (en) 2009-05-18 2014-08-26 Takatoshi Yanase Knowledge base system, logic operation method, program, and recording medium
US10885037B2 (en) 2017-08-02 2021-01-05 Fujitsu Limited Detection method, detection apparatus, and non-transitory computer-readable storage medium
JP2021009572A (ja) * 2019-07-01 2021-01-28 富士通株式会社 予測プログラム、予測方法および予測装置

Similar Documents

Publication Publication Date Title
Yüksel et al. Review of artificial intelligence applications in engineering design perspective
Kumaran et al. Fusion of mel and gammatone frequency cepstral coefficients for speech emotion recognition using deep C-RNN
US20200257976A1 (en) Algorithmic apparel recommendation
US20220215175A1 (en) Place recognition method based on knowledge graph inference
Jain et al. Big data in fashion industry
Lee et al. Style2vec: Representation learning for fashion items from style sets
Klimek et al. Fashion and art cycles are driven by counter-dominance signals of elite competition: quantitative evidence from music styles
Almarsoomi et al. AWSS: An algorithm for measuring Arabic word semantic similarity
Sedighi-Maman et al. A two-stage modeling approach for breast cancer survivability prediction
JPH10275085A (ja) 概念階層作成装置及び概念階層作成方法
CN113204643B (zh) 一种实体对齐方法、装置、设备及介质
Mohammed et al. Anemia prediction based on rule classification
US20200278860A1 (en) Cognitive service updates via container instantiation
Fourneret et al. Digital Normativity: a challenge for human subjectivation
CN113781160B (zh) 一种基于人工智能的商品推荐的方法
CN112905845B (zh) 离散智能制造应用的多源非结构化数据清洗方法
Wang et al. Construction of a novel production develop decision model based on text mined
JP2019215823A (ja) 抽出装置、評価装置、抽出方法および抽出プログラム
Sunsirikul et al. Associative classification mining in the behavior study of autism spectrum disorder
Al Diabat et al. Ensemble learning model for screening autism in children
Salam et al. Probabilistic rule learning systems: A survey
CN116057503A (zh) 自然解决方案语言
CN108447565B (zh) 一种基于改进降噪自动编码器的小于胎龄儿预测方法
Hewahi et al. Neural Networks Representation for Semantic Networks
KR102677019B1 (ko) 리뷰 데이터 기반 마케팅 카피라이트 생성 시스템 및 그 방법

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040203