JPH11134364A

JPH11134364A - 体系化知識解析方法及び装置並びに分類方法及び装置

Info

Publication number: JPH11134364A
Application number: JP9316245A
Authority: JP
Inventors: Atou Go; 亜棟呉; Fujiki Fujii; 藤樹藤居; Manabu Sakaguchi; 学坂口; Taiji Sogo; 太治十河; Akira Sawada; 晃澤田
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 1997-10-31
Filing date: 1997-10-31
Publication date: 1999-05-21

Abstract

(57)【要約】【課題】構造化データの状態について十分に知らなく
ても、未分類の書類をその内容にあった所定の末端クラ
スを抽出し、関連づけることができる体系化知識解析装
置及び分類装置を提供すること【解決手段】体型化知識解析装置１０にて、既存の構
造化データとそれに関連する文書情報を取得し、知識体
系辞書作成部１２にて構造化データの同一の末端クラス
に属する文書に対してキーワード抽出処理をし、重要語
と重みからなる特徴ベクトルを生成し、それを末端クラ
スの特徴として上記取得した情報とともに分類体系知識
辞書１３に格納する。未分類の文書を取得した場合、自
動分類装置２０の情報抽象化部２２によりキーワード抽
出処理して特徴ベクトルを求め、それを情報分類部２３
にてすでに登録された各末端クラスの特徴ベクトルとマ
ッチングを採り、一致度の高い末端クラスに割り付け
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、体系化知識解析方
法及び装置並びに分類方法及び装置に関するものであ
る。

【０００２】

【従来の技術】現在、情報入手の一手段としてインター
ネットが用いられている。よく知られているように、イ
ンターネットを上手に使うことにより、莫大な量と質の
情報を入手することができる。そして、そのように大量
に入手した情報の中から必要な情報を効率よく抽出する
ことが必要不可欠である。また、インターネットは、世
界中に存在する情報を入手することが可能になる一方、
そのように大量に存在する情報の中から必要な情報を抽
出するのも重要で多大な労力が必要となる。

【０００３】さらに、同様のことは、自分で各種のデー
タベースを作成する場合にも言える。つまり、インター
ネットを介して、及びまたは別の手段を介して各種の情
報を取得することは比較的容易にできる。従って、何ら
かのデータベースを作成するに際し、登録する情報は集
まるものの、その登録した情報をその後に検索する場合
の効率を考えると、内容に応じた分類分けをする必要が
ある。そして、そのような分類分けをうまく行えるか否
かが、その後のデータベースの使い勝手の良し悪しに顕
著に反映される。

【０００４】そして、ある情報を抽出するための検索シ
ステムとしては、一般にキーワード検索が行われてい
る。これは、入力されたキーワードをテキストデータ中
に含む情報を抽出することを基本としている。しかし、
単純なキーワード検索では、たまたま文書中にキーワー
ドと同一の言語を含んでいても抽出されてしまい、検索
効率が悪い。

【０００５】そこで、関連する分野を絞り込むようにし
てある程度階層付けを行い、メタクラスで分岐させるツ
リー状の構造化データを作成し、そのツリーの最終端で
ある末端クラスに、該当する情報を関連づけることが行
われている。そして、検索しようとした場合には、その
ツリーに従って、順次下位の階層に進んでいき、最終的
に必用な情報を抽出するようにしたものもある。

【０００６】

【発明が解決しようとする課題】しかしながら、上記し
た従来の階層付け（ツリー）を行ったシステムの場合に
は、使用者はツリーがどのように分岐され、最終的にど
のような末端クラスがあるかを予め知っている必要があ
るので、係るツリー構造に対する知識が十分でないと、
検索効率が悪く、所望の情報を抽出することができなく
なるおそれがある。また、新たに入手した情報を、すで
にあるツリーの所望の末端クラスに関連づけようとした
場合に、検出対象が属する分野（産業分野）である対象
領域についての体系的な知識（ツリー構造）に対する知
識が十分でないと、どの末端クラスに関連づければよい
かわからず、間違って関連づけるおそれもあり、そうす
ると、その後の検索効率はさらに悪くなる。

【０００７】本発明は、上記した背景に鑑みてなされた
もので、その目的とするところは、上記した問題を解決
し、構造化データの状態について十分に知らなくても、
未分類の書類をその内容に合った所定の末端クラスを抽
出し、関連づけることができ、また、必要な情報につい
て記載された書類を容易に検索することのできる体系化
知識解析方法及び装置並びに分類方法及び装置を提供す
ることにある。

【０００８】

【課題を解決するための手段】上記した目的を達成する
ために、本発明に係る体系化知識解析方法では、複数の
文書を体系的に分類・整理した構造化データと、その構
造化データにより分類分けされた前記複数の文書を取得
し（オンライン或いはオフラインのいずれでも良い）、
前記取得した各文書の特徴量を抽出するとともに、同一
の末端クラスに属する文書の前記特徴量に基づいてその
末端クラスの内容を特定する特徴量を決定することによ
り、前記構造化データの体系を解析し、前記決定した末
端クラスの特徴量と、前記構造化データ並びに前記複数
の文書を関連づけて記憶手段に格納するようにした（請
求項１）。

【０００９】また、前記構造化データを構成する前記末
端クラスと、その末端クラスまでにいたる複数の分岐点
となるメタクラスの接続関係を検索し、各クラスに対し
それと関連する上位クラス・下位クラス並びに同位クラ
スへのポインタを関連づけて前記記憶手段に格納するこ
とにより、前記構造化データの体系の解析をするように
してもよい（請求項２）。

【００１０】また、本発明に係る分類方法は、請求項１
または２の方法を実行して得られた体系化知識を用いて
未分類の文書を適当な末端クラスに関連づける分類方法
であって、処理対象の文書に対して、請求項１と同様の
特徴量抽出処理を行い、その処理対象の文書の特徴量を
求め、次いで、その求めた特徴量と、請求項１により得
られた各末端クラスの特徴量とのマッチングをとり、一
致度の高い末端クラスに前記処理対象の文書を関連づけ
て前記記憶手段に格納するようにした（請求項３）。ま
た、マッチングを採るに際し、その前処理として処理対
象の文書が複数存在する場合には、各文書に対する特徴
量を求めた後、各文書の特徴量をクラスタリングして、
特徴量の近い文書同士を一つのグループにまとめるとと
もに、そのグループの代表特徴量を生成し、その求めた
代表特徴量と、請求項１により得られた各末端クラスの
特徴量とのマッチングをとり、一致度の高い末端クラス
に前記グループを関連づけて前記記憶手段に格納するよ
うにしてもよい（請求項４）。

【００１１】そして、上記した請求項３または４の分
類方法を実行して未分類の文書を前記末端クラスに関連
づけた後、所定のタイミングでその未分類の文書の特徴
量と、その関連づけられた末端クラスの特徴量に基づい
て、新たな前記末端クラスの特徴量を生成するととも
に、前記記憶手段の記憶内容を更新するようにしてもよ
い（請求項５）。

【００１２】そして、前記特徴量は、例えば文書中に存
在する重要語と、その重要語についての重みとすること
ができる（請求項６）。係る場合、各請求項で記載した
特徴量抽出処理は、文書中の語句からキーワードを自動
的に抽出する各種のキーワード抽出システム・アルゴリ
ズムを用いることができる。

【００１３】そして、上記した各方法を実施するために
適した装置としては、例えば、複数の文書を体系的に分
類・整理した構造化データと、その構造化データにより
分類分けされた前記複数の文書を取得する知識獲得手段
と、その知識獲得手段の後段に設けられ、前記取得した
各文書の特徴量を抽出するとともに、同一の末端クラス
に属する文書の前記特徴量に基づいて末端クラスの内容
を特定する特徴量を求める知識体系辞書作成手段と、そ
の知識体系辞書作成手段で生成された前記末端クラスの
特徴量と、前記知識獲得手段で獲得した前記構造化デー
タ並びに前記複数の文書を関連づけて格納する記憶手段
とを備えた体系化知識解析装置（請求項７）とすること
ができる。

【００１４】そして、係る請求項７に記載の体系化知識
解析装置で解析して得られた体系化知識を用いて未分類
の文書を適当な末端クラスに関連づける分類装置では、
処理対象の文書を取得する情報収集手段と、その情報収
集手段で取得した所定の文書に対し特徴量抽出処理を行
い、その処理対象の文書の特徴量を求める情報抽象化手
段と、その情報抽象化手段で求めた特徴量と、前記体系
化知識解析装置に格納された各末端クラスの特徴量との
マッチングをとり、一致度の高い末端クラスに前記処理
対象の文書を関連づけて記憶させる情報分類手段とを備
えるように構成することができる（請求項８）。そし
て、前記情報抽象化手段は、複数の文書を一括して処理
する際に、各文書の特徴量からクラスタリングを行い、
特徴量の近い文書同士を一つのグループにまとめるとと
もに、そのグループの代表特徴量を生成する機能を有
し、前記情報分類手段は、その代表特徴量と、各末端ク
ラスの特徴量とのマッチングをとるものとしてもよい
（請求項９）。

【００１５】＊用語の定義「構造化データ」は、例えばツリー構造（階層構造）等
のように特定の分野における文書情報を体系的に分類・
整理する際に用いる分類の仕様・体系そのものを示す情
報である。また、「体系化知識」は、構造化データがど
のような意味・視点等にたって分類されているかを示す
知識であり、本発明では、少なくとも上記構造化データ
を構成する末端クラス（それより下位に分岐されるクラ
スがなく、文書データが接続されている）がどのような
内容の文書を接続すれば良いかを示す知識であればよ
い。

【００１６】

【発明の実施の形態】まず、本実施の形態が取得する構
造化データの一例を示すと、図１のようになっている。
図示の例では、各種のニュースをその内容に応じて分類
分けしている。すなわち、最上位のメタクラスである
「Ｎｅｗｓ」の下に「Ｓｐｏｒｔｓ」，「Ｅｃｏｎｏｍ
ｉｃｓ」……等の各分野に分けられ、さらに各分野はそ
の内容に応じて細分類化される。そして、分類分けがで
きないものが末端クラス（図中ハッチングで示す）とな
り、各末端クラスに該当する書類（ドキュメント）が関
連づけられている。なお、当然のことながら各末端クラ
スに関連づけられた各種の書類は、そのメタクラスの上
位に接続されたすべてのメタクラスの要件・内容を満た
すものである。

【００１７】そして、図示するようなツリー構造で各対
象領域についてその分類構造を体系的に表わしたもの
は、例えばインターネット上の検索ソフト（サイト）に
予め構築されていることが多く、ある情報を検索したい
場合には、通常係るサイトにアクセスし、関連づけられ
た各メタクラスを順番に辿りながら、目的とする末端ク
ラスに到達し、そこに属する書類を閲覧したり一括して
ダウンロードしたり、他のサイトに飛んだりすることに
なる。また、そのようなツリー構造を作成した人はもち
ろんのこと、他の人も新たな書類を該当する末端クラス
に関連づけることもある。

【００１８】そこで本形態では、上記したすでに存在す
る構造化データ及びそれに関連づけられた書類を取得
し、その構造化データの解析を行うとともに、その解析
により取得した分類体系化知識に基づいて新たに入手し
た情報をその構造化データの所定の末端クラスに関連づ
けを行うことができるようにしている。そして、係る処
理を行うための具体的なシステム構成の一例を示すと、
図２のようになっている。

【００１９】同図に示すように、本システムは、体系化
知識解析装置１０と、その体系化知識解析装置１０にて
解析した結果に基づいて、新たに入手した情報（書類）
を分類整理する自動分類装置２０と、上記した各装置１
０，２０により構築したデータベースに対して情報検索
を行う検索装置３０の各実施の形態を備えている。

【００２０】まず、体系化知識解析装置１０は、入力側
に分類体系知識獲得部１１を備え、インターネットなど
を介して既存の構造化データを取得する。この時、取得
するのは図１に示すようなツリー構造の構造化データ自
体と、それに関連づけられた書類である。

【００２１】そして、そのようにして取得したデータを
次段の知識体系辞書作成部１２に与える。この知識体系
辞書作成部１２は、解析対象の末端クラスに関連づけら
れた書類（文書）、すなわち、実例データを受け取り
（ＳＴ１）、各書類ごとに特徴ベクトルを生成する（Ｓ
Ｔ２）。

【００２２】この書類の特徴ベクトルの生成処理の一例
を示すと、まず処理対象の文書中の重要語リストを抽出
する。この重要語リストの抽出は、例えば文書中に存在
するすべての名詞を抽出し、その名詞の出現回数などに
基づいて各名詞に重み付けを行い、重みの大きいものの
うち上から所定数を重要語リストとして抽出する等、デ
ータベース作成時に用いられる各種のキーワード自動抽
出アルゴリズムを用いることができる。そして、その抽
出された重要語と重みを関連づけたデータをその文書に
ついての特徴ベクトルとする。係る特徴ベクトルは、そ
の末端クラスに属するすべての書類について行う。従っ
て、末端クラスに関連づけられた種類の数だけ文書の特
徴ベクトルが生成される。

【００２３】次いで、それら生成されたすべての特徴ベ
クトルの平均化処理を行い、その末端クラスに属するす
べての書類の平均特徴ベクトルを求め、それをその末端
クラスの特徴ベクトルとする（ＳＴ３，ＳＴ４）。上記
した平均化処理は、例えばステップ２で求めた同一の末
端クラスに属するすべての文書の特徴ベクトルは、重要
語とその重みにより構成されているので、各文書で抽出
された重要語をすべて拾い出すとともに、それについて
付された重みの平均値をとる。単純な平均値の求め方と
しては、同一の重要語の重みをすべて加算し、その加算
値を末端クラスに属する文書数で割ることにより各重要
語の末端クラスにおける重みが求められる。

【００２４】そして、少なくとも１つの文書から抽出さ
れた重要語はすべてその末端クラスにおける重要語とし
て特徴ベクトルに反映させるようにしてもよいし、その
ように平均化処理をして得られた重みが一定の値以上の
重要語を最終的に残してもよいし、或いは、重みの大き
い語句から所定数を最終的に重要語（キーワード）とし
て残すようにしてもよく、各種の方式をとることができ
る。さらに、各文書で同一の重要語が抽出された場合に
は、係る重要語はその末端クラスに属する書類を特徴づ
けるものとしてより重要であるといえ、１または少数の
書類にのみ抽出された重要語は、その末端クラスに属す
る書類を特徴づけるものとしてはさほど重要でないとい
える。従って、各書類における重みとともに、同一の末
端クラスに属する書類のなかで、抽出された数の多い重
要語の重みを重くするように処理してもよい。

【００２５】そして、そのようにして得られた末端クラ
スの特徴ベクトルは、例えば図４に示すようなデータ構
造となる。ここで、グループＮｏは、各末端クラスを特
定する番号であり、ＫＷ数はそこで抽出された重要語の
数であり、ＫＷｊは、具体的に抽出された重要語であ
り、ｗｊは、ＫＷｊについての重みである。そして、上
記した処理を取得したすべての末端クラスについて求め
る。そして、そのようにして求めた各末端クラスについ
ての特徴ベクトルを、次段の分類体系知識辞書１３に格
納する。

【００２６】また、知識体系辞書作成部１２は、上記し
た各末端クラスの特徴ベクトルを生成する機能に加え、
図１に示すようなツリー構造をデータ化する機能も有し
ている。すなわち、図１に示すようなツリー構造は、図
５に示すように、最上位（図示の例では「Ｎｅｗｓ」）
のレベル０から順に下位にいくに従ってレベルが１ずつ
増えていくとする。そして、各メタクラス・末端クラス
についてレベル付けを行うとともに、クラス間の接続関
係を求める。そして、各クラスの接続先（ポインタ）を
見つけるとともに、両者のレベルの大小関係を比較し、
接続先が上位／下位／同位かを判断する。さらに、その
クラスがメタクラスか末端クラスかの弁別も行う。

【００２７】そして、係る処理を行った結果、図６に示
すような各クラスについての「クラス名・レベル・接続
先を示すポインタ及び末端クラスか否かのフラグ」を関
連づけたテーブルを作成する。さらに、末端クラスの場
合には、それより下位のクラスがないため、その下位ポ
インタの欄には、その末端クラスについて求めた特徴ベ
クトルを格納したアドレスを下位のポインタとして登録
している。そして、そのようにして形成したテーブル
を、分類体系知識辞書１３に格納するようにしている。

【００２８】さらに本形態では、体系化知識解析装置１
０には、知識更新部１４を備え、所定のタイミングで分
類体系知識辞書１３に格納した末端クラスの特徴ベクト
ルを更新するようにしている。具体的には、後述する自
動分類装置２０により新たに分類整理して追加された書
類が所定数たまった場合に、それら追加された書類を含
めてその時存在する末端クラスに属する書類に対して、
上記したのと同様の処理を実行し新たな特徴ベクトルを
生成し、書き換える。

【００２９】すなわち、既存の末端クラスに付されてい
る特徴ベクトルを構成する重要語（重み付き）と、新た
に入手した情報から得られた特徴ベクトル（後述するト
ピック情報）を構成する重要語（重み付き）の和集合を
求め、その和集合を該当する末端クラスの新たな特徴ベ
クトルとする。そして、各重要語の重みは、既存の特徴
ベクトルの重要語の重みと新たに入手した情報の重要語
の重みの加重平均により求めるようにしている。なお、
上記した和集合を構成する重要語が、元の特徴ベクトル
にない場合には、そのない方の特徴ベクトルにおける当
該重要語の重みは０として加重平均を求めることにして
いる。

【００３０】一方、自動分類装置２０は、図７に示すよ
うな処理フローを実行する機能を備えており、具体的に
は、入力側に情報収集部２１を有し、その情報収集部２
１は、インターネットなどを介して未整理の文書情報
（書類）を取得し、次段の情報抽象化部２２に与える。
この時入手する書類としては、単一でもよいし複数でも
よい（ＳＴ１１）。

【００３１】この情報抽象化部２２は、図７におけるス
テップ１２，１３を実行するもので、まず、取得したす
べての書類に対し、書類ごとの特徴ベクトルを生成する
（ＳＴ１２）。係る生成処理は、知識体系辞書作成部１
２における処理と同様のものを用いることができる。次
いで、複数の書類を取得した場合には、各書類の特徴ベ
クトル（重要語とその重み情報）についてクラスタリン
グを行い、類似する物同士をグループ化する。次いで、
各グループを代表する特徴ベクトル（代表特徴ベクト
ル）を求める。この代表特徴ベクトルは、例えば知識体
系辞書作成部１２において末端クラスの特徴ベクトルを
生成したのと同様に、そのグループに属する書類につい
ての特徴ベクトルの平均値を求めることにより簡単に生
成できる。もちろん、他の手法により求めてもよい。こ
こまでの処理がステップ１３であり、この処理を実行し
て得られたグループを構成する書類と、その代表特徴ベ
クトル情報を次段の情報分類部２３に送る。

【００３２】情報分類部２３では、分類体系知識辞書１
３に格納された各末端クラスの特徴ベクトルを読み出す
とともに、与えられた各グループについての代表特徴ベ
クトルを比較し、マッチングをとる（ＳＴ１４）。この
時、比較する両特徴ベクトルを構成するキーワード数を
同じにすべく、重みの大きい重要語からｋ個を抽出して
グループについてのトピック情報を求め、その重要語と
重みに基づいてマッチングをとり、最も一致する特徴ベ
クトルの末端クラスにそのグループを構成する未知の書
類を割り付けることを決定する（ＳＴ１５）。

【００３３】ここで、トピック情報のデータ構造として
は、例えば図８に示すようになっており、図４に示す各
末端クラスの特徴ベクトルと同様のデータ構造で、違う
のは、図４のものが先頭がクラス名であるのに対し、図
８のものは未連結なためそのグループ番号が先頭である
点である。そして、マッチング処理により、特徴ベクト
ルが最も近い末端クラスが決定されると、図９に示すよ
うなテーブルのうち、グループ番号，グループを構成す
る文書・書類が格納された先頭のデータレコードへのポ
インタ並びにステップ１５で決定された関連づけられる
末端クラス名を登録する。

【００３４】また、階層レベルや、その末端クラス名が
接続される上位クラスや同位クラスへのポインタは、関
連づけられた分類クラス名が決まると一義的に決まるの
で、分類体系知識辞書１３にアクセスして係る階層レベ
ルや各所へのポインタデータを抽出し、登録する。な
お、特徴ベクトルのマッチング処理は公知の各種のもの
を用いることができるので、その詳細な説明を省略す
る。

【００３５】そして、上記のように未知のグループの割
付（関連先の末端クラスの決定）が終了したならば、そ
の結果を出力表示すべくデータを加工する。それがステ
ップ１６である。つまり、グループが複数存在する場合
には、相関がとれずにバラバラになっており、しかも、
本形態では、未知情報を入手する都度、構造化データに
おける末端クラスの特徴ベクトルを更新するのではない
ので、次の更新処理をするまでに、何回か上記した入手
した未知の書類に対するグループ化に基づくトピック情
報（特徴ベクトル）の生成に伴う分類処理を行っている
場合には、同一の末端クラスに属するグループが複数存
在することもある。従って、それらを統計だてて出力表
示するために、データを加工するようにしている。

【００３６】そして、そのステップ１６の具体的な処理
は、図１０に示すようになる。すなわち、ステップ１５
を実行して処理対象のすべてのグループの割り付けが終
わったならば、上記した図８，図９に示す各グループの
割付結果のデータを取得し、それを図１１（Ａ）に示す
ような出力データ（Ａ）に変換する（ＳＴ１６ａ）。つ
まり、同一グループについての図８，図９に示すデータ
のうち、出力データ（Ａ）の各欄に該当するものを登録
することにより行う。この時、同一の末端クラスに属す
るグループが複数ある場合には、その末端クラスについ
ての出力データ（Ａ）に登録する。これにより、同一の
末端クラスに属する書類は、１つのデータレコードにま
とめられる。

【００３７】次に、出力データ（Ａ）の集合に対し、同
位クラスへのポインタの項目に基づいてソートし、それ
より各上位クラスを抽出する。この上位クラスの抽出
は、例えば上位クラスへのポインタに基づいて容易に行
える。この抽出に従い、図１１（Ｂ）に示すような出力
データ（Ｂ）を生成する（ＳＴ１６ｂ，１６ｃ）。上位
クラスは当然のことながらそれに続く下位クラスが存在
する（上位クラスの抽出のもとになったもの）。

【００３８】これにより、末端クラスから一つ上の階層
レベルに属する上位クラスについてのデータが生成され
る。そして、その上位クラスもさらにその上位クラスが
存在することがあるので、生成された各出力データ
（Ｂ）で、共通の上位クラスがあるか否かを判断し（Ｓ
Ｔ１６ｄ）、ある場合には、ステップ１６ｃに戻りさら
にその上位クラスについての出力データ（Ｂ）を生成す
る。

【００３９】そして、係る分類クラスについての出力デ
ータ（Ａ），（Ｂ）を次段の結果表示部２４に与える。
結果表示部２４では、取得した出力データに対し、階層
レベルをキーにソートし、図１２に示すような出力用の
データ構造からなるデータを作成し、それに基づいて、
出力装置２５に結果を表示する。具体的には、例えば図
１３に示すように、構造化データ（ツリー構造）ととも
に、各末端クラスに属するトピック情報を表示したり、
図１４に示すように具体的な重要語（キーワード）を表
示したりすることができる。

【００４０】なお、上記した処理をしてもトピック情報
と既存の末端クラスの特徴ベクトルとの一致度が低く、
どれとも関連づけられない場合もある。係る場合には、
例えば上記の表示された構造化データをみながら、マニ
ュアル操作により、妥当なメタクラスの下に末端クラス
名を作成し、それを新しい知識として既存の知識体系に
追加するようにしている。

【００４１】また、情報分類部２３は、分類体系知識辞
書１３に格納された構造化データとそれに関連づけられ
る書類及び体系化知識（末端クラスの特徴ベクトル）
や、新たに入出した書類（グループ）等の情報を全文検
索データベース３１に格納するようにしている。

【００４２】検索装置３０は、上記全文検索データベー
ス３１と、情報検索部３２を備えており、キーボードな
どの入力装置３３を介して与えられた検索キーに基づい
て情報検索部３２が全文検索データベース３１をアクセ
スし、該当する文書を抽出するようにしている。そし
て、その抽出結果は、結果表示部２４を介して表示装置
２５に表示するようにしている。

【００４３】そして、この情報検索部３２における検索
処理としては、従来の全文一括のキーワード検索と同様
に、全文検索データベース３１中に登録された各書類の
テキストデータをすべてサーチし、文書中に入力された
キーワードを含む文書を抽出することができる。また、
上記した特徴ベクトルを利用して、必要な情報を有する
末端クラスを抽出し、それに属する書類を表示したり、
一括してダウンロードしたり、目次などを表示して所定
の書類を選択することなどができるようになっている。
そして、具体的な検索方式としては、例えば特徴ベクト
ルとして、検索したい情報について含まれると予想する
重要語とその重みを関連づけたものを複数個入力する。
そして、入力した重要語と重みと、すでに登録された各
末端クラスについての特徴ベクトルとのマッチングを採
り、最も近いものを該当する末端クラスと決定し、抽出
することができる。

【００４４】

【発明の効果】以上のように、本発明に係る体系化知識
解析方法及び装置並びに分類方法及び装置では、端末ク
ラスに関連づけられた文書の特徴量を抽出し、同一の端
末クラスに損する文書の特徴量からその端末クラスの特
徴量を決定するため、具体的な構造化データの状態につ
いて十分に知らなくても、未分類の書類をその内容にあ
った所定の末端クラスを抽出し、関連づけることができ
る。

【００４５】また、そのように取得した構造化データと
文書に、解析した特徴量を関連づけて登録するため、そ
の後に必要な情報を検索する場合には、特に構造化デー
タの状態を知らなくても、係る特徴量を検索キーにして
サーチすることにより、必要な書類が関連づけられてい
る末端クラスを抽出できる。つまり、単純なキーワード
検索よりも高精度で、不要な情報を抽出する可能性を低
く抑えることができる。

【図面の簡単な説明】

【図１】構造化データの一例を示す図である。

【図２】本発明の好適な一実施の形態を示すブロック図
である。

【図３】知識体系辞書作成部の機能の一部を示すフロー
チャートである。

【図４】特徴ベクトルのデータ構造を示す図である。

【図５】構造化データを解析する際のポインタを説明す
る図である。

【図６】知識体系辞書作成部で解析して得られた各クラ
スの接続関係を登録する際のデータ構造を示す図であ
る。

【図７】分類装置の機能を説明するフローチャートであ
る。

【図８】クラスタリングにより得られた結果を格納する
際のデータ構造の一例を示す図である。

【図９】分類クラスの割り付けにより得られた結果を格
納する際のデータ構造の一例を示す図である。

【図１０】上位クラスの決定アルゴリズムを説明するフ
ローチャートである。

【図１１】出力用のデータレコード仕様を示すデータ構
造図である。

【図１２】出力用のデータ構造を示す図である。

【図１３】出力表示例を示す図である。

【図１４】出力表示例を示す図である。

【符号の説明】

１０体系化知識解析装置１１分類体系知識獲得部１２知識体系辞書作成部１３分類体系知識辞書１４知識更新部２０自動分類装置２１情報収集部２２情報抽象化部２３情報分類部２４結果表示部２５表示装置３０検索装置３１全文検索データベース３２情報検索部３３入力装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者十河太治京都府京都市右京区花園土堂町10番地オムロン株式会社内 (72)発明者澤田晃京都府京都市右京区花園土堂町10番地オムロン株式会社内

Claims

【特許請求の範囲】

【請求項１】複数の文書を体系的に分類・整理した構
造化データと、その構造化データにより分類分けされた
前記複数の文書を取得し、前記取得した各文書の特徴量を抽出するとともに、同一
の末端クラスに属する文書の前記特徴量に基づいてその
末端クラスの内容を特定する特徴量を決定することによ
り、前記構造化データの体系を解析し、前記決定した末端クラスの特徴量と、前記構造化データ
並びに前記複数の文書を関連づけて記憶手段に格納する
ようにした体系化知識解析方法。
【請求項２】前記構造化データを構成する前記末端ク
ラスと、その末端クラスまでにいたる複数の分岐点とな
るメタクラスの接続関係を検索し、各クラスに対しそれと関連する上位クラス・下位クラス
並びに同位クラスへのポインタを関連づけて前記記憶手
段に格納することにより、前記構造化データの体系の解
析をするようにした請求項１に記載の体系化知識解析方
法。
【請求項３】請求項１または２の方法を実行して得ら
れた体系化知識を用いて未分類の文書を適当な末端クラ
スに関連づける分類方法であって、処理対象の文書に対して、請求項１と同様の特徴量抽出
処理を行い、その処理対象の文書の特徴量を求め、次いで、その求めた特徴量と、請求項１により得られた
各末端クラスの特徴量とのマッチングをとり、一致度の
高い末端クラスに前記処理対象の文書を関連づけて前記
記憶手段に格納するようにした分類方法。
【請求項４】請求項１または２の方法を実行して得ら
れた体系化知識を用いて未分類の文書を適当な末端クラ
スに関連づける分類方法であって、複数の文書に対してそれぞれ請求項１と同様の特徴量抽
出処理を行い、各文書ごとに特徴量を求め、各文書の特徴量をクラスタリングして、特徴量の近い文
書同士を一つのグループにまとめるとともに、そのグル
ープの代表特徴量を生成し、次いで、その求めた代表特徴量と、請求項１により得ら
れた各末端クラスの特徴量とのマッチングをとり、一致
度の高い末端クラスに前記グループを関連づけて前記記
憶手段に格納するようにした分類方法。
【請求項５】請求項３または４の方法を実行して未分
類の文書を前記末端クラスに関連づけた後、所定のタイミングでその未分類の文書の特徴量と、その
関連づけられた末端クラスの特徴量に基づいて、新たな
前記末端クラスの特徴量を生成するとともに、前記記憶
手段の記憶内容を更新するようにした請求項１または２
に記載の体系化知識解析方法。
【請求項６】前記特徴量は、文書中に存在する重要語
と、その重要語についての重みである請求項１，２，５
のいずれか１項に記載の体系化知識解析方法。
【請求項７】複数の文書を体系的に分類・整理した構
造化データと、その構造化データにより分類分けされた
前記複数の文書を取得する知識獲得手段と、その知識獲得手段の後段に設けられ、前記取得した各文
書の特徴量を抽出するとともに、同一の末端クラスに属
する文書の前記特徴量に基づいて末端クラスの内容を特
定する特徴量を求める知識体系辞書作成手段と、その知識体系辞書作成手段で生成された前記末端クラス
の特徴量と、前記知識獲得手段で獲得した前記構造化デ
ータ並びに前記複数の文書を関連づけて格納する記憶手
段とを備えた体系化知識解析装置。
【請求項８】請求項７に記載の体系化知識解析装置で
解析して得られた体系化知識を用いて未分類の文書を適
当な末端クラスに関連づける分類装置であって、処理対象の文書を取得する情報収集手段と、その情報収集手段で取得した所定の文書に対し特徴量抽
出処理を行い、その処理対象の文書の特徴量を求める情
報抽象化手段と、その情報抽象化手段で求めた特徴量と、前記体系化知識
解析装置に格納された各末端クラスの特徴量とのマッチ
ングをとり、一致度の高い末端クラスに前記処理対象の
文書を関連づけて記憶させる情報分類手段とを備えた分
類装置。
【請求項９】前記情報抽象化手段は、複数の文書を一
括して処理する際に、各文書の特徴量からクラスタリン
グを行い、特徴量の近い文書同士を一つのグループにま
とめるとともに、そのグループの代表特徴量を生成する
機能を有し、前記情報分類手段は、その代表特徴量と、各末端クラス
の特徴量とのマッチングをとるものである請求項８に記
載の分類装置。