JPH11134364A - 体系化知識解析方法及び装置並びに分類方法及び装置 - Google Patents

体系化知識解析方法及び装置並びに分類方法及び装置

Info

Publication number
JPH11134364A
JPH11134364A JP9316245A JP31624597A JPH11134364A JP H11134364 A JPH11134364 A JP H11134364A JP 9316245 A JP9316245 A JP 9316245A JP 31624597 A JP31624597 A JP 31624597A JP H11134364 A JPH11134364 A JP H11134364A
Authority
JP
Japan
Prior art keywords
class
document
knowledge
feature
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9316245A
Other languages
English (en)
Inventor
Atou Go
亜棟 呉
Fujiki Fujii
藤樹 藤居
Manabu Sakaguchi
学 坂口
Taiji Sogo
太治 十河
Akira Sawada
晃 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP9316245A priority Critical patent/JPH11134364A/ja
Publication of JPH11134364A publication Critical patent/JPH11134364A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 構造化データの状態について十分に知らなく
ても、未分類の書類をその内容にあった所定の末端クラ
スを抽出し、関連づけることができる体系化知識解析装
置及び分類装置を提供すること 【解決手段】 体型化知識解析装置10にて、既存の構
造化データとそれに関連する文書情報を取得し、知識体
系辞書作成部12にて構造化データの同一の末端クラス
に属する文書に対してキーワード抽出処理をし、重要語
と重みからなる特徴ベクトルを生成し、それを末端クラ
スの特徴として上記取得した情報とともに分類体系知識
辞書13に格納する。未分類の文書を取得した場合、自
動分類装置20の情報抽象化部22によりキーワード抽
出処理して特徴ベクトルを求め、それを情報分類部23
にてすでに登録された各末端クラスの特徴ベクトルとマ
ッチングを採り、一致度の高い末端クラスに割り付け
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、体系化知識解析方
法及び装置並びに分類方法及び装置に関するものであ
る。
【0002】
【従来の技術】現在、情報入手の一手段としてインター
ネットが用いられている。よく知られているように、イ
ンターネットを上手に使うことにより、莫大な量と質の
情報を入手することができる。そして、そのように大量
に入手した情報の中から必要な情報を効率よく抽出する
ことが必要不可欠である。また、インターネットは、世
界中に存在する情報を入手することが可能になる一方、
そのように大量に存在する情報の中から必要な情報を抽
出するのも重要で多大な労力が必要となる。
【0003】さらに、同様のことは、自分で各種のデー
タベースを作成する場合にも言える。つまり、インター
ネットを介して、及びまたは別の手段を介して各種の情
報を取得することは比較的容易にできる。従って、何ら
かのデータベースを作成するに際し、登録する情報は集
まるものの、その登録した情報をその後に検索する場合
の効率を考えると、内容に応じた分類分けをする必要が
ある。そして、そのような分類分けをうまく行えるか否
かが、その後のデータベースの使い勝手の良し悪しに顕
著に反映される。
【0004】そして、ある情報を抽出するための検索シ
ステムとしては、一般にキーワード検索が行われてい
る。これは、入力されたキーワードをテキストデータ中
に含む情報を抽出することを基本としている。しかし、
単純なキーワード検索では、たまたま文書中にキーワー
ドと同一の言語を含んでいても抽出されてしまい、検索
効率が悪い。
【0005】そこで、関連する分野を絞り込むようにし
てある程度階層付けを行い、メタクラスで分岐させるツ
リー状の構造化データを作成し、そのツリーの最終端で
ある末端クラスに、該当する情報を関連づけることが行
われている。そして、検索しようとした場合には、その
ツリーに従って、順次下位の階層に進んでいき、最終的
に必用な情報を抽出するようにしたものもある。
【0006】
【発明が解決しようとする課題】しかしながら、上記し
た従来の階層付け(ツリー)を行ったシステムの場合に
は、使用者はツリーがどのように分岐され、最終的にど
のような末端クラスがあるかを予め知っている必要があ
るので、係るツリー構造に対する知識が十分でないと、
検索効率が悪く、所望の情報を抽出することができなく
なるおそれがある。また、新たに入手した情報を、すで
にあるツリーの所望の末端クラスに関連づけようとした
場合に、検出対象が属する分野(産業分野)である対象
領域についての体系的な知識(ツリー構造)に対する知
識が十分でないと、どの末端クラスに関連づければよい
かわからず、間違って関連づけるおそれもあり、そうす
ると、その後の検索効率はさらに悪くなる。
【0007】本発明は、上記した背景に鑑みてなされた
もので、その目的とするところは、上記した問題を解決
し、構造化データの状態について十分に知らなくても、
未分類の書類をその内容に合った所定の末端クラスを抽
出し、関連づけることができ、また、必要な情報につい
て記載された書類を容易に検索することのできる体系化
知識解析方法及び装置並びに分類方法及び装置を提供す
ることにある。
【0008】
【課題を解決するための手段】上記した目的を達成する
ために、本発明に係る体系化知識解析方法では、複数の
文書を体系的に分類・整理した構造化データと、その構
造化データにより分類分けされた前記複数の文書を取得
し(オンライン或いはオフラインのいずれでも良い)、
前記取得した各文書の特徴量を抽出するとともに、同一
の末端クラスに属する文書の前記特徴量に基づいてその
末端クラスの内容を特定する特徴量を決定することによ
り、前記構造化データの体系を解析し、前記決定した末
端クラスの特徴量と、前記構造化データ並びに前記複数
の文書を関連づけて記憶手段に格納するようにした(請
求項1)。
【0009】また、前記構造化データを構成する前記末
端クラスと、その末端クラスまでにいたる複数の分岐点
となるメタクラスの接続関係を検索し、各クラスに対し
それと関連する上位クラス・下位クラス並びに同位クラ
スへのポインタを関連づけて前記記憶手段に格納するこ
とにより、前記構造化データの体系の解析をするように
してもよい(請求項2)。
【0010】また、本発明に係る分類方法は、請求項1
または2の方法を実行して得られた体系化知識を用いて
未分類の文書を適当な末端クラスに関連づける分類方法
であって、処理対象の文書に対して、請求項1と同様の
特徴量抽出処理を行い、その処理対象の文書の特徴量を
求め、次いで、その求めた特徴量と、請求項1により得
られた各末端クラスの特徴量とのマッチングをとり、一
致度の高い末端クラスに前記処理対象の文書を関連づけ
て前記記憶手段に格納するようにした(請求項3)。ま
た、マッチングを採るに際し、その前処理として処理対
象の文書が複数存在する場合には、各文書に対する特徴
量を求めた後、各文書の特徴量をクラスタリングして、
特徴量の近い文書同士を一つのグループにまとめるとと
もに、そのグループの代表特徴量を生成し、その求めた
代表特徴量と、請求項1により得られた各末端クラスの
特徴量とのマッチングをとり、一致度の高い末端クラス
に前記グループを関連づけて前記記憶手段に格納するよ
うにしてもよい(請求項4)。
【0011】そして、上記した 請求項3または4の分
類方法を実行して未分類の文書を前記末端クラスに関連
づけた後、所定のタイミングでその未分類の文書の特徴
量と、その関連づけられた末端クラスの特徴量に基づい
て、新たな前記末端クラスの特徴量を生成するととも
に、前記記憶手段の記憶内容を更新するようにしてもよ
い(請求項5)。
【0012】そして、前記特徴量は、例えば文書中に存
在する重要語と、その重要語についての重みとすること
ができる(請求項6)。係る場合、各請求項で記載した
特徴量抽出処理は、文書中の語句からキーワードを自動
的に抽出する各種のキーワード抽出システム・アルゴリ
ズムを用いることができる。
【0013】そして、上記した各方法を実施するために
適した装置としては、例えば、複数の文書を体系的に分
類・整理した構造化データと、その構造化データにより
分類分けされた前記複数の文書を取得する知識獲得手段
と、その知識獲得手段の後段に設けられ、前記取得した
各文書の特徴量を抽出するとともに、同一の末端クラス
に属する文書の前記特徴量に基づいて末端クラスの内容
を特定する特徴量を求める知識体系辞書作成手段と、そ
の知識体系辞書作成手段で生成された前記末端クラスの
特徴量と、前記知識獲得手段で獲得した前記構造化デー
タ並びに前記複数の文書を関連づけて格納する記憶手段
とを備えた体系化知識解析装置(請求項7)とすること
ができる。
【0014】そして、係る請求項7に記載の体系化知識
解析装置で解析して得られた体系化知識を用いて未分類
の文書を適当な末端クラスに関連づける分類装置では、
処理対象の文書を取得する情報収集手段と、その情報収
集手段で取得した所定の文書に対し特徴量抽出処理を行
い、その処理対象の文書の特徴量を求める情報抽象化手
段と、その情報抽象化手段で求めた特徴量と、前記体系
化知識解析装置に格納された各末端クラスの特徴量との
マッチングをとり、一致度の高い末端クラスに前記処理
対象の文書を関連づけて記憶させる情報分類手段とを備
えるように構成することができる(請求項8)。そし
て、前記情報抽象化手段は、複数の文書を一括して処理
する際に、各文書の特徴量からクラスタリングを行い、
特徴量の近い文書同士を一つのグループにまとめるとと
もに、そのグループの代表特徴量を生成する機能を有
し、前記情報分類手段は、その代表特徴量と、各末端ク
ラスの特徴量とのマッチングをとるものとしてもよい
(請求項9)。
【0015】*用語の定義 「構造化データ」は、例えばツリー構造(階層構造)等
のように特定の分野における文書情報を体系的に分類・
整理する際に用いる分類の仕様・体系そのものを示す情
報である。また、「体系化知識」は、構造化データがど
のような意味・視点等にたって分類されているかを示す
知識であり、本発明では、少なくとも上記構造化データ
を構成する末端クラス(それより下位に分岐されるクラ
スがなく、文書データが接続されている)がどのような
内容の文書を接続すれば良いかを示す知識であればよ
い。
【0016】
【発明の実施の形態】まず、本実施の形態が取得する構
造化データの一例を示すと、図1のようになっている。
図示の例では、各種のニュースをその内容に応じて分類
分けしている。すなわち、最上位のメタクラスである
「News」の下に「Sports」,「Econom
ics」……等の各分野に分けられ、さらに各分野はそ
の内容に応じて細分類化される。そして、分類分けがで
きないものが末端クラス(図中ハッチングで示す)とな
り、各末端クラスに該当する書類(ドキュメント)が関
連づけられている。なお、当然のことながら各末端クラ
スに関連づけられた各種の書類は、そのメタクラスの上
位に接続されたすべてのメタクラスの要件・内容を満た
すものである。
【0017】そして、図示するようなツリー構造で各対
象領域についてその分類構造を体系的に表わしたもの
は、例えばインターネット上の検索ソフト(サイト)に
予め構築されていることが多く、ある情報を検索したい
場合には、通常係るサイトにアクセスし、関連づけられ
た各メタクラスを順番に辿りながら、目的とする末端ク
ラスに到達し、そこに属する書類を閲覧したり一括して
ダウンロードしたり、他のサイトに飛んだりすることに
なる。また、そのようなツリー構造を作成した人はもち
ろんのこと、他の人も新たな書類を該当する末端クラス
に関連づけることもある。
【0018】そこで本形態では、上記したすでに存在す
る構造化データ及びそれに関連づけられた書類を取得
し、その構造化データの解析を行うとともに、その解析
により取得した分類体系化知識に基づいて新たに入手し
た情報をその構造化データの所定の末端クラスに関連づ
けを行うことができるようにしている。そして、係る処
理を行うための具体的なシステム構成の一例を示すと、
図2のようになっている。
【0019】同図に示すように、本システムは、体系化
知識解析装置10と、その体系化知識解析装置10にて
解析した結果に基づいて、新たに入手した情報(書類)
を分類整理する自動分類装置20と、上記した各装置1
0,20により構築したデータベースに対して情報検索
を行う検索装置30の各実施の形態を備えている。
【0020】まず、体系化知識解析装置10は、入力側
に分類体系知識獲得部11を備え、インターネットなど
を介して既存の構造化データを取得する。この時、取得
するのは図1に示すようなツリー構造の構造化データ自
体と、それに関連づけられた書類である。
【0021】そして、そのようにして取得したデータを
次段の知識体系辞書作成部12に与える。この知識体系
辞書作成部12は、解析対象の末端クラスに関連づけら
れた書類(文書)、すなわち、実例データを受け取り
(ST1)、各書類ごとに特徴ベクトルを生成する(S
T2)。
【0022】この書類の特徴ベクトルの生成処理の一例
を示すと、まず処理対象の文書中の重要語リストを抽出
する。この重要語リストの抽出は、例えば文書中に存在
するすべての名詞を抽出し、その名詞の出現回数などに
基づいて各名詞に重み付けを行い、重みの大きいものの
うち上から所定数を重要語リストとして抽出する等、デ
ータベース作成時に用いられる各種のキーワード自動抽
出アルゴリズムを用いることができる。そして、その抽
出された重要語と重みを関連づけたデータをその文書に
ついての特徴ベクトルとする。係る特徴ベクトルは、そ
の末端クラスに属するすべての書類について行う。従っ
て、末端クラスに関連づけられた種類の数だけ文書の特
徴ベクトルが生成される。
【0023】次いで、それら生成されたすべての特徴ベ
クトルの平均化処理を行い、その末端クラスに属するす
べての書類の平均特徴ベクトルを求め、それをその末端
クラスの特徴ベクトルとする(ST3,ST4)。上記
した平均化処理は、例えばステップ2で求めた同一の末
端クラスに属するすべての文書の特徴ベクトルは、重要
語とその重みにより構成されているので、各文書で抽出
された重要語をすべて拾い出すとともに、それについて
付された重みの平均値をとる。単純な平均値の求め方と
しては、同一の重要語の重みをすべて加算し、その加算
値を末端クラスに属する文書数で割ることにより各重要
語の末端クラスにおける重みが求められる。
【0024】そして、少なくとも1つの文書から抽出さ
れた重要語はすべてその末端クラスにおける重要語とし
て特徴ベクトルに反映させるようにしてもよいし、その
ように平均化処理をして得られた重みが一定の値以上の
重要語を最終的に残してもよいし、或いは、重みの大き
い語句から所定数を最終的に重要語(キーワード)とし
て残すようにしてもよく、各種の方式をとることができ
る。さらに、各文書で同一の重要語が抽出された場合に
は、係る重要語はその末端クラスに属する書類を特徴づ
けるものとしてより重要であるといえ、1または少数の
書類にのみ抽出された重要語は、その末端クラスに属す
る書類を特徴づけるものとしてはさほど重要でないとい
える。従って、各書類における重みとともに、同一の末
端クラスに属する書類のなかで、抽出された数の多い重
要語の重みを重くするように処理してもよい。
【0025】そして、そのようにして得られた末端クラ
スの特徴ベクトルは、例えば図4に示すようなデータ構
造となる。ここで、グループNoは、各末端クラスを特
定する番号であり、KW数はそこで抽出された重要語の
数であり、KWjは、具体的に抽出された重要語であ
り、wjは、KWjについての重みである。そして、上
記した処理を取得したすべての末端クラスについて求め
る。そして、そのようにして求めた各末端クラスについ
ての特徴ベクトルを、次段の分類体系知識辞書13に格
納する。
【0026】また、知識体系辞書作成部12は、上記し
た各末端クラスの特徴ベクトルを生成する機能に加え、
図1に示すようなツリー構造をデータ化する機能も有し
ている。すなわち、図1に示すようなツリー構造は、図
5に示すように、最上位(図示の例では「News」)
のレベル0から順に下位にいくに従ってレベルが1ずつ
増えていくとする。そして、各メタクラス・末端クラス
についてレベル付けを行うとともに、クラス間の接続関
係を求める。そして、各クラスの接続先(ポインタ)を
見つけるとともに、両者のレベルの大小関係を比較し、
接続先が上位/下位/同位かを判断する。さらに、その
クラスがメタクラスか末端クラスかの弁別も行う。
【0027】そして、係る処理を行った結果、図6に示
すような各クラスについての「クラス名・レベル・接続
先を示すポインタ及び末端クラスか否かのフラグ」を関
連づけたテーブルを作成する。さらに、末端クラスの場
合には、それより下位のクラスがないため、その下位ポ
インタの欄には、その末端クラスについて求めた特徴ベ
クトルを格納したアドレスを下位のポインタとして登録
している。そして、そのようにして形成したテーブル
を、分類体系知識辞書13に格納するようにしている。
【0028】さらに本形態では、体系化知識解析装置1
0には、知識更新部14を備え、所定のタイミングで分
類体系知識辞書13に格納した末端クラスの特徴ベクト
ルを更新するようにしている。具体的には、後述する自
動分類装置20により新たに分類整理して追加された書
類が所定数たまった場合に、それら追加された書類を含
めてその時存在する末端クラスに属する書類に対して、
上記したのと同様の処理を実行し新たな特徴ベクトルを
生成し、書き換える。
【0029】すなわち、既存の末端クラスに付されてい
る特徴ベクトルを構成する重要語(重み付き)と、新た
に入手した情報から得られた特徴ベクトル(後述するト
ピック情報)を構成する重要語(重み付き)の和集合を
求め、その和集合を該当する末端クラスの新たな特徴ベ
クトルとする。そして、各重要語の重みは、既存の特徴
ベクトルの重要語の重みと新たに入手した情報の重要語
の重みの加重平均により求めるようにしている。なお、
上記した和集合を構成する重要語が、元の特徴ベクトル
にない場合には、そのない方の特徴ベクトルにおける当
該重要語の重みは0として加重平均を求めることにして
いる。
【0030】一方、自動分類装置20は、図7に示すよ
うな処理フローを実行する機能を備えており、具体的に
は、入力側に情報収集部21を有し、その情報収集部2
1は、インターネットなどを介して未整理の文書情報
(書類)を取得し、次段の情報抽象化部22に与える。
この時入手する書類としては、単一でもよいし複数でも
よい(ST11)。
【0031】この情報抽象化部22は、図7におけるス
テップ12,13を実行するもので、まず、取得したす
べての書類に対し、書類ごとの特徴ベクトルを生成する
(ST12)。係る生成処理は、知識体系辞書作成部1
2における処理と同様のものを用いることができる。次
いで、複数の書類を取得した場合には、各書類の特徴ベ
クトル(重要語とその重み情報)についてクラスタリン
グを行い、類似する物同士をグループ化する。次いで、
各グループを代表する特徴ベクトル(代表特徴ベクト
ル)を求める。この代表特徴ベクトルは、例えば知識体
系辞書作成部12において末端クラスの特徴ベクトルを
生成したのと同様に、そのグループに属する書類につい
ての特徴ベクトルの平均値を求めることにより簡単に生
成できる。もちろん、他の手法により求めてもよい。こ
こまでの処理がステップ13であり、この処理を実行し
て得られたグループを構成する書類と、その代表特徴ベ
クトル情報を次段の情報分類部23に送る。
【0032】情報分類部23では、分類体系知識辞書1
3に格納された各末端クラスの特徴ベクトルを読み出す
とともに、与えられた各グループについての代表特徴ベ
クトルを比較し、マッチングをとる(ST14)。この
時、比較する両特徴ベクトルを構成するキーワード数を
同じにすべく、重みの大きい重要語からk個を抽出して
グループについてのトピック情報を求め、その重要語と
重みに基づいてマッチングをとり、最も一致する特徴ベ
クトルの末端クラスにそのグループを構成する未知の書
類を割り付けることを決定する(ST15)。
【0033】ここで、トピック情報のデータ構造として
は、例えば図8に示すようになっており、図4に示す各
末端クラスの特徴ベクトルと同様のデータ構造で、違う
のは、図4のものが先頭がクラス名であるのに対し、図
8のものは未連結なためそのグループ番号が先頭である
点である。そして、マッチング処理により、特徴ベクト
ルが最も近い末端クラスが決定されると、図9に示すよ
うなテーブルのうち、グループ番号,グループを構成す
る文書・書類が格納された先頭のデータレコードへのポ
インタ並びにステップ15で決定された関連づけられる
末端クラス名を登録する。
【0034】また、階層レベルや、その末端クラス名が
接続される上位クラスや同位クラスへのポインタは、関
連づけられた分類クラス名が決まると一義的に決まるの
で、分類体系知識辞書13にアクセスして係る階層レベ
ルや各所へのポインタデータを抽出し、登録する。な
お、特徴ベクトルのマッチング処理は公知の各種のもの
を用いることができるので、その詳細な説明を省略す
る。
【0035】そして、上記のように未知のグループの割
付(関連先の末端クラスの決定)が終了したならば、そ
の結果を出力表示すべくデータを加工する。それがステ
ップ16である。つまり、グループが複数存在する場合
には、相関がとれずにバラバラになっており、しかも、
本形態では、未知情報を入手する都度、構造化データに
おける末端クラスの特徴ベクトルを更新するのではない
ので、次の更新処理をするまでに、何回か上記した入手
した未知の書類に対するグループ化に基づくトピック情
報(特徴ベクトル)の生成に伴う分類処理を行っている
場合には、同一の末端クラスに属するグループが複数存
在することもある。従って、それらを統計だてて出力表
示するために、データを加工するようにしている。
【0036】そして、そのステップ16の具体的な処理
は、図10に示すようになる。すなわち、ステップ15
を実行して処理対象のすべてのグループの割り付けが終
わったならば、上記した図8,図9に示す各グループの
割付結果のデータを取得し、それを図11(A)に示す
ような出力データ(A)に変換する(ST16a)。つ
まり、同一グループについての図8,図9に示すデータ
のうち、出力データ(A)の各欄に該当するものを登録
することにより行う。この時、同一の末端クラスに属す
るグループが複数ある場合には、その末端クラスについ
ての出力データ(A)に登録する。これにより、同一の
末端クラスに属する書類は、1つのデータレコードにま
とめられる。
【0037】次に、出力データ(A)の集合に対し、同
位クラスへのポインタの項目に基づいてソートし、それ
より各上位クラスを抽出する。この上位クラスの抽出
は、例えば上位クラスへのポインタに基づいて容易に行
える。この抽出に従い、図11(B)に示すような出力
データ(B)を生成する(ST16b,16c)。上位
クラスは当然のことながらそれに続く下位クラスが存在
する(上位クラスの抽出のもとになったもの)。
【0038】これにより、末端クラスから一つ上の階層
レベルに属する上位クラスについてのデータが生成され
る。そして、その上位クラスもさらにその上位クラスが
存在することがあるので、生成された各出力データ
(B)で、共通の上位クラスがあるか否かを判断し(S
T16d)、ある場合には、ステップ16cに戻りさら
にその上位クラスについての出力データ(B)を生成す
る。
【0039】そして、係る分類クラスについての出力デ
ータ(A),(B)を次段の結果表示部24に与える。
結果表示部24では、取得した出力データに対し、階層
レベルをキーにソートし、図12に示すような出力用の
データ構造からなるデータを作成し、それに基づいて、
出力装置25に結果を表示する。具体的には、例えば図
13に示すように、構造化データ(ツリー構造)ととも
に、各末端クラスに属するトピック情報を表示したり、
図14に示すように具体的な重要語(キーワード)を表
示したりすることができる。
【0040】なお、上記した処理をしてもトピック情報
と既存の末端クラスの特徴ベクトルとの一致度が低く、
どれとも関連づけられない場合もある。係る場合には、
例えば上記の表示された構造化データをみながら、マニ
ュアル操作により、妥当なメタクラスの下に末端クラス
名を作成し、それを新しい知識として既存の知識体系に
追加するようにしている。
【0041】また、情報分類部23は、分類体系知識辞
書13に格納された構造化データとそれに関連づけられ
る書類及び体系化知識(末端クラスの特徴ベクトル)
や、新たに入出した書類(グループ)等の情報を全文検
索データベース31に格納するようにしている。
【0042】検索装置30は、上記全文検索データベー
ス31と、情報検索部32を備えており、キーボードな
どの入力装置33を介して与えられた検索キーに基づい
て情報検索部32が全文検索データベース31をアクセ
スし、該当する文書を抽出するようにしている。そし
て、その抽出結果は、結果表示部24を介して表示装置
25に表示するようにしている。
【0043】そして、この情報検索部32における検索
処理としては、従来の全文一括のキーワード検索と同様
に、全文検索データベース31中に登録された各書類の
テキストデータをすべてサーチし、文書中に入力された
キーワードを含む文書を抽出することができる。また、
上記した特徴ベクトルを利用して、必要な情報を有する
末端クラスを抽出し、それに属する書類を表示したり、
一括してダウンロードしたり、目次などを表示して所定
の書類を選択することなどができるようになっている。
そして、具体的な検索方式としては、例えば特徴ベクト
ルとして、検索したい情報について含まれると予想する
重要語とその重みを関連づけたものを複数個入力する。
そして、入力した重要語と重みと、すでに登録された各
末端クラスについての特徴ベクトルとのマッチングを採
り、最も近いものを該当する末端クラスと決定し、抽出
することができる。
【0044】
【発明の効果】以上のように、本発明に係る体系化知識
解析方法及び装置並びに分類方法及び装置では、端末ク
ラスに関連づけられた文書の特徴量を抽出し、同一の端
末クラスに損する文書の特徴量からその端末クラスの特
徴量を決定するため、具体的な構造化データの状態につ
いて十分に知らなくても、未分類の書類をその内容にあ
った所定の末端クラスを抽出し、関連づけることができ
る。
【0045】また、そのように取得した構造化データと
文書に、解析した特徴量を関連づけて登録するため、そ
の後に必要な情報を検索する場合には、特に構造化デー
タの状態を知らなくても、係る特徴量を検索キーにして
サーチすることにより、必要な書類が関連づけられてい
る末端クラスを抽出できる。つまり、単純なキーワード
検索よりも高精度で、不要な情報を抽出する可能性を低
く抑えることができる。
【図面の簡単な説明】
【図1】構造化データの一例を示す図である。
【図2】本発明の好適な一実施の形態を示すブロック図
である。
【図3】知識体系辞書作成部の機能の一部を示すフロー
チャートである。
【図4】特徴ベクトルのデータ構造を示す図である。
【図5】構造化データを解析する際のポインタを説明す
る図である。
【図6】知識体系辞書作成部で解析して得られた各クラ
スの接続関係を登録する際のデータ構造を示す図であ
る。
【図7】分類装置の機能を説明するフローチャートであ
る。
【図8】クラスタリングにより得られた結果を格納する
際のデータ構造の一例を示す図である。
【図9】分類クラスの割り付けにより得られた結果を格
納する際のデータ構造の一例を示す図である。
【図10】上位クラスの決定アルゴリズムを説明するフ
ローチャートである。
【図11】出力用のデータレコード仕様を示すデータ構
造図である。
【図12】出力用のデータ構造を示す図である。
【図13】出力表示例を示す図である。
【図14】出力表示例を示す図である。
【符号の説明】
10 体系化知識解析装置 11 分類体系知識獲得部 12 知識体系辞書作成部 13 分類体系知識辞書 14 知識更新部 20 自動分類装置 21 情報収集部 22 情報抽象化部 23 情報分類部 24 結果表示部 25 表示装置 30 検索装置 31 全文検索データベース 32 情報検索部 33 入力装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 十河 太治 京都府京都市右京区花園土堂町10番地 オ ムロン株式会社内 (72)発明者 澤田 晃 京都府京都市右京区花園土堂町10番地 オ ムロン株式会社内

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書を体系的に分類・整理した構
    造化データと、その構造化データにより分類分けされた
    前記複数の文書を取得し、 前記取得した各文書の特徴量を抽出するとともに、同一
    の末端クラスに属する文書の前記特徴量に基づいてその
    末端クラスの内容を特定する特徴量を決定することによ
    り、前記構造化データの体系を解析し、 前記決定した末端クラスの特徴量と、前記構造化データ
    並びに前記複数の文書を関連づけて記憶手段に格納する
    ようにした体系化知識解析方法。
  2. 【請求項2】 前記構造化データを構成する前記末端ク
    ラスと、その末端クラスまでにいたる複数の分岐点とな
    るメタクラスの接続関係を検索し、 各クラスに対しそれと関連する上位クラス・下位クラス
    並びに同位クラスへのポインタを関連づけて前記記憶手
    段に格納することにより、前記構造化データの体系の解
    析をするようにした請求項1に記載の体系化知識解析方
    法。
  3. 【請求項3】 請求項1または2の方法を実行して得ら
    れた体系化知識を用いて未分類の文書を適当な末端クラ
    スに関連づける分類方法であって、 処理対象の文書に対して、請求項1と同様の特徴量抽出
    処理を行い、その処理対象の文書の特徴量を求め、 次いで、その求めた特徴量と、請求項1により得られた
    各末端クラスの特徴量とのマッチングをとり、一致度の
    高い末端クラスに前記処理対象の文書を関連づけて前記
    記憶手段に格納するようにした分類方法。
  4. 【請求項4】 請求項1または2の方法を実行して得ら
    れた体系化知識を用いて未分類の文書を適当な末端クラ
    スに関連づける分類方法であって、 複数の文書に対してそれぞれ請求項1と同様の特徴量抽
    出処理を行い、各文書ごとに特徴量を求め、 各文書の特徴量をクラスタリングして、特徴量の近い文
    書同士を一つのグループにまとめるとともに、そのグル
    ープの代表特徴量を生成し、 次いで、その求めた代表特徴量と、請求項1により得ら
    れた各末端クラスの特徴量とのマッチングをとり、一致
    度の高い末端クラスに前記グループを関連づけて前記記
    憶手段に格納するようにした分類方法。
  5. 【請求項5】 請求項3または4の方法を実行して未分
    類の文書を前記末端クラスに関連づけた後、 所定のタイミングでその未分類の文書の特徴量と、その
    関連づけられた末端クラスの特徴量に基づいて、新たな
    前記末端クラスの特徴量を生成するとともに、前記記憶
    手段の記憶内容を更新するようにした請求項1または2
    に記載の体系化知識解析方法。
  6. 【請求項6】 前記特徴量は、文書中に存在する重要語
    と、その重要語についての重みである請求項1,2,5
    のいずれか1項に記載の体系化知識解析方法。
  7. 【請求項7】 複数の文書を体系的に分類・整理した構
    造化データと、その構造化データにより分類分けされた
    前記複数の文書を取得する知識獲得手段と、 その知識獲得手段の後段に設けられ、前記取得した各文
    書の特徴量を抽出するとともに、同一の末端クラスに属
    する文書の前記特徴量に基づいて末端クラスの内容を特
    定する特徴量を求める知識体系辞書作成手段と、 その知識体系辞書作成手段で生成された前記末端クラス
    の特徴量と、前記知識獲得手段で獲得した前記構造化デ
    ータ並びに前記複数の文書を関連づけて格納する記憶手
    段とを備えた体系化知識解析装置。
  8. 【請求項8】 請求項7に記載の体系化知識解析装置で
    解析して得られた体系化知識を用いて未分類の文書を適
    当な末端クラスに関連づける分類装置であって、 処理対象の文書を取得する情報収集手段と、 その情報収集手段で取得した所定の文書に対し特徴量抽
    出処理を行い、その処理対象の文書の特徴量を求める情
    報抽象化手段と、 その情報抽象化手段で求めた特徴量と、前記体系化知識
    解析装置に格納された各末端クラスの特徴量とのマッチ
    ングをとり、一致度の高い末端クラスに前記処理対象の
    文書を関連づけて記憶させる情報分類手段とを備えた分
    類装置。
  9. 【請求項9】 前記情報抽象化手段は、複数の文書を一
    括して処理する際に、各文書の特徴量からクラスタリン
    グを行い、特徴量の近い文書同士を一つのグループにま
    とめるとともに、そのグループの代表特徴量を生成する
    機能を有し、 前記情報分類手段は、その代表特徴量と、各末端クラス
    の特徴量とのマッチングをとるものである請求項8に記
    載の分類装置。
JP9316245A 1997-10-31 1997-10-31 体系化知識解析方法及び装置並びに分類方法及び装置 Withdrawn JPH11134364A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9316245A JPH11134364A (ja) 1997-10-31 1997-10-31 体系化知識解析方法及び装置並びに分類方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9316245A JPH11134364A (ja) 1997-10-31 1997-10-31 体系化知識解析方法及び装置並びに分類方法及び装置

Publications (1)

Publication Number Publication Date
JPH11134364A true JPH11134364A (ja) 1999-05-21

Family

ID=18074948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9316245A Withdrawn JPH11134364A (ja) 1997-10-31 1997-10-31 体系化知識解析方法及び装置並びに分類方法及び装置

Country Status (1)

Country Link
JP (1) JPH11134364A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002041573A (ja) * 2000-05-17 2002-02-08 Matsushita Electric Ind Co Ltd 情報検索システム
US6993517B2 (en) 2000-05-17 2006-01-31 Matsushita Electric Industrial Co., Ltd. Information retrieval system for documents
CN100419753C (zh) * 2005-12-19 2008-09-17 株式会社理光 数字化数据集中按照分类信息搜索目标文档的方法和装置
JP4741133B2 (ja) * 1999-12-03 2011-08-03 パナソニック株式会社 データ適合化装置、データ適合化方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4741133B2 (ja) * 1999-12-03 2011-08-03 パナソニック株式会社 データ適合化装置、データ適合化方法
JP2011181075A (ja) * 1999-12-03 2011-09-15 Panasonic Corp データ適合化装置、データ適合化方法
US8266653B2 (en) 1999-12-03 2012-09-11 Panasonic Corporation Data adapting device, data adapting method, storage medium, and program
JP2002041573A (ja) * 2000-05-17 2002-02-08 Matsushita Electric Ind Co Ltd 情報検索システム
US6993517B2 (en) 2000-05-17 2006-01-31 Matsushita Electric Industrial Co., Ltd. Information retrieval system for documents
CN100419753C (zh) * 2005-12-19 2008-09-17 株式会社理光 数字化数据集中按照分类信息搜索目标文档的方法和装置

Similar Documents

Publication Publication Date Title
US8321455B2 (en) Method for clustering automation and classification techniques
KR100816934B1 (ko) 문서검색 결과를 이용한 군집화 시스템 및 그 방법
US20050060290A1 (en) Automatic query routing and rank configuration for search queries in an information retrieval system
US20040158567A1 (en) Constraint driven schema association
JP2000348041A (ja) 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
US20180004838A1 (en) System and method for language sensitive contextual searching
US20050065920A1 (en) System and method for similarity searching based on synonym groups
JP3584848B2 (ja) 文書処理装置、項目検索装置及び項目検索方法
JP3603392B2 (ja) 文書分類支援方法および装置
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JP2014048741A (ja) データ検索プログラム、データベース装置および情報処理システム
JP2002041573A (ja) 情報検索システム
JPH1049543A (ja) 文書検索装置
JP3385297B2 (ja) 文書の自動分類方法、および情報空間の可視化方法、ならびに情報検索システム
JP2003150624A (ja) 情報抽出装置および情報抽出方法
JPH11110409A (ja) 情報分類方法及び装置
WO1998049632A1 (en) System and method for entity-based data retrieval
JP2003196294A (ja) 知識分析システムおよび知識分析方法
CN114741550B (zh) 图像搜索方法、装置、电子设备和计算机可读存储介质
JP3693514B2 (ja) 文書検索・分類方法および装置
JPH11134364A (ja) 体系化知識解析方法及び装置並びに分類方法及び装置
JP4728125B2 (ja) 索引ファイルを用いた文書検索の方法、索引ファイルを用いた文書検索サーバ、及び索引ファイルを用いた文書検索プログラム
JPH08272806A (ja) データベース検索システム
CN111831884B (zh) 一种基于信息查找的匹配系统与方法
JPH05233719A (ja) 複合的な情報間の関連性識別方法

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050104