JP2002041546A

JP2002041546A - 階層的統計分析のシステム及び方法

Info

Publication number: JP2002041546A
Application number: JP2001209268A
Authority: JP
Inventors: Martin H Hyatt; マーティン・エイチ・ハイアット
Original assignee: TRW Inc
Current assignee: Northrop Grumman Space and Mission Systems Corp
Priority date: 2000-07-10
Filing date: 2001-07-10
Publication date: 2002-02-08
Anticipated expiration: 2021-07-10
Also published as: US6678692B1; EP1172737A2; JP3673487B2; EP1172737A3

Abstract

(57)【要約】【課題】概念を特定することによってデータベースの検
索を容易にする。【解決手段】文書データベース４４のレコードの検索に
先立って、レコードのためのキーとなる概念を確立する
（６６）ために、概念がシソーラス状の概念階層構造４
６に関連して定義される。データベースの各レコードに
ついて、キーとなる概念あるいは階層構造内でのその位
置が、テキストあるいは他の具体的な内容ではなく概念
を用い、該概念がレコードと関連させて記憶され、概念
位置にマッピングされる（６８）。概念位置は、収束値
及び反収束値の組合せから、各ノードに対して距離値を
計算し、概念位置として、最低の距離値を備えたノード
を選択することによって、決定される。

Description

【発明の詳細な説明】

【０００１】

【発明の技術分野】本発明は、階層構造内のデータの分
析に関し、より具体的には、テキスト・データの分析に
関する。

【０００２】

【従来の技術】コンピュータの多くのユーザは、文書が
ユーザ提供のキーワードを含んでいる場合に、データベ
ース中の文書が選択されるという、テキスト検索技術に
精通している。いくつかのテキスト検索エンジンは、Ａ
ＮＤ、ＯＲ、ＮＯＴ、あるいはＮＥＡＲといったブール
論理結合において、ユーザが、キーワードすなわちフレ
ーズを特定できるようにしている。他の、より高度なテ
キスト検索エンジンには、ユーザに対して、より関連す
る文書を提示する目的で、特定のワードの発生回数を数
えるものもある。しかしながら、頻繁に起こることであ
るが、ユーザにとって全く興味のない、多数の文書が見
いだされる結果に終わることがある。そのキーワード
は、偶然、多くの文書で用いられている場合もあり、あ
るいは興味のない文書を与えるコンテキストにおいて用
いられている場合もある。従って、興味のある文書を見
つけだすことができない場合がある。その時、ユーザ
は、これらの不必要な文書を閲覧して廃棄するか、ある
いは検索を洗練して繰り返さなければならない。すべて
のキーワードを検索する技術の主要な欠点は、それら
が、コンテキストあるいは表現されたアイデアや概念を
考慮せずに、文書の文字どおりの形式あるいは表現を検
索することを基本にしているということである。

【０００３】任意のコンテキストの中で用いられるキー
ワードを完全に付き合わせるのではなく、内容認識に基
づいて、選択された概念又はアイデアを付き合わせるこ
とによって、ユーザが文書を見つけることができるテキ
スト検索技術に対する必要性が長らく存在してきた。本
発明は、この必要性を満たし、テキストでないデータの
分析及び検索に対しても適用できる、システム及び方法
を提供することを目的としている。

【０００４】

【発明の概要】本発明は、データ・サンプルを階層構造
において特徴づけるためのシステム及び対応する方法に
あり、具体的なデータ内容よりもむしろ、階層的な分類
あるいは特徴に基づくことにより、データ検索を容易に
する。概して言えば、本発明の方法は、ノードとブラン
チを持ち、各ノードがその階層構造の特徴を表すシソー
ラス状のツリー構造に配列された特徴の階層構造を提供
するステップと、各データベースのレコードに対してレ
コードを特徴づける複数のキーとなる特徴を識別するス
テップと、識別するステップで得られた複数のキーとな
る特徴から、データベースのレコードを最もよく特徴づ
ける優勢な特徴に対応する階層構造内のノードを選択す
るステップと、その優勢な特徴及び階層構造内でのそれ
の位置をそのデータベースのレコードと関連させるステ
ップとを含む。これにより、データベースのレコード
は、具体的な内容によってではなく、それらの優勢な特
徴によってアクセス可能となる。

【０００５】より具体的に言えば、優勢な特徴に対応す
る階層構造内のノードを選択するステップは、レコード
内の選択されたキーとなる特徴の各々を階層構造内の特
徴と比較するステップと、レコードのキーとなる特徴と
階層構造の特徴との間のマッチングの発生回数及びそれ
らのノード位置を記録するステップと、そのノードが十
分に汎用的でありそのマッチングの大部分を包含してい
るか、あまり汎用的でなくて階層構造内のマッチングの
位置から遠く離れすぎているかどうかに基づいて、どの
ノードを選択すべきかを判定するステップとを含む。

【０００６】さらに、どのノードを選択すべきであるか
を判定するステップは、階層構造の各ブランチに対する
収束値を計算するステップであって、その収束値が、そ
れより以下の、かつブランチに接続されるノードに記録
されたすべてのマッチングの合計によって与えられる、
計算するステップと、階層構造の各ブランチに対する反
収束値を計算するステップであって、前記反収束値が、
階層構造内でのマッチングの数の合計と、ブランチに対
する収束値との間の差によって与えられる、計算するス
テップと、階層構造のノードに対する距離値を計算する
ステップとを含む。任意のノードに対する距離値は、最
上層ノードと距離値が計算されるノードとの間に存在す
るブランチの収束値及び反収束値の関数である。選択さ
れるノードは、最低の距離値を備えたノードである。

【０００７】さらにより具体的に言えば、距離値を計算
するステップは、階層構造の最上層ノードに比較的大き
な距離値を割り当てるステップと、あるブランチを介し
て最上層ノードに接続されるノードに対する距離値を計
算するステップであって、そのブランチの収束値だけ最
上層ノードの距離値を減少させ、その結果を、ファクタ
ａが単位元より大きい場合に、そのブランチの反収束値
にファクタ「ａ」を掛けた値だけ増大させることによっ
て、距離値を計算するステップと、同じような方式でそ
の階層構造内の他のノードに対する距離値を計算するス
テップであって、ブランチの下端ノードに対する距離値
が、上端ノードの距離値からそのブランチの収束値だけ
を減少させ、その結果に、ブランチの反収束値にファク
タ「ａ」を掛けた値を加えることによって得られる、計
算するステップとを含む。

【０００８】基本的に、距離値は、階層構造の最上層で
始まる連続ノードに対して計算される。ある距離値を最
上層ノードに割り当てた後、さらに他のノードに対して
距離値を計算した後にも、本発明の方法はさらに、距離
値が計算されようとしている次のノードに、収束値が最
大のブランチを選択するステップを含む。選択されるブ
ランチは、階層構造内の等レベルにある他のすべてのブ
ランチよりも大きな収束値を持つ。距離値は、階層構造
の各レベルを通して、収束値が最大のブランチを通過す
る経路に沿ったノードに対してのみ、計算される必要が
ある。

【０００９】本発明はまた、優勢な特徴に従って、デー
タベースのレコードを分類するためのシステムとしても
定義される。概して言えば、システムは、特徴の階層構
造、ノード及びブランチを持つツリー構造、及び階層構
造内の特徴を表す各ノードを定義する少なくとも１つの
シソーラス状のツリー構造と、その各々が優勢な特徴に
従って分類されようとしているレコードからなるデータ
ベースと、該データベース、及びシソーラス状のツリー
構造に連結されるシステム・プロセッサとを含む。該シ
ステム・プロセッサは、各データベースのレコードに対
して、レコードを特徴づける複数のキーとなる特徴を識
別するための手段と、複数のキーとなる特徴から、デー
タベースのレコードを最もよく特徴づける優勢な特徴に
対応する階層構造内の１つのノードを選択するための手
段と、その優勢な特徴及び階層構造内でのそれの位置を
データベースのレコードと関連させるための手段とを含
む。これにより、データベースのレコードは、特定のコ
ンテンツによってではなく、これらの優勢な特徴によっ
てアクセス可能となる。

【００１０】優勢な特徴に対応する階層構造内の１つの
ノードを選択するための手段は、レコード内の選択され
るキーとなる特徴の各々を階層構造内の特徴と比較する
ための手段と、レコードのキーとなる特徴と階層構造の
特徴との間でのマッチングの発生回数及びそれらのノー
ド位置を記録するための手段と、該ノードが十分に汎用
的でありマッチングの大部分を包含しているか、又は、
あまり汎用的でなくてマッチングから遠く離れすぎてい
るかどうかに基づいて、どのノードを選択すべきである
かを判定するための手段とを含む。より具体的に言え
ば、どのノードを選択すべきであるかを判定するための
手段が、階層構造の各ブランチに対して収束値を計算す
るための手段であって、収束値が、それより以下の、か
つブランチに接続されるノードに記録されたすべてのマ
ッチングの合計によって与えられる、手段と、階層構造
の各ブランチに対する反収束値を計算するための手段で
あって、反収束値が、階層構造内でのマッチング数の合
計と、ブランチに対する収束値との間の差によって与え
られる、手段と、階層構造のノードに対する距離値を計
算するための手段であって、任意のノードに対する距離
値が、最上層のノードとその距離値が計算されるノード
との間のブランチの収束値及び反収束値の関数である、
手段と、最低の距離値を備えたノードを選択するための
手段とを含む。

【００１１】本発明におけるシステムにおいて、距離値
を計算するための手段は、階層構造の最上層ノードに比
較的大きな距離値を割り当てる手段と、あるブランチを
介して最上層ノードに接続されるノードから始めて、他
のノードに対する距離値を計算する手段であって、その
ブランチの収束値だけ最上層ノードの距離値を減少さ
せ、その結果を、ファクタ「ａ」が単位元より大きい場
合に、そのブランチの反収束値にファクタａを掛けた値
だけ増大させることによって、距離値を計算する手段と
を含む。また距離値を計算する手段は、同じような方式
でその階層構造内の他のノードに対して距離値を計算す
る。ブランチの下端ノードに対する距離値は、上端ノー
ドの距離値からそのブランチの収束値だけを減少させ、
その結果に、ブランチの反収束値にファクタ「ａ」を掛
けた値を加えることによって得られる。

【００１２】本発明のシステムはさらに、距離値が計算
されようとしている次のノードに、収束値が最大のブラ
ンチを選択するための手段を含む。その選択されるブラ
ンチは、階層構造内の等レベルにある他のすべてのブラ
ンチよりも大きな収束値を持ち、距離値は、収束値が最
大のブランチを通過する経路に沿ったノードに対しての
み計算される必要がある。

【００１３】また、本発明は、優勢な概念に従ってデー
タベース文書を分類するための方法及びシステムにおい
ても具体化される。該方法は、ノードとブランチを持
ち、各ノードがその階層構造の概念を表すシソーラス状
のツリー構造に配列される概念の階層構造を提供するス
テップと、各データベース文書に対して文書を特徴づけ
る複数のキーとなるワードを識別するステップと、識別
するステップで得られた複数のキーとなる概念から、デ
ータベース文書を最もよく特徴づける優勢な概念に対応
する階層構造内のノードを選択するステップと、その優
勢な概念及び階層構造内でのそれの位置をそのデータベ
ース文書と関連させるステップとを含む。これにより、
データベース文書は、具体的なコンテンツによってでは
なく、それらの優勢な概念によってアクセス可能とな
る。

【００１４】より具体的に言えば、優勢な概念に対応す
る階層構造内のノードを選択するステップは、データベ
ース文書内の選択されたキーとなるワードの各々を階層
構造内の概念と比較するステップと、データベース文書
のキーとなるワードと階層構造の概念との間のマッチン
グの発生回数及びそれらのノード位置を記録するステッ
プと、該ノードが十分に汎用的でありそのマッチングの
大部分を包含しているか、又は、あまり汎用的でなくて
階層構造内のマッチングの位置から遠く離れすぎている
かどうかに基づいて、どのノードを選択すべきかを判定
するステップとを含む。どのノードを選択すべきである
かを判定するステップは、階層構造の各ブランチに対す
る収束値を計算するステップであって、収束値が、ブラ
ンチより以下の該ブランチに接続されるノードに記録さ
れたすべてのマッチングの合計によって与えられる、ス
テップと、階層構造の各ブランチに対する反収束値を計
算するステップであって、反収束値が、階層構造内での
マッチングの数の合計と、ブランチに対する収束値との
間の差によって与えられる、ステップと、階層構造のノ
ードに対する距離値を計算するステップであって、任意
のノードに対する距離値が、最上層ノードと距離値が計
算されるノードとの間にあるブランチの収束値及び反収
束値の関数として計算される、ステップとを含む。選択
されるノードは、最低の距離値を備えたノードである。

【００１５】距離値を計算するステップは、階層構造の
最上層ノードに比較的大きな距離値を割り当てるステッ
プと、あるブランチを介して最上層ノードに接続される
ノードに対する距離値を計算するステップであって、そ
のブランチの収束値だけ最上層ノードの距離値を減少さ
せ、その結果を、ファクタａが単位元より大きい場合
に、そのブランチの反収束値にファクタ「ａ」を乗算し
た値だけ増大させることによって、距離値を計算するス
テップと、同じような方式で該階層構造内の他のノード
に対する距離値を計算するステップとを含む。ブランチ
の下端ノードに対する距離値は、上端ノードの距離値か
らそのブランチの収束値だけを減少させ、その結果に、
ブランチの反収束値にファクタ「ａ」を掛けた値を加え
ることによって得られる。また本発明の方法は、距離値
が計算されようとしている次のノードに、収束値が最大
のブランチを選択するステップであって、その選択され
るブランチを、階層構造内の等レベルにある他のすべて
のブランチよりも大きな収束値を持つものとして選択す
るステップを含む。距離値は、収束値が最大のブランチ
を通過する経路に沿ったノードに対してのみ計算される
必要がある。

【００１６】本発明はまた、レコードの各々が少なくと
も１つの優勢な概念によって最もよく特徴づけられるよ
うに分類されたレコードのデータベースを検索するため
の方法として定義され、その方法は、その概念のシソー
ラス状の階層構造内に興味のある概念を、ユーザ・イン
ターフェースを通して提供するステップと、興味のある
概念によって最もよく特徴付けられるように分類された
レコードをデータベースから取り出すステップと、その
取り出されたレコードを、ユーザ・インターフェースを
通してユーザに提供するステップとを含む。興味のある
概念を提供するステップは、興味のある概念を配列し選
択するために、ユーザ・インターフェースでもってシソ
ーラス状の構造内をブラウジングするステップを含んで
もよい。その代わりとして、興味のある概念を提供する
ステップは、ユーザに興味のあるキーワードを提供する
ステップと、そのキーワードから興味のある概念を決定
するステップとを含んでもよい。該方法は、ユーザ・イ
ンターフェースを通して提供されたレコードを閲覧する
ステップと、提供されたレコードを閲覧した後に、興味
のある概念を変更することにより検索を洗練するステッ
プと、検索を繰り返すステップとを含んでもよい。

【００１７】本発明がデータベース検索の分野において
重大な完全を提供することが、先の記述から理解される
だろう。優勢な特徴あるいはキーとなる鍵の概念に従っ
てデータベースのレコードを分類することは、具体的な
コンテンツではなく概念による検索を容易にし、検索が
テキスト内容のような具体的なレコード・コンテンツに
基づいてなされる時に得られる、不満足な検索結果を減
少させるか、又は除去する。本発明の他の側面及び利点
は、添附図面と共に、次のより多くの詳細な説明がなさ
れることで、明らかになるであろう。

【００１８】

【発明の実施の態様】本発明を、テキスト・データの特
徴及び検索の問題というコンテキストにおいて記述する
が、本発明が他のデータ検索の問題にも広く適用可能で
あることは明らかであるだろう。図に示すように、本発
明は、テキスト・データの場合には、文書であるデータ
・レコードを、階層構造において表わされた概念あるい
はキーとなる特徴に基づいて、ユーザが取り出せるよう
にする階層分析システム及び方法に関係する。テキスト
・データの従来の検索では、キーワードがユーザによっ
て特定され、そのキーワードが現われる文書をすべて配
置するために、データベース内の多くの文書が検索され
る。いくつかのシステムでは、文書の全文が検索され
る。検索工程の速度を上げるため、全文の代わりに検索
されるキーワードあるいは要約を引き出すために文書が
前処理される場合もある。いずれの場合も、その検索工
程は通常、ユーザにとって興味のないキーワード発生あ
るいは「ヒット」を持つ多くの不必要な文書を抽出する
ことになる。その時、ユーザは、閲覧して不必要な文書
を廃棄するか、あるいは、他のキーワードを特定するこ
とで検索の幅を狭めるかのどちらかをしなければならな
いが、その工程は、多くの場合、ユーザにとって時間を
消費し、苛立たしいことである。

【００１９】本発明をテキスト検索に適用する場合、デ
ータベースに記憶保管される文書は、まずキーワードを
引き出すために前処理され、次に、シソーラス状の階層
構造に対してその文書がどこに最もよく適合するかを判
定するために、各文書からのキーワードが分析される。
この前処理技術は、シソーラス状の階層構造内での１つ
以上の選択された位置によってデータベース内の各文書
が特徴づけられることを可能にする。その位置が階層構
造内での大部分のキーワード「ヒット」に接近している
ことと、その位置が大部分のキーワード・ヒットを包含
するのに十分に高い抽出レベルにあることにより、階層
構造内で各々が選択された概念位置が、「概念空間」の
中で文書を特徴づける。１つの文書中の複数のキーワー
ドが、その文書に提供されるか、又は文書の全文をシソ
ーラス状の階層構造と比較することによって、生成され
る。階層構造内でのヒットの数は、正確に文書を特徴づ
けるキーワードを識別するためと、ワードの付帯的な使
用にのみ関係している少数のヒットを取り除くために、
分析される。

【００２０】文書の概念（コンセプト）位置を見つける
ことは、汎用性のレベルと、キーワードを十分に高い割
合で包含することとの交換を伴う。図１に示すように、
概念の階層構造は、逆ツリー構造１０として表すことが
でき、図示のように構造の最上層１２にルート（根）を
持ち、最上層から下に延びる複数のブランチ（分岐）１
４を持つ。ツリー構造１０中のブランチの点はノードと
呼ばれ、階層構造の下位レベルに到達するにつれて増大
するという特異性を備えた構造内に、包含される概念を
定義するために必要とされる数のノード及びブランチが
ある。例えば、図１に示される構造がアメリカ合衆国に
関する文書の地理的なデータベースを表す場合、最上層
のノード１２は「アメリカ合衆国」と指定される。ノー
ド１２の次のより低い層は、地理的な地域を指定するた
めに用いられてもよい。例えば、２つのノード１６及び
１８は、「パシフィック地域」及び「セントラル地域」
とそれぞれ指定される。その次の下のレベルは、各地域
内の州を表すために用いられ、図の最下位に示される下
位レベルは、各州内の都市、あるいは郡を表すために用
いられることができる。例えば、ノード２０及び２２
が、「カリフォルニア」及び「ワシントン」に指定さ
れ、ノード２４、２６、２８、３０及び３２が「サンデ
ィエゴ」、「ロサンゼルス」、「サンフランシスコ」、
「シアトル」及び「タコマ」にそれぞれ指定されると仮
定する。１つの文書が概念位置に対して分析され、図１
の左側の部分の星によって示されるような、ノード２２
（ワシントン）、２６（ロサンゼルス）、２８（サンフ
ランシスコ）、３０（シアトル）及び３２（タコマ）に
関してキーワード・ヒットがあることが分かる。

【００２１】図１の右側の部分は、その文書が分析され
て、星印３４として示される、適切な概念位置を図示す
る。ノード１０（アメリカ合衆国）にその文書を分類す
ると、確かにすべてのキーワード・ヒットを包含する
が、最上層のカテゴリは、ほとんどの目的に対して、あ
まりにも汎用的過ぎる。ノード２２（ワシントン）にそ
の文書を分類すると、カリフォルニアの市のヒットを含
まないので、狭すぎる。直観的に、適切な概念カテゴリ
は、ツリー（系図）のワシントンより高いところにある
が、アメリカ合衆国より低いところにあることが理解さ
れる。図示される例において、ノード１６（パシフィッ
ク地域）が、最良の選択であるように見えるであろう。

【００２２】星印３４がノード１６の下に配列されてい
る図１の右側の部分に示されるように、おそらく最良の
カテゴリは、ノード１６と次のより低いノード２０及び
２２の州との間にあるであろうが、現行ではノード１４
と次のより低いノードとの間にはいかなるノードも存在
しない。階層構造が「地域」と「州」の間の地理的な呼
称を含むよう拡張されたならば、この分析中の文書は、
より正確に配列される可能性がある。都市レベルでのヒ
ットのすべてが、ちょうど太平洋岸に位置するので、適
切なサブ地域の呼称は「海岸」、「山地」及び「砂漠」
であろう。本発明は、この方式で階層構造を拡張する可
能性には関係しないが、図１で示されるような既存の階
層構造に対して、自動的に文書を分類するためのシステ
ム及び方法に部分的に関係する。図１の例は、地理的な
類型に基づいた概念の分類を示す。該同じ文書が、複数
の階層構造でキーワード・ヒットを有する場合がある。
例えば、文書がその言及された都市に関係する環境汚染
のような技術的問題を扱う場合、文書は、大洋に関する
環境工学に関係する概念階層構造内に適切に配列される
であろう。

【００２３】図２は、本発明を実現する装置の主な構成
要素を示すシステム・ブロック図であり、システム・プ
ロセッサ４０、ユーザ・インターフェース４２、及び文
書データベース４４及び４６に複数のシソーラス状の階
層構造を保持するためのストレージ装置を含む。線５０
で示すように、様々な従来の情報源から引き出される文
書４８が、文書データベース４４に入力される。線５２
で示されるように、任意の適切な高速コンピュータ・シ
ステムであるシステム・プロセッサ４０は、処理のため
にデータベース４４から文書を取り出し、線５４で示す
ように、処理された文書に関する概念位置をそのデータ
ベースに戻し格納する。線５６及び５８で示すように、
ユーザ・インターフェース４２は、システム・プロセッ
サ４０とやりとりし、キーワードを提供するか、あるい
は文書を取り出すための位置を概念階層構造４６の中か
ら選択するかのどちらかによって、ユーザがデータベー
ス４４の検索を開始できるようにする。

【００２４】図３は、文書の概念を査定（アセスメン
ト）するために実行される主要な機能を描くフローチャ
ートである。ブロック６０で示すように、概念査定のた
めに、文書がまず選択される。破線６２で示すように、
文書は、データベース４４か、あるいは別の情報源から
ダイレクトに取り出されてもよい。その後、ブロック６
４で示すように、その文書が精査されて、文書の主題を
特徴づけるキーワードが識別される。これは独立した処
理であってもよいし、キーワードは、その文書を階層構
造４６内のワードと比較することにより、識別されても
よい。

【００２５】その後、ブロック６６で示すように、階層
構造４６内での適切な概念位置（複数可）を決定するた
めに、文書のこれらキーワードが用いられる。これにつ
いては以下に、より詳細に説明する。そして、文書が、
ブロック６８に示すように、概念位置（複数可）に「マ
ッピング」される。該マッピングは、破線７０で示すよ
うに、例えば文書と関連してデータベース４４に概念位
置（複数可）を記憶保管することによって、選択された
概念位置（複数可）が文書に対応付けられることを意味
する。概念位置へ文書をマッピングすることは、テキス
ト内容（コンテンツ）の代わりに、概念（コンセプト）
に基づいた文献検索を可能にする。各文書がその概念位
置（複数可）を決定するために査定された後、工程は再
びブロック６０に戻り、新しい文書が概念査定のために
選択される。ユーザは、特定の概念に付随する、新らし
く処理された文書を受け取るリクエストをしてもよい。
概念位置が新しい文書のために決定されたならば、ブロ
ック７２で示すように、概念位置がこのタイプのユーザ
・リクエストと比較され、マッチングすることが分かっ
た場合、文書のコピーがユーザに配信される。

【００２６】図４は、データベース４４の検索において
実行される主要な機能を描くフローチャートであるが、
そのデータベース内では、すべての文書がその各々を階
層構造４６内の１以上の概念位置にマッピングするため
の処理を終えている。検索を開始したいユーザは、ブロ
ック８０で示すように、１以上のキーワードか、あるい
は、ブロック８２で示すように、１以上の概念位置のど
ちらかを、ユーザ・インターフェース４２を通して入力
する。ユーザがキーワードを提供すれば、ブロック８４
で示すように、システムはまず、キーワードから対応す
る概念位置を決定する。これは、各文書の概念位置を決
定するために用いられた工程と基本的に同じものであ
る。キーワードは、階層構造４６と比較され、集められ
たキーワードを最もよく特徴づける概念位置が選択され
る。

【００２７】概念位置が、決定されるか、あるいはユー
ザによって提供されたならば、システムは、ブロック８
６で示すように、同じ概念位置にマッピングされた文書
を取り出し、そして、ブロック８８で示すように、これ
らの文書をユーザに配信する。文書は、まず、題名、要
約、あるいは他の短い要旨によって配信され、次いで、
ユーザが検索に関連しない文書を廃棄できるようにする
という従来の考え方が、文書配信の工程においては本来
的である。その後、選択された文書の全文が、ユーザに
配信される。ブロック９０で示すように、ユーザは、随
意に、初めに配信された結果に基づいて修正された入力
キーワードあるいは概念に基づいた検索を繰り返し、そ
の検索を洗練してもよい。

【００２８】本発明の主たる特徴は、選択された位置が
本当にその文書を代表するように、データベース４４に
おける各文書に対する概念空間内で位置を決定すること
である（複数可）。図１に示した単純な例において、ほ
とんどのワードの「ヒット」を包含するほどに十分に高
いレベルの抽出がなされ、しかも、ヒット位置から遠く
離れすぎて汎用的になり過ぎないように、位置が選択さ
れる。この概念位置は、階層ツリー構造におけるヒット
の位置を見ている人間の観測者にとっては直観的に明白
であるかもしれないが、本発明の目標は、プログラム可
能なプロセッサにおいてそれを容易に実行することがで
きる方法で、その選択工程を定義することである。次
に、この概念位置選択工程について詳細に説明する。

【００２９】図５は、文書のための概念位置を決定する
工程を示すフローチャートである。該フローチャートに
示される機能は、既に精査された概念階層構造につい
て、特定の文書に対するキーワード「ヒット」の位置を
判定するために実行される。ブロック６６（図３）で示
した概念位置を決定する大まかなステップは、文書のキ
ーワードを概念階層構造と対象して比較する予備ステッ
プを含む。図６は、適切な概念位置がどう決定されるか
を説明するために、図５のフローチャートと共に用いら
れる階層構造の一部を示している。図６の階層構造は、
地理的な位置の階層構造か、あるいは他のタイプの階層
構造でもよく、その中の概念ノードは、科学及び技術、
政策、人員組織、産業、政府、軍隊組織などに関係す
る。関与する階層構造のタイプにかかわらず、付随する
処置は同じである。その構造の各ノードでのキーワード
のヒット数を記録するために、階層構造が精査される。
その後、構造及びヒット数が、図５に示した工程を用い
て分析され、その文書に対する適切な概念位置が決定さ
れる。自動的なやり方で、ある文書に包含されている概
念（複数可）を識別するには、その記述された手続き
を、複数の階層構造あるいはシソーラスに適用すること
が必要であることが理解されるであろう。

【００３０】自動的に概念位置を見つける工程は、階層
構造の各ブランチに関連する２つの数量を必要とする。
そのブランチ数量は「収束値」及び「反収束値」を含
み、これらは、単純に定義される。３番目の数量である
「距離」は、階層構造中の各ノードに対応付けられる。
距離は、まず最上層のノードに対して計算され、それか
ら、より低いノードに到達するまでに付随するブランチ
の収束値及び反収束値に基づいて、順次より低いノード
に対して計算される。あるブランチの収束値は、ブラン
チによって「カバーされる」ヒット数、つまり、そのブ
ランチより以下に位置する階層構造内のノードでのすべ
てのキーワード・ヒットの合計数として計算される。し
たがって、階層構造の最下層のブランチの収束値は、も
しあれば、単にブランチの下端ノードでのヒット数であ
る。階層構造の最下層でないブランチについて、その収
束値は、ブランチの下端ノードから下降していくブラン
チの各々の収束値の合計に等しい。

【００３１】あるブランチの「反収束値」は、このブラ
ンチより１つ上のブランチの反収束値と、このブランチ
の上位ノードでのヒット数と、このブランチの上位ノー
ドから下降していく他の各々のブランチの収束値の合計
とを加算したものである。あるブランチの反収束値は、
全階層構造上のヒットの合計数と、同じブランチの収束
値との間の差として、もっと簡単に表わされる。したが
って、あるブランチの収束値がＣで、階層構造中のすべ
てのノード上のヒットの合計数がＴである場合、そのブ
ランチの反収束値は、Ｔ−Ｃである。

【００３２】収束値は、ヒットを有するノードを通して
階層構造を１つ上がるにつれて増大し、ある上位のブラ
ンチ（複数可）で最大に達する。収束値は、ツリー構造
の「アップ」距離の指標を提供するものと見なされる。
「アップ」という言葉は、「アップ」の方向が、逆ツリ
ー構造のルートあるいは幹線の方向である。反収束値
は、ヒットを持つノードを通して階層構造を１つ下がる
につれて増大し、収束値が最低になるブランチにおいて
最大値に達する。反収束値は、ツリー構造の「ダウン」
距離の指標を提供するものと見なされる。階層構造を通
して、ヒットを持たないノードを横断するいくつかの経
路は、ゼロ収束値及び最大の反収束値を備えたブランチ
を持つことになるが、これらは通常、記述される工程中
では省略される。

【００３３】図５のブロック１００で示される最初の第
１ステップでは、階層構造中のすべてのブランチに対し
て、収束値及び反収束値をゼロに初期化し、そして、階
層構造中のすべてのノードに対して距離値をゼロに設定
する。最初は、この工程は、ブランチが階層構造の最下
の層すなわち最下レベルにあるものと設定される。ブロ
ック１０２に示す次のステップでは、現行レベルでの各
ブランチに対する収束値を計算する。あるブランチに対
する収束値は、ブランチの下位ノードでのヒット数に、
もしあれば、下位ノードから下って、すべてのブランチ
の収束値を加えて計算される。したがって、階層構造で
の最も低いレベルについて、その収束値は、もしあれ
ば、そのブランチの下位ノードでの単なるヒット数であ
る。次に、ブロック１０４で示すように、その収束値が
それぞれのブランチ・アドレスに関連して記憶される。
ブロック１０６で示すように、階層構造の最上層に到達
しなかった場合は、ブロック１０８で示すように、工程
が１レベル「アップ」し、ブロック１０２で、階層構造
の次の上のレベルにあるブランチのそれぞれに対して処
理を継続する。ブロック１０２、１０４、１０６及び１
０８を通してのこの処理のサイクルは、階層構造の最上
層がブロック１０６で検出されるまで続く。検出された
時点で、収束値が、階層構造内のすべてのブランチに対
応付けられる。

【００３４】上に記述され、さらに以下で説明する工程
は、階層構造のトポロジが、階層構造データベースの一
部として記憶保管されることを必要とする。これを達成
するための多くの従来技術がある。最も単純なもので
は、ノード及びブランチが、ユニークな数値あるいは
「アドレス」を割り当てられる。各ブランチを上位及び
下位ノード番号と関連させること、あるいは、各ノード
をノードに接続されるブランチ数と関連させることが、
あいまいさのないトポロジを定義する。このような手段
又は同様の手段によって、階層構造のどのレベルが処理
されつつあるのか、及び図５に関して記述された演算を
実行するための適切なノード及びブランチをいかにして
見いだすかが「分かる」。

【００３５】判定ブロック１０６において、構造の最上
層に到達したと判定すると、次に、ブロック１１０にお
いて、最上層ノードから下降していくブランチのうちの
１つがそのブランチの中で最大の収束値を提供している
かどうかを判定する。例えば、最上層ノードが等しい収
束値を備えた２つの下降ブランチを持つ場合、最上層ノ
ードがおそらく概念位置の最良の選択であり、反収束値
の演算は必要とされない。ブロック１１０において、最
上層ノードからの１つのブランチが最大の収束値を持つ
と判定した場合、反収束値を決定する処理が継続する。

【００３６】次に、ブロック１１２で示すように、反収
束値が現行のブランチに対して計算される。ブロック１
１２を最初に通過する際には、反収束値が計算されるブ
ランチは、判定ブロック１１０で決定されたように、最
大の収束値を備えた上位のブランチである。任意のブラ
ンチのための反収束値は、２つの方法の一方で計算され
る。最初に、反収束値（ＡＣ）は、ＡＣ＝次の高位のブランチ（もしあれば）のＡＣ＋現行
レベルにある他のすべてのブランチの収束値の合計＋こ
のブランチの上位ノードでのヒット数（もしあれば）で与えられる。単純に言えば、任意のブランチに対する
反収束値は、全階層構造中のヒットの合計数とその同じ
ブランチの収束値との間の差に等しい。

【００３７】ブロック１１４に示すように、反収束値は
対応するブランチ・アドレスと関連させて記憶される。
判定ブロック１１６では、階層構造の最下層レベルに到
達したかどうかを判定する。到達していない場合は、反
収束値が今しがた計算されたブランチより下のブランチ
（複数可）を考慮し、ブロック１１８に示すように、こ
れらのブランチのいずれか１つが他のものより大きな収
束値を持っているかどうかを判定する。最大の収束値を
備えた単一ブランチがない場合、分析は終了する。最大
の収束値を備えたブランチがある場合、ブロック１２０
で示すように、このブランチは次の下位レベルに移り、
ブロック１１２で示すように、そのブランチの反収束値
が計算され、ブロック１１４で示すように、計算された
反収束値がブランチ・アドレスと関連させて記憶され
る。判定ブロック１１６で階層構造の最下層に到達した
ことを判定するまで、処理は継続する。最下層に到達し
た時点で、ブロック１２２で示すように、階層構造の最
上層ノードに焦点を合わせ、距離値が階層構造内の関連
するノードに対して計算される。

【００３８】階層構造内の最上層ノードに対する距離値
は、階層構造内のすべてのブランチの収束値の合計であ
ると定義する。最上層ノードに対しては、いかなる適度
な大きさの距離値でも割り当てることは可能である。便
宜上、すべての収束値の合計を用いることにより、いか
なるノードもマイナスの距離値を持たないように保証さ
れる。しかしながら、本発明の処理は、最上層ノードに
割り当てられた距離値にかかわらず有効である。ブロッ
ク１２４に示すように、最上層のノード距離値の演算
を、ブランチの収束値の合計としている。次に、ブロッ
ク１２６で示すように、最大の収束値ブランチは次の下
位レベルのノードに移る。その後、ブロック１２８で示
すように、このノードに対する距離値が計算される。
（最上層ノード以外の）現行ノードの距離値は、１つ高
位のノードの距離値と、現行ノードの直ぐ上のブランチ
の収束値及び反収束値との関数である。具体的には、現
行ノードの距離値は、所定の定数「ａ」を反収束値に掛
けた値とその収束値との差を、１つ高位ノードの距離値
から差し引いて計算される。反収束値を計算する時、各
レベルで最大の収束値を持つブランチを取りながら、階
層構造の最上層から最下層までの１つの経路に従う。距
離値を計算する際にも同じ経路に従う。判定ブロック１
３０は、いつ階層構造の最下層に到達し、そして必要な
距離値の全部が計算されたかを判定する。ブロック１３
２で示すように、最低の距離値を備えたノードを選択す
ることにより、終了する。

【００３９】上に記述したように、階層構造内のすべて
のブランチに対して収束値を計算するが、階層構造内の
ヒットの最大のグループ化によって決定されるような、
選択されたブランチ及びノードに対してだけ、反収束値
及び距離値を計算する。説明のために、ブランチの全部
に対する反収束値、及びノードの全部に対する距離値
を、図６に示す。反収束値及び距離値の全部を計算する
ことが必要でないことは、この例から明かであるだろ
う。

【００４０】図６に示される階層構造は、Ａ〜Ｎの参照
文字によって示されるノード、及び識別されていない他
のノードを含む。この説明の中で、ブランチは、ブラン
チの上位及び下位ノードによって識別される。例えば、
ブランチＡＢは、ノードＡ及びＢに接続される。ノード
Ａは、構造内の最上層ノードであり、ノードＢ及びＬは
次の下位レベルにあり、ノードＣ、Ｋ、Ｍ及びＮは、最
上層から３番目のレベルにある。ノードＣ及びＫは、ノ
ードＢへのブランチＢＣ及びＢＫによって接続され、ノ
ードＭ及びＮは、ノードＬへのブランチＬＭ及びＬＮに
よって接続される。ノードＣの下に、次の下位レベルで
ある２つのノードＤ及びＥがある。ノードＥには２つの
下位ノードＩ及びＪが接続され、そしてノードＤには３
つの下位ノードが接続され、それらの内の２つは、ノー
ドＦ及びＧである。ノードＦ、Ｇ、Ｉ及びＪは、同じレ
ベルにあり、ノードＤ及びＥより１つ下の位置である。
階層構造内での最下位のレベルは、ノードＦ及びＧより
下の他のノードを含み、そのうちの１つはノードＨとし
て識別される。各ノードの「ヒット」数は、円内の数に
よって示される。ノードＤには８、ノードＥには６、ノ
ードＦには４、ノードＧには２、ノードＩには２、及び
ノードＪには１つのヒットがあり、合計で２３のヒット
があることを示している。各ブランチの収束値は、該ブ
ランチの近くに示される０〜２３の数字によって示され
る。各収束値に続く括弧内の数は、ブランチに対する反
収束値である。

【００４１】ブロック１０２（図５）を参照して上に記
述したように、収束値が、階層構造内の最下位のブラン
チから開始して、計算される。ノードＦ、Ｇ、Ｉ及びＪ
のレベル以下にヒットがなかったので、ブランチＧＨの
ようなこのレベルより下のブランチは、０の収束値を持
つ。ブランチＤＦは、下部のノードＦに４つのヒットが
あったので、４の収束値を持つ。同様に、ブランチＤＧ
は２の収束値を持ち、ブランチＥＩは２の収束値を持
ち、ブランチＥＪは１の収束値を持つ。高位レベルのブ
ランチＣＤは、以下のブランチの収束値（４＋２）に、
ノードＤでのヒット数（８）を加えて計算されて、合計
で１４の収束値を持つ。同様に、ブランチＣＥは、ブラ
ンチＥＩ及びＥＪの収束値の合計（２＋１）に、ノード
Ｅでのヒット数（６）を加えて計算されて、合計で１４
の収束値を持つ。ブランチＢＣの収束値は、ブランチＣ
Ｄ及びＣＥの収束値の合計（１４＋９＝２３）として計
算され、この収束値はまた高位のブランチ（ＡＢ）にも
当てはまる。ノードＫ、Ｌ、ＭあるいはＮには全くヒッ
トがなかったので、ブランチＢＫ、ＡＬ、ＬＭ及びＬＮ
の収束値は、すべてゼロである。

【００４２】各ブランチに対する反収束値は、ヒットの
合計数（２３）とそのブランチに対する収束値との差で
ある。したがって、ゼロ収束値である各ブランチに対す
る反収束値は２３である。最大の収束値（Ａ−Ｂ−Ｃ−
Ｄ−Ｆ）の経路について、収束値が、階層構造の最下層
のゼロから最上層のブランチでの最大値（２３）まで変
動することが明らかであろう。この経路に沿った反収束
値は、最上層でのゼロから最下層での最大値まで変動す
る。ヒットがない階層構造の領域では、収束値がゼロ
で、反収束値は最大となる。

【００４３】図７は、図６内のＡ〜Ｎのノードの各々に
対して、対応する距離値がどのように計算されるかを示
すテーブルである。上に記述された処理の実際的な実行
においては、距離値が経路Ａ−Ｂ−Ｃ−Ｄ―Ｆに沿った
ノードに対してだけ計算されるが、説明の目的のため
に、距離及び関連する値が、Ａ〜Ｎのノード全部に対し
て示されている。上に記述されるように、最上層ノード
（Ａ）に対する距離値は、階層構造内のすべてのブラン
チに対するすべての収束値の合計として計算される。こ
の場合、収束値の合計は７８である。下位ノードについ
て、その距離値は、１つ高位のノードの距離値から、
（このノードと１つ高位のノードの間に）介在するブラ
ンチの収束値を引いて、そのブランチの反収束値にファ
クタ「ａ」を掛けた値を加えて計算される。

【００４４】図７の第２列で、階層構造の「アップ」距
離が示される。これは距離値に対する表現における２つ
のワードの第１のものであり、すなわち１つ高位ノード
の距離値と、介在するブランチの収束値との間の差であ
る。例えば、ノードＢについては、この「アップ」距離
が、７８―２３＝５５によって与えられる。任意のノー
ドに対する「アップ」距離は、階層構造の最下層からの
収束値の指標を見なすことができる。ノードＡは、定義
によって最も高い「アップ」距離を持ち、最低の階層構
造の「アップ」距離を備えたノードは、ノードＦ及びそ
れ以下のノードである。階層構造の「ダウン」距離は、
図７の第３列に示すように、ブランチの反収束値からダ
イレクトに計算される。最上層ノードＡはもちろん、階
層構造「ダウン」距離がゼロである。ブランチＡＢ及び
ＢＣがゼロの反収束値を持つので、ノードＢ及びＣもま
た階層構造「ダウン」距離がゼロである。ノードＤに対
する「ダウン」距離は、ノードＤの直ぐ上のブランチＣ
Ｄに対する反収束値の９である。同様に、ノードＦに対
する「ダウン」距離は１９であり、以下同様である。

【００４５】第４列（説明のためだけに含まれる）は、
各ノードに対する「アップ」距離及び「ダウン」距離の
合計を示す。事実上、これは「ａ」＝１．０にした時の
距離値である。この列のノードＤに矢線によって示すよ
うに、この列の最小距離値はノードＤに対する値「２
７」である。その階層構造の線図内に示されるヒットを
生じる文書に対する概念位置として、このノードを選択
することは、ノードＥ、Ｉ、及びＪでのヒットを含んで
いないので、明らかに不適当であることが分かる。直観
的に、より適切な選択は、十分に汎用的でありヒットを
備えたすべてのノードを包含しているノードＣであるこ
とが理解される。ただノードＤは、特定し過ぎであり、
ノードＢあるいはＡといった高位のノードは、不必要に
汎用的である。

【００４６】図７の第５列は、ファクタ［ａ］を２．０
に設定する場合の影響を示す。これは、階層構造「ダウ
ン」距離に等しい量だけ、つまりそのノードの上のブラ
ンチの反収束値だけ、各ノードに対する距離値を増大さ
せる効果がある。より高い階層構造「ダウン」距離を備
えたノードに対しては、より低い、あるいはゼロの階層
構造「ダウン」距離を備えたノードに対してよりも、距
離値が増大させられる。この例の中で、Ｄ、Ｅ、及びそ
れより下のノードに対する距離値は、増大させられる
が、ノードＡ、Ｂ及びＣは影響されない。その結果、最
低の距離値を備えたノードの位置が、階層構造の上方に
上がる。具体的に言うと、この列の矢線によって示すよ
うに、ノードＣが最低の距離値（３２）を持っており、
この分析中の文書のための概念位置として、選択され
る。

【００４７】最後の列は、「ａ」＝１．６１８を用いて
計算された距離値を示す。ノードＣが最小距離値（３
２）を持つので、再度、ノードＣが、その文書のための
概念位置として選択される。ファクタ「ａ」は、データ
ベース階層構造内の異なるタイプの主題に対しては、異
なるタイプの主題を持つ文書を分析した経験に基づいて
変更されてもよい。現時点では、［ａ］の値として１．
５〜４．０の間の任意の値を用いることが、有効な結果
をもたらすことがわかっている。本発明に従って、１つ
のレベルから次のレベルまでのノード距離値が、そのレ
ベル間に横断するるブランチに対する収束値及び反収束
値の関数として計算されるが、反収束値は、選択された
ファクタ「ａ」によって、収束値より多くの重みを与え
られる。この非対称が、図６及び７を参照して説明され
た例において示されるように、位置選択過程に上へ押し
上げる力を及ぼし、より汎用的な概念位置を選択する結
果になる。

【００４８】上に説明された原理に従って、概念に対す
る分析がなされたデータベースを検索することは、いく
つかの重要な点において、キーワードを用いる従来のテ
キスト検索とは異なる。理想的には、ユーザは、既存の
階層構造あるいはシソーラスに適合する指定された概念
（複数可）から、興味のある分野を特定するだろう。例
えば、ユーザが朝鮮半島上の位置に関係する文書を見つ
けることに興味があると仮定する。ユーザは、まず「位
置」シソーラス、つまり、その文書が関係する地理的な
位置の観点から分類された、文書との関連性を持つシソ
ーラスを選択する。その検索する工程により、ユーザに
対して、ユーザ・インターフェース上に、位置シソーラ
スをブラウジングするためのメカニズムを提供すること
が理想的である。シソーラスは、メニュー構造に似たテ
キスト形式で与えられてもよいし、あるいは、シソーラ
スのツリー構造を提示し、その構造内に各ノードについ
ての情報をユーザに提供するグラフィック形式で与えら
れてもよい。

【００４９】図８は、シソーラス画面１５０を持つ上記
後のタイプを取り入れたユーザ・インターフェースを示
す。シソーラスの主要なノードは、スペースが許すな
ら、その画面の右に示されてもよく、ユーザは、各ノー
ドについてのより具体的な情報を得るためのメカニズム
を提供される。これを実行する１つの方法は、マウス・
カーソルを興味のあるノードに置くと、画面上に情報の
補足「バブル」が提供されることである。ユーザは、ツ
リー構造を横切ってカーソルを移動させることによっ
て、選択されたシソーラスをナビゲートして、特に興味
のあるノード（複数可）を見つける。シソーラスは、画
面の別領域１５２で選択される。ユーザが興味のあるノ
ードを見つけると、ユーザ・インターフェースは、その
ノードで分類された文書のリストのような、そのノード
に関する追加情報を提供する。その後、ユーザは、選択
されたノードにマッピングされた文書をブラウジングす
ることができ、それらの題名、日付あるいは著者名か
ら、興味のありそうな任意の文書に関するより詳細な情
報を選択することができる。

【００５０】示されたユーザ・インターフェースはさら
に、ウィンドウ１５４に示されるように、ユーザが、階
層構造の複数のノードの中で興味のあるレベルを特定で
きるようにする。例えば、ユーザは、「朝鮮半島」ノー
ド、「北朝鮮」ノード、及び「非武装地帯（ＤＭＺ）」
ノードにマッピングされた文書に興味があるかもしれな
い。興味のある３つのノードの各々のためのスクロール
・バーを用いて、ユーザは、各々に対する興味のレベル
を「低い」から「高い」の範囲で提示する。ユーザが画
面上の「再ランク」ボタンを始動させると、３つのノー
ドにマッピングされた文書が、ユーザの特定した興味の
レベルに従ってランク付けされる。詳細な階層構造で
は、ユーザが、興味のある単一のノードからの文書だけ
でなく、階層構造内の近くのノードから他の文書も取り
出したいと思う場合がある。興味があることを指定にさ
れたノードから取り出される文書は、最高のランクを与
えられ、他のノードからの文書は、主として興味のある
選択されたノードへの接近度に依存して、より低いラン
ク付がなされる。さらにこれらの格付は、ユーザによっ
て提供される「興味のレベル」指示によって、重み付が
なされる。ユーザがこれらのレベルを変更して再ランク
・ボタンをオンさせると、文書はユーザのより詳細な分
析のために再びランク付けされて、表示される。

【００５１】複数の階層構造へ文書をマッピングするこ
とによって、文書のテキスト内容ではなく、文書が関係
する概念に基づいた多くの異なる方法で検索することが
できる文書データベースが提供される。しかしながら、
本発明は、文書データベースの検索に制限されるもので
はない。同じ原理が、階層構造内に存在するデータを記
述する要望がある、すべてのアプリケーションに適用さ
れてもよい。例えば、優勢な病理に関係する階層構造の
観点から分類されることが、病院患者にとって有用であ
る。この場合、階層構造内の「概念位置」は、患者の状
態を最もよく表現する疾患カテゴリである。この方式で
の患者の分類は、患者チャートを精査すること、及び病
理階層構造で達成される「ヒット」を記録すること、そ
れから患者の優勢な病理を最もよく特徴づける階層構造
内での適切なノードを決定することによって、達成され
る。別のアプリケーション例は、複数の未知の情報源か
らの通信信号の分析である。信号は、信号強度、方向、
周波数、帯域幅、変調タイプなどのような様々なパラメ
ータの観点で分析される。複数の信号がそれらの優勢な
特性に従ってマッピングされる階層構造であって、複数
の信号の分析及び検索を容易にするために用いられる階
層構造の基本として、これらのタイプのカテゴリの任意
のものを用いることができる。

【００５２】本発明は説明の目的のために詳細に記述さ
れたが、本発明の技術的思想及び範囲から逸脱すること
なく、様々な変更が可能であることが、先の記述から理
解されるであろう。従って、本発明は、添付された特許
請求の範囲に記載された事項によってのみ、規定される
ものである。

【図面の簡単な説明】

【図１】文書の概念位置がどのようにして発見されるか
を説明するための階層ツリー構造の図である。

【図２】本発明を具体化するシステムのブロック図であ
る。

【図３】シソーラス状の階層構造に関わる概念位置を決
定するために、文書を分析する際に実行される機能を示
したフローチャートである。

【図４】概念によって文書を分類するために処理された
文書データベースを検索する際に実行される機能を示し
たフローチャートである。

【図５】文書のための概念位置を決定する際に実行され
る機能をより詳細に示すフローチャートである。

【図６】図５のフローチャートで描かれた工程に従っ
て、概念位置がどう決定されるかについての具体的な例
を提供するための、概念の階層構造あるいはシソーラス
の線図である。

【図７】図６の階層構造中の各ノードのために、３つの
異なった重みファクタを用いる距離値の計算法を示すテ
ーブルである。

【図８】本発明の１つの側面に従って文書のデータベー
スを検索する際に使用されるユーザ・インターフェース
を説明するための図である。

Claims

【特許請求の範囲】

【請求項１】優勢な特徴に従ってデータベースのレコ
ードを分類するための方法において、ノード及びブランチを持つシソーラス状のツリー構造の
中に配列された特徴の階層構造を提供するステップであ
って、各ノードが階層構造内で１つの特徴を表してい
る、ステップと、データベースの各レコードに対して、レコードを特徴づ
ける複数のキーとなる特徴を識別する識別ステップと、識別ステップで得られた複数のキーとなる特徴から、デ
ータベースのレコードを最もよく特徴づける優勢な特徴
に対応する階層構造内のノードを選択するステップと、優勢な特徴及び階層構造内でのその位置をデータベース
のレコードと関連させて、データベースのレコードに、
特定のコンテンツによってではなく、優勢な特徴によっ
てアクセス可能にするステップとからなることを特徴と
する方法。
【請求項２】請求項１記載の方法において、優勢な特
徴に対応する階層構造内のノードを選択するステップ
は、レコード内の選択されたキーとなる特徴の各々を、階層
構造内の特徴と比較するステップと、レコードのキーとなる特徴と階層構造の特徴との間のマ
ッチングの発生回数及びそれらのノード位置を記録する
ステップと、ノードが十分に汎用的であってマッチングの大部分を包
含しているか、又は、あまり汎用的でなくてマッチング
ングから遠く離れすぎているかどうかに基づいて、どの
ノードを選択すべきかを判定するステップとを含むこと
を特徴とする方法。
【請求項３】請求項２記載の方法において、どのノー
ドを選択すべきであるかを判定するステップは、階層構造の各ブランチに関する収束値であって、当該ブ
ランチ以下で該ブランチに接続されるノードに関して記
録されたすべてのマッチング数の合計によって与えられ
る収束値を計算するステップと、階層構造の各ブランチに関する反収束値であって、階層
構造内でのマッチング数の合計と、ブランチに対する収
束値との間の差によって与えられる反収束値を計算する
ステップと、階層構造のノードに対する距離値を計算するステップで
あって、任意のノードに関する距離値を、当該ノードと
最上層ノードと間に存在するブランチの収束値及び反収
束値の関数として計算するステップと、最低の距離値を備えたノードを選択すべきノードとして
選択するステップとを含むことを特徴とする方法。
【請求項４】請求項３記載の方法において、距離値を
計算するステップは、階層構造の最上層ノードに比較的大きな距離値を割り当
てるステップと、あるブランチを介して最上層ノードに接続されるノード
に関する距離値を計算するステップであって、該ブラン
チの収束値だけ最上層ノードの距離値を減少させ、そし
て、その結果を、該ブランチの反収束値にファクタａ
（ただし、ａは単位元より大きい）を乗算した値だけ増
大させることによって、距離値を計算するステップと、上記同様に階層構造内の他のノードに関する距離値を計
算するステップであって、ブランチの下端ノードに関す
る距離値が、上端ノードの距離値から該ブランチの収束
値を減少させ、そして、その結果に、該ブランチの反収
束値にファクタａを乗算した値を加えることによって得
られる、計算するステップとを含むことを特徴とする方
法。
【請求項５】請求項４に記載の方法において、距離値
を計算するステップがさらに、ある距離値を最上層ノー
ドに割り当てた後、さらに他のノードに対して距離値を
計算した後に、距離値が計算されようとしている次のノードに、収束値
が最大のブランチを選択するステップであって、選択さ
れるブランチが、階層構造内の等レベルにある他のすべ
てのブランチよりも大きな収束値を持ち、距離値が、収
束値が最大のブランチが通過する経路に沿ったノードに
対してのみ計算される、ステップとを含むことを特徴と
する方法。
【請求項６】優勢な特徴に従ってデータベースのレコ
ードを分類するためのシステムにおいて、特徴の階層構造、ノード及びブランチを持つツリー構
造、及び階層構造内の特徴を表す各ノードを定義する少
なくとも１つのシソーラス状のツリー構造と、各々が優勢な特徴に従って分類されるレコードからなる
データベースと、レコードからなるデータベース、及びシソーラス状のツ
リー構造に連結されるシステム・プロセッサであって、
各データベースのレコードに関して、レコードを特徴づ
ける複数のキーとなる特徴を識別する手段と、複数のキ
ーとなる特徴から、データベースのレコードを最もよく
特徴づける優勢な特徴に対応する階層構造内の１つのノ
ードを選択する手段と、優勢な特徴及び階層構造内での
その位置をデータベースのレコードと関連させる手段と
を含み、データベースのレコードを、特定のコンテンツ
によってではなく、それらの優勢な特徴によってアクセ
ス可能にする、システム・プロセッサとを含むことを特
徴とするシステム。
【請求項７】請求項６記載のシステムにおいて、優勢
な特徴に対応する階層構造内の１つのノードを選択する
手段は、レコード内の選択されるキーとなる特徴の各々を階層構
造内の特徴と比較するための手段と、レコードのキーとなる特徴と階層構造の特徴との間での
マッチングの発生回数及びそれらのノード位置を記録す
る手段と、ノードが十分に汎用的でありかつマッチングの大部分を
包含しているか、又は、あまり汎用的でなくてマッチン
グから遠く離れすぎているかどうかに基づいて、どのノ
ードを選択すべきであるかを判定する手段とを含むこと
を特徴とするシステム。
【請求項８】請求項７記載のシステムにおいて、どの
ノードを選択すべきであるかを判定する手段は、階層構造の各ブランチに関する収束値であって、当該ブ
ランチより下でかつ該ブランチに接続されるノードに記
録されたすべてのマッチングの合計によって与えられる
収束値を研鑽する手段と、階層構造の各ブランチに関する反収束値であって、階層
構造内でのマッチング数の合計と、当該ブランチに関す
る収束値との間の差によって与えられる反収束値を研鑽
する手段と、階層構造のノードに関する距離値を計算する手段であっ
て、任意のノードに対する距離値を、最上層ノードと距
離値が計算されるノードとの間にあるブランチの収束値
及び反収束値の関数として計算する手段と最低の距離値
を備えたノードを選択する手段とを含むことを特徴とす
るシステム。
【請求項９】請求項８記載のシステムにおいて、距離
値を計算する手段は、階層構造の最上層ノードに比較的大きな距離値を割り当
てる手段と、あるブランチを介して最上層ノードに接続されたノード
から始めて、距離値を計算する手段であって、該ブラン
チの収束値だけ最上層ノードの距離値を減少させ、そし
て、その結果を、ブランチの反収束値にファクタａ（た
だし、ａは単位元より大きい）を乗算した値だけ増大さ
せることによって、距離値を計算する手段とを含み、距離値を計算する手段はさらに、上記と同様な方式で階
層構造内の他のノードに関して距離値を計算し、ブラン
チの下端ノードに関する距離値が、上端ノードの距離値
からそのブランチの収束値だけを減少させ、そして、そ
の結果に、ブランチの反収束値にファクタ「ａ」を乗算
した値を加えることによって得られることを特徴とする
システム。
【請求項１０】請求項９記載のシステムにおいて、該
システムはさらに、距離値が計算されようとしている次のノードに、収束値
が最大のブランチを選択する手段であって、選択される
ブランチが、階層構造内の等レベルにある他のすべての
ブランチよりも大きな収束値を持ち、距離値が、収束値
が最大のブランチを通過する経路に沿ったノードに対し
てのみ計算される、手段を含み、ある距離値を最上層ノードに割り当てた直後、さらに他
のノードに対して距離値を計算した後にも、収束値が最
大のブランチを選択するための手段が動作することを特
徴とするシステム。