JP3673487B2 - 階層的統計分析のシステム及び方法 - Google Patents

階層的統計分析のシステム及び方法

Info

Publication number
JP3673487B2
JP3673487B2 JP2001209268A JP2001209268A JP3673487B2 JP 3673487 B2 JP3673487 B2 JP 3673487B2 JP 2001209268 A JP2001209268 A JP 2001209268A JP 2001209268 A JP2001209268 A JP 2001209268A JP 3673487 B2 JP3673487 B2 JP 3673487B2
Authority
JP
Japan
Prior art keywords
node
branch
value
hierarchical structure
distance value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001209268A
Other languages
English (en)
Other versions
JP2002041546A (ja
Inventor
マーティン・エイチ・ハイアット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northrop Grumman Space and Mission Systems Corp
Original Assignee
Northrop Grumman Space and Mission Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northrop Grumman Space and Mission Systems Corp filed Critical Northrop Grumman Space and Mission Systems Corp
Publication of JP2002041546A publication Critical patent/JP2002041546A/ja
Application granted granted Critical
Publication of JP3673487B2 publication Critical patent/JP3673487B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Creation or modification of classes or clusters
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の技術分野】
本発明は、階層構造内のデータの分析に関し、より具体的には、テキスト・データの分析に関する。
【0002】
【従来の技術】
コンピュータの多くのユーザは、文書がユーザ提供のキーワードを含んでいる場合に、データベース中の文書が選択されるという、テキスト検索技術に精通している。いくつかのテキスト検索エンジンは、AND、OR、NOT、あるいはNEARといったブール論理結合において、ユーザが、キーワードすなわちフレーズを特定できるようにしている。他の、より高度なテキスト検索エンジンには、ユーザに対して、より関連する文書を提示する目的で、特定のワードの発生回数を数えるものもある。しかしながら、頻繁に起こることであるが、ユーザにとって全く興味のない、多数の文書が見いだされる結果に終わることがある。そのキーワードは、偶然、多くの文書で用いられている場合もあり、あるいは興味のない文書を与えるコンテキストにおいて用いられている場合もある。従って、興味のある文書を見つけだすことができない場合がある。その時、ユーザは、これらの不必要な文書を閲覧して廃棄するか、あるいは検索を洗練して繰り返さなければならない。すべてのキーワードを検索する技術の主要な欠点は、それらが、コンテキストあるいは表現されたアイデアや概念を考慮せずに、文書の文字どおりの形式あるいは表現を検索することを基本にしているということである。
【0003】
任意のコンテキストの中で用いられるキーワードを完全に付き合わせるのではなく、内容認識に基づいて、選択された概念又はアイデアを付き合わせることによって、ユーザが文書を見つけることができるテキスト検索技術に対する必要性が長らく存在してきた。
本発明は、この必要性を満たし、テキストでないデータの分析及び検索に対しても適用できる、システム及び方法を提供することを目的としている。
【0004】
【発明の概要】
本発明は、データ・サンプルを階層構造において特徴づけるためのシステム及び対応する方法にあり、具体的なデータ内容よりもむしろ、階層的な分類あるいは特徴に基づくことにより、データ検索を容易にする。概して言えば、本発明の方法は、ノードとブランチを持ち、各ノードがその階層構造の特徴を表すシソーラス状のツリー構造に配列された特徴の階層構造を提供するステップと、各データベースのレコードに対してレコードを特徴づける複数のキーとなる特徴を識別するステップと、識別するステップで得られた複数のキーとなる特徴から、データベースのレコードを最もよく特徴づける優勢な特徴に対応する階層構造内のノードを選択するステップと、その優勢な特徴及び階層構造内でのそれの位置をそのデータベースのレコードと関連させるステップとを含む。これにより、データベースのレコードは、具体的な内容によってではなく、それらの優勢な特徴によってアクセス可能となる。
【0005】
より具体的に言えば、優勢な特徴に対応する階層構造内のノードを選択するステップは、レコード内の選択されたキーとなる特徴の各々を階層構造内の特徴と比較するステップと、レコードのキーとなる特徴と階層構造の特徴との間のマッチングの発生回数及びそれらのノード位置を記録するステップと、そのノードが十分に汎用的でありそのマッチングの大部分を包含しているか、あまり汎用的でなくて階層構造内のマッチングの位置から遠く離れすぎているかどうかに基づいて、どのノードを選択すべきかを判定するステップとを含む。
【0006】
さらに、どのノードを選択すべきであるかを判定するステップは、階層構造の各ブランチに対する収束値を計算するステップであって、その収束値が、それより以下の、かつブランチに接続されるノードに記録されたすべてのマッチングの合計によって与えられる、計算するステップと、階層構造の各ブランチに対する反収束値を計算するステップであって、前記反収束値が、階層構造内でのマッチングの数の合計と、ブランチに対する収束値との間の差によって与えられる、計算するステップと、階層構造のノードに対する距離値を計算するステップとを含む。任意のノードに対する距離値は、最上層ノードと距離値が計算されるノードとの間に存在するブランチの収束値及び反収束値の関数である。選択されるノードは、最低の距離値を備えたノードである。
【0007】
さらにより具体的に言えば、距離値を計算するステップは、階層構造の最上層ノードに比較的大きな距離値を割り当てるステップと、あるブランチを介して最上層ノードに接続されるノードに対する距離値を計算するステップであって、そのブランチの収束値だけ最上層ノードの距離値を減少させ、その結果を、ファクタaが単位元より大きい場合に、そのブランチの反収束値にファクタ「a」を掛けた値だけ増大させることによって、距離値を計算するステップと、同じような方式でその階層構造内の他のノードに対する距離値を計算するステップであって、ブランチの下端ノードに対する距離値が、上端ノードの距離値からそのブランチの収束値だけを減少させ、その結果に、ブランチの反収束値にファクタ「a」を掛けた値を加えることによって得られる、計算するステップとを含む。
【0008】
基本的に、距離値は、階層構造の最上層で始まる連続ノードに対して計算される。ある距離値を最上層ノードに割り当てた後、さらに他のノードに対して距離値を計算した後にも、本発明の方法はさらに、距離値が計算されようとしている次のノードに、収束値が最大のブランチを選択するステップを含む。選択されるブランチは、階層構造内の等レベルにある他のすべてのブランチよりも大きな収束値を持つ。距離値は、階層構造の各レベルを通して、収束値が最大のブランチを通過する経路に沿ったノードに対してのみ、計算される必要がある。
【0009】
本発明はまた、優勢な特徴に従って、データベースのレコードを分類するためのシステムとしても定義される。概して言えば、システムは、特徴の階層構造、ノード及びブランチを持つツリー構造、及び階層構造内の特徴を表す各ノードを定義する少なくとも1つのシソーラス状のツリー構造と、その各々が優勢な特徴に従って分類されようとしているレコードからなるデータベースと、該データベース、及びシソーラス状のツリー構造に連結されるシステム・プロセッサとを含む。該システム・プロセッサは、各データベースのレコードに対して、レコードを特徴づける複数のキーとなる特徴を識別するための手段と、複数のキーとなる特徴から、データベースのレコードを最もよく特徴づける優勢な特徴に対応する階層構造内の1つのノードを選択するための手段と、その優勢な特徴及び階層構造内でのそれの位置をデータベースのレコードと関連させるための手段とを含む。これにより、データベースのレコードは、特定のコンテンツによってではなく、これらの優勢な特徴によってアクセス可能となる。
【0010】
優勢な特徴に対応する階層構造内の1つのノードを選択するための手段は、レコード内の選択されるキーとなる特徴の各々を階層構造内の特徴と比較するための手段と、レコードのキーとなる特徴と階層構造の特徴との間でのマッチングの発生回数及びそれらのノード位置を記録するための手段と、該ノードが十分に汎用的でありマッチングの大部分を包含しているか、又は、あまり汎用的でなくてマッチングから遠く離れすぎているかどうかに基づいて、どのノードを選択すべきであるかを判定するための手段とを含む。より具体的に言えば、どのノードを選択すべきであるかを判定するための手段が、階層構造の各ブランチに対して収束値を計算するための手段であって、収束値が、それより以下の、かつブランチに接続されるノードに記録されたすべてのマッチングの合計によって与えられる、手段と、階層構造の各ブランチに対する反収束値を計算するための手段であって、反収束値が、階層構造内でのマッチング数の合計と、ブランチに対する収束値との間の差によって与えられる、手段と、階層構造のノードに対する距離値を計算するための手段であって、任意のノードに対する距離値が、最上層のノードとその距離値が計算されるノードとの間のブランチの収束値及び反収束値の関数である、手段と、最低の距離値を備えたノードを選択するための手段とを含む。
【0011】
本発明におけるシステムにおいて、距離値を計算するための手段は、階層構造の最上層ノードに比較的大きな距離値を割り当てる手段と、あるブランチを介して最上層ノードに接続されるノードから始めて、他のノードに対する距離値を計算する手段であって、そのブランチの収束値だけ最上層ノードの距離値を減少させ、その結果を、ファクタ「a」が単位元より大きい場合に、そのブランチの反収束値にファクタaを掛けた値だけ増大させることによって、距離値を計算する手段とを含む。また距離値を計算する手段は、同じような方式でその階層構造内の他のノードに対して距離値を計算する。ブランチの下端ノードに対する距離値は、上端ノードの距離値からそのブランチの収束値だけを減少させ、その結果に、ブランチの反収束値にファクタ「a」を掛けた値を加えることによって得られる。
【0012】
本発明のシステムはさらに、距離値が計算されようとしている次のノードに、収束値が最大のブランチを選択するための手段を含む。その選択されるブランチは、階層構造内の等レベルにある他のすべてのブランチよりも大きな収束値を持ち、距離値は、収束値が最大のブランチを通過する経路に沿ったノードに対してのみ計算される必要がある。
【0013】
また、本発明は、優勢な概念に従ってデータベース文書を分類するための方法及びシステムにおいても具体化される。該方法は、ノードとブランチを持ち、各ノードがその階層構造の概念を表すシソーラス状のツリー構造に配列される概念の階層構造を提供するステップと、各データベース文書に対して文書を特徴づける複数のキーとなるワードを識別するステップと、識別するステップで得られた複数のキーとなる概念から、データベース文書を最もよく特徴づける優勢な概念に対応する階層構造内のノードを選択するステップと、その優勢な概念及び階層構造内でのそれの位置をそのデータベース文書と関連させるステップとを含む。これにより、データベース文書は、具体的なコンテンツによってではなく、それらの優勢な概念によってアクセス可能となる。
【0014】
より具体的に言えば、優勢な概念に対応する階層構造内のノードを選択するステップは、データベース文書内の選択されたキーとなるワードの各々を階層構造内の概念と比較するステップと、データベース文書のキーとなるワードと階層構造の概念との間のマッチングの発生回数及びそれらのノード位置を記録するステップと、該ノードが十分に汎用的でありそのマッチングの大部分を包含しているか、又は、あまり汎用的でなくて階層構造内のマッチングの位置から遠く離れすぎているかどうかに基づいて、どのノードを選択すべきかを判定するステップとを含む。どのノードを選択すべきであるかを判定するステップは、階層構造の各ブランチに対する収束値を計算するステップであって、収束値が、ブランチより以下の該ブランチに接続されるノードに記録されたすべてのマッチングの合計によって与えられる、ステップと、階層構造の各ブランチに対する反収束値を計算するステップであって、反収束値が、階層構造内でのマッチングの数の合計と、ブランチに対する収束値との間の差によって与えられる、ステップと、階層構造のノードに対する距離値を計算するステップであって、任意のノードに対する距離値が、最上層ノードと距離値が計算されるノードとの間にあるブランチの収束値及び反収束値の関数として計算される、ステップとを含む。選択されるノードは、最低の距離値を備えたノードである。
【0015】
距離値を計算するステップは、階層構造の最上層ノードに比較的大きな距離値を割り当てるステップと、あるブランチを介して最上層ノードに接続されるノードに対する距離値を計算するステップであって、そのブランチの収束値だけ最上層ノードの距離値を減少させ、その結果を、ファクタaが単位元より大きい場合に、そのブランチの反収束値にファクタ「a」を乗算した値だけ増大させることによって、距離値を計算するステップと、同じような方式で該階層構造内の他のノードに対する距離値を計算するステップとを含む。ブランチの下端ノードに対する距離値は、上端ノードの距離値からそのブランチの収束値だけを減少させ、その結果に、ブランチの反収束値にファクタ「a」を掛けた値を加えることによって得られる。また本発明の方法は、距離値が計算されようとしている次のノードに、収束値が最大のブランチを選択するステップであって、その選択されるブランチを、階層構造内の等レベルにある他のすべてのブランチよりも大きな収束値を持つものとして選択するステップを含む。距離値は、収束値が最大のブランチを通過する経路に沿ったノードに対してのみ計算される必要がある。
【0016】
本発明はまた、レコードの各々が少なくとも1つの優勢な概念によって最もよく特徴づけられるように分類されたレコードのデータベースを検索するための方法として定義され、その方法は、その概念のシソーラス状の階層構造内に興味のある概念を、ユーザ・インターフェースを通して提供するステップと、興味のある概念によって最もよく特徴付けられるように分類されたレコードをデータベースから取り出すステップと、その取り出されたレコードを、ユーザ・インターフェースを通してユーザに提供するステップとを含む。興味のある概念を提供するステップは、興味のある概念を配列し選択するために、ユーザ・インターフェースでもってシソーラス状の構造内をブラウジングするステップを含んでもよい。その代わりとして、興味のある概念を提供するステップは、ユーザに興味のあるキーワードを提供するステップと、そのキーワードから興味のある概念を決定するステップとを含んでもよい。該方法は、ユーザ・インターフェースを通して提供されたレコードを閲覧するステップと、提供されたレコードを閲覧した後に、興味のある概念を変更することにより検索を洗練するステップと、検索を繰り返すステップとを含んでもよい。
【0017】
本発明がデータベース検索の分野において重大な完全を提供することが、先の記述から理解されるだろう。優勢な特徴あるいはキーとなる鍵の概念に従ってデータベースのレコードを分類することは、具体的なコンテンツではなく概念による検索を容易にし、検索がテキスト内容のような具体的なレコード・コンテンツに基づいてなされる時に得られる、不満足な検索結果を減少させるか、又は除去する。本発明の他の側面及び利点は、添附図面と共に、次のより多くの詳細な説明がなされることで、明らかになるであろう。
【0018】
【発明の実施の態様】
本発明を、テキスト・データの特徴及び検索の問題というコンテキストにおいて記述するが、本発明が他のデータ検索の問題にも広く適用可能であることは明らかであるだろう。図に示すように、本発明は、テキスト・データの場合には、文書であるデータ・レコードを、階層構造において表わされた概念あるいはキーとなる特徴に基づいて、ユーザが取り出せるようにする階層分析システム及び方法に関係する。テキスト・データの従来の検索では、キーワードがユーザによって特定され、そのキーワードが現われる文書をすべて配置するために、データベース内の多くの文書が検索される。いくつかのシステムでは、文書の全文が検索される。検索工程の速度を上げるため、全文の代わりに検索されるキーワードあるいは要約を引き出すために文書が前処理される場合もある。いずれの場合も、その検索工程は通常、ユーザにとって興味のないキーワード発生あるいは「ヒット」を持つ多くの不必要な文書を抽出することになる。その時、ユーザは、閲覧して不必要な文書を廃棄するか、あるいは、他のキーワードを特定することで検索の幅を狭めるかのどちらかをしなければならないが、その工程は、多くの場合、ユーザにとって時間を消費し、苛立たしいことである。
【0019】
本発明をテキスト検索に適用する場合、データベースに記憶保管される文書は、まずキーワードを引き出すために前処理され、次に、シソーラス状の階層構造に対してその文書がどこに最もよく適合するかを判定するために、各文書からのキーワードが分析される。この前処理技術は、シソーラス状の階層構造内での1つ以上の選択された位置によってデータベース内の各文書が特徴づけられることを可能にする。その位置が階層構造内での大部分のキーワード「ヒット」に接近していることと、その位置が大部分のキーワード・ヒットを包含するのに十分に高い抽出レベルにあることにより、階層構造内で各々が選択された概念位置が、「概念空間」の中で文書を特徴づける。
1つの文書中の複数のキーワードが、その文書に提供されるか、又は文書の全文をシソーラス状の階層構造と比較することによって、生成される。階層構造内でのヒットの数は、正確に文書を特徴づけるキーワードを識別するためと、ワードの付帯的な使用にのみ関係している少数のヒットを取り除くために、分析される。
【0020】
文書の概念(コンセプト)位置を見つけることは、汎用性のレベルと、キーワードを十分に高い割合で包含することとの交換を伴う。図1に示すように、概念の階層構造は、逆ツリー構造10として表すことができ、図示のように構造の最上層12にルート(根)を持ち、最上層から下に延びる複数のブランチ(分岐)14を持つ。ツリー構造10中のブランチの点はノードと呼ばれ、階層構造の下位レベルに到達するにつれて増大するという特異性を備えた構造内に、包含される概念を定義するために必要とされる数のノード及びブランチがある。例えば、図1に示される構造がアメリカ合衆国に関する文書の地理的なデータベースを表す場合、最上層のノード12は「アメリカ合衆国」と指定される。ノード12の次のより低い層は、地理的な地域を指定するために用いられてもよい。例えば、2つのノード16及び18は、「パシフィック地域」及び「セントラル地域」とそれぞれ指定される。その次の下のレベルは、各地域内の州を表すために用いられ、図の最下位に示される下位レベルは、各州内の都市、あるいは郡を表すために用いられることができる。例えば、ノード20及び22が、「カリフォルニア」及び「ワシントン」に指定され、ノード24、26、28、30及び32が「サンディエゴ」、「ロサンゼルス」、「サンフランシスコ」、「シアトル」及び「タコマ」にそれぞれ指定されると仮定する。1つの文書が概念位置に対して分析され、図1の左側の部分の星によって示されるような、ノード22(ワシントン)、26(ロサンゼルス)、28(サンフランシスコ)、30(シアトル)及び32(タコマ)に関してキーワード・ヒットがあることが分かる。
【0021】
図1の右側の部分は、その文書が分析されて、星印34として示される、適切な概念位置を図示する。ノード10(アメリカ合衆国)にその文書を分類すると、確かにすべてのキーワード・ヒットを包含するが、最上層のカテゴリは、ほとんどの目的に対して、あまりにも汎用的過ぎる。ノード22(ワシントン)にその文書を分類すると、カリフォルニアの市のヒットを含まないので、狭すぎる。直観的に、適切な概念カテゴリは、ツリー(系図)のワシントンより高いところにあるが、アメリカ合衆国より低いところにあることが理解される。図示される例において、ノード16(パシフィック地域)が、最良の選択であるように見えるであろう。
【0022】
星印34がノード16の下に配列されている図1の右側の部分に示されるように、おそらく最良のカテゴリは、ノード16と次のより低いノード20及び22の州との間にあるであろうが、現行ではノード14と次のより低いノードとの間にはいかなるノードも存在しない。階層構造が「地域」と「州」の間の地理的な呼称を含むよう拡張されたならば、この分析中の文書は、より正確に配列される可能性がある。都市レベルでのヒットのすべてが、ちょうど太平洋岸に位置するので、適切なサブ地域の呼称は「海岸」、「山地」及び「砂漠」であろう。本発明は、この方式で階層構造を拡張する可能性には関係しないが、図1で示されるような既存の階層構造に対して、自動的に文書を分類するためのシステム及び方法に部分的に関係する。
図1の例は、地理的な類型に基づいた概念の分類を示す。該同じ文書が、複数の階層構造でキーワード・ヒットを有する場合がある。例えば、文書がその言及された都市に関係する環境汚染のような技術的問題を扱う場合、文書は、大洋に関する環境工学に関係する概念階層構造内に適切に配列されるであろう。
【0023】
図2は、本発明を実現する装置の主な構成要素を示すシステム・ブロック図であり、システム・プロセッサ40、ユーザ・インターフェース42、及び文書データベース44及び46に複数のシソーラス状の階層構造を保持するためのストレージ装置を含む。線50で示すように、様々な従来の情報源から引き出される文書48が、文書データベース44に入力される。線52で示されるように、任意の適切な高速コンピュータ・システムであるシステム・プロセッサ40は、処理のためにデータベース44から文書を取り出し、線54で示すように、処理された文書に関する概念位置をそのデータベースに戻し格納する。線56及び58で示すように、ユーザ・インターフェース42は、システム・プロセッサ40とやりとりし、キーワードを提供するか、あるいは文書を取り出すための位置を概念階層構造46の中から選択するかのどちらかによって、ユーザがデータベース44の検索を開始できるようにする。
【0024】
図3は、文書の概念を査定(アセスメント)するために実行される主要な機能を描くフローチャートである。ブロック60で示すように、概念査定のために、文書がまず選択される。破線62で示すように、文書は、データベース44か、あるいは別の情報源からダイレクトに取り出されてもよい。その後、ブロック64で示すように、その文書が精査されて、文書の主題を特徴づけるキーワードが識別される。これは独立した処理であってもよいし、キーワードは、その文書を階層構造46内のワードと比較することにより、識別されてもよい。
【0025】
その後、ブロック66で示すように、階層構造46内での適切な概念位置(複数可)を決定するために、文書のこれらキーワードが用いられる。これについては以下に、より詳細に説明する。そして、文書が、ブロック68に示すように、概念位置(複数可)に「マッピング」される。該マッピングは、破線70で示すように、例えば文書と関連してデータベース44に概念位置(複数可)を記憶保管することによって、選択された概念位置(複数可)が文書に対応付けられることを意味する。概念位置へ文書をマッピングすることは、テキスト内容(コンテンツ)の代わりに、概念(コンセプト)に基づいた文献検索を可能にする。各文書がその概念位置(複数可)を決定するために査定された後、工程は再びブロック60に戻り、新しい文書が概念査定のために選択される。
ユーザは、特定の概念に付随する、新らしく処理された文書を受け取るリクエストをしてもよい。概念位置が新しい文書のために決定されたならば、ブロック72で示すように、概念位置がこのタイプのユーザ・リクエストと比較され、マッチングすることが分かった場合、文書のコピーがユーザに配信される。
【0026】
図4は、データベース44の検索において実行される主要な機能を描くフローチャートであるが、そのデータベース内では、すべての文書がその各々を階層構造46内の1以上の概念位置にマッピングするための処理を終えている。検索を開始したいユーザは、ブロック80で示すように、1以上のキーワードか、あるいは、ブロック82で示すように、1以上の概念位置のどちらかを、ユーザ・インターフェース42を通して入力する。ユーザがキーワードを提供すれば、ブロック84で示すように、システムはまず、キーワードから対応する概念位置を決定する。これは、各文書の概念位置を決定するために用いられた工程と基本的に同じものである。キーワードは、階層構造46と比較され、集められたキーワードを最もよく特徴づける概念位置が選択される。
【0027】
概念位置が、決定されるか、あるいはユーザによって提供されたならば、システムは、ブロック86で示すように、同じ概念位置にマッピングされた文書を取り出し、そして、ブロック88で示すように、これらの文書をユーザに配信する。文書は、まず、題名、要約、あるいは他の短い要旨によって配信され、次いで、ユーザが検索に関連しない文書を廃棄できるようにするという従来の考え方が、文書配信の工程においては本来的である。その後、選択された文書の全文が、ユーザに配信される。ブロック90で示すように、ユーザは、随意に、初めに配信された結果に基づいて修正された入力キーワードあるいは概念に基づいた検索を繰り返し、その検索を洗練してもよい。
【0028】
本発明の主たる特徴は、選択された位置が本当にその文書を代表するように、データベース44における各文書に対する概念空間内で位置を決定することである(複数可)。図1に示した単純な例において、ほとんどのワードの「ヒット」を包含するほどに十分に高いレベルの抽出がなされ、しかも、ヒット位置から遠く離れすぎて汎用的になり過ぎないように、位置が選択される。この概念位置は、階層ツリー構造におけるヒットの位置を見ている人間の観測者にとっては直観的に明白であるかもしれないが、本発明の目標は、プログラム可能なプロセッサにおいてそれを容易に実行することができる方法で、その選択工程を定義することである。
次に、この概念位置選択工程について詳細に説明する。
【0029】
図5は、文書のための概念位置を決定する工程を示すフローチャートである。該フローチャートに示される機能は、既に精査された概念階層構造について、特定の文書に対するキーワード「ヒット」の位置を判定するために実行される。ブロック66(図3)で示した概念位置を決定する大まかなステップは、文書のキーワードを概念階層構造と対象して比較する予備ステップを含む。図6は、適切な概念位置がどう決定されるかを説明するために、図5のフローチャートと共に用いられる階層構造の一部を示している。図6の階層構造は、地理的な位置の階層構造か、あるいは他のタイプの階層構造でもよく、その中の概念ノードは、科学及び技術、政策、人員組織、産業、政府、軍隊組織などに関係する。関与する階層構造のタイプにかかわらず、付随する処置は同じである。その構造の各ノードでのキーワードのヒット数を記録するために、階層構造が精査される。その後、構造及びヒット数が、図5に示した工程を用いて分析され、その文書に対する適切な概念位置が決定される。自動的なやり方で、ある文書に包含されている概念(複数可)を識別するには、その記述された手続きを、複数の階層構造あるいはシソーラスに適用することが必要であることが理解されるであろう。
【0030】
自動的に概念位置を見つける工程は、階層構造の各ブランチに関連する2つの数量を必要とする。そのブランチ数量は「収束値」及び「反収束値」を含み、これらは、単純に定義される。3番目の数量である「距離」は、階層構造中の各ノードに対応付けられる。距離は、まず最上層のノードに対して計算され、それから、より低いノードに到達するまでに付随するブランチの収束値及び反収束値に基づいて、順次より低いノードに対して計算される。
あるブランチの収束値は、ブランチによって「カバーされる」ヒット数、つまり、そのブランチより以下に位置する階層構造内のノードでのすべてのキーワード・ヒットの合計数として計算される。したがって、階層構造の最下層のブランチの収束値は、もしあれば、単にブランチの下端ノードでのヒット数である。階層構造の最下層でないブランチについて、その収束値は、ブランチの下端ノードから下降していくブランチの各々の収束値の合計に等しい。
【0031】
あるブランチの「反収束値」は、このブランチより1つ上のブランチの反収束値と、このブランチの上位ノードでのヒット数と、このブランチの上位ノードから下降していく他の各々のブランチの収束値の合計とを加算したものである。あるブランチの反収束値は、全階層構造上のヒットの合計数と、同じブランチの収束値との間の差として、もっと簡単に表わされる。したがって、あるブランチの収束値がCで、階層構造中のすべてのノード上のヒットの合計数がTである場合、そのブランチの反収束値は、T−Cである。
【0032】
収束値は、ヒットを有するノードを通して階層構造を1つ上がるにつれて増大し、ある上位のブランチ(複数可)で最大に達する。収束値は、ツリー構造の「アップ」距離の指標を提供するものと見なされる。「アップ」という言葉は、「アップ」の方向が、逆ツリー構造のルートあるいは幹線の方向である。反収束値は、ヒットを持つノードを通して階層構造を1つ下がるにつれて増大し、収束値が最低になるブランチにおいて最大値に達する。反収束値は、ツリー構造の「ダウン」距離の指標を提供するものと見なされる。階層構造を通して、ヒットを持たないノードを横断するいくつかの経路は、ゼロ収束値及び最大の反収束値を備えたブランチを持つことになるが、これらは通常、記述される工程中では省略される。
【0033】
図5のブロック100で示される最初の第1ステップでは、階層構造中のすべてのブランチに対して、収束値及び反収束値をゼロに初期化し、そして、階層構造中のすべてのノードに対して距離値をゼロに設定する。最初は、この工程は、ブランチが階層構造の最下の層すなわち最下レベルにあるものと設定される。
ブロック102に示す次のステップでは、現行レベルでの各ブランチに対する収束値を計算する。あるブランチに対する収束値は、ブランチの下位ノードでのヒット数に、もしあれば、下位ノードから下って、すべてのブランチの収束値を加えて計算される。したがって、階層構造での最も低いレベルについて、その収束値は、もしあれば、そのブランチの下位ノードでの単なるヒット数である。次に、ブロック104で示すように、その収束値がそれぞれのブランチ・アドレスに関連して記憶される。ブロック106で示すように、階層構造の最上層に到達しなかった場合は、ブロック108で示すように、工程が1レベル「アップ」し、ブロック102で、階層構造の次の上のレベルにあるブランチのそれぞれに対して処理を継続する。ブロック102、104、106及び108を通してのこの処理のサイクルは、階層構造の最上層がブロック106で検出されるまで続く。検出された時点で、収束値が、階層構造内のすべてのブランチに対応付けられる。
【0034】
上に記述され、さらに以下で説明する工程は、階層構造のトポロジが、階層構造データベースの一部として記憶保管されることを必要とする。これを達成するための多くの従来技術がある。最も単純なものでは、ノード及びブランチが、ユニークな数値あるいは「アドレス」を割り当てられる。各ブランチを上位及び下位ノード番号と関連させること、あるいは、各ノードをノードに接続されるブランチ数と関連させることが、あいまいさのないトポロジを定義する。このような手段又は同様の手段によって、階層構造のどのレベルが処理されつつあるのか、及び図5に関して記述された演算を実行するための適切なノード及びブランチをいかにして見いだすかが「分かる」。
【0035】
判定ブロック106において、構造の最上層に到達したと判定すると、次に、ブロック110において、最上層ノードから下降していくブランチのうちの1つがそのブランチの中で最大の収束値を提供しているかどうかを判定する。例えば、最上層ノードが等しい収束値を備えた2つの下降ブランチを持つ場合、最上層ノードがおそらく概念位置の最良の選択であり、反収束値の演算は必要とされない。ブロック110において、最上層ノードからの1つのブランチが最大の収束値を持つと判定した場合、反収束値を決定する処理が継続する。
【0036】
次に、ブロック112で示すように、反収束値が現行のブランチに対して計算される。ブロック112を最初に通過する際には、反収束値が計算されるブランチは、判定ブロック110で決定されたように、最大の収束値を備えた上位のブランチである。任意のブランチのための反収束値は、2つの方法の一方で計算される。最初に、反収束値(AC)は、
Figure 0003673487
で与えられる。単純に言えば、任意のブランチに対する反収束値は、全階層構造中のヒットの合計数とその同じブランチの収束値との間の差に等しい。
【0037】
ブロック114に示すように、反収束値は対応するブランチ・アドレスと関連させて記憶される。判定ブロック116では、階層構造の最下層レベルに到達したかどうかを判定する。到達していない場合は、反収束値が今しがた計算されたブランチより下のブランチ(複数可)を考慮し、ブロック118に示すように、これらのブランチのいずれか1つが他のものより大きな収束値を持っているかどうかを判定する。最大の収束値を備えた単一ブランチがない場合、分析は終了する。最大の収束値を備えたブランチがある場合、ブロック120で示すように、このブランチは次の下位レベルに移り、ブロック112で示すように、そのブランチの反収束値が計算され、ブロック114で示すように、計算された反収束値がブランチ・アドレスと関連させて記憶される。判定ブロック116で階層構造の最下層に到達したことを判定するまで、処理は継続する。最下層に到達した時点で、ブロック122で示すように、階層構造の最上層ノードに焦点を合わせ、距離値が階層構造内の関連するノードに対して計算される。
【0038】
階層構造内の最上層ノードに対する距離値は、階層構造内のすべてのブランチの収束値の合計であると定義する。最上層ノードに対しては、いかなる適度な大きさの距離値でも割り当てることは可能である。便宜上、すべての収束値の合計を用いることにより、いかなるノードもマイナスの距離値を持たないように保証される。しかしながら、本発明の処理は、最上層ノードに割り当てられた距離値にかかわらず有効である。ブロック124に示すように、最上層のノード距離値の演算を、ブランチの収束値の合計としている。次に、ブロック126で示すように、最大の収束値ブランチは次の下位レベルのノードに移る。その後、ブロック128で示すように、このノードに対する距離値が計算される。(最上層ノード以外の)現行ノードの距離値は、1つ高位のノードの距離値と、現行ノードの直ぐ上のブランチの収束値及び反収束値との関数である。具体的には、現行ノードの距離値は、所定の定数「a」を反収束値に掛けた値とその収束値との差を、1つ高位ノードの距離値から差し引いて計算される。反収束値を計算する時、各レベルで最大の収束値を持つブランチを取りながら、階層構造の最上層から最下層までの1つの経路に従う。距離値を計算する際にも同じ経路に従う。判定ブロック130は、いつ階層構造の最下層に到達し、そして必要な距離値の全部が計算されたかを判定する。ブロック132で示すように、最低の距離値を備えたノードを選択することにより、終了する。
【0039】
上に記述したように、階層構造内のすべてのブランチに対して収束値を計算するが、階層構造内のヒットの最大のグループ化によって決定されるような、選択されたブランチ及びノードに対してだけ、反収束値及び距離値を計算する。説明のために、ブランチの全部に対する反収束値、及びノードの全部に対する距離値を、図6に示す。反収束値及び距離値の全部を計算することが必要でないことは、この例から明かであるだろう。
【0040】
図6に示される階層構造は、A〜Nの参照文字によって示されるノード、及び識別されていない他のノードを含む。この説明の中で、ブランチは、ブランチの上位及び下位ノードによって識別される。例えば、ブランチABは、ノードA及びBに接続される。ノードAは、構造内の最上層ノードであり、ノードB及びLは次の下位レベルにあり、ノードC、K、M及びNは、最上層から3番目のレベルにある。ノードC及びKは、ノードBへのブランチBC及びBKによって接続され、ノードM及びNは、ノードLへのブランチLM及びLNによって接続される。ノードCの下に、次の下位レベルである2つのノードD及びEがある。ノードEには2つの下位ノードI及びJが接続され、そしてノードDには3つの下位ノードが接続され、それらの内の2つは、ノードF及びGである。ノードF、G、I及びJは、同じレベルにあり、ノードD及びEより1つ下の位置である。階層構造内での最下位のレベルは、ノードF及びGより下の他のノードを含み、そのうちの1つはノードHとして識別される。
各ノードの「ヒット」数は、円内の数によって示される。ノードDには8、ノードEには6、ノードFには4、ノードGには2、ノードIには2、及びノードJには1つのヒットがあり、合計で23のヒットがあることを示している。各ブランチの収束値は、該ブランチの近くに示される0〜23の数字によって示される。各収束値に続く括弧内の数は、ブランチに対する反収束値である。
【0041】
ブロック102(図5)を参照して上に記述したように、収束値が、階層構造内の最下位のブランチから開始して、計算される。ノードF、G、I及びJのレベル以下にヒットがなかったので、ブランチGHのようなこのレベルより下のブランチは、0の収束値を持つ。ブランチDFは、下部のノードFに4つのヒットがあったので、4の収束値を持つ。同様に、ブランチDGは2の収束値を持ち、ブランチEIは2の収束値を持ち、ブランチEJは1の収束値を持つ。高位レベルのブランチCDは、以下のブランチの収束値(4+2)に、ノードDでのヒット数(8)を加えて計算されて、合計で14の収束値を持つ。同様に、ブランチCEは、ブランチEI及びEJの収束値の合計(2+1)に、ノードEでのヒット数(6)を加えて計算されて、合計で14の収束値を持つ。ブランチBCの収束値は、ブランチCD及びCEの収束値の合計(14+9=23)として計算され、この収束値はまた高位のブランチ(AB)にも当てはまる。ノードK、L、MあるいはNには全くヒットがなかったので、ブランチBK、AL、LM及びLNの収束値は、すべてゼロである。
【0042】
各ブランチに対する反収束値は、ヒットの合計数(23)とそのブランチに対する収束値との差である。したがって、ゼロ収束値である各ブランチに対する反収束値は23である。最大の収束値(A−B−C−D−F)の経路について、収束値が、階層構造の最下層のゼロから最上層のブランチでの最大値(23)まで変動することが明らかであろう。この経路に沿った反収束値は、最上層でのゼロから最下層での最大値まで変動する。ヒットがない階層構造の領域では、収束値がゼロで、反収束値は最大となる。
【0043】
図7は、図6内のA〜Nのノードの各々に対して、対応する距離値がどのように計算されるかを示すテーブルである。上に記述された処理の実際的な実行においては、距離値が経路A−B−C−D―Fに沿ったノードに対してだけ計算されるが、説明の目的のために、距離及び関連する値が、A〜Nのノード全部に対して示されている。上に記述されるように、最上層ノード(A)に対する距離値は、階層構造内のすべてのブランチに対するすべての収束値の合計として計算される。この場合、収束値の合計は78である。下位ノードについて、その距離値は、1つ高位のノードの距離値から、(このノードと1つ高位のノードの間に)介在するブランチの収束値を引いて、そのブランチの反収束値にファクタ「a」を掛けた値を加えて計算される。
【0044】
図7の第2列で、階層構造の「アップ」距離が示される。これは距離値に対する表現における2つのワードの第1のものであり、すなわち1つ高位ノードの距離値と、介在するブランチの収束値との間の差である。例えば、ノードBについては、この「アップ」距離が、78―23=55によって与えられる。任意のノードに対する「アップ」距離は、階層構造の最下層からの収束値の指標を見なすことができる。ノードAは、定義によって最も高い「アップ」距離を持ち、最低の階層構造の「アップ」距離を備えたノードは、ノードF及びそれ以下のノードである。階層構造の「ダウン」距離は、図7の第3列に示すように、ブランチの反収束値からダイレクトに計算される。最上層ノードAはもちろん、階層構造「ダウン」距離がゼロである。ブランチAB及びBCがゼロの反収束値を持つので、ノードB及びCもまた階層構造「ダウン」距離がゼロである。ノードDに対する「ダウン」距離は、ノードDの直ぐ上のブランチCDに対する反収束値の9である。同様に、ノードFに対する「ダウン」距離は19であり、以下同様である。
【0045】
第4列(説明のためだけに含まれる)は、各ノードに対する「アップ」距離及び「ダウン」距離の合計を示す。事実上、これは「a」=1.0にした時の距離値である。この列のノードDに矢線によって示すように、この列の最小距離値はノードDに対する値「27」である。その階層構造の線図内に示されるヒットを生じる文書に対する概念位置として、このノードを選択することは、ノードE、I、及びJでのヒットを含んでいないので、明らかに不適当であることが分かる。直観的に、より適切な選択は、十分に汎用的でありヒットを備えたすべてのノードを包含しているノードCであることが理解される。ただノードDは、特定し過ぎであり、ノードBあるいはAといった高位のノードは、不必要に汎用的である。
【0046】
図7の第5列は、ファクタ[a]を2.0に設定する場合の影響を示す。これは、階層構造「ダウン」距離に等しい量だけ、つまりそのノードの上のブランチの反収束値だけ、各ノードに対する距離値を増大させる効果がある。より高い階層構造「ダウン」距離を備えたノードに対しては、より低い、あるいはゼロの階層構造「ダウン」距離を備えたノードに対してよりも、距離値が増大させられる。この例の中で、D、E、及びそれより下のノードに対する距離値は、増大させられるが、ノードA、B及びCは影響されない。その結果、最低の距離値を備えたノードの位置が、階層構造の上方に上がる。具体的に言うと、この列の矢線によって示すように、ノードCが最低の距離値(32)を持っており、この分析中の文書のための概念位置として、選択される。
【0047】
最後の列は、「a」=1.618を用いて計算された距離値を示す。ノードCが最小距離値(32)を持つので、再度、ノードCが、その文書のための概念位置として選択される。ファクタ「a」は、データベース階層構造内の異なるタイプの主題に対しては、異なるタイプの主題を持つ文書を分析した経験に基づいて変更されてもよい。現時点では、[a]の値として1.5〜4.0の間の任意の値を用いることが、有効な結果をもたらすことがわかっている。
本発明に従って、1つのレベルから次のレベルまでのノード距離値が、そのレベル間に横断するるブランチに対する収束値及び反収束値の関数として計算されるが、反収束値は、選択されたファクタ「a」によって、収束値より多くの重みを与えられる。この非対称が、図6及び7を参照して説明された例において示されるように、位置選択過程に上へ押し上げる力を及ぼし、より汎用的な概念位置を選択する結果になる。
【0048】
上に説明された原理に従って、概念に対する分析がなされたデータベースを検索することは、いくつかの重要な点において、キーワードを用いる従来のテキスト検索とは異なる。理想的には、ユーザは、既存の階層構造あるいはシソーラスに適合する指定された概念(複数可)から、興味のある分野を特定するだろう。例えば、ユーザが朝鮮半島上の位置に関係する文書を見つけることに興味があると仮定する。ユーザは、まず「位置」シソーラス、つまり、その文書が関係する地理的な位置の観点から分類された、文書との関連性を持つシソーラスを選択する。その検索する工程により、ユーザに対して、ユーザ・インターフェース上に、位置シソーラスをブラウジングするためのメカニズムを提供することが理想的である。シソーラスは、メニュー構造に似たテキスト形式で与えられてもよいし、あるいは、シソーラスのツリー構造を提示し、その構造内に各ノードについての情報をユーザに提供するグラフィック形式で与えられてもよい。
【0049】
図8は、シソーラス画面150を持つ上記後のタイプを取り入れたユーザ・インターフェースを示す。シソーラスの主要なノードは、スペースが許すなら、その画面の右に示されてもよく、ユーザは、各ノードについてのより具体的な情報を得るためのメカニズムを提供される。これを実行する1つの方法は、マウス・カーソルを興味のあるノードに置くと、画面上に情報の補足「バブル」が提供されることである。ユーザは、ツリー構造を横切ってカーソルを移動させることによって、選択されたシソーラスをナビゲートして、特に興味のあるノード(複数可)を見つける。シソーラスは、画面の別領域152で選択される。ユーザが興味のあるノードを見つけると、ユーザ・インターフェースは、そのノードで分類された文書のリストのような、そのノードに関する追加情報を提供する。その後、ユーザは、選択されたノードにマッピングされた文書をブラウジングすることができ、それらの題名、日付あるいは著者名から、興味のありそうな任意の文書に関するより詳細な情報を選択することができる。
【0050】
示されたユーザ・インターフェースはさらに、ウィンドウ154に示されるように、ユーザが、階層構造の複数のノードの中で興味のあるレベルを特定できるようにする。例えば、ユーザは、「朝鮮半島」ノード、「北朝鮮」ノード、及び「非武装地帯(DMZ)」ノードにマッピングされた文書に興味があるかもしれない。興味のある3つのノードの各々のためのスクロール・バーを用いて、ユーザは、各々に対する興味のレベルを「低い」から「高い」の範囲で提示する。ユーザが画面上の「再ランク」ボタンを始動させると、3つのノードにマッピングされた文書が、ユーザの特定した興味のレベルに従ってランク付けされる。詳細な階層構造では、ユーザが、興味のある単一のノードからの文書だけでなく、階層構造内の近くのノードから他の文書も取り出したいと思う場合がある。興味があることを指定にされたノードから取り出される文書は、最高のランクを与えられ、他のノードからの文書は、主として興味のある選択されたノードへの接近度に依存して、より低いランク付がなされる。さらにこれらの格付は、ユーザによって提供される「興味のレベル」指示によって、重み付がなされる。ユーザがこれらのレベルを変更して再ランク・ボタンをオンさせると、文書はユーザのより詳細な分析のために再びランク付けされて、表示される。
【0051】
複数の階層構造へ文書をマッピングすることによって、文書のテキスト内容ではなく、文書が関係する概念に基づいた多くの異なる方法で検索することができる文書データベースが提供される。しかしながら、本発明は、文書データベースの検索に制限されるものではない。同じ原理が、階層構造内に存在するデータを記述する要望がある、すべてのアプリケーションに適用されてもよい。例えば、優勢な病理に関係する階層構造の観点から分類されることが、病院患者にとって有用である。この場合、階層構造内の「概念位置」は、患者の状態を最もよく表現する疾患カテゴリである。この方式での患者の分類は、患者チャートを精査すること、及び病理階層構造で達成される「ヒット」を記録すること、それから患者の優勢な病理を最もよく特徴づける階層構造内での適切なノードを決定することによって、達成される。
別のアプリケーション例は、複数の未知の情報源からの通信信号の分析である。信号は、信号強度、方向、周波数、帯域幅、変調タイプなどのような様々なパラメータの観点で分析される。複数の信号がそれらの優勢な特性に従ってマッピングされる階層構造であって、複数の信号の分析及び検索を容易にするために用いられる階層構造の基本として、これらのタイプのカテゴリの任意のものを用いることができる。
【0052】
本発明は説明の目的のために詳細に記述されたが、本発明の技術的思想及び範囲から逸脱することなく、様々な変更が可能であることが、先の記述から理解されるであろう。従って、本発明は、添付された特許請求の範囲に記載された事項によってのみ、規定されるものである。
【図面の簡単な説明】
【図1】文書の概念位置がどのようにして発見されるかを説明するための階層ツリー構造の図である。
【図2】本発明を具体化するシステムのブロック図である。
【図3】シソーラス状の階層構造に関わる概念位置を決定するために、文書を分析する際に実行される機能を示したフローチャートである。
【図4】概念によって文書を分類するために処理された文書データベースを検索する際に実行される機能を示したフローチャートである。
【図5】文書のための概念位置を決定する際に実行される機能をより詳細に示すフローチャートである。
【図6】図5のフローチャートで描かれた工程に従って、概念位置がどう決定されるかについての具体的な例を提供するための、概念の階層構造あるいはシソーラスの線図である。
【図7】図6の階層構造中の各ノードのために、3つの異なった重みファクタを用いる距離値の計算法を示すテーブルである。
【図8】本発明の1つの側面に従って文書のデータベースを検索する際に使用されるユーザ・インターフェースを説明するための図である。

Claims (3)

  1. 優勢な特徴に従ってデータベースのレコードを分類するためのシステムにおいて、
    特徴の階層構造を定義し、複数のノード及び複数のブランチを持つシソーラス状のツリー構造であって、各ノードが階層構造内の1つの特徴を表している、シソーラス状のツリー構造と、
    各々が優勢な特徴に従って分類されるレコードからなるデータベースと、
    レコードからなるデータベース及びシソーラス状のツリー構造に接続されるシステム・プロセッサであって、データベースの各レコードに関して、レコードを特徴づける複数のキーとなる特徴を識別する手段と、複数のキーとなる特徴から、データベースの当該レコードを最もよく特徴づける優勢な特徴に対応する階層構造内の1つのノードを選択する手段と、該優勢な特徴及び階層構造内でのその位置をデータベースの当該レコードと関連させる手段とを含み、データベースのレコードを、特定のコンテンツによってではなく、それらの優勢な特徴によってアクセス可能にする、システム・プロセッサと
    を含み、
    該システム・プロセッサの、優勢な特徴に対応する階層構造内の1つのノードを選択する手段は、
    レコードにおける選択されるキーとなる特徴の各々を、階層構造内の特徴と比較するための手段と、
    レコードのキーとなる特徴と階層構造の特徴との間でのマッチングの発生回数及びそれらのノード位置を記録する手段と、
    ノードが、生じたマッチングの所定大部分を包含する位置であるかどうかに応じて、どのノードを選択すべきか判定し選択する判定選択手段であって、
    階層構造の各ブランチに関する収束値であって、当該ブランチより下でかつ該ブランチに接続されるノードに記録されたすべてのマッチングの合計によって与えられる収束値を計算する手段と、
    階層構造の各ブランチに関する反収束値であって、階層構造内でのマッチング数の合計と当該ブランチに関する収束値との間の差によって与えられる反収束値を計算する手段と、
    階層構造のノードに関する距離値を計算する手段であって、任意のノードに対する距離値を、最上層ノードと距離値が計算されるノードとの間にあるブランチの収束値及び反収束値の関数として計算する手段と、
    最低の距離値を備えたノードを選択する手段と
    を含む判定選択手段
    を備えていることを特徴とするシステム。
  2. 請求項1記載のシステムにおいて、距離値を計算する手段は、
    階層構造の最上層ノードに相対的に大きな距離値を割り当てる手段と、
    あるブランチを介して該最上層ノードに接続されたノードから始めて、距離値を計算する手段であって、該ブランチの収束値だけ最上層ノードの距離値を減少させ、そして、その結果を、該ブランチの反収束値にファクタa(ただし、aは単位元より大きい)を乗算した値だけ増大させることによって、距離値を計算する手段と
    を含み、
    距離値を計算する手段はさらに、上記と同様な方式で階層構造内の他のノードに関して距離値を計算し、ブランチの下端ノードに関する距離値を、上端ノードの距離値からそのブランチの収束値だけを減少させ、そして、その結果に、ブランチの反収束値にファクタ「a」を乗算した値を加えることによって得るようにした
    ことを特徴とするシステム。
  3. 請求項2記載のシステムにおいて、該システムはさらに、
    距離値が計算されようとしている次のノードとして、収束値が最大のブランチを選択する手段であって、選択されるブランチが階層構造内の等レベルにある他のすべてのブランチよりも大きな収束値を持ち、かつ、距離値が最大の収束値のブランチを通過する経路に沿ったノードに対してのみ計算される、手段
    を含み、距離値を最上層ノードに割り当て、さらに他のノードに対して距離値を計算した直後に、収束値が最大のブランチを選択するための手段が動作することを特徴とするシステム。
JP2001209268A 2000-07-10 2001-07-10 階層的統計分析のシステム及び方法 Expired - Lifetime JP3673487B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/613,161 US6678692B1 (en) 2000-07-10 2000-07-10 Hierarchy statistical analysis system and method
US09/613161 2000-07-10

Publications (2)

Publication Number Publication Date
JP2002041546A JP2002041546A (ja) 2002-02-08
JP3673487B2 true JP3673487B2 (ja) 2005-07-20

Family

ID=24456122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001209268A Expired - Lifetime JP3673487B2 (ja) 2000-07-10 2001-07-10 階層的統計分析のシステム及び方法

Country Status (3)

Country Link
US (1) US6678692B1 (ja)
EP (1) EP1172737A3 (ja)
JP (1) JP3673487B2 (ja)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7685105B2 (en) * 2001-04-05 2010-03-23 Envirospectives, Inc. System and method for indexing, organizing, storing and retrieving environmental information
US7409335B1 (en) * 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US7260773B2 (en) * 2002-03-28 2007-08-21 Uri Zernik Device system and method for determining document similarities and differences
US20110099163A1 (en) * 2002-04-05 2011-04-28 Envirospectives Corporation System and method for indexing, organizing, storing and retrieving environmental information
DE60333238D1 (de) * 2002-06-28 2010-08-12 Nippon Telegraph & Telephone Extrahierung von Information aus strukturierten Dokumenten
US20040015486A1 (en) * 2002-07-19 2004-01-22 Jiasen Liang System and method for storing and retrieving data
JP2004062286A (ja) * 2002-07-25 2004-02-26 Renesas Technology Corp データ整合管理装置
US9633331B2 (en) * 2003-03-31 2017-04-25 International Business Machines Corporation Nearest known person directory function
US20050149510A1 (en) * 2004-01-07 2005-07-07 Uri Shafrir Concept mining and concept discovery-semantic search tool for large digital databases
WO2005103951A1 (en) * 2004-04-23 2005-11-03 Novauris Technologies Limited Tree index based method for accessing automatic directory
US20060036451A1 (en) * 2004-08-10 2006-02-16 Lundberg Steven W Patent mapping
US8862578B2 (en) * 2004-08-30 2014-10-14 Sap Ag Categorizing an object
US9031898B2 (en) * 2004-09-27 2015-05-12 Google Inc. Presentation of search results based on document structure
US7606793B2 (en) * 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7761448B2 (en) * 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US20060112079A1 (en) * 2004-11-23 2006-05-25 International Business Machines Corporation System and method for generating personalized web pages
US20060200460A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation System and method for ranking search results using file types
WO2006128183A2 (en) 2005-05-27 2006-11-30 Schwegman, Lundberg, Woessner & Kluth, P.A. Method and apparatus for cross-referencing important ip relationships
US8161025B2 (en) 2005-07-27 2012-04-17 Schwegman, Lundberg & Woessner, P.A. Patent mapping
JP4529861B2 (ja) * 2005-10-07 2010-08-25 株式会社日立製作所 階層データの検索装置および検索方法および検索プログラム
US8942483B2 (en) 2009-09-14 2015-01-27 Trimble Navigation Limited Image-based georeferencing
US8190649B2 (en) * 2006-04-25 2012-05-29 Google Inc. Ranking and clustering of geo-located objects
GB0613197D0 (en) * 2006-07-01 2006-08-09 Ibm An improved method and system for finding the focus of a document
US7519619B2 (en) * 2006-08-21 2009-04-14 Microsoft Corporation Facilitating document classification using branch associations
JP2008165303A (ja) * 2006-12-27 2008-07-17 Fujifilm Corp コンテンツ登録装置、及びコンテンツ登録方法、及びコンテンツ登録プログラム
US7870141B2 (en) * 2007-04-17 2011-01-11 International Business Machines Corporation Method and system for finding a focus of a document
US20080313183A1 (en) * 2007-06-14 2008-12-18 Charles Edward Cunningham Apparatus and method for mapping feature catalogs
US20090106221A1 (en) * 2007-10-18 2009-04-23 Microsoft Corporation Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features
US9348912B2 (en) * 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US10733223B2 (en) * 2008-01-08 2020-08-04 International Business Machines Corporation Term-driven records file plan and thesaurus design
US8005862B2 (en) * 2008-03-20 2011-08-23 Yahoo! Inc. Classifying content resources using structured patterns
US20100076984A1 (en) * 2008-03-27 2010-03-25 Alkis Papadopoullos System and method for query expansion using tooltips
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US9324003B2 (en) * 2009-09-14 2016-04-26 Trimble Navigation Limited Location of image capture device and object features in a captured image
KR100947579B1 (ko) 2009-10-19 2010-03-15 동국대학교 산학협력단 개념 트리에서의 개념들간의 시맨틱 거리 측정 방법 및 장치
US9497581B2 (en) 2009-12-16 2016-11-15 Trimble Navigation Limited Incident reporting
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
US8972385B2 (en) 2011-10-03 2015-03-03 Black Hills Ip Holdings, Llc System and method for tracking patent ownership change
US10242066B2 (en) 2011-10-03 2019-03-26 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US9959273B2 (en) 2012-04-26 2018-05-01 International Business Machines Corporation Enterprise-level data protection with variable data granularity and data disclosure control with hierarchical summarization, topical structuring, and traversal audit
US11461862B2 (en) 2012-08-20 2022-10-04 Black Hills Ip Holdings, Llc Analytics generation for patent portfolio management
US9767190B2 (en) 2013-04-23 2017-09-19 Black Hills Ip Holdings, Llc Patent claim scope evaluator
TW201514725A (zh) * 2013-10-09 2015-04-16 Chi Mei Foundation Hospital 自動判定統計分析手法的方法及其系統
US11475014B2 (en) * 2018-12-20 2022-10-18 AVAST Software s.r.o. Updating a toplist for a continuous data stream
JP7343311B2 (ja) * 2019-06-11 2023-09-12 ファナック株式会社 文書検索装置及び文書検索方法
RU2711492C1 (ru) * 2019-08-14 2020-01-17 Андрей Николаевич Глушко Способ проведения экологического компьютерного мониторинга состояния объектов окружающей среды
US12224055B2 (en) 2021-06-17 2025-02-11 Akili Interactive Labs, Inc. System and method for adaptive configuration of computerized cognitive training programs

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03129472A (ja) * 1989-07-31 1991-06-03 Ricoh Co Ltd 文書検索装置における処理方法
US5251129A (en) * 1990-08-21 1993-10-05 General Electric Company Method for automated morphological analysis of word structure
US5555409A (en) * 1990-12-04 1996-09-10 Applied Technical Sysytem, Inc. Data management systems and methods including creation of composite views of data
US5204958A (en) * 1991-06-27 1993-04-20 Digital Equipment Corporation System and method for efficiently indexing and storing a large database with high data insertion frequency
US5557794A (en) * 1991-09-02 1996-09-17 Fuji Xerox Co., Ltd. Data management system for a personal data base
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
US5325445A (en) * 1992-05-29 1994-06-28 Eastman Kodak Company Feature classification using supervised statistical pattern recognition
JPH0816620A (ja) * 1994-04-28 1996-01-19 Fujitsu Ltd データ分類装置/方法、データ分類木生成装置/方法、派生語抽出装置/方法、シソーラス構築装置/方法、データ処理システム
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
US5987460A (en) * 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
EP0935206A3 (en) * 1996-07-18 2000-01-19 Matsushita Electric Industrial Co., Ltd. Data retrieval support apparatus, data retrieval support method and medium storing data retrieval support program
AU4495597A (en) * 1996-09-23 1998-04-14 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
US5956711A (en) * 1997-01-16 1999-09-21 Walter J. Sullivan, III Database system with restricted keyword list and bi-directional keyword translation
US5937400A (en) * 1997-03-19 1999-08-10 Au; Lawrence Method to quantify abstraction within semantic networks
US6137911A (en) * 1997-06-16 2000-10-24 The Dialog Corporation Plc Test classification system and method
WO2000068757A2 (en) * 1999-05-07 2000-11-16 Carlos Cardona System and method for database retrieval, indexing and statistical analysis
US6535886B1 (en) * 1999-10-18 2003-03-18 Sony Corporation Method to compress linguistic structures

Also Published As

Publication number Publication date
US6678692B1 (en) 2004-01-13
EP1172737A2 (en) 2002-01-16
JP2002041546A (ja) 2002-02-08
EP1172737A3 (en) 2005-05-18

Similar Documents

Publication Publication Date Title
JP3673487B2 (ja) 階層的統計分析のシステム及び方法
US7917528B1 (en) Contextual display of query refinements
US10445359B2 (en) Method and system for classifying media content
US8086604B2 (en) Universal interface for retrieval of information in a computer system
US6904560B1 (en) Identifying key images in a document in correspondence to document text
JP7252914B2 (ja) 検索提案を提供する方法、装置、機器及び媒体
US6236987B1 (en) Dynamic content organization in information retrieval systems
US10997678B2 (en) Systems and methods for image searching of patent-related documents
US8676802B2 (en) Method and system for information retrieval with clustering
KR101078864B1 (ko) 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
US6725217B2 (en) Method and system for knowledge repository exploration and visualization
US20060122991A1 (en) System and method for query refinement to enable improved searching based on identifying and utilizing popular concepts related to users' queries
US8484179B2 (en) On-demand search result details
US20040049499A1 (en) Document retrieval system and question answering system
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
CN105069103B (zh) App搜索引擎利用用户评论的方法及系统
US7685105B2 (en) System and method for indexing, organizing, storing and retrieving environmental information
JPH11328228A (ja) 問い合わせ検索結果精緻化方法及び装置
JP2006127509A (ja) 地理的検索機能を提供するシステムおよび方法
JP2000090103A (ja) 情報検索装置及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
KR20000030486A (ko) 지역정보 검색전용 인터넷 정보 검색 시스템 및 이를이용한 인터넷 정보 검색 방법
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
KR100695149B1 (ko) 지식기반 음악검색 방법 및 장치와 그 장치의 음악파일관리 방법 및 장치
Azzam et al. Implicit concept-based image indexing and retrieval
US20070112839A1 (en) Method and system for expansion of structured keyword vocabulary

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040806

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20041105

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20041110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050422

R150 Certificate of patent or registration of utility model

Ref document number: 3673487

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120428

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120428

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130428

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term