JP2004078446A

JP2004078446A - キーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム

Info

Publication number: JP2004078446A
Application number: JP2002236195A
Authority: JP
Inventors: Hidenori Kawai; 河合　英紀; Kenji Tateishi; 立石　健二; Shunichi Fukushima; 福島　俊一
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2002-08-14
Filing date: 2002-08-14
Publication date: 2004-03-11
Anticipated expiration: 2022-08-14
Also published as: JP4423841B2

Abstract

【課題】従来は、文書のリンク元のアンカー文字列を検索・分類対象としても、そのアンカー文字列が必ずしも文書内容を完全に説明した記述となっていない。また、絞り込み検索が精度良く行えない。
【解決手段】文書クラスタ情報取得手段１２は、与えられた文書からリンク情報を抽出し、文書参照関係表を生成した後、対象指定手段１３により指定された条件に基づき、与えられた文書についてトップページか否かの判定を行い、その判定結果に応じて文書クラスタ表に登録する。文書キーワード決定手段１４は、文書参照関係表と文書クラスタ表を参照して、サイト外からはられているリンクのアンカー文字列をサイト外キーワードとして、また、各クラスタ内文書について、同一クラスタ内文書のリンクを遡って得られるアンカー文字列の系列をサイト内キーワードとして、それぞれ文書キーワード記憶部２２に記憶させる。
【選択図】　　　　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明はキーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラムに係り、特にハイパーテキストを対象としたキーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラムに関する。
【０００２】
ハイパーテキストとは、ハイパーリンク（リンク）で構造化された文書集合のことであり、文書をノードとし、文書間にリンクをはった構造を持つ。文書Ａから文書Ｂへのリンクに関して、文書Ｂのリンク元になる文書Ａ中の文字列をアンカー文字列と呼ぶ。ハイパーテキストの代表例が、ＷＷＷ（Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ）である。ＷＷＷはＨＴＭＬ（Ｈｙｐｅｒ　Ｔｅｘｔ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）形式で記述されたハイパーテキストであり、リンク及びアンカー文字列は＜Ａ＞タグによってマークされる。なお、ＷＷＷはハイパーテキストの代表例であるが、本発明は対象をＷＷＷに限定したものではない。また、ハイパーテキストはＨＴＭＬだけではなく、ＸＭＬ（Ｅｘｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）、ＳＧＭＬ（Ｓｔａｎｄａｒｄ　Ｇｅｎｅｒａｌｉｚｅｄ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）等を用いて記述することも可能である。
【０００３】
【従来の技術】
近年のインターネットの普及により、リンクで構造化された大量の文書に容易にアクセスすることが可能になっている。リンクで構造化された文書は通常、サイトと呼ばれる文書クラスタを形成している。サイトを構成する文書クラスタの単位は必ずしも明確ではないが、同一ドメイン名を持つ文書クラスタを一つのサイトとみなしたり、あるいは同一管理者による同一テーマの文書クラスタを一つのサイトとみなしたりすることが多い。各サイトには、トップページと呼ばれる入り口となる文書が存在し、閲覧者はそこからサイト内の各コンテンツの文書へリンクをたどってアクセスすることができる。
【０００４】
例えば、後述する図２の例では、文書１１、文書２１、文書３１、文書４１がそれぞれサイト１、サイト２、サイト３、サイト４のトップページである。リンクは、引用したい文書の格納場所を表すＵＲＬと、引用先の文書の内容を表すアンカー文字列からなる。アクセス可能などの文書へもリンクを自由にはることもできるが、インターネットの習慣上、異なるサイトからのリンクはＵＲＬにトップページが指定され、アンカー文字列にサイトのタイトルまたはサイトの内容を表す文字列が使われる傾向がある。
【０００５】
一方、同一サイト内の各コンテンツの文書へのリンクは、閲覧者がトップページから順番にリンクをたどってくることを想定して、表現を省略することが多い。例えば、サイト１が全国のグルメ情報を扱うサイトであった場合、サイト２やサイト３などの異なるサイトからトップページである文書１１へはられたリンクのアンカー文字列「Ｌ２０３」や「Ｌ３０２」には、「グルメ」のページ、「レストラン検索」など、サイトのタイトルそのものやサイトの内容を表す表現が多く使われる。
【０００６】
一方、サイト内のコンテンツへのリンクのアンカー文字列「Ｌ１０１」、「Ｌ１０３」、「Ｌ１０６」には、それぞれ「関西」、「奈良県」、「中華」など閲覧者がトップページから順番にリンクをたどってくることを想定して必要最低限の表現が使われる傾向があり、アンカー文字列単独ではリンク先の文書の内容が部分的にしか把握できないことが多い。また、文書の内容自体も、閲覧者がトップページから順番にリンクをたどってくることを想定して記述されているため、例えば「奈良県」というアンカー文字列がある文書には、県名のリストが記述されているだけなど、文書単独では内容を十分に把握することはできないことが多い。
【０００７】
このようなリンクで構造化された文書を検索・分類する従来技術として、例えばプロシーディングズ・オブ・ザ・ファースト・インターナショナル・カンファレンス・オン・ワールド・ワイド・ウェブ（Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　Ｔｈｅ　１ｓｔ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　ｔｈｅ　Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ，　１９９４　）に掲載の論文、ゲンヴル・アンド・フォーダブリュ：ツールズ・フォー・テイミング・ザ・ウェブ（ＧＥＮＶＬ　ａｎｄ　ＷＷＷＷ：　Ｔｏｏｌｓ　ｆｏｒ　Ｔａｍｉｎｇ　ｔｈｅ　Ｗｅｂ）に示される検索装置や、特許第３１０８０１５号公報に記載されたハイパーテキスト検索装置、特開平１０−２５４８９９号公報に記載された文書分類システム、再公表特許ＷＯ９９／１４６９０に記載のリンク情報を用いたキーワード付与方法、特開２０００−３３９３２０号公報に記載された関連文書表示装置などのように、リンク元のアンカー文字列を検索対象や分類対象とする方法が挙げられる。
【０００８】
これらの検索装置や文書分類システムやキーワード付与方法によれば、文書本体に含まれるキーワードに加え、リンク元のアンカー文字列を検索インデックスに登録したり、文書特徴ベクトルに追加したりすることにより、リンク元のアンカー文字列がリンク先文書の説明を記述している性質を利用して、検索・分類の精度を高めようとしている。
【０００９】
【発明が解決しようとする課題】
しかるに、上記の従来のキーワード抽出装置、文書検索装置及び文書分類装置では、以下のような問題点がある。すなわち、第１の問題点は、サイト内のリンクについて文書のリンク元のアンカー文字列を検索・分類対象としても、そのアンカー文字列が必ずしも文書内容を完全に説明した記述となっていないことである。その原因は、従来のキーワード抽出装置、文書検索装置及び文書分類装置では、単独のページの本文かリンク元アンカー文字列のみを検索対象にしているからである。サイト内のリンクやページの内容は、閲覧者がトップページから順番にリンクを辿ってくることを想定して記述される傾向があるため、単独のページの本文やリンク元アンカー文字列では、その文書の内容を十分に反映した検索・分類が行えないことがある。
【００１０】
第２の問題点は、検索対象をより絞り込むために、「奈良　レストラン情報」のように複数の単語をスペースで分割して入力されたり、「奈良のレストラン情報」のように「ＡのＢ」といった表現を使ったり、「奈良レストラン情報」のように複合語として検索条件が入力された場合に、絞り込み検索が精度良く行えないことである。その原因は、第１の問題点と同じである。サイト内のリンクやページの内容は、閲覧者がトップページから順番にリンクを辿ってくることを想定して記述される傾向があるため、単独のページの本文やリンク元アンカー文字列ではうまく内容を絞り込めないことがある。
【００１１】
また仮に、上記の第１及び第２の問題点を回避するために、リンク元のアンカー文字列を単純に一定数遡って検索・分類対象としても、検索精度は必ずしも向上しない。その原因は、リンク元のアンカー文字列を単純に一定数遡るだけでは、かえって文書の特徴と関係ないキーワードが検索・分類対象に含まれることになるからである。
【００１２】
例えば、後述の図２において、リンク元を３つ遡ったアンカー文字列の系列を検索対象とする場合、文書１７のアンカー文字列の系列は「Ｌ１０６←Ｌ１０３←Ｌ１０１」となるため，文書１７をうまく説明するキーワードが抽出できると期待できる。ところが、文書１２のアンカー文字列の系列は「Ｌ１０１←Ｌ２０３←Ｌ２０１」もしくは「Ｌ１０１←Ｌ３０２←Ｌ３０１」となる。
【００１３】
この場合、サイト２、サイト３内のリンクのアンカー文字列「２０１」及び「Ｌ３０１」は、文書１２とは関係ない可能性が高い。さらに、文書１１のアンカー文字列の系列は「Ｌ２０３←Ｌ２０１」もしくは「Ｌ３０２←Ｌ３０１←Ｌ４０３」となる。この場合、文書１１に無関係なリンクのアンカー文字列「Ｌ２０１」、「Ｌ３０１」に加えて、さらに無関係なリンクのアンカー文字列「Ｌ４０３」も検索対象に含めることになるため、検索・分類精度の向上は期待できない。
【００１４】
本発明は以上の点に鑑みなされたもので、サイト全体の内容を表すサイト外からのリンクと、サイト内での文書の位置付けを表すサイト内のリンクをそれぞれ遡って得られるアンカー文字列の系列を、文書クラスタと文書との関係を特徴付ける単語群として抽出することにより、サイト全体の内容とサイト内での文書の位置付けを反映した検索・分類を行え得るキーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラムを提供することを目的とする。
【００１５】
また、本発明の他の目的は、キーワードがスペースで分割されたり、「の」で接続されたり、複合語として検索条件に入力された場合に、そのキーワードを分割し、サイト構造を表すキーワードを検索対象とすることによって、効果的な絞り込み検索を行い得るキーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラムを提供することにある。
【００１６】
【課題を解決するための手段】
上記の第１の目的を達成するため、本発明のキーワード抽出装置及び抽出方法は、ハイパーテキストデータベースを構成する１文書に対して文書の特徴を表す単語群である文書キーワードを出力するキーワード抽出装置及び抽出方法において、ハイパーテキストデータベース内の文書を含む文書クラスタと文書との関係を特徴付ける単語群を、又はこれらに加えて文書自体の内容を特徴付ける単語群を、文書キーワードに含めて出力することを特徴とする。
【００１７】
また、上記の第１の目的を達成するため、本発明の文書検索装置及び検索方法は、ハイパーテキストデータベースを構成する各文書の特徴を表す単語群を登録したインデックスと、入力された検索条件とを照合して該当文書を出力する文書検索装置及び検索方法において、各文書について、ハイパーテキストデータベース内の文書を含む文書クラスタと文書との関係を特徴付ける単語群を、又はこれらに加えて文書自体の内容を特徴付ける単語群を、インデックスに登録することを特徴とする。
【００１８】
また、上記の第１の目的を達成するため、本発明の文書分類装置及び分類方法は、ハイパーテキストデータベース中の指定された文書が予め定義されたカテゴリのいずれに該当するかを、文書の特徴を表す単語群である文書キーワードを用いた類似度計算によって決定する文書分類装置及び分類方法において、ハイパーテキストデータベース内の文書を含む文書クラスタと文書との関係を特徴付ける単語群を、又はこれに加えて文書自体の内容を特徴付ける単語群を、文書キーワードに含めて類似度計算に用いることを特徴とする。
【００１９】
また、上記の第１の目的を達成するため、本発明のプログラムは、上記のキーワード抽出装置、文書検索装置及び文書分類装置をコンピュータで実現するためのプログラムを構成したものである。
【００２０】
以上の本発明のキーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラムでは、サイト全体の内容を表すサイト外からのリンクと、サイト内での文書の位置付けを表すサイト内のリンクをそれぞれ遡って得られるアンカー文字列の系列を、文書クラスタと文書との関係を特徴付ける単語群として抽出することができる。
【００２１】
また、本発明は、同一サイトとみなすべき文書クラスタの条件を指定する対象指定手段と、ハイパーテキストアクセス手段が読み出した文書に含まれるリンク情報を抽出し、対象指定手段によって指定された条件に基づきサイトを構成する文書クラスタを特定し、文書参照関係表と文書クラスタ表を生成する文書クラスタ情報取得手段と、文書クラスタ情報取得手段によって生成された文書参照関係表と文書クラスタ表を参照しながら、同一文書クラスタ内を遡って得られるアンカー文字列の系列、及び異なる文書クラスタからのリンクのアンカー文字列をその文書のキーワードとして決定し、文書キーワード記憶部に格納する文書キーワード決定手段とを有することを特徴とする。
【００２２】
また、上記の第２の目的を達成するため、本発明の文書検索装置及び検索方法は、入力されたキーワード条件に合致する文書群を検索する文書検索装置及び検索方法において、各文書の特徴を表す単語群を第１のインデックス記憶手段及び第２のインデックス記憶手段に分けて登録し、キーワード条件にｎ個（ｎ≧２）のキーワードが含まれる場合に、ｎ個のキーワードのうちのｍ個（１≦ｍ≦ｎ−１）は第１のインデックス記憶手段でヒットし、残りのｎ−ｍ個は第２のインデックス記憶手段でヒットした文書を検索結果として出力するインデックス検索手段又はインデックス検索ステップを有する構成としたものである。
【００２３】
また、上記の第２の目的を達成するため、本発明のプログラムは、上記の文書検索装置を構成する第１及び第２のインデックス記憶手段への登録手段と、キーワード条件にｎ個（ｎ≧２）のキーワードが含まれる場合に、ｎ個のキーワードのうちのｍ個（１≦ｍ≦ｎ−１）は第１のインデックス記憶手段でヒットし、残りのｎ−ｍ個は第２のインデックス記憶手段でヒットした文書を検索結果として出力するインデックス検索手段として、コンピュータを機能させることを特徴とする。
【００２４】
これらの発明では、入力されたキーワードをスペースや「の」で区切り、形態素解析により分割して検索を行うインデックス検索手段を有するため、文書の内容を表すキーワードと文書本体に含まれるキーワードを別々に検索することによって、本発明の第２の目的を達成することができる。
【００２５】
【発明の実施の形態】
次に、本発明の実施の形態について、図面を参照して詳細に説明する。
【００２６】
［第１の実施の形態］
図１は本発明の第１の実施の形態のブロック図を示す。同図に示すように、本発明のキーワード抽出装置、文書検索装置及び文書分類装置の第１の実施の形態は、プログラム制御により動作するデータ処理装置１と、情報を記憶する記憶装置２とを含む構成である。
【００２７】
記憶装置２は、ハイパーテキストデータベース２１と、文書キーワード記憶部２２とを備えている。ハイパーテキストデータベース２１は、図２に示すようなハイパーリンクで構造化された文書群について、各文書のＵＲＬ、ローカルアドレス、本文テキスト、リンク先文書とそのアンカー文字列などを記憶している。ハイパーテキストデータベース２１の例としては、例えばインターネットまたはイントラネット上のウェブ（Ｗｅｂ）がこれに該当する。
【００２８】
文書キーワード記憶部２２は、各文書について、後述の文書キーワード決定手段１４が決定したキーワードを記憶する。文書キーワード決定手段１４が決定するキーワードには、同一サイト内のリンクを遡って得られるアンカー文字列の系列（サイト内キーワード）と、異なるサイトからそのサイトのトップページへのリンクのアンカー文字列（サイト外キーワード）の２種類がある。
【００２９】
ハイパーテキストデータベース２１が図２のようなハイパーリンクで構造化された文書群の場合、文書キーワード記憶部２２が記憶するキーワードの例は図３のようになる。図３において、文書キーワード記憶部２２には、各文書が文書名とサイト外キーワードとサイト内キーワードとが対応付けて記憶されており、例えば文書１５のサイト外キーワードとして「Ｌ２０３，Ｌ３０２」が、サイト内キーワードとして「Ｌ１０４←Ｌ１０１」が記憶されているのがわかる。
【００３０】
一方、図１のデータ記憶装置１は、ハイパーテキストアクセス手段１１と、文書クラスタ情報取得手段１２と、対象指定手段１３と、文書キーワード決定手段１４とを備えている。
【００３１】
ハイパーテキストアクセス手段１１は、ハイパーテキストデータベース２１に格納されている文書を読み出し、文書クラスタ情報取得手段１２に渡す。ハイパーテキストデータベース２１がＷＷＷの場合、ＨＴＴＰ（Ｈｙｐｅｒ　Ｔｅｘｔ　Ｔｒａｎｓｆｅｒ　Ｐｒｏｔｏｃｏｌ）を介して文書にアクセスすることができる。このような機能は、従来、ＩＥ（Ｉｎｔｅｒｎｅｔ　Ｅｘｐｌｏｒｅｒ）などのＷｅｂブラウザ、あるいはＷｅｂクローラー（スパイダー／ロボット）において実現されている。
【００３２】
文書クラスタ情報取得手段１２は、ハイパーテキストアクセス手段１１が読み出した文書に含まれるリンク情報を抽出し、対象指定手段１３によって指定された条件に基づきサイトを構成する文書クラスタを特定し、文書参照関係表と文書クラスタ表を生成する。文書参照関係表の例を図４に、文書クラスタ表の例を図５に示す。
【００３３】
図４に示すように、文書参照関係表は、アンカー文字列、リンク元文書及びリンク先文書が対応付けられた一覧表であり、例えば文書１１から文書１２に対してアンカー文字列「Ｌ１０１」のリンクがはられていることを示している。また、図５に示すように、文書クラスタ表は、文書クラスタ、トップページ及びクラスタ内文書が対応付けられた一覧表であり、例えば文書クラスタ「サイト１」のトップページは文書１１で、クラスタ内には、文書１２〜１９が含まれていることを示している。
【００３４】
図１のデータ処理装置１内の対象指定手段１３は、同一サイトとみなすべき文書クラスタの条件を、文書クラスタ情報取得手段１２に与える。対象指定手段１３が与える条件には、「サイトのトップページの条件」と「同一サイトに含まれる文書の条件」を含む。例えば、同一ドメイン名のサーバーに格納された文書クラスタを一つのサイトとみなしたい場合、「サイトのトップページの条件」として、「文書のＵＲＬが『ｈｔｔｐ：／／ドメイン名／』、または『ｈｔｔｐ：／／ドメイン名／ｉｎｄｅｘ．ｈｔｍｌ』であるもの」と指定し、「同一サイトに含まれる文書の条件」として、「ドメイン名が同じ」と指定すればよい。
【００３５】
データ処理装置１内の文書キーワード決定手段１４は、文書クラスタ情報取得手段１２によって生成された文書参照関係表と文書クラスタ表を参照しながら、同一文書クラスタ内を遡って得られるアンカー文字列の系列と、異なる文書クラスタからのリンクのアンカー文字列をその文書のキーワードとして決定し、文書キーワード記憶部２２に格納する。
【００３６】
次に、図１のブロック図乃至図６のフローチャートを併せ参照して第１の実施の形態の動作について、詳細に説明する。まず、ハイパーテキストアクセス手段１１は、ハイパーテキストデータベース２１に格納されている各文書を読み出し、文書クラスタ情報取得手段１２に渡す。文書クラスタ情報取得手段１２は、与えられた文書からリンク情報を抽出し、図４に示すような文書参照関係表を生成する（ステップＳ１）。
【００３７】
次に、文書クラスタ情報取得手段１２は、対象指定手段１３により指定された「サイトのトップページの条件」に基づき、与えられた文書についてトップページか否かの判定を行う。ここで、トップページとは、ディレクトリ階層における位置関係から定まる文書クラスタ内の最上位文書である（図２の場合、サイト１では文書１１、サイト３では文書３１である。）。
【００３８】
もし、トップページであれば図５に示す文書クラスタ表に１行追加して登録する（ステップＳ２）。例えば、「サイトのトップページの条件」として「文書のＵＲＬが『ｈｔｔｐ：／／ドメイン名／』、または『ｈｔｔｐ：／／ドメイン名／ｉｎｄｅｘ．ｈｔｍｌ』であるもの」と指定されていた場合、ドメイン名単位でトップページが文書クラスタ表に登録される。
【００３９】
また、文書クラスタ情報取得手段１２は、与えられた文書がトップページでないと判定した場合は、対象指定手段１３により指定された「同一サイトに含まれる文書の条件」に基づき、トップページでないと判定された文書がどのサイトに属するかを決定し、図５に示す文書クラスタ表のクラスタ内文書に登録する（ステップＳ３）。例えば、「同一サイトに含まれる文書の条件」として、「ドメイン名が同じ」と指定されていた場合、トップページと同じドメイン名を持つ文書がクラスタ内文書に登録される。
【００４０】
次に、文書キーワード決定手段１４は、文書クラスタ情報取得手段１２が生成した文書参照関係表と文書クラスタ表を参照して、各サイトのトップページに対してサイト外からはられているリンクのアンカー文字列をサイト外キーワードとして文書キーワード記憶部２２に記憶させる（ステップＳ４）。
【００４１】
さらに、文書キーワード決定手段１４は、文書クラスタ情報取得手段１２が生成した文書参照関係表と文書クラスタ表を参照して、各クラスタ内文書について、同一クラスタ内文書のリンクを遡って得られるアンカー文字列の系列をサイト内キーワードとして文書キーワード記憶部２２に記憶させる（ステップＳ５）。この時、同一サイトに含まれている文書のサイト外キーワードは、そのサイトのトップページのサイト外キーワードと同じにする。したがって、図２の文書１２〜文書１９のサイト外キーワードは、文書１１のサイト外キーワードと同一の「Ｌ２０３，Ｌ３０２」となる。
【００４２】
また、リンクを遡る際に、一度遡った文書を覚えておき、ループして遡らないようにする。例えば、図２の文書１６に対するリンクを単純に遡ると「Ｌ１０５←Ｌ１０２」というアンカー文字列の系列のほかに、「Ｌ１０５←Ｌ１０９」、「Ｌ１０５←Ｌ１０９←Ｌ１０５←Ｌ１０２」、「Ｌ１０５←Ｌ１０９←Ｌ１０５←Ｌ１０９←・・・」のようにループによって無数のアンカー文字列が生成されてしまう。そこで、一度遡った文書を同じアンカー文字列の系列内で二度遡らないようにしておくと、文書１６のサイト内キーワードは「Ｌ１０５←Ｌ１０２」だけになる。
【００４３】
一方、別のアンカー文字列の系列で同じ文書を遡る場合は、それぞれ別のキーワードとして登録する。例えば図２の文書１９の場合、「Ｌ１０８←Ｌ１０４←Ｌ１０１」と「Ｌ１１０←Ｌ１０５←Ｌ１０２」はどちらも文書１１に遡るアンカー文字列の系列であるが、別の系列であるため両方をサイト内キーワードとして記憶する。ここでも、「Ｌ１１０←Ｌ１０５←Ｌ１０９←Ｌ１０５←Ｌ１０２」というアンカー文字列の系列などが考えられるが、これは同一系列内で文書１３と文書１６をそれぞれ２回遡っているためサイト内キーワードとしては記憶しない。
【００４４】
なお、本実施の形態では、ハイパーテキストアクセス手段１１が記憶装置２に記憶されたハイパーテキストデータベース２１にアクセスする方法について述べたが、他にもインターネットに直接アクセスし、記憶装置２にハイパーテキストデータベース２１を記憶する方法もあり、本発明は本実施の形態で述べた方法に限定されない。
【００４５】
また、本実施の形態では、対象指定手段１３により指定される「サイトのトップページの条件」として「文書のＵＲＬが『ｈｔｔｐ：／／ドメイン名／』、または『ｈｔｔｐ：／／ドメイン名／ｉｎｄｅｘ．ｈｔｍｌ』であるもの」とし、「同一サイトに含まれる文書の条件」として「ドメイン名が同じ」である場合を例として説明を行った。しかし、「サイトのトップページの条件」として「異なるドメイン名のページからのリンクが一定数以上の文書」、「同一サイトに含まれる文書の条件」として「同一ドメインでトップページとＵＲＬのディレクトリ階層が同じか、深い文書」を指定する方法もある。また、習慣的にチルダ「￣」で始まるディレクトリ名は、そのサーバーを利用している各ユーザーのサイトであるとみなすこともできる。
【００４６】
また、「サイトのトップページの条件」として「『Ｈｏｍｅ　Ｐａｇｅ』『Ｔｏｐへ』『最初に戻る』など、トップページを指すと考えられる表現のアンカー文字列を持つリンクのリンク先文書」とし、「同一サイトに含まれる条件」として「『Ｈｏｍｅ　Ｐａｇｅ』『Ｔｏｐへ』『最初に戻る』など、トップページを指すと考えられる表現のアンカー文字列を持つリンクのリンク元文書」とする方法もある。さらに、「サイトのトップページの条件」として、予め人手によって指定されたＵＲＬのリストを使う方法もあり、本実施の形態で述べた方法に限定されるものではない。
【００４７】
また、本実施の形態では、文書キーワード決定手段１４は、同一クラスタ内文書のリンクを遡って得られるアンカー文字列の系列をサイト内キーワードとしたが、トップページでない文書にサイト外からリンクがはられている場合、そのリンクを一つだけ遡ったアンカー文字列の系列もサイト内キーワードとして記憶してもよい。また、必ずしもトップページまでのリンクをすべて遡らずに、遡る数を指定したリンク数に限定する方法もあり、本実施の形態で述べた方法に限定されるものではない。
【００４８】
また、本実施の形態では、文書キーワード決定手段１４は、ループしたリンクのアンカー文字列の系列をサイト内キーワードから除いていた。しかし、他にも、「戻る」「Ｂａｃｋ」「Ｔｏｐへ」「Ｈｏｍｅ　Ｐａｇｅ」「前へ」「次へ」など、検索・分類に適切でないキーワードをあらかじめ辞書として持っておき、その文字列を含むアンカー文字列の系列はサイト内キーワードとして登録しない方法などもある。また、遡る文書数が一定以上に長くなったアンカー文字列の系列をサイト内キーワードとして登録しない方法や、遡る文書数が少ない上位ｓ通りのアンカー文字列の系列のみをサイト内キーワードとして登録する方法などがあり、本実施の形態で述べた方法に限定されない。
【００４９】
また、本実施の形態では、文書キーワード決定手段１４はアンカー文字列を基にキーワードを決定しているが、アンカー文字列に加えて文書のタイトル、アンカー文字列周辺の一定長の文字列、アンカー文字列周辺のテーブルタグに囲まれた文字列、アンカー文字列周辺のリストタグに囲まれた文字列、アンカー文字列周辺の＜ＢＲ＞または＜Ｐ＞タグで囲まれた文字列、文書中の＜Ｈ＞タグやフォントサイズや色が強調された文字列も含めてキーワードとする方法もあり、本実施の形態で述べた方法に限定されない。
【００５０】
また、本実施の形態では、文書キーワード記憶部２２にサイト外キーワードとサイト内キーワードのみ記憶しているが、さらに文書のタイトル、本文テキストなどをキーワードとして記憶してもよく、本実施の形態で述べた方法に限定されない。また、本実施の形態では、トップページを特定するステップＳ２の後に文書クラスタを特定するステップＳ３を実行するとして動作を説明したが、先に文書クラスタを特定するステップＳ３を実行した後に、トップページを特定するステップＳ２を実行する方法もあり、本実施の形態で述べた方法に限定されない。
【００５１】
また、本実施の形態では、サイト外キーワードを決定するステップＳ４の後にサイト内キーワードを決定するステップＳ５を実行するとして動作を説明したが、先にサイト内キーワードを決定するステップＳ５を実行した後に、サイト外キーワードを決定するステップＳ４を実行する方法もあり、本実施の形態で述べた方法に限定されない。
【００５２】
次に、本発明の第１の実施の形態の効果について説明する。本実施の形態では、サイト全体の内容を表すサイト外からのリンクと、サイト内での文書の位置付けを表すサイト内のリンクをそれぞれ遡って得られるアンカー文字列の系列を、文書クラスタと文書との関係を特徴付ける単語群として抽出する。そのため、各文書について、サイト全体の内容とサイト内での文書の位置付けを反映したキーワードを得ることができる。
【００５３】
［第２の実施の形態］
次に、本発明の第２の実施の形態について図面を参照して説明する。図７は本発明の第２の実施の形態のブロック図を示す。同図に示すように、本発明のキーワード抽出装置、文書検索装置及び文書分類装置の第２の実施の形態は、プログラム制御により動作するデータ処理装置５と、情報を記憶する記憶装置６と、入力手段３と出力手段４を含む構成である。同図中、図１と同一構成部分には同一符号を付し、その説明を省略する。
【００５４】
本発明の第２の実施の形態は、データ処理装置５が、図１に示された第１の実施の形態におけるデータ処理装置１の構成に加え、インデックス作成手段１５とインデックス検索手段１６を有する点で異なる。また、記憶装置６が、図１に示された第１の実施の形態における記憶装置２の構成に加え、第１のインデックス記憶部２３を有する点で異なる。さらに、図１に示された第１の実施の形態に加え、キーボード等の入力手段３とディスプレイ装置や印刷装置等の出力手段４を有する点で異なる。
【００５５】
図７において、記憶装置６内の第１のインデックス記憶部２３は、文書キーワード記憶部２２のデータをもとにインデックス作成手段１５が生成するインデックスを格納する。データ処理装置５内のインデックス作成手段１５は、文書キーワード記憶部２２に記憶されている各文書のサイト外キーワードとサイト内キーワードを読み出し、どのキーワードがどの文書のサイト外キーワードまたはサイト内キーワードに出現するかをインデックスとして作成し、第１のインデックス記憶部２３に格納する。データ処理装置５内のインデックス検索手段１６は、入力手段３から入力された検索条件に応じて、第１のインデックス記憶部２３を検索しその結果を出力手段４に出力する。
【００５６】
次に、第２の実施の形態の動作を、図面を参照して詳細に説明する。本実施の形態では、図８（Ａ）に示すフローチャートによる登録処理と、図８（Ｂ）に示すフローチャートによる検索処理という動作のタイミングが異なる２種類の処理がある。検索処理は利用者からの入力がある度に行われるのに対し、登録処理は予め１回だけ行っておけばよい。
【００５７】
まず、第２の実施の形態の登録処理について図８（Ａ）のフローチャートと共に説明する。図８（Ａ）中、図６と同一処理ステップには同一符号を付してある。すなわち、図８（Ａ）に示す登録処理のフローチャート中、ステップＳ１〜Ｓ５で示される本実施の形態におけるハイパーテキストアクセス手段１１、文書クラスタ情報取得手段１２、対象指定手段１３、文書キーワード決定手段１４の動作は、第１の実施の形態の各手段１１、１２、１３および１４の動作と同一のため、説明は省略する。
【００５８】
第１の実施の形態では、ステップＳ５でサイト内キーワードを決定した段階で処理を終了していた。本実施の形態では、ステップＳ５の結果生成された文書キーワードを基に、インデックス作成手段１５がサイト外キーワードについて、どの語がどの文書に登録されているかという索引を作成する（ステップＳ６）。続いて、インデックス作成手段１５は、サイト内キーワードについて、どの語がどの文書に登録されているかという索引を作成する（ステップＳ７）。これにより、登録処理を終了する。
【００５９】
次に、検索処理について図８（Ｂ）のフローチャートと共に説明する。まず、入力手段３から検索条件が入力される（ステップＴ１）。検索条件として入力されるものとしては、キーワードの他にも、自然言語による質問文や、検索目的とする文書に類似した別の文書などがある。
【００６０】
次に、インデックス検索手段１６は、入力された検索条件から検索に使うキーワードｎ語を決定する（ステップＴ２）。キーワードの決定の方法には、文の分割とキーワード選定の二つの処理が含まれる。例えば、文の分割には形態素解析を用い、キーワードの選定では「の」などの付属語を除外した残りの語をキーワードとして使うなどの方法がある。
【００６１】
次に、インデックス検索手段１６は、ｎ語に分割したキーワードのうち、サイト外キーワードに現れる語がないか調べる。現れていれば、そのキーワードｍ語（１≦ｍ≦ｎ−１）とその出現頻度、及びキーワードが現れた文書を検索結果候補として記憶しておく（ステップＴ３）。
【００６２】
次に、インデックス検索手段１６は、検索結果候補となった文書のうち、サイト内キーワードに、残りのｎ−ｍ語が現れている文書と、キーワードの出現頻度を検索結果リストに追加登録し（ステップＴ４）、その検索結果リストをキーワードの出現頻度でソートし、出力手段４を使って利用者に検索結果を表示する（ステップＴ５）。
【００６３】
なお、本発明は第２の実施の形態に限定されるものではなく、以下の種々の変形例も含むものである。すなわち、第２の実施の形態では、文書キーワード記憶部２２にはサイト外キーワードとサイト内キーワードだけを記憶しているが、その他にサイトタイトルやサイト本文をキーワードとして記憶し、検索キーワード分割後に検索対象とする方法でもよい。また、本実施の形態では、検索結果リストをキーワードの出現頻度でソートしているが、サイト外キーワードでの出現頻度とサイト内キーワードでの出現頻度にそれぞれ異なる重みを掛けて、その結果でソートする方法を採用してもよい。
【００６４】
また、本実施の形態では、検索方式／検索モデルをキーワードマッチによるものを想定しているが、検索方式／検索モデルとしては、ベクトル空間モデル、確率モデル、ＡＮＤやＯＲ演算を行うブーリアンモデルなどの方法でもよい。
【００６５】
また、本実施の形態では、サイト外キーワードの索引を作成するステップＳ６の後にサイト内キーワードの索引を作成するステップＳ７を実行しているが、サイト内キーワードの索引を作成するステップＳ７の後にサイト外キーワードの索引を作成するステップＳ６を実行してもよい。
【００６６】
また、本実施の形態では、サイト外キーワードを決定するステップＳ４とサイト内キーワードを決定するステップＳ５の後にそれぞれサイト外キーワードの索引を作成するステップＳ６とサイト内キーワードの索引を作成するステップＳ７を実行しているが、サイト外キーワードを決定するステップＳ４の後にサイト外キーワードの索引を作成するステップＳ６を実行し、サイト内キーワードを決定するステップＳ５の後にサイト内キーワードの索引を作成するステップＳ７を実行してもよい。
【００６７】
また、本実施の形態では、検索キーワードを決定するステップＴ２で、形態素解析を用いて文を分割する方法について述べたが、他にも漢字・英数字・カタカナ・ひらがななどの字種で分割する、一定文字数で分割する、スペースや句読点で分割する、「の」などの付属語で分割するなどの方法もあり、本実施の形態で述べた方法に限定されない。
【００６８】
また、本実施の形態では、検索キーワードを決定するステップＴ２における、キーワード選定で「の」などの付属語を除外する方法について述べたが、他にも「情報」、「方法」など一般的な文書での出現頻度が高い語を不要語として除外するか、検索にヒットしても低いスコアの加算にとどめておき、逆に、一般的な文書における出現頻度に比較して質問文内での出現頻度が高い語を重要語として検索にヒットした場合にスコアを高いスコアを加算するなどの方法があり、本実施の形態で述べた方法に限定されない。
【００６９】
また、本実施の形態では、サイト外キーワードを検索するステップＴ３で、キーワードが１語以上現れた場合に、その文書を検索結果候補として記憶する方法について述べたが、すべての文書ですべてのキーワードがヒットしなかった場合に、すべての文書を検索結果候補としてサイト内キーワードを検索するステップＴ４を実行する方法もある。また、サイト外キーワード、サイト内キーワードのどちらか一方でもヒットすれば検索結果リストに含めておき、検索結果を出力するステップＴ５で、サイト外、サイト内のいずれでヒットしたかによって文書のスコアの重みを変えてソートする方法もある。
【００７０】
次に、第２の実施の形態の効果について説明する。本実施の形態では、サイト全体の内容を表すサイト外からのリンクと、サイト内での文書の位置付けを表すサイト内のリンクをそれぞれ遡って得られるアンカー文字列の系列を、文書クラスタと文書との関係を特徴付ける単語群として抽出し、インデックスを作成している。これにより、サイト全体の内容とサイト内での文書の位置付けを反映した検索を行うことができる。
【００７１】
また、本実施の形態では、キーワードがスペースで分割されたり、「の」で接続されたり、複合語として検索条件に入力された場合に、そのキーワードを分割し、サイト全体の内容を表すサイト外からのリンクと、サイト内での文書の位置付けを表すサイト内のリンクをそれぞれ遡って得られるアンカー文字列の系列をそれぞれ検索している。これにより、サイト構造を反映した効果的な絞込み検索を行うことができる。
【００７２】
［第３の実施の形態］
次に、本発明の第３の実施の形態について図面を参照して詳細に説明する。図９は本発明の第３の実施の形態のブロック図を示す。同図に示すように、本発明のキーワード抽出装置、文書検索装置及び文書分類装置の第３の実施の形態は、プログラム制御により動作するデータ処理装置７と、情報を記憶する記憶装置８とを含む構成である。同図中、図１と同一構成部分には同一符号を付し、その説明を省略する。
【００７３】
本発明の第３の実施の形態は、図９に示すように、データ処理装置７が、図１に示された第１の実施の形態におけるデータ処理装置１の構成に加え、文書ベクトル作成手段１７と、類似度計算手段１８を有する点で異なる。また、記憶装置８が、図１に示された第１に示された第１の実施の形態における記憶装置２の構成に加え、文書ベクトル記憶部２４、カテゴリ条件記憶部２５、および分類結果記憶部２６を有する点で異なる。
【００７４】
文書ベクトル記憶部２４には、文書キーワード記憶部２２に格納されているキーワードを基に文書ベクトル作成手段１７によって作成された、各文書の特徴ベクトルが記憶されている。文書の特徴ベクトルとは、例えば文書中に出現する各キーワードとその出現頻度を多次元ベクトルとして表現したものである。
【００７５】
複数の文書について、それぞれ特徴ベクトルを決定しておけば、特徴ベクトル間のユークリッド距離や、特徴ベクトルがなす角度などから、文書間の類似度を計算することができる。また、あるカテゴリに属する複数の文書の特徴ベクトルの総和や重心を、そのカテゴリの特徴ベクトルと考え、カテゴリの特徴ベクトルと未分類の文書の特徴ベクトルの類似度を計算することによって、その文書がどのカテゴリに属するかを決定することもできる。
【００７６】
カテゴリ条件記憶部２５には、分類したいカテゴリについて、それぞれ特徴的なキーワードとその出現頻度が特徴ベクトルとして記憶されている。分類結果記憶部２６には、類似度計算手段１８によって文書ベクトルと各カテゴリの特徴ベクトルの余弦を計算した結果が記憶されている。この結果は、値が大きいほど文書がそのカテゴリに属すると判断できる。
【００７７】
文書ベクトル作成手段１７は、文書キーワード記憶部２２に記憶されている文書キーワードを基に、各文書について、どのキーワードがどの部分（サイト外キーワードか、サイト内キーワードか、タイトルか、本文か等）に何回出現したかを文書ベクトルとして文書ベクトル記憶部２４に記憶させる。
【００７８】
類似度計算手段１８は、文書ベクトル記憶部２４に格納されている各文書の文書ベクトルについて、カテゴリ条件記憶部２５に格納されている各カテゴリの特徴ベクトルとの余弦を計算し、その結果を分類結果記憶部２６に格納する。
【００７９】
次に、本実施の形態の動作を、図１０のフローチャート共に詳細に説明する。図１０中、図６と同一処理ステップには同一符号を付し、その説明を省略する。すなわち、図１０のステップＳ１〜Ｓ５で示される本実施の形態におけるハイパーテキストアクセス手段１１、文書クラスタ情報取得手段１２、対象指定手段１３、文書キーワード決定手段１４の動作は、第１の実施の形態の各手段１１、１２、１３及び１４の動作と同一のため、説明は省略する。
【００８０】
第１の実施の形態では、ステップＳ５でサイト内キーワードを決定した段階で処理を終了していた。本実施の形態では、ステップＳ５の結果生成された文書キーワードを基に、文書ベクトル作成手段１７が、各文書について、どのキーワードがどの部分（サイト外キーワードか、サイト内キーワードか、タイトルか、本文か等）に何回出現したかを文書ベクトルとして文書ベクトル記憶部２４に記憶させる（ステップＳ８）。
【００８１】
次に、類似度計算手段１８が文書ベクトル記憶部２４に格納されている各文書の文書ベクトルについて、カテゴリ条件記憶部２５に格納されている各カテゴリの特徴ベクトルとの余弦を計算し、その結果を分類結果記憶部２６に格納する（ステップＳ９）。
【００８２】
なお、本実施の形態では、文書ベクトルとしてキーワードと、その出現部分（サイト外キーワードか、サイト内キーワードか、タイトルか、本文か等）、および出現頻度を使ったが、特に出現部分の区別をしない方法や、出現部分によって出現頻度に重み付けを行う方法、あるいは出現頻度ではなく出現したか否かのみの情報を使う方法などを採用してもよい。
【００８３】
また、本実施の形態では、文書の類似度計算としてベクトルの余弦をとっているが、類似度計算としてベクトル間のユークリッド距離を用いる方法でもよい。また、本実施の形態では、カテゴリ条件として各カテゴリの特徴ベクトルを指定している。しかし、カテゴリの特徴ベクトルを指定する代わりに、実際にカテゴリに含まれる文書を指定して教師データとし、ＳＶＭなどの機械学習を用いて学習した結果生成される学習モデルをカテゴリ条件として使い、類似度計算手段１８でこの学習モデルを使って未学習の文書を分類する方法でもよい。ＳＶＭを用いた文書分類についての詳細は１９８８年、プロシーディングズ・オブ・テンス・ヨーロピアン・カンファレンス・オン・マシン・ラーニング、１３７〜１４２頁（Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　１０ｔｈ　Ｅｕｒｏｐｅａｎ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ，　ｐｐ．１３７−Ｉ４２，　１９９８）などに記載されている。
【００８４】
次に、第３の実施の形態の効果について説明する。本実施の形態では、サイト全体の内容を表すサイト外からのリンクと、サイト内での文書の位置付けを表すサイト内のリンクをそれぞれ遡って得られるアンカー文字列の系列を、文書クラスタと文事との関係を特徴付ける単語群として抽出し、文書ベクトルを作成している。これにより、サイト全体の内容とサイト内での文書の位置付けを反映した分類を行うことができる。
【００８５】
［第４の実施の形態］
次に、本発明の第４の実施の形態について図面を参照して詳細に説明する。図１１は本発明の第４の実施の形態のブロック図を示す。同図に示すように、本発明のキーワード抽出装置、文書検索装置及び文書分類装置の第４の実施の形態は、プログラム制御により動作するデータ処理装置９と、情報を記憶する記憶装置１１と、入力手段３と出力手段４を含む構成である。同図中、図１と同一構成部分には同一符号を付し、その説明を省略する。
【００８６】
図１１に示すように、本発明の第４の実施の形態は、データ処理装置９が、図７に示された第２の実施の形態におけるデータ処理装置５の構成から、ハイパーテキストアクセス手段１１、文書クラスタ情報取得手段１２、対象指定手段１３、文書キーワード決定手段１４、インデックス作成手段１５を除いている点で異なる。また、記憶装置１０が、図７に示された第２の実施の形態における記憶装置６の構成から、ハイパーテキストデータベース２１、文書キーワード記憶部２２を除き、新たに第２のインデックス記憶部２７を有する点で異なる。
【００８７】
第１のインデックス記憶部２３には、文書の内容を表すメタ情報としてサイト外キーワードとサイト内キーワードの索引が記憶されている。また、第２のインデックス記憶部２７には、文書の本文中に出現したキーワードの索引が記憶されている。
【００８８】
次に、本実施の形態の動作を図１２のフローチャートを参照して詳細に説明する。なお、図１２中、図８（Ｂ）と同一処理ステップには同一符号を付し、その説明を省略する。図１２のステップＴｌ、Ｔ２及びステップＴ５で示される本実施の形態におけるインデックス検索手段１６の動作は、第２の実施の形態におけるインデックス検索手段１６の動作と同一のため、説明は省略する。
【００８９】
第２の実施の形態では、キーワードを決定するステップＴ２の後、インデックス検索手段１６はサイト外キーワードとサイト内キーワードをそれぞれ検索していた。本実施の形態では、インデックス検索手段１６はサイト外キーワードとサイト内キーワードの索引である第１のインデックスを検索し、文書の本文中に出現したキーワードの索引である第２のインデックスをそれぞれ検索する。
【００９０】
まず、インデックス検索手段１６は、ステップＴ２でｎ語に決定したキーワードのうち、第１のインデックス記憶部２３に登録された語（第１のインデックス）がないか検索する。登録されていれば、そのキーワードｍ語（１≦ｍ≦ｎ−１）と、その出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく（ステップＵ３）。
【００９１】
次に、インデックス検索手段１６は、検索結果候補となった各文書の残りのｎ−ｍ語のうち、第２のインデックス記憶部２７に登録された語（第２のインデックス）がないか検索し、登録されていれば、その登録されている文書と、キーワードの出現頻度を検索結果リストに追加登録する（ステップＵ４）。その後、インデックス検索手段１６は、上記の検索結果リストをキーワードの出現頻度でソートし、出力手段４を使って利用者に検索結果を表示する（ステップＴ５）。
【００９２】
なお、本発明はこの実施の形態に限定されるものではなく、以下の種々の変形例が可能である。すなわち、第４の実施の形態では、検索結果リストをキーワードの出現頻度でソートしているが、第１のインデックスでの出現頻度と第２のインデックスでの出現頻度にそれぞれ異なる重みを掛けて総和をとり、その結果でソートしてもよい。また、本実施の形態では、第１のインデックス記憶部２３には、ハイパーテキストから抽出されたサイト外キーワードとサイト内キーワードが登録されているとしたが、文書の内容を表すメタ情報中に出現するキーワードであってもよい。例えば、検索対象が学術論文である場合、引用元論文内での紹介文がこのメタ情報にあたる。また、検索対象が書籍である場合、書誌事項や書籍の紹介記事などがこのメタ情報にあたる。
【００９３】
また、本実施の形態では、検索結果リストをキーワードの出現頻度でソートしているが、第１のインデックスでの出現頻度と第２のインデックスでの出現頻度にそれぞれ異なる重みを掛けて、その結果でソートするようにしてもよい。また、本実施の形態では、第１のインデックスを検索するステップＵ３で、キーワードが１語以上現れた場合に、その文書を検索結果候補として記憶する方法について述べたが、すべての文書ですべてのキーワードがヒットしなかった場合に、すべての文書を検索結果候補として第２のインデックスを検索するステップＵ４を実行する方法もある。
【００９４】
また、第１のインデックス、第２のインデックスのどちらか一方でもヒットすれば検索結果リストに含めておき、検索結果を出力するステップＴ５で、第１のインデックスと第２のインデックスのいずれでヒットしたかによって、文書スコアの重みを変えてソートする方法もあり、本実施の形態で述べた方法に限定されない。
【００９５】
次に、本実施の形態の効果について説明する。本実地の形態では、文書の内容を表すメタ情報に含まれるキーワードから第１のインデックスを作成し、これを優先して検索している。これにより、文書の内容を反映した検索を行うことができる。
【００９６】
また、本実施の形態では、キーワードがスペースで分割されたり、「の」で接続されたり、複合語として検索条件に入力された場合に、そのキーワードを分割し、第１のインデックスと第２のインデックスをそれぞれ検索している。これにより、文書の内容を反映した効果的な絞り込み検索を行うことができる。
【００９７】
［第５の実施の形態］
次に本発明の第５の実施の形態について図画を参照して詳細に説明する。図１３は、本発明の第５の実施の形態のブロック図を示す。同図に示すように、本発明のキーワード抽出装置の第５の実施の形態は、入力装置３１、データ処理装置３２、出力装置３３、記憶装置３４を備え、さらに、前述の第１の実施の形態のキーワード抽出装置を実現するためのプログラムを記録した記録媒体３０を備える。この記録媒体３０は、磁気ディスク、半導体メモリ、ＣＤ−ＲＯＭその他の記録媒体のいずれでもよい。
【００９８】
入力装置３１は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力装置３３は、データ処理装置３２による処理結果を出力する装置で、例えば表示装置、プリンタ等である。キーワード抽出装置を実現するためのプログラムは、記録媒体３０からデータ処理装置３２に読み込まれ、データ処理装置３２の動作を制御し、記憶装置３４に入力メモリ３５とワークメモリ３６を生成する。データ処理装置３２は、キーワード抽出装置を実現するためのプログラムの制御により第１の実施の形態と同一の処理を実行する。
【００９９】
図１におけるデータ処理装置１と図１３におけるデータ処理装置３２が対応し、図１における記憶装置２と図１３における記憶装置３４が対応する。ただし、処理対象となるハイパーテキストデータベース２１は、記録媒体３０から読み込む形態の他に、データ処理装置３２によって外部にあるデータベースにネットワーク（例えばインターネット）を介してアクセスして取得する形態であってもよい。
【０１００】
［第６の実施の形態］
次に、本発明の第６の実施の形態について図面を参照して詳細に説明する。第６の実施の形態は、第５の実施の形態と同様に、図１３の構成を用いる。文書検索装置を実現するためのプログラムが、記録媒体３０からデータ処理装置３２に読み込まれ、データ処理装置３２の動作を制御する。データ処理装置３２は、文書検索装置を実現するためのプログラムの制御により第２の実施の形態と同一の処理を実行する。
【０１０１】
図７におけるデータ処理装置５と図１３におけるデータ処理装置３２が対応し、図７における記憶装置６と図１３における記憶装置３４が対応する。ただし、処理対象となるハイパーテキストデータベース２１は、記録媒体３０から読み込む形態の他に、データ処理装置３２によって外部にあるデータベースにネットワーク（例えばインターネット）を介してアクセスして取得する形態であってもよい。
【０１０２】
なお、ここでは、図７におけるハイパーテキストアクセス手段１１、文書クラスタ情報取得手段１２、対象指定手段１３、文書キーワード決定手段１４、インデックス作成手段１５、インデックス検索手段１６のすべてが１つの記録媒体３０からデータ処理装置３２によって読み込まれる形態で説明したが、複数の記録媒体に分割して記録されていてもよい。例えば、ハイパーテキストアクセス手段１１、文書クラスタ情報取得手段１２、対象指定手段１３、文書キーワード決定手段１４のプログラムは、第５の実施の形態の記録媒体から読み込むようにし、それ以外のインデックス作成手段１５とインデックス検索手段１６のプログラムは別の記録媒体としてもよい。さらには、インデックス作成手段１５のプログラムとインデックス検索手段１６のプログラムが別の記録媒体に分けて構成されていてもよい。
【０１０３】
［第７の実施の形態］
次に本発明の第７の実施の形態について図面を参照して詳細に説明する。第７の実施の形態は、第５、第６の実施の形態と同様に、図１３の構成を用いる。文書分類装置を実現するためのプログラムが記録媒体３０からデータ処理装置３２に読み込まれ、データ処理装置３２の動作を制御する。データ処理装置３２は、文書分類装置を実現するためのプログラムの制御により第３の実施の形態と同一の処理を実行する。
【０１０４】
図９におけるデータ処理装置７と図１３におけるデータ処理装置３２が対応し、図９における記憶装置８と図１３における記憶装置３４が対応する。ただし、処理対象となるハイパーテキストデータベース２１は、記録媒体３０から読み込む形態の他に、データ処理装置３２によって外部にあるデータベースにネットワーク（例えばインターネット）を介してアクセスして取得する形態であってもよい。
【０１０５】
なお、ここでは、図９におけるハイパーテキストアクセス手段１１、文書クラスタ情報取得手段１２、対象指定手段１３、文書キーワード決定手段１４、文書ベクトル作成手段１７、類似度計算手段１８のすべてが１つの記録媒体３０からデータ処理装置３２に読み込まれる形態で説明したが、複数の記録媒体に分割して記録されていてもよい。
【０１０６】
例えば、ハイパーテキストアクセス手段１１、文書クラスタ情報取得手段１２、対象指定手段１３、文書キーワード決定手段１４のプログラムは、第５の実施の形態の記録媒体から読み込むようにし、それ以外の文書ベクトル作成手段１７と類似度計算手段１８のプログラムは別の記録媒体として構成されていてもよい。さらには、文書ベクトル作成手段１７のプログラムと類似度計算手段１８のプログラムが別の記録媒体に分けて構成されていてもよい。
【０１０７】
［第８の実施の形態］
次に、本発明の第８の実施の形態について図面を参照して詳細に説明する。第８の実施の形態は、第５、第６、第７の実施の形態と同様に、図１３の構成を用いる。文書検索装置を実現するためのプログラムが、記録媒体３０からデータ処理装置３２に読み込まれ、データ処理装置３２の動作を制御する。データ処理装置３２は、文書検索装置を実現するためのプログラムの制御により第４の実施の形態と同一の処理を実行する。図１１におけるデータ処理装置９と図１３におけるデータ処理装置３２が対応し、図１１における記録装置１０と図１３における記録装置３４が対応する。
【０１０８】
【実施例】
［第１の実施例］
次に、本発明の第１の実施例を、図面を参照して説明する。この第１の実施例は本発明の第１の実施の形態に対応するものである。本実施例は、図１に示したデータ処理装置１としてパーソナルコンピュータを、記憶装置２として磁気ディスク記憶装置を備えている。
【０１０９】
パーソナルコンピュータは、図１に示したハイパーテキストアクセス手段１１、文書クラスタ情報取得手段１２、対象指定手段１３、文書キーワード決定手段１４として機能する中央演算装置を有している。また、磁気ディスク記憶装置には、図１に示したハイパーテキストデータベース２１、文書キーワード記憶部２２が記憶されている。ハイパーテキストデータベース２１に格納されているハイパーテキスト群の一例を図１４に示す。
【０１１０】
まず、ハイパーテキストアクセス手段１１はハイパーテキストデータベース２１に格納されている各文書を読み出し、文書クラスタ情報取得手段１２に渡す。文書クラスタ情報取得手段１２は、与えられた文書からリンク情報を抽出し、図１５に示すような、アンカー文字列とリンク元文書とリンク先文書とが対応付けられた文書参照関係表を生成する。
【０１１１】
次に、文書クラスタ情報取得手段１２は、対象指定手段１３に指定された「サイトのトップページの条件」と「同一サイトに含まれる文書の条件」に基づき、図１６に示すような、文書クラスタとトップページとクラスタ内文書とが対応付けられた文書クラスタ表を生成する。なお、本実施例では、「サイトのトップページの条件」として「文書のＵＲＬが『ｈｔｔｐ：／／ドメイン名／』、または『ｈｔｔｐ：／／ドメイン名／ｉｎｄｅｘ．ｈｔｍｌ』であるもの」とし、「同一サイトに含まれる文書の条件」として、「ドメイン名が同じ」としている。
【０１１２】
次に、文書キーワード決定手段１４は、文書クラスタ情報取得手段１２が生成した文書参照関係表と文書クラスタ表を参照して、各サイトのトップページに対してサイト外からはられているリンクのアンカー文字列をサイト外キーワードとし、各クラスク内文書について、同一クラスタ内文書のリンクを遡って得られるアンカー文字列の系列をサイト内キーワードとして文書キーワード記憶部２２に記憶させる。得られる文書キーワードの例を図１７に示す。
【０１１３】
なお、本実施例では、同一サイトに含まれている文書のサイト外キーワードは、そのサイトのトップページのサイト外キーワードと同じにする。したがって、図１４の文書１１２〜文書１１９のサイト外キーワードは、文書１１１のサイト外キーワードと同一の「グルメ情報，レストラン検索」となる。
【０１１４】
また、リンクを遡る際に、一度遡った文書を覚えておき、ループして遡らないようにする。例えば、図１４の文書１１６に対するリンクを単純に遡ると「東京都←関東」というアンカー文字列の系列のほかに、「東京都←関東←戻る←東京都←関東」、「東京都←関東←戻る←東京都←関東←戻る←東京都・・・」のようにループによって無数のアンカー文字列が生成されてしまう。そこで、一度遡った文書を同じアンカー文字列の系列内で二度遡らないようにする。したがって、文書１１６のサイト内キーワードは「戻る」を含まないことになる。
【０１１５】
また、本実施例では、トップページでないページへのサイト外からのリンクを一つだけ遡ってサイト内キーワードに含めるようにしている。したがって、文書１１６のサイト内キーワードには「東京都←関東」と「東京のお勧め店」の２種類になる。図１４の文書１１９についても同様の方法で登録するが、別のアンカー文字列の系列で同じ文書を遡る場合は、それぞれ別のキーワードとしで登録する。
【０１１６】
すなわち、「中華←東京都←関東」と「中華←大阪府←関西」はどちらも文書１１１に遡るアンカー文字列の系列であるが、別の系列であるため両方をサイト内キーワードとしで記憶する。ここでも、「中華←東京都←関東←戻る←東京都←関東」というアンカー文字列の系列などが考えられるが、これは同一系列内で文書１１３と文書１１６をそれぞれ２回遡っているためサイト内キーワードとしては記憶しない。また、トップページでないページへのサイト外からのリンクを一つだけ遡ってサイト内キーワードに含めるようにしているため、「中華←東京のお勧め店」も文書１１９のサイト内キーワードとして記憶される。
【０１１７】
［第２の実施例］
次に、本発明の第２の実施例を、図面を参照して説明する。この第２の実施例は本発明の第２の実施の形態に対応するものである。本実施例は図７に示した第２の実施の形態におけるデータ処理装置５としてパーソナルコンピュータを、記憶装置６として磁気ディスク記憶装置を備えている。
【０１１８】
上記のパーソナルコンピュータの中央演算装置は、第１の実施例と同様の機能を有するが、これに加えて図７に示したインデックス作成手段１５、インデックス検索手段１６としても機能する点で第１の実施例と異なる。また、入力装置としてキーボードを、出力装置としてディスプレイを備える点で第１の実施例と異なる。また、磁気ディスク記憶装置には、図７に示した第１のインデックス記憶部２３も記憶される点で第１の実施例と異なる。本実施例のハイパーテキストデータベース２１に格納されているハイパーテキスト群の一例を図１４に示す。
【０１１９】
本実施例では、登録と検索という動作のタイミングが異なる２種類の処理がある。検索は利用者からの入力がある度に行われるのに対し、登録は予め１回だけ行っておけばよい。登録処理では、まず、ハイパーテキストアクセス手段１１はハイパーテキストデータベース２１に格納されている各文書を読み出し、文書クラスタ情報取得手段１２に渡す。文書クラスタ情報取得手段１２は、与えられた文書からリンク情報を抽出し、図１５に示すような文書参照関係表を生成する。
【０１２０】
次に、文書クラスタ情報取得手段１２は、対象指定手段１３に指定された「サイトのトップページの条件」と「同一サイトに含まれる文書の条件」に基づき、図１６に示すような文書クラスタ表を生成する。なお、本実施例では、「サイトのトップページの条件」として「文書のＵＲＬが『ｈｔｔｐ：／／ドメイン名／』、または『ｈｔｔｐ：／／ドメイン名／ｉｎｄｅｘ．ｈｔｍｌ』であるもの」とし、「同一サイトに含まれる文書の条件」としている。
【０１２１】
次に、文書キーワード決定手段１４は、文書クラスタ情報取得手段１２が生成した文書参照関係表と文書クラスタ表を参照して、各サイトのトップページに対してサイト外からはられているリンクのアンカー文字列をサイト外キーワードとし、各クラスタ内文書について、同一クラスタ内文書のリンクを遡って得られるアンカー文字列の系列をサイト内キーワードとして文書キーワード記憶部２２に記憶させる。得られる文書キーワードの例を図１７に示す。
【０１２２】
なお、本実施例では、同一サイトに含まれている文書のサイト外キーワードは、そのサイトのトップページのサイト外キーワードと同じにする。したがって、図１４の文書１１２〜文書１１９のサイト外キーワードは文書１１１のサイト外キーワードと同一の「グルメ情報，レストラン検索」となる。
【０１２３】
また、リンクを遡る際に、一度遡った文書を覚えておき、ループして遡らないようにする。例えば、図１４の文書１１６に対するリンクを単純に遡ると「東京都←関東」というアンカー文字列の系列のほかに、「東京都←関東←戻る←東京都←関東」、「東京都←関東←戻る←東京都・・・」のようにループによって無数のアンカー文字列が生成されてしまう。そこで、一度遡った文書を同じアンカー文字列の系列内で二度遡らないようにする。したがって、文書１１６のサイト内キーワードは「戻る」を含まないことになる。
【０１２４】
また、本実施例では、トップページでないページへのサイト外からのリンクを一つだけ遡ってサイト内キーワードに含めるようにしている。したがって、文書１１６のサイト内キーワードには「東京都←関東」と「東京のお勧め店」の２種類になる。図１４の文書１１９についても同様の方法で登録するが別のアンカー文字列の系列で同じ文書を遡る場合は、それぞれ別のキーワードとして登録する。
【０１２５】
すなわち、「中華←東京都←関東」と「中華←大阪府←関西」はどちらも文書１１１に遡るアンカー文字列の系列であるが、別の系列であるため両方をサイト内キーワードとして記憶する。ここでも、「中華←東京都←関東←戻る←東京都←関東」というアンカー文字列の系列などが考えられるが、これは同一系列内で文書１１３と文書１１６をそれぞれ２回遡っているためサイト内キーワードとしては記憶しない。また、トップページでないページへのサイト外からのリンクを一つだけ遡ってサイト内キーワードに含めるようにしているため、「中華←東京のお勧め店」も文書１１９のサイト内キーワードとして記憶される。
【０１２６】
次に、インデックス作成手段１５は、サイト外キーワードについて、どの語がどの文書に登録されているかという索引を作成し、続いて、サイト内キーワードについて、どの語がどの文書に登録されているかという索引を作成する。
【０１２７】
次に、検索処理の詳細な説明を行う。今、キーボードから「奈良　グルメ」という検索条件が入力されたとする。すると、インデックス検索手段１６は、検索条件を、スペースや「の」で区切り、あるいは形態素解析を行うことによって、「奈良」と「グルメ」の２つのキーワードに分割する。
【０１２８】
次に、インデックス検索手段１６は、「奈良」、「グルメ」のうち、サイト外キーワードに現れる語がないか調べる。現れていれば、そのキーワードとその出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく。文書キーワードが図１７の場合、「グルメ」が文書１１１〜１１９のサイト外キーワードにそれぞれ１回ずつ現れているので、検索結果候補とする。
【０１２９】
次に、インデックス検索手段１６は、検索結果候補となった文書のうち、サイト内キーワードに、残りの「奈良」が現れている文書と、キーワードの出現頻度を検索結果リストに追加登録する。文書キーワードが図１７の場合、検索結果候補となった文書１１１〜１１９のうち、サイト内キーワードに「奈良」が出現しているのは文書１１４、文書１１７、文書１１８である。キーワード「奈良」の出現頻度はいずれも１回である。最後に、インデックス検索手段１６は、検索結果リストをキーワードの出現頻度でソートし、ディスプレイを使って利用者に検索結果を表示する。
【０１３０】
なお、本実施例では、文書１１４、文書１１７、文書１１８でのキーワードの出現頻度はいずれも１回であるが、出現位置（サイト外キーワードか、サイト内キーワードか、サイト内キーワード中、でも最初の方か、本文か）に応じて出現頻度に重みをつけたスコアを用いて検索結果をソートしてもよい。
【０１３１】
また、キーボードから「奈良グルメ検索」という検索条件が入力されたとする。すると、インデックス検索手段１６は、検索条件をスペースや「の」で区切り、あるいは形態素解析を行うことによって、「奈良」、「グルメ」、「検索」に分割する。
【０１３２】
次に、インデックス検索手段１６は、「奈良」、「グルメ」、「検索」のうち、サイト外キーワードに現れる語がないか調べる。現れていれば、そのキーワードとその出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく。文書キーワードが図１７の場合、「グルメ」、「検索」が文書１１１〜文書１１９のサイト外キーワードにそれぞれ１回ずつ現れているので、検索結果候補とする。
【０１３３】
次に、インデックス検索手段１６は、検索結果候補となった文書のうち、サイト内キーワードに、残りの「奈良」が現れている文書と、キーワードの出現頻度を検索結果リストに追加登録する。文書キーワードが図１７の場合、検索結果候補となった文書１１１〜文書１１９のうち、サイト内キーワードに「奈良」が出現しているのは文書１１４、文書１１７、文書１１８である。キーワード「奈良」の出現頻度はいずれも１回である。最後に、インデックス検索手段１６は、検索結果リストをキーワードの出現頻度でソートし、ディスプレイを使って利用者に検索結果を表示する。
【０１３４】
なお、本実施例では、文書１１４、文書１１７、文書１１８でのキーワードの出現頻度はいずれも１回であるが、出現位置（サイト外キーワードか、サイト内キーワードか、サイト内キーワード中でも最初の方か、本文か）に応じて出現頻度に重みをつけたスコアを用いて検索結果をソートしてもよい。
【０１３５】
また、キーボードから「奈良　中華」という検索条件が入力されたとする。次に、インデックス検索手段１６は、検索条件をスペースや「の」で区切り、あるいは形態素解析を行うことによって、「奈良」、「中華」に分割する。
【０１３６】
次に、インデックス検索手段１６は、「奈良」、「中華」のうち、サイト外キーワードに現れる語がないか調べる。現れていれば、そのキーワードとその出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく。文書キーワードが図１７の場合、「奈良」も「中華」もサイト外キーワードとして現れていない。
【０１３７】
次に、インデックス検索手段１６は、すべての文書のうち、サイト内キーワードに、「奈良」と「中華」が現れている文書と、キーワードの出現頻度を検索結果リストに追加登録する。文書キーワードが図１７の場合、文書１１７に「奈良」と「中華」がそれぞれ１回ずつ出現しているため、文書１１７が検索結果リストに登録される。最後に、インデックス検索手段１６は、検索結果リストをキーワードの出現頻度でソートし、ディスプレイを使って利用者に検索結果を表示する。
【０１３８】
また、キーボードから「中華レストラン」という検索条件が入力されたとする。すると、インデックス検索手段は、検索条件をスペースや「の」で区切り、あるいは形態素解析を行うことによって、「中華」、「レストラン」に分割する。
【０１３９】
次に、インデックス検索手段１６は、「中華」、「レストラン」のうち、サイト外キーワードに現れる語がないか調べる。現れていれば、そのキーワードとその出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく。文書キーワードが図１７の場合、「レストラン」が文書１１１〜文書１１９のサイト外キーワードにそれぞれ１回ずつ現れているので、検索結果候補とする。
【０１４０】
次に、インデックス検索手段１６は、検索結果候補となった文書のうち、サイト内キーワードに、残りの「中華」が現れている文書と、キーワードの出現頻度を検索結果リストに追加登録する。文書キーワードが図１７の場合、検索結果候補となった文書１１１〜文書１１９のうち、サイト内キーワードに「中華」が出現しているのは文書１１７と文書１１９であり、キーワード「中華」の出現頻度はそれぞれ１回、３回である。最後に、インデックス検索手段は、検索結果リストをキーワードの出現頻度でソートし、ディスプレイを使って利用者に検索結果を表示する。
【０１４１】
なお、本実施例では、文書１１９のサイト内キーワードを「中華←大阪府←関西」、「中華←東京都←関東」、「中華←東京のお勧め店」の３通りであるとして「中華」の出現頻度を３回と数えたが、いずれの「中華」も同一のリンクが由来となっているため、出現頻度を１回と数えてもよい。あるいは、文書１１９のサイト内キーワードを「中華←大阪府，東京都，東京のお勧め店←関西，関東」として記憶しておき、「中華」の出現頻度を１回と数えてもよい。
【０１４２】
［第３の実施例］
次に、本発明の第３の実施例を、図面を参照して説明する。この第３の実施例は、本発明の第３の実施の形態に対応するものである。本実施例は第１の実施例と同様に、図９に示した第３の実施の形態のデータ処理装置９をパーソナルコンピュータとし、記憶装置８を磁気ディスク記憶装置とした構成であるが、パーソナルコンピュータの中央演算装置が、図９に示した文書ベクトル作成手段１７、類似度計算手段１８としても機能する点で第１の実施例と異なる。また、磁気ディスク記憶装置には、図９に示した文書ベクトル記憶部２４、カテゴリ条件記憶部２５、および分類結果記憶部２６も記憶される点で第１の実施例と異なる。
【０１４３】
次に、本実施の形態の動作について説明する。まず、ハイパーテキストアクセス手段（図９の１１）はハイパーテキストデータベース（図９の２１）に格納されている各文書を読み出し、文書クラスタ情報取得手段（図９の１２）に渡す。ここで、ハイパーテキストデータベース２１に格納されているハイパーテキスト群の一例を図１４に示す。文書クラスタ情報取得手段１２は、与えられた文書からリンク情報を抽出し、図１５に示すような文書参照関係表を生成する。
【０１４４】
次に、文書クラスタ情報取得手段１２は、対象指定手段（図９の１３）に指定された「サイトのトップページの条件」と「同一サイトに含まれる文書の条件」に基づき、図１６に示すような文書クラスタ表を生成する。なお、本実施例では、「サイトのトップページの条件」として「文書のＵＲＬが『ｈｔｔｐ：／／ドメイン名／』、または『ｈｔｔｐ：／／ドメイン名／ｉｎｄｅｘ．ｈｔｍｌ』であるもの」とし、「同一サイトに含まれる文書の条件」として、「ドメイン名が同じ」としている。
【０１４５】
次に、文書キーワード決定手段（図９の１４）は、文書クラスタ情報取得手段１２が生成した文書参照関係表と文書クラスタ表を参照して、各サイトのトップページに対してサイト外からはられているリンクのアンカー文字列の系列をサイト外キーワードとし、各クラスタ内文書について、同一クラスタ内文書のリンクを遡って得られるアンカー文字列の系列をサイト内キーワードとして文書キーワード記憶部（図９の２２）に記憶させる。得られる文書キーワードの例を図１７に示す。
【０１４６】
なお、本実施例では、同一サイトに含まれている文書のサイト外キーワードは、そのサイトのトップページのサイト外キーワードと同じにする。したがって、図１４の文書１１２〜文書１１９のサイト外キーワードは文書１１１のサイト外キーワードと同一の「グルメ情報，レストラン検索」となる。
【０１４７】
また、リンクを遡る際に、一度遡った文書を覚えておき、ループして遡らないようにする。例えば、図１４の文書１１６に対するリンクを単純に遡ると「東京都←関東」というアンカー文字列の系列のほかに、「東京都←関東←戻る←東京都←関東」、「東京都←関東←戻る←東京都←関東←戻る←東京都・・・」のようにループによって無数のアンカー文字列が生成されてしまう。そこで、一度遡った文書を同じアンカー文字列の系列内で二度遡らないようにする。したがって、文書１１６のサイト内キーワードは「戻る」を含まないことになる。
【０１４８】
また、本実施例では、トップページでないページへのサイト外からのリンクを一つだけ遡ってサイト内キーワードに含めるようにしている。したがって、文書１１６のサイト内キーワードには「東京都←関東」と「東京都のお勧め店」の２種類になる。図１４の文書１１９についても同様の方法で登録するが、別のアンカー文字列の系列で同じ文書を遡る場合は、それぞれ別のキーワードとして登録する。
【０１４９】
すなわち、「中華←東京都←関東」と「中華←大阪府←関西」はどちらも文書１１１に遡るアンカー文字列の系列であるが、別の系列であるため両方をサイト内キーワードとして記憶する。ここでも、「中華←東京都←関東←戻る←東京都←関東」というアンカー文字列の系列などが考えられるが、これは同一系列内で文書１１３と文書１１６をそれぞれ２回遡っているためサイト内キーワードとしては記憶しない。また、トップページでないページへのサイト外からのリンクを一つだけ遡ってサイト内キーワードに含めるようにしているため、「中華←東京のお勧め店」も文書１１９のサイト内キーワードとして記憶される。
【０１５０】
次に、文書ベクトル作成手段１７は、各文書について、どのキーワードがどの部分（サイト外キーワードか、サイト内キーワードか、タイトルか、本文か等）に何回出現したかを文書ベクトルとして文書ベクトル記憶部２４に記憶させる。
【０１５１】
そして、類似度計算手段１８が文書ベクトル記憶部２４に格納されている各文書の文書ベクトルについて、カテゴリ条件記憶部２５に格納されている各カテゴリの特徴ベクトルとの余弦を計算し、その結果を分類記憶部２６に格納する。
【０１５２】
［第４の実施例］
次に、本発明の第４の実施例を、図面を参照して説明する。この第４の実施例は、本発明の第４の実施の形態に対応するものである。本実施例は図１１に示した第４の実施の形態のデータ処理装置９をパーソナルコンピュータで構成し、記憶装置１０を磁気ディスク記憶装置で構成した点は第２の実施例と同様であるが、パーソナルコンピュータの中央演算装置が、インデックス検索手段としてしか機能しない点で第２の実施例と異なる。また、磁気ディスク記憶装置には、ハイパーテキストデータベース、文書キーワード記憶部が記憶されない代わりに、図１１に示した第２のインデックス記憶部２７が記憶される点で第２の実施例と異なる。
【０１５３】
図１１に示した第１のインデックス記憶部２３に記憶されている文書のメタ情報から作成されたインデックスの一例を図１８に示す。図１８には、キーワードと出現する文書、および出現頻度が記録されており、例えば、キーワード「ホテル」で登録されている文書は文書２１１、文書２１２、文書２１４で、それぞれキーワード「ホテル」の出現頻度は３回、１回、５回であることが分かる。
【０１５４】
また、第２のインデックス記憶部２７に記憶されている文書の本文から作成されたインデックスの一例を図１９に示す。第２のインデックスの形式も第１のインデックスと同様で、キーワードと出現する文書、および出現頻度が記録されており、例えば、キーワード「東京」で登録されている文書は文書２１２、文書２１３、文書２１４、文書２１７、文書２１８、文書２１９で、それぞれキーワード「東京」の出現頻度は１回、４回、６回、８回、１回、２回であることが分かる。
【０１５５】
今、キーボードから検索条件「奈良グルメ」が入力されたとする。すると、インデックス検索手段１６は、検索条件をスペースや「の」で区切り、あるいは形態素解析を行うことによって、「奈良」と「グルメ」のキーワードに分割する。
【０１５６】
次に、インデックス検索手段１６は、キーワード「奈良」と「グルメ」のうち、第１のインデックス記憶部２３に登録された語がないか調べる。登録されていれば、そのキーワードとその出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく。第１のインデックスが図１８の場合、「グルメ」が登録されているので、文書２１１、文書２１２、文書２１３、文書２１４が検索結果候補となる。
【０１５７】
次に、インデックス検索手段１６は、検索結果候補となった文書のうち、第２のインデックス記憶部２７に、残りの「奈良」が登録されている文書と、キーワードの出現頻度を検索結果リストに追加登録する。第２のインデックスが図１９の場合、検索結果候補の文書２１１、文書２１２、文書２１３、文書２１４のうち、「奈良」は文書２１３にだけ現れているため、文書２１３が検索結果リストに登録される。
【０１５８】
次に、インデックス検索手段１６は、検索結果リストをキーワードの出現頻度でソートし、ディスプレイに検索結果を表示する。この場合、検索結果として出力されるのは検索結果リストに登録されている文書２１３である。
【０１５９】
また、キーボードから検索条件「大阪の図書館」が入力されたとする。すると、インデックス検索手段１６は、検索キーワードをスペースや「の」で区切り、あるいは形態素解析を行うことによって、「大阪」と「図書館」のキーワードに分割する。
【０１６０】
次に、インデックス検索手段１６は、キーワード「大阪」と「図書館」のうち、第１のインデックス記憶部２３に登録された語がないか調べる。登録されていれば、そのキーワードとその出現頻度およびキーワードが現れた文書を検索結果候補として記憶しておく。第１のインデックスが図１８の場合、「図書館」が登録されている、文書２１５、文書２１６、文書２１７、文書２１８、文書２１９が検索結果候補となる。キーワード「図書館」の出現頻度は、それぞれ１回、５回、２回、７回、４回である。
【０１６１】
次に、インデックス検索手段１６は、検索結果候補となった文書のうち、第２のインデックス記憶部２７に、残りの「大阪」が登録されている文書と、キーワードの出現頻度を検索結果リストに追加登録する。第２のインデックスが図１９の場合、検索結果候補の文書２１５、文書２１６、文書２１７、文書２１８、文書２１９のうち、キーワード「大阪」は文書２１６、文書２１７、文書２１９に現れており、「大阪」の出現頻度はそれぞれ２回、４回、８回である。
【０１６２】
次に、インデックス検索手段１６は、検索結果リストをキーワードの出現頻度でソートし、ディスプレイに検索結果を表示する。キーワード「図書館」、「大阪」の出現頻度の合計は、文書２１６では７回、文書２１７では６回、文書２１９では１２回であるので、ディスプレイには文書２１９、文書２１６、文書２１７の順序で表示される。
【０１６３】
なお、本実施例では単純にキーワードの出現頻度の合計でソートしたが、第１のキーワードインデックスでのキーワード出現頻度と、第２のキーワードインデックスでのキーワード出現頻度にそれぞれ別の重みを掛けて合計して得られるスコアを基準にソートしてもよい。
【０１６４】
【発明の効果】
以上説明したように、本発明によれば、以下の種々の効果を奏する
（１）ハイパーテキスト群に対してサイト全体の内容とサイト内での文書の位置付けを反映した検索・分類を行うことができる。その理由は、サイト全体の内容を表すサイト外からのリンクと、サイト内での文書の位置付けを表すサイト内のリンクをそれぞれ遡って得られるアンカー文字列の系列を、文書クラスタと文書との関係を特徴付ける単語群として抽出し、検索・分類対象とするからである。
【０１６５】
（２）複数キーワードに対する効果的な絞り込み検索を行うことができる。その理由は、キーワードがスペースで分割されたり、「の」で接続されたり、複合語として、検索条件に入力された場合に、そのキーワードを分割し、文書の内容を表すメタ情報としてのキーワードと文書本体のキーワードを別々に検索するからである。
【０１６６】
（３）一般的な文書に対しても、文書の内容と意味付けを反映した検索を行うことができる。その理由は、文書の内容を表すメタ情報中のキーワードと、文書中のキーワードを区別し、それぞれ別のインデックスとして検索を行うからである。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態の構成を示すブロック図である。
【図２】本発明の第１の実施の形態におけるハイパーテキストデータベースが記憶するハイパーテキスト群の一例を示す図である。
【図３】本発明の第１の実施の形態における文書キーワード記憶部が記憶する文書キーワードの一例を示す図である。
【図４】本発明の第１の実施の形態における文書クラスタ情報取得部が生成する文書参照関係表の一例を示す図である。
【図５】本発明の第１の実施の形態における文書クラスタ情報取得部が生成する文書クラスタ表の一例を示す図である。
【図６】本発明の第１の実施の形態の動作を示すフローチャートである。
【図７】本発明の第２の実施の形態の構成を示すブロック図である。
【図８】本発明の第２の実施の形態の動作を示すフローチャートである。
【図９】本発明の第３の実施の形態の構成を示すブロック図である。
【図１０】本発明の第３の実施の形態の動作を示すフローチャートである。
【図１１】本発明の第４の実施の形態の構成を示すブロック図である。
【図１２】本発明の第４の実施の形態の動作を示すフローチャートである。
【図１３】本発明の第５〜８の実施の形態の構成を示すブロック図である。
【図１４】本発明の第１の実施例におけるハイパーテキストデータベースが記憶するハイパーテキスト群の一例を示す図である。
【図１５】本発明の第１の実施例における文書クラスタ情報取得部が生成する文書参照関係表の一例を示す図である。
【図１６】本発明の第１の実施例における文書クラスタ情報取得部が生成する文書クラスタ表の一例を示す図である。
【図１７】本発明の第１の実施例における文書キーワード記憶部が記憶する文書キーワードの一例を示す図である。
【図１８】本発明の第４の実施例における第１のインデックス記憶部が記憶するインデックスの一例を示す図である。
【図１９】本発明の第４の実施例における第２のインデックス記憶部が記憶するインデックスの一例を示す図である。
【符号の説明】
１、５、７　データ処理装置
２、６、８　記憶装置
３　入力手段
４　出力手段
１１　ハイパーテキストアクセス手段
１２　文書クラスタ情報取得手段
１３　対象指定手段
１４　文書キーワード決定手段
１５　インデックス作成手段
１６　インデックス検索手段
１７　文書ベクトル作成手段
１８　類似度計算手段
２１　ハイパーテキストデータベース
２２　文書キーワード記憶部
２３　第１のインデックス記憶部
２４　文書ベクトル記憶部
２５　カテゴリ条件記憶部
２６　分類結果記憶部
２７　第２のインデックス記憶部
３０　記憶媒体
３１　入力装置
３２　データ処理装置
３３　出力装置
３４　記憶装置
３５　入力メモリ
３６　ワークメモリ

Claims

ハイパーテキストデータベースを構成する１文書に対して該文書の特徴を表す単語群である文書キーワードを出力するキーワード抽出装置において、
前記ハイパーテキストデータベース内の文書を含む文書クラスタと該文書との関係を特徴付ける単語群を、前記文書キーワードに含めて出力することを特徴とするキーワード抽出装置。
ハイパーテキストデータベースを構成する１文書に対して該文書の特徴を表す単語群である文書キーワードを出力するキーワード抽出装置において、
前記ハイパーテキストデータベース内の文書を含む文書クラスタと該文書との関係を特徴付ける単語群、及び該文書自体の内容を特徴付ける単語群を、前記文書キーワードに含めて出力することを特徴とするキーワード抽出装置。
ハイパーテキストデータベースを構成する１文書に対して該文書の特徴を表す単語群である文書キーワードを出力するキーワード抽出装置において、
前記ハイパーテキストデータベース内の文書を含む文書クラスタと該文書に関わる情報を取得する文書クラスタ情報取得手段と、
前記文書クラスタと前記文書との関係を特徴付ける単語群を抽出する文書キーワード決定手段と
を備えることを特徴とするキーワード抽出装置。
ハイパーテキストデータベースを構成する１文書に対して該文書の特徴を表す単語群である文書キーワードを出力するキーワード抽出装置において、
前記ハイパーテキストデータベース内の文書を含む文書クラスタと該文書に関わる情報を取得する文書クラスタ情報取得手段と、
前記文書クラスタと前記文書との関係を特徴付ける単語群及び該文書自体の内容を特徴付ける単語群を抽出する文書キーワード決定手段と
を備えることを特徴とするキーワード抽出装置。
前記文書クラスタ情報取得手段は、指定された文書に関わる情報、及び指定された文書クラスタに関わる情報を取得する手段であることを特徴とする請求項３又は４記載のキーワード抽出装置。
前記文書クラスタ情報取得手段は、指定された文書に関わる情報を取得するとともに、該文書を含む文書クラスタの範囲を決定した上で、該文書クラスタに関わる情報を取得する手段であることを特徴とする請求項３又は４記載のキーワード抽出装置。
前記文書クラスタ情報取得手段は、前記文書クラスタの範囲を、前記文書が格納されているサーバーのドメイン名、または文書へのハイパーリンクの数やアンカー文字列、または前記文書の格納されているディレクトリ階層、または利用者によって予め指定された文書リストに基づいて決定することを特徴とする請求項６記載のキーワード抽出装置。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内において、該文書へのハイパーリンクを複数段遡って得られるアンカー文字列の系列から抽出されることを特徴とする請求項１乃至７のうちいずれか一項記載のキーワード抽出装置。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列から抽出されることを特徴とする請求項１乃至７のうちいずれか一項記載のキーワード抽出装置。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列と、該文書クラスタ内の最上位文書に対する別の文書クラスタからのハイパーリンクに対応するアンカー文字列から抽出されることを特徴とする請求項１乃至７のうちいずれか一項記載のキーワード抽出装置。
ハイパーテキストデータベースを構成する各文書の特徴を表す単語群を登録したインデックスと、入力された検索条件とを照合して該当文書を出力する文書検索装置において、
前記各文書について、前記ハイパーテキストデータベース内の該文書を含む文書クラスタと該文書との関係を特徴付ける単語群を、前記インデックスに登録することを特徴とする文書検索装置。
ハイパーテキストデータベースを構成する各文書の特徴を表す単語群を登録したインデックスと、入力された検索条件とを照合して該当文書を出力する文書検索装置において、
前記各文書について、前記ハイパーテキストデータベース内の該文書を含む文書クラスタと該文書との関係を特徴付ける単語群、及び該文書自体の内容を特徴付ける単語群を、前記インデックスに登録することを特徴とする文書検索装置。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内において、該文書へのハイパーリンクを複数段遡って得られるアンカー文字列の系列から抽出することを特徴とする請求項１１又は１２記載の文書検索装置。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列から抽出することを特徴とする請求項１１又は１２記載の文書検索装置。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列と、該文書クラスタ内の最上位文書に対する別の文書クラスタからのハイパーリンクに対応するアンカー文字列から抽出することを特徴とする請求項１１又は１２記載の文書検索装置。
ハイパーテキストデータベース中の指定された文書が予め定義されたカテゴリのいずれに該当するかを、該文書の特徴を表す単語群である文書キーワードを用いた類似度計算によって決定する文書分類装置において、
前記ハイパーテキストデータベース内の該文書を含む文書クラスタと該文書との関係を特徴付ける単語群を、前記文書キーワードに含めて類似度計算に用いることを特徴とする文書分類装置。
ハイパーテキストデータベース中の指定された文書が予め定義されたカテゴリのいずれに該当するかを、該文書の特徴を表す単語群である文書キーワードを用いた類似度計算によって決定する文書分類装置において、
前記ハイパーテキストデータベース内の該文書を含む文書クラスタと該文書との関係を特徴付ける単語群、及び該文書自体の内容を特徴付ける単語群を、前記文書キーワードに含めて類似度計算に用いることを特徴とする文書分類装置。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内において、該文書へのハイパーリンクを複数段遡って得られるアンカー文字列の系列から抽出することを特徴とする請求項１６又は１７記載の文書分類装置。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列から抽出することを特徴とする請求項１６又は１７記載の文書分類装置。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列と、該文書クラスタ内の最上位文書に対する別の文書クラスタからのハイパーリンクに対応するアンカー文字列から抽出することを特徴とする請求項１６又は１７記載の文書分類装置。
入力されたキーワード条件に合致する文書群を検索する文書検索装置において、
各文書の特徴を表す単語群が分けて登録される第１のインデックス記憶手段及び第２のインデックス記憶手段と、
前記キーワード条件にｎ個（ｎ≧２）のキーワードが含まれる場合に、該ｎ個のキーワードのうちのｍ個（１≦ｍ≦ｎ−１）は前記第１のインデックス記憶手段でヒットし、残りのｎ−ｍ個は前記第２のインデックス記憶手段でヒットした文書を検索結果として出力するインデックス検索手段と
を備えることを特徴とする文書検索装置。
入力された検索条件文に合致する文書群を検索する文書検索装置において、
各文書の特徴を表す単語群が分けて登録される第１のインデックス記憶手段及び第２のインデックス記憶手段と、
前記検索条件文が「の」で連結された２個のキーワードからなる場合に、該２個のキーワードの一方が前記第１のインデックス記憶手段でヒットし、もう一方のキーワードが前記第２のインデックス記憶手段でヒットした文書を検索結果として出力するインデックス検索手段と
を備えることを特徴とする文書検索装置。
前記インデックス検索手段は、前記第１のインデックス記憶手段でヒットしたキーワードに関する適合度スコアと、前記第２のインデックス記憶手段でヒットしたキーワードに関する適合度スコアとを、異なる重み付けをして文書の適合度スコアに反映させ、該文書の適合度スコアの順に検索結果を出力することを特徴とする請求項２１又は２２記載の文書検索装置。
前記第１のインデックス記憶手段は、各文書について、ハイパーテキストデータベース内の該文書を含む文書クラスタと該文書との関係を特徴付ける単語群を登録し、前記第２のインデックス記憶手段は、各文書について、該文書自体の内容を特徴付ける単語群を登録することを特徴とする請求項２１乃至２３のうちいずれか一項記載の文書検索装置。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内において、該文書へのハイパーリンクを複数段遡って得られるアンカー文字列の系列から抽出することを特徴とする請求項２４記載の文書検索装置。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列から抽出することを特徴とする請求項２４記載の文書検索装置。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列と、該文書クラスタ内の最上位文書に対する別の文書クラスタからのハイパーリンクに対応するアンカー文字列の系列から抽出することを特徴とする請求項２４記載の文書検索装置。
ハイパーテキストデータベースを構成する１文書に対して該文書の特徴を表す単語群である文書キーワードを出力するキーワード抽出方法において、
前記ハイパーテキストデータベース内の該文書を含む文書クラスタと該文書との関係を特徴付ける単語群を、前記文書キーワードに含めて出力することを特徴とするキーワード抽出方法。
ハイパーテキストデータベースを構成する１文書に対して該文書の特徴を表す単語群である文書キーワードを出力するキーワード抽出方法において、
前記ハイパーテキストデータベース内の該文書を含む文書クラスタと該文書との関係を特徴付ける単語群、及び該文書自体の内容を特徴付ける単語群を、前記文書キーワードに含めて出力することを特徴とするキーワード抽出方法。
ハイパーテキストデータベースを構成する１文書に対して該文書の特徴を表す単語群である文書キーワードを出力するキーワード抽出方法において、
前記ハイパーテキストデータベース内の該文書を含む文書クラスタと該文書に関わる情報を取得する文書クラスタ情報取得ステップと、
前記文書クラスタと前記文書との関係を特徴付ける単語群を抽出する文書キーワード決定ステップと
を含むことを特徴とするキーワード抽出方法。
ハイパーテキストデータベースを構成する１文書に対して該文書の特徴を表す単語群である文書キーワードを出力するキーワード抽出方法において、
前記ハイパーテキストデータベース内の該文書を含む文書クラスタと該文書に関わる情報を取得する文書クラスタ情報取得ステップと、
前記文書クラスタと前記文書との関係を特徴付ける単語群及び該文書自体の内容を特徴付ける単語群を抽出する文書キーワード決定ステップと
を含むことを特徴とするキーワード抽出方法。
前記文書クラスタ情報取得ステップは、指定された文書に関わる情報、及び指定された文書クラスタに関わる情報を取得することを特徴とする請求項３０又は３１記載のキーワード抽出方法。
前記文書クラスタ情報取得ステップは、指定された文書に関わる情報を取得するとともに、該文書を含む文書クラスタの範囲を決定した上で、該文書クラスタに関わる情報を取得することを特徴とする請求項３０又は３１記載のキーワード抽出方法。
前記文書クラスタの範囲は、前記文書が格納されているサーバーのドメイン名、または前記文書へのハイパーリンクの数やアンカー文字列、または前記文書の格納されているディレクトリ階層、または利用者によってあらかじめ指定された文書リストに基づいて決定されることを特徴とする請求項３３記載のキーワード抽出方法。
前記文書キーワード決定ステップは、前記文書クラスタと前記文書との関係を特徴付ける単語群を、該文書クラスタ内において、該文書へのハイパーリンクを複数段遡って得られるアンカー文字列の系列から抽出することを特徴とする請求項２８乃至３４のうちいずれか一項記載のキーワード抽出方法。
前記文書キーワード決定ステップは、前記文書クラスタと前記文書との関係を特徴付ける単語群を、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列から抽出することを特徴とする請求項２８乃至３４のうちいずれか一項記載のキーワード抽出方法。
前記文書キーワード決定ステップは、前記文書クラスタと前記文書との関係を特徴付ける単語群を、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列と、該文書クラスタ内の最上位文書に対する別の文書クラスタからのハイパーリンクに対応するアンカー文字列から抽出することを特徴とする請求項２８乃至３４のうちいずれか一項記載のキーワード抽出方法。
ハイパーテキストデータベースを構成する各文書の特徴を表す単語群を登録したインデックスと入力された検索条件とを照合して該文書を出力する文書検索方法において、
前記各文書について、前記ハイパーテキスト内の該文書を含む文書クラスタと該文書との関係を特徴付ける単語群を、前記インデックスに登録することを特徴とする文書検索方法。
ハイパーテキストデータベースを構成する各文書の特徴を表す単語群を登録したインデックスと入力された検索条件とを照合して該文書を出力する文書検索方法において、
前記各文書について、前記ハイパーテキスト内の該文書を含む文書クラスタと該文書との関係を特徴付ける単語群、及び該文書自体の内容を特徴付ける単語群を、前記インデックスに登録することを特徴とする文書検索方法。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内において、該文書へのハイパーリンクを複数段遡って得られるアンカー文字列の系列から抽出することを特徴とする請求項３８又は３９記載の文書検索方法。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列から抽出することを特徴とする請求項３８又は３９記載の文書検索方法。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列と、該文書クラスタ内の最上位文書に対する別の文書クラスタからのハイパーリンクに対応するアンカー文字列から抽出することを特徴とする請求項３８又は３９記載の文書検索方法。
ハイパーテキストデータベース中の指定された文書が予め定義されたカテゴリのいずれに該当するかを該文書の特徴を表す単語群である文書キーワードを用いた類似度計算によって決定する文書分類方法において、
前記ハイパーテキスト内の前記文書を含む文書クラスタと該文書との関係を特徴付ける単語群を、前記文書キーワードに含めて類似度計算に用いることを特徴とする文書分類方法。
ハイパーテキストデータベース中の指定された文書が予め定義されたカテゴリのいずれに該当するかを該文書の特徴を表す単語群である文書キーワードを用いた類似度計算によって決定する文書分類方法において、
前記ハイパーテキスト内の前記文書を含む文書クラスタと該文書との関係を特徴付ける単語群、及び該文書自体の内容を特徴付ける単語群を、前記文書キーワードに含めて類似度計算に用いることを特徴とする文書分類方法。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内において該文書へのハイパーリンクを複数段遡って得られるアンカー文字列の系列から抽出することを特徴とする請求項４３又は４４記載の文書分類方法。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列から抽出することを特徴とする請求項４３又は４４記載の文書分類方法。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列と、該文書クラスタ内の最上位文書に対する別の文書クラスタからのハイパーリンクに対応するアンカー文字列から抽出することを特徴とする請求項４４記載の文書分類方法。
入力されたキーワード条件に合致する文書群を検索する文書検索方法において、
各文書の特徴を表す単語群を第１のインデックスと第２のインデックスに分けて登録する登録ステップと、
前記キーワード条件にｎ個（ｎ≧２）のキーワードが含まれる場合に、該ｎ個のキーワードのうちのｍ個（１≦ｍ≦ｎ−１）は前記第１のインデックスでヒットし、残りのｎ−ｍ個は前記第２のインデックスでヒットした文書を検索結果として出力するインデックス検索ステップと
を含むことを特徴とする文書検索方法。
入力された検索条件文に合致する文書群を検索する文書検索方法において、
各文書の特徴を表す単語群を第１のインデックスと、第２のインデックスに分けて登録する登録ステップと、
前記検索条件文が「の」で連結された２個のキーワードからなる場合に、該２個のキーワードの一方が前記第１のインデックスでヒットし、もう一方のキーワードが前記第２のインデックスでヒットした文書を検索結果として出力するインデックス検索ステップと
を含むことを特徴とする文書検索方法。
前記インデックス検索ステップは、前記第１のインデックスでヒットしたキーワードに関する適合度スコアと、前記第２のインデックスでヒットしたキーワードに関する適合度スコアとを、異なる重み付けして文書の適合度スコアに反映させ、該文書の適合度スコアの順に検索結果を出力することを特徴とする請求項４８又は４９記載の文書検索方法。
前記登録ステップは、各文書について、ハイパーテキストデータベース内の該文書を含む文書クラスタと該文書との関係を特徴付ける単語群を前記第１のインデックスとして登録し、各文書について、該文書自体の内容を特徴付ける単語群を前記第２のインデックスとして登録することを特徴とする請求項４８乃至５０のうちいずれか一項記載の文書検索方法。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内において、該文書へのハイパーリンクを複数段遡って得られるアンカー文字列の系列から抽出した単語群であることを特徴とする請求項５１記載の文書検索方法。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列から抽出した単語群であることを特徴とする請求項５１記載の文書検索方法。
前記文書クラスタと前記文書との関係を特徴付ける単語群は、該文書クラスタ内のハイパーリンク関係および／またはディレクトリ階層における位置関係から定まる該文書クラスタ内の最上位文書から、対象の文書に至る複数段のハイパーリンクに対応するアンカー文字列の系列と、該文書クラスタ内の最上位文書に対する別の文書クラスタからのハイパーリンクに対応するアンカー文字列から抽出した単語群であることを特徴とする請求項５１記載の文書検索方法。
コンピュータに、ハイパーテキストデータベースを構成する１文書に対して該文書の特徴を表す単語群である文書キーワードを出力する機能を実現させるための文書キーワード抽出用プログラムにおいて、
前記コンピュータを、前記ハイパーテキストデータベース内の該文書を含む文書クラスタと該文書との関係を特徴付ける単語群を、前記文書キーワードに含めて出力する手段として機能させることを特徴とするプログラム。
コンピュータに、ハイパーテキストデータベースを構成する１文書に対して該文書の特徴を表す単語群である文書キーワードを出力する機能を実現させるための文書キーワード抽出用プログラムにおいて、
前記コンピュータを、前記ハイパーテキストデータベース内の該文書を含む文書クラスタと該文書との関係を特徴付ける単語群、及び該文書自体の内容を特徴付ける単語群を、前記文書キーワードに含めて出力する手段として機能させることを特徴とするプログラム。
コンピュータに、ハイパーテキストデータベースを構成する１文書に対して該文書の特徴を表す単語群である文書キーワードを出力する機能を実現させるための文書キーワード抽出プログラムにおいて、
前記コンピュータを、前記ハイパーテキストデータベース内の前記文書を含む文書クラスタと該文書に関わる情報を取得する文書クラスタ情報処理手段と、該文書クラスタと該文書との関係を特徴付ける単語群を抽出する文書キーワード決定処理手段として機能させることを特徴とするプログラム。
コンピュータに、ハイパーテキストデータベースを構成する１文書に対して該文書の特徴を表す単語群である文書キーワードを出力する機能を実現させるための文書キーワード抽出プログラムにおいて、
前記コンピュータを、前記ハイパーテキストデータベース内の前記文書を含む文書クラスタと該文書に関わる情報を取得する文書クラスタ情報処理手段と、該文書クラスタと該文書との関係を特徴付ける単語群及び該文書自体の内容を特徴付ける単語群を抽出する文書キーワード決定処理手段として機能させることを特徴とするプログラム。
コンピュータに、ハイパーテキストデータベースを構成する各文書の特徴を表す単語群を登録したインデックスと入力された検索条件とを照合して該当文書を出力する機能を実現させるための文書検索用プログラムにおいて、
前記コンピュータを、前記各文書について、前記ハイパーテキスト内の前記文書を含む文書クラスタと該文書との関係を特徴付ける単語群を、前記インデックスに登録する手段として機能させることを特徴とするプログラム。
コンピュータに、ハイパーテキストデータベースを構成する各文書の特徴を表す単語群を登録したインデックスと入力された検索条件とを照合して該当文書を出力する機能を実現させるための文書検索用プログラムにおいて、
前記コンピュータを、前記各文書について、前記ハイパーテキスト内の前記文書を含む文書クラスタと該文書との関係を特徴付ける単語群、及び該文書自体の内容を特徴付ける単語群を、前記インデックスに登録する手段として機能させることを特徴とするプログラム。
コンピュータに、ハイパーテキストデータベース中の指定された文書が予め定義されたカテゴリのいずれに該当するかを該文書の特徴を表す単語群である文書キーワードを用いた類似度計算によって決定する機能を実現させるための文書分類用プログラムにおいて、
前記コンピュータを、前記ハイパーテキストデータベース内の前記文書を含む文書クラスタと該文書との関係を特徴付ける単語群を、前記キーワードに含めて類似度計算に用いる手段として機能させることを特徴とするプログラム。
コンピュータに、ハイパーテキストデータベース中の指定された文書が予め定義されたカテゴリのいずれに該当するかを該文書の特徴を表す単語群である文書キーワードを用いた類似度計算によって決定する機能を実現させるための文書分類用プログラムにおいて、
前記コンピュータを、前記ハイパーテキストデータベース内の前記文書を含む文書クラスタと該文書との関係を特徴付ける単語群、及び該文書自体の内容を特徴付ける単語群を、前記文書キーワードに含めて類似度計算に用いる手段として機能させることを特徴とするプログラム。
コンピュータに、入力されたキーワード条件に合致する文書群を検索する機能を実現させるための文書検索用プログラムにおいて、
前記コンピュータを、各文書の特徴を表す単語群を第１のインデックスと第２のインデックスに分けて登録する登録手段と、前記キーワード条件にｎ個（ｎ≧２）のキーワードが含まれる場合に、該ｎ個のキーワードのうちのｍ個（１≦ｍ≦ｎ−１）は前記第１のインデックスでヒットし、残りのｎ−ｍ個は前記第２のインデックスでヒットした文書を検索結果として出力するインデックス検索処理手段として機能させることを特徴とするプログラム。
コンピュータに、入力された検索条件文に合致する文書群を検索する機能を実現させるための文書検索用プログラムにおいて、
前記コンピュータを、各文書の特徴を表す単語群を第１のインデックスと第２のインデックスに分けて登録する登録手段と、前記検索条件文が「の」で連結された２個のキーワードからなる場合に、該２個のキーワードの一方が前記第１のインデックスでヒットし、もう一方のキーワードが前記第２のインデックスでヒットした文書を検索結果として出力するインデックス検索処理手段として機能させることを特徴とするプログラム。