JP5396845B2

JP5396845B2 - 文書群検出方法及び文書群検出装置

Info

Publication number: JP5396845B2
Application number: JP2008317790A
Authority: JP
Inventors: 聡子志賀; 友哉岩倉; 青史岡本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-12-15
Filing date: 2008-12-15
Publication date: 2014-01-22
Anticipated expiration: 2028-12-15
Also published as: JP2010140373A

Description

本発明は文書群検出方法及び文書群検出装置に関し、特に、ネットワーク上で提供される文書の集合であって１またはそれ以上のコンピュータによって管理されている所定の文書群を検出する文書群検出方法及び文書群検出装置に関する。

近年、技術の急速な進歩に伴って日々増え続ける専門用語は、紙類に印刷される事典や辞書などで対応することが難しくなっている。一方、ネットワーク上には、このような専門用語を解説した文書の集合であって、１またはそれ以上のコンピュータによって管理されている文書群が存在する。現在最も普及しているものとして、インターネット上で提供されるワールド・ワイド・ウェブ（World Wide Web；以下、ＷＷＷとする）には、このような専門用語を解説する文書の集合体である文書群が多数存在する。このようなＷＷＷ上の文書はＷｅｂページ、文書群または文書群が置いてあるインターネット上での場所はＷｅｂサイトと呼ばれる。以下、このように専門用語を解説する文書が集合したＷｅｂサイトを、辞書サイトまたは用語解説サイト、Ｗｅｂページを解説ページと呼ぶ。辞書サイトの解説ページは日々更新されており、これらを利用することによって、最新の用語の解説を見ることができる。

また、任意のＷｅｂページの文中の用語について、自動的にその用語の解説ページへのリンクを貼るシステムがある。このようなシステムは、オートリンクシステムと呼ばれる。オートリンクシステムでは、予め、オートリンク対象の単語と、その単語の解説ページのＵＲＬ（Uniform Resource Locator）とを関連付けたオートリンク辞書が作成される。そして、対象のＨＴＭＬ（Hyper Text Markup Language）文書の文中にオートリンク辞書に登録された単語を検出すると、単語に関連付けられたＵＲＬへのリンクを貼る。こうして作成されたＨＴＭＬ（リンク付き）文書が出力され、ユーザに提供される。

これらのオートリンク辞書を作成するにあたり、各単語とそのリンク先ＵＲＬとして、辞書サイトに登録されている単語とその解説ページＵＲＬの情報を用いることができる。
しかし、ネットワーク上に多数存在するＷｅｂサイトの中から辞書サイトを検出するのは容易ではない。Ｗｅｂサイトの検出に一般的に用いられている従来の検索エンジンでは、検索はＷｅｂページ単位で行われるため、ページの集合であるＷｅｂサイトは人手によって検出しなければならなかった。オートリンク辞書に登録する辞書サイトの検出も、人手によって行われており、辞書サイトの登録や登録情報の定期的なメンテナンスなどの管理にコストがかかっていた。

そこで、Ｗｅｂサイト単位の情報検索を行うため、各ページのメタ情報を利用してリンクタイプに分類し、分類に基づいて親ページを検索してＷｅｂサイトの内部構造を推定し、Ｗｅｂサイト単位の検索結果を出力する方法が提案されている（例えば、特許文献１参照）。また、ヒットしたページのＵＲＬと、単語の重みを反映したスコアと、によって検索結果の適合度を表す得点サイト単位で算出し、得点順に検索結果を出力する方法も提案されている（例えば、特許文献２参照）。
特開２００３−１８６８８３号公報特開２００３−１８６９０１号公報

しかし、従来のネットワーク上の文書群（例えば、Ｗｅｂサイト）単位の検索では、検索された文書群が所望のものであるかどうかが識別されないという問題点があった。
従来のＷｅｂサイト単位の検索では、検索にヒットしたページを解析し、その集合体であるＷｅｂサイトの内部構造を推定し、内部構造に基づいて検索目的に適合したＷｅｂサイトが検出されていた。しかし、検索目的に適合するとは、キーワードなどによる検索要求にマッチングしている度合が高いということであり、Ｗｅｂサイト自体が目的に適合しているかどうかを判断するものではなかった。

例えば、オートリンクシステムで文中の用語にその用語の解説をリンクさせる場合、リンク先の情報は、辞書サイトのものであることが望ましい。これは、辞書サイトではないＷｅｂページの掲載情報は、情報内容の中立性及び一般性が保証されないことが多いことによる。したがって、単に文中の用語に用語の解説のＷｅｂページをリンクさせるだけでは、解説の内容の中立性及び一般性を保証することができない。このため、リンク先として、この種のページを極力排除し、辞書サイトに志向した検索を行う必要がある。

このような事情から、従来のオートリンクシステムでは、辞書サイトの検出は、人手によって行われていた。しかし、膨大な数のＷｅｂサイトから適切な辞書サイトを検出するのは、容易な作業ではない。また、人手による作業であるため辞書の管理コストが高くなり、オートリンクサービスを提供するサービス提供者が頻繁に辞書の追加ができないという問題もある。

また、オートリンクの用途に限らず、用語とそれに関連するページのＵＲＬとを対応付けた辞書の整備の自動化は、重要な課題であり、このとき対応付けられるページは、適切なＷｅｂサイトの提供するものであることが必須である。

本発明はこのような点に鑑みてなされたものであり、ネットワーク上で提供される目的の文書群を検出する文書群検出方法及び文書群検出装置を提供することを目的とする。

上記課題を解決するために、ネットワーク上で提供される文書の集合であって１またはそれ以上のコンピュータによって管理されている所定の文書群を検出する文書群検出方法が提供される。この文書群検出方法では、コンピュータによって、収集手順と、特徴集計手順と、文書群判定手順と、文書群を出力する手順と、が実行される。収集手順では、特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて該配下文書のいずれかを検索する。そして、検索された該配下文書に基づいて特定文書を検出し、特定文書の配下の複数の配下文書を収集する。特徴集計手順では、収集された文書群の特定文書及び複数の配下文書それぞれについて、配下文書内の任意の文字列に付加される特定の他文書との関連を示す連結情報を抽出する。そして、該配下文書と、関連付けられた連絡先文書とで特定の関係となる状態数を集計する。文書群判定手順では、特定の関係を用いた条件である特徴ルールが格納される特徴ルール記憶手段から該特徴ルールを読み出す。そして、文書群の特定の関係の状態数が特徴ルールの条件を満たしているかを判定し、条件を満たしている文書群を対象文書群候補に登録する。文書群を出力する手順では、対象文書群候補に登録された文書群が出力される。

このような文書群検出方法によれば、特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて配下文書を検索する。検索された文書に基づいて特定文書を検出し、この特定文書の配下の複数の配下文書を収集する。そして、収集された配下文書の文字列に付加される連結情報を抽出する。この連結情報に基づき、配下文書と、配下文書と関連付けられた連結先文書の関係が、特定の関係となる状態数を集計する。そして、特徴ルール記憶手段から、特定の関係を用いた条件である特徴ルールを読み出し、特定の関係の状態数が特徴ルールの条件を満たしているかどうかを判定する。そして、条件を満たしている文書群を対象文書群候補に登録し、出力する。

また、上記課題を解決するために、コンピュータに、上記の文書群検出方法を実行させた文書群検出装置が提供される。

開示の文書群検出方法及び文書群検出装置によれば、キーワードを用いて特定文書の配下に複数の配下文書が存在する文書群が検索される。検索された文書群が検出対象の文書群の持つ特徴ルールを満たしているかどうかが判定され、対象文書群候補が決定される。これにより、一例としてキーワードを設定すれば、キーワードに適合する文書を含む文書群であって、特徴ルールに基づく特徴を有する目的の文書群が自動的に検出される。この結果、利用者が文書群を検出する作業を大幅に軽減することが可能となる。

以下、本発明の実施の形態を図面を参照して説明する。まず、発明の概要について説明し、その後、具体的な内容を説明する。
ここで、検出対象の文書群は、ネットワーク上で提供される文書の集合であって、１またはそれ以上のコンピュータによって管理されている。また、この文書群は、特定文書と、この特定文書の配下に複数の配下文書が存在する階層構造を成す。特定文書は、同じ文書群に属する他の文書を関連付けた連結情報が付加された文字列を含む文書であり、例えば、配下文書を閲覧するための目次や、索引などの文書である。特定文書では、目次などの配下文書のタイトルや、配下文書を特徴付ける語句などの文字列に対し、対応する配下文書を関連付ける連結情報が付加されている。配下文書は、特定文書の連結情報によって特定文書に関連付けられた文書である。また、配下文書についても、文書に出現する文字列が他の文書と関連付けられるときは、この文字列と他の文書とを関連付ける連結情報が文字列に付加される。例えば、文書群が辞書文書群であれば、解説対象の用語の索引などが記述される特定文書と、用語を解説する用語解説文書の階層構造を有する。特定文書では、用語解説文書で解説される用語を表す文字列に、対応する用語解説文書の連結情報が付加されている。また、用語解説文書中に他の用語解説文書で解説する用語が出現するときには、その用語を表す文字列にも対応する用語解説文書の連結情報が付加されている。

本発明では、連結情報に基づいて文書間の連結関係を解析する。そして、検出対象の特徴を満たす文書群を検出し、利用者に提示する。
図１は、発明の概要を示す図である。

文書群検出装置１０は、文書記憶手段１１ａ、特徴ルール記憶手段１１ｂ、集計情報記憶手段１１ｃ、文書群候補記憶手段１１ｄ及び文書群記憶手段１１ｅの各記憶手段と、文書収集手段１２、特徴集計手段１３、文書群判定手段１４及び文書群提示手段１５の各処理手段と、を有する。

文書記憶手段１１ａには、文書収集手段１２が収集した文書データが格納される。特徴ルール記憶手段１１ｂには、検出対象の文書群の特徴を表す特徴項目、検索された文書群が目的の文書群であるかどうかを判定するための特徴ルールなどが格納される。集計情報記憶手段１１ｃには、特徴集計手段１３が、収集された文書を解析して集計した特徴項目の集計結果が格納される。文書群候補記憶手段１１ｄには、文書群判定手段１４が、特徴ルールに基づき検出対象の文書群候補であると判定した対象文書群候補に関する情報が格納される。文書群記憶手段１１ｅには、文書群提示手段１５が提示した対象文書群候補のうち、利用者が目的の文書群として指定した文書群の識別情報と、この文書群に属する特定文書に記述されている連結情報が付加された文字列と、を含む文書群情報が格納される。

文書収集手段１２は、設定されたキーワードに基づいてネットワーク上を検索し、キーワードに適合する文書が含まれる所定の文書群を検出する。キーワードは、検出対象の文書群の内容の特徴を表す任意の語句、あるいは一例として挙げられる語句が利用者によって指定されたものである。目的の情報を得るための語句が設定される。例えば、ネットワーク関係の情報を得たい場合には、「ネットワーク」、「ＬＡＮ（Local Area Network）」などが設定される。また、特定文書を取得されるためのネットワーク上のアドレスなどが指定されてもよい。任意の語句がキーワードに設定されたときは、検索エンジンによってキーワードに関連する文書のアドレスを取得する。このとき、キーワードに予め設定された語句を付加してさらに検索を行い、検索対象を拡張するとしてもよい。こうして検索された文書のネットワーク上の識別情報を有するアドレスに基づいて、特定文書のアドレスを検出する。一般に、ネットワーク上の文書の位置を示すアドレスは、文書群の構造と同様の階層構造をとる。そこで、検索された配下文書のアドレスから上位階層の特定文書のアドレスを予測することができる。その他、上位階層の文書のアドレスを取得する手法はよく知られており、ここではいずれかの手法を用いるとする。こうして取得された特定文書のアドレスに基づき、特定文書を取得する。なお、特定文書のアドレスが直接指定されたときは、特定文書の取得から処理を開始する。特定文書では、配下文書で関連する情報が提供される文字列には、対応する配下文書を関連付ける連結情報が付加されている。そこで、特定文書の文字列に付加される連結情報を抽出し、この連結情報に基づいて配下文書の文書データを収集する。収集した特定文書及び配下文書の文書データは、文書群ごとに文書記憶手段１１ａに格納する。

特徴集計手段１３は、文書群ごとに、文書記憶手段１１ａに格納される特定文書を含む文書の文字列に付加された連結情報を抽出して解析し、文字列が記述される元の文書と、連結先の文書とが特定の関係となる状態数を集計する。これを特徴項目の集計と呼ぶ。すなわち、元の文書と、連結情報によって関連付けられた連結先の文書との関係が、検出対象の文書群を特徴付ける特徴項目（特定の関係）を満たしているかどうかを解析し、満たしている状態数を特徴項目ごとに集計する。これらの集計処理は、文書群ごとに行われる。また、集計結果は文書群ごとに集計情報記憶手段１１ｃに格納する。

文書群判定手段１４は、特徴集計手段１３による、文書群ごとの特徴項目の集計結果に基づき、この文書群が検出対象の文書群の条件を満たすかどうかを判定する。判定に用いる特徴項目や、閾値などの判定条件は、予め特徴ルール記憶手段１１ｂに格納しておく。文書群が条件を満たす場合、この文書群は対象文書群候補に選択され、文書群の識別情報が対象文書群候補テーブルに登録される。また、特徴ルールに基づく評価結果を、特徴スコアとして数値化してもよい。この場合、特徴スコアの算出方法も特徴ルールに定義しておく。対象文書群候補テーブルは、文書群候補記憶手段１１ｄに格納される。このとき、文書群の識別情報とともに、算出された特徴スコアや特定文書の連結情報などが文書群候補記憶手段１１ｄに格納されるとしてもよい。また、判定は、任意の特徴項目の集計結果を組み合わせて行うとする。複数の特徴項目を組み合わせて判定することにより、対象文書群候補が検出対象の文書群である確度（確からしさ）が高くなる。

文書群提示手段１５は、文書群判定手段１４によって対象文書群候補に登録された文書群の識別情報を利用者に提示する。そして、対象文書群候補のうち、利用者が選択した文書群の識別情報を目的の文書群として登録する。選択された目的の文書群の識別情報は、文書群記憶手段１１ｅに格納される。このとき、文書群の識別情報とともに、特定文書の連結情報などが文書群記憶手段１１ｅに格納されるとしてもよい。

このような構成の文書群検出装置１０の動作及び実行される文書群検出方法について説明する。
キーワードが入力されると、文書収集手段１２は、キーワードに基づいて、ネットワーク上で提供されるキーワードが含まれる文書を検索する。そして、検索された文書のアドレスに基づいて、特定文書のアドレスを検出し、特定文書を取得する。なお、キーワードとして特定文書のアドレスが指定されたときは、検索処理を行わず、直接特定文書を取得する。特定文書に記述される文字列には、配下文書を連結先とする連結情報が付加されている。したがって、特定文書を取得したことにより、配下文書への連結情報も取得される。文書収集手段１２は、こうして取得した配下文書への連結情報に基づいて配下文書を収集し、収集した配下文書データを文書記憶手段１１ａに格納する。一連の処理は、キーワードを用いて検索された文書ごとに行われる。これにより、文書記憶手段１１ａには、検索された文書に対応する文書群ごとに、この文書群に属する特定文書を含む複数の文書データが格納される。

次に、特徴集計手段１３が、文書群ごとに、文書記憶手段１１ａに格納される文書データに付加されている連結情報を解析し、元の文書と連結先の文書との関係が特徴項目を満たしている数を集計する。配下文書に記述される文字列にも、この文字列に関連する他の文書がある場合には、連結情報が付加されている。特徴集計手段１３では、このように各文書に付加されている連結情報も抽出し、この文書と、連結情報によって指定される連結先の文書との関係が検出対象の文書群を特徴付ける特徴項目を満たしているかどうかを解析する。そして、特徴項目ごとに、特徴項目を満たす連結情報の数を集計する。集計結果は、集計情報として集計情報記憶手段１１ｃに格納される。続いて、文書群判定手段１４は、特徴ルール記憶手段１１ｂから特徴ルールを読み出す。さらに、集計情報記憶手段１１ｃに格納される集計情報を読み出し、文書群が対象文書群候補であるかどうかを判定する。特徴ルールには、特徴項目ごとの集計結果に基づいて文書が対象文書群の特徴を有していると判定することができるかどうかの基準が定義されている。特徴集計手段１３による特徴項目ごとの集計結果を特徴ルールと照合し、判定を行う。このとき、特徴ルールに基づいて、文書群が目的の文書群である確からしさを特徴スコアとして数値化してもよい。特徴ルールが規定する条件を満たしているときは、この文書群を対象文書群候補とし文書群の識別情報を文書群候補記憶手段１１ｄに格納する。このとき、必要であれば、算出された特徴スコア、及び特定文書の連結情報なども文書群候補記憶手段１１ｄに格納する。特徴ルールが規定する条件を満たしていないときは、この文書群を対象文書群候補としない。

利用者からの文書群候補の提示要求があったときは、文書群提示手段１５が、文書群候補記憶手段１１ｄに格納される文書群候補の識別情報を読み出し、利用者に提示する。例えば、対象文書群候補の識別情報を表示装置に表示する。このとき、同時に特徴スコアや特定文書の連結情報なども提供するとしてもよい。利用者は、提示された対象文書群候補が目的の文書群であると判断したときは、この対象文書群候補を目的の文書群に指定する。指定を受けた文書群提示手段１５は、指定された対象文書群候補を目的の文書群とし、この文書群の識別情報を文書群記憶手段１１ｅに登録する。このとき、文書群の識別情報とともに特定文書の連結情報も文書群記憶手段１１ｅに格納してもよい。

以上の処理が行われることにより、利用者が所望する情報の一例としてキーワードを設定すると、このキーワードを含む文書を有する文書群であって、予め特徴ルールに規定される特徴を有する文書群が自動的に検出され、検出された文書群の一覧が提示される。このように、目的の文書群が自動的に検出されるため、文書群を検出する作業を大幅に軽減することが可能となる。また、定期的に行われるメンテナンスなどの管理作業も容易になる。さらに、特定文書には、所定の用語（文字列）と、その文字列に関連する文書の所在を指示する連結情報と、が含まれており辞書を作成する際には、この文字列と連結情報とをそのまま用いることができる。このように、辞書を容易に作れるという利点もある。

以下、発明を、インターネット上で提供される文書群、一例として辞書サイトを検出する辞書サイト検出システムに適用した場合を例に図面を参照して詳細に説明する。検出された辞書サイトは、オートリンクシステムなどに適用される辞書の候補に用いられる。実施の形態では、閲覧者が検索により取得した文書をＷｅｂページ（以下、ページとする）、文書群がページの集合であるＷｅｂサイト（以下、サイトとする）になる。サイトは、目次や索引に相当するトップページと、トップページからリンクされる他のページで構成される。また、サイトは、１またはそれ以上のコンピュータによって管理されており、このようなコンピュータ群のインターネット上の識別子がドメインになる。したがって、サイトは、ページのＵＲＬに共通するドメインによって識別することができる。また、ページの多くは、ＨＴＭＬにより記述されている。ＨＴＭＬでは、アンカーテキストとしてページ中の文字列と他のページとをリンクさせることができる。

図２は、辞書サイト検出システムの構成例を示した図である。
辞書サイト検出システムは、辞書サイトを検出する辞書サイト検出サーバ１００と、検索サイト検出の指示を行うユーザのクライアント装置２００が、ネットワーク３００を介して接続する。

辞書サイト検出サーバ１００は、文書群検出装置であり、クライアント装置２００からの要求に応じて、ネットワーク上で所定の用語を解説する文書を提供する辞書サイトの候補を検出する。クライアント装置２００は、オートリンク辞書を作成する作成者の装置などで、ブラウザ２１０と、入力手段２２０とを有する。ブラウザ２１０は、辞書サイト検出サーバ１００から取得したＨＴＭＬ形式の検出結果などを図示しない表示装置に表示させる。入力手段２２０は、作成者の指示を入力し、辞書サイト検出サーバ１００に通知する。ネットワーク３００は、例えば、インターネットである。

辞書サイト検出サーバ１００の構成を説明する。辞書サイト検出サーバ１００は、拡張検索ルール（記憶装置）１１１、取得サイト（記憶装置）１１２、リンク特徴データベース（以下、ＤＢとする）１１３、リンク特徴ルール（記憶装置）１１４、辞書サイト判定ルール（記憶装置）１１５、辞書追加ルール（記憶装置）１１６、辞書候補ＤＢ１１７及び辞書ＤＢ１１８の各記憶装置と、サイト取得部１２０、リンク情報抽出部１３０、リンク特徴集計部１４０、辞書サイト判定部１５０、辞書エントリ候補作成部１６０及びユーザ提示部１７０の各処理手段と、を有する。

拡張検索ルール（記憶装置）１１１には、検索のため入力されたキーワードを拡張するためのルールを定義した拡張検索ルールが格納される。例えば、「とは」「用語」「解説」など、用語の解説ページによく出現する文字列が、必要に応じて使用条件などとともに定義されている。入力されたキーワードにこのような拡張文字列を付加することにより、より解説ページらしい結果に絞り込んで検索できる。

取得サイト（記憶装置）１１２は、文書記憶手段１１ａであり、サイト取得部１２０が取得したサイトのＵＲＬや、収集したページのページデータなどが格納される。
リンク特徴ＤＢ１１３は、集計情報記憶手段１１ｃであり、取得サイトに関し、集計されたサイトの特徴、リンク情報に関連する特徴を表す特徴項目ごとの集計結果が格納される。

リンク特徴ルール（記憶装置）１１４には、辞書サイトの特徴を表す特徴項目抽出のルールを定義したリンク特徴ルールが格納される。
辞書サイト判定ルール（記憶装置）１１５には、辞書サイトが有する特徴に基づいて、サイトが辞書サイトであるかどうかを判定するためのルールを提示した辞書サイト判定ルールが格納される。辞書サイト判定ルールには、特徴項目の集計結果を用いて、辞書サイトであるかどうかを判定する条件が定義されている。リンク特徴ルール（記憶装置）１１４及び辞書サイト判定ルール（記憶装置）１１５は、特徴ルール記憶手段１１ｂに相当する。

辞書追加ルール（記憶装置）１１６には、検出された辞書サイト候補を辞書に追加するためのルールを定義した辞書追加ルールが格納される。
辞書候補ＤＢ１１７は、文書群候補記憶手段１１ｄであり、辞書エントリ候補作成部１６０によって辞書候補と判定されたサイトに関する情報が設定される辞書候補テーブルが格納される。

辞書ＤＢ１１８は、文書群記憶手段１１ｅであり、ユーザによって辞書サイトに登録されたサイトに関する情報が設定される辞書サイトテーブルが格納される。
サイト取得部１２０は、文書収集手段１２であり、キーワードにより検索された文書を含むサイトの文書を収集する。キーワードが入力されると、拡張検索ルール（記憶装置）１１１に格納される拡張検索ルールを読み出し、拡張検索ルールに従って入力されたキーワードに拡張文字列を付加する。こうして、キーワードを拡張し、拡張されたキーワードを用いてページを検索する。そして、検索されたページからドメイン名を抽出するとともに、トップページ（特定文書）を検出する。トップページは、目次や索引などであり、その項目を表した文字列には関連するページへのリンク情報（連結情報）が付加されている。そこで、トップページのリンク情報に基づいて配下のページを収集する。収集したページデータは、サイトごとに取得サイト（記憶装置）１１２に格納する。ページデータは、ＨＴＭＬで記述された文書データである。なお、キーワードとして直接トップページのＵＲＬが指定されたときは、トップページ検出までの処理は省略し、その後処理を行う。

リンク情報抽出部１３０及びリンク特徴集計部１４０は、特徴集計手段１３である。リンク情報抽出部１３０は、サイト取得部１２０が取得したページデータを解析し、リンク情報として、アンカーテキスト、アンカーテキストに付加されたリンク先ＵＲＬ及びリンク先のページのタイトルを抽出する。なお、リンク情報の抽出は、サイト取得部１２０が取得したすべてのページに対して行われ、トップページもその他のページも対象になる。抽出された各情報は、リンク特徴ＤＢ１１３に格納される。リンク特徴集計部１４０は、リンク特徴ルール（記憶装置）１１４に格納されるリンク特徴ルールに基づいて、リンク情報抽出部１３０が抽出したリンク情報を解析する。リンク特徴ルールには、辞書サイトが有する特徴に応じた特徴項目が定義されており、リンク情報を解析し、特徴項目を満たすリンク情報の数を集計する。例えば、リンク特徴ルールが「リンク先が同じサイト内である割合に特徴がある」ということであれば、特徴を解析するため、同じサイトへのリンク数と、すべてのリンク数とを集計する。得られた集計結果は、リンク特徴ＤＢ１１３に格納する。

辞書サイト判定部１５０及び辞書エントリ候補作成部１６０は、文書群判定手段１４である。辞書サイト判定部１５０は、辞書サイト判定ルール（記憶装置）１１５に格納される辞書サイト判定ルールを読み出す。そして、辞書サイト判定ルールと、リンク特徴ＤＢ１１３に格納される特徴項目の集計結果とに基づいて、サイトごとに当該サイトが辞書サイトであるかどうかを判定する。辞書サイトであると判定されたサイトは、辞書候補としてそのＵＲＬなどの情報を辞書候補テーブルに登録する。辞書候補テーブルは、辞書候補ＤＢ１１７に格納する。続いて、辞書エントリ候補作成部１６０は、辞書候補に登録されたサイトについて、辞書エントリ候補を作成する。辞書サイトであれば、アンカーテキストの文字列と、対応するリンク先のページのＵＲＬとの関係は、オートリンク辞書に登録される用語とその単語の解説ページのＵＲＬと同じになる。そこで、辞書サイトと判定されたサイトについて、アンカーテキストの文字列をリンク先のページのＵＲＬとを辞書エントリ候補として抽出し、辞書エントリ候補情報を生成する。このとき、辞書追加ルール（記憶装置）１１６に格納される辞書追加ルール情報を参照し、辞書エントリ候補の登録を行う。例えば、辞書追加ルール情報に除外キーワードが設定されていれば、このキーワードに相当するエントリは登録しないなどの処理を行う。生成された辞書エントリ候補情報は、対応する辞書サイトに関連付けて、辞書候補ＤＢ１１７に格納する。

ユーザ提示部１７０は、文書群提示手段１５であり、検出された辞書候補のサイトに関する情報をユーザに提示する。そして、ユーザが指定したサイトを辞書サイトに登録し、この辞書サイトに関する情報を辞書サイトテーブルに設定し、辞書ＤＢ１１８に格納する。

ここで、辞書サイト検出サーバのハードウェア構成について説明する。図３は、辞書サイト検出サーバのハードウェア構成例を示すブロック図である。
辞書サイト検出サーバ１００は、ＣＰＵ（Central Processing Unit）１０１によって装置全体が制御されている。ＣＰＵ１０１には、バス１０５を介してＲＡＭ（Random Access Memory）１０２、ハードディスクドライブ（ＨＤＤ：Hard Disk Drive）１０３及び通信インタフェース１０４が接続されている。

ＲＡＭ１０２には、ＣＰＵ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、ＣＰＵ１０１による処理に必要な各種データが格納される。ＨＤＤ１０３には、ＯＳやアプリケーションのプログラムが格納される。通信インタフェース１０４は、ネットワーク３００に接続されており、ネットワーク３００を介してクライアント装置２００との間でデータの送受信を行う。

このようなハードウェア構成によって、辞書サイト検出サーバ１００の処理機能を実現することができる。なお、辞書サイト検出サーバ１００への指示は、クライアント装置２００の入力手段２２０より入力された指示がネットワーク３００を介して送られてくる。また、検出結果などは、辞書サイト検出サーバ１００が生成した表示情報をクライアント装置２００に送信し、クライアント装置２００によって表示装置に表示される。

次に、検出の対象である辞書サイトの特徴について説明する。図４は、辞書サイトの特徴を説明するための図である。
一般的な辞書サイトは、索引または目次に相当するトップページ５００と、トップページ５００にエントリされている各用語を解説する解説ページ５１０，５２０，５３０とから成る階層構造を有する。トップページ５００は、辞書サイトで解説ページ５１０，５２０，５３０を提供する用語の一覧５０１をユーザに提供するためのページである。トップページ５００に設定されている各用語は、それぞれの解説ページ５１０，５２０，５３０にリンクされている。例えば、用語の一覧５０１の最上位の「ＶＰＮ（Virtual Private Network）」は、用語「ＶＰＮ」を解説する解説ページ（ファイル名はｖｐｎ．ｈｔｍｌ）５１０にリンクされている。同様に、「ＬＡＮ」は用語「ＬＡＮ」を解説する解説ページ（ファイル名はＬＡＮ．ｈｔｍｌ）５２０、「ＲＳＳ（Rich Site Summary）」は用語「ＲＳＳ」を解説する解説ページ（ファイル名はＲＳＳ．ｈｔｍｌ）５３０、にリンクされている。

「ＶＰＮ」の解説ページ５１０は、タイトル「ＶＰＮとはＩＴ用語解説：ＤＩＣＤＩＣ」５１１と、「ＶＰＮ」を解説する解説文とを有する。また、解説文に他の解説ページで解説される用語が出現するときは、その用語に解説ページへのリンクが設定される。例えば、解説文に出現する「ＬＡＮ」は、「ＬＡＮ」の解説ページ５２０にリンクされている。

他の解説ページも同様である。「ＬＡＮ」の解説ページ５２０は、タイトル「ＬＡＮとはＩＴ用語解説：ＤＩＣＤＩＣ」５２１と、解説文とを有する。また、解説文の「ネットワーク」５２２は、図示しない「ネットワーク」の解説ページにリンクされている。「ＲＳＳ」の解説ページ５３０は、タイトル「ＲＳＳとはＩＴ用語解説：ＤＩＣＤＩＣ」５３１と、解説文とを有する。そして、解説文の「Ｗｅｂサイト」５３２は、図示しない「Ｗｅｂサイト」の解説ページにリンクされている。

以上より、辞書サイトは、サイト内に閉じたリンクが高い割合で存在し、かつ、（特徴１）リンク元に指定された文字列（アンカーテキスト）とリンク先ページのタイトルタグ内の文字列（タイトル）とが一致する割合が高い、（特徴２）アンカーテキストとリンク先のファイル名が一致する割合が高い、（特徴３）サイト内の他ページのタイトルと、用語以外の文字列が一致する割合が高い、という特徴を有すると言える。したがって、辞書サイトであれば、サイト単位（図４の例では、トップページ５００と、その配下にリンクされる解説ページ５１０，５２０，５３０の集合）で見た場合、上記の特徴１から特徴３のいずれかの特徴に該当するページが高い割合で存在する。ゆえに、サイト内のページのリンク構造を解析し、全体リンク数のうち、サイト内へのリンク数が一定の割合を超え、かつ、上記の特徴１、特徴２、特徴３のいずれか１以上を満たすリンク数の割合が一定値以上であるかどうかを調べることにより、このサイトが辞書サイトであるかどうかを判定することができる。

具体例を挙げて特徴の検出方法を説明する。
特徴１は、アンカーテキストと、リンク先ページのタイトルタグ内のタイトルとが一致するというものである。ＨＴＭＬでは、リンクの設定に＜ａ＞タグを利用し、アンカーテキストを＜ａｈｒｅｆ＝“・・・”＞と＜ａ／＞で囲む。“・・・”内は、リンク先を表す。例えば、ＶＰＮがアンカーテキストであるとし、＜ａｈｒｅｆ＝“ｈｔｔｐ：／／・・・／／ｖｐｎ．ｈｔｍｌ”＞ＶＰＮ＜ａ／＞は、文字列「ＶＰＮ」が、「ｈｔｔｐ：／／・・・／／ｖｐｎ．ｈｔｍｌ」にリンクされていることを表す。ここで、「ｈｔｔｐ：／／・・・／／ｖｐｎ．ｈｔｍｌ」のタイトル部分（＜ｔｉｔｌｅ＞によって示される文字列）と、アンカーテキスト「ＶＰＮ」とを照合する。タイトル部分に「ＶＰＮ」が含まれれば、このリンクは特徴１を満たすと判定される。

特徴２は、アンカーテキストとリンク先のファイル名が一致するというものである。上記のように、リンク先のファイル名は＜ａｈｒｅｆ＝“・・・”＞より抽出することができる。特徴１の例であれば、「ｈｔｔｐ：／／・・・／／ｖｐｎ．ｈｔｍｌ」のファイル名「ｖｐｎ．ｈｔｍｌ」が抽出され、アンカーテキスト「ＶＰＮ」と照合される。一致しているときは、このリンクは特徴２を満たすと判定される。

特徴３は、サイト内の他ページのタイトルと、用語以外の文字列が一致するというものである。他ページのタイトルは、上記の特徴２と同様にして抽出することができる。例えば、＜ａｈｒｅｆ＝“・・・”＞ＶＰＮ＜ａ／＞よりタイトル「ＶＰＮとはＩＴ用語解説：ＤＩＣＤＩＣ」、＜ａｈｒｅｆ＝“・・・”＞ＲＳＳ＜ａ／＞よりタイトル「ＲＳＳとはＩＴ用語解説：ＤＩＣＤＩＣ」が抽出されたとする。その後、抽出されたタイトル部分の用語を除く文字列が一致しているかどうかを比較する。この例では、「ＶＰＮ」を除く「とはＩＴ用語解説：ＤＩＣＤＩＣ」と、「ＲＳＳ」を除く「とはＩＴ用語解説：ＤＩＣＤＩＣ」とを比較する。一致しているときは、このリンクは特徴３を満たすと判定される。

なお、図４の例の辞書サイトは、トップページ５００と、解説ページ５１０，５２０，５３０の２階層で構成されているが、本発明はこれに限定されない。例えば、トップページ５００と、解説ページ５１０，５２０，５３０との間に分野別索引ページを設ける階層構造の場合であっても、辞書サイトとして有する特徴は同様である。

以下、このような辞書サイトが有する特徴を用いて辞書サイトを検出する辞書サイト検出システムの動作及び辞書サイト検出処理の手順について具体例を用いて説明する。
最初にユーザが設定したキーワードが入力される。サイト取得部１２０は、キーワードが含まれるページを検索し、トップページを検出する。そして、トップページのリンク情報、トップページからリンクされたページ内のリンク情報に基づいて、トップページからリンクでつながった範囲のページをすべて取得する。このように、ユーザが作成したい分野に関連する語句を設定すれば、その分野の辞書サイトを検出することができる。例えば、「ＶＰＮ」と設定すれば、ＩＴ用語の辞書サイトが検出される。また、「サブプライムローン」と設定すれば、金融用語の辞書サイトが検出される。具体的な処理を説明する。

図５は、キーワードが入力されてからサイトのページ情報を取得するまでの処理の流れを示した図である。
ユーザによってキーワード６００が入力される。図５の例では、キーワード６００を「ＶＰＮ」としている。サイト取得部１２０は、キーワード６００が入力されると、拡張検索ルール（記憶装置）１１１に格納される拡張検索ルールに基づいて、クエリを拡張し、拡張キーワード６１０を生成する。例えば、拡張語に「とは」、「用語」が設定されていたときは、キーワード６００の「ＶＰＮ」に基づいて、「ＶＰＮとは」６１２及び「ＶＰＮ用語」６１３の２種類の拡張キーワード６１０が生成される。これにより、より解説ページらしい結果に絞り込んで検索できる。続いて、拡張キーワード６１０を用いて検索が行われる。「ＶＰＮとは」６１２及び「ＶＰＮ用語」６１３のそれぞれにキーワードを含むページが検索される。図５では、「ＶＰＮとは」６１２について、「ＶＰＮとは」を含むページ６２１，６２２，６２３の検索ページ群６２０が検出されることを示している。それぞれのドメインは、ページ６２１がｈｔｔｐ：／／ｄｉｃｄｉｃ．ｃｏｍ、ページ６２２がｈｔｔｐ：／／ａｂｃ．ｃｏｍ、ページ６２３がｈｔｔｐ：／／ａ．ｃｏ．ｊｐである。他の拡張キーワード６１３についても同様に検索ページ群が得られるが、説明は省略する。

次に、検索ページ群６２０のそれぞれのページのトップページを検出し、その文書データを取得する。トップページの検索の方法としては、検索ページ群６２０のドメインをＵＲＬとするページをトップページとして指定する。または、検索ページ群６２０の各ページ内に「トップページ」を含むアンカーテキストを検索し、そのアンカーテキストのリンク先ページをトップページとして判定する。図５では、ページ６２１のトップページ６３０を示している。ここでは、図４に示したトップページ５００が検出されるとしている。なお、キーワード６００が直接トップページのＵＲＬを指定しているときは、トップページの文書データを取得するところから処理を開始する。他のページ６２２，６２３も同様にトップページが得られるが、ここでの説明は省略する。

次に、配下の解説ページ群６４０を収集する。図４で説明したように、トップページ５００には配下の解説ページをリンク先とするアンカーテキストが含まれている。そこで、トップページ５００に含まれるすべてのアンカーテキストとそのリンク先情報とを抽出し、解説ページを取得するクローリング処理を行う。これにより、トップページ５００に記載されたアンカーテキストに対応する解説ページ群６４０が取得される。図５の例では、解説ページ５１０のｖｐｎ．ｈｔｍｌ、解説ページ５２０のｌａｎ．ｈｔｍｌ及び解説ページ５３０のｒｓｓ．ｈｔｍｌを含む解説ページ群６４０が取得される。

さらに，解説ページ５１０，５２０，５３０内にも他の解説ページへのリンク情報が含まれている場合は、そのリンク先の解説ページも取得する。これにより、解説ページ群６４０には、トップページからリンクでたどれるページがすべて含まれる。

以上の処理が、拡張キーワード６１０ごとに検出された検索ページ群６２０で実行され、それぞれについてトップページ６３０と、その配下の解説ページ群６４０が収集される。

こうして検索されたサイトのトップページ６３０とその配下の解説ページ群６４０を用いて、このサイトが辞書サイトの特徴を有しているかどうかを判定する。
まず、リンク情報抽出部１３０が、サイト（共通ドメイン）ごとに、トップページ６３０及び解説ページ群６４０のＨＴＭＬ文書ファイルを読み出し、ページ内のリンク情報を抽出する。すなわち、読み出した各ページのＨＴＭＬ文書を解析し、サイトのドメイン、解析を行った処理対象のページのＵＲＬ、アンカーテキスト、そのリンク先ＵＲＬ、リンク先のページのタイトルを抽出する。そして、ＵＲＬ−タイトルテーブル及びアンカーテキスト−リンク先ＵＲＬテーブルに登録する。なお、ドメインは、トップページ及びその配下の解説ページで共通であるので、毎回抽出する必要はない。

図６は、ＵＲＬ−タイトルテーブルの一例を示した図である。ＵＲＬ−タイトルテーブルは、リンク特徴ＤＢ１１３に格納される。
ＵＲＬ−タイトルテーブル１１３１には、ドメイン１１３１ａ、ＵＲＬ１１３１ｂ及びタイトル１１３１ｃの各情報項目が登録される。

ドメイン１１３１ａには、サイトを識別する識別子であり、トップページとその配下の解説ページ群のＵＲＬに共通して含まれるドメインが登録される。リンク情報抽出部１３０は、トップページまたは任意の解説ページからドメインを抽出し、ドメイン１１３１ａに登録する。

ＵＲＬ１１３１ｂは、ＨＴＭＬを解析して抽出されるアンカーテキストのリンク先のページのＵＲＬが登録される。
タイトル１１３１ｃには、ＵＲＬ１１３１ｂに格納されるリンク先のページから抽出されたこのページのタイトルが登録される。

図４及び図５で説明したように、例えば、トップページ５００の「ＶＰＮ」は、ＶＰＮの解説ページ５１０にリンクされるアンカーテキストであり、ＨＴＭＬでは、＜ａｈｒｅｆ＝“ｈｔｔｐ：／／ｄｉｃｄｉｃ．ｃｏｍ／ｖｐｎ．ｈｔｍｌ”＞ＶＰＮ＜ａ／＞」と記述される。ここから、リンク先として「ｈｔｔｐ：／／ｄｉｃｄｉｃ．ｃｏｍ／ｖｐｎ．ｈｔｍｌ」が抽出され、ＵＲＬ１１３１ｂに登録される。なお、このとき抽出されたＵＲＬが相対パスで記述されているときは、絶対パスに変換された後、ＵＲＬ１１３１ｂに登録される。さらに、リンク先の解説ページ５１０のｖｐｎ．ｈｔｍｌを解析し、タイトル（＜ｔｉｔｌｅ＞によって示される文字列）を抽出する。図６の例では、「ＶＰＮＩＴ用語解説：ＤＩＣＤＩＣ」が抽出され、タイトル１１３１ｃに登録される。同様にしてトップページ５００に記述されたリンク先ページのＵＲＬと、リンク先ページのタイトルが抽出され、ＵＲＬ−タイトルテーブル１１３１に登録される。トップページ５００についての処理終了後、同様の処理を解説ページ群６４０の各ページについて行う。このとき、ＵＲＬ−タイトルテーブル１１３１に同じものが既に登録されていたときは、登録を行わない。

こうして、リンク情報抽出部１３０によって、サイトごとに、ページに出現したリンク先のＵＲＬと、そのリンク先のページのタイトルとが抽出され、ＵＲＬ−タイトルテーブル１１３１に登録される。

図７は、アンカーテキスト−リンク先ＵＲＬテーブルの一例を示した図である。アンカーテキスト−リンク先ＵＲＬテーブルは、リンク特徴ＤＢ１１３に格納される。
アンカーテキスト−リンク先ＵＲＬテーブル１１３２には、ドメイン１１３２ａ、処理対象ＵＲＬ１１３２ｂ、アンカーテキスト１１３２ｃ及びリンク先ＵＲＬ１１３２ｄの各情報項目が登録される。

ドメイン１１３２ａは、図６のドメイン１１３１ａと同様である。
処理対象ＵＲＬ１１３２ｂには、ＨＴＭＬの解析を行った処理対象のページのＵＲＬが登録される。

アンカーテキスト１１３２ｃには、処理対象ＵＲＬ１１３２ｂに登録されるページから抽出されたアンカーテキストが登録される。
リンク先ＵＲＬ１１３２ｄには、アンカーテキスト１１３２ｃに対応するリンク先のページのＵＲＬが登録される。

図６と同様に、例えば、トップページ５００の解析を行う際には、処理対象ＵＲＬ１１３２ｂには、トップページ５００のＵＲＬ（ここでは、ｈｔｔｐ：／／ｄｉｃｄｉｃ.ｃｏｍ／ｉｎｄｅｘ．ｈｔｍｌ）が登録される。そして、「ＶＰＮ」の解説ページ５１０がリンクされるアンカーテキスト「ＶＰＮ」がアンカーテキスト１１３２ｃに登録される。また、図６と同様にして、リンク先「ｈｔｔｐ：／／ｄｉｃｄｉｃ．ｃｏｍ／ｖｐｎ．ｈｔｍｌ」が抽出され、リンク先ＵＲＬ１１３２ｄに登録される。

トップページ５００についての処理終了後、同様の処理を解説ページ群６４０の各ページについて行う。このとき、アンカーテキスト−リンク先ＵＲＬテーブル１１３２に同じものが既に登録されていたときは、登録を行わない。

こうして、リンク情報抽出部１３０によって、サイトごとに、アンカーテキストを抽出した処理対象のページのＵＲＬ、アンカーテキスト、及びリンク先のＵＲＬが抽出され、アンカーテキスト−リンク先ＵＲＬテーブル１１３２に登録される。

次に、リンク特徴集計部１４０は、リンク情報抽出部１３０によって設定されたＵＲＬ−タイトルテーブル１１３１及びアンカーテキスト−リンク先ＵＲＬテーブル１１３２に基づいて特徴項目を集計する。上述のように、サイトが辞書サイトであれば、サイト内に閉じたリンクが高い割合で存在し、かつ、特徴１、特徴２、特徴３のいずれか１以上の特徴を満たすリンク数の割合が一定値以上ある。リンク特徴集計部１４０では、これらの特徴を検出するため、以下の特徴項目を集計する。まず、サイト内に閉じたリンクの割合を検出するため、全リンク数と、サイト内に閉じたリンク（内部リンクとする）数とを集計する。さらに、特徴１の特徴項目として、リンク元のアンカーテキストとリンク先ページのタイトルタグ内の文字列（タイトル）とが一致するリンクの数を集計する。特徴２の特徴項目として、アンカーテキストとリンク先のファイル名が一致するリンクの数を集計する。そして、特徴３の特徴項目として、サイト内の他ページのタイトルと、用語以外の文字列が一致するタイトルを検出し、このタイトルが出現した数を集計する。

図８は、特徴１による集計情報の一例を示した図である。（Ａ）は、特徴１カウンタテーブル、（Ｂ）は特徴１エントリテーブルである。どちらも、リンク特徴ＤＢ１１３に格納される。特徴１による集計情報は、ＵＲＬ−タイトルテーブル１１３１及びアンカーテキスト−リンク先ＵＲＬテーブル１１３２を解析し、特徴１に合致するリンク数を集計して取得する。

（Ａ）特徴１カウンタテーブル１１３３は、処理対象ＵＲＬ（ドメイン）１１３３ａ、全リンクカウンタ１１３３ｂ、内部リンクカウンタ１１３３ｃ及び特徴１カウンタ１１３３ｄの各情報項目を有する。

処理対象ＵＲＬ（ドメイン）１１３３ａには、処理対象のサイトのＵＲＬが登録される。アンカーテキスト−リンク先ＵＲＬテーブル１１３２のドメイン１１３２ａから読み出されたＵＲＬが登録される。対応するカウンタは、このサイトごとに集計された値である。

全リンクカウンタ１１３３ｂには、サイトごとに検出されたリンク情報の集計値が登録される。集計されるリンク情報は、サイト内部のページをリンク先とするものも、サイト外部のページをリンク先とするものも含まれる。具体的には、アンカーテキスト−リンク先ＵＲＬテーブル１１３２のドメイン１１３２ａが、対象のサイトのドメインと一致するリンク先ＵＲＬ１１３２ｄに登録されたリンク情報の総数がカウントされる。

内部リンクカウンタ１１３３ｃには、サイトごとに検出されたリンク情報のうち、サイト内部のページをリンク先とするリンク情報の集計値が登録される。対象のサイトのドメインとドメイン１１３２ａが一致し、リンク先ＵＲＬ１１３２ｄのドメイン部分がドメイン１１３２ａのドメイン名と一致するリンク情報の数がカウントされる。

特徴１カウンタ１１３３ｄには、サイトごとに、アンカーテキストと、リンク先ＵＲＬのページのタイトルとが一致するリンク情報の集計値が登録される。アンカーテキスト−リンク先ＵＲＬテーブル１１３２のアンカーテキスト１１３２ｃから読み出したアンカーテキストに対応するリンク先ＵＲＬ１１３２ｄを抽出する。そして、抽出されたリンク先ＵＲＬと一致するＵＲＬをＵＲＬ−タイトルテーブル１１３１から検出する。一致したＵＲＬに対応するタイトル１１３１ｃからこのＵＲＬのタイトルを抽出し、最初にアンカーテキスト１１３２ｃから読み出したアンカーテキストと照合する。一致すれば、特徴１カウンタ１１３３ｄをインクリメントする。このとき、リンク先ＵＲＬ１１３２ｄと一致するＵＲＬがＵＲＬ１１３１ｂで検出されないときは、ＵＲＬに含まれる「ｉｎｄｅｘ．ｈｔｍｌ」の有無や、「＃」、「？」の有無などを変えて調整し、該当するＵＲＬを検出する。

（Ｂ）特徴１エントリテーブル１１３４は、処理対象ＵＲＬ（ドメイン）１１３４ａ、単語１１３４ｂ、及びＵＲＬ１１３４ｃの各情報項目を有する。
処理対象ＵＲＬ（ドメイン）１１３４ａには、特徴１カウンタテーブル１１３３と同様に、処理対象のサイトのＵＲＬが登録される。単語１１３４ｂには、特徴１の条件を満たすアンカーテキストが登録される。ＵＲＬ１１３４ｃには、特徴１の条件を満たしたＵＲＬがアンカーテキストに対応付けて登録される。リンク特徴集計部１４０がアンカーテキストと、リンク先ＵＲＬのタイトルとを照合し、一致していると判定したとき、そのアンカーテキストが単語１１３４ｂ、リンク先ＵＲＬがＵＲＬ１１３４ｃに格納される。すなわち、特徴１カウンタテーブル１１３３の特徴１カウンタ１１３３ｄを１増加させるとき、特徴１を満たしていると判定されたアンカーテキストとリンク先ＵＲＬが登録される。処理対象ＵＲＬ（ドメイン）１１３４ａには、処理対象のサイトのドメインが登録される。

図９は、特徴２による集計情報の一例を示した図である。（Ｃ）は、特徴２カウンタテーブル、（Ｄ）は特徴２エントリテーブルである。どちらも、リンク特徴ＤＢ１１３に格納される。

（Ｃ）特徴２カウンタテーブル１１３５は、処理対象ＵＲＬ（ドメイン）１１３５ａ、全リンクカウンタ１１３５ｂ、内部リンクカウンタ１１３５ｃ及び特徴２カウンタ１１３５ｄの各情報項目を有する。

処理対象ＵＲＬ（ドメイン）１１３５ａには、処理対象のサイトのＵＲＬが登録される。全リンクカウンタ１１３５ｂには、サイトごとに検出されたリンク情報の集計値が登録される。内部リンクカウンタ１１３５ｃには、サイトごとに検出されたリンク情報のうち、サイト内部のページをリンク先とするリンク情報の集計値が登録される。処理対象ＵＲＬ（ドメイン）１１３５ａ、全リンクカウンタ１１３５ｂ及び内部リンクカウンタ１１３５ｃは、特徴１カウンタテーブル１１３３の同じ名の情報項目と同様であるので、詳細な説明は省略する。

特徴２カウンタ１１３５ｄには、サイトごとに、アンカーテキストと、リンク先ＵＲＬのページのファイル名とが一致するリンク情報の集計値が登録される。アンカーテキスト−リンク先ＵＲＬテーブル１１３２のアンカーテキスト１１３２ｃと、対応するリンク先ＵＲＬ１１３２ｄとを読み出す。そして、読み出したアンカーテキストをＵＲＬエンコードし、得られた文字列と、読み出したリンク先ＵＲＬに含まれるリンク先のファイル名とを照合する。一致すれば、特徴２カウンタ１１３５ｄをインクリメントする。

（Ｄ）特徴２エントリテーブル１１３６は、処理対象ＵＲＬ（ドメイン）１１３６ａ、単語１１３６ｂ、及びＵＲＬ１１３６ｃの各情報項目を有する。
処理対象ＵＲＬ（ドメイン）１１３６ａには、特徴２カウンタテーブル１１３５と同様に、処理対象のサイトのＵＲＬが登録される。単語１１３６ｂには、特徴２の条件を満たすアンカーテキストが登録される。ＵＲＬ１１３６ｃには、特徴１の条件を満たしたＵＲＬがアンカーテキストに対応付けて登録される。満たす条件が特徴１ではなく特徴２であるという点を除いて、処理は特徴１の場合と同様である。すなわち、特徴２カウンタテーブル１１３５の特徴２カウンタ１１３５ｄを１増加させるとき、特徴２を満たしていると判定されたアンカーテキストとリンク先ＵＲＬが登録される。

図１０は、特徴３による集計情報の一例を示した図である。（Ｅ）は、特徴３カウンタテーブル、（Ｆ）は共通タイトルテーブル、（Ｇ）は特徴３エントリテーブルである。すべてリンク特徴ＤＢ１１３に格納される。

（Ｅ）特徴３カウンタテーブル１１３７は、処理対象ＵＲＬ（ドメイン）１１３７ａ、全リンクカウンタ１１３７ｂ、内部リンクカウンタ１１３７ｃ、特徴３カウンタ１１３７ｄ及び共通タイトル１１３７ｅの各情報項目を有する。

処理対象ＵＲＬ（ドメイン）１１３７ａには、処理対象のサイトのＵＲＬが登録される。全リンクカウンタ１１３７ｂには、サイトごとに検出されたリンク情報の集計値が登録される。内部リンクカウンタ１１３７ｃには、サイトごとに検出されたリンク情報のうち、サイト内部のページをリンク先とするリンク情報の集計値が登録される。処理対象ＵＲＬ（ドメイン）１１３７ａ、全リンクカウンタ１１３７ｂ及び内部リンクカウンタ１１３７ｃは、特徴１カウンタテーブル１１３３の同じ名の情報項目と同様であるので、詳細な説明は省略する。

特徴３カウンタ１１３７ｄには、サイトごとに、アンカーテキストを除いたリンク先のＵＲＬのページのタイトルが共通するリンク情報の集計値が登録される。また、共通タイトル１１３７には、そのタイトルが登録される。リンク特徴集計部１４０は、ＵＲＬ−タイトルテーブル１１３１及びアンカーテキスト−リンク先ＵＲＬテーブル１１３２を解析し、共通タイトルテーブルを作成する。そこで共通タイトルテーブル１１３８に登録された共通タイトルのうち、最もリンク情報の数が多かったものが登録される。また、その共通タイトルは、共通タイトル１１３７ｅに登録される。

（Ｆ）共通タイトルテーブル１１３８は、処理対象ＵＲＬ（ドメイン）１１３８ａ、共通タイトル１１３８ｂ及びカウンタ１１３８ｃの各情報項目を有する。
処理対象ＵＲＬ（ドメイン）１１３８ａには、処理対象のサイトのＵＲＬが登録される。共通タイトル１１３８ｂには、抽出されたリンク先ＵＲＬの共通タイトルが登録される。そして、カウンタ１１３８ｃには、共通タイトルが出現したリンク情報の集計値が登録される。

アンカーテキスト−リンク先ＵＲＬテーブル１１３２のアンカーテキスト１１３２ｃに対応するリンク先ＵＲＬ１１３２ｄと一致するＵＲＬをＵＲＬ−タイトルテーブル１１３１から検出する。一致したＵＲＬ１１３１ｂに対応するＵＲＬでＵＲＬ−タイトルテーブル１１３１のＵＲＬ１１３１ｂに対応するタイトル１１３１ｃを抽出し、最初に読み出したアンカーテキスト１１３２ｃを除いた文字列を抽出する。この文字列が共通タイトルテーブルの共通タイトル１１３８ｂに登録されていれば、対応するカウンタ１１３８ｃをインクリメントする。共通タイトル１１３８ｂに登録されていないときは、共通タイトルテーブル１１３８に新たなレコードを追加し、登録する。

（Ｇ）特徴３エントリテーブル１１３９は、処理対象ＵＲＬ（ドメイン）１１３９ａ、単語１１３９ｂ、ＵＲＬ１１３９ｃ及び共通タイトル１１３９ｄの各情報項目を有する。
処理対象ＵＲＬ（ドメイン）１１３９ａには、特徴３カウンタテーブル１１３７と同様に、処理対象のサイトのＵＲＬが登録される。単語１１３９ｂには、特徴３の条件を満たすアンカーテキストが登録される。ＵＲＬ１１３９ｃには、特徴３の条件を満たしたＵＲＬがアンカーテキストに対応付けて登録される。共通タイトル１１３９ｄには、対応するタイトルが登録される。

このように、リンク特徴集計部１４０によって、抽出されたリンク情報を登録したＵＲＬ−タイトルテーブル１１３１及びアンカーテキスト−リンク先ＵＲＬテーブル１１３２が解析される。そして、全リンクカウンタ及び内部リンクカウンタとともに、辞書サイトの特徴を満たすリンク数である特徴１カウンタ、特徴２カウンタ、特徴３カウンタとが集計され、それぞれの要件を満たすエントリ候補テーブルが作成される。特徴１については、特徴１カウンタテーブル１１３３及び特徴１エントリテーブル１１３４が生成される。特徴２については、特徴２カウンタテーブル１１３５及び特徴２エントリテーブル１１３６が生成される。特徴３については、特徴３カウンタテーブル１１３７及び特徴３エントリテーブル１１３９が生成される。なお、集計は、予め指定された特徴についてのみ行われる。

辞書サイト判定部１５０は、集計された特徴１カウンタテーブル１１３３、特徴２カウンタテーブル１１３５及び特徴３カウンタテーブル１１３７を用いて、辞書サイト判定ルールに基づき、処理対象ＵＲＬ（ドメイン）が、辞書サイトであるかどうかを判定する。辞書サイト判定ルールは、辞書サイト判定ルール（記憶装置）１１５に格納されているのを読み出して適用する。

例えば、辞書サイト判定ルールが、「全体リンク数のうち、サイト内リンクが９割以上、かつ特徴１を満たすリンク数の割合が９割以上」というものであった場合で説明する。この場合は、特徴１カウンタテーブル１１３３を参照してサイト内リンクの割合及び特徴（１）を満たすリンクの割合を算出する。

サイト内リンクの割合は、全リンクに占める内部リンクの割合であるので、内部リンク数／全リンク数で求めることができる。例えば、処理対象ＵＲＬが「ｈｔｔｐ：／／ｄｉｃｄｉｃ／ｃｏｍ／」の場合、全リンクカウンタ１１３３ｂは「１１０」、内部リンクカウンタ１１３３ｃは「１０１」であるので、内部リンクの割合は、Ｒは、
Ｒ＝１０１／１１０（＝０．９１８１）
と、算出することができる。また、特徴１を満たすリンク数の割合Ｒ１は、
Ｒ１＝１００／１０１（＝０．９９）
と、算出される。判定ルールが上記の場合、Ｂの値が辞書らしさスコアになる。

さらに、特徴を組み合わせて判定ルールとすることができる。例えば、「全体リンク数のうち、サイト内リンクが９割以上、かつ、特徴１を満たすリンク数の割合が９割以上、もしくは特徴２を満たすリンク数の割合が９割以上、かつ特徴３を満たすリンク数の割合が９割以上」というものであった場合で説明する。

この場合、上記と同様にして、特徴１カウンタテーブル１１３３、特徴２カウンタテーブル１１３５、または特徴３カウンタテーブル１１３７から、該当するＵＲＬの全リンクカウンタと内部リンクカウンタの値を抽出し、内部リンクの割合（Ｒ）を算出する。また、特徴１カウンタテーブル１１３３の特徴１カウンタ１１３３ｄと内部リンクカウンタ１１３３ｃから特徴１を満たすリンク数の割合（Ｒ１）を算出する。特徴２カウンタテーブル１１３５の特徴２カウンタ１１３５ｄと内部リンクカウンタ１１３５ｃから特徴２を満たすリンク数の割合（Ｒ２）を算出する。そして、特徴３カウンタテーブル１１３７の特徴３カウンタ１１３７ｄと内部リンクカウンタ１１３７ｃから特徴３を満たすリンク数の割合（Ｒ３）を算出する。そして、算出されたＲ，Ｒ１，Ｒ２，Ｒ３でルールが成立するかどうかを判定する。ルールが成立すれば、このサイトは辞書サイトと判定することができる。辞書サイトと判定されたサイトは、辞書候補テーブルに登録される。

また、特徴ごとのリンク数の割合を重み付けし、スコアを算出するとしてもよい。特徴１の重み付け係数α、特徴２の重み付け係数β、特徴３の重み付け係数γとして、スコアＳは、
Ｓ＝ αＲ１＋ βＲ２＋ γＲ３・・・（１）
によって、算出することができる。

図１１は、辞書候補テーブルとそのエントリ候補テーブルの一例を示した図である。（Ｈ）は辞書候補テーブル、（Ｉ）はエントリ候補テーブルの一例である。どちらも辞書候補ＤＢ１１７に格納される。

（Ｈ）辞書候補テーブル１１７１は、サイトＵＲＬ（ドメイン）１１７１ａ及びスコア１１７１ｂの各情報項目を有する。
サイトＵＲＬ（ドメイン）１１７１ａには、辞書候補であると判定された対象のサイトのＵＲＬが登録される。

スコア１１７１ｂには、式（１）によって算出された辞書らしさスコアが格納される。
（Ｉ）エントリ候補テーブル１１７２は、処理対象ＵＲＬ（ドメイン）１１７２ａ、単語１１７２ｂ及びＵＲＬ１１７２ｃの各情報項目を有する。

処理対象ＵＲＬ（ドメイン）１１７２ａには、辞書候補であると判定された対象のサイトのＵＲＬが登録される。単語１１７２ｂには、このサイトについて作成された特徴１エントリテーブル１１３４、特徴２エントリテーブル１１３６及び特徴３エントリテーブル１１３９のいずれかに登録される単語が設定される。ＵＲＬには、同様にいずれかのＵＲＬが設定される。

なお、辞書候補及びエントリ候補の登録の際には、辞書追加ルール（記憶装置）１１６に格納される辞書追加ルールに基づいて処理を行う。例えば、辞書候補と判定されたＵＲＬが、辞書追加ルールで登録が禁止されるＵＲＬと同じであれば、辞書候補への登録は行わない。また、エントリ候補の登録であれば、除外キーワードなどが設定されていた場合、除外キーワードと一致するアンカーテキストは、エントリ候補テーブル１１７２に登録しない。

こうして辞書候補が決定された後、ユーザからの表示要求があれば、ユーザ提示部１７０は、クライアント装置２００の表示部に表示させる。
図１２は、辞書サイト候補一覧画面の一例を示した図である。

辞書サイト候補一覧画面２１００は、クライアント装置２００に接続する表示装置に表示される。辞書サイト候補一覧画面２１００には、辞書サイト候補を示した辞書サイト候補一覧表２１０１、詳細エントリ選択ボタン２１０２、ＮＧサイト登録ボタン２１０３及び辞書サイト登録ボタン２１０４などが表示される。

辞書サイト候補一覧画面２１００は、チェック欄２１０１ａ、識別番号２１０１ｂ、ＵＲＬ２１０１ｃ、エントリ例２１０１ｄ及びスコア２１０１ｅが、辞書候補テーブル１１７１及びエントリ候補テーブル１１７２に基づいて表示される。

チェック欄２１０１ａは、辞書サイトとして登録するサイト、もしくはＮＧサイトとして登録するサイトを選択するための欄である。チェックされたサイトが処理の対象となる。識別番号２１０１ｂは、辞書サイト候補に順に振られた番号である。ＵＲＬ２１０１ｃは、サイトのＵＲＬで、辞書候補テーブル１１７１のサイトＵＲＬ１１７１ａに基づいて表示される。エントリ例２１０１ｄは、この辞書サイト候補で参照可能なエントリの例であり、エントリ候補テーブル１１７２の該当するサイトのＵＲＬ１１７２ｃから任意の語句が選択され、そのＵＲＬが表示される。ここは、対応する単語１１７２ｂからアンカーテキストが選択され、表示されてもよい。スコア２１０１ｅには、このサイトの辞書らしさスコアが、辞書候補テーブル１１７１のスコア１１７１ｂから抽出され、表示されている。

詳細エントリ選択ボタン２１０２は、サイトごとに用意される。例えば、Ｎｏ．１の辞書サイト候補の詳細エントリ選択ボタン２１０２を操作すると、詳細エントリ選択画面２１１０が開かれ、Ｎｏ．１の辞書サイト候補に対応するエントリ候補一覧２１１１が表示される。エントリ候補一覧２１１１には、選択された辞書サイト候補のエントリ候補テーブル１１７２の登録が抽出され、表示される。チェック欄２１１１ａは、このエントリを登録するか否か選択するための欄である。識別番号２１１１ｂは、各エントリ候補に順に振られた番号である。ＵＲＬ２１０１ｃには、選択された辞書サイト候補のエントリ候補テーブル１１７２の単語１１７２ｂに登録されるアンカーテキストが、ＵＲＬ１１７２ｃのリンク情報を付加した状態で表示される。

ユーザは、辞書サイト候補一覧画面２１００を表示し、辞書サイトを選択する。このとき、必要であれば、詳細エントリ選択画面２１１０を表示して、エントリ候補の内容を確認することができる。このとき、エントリ候補とするか否かも選択することができる。そして、辞書サイトに登録したい候補があれば、チェック欄２１０１ａをチェックし、「辞書サイトに登録」と記述された辞書サイト登録ボタン２１０４を操作する。これにより、選択された辞書サイト候補とエントリ候補が、辞書として辞書サイトテーブルに登録され、辞書ＤＢ１１８に格納される。また、辞書サイトとして登録したくないときは、「ＮＧサイトに登録」と記述されたＮＧサイト登録ボタン２１０３を操作する。これにより、この辞書サイトが辞書サイト候補から削除される。このとき、今後このサイトを辞書サイト候補としないように、辞書追加ルールにＮＧサイトとして登録し、辞書追加ルール（記憶装置）１１６に格納するとしてもよい。

このように、ユーザが例となる単語をキーワードとして設定すると、そのジャンルの辞書サイトが自動で検出され、同時に辞書のエントリ（用語と解説ページのＵＲＬのペア）が抽出される。ユーザは、これを辞書サイト候補一覧画面２１００で確認し、辞書として用いるかどうかを決めるだけでよいので、簡単に辞書追加ができる。また、定期的に実行させれば、辞書のメンテナンスも容易になる。

以下、上記の辞書サイト検出システムにおける辞書サイト検出方法の処理手順について、フローチャートを用いて説明する。
図１３は、辞書サイト検出方法の全体の処理手順を示したフローチャートである。このフローチャートは、キーワードが入力されてから辞書サイト候補の提示までの処理手順を示している。ユーザが設定したキーワードが入力され、処理が開始される。

［ステップＳ０１］サイト取得部１２０が、入力されたキーワードに基づいて、このキーワードが含まれるページを有するサイトを検索する。検索されたサイトについて、トップページと、トップページにリンクされる他のページを取得するサイト取得処理を行う。取得されたページ群は、サイトごとに取得サイト（記憶装置）１１２に格納される。サイト取得処理の詳細は後述する。

［ステップＳ０２］リンク情報抽出部１３０が、ステップＳ０１のサイト取得処理によって取得サイト（記憶装置）１１２に格納されたサイトから１つを候補サイトに選択し、そのページ群を解析する。そして、ページからリンク情報を抽出し、ＵＲＬ−タイトルテーブル１１３１及びアンカーテキスト−リンク先ＵＲＬテーブル１１３２に登録する。リンク情報抽出処理の詳細は後述する。

［ステップＳ０３］リンク特徴集計部１４０が、ＵＲＬ−タイトルテーブル１１３１及びアンカーテキスト−リンク先ＵＲＬテーブル１１３２を解析する。そして、リンク情報に、辞書サイト特有の特徴を示す特徴項目が検出された数を集計する。そして、特徴ごとに集計情報と、エントリテーブルとを生成する。リンク特徴集計処理の詳細は後述する。

［ステップＳ０４］辞書サイト判定部１５０が、辞書サイト判定ルール１１５（記憶装置）に記憶される辞書サイト判定ルールに基づいて、集計情報から辞書らしさスコアを算出する。そして辞書らしさスコアが所定値以上のサイトを辞書サイト候補と判定する。辞書サイト判定処理の詳細は後述する。

［ステップＳ０５］ステップＳ０４の辞書サイト判定処理により、このサイトが辞書サイトと判定されたかどうかをチェックする。辞書サイトと判定されたときは、処理をステップＳ０６に進める。辞書サイトと判定されなかったときは、処理をステップＳ０７に進める。

［ステップＳ０６］辞書サイトと判定されたときは、途中抽出されたエントリテーブルに基づいて、辞書エントリ候補を作成する。辞書エントリ候補作成処理の詳細は後述する。

［ステップＳ０７］キーワードによって検出された全候補サイトの処理が終了したかどうかを判定する。全候補サイトの処理が終了したときは、処理をステップＳ０８に進める。全候補サイトの処理が終了していないときは、ステップＳ０２に戻って、次の候補サイトの処理を行う。

［ステップＳ０８］全候補サイトの処理が終了したときは、辞書サイト候補に登録されたサイトと、そのエントリとをユーザに提示する処理を行う。ユーザ提示処理の詳細は後述する。

以上の処理手順が実行されることにより、入力されたキーワードに基づいて所望のジャンルの辞書サイトの可能性があるサイトが検出され、そのサイト内にページ間のリンク情報に基づきそのサイトが辞書サイトとしての特徴を有しているかどうかが判定される。そして、辞書サイト候補と判定されたときは、そのサイトがユーザに提示される。また、このとき同時に、リンク情報からオートリンク辞書の作成に必要な辞書エントリ候補も生成される。これにより、ユーザは、所望のジャンルに関連するキーワードを設定するだけで、簡単に所望のジャンルの辞書サイトを検出することができる。また、辞書のエントリ（単語とその解説ページのＵＲＬとを対応付けた情報）も同時に得ることができるため、オートリンク辞書の作成が容易になる。

以下、各処理の詳細を説明する。
図１４は、サイト取得処理の手順を示したフローチャートである。
キーワードが入力されて処理が開始される。

［ステップＳ１１］拡張検索ルール（記憶装置）１１１に格納される拡張検索ルールを読み出し、キーワードを拡張検索ルールに基づき変化させ、クエリを拡張する。
［ステップＳ１２］ステップＳ１１で作成されたクエリを用いて検索を行う。これにより、キーワードを含むページが検出される。なお、検索では、複数のキーワードを受け付け、それぞれの検索結果のＡＮＤをとるなどしてもよい。

［ステップＳ１３］ステップＳ１２で検索されたページの１つを選択し、そのトップページを検出する。検出したトップページは、取得サイト（記憶装置）１１２に格納する。

［ステップＳ１４］ステップＳ１３で検出されたトップページに記述されるリンク情報を抽出する。
［ステップＳ１５］ステップＳ１４で検出されたリンク情報に基づき、リンクされる配下の解説ページを取得する。取得した解説ページは、取得サイト（記憶装置）１１２に格納する。

［ステップＳ１６］ステップＳ１５で取得した解説ページ内に記述されるリンク情報を抽出する。
［ステップＳ１７］ステップ１４およびステップＳ１６で抽出したリンク情報に基づき，トップページからリンクでたどれるすべての解説ページが収集されたかどうかを判定する。収集されたときは、処理をステップＳ１７に進める。すべて収集し終わっていないときは、処理をステップＳ１５に戻し、次の解説ページを収集する。

［ステップＳ１８］ステップＳ１２で検索された全検索ページについて処理が終了したかどうかを判定する。終了していないときは、ステップＳ１３に戻って、検索結果の次のサイトを取得する処理を行う。終了したときは、サイト取得処理を終了する。

以上の処理手順が実行されることにより、キーワードに基づいて検索されたページが属するサイトのトップページと、トップページにリンクされる配下のページが収集され、取得サイト（記憶装置）１１２に格納される。

図１５は、リンク情報抽出処理の手順を示したフローチャートである。
サイト取得処理（ステップＳ０１）によって取得サイト（記憶装置）１１２に格納された１つのサイトを候補サイトとし、そのページ群（トップページと解説ページ群）を読み出し、処理を開始する。

［ステップＳ２１］候補サイトのドメイン名を抽出する。例えば、トップページのＵＲＬからドメイン名を抽出する。抽出されたドメイン名は、他の情報項目登録時に、ＵＲＬ−タイトルテーブル１１３１のドメイン１１３１ａ及びアンカーテキスト−リンク先ＵＲＬテーブル１１３２のドメイン１１３２ａに格納される。

［ステップＳ２２］候補サイトのページ群から未処理のページを１ページ取り出す。処理対象のページは、トップページ、解説ページのどちらも含む。
［ステップＳ２３］取り出したページのＨＴＭＬの解析を行う。また、取り出したページのＵＲＬをアンカーテキスト−リンク先ＵＲＬテーブル１１３２の処理対象ＵＲＬ１１３２ｂに格納する。

［ステップＳ２４］ページ内のリンク情報Ａを抽出し、ＵＲＬ−タイトルテーブル１１３１に登録する。処理の詳細は、後述する。
［ステップＳ２５］ページ内のリンク情報Ｂを抽出し、アンカーテキスト−リンク先ＵＲＬテーブル１１３２に登録する。処理の詳細は、後述する。

［ステップＳ２６］候補サイトに属する全ページの処理が終了したかどうかを判定する。終了していないときは、ステップＳ２２に戻って、次のページの処理を行う。終了したときは、リンク情報抽出処理を終了する。

図１６は、リンク情報Ａ抽出処理の手順を示したフローチャートである。
リンク情報Ａ（リンク先のページのＵＲＬとそのページのタイトル）を抽出し、ＵＲＬ−タイトルテーブル１１３１に登録する処理を行う。

［ステップＳ２４１］処理対象のページから未処理のリンク情報を１つ抽出する。
［ステップＳ２４２］リンク先ＵＲＬの指定情報を抽出し、ＵＲＬが相対パスであれば、処理対象のページのファイル位置からリンク先のページのＵＲＬを絶対パスに変換する。リンク先ＵＲＬは、処理対象のページからの相対パスで記載されている場合があるため、このような相対パスを絶対パスに変換する。

［ステップＳ２４３］ステップＳ２４２で抽出されたリンク先ＵＲＬのページを取得し、ＨＴＭＬを解析して、タイトルを抽出する。
［ステップＳ２４４］ステップＳ２４２で絶対パスに変換したリンク先のページのＵＲＬをＵＲＬ−タイトルテーブル１１３１のＵＲＬ１１３１ｂに登録する。また、ステップＳ２４３で抽出されたリンク先のページのタイトルを先に登録したＵＲＬに対応付けてタイトル１１３１ｃに登録する。前段で抽出されたドメイン名もドメイン１１３１ａに登録する。ＵＲＬ−タイトルテーブル１１３１は、リンク特徴ＤＢ１１３に格納する。

［ステップＳ２４５］処理対象のページの最後のリンク情報であるかどうかを判定する。最後のリンク情報でないときは、ステップＳ２４１に戻って次のリンク情報の処理を行う。最後のリンク情報であれば、リンク情報Ａ抽出処理を終了する。

以上の処理手順が実行されることにより、処理対象のページのリンク情報に記述されるリンク先のＵＲＬと、リンク先のページのタイトルとが、ＵＲＬ−タイトルテーブル１１３１に登録される。

図１７は、リンク情報Ｂ抽出処理の手順を示したフローチャートである。
リンク情報Ｂ（処理対象のページのＵＲＬ、アンカーテキスト及びリンク先のページのＵＲＬ）を抽出し、アンカーテキスト−リンク先ＵＲＬテーブル１１３２に登録する処理を行う。

［ステップＳ２５１］処理対象のページから未処理のリンク情報を１つ抽出する。
［ステップＳ２５２］リンク情報から、アンカーテキストと、リンク先ＵＲＬとを抽出する。

［ステップＳ２５３］ステップＳ２５２で抽出されたリンク先ＵＲＬが相対パスであるかどうかを判定する。相対パスであれば、処理をステップＳ２５４に進める。相対パスでなければ、処理をステップＳ２５５に進める。

［ステップＳ２５４］リンク先ＵＲＬが相対パスであったときは、処理対象のページのファイル位置からリンク先のページのＵＲＬを絶対パスに変換する。
［ステップＳ２５５］ステップＳ２５２で抽出されたアンカーテキストを、アンカーテキスト−リンク先ＵＲＬ１１３２のアンカーテキスト１１３２ｃに登録する。また、リンク先ＵＲＬ（絶対パス）も、アンカーテキストに対応付けて、リンク先ＵＲＬ１１３２ｄに登録する。前段で抽出されたドメイン名はドメイン１１３２ａ、処理対象のページのＵＲＬは処理対象ＵＲＬ１１３２ｂに登録する。アンカーテキスト−リンク先ＵＲＬ１１３２は、リンク特徴ＤＢ１１３に格納される。

［ステップＳ２５６］処理対象のページの最後のリンク情報であるかどうかを判定する。最後のリンク情報でないときは、ステップＳ２５１に戻って次のリンク情報の処理を行う。最後のリンク情報であれば、リンク情報（特徴２）抽出処理を終了する。

以上の処理手順が実行されることにより、処理対象のページのリンク情報に記述されるアンカーテキストと、リンク先ＵＲＬとが、アンカーテキスト−リンク先テーブル１１３２に登録される。

図１８は、リンク特徴集計処理の手順を示したフローチャートである。
ＵＲＬ−タイトルテーブル１１３１及びアンカーテキスト−リンク先ＵＲＬテーブル１１３２を用いて、特徴ごとのデータ集計を行う。

［ステップＳ３１］リンク特徴ルール（記憶装置）１１４からリンク特徴ルールを読み出す。リンク特徴ルールに基づいて、特徴１の分析を行うか否かを判定する。分析を行うときは、処理をステップＳ３２に進める。分析を行わないときは、処理をステップＳ３３に進める。

［ステップＳ３２］特徴１の分析を行うと判定されたときは、特徴１に応じた分析を行い、特徴を満たすリンクの数を集計する。特徴１分析処理の詳細は後述する。
［ステップＳ３３］リンク特徴ルールに基づいて、特徴２の分析を行うか否かを判定する。分析を行うときは、処理をステップＳ３４に進める。分析を行わないときは、処理をステップＳ３５に進める。

［ステップＳ３４］特徴２の分析を行うと判定されたときは、特徴２に応じた分析を行い、特徴を満たすリンクの数を集計する。特徴２分析処理の詳細は後述する。
［ステップＳ３５］リンク特徴ルールに基づいて、特徴３の分析を行うか否かを判定する。分析を行うときは、処理をステップＳ３６に進める。分析を行わないときは、リンク特徴集計処理を終了する。

［ステップＳ３６］特徴３の分析を行うと判定されたときは、特徴３に応じた分析を行い、特徴を満たすリンクの数を集計する。特徴３分析処理の詳細は後述する。特徴３分析処理の終了後、リンク特徴集計処理を終了する。

以上の処理手順が実行されることにより、特徴１、特徴２、特徴３のうち、任意の特徴を用いて辞書サイトの判定を行うことができる。
図１９は、特徴１分析処理の手順を示したフローチャートである。

特徴１分析処理では、特徴１に基づき、リンク元のアンカーテキストとリンク先ページのタイトルタグ内の文字列（タイトル）とが一致するリンクの数を特徴１カウンタとして集計する。

［ステップＳ３２１］アンカーテキスト−リンク先ＵＲＬテーブル１１３２から１行読み出す。ドメイン、処理対象ＵＲＬ、アンカーテキスト及びリンク先ＵＲＬが読み出される。

［ステップＳ３２２］ステップＳ３２１で読み出したドメインに該当する特徴１カウンタテーブル１１３３の全リンクカウンタ１１３３ｂを１増やして格納する。特徴１カウンタテーブル１１３３のドメイン１１３３ａに該当するドメインが設定されていなかったときは、新たにレコードを作成し、対応する全リンクカウンタ１１３３ｂに１を設定する。

［ステップＳ３２３］ステップＳ３２１で読み出したリンク先ＵＲＬは、自サイト内のリンクであるかどうかを判定する。自サイト内のリンクであれば、処理をステップＳ３２４に進める。自サイト内のリンクでなければ、処理をステップＳ３２９に進める。

［ステップＳ３２４］ステップＳ３２１で読み出したドメインに該当する特徴１カウンタテーブル１１３３の内部リンクカウンタ１１３３ｃを１増やして格納する。
［ステップＳ３２５］ＵＲＬ−タイトルテーブル１１３１のＵＲＬ１１３１ｂを検索し、ステップＳ３２１で読み出したリンク先ＵＲＬと同じＵＲＬが登録される行を検出する。そして、検出されたＵＲＬに対応するタイトル１１３１ｃからタイトルを取り出す。

［ステップＳ３２６］ステップＳ３２１で読み出したアンカーテキストが、ステップＳ３２５で取り出したタイトルの中に含まれているかどうかを判定する。アンカーテキストがタイトルに含まれているときは、処理をステップＳ３２７に進める。含まれていないときは、処理をステップＳ３２９に進める。

［ステップＳ３２７］アンカーテキストがタイトルに含まれているときは、特徴１カウンタテーブル１１３３の該当するドメインの行の特徴１カウンタ１１３３ｄを１増やして格納する。

［ステップＳ３２８］特徴１エントリテーブル１１３４にアンカーテキストがタイトルに含まれているリンク情報をエントリする。処理対象のページのＵＲＬは、処理対象ＵＲＬ（ドメイン）１１３４ａ、アンカーテキストは単語１１３４ｂ、そしてリンク先ＵＲＬはＵＲＬ１１３４ｃに登録する。

［ステップＳ３２９］アンカーテキスト−リンク先ＵＲＬテーブル１１３２の処理対象ＵＲＬ１１３２ｂに、未処理のＵＲＬが残っているかどうかを判定する。残っていれば、処理をステップＳ３２１に戻し、次の処理対象ＵＲＬについて処理を行う。残っていなければ、特徴１分析処理を終了する。

以上の処理手順が実行されることにより、全リンクカウンタ、内部リンクカウンタ及び特徴１を満たしたリンクの数を集計した特徴１カウンタが得られる。集計結果は、処理対象のサイトのドメインに対応付けて、特徴１カウンタテーブル１１３３に登録される。また、このとき同時に、特徴１の要件を満たすアンカーテキストとリンク先ＵＲＬとを対応付けた特徴１エントリテーブル１１３４も生成される。

図２０は、特徴２分析処理の手順を示したフローチャートである。
特徴２分析処理では、特徴２に基づき、リンク元のアンカーテキストとリンク先ページのファイル名とが一致するリンクの数を特徴２カウンタとして集計する。

［ステップＳ３４１］アンカーテキスト−リンク先ＵＲＬテーブル１１３２から１行読み出す。ドメイン、処理対象ＵＲＬ、アンカーテキスト及びリンク先ＵＲＬが読み出される。

［ステップＳ３４２］ステップＳ３４１で読み出したドメインに該当する特徴２カウンタテーブル１１３５の全リンクカウンタ１１３５ｂを１増やして格納する。特徴２カウンタテーブル１１３５のドメイン１１３５ａに該当するドメインが設定されていなかったときは、新たにレコードを作成し、対応する全リンクカウンタ１１３５ｂに１を設定する。

［ステップＳ３４３］ステップＳ３４１で読み出したリンク先ＵＲＬは、自サイト内のリンクであるかどうかを判定する。自サイト内のリンクであれば、処理をステップＳ３４４に進める。自サイト内のリンクでなければ、処理をステップＳ３４６に進める。

［ステップＳ３４４］ステップＳ３４１で読み出したドメインに該当する特徴２カウンタテーブル１１３５の内部リンクカウンタ１１３５ｃを１増やして格納する。
［ステップＳ３４５］ステップＳ３４１で読み出したアンカーテキストをＵＲＬエンコードする。一般に、ＵＲＬとして使用できない記号や全角文字などは、ＵＲＬに組み込む際にＵＲＬエンコード処理され、「％Ｅ３」などの半角文字の組み合わせに変換される。このため、リンク先ＵＲＬに含まれるファイル名とアンカーテキストとを照合する際には、アンカーテキストをＵＲＬエンコード処理しておく必要がある。

［ステップＳ３４６］ステップＳ３４５でＵＲＬエンコード処理されたアンカーテキストと、ステップＳ３４１で読み出したリンク先ＵＲＬに含まれるファイル名とを照合する。アンカーテキストとファイル名が一致するときは、処理をステップＳ３４７に進める。一致しないときは、処理をステップＳ３４９に進める。

［ステップＳ３４７］アンカーテキストとファイル名とが一致するときは、特徴２カウンタテーブル１１３５の該当するドメインの行の特徴２カウンタ１１３５ｄを１増やして格納する。

［ステップＳ３４８］特徴２エントリテーブル１１３５にアンカーテキストがタイトルに含まれているリンク情報をエントリする。処理対象のページのＵＲＬは、処理対象ＵＲＬ（ドメイン）１１３５ａ、アンカーテキストは単語１１３５ｂ、そしてリンク先ＵＲＬはＵＲＬ１１３５ｃに登録する。

［ステップＳ３４９］アンカーテキスト−リンク先ＵＲＬテーブル１１３２の処理対象ＵＲＬ１１３２ｂに、未処理のＵＲＬが残っているかどうかを判定する。残っていれば、処理をステップＳ３４１に戻し、次の処理対象ＵＲＬについて処理を行う。残っていなければ、特徴２分析処理を終了する。

以上の処理手順が実行されることにより、全リンクカウンタ、内部リンクカウンタ及び特徴２を満たしたリンクの数を集計した特徴２カウンタが得られる。集計結果は、処理対象のサイトのドメインに対応付けて、特徴２カウンタテーブル１１３５に登録される。なお、特徴１の分析処理を同時に行う場合には、いずれか一方で全リンクカウンタ及び内部リンクカウンタを集計する処理を行えばよい。また、このとき同時に、特徴２の要件を満たすアンカーテキストとリンク先ＵＲＬとを対応付けた特徴２エントリテーブル１１３６も生成される。

図２１は、特徴３分析処理の手順を示したフローチャートである。
特徴３分析処理では、特徴３に基づき、リンク先ページのタイトルからアンカーテキストを除いた文字列を共通タイトルとして抽出し、共通タイトルが出現する数を集計する。

［ステップＳ３６１］アンカーテキスト−リンク先ＵＲＬテーブル１１３２から１行読み出す。ドメイン、処理対象ＵＲＬ、アンカーテキスト及びリンク先ＵＲＬが読み出される。

［ステップＳ３６２］ステップＳ３６１で読み出したドメインに該当する特徴３カウンタテーブル１１３７の全リンクカウンタ１１３７ｂを１増やして格納する。特徴３カウンタテーブル１１３７のドメイン１１３７ａに該当するドメインが設定されていなかったときは、新たにレコードを作成し、対応する全リンクカウンタ１１３７ｂに１を設定する。

［ステップＳ３６３］ステップＳ３６１で読み出したリンク先ＵＲＬは、自サイト内のリンクであるかどうかを判定する。自サイト内のリンクであれば、処理をステップＳ３６４に進める。自サイト内のリンクでなければ、処理をステップＳ３６９に進める。

［ステップＳ３６４］ステップＳ３６１で読み出したドメインに該当する特徴３カウンタテーブル１１３７の内部リンクカウンタ１１３７ｃを１増やして格納する。
［ステップＳ３６５］ＵＲＬ−タイトルテーブル１１３１のＵＲＬ１１３１ｂを検索し、ステップＳ３６１で読み出したリンク先ＵＲＬと同じＵＲＬが登録される行を検出する。そして、検出されたＵＲＬに対応するタイトルをタイトル１１３１ｃから取り出す。

［ステップＳ３６６］ステップＳ３６５で取り出したタイトルに、ステップＳ３６１で読み出したアンカーテキストが含まれているかどうかを判定する。含まれているときは、処理をステップＳ３６７に進める。含まれていないときは、処理をステップＳ３６９に進める。

［ステップＳ３６７］タイトルにアンカーテキストが含まれていたときは、タイトルからアンカーテキストを除いた文字列を抽出し、共通タイトルとする。抽出された共通タイトルと、共通タイトルテーブル１１３８の共通タイトル１１３８ｂとを照合し、一致するものがあれば、対応するカウンタ１１３８ｃを１増やして格納する。一致するものがなければ、共通タイトル１１３８ｂに新たにレコードとして登録し、対応するカウンタ１１３８ｃに１を設定する。

［ステップＳ３６８］特徴３エントリテーブル１１３９にステップＳ３６７で共通タイトルを登録したリンク情報をエントリする。処理対象のページのＵＲＬは、処理対象ＵＲＬ（ドメイン）１１３９ａ、アンカーテキストは単語１１３９ｂ、リンク先ＵＲＬはＵＲＬ１１３９ｃ、そして共通タイトルは共通タイトル１１３９ｄに登録する。

［ステップＳ３６９］アンカーテキスト−リンク先ＵＲＬテーブル１１３２の処理対象ＵＲＬ１１３２ｂに、未処理のＵＲＬが残っているかどうかを判定する。残っていれば、処理をステップＳ３６１に戻し、次の処理対象ＵＲＬについて処理を行う。残っていなければ、処理をステップＳ３７０に進める。

［ステップＳ３７０］ステップＳ３６９までの処理により共通タイトルテーブル１１３８に登録されたカウンタ１１３８ｃのカウント値を比較し、最大のカウント値と、その共通タイトルとを抽出する。そして、特徴３カウンタテーブル１１３７の特徴３カウンタ１１３７ｄに抽出された最大のカウント値、共通タイトル１１３７ｅに最大のカウント値に対応する共通タイトルを登録する。

［ステップＳ３７１］ステップＳ３７０で登録された共通タイトルを、特徴３エントリテーブル１１３９の共通タイトル１１３９と順次照合する。そして、共通タイトルが一致するものを除き、そのレコードを削除する。これにより、最大数のページで一致する共通タイトルを持つエントリのみが特徴３エントリテーブル１１３９に残る。

以上の処理手順が実行されることにより、全リンクカウンタ、内部リンクカウンタ及び特徴３を満たした共通タイトルを有するリンクの数を集計した特徴３カウンタが得られる。集計結果は、処理対象のサイトのドメインに対応付けて、特徴３カウンタテーブル１１３７に登録される。なお、特徴１または特徴２の分析処理を同時に行う場合には、いずれか一方で全リンクカウンタ及び内部リンクカウンタを集計する処理を行えばよい。また、このとき同時に、特徴３の要件を満たすアンカーテキストとリンク先ＵＲＬとを対応付けた特徴３エントリテーブル１１３９も生成される。

こうしてリンク特徴集計処理が終了すると、辞書サイト判定部１５０は、検出されたサイトが辞書サイトであるかどうかの判定処理を行う。
図２２は、辞書サイト判定処理の手順を示したフローチャートである。

辞書サイト処理が開始されたときには、前の処理から処理中のドメイン名を引き継いでいるとする。
［ステップＳ４１］辞書サイト判定部１５０は、辞書サイト判定ルールを辞書サイト判定ルール（記憶装置）１１５から読み出す。

［ステップＳ４２］辞書サイト判定部１５０は、ステップＳ４１で読み出した辞書サイト判定ルールに基づいて、辞書らしさスコアを算出する。このとき、該当する特徴１カウンタテーブル１１３３、特徴２カウンタテーブル１１３５、または特徴３カウンタテーブル１１３７に登録される該当サイトの集計結果を用いる。

［ステップＳ４３］ステップＳ４２で算出された辞書らしさスコアを、辞書サイト判定ルールに定義される閾値と比較する。辞書サイト判定ルールを満たしている場合は、辞書サイト候補と判定することができる。

［ステップＳ４４］ステップＳ４３による比較結果に基づいて、辞書サイト候補と判定されたときは、処理をステップＳ４５に進める。辞書サイト候補と判定されなかったときは、辞書サイト判定処理を終了する。

［ステップＳ４５］辞書サイト候補と判定されたときは、このサイトを辞書候補とし、辞書候補テーブル１１７１に登録する。処理対象ＵＲＬ（ドメイン）を辞書候補テーブル１１７１のサイトＵＲＬ（ドメイン）１１７１ａに登録する。また、算出された辞書らしさスコアは、スコア１１７１ｂに登録する。登録後、辞書サイト判定処理を終了する。

辞書サイト候補が決定すると、辞書エントリ候補作成部１６０は、辞書サイト候補について辞書エントリ候補を作成する処理を行う。
図２３は、辞書エントリ候補作成処理の手順を示したフローチャートである。

［ステップＳ６１］リンク特徴ＤＢ１１３に格納されるエントリテーブル（特徴１エントリテーブル１１３４、特徴２エントリテーブル１１３６及び特徴３エントリテーブル１１３９）からエントリを読み出す。該当する処理対象ＵＲＬ（ドメイン）の単語１１３４ｂ，１１３６ｂ，１１３９ｂと、ＵＲＬ１１３４ｃ，１１３６ｃ，１１３９ｃと、のペアのエントリをひとつ取り出す。

［ステップＳ６２］ステップＳ６１で取り出されたエントリが、辞書候補ＤＢ１１７のエントリ候補テーブル１１７２の該当する処理対象ＵＲＬにこのエントリが登録されているかどうかを判定する。未登録であれば、処理をステップＳ６３に進める。未登録でなければ、処理をステップＳ６４に進める。

［ステップＳ６３］エントリ候補テーブル１１７２に未登録であれば、このエントリを新たなレコードとしてエントリ候補テーブル１１７２に登録する。
［ステップＳ６４］エントリがまだ残っているかどうかを判定する。次のエントリがあれば、処理をステップＳ６１に戻し、エントリの抽出からの処理を行う。次のエントリがなければ、辞書エントリ候補作成処理を終了する。

以上の処理手順により、辞書サイト候補のエントリ候補テーブルが作成される。なお、エントリ候補登録のルールを予め決めておき、辞書追加ルール（記憶装置）１１６に格納しておいてもよい。例えば、除外キーワードやＵＲＬ指定、複数サイトで検出された単語だけ登録するなどのルールを設定しておく。辞書エントリ候補作成処理では、ルールに定義される条件を満たしたエントリのみをエントリ候補テーブル１１７２に登録する。

こうして辞書サイト候補が決定され、その辞書エントリ候補が作成されると、ユーザ提示部１７０は、辞書サイト候補と辞書エントリ候補とをユーザに提示する処理を行う。
図２４は、ユーザ提示処理の手順を示したフローチャートである。

［ステップＳ８１］辞書候補ＤＢ１１７に格納される辞書候補テーブル１１７１及びエントリ候補テーブル１１７２に設定される辞書サイト候補の情報をクライアント装置２００へ出力する。クライアント装置２００では、取得した情報に基づいて図１２に示した辞書サイト候補一覧画面２１００を表示する。

［ステップＳ８２］クライアント装置２００を介してユーザからの指示が受け付けられるのを待つ。受け付けたときは、処理をステップＳ８３に進める。
［ステップＳ８３］ステップＳ８２で受け付けた指示が登録要求であったかどうかを判定する。登録要求であれば、処理をステップＳ８４に進める。登録要求でなければ、処理をステップＳ８６に進める。

［ステップＳ８４］登録要求であったときは、この辞書サイト候補を辞書登録し、辞書ＤＢ１１８に格納する。
［ステップＳ８５］受け付け確認画面をクライアント装置２００へ出力し、ユーザ提示処理を終了する。

［ステップＳ８６］登録要求でなかったときは、要求された処理を実行し、ユーザ提示処理を終了する。
以上の処理手順が実行されることにより、ユーザが例として入力した単語に基づいて、そのジャンルの辞書サイトが自動で検出され、同時に辞書のエントリ（用語と解説ページのＵＲＬのペア）が抽出される。これにより、ユーザの辞書作成作業を大幅に軽減することが可能となる。また、定期的に実行させれば、辞書のメンテナンスも容易になる。

なお、上記の処理機能は、コンピュータによって実現することができる。その場合、文書群検出装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ（Digital Versatile Disc）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）などの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。

以上の実施の形態に関し、更に以下の付記を開示する。
（付記１）ネットワーク上で提供される文書の集合であって１またはそれ以上のコンピュータによって管理されている所定の文書群を検出する文書群検出方法において、
前記コンピュータが、
特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて該配下文書のいずれかを検索し、検索された該配下文書に基づいて前記特定文書を検出し、該特定文書の配下の複数の配下文書を収集する収集手順と、
収集された前記文書群の前記特定文書及び複数の配下文書それぞれについて、配下文書内の任意の文字列に付加される特定の他文書との関連を示す連結情報を抽出して、該配下文書と、関連付けられた連結先文書とで特定の関係となる状態数を集計する特徴集計手順と、
前記特定の関係を用いた条件である特徴ルールが格納される特徴ルール記憶手段から該特徴ルールを読み出し、前記文書群の特定の関係の状態数が該特徴ルールの条件を満たしているか判定し、条件を満たしている文書群を対象文書群候補に登録する文書群判定手順と、
前記対象文書群候補に登録された前記文書群を出力する手順と、
を有することを特徴とする文書群検出方法。

（付記２）前記収集手順は、前記検出対象の文書群または前記文書群に属する文書を特徴付けるキーワードが取得されると、前記キーワードに予め設定される拡張語を付加して拡張キーワードを生成し、前記キーワードに加え、前記拡張キーワードを用いて検索を行う、手順であることを特徴とする付記１記載の文書群検出方法。

（付記３）前記検出対象の文書群は、任意の分野の複数の用語の解説情報に関する文書群であり、前記特定文書は解説される用語の一覧が記述され、また、前記複数の配下文書は用語の解説が記述される用語解説文書である辞書文書群であって、
また、前記連結情報は前記特定文書及び前記用語解説文書に出現する前記用語を表す文字列に付加され、該文字列と該文字列に対応する前記用語解説文書を関連付けており、
前記特徴集計手順における前記特定の関係は、前記連結情報によって関連付けられた前記文字列と、前記連結先文書との特定の関係である、
ことを特徴とする付記１記載の文書群検出方法。

（付記４）前記特徴集計手順において、前記連結情報が付加された前記文字列と、前記文字列に対応する前記連結先文書とを解析し、前記連結情報によって同じ前記文書群に属している前記用語解説文書が関連付けられている内部連結情報の数と、前記特定の関係となる状態として前記連結情報が付加される前記文字列と前記連結先文書のタイトルに含まれる文字列とが一致する特定内部連結情報の数と、を集計し、
前記文書群判定手順において、前記特定内部連結情報が前記内部連結情報全体に占める割合を、辞書らしさスコアとして算出し、前記辞書らしさスコアを前記特徴ルールに基づく閾値と比較して前記文書群が前記辞書文書群の条件を満たすかどうかを判定する、
手順であることを特徴とする付記３記載の文書群検出方法。

（付記５）前記特徴集計手順において、前記連結情報が付加された前記文字列と、前記文字列に対応する前記連結先文書とを解析し、前記連結情報によって同じ前記文書群に属している前記用語解説文書が関連付けられている内部連結情報の数と、前記特定の関係となる状態として前記連結情報が付加される前記文字列と前記連結先文書のファイル名に含まれる文字列とが一致する特定内部連結情報の数と、を集計し、
前記文書群判定手順において、前記特定内部連結情報が前記内部連結情報全体に占める割合を、辞書らしさスコアとして算出し、前記辞書らしさスコアを前記特徴ルールに基づく閾値と比較して前記文書群が前記辞書文書群の条件を満たすかどうかを判定する、
手順であることを特徴とする付記３記載の文書群検出方法。

（付記６）前記特徴集計手順において、前記連結情報が付加された前記文字列と、前記文字列に対応する前記連結先文書とを解析し、前記連結情報によって同じ前記文書群に属している前記用語解説文書が関連付けられている内部連結情報の数と、前記特定の関係となる状態として、前記連結先文書について、前記連結先文書のタイトルから前記連結先文書を関連付けた前記連結情報が付加される文字列と同じ部分を除いた共通タイトル部を抽出して比較し、前記共通タイトル部が一致する特定連結情報の数と、を集計し、
前記文書群判定手順において、前記特徴ルールに基づいて、前記特定連結情報が前記内部連結情報全体に占める割合を、辞書らしさスコアとして算出し、前記辞書らしさスコアを前記特徴ルールに基づく閾値と比較して前記文書群が前記辞書文書群の条件を満たすかどうかを判定する、
手順であることを特徴とする付記３記載の文書群検出方法。

（付記７）前記文書群判定手順は、前記特定の関係が複数選択されるときは、それぞれの前記特定の関係の重要度に応じた所定の係数が定義される前記特徴ルールに基づいて、選択された前記特定の関係について算出された前記辞書らしさスコアに前記所定の係数を乗算して重み付けを行って、選択された前記特定の関係に応じた辞書らしさスコアを算出する、手順であることを特徴とする付記４、５、及び６記載の文書群検出方法。

（付記８）前記特徴集計手順は、さらに、前記特定の関係を満たした前記文字列と前記連結先文書について、前記文字列と前記連結先文書の識別情報とを関連付けたエントリ情報を生成し、
前記出力する手順は、前記対象文書群候補に登録された前記文書群の識別情報とともに前記文書群について生成された前記エントリ情報を出力する、
手順であることを特徴とする付記４、５、または６記載の文書群検出方法。

（付記９）前記出力する手順は、利用者が前記対象文書群候補を目的の文書群に指定したときは、指定された前記対象文書群候補の識別情報を前記目的の文書群が登録される文書群情報に登録して文書群記憶手段に格納するとともに、前記対象文書群候補に対応する前記エントリ情報を前記文書群情報に関連付けて前記文書群記憶手段に格納する、手順であることを特徴とする付記８記載の文書群検出方法。

（付記１０）ネットワーク上で提供される文書の集合であって１またはそれ以上のコンピュータによって管理されている所定の文書群を検出する文書群検出装置において、
特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて該配下文書のいずれかを検索し、検索された該配下文書に基づいて前記特定文書を検出し、該特定文書の配下の複数の配下文書を収集する収集手段と、
収集された前記特定文書及び前記文書群の複数の配下文書それぞれについて、配下文書内の任意の文字列に付加される特定の他文書との関連を示す連結情報を抽出して、該配下文書と、関連付けられた連結先文書とで特定の関係となる状態数を集計する特徴集計手段と、
前記特定の関係を用いた条件である特徴ルールが格納される特徴ルール記憶手段から該特徴ルールを読み出し、前記文書群の特定の関係の状態数が該特徴ルールの条件を満たしているか判定し、条件を満たしている文書群を対象文書群候補に登録する文書群判定手段と、
前記対象文書群候補に登録された前記文書群を出力する出力手段と、
を有することを特徴とする文書群検出装置。

（付記１１）ネットワーク上で提供される文書の集合であって１またはそれ以上のコンピュータによって管理されている所定の文書群を検出する文書群検出プログラムにおいて、
コンピュータを、
特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて該配下文書のいずれかを検索し、検索された該配下文書に基づいて前記特定文書を検出し、該特定文書の配下の複数の配下文書を収集する収集手段、
収集された前記特定文書及び前記文書群の複数の配下文書それぞれについて、配下文書内の任意の文字列に付加される特定の他文書との関連を示す連結情報を抽出して、該配下文書と、関連付けられた連結先文書とで特定の関係となる状態数を集計する特徴集計手段、
前記特定の関係を用いた条件である特徴ルールが格納される特徴ルール記憶手段から該特徴ルールを読み出し、前記文書群の特定の関係の状態数が該特徴ルールの条件を満たしているか判定し、条件を満たしている文書群を対象文書群候補に登録する文書群判定手段、
前記対象文書群候補に登録された前記文書群を出力する出力手段、
として機能させることを特徴とする文書群検出プログラム。

発明の概要を示す図である。辞書サイト検出システムの構成例を示した図である。辞書サイト検出サーバのハードウェア構成例を示すブロック図である。辞書サイトの特徴を説明するための図である。キーワードが入力されてからサイトのページ情報を取得するまでの処理の流れを示した図である。ＵＲＬ−タイトルテーブルの一例を示した図である。アンカーテキスト−リンク先ＵＲＬテーブルの一例を示した図である。特徴１による集計情報の一例を示した図である。特徴２による集計情報の一例を示した図である。特徴３による集計情報の一例を示した図である。辞書候補テーブルとそのエントリ候補テーブルの一例を示した図である。辞書サイト候補一覧画面の一例を示した図である。辞書サイト検出方法の全体の処理手順を示したフローチャートである。サイト取得処理の手順を示したフローチャートである。リンク情報抽出処理の手順を示したフローチャートである。リンク情報Ａ抽出処理の手順を示したフローチャートである。リンク情報Ｂ抽出処理の手順を示したフローチャートである。リンク特徴集計処理の手順を示したフローチャートである。特徴１分析処理の手順を示したフローチャートである。特徴２分析処理の手順を示したフローチャートである。特徴３分析処理の手順を示したフローチャートである。辞書サイト判定処理の手順を示したフローチャートである。辞書エントリ候補作成処理の手順を示したフローチャートである。ユーザ提示処理の手順を示したフローチャートである。

符号の説明

１０文書群検出装置
１１ａ文書記憶手段
１１ｂ特徴ルール記憶手段
１１ｃ集計情報記憶手段
１１ｄ文書群候補記憶手段
１１ｅ文書群記憶手段
１２文書収集手段
１３特徴集計手段
１４文書群判定手段
１５文書群提示手段

Claims

ネットワーク上で提供される文書の集合から、記憶装置を有するコンピュータが、特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて該配下文書のいずれかを検索し、検索された該配下文書に基づいて前記特定文書を検出し、該特定文書の配下の複数の配下文書を収集して前記記憶装置に格納し、
収集された前記文書群の前記特定文書及び複数の配下文書それぞれについて、前記コンピュータが、配下文書内の任意の文字列に付加される特定の他文書との関連を示す連結情報及び当該文字列を抽出して、当該連結情報及び当該文字列を対応付けて前記記憶装置に記録し、該配下文書と、関連付けられた連結先文書とで特定の関係となる状態数を集計し、集計した前記状態数が前記特定の関係を用いた条件である特徴ルールの条件を満たしている文書群の情報を対象文書群候補の情報として前記記憶装置に記録する、
文書群検出方法。
検出対象の前記文書群は、任意の分野の複数の用語の解説情報に関する文書群であり、前記特定文書は解説される用語の一覧が記述され、また、前記複数の配下文書は用語の解説が記述される用語解説文書である辞書文書群であって、
また、前記連結情報は前記特定文書及び前記用語解説文書に出現する前記用語を表す文字列に付加され、該文字列と該文字列に対応する前記用語解説文書を関連付けており、
前記特定の関係は、前記連結情報によって関連付けられた前記文字列と、前記連結先文書との特定の関係である、
請求項１記載の文書群検出方法。
前記コンピュータは、
前記集計の処理において、前記連結情報が付加された前記文字列と、前記文字列に対応する前記連結先文書とを解析し、前記連結情報によって同じ前記文書群に属している前記用語解説文書が関連付けられている内部連結情報の数と、前記特定の関係となる状態として前記連結情報が付加される前記文字列と前記連結先文書のタイトルに含まれる文字列とが一致する特定内部連結情報の数と、を集計し、
前記対象文書群候補の情報を記録する処理において、前記特定内部連結情報が前記内部連結情報全体に占める割合を、辞書らしさスコアとして算出し、前記辞書らしさスコアを前記特徴ルールに基づく閾値と比較して前記文書群が前記辞書文書群の条件を満たすかどうかを判定する、
請求項２記載の文書群検出方法。
前記コンピュータは、
前記集計の処理において、前記連結情報が付加された前記文字列と、前記文字列に対応する前記連結先文書とを解析し、前記連結情報によって同じ前記文書群に属している前記用語解説文書が関連付けられている内部連結情報の数と、前記特定の関係となる状態として前記連結情報が付加される前記文字列と前記連結先文書のファイル名に含まれる文字列とが一致する特定内部連結情報の数と、を集計し、
前記対象文書群候補の情報を記録する処理において、前記特定内部連結情報が前記内部連結情報全体に占める割合を、辞書らしさスコアとして算出し、前記辞書らしさスコアを前記特徴ルールに基づく閾値と比較して前記文書群が前記辞書文書群の条件を満たすかどうかを判定する、
請求項２記載の文書群検出方法。
前記コンピュータは、
前記集計の処理において、前記連結情報が付加された前記文字列と、前記文字列に対応する前記連結先文書とを解析し、前記連結情報によって同じ前記文書群に属している前記用語解説文書が関連付けられている内部連結情報の数と、前記特定の関係となる状態として、前記連結先文書について、前記連結先文書のタイトルから前記連結先文書を関連付けた前記連結情報が付加される文字列と同じ部分を除いた共通タイトル部を抽出して比較し、前記共通タイトル部が一致する特定連結情報の数と、を集計し、
前記対象文書群候補の情報を記録する処理において、前記特徴ルールに基づいて、前記特定連結情報が前記内部連結情報全体に占める割合を、辞書らしさスコアとして算出し、前記辞書らしさスコアを前記特徴ルールに基づく閾値と比較して前記文書群が前記辞書文書群の条件を満たすかどうかを判定する、
請求項２記載の文書群検出方法。
ネットワーク上で提供される文書の集合から、特定文書の配下に複数の配下文書が存在する階層構造を成す文書群を対象にして、特定のキーワードを用いて該配下文書のいずれかを検索し、検索された該配下文書に基づいて前記特定文書を検出し、該特定文書の配下の複数の配下文書を収集する収集手段と、
収集された前記特定文書及び前記文書群の複数の配下文書それぞれについて、配下文書内の任意の文字列に付加される特定の他文書との関連を示す連結情報及び当該文字列を抽出して、当該連結情報及び当該文字列を対応付けて保持し、該配下文書と、関連付けられた連結先文書とで特定の関係となる状態数を集計する特徴集計手段と、
集計した前記状態数が前記特定の関係を用いた条件である特徴ルールの条件を満たしている文書群を対象文書群候補に登録する文書群判定手段と、
を有する文書群検出装置。