JP5115631B2

JP5115631B2 - 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置

Info

Publication number: JP5115631B2
Application number: JP2011010948A
Authority: JP
Inventors: 俊一福島; 弘司喜田; 義英石黒
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-01-21
Filing date: 2011-01-21
Publication date: 2013-01-09
Anticipated expiration: 2020-10-24
Also published as: JP2011076642A

Description

本発明は、テキスト中に出現する地名情報を抽出する技術に関する。

従来の地名情報抽出システムでは、テキスト中に出現する地名表記を検出することが目標であった。そのための最も基本的な方式は、地名表記を格納した辞書を用意し、テキストと辞書とを照合することで、テキスト中に出現した地名表記を検出するものである。例えば、辞書のなかに「横浜市」「千葉県」などの地名表記を登録しておき、テキスト中に「横浜市」や「千葉県」が出現すれば、それを地名として検出する。

しかし、単純に辞書と照合するだけでは、地名を判別できないことがある。例えば、テキスト中に「横浜」という表記が出現した場合、これは地名かもしれないが、組織名（「横浜ベイスターズ」というプロ野球チーム）であるかもしれない。また、「千葉」という表記が出現した場合も同様に、地名かもしれないし、人名かもしれない。

このような地名表記の検出における曖昧性を解消するための手法として、従来、以下のような２通りの方法が考えられている。

第一の手法は、地名の可能性を有する表記の前後あるいは同一テキスト内に出現する共起語を参照して、曖昧性を解消する方法である。例えば、「千葉」という地名候補表記の直後に「選手」という共起語が出現すれば、この「千葉」は人名（地名ではない）と判定できる。逆に、「千葉」の直後に「県」があれば地名である。共起語の情報は、地名表記の辞書に記述しておけばよい。図２は、共起語の情報を付与した地名表記辞書の例である。図２の地名表記辞書には、単語表記２５、その品詞分類２６、品詞分類に曖昧性をもつものについては共起語リスト２７が格納されている。

第二の手法は、地名候補表記を包含するような表記が、同一テキスト内に出現しているかを調べて、その曖昧性を解消する方法である。例えば、「横浜」という表記には地名と組織名の曖昧性があるが、同一テキスト内に「横浜ベイスターズ」という表記が出現しているならば、「横浜」は「横浜ベイスターズ」の省略表記、すなわち、組織名である可能性が高いと判断できる。

これらの手法は、「固有表現抽出システムの開発とＩＲＥＸ−ＮＥにおける評価」（竹元義美・福島俊一・山田洋志・奥村明俊・池田崇博、ＩＲＥＸワークショップ予稿集、１９９９年９月）、あるいは、特開平０６−０５２２２１号公報「固有名詞の自動抽出方式」、特開平０５−１８１９００号公報「固有名詞処理装置」などに記載されている。

特開平０６−０５２２２１号公報特開平０５−１８１９００号公報

「固有表現抽出システムの開発とＩＲＥＸ−ＮＥにおける評価」（竹元義美・福島俊一・山田洋志・奥村明俊・池田崇博、ＩＲＥＸワークショップ予稿集、１９９９年９月）

以上で述べたように、従来の地名情報抽出システムでは、テキスト中に出現する地名表記を高精度に検出することを目標としてきた。

しかし、検出・抽出した地名情報をより有効に活用するためには、単に地名表記を検出するだけでなく、地名表記の地名種別も判定できることが望まれる。ここでは、地名表記のテキスト中での意味的な役割を地名種別と呼ぶ。地名表記の地名種別としては、例えば、所在地（会社や個人宅の場所）、開催地（イベントや事件の場所）、経過地（移動の起点・終点・経由点）、話題地（ガイドや解説・感想などの対象となっている場所）などが考えられる。必要であれば、所在地をさらに会社所在地・学校所在地などのように細分化することも考えられる。

また、今日、インターネット上のＷＷＷ（World Wide Web）には、膨大な量の情報が発信されている。したがって、ＷＷＷのようなハイパーテキストデータベースを対象として、地名表記を高精度に検出するだけでなく、その地名表記の意味的な役割を表す地名種別を判定することができれば、インターネットを地名情報の有効な情報源として活用できる。

本発明は、ハイパーテキストに出現する地名表記の意味的な役割を表す地名種別を判定することが可能な地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置を提供することを目的とする。

かかる目的を達成するために本発明は以下の特徴を有することとする。

本発明にかかる地名情報抽出装置は、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して判定する第１の地名種別判定手段と、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページ中のテキストのテキストタイプを基に判定する第２の地名種別判定手段と、
の少なくとも１つの地名種別判定手段を有することを特徴とする。

本発明にかかる地名情報抽出装置は、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、地名種別を判定する地名種別判定手段と、
前記手がかり表記が出現したノードページのリンク先若しくはリンク元から、地名表記を検出する地名表記検出手段と、
を有することを特徴とする。

本発明にかかる地名情報抽出装置は、
ハイパーテキストを構成するノードページのテキストタイプを判定し、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定手段と、
前記ノードページ中から地名表記を検出する地名表記検出手段と、
を有することを特徴とする。

本発明にかかる地名情報抽出装置は、
ハイパーテキストを構成するノードページのテキスト中から地名表記を検出する地名表記検出手段と、
前記地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べるサイト構造解析手段と、
前記特定ハイパーテキスト構造に該当したノードページ群に含まれる前記地名表記について、地名表記のノードページ中での意味的な役割を表す地名種別を決定する地名種別判定手段と、
を有することを特徴とする。

本発明にかかる制御方法は、
地名情報抽出装置で行う制御方法であって、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して判定する第１の地名種別判定工程と、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページ中のテキストのテキストタイプを基に判定する第２の地名種別判定工程と、
の少なくとも１つの地名種別判定工程を前記地名情報抽出装置が行うことを特徴とする。

本発明にかかる制御方法は、
地名情報抽出装置で行う制御方法であって、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、地名種別を判定する地名種別判定工程と、
前記手がかり表記が出現したノードページのリンク先若しくはリンク元から、地名表記を検出する地名表記検出工程と、
を有することを特徴とする。

本発明にかかる制御方法は、
地名情報抽出装置で行う制御方法であって、
ハイパーテキストを構成するノードページのテキストタイプを判定し、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定工程と、
前記ノードページ中から地名表記を検出する地名表記検出工程と、
を有することを特徴とする。

本発明にかかる制御方法は、
地名情報抽出装置で行う制御方法であって、
ハイパーテキストを構成するノードページのテキスト中から地名表記を検出する地名表記検出工程と、
前記地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べるサイト構造解析工程と、
前記特定ハイパーテキスト構造に該当したノードページ群に含まれる前記地名表記について、地名表記のノードページ中での意味的な役割を表す地名種別を決定する地名種別判定工程と、
を有することを特徴とする。

本発明にかかる記録媒体は、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して判定する第１の地名種別判定処理と、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページ中のテキストのテキストタイプを基に判定する第２の地名種別判定処理と、
の少なくとも１つの地名種別判定処理をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。

本発明にかかる記録媒体は、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、地名種別を判定する地名種別判定処理と、
前記手がかり表記が出現したノードページのリンク先若しくはリンク元から、地名表記を検出する地名表記検出処理と、をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。

本発明にかかる記録媒体は、
ハイパーテキストを構成するノードページのテキストタイプを判定し、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定処理と、
前記ノードページ中から地名表記を検出する地名表記検出処理と、をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。

本発明にかかる記録媒体は、
ハイパーテキストを構成するノードページのテキスト中から地名表記を検出する地名表記検出処理と、
前記地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べるサイト構造解析処理と、
前記特定ハイパーテキスト構造に該当したノードページ群に含まれる前記地名表記について、地名表記のノードページ中での意味的な役割を表す地名種別を決定する地名種別判定処理と、をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。

本発明にかかる地図情報検索装置は、
上記記載の地名情報抽出装置と、
前記地名情報抽出装置によってハイパーテキストから検出された地名表記と地名種別とを記録する記憶手段と、
操作者の所望する地名表記、及び地名種別を入力する操作入力手段と、
地図情報を表示する表示手段と、
前記操作入力手段により入力された地名表記をキーとして、地図データベースを検索し、該地名表記の周辺地図データを読み出し、前記操作入力手段により入力された地名表記と地名種別とをキーとして、前記記憶手段を検索し、前記表示手段に、２つの検索結果を重ね合わせた表示を表示させる検索手段と、
を有することを特徴とする。

本発明によれば、ハイパーテキストに出現する地名表記の意味的な役割を表す地名種別を判定することができる。

本発明に係る第１および第２の実施形態の構成を表すブロック図である。地名表記辞書のデータ内容の例を示す図である。地名種別判定手段の構成を表すブロック図である。地名種別の手がかり表記辞書のデータ内容の例を示す図である。本発明に係る第１の実施の形態の動作を示すフローチャートである。地名種別判定手段５の動作を示すフローチャートである。第１の実施形態が処理対象とするテキストの一例を示す図である。ワークメモリ４に格納されるデータ内容の例を示す図である。ワークメモリ４に格納されるデータ内容の例を示す図である。本発明に係る第１の実施形態の動作を示すフローチャートである。処理対象のハイパーテキストの内容の例を示す図である。処理対象のハイパーテキストの内容の例を示す図である。第２の実施形態の地名種別判定手段５の構成を表すブロック図である。テキストタイプと地名種別の対応テーブルのデータ内容の例を示す図である。本発明に係る第２の実施の形態の動作を示すフローチャートである。地名種別判定手段５の動作を示すフローチャートである。地名種別判定手段５の動作を示すフローチャートである。ワークメモリ４に格納されるデータ内容の例を示す図である。ワークメモリ４に格納されるデータ内容の例を示す図である。本発明に係る第２の実施形態の動作を示すフローチャートである。本発明に係る第２の実施形態の動作を示すフローチャートである。本発明に係る第３の実施形態の構成を表すブロック図である。第３の実施形態のサイト構造解析手段の構成を表すブロック図である。特定ハイパーテキスト構造記述辞書のデータ内容の例を示す図である。第３の実施形態の地名種別判定手段５の構成を表すブロック図である。処理対象のハイパーテキストの内容の例を示す図である。処理対象のハイパーテキストの内容の例を示す図である。本発明に係る第３の実施形態の動作を表すフローチャートである。サイト構造解析手段７の動作を示すフローチャートである。地名種別判定手段５の動作を示すフローチャートである。本発明に係る第４の実施形態の構成を表すブロック図である。位置依存コンテンツデータベースのデータ内容の例を示す図である。地図情報検索システムの表示結果の例を示す図である。地図情報検索システムの表示結果の例を示す図である。本発明に係る第５、及び第６の実施形態の構成を表すブロック図である。本発明に係る第７の実施形態の構成を表すブロック図である。

次に添付図面を参照しながら本発明に係る実施の形態を詳細に説明する。

まず、本発明の第１の実施形態について、図１のブロック図を参照して詳細に説明する。

図１に示された第１の実施形態の地名情報抽出装置は、テキスト入力手段１、入力メモリ２、地名表記検出手段３、ワークメモリ４、地名種別判定手段５、結果出力手段６、制御手段８を備える。これらの各構成要素は、以下のように動作する。

テキスト入力手段１は、テキストを入力メモリ２に読み込む。入力メモリ２は、テキスト入力手段１が読み込んだテキストを格納する。

地名表記検出手段３は、入力メモリ２に格納されたテキスト中から地名表記を検出して、検出した地名表記とその出現位置の情報をワークメモリ４に書き込む。地名表記検出手段３は、図２に示すような地名表記辞書を具備し、テキスト中に出現する地名表記候補を検出すると同時に、それが確かに地名を表すものであるか否かを判断する。すなわち、テキスト中の地名表記候補の前後、あるいは、同一テキスト内に出現する共起語をこの地名表記辞書を参照して検出し、地名表記候補の曖昧性を解消する。例えば、「千葉」という地名表記候補の直後に「選手」という共起語が出現すれば、この「千葉」は人名であると解釈することができ、「県」や「市」といった共起語が出現していれば、地名であると解釈することができる。

地名種別判定手段５は、入力メモリ２に格納されたテキストを参照しながら地名表記の種別を判定し、判定結果をワークメモリ４に書き込む。

ワークメモリ４は、地名表記検出手段３によって検出された地名表記とその出現位置の情報、および、地名種別判定手段５によって判定された地名表記の種別に関する情報などを格納する。

結果出力手段６は、ワークメモリ４の内容を読み出す。制御手段８は、これらの構成要素の一連の動作を制御する。

これら各手段は、プログラム制御によって動作するコンピュータを用いて実現することができる。入力メモリ２やワークメモリ４は、コンピュータの主記憶部を用いてもよいが、磁気ディスク装置や光磁気ディスク装置などの外部記憶装置を用いてもよい。

地名表記検出手段３は、従来の地名情報抽出装置に相当し、本明細書の従来技術の項で述べたような公知の技術によって実現できる。本実施形態は、地名種別判定手段５を有する点が、従来の地名情報抽出装置と異なる。

次に、図３を参照しながら地名種別判定手段５の詳細な構成について説明する。

図３に示されるように地名種別判定手段５は、ワークメモリＩ／Ｏ部９、読み込み位置決定部１０、入力メモリ読み込み部１１、テキストバッファ１２、手がかり表記辞書記憶部１３、手がかり表記検索部１４、検索結果バッファ１５、種別判定部１６を有して構成される。

ワークメモリＩ／Ｏ部９は、ワークメモリ４から地名表記とその出現位置の情報を読み込み、読み込み位置決定部１０に転送する。また、ワークメモリＩ／Ｏ部９は、種別判定部１６により出力される地名表記の種別の判定結果をワークメモリ４に書き込む。

読み込み位置決定部１０は、ワークメモリＩ／Ｏ部９により読み込まれた地名表記とその出現位置の情報から、入力メモリ２に記録されたテキストの読み込む範囲を決定する。

入力メモリ読み込み部１１は、読み込み位置決定部１０により指定された範囲のテキストを入力メモリ２から読み込み、テキストバッファ１２に転送する。

テキストバッファ１２は、入力メモリ読み込み部１１により読み込まれたテキストを一時的に蓄積すると共に、蓄積したテキストを手がかり表記検索部１４に転送する。

手がかり表記辞書記憶部１３には、地名表記の種別を判定する際の手がかりとなる手がかり表記を登録した辞書（以下、手がかり表記辞書と呼ぶ）が記憶されている。この手がかり表記辞書の一例を図４に示す。手がかり表記辞書には、地名種別２０と、その地名種別の判断材料となる手がかり表記とが対応づけられている。手がかり表記２１の欄に含まれる表記をテキスト中から見つけることで、その手がかり表記２１に対応する地名種別２０を知ることができる。

手がかり表記検索部１４は、テキストバッファ１２からテキストを読み込むと共に、手がかり表記辞書記憶部１３から図４に示された手がかり表記辞書を読み込み、テキスト中に出現する地名表記の種別を判定するための手がかりとなる手がかり表記を検索する。そして、手がかり表記辞書を参照して検出した手がかり表記から地名種別を判定し、判定結果を検出結果バッファ１５に書き込む。

種別判定部１６は、検索結果バッファ１５に書き込まれた地名種別が一種類であった場合には、その地名種別をそのままワークメモリＩ／Ｏ部９を介してワークメモリ４に書き込む。また、手がかり表記検索部１４により複数個の手がかり表記が検索され、複数個の地名種別が検索結果バッファ１５に書き込まれた場合には、種別判定部１６は、地名表記に対する地名種別の最終判定を行う。その最終判定方法として、地名表記に最も近い位置にある手がかり表記の地名種別に決定する方法、検索された手がかり表記から最も多く判定された地名種別を最終的な地名種別とする方法、複数の地名種別の可能性がある場合には、判定できずといった結果を出力する方法などが挙げられる。

次に、図５及び図６に示されたフローチャートを参照しながら、上記構成からなる実施形態による一連の処理動作を説明する。なお、図５は、本実施形態の全体処理の流れを示すフローチャートの一例であり、図６は、図５のステップＳ１０３の詳細、すなわち、地名種別判定手段５の実現方法の一例を示したフローチャートである。

まず、図５を参照しながら、全体の動作を説明する。ステップＳ１０１で、テキスト入力手段１により入力メモリ２にテキストを読み込む。次にステップＳ１０２で、地名表記検出手段３により、テキスト中から地名表記の出現位置を検出し、検出結果をワークメモリ４に保存する。ステップＳ１０３では、地名種別判定手段５により、地名表記の出現位置の前後のテキストを解析することで、地名表記の種別を判定し、判定結果をワークメモリ４に書き込む。ステップＳ１０４では、結果出力手段６により、ワークメモリ４から地名表記とその種別を出力する。

次に、図６に示されたフローチャートを参照しながら、地名種別判定手段５の一連の処理動作について説明する。まず、ステップＳ１１１で、ワークメモリ４から地名表記２２とその出現位置２３の情報を得る。詳細には、ワークメモリＩ／Ｏ部９がワークメモリ４から地名表記２２とその出現位置情報２３とを読み出し、読み込み位置決定部１０に転送する。

次に、ステップＳ１１２で、入力メモリ２から地名表記の出現位置の前後のテキストを得る。詳細には、読み込み位置決定部１０が、地名表記の出現位置情報２３に基づき、読み込む対象となる地名表記の出現位置の前後のテキストの範囲を決定し、入力メモリ読み込み部１１に指示する。例えば、地名表記の出現位置の前後１０文字ずつを取り込むようなものであってもよいし、地名表記が含まれる文、文節、段落などを取り込むようなものであってもよい。入力メモリ読み込み部１１は、この範囲指定に基づいて入力メモリ２からテキストの指定された範囲を読み込み、テキストバッファ１２に書き込む。

ステップＳ１１３では、地名表記の出現位置の前後のテキストと、手がかり表記辞書記憶部１３から参照した手がかり表記辞書とを照合する。より詳細には、手がかり表記検索部１４が、テキストバッファ１２から読み込んだテキスト中に、手がかり表記辞書記憶部１３から読み込んだ手がかり表記辞書に登録された手がかり表記を検索する。そして、検索した手がかり表記から地名表記の種別を判定する。判定結果は、検索結果バッファ１５に書き込む。

ステップＳ１１４では、ワークメモリ４に地名種別２４の情報を書き込む。より詳細には、種別判定部１６が、最終的な地名表記の種別を判定し、判定結果をワークメモリＩ／Ｏ部９を介してワークメモリ４に書き込む。種別判定部１６は、検索結果バッファ１５から読み出した地名種別が一種類であった場合には、その地名種別をそのままワークメモリＩ／Ｏ部９を介してワークメモリ４に書き込む。また、手がかり表記検索部１４により複数個の手がかり表記が検索され、複数個の地名種別が検索結果バッファ１５に書き込まれた場合には、種別判定部１６は、検索結果バッファ１５に書き込まれた地名種別から最終的な地名表記の種別を判定し判定結果をワークメモリＩ／Ｏ部９を介してワークメモリ４に書き込む。判定方法として、地名表記に最も近い位置にある手がかり表記の地名種別に決定する方法、検索された手がかり表記から最も多く判定された地名種別を最終的な地名種別とする方法、複数の地名種別の可能性がある場合には、判定できずといった結果を出力する方法などが挙げられる。なお、ステップＳ１１３の段階で、手がかり表記辞書との照合に失敗した場合は、ステップＳ１１４では、判定失敗という結果が、ワークメモリ４に書き込まれることになる。

ここで、具体例を挙げて上記動作をより詳細に説明する。一例として、図７に示された「２０世紀最後のオリンピックは、２０００年９月１５日から１０月１日までの１７日間、シドニーで開催される。」というテキストが入力メモリ２に格納されたものとする。

地名表記検出手段３が、入力メモリ２からテキストを読み込み、テキスト中に出現する地名表記を検出することで、上述したテキストの例では、図８に示されるように、地名表記２２として「シドニー」、その地名表記の出現位置２３として「４１文字目〜４４文字目」という情報がワークメモリ４に書き込まれる。

次に、地名種別検出手段５が、対象テキストの所定の範囲を検索し、地名表記の手がかりとなる手がかり表記を検索して、検索結果から地名表記の種別を判定する。上述した例では、地名表記「シドニー」と、その出現位置「４１文字目〜４４文字目」がまずワークメモリＩ／Ｏ部９により読み込み位置決定部１０に取り込まれ、読み込み位置決定部１０の指示に基づき、「シドニー」の前後のテキストとして「１日までの１７日間、シドニーで開催される。」が入力メモリ読み込み部１１によりテキストバッファ１２に書き込まれる（ここでは、地名表記の前後１０文字ずつを取り込む形で例を示したが、文字数は任意の値であってもよいし、文字数ではなく文、文節、段落などの単位で取り込むようにしてもよい）。次に、取り込まれたテキスト中に、手がかり表記辞書記憶部１３の手がかり表記辞書に登録された手がかり表記が出現していないかを手がかり表記検索部１４が検索する。この例では、「開催」という手がかり表記が見つかる。手がかり表記検索部１４は、この「開催」という手がかり表記から地名表記の種別として「開催地」を選択し、選択結果を検索結果バッファ１５に書き込む。種別判定部１６は、ワークメモリＩ／Ｏ部９を介してワークメモリ４に、地名表記の種別を書き込む。その結果、ワークメモリ４には、図９に示されるように地名表記２２「シドニー」、出現位置２３「４１文字目〜４４文字目」、地名種別「開催地」という情報が書き込まれる。

なお、上述した第１の実施形態の変形例として、入力メモリ２のテキスト中から、地名表記の種別の手がかりとなる表記をまず検出し、地名表記検出手段３により、手がかりとなる表記の出現位置の前後のテキストから地名表記を検出するものであってもよい。

このような処理手順であっても地名表記と、その地名表記のテキスト上での種別とを高精度に検出することができる。

なお、この変形例は、図１に示された第１の実施形態と同一の構成で実現することができる。また、地名種別判定手段５の構成についても図３と同一であるが、この変形例では、地名表記がまだ検出されていない段階で動作することとなるので、読み込み位置決定部１０は、地名表記の位置情報に基づいて読み込み位置を決定するのではなく、単に対象テキストを読み込むことになる。

図１０に示されたフローチャートを参照しながら、この変形実施例による動作例を説明する。まず、ステップＳ１２１で、入力メモリ２にテキストを読み込む。次にステップＳ１２２で、地名種別判定手段５により、入力メモリ２のテキスト中から、地名表記の種別の手がかりとなる手がかり表記を検出する。ステップＳ１２３では、地名表記検出手段３により、手がかりとなる表記の出現位置の前後のテキストから地名表記を検出する。ステップＳ１２４では、結果出力手段６により、ワークメモリ４から地名表記とその種別を出力する。

図５のフローチャートでは、地名表記検出手段３によって地名表記を見つけてから、地名種別判定手段５によって手がかり表記を見つけて、地名表記の種別を判定していた。これに対して、図１０のフローチャートでは、先に地名種別判定手段５によって手がかり表記を見つけ、その後で、地名表記検出手段３によって地名表記を見つける。したがって、前述の例文「２０世紀最後のオリンピックは、２０００年９月１５日から１０月１日までの１７日間、シドニーで開催される。」を対象とした場合、図１０のフローチャートの手順によれば、ステップＳ１２２において、「開催」が手がかり表記として検出され、ステップＳ１２３において、「開催」の前後のテキストから「シドニー」という地名表記が検出されることになる。

次に添付図面を参照しながら本発明に係る第２の実施形態について説明する。

上述した第１の実施形態では、地名情報抽出装置の処理対象として、個々に独立したテキスト、いわゆるプレインテキストを扱った。以下に述べる第２の実施形態では、プレインテキストではなく、ハイパーテキストを処理の対象とする。

第２の実施形態の動作を説明する前に、処理対象とするハイパーテキストについて簡単に説明しておく。図１１及び１２はハイパーテキストの一例である。

ハイパーテキストは、ノードページをテキストの１単位として、それらの間にリンクが設けられた形式をしている。図１１における３０と３１は各々、ハイパーテキストを構成する１ノードページであり、それらの間をつなぐ矢印３３はリンクを表している。リンク３３に着目するならば、ページ３０はリンク元ページ、ページ３１はリンク先ページとなる。このようなハイパーテキストは、独自のデータ構造をもつものもあるが、最近はＳＧＭＬ（Standard Generalized Markup Language)、ＨＴＭＬ（Hyper Text Markup Language）、ＸＭＬ（Extensible Markup Language )などのマークアップ言語による記述が普及している。特にインターネット上にはＷＷＷと呼ばれる大規模ハイパーテキストが存在し、そのなかではＨＴＭＬによる記述がスタンダードになっている。図１２は、図１１のノードページ３０をＨＴＭＬで記述した一例である。図１２において、＜＞で囲まれた部分はマークアップタグであり、ＨＴＭＬではＡタグで囲まれた文字列がリンク元キー文字列を表す。すなわち、図１１と図１２における文字列「９月のイベント」は、リンク元キー文字列である。さらに、ＡタグのなかでＨＲＥＦの直後に書かれたＨＴＭＬテキスト名が、そのリンク先のノードページを意味する。すなわち、ページ３０のリンク元キー文字列「９月のイベント」から「Event09」という名前のＨＴＭＬテキスト（ノードページ３１がこれに相当する）へジャンプできることを意味している。なお、ここではＨＴＭＬで記述されたハイパーテキストを例にあげて説明したが、本発明では、対象とするハイパーテキストの記述形式をＨＴＭＬに限定するものではない。ＳＧＭＬやＸＭＬで記述されたものでもよいし、独自のデータ構造を用いたハイパーテキストであってもかまわない。

次に、第２の実施形態の構成について説明する。本実施形態の構成は、図１に示された第１の実施形態と同一である。ただし、処理対象がプレインテキストからハイパーテキストに変わるため、テキスト入力手段１と地名種別判定手段５に関して、ハイパーテキストに固有の処理が付け加わる。一方、地名表記検出手段３は、入力メモリ２に読み込まれたハイパーテキストのノードページを、プレインテキストと同じようにみなして処理するため、第１の実施形態の場合と同じでよい。

テキスト入力手段１に関しては、入力対象がプレインテキストからハイパーテキストに変わることで、ハイパーテキストのリンクをたどって、次に読み込むノードページのテキストを決定する機能が付け足される必要が生じる。すなわち、既に入力メモリ２に読み込まれているノードページがあるとき、次に読み込むノードページとして、入力メモリ２中のノードページのリンク元ページあるいはリンク先ページをたどることになる。このようなリンクを順にたどりながら、次に読み込むノードページ（テキスト）を決定する機能は、従来、Netscape NavigatorやMicrosoft Internet Explorer など広く普及したＷＷＷブラウザ、あるいは、オートパイロットやＷＷＷロボットと呼ばれるＷＷＷページの自動収集ツールなどで実用化されている。

次に、地名種別判定手段５に関しては、ハイパーテキストおよびＨＴＭＬのようなマークアップテキストに特有の構造を利用した、地名種別の判定方法が考えられる。すなわち、読み込んだハイパーテキストのテキストタイプを基にして地名表記の種別を判定する方法と、対象テキストのリンク元ページやリンク先ページの内容を手がかりとして地名表記の種別を判定する方法である。

ここで、図１３を参照しながら本実施形態の地名種別判定手段５の詳細な構成について説明する。

図１３に示されるように地名種別判定手段５は、ワークメモリＩ／Ｏ部５０、読み込み位置決定部５１、入力メモリ読み込み部５２、第１テキストバッファ５３、第２テキストバッファ５４、手がかり表記辞書記憶部５５、手がかり表記検索部５６、第１検索結果バッファ５７、テキストタイプ判定部５８、テキストタイプ−地名種別対応テーブル記憶部５９、対応テーブル検索部６０、第２検索結果バッファ６１、最終判定部６２を有して構成される。

ワークメモリＩ／Ｏ部５０は、ワークメモリ４から地名表記とその出現位置の情報を読み込み、読み込み位置決定部５１に転送する。また、ワークメモリＩ／Ｏ部５０は、最終判定部６２により出力される地名表記の種別の判定結果をワークメモリ４に書き込む。

読み込み位置決定部５１は、ワークメモリＩ／Ｏ部５０により読み込まれた地名表記とその出現位置の情報から、入力メモリ２に蓄積されたノードページの読み込み範囲を決定する。なお、本実施形態では、第１テキストバッファ５３に読み込むノードページと、第２テキストバッファ５４に読み込むノードページとが異なる場合もある。

入力メモリ読み込み部５２は、読み込み位置決定部５１により指定されたノードページを入力メモリ２から読み込み、指定されたテキストバッファ（第１テキストバッファ５３、第２テキストバッファ５４）に転送する。

第１テキストバッファ５３は、入力メモリ読み込み部５２により読み込まれたノードページを一時的に蓄積すると共に、蓄積したノードページを手がかり表記検索部５６に転送する。

第２テキストバッファ５４は、入力メモリ読み込み部５２により読み込まれたノードページを一時的に蓄積すると共に、蓄積したノードページをテキストタイプ判定部５８に転送する。

手がかり表記辞書記憶部５５には、第１の実施形態と同様に、地名表記の種別を判定する際の手がかりとなる手がかり表記を登録した辞書（手がかり表記辞書）が記憶されている。

手がかり表記検索部５６は、第１テキストバッファ５３からノードページを読み込むと共に、手がかり表記辞書記憶部５５から手がかり表記辞書を読み込み、ノードページ中に出現する手がかり表記を検索する。そして、検索した手がかり表記に対応する地名種別を手がかり表記辞書を参照して判定し、判定結果を第１検索結果バッファ５７に書き込む。

テキストタイプ判定部５８は、第２テキストバッファ５４からノードページを読み込み、そのテキストを解析してテキストタイプを判定する。テキストタイプの判定方法は、特開２０００−０２９９０２号公報「構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体」に記載されている公知の技術によって実現できる。この公知の技術によれば、ＨＴＭＬなどのマークアップテキストに関して、タグ情報、ＵＲＬ文字列、キーワードなどの特徴に着目して、そのテキストタイプ（例えば、企業ホームページ、イベント情報ページ、製品カタログページなど）を自動判定することが可能である。

テキストタイプ−地名種別対応テーブル記憶部５９には、図１４に示されたテーブル（以下、テキストタイプ−地名種別対応テーブルという）が記録されている。例えば、テキストタイプが企業ホームページであると判定されたテキスト中に出現した地名表記の種別は「所在地」、イベント情報ページであると判定されたテキスト中に出現した地名表記の種別は「開催地」といった具合である。

対応テーブル検索部６０は、テキストタイプ判定部５８により判定されたテキストタイプに対応する地名種別をテキストタイプ−地名種別対応テーブルから検出する。検出した地名種別は、地名種別候補として、第２検索結果バッファ６１に登録する。

最終判定部６２は、第１検索結果バッファ５７に書き込まれた手がかり表記を判断材料とした地名種別候補と、第２検索結果バッファ６１に書き込まれたテキストタイプを判断材料とした地名種別候補とを基に、最終的な地名表記の種別を判定する。

なお、ここでは、手がかり表記検索部５６による手がかり表記の検索は、リンク元ページのテキスト全体から行っているが、リンク元ページからリンク元キー文字列を抽出して、この中から手がかり表記を検出するものであってもよいし、リンク元キー文字列の前後一定範囲のテキストから抽出するものであってもよいし、地名表記の出現したノードページのリンク元ページ、リンク先ページの両方を対象として、手がかり表記を検索するものであってもよい。

次に、図１５〜１７に示されたフローチャートを参照して、ハイパーテキストを処理対象とした本実施形態の一連の動作を説明する。なお、図１５は、本実施形態の全体の動作を表すフローチャートであり、図１６は、図１５に示されたステップＳ１３３の詳細な処理動作を示すフローチャートであり、図１７は、図１５に示されたステップＳ１３５の詳細な処理動作を示すフローチャートである。

まず、図１５に示されたフローチャートを参照しながら本実施形態の全体の動作を説明する。ステップＳ１３１で、テキスト入力手段１により、ハイパーテキストを構成するノードページを入力メモリ２に読み込む。次にステップＳ１３２では、地名表記検出手段３により、入力メモリ２のノードページ中から地名表記の出現位置を検出する。ステップＳ１３３では、地名種別判定手段５により、入力メモリ２中のノードページのテキストのテキストタイプを手がかりとして、地名表記の種別を判定する。ステップＳ１３４では、入力メモリ２中のノードページに対するリンク元ページを、入力メモリ２に読み込む（この時、リンク元ページが複数あれば、それら複数ページを読み込む）。ステップＳ１３５では、地名種別判定手段５により、入力メモリ２に読み込んだリンク元ページのテキスト内容を手がかりとして、地名表記の種別を判定する。ステップＳ１３６では、ステップＳ１３３にて検出した地名表記の種別、及びステップＳ１３５にて検出した地名表記の種別を考慮して最終的な地名表記の種別を判定する。

次に、図１６に示されたフローチャートを参照しながら、上述したステップＳ１３３の詳細、すなわち、地名種別判定手段５の実現方法の一例を説明する。まず、ステップＳ１４１で、入力メモリ２内のノードページのテキストを解析して、そのテキストタイプを判定する。テキストタイプ判定部５８が第２テキストバッファ５４からノードページを読み込み、このノードページのテキストのテキストタイプを判定する。テキストタイプの判定方法としては、ＨＴＭＬなどのマークアップテキストに関して、タグ情報、ＵＲＬ文字列、キーワードなどの特徴に着目して、そのテキストタイプ（例えば、企業ホームページ、イベント情報ページ、製品カタログページなど）を判定する方法が挙げられる。

次にステップＳ１４２で、判定結果のテキストタイプに対応する地名種別を決定する。より詳細には、対応テーブル検索部６０がテキストタイプ−地名種別対応テーブルから、テキストタイプ判定部５８により判定されたテキストタイプに対応する地名種別を検索する。図１４に示されたテキストタイプ−地名種別対応テーブルによれば、テキストタイプが「イベント情報ページ」と判定されたテキストに出現した地名表記の種別は「開催地」であると判定できる。

ステップＳ１４３では、地名種別判定手段５の第２検索結果バッファ６１に、テキストタイプ−地名種別対応テーブルから検索した地名種別を地名種別候補として書き込む。

なお、ステップＳ１４１の段階でテキストタイプを判定できなかった場合や、ステップＳ１４２の段階でテキストタイプに対応する地名種別が存在しなかった場合は、ステップＳ１４３では判定失敗という結果が第２検索結果バッファ６１に書き込まれる。

次に、図１７に示されたフローチャートを参照しながら、図１５のステップＳ１３５の詳細、すなわち、地名種別判定手段５の実現方法の一例を示したフローを説明する。まず、ステップＳ１５１で、入力メモリ２から地名表記の出現したノードページのリンク元ページを読み込む。より詳細には、読み込み位置決定部５１が、ワークメモリ４から読み込んだ地名表記の出現位置情報に基づき、その地名表記の出現するノードページのリンク元ページを指定し、入力メモリ読み込み部５２が、この指定されたリンク元ページを入力メモリ２から読み込み、第１テキストバッファ５３に書き込む。

次に、ステップＳ１５２で、リンク元キー文字列と手がかり表記辞書とを照合する。より詳細には、手がかり表記検索部５６が、第１テキストバッファ５３からリンク元ページを読み込むと共に、手がかり表記辞書記憶部５５から手がかり表記辞書を読み込み、読み込んだリンク元ページのリンク元キー文字列から手がかり表記辞書に登録された手がかり表記を検索する。そして、検索した手がかり表記から手がかり表記辞書を参照して地名表記の種別を判定する。なお、リンク元キー文字列を抽出するには、タグ情報に着目すればよい。ＨＴＭＬテキストであれば、Ａタグで囲まれた文字列がリンク元キー文字列である。また、ここでは、リンク元ページからリンク元キー文字列を抽出することにしているが、リンク元ページ全体を扱うことにしてもよいし、リンク元キー文字列の前後一定範囲のテキストを抽出するようにしてもよい。

ステップＳ１５３では、手がかり表記検索部５６が、第１検索結果バッファ５７に、判定した種別を地名種別候補として書き込む。

なお、ステップＳ１５１の段階でリンク元ページが読み込めなかった場合や、ステップＳ１５２の段階で手がかり表記を見つけることができなかった場合は、ステップＳ１５３では、判定失敗という結果が書き込まれる。

ここで、図１１に示された具体例を用いて図１５に示された動作手順を詳細に説明する。ステップＳ１３１では、ノードページ３１が、入力メモリ２に読み込まれる。ステップＳ１３２では、地名表記として「東京都港区Ｎ社ビル」（ノードページ３１の２３文字目〜３１文字目）が検出される。図１８に示されるように地名表記２２「東京都港区Ｎ社ビル」、その出現位置２３「ノードページ３１、２３文字目〜３１文字目」という情報が、地名表記検出手段３によってワークメモリ４に書き込まれる。

ステップＳ１３３では、ノードページ３１のテキストタイプが判定される。テキストタイプ判定部５８が第２テキストバッファ５４からノードページを読み込み、このノードページのテキストタイプを判定する。そして、判定結果のテキストタイプに対応する地名種別を決定する。対応テーブル検索部６０が、テキストタイプ−地名種別対応テーブルから、テキストタイプ判定部５８により判定されたテキストタイプに対応する地名種別を検索する。検索された地名種別は、地名種別候補として第２検索結果バッファ６１に書き込まれる。図１１に示されたノードページのテキストタイプが「イベント情報ページ」と判定された場合、図１４の対応テーブルにより地名種別は「開催地」だと判定される。判定結果は、第２検索結果バッファ６１に記録される。

ステップＳ１３４では、ノードページ３１のリンク元ページ３０が、入力メモリ２に読み込まれる。

次にステップＳ１３５では、ノードページ３０のリンク元キー文字列「９月のイベント」を手がかりとして、地名表記の種別を判定する。手がかり表記検索部５６が第１テキストバッファに書き込まれたリンク元ページからリンク元キー文字列「９月のイベント」を検出し、この「９月のイベント」と手がかり表記辞書とを照合する。その結果、「イベント」という手がかり表記が検出され、これに対応する地名種別は「開催地」だと判定される。判定結果は、第１結果バッファ５７に地名種別候補として書き込まれる。

ステップＳ１３６では、対応テーブル検索部６０により検索された「開催地」と、手がかり表記検索部５６により検索された「開催地」とが一致しているので、最終判定部６２が最終的に「開催地」を最終判定結果とする。その結果、最後のステップＳ１３７で、図１９に示されるように、地名表記２２「東京都港区Ｎ社ビル」、出現位置２３「ノードページ３１、２３文字目〜３１文字目」、地名種別２４「開催地」という情報がワークメモリ４に書き込まれる。

なお、上述した実施形態では、ノードページ中に出現する手がかり表記を検出することによる地名表記の種別の判定と、テキストタイプを判定することによる地名表記の種別の判定とを同時に行い、これらの判定結果を基に、地名表記の種別を決定していた。この他に、テキストタイプを判定することによる地名種別の判定をまず行って、テキストタイプの判定に失敗した場合に、テキスト中に出現する手がかり表記を検出して、地名表記の種別を判定するものであってもよい。また、テキストタイプを判定することによる地名種別の判定、及び手がかり表記を検出することによる地名種別の判定のどちらか一方だけを行って、地名表記の種別を判定するものであってもよい。例えば、テキストタイプを地名種別判定の手がかりとする方法だけを用いるのならば、図１３の構成に関して、第１テキストバッファ５３、手がかり表記辞書記憶部５５、手がかり表記検索部５６、第１検索結果バッファ５７は不要となる。逆に、手がかり表記を地名種別判定の手がかりとする方法だけを用いる方法とするならば、第２テキストバッファ５４、テキストタイプ判定部５８、テキストタイプ−地名種別対応テーブル記憶部５９、対応テーブル検索部６０、第２検索結果バッファ６１、は不要となる。また、フローチャートに関しても、図１５の手順の他に、ステップＳ１３３をステップＳ１３５の後になるように入れ替えたものや、ステップＳ１３３とステップＳ１３４〜ステップＳ１３５の一方を削ったものや、ステップＳ１３３で成功したらステップＳ１３４〜ステップＳ１３５をスキップするものなどのバリエーションが考えられる。

また、上述した第１の実施形態においては、地名表記を検出してから地名種別を判定する処理手順（図５のフローチャート）と、地名種別の手がかりを得てから地名表記を検出する処理手順（図１０のフローチャート）という２通りが考えられた。ここで述べた第２の実施形態においても同様に、２通りの処理手順が考えられる。上述した図１５のフローチャートは、地名表記を検出してから地名種別を判定する処理手順である。次に、もう一方の、地名種別の手がかりを得てから地名表記を検出する処理手順として、図２０のフローチャートに示されるものと、図２１のフローチャートに示すものとを説明する。

図２０のフローチャートでは、まず、ステップＳ１６１にて、ハイパーテキストを構成するノードページを、入力メモリ２から読み込む。次に、ステップＳ１６２にて地名種別判定手段５により、入力メモリ２中のノードページから、地名表記の種別の手がかりとなる表記を検出する。ステップＳ１６３では、入力メモリ２内のノードページに対するリンク先ページを、入力メモリ２に読み込む。このとき、リンク先ページが複数ある場合には、地名種別の手がかり表記をリンク元キー文字列に含むものを選択する（地名種別の手がかり表記をリンク元キー文字列に含むものがなければ、手がかり表記がリンク元キー文字列の最も近くにあるものを選択する）。ステップＳ１６４では、地名表記検出手段３により、入力メモリ２中のリンク先ページから、地名表記を検出する。ステップＳ１６５では、ワークメモリ４に地名表記とその種別の情報を書き込む。なお、ノードページに手がかり表記が複数存在し、それらの手がかり表記がリンク元キー文字列に設定されている場合、それらの手がかり表記のリンク先すべてを参照して地名表記を検出する。

図１１の例を用いて図２０のフローチャートに示した動作を説明すると、次のようになる。まず、ステップＳ１６１で図１１のノードページ３０が読み込まれ、ステップＳ１６２で「イベント」が手がかり表記として検出される。「イベント」は複数あるが、そのうちの最初の「９月のイベント」について、ステップＳ１６３では、リンク先ページ３１が読み込まれる。ステップＳ１６４では、ノードページ３１から「東京都港区Ｎ社ビル」が地名表記として検出される。ステップＳ１６５では、地名表記「東京都港区Ｎ社ビル」、出現位置「ノードページ３１、２３文字目〜３１文字目」、地名種別「開催地」という情報がワークメモリ４に書き込まれる。なお、図１１に示されたノードページ３１には「９月のイベント」、「１０月のイベント」、「１１月のイベント」と複数の手がかり表記が存在する。図１１には、このうち「９月のイベント」のリンク先として、ノードページ３１だけが記載されているが、「１０月のイベント」、「１１月のイベント」についてもリンクが張られている場合には、リンク先を参照して地名表記を検出するものであるとよい。

一方、図２１のフローチャートでは、まず、ステップＳ１６６にて、ハイパーテキストを構成するノードページを、入力メモリ２に読み込む。次に、ステップＳ１６７で、地名種別判定手段５により、入力メモリ２内のノードページのテキストが地名表記の種別の手がかりとなるテキストタイプであるかを判定する。もし、地名種別の手がかりとなるテキストタイプであるならば、ステップＳ１６８にて、地名表記検出手段３により、そのノードページ中から地名表記を検出する。最後にステップＳ１６９でワークメモリ４に地名表記とその種別の情報とを書き込む。

図１１の例を用いて図２１のフローチャートに示した動作を説明すると、次のようになる。まず、ステップＳ１６６で、図１１のノードページ３１が読み込まれる。ステップＳ１６７で、ノードページ３１のテキストタイプが「イベント情報ページ」であると判定される。その結果、図１４の対応テーブルにより地名種別は「開催地」だと判定される。ステップＳ１６８では、ノードページ３１から地名表記として「東京都港区Ｎ社ビル」が検出される。最後に、ステップＳ１６９で、地名表記２２「東京都港区Ｎ社ビル」、出現位置２３「ノードページ３１、２３文字目〜３１文字目」、地名種別２４「開催地」という情報がワークメモリに書き込まれる。

次に添付図面を参照しながら本発明に係る第３の実施形態について説明する。

本発明に係る第３の実施形態は、図２２に示されるように、テキスト入力手段１、入力メモリ２、地名表記検出手段３、ワークメモリ４、地名種別判定手段５、結果出力手段６、サイト構造解析手段７、制御手段８を備える。これらの各構成要素は、以下のように動作する。

テキスト入力手段１は、ハイパーテキストを構成するノードページのテキストを入力メモリ２に読み込む。

入力メモリ２は、テキスト入力手段１が読み込んだテキストを格納する。

地名表記検出手段３は、入力メモリ２に格納されたテキスト中から地名表記を検出して、検出した地名表記とその出現位置の情報をワークメモリ４に書き込む。

サイト構造解析手段７は、入力メモリ２とワークメモリ４を参照しながら、地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べ、その結果をワークメモリ４に書き込む。

地名種別判定手段５は、入力メモリ２とワークメモリ４を参照しながら、特定ハイパーテキスト構造に該当したノードページ群に含まれる地名表記の種別を決定し、その結果をワークメモリ４に書き込む。

ワークメモリ４は、地名表記検出手段３によって検出された地名表記とその出現位置の情報、サイト構造解析手段７による解析結果、および、地名種別判定手段５によって判定された地名表記の種別に関する情報などを格納する。結果出力手段６は、ワークメモリ６の内容を読み出す。

制御手段８は、これらの構成要素の一連の動作を制御する。

これらの各手段は、プログラム制御によって動作するコンピュータを用いて実現できる。入力メモリ２やワークメモリ４は、コンピュータの主記憶部を用いてもよいが、磁気ディスク装置や光磁気ディスク装置などの外部記憶装置を用いてもよい。地名表記検出手段３は、従来の地名情報抽出装置に相当し、本明細書の従来技術の項で述べたような公知の技術によって実現できる。本実施形態は、地名種別判定手段５とサイト構造解析手段７を有する点が、従来の地名情報抽出装置と異なる。

次に、サイト構造解析手段７の詳細な構成について図２３を参照しながら説明する。図２３に示されるようにサイト構造解析手段７は、ワークメモリＩ／Ｏ部７１、地名出現位置情報バッファ７２、特定ハイパーテキスト構造記述辞書記憶部７３、マッチングルール適用部７４、入力メモリ読み込み部７５、テキストバッファ７６、判定結果バッファ７７を有して構成される。

ワークメモリＩ／Ｏ部７１は、地名表記検出手段３により検出され、ワークメモリ４に記録された地名表記、及びその出現位置の情報を読み出し、地名出現位置情報バッファ７２に転送する。

地名出現位置情報バッファ７２には、ワークメモリＩ／Ｏ部７１により読み出された地名表記、及びその出現位置の情報とが書き込まれる。

特定ハイパーテキスト構造記述辞書記憶部７３には、図２４に示された、特定ハイパーテキスト構造に該当するハイパーテキスト構造であるか否かを検出するためのマッチングルール３５と、そのマッチングルールに該当する特定ハイパーテキスト構造のテキスト中に出現する地名表記の種別を決定するための地名種別決定ルール３６とが、ルール番号３４に対応付けられて記録されている。

マッチングルール適用部７４は、特定ハイパーテキスト構造記述辞書記憶部７３からマッチングルール３５を一つずつ取り出し、このマッチングルールを適用するために必要となるノードページ群を、地名出現位置情報バッファ７２からの地名表記の出現位置を基にして算出し、算出したノードページ群の参照範囲の指定を入力メモリ読み込み部７５に指示する。また、この指示に従い、入力メモリ読み込み部７５により読み込まれ、テキストバッファ７６に蓄積されたノードページ群を参照して、特定ハイパーテキスト構造記述辞書記憶部７３から読み出したマッチングルール３５に該当するノードページ群であるか否かを検出する。マッチングルール適用部７４によるマッチングルールの適用結果は、判定結果バッファ７７に記録され、全てのマッチングルールの適用が終了すると、記録した判定結果をワークメモリＩ／Ｏ部７１を介してワークメモリ４に記録する。即ち、サイト構造解析手段７による解析によりワークメモリ４には、どのノードページ群がどの特定ハイパーテキスト構造を満たしたかといった情報（ノードページ群は、ノードページの識別番号のリストで示され、特定ハイパーテキスト構造も図２４の辞書に対応するルール番号で示される）が書き込まれる。

次に、地名種別判定手段５の詳細な構成について図２５を参照しながら説明する。図２５に示されるように本実施形態の地名種別判定手段５は、ワークメモリＩ／Ｏ部８１、サイト構造解析結果バッファ８２、特定ハイパーテキスト構造記述辞書記憶部７３、地名種別決定ルールマッチング部８３、入力メモリ読み込み部８５、テキストバッファ８６、判定結果バッファ８７を有して構成される。

ワークメモリＩ／Ｏ部８１は、サイト構造解析手段７による解析結果をワークメモリ４から取り出し、サイト構造解析結果バッファ８２に記録する。

特定ハイパーテキスト構造記述辞書記憶部７３には、上述したように特定ハイパーテキスト構造に該当するハイパーテキスト構造であるか否かを検出するためのマッチングルール３５と、そのマッチングルールに該当する特定ハイパーテキスト構造のテキスト中に出現する地名表記の種別を決定するための地名種別決定ルール３６とが、ルール番号３４に対応付けられて記録されている。

地名種別決定ルールマッチング部８３は、まず、サイト構造解析結果バッファ８２に記録された、処理対象のノードページ群が該当するマッチングルールの番号を参照し、特定ハイパーテキスト構造記述辞書記憶部７３にその番号に対応付けて登録された地名種別決定ルールを適用するために必要となる該ノードページ群を指定する情報を入力メモリ読み込み部８４に転送する。次に、この指定により入力メモリ読み込み部８４により入力メモリ２から読み込まれ、テキストバッファに記録されたノードページ群に前記地名種別決定ルールを適用して、地名表記の種別を判定する。判定結果は判定結果バッファ８６に記録される。サイト構造解析手段７により対象ノードページ群に適用可能と判断された全てのマッチングルールに対応する地名種別決定ルールの適用が終了すると、判定結果をワークメモリＩ／Ｏ部８１を介してワークメモリ４に書き込む。即ち、地名種別判定手段５によってワークメモリ４には、地名表記の出現箇所に対応させて、地名種別が書き込まれる。

上記構成からなる本実施形態は、ハイパーテキスト構造が有する特有の構造に着目し、処理対象ノードページが、予め定めた特定の構造に該当するノードページ群に含まれるノードページであった場合には、このノードページに出現する地名表記の種別を、予め定めた特定のルールで判定することにより、地名表記の種別をより高精度に判定することを目的としている。

この特定の構造に該当するノードページ群であるか否かを判定するためのマッチングルール３５と、このマッチングルール３５に該当したノードページ群に出現する地名表記の種別を判定するための地名種別決定ルール３６としては、図２４に示されるものが挙げられる。サイト構造解析手段７、及び地名種別判定手段５の特定ハイパーテキスト構造記述辞書記憶部７３には、この図２４に示されたマッチングルール３５と、地名種別決定ルール３６とがルール番号に対応付けられて記録されている。

ここで、図２４に示されたマッチングルール３５に該当するハイパーテキスト構造での地名種別決定方法を具体例を挙げて説明する。図２６は図２４におけるルール番号１の特定ハイパーテキスト構造に該当し、図２７は図２４におけるルール番号２の特定ハイパーテキスト構造に該当する。

図２６のハイパーテキスト構造が図２４の第１のマッチングルールに該当することを説明する。第１のマッチングルールの第１条件は、図２６のノードページ３７がＸ、ノードページ３８がＹ、ノードページ３９がＺという対応関係になる。マッチングルールの第２条件は、図２６におけるノードページ３８内のリンク元キー文字列４１における「関東」が地名表記Ａに該当する。マッチングルールの第３条件は、図２６におけるノードページ３９に含まれる「東京都港区」「東京都府中市」「神奈川県川崎市」「群馬県前橋市」「栃木県日光市」などが、地名表記Ｂｉに該当する。マッチングルールの第４条件は、「東京都港区」「東京都府中市」「神奈川県川崎市」「群馬県前橋市」「栃木県日光市」などの地名表記が、地名の階層関係において「関東」の下位に位置することに対応する。従って、サイト構造解析手段７は、図２６のノードページ３７・３８・３９が、図２４の第１番目の特定ハイパーテキスト構造のマッチングルールを満たすことを検出する。次に、地名種別判定手段５が、これらのノードページ群に地名種別決定ルールを適用する。図２４の第１番目に対応する地名種別決定ルールでは、図２６のノードページ３７におけるリンク元キー文字列４０の「支店のご案内」、あるいは、ノードページ３８における地名表記Ａ「関東」の前後の文字列から、地名種別の手がかり表記を探す。その結果、「支店のご案内」に含まれる「支店」が手がかり表記となって、「所在地」という地名種別に決定される。すなわち、「関東」「東京都港区」「東京都府中市」「神奈川県川崎市」「群馬県前橋市」「栃木県日光市」などの地名表記は、「所在地」という地名種別をもつものと判定される。

次に、図２７のハイパーテキスト構造が図２４の第２のマッチングルールに該当することを説明する。第２のマッチングルールの第１条件は、図２７のノードページ４３がＸ、ノードページ４４がＹという対応関係になる。マッチングルールの第２条件は、図２７におけるノードページ４４内に地名表記を含むリンク元キー文字列４７が複数存在することに対応し、「北海道」、「青森県」、「岩手県」、「山形県」などが地名表記Ｂｉに相当する。そして、これらの地名表記Ｂｉは、いずれも同じく県レベルの地名表記なので、地名の階層関係において兄弟関係となる。これがマッチングルールの第３条件に対応する。したがって、サイト構造解析手段７は、図２７のノードページ４３・４４が、図２４の第２番目の特定ハイパーテキスト構造のマッチングルールを満たすことを検出する。次に、地名種別判定手段５が、これらのノードページ群に地名種別決定ルールを適用する。図２４の第２番目に対応する地名種別決定ルールでは、まず、図２７のノードページ４６におけるリンク元キー文字列４６の「地域別」から地名種別の手がかり表記を探すが、それは見つからない。次に、ノードページ４３のさらに上位のリンク元ページ４２におけるリンク元キー文字列４５「イベント案内」から地名種別の手がかり表記を探し、「イベント」という手がかり表記が得られて、「開催地」という地名種別に決定される。すなわち、「北海道」「青森県」「岩手県」「山形県」などの地名表記は、「開催地」という地名種別をもつものと判定される。

次に、図２８〜図３０に示されたフローチャートを参照しながら、本実施形態による処理の流れを説明する。なお、図２８は、本実施形態の全体の処理の流れを示すフローチャートである。図２９は、サイト構造解析手段７における処理手順を示すフローチャートである。図３０は、地名種別判定手段５における処理手順を示すフローチャートである。以下では、これらを参照しながら、本実施形態の動作を説明する。

まず、図２８に示されたフローチャートを参照しながら本実施形態の全体の処理の流れを説明する。まず、ステップＳ１７２では、テキスト入力手段１により、ハイパーテキストを構成するノードページのテキストを入力メモリ２に読み込む。ステップＳ１７３では、地名表記検出手段３により、入力メモリ２のテキスト中から地名表記の出現位置を検出する。即ち、地名表記検出手段３によりワークメモリ４には、地名表記が、どのノードページの何文字目に出現したか、という検出結果リストが書き込まれる。

Ｓ１７１・Ｓ１７２・Ｓ１７３のループは、ハイパーテキストのリンクをたどりながらノードページの読み込みを繰り返し、入力メモリ２にハイパーテキストのノードページのテキスト内容やリンク関係の情報を格納していく。ステップＳ１７１において、処理対象のノードページ群をすべて読み込んだところで、このループを抜ける。処理対象のノードページ群をすべて読み込んだかどうかの判定は、いくつかの決め方がある。例えば、起点とするノードページからリンクを深さＫまでたどったところで止める方法、起点とするノードページからたどったノードページの数がＭ件に達したところで止める方法、ノードページのテキスト内容（キーワード）を判定しながらリンクをたどっていきテキスト内容に大きな変化が生じたところで止める方法、ＵＲＬ文字列から判断できるノードページの属するサイトやディレクトリが大きく変化するところで止める方法などが考えられる（ここで述べたような停止条件は従来のオートパイロットやＷＷＷロボットなどのＷＷＷページ自動収集ツールで用いられているものである）。

次にステップＳ１７４では、サイト構造解析手段７により、地名表記の検出されたノードページを含む周辺ノードページ群が、特定のハイパーテキスト構造に該当するかを調べる。図２９は、このステップＳ１７４の処理手順の詳細である。図２４の特定ハイパーテキスト構造記述辞書では、１つのルールが、ルール番号３４、マッチングルール３５、地名種別決定ルール３６の組で構成されている。図２９のフローチャートにおいて、Ｓ１８１、Ｓ１８５、Ｓ１８６のステップで形成されるループではカウンタＲの値をインクリメントしながら、特定ハイパーテキスト構造記述辞書内のルールを１つずつ調べていく。第Ｒ番目の特定ハイパーテキスト構造に関して、ステップＳ１８２では、図２４の辞書からマッチングルール３５を取り出す。次のステップＳ１８３では、入力メモリ２内のノードページ群のリンク関係に関する情報や、ワークメモリ４内の地名表記の出現位置に関する情報などを参照して、マッチングルール３５に該当する箇所（入力メモリ２内のノードページ群のサブセット）を探す。もしマッチングルール３５に該当する箇所があったならば、そのルール番号Ｒと、該当箇所のノードページ群の識別番号リストをワークメモリ４に書き込む。以上のステップＳ１７４の結果として、ワークメモリ４には、特定ハイパーテキスト構造に該当した箇所のリストが格納されることになる。

このステップＳ１７４で特定のハイパーテキスト構造に該当した場合は、ステップＳ１７５で、その特定ハイパーテキスト構造に該当したノードページ群に含まれる地名表記の種別を判定する。図３０は、このステップＳ１７５の処理手順の詳細である。図３０のＳ１９１とＳ１９５のステップで形成されるループでは、ワークメモリ４に格納された特定ハイパーテキスト構造の検出結果情報を１つずつ取り出して処理していく。検出結果情報には、検出された特定ハイパーテキスト構造に対するルール番号が記載されているから、そのルール番号をＲとすると、ステップＳ１９２では、その第Ｒ番目の特定ハイパーテキスト構造に対応する地名種別決定ルール３６を、図２４の辞書から読み出す。次にステップＳ１９３では、検出結果のノードページ群に地名種別決定ルールを適用して、それらのノードページ群のなかに含まれる地名表記の地名種別を決定する。検出結果のノードページ群の識別番号リストは、ワークメモリ４から得ることができ、それらに対応するノードページ群の実体は入力メモリ２に格納されている。また、それらのノードページ群に出現した地名表記は、ワークメモリ４に記録されている。このような情報を参照したパタンマッチング処理の結果、最終的にステップＳ１９４では、地名表記の種別に関する情報がワークメモリ４に書き込まれる。

最後に、図２８のステップＳ１７６で、検出されたすべての特定ハイパーテキスト構造に関する地名表記とその種別の情報がワークメモリ４に書き込まれる。

このようにして、本実施形態は、処理対象のノードページ群が、あらかじめ定められた特定の構造を持つノードページ群であった場合には、この特定の構造に特有のルールを適用してノードページに出現する地名表記の種別を判定することにより、地名表記の種別をより高精度に判定することが可能となる。

次に、本発明に係る第４の実施形態について詳細に説明する。

図３１には、本発明の地名情報抽出装置を利用した地図情報検索装置の構成が示されている。図３１に示されるように本実施形態は、ハイパーテキストデータベース１００、地名情報抽出装置１１０、位置依存コンテンツデータベース１２０、地図データベース１３０、データベース検索装置１４０、位置条件入力装置１５０、地名種別選択装置１６０、表示装置１７０を備える。これらの各構成要素は、以下のように動作する。

ハイパーテキストデータベース１００は、ハイパーテキストが格納されている。例えば、インターネット上のＷＷＷがこれに相当する。地名情報抽出装置１１０は、ハイパーテキストデータベース１００内のテキストから地名表記とその種別に関する情報を抽出する。これまで説明した第２から第３の実施形態（図１や図２２の構成）が、これに該当する。位置依存コンテンツデータベース１２０は、地名情報抽出装置１１０で抽出された情報を格納する。図３２がそのデータ内容の例である。図３２の位置依存コンテンツデータベースは、地名表記１８１、地名種別１８２、ノードページ番号１８３が対応付けられて格納されている。例えば、「東京都港区」という地名表記に関して、「開催地」という地名種別でノードページ３１が対応し、「所在地」という地名種別でノードページ３９が対応している。地図データベース１３０は、地図の二次元座標データと、その上にマッピングされた地名表記を格納している。位置条件入力装置１５０は、「東京都港区」というような地名表記を、利用者が入力するための装置である。キーボードのような文字列入力手段、マウスなどのポインティングデバイス、さらには、ＧＰＳのような人や車の現在位置を自動的に取得するシステムなどが用いられる。地名種別選択装置１６０は、「所在地」「開催地」「経過地」「話題地」などの地名種別を、利用者が選択するための装置である。データベース検索装置は、位置条件入力装置１５０と地名種別選択装置１６０で指定された条件で、地図データベース１３０と位置依存コンテンツデータベース１２０を検索して、その結果を表示装置１７０に表示する。

データベース検索装置１４０は、地図データベース１３０を、位置条件入力装置１５０から指示された地名表記をキーとして検索し、その地名周辺の地図データを読み出す。同時に、データベース検索装置１４０は、位置依存コンテンツデータベース１２０を、位置条件入力装置１５０から指示された地名表記と、地名種別選択装置１６０から指示された地名種別をキーとして検索する。その２つのデータベースの検索結果を重ね合わせて、表示装置１７０に表示する。

図３３と図３４は、図３１の位置依存コンテンツデータベース１２０を用いて表示した例である。位置条件入力装置１５０からは関東地方の地名が指示されたものとする。図３３では、地名種別として「所在地」が指定され、図３４の方では、地名種別として「開催地」が指定されたものとする。このように、地名種別の情報をもっていることで、地図データに重ね合わせて表示する情報（ノードページ）の量を、利用者の目的に応じて絞り込んで提示することが可能になっている。

次に本発明に係る第５の実施形態について図面を参照して詳細に説明する。

図３５を参照すると本発明に係る第５の実施形態は、入力装置２００、データ処理装置２１０、記憶装置２２０、出力装置２４０を備え、さらに、上述した第１及び第２の実施形態の地名情報抽出装置を実現するためのプログラムを記録した記録媒体２３０を備える。この記録媒体２３０は、磁気ディスク、半導体メモリ、ＣＤ−ＲＯＭその他の記録媒体であってよい。

入力装置２００は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力装置２４０は、表示画面、プリンタ等のデータ処理装置２１０による処理結果を出力する装置である。

地名情報抽出装置を実現するためのプログラムは、記録媒体２３０からデータ処理装置２１０に読み込まれ、データ処理装置２１０の動作を制御し、記憶装置２２０に入力メモリ２とワークメモリ４を生成する。データ処理装置２１０は、地名情報抽出装置を実現するためのプログラムの制御により第１、第２、第３の実施形態におけるテキスト入力手段１、地名表記検出手段３、地名種別判定手段５、結果出力手段６、制御手段８、また、第３の実施形態におけるサイト構造解析手段７による処理と同一の処理を実行する。

なお、処理対象となるテキスト、あるいはハイパーテキストデータベースは、記憶媒体２３０から読み込む、あるいは、データ処理装置２１０により外部にあるデータベースにネットワーク（例えば、インターネット）を介してアクセスすることで取得する。

次に、本発明に係る第６の実施形態について図面を参照して詳細に説明する。

図３６を参照すると、本発明に係る第６の実施形態は、入力装置３００、データ処理装置３１０、記憶装置３２０、出力装置３４０、を備え、さらに、上述した第４の実施形態の地図情報検索装置を実現するためのプログラムを記録した記録媒体３３０を備える。この記録媒体３３０は、磁気ディスク、半導体メモリ、ＣＤ−ＲＯＭその他の記録媒体であってよい。

上述した第５の実施形態と同様に、入力装置３００は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力装置３４０も、表示装置、プリンタ等のデータ処理装置３１０による処理結果を出力する装置である。

地図情報検索装置を実現するためのプログラムは、記録媒体３３０からデータ処理装置３１０に読み込まれ、データ処理装置３１０の動作を制御し、記憶装置３２０に入力メモリ２、ワークメモリ４、位置依存コンテンツデータベース１２０を生成する。データ処理装置３１０は、地図情報検索装置を実現するためのプログラムの制御により第４の実施形態における地名情報抽出装置１１０、データベース検索装置１４０、位置条件入力装置１５０、地名種別選択装置１６０による処理と同一の処理を実行する。

なお、処理対象となるハイパーテキストデータベース、及び地図データベース１３０は、記憶媒体３３０から読み込む、あるいは、データ処理装置４１０により外部にあるデータベースにネットワーク（例えば、インターネット）を介してアクセスすることで取得する。

本発明によれば、テキスト中から地名情報を自動抽出する際に、単に地名表記を検出するだけでなく、検出した地名表記の地名種別も判定することができる。また、ＷＷＷのようなハイパーテキストから地名表記を検出するだけでなく、検出した地名表記の地名種別も判定することができる。

また、抽出した地名情報を地図データベースなどと対応付けて利用者に提示する際に、地名種別による絞り込みを行うことで、利用者の目的に合わせた情報提供も実現することができる。

なお、上述した実施形態は本発明の好適な実施の形態である。但し、これに限定されるものではなく本発明の要旨を逸脱しない範囲内において種々変形実施が可能である。

１テキスト入力手段
２入力メモリ
３地名表記検出手段
４ワークメモリ
５地名種別判定手段
６結果出力手段
７サイト構造解析手段
８制御手段
１００ハイパーテキストデータベース
１１０地名情報抽出装置
１２０位置依存コンテンツデータベース
１３０地図データベース
１４０データベース検索装置
１５０位置条件入力装置
１６０地名種別選択装置
１７０表示装置
２０地名種別
２１手がかり表記
２２地名表記
２３出現位置
２４地名種別
２５単語表記
２６品詞分類
２７共起語リスト
２８地名種別
２９テキストタイプ
３０リンク元ページ
３１リンク先ページ
３２、４０、４１、４５、４６、４７リンク元キー文字列
３３リンク
３４ルール番号
３５マッチングルール
３６地名種別決定ルール
３７、３８、３９、４２、４３、４４ノードページ
１８１地名表記
１８２地名種別
１８３ノードページ番号

Claims

ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して判定する第１の地名種別判定手段と、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページ中のテキストのテキストタイプを基に判定する第２の地名種別判定手段と、
の少なくとも１つの地名種別判定手段を有することを特徴とする地名情報抽出装置。
前記第１の地名種別判定手段と前記第２の地名種別判定手段との判定結果を基に最終的な地名種別を判定する最終種別判定手段を有することを特徴とする請求項１記載の地名情報抽出装置。
ハイパーテキストを構成するノードページに出現する地名表記と、該地名表記の該ノードページ上での出現位置と、を検出する地名表記検出手段を有し、
前記第１の地名種別判定手段は、
前記地名表記の前記ノードページ中での意味的な役割を表す地名種別を、前記ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して判定し、
前記第２の地名種別判定手段は、
前記地名種別を、前記地名表記の出現するノードページのテキストのテキストタイプを基に判定することを特徴とする請求項１または２記載の地名情報抽出装置。
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、地名種別を判定する地名種別判定手段と、
前記手がかり表記が出現したノードページのリンク先若しくはリンク元から、地名表記を検出する地名表記検出手段と、
を有することを特徴とする地名情報抽出装置。
ハイパーテキストを構成するノードページのテキストタイプを判定し、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定手段と、
前記ノードページ中から地名表記を検出する地名表記検出手段と、
を有することを特徴とする地名情報抽出装置。
ハイパーテキストを構成するノードページのテキスト中から地名表記を検出する地名表記検出手段と、
前記地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べるサイト構造解析手段と、
前記特定ハイパーテキスト構造に該当したノードページ群に含まれる前記地名表記について、地名表記のノードページ中での意味的な役割を表す地名種別を決定する地名種別判定手段と、
を有することを特徴とする地名情報抽出装置。
地名情報抽出装置で行う制御方法であって、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して判定する第１の地名種別判定工程と、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページ中のテキストのテキストタイプを基に判定する第２の地名種別判定工程と、
の少なくとも１つの地名種別判定工程を前記地名情報抽出装置が行うことを特徴とする制御方法。
地名情報抽出装置で行う制御方法であって、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、地名種別を判定する地名種別判定工程と、
前記手がかり表記が出現したノードページのリンク先若しくはリンク元から、地名表記を検出する地名表記検出工程と、
を有することを特徴とする制御方法。
地名情報抽出装置で行う制御方法であって、
ハイパーテキストを構成するノードページのテキストタイプを判定し、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定工程と、
前記ノードページ中から地名表記を検出する地名表記検出工程と、
を有することを特徴とする制御方法。
地名情報抽出装置で行う制御方法であって、
ハイパーテキストを構成するノードページのテキスト中から地名表記を検出する地名表記検出工程と、
前記地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べるサイト構造解析工程と、
前記特定ハイパーテキスト構造に該当したノードページ群に含まれる前記地名表記について、地名表記のノードページ中での意味的な役割を表す地名種別を決定する地名種別判定工程と、
を有することを特徴とする制御方法。
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページのリンク元ページ若しくはリンク先ページの何れか一方、または両方から前記地名種別を判定可能な手がかり表記を検出して判定する第１の地名種別判定処理と、
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を、該ノードページ中のテキストのテキストタイプを基に判定する第２の地名種別判定処理と、
の少なくとも１つの地名種別判定処理をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
ハイパーテキストを構成するノードページに出現する地名表記の、該ノードページ中での意味的な役割を表す地名種別を判定可能な手がかり表記を検出し、地名種別を判定する地名種別判定処理と、
前記手がかり表記が出現したノードページのリンク先若しくはリンク元から、地名表記を検出する地名表記検出処理と、をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
ハイパーテキストを構成するノードページのテキストタイプを判定し、地名表記のノードページ中での意味的な役割を表す地名種別を判定する地名種別判定処理と、
前記ノードページ中から地名表記を検出する地名表記検出処理と、をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
ハイパーテキストを構成するノードページのテキスト中から地名表記を検出する地名表記検出処理と、
前記地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べるサイト構造解析処理と、
前記特定ハイパーテキスト構造に該当したノードページ群に含まれる前記地名表記について、地名表記のノードページ中での意味的な役割を表す地名種別を決定する地名種別判定処理と、をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項１から６の何れか１項に記載の地名情報抽出装置と、
前記地名情報抽出装置によってハイパーテキストから検出された地名表記と地名種別とを記録する記憶手段と、
操作者の所望する地名表記、及び地名種別を入力する操作入力手段と、
地図情報を表示する表示手段と、
前記操作入力手段により入力された地名表記をキーとして、地図データベースを検索し、該地名表記の周辺地図データを読み出し、前記操作入力手段により入力された地名表記と地名種別とをキーとして、前記記憶手段を検索し、前記表示手段に、２つの検索結果を重ね合わせた表示を表示させる検索手段と、
を有することを特徴とする地図情報検索装置。