JP4821039B2 - 地名情報抽出装置、その抽出方法及び記録媒体 - Google Patents

地名情報抽出装置、その抽出方法及び記録媒体 Download PDF

Info

Publication number
JP4821039B2
JP4821039B2 JP2000329805A JP2000329805A JP4821039B2 JP 4821039 B2 JP4821039 B2 JP 4821039B2 JP 2000329805 A JP2000329805 A JP 2000329805A JP 2000329805 A JP2000329805 A JP 2000329805A JP 4821039 B2 JP4821039 B2 JP 4821039B2
Authority
JP
Japan
Prior art keywords
place name
notation
text
clue
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000329805A
Other languages
English (en)
Other versions
JP2002132791A (ja
Inventor
俊一 福島
弘司 喜田
義英 石黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2000329805A priority Critical patent/JP4821039B2/ja
Priority to US09/983,239 priority patent/US7240061B2/en
Publication of JP2002132791A publication Critical patent/JP2002132791A/ja
Application granted granted Critical
Publication of JP4821039B2 publication Critical patent/JP4821039B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、テキスト中に出現する地名情報を抽出する技術に関する。
【0002】
【従来の技術】
従来の地名情報抽出システムでは、テキスト中に出現する地名表記を検出することが目標であった。そのための最も基本的な方式は、地名表記を格納した辞書を用意し、テキストと辞書とを照合することで、テキスト中に出現した地名表記を検出するものである。例えば、辞書のなかに「横浜市」「千葉県」などの地名表記を登録しておき、テキスト中に「横浜市」や「千葉県」が出現すれば、それを地名として検出する。
【0003】
しかし、単純に辞書と照合するだけでは、地名を判別できないことがある。例えば、テキスト中に「横浜」という表記が出現した場合、これは地名かもしれないが、組織名(「横浜ベイスターズ」というプロ野球チーム)であるかもしれない。また、「千葉」という表記が出現した場合も同様に、地名かもしれないし、人名かもしれない。
【0004】
このような地名表記の検出における曖昧性を解消するための手法として、従来、以下のような2通りの方法が考えられている。
【0005】
第一の手法は、地名の可能性を有する表記の前後あるいは同一テキスト内に出現する共起語を参照して、曖昧性を解消する方法である。例えば、「千葉」という地名候補表記の直後に「選手」という共起語が出現すれば、この「千葉」は人名(地名ではない)と判定できる。逆に、「千葉」の直後に「県」があれば地名である。共起語の情報は、地名表記の辞書に記述しておけばよい。図2は、共起語の情報を付与した地名表記辞書の例である。図2の地名表記辞書には、単語表記25、その品詞分類26、品詞分類に曖昧性をもつものについては共起語リスト27が格納されている。
【0006】
第二の手法は、地名候補表記を包含するような表記が、同一テキスト内に出現しているかを調べて、その曖昧性を解消する方法である。例えば、「横浜」という表記には地名と組織名の曖昧性があるが、同一テキスト内に「横浜ベイスターズ」という表記が出現しているならば、「横浜」は「横浜ベイスターズ」の省略表記、すなわち、組織名である可能性が高いと判断できる。
【0007】
これらの手法は、「固有表現抽出システムの開発とIREX−NEにおける評価」(竹元義美・福島俊一・山田洋志・奥村明俊・池田崇博、IREXワークショップ予稿集、1999年9月)、あるいは、特開平06−052221号公報「固有名詞の自動抽出方式」、特開平05−181900号公報「固有名詞処理装置」などに記載されている。
【0008】
【発明が解決しようとする課題】
以上で述べたように、従来の地名情報抽出システムでは、テキスト中に出現する地名表記を高精度に検出することを目標としてきた。しかし、検出・抽出した地名情報をより有効に活用するためには、単に地名表記を検出するだけでなく、地名表記の種別も判定できることが望まれる。ここでは、地名表記のテキスト中での意味的な役割を地名種別と呼ぶものとする。地名表記の種別としては、例えば、所在地(会社や個人宅の場所)、開催地(イベントや事件の場所)、経過地(移動の起点・終点・経由点)、話題地(ガイドや解説・感想などの対象となっている場所)などが考えられる。必要であれば、所在地をさらに会社所在地・学校所在地などのように細分化することも考えられる。
【0009】
また、今日、インターネット上のWWW(World Wide Web)には、膨大な量の情報が発信されている。したがって、WWWのようなハイパーテキストデータベースを対象として、地名表記とその種別に関する情報を高精度に抽出できれば、インターネットを地名情報の有効な情報源として活用できる。
【0010】
本発明は、テキスト中の地名表記の種別(所在地・開催地・経過地・話題地のいずれか)を判定できる地名情報抽出装置、地名情報抽出方法及び記録媒体を提供することを目的とする。
【0012】
【課題を解決するための手段】
係る目的を達成するために、本発明は以下の特徴を有する。
本発明にかかる地名情報抽出装置は、
地名表記の辞書とテキストとを照合し、前記テキスト中に出現する地名表記候補と当該地名表記候補の前記辞書上での分類とを抽出し、該抽出した地名表記候補の前記テキスト中での出現位置の前後のテキストを解析することで、前記地名表記候補の地名表記らしさを判定し、前記テキスト中に出現する地名表記と当該地名表記の前記テキスト中での出現位置とを検出する地名表記検出手段と、
地名表記のテキスト中での意味的な役割を表わす少なくとも所在地・開催地・経過地・話題地のいずれかである地名種別と前記地名種別の判断材料となる手がかり表記とが対応づけられた手がかり表記辞書と、前記テキストの前記出現位置の前後と、を照合し、前記テキストの前記出現位置の前後を解析し、前記テキストの前記出現位置の前後に前記手がかり表記が存在する場合に、前記地名表記検出手段で検出した前記地名表記の前記テキスト中における地名種別が、前記手がかり表記に対応づけられた地名種別であると判定する地名種別判定手段と、
を備えることを特徴とする。
【0013】
本発明にかかる地名情報抽出装置は、
地名表記のテキスト中での意味的な役割を表わす少なくとも所在地・開催地・経過地・話題地のいずれかである地名種別と、前記地名種別の判断材料となる手がかり表記と、が対応づけられた手がかり表記辞書と、テキストとを照合し、前記テキスト中で果たす意味的な役割を表す地名種別を判定可能な手がかり表記を前記テキスト中から検出し、前記テキスト中に前記手がかり表記が存在する場合に、当該手がかり表記の出現位置と、前記手がかり表記に対応づけられた地名種別を検出する地名種別判定手段と、
地名表記の辞書と、前記手がかり表記の出現位置の前後のテキストと、を照合し、前記テキスト中に出現する地名表記候補と当該地名表記候補の前記辞書上での分類とを抽出し、該抽出した地名表記候補の前記テキスト中での出現位置の前後のテキストを解析することで、前記地名表記候補の地名表記らしさを判定し、前記テキスト中に出現する地名表記を検出する地名表記検出手段と、
を備えることを特徴とする。
【0014】
本発明にかかる地名情報抽出方法は、
地名情報抽出装置が行う地名情報抽出方法であって、
地名表記の辞書とテキストとを照合し、前記テキスト中に出現する地名表記候補と当該地名表記候補の前記辞書上での分類とを抽出し、該抽出した地名表記候補の前記テキスト中での出現位置の前後のテキストを解析することで、前記地名表記候補の地名表記らしさを判定し、前記テキスト中に出現する地名表記と当該地名表記の前記テキスト中での出現位置とを検出する地名表記検出工程と、
地名表記のテキスト中での意味的な役割を表わす少なくとも所在地・開催地・経過地・話題地のいずれかである地名種別と前記地名種別の判断材料となる手がかり表記とが対応づけられた手がかり表記辞書と、前記テキストの前記出現位置の前後と、を照合し、前記テキストの前記出現位置の前後を解析し、前記テキストの前記出現位置の前後に前記手がかり表記が存在する場合に、前記地名表記検出手段で検出した前記地名表記の前記テキスト中における地名種別が、前記手がかり表記に対応づけられた地名種別であると判定する地名種別判定工程と、
を前記地名情報抽出装置が行うことを特徴とする。
【0015】
本発明にかかる地名情報抽出方法は、
地名情報抽出装置が行う地名情報抽出方法であって、
地名表記のテキスト中での意味的な役割を表わす少なくとも所在地・開催地・経過地・話題地のいずれかである地名種別と、前記地名種別の判断材料となる手がかり表記と、が対応づけられた手がかり表記辞書と、テキストとを照合し、前記テキスト中で果たす意味的な役割を表す地名種別を判定可能な手がかり表記を前記テキスト中から検出し、前記テキスト中に前記手がかり表記が存在する場合に、当該手がかり表記の出現位置と、前記手がかり表記に対応づけられた地名種別を検出する地名種別判定工程と、
地名表記の辞書と、前記手がかり表記の出現位置の前後のテキストと、を照合し、前記テキスト中に出現する地名表記候補と当該地名表記候補の前記辞書上での分類とを抽出し、該抽出した地名表記候補の前記テキスト中での出現位置の前後のテキストを解析することで、前記地名表記候補の地名表記らしさを判定し、前記テキスト中に出現する地名表記を検出する地名表記検出工程と、
を前記地名情報抽出装置が行うことを特徴とする。
【0016】
本発明にかかる記録媒体は、
地名表記の辞書とテキストとを照合し、前記テキスト中に出現する地名表記候補と当該地名表記候補の前記辞書上での分類とを抽出し、該抽出した地名表記候補の前記テキスト中での出現位置の前後のテキストを解析することで、前記地名表記候補の地名表記らしさを判定し、前記テキスト中に出現する地名表記と当該地名表記の前記テキスト中での出現位置とを検出する地名表記検出処理と、
地名表記のテキスト中での意味的な役割を表わす少なくとも所在地・開催地・経過地・話題地のいずれかである地名種別と前記地名種別の判断材料となる手がかり表記とが対応づけられた手がかり表記辞書と、前記テキストの前記出現位置の前後と、を照合し、前記テキストの前記出現位置の前後を解析し、前記テキストの前記出現位置の前後に前記手がかり表記が存在する場合に、前記地名表記検出手段で検出した前記地名表記の前記テキスト中における地名種別が、前記手がかり表記に対応づけられた地名種別であると判定する地名種別判定処理と、
をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
【0017】
本発明にかかる記録媒体は、
地名表記のテキスト中での意味的な役割を表わす少なくとも所在地・開催地・経過地・話題地のいずれかである地名種別と、前記地名種別の判断材料となる手がかり表記と、が対応づけられた手がかり表記辞書と、テキストとを照合し、前記テキスト中で果たす意味的な役割を表す地名種別を判定可能な手がかり表記を前記テキスト中から検出し、前記テキスト中に前記手がかり表記が存在する場合に、当該手がかり表記の出現位置と、前記手がかり表記に対応づけられた地名種別を検出する地名種別判定処理と、
地名表記の辞書と、前記手がかり表記の出現位置の前後のテキストと、を照合し、前記テキスト中に出現する地名表記候補と当該地名表記候補の前記辞書上での分類とを抽出し、該抽出した地名表記候補の前記テキスト中での出現位置の前後のテキストを解析することで、前記地名表記候補の地名表記らしさを判定し、前記テキスト中に出現する地名表記を検出する地名表記検出処理と、
をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
【0048】
【発明の実施の形態】
次に添付図面を参照しながら本発明に係る実施の形態を詳細に説明する。
【0049】
まず、本発明の第1の実施形態について、図1のブロック図を参照して詳細に説明する。
【0050】
図1に示された第1の実施形態の地名情報抽出装置は、テキスト入力手段1、入力メモリ2、地名表記検出手段3、ワークメモリ4、地名種別判定手段5、結果出力手段6、制御手段8を備える。これらの各構成要素は、以下のように動作する。
【0051】
テキスト入力手段1は、テキストを入力メモリ2に読み込む。入力メモリ2は、テキスト入力手段1が読み込んだテキストを格納する。
【0052】
地名表記検出手段3は、入力メモリ2に格納されたテキスト中から地名表記を検出して、検出した地名表記とその出現位置の情報をワークメモリ4に書き込む。地名表記検出手段3は、図2に示すような地名表記辞書を具備し、テキスト中に出現する地名表記候補を検出すると同時に、それが確かに地名を表すものであるか否かを判断する。すなわち、テキスト中の地名表記候補の前後、あるいは、同一テキスト内に出現する共起語をこの地名表記辞書を参照して検出し、地名表記候補の曖昧性を解消する。例えば、「千葉」という地名表記候補の直後に「選手」という共起語が出現すれば、この「千葉」は人名であると解釈することができ、「県」や「市」といった共起語が出現していれば、地名であると解釈することができる。
【0053】
地名種別判定手段5は、入力メモリ2に格納されたテキストを参照しながら地名表記の種別を判定し、判定結果をワークメモリ4に書き込む。
【0054】
ワークメモリ4は、地名表記検出手段3によって検出された地名表記とその出現位置の情報、および、地名種別判定手段5によって判定された地名表記の種別に関する情報などを格納する。
【0055】
結果出力手段6は、ワークメモリ4の内容を読み出す。制御手段8は、これらの構成要素の一連の動作を制御する。
【0056】
これら各手段は、プログラム制御によって動作するコンピュータを用いて実現することができる。入力メモリ2やワークメモリ4は、コンピュータの主記憶部を用いてもよいが、磁気ディスク装置や光磁気ディスク装置などの外部記憶装置を用いてもよい。
【0057】
地名表記検出手段3は、従来の地名情報抽出装置に相当し、本明細書の従来技術の項で述べたような公知の技術によって実現できる。本実施形態は、地名種別判定手段5を有する点が、従来の地名情報抽出装置と異なる。
【0058】
次に、図3を参照しながら地名種別判定手段5の詳細な構成について説明する。
【0059】
図3に示されるように地名種別判定手段5は、ワークメモリI/O部9、読み込み位置決定部10、入力メモリ読み込み部11、テキストバッファ12、手がかり表記辞書記憶部13、手がかり表記検索部14、検索結果バッファ15、種別判定部16を有して構成される。
【0060】
ワークメモリI/O部9は、ワークメモリ4から地名表記とその出現位置の情報を読み込み、読み込み位置決定部10に転送する。また、ワークメモリI/O部9は、種別判定部16により出力される地名表記の種別の判定結果をワークメモリ4に書き込む。
【0061】
読み込み位置決定部10は、ワークメモリI/O部9により読み込まれた地名表記とその出現位置の情報から、入力メモリ2に記録されたテキストの読み込む範囲を決定する。
【0062】
入力メモリ読み込み部11は、読み込み位置決定部10により指定された範囲のテキストを入力メモリ2から読み込み、テキストバッファ12に転送する。
【0063】
テキストバッファ12は、入力メモリ読み込み部11により読み込まれたテキストを一時的に蓄積すると共に、蓄積したテキストを手がかり表記検索部14に転送する。
【0064】
手がかり表記辞書記憶部13には、地名表記の種別を判定する際の手がかりとなる手がかり表記を登録した辞書(以下、手がかり表記辞書と呼ぶ)が記憶されている。この手がかり表記辞書の一例を図4に示す。手がかり表記辞書には、地名種別20と、その地名種別の判断材料となる手がかり表記とが対応づけられている。手がかり表記21の欄に含まれる表記をテキスト中から見つけることで、その手がかり表記21に対応する地名種別20を知ることができる。
【0065】
手がかり表記検索部14は、テキストバッファ12からテキストを読み込むと共に、手がかり表記辞書記憶部13から図4に示された手がかり表記辞書を読み込み、テキスト中に出現する地名表記の種別を判定するための手がかりとなる手がかり表記を検索する。そして、手がかり表記辞書を参照して検出した手がかり表記から地名種別を判定し、判定結果を検出結果バッファ15に書き込む。
【0066】
種別判定部16は、検索結果バッファ15に書き込まれた地名種別が一種類であった場合には、その地名種別をそのままワークメモリI/O部9を介してワークメモリ4に書き込む。また、手がかり表記検索部14により複数個の手がかり表記が検索され、複数個の地名種別が検索結果バッファ15に書き込まれた場合には、種別判定部16は、地名表記に対する地名種別の最終判定を行う。その最終判定方法として、地名表記に最も近い位置にある手がかり表記の地名種別に決定する方法、検索された手がかり表記から最も多く判定された地名種別を最終的な地名種別とする方法、複数の地名種別の可能性がある場合には、判定できずといった結果を出力する方法などが挙げられる。
【0067】
次に、図5及び図6に示されたフローチャートを参照しながら、上記構成からなる実施形態による一連の処理動作を説明する。なお、図5は、本実施形態の全体処理の流れを示すフローチャートの一例であり、図6は、図5のステップS103の詳細、すなわち、地名種別判定手段5の実現方法の一例を示したフローチャートである。
【0068】
まず、図5を参照しながら、全体の動作を説明する。
ステップS101で、テキスト入力手段1により入力メモリ2にテキストを読み込む。次にステップS102で、地名表記検出手段3により、テキスト中から地名表記の出現位置を検出し、検出結果をワークメモリ4に保存する。ステップS103では、地名種別判定手段5により、地名表記の出現位置の前後のテキストを解析することで、地名表記の種別を判定し、判定結果をワークメモリ4に書き込む。ステップS104では、結果出力手段6により、ワークメモリ4から地名表記とその種別を出力する。
【0069】
次に、図6に示されたフローチャートを参照しながら、地名種別判定手段5の一連の処理動作について説明する。
まず、ステップS111で、ワークメモリ4から地名表記22とその出現位置23の情報を得る。詳細には、ワークメモリI/O部9がワークメモリ4から地名表記22とその出現位置情報23とを読み出し、読み込み位置決定部10に転送する。
【0070】
次に、ステップS112で、入力メモリ2から地名表記の出現位置の前後のテキストを得る。詳細には、読み込み位置決定部10が、地名表記の出現位置情報23に基づき、読み込む対象となる地名表記の出現位置の前後のテキストの範囲を決定し、入力メモリ読み込み部11に指示する。例えば、地名表記の出現位置の前後10文字ずつを取り込むようなものであってもよいし、地名表記が含まれる文、文節、段落などを取り込むようなものであってもよい。入力メモリ読み込み部11は、この範囲指定に基づいて入力メモリ2からテキストの指定された範囲を読み込み、テキストバッファ12に書き込む。
【0071】
ステップS113では、地名表記の出現位置の前後のテキストと、手がかり表記辞書記憶部13から参照した手がかり表記辞書とを照合する。より詳細には、手がかり表記検索部14が、テキストバッファ12から読み込んだテキスト中に、手がかり表記辞書記憶部13から読み込んだ手がかり表記辞書に登録された手がかり表記を検索する。そして、検索した手がかり表記から地名表記の種別を判定する。判定結果は、検索結果バッファ15に書き込む。
【0072】
ステップS114では、ワークメモリ4に地名種別24の情報を書き込む。より詳細には、種別判定部16が、最終的な地名表記の種別を判定し、判定結果をワークメモリI/O部9を介してワークメモリ4に書き込む。種別判定部16は、検索結果バッファ15から読み出した地名種別が一種類であった場合には、その地名種別をそのままワークメモリI/O部9を介してワークメモリ4に書き込む。また、手がかり表記検索部14により複数個の手がかり表記が検索され、複数個の地名種別が検索結果バッファ15に書き込まれた場合には、種別判定部16は、検索結果バッファ15に書き込まれた地名種別から最終的な地名表記の種別を判定し判定結果をワークメモリI/O部9を介してワークメモリ4に書き込む。判定方法として、地名表記に最も近い位置にある手がかり表記の地名種別に決定する方法、検索された手がかり表記から最も多く判定された地名種別を最終的な地名種別とする方法、複数の地名種別の可能性がある場合には、判定できずといった結果を出力する方法などが挙げられる。なお、ステップS113の段階で、手がかり表記辞書との照合に失敗した場合は、ステップS114では、判定失敗という結果が、ワークメモリ4に書き込まれることになる。
【0073】
ここで、具体例を挙げて上記動作をより詳細に説明する。一例として、図7に示された「20世紀最後のオリンピックは、2000年9月15日から10月1日までの17日間、シドニーで開催される。」というテキストが入力メモリ2に格納されたものとする。
【0074】
地名表記検出手段3が、入力メモリ2からテキストを読み込み、テキスト中に出現する地名表記を検出することで、上述したテキストの例では、図8に示されるように、地名表記22として「シドニー」、その地名表記の出現位置23として「41文字目〜44文字目」という情報がワークメモリ4に書き込まれる。
【0075】
次に、地名種別検出手段5が、対象テキストの所定の範囲を検索し、地名表記の手がかりとなる手がかり表記を検索して、検索結果から地名表記の種別を判定する。上述した例では、地名表記「シドニー」と、その出現位置「41文字目〜44文字目」がまずワークメモリI/O部9により読み込み位置決定部10に取り込まれ、読み込み位置決定部10の指示に基づき、「シドニー」の前後のテキストとして「1日までの17日間、シドニーで開催される。」が入力メモリ読み込み部11によりテキストバッファ12に書き込まれる(ここでは、地名表記の前後10文字ずつを取り込む形で例を示したが、文字数は任意の値であってもよいし、文字数ではなく文、文節、段落などの単位で取り込むようにしてもよい)。次に、取り込まれたテキスト中に、手がかり表記辞書記憶部13の手がかり表記辞書に登録された手がかり表記が出現していないかを手がかり表記検索部14が検索する。この例では、「開催」という手がかり表記が見つかる。手がかり表記検索部14は、この「開催」という手がかり表記から地名表記の種別として「開催地」を選択し、選択結果を検索結果バッファ15に書き込む。種別判定部16は、ワークメモリI/O部9を介してワークメモリ4に、地名表記の種別を書き込む。その結果、ワークメモリ4には、図9に示されるように地名表記22「シドニー」、出現位置23「41文字目〜44文字目」、地名種別「開催地」という情報が書き込まれる。
【0076】
なお、上述した第1の実施形態の変形例として、入力メモリ2のテキスト中から、地名表記の種別の手がかりとなる表記をまず検出し、地名表記検出手段3により、手がかりとなる表記の出現位置の前後のテキストから地名表記を検出するものであってもよい。
【0077】
このような処理手順であっても地名表記と、その地名表記のテキスト上での種別とを高精度に検出することができる。
【0078】
なお、この変形例は、図1に示された第1の実施形態と同一の構成で実現することができる。また、地名種別判定手段5の構成についても図3と同一であるが、この変形例では、地名表記がまだ検出されていない段階で動作することとなるので、読み込み位置決定部10は、地名表記の位置情報に基づいて読み込み位置を決定するのではなく、単に対象テキストを読み込むことになる。
【0079】
図10に示されたフローチャートを参照しながら、この変形実施例による動作例を説明する。
まず、ステップS121で、入力メモリ2にテキストを読み込む。次にステップS122で、地名種別判定手段5により、入力メモリ2のテキスト中から、地名表記の種別の手がかりとなる手がかり表記を検出する。ステップS123では、地名表記検出手段3により、手がかりとなる表記の出現位置の前後のテキストから地名表記を検出する。ステップS124では、結果出力手段6により、ワークメモリ4から地名表記とその種別を出力する。
【0080】
図5のフローチャートでは、地名表記検出手段3によって地名表記を見つけてから、地名種別判定手段5によって手がかり表記を見つけて、地名表記の種別を判定していた。これに対して、図10のフローチャートでは、先に地名種別判定手段5によって手がかり表記を見つけ、その後で、地名表記検出手段3によって地名表記を見つける。したがって、前述の例文「20世紀最後のオリンピックは、2000年9月15日から10月1日までの17日間、シドニーで開催される。」を対象とした場合、図10のフローチャートの手順によれば、ステップS122において、「開催」が手がかり表記として検出され、ステップS123において、「開催」の前後のテキストから「シドニー」という地名表記が検出されることになる。
【0081】
次に添付図面を参照しながら本発明に係る第2の実施形態について説明する。
【0082】
上述した第1の実施形態では、地名情報抽出装置の処理対象として、個々に独立したテキスト、いわゆるプレインテキストを扱った。以下に述べる第2の実施形態では、プレインテキストではなく、ハイパーテキストを処理の対象とする。
【0083】
第2の実施形態の動作を説明する前に、処理対象とするハイパーテキストについて簡単に説明しておく。図11及び12はハイパーテキストの一例である。
【0084】
ハイパーテキストは、ノードページをテキストの1単位として、それらの間にリンクが設けられた形式をしている。図11における30と31は各々、ハイパーテキストを構成する1ノードページであり、それらの間をつなぐ矢印33はリンクを表している。リンク33に着目するならば、ページ30はリンク元ページ、ページ31はリンク先ページとなる。このようなハイパーテキストは、独自のデータ構造をもつものもあるが、最近はSGML(StandardGeneralized Markup Language ) 、HTML(Hyper Text Markup Language)、XML(ExtensibleMarkup Language ) などのマークアップ言語による記述が普及している。特にインターネット上にはWWWと呼ばれる大規模ハイパーテキストが存在し、そのなかではHTMLによる記述がスタンダードになっている。図12は、図11のノードページ30をHTMLで記述した一例である。図12において、<>で囲まれた部分はマークアップタグであり、HTMLではAタグで囲まれた文字列がリンク元キー文字列を表す。すなわち、図11と図12における文字列「9月のイベント」は、リンク元キー文字列である。さらに、AタグのなかでHREFの直後に書かれたHTMLテキスト名が、そのリンク先のノードページを意味する。すなわち、ページ30のリンク元キー文字列「9月のイベント」から「Event09 」という名前のHTMLテキスト(ノードページ31がこれに相当する)へジャンプできることを意味している。なお、ここではHTMLで記述されたハイパーテキストを例にあげて説明したが、本発明では、対象とするハイパーテキストの記述形式をHTMLに限定するものではない。SGMLやXMLで記述されたものでもよいし、独自のデータ構造を用いたハイパーテキストであってもかまわない。
【0085】
次に、第2の実施形態の構成について説明する。
本実施形態の構成は、図1に示された第1の実施形態と同一である。ただし、処理対象がプレインテキストからハイパーテキストに変わるため、テキスト入力手段1と地名種別判定手段5に関して、ハイパーテキストに固有の処理が付け加わる。一方、地名表記検出手段3は、入力メモリ2に読み込まれたハイパーテキストのノードページを、プレインテキストと同じようにみなして処理するため、第1の実施形態の場合と同じでよい。
【0086】
テキスト入力手段1に関しては、入力対象がプレインテキストからハイパーテキストに変わることで、ハイパーテキストのリンクをたどって、次に読み込むノードページのテキストを決定する機能が付け足される必要が生じる。すなわち、既に入力メモリ2に読み込まれているノードページがあるとき、次に読み込むノードページとして、入力メモリ2中のノードページのリンク元ページあるいはリンク先ページをたどることになる。このようなリンクを順にたどりながら、次に読み込むノードページ(テキスト)を決定する機能は、従来、Netscape NavigatorやMicrosoft Internet Explorer など広く普及したWWWブラウザ、あるいは、オートパイロットやWWWロボットと呼ばれるWWWページの自動収集ツールなどで実用化されている。
【0087】
次に、地名種別判定手段5に関しては、ハイパーテキストおよびHTMLのようなマークアップテキストに特有の構造を利用した、地名種別の判定方法が考えられる。すなわち、読み込んだハイパーテキストのテキストタイプを基にして地名表記の種別を判定する方法と、対象テキストのリンク元ページやリンク先ページの内容を手がかりとして地名表記の種別を判定する方法である。
【0088】
ここで、図13を参照しながら本実施形態の地名種別判定手段5の詳細な構成について説明する。図13に示されるように地名種別判定手段5は、ワークメモリI/O部50、読み込み位置決定部51、入力メモリ読み込み部52、第1テキストバッファ53、第2テキストバッファ54、手がかり表記辞書記憶部55、手がかり表記検索部56、第1検索結果バッファ57、テキストタイプ判定部58、テキストタイプ−地名種別対応テーブル記憶部59、対応テーブル検索部60、第2検索結果バッファ61、最終判定部62を有して構成される。
【0089】
ワークメモリI/O部50は、ワークメモリ4から地名表記とその出現位置の情報を読み込み、読み込み位置決定部51に転送する。また、ワークメモリI/O部50は、最終判定部62により出力される地名表記の種別の判定結果をワークメモリ4に書き込む。
【0090】
読み込み位置決定部51は、ワークメモリI/O部50により読み込まれた地名表記とその出現位置の情報から、入力メモリ2に蓄積されたノードページの読み込み範囲を決定する。なお、本実施形態では、第1テキストバッファ53に読み込むノードページと、第2テキストバッファ54に読み込むノードページとが異なる場合もある。
【0091】
入力メモリ読み込み部52は、読み込み位置決定部51により指定されたノードページを入力メモリ2から読み込み、指定されたテキストバッファ(第1テキストバッファ53、第2テキストバッファ54)に転送する。
【0092】
第1テキストバッファ53は、入力メモリ読み込み部52により読み込まれたノードページを一時的に蓄積すると共に、蓄積したノードページを手がかり表記検索部56に転送する。
【0093】
第2テキストバッファ54は、入力メモリ読み込み部52により読み込まれたノードページを一時的に蓄積すると共に、蓄積したノードページをテキストタイプ判定部58に転送する。
【0094】
手がかり表記辞書記憶部55には、第1の実施形態と同様に、地名表記の種別を判定する際の手がかりとなる手がかり表記を登録した辞書(手がかり表記辞書)が記憶されている。
【0095】
手がかり表記検索部56は、第1テキストバッファ53からノードページを読み込むと共に、手がかり表記辞書記憶部55から手がかり表記辞書を読み込み、ノードページ中に出現する手がかり表記を検索する。そして、検索した手がかり表記に対応する地名種別を手がかり表記辞書を参照して判定し、判定結果を第1検索結果バッファ57に書き込む。
【0096】
テキストタイプ判定部58は、第2テキストバッファ54からノードページを読み込み、そのテキストを解析してテキストタイプを判定する。テキストタイプの判定方法は、特開2000−029902号公報「構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体」に記載されている公知の技術によって実現できる。この公知の技術によれば、HTMLなどのマークアップテキストに関して、タグ情報、URL文字列、キーワードなどの特徴に着目して、そのテキストタイプ(例えば、企業ホームページ、イベント情報ページ、製品カタログページなど)を自動判定することが可能である。
【0097】
テキストタイプ−地名種別対応テーブル記憶部59には、図14に示されたテーブル(以下、テキストタイプ−地名種別対応テーブルという)が記録されている。例えば、テキストタイプが企業ホームページであると判定されたテキスト中に出現した地名表記の種別は「所在地」、イベント情報ページであると判定されたテキスト中に出現した地名表記の種別は「開催地」といった具合である。
【0098】
対応テーブル検索部60は、テキストタイプ判定部58により判定されたテキストタイプに対応する地名種別をテキストタイプ−地名種別対応テーブルから検出する。検出した地名種別は、地名種別候補として、第2検索結果バッファ61に登録する。
【0099】
最終判定部62は、第1検索結果バッファ57に書き込まれた手がかり表記を判断材料とした地名種別候補と、第2検索結果バッファ61に書き込まれたテキストタイプを判断材料とした地名種別候補とを基に、最終的な地名表記の種別を判定する。
【0100】
なお、ここでは、手がかり表記検索部56による手がかり表記の検索は、リンク元ページのテキスト全体から行っているが、リンク元ページからリンク元キー文字列を抽出して、この中から手がかり表記を検出するものであってもよいし、リンク元キー文字列の前後一定範囲のテキストから抽出するものであってもよいし、地名表記の出現したノードページのリンク元ページ、リンク先ページの両方を対象として、手がかり表記を検索するものであってもよい。
【0101】
次に、図15〜17に示されたフローチャートを参照して、ハイパーテキストを処理対象とした本実施形態の一連の動作を説明する。なお、図15は、本実施形態の全体の動作を表すフローチャートであり、図16は、図15に示されたステップS133の詳細な処理動作を示すフローチャートであり、図17は、図15に示されたステップS135の詳細な処理動作を示すフローチャートである。
【0102】
まず、図15に示されたフローチャートを参照しながら本実施形態の全体の動作を説明する。
ステップS131で、テキスト入力手段1により、ハイパーテキストを構成するノードページを入力メモリ2に読み込む。次にステップS132では、地名表記検出手段3により、入力メモリ2のノードページ中から地名表記の出現位置を検出する。ステップS133では、地名種別判定手段5により、入力メモリ2中のノードページのテキストのテキストタイプを手がかりとして、地名表記の種別を判定する。ステップS134では、入力メモリ2中のノードページに対するリンク元ページを、入力メモリ2に読み込む(この時、リンク元ページが複数あれば、それら複数ページを読み込む)。ステップS135では、地名種別判定手段5により、入力メモリ2に読み込んだリンク元ページのテキスト内容を手がかりとして、地名表記の種別を判定する。ステップS136では、ステップS133にて検出した地名表記の種別、及びステップS135にて検出した地名表記の種別とを考慮して最終的な地名表記の種別を判定する。
【0103】
次に、図16に示されたフローチャートを参照しながら、上述したステップS133の詳細、すなわち、地名種別判定手段5の実現方法の一例を説明する。
まず、ステップS141で、入力メモリ2内のノードページのテキストを解析して、そのテキストタイプを判定する。テキストタイプ判定部58が第2テキストバッファ54からノードページを読み込み、このノードページのテキストのテキストタイプを判定する。テキストタイプの判定方法としては、HTMLなどのマークアップテキストに関して、タグ情報、URL文字列、キーワードなどの特徴に着目して、そのテキストタイプ(例えば、企業ホームページ、イベント情報ページ、製品カタログページなど)を判定する方法が挙げられる。
【0104】
次にステップS142で、判定結果のテキストタイプに対応する地名種別を決定する。より詳細には、対応テーブル検索部60がテキストタイプ−地名種別対応テーブルから、テキストタイプ判定部58により判定されたテキストタイプに対応する地名種別を検索する。図14に示されたテキストタイプ−地名種別対応テーブルによれば、テキストタイプが「イベント情報ページ」と判定されたテキストに出現した地名表記の種別は「開催地」であると判定できる。
【0105】
ステップS143では、地名種別判定手段5の第2検索結果バッファ61に、テキストタイプ−地名種別対応テーブルから検索した地名種別を地名種別候補として書き込む。
【0106】
なお、ステップS141の段階でテキストタイプを判定できなかった場合や、ステップS142の段階でテキストタイプに対応する地名種別が存在しなかった場合は、ステップS143では判定失敗という結果が第2検索結果バッファ61に書き込まれる。
【0107】
次に、図17に示されたフローチャートを参照しながら、図15のステップS135の詳細、すなわち、地名種別判定手段5の実現方法の一例を示したフローを説明する。
まず、ステップS151で、入力メモリ2から地名表記の出現したノードページのリンク元ページを読み込む。より詳細には、読み込み位置決定部51が、ワークメモリ4から読み込んだ地名表記の出現位置情報に基づき、その地名表記の出現するノードページのリンク元ページを指定し、入力メモリ読み込み部52が、この指定されたリンク元ページを入力メモリ2から読み込み、第1テキストバッファ53に書き込む。
【0108】
次に、ステップS152で、リンク元キー文字列と手がかり表記辞書とを照合する。より詳細には、手がかり表記検索部56が、第1テキストバッファ53からリンク元ページを読み込むと共に、手がかり表記辞書記憶部55から手がかり表記辞書を読み込み、読み込んだリンク元ページのリンク元キー文字列から手がかり表記辞書に登録された手がかり表記を検索する。そして、検索した手がかり表記から手がかり表記辞書を参照して地名表記の種別を判定する。なお、リンク元キー文字列を抽出するには、タグ情報に着目すればよい。HTMLテキストであれば、Aタグで囲まれた文字列がリンク元キー文字列である。また、ここでは、リンク元ページからリンク元キー文字列を抽出することにしているが、リンク元ページ全体を扱うことにしてもよいし、リンク元キー文字列の前後一定範囲のテキストを抽出するようにしてもよい。
【0109】
ステップS153では、手がかり表記検索部56が、第1検索結果バッファ57に、判定した種別を地名種別候補として書き込む。
【0110】
なお、ステップS151の段階でリンク元ページが読み込めなかった場合や、ステップS152の段階で手がかり表記を見つけることができなかった場合は、ステップS153では、判定失敗という結果が書き込まれる。
【0111】
ここで、図11に示された具体例を用いて図15に示された動作手順を詳細に説明する。
ステップS131では、ノードページ31が、入力メモリ2に読み込まれる。ステップS132では、地名表記として「東京都港区N社ビル」(ノードページ31の23文字目〜31文字目)が検出される。図18に示されるように地名表記22「東京都港区N社ビル」、その出現位置23「ノードページ31、23文字目〜31文字目」という情報が、地名表記検出手段3によってワークメモリ4に書き込まれる。
【0112】
ステップS133では、ノードページ31のテキストタイプが判定される。テキストタイプ判定部58が第2テキストバッファ54からノードページを読み込み、このノードページのテキストタイプを判定する。そして、判定結果のテキストタイプに対応する地名種別を決定する。対応テーブル検索部60が、テキストタイプ−地名種別対応テーブルから、テキストタイプ判定部58により判定されたテキストタイプに対応する地名種別を検索する。検索された地名種別は、地名種別候補として第2検索結果バッファ61に書き込まれる。図11に示されたノードページのテキストタイプが「イベント情報ページ」と判定された場合、図14の対応テーブルにより地名種別は「開催地」だと判定される。判定結果は、第2検索結果バッファ61に記録される。
【0113】
ステップS134では、ノードページ31のリンク元ページ30が、入力メモリ2に読み込まれる。
【0114】
次にステップS135では、ノードページ30のリンク元キー文字列「9月のイベント」を手がかりとして、地名表記の種別を判定する。手がかり表記検索部56が第1テキストバッファに書き込まれたリンク元ページからリンク元キー文字列「9月のイベント」を検出し、この「9月のイベント」と手がかり表記辞書とを照合する。その結果、「イベント」という手がかり表記が検出され、これに対応する地名種別は「開催地」だと判定される。判定結果は、第1結果バッファ57に地名種別候補として書き込まれる。
【0115】
ステップS136では、対応テーブル検索部60により検索された「開催地」と、手がかり表記検索部56により検索された「開催地」とが一致しているので、最終判定部62が最終的に「開催地」を最終判定結果とする。その結果、最後のステップS137で、図19に示されるように、地名表記22「東京都港区N社ビル」、出現位置23「ノードページ31、23文字目〜31文字目」、地名種別24「開催地」という情報がワークメモリ4に書き込まれる。
【0116】
なお、上述した実施形態では、ノードページ中に出現する手がかり表記を検出することによる地名表記の種別の判定と、テキストタイプを判定することによる地名表記の種別の判定とを同時に行い、これらの判定結果を基に、地名表記の種別を決定していた。この他に、テキストタイプを判定することによる地名種別の判定をまず行って、テキストタイプの判定に失敗した場合に、テキスト中に出現する手がかり表記を検出して、地名表記の種別を判定するものであってもよい。また、テキストタイプを判定することによる地名種別の判定、及び手がかり表記を検出することによる地名種別の判定のどちらか一方だけを行って、地名表記の種別を判定するものであってもよい。例えば、テキストタイプを地名種別判定の手がかりとする方法だけを用いるのならば、図13の構成に関して、第1テキストバッファ53、手がかり表記辞書記憶部55、手がかり表記検索部56、第1検索結果バッファ57は不要となる。逆に、手がかり表記を地名種別判定の手がかりとする方法だけを用いる方法とするならば、第2テキストバッファ54、テキストタイプ判定部58、テキストタイプ−地名種別対応テーブル記憶部59、対応テーブル検索部60、第2検索結果バッファ61、は不要となる。また、フローチャートに関しても、図15の手順の他に、ステップS133をステップS135の後になるように入れ替えたものや、ステップS133とステップS134〜ステップS135の一方を削ったものや、ステップS133で成功したらステップS134〜ステップS135をスキップするものなどのバリエーションが考えられる。
【0117】
また、上述した第1の実施形態においては、地名表記を検出してから地名種別を判定する処理手順(図5のフローチャート)と、地名種別の手がかりを得てから地名表記を検出する処理手順(図10のフローチャート)という2通りが考えられた。ここで述べた第2の実施形態においても同様に、2通りの処理手順が考えられる。上述した図15のフローチャートは、地名表記を検出してから地名種別を判定する処理手順である。次に、もう一方の、地名種別の手がかりを得てから地名表記を検出する処理手順として、図20のフローチャートに示されるものと、図21のフローチャートに示すものとを説明する。
【0118】
図20のフローチャートでは、まず、ステップS161にて、ハイパーテキストを構成するノードページを、入力メモリ2から読み込む。次に、ステップS162にて地名種別判定手段5により、入力メモリ2中のノードページから、地名表記の種別の手がかりとなる表記を検出する。ステップS163では、入力メモリ2内のノードページに対するリンク先ページを、入力メモリ2に読み込む。このとき、リンク先ページが複数ある場合には、地名種別の手がかり表記をリンク元キー文字列に含むものを選択する(地名種別の手がかり表記をリンク元キー文字列に含むものがなければ、手がかり表記がリンク元キー文字列の最も近くにあるものを選択する)。ステップS164では、地名表記検出手段3により、入力メモリ2中のリンク先ページから、地名表記を検出する。ステップS165では、ワークメモリ4に地名表記とその種別の情報を書き込む。なお、ノードページに手がかり表記が複数存在し、それらの手がかり表記がリンク元キー文字列に設定されている場合、それらの手がかり表記のリンク先すべてを参照して地名表記を検出する。
【0119】
図11の例を用いて図20のフローチャートに示した動作を説明すると、次のようになる。まず、ステップS161で図11のノードページ30が読み込まれ、ステップS162で「イベント」が手がかり表記として検出される。「イベント」は複数あるが、そのうちの最初の「9月のイベント」について、ステップS163では、リンク先ページ31が読み込まれる。ステップS164では、ノードページ31から「東京都港区N社ビル」が地名表記として検出される。ステップS165では、地名表記「東京都港区N社ビル」、出現位置「ノードページ31、23文字目〜31文字目」、地名種別「開催地」という情報がワークメモリ4に書き込まれる。なお、図11に示されたノードページ31には「9月のイベント」、「10月のイベント」、「11月のイベント」と複数の手がかり表記が存在する。図11には、このうち「9月のイベント」のリンク先として、ノードページ31だけが記載されているが、「10月のイベント」、「11月のイベント」についてもリンクが張られている場合には、リンク先を参照して地名表記を検出するものであるとよい。
【0120】
一方、図21のフローチャートでは、まず、ステップS166にて、ハイパーテキストを構成するノードページを、入力メモリ2に読み込む。次に、ステップS167で、地名種別判定手段5により、入力メモリ2内のノードページのテキストが地名表記の種別の手がかりとなるテキストタイプであるかを判定する。もし、地名種別の手がかりとなるテキストタイプであるならば、ステップS168にて、地名表記検出手段3により、そのノードページ中から地名表記を検出する。最後にステップS169でワークメモリ4に地名表記とその種別の情報とを書き込む。
【0121】
図11の例を用いて図21のフローチャートに示した動作を説明すると、次のようになる。
まず、ステップS166で、図11のノードページ31が読み込まれる。ステップS167で、ノードページ31のテキストタイプが「イベント情報ページ」であると判定される。その結果、図14の対応テーブルにより地名種別は「開催地」だと判定される。ステップS168では、ノードページ31から地名表記として「東京都港区N社ビル」が検出される。最後に、ステップS169で、地名表記22「東京都港区N社ビル」、出現位置23「ノードページ31、23文字目〜31文字目」、地名種別24「開催地」という情報がワークメモリに書き込まれる。
【0122】
次に添付図面を参照しながら本発明に係る第3の実施形態について説明する。
【0123】
本発明に係る第3の実施形態は、図22に示されるように、テキスト入力手段1、入力メモリ2、地名表記検出手段3、ワークメモリ4、地名種別判定手段5、結果出力手段6、サイト構造解析手段7、制御手段8を備える。これらの各構成要素は、以下のように動作する。
【0124】
テキスト入力手段1は、ハイパーテキストを構成するノードページのテキストを入力メモリ2に読み込む。
【0125】
入力メモリ2は、テキスト入力手段1が読み込んだテキストを格納する。
【0126】
地名表記検出手段3は、入力メモリ2に格納されたテキスト中から地名表記を検出して、検出した地名表記とその出現位置の情報をワークメモリ4に書き込む。
【0127】
サイト構造解析手段7は、入力メモリ2とワークメモリ4を参照しながら、地名表記の検出されたノードページを含む近傍ノードページ群が特定のハイパーテキスト構造に該当するかを調べ、その結果をワークメモリ4に書き込む。
【0128】
地名種別判定手段5は、入力メモリ2とワークメモリ4を参照しながら、特定ハイパーテキスト構造に該当したノードページ群に含まれる地名表記の種別を決定し、その結果をワークメモリ4に書き込む。
【0129】
ワークメモリ4は、地名表記検出手段3によって検出された地名表記とその出現位置の情報、サイト構造解析手段7による解析結果、および、地名種別判定手段5によって判定された地名表記の種別に関する情報などを格納する。結果出力手段6は、ワークメモリ6の内容を読み出す。
【0130】
制御手段8は、これらの構成要素の一連の動作を制御する。
【0131】
これらの各手段は、プログラム制御によって動作するコンピュータを用いて実現できる。入力メモリ2やワークメモリ4は、コンピュータの主記憶部を用いてもよいが、磁気ディスク装置や光磁気ディスク装置などの外部記憶装置を用いてもよい。地名表記検出手段3は、従来の地名情報抽出装置に相当し、本明細書の従来技術の項で述べたような公知の技術によって実現できる。本実施形態は、地名種別判定手段5とサイト構造解析手段7を有する点が、従来の地名情報抽出装置と異なる。
【0132】
次に、サイト構造解析手段7の詳細な構成について図23を参照しながら説明する。
図23に示されるようにサイト構造解析手段7は、ワークメモリI/O部71、地名出現位置情報バッファ72、特定ハイパーテキスト構造記述辞書記憶部73、マッチングルール適用部74、入力メモリ読み込み部75、テキストバッファ76、判定結果バッファ77を有して構成される。
【0133】
ワークメモリI/O部71は、地名表記検出手段3により検出され、ワークメモリ4に記録された地名表記、及びその出現位置の情報を読み出し、地名出現位置情報バッファ72に転送する。
【0134】
地名出現位置情報バッファ72には、ワークメモリI/O部71により読み出された地名表記、及びその出現位置の情報とが書き込まれる。
【0135】
特定ハイパーテキスト構造記述辞書記憶部73には、図24に示された、特定ハイパーテキスト構造に該当するハイパーテキスト構造であるか否かを検出するためのマッチングルール35と、そのマッチングルールに該当する特定ハイパーテキスト構造のテキスト中に出現する地名表記の種別を決定するための地名種別決定ルール36とが、ルール番号34に対応付けられて記録されている。
【0136】
マッチングルール適用部74は、特定ハイパーテキスト構造記述辞書記憶部73からマッチングルール35を一つずつ取り出し、このマッチングルールを適用するために必要となるノードページ群を、地名出現位置情報バッファ72からの地名表記の出現位置を基にして算出し、算出したノードページ群の参照範囲の指定を入力メモリ読み込み部75に指示する。また、この指示に従い、入力メモリ読み込み部75により読み込まれ、テキストバッファ76に蓄積されたノードページ群を参照して、特定ハイパーテキスト構造記述辞書記憶部73から読み出したマッチングルール35に該当するノードページ群であるか否かを検出する。マッチングルール適用部74によるマッチングルールの適用結果は、判定結果バッファ77に記録され、全てのマッチングルールの適用が終了すると、記録した判定結果をワークメモリI/O部71を介してワークメモリ4に記録する。即ち、サイト構造解析手段7による解析によりワークメモリ4には、どのノードページ群がどの特定ハイパーテキスト構造を満たしたかといった情報(ノードページ群は、ノードページの識別番号のリストで示され、特定ハイパーテキスト構造も図24の辞書に対応するルール番号で示される)が書き込まれる。
【0137】
次に、地名種別判定手段5の詳細な構成について図25を参照しながら説明する。
図25に示されるように本実施形態の地名種別判定手段5は、ワークメモリI/O部81、サイト構造解析結果バッファ82、特定ハイパーテキスト構造記述辞書記憶部73、地名種別決定ルールマッチング部83、入力メモリ読み込み部85、テキストバッファ86、判定結果バッファ87を有して構成される。
【0138】
ワークメモリI/O部81は、サイト構造解析手段7による解析結果をワークメモリ4から取り出し、サイト構造解析結果バッファ82に記録する。
【0139】
特定ハイパーテキスト構造記述辞書記憶部73には、上述したように特定ハイパーテキスト構造に該当するハイパーテキスト構造であるか否かを検出するためのマッチングルール35と、そのマッチングルールに該当する特定ハイパーテキスト構造のテキスト中に出現する地名表記の種別を決定するための地名種別決定ルール36とが、ルール番号34に対応付けられて記録されている。
【0140】
地名種別決定ルールマッチング部83は、まず、サイト構造解析結果バッファ82に記録された、処理対象のノードページ群が該当するマッチングルールの番号を参照し、特定ハイパーテキスト構造記述辞書記憶部73にその番号に対応付けて登録された地名種別決定ルールを適用するために必要となる該ノードページ群を指定する情報を入力メモリ読み込み部84に転送する。次に、この指定により入力メモリ読み込み部84により入力メモリ2から読み込まれ、テキストバッファに記録されたノードページ群に前記地名種別決定ルールを適用して、地名表記の種別を判定する。判定結果は判定結果バッファ86に記録される。サイト構造解析手段7により対象ノードページ群に適用可能と判断された全てのマッチングルールに対応する地名種別決定ルールの適用が終了すると、判定結果をワークメモリI/O部81を介してワークメモリ4に書き込む。即ち、地名種別判定手段5によってワークメモリ4には、地名表記の出現箇所に対応させて、地名種別が書き込まれる。
【0141】
上記構成からなる本実施形態は、ハイパーテキスト構造が有する特有の構造に着目し、処理対象ノードページが、予め定めた特定の構造に該当するノードページ群に含まれるノードページであった場合には、このノードページに出現する地名表記の種別を、予め定めた特定のルールで判定することにより、地名表記の種別をより高精度に判定することを目的としている。
【0142】
この特定の構造に該当するノードページ群であるか否かを判定するためのマッチングルール35と、このマッチングルール35に該当したノードページ群に出現する地名表記の種別を判定するための地名種別決定ルール36としては、図24に示されるものが挙げられる。サイト構造解析手段7、及び地名種別判定手段5の特定ハイパーテキスト構造記述辞書記憶部73には、この図24に示されたマッチングルール35と、地名種別決定ルール36とがルール番号に対応付けられて記録されている。
【0143】
ここで、図24に示されたマッチングルール35に該当するハイパーテキスト構造での地名種別決定方法を具体例を挙げて説明する。図26は図24におけるルール番号1の特定ハイパーテキスト構造に該当し、図27は図24におけるルール番号2の特定ハイパーテキスト構造に該当する。
【0144】
図26のハイパーテキスト構造が図24の第1のマッチングルールに該当することを説明する。第1のマッチングルールの第1条件は、図26のノードページ37がX、ノードページ38がY、ノードページ39がZという対応関係になる。マッチングルールの第2条件は、図26におけるノードページ38内のリンク元キー文字列41における「関東」が地名表記Aに該当する。マッチングルールの第3条件は、図26におけるノードページ39に含まれる「東京都港区」「東京都府中市」「神奈川県川崎市」「群馬県前橋市」「栃木県日光市」などが、地名表記Biに該当する。マッチングルールの第4条件は、「東京都港区」「東京都府中市」「神奈川県川崎市」「群馬県前橋市」「栃木県日光市」などの地名表記が、地名の階層関係において「関東」の下位に位置することに対応する。従って、サイト構造解析手段7は、図26のノードページ37・38・39が、図24の第1番目の特定ハイパーテキスト構造のマッチングルールを満たすことを検出する。次に、地名種別判定手段5が、これらのノードページ群に地名種別決定ルールを適用する。図24の第1番目に対応する地名種別決定ルールでは、図26のノードページ37におけるリンク元キー文字列40の「支店のご案内」、あるいは、ノードページ38における地名表記A「関東」の前後の文字列から、地名種別の手がかり表記を探す。その結果、「支店のご案内」に含まれる「支店」が手がかり表記となって、「所在地」という地名種別に決定される。すなわち、「関東」「東京都港区」「東京都府中市」「神奈川県川崎市」「群馬県前橋市」「栃木県日光市」などの地名表記は、「所在地」という地名種別をもつものと判定される。
【0145】
次に、図27のハイパーテキスト構造が図24の第2のマッチングルールに該当することを説明する。第2のマッチングルールの第1条件は、図27のノードページ43がX、ノードページ44がYという対応関係になる。マッチングルールの第2条件は、図27におけるノードページ44内に地名表記を含むリンク元キー文字列47が複数存在することに対応し、「北海道」、「青森県」、「岩手県」、「山形県」などが地名表記Biに相当する。そして、これらの地名表記Biは、いずれも同じく県レベルの地名表記なので、地名の階層関係において兄弟関係となる。これがマッチングルールの第3条件に対応する。したがって、サイト構造解析手段7は、図27のノードページ43・44が、図24の第2番目の特定ハイパーテキスト構造のマッチングルールを満たすことを検出する。次に、地名種別判定手段5が、これらのノードページ群に地名種別決定ルールを適用する。図24の第2番目に対応する地名種別決定ルールでは、まず、図27のノードページ46におけるリンク元キー文字列46の「地域別」から地名種別の手がかり表記を探すが、それは見つからない。次に、ノードページ43のさらに上位のリンク元ページ42におけるリンク元キー文字列45「イベント案内」から地名種別の手がかり表記を探し、「イベント」という手がかり表記が得られて、「開催地」という地名種別に決定される。すなわち、「北海道」「青森県」「岩手県」「山形県」などの地名表記は、「開催地」という地名種別をもつものと判定される。
【0146】
次に、図28〜図30に示されたフローチャートを参照しながら、本実施形態による処理の流れを説明する。なお、図28は、本実施形態の全体の処理の流れを示すフローチャートである。図29は、サイト構造解析手段7における処理手順を示すフローチャートである。図30は、地名種別判定手段5における処理手順を示すフローチャートである。以下では、これらを参照しながら、本実施形態の動作を説明する。
【0147】
まず、図28に示されたフローチャートを参照しながら本実施形態の全体の処理の流れを説明する。
まず、ステップS172では、テキスト入力手段1により、ハイパーテキストを構成するノードページのテキストを入力メモリ2に読み込む。ステップS173では、地名表記検出手段3により、入力メモリ2のテキスト中から地名表記の出現位置を検出する。即ち、地名表記検出手段3によりワークメモリ4には、地名表記が、どのノードページの何文字目に出現したか、という検出結果リストが書き込まれる。
【0148】
S171・S172・S173のループは、ハイパーテキストのリンクをたどりながらノードページの読み込みを繰り返し、入力メモリ2にハイパーテキストのノードページのテキスト内容やリンク関係の情報を格納していく。ステップS171において、処理対象のノードページ群をすべて読み込んだところで、このループを抜ける。処理対象のノードページ群をすべて読み込んだかどうかの判定は、いくつかの決め方がある。例えば、起点とするノードページからリンクを深さKまでたどったところで止める方法、起点とするノードページからたどったノードページの数がM件に達したところで止める方法、ノードページのテキスト内容(キーワード)を判定しながらリンクをたどっていきテキスト内容に大きな変化が生じたところで止める方法、URL文字列から判断できるノードページの属するサイトやディレクトリが大きく変化するところで止める方法などが考えられる(ここで述べたような停止条件は従来のオートパイロットやWWWロボットなどのWWWページ自動収集ツールで用いられているものである)。
【0149】
次にステップS174では、サイト構造解析手段7により、地名表記の検出されたノードページを含む周辺ノードページ群が、特定のハイパーテキスト構造に該当するかを調べる。図29は、このステップS174の処理手順の詳細である。図24の特定ハイパーテキスト構造記述辞書では、1つのルールが、ルール番号34、マッチングルール35、地名種別決定ルール36の組で構成されている。図29のフローチャートにおいて、S181、S185、S186のステップで形成されるループではカウンタRの値をインクリメントしながら、特定ハイパーテキスト構造記述辞書内のルールを1つずつ調べていく。第R番目の特定ハイパーテキスト構造に関して、ステップS182では、図24の辞書からマッチングルール35を取り出す。次のステップS183では、入力メモリ2内のノードページ群のリンク関係に関する情報や、ワークメモリ4内の地名表記の出現位置に関する情報などを参照して、マッチングルール35に該当する箇所(入力メモリ2内のノードページ群のサブセット)を探す。もしマッチングルール35に該当する箇所があったならば、そのルール番号Rと、該当箇所のノードページ群の識別番号リストをワークメモリ4に書き込む。以上のステップS174の結果として、ワークメモリ4には、特定ハイパーテキスト構造に該当した箇所のリストが格納されることになる。
【0150】
このステップS174で特定のハイパーテキスト構造に該当した場合は、ステップS175で、その特定ハイパーテキスト構造に該当したノードページ群に含まれる地名表記の種別を判定する。図30は、このステップS175の処理手順の詳細である。図30のS191とS195のステップで形成されるループでは、ワークメモリ4に格納された特定ハイパーテキスト構造の検出結果情報を1つずつ取り出して処理していく。検出結果情報には、検出された特定ハイパーテキスト構造に対するルール番号が記載されているから、そのルール番号をRとすると、ステップS192では、その第R番目の特定ハイパーテキスト構造に対応する地名種別決定ルール36を、図24の辞書から読み出す。次にステップS193では、検出結果のノードページ群に地名種別決定ルールを適用して、それらのノードページ群のなかに含まれる地名表記の地名種別を決定する。検出結果のノードページ群の識別番号リストは、ワークメモリ4から得ることができ、それらに対応するノードページ群の実体は入力メモリ2に格納されている。また、それらのノードページ群に出現した地名表記は、ワークメモリ4に記録されている。このような情報を参照したパタンマッチング処理の結果、最終的にステップS194では、地名表記の種別に関する情報がワークメモリ4に書き込まれる。
【0151】
最後に、図28のステップS176で、検出されたすべての特定ハイパーテキスト構造に関する地名表記とその種別の情報がワークメモリ4に書き込まれる。
【0152】
このようにして、本実施形態は、処理対象のノードページ群が、あらかじめ定められた特定の構造を持つノードページ群であった場合には、この特定の構造に特有のルールを適用してノードページに出現する地名表記の種別を判定することにより、地名表記の種別をより高精度に判定することが可能となる。
【0153】
次に、本発明に係る第4の実施形態について詳細に説明する。
【0154】
図31には、本発明の地名情報抽出装置を利用した地図情報検索装置の構成が示されている。
図31に示されるように本実施形態は、ハイパーテキストデータベース100、地名情報抽出装置110、位置依存コンテンツデータベース120、地図データベース130、データベース検索装置140、位置条件入力装置150、地名種別選択装置160、表示装置170を備える。これらの各構成要素は、以下のように動作する。
【0155】
ハイパーテキストデータベース100は、ハイパーテキストが格納されている。例えば、インターネット上のWWWがこれに相当する。地名情報抽出装置110は、ハイパーテキストデータベース100内のテキストから地名表記とその種別に関する情報を抽出する。これまで説明した第2から第3の実施形態(図1や図22の構成)が、これに該当する。位置依存コンテンツデータベース120は、地名情報抽出装置110で抽出された情報を格納する。図32がそのデータ内容の例である。図32の位置依存コンテンツデータベースは、地名表記181、地名種別182、ノードページ番号183が対応付けられて格納されている。例えば、「東京都港区」という地名表記に関して、「開催地」という地名種別でノードページ31が対応し、「所在地」という地名種別でノードページ39が対応している。地図データベース130は、地図の二次元座標データと、その上にマッピングされた地名表記を格納している。位置条件入力装置150は、「東京都港区」というような地名表記を、利用者が入力するための装置である。キーボードのような文字列入力手段、マウスなどのポインティングデバイス、さらには、GPSのような人や車の現在位置を自動的に取得するシステムなどが用いられる。地名種別選択装置160は、「所在地」「開催地」「経過地」「話題地」などの地名種別を、利用者が選択するための装置である。データベース検索装置は、位置条件入力装置150と地名種別選択装置160で指定された条件で、地図データベース130と位置依存コンテンツデータベース120を検索して、その結果を表示装置170に表示する。
【0156】
データベース検索装置140は、地図データベース130を、位置条件入力装置150から指示された地名表記をキーとして検索し、その地名周辺の地図データを読み出す。同時に、データベース検索装置140は、位置依存コンテンツデータベース120を、位置条件入力装置150から指示された地名表記と、地名種別選択装置160から指示された地名種別をキーとして検索する。その2つのデータベースの検索結果を重ね合わせて、表示装置170に表示する。
【0157】
図33と図34は、図31の位置依存コンテンツデータベース120を用いて表示した例である。位置条件入力装置150からは関東地方の地名が指示されたものとする。図33では、地名種別として「所在地」が指定され、図34の方では、地名種別として「開催地」が指定されたものとする。このように、地名種別の情報をもっていることで、地図データに重ね合わせて表示する情報(ノードページ)の量を、利用者の目的に応じて絞り込んで提示することが可能になっている。
【0158】
次に本発明に係る第5の実施形態について図面を参照して詳細に説明する。
【0159】
図35を参照すると本発明に係る第5の実施形態は、入力装置200、データ処理装置210、記憶装置220、出力装置240を備え、さらに、上述した第1及び第2の実施形態の地名情報抽出装置を実現するためのプログラムを記録した記録媒体230を備える。この記録媒体230は、磁気ディスク、半導体メモリ、CD−ROMその他の記録媒体であってよい。
【0160】
入力装置200は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力装置240は、表示画面、プリンタ等のデータ処理装置210による処理結果を出力する装置である。
【0161】
地名情報抽出装置を実現するためのプログラムは、記録媒体230からデータ処理装置210に読み込まれ、データ処理装置210の動作を制御し、記憶装置220に入力メモリ2とワークメモリ4を生成する。データ処理装置210は、地名情報抽出装置を実現するためのプログラムの制御により第1、第2、第3の実施形態におけるテキスト入力手段1、地名表記検出手段3、地名種別判定手段5、結果出力手段6、制御手段8、また、第3の実施形態におけるサイト構造解析手段7による処理と同一の処理を実行する。
【0162】
なお、処理対象となるテキスト、あるいはハイパーテキストデータベースは、記憶媒体230から読み込む、あるいは、データ処理装置210により外部にあるデータベースにネットワーク(例えば、インターネット)を介してアクセスすることで取得する。
【0163】
次に、本発明に係る第6の実施形態について図面を参照して詳細に説明する。
【0164】
図36を参照すると、本発明に係る第6の実施形態は、入力装置300、データ処理装置310、記憶装置320、出力装置340、を備え、さらに、上述した第4の実施形態の地図情報検索装置を実現するためのプログラムを記録した記録媒体330を備える。この記録媒体330は、磁気ディスク、半導体メモリ、CD−ROMその他の記録媒体であってよい。
【0165】
上述した第5の実施形態と同様に、入力装置300は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力装置340も、表示装置、プリンタ等のデータ処理装置310による処理結果を出力する装置である。
【0166】
地図情報検索装置を実現するためのプログラムは、記録媒体330からデータ処理装置310に読み込まれ、データ処理装置310の動作を制御し、記憶装置320に入力メモリ2、ワークメモリ4、位置依存コンテンツデータベース120を生成する。データ処理装置310は、地図情報検索装置を実現するためのプログラムの制御により第4の実施形態における地名情報抽出装置110、データベース検索装置140、位置条件入力装置150、地名種別選択装置160による処理と同一の処理を実行する。
【0167】
なお、処理対象となるハイパーテキストデータベース、及び地図データベース130は、記憶媒体330から読み込む、あるいは、データ処理装置410により外部にあるデータベースにネットワーク(例えば、インターネット)を介してアクセスすることで取得する。
【0168】
なお、上述した実施形態は本発明の好適な実施の形態である。但し、これに限定されるものではなく本発明の要旨を逸脱しない範囲内において種々変形実施が可能である。
【0169】
【発明の効果】
本発明によれば、テキスト中から地名情報を自動抽出する際に、単に地名表記を検出するだけでなく、検出した地名表記の種別も判定可能になる。さらに、WWWのようなハイパーテキストデータベースから高精度に地名表記とその種別を抽出するものが可能になる。
【0170】
また、抽出した地名情報を地図データベースなどと対応付けて利用者に提示する際に、地名種別による絞り込みを行うことで、利用者の目的に合わせた情報提供も実現することが可能になる。
【図面の簡単な説明】
【図1】本発明に係る第1および第2の実施形態の構成を表すブロック図である。
【図2】地名表記辞書のデータ内容の例を示す図である。
【図3】地名種別判定手段の構成を表すブロック図である。
【図4】地名種別の手がかり表記辞書のデータ内容の例を示す図である。
【図5】本発明に係る第1の実施の形態の動作を示すフローチャートである。
【図6】地名種別判定手段5の動作を示すフローチャートである。
【図7】第1の実施形態が処理対象とするテキストの一例を示す図である。
【図8】ワークメモリ4に格納されるデータ内容の例を示す図である。
【図9】ワークメモリ4に格納されるデータ内容の例を示す図である。
【図10】本発明に係る第1の実施形態の動作を示すフローチャートである。
【図11】処理対象のハイパーテキストの内容の例を示す図である。
【図12】処理対象のハイパーテキストの内容の例を示す図である。
【図13】第2の実施形態の地名種別判定手段5の構成を表すブロック図である。
【図14】テキストタイプと地名種別の対応テーブルのデータ内容の例を示す図である。
【図15】本発明に係る第2の実施の形態の動作を示すフローチャートである。
【図16】地名種別判定手段5の動作を示すフローチャートである。
【図17】地名種別判定手段5の動作を示すフローチャートである。
【図18】ワークメモリ4に格納されるデータ内容の例を示す図である。
【図19】ワークメモリ4に格納されるデータ内容の例を示す図である。
【図20】本発明に係る第2の実施形態の動作を示すフローチャートである。
【図21】本発明に係る第2の実施形態の動作を示すフローチャートである。
【図22】本発明に係る第3の実施形態の構成を表すブロック図である。
【図23】第3の実施形態のサイト構造解析手段の構成を表すブロック図である。
【図24】特定ハイパーテキスト構造記述辞書のデータ内容の例を示す図である。
【図25】第3の実施形態の地名種別判定手段5の構成を表すブロック図である。
【図26】処理対象のハイパーテキストの内容の例を示す図である。
【図27】処理対象のハイパーテキストの内容の例を示す図である。
【図28】本発明に係る第3の実施形態の動作を表すフローチャートである。
【図29】サイト構造解析手段7の動作を示すフローチャートである。
【図30】地名種別判定手段5の動作を示すフローチャートである。
【図31】本発明に係る第4の実施形態の構成を表すブロック図である。
【図32】位置依存コンテンツデータベースのデータ内容の例を示す図である。
【図33】地図情報検索システムの表示結果の例を示す図である。
【図34】地図情報検索システムの表示結果の例を示す図である。
【図35】本発明に係る第5、及び第6の実施形態の構成を表すブロック図である。
【図36】本発明に係る第7の実施形態の構成を表すブロック図である。
【符号の説明】
1 テキスト入力手段
2 入力メモリ
3 地名表記検出手段
4 ワークメモリ
5 地名種別判定手段
6 結果出力手段
7 サイト構造解析手段
8 制御手段
100 ハイパーテキストデータベース
110 地名情報抽出装置
120 位置依存コンテンツデータベース
130 地図データベース
140 データベース検索装置
150 位置条件入力装置
160 地名種別選択装置
170 表示装置
20 地名種別
21 手がかり表記
22 地名表記
23 出現位置
24 地名種別
25 単語表記
26 品詞分類
27 共起語リスト
28 地名種別
29 テキストタイプ
30 リンク元ページ
31 リンク先ページ
32、40、41、45、46、47 リンク元キー文字列
33 リンク
34 ルール番号
35 マッチングルール
36 地名種別決定ルール
37、38、39、42、43、44 ノードページ
181 地名表記
182 地名種別
183 ノードページ番号

Claims (6)

  1. 地名表記の辞書とテキストとを照合し、前記テキスト中に出現する地名表記候補と当該地名表記候補の前記辞書上での分類とを抽出し、該抽出した地名表記候補の前記テキスト中での出現位置の前後のテキストを解析することで、前記地名表記候補の地名表記らしさを判定し、前記テキスト中に出現する地名表記と当該地名表記の前記テキスト中での出現位置を検出する地名表記検出手段と
    地名表記のテキスト中での意味的な役割を表わす少なくとも所在地・開催地・経過地・話題地のいずれかである地名種別と前記地名種別の判断材料となる手がかり表記とが対応づけられた手がかり表記辞書と、前記テキストの前記出現位置の前後と、を照合し、前記テキストの前記出現位置の前後を解析し、前記テキストの前記出現位置の前後に前記手がかり表記が存在する場合に、前記地名表記検出手段で検出した前記地名表記の前記テキスト中における地名種別が、前記手がかり表記に対応づけられた地名種別であると判定する地名種別判定手段と
    を備えることを特徴とする地名情報抽出装置。
  2. 地名表記のテキスト中での意味的な役割を表わす少なくとも所在地・開催地・経過地・話題地のいずれかである地名種別と、前記地名種別の判断材料となる手がかり表記と、が対応づけられた手がかり表記辞書と、テキストとを照合し、前記テキスト中で果たす意味的な役割を表す地名種別を判定可能な手がかり表記を前記テキスト中から検出し、前記テキスト中に前記手がかり表記が存在する場合に、当該手がかり表記の出現位置と、前記手がかり表記に対応づけられた地名種別を検出する地名種別判定手段と
    地名表記の辞書と、前記手がかり表記の出現位置の前後のテキストと、を照合し、前記テキスト中に出現する地名表記候補と当該地名表記候補の前記辞書上での分類とを抽出し、該抽出した地名表記候補の前記テキスト中での出現位置の前後のテキストを解析することで、前記地名表記候補の地名表記らしさを判定し、前記テキスト中に出現する地名表記を検出する地名表記検出手段と
    を備えることを特徴とする地名情報抽出装置。
  3. 地名情報抽出装置が行う地名情報抽出方法であって、
    地名表記の辞書とテキストとを照合し、前記テキスト中に出現する地名表記候補と当該地名表記候補の前記辞書上での分類とを抽出し、該抽出した地名表記候補の前記テキスト中での出現位置の前後のテキストを解析することで、前記地名表記候補の地名表記らしさを判定し、前記テキスト中に出現する地名表記と当該地名表記の前記テキスト中での出現位置を検出する地名表記検出工程と
    地名表記のテキスト中での意味的な役割を表わす少なくとも所在地・開催地・経過地・話題地のいずれかである地名種別と前記地名種別の判断材料となる手がかり表記とが対応づけられた手がかり表記辞書と、前記テキストの前記出現位置の前後と、を照合し、前記テキストの前記出現位置の前後を解析し、前記テキストの前記出現位置の前後に前記手がかり表記が存在する場合に、前記地名表記検出手段で検出した前記地名表記の前記テキスト中における地名種別が、前記手がかり表記に対応づけられた地名種別であると判定する地名種別判定工程と
    を前記地名情報抽出装置が行うことを特徴とする地名情報抽出方法。
  4. 地名情報抽出装置が行う地名情報抽出方法であって、
    地名表記のテキスト中での意味的な役割を表わす少なくとも所在地・開催地・経過地・話題地のいずれかである地名種別と、前記地名種別の判断材料となる手がかり表記と、が対応づけられた手がかり表記辞書と、テキストとを照合し、前記テキスト中で果たす意味的な役割を表す地名種別を判定可能な手がかり表記を前記テキスト中から検出し、前記テキスト中に前記手がかり表記が存在する場合に、当該手がかり表記の出現位置と、前記手がかり表記に対応づけられた地名種別を検出する地名種別判定工程と、
    地名表記の辞書と、前記手がかり表記の出現位置の前後のテキストと、を照合し、前記テキスト中に出現する地名表記候補と当該地名表記候補の前記辞書上での分類とを抽出し、該抽出した地名表記候補の前記テキスト中での出現位置の前後のテキストを解析することで、前記地名表記候補の地名表記らしさを判定し、前記テキスト中に出現する地名表記を検出する地名表記検出工程と
    を前記地名情報抽出装置が行うことを特徴とする地名情報抽出方法。
  5. 地名表記の辞書とテキストとを照合し、前記テキスト中に出現する地名表記候補と当該地名表記候補の前記辞書上での分類とを抽出し、該抽出した地名表記候補の前記テキスト中での出現位置の前後のテキストを解析することで、前記地名表記候補の地名表記らしさを判定し、前記テキスト中に出現する地名表記と当該地名表記の前記テキスト中での出現位置を検出する地名表記検出処理と
    地名表記のテキスト中での意味的な役割を表わす少なくとも所在地・開催地・経過地・話題地のいずれかである地名種別と前記地名種別の判断材料となる手がかり表記とが対応づけられた手がかり表記辞書と、前記テキストの前記出現位置の前後と、を照合し、前記テキストの前記出現位置の前後を解析し、前記テキストの前記出現位置の前後に前記手がかり表記が存在する場合に、前記地名表記検出手段で検出した前記地名表記の前記テキスト中における地名種別が、前記手がかり表記に対応づけられた地名種別であると判定する地名種別判定処理と
    をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  6. 地名表記のテキスト中での意味的な役割を表わす少なくとも所在地・開催地・経過地・話題地のいずれかである地名種別と、前記地名種別の判断材料となる手がかり表記と、が対応づけられた手がかり表記辞書と、テキストとを照合し、前記テキスト中で果たす意味的な役割を表す地名種別を判定可能な手がかり表記を前記テキスト中から検出し、前記テキスト中に前記手がかり表記が存在する場合に、当該手がかり表記の出現位置と、前記手がかり表記に対応づけられた地名種別を検出する地名種別判定処理と、
    地名表記の辞書と、前記手がかり表記の出現位置の前後のテキストと、を照合し、前記テキスト中に出現する地名表記候補と当該地名表記候補の前記辞書上での分類とを抽出し、該抽出した地名表記候補の前記テキスト中での出現位置の前後のテキストを解析することで、前記地名表記候補の地名表記らしさを判定し、前記テキスト中に出現する地名表記を検出する地名表記検出処理と
    をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2000329805A 2000-10-24 2000-10-24 地名情報抽出装置、その抽出方法及び記録媒体 Expired - Fee Related JP4821039B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000329805A JP4821039B2 (ja) 2000-10-24 2000-10-24 地名情報抽出装置、その抽出方法及び記録媒体
US09/983,239 US7240061B2 (en) 2000-10-24 2001-10-23 Place name information extraction apparatus and extraction method thereof and storing medium stored extraction programs thereof and map information retrieval apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000329805A JP4821039B2 (ja) 2000-10-24 2000-10-24 地名情報抽出装置、その抽出方法及び記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011010948A Division JP5115631B2 (ja) 2011-01-21 2011-01-21 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置

Publications (2)

Publication Number Publication Date
JP2002132791A JP2002132791A (ja) 2002-05-10
JP4821039B2 true JP4821039B2 (ja) 2011-11-24

Family

ID=18806422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000329805A Expired - Fee Related JP4821039B2 (ja) 2000-10-24 2000-10-24 地名情報抽出装置、その抽出方法及び記録媒体

Country Status (2)

Country Link
US (1) US7240061B2 (ja)
JP (1) JP4821039B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4398777B2 (ja) * 2004-04-28 2010-01-13 株式会社東芝 時系列データ分析装置および方法
US8972444B2 (en) * 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
JP5068002B2 (ja) * 2004-08-19 2012-11-07 株式会社ゼンリンデータコム ネットワークを介した位置情報の提供
US7483881B2 (en) 2004-12-30 2009-01-27 Google Inc. Determining unambiguous geographic references
JP4238849B2 (ja) * 2005-06-30 2009-03-18 カシオ計算機株式会社 Webページ閲覧装置、Webページ閲覧方法、及びWebページ閲覧処理プログラム
JP5390840B2 (ja) * 2008-11-27 2014-01-15 株式会社日立製作所 情報分析装置
US9449526B1 (en) 2011-09-23 2016-09-20 Amazon Technologies, Inc. Generating a game related to a digital work
US9471547B1 (en) 2011-09-23 2016-10-18 Amazon Technologies, Inc. Navigating supplemental information for a digital work
US9613003B1 (en) 2011-09-23 2017-04-04 Amazon Technologies, Inc. Identifying topics in a digital work
US9639518B1 (en) * 2011-09-23 2017-05-02 Amazon Technologies, Inc. Identifying entities in a digital work
JP5776539B2 (ja) * 2011-12-26 2015-09-09 富士通株式会社 抽出装置、抽出プログラム、および抽出方法
JP5595426B2 (ja) * 2012-01-05 2014-09-24 日本電信電話株式会社 単語抽出方法及び装置及びプログラム
JP6003995B2 (ja) * 2012-09-21 2016-10-05 富士通株式会社 圧縮プログラム、圧縮方法及び圧縮装置
JP6325604B2 (ja) * 2016-06-22 2018-05-16 株式会社ランドスケイプ 個人情報登録・管理システム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05181900A (ja) 1992-01-08 1993-07-23 Fujitsu Ltd 固有名詞処理装置
JPH0652221A (ja) * 1992-05-08 1994-02-25 Fujitsu Ltd 固有名詞の自動抽出方式
DE69432575T2 (de) * 1993-01-28 2004-03-18 Kabushiki Kaisha Toshiba, Kawasaki Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
US5734749A (en) * 1993-12-27 1998-03-31 Nec Corporation Character string input system for completing an input character string with an incomplete input indicative sign
US5819261A (en) * 1995-03-28 1998-10-06 Canon Kabushiki Kaisha Method and apparatus for extracting a keyword from scheduling data using the keyword for searching the schedule data file
JPH0981445A (ja) * 1995-07-11 1997-03-28 Matsushita Electric Ind Co Ltd 情報管理装置
SG75807A1 (en) * 1996-01-11 2000-10-24 Sony Corp Signal transmitting method and apparatus
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
EP0945811B1 (en) * 1996-10-23 2003-01-22 Access Co., Ltd. Information apparatus having automatic web reading function
AUPO525497A0 (en) * 1997-02-21 1997-03-20 Mills, Dudley John Network-based classified information systems
JPH1125098A (ja) * 1997-06-24 1999-01-29 Internatl Business Mach Corp <Ibm> 情報処理装置、リンク先ファイルの取得方法および記憶媒体
JPH11195025A (ja) * 1997-12-26 1999-07-21 Casio Comput Co Ltd ドキュメントデータのリンク付け装置、リンク先アドレスの表示/アクセス装置、及びリンク付けされたドキュメントデータの配付装置
JP2000029902A (ja) 1998-07-15 2000-01-28 Nec Corp 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体
JP2000250931A (ja) * 1999-03-01 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 位置情報の自動抽出装置および自動抽出方法と記録媒体
DE60027499T2 (de) * 1999-03-05 2006-11-16 Hitachi, Ltd. Informationsdarbietungssystem für mobile Einheiten
US6578078B1 (en) * 1999-04-02 2003-06-10 Microsoft Corporation Method for preserving referential integrity within web sites
US6983482B2 (en) * 2000-02-29 2006-01-03 Matsushita Electric Industrial Co., Ltd. Data broadcast content generation system
US20020073124A1 (en) * 2000-12-11 2002-06-13 Takahiro Masuda Network browser

Also Published As

Publication number Publication date
JP2002132791A (ja) 2002-05-10
US20020059285A1 (en) 2002-05-16
US7240061B2 (en) 2007-07-03

Similar Documents

Publication Publication Date Title
JP4200645B2 (ja) 情報処理装置、情報処理方法および記録媒体
US6055528A (en) Method for cross-linguistic document retrieval
CN102236640B (zh) 命名实体的消歧
JP3696731B2 (ja) 構造化文書の検索方法および装置および構造化文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4821039B2 (ja) 地名情報抽出装置、その抽出方法及び記録媒体
JP4473702B2 (ja) 機械翻訳システム、機械翻訳方法及びプログラム
JP2007188356A (ja) 不正ハイパーリンク検出装置及びその方法
JP2010538374A (ja) 曖昧感応自然言語処理システムにおける同一指示解決
JP2007141123A (ja) 異なるファイルの同一文字列のリンク
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JP4588037B2 (ja) ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム
Drymonas et al. Geospatial route extraction from texts
JPH08147311A (ja) 構造化文書検索方法及び装置
JP5115631B2 (ja) 地名情報抽出装置、制御方法、記録媒体及び地図情報検索装置
Ehsan et al. A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection.
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP3648101B2 (ja) コンテンツ不正利用探索装置およびコンテンツ不正利用探索方法
Angel et al. Qualitative geocoding of persistent web pages
JP2812511B2 (ja) キーワード抽出装置
JP2005107793A (ja) キーワード抽出装置、およびキーワード抽出方法、並びにコンピュータ・プログラム
JP3591109B2 (ja) キーワード設定装置
JP2001034630A (ja) 文書ベース検索システム、およびその方法
JPH0635971A (ja) 文書検索装置
Ehsan et al. Using Local Text Similarity in Pairwise Document Analysis for Monolingual Plagiarism Detection
JP2000311170A (ja) テキスト情報抽出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110121

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110630

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110809

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110822

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees