JP4200645B2

JP4200645B2 - 情報処理装置、情報処理方法および記録媒体

Info

Publication number: JP4200645B2
Application number: JP2000278691A
Authority: JP
Inventors: 俊一福島
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2000-09-08
Filing date: 2000-09-08
Publication date: 2008-12-24
Anticipated expiration: 2020-09-08
Also published as: JP2002082943A; US20020031269A1; US6975766B2

Description

【０００１】
【発明の属する技術分野】
本発明は、テキスト中に出現する地名・人名・組織名などの固有表現を検出する情報処理装置、情報処理方法および記録媒体に関する。ここで、固有表現は、Named Entityに対応する日本語であり、地名・人名・組織名などを指す。「言語処理学会第５回年次大会」論文集（１９９９年３月）のpp.128〜131 に掲載された論文「固有表現の定義の困難さ―ＩＲＥＸにおけるＮＥ定義の事例から―」（著者：関根聡・江里口善生）、あるいは、１９９９年９月に開催された「ＩＲＥＸワークショップ」などにおいて当該分野の用語として定義されている。
【０００２】
【従来の技術】
固有表現を検出するための最も基本的な方式は、固有表現の辞書を用意し、テキストと辞書とを照合することで、テキスト中に出現した固有表現を検出するものである。例えば、辞書のなかに「横浜市」（地名）、「横浜ベイスターズ」（組織名）のように登録しておき、テキスト中に「横浜市」が出現すれば、それを地名として検出し、「横浜ベイスターズ」が出現すれば、それを組織名として検出する。
【０００３】
しかし、単純に辞書と照合するだけでは、固有表現を判別できないことがある。例えば、テキスト中に「千葉」という表記が出現した場合、これは人名かもしれないし、地名かもしれないという、複数通りの解釈（曖昧性）が生ずる。同様に、テキスト中に「谷」という表記が出現した場合、これは人名かもしれないし、一般名詞かもしれないという曖昧性を持つ。さらには、テキスト中の「中央区」という表記が地名として検出できたとしても、この「中央区」が、「東京都中央区」なのか、「大阪市中央区」なのか、という解釈の曖昧性は残る。
【０００４】
このような固有表現の判別における曖昧性を解消するための手法として、従来、以下のような２通りの方法が考えられている。これらの手法はいずれも、「ＩＲＥＸワークショップ」（１９９９年９月）の予稿集に掲載された論文群、特に、「固有表現抽出システムの開発とＩＲＥＸ−ＮＥにおける評価」（著者：竹元義美・福島俊一・山田洋志・奥村明俊・池田崇博）などに記載されている。
【０００５】
第一の手法は、固有表現の候補の前後あるいは同一テキスト内に出現する共起語を参照して、固有表現候補の曖昧性を解消する方法である。例えば、「千葉」という固有表現候補の直後に「選手」という共起語が出現すれば、この「千葉」は人名と判定できる。あるいは、「中央区」という固有表現候補について、同じテキスト中に「東京都」という共起語が出現していれば、この「中央区」は「東京都中央区」を意味する可能性が高いと解釈できる。
【０００６】
第二の手法は、固有表現の候補の表記を包含するような表記が、同一テキスト内に出現しているかを調べて、固有表現候補の曖昧性を解消する方法である。例えば、「横浜」という表記には地名と組織名の曖昧性があるが、同一テキスト内に「横浜ベイスターズ」という表記が出現しているならば、「横浜」は「横浜ベイスターズ」の省略表記、すなわち、組織名である可能性が高いと判断できる。
【０００７】
本発明と技術分野が類似する従来例１として、特開平６−５２２２１号公報の" 固有名詞の自動抽出方式" がある。
【０００８】
本従来例は、オンライン・データベースやエキスパート・システム、機械翻訳システム等の自然言語インターフェースにおいて、オンライン・テキストをアクセスするデータベース・アクセス手段と、前もって作成してある固有名詞パターンを参照し、データベース・アクセス手段がアクセスして得たテキストから固有名詞候補を抽出する固有名詞抽出手段と、固有名詞抽出手段が抽出した固有名詞候補が既に辞書に登録してあるか否かを判定し、未登録の固有名詞候補を抽出する固有名詞判定手段と、固有名詞判定手段が抽出した未登録の固有名詞候補を辞書に登録する固有名詞登録手段とを有することを特徴としている。
【０００９】
【発明が解決しようとする課題】
しかしながら、上述した固有表現判別方式、並びに従来例１の固有名詞の自動抽出方式は、１つのテキスト内の解析処理によるものである。このような従来技術では、ＷＷＷ（World Wide Web）のようなハイパーテキストデータベースを構成する各ノードページのテキストを対象とした場合、そのテキスト内の情報のみを用いた解析処理では、十分な判別精度が得られない可能性があるという問題がある。
【００１０】
本発明は上記事情に鑑みてなされたものであり、ＷＷＷのようなハイパーテキストデータベースを構成する各ノードページのテキスト中に出現する固有表現（地名・人名・組織名など）を高精度に判別可能な情報処理装置、情報処理方法および記録媒体を提供することを目的とする。
【００１１】
【課題を解決するための手段】
係る目的を達成するために請求項１記載の発明は、テキストに含まれる固有表現の解釈を判別する情報処理装置であって、ハイパーテキストデータベースから読み出された、テキスト及び当該テキストの有する他のテキストとのリンク関係を記憶するテキスト記憶手段と、固有表現の候補毎にその一つ以上の解釈と当該解釈の場合に該固有表現の候補に共起する共起語とを対応付けて記憶する共起語記憶手段と、記憶された固有表現の候補をテキストから抽出する単一テキスト解析手段と、第１のテキストから第２のテキストを求めるためにリンク先又はリンク元をいずれか一方向に辿る回数が整数ｎである場合に第１のテキストと第２のテキストとがｎ階層のリンク関係を有すると定義した場合において、テキスト記憶手段で記憶されたリンク関係を参照して候補を抽出したテキストと少なくとも１階層のリンク関係を有する一つ以上の他のテキストを求め、当該求めた他のテキストにおいて共起語記憶手段で候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する複合テキスト解析手段とを備える装置である。
【００１２】
請求項９記載の発明は、テキストに含まれる固有表現の解釈を判別する情報処理方法であって、コンピュータが、ハイパーテキストデータベースから読み出された、テキスト及び当該テキストの有する他のテキストとのリンク関係を記憶するテキスト記憶ステップと、コンピュータが、固有表現の候補毎にその一つ以上の解釈と当該解釈の場合に該固有表現の候補に共起する共起語とを対応付けて記憶する共起語記憶ステップと、コンピュータが、記憶された固有表現の候補をテキストから抽出する単一テキスト解析ステップと、コンピュータが、第１のテキストから第２のテキストを求めるためにリンク先又はリンク元をいずれか一方向に辿る回数が整数ｎである場合に第１のテキストと第２のテキストとがｎ階層のリンク関係を有すると定義した場合において、テキスト記憶ステップで記憶されたリンク関係を参照して候補を抽出したテキストと少なくとも１階層のリンク関係を有する一つ以上の他のテキストを求め、当該求めた他のテキストにおいて共起語記憶ステップで候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する複合テキスト解析ステップとを含む方法である。
【００１３】
請求項１７記載の発明は、テキストに含まれる固有表現の解釈を判別する処理をコンピュータに実行させるプログラムを記録したコンピュータで読み込み可能な記録媒体であって、コンピュータに、ハイパーテキストデータベースから読み出された、テキスト及び当該テキストの有する他のテキストとのリンク関係を記憶するテキスト記憶処理、固有表現の候補毎にその一つ以上の解釈と当該解釈の場合に該固有表現の候補に共起する共起語とを対応付けて記憶する共起語記憶処理、記憶された固有表現の候補をテキストから抽出する単一テキスト解析処理、第１のテキストから第２のテキストを求めるためにリンク先又はリンク元をいずれか一方向に辿る回数が整数ｎである場合に第１のテキストと第２のテキストとがｎ階層のリンク関係を有すると定義した場合において、テキスト記憶処理で記憶されたリンク関係を参照して候補を抽出したテキストと少なくとも１階層のリンク関係を有する一つ以上の他のテキストを求め、当該求めた他のテキストにおいて共起語記憶処理で候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する複合テキスト解析処理を実行させるプログラムを記録した媒体である。
【００３２】
【発明の実施の形態】
次に、添付図面を参照しながら本発明に係る実施の形態を詳細に説明する。図１〜図１６を参照すると本発明に係る実施の形態が示されている。
【００３３】
本発明に係る第１の実施形態は、図１に示されるように、読み込み手段２、入力メモリ３、単一テキスト解析手段４、中間メモリ５、複合テキスト解析手段６、出力メモリ７を備え、ハイパーテキストデータベース１を構成するノードページのテキストに対して、そのテキスト中に出現する固有表現のリストを出力する。これらの各手段は、プログラム制御によって動作するコンピュータを用いて実現できる。入力メモリ３、中間メモリ５、出力メモリ７は、コンピュータの主記憶部を用いてもよいが、磁気ディスク装置や光磁気ディスク装置などの外部記憶装置を用いてもよい。
【００３４】
まず、本実施形態が処理対象とするハイパーテキストについて説明する。
【００３５】
図２は、固有表現判別装置の入力となるハイパーテキストデータベース１の一部を示す例である。ハイパーテキストは、ページ（あるいはノードと呼ばれる）をテキストの1 単位として、それらの間にリンクが設けられた形式をしている。図２における１０と１１は各々、ハイパーテキストデータベースを構成する１ページであり、それらの間をつなぐ矢印１３はリンクを表している。リンク１３に着目するならば、ページ１０はリンク元ページ（リンク元テキスト）、ページ１１はリンク先ページ（リンク先テキスト）となる。このようなハイパーテキストは、独自のデータ構造をもつものもあるが、最近はＳＧＭＬ（Standard Generalized Markup Language）、ＨＴＭＬ（Hyper Text Markup Language）、ＸＭＬ（Extensible Markup Language）などのマークアップ言語による記述が普及している。特に、インターネット上にはＷＷＷと呼ばれる大規模ハイパーテキストデータベースが存在し、そのなかではＨＴＭＬによる記述がスタンダードになっている。
【００３６】
図３は、図２のページ１０をＨＴＭＬで記述した一例である。図３において、＜＞で囲まれた部分はマークアップタグであり、ＨＴＭＬではＡタグで囲まれた文字列がリンク元を表す。すなわち、図２における文字列「ベイスターズファン」は、リンク元キー文字列になる。さらに、ＡタグのなかでＨＲＥＦの直後に書かれたＨＴＭＬテキスト名が、そのリンク先のページ（テキスト）を意味する。すなわち、ページ１０のリンク元キー文字列「ベイスターズファン」から「Baystars Fan」という名前のＨＴＭＬテキスト（ページ１１がこれに相当する）へジャンプできることを意味している。なお、ここではＨＴＭＬで記述されたハイパーテキストデータベースを例にあげて説明したが、本発明では、対象とするハイパーテキストの記述形式をＨＴＭＬに限定するものではない。ＳＧＭＬやＸＭＬで記述されたものでもよいし、独自のデータ構造を用いたハイパーテキストであってもかまわない。
【００３７】
読み込み手段２は、ハイパーテキストデータベース１から入力メモリ３へページ（テキスト）を読み込む。この読み込み手段２は、ハイパーテキストデータベース１がどこに置かれているかに応じて、ネットワークを介して外部と通信するための機構、あるいは、外部記憶装置にアクセスするための機構なども含む。どのページを読み込むかについては、（ａ）その都度、読み込む対象ページを指定して個別に読み込む方法、（ｂ）ハイパーテキストの一部分を読み込む対象として範囲指定する方法、（ｃ）ハイパーテキストのリンクを自動的にたどりながら、すべてのページを読み込む方法、などが考えられる。（ａ）や（ｂ）の場合、外部から対象ページあるいは対象範囲を指定するため、読み込み手段２は、キーボードやマウスなど外部からコンピュータに指示入力を与える装置も含む。このような読み込み手段２の実現方法は、既に公知である。例えば、ＨＴＭＬ形式のハイパーテキストデータベースを対象とするならば、（ａ）はNetscape NavigatorやMicrosoft Internet Explorer など広く普及したＷＷＷブラウザのもつ基本機能であり、（ｂ）はオートパイロットツールと呼ばれるもの、（ｃ）はＷＷＷロボットやクローラと呼ばれるシステムとして実用化されている。
【００３８】
単一テキスト解析手段４は、入力メモリ３に読み込まれた各テキストから、そのテキスト内の解析処理によって、そのテキスト内に出現する固有表現候補を検出する。この単一テキスト解析手段４は、従来の固有表現判別装置に相当する。すなわち、本明細書の従来技術の項で述べたような公知の技術によって実現できる。単一テキスト解析手段４は、入力メモリ３からテキストを１件読み込み、そのテキストに対する解析処理を実行し、そのテキストにおける固有表現候補を中間メモリ５へ書き込む。中間メモリ５に書き込まれる情報は、対象テキスト中に検出された固有表現候補のリストであり、個々の固有表現候補に関しては、その固有表現候補がテキスト中のどこに出現したかという位置情報、および、その固有表現候補の種類（地名、人名、組織名などのいずれか）などを記録する。その際、固有表現候補の種類に曖昧性がある場合には、地名または人名、人名または一般名詞、というように複数通りの可能性を記録しておく。なお、図４には、単一テキスト解析手段４によって検出した固有表現候補の情報を記録する中間メモリ５の管理テーブルの構成が示されている。
【００３９】
複合テキスト解析手段６は、単一テキスト解析手段４によって検出された固有表現候補の確からしさを、その固有表現候補の出現したリンク元あるいはリンク先のテキストを参照した解析処理によって計算する。この解析処理の実現方法、すなわち、リンク元あるいはリンク先のテキストを参照することによる固有表現候補の確からしさの計算方法としては、例えば、以下のようなものが考えられる。（ア）固有表現候補の確からしさを、その固有表現候補の出現したテキストに対するリンク元あるいはリンク先の複数テキストにおける、その固有表現候補と共起する単語の出現頻度情報をもとにして計算する方法、（イ）固有表現候補の確からしさを、その固有表現候補の出現したテキストに対するリンク元テキストにおけるリンク元キー文字列と、その固有表現候補との共起関係をもとにして計算する方法、（ウ）固有表現候補の確からしさを、その固有表現候補の出現したテキストに対するリンク元テキストにおけるリンク元キー文字列の前後一定範囲のテキストにおける、その固有表現候補と共起する単語の出現頻度情報をもとにして計算する方法、などである。このような計算を実行するために、複合テキスト解析手段６は、必要に応じて、入力メモリ３や中間メモリ５の内容を参照する。そして、複合テキスト解析手段６の結果は、出力メモリ７へ書き出す。また、図１における複合テキスト解析手段６は、装置全体を制御するような役割を持たされた構成になっており、読み込み手段２や単一テキスト解析手段４の動作制御も行う。ただし、そのような装置全体の動作制御の機能は、複合テキスト解析手段６と分離して構成するようにしてもよい。
【００４０】
上記構成からなる本実施形態は、ＷＷＷのようなハイパーテキストデータベースを構成するノードページのテキスト中に出現する固有表現を高精度に判別することを目的としている。
【００４１】
例えば、図２に示されたテキストには、「横浜」という表記が出現する。「横浜」という表記には地名と組織名の曖昧性があり、そのテキストを検索しただけでは、この曖昧性を解消することができない場合がある。また、図５では、テキスト１６中に出現する地名「中央区」が「大阪市中央区」なのか、「東京都中央区」なのかといった曖昧性が生じている。
【００４２】
このような不具合を解決するために、本実施形態は、単一テキスト解析手段４によって検出したテキスト内に出現する固有表現候補の確からしさを、その固有表現候補の出現したテキストに対するリンク元、あるいはリンク先のテキストを参照した解析によって計算する複合テキスト解析手段６を設けたことを特徴としている。この複合テキスト解析手段６により、例えば、図２に示された例では、固有表現候補「横浜」が現れたテキストのリンク元テキスト１０を参照することで、「横浜」は組織名である方が確からしいと判定することができる。また、図５に示された例では、リンク元テキスト１５を参照すると、「大阪府」という共起語が出現していることから、テキスト１６の「中央区」は「大阪市中央区」の解釈の方が確からしいと判定できる。
【００４３】
図６を参照しながら、本発明の特徴部分である複合テキスト解析手段６の詳細な構成及び動作を説明する。図６に示されるように複合テキスト解析手段６は、入力メモリ読み込み手段３０、テキストバッファ３１、固有表現候補バッファ３２、固有表現辞書部３３、共起語情報読み出し部３４、共起語情報バッファ３５、共起語検出部３６、検出結果記憶部３７、尤度計算部３８を有して構成される。
【００４４】
入力メモリ読み込み手段３０は、入力メモリ３に記憶されたテキストを読み込む。この入力メモリ読み込み手段３０の読み込み対象となるテキストの範囲は、上述した（ア）、（イ）、（ウ）のそれぞれの方法において異なるが、これらについては後に詳述する。テキストバッファ３１は、入力メモリ読み込み部３０により読み込まれたテキストを一時的に記憶する。
【００４５】
固有表現候補バッファ３２は、単一テキスト解析手段４の解析結果である固有表現候補を中間メモリ５から読み出す。
【００４６】
固有表現辞書３３には、固有表現候補を特定するための辞書が記憶されている。図７にこの固有表現辞書の構成を示す。図７に示されるように固有表現辞書では、固有表現の表記４０に対して、地名、人名、組織名などのいずれかの固有表現として解釈されるかの種別４１（一般名詞との解釈の曖昧性がある場合など固有表現以外の種別を入れることもある。）及び各々の解釈時の共起語リスト４２を格納している。共起語リスト４２は、単に共起語のリストだけではなく、位置関係の条件（固有表現の直後に接続するなど）も併せて格納しておいてもよい。
【００４７】
共起語情報読み出し部３４は、固有表現候補バッファ３２から固有表現候補、その位置情報、種類を読み出すと共に、この固有表現候補の、種別４１、及びその共起語リスト４２を固有表現辞書３３から読み出す。共起語情報読み出し部３４により読み出された情報は、共起語情報バッファ３５に一時的に記憶される。
【００４８】
共起語検出部３６は、テキストバッファ３１からテキストを読み出すと共に、共起語情報バッファ３５から固有表現候補の共起語リストを読み出し、テキストの中から固有表現候補の共起語リストに挙げられた共起語を検出する。共起語検出部３６にて検出された検出結果は、検出結果記憶部３７に記憶される。
【００４９】
尤度計算部３８は、検出結果記憶部３７に記憶された共起語から固有表現候補の種別（地名、人名、組織名）毎の確からしさを判定し、判定結果を出力メモリ７に出力する。
【００５０】
ここで、複合テキスト解析手段６による（ア）、（イ）、（ウ）の解析手法について図２に示されたリンク元、及びリンク先のテキストを参照しながら説明すると共に、上記各解析手法の場合の複合テキスト解析手段６の処理動作を説明する。
【００５１】
図２では、１０がリンク元テキスト、１１がリンク先テキストである。リンク先テキスト１１を対象として単一テキスト解析手段４が実行され、「横浜」が固有表現候補として検出されたものとする。図７に示された固有表現辞書を用いたとするならば、図２のリンク先テキスト１１における「横浜」には、地名と組織名という２通りの解釈（曖昧性）が生ずる。この曖昧性は、「横浜」に関する共起語が、テキスト１１内に出現していないことから、単一テキスト解析手段４では解消できない。このとき、複合テキスト解析手段６では、リンク元テキスト１０を参照することで、テキスト１１における固有表現候補「横浜」の確からしさを計算する。複合テキスト解析手段６の実現方法として前述の（ア）、（イ）、（ウ）では、次のように参照するテキスト範囲が異なる。
【００５２】
まず（ア）では、リンク元テキスト１０の全体を参照する。そして、そのなかに出現する「横浜」の共起語として、「プロ野球」、「球団」、「ベイスターズ」などを見つけることで、固有表現候補「横浜」は組織名としての解釈の方が確からしいことを判定できる。
【００５３】
この解析方法の場合、複合テキスト解析手段６の入力メモリ読み込み部３０は、入力メモリ３に記憶されたテキストの中からリンク元ページのテキスト全体を読み込み、テキストバッファ３１に記憶する。
【００５４】
共起語検出部３６は、テキストバッファ３１からリンク元ページのテキスト全体を参照して、共起語情報バッファ３５から読み出した共起語リストに挙げられた固有表現候補の共起語を検出する。
【００５５】
次に、（イ）の解析方法の場合、リンク元キー文字列のみを参照する。図２では、１２の「ベイスターズファン」がリンク元キー文字列となる。この１２のなかに、「横浜」の共起語である「ベイスターズ」が出現していることから、固有表現候補「横浜」は組織名としての解釈の方が確からしいことを判定できる。
【００５６】
この解析方法の場合、複合テキスト解析手段６の入力メモリ読み込み部３０は、入力メモリ３に記憶されたリンク元ページのテキストの中から、リンク元キー文字列だけを読み込む。すなわち、リンク元ページの中から、固有表現候補の出現するテキストのテキスト名を、リンク先テキストに設定された文字列を読み込む。図２に示された例では、固有表現候補「横浜」の現れるテキスト名「ＢａｙｓｔａｒｓＦａｎ．ｈｔｍｌ」が、アンカータグ（<A HREF= >……</A>）内に記載されたリンク元キー文字列を入力する。
【００５７】
共起語検出部３６は、テキストバッファ３１から読み込んだこのリンク元キー文字列に、共起語情報バッファ３５から読み込んだ共起語リストに挙げられた固有表現候補の共起語が現れるか否かを検出する。
【００５８】
次に、（ウ）の解析方法の場合、図８における１４のように、リンク元キー文字列の前後一定範囲のテキストを参照する。図８の１４の範囲には、「球団」「ベイスターズ」などが「横浜」の共起語として出現しているので、固有表現候補「横浜」は組織名としての解釈の方が確からしいことを判定できる。なお、リンク元キー文字列の前後一定範囲の決め方は、前後に一定の文字数、前後に一定の行数、リンク元キー文字列を含む１段落（〜３段落）などのように、いろいろな方法が考えられる。
【００５９】
この解析方法の場合、複合テキスト解析手段６の入力メモリ読み込み部３０は、入力メモリ３に記憶されたリンク元ページのテキストの中から、リンク元キー文字列、及びこのリンク元キー文字列の前後を一定の範囲を読み込む。
【００６０】
共起語検出部３６は、テキストバッファ３１から読み込んだこのリンク元キー文字列、及びこの前後一定の範囲のテキスト内に、共起語情報バッファ３５から読み込んだ共起語リストに挙げられた固有表現候補の共起語が現れるか否かを検出する。
【００６１】
このようにして、本実施形態は、固有表現候補の出現したテキスト内だけではなく、リンク元のテキストも参照して固有表現候補の種別を特定することで、より高精度な固有表現の判別を行うことができる。
【００６２】
なお、複数テキストにおける共起語の出現頻度情報に着目する際の計算方法には、いろいろなバリエーションが考えられる。例えば、図９のテキスト１７とテキスト１９を考えて見ると、テキスト１９における「中央区」の曖昧性に対して、リンク元テキストである１７には「東京都」と「大阪府」の両方が出現していて、曖昧性を解消できない。そこで、（ア）の方法では、リンク元テキスト１件だけでなく複数件を参照する。さらには、リンク先テキストも参照することまで行うようにしている。図９のテキスト１９に対するリンク元テキスト１７と１８、さらにリンク先テキスト２０を参照すると、「東京都」（１回）、「大阪府」（３回）、「近畿地方」（１回）、「京都府」（１回）などが出現しており、最も多く出現している共起語である「大阪府」に着目することで、「中央区」は「大阪市中央区」という解釈の方が確からしいと判断できる。
【００６３】
また、上述した方法では、固有表現候補の曖昧性解消の際に、共起語のうちでリンク元・リンク先の複数テキストにおける出現頻度の総和が最も大きいものを優先した。それ以外にも、共起語のうちでリンク元・リンク先のなるべく多数件のテキストに出現するものを優先する方法も考えられる。これを図９の例で説明すれば、「大阪府」の出現するテキストは１７・１８・２０の３件、「近畿地方」の出現するテキストは１８のみで１件、「京都府」の出現するテキストも１８のみで１件とカウントし、「大阪府」が最も多数件のテキストに出現した共起語ということになり、これを曖昧性解消の手がかりに用いるという方法である。
【００６４】
さらに、単語（共起語）の出現回数や出現テキスト件数の単純カウントではなく、リンク元テキストか、リンク先テキストかによって、重みを変えてカウントするという方法も考えられる。例えば、単語の出現回数をリンク元テキストについては２点、リンク先テキストについては１点というように異なる重みを与えると、図９の例に関して、「東京都」は２点、「大阪府」は５点、「近畿地方」は２点、「京都府」は２点となる。また、共起語の出現位置によって重みを変える方法も考えられる。例えば、リンク元キー文字列に出現した場合は４点、リンク元キー文字列の前後一定範囲のテキストに出現した場合は３点、リンク元テキスト内に出現した場合は２点、リンク先テキスト内に出現した場合は１点というような重みの付け方である。
【００６５】
また、以上で述べた複合テキスト解析手段６の実現方法・処理例では、固有表現候補の出現したテキストからリンクを１階層分たどった範囲で、曖昧性解消の手がかりとなる共起語を探した。しかし、１階層よりも広い範囲から共起語を探すようにしてもよい。図１０の例では、テキスト２３に出現した「横浜」が固有表現候補であり、地名と組織名という曖昧性を持つ。このテキスト２３のリンク元テキストの範囲（１階層分）では、「横浜」の曖昧性を解消する手がかりとなる共起語は出現していない。そこで、さらにもう１階層分、リンク元へ逆上ると、テキスト２１を参照できる。テキスト２１には「ベイスターズ」という共起語が存在するため、「横浜」は組織名としての解釈を優先することができる。このような複数階層逆上ったテキスト参照に関して、最初から１階層ではなく、Ｎ階層（Ｎは１より大きなある値）の範囲を参照範囲と決めておく方法もあるし、また、１階層の範囲で曖昧性解消ができなかった時に、参照範囲を１階層ずつ増やしていくという方法もある。例えば、リンク元及びリンク先の前後一階層分のテキストを参照して曖昧性を解消できなかった時に、リンク先のリンク、若しくはリンク元のリンクをたどり、共起語を検出していく方法である。
【００６６】
また、単純に階層を増やしていくのではなく、１階層目はそのテキスト全体を参照するが、２階層目はリンク元キー文字列（或いはリンク元キー文字列の前後一定範囲のテキスト）のみを参照範囲とするような方法も考えられる。図１０の例で言えば、テキスト２３に対して、１階層目のテキスト２２はその全体を参照し、２階層目のテキスト２１はリンク元キー文字列の「ベイスターズファン」の部分のみを参照するという方法である。
【００６７】
また、リンクを逆上るだけでなく、リンク先の方向も含めて階層を増やしていく方法も考えられる。例えば、図１０の例において、テキスト２３に対して、リンク元のテキスト２２へ１階層分逆上り、今度はそのリンク先の方向にたどって、テキスト２４を参照することも可能である。テキスト２３に対して、２階層分の範囲として、テキスト２１、テキスト２２、テキスト２４の３つを参照する方法、リンク元方向のみにたどってテキスト２１とテキスト２２の２つを参照する方法、あるいは、兄弟関係のリンク参照を優先してテキスト２２とテキスト２４の２つを参照する方法などが考えられる。
【００６８】
次に、図１１のフローチャートを用いて、本実施の形態の動作を説明する。
まず、図１１のステップＳ２０１にあるように、読み込み手段２によって、ハイパーテキストデータベース１からテキストを読み込んで、入力メモリ３に書き込む。読み込み手段２の実現方法によっては、ステップＳ２０１と以降のステップＳとを交互に進めるような処理手順もとり得るが、ここでは前述の読み取り手段２の実現方法（ｂ）を用いて、ある範囲内のテキストをまとめて読み込むものとし、その結果、読み込まれたテキストの件数はＮ件であったとする。
【００６９】
次に、Ｎ件のテキストの各々について、ステップＳ２０４以降の手順を実行する。図１１のフローチャートでは、ステップＳ２０２でｋの値を１にセットした上で、ステップＳ２０９でｋの値を１ずつ増やしながら、ループ処理を実行している部分が、これに該当する。ｋ番目のテキスト（ｋ＝１〜Ｎ）に対する処理として、まず，ステップＳ２０４を実行する。ステップＳ２０４では、単一テキスト解析手段４によってテキストｋを解析し、テキストｋ内に出現する固有表現の候補を検出して、中間メモリ５へ書き込む。ここで検出された固有表現候補の数をＭｋとし、個々の固有表現候補をｃ［ｋ，ｊ］（ｊ＝１〜Ｍｋ）で表すものとする。すなわち、ｃ［ｋ，ｊ］は、テキストｋにおいて検出されたｊ番目の固有表現候補である。
【００７０】
次に、テキストｋにおいて検出されたＭｋ個の固有表現候補の各々について、ステップＳ２０７以降の手順を実行する。図１１のフローチャートでは、ステップＳ２０５でｊの値を１にセットした上で、ステップＳ２０８でｊの値を１ずつ増やしながら、ループ処理を実行している部分が、これに該当する。ｊ番目の固有表現候補ｃ［ｋ，ｊ］に対する処理として、ステップＳ２０７を実行する。ステップＳ２０７では、複合テキスト解析手段６によって、テキストｋに対するリンク元あるいはリンク先のテキストを参照して解析し、固有表現候補ｃ［ｋ，ｊ］の確からしさを計算し、出力メモリ７へ書き込む。読み込み手段２の実現方法によっては、ステップＳ２０７の段階で、テキストｋのリンク元テキストやリンク先テキストが入力メモリ３に含まれていないというケースもあり得る。その場合は、そのようなテキストｋに関する固有表現候補ｃ［ｋ，ｊ］については単一テキスト解析手段４の結果をそのまま出力することにしてもよいし、あるいは、ステップＳ２０７の段階で、読み込み手段２によってリンク元あるいはリンク先のテキストを改めて読み込むことにしてもよい。
【００７１】
テキストｋに対するＭｋ個の固有表現候補の確からしさの計算が終了したら、ステップＳ２０６を経て、次のテキスト（ｋ＋１）の処理へ進む。そして、Ｎ件のテキストに対する処理が完了したら、ステップＳ２０３を経て、フローチャート全体の処理が終了する。
【００７２】
次に、本発明に係る第２の実施形態について添付図面を参照しながら詳細に説明する。図１２には、本発明の固有表現判別装置を利用した地図検索装置の構成を示すブロック図が示されている。
【００７３】
図１２に示されるように固有表現判別装置を利用した地図情報検索装置は、ハイパーテキストデータベース５０、固有表現判別装置５１、位置依存コンテンツデータベース５２、地図データベース５３、データベース検索装置５４、表示装置５５、位置条件入力装置５６を備える。
【００７４】
ハイパーテキストデータベース５０は、ハイパーテキストが格納されている。例えば、インターネット上のＷＷＷがこれに相当する。
【００７５】
固有表現判別装置５１は、ハイパーテキストデータベース５０内のテキストから地名表記を検出する。これまで説明した第１の実施の形態がこれに相当する。ただし、本実施形態は、固有表現のうち地名と判定されたもののみを使用する。
【００７６】
位置依存コンテンツデータベース５２は地名表記と、そのノードページ番号が対応付けられて格納されている。例えば、「東京都港区」という地名表記に関して、ノードページ３１が対応し、「群馬県前橋市」という地名表記に関して、ノードページ４０が対応している。
【００７７】
地図データベース５３は、地図の２次元座標データと、その上にマッピングされた地名表記を格納している。
【００７８】
位置条件入力装置５６は、「東京都港区」というような地名表記を利用者が入力するための装置である。キーボードのような文字列入力手段、マウスなどのポインティングディバイス、さらには、ＧＰＳのような人や車の現在位置を自動的に取得するシステムなどが用いられる。
【００７９】
データベース検索装置５４は、位置条件入力装置５６で指定された条件で、地図データベース５３と位置依存コンテンツデータベース５２を検索して、その結果を表示装置５５に表示する。
【００８０】
図１４は、図１３の位置依存コンテンツデータベースを用いて地図上にコンテンツを表示した例である。位置条件入力装置５６からは関東地方の地名が指示されたものとする。
【００８１】
次に、本発明に係る第３の実施形態について図面を参照して詳細に説明する。図１５を参照すると、本発明に係る第３の実施形態は、入力装置１００、データ処理装置１１０、記憶装置１２０、出力装置１４０を備え、さらに、上述した第１の実施形態の固有表現判別装置を実現するためのプログラムを記録した記録媒体１３０を備える。この記録媒体１３０は、磁気ディスク、半導体メモリ、ＣＤ−ＲＯＭその他の記録媒体であってよい。
【００８２】
入力装置１００は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力装置１４０は、表示画面、プリンタ等のデータ処理装置１１０による処理結果を出力する装置である。
【００８３】
固有表現判別装置を実現するためのプログラムは、記録媒体１３０からデータ処理装置１１０に読み込まれ、データ処理装置１１０の動作を制御し、記憶装置１２０に入力メモリ３と中間メモリ５と出力メモリ７とを生成する。データ処理装置１１０は、固有表現判別装置を実現するためのプログラムの制御により第１の実施形態における読み込み手段２、複合テキスト解析手段６、及び単一テキスト解析手段４による処理と同一の処理を実行する。
【００８４】
次に、本発明に係る第４の実施形態について図面を参照して詳細に説明する。図１６を参照すると、本発明に係る第４の実施形態は、入力装置２００、データ処理装置２１０、記憶装置２２０、出力装置２４０を備え、さらに、上述した第２の実施形態の地図情報検索装置を実現するためのプログラムを記録した記録媒体２３０を備える。この記録媒体２３０は、磁気ディスク、半導体メモリ、ＣＤ−ＲＯＭその他の記録媒体であってよい。
【００８５】
入力装置２００は、マウス、キーボード等、操作者からの指示を入力するための装置である。また、出力装置２４０は、表示装置、プリンタ等のデータ処理装置２１０による処理結果を出力する装置である。
【００８６】
地図情報検索装置を実現するためのプログラムは、記録媒体２３０からデータ処理装置２１０に読み込まれ、データ処理装置２１０の動作を制御し、記憶装置２２０に入力メモリ３、中間メモリ５、出力メモリ７、位置依存コンテンツデータベース５２、地図データベース５３を生成する。データ処理装置２１０は、地図情報検索装置を実現するためのプログラムの制御により第１の実施形態における読み込み手段２、複合テキスト解析手段６、単一テキスト解析手段４、第２の実施形態におけるデータベース検索装置５４による処理と同一の処理を実行する。
【００８７】
上述した実施形態は、本発明の好適な実施の形態である。但し、これに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変形実施が可能である。
【００８８】
【発明の効果】
以上の説明より明らかなように本発明は、固有表現の検出・判別に関して、その固有表現の出現したテキスト内だけではなく、リンク元やリンク先のテキストも参照して解釈することで、従来よりも曖昧性を解消することが可能になり、高精度な固有表現判別を実現できる。
【図面の簡単な説明】
【図１】本発明の実施の形態を示すブロック図である。
【図２】本発明の実施の形態における処理対象の例を示す図である。
【図３】ＨＴＭＬで記述されたテキストの例を示す図である。
【図４】中間メモリの管理テーブルの例を示す図である。
【図５】本発明の実施の形態における処理対象の例を示す図である。
【図６】複合テキスト解析手段の構成を表すブロック図である。
【図７】固有表現辞書の内容を示す図である。
【図８】本発明の実施の形態における処理対象の例を示す図である。
【図９】本発明の実施の形態における処理対象の例を示す図である。
【図１０】本発明の実施の形態における処理対象の例を示す図である。
【図１１】本発明の実施形態の動作を示すフローチャートである。
【図１２】本発明に係る第２の実施の形態を示すブロック図である。
【図１３】位置依存コンテンツデータベースのデータ内容を示す図である。
【図１４】地図情報検索装置の表示結果を示す図である。
【図１５】本発明に係る第３の実施の形態を示すブロック図である。
【図１６】本発明に係る第４の実施の形態を示すブロック図である。
【符号の説明】
１ハイパーテキストデータベース
２読み込み手段
３入力メモリ
４単一テキスト解析手段
５中間メモリ
６複合テキスト解析手段
７出力メモリ
１０リンク元ページ
１１リンク先ページ
１２リンク元キー文字列
１３リンク
１４リンク元キー文字列の前後一定範囲のテキスト
４０固有表現辞書における表記
４１固有表現辞書における種別
４２固有表現辞書における共起語

Claims

テキストに含まれる固有表現の解釈を判別する情報処理装置であって、
ハイパーテキストデータベースから読み出された、テキスト及び当該テキストの有する他のテキストとのリンク関係を記憶するテキスト記憶手段と、
固有表現の候補毎にその一つ以上の解釈と当該解釈の場合に該固有表現の候補に共起する共起語とを対応付けて記憶する共起語記憶手段と、
記憶された固有表現の候補をテキストから抽出する単一テキスト解析手段と、
第１のテキストから第２のテキストを求めるためにリンク先又はリンク元をいずれか一方向に辿る回数が整数ｎである場合に前記第１のテキストと前記第２のテキストとがｎ階層のリンク関係を有すると定義した場合において、前記テキスト記憶手段で記憶されたリンク関係を参照して前記候補を抽出したテキストと少なくとも１階層のリンク関係を有する一つ以上の他のテキストを求め、当該求めた他のテキストにおいて前記共起語記憶手段で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する複合テキスト解析手段と、
を備える装置。
請求項１に記載の装置であって、
前記複合テキスト解析手段は、前記他のテキストにおいて前記共起語記憶手段で前記候補の各解釈と対応付けて記憶された共起語がリンク元キー文字列に含まれる頻度に応じて当該候補の解釈を判別する、装置。
請求項１又は２に記載の装置であって、
前記複合テキスト解析手段は、前記他のテキストにおいて前記共起語記憶手段で前記候補の各解釈と対応付けて記憶された共起語がリンク元キー文字列の前後所定の範囲内で検出される頻度に応じて当該候補の解釈を判別する、装置。
請求項１乃至３のいずれか１項に記載の装置であって、
前記複合テキスト解析手段は、前記他のテキストにおいて前記共起語記憶手段で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度から当該候補の解釈を判別できない場合に、前記他のテキストからのリンクをさらに辿ることにより、前記他のテキスト及び前記テキストではない新たな他のテキストを求め、前記求めた新たな他のテキストにおいて前記共起語記憶手段で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する、装置。
請求項１乃至４のいずれか１項に記載の装置であって、
前記複合テキスト解析手段は、前記他のテキストを求める際に前記候補を抽出したテキストと予め定められた階層のリンク関係を有するテキストを前記他のテキストとする、装置。
請求項１乃至５のいずれか１項に記載の装置であって、
前記複合テキスト解析手段は、前記他のテキストを求める際に前記候補を抽出したテキストと１階層のリンク関係を有するテキストを前記他のテキストとする、装置。
請求項１乃至６のいずれか１項に記載の装置であって、
前記複合テキスト解析手段は、前記共起語の検出されたテキストの数を前記頻度とする、装置。
請求項１乃至６いずれか１項に記載の装置であって、
前記複合テキスト解析手段は、前記共起語の検出される位置に応じた重みを予め記憶し、
前記他のテキストにおいて前記共起語記憶手段で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度を求める際に前記共起語が検出された位置に応じた重みによる重み付けを行う、装置。
テキストに含まれる固有表現の解釈を判別する情報処理方法であって、
コンピュータが、ハイパーテキストデータベースから読み出された、テキスト及び当該テキストの有する他のテキストとのリンク関係を記憶するテキスト記憶ステップと、
コンピュータが、固有表現の候補毎にその一つ以上の解釈と当該解釈の場合に該固有表現の候補に共起する共起語とを対応付けて記憶する共起語記憶ステップと、
コンピュータが、記憶された固有表現の候補をテキストから抽出する単一テキスト解析ステップと、
コンピュータが、第１のテキストから第２のテキストを求めるためにリンク先又はリンク元をいずれか一方向に辿る回数が整数ｎである場合に前記第１のテキストと前記第２のテキストとがｎ階層のリンク関係を有すると定義した場合において、前記テキスト記憶ステップで記憶されたリンク関係を参照して前記候補を抽出したテキストと少なくとも１階層のリンク関係を有する一つ以上の他のテキストを求め、当該求めた他のテキストにおいて前記共起語記憶ステップで前記候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する複合テキスト解析ステップと、
を含む方法。
請求項９に記載の方法であって、
前記複合テキスト解析ステップは、前記他のテキストにおいて前記共起語記憶ステップで前記候補の各解釈と対応付けて記憶された共起語がリンク元キー文字列に含まれる頻度に応じて当該候補の解釈を判別する、方法。
請求項９又は１０に記載の方法であって、
前記複合テキスト解析ステップは、前記他のテキストにおいて前記共起語記憶ステップで前記候補の各解釈と対応付けて記憶された共起語がリンク元キー文字列の前後所定の範囲内で検出される頻度に応じて当該候補の解釈を判別する、方法。
請求項９乃至１１のいずれか１項に記載の方法であって、
前記複合テキスト解析ステップは、前記他のテキストにおいて前記共起語記憶ステップで前記候補の各解釈と対応付けて記憶された共起語が検出される頻度から当該候補の解釈を判別できない場合に、前記他のテキストからのリンクをさらに辿ることにより、前記他のテキスト及び前記テキストではない新たな他のテキストを求め、前記求めた新たな他のテキストにおいて前記共起語記憶ステップで前記候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する、方法。
請求項９乃至１２のいずれか１項に記載の方法であって、
前記複合テキスト解析ステップは、前記他のテキストを求める際に前記候補を抽出したテキストと予め定められた階層のリンク関係を有するテキストを前記他のテキストとする、方法。
請求項９乃至１３のいずれか１項に記載の方法であって、
前記複合テキスト解析ステップは、前記他のテキストを求める際に前記候補を抽出したテキストと１階層のリンク関係を有するテキストを前記他のテキストとする、方法。
請求項９乃至１４のいずれか１項に記載の方法であって、
前記複合テキスト解析ステップは、前記共起語の検出されたテキストの数を前記頻度とする、方法。
請求項９乃至１４のいずれか１項に記載の方法であって、
前記複合テキスト解析ステップは、前記共起語の検出される位置に応じた重みを予め記憶し、前記他のテキストにおいて前記共起語記憶ステップで前記候補の各解釈と対応付けて記憶された共起語が検出される頻度を求める際に前記共起語が検出された位置に応じた重みによる重み付けを行う、方法。
テキストに含まれる固有表現の解釈を判別する処理をコンピュータに実行させるプログラムを記録したコンピュータで読み込み可能な記録媒体であって、
コンピュータに、
ハイパーテキストデータベースから読み出された、テキスト及び当該テキストの有する他のテキストとのリンク関係を記憶するテキスト記憶処理、
固有表現の候補毎にその一つ以上の解釈と当該解釈の場合に該固有表現の候補に共起する共起語とを対応付けて記憶する共起語記憶処理、
記憶された固有表現の候補をテキストから抽出する単一テキスト解析処理、
第１のテキストから第２のテキストを求めるためにリンク先又はリンク元をいずれか一方向に辿る回数が整数ｎである場合に前記第１のテキストと前記第２のテキストとがｎ階層のリンク関係を有すると定義した場合において、前記テキスト記憶処理で記憶されたリンク関係を参照して前記候補を抽出したテキストと少なくとも１階層のリンク関係を有する一つ以上の他のテキストを求め、当該求めた他のテキストにおいて前記共起語記憶処理で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する複合テキスト解析処理、
を実行させるプログラムを記録した媒体。
請求項１７に記載の媒体であって、
前記複合テキスト解析処理は、前記他のテキストにおいて前記共起語記憶処理で前記候補の各解釈と対応付けて記憶された共起語がリンク元キー文字列に含まれる頻度に応じて当該候補の解釈を判別する、媒体。
請求項１７又は１８に記載の媒体であって、
前記複合テキスト解析処理は、前記他のテキストにおいて前記共起語記憶処理で前記候補の各解釈と対応付けて記憶された共起語がリンク元キー文字列の前後所定の範囲内で検出される頻度に応じて当該候補の解釈を判別する、媒体。
請求項１７乃至１９のいずれか１項に記載の媒体であって、
前記複合テキスト解析処理は、前前記他のテキストにおいて前記共起語記憶処理で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度から当該候補の解釈を判別できない場合に、前記他のテキストからのリンクをさらに辿ることにより、前記他のテキスト及び前記テキストではない新たな他のテキストを求め、前記求めた新たな他のテキストにおいて前記共起語記憶処理で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度に応じて当該候補の解釈を判別する、媒体。
請求項１７乃至２０のいずれか１項に記載の媒体であって、
前記複合テキスト解析処理は、前記他のテキストを求める際に前記候補を抽出したテキストと予め定められた階層のリンク関係を有するテキストを前記他のテキストとする、媒体。
請求項１７乃至２１のいずれか１項に記載の媒体であって、
前記複合テキスト解析処理は、前記他のテキストを求める際に前記候補を抽出したテキストと１階層のリンク関係を有するテキストを前記他のテキストとする、媒体。
請求項１７乃至２２のいずれか１項に記載の媒体であって、
前記複合テキスト解析処理は、前記共起語の検出されたテキストの数を前記頻度とする、媒体。
請求項１７乃至２２のいずれか１項に記載の媒体であって、
前記複合テキスト解析処理は、前記共起語の検出される位置に応じた重みを予め記憶し、
前記他のテキストにおいて前記共起語記憶処理で前記候補の各解釈と対応付けて記憶された共起語が検出される頻度を求める際に前記共起語が検出された位置に応じた重みによる重み付けを行う、媒体。