JP2013257634A

JP2013257634A - 文書からの地名と語の対の抽出装置及び方法及びプログラム

Info

Publication number: JP2013257634A
Application number: JP2012131940A
Authority: JP
Inventors: Yoshihito Yasuda; 宜仁安田; Masaaki Nishino; 正彬西野; Ryoji Kataoka; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-06-11
Filing date: 2012-06-11
Publication date: 2013-12-26
Anticipated expiration: 2032-06-11
Also published as: JP5798086B2

Abstract

【課題】意味的な繋がりが希薄な対を抽出しまうことを避け、文書内の多数の地名と語の対を抽出する。
【解決手段】本発明は、文書記憶手段から取得した文書中の語の総出現回数を算出し、文書構造による抽出基準を複数設定し、該文書中の地名の位置に基づいて、該地名と該語の対が各抽出基準に合致する基準合致回数を計数し、記憶手段に格納し、地名と該地名が示す範囲に対して有用な対である正解対が与えられた場合は、記憶手段から語の総出現回数と基準合致回数を取得して、抽出基準に基づいて分類を行うことにより該抽出基準の重みを決定し、決定された重みと地名と語の対が所定の条件を満たす対の集合を抽出する。
【選択図】図１

Description

本発明は、文書からの地名と語の対の抽出装置及び方法及びプログラムに係り、特に、文書集合の中から、地名と単語やフレーズの対を抽出するための文書からの地名と語の対の抽出装置及び方法及びプログラムに関する。この技術は、例えば、地理的な条件を受け付けるような文書検索や、地理的観点での文書の分類、あるいは、特定の地理範囲で有用な検索用キーワードの推薦等に用いられる。

従来より、インターネットから得られる情報等、大規模な文書を対象として、キーワードを入力することにより、キーワードと関連のある文書を出力する技術が知られている。

近年、インターネット上での地図サービス等の普及や、GPS等により現在の端末の位置を取得可能なデバイスの普及を背景に、検索条件の一部として位置や地図範囲を加え、キーワードと地理条件の双方と関連のある文書を出力する技術（地理情報検索）が知られている（例えば、非特許文献１参照）。

また、上記のような検索は地図を閲覧しながら、その範囲で興味対象のキーワードに関する情報を検索することに利用することが可能である。その際、利用者がキーワードを想起せずとも、その地図範囲における特徴的な情報を得ることができるような単語やフレーズをシステム側が推薦することが考えられる。その場合、文書集合中で特定の地域と特定の単語が他に比べて有意に多く出現しているような対を用いて、キーワードを選出することになるであろう。

上記のような地理情報検索や、検索キーワードの推薦等を実現するためには、文書中に出現する地名と単語やフレーズの対が必要となる。

対として適切なものは、「ＡといえばＢ」「Ａで有名なＢ」といった、地域名と、その地域について特徴的な語であると考えることができる。

このような文書中に出現する地名と単語やフレーズの対の抽出方法としては大きく２つの方法が考えられる。ひとつは、文書内で共起を利用する方法であり、地名と単語やフレーズが同一の文書中に出現していれば対とみなすという方法である。例えば、上記の非特許文献１に示されているような、地名と指定されたキーワードの双方が出現した文書について処理するという方式は、この文書内共起を間接的に利用していることになる。また、もう一つの抽出方法としては、文書内の共起ではなく、もっと小さな単位、例えば、文や段落といった単位を用いる方法である。

安田宜仁，戸田浩之，"検索位置のごく周辺を対象とした地理情報検索"，人工知能学会論文誌，Vol.23, No.5, pp.364-373, 2008年7月

しかしながら、これまでの方法により、文書内での共起を対象に対を抽出し、処理をした場合には、意味的繋がりがない、あるいは意味的繋がりが希薄な対も抽出してしまうという問題があった。例えば、以下のような文があったとする。

「昨日は横須賀でセパタクローの試合がありました。惜敗でした。ただ、その後自宅でやった打ち上げのヤキソバが美味しかったので満足です！」
この文において、｛横須賀−ヤキソバ｝という対は意味的には繋がりがないにもかかわらず、文書内での共起を対象とした場合、対として抽出することになってしまう。

また、一方で、同一文内といった狭い範囲での共起に限定してしまっては、取り扱う対が極端に減ってしまうという問題があった。これは、地名は文書中で頻繁に出現するわけではなく、一度の出現で長い範囲にわたって関連するように用いられることが多いためである。

例えば、以下のような文があったとする。

「３年前に横須賀に越して以来、すっかりこの街が気に入っています。山がちな地形で、トンネルが多く、道路が渋滞しやすいのはたまに傷ですが、四方を海に囲まれているおかげでしょうか、温暖な気候で冬でもあまり暖房がいりません。横横道路で都内へ出やすいのもよいですね」
この文において、｛横須賀−温暖｝や｛横須賀−横横道路｝という対は、意味的繋がりが深いと考えられるが、一文内での共起に限定してしまっては対として抽出されないことになる。

本発明は、上記の点に鑑みなされたもので、意味的な繋がりが希薄な対を抽出しまうことを避け、文書内の多数の地名と語の対を抽出することが可能な文書からの地名と語の対の抽出装置及び方法及びプログラムを提供することを目的とする。

上記の課題を解決するため、本発明（請求項１）は、文書集合から地名と単語やフレーズの対を抽出する文書からの地名と語の対の抽出装置であって、
文書中の語の総出現回数を算出し、文書構造の任意の範囲における地名と語の対の共起頻度による抽出基準を複数設定し、該文書中の地名の位置に基づいて、該地名と該語の対が各抽出基準に合致する基準合致回数を計数し、記憶手段に格納する基準毎頻度計数手段と、
地名と該地名が示す範囲に対して有用な対である正解対が与えられた場合は、前記記憶手段から前記語の総出現回数と前記基準合致回数を取得して、前記抽出基準に基づいて分類を行うことにより該抽出基準の重みを決定する重み決定手段と、
前記重み決定手段により決定された前記重みと前記地名と語の対が所定の条件を満たす対の集合を抽出する対抽出手段と、を有する。

また、本発明（請求項２）は、前記重み決定手段において、
前記正解対を正例、それ以外を負例として、線形結合の値を用いて分類を行うことにより前記重みを決定する手段を含む。

また、本発明（請求項３）は、前記重み決定手段において、
前記正解対が与えられていない場合に、前記文書中の前記地名の位置に基づいてあいまい性が少ない対を収集する手段を含む。

上記のように本発明では、複数の共起範囲（抽出基準）を設定し、重み付け操作で共起度合いを算出する。このとき、正事例を用いた分類によって重みを決定することにより、意味的繋がりが希薄な対を抽出することを避けながら、文書内の多数の対を抽出することが可能となる。

本発明の一実施の形態における装置構成図である。本発明の一実施の形態における処理のフローチャートである。本発明の一実施の形態における語頻度記憶部の例である。本発明の一実施の形態における対頻度記憶部の例である。

以下、図面と共に本発明の実施の形態を説明する。

まず、本発明の概要を説明する。

本発明は、事前に固定された単一の対抽出基準を満たすかどうかを教えるのではなく、複数の基準を考慮し、それらの組み合わせとして対を数える。本実施の形態では、この複数の基準の例として、文書内での共起（基準１）、文内での共起（基準２）、及び、文書構造を考慮した基準として、タイトル−本文間での共起（基準３）を用いた例について述べる。勿論、本発明で扱う基準をこれらに限定されるものではなく、その他の長さ（例えば、段落や固定幅のウィンドウ）や、その他の文書構造（例えば、表の同一列や同一行）を用いることも可能である。

図１は、本発明の一実施の形態における装置構成を示す。

同図に示す装置は、文書を入力として、その文書中で対象とすべき対とそのスコアを出力する。このスコアは、従来の単一の対抽出基準による共起の回数に相当するものであり、必要に応じて整数部分のみを取り出すことにより、本装置の出力を共起回数と見做して利用しても良い。

同図に示す装置は、文書データベース１、地理情報付与部２、基準毎頻度計数部３、重みパラメータ決定部４、対抽出部５、対頻度記憶部６、語頻度記憶部７を有する。

文書データベース１は、文書集合を格納したデータベースである。文書集合はweb等から自動収集したものでもよいし、対象分野を限って、例えば、各地の観光情報に関する文書を集めたもの等でも構わない。

図２は、本発明の一実施の形態における処理のフローチャートである。

文書データベース１内の文書は、元の文書の内容に加えて、単語に分割した場合の区切りの情報（各単語の位置範囲）を保持する。

また、単語の分割の結果のみではなく、統語的なまとまりとして句を取り出すチャンキング、固有表現抽出（人名地名といった固有名詞や時間表現等の抽出）を行った結果を保持してもよい。

これら形態素解析、テキストチャンキング、固有表現抽出については、当業者に公知の技術を用いることができる。

以後、文書データベース１に保持してある単語やチャンクあるいは固有表現といった、単語やフレーズを単に「語」と呼ぶ。

地理情報付与部２は、文書データベース１中の各文書について、文書中に記述された地名と思われる表現を特定し、地名の文書中での位置、地名の代表点の緯度経度を出力する（ステップ１）。なお、地名の特定、その地名の代表点の緯度経度の特定には、文献１「平野徹，松尾義博、菊井玄一郎，「地位的距離と有名度を用いた地名の曖昧性解消」，情報処理学会全国外界講演論文集，2008」等で示される従来の手法を用いることができる。

基準毎頻度計数部３は、文書データベース１と地理情報付与部２より得られた地名の文書中での位置を用いて、各文書中の地名と語の対が各抽出基準に合致する回数を計数し、語頻度記憶部７と対頻度記憶部６に格納する（ステップ２）。

ここで、語頻度記憶部７は、図３に示すような、語を見出し語として、その語の総出現回数を得ることができるように表形式で格納される。また、対頻度記憶部６は、図４に示すような、語と地名の対を見出し語として、その対が各基準（例えば、前述の基準１〜基準３等）に合致した回数を得ることができるように表形式で格納される。

基準毎頻度計数部３は、文内の各語について、以下の処理を繰り返す。

（１）語の総出現の計数：
語頻度記憶部７の当該語のエントリを取り出し、総出現回数に１を加えたものを当該エントリへ書き戻す。もし、当該語のエントリがなければ語頻度記憶部７に、当該語の行を作成し、現在計数中の抽出基準について、総出現回数を１とする。

（２）各抽出基準に合致する回数の計数：
もし、当該語がなんらかの地名について当該基準に合致していれば、対頻度記憶部６の当該語のエントリを取り出し、合致した基準の合計回数の１を加えたものを対頻度記憶部６へ格納する。もし、当該対のエントリがなければ、対頻度記憶部６に当該対の行を作成し、合致した基準の合致回数を１とし、それ以外の基準についての回数を０として格納する（ステップ３）。

重みパラメータ決定部４は、正解対が与えられる場合と、与えられない場合の２通りに分けることができる。ここで、「正解対」とは、地名とその地名が示す範囲に対して有用な検索キーワードの例とみなせるような語の対のことである。例えば、「宇都宮−餃子」や「墨田区−東京スカイツリー（登録商標）」といったものである。

もし、正解対が事前に与えられていない場合は、あいまい性が少なく、本装置に利用するに適切であると考えられるような対を下記手順により収集して正解対とする。

文書データベース１の地理情報付与部２より得られた地名の文書中での位置を用いて、地名と語が格助詞「の」で繋がっている例を用いることができる。本実施の形態では、格助詞「の」を用いているが、この他適切と考えられるような方法でも構わない。

次に、上記の手順で得られた地名−語の対のうち、ある語に結びつく地名が一つであるような対、あるいは、逆にある地名と結びつく語が一つであるような対を、あいまい性のない対として正解対とする（ステップ４）。

正解対が得られたら、次に、対頻度記憶部６を参照し、正解対のエントリを取得する。一般に知られる線形分類器（例えば、線形判別分析やSVM（Support Vector Machine））によって、正解対を正例、それ以外の対を負例とし、語の総出現回数、及び対頻度記憶部６中の各基準を素性とするような分類を行い、各基準の重みを得る。すなわち、語ｔと地名ｇからなる各正解対(t,g)について、語の総出現回数をｘ_t,0，対頻度記憶部６の対の各基準の値をｘ_{（t,g）,ｉ}とするとき、

という線形結合の値を用いて分類を行った結果の重みベクトルw=(w₀，w₁，w₂，w₃，…，w_N)の値を得る。ここで、Nは基準の総数であり、本実施の形態では、N＝3である。また、w₀は語の総出現回数に対する重みである。

上記の結果得られた重みベクトルの要素w₀，w₁，w₂，w₃を重みパラメータとする（ステップ５）。

対抽出部５は、基準毎重みパラメータ決定部４によって決定された重みパラメータw₀，w₁，w₂，w₃と、語頻度記憶部７、対頻度記憶部６を参照し、対頻度記憶部６中の各対について、その対が、以下の式を満たすかどうかを判定する。すなわち、語ｔと地名ｇからなる対象対（t,g）について、語の総出現回数をｘ_t,0、対頻度記憶部６の各基準の値をｘ_(t,g),iとするとき、以下の式が成り立つかどうかを判定する。

対抽出部５は、上記を満たすような対の集合を出力する。

上記のように、本発明は、固定された範囲内での共起の設定ではなく、複数の抽出基準での共起の有無を用いて、対（地名，語）としての確からしさを決定する。また、複数の抽出基準のうち、特に、文書内での共起、文内での共起、タイトル−本文間での共起等の構造的な関係を用いる。これにより、精度を落とさずに、多数の地名と語の対を取得することができる。

なお、上記の図1に示す文書からの地名と語の対の抽出装置の構成要素の各動作をプログラムとして構築し、当該装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

１文書データベース
２地理情報付与部
３基準毎頻度計数部
４重みパラメータ決定部
５対抽出部
６対頻度記憶部
７語頻度記憶部

Claims

文書集合から地名と単語やフレーズの対を抽出する文書からの地名と語の対の抽出装置であって、
文書中の語の総出現回数を算出し、文書構造の任意の範囲における地名と語の対の共起頻度による抽出基準を複数設定し、該文書中の地名の位置に基づいて、該地名と該語の対が各抽出基準に合致する基準合致回数を計数し、記憶手段に格納する基準毎頻度計数手段と、
地名と該地名が示す範囲に対して有用な対である正解対が与えられた場合は、前記記憶手段から前記語の総出現回数と前記基準合致回数を取得して、前記抽出基準に基づいて分類を行うことにより該抽出基準の重みを決定する重み決定手段と、
前記重み決定手段により決定された前記重みと前記地名と語の対が所定の条件を満たす対の集合を抽出する対抽出手段と、
を有することを特徴とする文書からの地名と語の対の抽出装置。
前記重み決定手段は、
前記正解対を正例、それ以外を負例として、線形結合の値を用いて分類を行うことにより前記重みを決定する手段を含む
請求項1記載の文書からの地名と語の対の抽出装置。
前記重み決定手段は、
前記正解対が与えられていない場合は、
前記文書中の前記地名の位置に基づいてあいまい性が少ない対を収集する手段を含む
請求項1記載の文書からの地名と語の対の抽出装置。
文書集合から地名と単語やフレーズの対を抽出する文書からの地名と語の対の抽出方法であって、
文書記憶手段、
記憶手段、
基準毎頻度計数手段、
重み決定手段、
対抽出手段、を有する装置において、
前記基準毎頻度計数手段が、前記文書記憶手段から取得した文書中の語の総出現回数を算出し、文書構造の任意の範囲における地名と語の対の共起頻度による抽出基準を複数設定し、該文書中の地名の位置に基づいて、該地名と該語の対が各抽出基準に合致する基準合致回数を計数し、前記記憶手段に格納する基準毎頻度計数ステップと、
前記重み決定手段が、地名と該地名が示す範囲に対して有用な対である正解対が与えられた場合は、前記記憶手段から前記語の総出現回数と前記基準合致回数を取得して、前記抽出基準に基づいて分類を行うことにより該抽出基準の重みを決定する重み決定ステップと、
前記対抽出手段が、前記重み決定ステップで決定された前記重みと前記地名と語の対が所定の条件を満たす対の集合を抽出する対抽出ステップと、
を行うことを特徴とする文書からの地名と語の対の抽出方法。
前記重み決定ステップにおいて、
前記正解対を正例、それ以外を負例として、線形結合の値を用いて分類を行うことにより前記重みを決定する
請求項４記載の文書からの地名と語の対の抽出方法。
前記重み決定ステップにおいて、
前記正解対が与えられていない場合は、
前記文書中の前記地名の位置に基づいてあいまい性が少ない対を収集する
請求項４記載の文書からの地名と語の対の抽出方法。
コンピュータを、
請求項1乃至３のいずれか1項に記載の文書からの地名と語の対の抽出装置の各手段として機能させるための文書からの地名と語の対の抽出プログラム。