JP6060039B2

JP6060039B2 - 特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラム

Info

Publication number: JP6060039B2
Application number: JP2013117083A
Authority: JP
Inventors: 山田　尚志; 尚志山田; 桂一落合; 大祐鳥居
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2013-06-03
Filing date: 2013-06-03
Publication date: 2017-01-11
Anticipated expiration: 2033-06-03
Also published as: JP2014235597A

Description

本発明は、テキスト中の特定地点名称の判定を行う特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラムに関する。

従来、地名・施設名等の特定地点を示す表記（特定地点名称）をテキストから抽出する技術として、下記非特許文献１に示されるような技術が知られている。このような技術の基本的な方式は、予め特定地点名称を格納した地名辞書を用意しておき、テキスト中のワードと地名辞書とを照合することで、テキスト中の特定地点名称を検出するというものである。

ところで、特定地点名称の中には、例えば「大山」のように、地名として用いられると共に人名としても用いられる特定地点名称が存在する。また、例えば「清水寺」のように、異なる複数のエリア（京都市、大阪市等）に同一名称の施設が点在するような特定地点名称も存在する。従って、上記のような辞書ベースの照合だけでは、テキスト中の特定地点名称が地名・施設名等の特定地点を意味するものとして用いられているか否かを適切に判断できない場合がある。また、テキスト中の特定地点名称がどの特定地点を示すものであるのかを適切に判別できない場合もある。

下記非特許文献１では、このような特定地点名称の曖昧性を解消し、テキスト中の特定地点名称を適切に判別して抽出するために、抽出対象の特定地点名称を、人名として用いられることがあることを示す人名カテゴリ、同一名称の地名・施設名等が複数存在することを示す同名カテゴリ、及び、商品名や愛称等の一般的な意味で用いられることがあることを示す一般語カテゴリへの分類を行う。そして、同名カテゴリに分類される特定地点名称については、テキスト中に現れる当該特定地点名称と当該特定地点名称に対応する周辺地名との組み合わせに基づいて、当該特定地点名称がどの地名・施設名を示すものであるかを判定する。また、人名カテゴリ又は一般語カテゴリに分類される特定地点名称については、当該特定地点名称が示す特定地点に対応する周辺地名がテキストに含まれていなければ、当該特定地点名称は地名・施設名等の意味で用いられていないと判定する。

Einat Amitay、Nadav Har’El、Ron Sivan、Aya Soffer、「Web-a-Where: Geotagging Web Content」、ACMSIGIR 2004、Pages 273-280

ところで、上述の処理方式では、テキスト中の特定地点名称が特定地点を意味すると判定されるための条件が厳しいため、適合率（精度）が高い反面、再現率が低いという問題がある。特に、ツイッター（Ｔｗｉｔｔｅｒ（登録商標））等のマイクロブログサービスに投稿されるツイート（短文のテキスト）に対して上述の精度重視の処理方式で特定地点名称の判定処理を行った場合には、テキスト中で特定地点を意味するものとして用いられている特定地点名称が全く抽出されないおそれが高い。

そこで本発明は、上記課題に鑑み、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラムを提供することを目的とする。

本発明に係る特定地点名称判定装置は、予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が特定地点以外の意味を有することを示す第１のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段と、テキストを取得するテキスト取得手段と、特定地点情報に関連付けられた特定地点名称を含む判定対象テキストをテキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、判定対象テキストに含まれる特定地点名称に対応する第１のフラグが当該特定地点名称が特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する判定手段と、判定対象テキストと当該判定対象テキストに対する判定手段による判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する特徴語生成手段と、を備える。

本発明に係る特定地点名称判定方法は、予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が特定地点以外の意味を有することを示す第１のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段と、を備える特定地点名称判定装置により実行される特定地点名称判定方法であって、テキストを取得するテキスト取得ステップと、特定地点情報に関連付けられた特定地点名称を含む判定対象テキストをテキスト取得ステップにおいて取得されたテキストのうちから抽出するテキスト抽出ステップと、判定対象テキストに含まれる特定地点名称に対応する第１のフラグが当該特定地点名称が特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する判定ステップと、判定対象テキストと当該判定対象テキストに対する判定ステップにおける判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する特徴語生成ステップと、を含む。

本発明に係る特定地点名称判定プログラムは、コンピュータを、予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が特定地点以外の意味を有することを示す第１のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段と、テキストを取得するテキスト取得手段と、特定地点情報に関連付けられた特定地点名称を含む判定対象テキストをテキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、判定対象テキストに含まれる特定地点名称に対応する第１のフラグが当該特定地点名称が特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する判定手段と、判定対象テキストと当該判定対象テキストに対する判定手段による判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する特徴語生成手段として機能させる。

この発明では、テキスト抽出手段が、特定地点情報記憶手段を参照し、テキスト取得手段により取得されたテキストのうちから特定地点名称を含む判定対象テキストを抽出する。続いて、判定手段が、第１のフラグにより判定対象テキストに含まれる特定地点名称が特定地点以外の意味を有すると示されている場合に、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が判定対象テキストに含まれるか否かに基づいて、判定対象テキスト中で当該特定地点名称が特定地点を意味するか否かを判定する。続いて、特徴語生成手段が、判定対象テキストと判定手段による判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する。この一連の処理が繰り返されることで、特徴語記憶手段に記憶される特徴語が増えていくため、判定手段による判定において、判定対象テキスト中で特定地点を意味する特定地点名称を適切に抽出（特定地点を意味すると判定）できる可能性を高めることができる。すなわち、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる。

上記特定地点名称判定装置では、判定対象テキストを入力して特定地点名称が当該判定対象テキスト中で特定地点を意味するか否かを判定する判定モデルを記憶する判定モデル記憶手段を更に備え、特徴語記憶手段は、特定地点名称がテキスト中で特定地点を意味しないことを特徴付ける単語である不正解特徴語を特徴語と共に特定地点名称毎に記憶し、判定手段は、判定モデルに基づいて判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で特定地点を意味しないと判定した場合において、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定し、判定モデルに基づいて判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で特定地点を意味すると判定した場合において、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている不正解特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定し、特徴語生成手段は、判定結果データに基づいて特徴語又は不正解特徴語を生成し、生成した特徴語又は不正解特徴語を特徴語記憶手段に記憶してもよい。

この特定地点名称判定装置によれば、判定モデルによる判定と、特徴語又は不正解特徴語を用いた判定とを併せて行うことで、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めると共に精度（適合率）を高めることができる。具体的には、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味しないと判定された場合であっても、当該特定地点名称が特定地点を意味することを特徴付ける特徴語が含まれていれば、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の再現率が高められる。一方、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味すると判定された場合には、当該特定地点名称が特定地点を意味しないことを特徴付ける不正解特徴語が含まれていないことをもって、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の精度を高めることができる。

上記特定地点名称判定装置では、特定地点情報には、当該特定地点情報に関連付けられた特定地点名称と同一名称の特定地点である同名特定地点が複数存在することを示す第２のフラグが関連付けられており、同名特定地点の各々について、予め算出された有名度を記憶する有名度記憶手段と、を更に備え、判定手段は、判定対象テキストに含まれる特定地点名称に対応する第２のフラグが同名特定地点が複数存在することを示している場合には、有名度記憶手段に記憶されている同名特定地点の有名度に基づいて、同名判定処理を実行するか否かを決定してもよい。ここで、同名判定処理は、判定対象テキスト中に含まれる特定地点名称以外の文字列に基づいて、当該判定対象テキスト中で当該特定地点名称が同名特定地点のうちどの特定地点を示すものかを判定する処理である。

従来、同名特定地点が複数存在する特定地点名称を含むテキストについては、以下に示す同名判定処理により、当該特定地点名称がどの特定地点を示すか、あるいは特定地点を示すものか否かが判定されるのが一般的である。一例として京都や大阪等の複数の地域に存在する「清水寺」という特定地点名称について説明する。同名判定処理では、特定地点名称である「清水寺」が含まれるテキスト中に当該特定地点名称に対応する周辺地名（例えば「京都」）が含まれていれば、当該特定地点名称を「京都の清水寺」を示すものと判定する。一方、当該テキスト中に当該特定地点名称に対応する周辺地名が一つも含まれていなければ、当該特定地点名称を、そもそも特定地点を示すものとは判定しない。このような同名判定処理は、周辺地名が同一テキスト中に含まれていることをもって特定地点名称が特定の特定地点を示すものと判定するため、精度が高い一方で再現率が低い。

この特定地点名称判定装置では、判定対象テキストに含まれる特定地点名称と同一名称の特定地点（同名特定地点）が複数存在する場合において、判定手段は、同名特定地点の有名度に基づいて同名判定処理を実行するか否かを切替えることができる。すなわち、例えば判定対象テキスト中で特定地点名称が示す特定地点を有名度に基づいて一意に決定可能な場合等には、判定手段は、同名判定処理を省略し、当該特定地点名称が有名度に基づいて決定された特定地点を示すものと判定することができる。これにより、判定対象テキスト中に特定地点名称に対応する周辺地名が含まれていない場合であっても、特定地点の有名度に基づいて特定地点名称の抽出を適切に行うことができるため、再現率の向上が図られる。

上記特定地点名称判定装置では、判定手段は、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値以上の場合に、同名判定処理を実施せずに、判定対象テキスト中に含まれる特定地点名称が当該最大の有名度をもつ特定地点を示すと判定し、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、同名判定処理を実行してもよい。

この特定地点名称判定装置によれば、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値以上の場合に、同名判定処理を省略し、特定地点名称の抽出を適切に行うことができるため、再現率の向上が図られる。

上記特定地点名称判定装置では、判定手段は、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、同名特定地点のうち、有名度が所定値以下の同名特定地点を除外して同名判定処理を実行してもよい。

この特定地点名称判定装置によれば、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、有名度が所定値以下の同名特定地点については予め除外して同名判定処理を行うことができる。これにより、特定地点名称の抽出を効率よく且つ精度よく行うことができる。

上記特定地点名称判定装置では、特定地点と当該特定地点に対応する周辺地名との両方が含まれる周辺地名テキストの数、特定地点と当該特定地点に対応する特徴語との両方が含まれる特徴語テキストの数、及び、移動通信端末のユーザが特定地点に滞在した回数を示すチェックイン数のうち少なくとも一つに基づいて特定地点の有名度を算出し、算出した有名度を有名度記憶手段に記憶する有名度算出手段を更に備えてもよい。

この特定地点名称判定装置によれば、有名度算出手段が、周辺地名テキストの数、特徴語テキストの数、及びチェックイン数等に基づいて、特定地点の有名度を適切に算出することができる。そして、判定部がこのようにして算出された有名度に基づいて特定地点名称の判定を行うことにより、特定地点名称の抽出の精度の向上が図られる。

本発明によれば、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる。

本発明の第１実施形態に係る特定地点名称判定装置の機能構成を示すブロック図である。特定地点名称判定装置のハードウェア構成を示すブロック図である。特定地点情報の一例を示す図である。特徴語記憶部に記憶される特徴語を説明するために用いる図である。特定地点の有名度の一例を示す図である。第１実施形態に係る特定地点名称判定装置の動作を示すフロー図である。図６に示す人名・一般語フラグ処理を示すフロー図である。図６に示す同名フラグ処理のフロー図である。第２実施形態に係る特定地点名称判定装置の機能構成を示す図である。第２実施形態に係る特定地点名称判定装置の人名・一般語フラグ処理を示すフロー図である。本発明の一実施形態に係る特定地点名称判定プログラムの機能構成を示すブロック図である。

以下、図面を参照しながら、本発明に係る実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

［第１実施形態］
図１は、本発明の第１実施形態に係る特定地点名称判定装置１Ａの機能構成を示すブロック図である。本実施形態に係る特定地点名称判定装置１Ａは、特定地点の名称（特定地点名称）が含まれるテキスト中において、当該特定地点名称が特定地点を意味する（特定地点名称がテキスト中の文脈において特定地点を意味するものとして用いられている）か否かを判定する装置である。ここで、特定地点としては、例えば地名・施設名等の特定の場所を示すＰＯＩ（Point of interest）が挙げられる。具体的には、特定地点は、寺社等の施設（例えば「清水寺」等）、山岳（例えば「函館山」等）、湖沼（例えば「大沼」等）等の特定の場所を示すものである。図１に示すように、特定地点名称判定装置１Ａは、テキスト取得部１１、テキスト格納部１２、特定地点情報記憶部１３、テキスト抽出部１４、特徴語記憶部１５Ａ、有名度算出部１６、有名度記憶部１７、判定部１８Ａ、判定結果記憶部１９、及び特徴語生成部２０Ａを備えている。

図２は、特定地点名称判定装置１Ａのハードウェア構成を示すブロック図である。図１に示される特定地点名称判定装置１Ａは、物理的には、図２に示すように、１又は複数のＣＰＵ１０１と、主記憶装置であるＲＡＭ１０２及びＲＯＭ１０３と、入力デバイスであるキーボード及びマウス等の入力装置１０４と、ディスプレイ等の出力装置１０５と、ネットワークカード等のデータ送受信デバイスである通信モジュール１０６と、ハードディスクドライブ及び半導体メモリ等の補助記憶装置１０７とを含むコンピュータシステムとして構成されている。

図１における特定地点名称判定装置１Ａの各機能は、図２に示すＣＰＵ１０１、ＲＡＭ１０２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１０１の制御のもとで入力装置１０４、出力装置１０５、及び通信モジュール１０６を動作させると共に、ＲＡＭ１０２及び補助記憶装置１０７におけるデータの読み出し及び書き込みを行うことで実現される。以下、図１に示す機能ブロックに基づいて、各機能ブロックを説明する。

テキスト入力部２は、例えばツイッター（Ｔｗｉｔｔｅｒ（登録商標））等のマイクロブログサービスを管理するサーバ（不図示）等から、マイクロブログサービスに投稿された投稿テキスト（ツイッターの場合は「ツイート（つぶやき）」）を入力（取得）し、入力した一以上の投稿テキストを蓄積しているデータベース等である。本実施形態では、テキスト入力部２が特定地点名称判定装置１Ａとは別の装置として実現されているものとしているが、テキスト入力部２は、特定地点名称判定装置１Ａに含まれていてもよい。

テキスト取得部１１は、テキスト入力部２から投稿テキストを取得するテキスト取得手段である。テキスト取得部１１は、例えばストリーミングＡＰＩ等を利用して、定期的又はリアルタイムにテキスト入力部２から投稿テキストを取得する。テキスト取得部１１によって取得された投稿テキストは、データベース等であるテキスト格納部１２に記憶される。ここで、テキスト入力部２とテキスト取得部１１との間の接続形態は何でもよい。例えば、テキスト入力部２とテキスト取得部１１とは、無線方式で接続されていてもよいし、有線方式で接続されていてもよい。また、テキスト入力部２とテキスト取得部１１とは、インターネット等の任意の通信ネットワークを介して接続（ロジック接続）されていてもよいし、装置同士が直接接続されることにより接続されていてもよい。

特定地点情報記憶部１３は、予め定められた特定の場所（ＰＯＩ等）を示す特定地点に関する特定地点情報を特定地点毎に記憶しているデータベース等の特定地点情報記憶手段である。特定地点情報記憶部１３に記憶されている特定地点情報は、例えば特定地点名称判定装置１Ａの管理者等によって予め登録されているものとする。図３は、特定地点情報の一例を示す図である。図３に示すように、特定地点情報には、特定地点を一意に特定する識別情報（ｉｄ）、特定地点の名称を示す特定地点名称、特定地点の住所、特定地点の位置（緯度・経度）、特定地点が属するエリア（例えば「県」等）を示すエリアコード、及び各種フラグ（同名フラグ、人名フラグ、一般語フラグ）等が特定地点毎に関連付けられている。

ここで、同名フラグは、特定地点名称と同一名称の特定地点（同名特定地点）が複数存在するか否かを示すフラグ（第２のフラグ）である。人名フラグは、特定地点名称が人名と同じ名称であるか否かを示すフラグである。一般語フラグは、特定地点名称が一般語と同じ名称であるか否かを示すフラグである。すなわち、人名フラグ及び一般語フラグは、特定地点名称が特定地点以外の意味（人名及び一般語）を有するか否かを示すフラグ（第１のフラグ）である。これらのフラグは、該当する場合に「１」が設定され、該当しない場合には「０」が設定される。以降の説明においては、フラグが「１」に設定されていることを指して、フラグが立っているともいう。

図３を用いて各種フラグについて詳細に説明する。例えば、特定地点名称が「清水寺」である特定地点は、京都や大阪等の複数の土地に存在するため、同名フラグが立てられている。特定地点名称が「大沼」の特定地点についても、同一名称の特定地点が複数の土地に存在するため、同名フラグが立てられている。また、「大沼」という特定地点名称は、人名（大沼さん）として用いられることもあり、一般語（大きい沼）として用いられることもあるので、人名フラグ及び一般語フラグは共に立てられている。

テキスト抽出部１４は、特定地点情報記憶部１３に記憶された特定地点情報に関連付けられた特定地点名称を含む投稿テキスト（判定対象テキスト）を抽出するテキスト抽出手段である。テキスト抽出部１４は、例えば、特定地点情報記憶部１３に記憶された特定地点情報を読み取ってＲＡＭ１０２上にロードする。続いて、テキスト抽出部１４は、テキスト格納部１２に記憶されている複数の投稿テキストのうちから、ＲＡＭ１０２上にロードした特定地点情報に関連付けられた特定地点名称を含むテキストをサーチすることにより、判定対象テキストを取得する。例えば、「清水寺」に関する特定地点情報がＲＡＭ１０２上にロードされている場合には、テキスト抽出部１４は、テキスト格納部１２から、「今、清水寺を観光している。」のように「清水寺」の文字列が含まれている投稿テキストを判定対象テキストとして抽出する。なお、本実施形態では、テキスト抽出部１４は、複数の投稿テキストのうちから１つの投稿テキストを判定対象テキストとして抽出するものとしているが、テキスト抽出部１４は、例えば１つの長文テキストのうちから、特定地点名称を含む一部（例えば特定地点名称が含まれる一文や段落等）を判定対象テキストとして抽出してもよい。

特徴語記憶部１５Ａは、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段である。特徴語記憶部１５Ａには、特定地点名称がテキスト中で特定地点を意味するものとして用いられている一以上の文章に基づいて予め管理者等により抽出された特徴語（以下「静的特徴語」ともいう）が、当該特定地点の特徴語として記憶される。このような文章としては、例えば特定地点に関するＷｉｋｉｐｅｄｉａ及びホームページ等に記載された文章が挙げられる。静的特徴語は、例えばｔｆｉｄｆ等を用いることにより抽出される。例えば「天橋立」という特定地点の特徴語としては、「きれい」や「宮津」等、「天橋立」という特定地点名称がテキスト中で特定地点（つまり地名としての「天橋立」）を意味するものとして用いられていることを特徴付ける単語が抽出される。ただし、抽出される特徴語は、どの文章をｔｆｉｄｆ等による特徴語抽出の元とするかによって異なり得る。特徴語記憶部１５には、静的特徴語の他に、後述する特徴語生成部２０Ａにより生成される特徴語も記憶される。

有名度算出部１６は、同名特定地点毎の有名度を算出し、算出した有名度をデータベース等である有名度記憶部１７に記憶する有名度算出手段である。有名度記憶部１７は、同名特定地点の各々について、有名度算出部１６により算出された有名度を記憶する有名度記憶手段である。有名度記憶部１７には、同名特定地点毎の有名度を格納するためのテーブル領域が確保されている。このような同名特定地点のデータ（同一の特定地点名称をもつ同名特定地点の一覧、及び各同名特定地点が存在する都市名等）は、例えばＷｉｋｉｐｅｄｉａ等の公開情報及び特定地点情報記憶部１３に記憶された特定地点情報等を参照することで、予め管理者等によって有名度記憶部１７に記憶される。

有名度算出部１６は、同名特定地点と当該同名特定地点に対応する周辺地名との両方が含まれる周辺地名テキストの数、同名特定地点と当該同名特定地点に対応する特徴語との両方が含まれる特徴語テキストの数、及び、移動通信端末のユーザが同名特定地点に滞在した回数を示すチェックイン数のうち少なくとも一つに基づいて同名特定地点の有名度を算出することができる。

具体的には、有名度算出部１６は、例えばテキスト取得部１１により取得されたテキスト（ツイッターの場合は「ツイート（つぶやき）」）を集計することにより、周辺地名テキストの数及び特徴語テキストの数を集計することができる。また、有名度算出部１６は、例えばＦｏｕｒｓｑｕａｒｅ等の位置情報に基づいたソーシャル・ネットワーキング・サービス（ＳＮＳ）が保有する特定地点毎のチェックイン数を、当該ＳＮＳが公開しているＡＰＩ等を介して取得することができる。ここで、例えば、予め管理者等により、同名特定地点毎に周辺地名を対応付けたテーブル情報が、有名度算出部１６から参照可能なデータベース（不図示）上に用意されているものとする。このようなデータベースを参照することで、有名度算出部１６は、周辺地名テキスト数を集計することができる。

図５は、特定地点名称が「清水寺」である特定地点に関する同名特定地点毎の有名度の一例を示す図である。ここでは一例として、周辺地名テキストの数及び特徴語テキストの数を足し合わせたテキスト数（ＴＷ数）を有名度としている。ここで、「清水寺_都市名」は、「都市名で示される都市に存在する清水寺」を示す特定地点である。

判定部１８Ａは、テキスト抽出部１４により抽出された判定対象テキストに含まれる特定地点名称に対応するフラグ（同名フラグ、人名フラグ、一般語フラグ）の状態に応じた判定処理を実行する判定手段である。具体的には、同名フラグ（第２のフラグ）が立っていれば、判定部１８Ａは、判定対象テキスト中の特定地点名称がどの同名特定地点を示すものかを判定する処理（同名フラグ処理）を実行する。一方、人名フラグ又は一般語フラグ（第１のフラグ）が立っていれば、判定部１８Ａは、判定対象テキスト中の特定地点名称が特定地点を意味するのか、あるいは人名又は一般語を意味するのかを判定する処理（人名・一般語フラグ処理）を実行する。

まず同名フラグ処理について説明する。判定部１８Ａは、有名度記憶部１７に記憶されている同名特定地点の有名度に基づいて、同名判定処理を実行するか否かを決定する。判定部１８Ａは、例えば判定対象テキストに含まれる特定地点名称（以下「判定対象特定地点名称」という）と同一名称の同名特定地点のうち最大の有名度をもつ特定地点（以下、判定対象特定地点名称と同一名称の同名特定地点のうち最大の有名度をもつ特定地点のことを指して「有名特定地点」ともいう）の有名度に基づいて、判定対象テキスト中で判定対象特定地点名称が有名特定地点を示すものか否かを判定する。例えば、判定部１８Ａは、有名特定地点の有名度が所定の閾値以上であるか否かを判定し、有名特定地点の有名度が所定の閾値以上であれば、判定対象テキスト中で判定対象特定地点名称は有名特定地点を示す（判定対象特定地点名称は有名特定地点を意味するものとして用いられている）と判定する。また、判定部１８Ａは、有名特定地点の有名度が所定の閾値未満であれば、以下の同名判定処理を実行する。ここで、所定の閾値は、管理者等により任意の値に設定されるものである。所定の閾値は、例えば判定部１８Ａにより読み取り可能な設定ファイル等として保持される。

同名判定処理とは、判定対象テキスト中に含まれる特定地点名称以外の文字列に基づいて、当該判定対象テキスト中で当該特定地点名称が同名特定地点のうちどの特定地点を示すものかを判定する処理である。より具体的には、同名判定処理は、判定対象テキスト内に、例えば判定対象特定地点名称と判定対象特定地点名称が示す特定地点に対応する周辺地名（又は特徴語、最寄りの駅名等）とが含まれていれば、判定対象特定地点名称が周辺地名（又は特徴語、最寄りの駅名など）に対応する特定地点を意味すると判定する処理である。同名判定処理では、例えば判定対象特定地点名称である「清水寺」が含まれる判定対象テキスト中に、当該判定対象特定地点名称に対応する周辺地名の一つである「京都」が含まれていれば、当該判定対象特定地点名称は「京都の清水寺」を示すものであると判定される。一方、判定対象テキスト中に判定対象特定地点名称が示す特定地点に対応する周辺地名が一つも含まれていなければ、判定対象特定地点名称は特定地点を示すものとは判定されない。

例えば、判定部１８Ａは、有名特定地点の有名度の割合（全ての同名特定地点の有名度の総計に対する割合）が所定の閾値以上か否かを判定することで、判定対象特定地点名称が有名特定地点を示すものか否かを判定することができる。

例えば、判定対象特定地点名称が「清水寺」であり、所定の閾値を７０％とした場合を考える。この場合、図５（ａ）の例では、京都市の清水寺を示す特定地点のＴＷ数が最大となり全体のおよそ８８％を占めるため、判定部１８Ａは、判定対象特定地点名称が京都市の清水寺を示すものと判定する。また、図５（ｂ）の例でも、京都市の清水寺を示す特定地点のＴＷ数が最大となり全体のおよそ７６％を占めるため、判定部１８Ａは、判定対象特定地点名称が京都市の清水寺を示すものと判定する。

また、判定部１８Ａは、例えば、有名度が１位（最大）の特定地点の有名度と２位の特定地点の有名度との差が全ての同名特定地点の有名度の総計に対して占める割合が所定の閾値以上か否かを判定することで、判定対象特定地点名称が有名特定地点を示すものか否かを判定してもよい。

例えば、判定対象特定地点名称が「清水寺」であり、所定の閾値を７０％とした場合を考える。この場合、図５（ａ）の例では、全ての同名特定地点の有名度の総計（２００）に対してＴＷ数が１位の京都市の清水寺とＴＷ数が２位のいすみ市の清水寺とのＴＷ数の差（１７６）が占める割合は、およそ８８％となる。このため、判定部１８Ａは、判定対象特定地点名称が京都市の清水寺を示すものと判定する。

一方、図５（ｂ）の例では、全ての同名特定地点の有名度の総計（２４１）に対してＴＷ数が１位の京都市の清水寺とＴＷ数が２位のいすみ市の清水寺とのＴＷ数の差（１３５）が占める割合は、およそ５６％となる。このため、判定部１８Ａは、判定対象特定地点名称が京都市の清水寺を示すものとは判定せずに、同名判定処理を実行する。ここで、判定部１８Ａは、同名特定地点のうち、有名度が所定値以下の同名特定地点を除外して同名判定処理を実行してもよい。例えば、判定部１８Ａは、所定値（ここでは一例として「１０」）以下の同名特定地点を除外して、ＴＷ数が２位のいすみ市の清水寺に対応する周辺地名又は特徴語が判定対象テキストに含まれるか否かの判定のみを実行する。ここで、判定部１８Ａは、いすみ市の清水寺に対応する周辺地名又は特徴語が判定対象テキストに含まれると判定した場合に、判定対象特定地点名称がいすみ市の清水寺を示すものと判定する。一方、判定部１８Ａは、いすみ市の清水寺に対応する周辺地名又は特徴語が判定対象テキストに含まれないと判定した場合には、判定対象特定地点名称が有名特定地点に該当する京都市の清水寺を示すものと判定する。

このような判定処理を行うことにより、判定部１８Ａは、例えばイベント（例えば祭り等）等の開催によって２位のＴＷ数が急な盛り上がりを示した場合等において、トレンドを考慮した適切な判定を行うことができる。また、該当する可能性が低い同名特定地点（有名度が所定値以下の同名特定地点）を予め除外しているので、特定地点名称の抽出を効率よく且つ精度よく行うことができる。

ここで、上述の同名判定処理において判定対象特定地点名称が示す同名特定地点を特定できなかった場合（いずれの同名特定地点についても、対応する周辺地名又は特徴語が判定対象テキストに含まれていなかった場合）には、判定対象特定地点名称が有名特定地点を示すものと判定してもよい。これにより、特定地点名称の抽出の再現率を高めることができる。

次に人名・一般語フラグ処理について説明する。判定部１８Ａは、判定対象特定地点名称に対応する人名フラグ又は一般語フラグ（第１のフラグ）が立っていれば、判定対象特定地点名称に関連付けて特徴語記憶部１５Ａに記憶されている特徴語が判定対象テキストに含まれているか否かを判定する。判定部１８Ａは、当該特徴語が判定対象テキストに含まれている場合には、判定対象テキスト中で判定対象特定地点名称が特定地点を意味すると判定する。一方、判定部１８Ａは、当該特徴語が判定対象テキストに含まれていない場合には、判定対象テキスト中で判定対象特定地点名称が人名又は一般語を意味すると判定する。

判定部１８Ａは、判定対象テキストと判定結果とを関連付けた判定結果データを出力する。ここで、判定結果とは、人名・一般語フラグ処理において当該判定対象テキストが特定地点を意味すると判定されたことを示す情報である。判定部１８Ａにより出力された判定結果データは、データベース等である判定結果記憶部１９に記憶される。この判定結果データは、後述する特徴語生成部２０Ａによる特徴語の生成のために蓄積される。

特徴語生成部２０Ａは、図４に示すように、判定結果記憶部１９に記憶された判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶部１５Ａに記憶する特徴語生成手段である。特徴語生成部２０Ａは、判定結果記憶部１９に所定期間内（例えば数時間〜数日）に記憶された判定結果データに基づいて特徴語を生成する。具体的には、特徴語生成部２０は、例えば判定結果データに含まれる判定対象テキストから公知の固有表現抽出技術により固有表現を抽出し、抽出した固有表現のうち出現頻度が所定の閾値以上の固有表現（関連語）を特徴語として生成することができる。また、特徴語生成部２０Ａは、判定結果データに含まれる判定対象テキストに対してｔｆｉｄｆ、ダイス係数等を用いることで特徴語を生成してもよい。以下の説明においては、このように判定結果データに基づいて生成された特徴語のことを、静的特徴語と区別して動的特徴語ともいう。

特徴語生成部２０Ａによって生成された動的特徴語は、予め特徴語記憶部１５Ａに記憶されている静的特徴語と共に特徴語記憶部１５Ａに記憶される。特徴語記憶部１５Ａに記憶される静的特徴語及び動的特徴語は、判定部１８Ａによる判定においては、特に区別されることなく用いられる。

このように、特徴語生成部２０Ａが判定結果データに基づいて生成した動的特徴語は、特徴語として特徴語記憶部１５Ａに記憶されるので、特徴語記憶部１５Ａに記憶される特徴語は次第に増えていく。これにより、判定部１８Ａによる判定における特定地点名称の抽出の再現率が高められる。なお、特徴語生成部２０が判定結果データから動的特徴語を生成する頻度（周期）、並びに動的特徴語の生成に用いる判定結果データの対象期間及びデータ数等は、例えば管理者等によって任意に設定される。

次に、図６〜図８を用いて、本実施形態に係る特定地点名称判定方法を含む特定地点名称判定装置１Ａの動作を説明する。

図６に示すように、テキスト抽出部１４により、特定地点情報記憶部１３に記憶された特定地点情報が読み取られ、読み取られた特定地点情報がＲＡＭ１０２上にロードされる（ステップＳ１０１）。また、テキスト取得部１１により、テキスト入力部２から投稿テキストが取得され、取得された投稿テキストがテキスト格納部１２に格納される（ステップＳ１０２）。続いて、テキスト抽出部１４により、テキスト格納部１２に記憶されている複数の投稿テキストのうちから、ＲＡＭ１０２上にロードされた特定地点情報に関連付けられた特定地点名称を含む判定対象テキストが抽出される（ステップＳ１０３、テキスト取得ステップ）。

続いて、判定部１８Ａにより、特定地点名称判定方法の判定ステップを含む処理（ステップＳ１０４〜ステップＳ１０７）が実行される。ただし、ステップＳ１０７に含まれるステップＳ３０４に示す特徴語の生成処理は、特徴語生成部２０Ａにより実行される。まず、判定対象特定地点名称に対応する同名フラグが立っているか否かが判定される（ステップＳ１０４）。同名フラグが立っている場合（ステップＳ１０４：ＹＥＳ）には、同名フラグ処理が実行される（ステップＳ１０５）。一方、同名フラグが立っていない場合（ステップＳ１０４：ＮＯ）には、特定地点名称に対応する人名フラグ又は一般語フラグが立っているか否かが判定される（ステップＳ１０６）。ここで、人名フラグ又は一般語フラグが立っている場合（ステップＳ１０６：ＹＥＳ）には、人名・一般語フラグ処理が実行される（ステップＳ１０７）。一方、人名フラグ及び一般語フラグのいずれも立っていない場合（ステップＳ１０６：ＮＯ）には、判定対象特定地点名称に曖昧性はない（判定対象特定地点名称が示す特定地点が一意に定まる）ので、処理を終了する。

図７は、図６に示す同名フラグ処理のフロー図である。図７に示すように、同名フラグ処理では、まず、判定部１８Ａが、有名度記憶部１７を参照することで、判定対象特定地点名称と同一名称の同名特定地点の有名度を参照する（ステップＳ２０１）。続いて、判定部１８Ａにより、同名特定地点のうち最大の有名度をもつ特定地点（有名特定地点）の有名度が所定の閾値以上であるか否かが判定される（ステップＳ２０２）。有名特定地点の有名度が所定の閾値以上である場合（ステップＳ２０２：ＹＥＳ）には、特定地点名称は有名特定地点を示すものと判定される（ステップＳ２０３）。一方、有名特定地点の有名度が所定の閾値未満である場合（ステップＳ２０２：ＮＯ）には、上述した同名判定処理が実行される（ステップＳ２０４）。

図８は、図６に示す人名・一般語フラグ処理を示すフロー図である。図８に示すように、人名・一般語フラグ処理では、まず、判定対象特定地点名称に関連付けて特徴語記憶部１５Ａに記憶されている特徴語（静的特徴語）が判定対象テキストに含まれているか否か、すなわち特定地点名称と特徴語との組み合わせが判定対象テキストに含まれているか否かが判定される（ステップＳ３０１）。判定対象特定地点名称に対応する特徴語が判定対象テキストに含まれている場合（ステップＳ３０１：ＹＥＳ）には、判定部１８Ａにより、判定対象テキスト中で判定対象特定地点名称が特定地点を意味する（地名・施設名称を指している）と判定される（ステップＳ３０２）。この判定結果と判定対象テキストとを関連付けた判定結果データは、判定結果記憶部１９に記憶される（ステップＳ３０３）。そして、特徴語生成部２０Ａが、管理者等により予め定められた任意のタイミングで、判定結果記憶部１９に記憶された判定結果データに基づいて動的特徴語を生成し、生成した動的特徴語を特徴語記憶部１５Ａに記憶する（ステップＳ３０４）。これにより、次に特定地点名称判定装置１Ａを用いた判定処理を実行する際には、ステップＳ３０１において、予め管理者等により記憶された静的特徴語と共に、ステップＳ３０４で特徴語生成部２０Ａにより生成された動的特徴語を用いた判定処理が実行されることとなる。

一方、判定対象特定地点名称に対応する特徴語が判定対象テキストに含まれていない場合（ステップＳ３０１：ＮＯ）には、判定部１８Ａにより、判定対象テキスト中で判定対象特定地点名称が人名又は一般語を意味すると判定される（ステップＳ３０５）。

以上述べた特定地点名称判定装置１Ａでは、一連の判定処理が繰り返されることで、特徴語記憶部１５Ａに記憶される特徴語が増えていく（動的特徴語が追加されていく）ため、判定部１８Ａによる判定において、判定対象テキスト中で特定地点を意味する特定地点名称を適切に抽出（特定地点を意味すると判定）できる可能性を高めることができる。すなわち、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる。

また、この特定地点名称判定装置１Ａでは、判定対象特定地点名称と同一名称の同名特定地点が複数存在する場合（第２のフラグが立っている場合）において、判定部１８Ａは、有名特定地点の有名度が所定の閾値以上である場合には、上述の同名判定処理を実行することなく、判定対象特定地点名称が有名特定地点を示すものと判定することができる。これにより、判定対象テキスト中に特定地点名称に対応する周辺地名が含まれていない場合であっても、特定地点の有名度に基づいて特定地点名称の抽出を適切に行うことができるため、再現率の向上が図られる。

また、この特定地点名称判定装置１Ａでは、有名度算出部１６が、周辺地名テキストの数、特徴語テキストの数、及びチェックイン数等に基づいて、同名特定地点毎の有名度を適切に算出することができる。そして、判定部１８Ａがこのようにして算出された有名度に基づいて特定地点名称の判定を行うことにより、特定地点名称の抽出の精度の向上が図られる。

［第２実施形態］
図９は、本発明の第２実施形態に係る特定地点名称判定装置１Ｂの機能構成を示すブロック図である。特定地点名称判定装置１Ｂは、特定地点名称判定装置１Ａの特徴語記憶部１５Ａ、判定部１８Ａ、及び特徴語生成部２０Ａがそれぞれ、特徴語記憶部１５Ｂ、判定部１８Ｂ、及び特徴語生成部２０Ｂに置き換わった点において、特定地点名称判定装置１Ａとは異なっている。また、特定地点名称判定装置１Ｂは、判定モデル記憶部２１を備えている点で特定地点名称判定装置１Ａとは異なっている。以下、特定地点名称判定装置１Ｂが特定地点名称判定装置１Ａと異なっている点を主に説明する。

特徴語記憶部１５Ｂは、特定地点名称がテキスト中で特定地点を意味しないことを特徴付ける単語である不正解特徴語を特徴語と共に特定地点名称毎に記憶する特徴語記憶手段である。本実施形態では、不正解特徴語は、特定地点名称がテキスト中で特定地点以外の人名又は一般語を意味することを特徴付ける単語である。ここで、不正解特徴語は、特定地点名称がテキスト中で特定地点を意味しない（テキスト中で人名又は一般語を意味する）ものとして用いられている一以上の文章に基づいて予め管理者等により抽出され、特徴語記憶部１５Ｂに記憶されている。不正解特徴語は、特徴語と同様に、例えばｔｆｉｄｆ等によって抽出される。特徴語記憶部１５Ｂに記憶される特徴語については、特徴語記憶部１５Ａに記憶される特徴語と同様であるため説明を省略する。

判定モデル記憶部２１は、判定対象テキストを入力して特定地点名称が当該判定対象テキスト中で特定地点を意味するか否かを判定する判定モデルを記憶する判定モデル記憶手段である。判定モデルは、例えば機械学習により生成された学習モデルである。この学習モデルは、例えば予め管理者等により用意される。ここで、機械学習としては、例えばＣＲＦ（Conditional Random Fields：条件付き確率場）やＳＶＭ（SupportVector Machine）等の手法を用いることができる。また、学習モデルは、例えば、特定地点名称が含まれるテキストを説明変数とし、当該テキスト中で当該特定地点名称が何を意味するか（特定地点、人名、一般語等のうちいずれの意味で用いられているか）を示す情報を目的変数とした教師付データに基づいてＣＲＦ及びＳＶＭ等の機械学習を行うことで得られる。

ここで、判定モデルは、例えば、特定地点名称が人名を意味するか否かを判定するモデル（人名モデル）、特定地点名称が一般語を意味するか否かを判定するモデル（一般語モデル）といったように、カテゴリ別の判定モデルから構成されていてもよい。

判定部１８Ｂは、判定モデル記憶部２１に記憶された判定モデルと、特徴語記憶部１５Ｂに記憶されている特徴語及び不正解特徴語とに基づいて判定対象テキスト中で判定対象特定地点名称が特定地点を意味するか否かを判定する判定手段である。

具体的には、判定部１８Ｂは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味しないと判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部１５Ｂに記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味すると判定する。一方、判定部１８Ｂは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味しないと判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部１５Ｂに記憶されている特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない（特定地点以外の人名又は一般語を意味する）と判定する。

また、判定部１８Ｂは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味すると判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部１５Ｂに記憶されている不正解特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味すると判定する。一方、判定部１８Ｂは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味すると判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部１５Ｂに記憶されている不正解特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない（特定地点以外の人名又は一般語を意味する）と判定する。

判定部１８Ｂは、判定対象テキストと判定結果とを関連付けた判定結果データを出力する。ここで、判定結果とは、判定対象テキストに含まれる特定地点名称が判定部１８Ｂによって特定地点、人名、及び一般語のいずれを意味するものと判定されたかを示す情報である。判定部１８Ｂにより出力された判定結果データは、判定結果記憶部１９に記憶される。この判定結果データは、後述する特徴語生成部２０Ａによる特徴語又は不正解特徴語の生成のために蓄積される。

ここで、判定モデル記憶部２１にカテゴリ別の判定モデル（人名モデル、一般語モデル）が記憶されている場合には、判定部１８Ｂは、判定モデルに基づく判定の際に、判定対象特定地点名称に対応する第１のフラグ（人名フラグ、一般語フラグ）に対応する判定モデルを用いて判定を行うことができる。具体的には、人名フラグが立っている場合には、判定部１８Ｂは、人名モデルを用いて判定対象テキストを判定することで、当該判定対象テキスト中で判定対象特定地点名称が人名を意味するか否かを判定することができる。また、一般語フラグが立っている場合には、判定部１８Ｂは、一般語モデルを用いて判定対象テキストを判定することで、当該判定対象テキスト中で判定対象特定地点名称が一般語を意味するか否かを判定することができる。また、人名フラグ及び一般語フラグの両方が立っている場合には、判定部１８Ｂは、人名モデル及び一般語モデルの両方を用いて判定対象テキストを判定することで、当該判定対象テキスト中で判定対象特定地点名称が人名又は一般語を意味するか否かを判定することができる。

特徴語生成部２０Ｂは、判定結果記憶部１９に記憶された判定結果データに基づいて特徴語又は不正解特徴語を生成し、生成した特徴語又は不正解特徴語を特徴語記憶部１５Ｂに記憶する特徴語生成手段である。具体的には、特徴語生成部２０Ｂは、判定部１８Ｂによって特定地点を意味するものと判定された特定地点名称を含む判定対象テキストを判定結果データから抽出し、当該判定対象テキストから特徴語を生成する。また、特徴語生成部２０Ｂは、判定部１８Ｂによって人名又は一般語を意味するものと判定された特定地点名称を含む判定対象テキストを判定結果データから抽出し、当該判定対象テキストから不正解特徴語を生成する。特徴語生成部２０Ｂは、例えば公知の固有表現抽出技術により抽出した固有表現（関連語）を特徴語又は不正解特徴語として生成することができる。また、特徴語生成部２０Ｂは、ｔｆｉｄｆ、ダイス係数などを用いて特徴語又は不正解特徴語を生成してもよい。

特徴語生成部２０Ｂによって生成された特徴語又は不正解特徴語は、予め特徴語記憶部１５Ｂに記憶されている特徴語及び不正解特徴語と共に特徴語記憶部１５Ｂに記憶される。特徴語生成部２０Ｂによって特徴語記憶部１５Ｂに記憶される特徴語又は不正解特徴語と、予め管理者等により特徴語記憶部１５Ｂに記憶されている特徴語及び不正解特徴語とは、判定部１８Ａによる判定においては、特に区別されることなく用いられる。

次に、図１０を用いて、特定地点名称判定装置１Ｂの動作を説明する。まず、判定部１８Ｂが、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味するか否かを判定する（ステップＳ４０１）。ステップＳ４０１において判定対象特定地点名称が判定対象テキスト中で特定地点を意味しないと判定された場合（ステップＳ４０１：ＮＯ）には、当該判定対象特定地点名称に関連付けて特徴語記憶部１５Ｂに記憶されている特徴語が当該判定対象テキストに含まれているか否かが判定される（ステップＳ４０２）。一方、ステップＳ４０１において判定対象特定地点名称が判定対象テキスト中で特定地点を意味すると判定された場合（ステップＳ４０１：ＹＥＳ）には、当該判定対象特定地点名称に関連付けて特徴語記憶部１５Ｂに記憶されている不正解特徴語が当該判定対象テキストに含まれているか否かが判定される（ステップＳ４０３）。

ステップＳ４０２において判定対象特定地点名称に関連付けられる特徴語が判定対象テキストに含まれていなければ（ステップＳ４０２：ＮＯ）、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない（特定地点以外の人名又は一般語を指している）と判定される（ステップＳ４０５）。一方、ステップＳ４０２において判定対象特定地点名称に関連付けられる特徴語が判定対象テキストに含まれていれば（ステップＳ４０２：ＹＥＳ）、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味する（地名・施設名称を指している）と判定される（ステップＳ４０４）。

ステップＳ４０３において判定対象特定地点名称に関連付けられる不正解特徴語が判定対象テキストに含まれていなければ（ステップＳ４０３：ＮＯ）、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味する（地名・施設名称を指している）と判定される（ステップＳ４０４）。一方、ステップＳ４０３において判定対象特定地点名称に関連付けられる不正解特徴語が判定対象テキストに含まれていれば（ステップＳ４０３：ＹＥＳ）、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない（特定地点以外の人名又は一般語を指している）と判定される（ステップＳ４０５）。

続いて、ステップＳ４０４又はステップＳ４０５での判定結果と判定対象テキストとを関連付けた判定結果データが、判定結果記憶部１９に記憶される（ステップＳ４０６）。そして、特徴語生成部２０Ｂが、管理者等により予め定められた任意のタイミングで、判定結果記憶部１９に記憶された判定結果データに基づいて動的特徴語又は不正解特徴語を生成し、生成した動的特徴語又は不正解特徴語を特徴語記憶部１５Ｂに記憶する（ステップＳ４０７）。これにより、次に特定地点名称判定装置１Ｂを用いた判定処理を実行する際には、ステップＳ４０２において、予め管理者等により記憶された特徴語と共に、ステップＳ４０７で特徴語生成部２０Ｂにより生成された特徴語を用いた判定処理が実行されることとなる。また、ステップＳ４０３においては、予め管理者等により記憶された不正解特徴語と共に、ステップＳ４０７で特徴語生成部２０Ｂにより生成された不正解特徴語を用いた判定処理が実行されることとなる。

以上述べた特定地点名称判定装置１Ｂによれば、判定モデルによる判定と、特徴語又は不正解特徴語を用いた判定とを併せて行うことで、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めると共に精度（適合率）を高めることができる。具体的には、判定部１８Ｂは、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味しないと判定された場合であっても、当該特定地点名称が特定地点を意味することを特徴付ける特徴語が含まれていれば、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の再現率が高められる。一方、判定部１８Ｂは、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味すると判定された場合には、当該特定地点名称が特定地点を意味しないことを特徴付ける不正解特徴語が含まれていないことをもって、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の精度を高めることができる。

次に、図１１を用いて、本発明の一実施形態に係る特定地点名称判定プログラムＰ１について説明する。特定地点名称判定プログラムＰ１は、コンピュータを特定地点名称判定装置１Ａとして機能させるためのプログラムである。

図１１は、特定地点名称判定プログラムＰ１のモジュールを示すブロック図である。図１１に示すように、特定地点名称判定プログラムＰ１は、特定地点情報記憶モジュールＰ１１と、特徴語記憶モジュールＰ１２と、テキスト取得モジュールＰ１３と、テキスト抽出モジュールＰ１４と、判定モジュールＰ１５と、特徴語生成モジュールＰ１６とを備える。上記の特定地点情報記憶モジュールＰ１１、特徴語記憶モジュールＰ１２、テキスト取得モジュールＰ１３、テキスト抽出モジュールＰ１４、判定モジュールＰ１５、及び特徴語生成モジュールＰ１６が実行されることにより実現される機能は、上述した特定地点名称判定装置１Ａにおいて対応する特定地点情報記憶部１３、特徴語記憶部１５Ａ、テキスト取得部１１、テキスト抽出部１４、判定部１８Ａ、及び特徴語生成部２０Ａの機能と同様である。

このように構成された特定地点名称判定プログラムＰ１は、例えばＣＤ−ＲＯＭ及びＤＶＤ等の記録媒体に記憶され、特定地点名称判定装置１Ａとして用いられるコンピュータにより実行される。具体的には、当該コンピュータは、例えばＣＤ−ＲＯＭドライブ及びＤＶＤドライブ等の記録媒体読取部を備えている。記録媒体読取部に記録媒体が挿入されると、当該コンピュータは、記録媒体読取部から記録媒体に格納された特定地点名称判定プログラムＰ１にアクセス可能となる。そして、特定地点名称判定プログラムＰ１を当該コンピュータに実行させることによって、当該コンピュータを、特定地点名称判定装置１Ａとして動作させることが可能となる。

なお、特定地点名称判定プログラムＰ１は、搬送波に重畳されたデータ信号としてネットワークを介して提供されるものであってもよい。この場合、特定地点名称判定装置１Ａとして用いられるコンピュータは、通信モジュール１０６によって受信した特定地点名称判定プログラムＰ１をＣＰＵ１０１又はＲＡＭ１０２に格納することにより、特定地点名称判定プログラムＰ１を実行することができる。

以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲において様々な変形が可能である。

例えば、本実施形態では、特定地点の例として、施設（清水寺）、湖沼（大沼）、山岳（函館山）のＰＯＩを示したが、特定地点は、例えば観光地、繁華街、駅前等の何らかの地点を示すものであれば何でもよい。

また、本実施形態では、特定地点以外を意味するものの例として、人名及び一般語を挙げたが、その他のカテゴリを用いてもよい。例えば、駅名を示すものについては特定地点から除外したい場合には、駅名と同一名称であることを示す駅名フラグを第１のフラグとしてもよい。

また、本実施形態では、フラグの状態に応じた場合分けにより、同名フラグ処理と人名・一般語フラグ処理とのいずれかの処理を実施するものとして説明したが、両方のフラグが立っている場合には、両方の処理を実行して、総合的に判定することとしてもよい。また、本実施形態では、同名フラグ処理を優先させたが、人名・一般語フラグ処理を優先させてもよい。

１Ａ，１Ｂ…特定地点名称判定装置、２…テキスト入力部、１１…テキスト取得部、１２…テキスト格納部、１３…特定地点情報記憶部、１４…テキスト抽出部、１５…特徴語記憶部、１６…有名度算出部、１７…有名度算出部、１８Ａ，１８Ｂ…判定部、１９…判定結果記憶部、２０Ａ，２０Ｂ…特徴語生成部、２１…判定モデル記憶部、１０１…ＣＰＵ、１０２…ＲＡＭ、１０３…ＲＯＭ、１０４…入力装置、１０５…出力装置、１０６…通信モジュール、１０７…補助記憶装置、Ｐ１…特定地点名称判定プログラム、Ｐ１１…特定地点情報記憶モジュール、Ｐ１２…特徴語記憶モジュール、Ｐ１３…テキスト取得モジュール、Ｐ１４…判定モジュール、Ｐ１５…特徴語生成モジュール。

Claims

予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が前記特定地点以外の意味を有することを示す第１のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、
前記特定地点名称がテキスト中で前記特定地点を意味することを特徴付ける単語である特徴語を前記特定地点毎に記憶する特徴語記憶手段と、
テキストを取得するテキスト取得手段と、
前記特定地点情報に関連付けられた特定地点名称を含む判定対象テキストを前記テキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、
前記判定対象テキストに含まれる特定地点名称に対応する前記第１のフラグが当該特定地点名称が前記特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定する判定手段と、
前記判定対象テキストと当該判定対象テキストに対する前記判定手段による判定結果とを関連付けた判定結果データに基づいて前記特徴語を生成し、生成した特徴語を前記特徴語記憶手段に記憶する特徴語生成手段と、
を備える特定地点名称判定装置。
前記判定対象テキストを入力して前記特定地点名称が当該判定対象テキスト中で前記特定地点を意味するか否かを判定する判定モデルを記憶する判定モデル記憶手段を更に備え、
前記特徴語記憶手段は、前記特定地点名称がテキスト中で前記特定地点を意味しないことを特徴付ける単語である不正解特徴語を前記特徴語と共に前記特定地点名称毎に記憶し、
前記判定手段は、前記判定モデルに基づいて前記判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で前記特定地点を意味しないと判定した場合において、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定し、前記判定モデルに基づいて前記判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で前記特定地点を意味すると判定した場合において、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている不正解特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定し、
前記特徴語生成手段は、前記判定結果データに基づいて前記特徴語又は前記不正解特徴語を生成し、生成した特徴語又は不正解特徴語を前記特徴語記憶手段に記憶する、
請求項１記載の特定地点名称判定装置。
前記特定地点情報には、当該特定地点情報に関連付けられた特定地点名称と同一名称の特定地点である同名特定地点が複数存在することを示す第２のフラグが関連付けられており、
前記同名特定地点の各々について、予め算出された有名度を記憶する有名度記憶手段と、を更に備え、
前記判定手段は、前記判定対象テキストに含まれる特定地点名称に対応する前記第２のフラグが前記同名特定地点が複数存在することを示している場合には、前記有名度記憶手段に記憶されている前記同名特定地点の有名度に基づいて、同名判定処理を実行するか否かを決定し、
前記同名判定処理は、前記判定対象テキスト中に含まれる前記特定地点名称以外の文字列に基づいて、当該判定対象テキスト中で当該特定地点名称が前記同名特定地点のうちどの特定地点を示すものかを判定する処理である、
請求項１又は２記載の特定地点名称判定装置。
前記判定手段は、前記同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値以上の場合に、前記同名判定処理を実施せずに、前記判定対象テキスト中に含まれる特定地点名称が当該最大の有名度をもつ特定地点を示すと判定し、前記同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、前記同名判定処理を実行する、
請求項３記載の特定地点名称判定装置。
前記判定手段は、前記同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、前記同名特定地点のうち、前記有名度が所定値以下の同名特定地点を除外して前記同名判定処理を実行する、
請求項４記載の特定地点名称判定装置。
前記特定地点と当該特定地点に対応する周辺地名との両方が含まれる周辺地名テキストの数、前記特定地点と当該特定地点に対応する前記特徴語との両方が含まれる特徴語テキストの数、及び、移動通信端末のユーザが前記特定地点に滞在した回数を示すチェックイン数のうち少なくとも一つに基づいて前記特定地点の有名度を算出し、算出した有名度を前記有名度記憶手段に記憶する有名度算出手段を更に備える、
請求項３〜５のいずれか一項記載の特定地点名称判定装置。
予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が前記特定地点以外の意味を有することを示す第１のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、
前記特定地点名称がテキスト中で前記特定地点を意味することを特徴付ける単語である特徴語を前記特定地点毎に記憶する特徴語記憶手段と、
を備える特定地点名称判定装置により実行される特定地点名称判定方法であって、
テキストを取得するテキスト取得ステップと、
前記特定地点情報に関連付けられた特定地点名称を含む判定対象テキストを前記テキスト取得ステップにおいて取得されたテキストのうちから抽出するテキスト抽出ステップと、
前記判定対象テキストに含まれる特定地点名称に対応する前記第１のフラグが当該特定地点名称が前記特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定する判定ステップと、
前記判定対象テキストと当該判定対象テキストに対する前記判定ステップにおける判定結果とを関連付けた判定結果データに基づいて前記特徴語を生成し、生成した特徴語を前記特徴語記憶手段に記憶する特徴語生成ステップと、
を含む特定地点名称判定方法。
コンピュータを、
予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が前記特定地点以外の意味を有することを示す第１のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、
前記特定地点名称がテキスト中で前記特定地点を意味することを特徴付ける単語である特徴語を前記特定地点毎に記憶する特徴語記憶手段と、
テキストを取得するテキスト取得手段と、
前記特定地点情報に関連付けられた特定地点名称を含む判定対象テキストを前記テキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、
前記判定対象テキストに含まれる特定地点名称に対応する前記第１のフラグが当該特定地点名称が前記特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定する判定手段と、
前記判定対象テキストと当該判定対象テキストに対する前記判定手段による判定結果とを関連付けた判定結果データに基づいて前記特徴語を生成し、生成した特徴語を前記特徴語記憶手段に記憶する特徴語生成手段
として機能させる特定地点名称判定プログラム。