JP6060039B2 - 特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラム - Google Patents

特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラム Download PDF

Info

Publication number
JP6060039B2
JP6060039B2 JP2013117083A JP2013117083A JP6060039B2 JP 6060039 B2 JP6060039 B2 JP 6060039B2 JP 2013117083 A JP2013117083 A JP 2013117083A JP 2013117083 A JP2013117083 A JP 2013117083A JP 6060039 B2 JP6060039 B2 JP 6060039B2
Authority
JP
Japan
Prior art keywords
specific point
name
determination
specific
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013117083A
Other languages
English (en)
Other versions
JP2014235597A (ja
Inventor
山田 尚志
尚志 山田
桂一 落合
桂一 落合
大祐 鳥居
大祐 鳥居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013117083A priority Critical patent/JP6060039B2/ja
Publication of JP2014235597A publication Critical patent/JP2014235597A/ja
Application granted granted Critical
Publication of JP6060039B2 publication Critical patent/JP6060039B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキスト中の特定地点名称の判定を行う特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラムに関する。
従来、地名・施設名等の特定地点を示す表記(特定地点名称)をテキストから抽出する技術として、下記非特許文献1に示されるような技術が知られている。このような技術の基本的な方式は、予め特定地点名称を格納した地名辞書を用意しておき、テキスト中のワードと地名辞書とを照合することで、テキスト中の特定地点名称を検出するというものである。
ところで、特定地点名称の中には、例えば「大山」のように、地名として用いられると共に人名としても用いられる特定地点名称が存在する。また、例えば「清水寺」のように、異なる複数のエリア(京都市、大阪市等)に同一名称の施設が点在するような特定地点名称も存在する。従って、上記のような辞書ベースの照合だけでは、テキスト中の特定地点名称が地名・施設名等の特定地点を意味するものとして用いられているか否かを適切に判断できない場合がある。また、テキスト中の特定地点名称がどの特定地点を示すものであるのかを適切に判別できない場合もある。
下記非特許文献1では、このような特定地点名称の曖昧性を解消し、テキスト中の特定地点名称を適切に判別して抽出するために、抽出対象の特定地点名称を、人名として用いられることがあることを示す人名カテゴリ、同一名称の地名・施設名等が複数存在することを示す同名カテゴリ、及び、商品名や愛称等の一般的な意味で用いられることがあることを示す一般語カテゴリへの分類を行う。そして、同名カテゴリに分類される特定地点名称については、テキスト中に現れる当該特定地点名称と当該特定地点名称に対応する周辺地名との組み合わせに基づいて、当該特定地点名称がどの地名・施設名を示すものであるかを判定する。また、人名カテゴリ又は一般語カテゴリに分類される特定地点名称については、当該特定地点名称が示す特定地点に対応する周辺地名がテキストに含まれていなければ、当該特定地点名称は地名・施設名等の意味で用いられていないと判定する。
Einat Amitay、Nadav Har’El、Ron Sivan、Aya Soffer、「Web-a-Where: Geotagging Web Content」、ACMSIGIR 2004、Pages 273-280
ところで、上述の処理方式では、テキスト中の特定地点名称が特定地点を意味すると判定されるための条件が厳しいため、適合率(精度)が高い反面、再現率が低いという問題がある。特に、ツイッター(Twitter(登録商標))等のマイクロブログサービスに投稿されるツイート(短文のテキスト)に対して上述の精度重視の処理方式で特定地点名称の判定処理を行った場合には、テキスト中で特定地点を意味するものとして用いられている特定地点名称が全く抽出されないおそれが高い。
そこで本発明は、上記課題に鑑み、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラムを提供することを目的とする。
本発明に係る特定地点名称判定装置は、予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段と、テキストを取得するテキスト取得手段と、特定地点情報に関連付けられた特定地点名称を含む判定対象テキストをテキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、判定対象テキストに含まれる特定地点名称に対応する第1のフラグが当該特定地点名称が特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する判定手段と、判定対象テキストと当該判定対象テキストに対する判定手段による判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する特徴語生成手段と、を備える。
本発明に係る特定地点名称判定方法は、予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段と、を備える特定地点名称判定装置により実行される特定地点名称判定方法であって、テキストを取得するテキスト取得ステップと、特定地点情報に関連付けられた特定地点名称を含む判定対象テキストをテキスト取得ステップにおいて取得されたテキストのうちから抽出するテキスト抽出ステップと、判定対象テキストに含まれる特定地点名称に対応する第1のフラグが当該特定地点名称が特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する判定ステップと、判定対象テキストと当該判定対象テキストに対する判定ステップにおける判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する特徴語生成ステップと、を含む。
本発明に係る特定地点名称判定プログラムは、コンピュータを、予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段と、テキストを取得するテキスト取得手段と、特定地点情報に関連付けられた特定地点名称を含む判定対象テキストをテキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、判定対象テキストに含まれる特定地点名称に対応する第1のフラグが当該特定地点名称が特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する判定手段と、判定対象テキストと当該判定対象テキストに対する判定手段による判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する特徴語生成手段として機能させる。
この発明では、テキスト抽出手段が、特定地点情報記憶手段を参照し、テキスト取得手段により取得されたテキストのうちから特定地点名称を含む判定対象テキストを抽出する。続いて、判定手段が、第1のフラグにより判定対象テキストに含まれる特定地点名称が特定地点以外の意味を有すると示されている場合に、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が判定対象テキストに含まれるか否かに基づいて、判定対象テキスト中で当該特定地点名称が特定地点を意味するか否かを判定する。続いて、特徴語生成手段が、判定対象テキストと判定手段による判定結果とを関連付けた判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶手段に記憶する。この一連の処理が繰り返されることで、特徴語記憶手段に記憶される特徴語が増えていくため、判定手段による判定において、判定対象テキスト中で特定地点を意味する特定地点名称を適切に抽出(特定地点を意味すると判定)できる可能性を高めることができる。すなわち、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる。
上記特定地点名称判定装置では、判定対象テキストを入力して特定地点名称が当該判定対象テキスト中で特定地点を意味するか否かを判定する判定モデルを記憶する判定モデル記憶手段を更に備え、特徴語記憶手段は、特定地点名称がテキスト中で特定地点を意味しないことを特徴付ける単語である不正解特徴語を特徴語と共に特定地点名称毎に記憶し、判定手段は、判定モデルに基づいて判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で特定地点を意味しないと判定した場合において、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定し、判定モデルに基づいて判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で特定地点を意味すると判定した場合において、当該特定地点名称に関連付けて特徴語記憶手段に記憶されている不正解特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定し、特徴語生成手段は、判定結果データに基づいて特徴語又は不正解特徴語を生成し、生成した特徴語又は不正解特徴語を特徴語記憶手段に記憶してもよい。
この特定地点名称判定装置によれば、判定モデルによる判定と、特徴語又は不正解特徴語を用いた判定とを併せて行うことで、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めると共に精度(適合率)を高めることができる。具体的には、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味しないと判定された場合であっても、当該特定地点名称が特定地点を意味することを特徴付ける特徴語が含まれていれば、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の再現率が高められる。一方、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味すると判定された場合には、当該特定地点名称が特定地点を意味しないことを特徴付ける不正解特徴語が含まれていないことをもって、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の精度を高めることができる。
上記特定地点名称判定装置では、特定地点情報には、当該特定地点情報に関連付けられた特定地点名称と同一名称の特定地点である同名特定地点が複数存在することを示す第2のフラグが関連付けられており、同名特定地点の各々について、予め算出された有名度を記憶する有名度記憶手段と、を更に備え、判定手段は、判定対象テキストに含まれる特定地点名称に対応する第2のフラグが同名特定地点が複数存在することを示している場合には、有名度記憶手段に記憶されている同名特定地点の有名度に基づいて、同名判定処理を実行するか否かを決定してもよい。ここで、同名判定処理は、判定対象テキスト中に含まれる特定地点名称以外の文字列に基づいて、当該判定対象テキスト中で当該特定地点名称が同名特定地点のうちどの特定地点を示すものかを判定する処理である。
従来、同名特定地点が複数存在する特定地点名称を含むテキストについては、以下に示す同名判定処理により、当該特定地点名称がどの特定地点を示すか、あるいは特定地点を示すものか否かが判定されるのが一般的である。一例として京都や大阪等の複数の地域に存在する「清水寺」という特定地点名称について説明する。同名判定処理では、特定地点名称である「清水寺」が含まれるテキスト中に当該特定地点名称に対応する周辺地名(例えば「京都」)が含まれていれば、当該特定地点名称を「京都の清水寺」を示すものと判定する。一方、当該テキスト中に当該特定地点名称に対応する周辺地名が一つも含まれていなければ、当該特定地点名称を、そもそも特定地点を示すものとは判定しない。このような同名判定処理は、周辺地名が同一テキスト中に含まれていることをもって特定地点名称が特定の特定地点を示すものと判定するため、精度が高い一方で再現率が低い。
この特定地点名称判定装置では、判定対象テキストに含まれる特定地点名称と同一名称の特定地点(同名特定地点)が複数存在する場合において、判定手段は、同名特定地点の有名度に基づいて同名判定処理を実行するか否かを切替えることができる。すなわち、例えば判定対象テキスト中で特定地点名称が示す特定地点を有名度に基づいて一意に決定可能な場合等には、判定手段は、同名判定処理を省略し、当該特定地点名称が有名度に基づいて決定された特定地点を示すものと判定することができる。これにより、判定対象テキスト中に特定地点名称に対応する周辺地名が含まれていない場合であっても、特定地点の有名度に基づいて特定地点名称の抽出を適切に行うことができるため、再現率の向上が図られる。
上記特定地点名称判定装置では、判定手段は、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値以上の場合に、同名判定処理を実施せずに、判定対象テキスト中に含まれる特定地点名称が当該最大の有名度をもつ特定地点を示すと判定し、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、同名判定処理を実行してもよい。
この特定地点名称判定装置によれば、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値以上の場合に、同名判定処理を省略し、特定地点名称の抽出を適切に行うことができるため、再現率の向上が図られる。
上記特定地点名称判定装置では、判定手段は、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、同名特定地点のうち、有名度が所定値以下の同名特定地点を除外して同名判定処理を実行してもよい。
この特定地点名称判定装置によれば、同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、有名度が所定値以下の同名特定地点については予め除外して同名判定処理を行うことができる。これにより、特定地点名称の抽出を効率よく且つ精度よく行うことができる。
上記特定地点名称判定装置では、特定地点と当該特定地点に対応する周辺地名との両方が含まれる周辺地名テキストの数、特定地点と当該特定地点に対応する特徴語との両方が含まれる特徴語テキストの数、及び、移動通信端末のユーザが特定地点に滞在した回数を示すチェックイン数のうち少なくとも一つに基づいて特定地点の有名度を算出し、算出した有名度を有名度記憶手段に記憶する有名度算出手段を更に備えてもよい。
この特定地点名称判定装置によれば、有名度算出手段が、周辺地名テキストの数、特徴語テキストの数、及びチェックイン数等に基づいて、特定地点の有名度を適切に算出することができる。そして、判定部がこのようにして算出された有名度に基づいて特定地点名称の判定を行うことにより、特定地点名称の抽出の精度の向上が図られる。
本発明によれば、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる。
本発明の第1実施形態に係る特定地点名称判定装置の機能構成を示すブロック図である。 特定地点名称判定装置のハードウェア構成を示すブロック図である。 特定地点情報の一例を示す図である。 特徴語記憶部に記憶される特徴語を説明するために用いる図である。 特定地点の有名度の一例を示す図である。 第1実施形態に係る特定地点名称判定装置の動作を示すフロー図である。 図6に示す人名・一般語フラグ処理を示すフロー図である。 図6に示す同名フラグ処理のフロー図である。 第2実施形態に係る特定地点名称判定装置の機能構成を示す図である。 第2実施形態に係る特定地点名称判定装置の人名・一般語フラグ処理を示すフロー図である。 本発明の一実施形態に係る特定地点名称判定プログラムの機能構成を示すブロック図である。
以下、図面を参照しながら、本発明に係る実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
[第1実施形態]
図1は、本発明の第1実施形態に係る特定地点名称判定装置1Aの機能構成を示すブロック図である。本実施形態に係る特定地点名称判定装置1Aは、特定地点の名称(特定地点名称)が含まれるテキスト中において、当該特定地点名称が特定地点を意味する(特定地点名称がテキスト中の文脈において特定地点を意味するものとして用いられている)か否かを判定する装置である。ここで、特定地点としては、例えば地名・施設名等の特定の場所を示すPOI(Point of interest)が挙げられる。具体的には、特定地点は、寺社等の施設(例えば「清水寺」等)、山岳(例えば「函館山」等)、湖沼(例えば「大沼」等)等の特定の場所を示すものである。図1に示すように、特定地点名称判定装置1Aは、テキスト取得部11、テキスト格納部12、特定地点情報記憶部13、テキスト抽出部14、特徴語記憶部15A、有名度算出部16、有名度記憶部17、判定部18A、判定結果記憶部19、及び特徴語生成部20Aを備えている。
図2は、特定地点名称判定装置1Aのハードウェア構成を示すブロック図である。図1に示される特定地点名称判定装置1Aは、物理的には、図2に示すように、1又は複数のCPU101と、主記憶装置であるRAM102及びROM103と、入力デバイスであるキーボード及びマウス等の入力装置104と、ディスプレイ等の出力装置105と、ネットワークカード等のデータ送受信デバイスである通信モジュール106と、ハードディスクドライブ及び半導体メモリ等の補助記憶装置107とを含むコンピュータシステムとして構成されている。
図1における特定地点名称判定装置1Aの各機能は、図2に示すCPU101、RAM102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで入力装置104、出力装置105、及び通信モジュール106を動作させると共に、RAM102及び補助記憶装置107におけるデータの読み出し及び書き込みを行うことで実現される。以下、図1に示す機能ブロックに基づいて、各機能ブロックを説明する。
テキスト入力部2は、例えばツイッター(Twitter(登録商標))等のマイクロブログサービスを管理するサーバ(不図示)等から、マイクロブログサービスに投稿された投稿テキスト(ツイッターの場合は「ツイート(つぶやき)」)を入力(取得)し、入力した一以上の投稿テキストを蓄積しているデータベース等である。本実施形態では、テキスト入力部2が特定地点名称判定装置1Aとは別の装置として実現されているものとしているが、テキスト入力部2は、特定地点名称判定装置1Aに含まれていてもよい。
テキスト取得部11は、テキスト入力部2から投稿テキストを取得するテキスト取得手段である。テキスト取得部11は、例えばストリーミングAPI等を利用して、定期的又はリアルタイムにテキスト入力部2から投稿テキストを取得する。テキスト取得部11によって取得された投稿テキストは、データベース等であるテキスト格納部12に記憶される。ここで、テキスト入力部2とテキスト取得部11との間の接続形態は何でもよい。例えば、テキスト入力部2とテキスト取得部11とは、無線方式で接続されていてもよいし、有線方式で接続されていてもよい。また、テキスト入力部2とテキスト取得部11とは、インターネット等の任意の通信ネットワークを介して接続(ロジック接続)されていてもよいし、装置同士が直接接続されることにより接続されていてもよい。
特定地点情報記憶部13は、予め定められた特定の場所(POI等)を示す特定地点に関する特定地点情報を特定地点毎に記憶しているデータベース等の特定地点情報記憶手段である。特定地点情報記憶部13に記憶されている特定地点情報は、例えば特定地点名称判定装置1Aの管理者等によって予め登録されているものとする。図3は、特定地点情報の一例を示す図である。図3に示すように、特定地点情報には、特定地点を一意に特定する識別情報(id)、特定地点の名称を示す特定地点名称、特定地点の住所、特定地点の位置(緯度・経度)、特定地点が属するエリア(例えば「県」等)を示すエリアコード、及び各種フラグ(同名フラグ、人名フラグ、一般語フラグ)等が特定地点毎に関連付けられている。
ここで、同名フラグは、特定地点名称と同一名称の特定地点(同名特定地点)が複数存在するか否かを示すフラグ(第2のフラグ)である。人名フラグは、特定地点名称が人名と同じ名称であるか否かを示すフラグである。一般語フラグは、特定地点名称が一般語と同じ名称であるか否かを示すフラグである。すなわち、人名フラグ及び一般語フラグは、特定地点名称が特定地点以外の意味(人名及び一般語)を有するか否かを示すフラグ(第1のフラグ)である。これらのフラグは、該当する場合に「1」が設定され、該当しない場合には「0」が設定される。以降の説明においては、フラグが「1」に設定されていることを指して、フラグが立っているともいう。
図3を用いて各種フラグについて詳細に説明する。例えば、特定地点名称が「清水寺」である特定地点は、京都や大阪等の複数の土地に存在するため、同名フラグが立てられている。特定地点名称が「大沼」の特定地点についても、同一名称の特定地点が複数の土地に存在するため、同名フラグが立てられている。また、「大沼」という特定地点名称は、人名(大沼さん)として用いられることもあり、一般語(大きい沼)として用いられることもあるので、人名フラグ及び一般語フラグは共に立てられている。
テキスト抽出部14は、特定地点情報記憶部13に記憶された特定地点情報に関連付けられた特定地点名称を含む投稿テキスト(判定対象テキスト)を抽出するテキスト抽出手段である。テキスト抽出部14は、例えば、特定地点情報記憶部13に記憶された特定地点情報を読み取ってRAM102上にロードする。続いて、テキスト抽出部14は、テキスト格納部12に記憶されている複数の投稿テキストのうちから、RAM102上にロードした特定地点情報に関連付けられた特定地点名称を含むテキストをサーチすることにより、判定対象テキストを取得する。例えば、「清水寺」に関する特定地点情報がRAM102上にロードされている場合には、テキスト抽出部14は、テキスト格納部12から、「今、清水寺を観光している。」のように「清水寺」の文字列が含まれている投稿テキストを判定対象テキストとして抽出する。なお、本実施形態では、テキスト抽出部14は、複数の投稿テキストのうちから1つの投稿テキストを判定対象テキストとして抽出するものとしているが、テキスト抽出部14は、例えば1つの長文テキストのうちから、特定地点名称を含む一部(例えば特定地点名称が含まれる一文や段落等)を判定対象テキストとして抽出してもよい。
特徴語記憶部15Aは、特定地点名称がテキスト中で特定地点を意味することを特徴付ける単語である特徴語を特定地点毎に記憶する特徴語記憶手段である。特徴語記憶部15Aには、特定地点名称がテキスト中で特定地点を意味するものとして用いられている一以上の文章に基づいて予め管理者等により抽出された特徴語(以下「静的特徴語」ともいう)が、当該特定地点の特徴語として記憶される。このような文章としては、例えば特定地点に関するWikipedia及びホームページ等に記載された文章が挙げられる。静的特徴語は、例えばtfidf等を用いることにより抽出される。例えば「天橋立」という特定地点の特徴語としては、「きれい」や「宮津」等、「天橋立」という特定地点名称がテキスト中で特定地点(つまり地名としての「天橋立」)を意味するものとして用いられていることを特徴付ける単語が抽出される。ただし、抽出される特徴語は、どの文章をtfidf等による特徴語抽出の元とするかによって異なり得る。特徴語記憶部15には、静的特徴語の他に、後述する特徴語生成部20Aにより生成される特徴語も記憶される。
有名度算出部16は、同名特定地点毎の有名度を算出し、算出した有名度をデータベース等である有名度記憶部17に記憶する有名度算出手段である。有名度記憶部17は、同名特定地点の各々について、有名度算出部16により算出された有名度を記憶する有名度記憶手段である。有名度記憶部17には、同名特定地点毎の有名度を格納するためのテーブル領域が確保されている。このような同名特定地点のデータ(同一の特定地点名称をもつ同名特定地点の一覧、及び各同名特定地点が存在する都市名等)は、例えばWikipedia等の公開情報及び特定地点情報記憶部13に記憶された特定地点情報等を参照することで、予め管理者等によって有名度記憶部17に記憶される。
有名度算出部16は、同名特定地点と当該同名特定地点に対応する周辺地名との両方が含まれる周辺地名テキストの数、同名特定地点と当該同名特定地点に対応する特徴語との両方が含まれる特徴語テキストの数、及び、移動通信端末のユーザが同名特定地点に滞在した回数を示すチェックイン数のうち少なくとも一つに基づいて同名特定地点の有名度を算出することができる。
具体的には、有名度算出部16は、例えばテキスト取得部11により取得されたテキスト(ツイッターの場合は「ツイート(つぶやき)」)を集計することにより、周辺地名テキストの数及び特徴語テキストの数を集計することができる。また、有名度算出部16は、例えばFoursquare等の位置情報に基づいたソーシャル・ネットワーキング・サービス(SNS)が保有する特定地点毎のチェックイン数を、当該SNSが公開しているAPI等を介して取得することができる。ここで、例えば、予め管理者等により、同名特定地点毎に周辺地名を対応付けたテーブル情報が、有名度算出部16から参照可能なデータベース(不図示)上に用意されているものとする。このようなデータベースを参照することで、有名度算出部16は、周辺地名テキスト数を集計することができる。
図5は、特定地点名称が「清水寺」である特定地点に関する同名特定地点毎の有名度の一例を示す図である。ここでは一例として、周辺地名テキストの数及び特徴語テキストの数を足し合わせたテキスト数(TW数)を有名度としている。ここで、「清水寺_都市名」は、「都市名で示される都市に存在する清水寺」を示す特定地点である。
判定部18Aは、テキスト抽出部14により抽出された判定対象テキストに含まれる特定地点名称に対応するフラグ(同名フラグ、人名フラグ、一般語フラグ)の状態に応じた判定処理を実行する判定手段である。具体的には、同名フラグ(第2のフラグ)が立っていれば、判定部18Aは、判定対象テキスト中の特定地点名称がどの同名特定地点を示すものかを判定する処理(同名フラグ処理)を実行する。一方、人名フラグ又は一般語フラグ(第1のフラグ)が立っていれば、判定部18Aは、判定対象テキスト中の特定地点名称が特定地点を意味するのか、あるいは人名又は一般語を意味するのかを判定する処理(人名・一般語フラグ処理)を実行する。
まず同名フラグ処理について説明する。判定部18Aは、有名度記憶部17に記憶されている同名特定地点の有名度に基づいて、同名判定処理を実行するか否かを決定する。判定部18Aは、例えば判定対象テキストに含まれる特定地点名称(以下「判定対象特定地点名称」という)と同一名称の同名特定地点のうち最大の有名度をもつ特定地点(以下、判定対象特定地点名称と同一名称の同名特定地点のうち最大の有名度をもつ特定地点のことを指して「有名特定地点」ともいう)の有名度に基づいて、判定対象テキスト中で判定対象特定地点名称が有名特定地点を示すものか否かを判定する。例えば、判定部18Aは、有名特定地点の有名度が所定の閾値以上であるか否かを判定し、有名特定地点の有名度が所定の閾値以上であれば、判定対象テキスト中で判定対象特定地点名称は有名特定地点を示す(判定対象特定地点名称は有名特定地点を意味するものとして用いられている)と判定する。また、判定部18Aは、有名特定地点の有名度が所定の閾値未満であれば、以下の同名判定処理を実行する。ここで、所定の閾値は、管理者等により任意の値に設定されるものである。所定の閾値は、例えば判定部18Aにより読み取り可能な設定ファイル等として保持される。
同名判定処理とは、判定対象テキスト中に含まれる特定地点名称以外の文字列に基づいて、当該判定対象テキスト中で当該特定地点名称が同名特定地点のうちどの特定地点を示すものかを判定する処理である。より具体的には、同名判定処理は、判定対象テキスト内に、例えば判定対象特定地点名称と判定対象特定地点名称が示す特定地点に対応する周辺地名(又は特徴語、最寄りの駅名等)とが含まれていれば、判定対象特定地点名称が周辺地名(又は特徴語、最寄りの駅名など)に対応する特定地点を意味すると判定する処理である。同名判定処理では、例えば判定対象特定地点名称である「清水寺」が含まれる判定対象テキスト中に、当該判定対象特定地点名称に対応する周辺地名の一つである「京都」が含まれていれば、当該判定対象特定地点名称は「京都の清水寺」を示すものであると判定される。一方、判定対象テキスト中に判定対象特定地点名称が示す特定地点に対応する周辺地名が一つも含まれていなければ、判定対象特定地点名称は特定地点を示すものとは判定されない。
例えば、判定部18Aは、有名特定地点の有名度の割合(全ての同名特定地点の有名度の総計に対する割合)が所定の閾値以上か否かを判定することで、判定対象特定地点名称が有名特定地点を示すものか否かを判定することができる。
例えば、判定対象特定地点名称が「清水寺」であり、所定の閾値を70%とした場合を考える。この場合、図5(a)の例では、京都市の清水寺を示す特定地点のTW数が最大となり全体のおよそ88%を占めるため、判定部18Aは、判定対象特定地点名称が京都市の清水寺を示すものと判定する。また、図5(b)の例でも、京都市の清水寺を示す特定地点のTW数が最大となり全体のおよそ76%を占めるため、判定部18Aは、判定対象特定地点名称が京都市の清水寺を示すものと判定する。
また、判定部18Aは、例えば、有名度が1位(最大)の特定地点の有名度と2位の特定地点の有名度との差が全ての同名特定地点の有名度の総計に対して占める割合が所定の閾値以上か否かを判定することで、判定対象特定地点名称が有名特定地点を示すものか否かを判定してもよい。
例えば、判定対象特定地点名称が「清水寺」であり、所定の閾値を70%とした場合を考える。この場合、図5(a)の例では、全ての同名特定地点の有名度の総計(200)に対してTW数が1位の京都市の清水寺とTW数が2位のいすみ市の清水寺とのTW数の差(176)が占める割合は、およそ88%となる。このため、判定部18Aは、判定対象特定地点名称が京都市の清水寺を示すものと判定する。
一方、図5(b)の例では、全ての同名特定地点の有名度の総計(241)に対してTW数が1位の京都市の清水寺とTW数が2位のいすみ市の清水寺とのTW数の差(135)が占める割合は、およそ56%となる。このため、判定部18Aは、判定対象特定地点名称が京都市の清水寺を示すものとは判定せずに、同名判定処理を実行する。ここで、判定部18Aは、同名特定地点のうち、有名度が所定値以下の同名特定地点を除外して同名判定処理を実行してもよい。例えば、判定部18Aは、所定値(ここでは一例として「10」)以下の同名特定地点を除外して、TW数が2位のいすみ市の清水寺に対応する周辺地名又は特徴語が判定対象テキストに含まれるか否かの判定のみを実行する。ここで、判定部18Aは、いすみ市の清水寺に対応する周辺地名又は特徴語が判定対象テキストに含まれると判定した場合に、判定対象特定地点名称がいすみ市の清水寺を示すものと判定する。一方、判定部18Aは、いすみ市の清水寺に対応する周辺地名又は特徴語が判定対象テキストに含まれないと判定した場合には、判定対象特定地点名称が有名特定地点に該当する京都市の清水寺を示すものと判定する。
このような判定処理を行うことにより、判定部18Aは、例えばイベント(例えば祭り等)等の開催によって2位のTW数が急な盛り上がりを示した場合等において、トレンドを考慮した適切な判定を行うことができる。また、該当する可能性が低い同名特定地点(有名度が所定値以下の同名特定地点)を予め除外しているので、特定地点名称の抽出を効率よく且つ精度よく行うことができる。
ここで、上述の同名判定処理において判定対象特定地点名称が示す同名特定地点を特定できなかった場合(いずれの同名特定地点についても、対応する周辺地名又は特徴語が判定対象テキストに含まれていなかった場合)には、判定対象特定地点名称が有名特定地点を示すものと判定してもよい。これにより、特定地点名称の抽出の再現率を高めることができる。
次に人名・一般語フラグ処理について説明する。判定部18Aは、判定対象特定地点名称に対応する人名フラグ又は一般語フラグ(第1のフラグ)が立っていれば、判定対象特定地点名称に関連付けて特徴語記憶部15Aに記憶されている特徴語が判定対象テキストに含まれているか否かを判定する。判定部18Aは、当該特徴語が判定対象テキストに含まれている場合には、判定対象テキスト中で判定対象特定地点名称が特定地点を意味すると判定する。一方、判定部18Aは、当該特徴語が判定対象テキストに含まれていない場合には、判定対象テキスト中で判定対象特定地点名称が人名又は一般語を意味すると判定する。
判定部18Aは、判定対象テキストと判定結果とを関連付けた判定結果データを出力する。ここで、判定結果とは、人名・一般語フラグ処理において当該判定対象テキストが特定地点を意味すると判定されたことを示す情報である。判定部18Aにより出力された判定結果データは、データベース等である判定結果記憶部19に記憶される。この判定結果データは、後述する特徴語生成部20Aによる特徴語の生成のために蓄積される。
特徴語生成部20Aは、図4に示すように、判定結果記憶部19に記憶された判定結果データに基づいて特徴語を生成し、生成した特徴語を特徴語記憶部15Aに記憶する特徴語生成手段である。特徴語生成部20Aは、判定結果記憶部19に所定期間内(例えば数時間〜数日)に記憶された判定結果データに基づいて特徴語を生成する。具体的には、特徴語生成部20は、例えば判定結果データに含まれる判定対象テキストから公知の固有表現抽出技術により固有表現を抽出し、抽出した固有表現のうち出現頻度が所定の閾値以上の固有表現(関連語)を特徴語として生成することができる。また、特徴語生成部20Aは、判定結果データに含まれる判定対象テキストに対してtfidf、ダイス係数等を用いることで特徴語を生成してもよい。以下の説明においては、このように判定結果データに基づいて生成された特徴語のことを、静的特徴語と区別して動的特徴語ともいう。
特徴語生成部20Aによって生成された動的特徴語は、予め特徴語記憶部15Aに記憶されている静的特徴語と共に特徴語記憶部15Aに記憶される。特徴語記憶部15Aに記憶される静的特徴語及び動的特徴語は、判定部18Aによる判定においては、特に区別されることなく用いられる。
このように、特徴語生成部20Aが判定結果データに基づいて生成した動的特徴語は、特徴語として特徴語記憶部15Aに記憶されるので、特徴語記憶部15Aに記憶される特徴語は次第に増えていく。これにより、判定部18Aによる判定における特定地点名称の抽出の再現率が高められる。なお、特徴語生成部20が判定結果データから動的特徴語を生成する頻度(周期)、並びに動的特徴語の生成に用いる判定結果データの対象期間及びデータ数等は、例えば管理者等によって任意に設定される。
次に、図6〜図8を用いて、本実施形態に係る特定地点名称判定方法を含む特定地点名称判定装置1Aの動作を説明する。
図6に示すように、テキスト抽出部14により、特定地点情報記憶部13に記憶された特定地点情報が読み取られ、読み取られた特定地点情報がRAM102上にロードされる(ステップS101)。また、テキスト取得部11により、テキスト入力部2から投稿テキストが取得され、取得された投稿テキストがテキスト格納部12に格納される(ステップS102)。続いて、テキスト抽出部14により、テキスト格納部12に記憶されている複数の投稿テキストのうちから、RAM102上にロードされた特定地点情報に関連付けられた特定地点名称を含む判定対象テキストが抽出される(ステップS103、テキスト取得ステップ)。
続いて、判定部18Aにより、特定地点名称判定方法の判定ステップを含む処理(ステップS104〜ステップS107)が実行される。ただし、ステップS107に含まれるステップS304に示す特徴語の生成処理は、特徴語生成部20Aにより実行される。まず、判定対象特定地点名称に対応する同名フラグが立っているか否かが判定される(ステップS104)。同名フラグが立っている場合(ステップS104:YES)には、同名フラグ処理が実行される(ステップS105)。一方、同名フラグが立っていない場合(ステップS104:NO)には、特定地点名称に対応する人名フラグ又は一般語フラグが立っているか否かが判定される(ステップS106)。ここで、人名フラグ又は一般語フラグが立っている場合(ステップS106:YES)には、人名・一般語フラグ処理が実行される(ステップS107)。一方、人名フラグ及び一般語フラグのいずれも立っていない場合(ステップS106:NO)には、判定対象特定地点名称に曖昧性はない(判定対象特定地点名称が示す特定地点が一意に定まる)ので、処理を終了する。
図7は、図6に示す同名フラグ処理のフロー図である。図7に示すように、同名フラグ処理では、まず、判定部18Aが、有名度記憶部17を参照することで、判定対象特定地点名称と同一名称の同名特定地点の有名度を参照する(ステップS201)。続いて、判定部18Aにより、同名特定地点のうち最大の有名度をもつ特定地点(有名特定地点)の有名度が所定の閾値以上であるか否かが判定される(ステップS202)。有名特定地点の有名度が所定の閾値以上である場合(ステップS202:YES)には、特定地点名称は有名特定地点を示すものと判定される(ステップS203)。一方、有名特定地点の有名度が所定の閾値未満である場合(ステップS202:NO)には、上述した同名判定処理が実行される(ステップS204)。
図8は、図6に示す人名・一般語フラグ処理を示すフロー図である。図8に示すように、人名・一般語フラグ処理では、まず、判定対象特定地点名称に関連付けて特徴語記憶部15Aに記憶されている特徴語(静的特徴語)が判定対象テキストに含まれているか否か、すなわち特定地点名称と特徴語との組み合わせが判定対象テキストに含まれているか否かが判定される(ステップS301)。判定対象特定地点名称に対応する特徴語が判定対象テキストに含まれている場合(ステップS301:YES)には、判定部18Aにより、判定対象テキスト中で判定対象特定地点名称が特定地点を意味する(地名・施設名称を指している)と判定される(ステップS302)。この判定結果と判定対象テキストとを関連付けた判定結果データは、判定結果記憶部19に記憶される(ステップS303)。そして、特徴語生成部20Aが、管理者等により予め定められた任意のタイミングで、判定結果記憶部19に記憶された判定結果データに基づいて動的特徴語を生成し、生成した動的特徴語を特徴語記憶部15Aに記憶する(ステップS304)。これにより、次に特定地点名称判定装置1Aを用いた判定処理を実行する際には、ステップS301において、予め管理者等により記憶された静的特徴語と共に、ステップS304で特徴語生成部20Aにより生成された動的特徴語を用いた判定処理が実行されることとなる。
一方、判定対象特定地点名称に対応する特徴語が判定対象テキストに含まれていない場合(ステップS301:NO)には、判定部18Aにより、判定対象テキスト中で判定対象特定地点名称が人名又は一般語を意味すると判定される(ステップS305)。
以上述べた特定地点名称判定装置1Aでは、一連の判定処理が繰り返されることで、特徴語記憶部15Aに記憶される特徴語が増えていく(動的特徴語が追加されていく)ため、判定部18Aによる判定において、判定対象テキスト中で特定地点を意味する特定地点名称を適切に抽出(特定地点を意味すると判定)できる可能性を高めることができる。すなわち、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めることができる。
また、この特定地点名称判定装置1Aでは、判定対象特定地点名称と同一名称の同名特定地点が複数存在する場合(第2のフラグが立っている場合)において、判定部18Aは、有名特定地点の有名度が所定の閾値以上である場合には、上述の同名判定処理を実行することなく、判定対象特定地点名称が有名特定地点を示すものと判定することができる。これにより、判定対象テキスト中に特定地点名称に対応する周辺地名が含まれていない場合であっても、特定地点の有名度に基づいて特定地点名称の抽出を適切に行うことができるため、再現率の向上が図られる。
また、この特定地点名称判定装置1Aでは、有名度算出部16が、周辺地名テキストの数、特徴語テキストの数、及びチェックイン数等に基づいて、同名特定地点毎の有名度を適切に算出することができる。そして、判定部18Aがこのようにして算出された有名度に基づいて特定地点名称の判定を行うことにより、特定地点名称の抽出の精度の向上が図られる。
[第2実施形態]
図9は、本発明の第2実施形態に係る特定地点名称判定装置1Bの機能構成を示すブロック図である。特定地点名称判定装置1Bは、特定地点名称判定装置1Aの特徴語記憶部15A、判定部18A、及び特徴語生成部20Aがそれぞれ、特徴語記憶部15B、判定部18B、及び特徴語生成部20Bに置き換わった点において、特定地点名称判定装置1Aとは異なっている。また、特定地点名称判定装置1Bは、判定モデル記憶部21を備えている点で特定地点名称判定装置1Aとは異なっている。以下、特定地点名称判定装置1Bが特定地点名称判定装置1Aと異なっている点を主に説明する。
特徴語記憶部15Bは、特定地点名称がテキスト中で特定地点を意味しないことを特徴付ける単語である不正解特徴語を特徴語と共に特定地点名称毎に記憶する特徴語記憶手段である。本実施形態では、不正解特徴語は、特定地点名称がテキスト中で特定地点以外の人名又は一般語を意味することを特徴付ける単語である。ここで、不正解特徴語は、特定地点名称がテキスト中で特定地点を意味しない(テキスト中で人名又は一般語を意味する)ものとして用いられている一以上の文章に基づいて予め管理者等により抽出され、特徴語記憶部15Bに記憶されている。不正解特徴語は、特徴語と同様に、例えばtfidf等によって抽出される。特徴語記憶部15Bに記憶される特徴語については、特徴語記憶部15Aに記憶される特徴語と同様であるため説明を省略する。
判定モデル記憶部21は、判定対象テキストを入力して特定地点名称が当該判定対象テキスト中で特定地点を意味するか否かを判定する判定モデルを記憶する判定モデル記憶手段である。判定モデルは、例えば機械学習により生成された学習モデルである。この学習モデルは、例えば予め管理者等により用意される。ここで、機械学習としては、例えばCRF(Conditional Random Fields:条件付き確率場)やSVM(SupportVector Machine)等の手法を用いることができる。また、学習モデルは、例えば、特定地点名称が含まれるテキストを説明変数とし、当該テキスト中で当該特定地点名称が何を意味するか(特定地点、人名、一般語等のうちいずれの意味で用いられているか)を示す情報を目的変数とした教師付データに基づいてCRF及びSVM等の機械学習を行うことで得られる。
ここで、判定モデルは、例えば、特定地点名称が人名を意味するか否かを判定するモデル(人名モデル)、特定地点名称が一般語を意味するか否かを判定するモデル(一般語モデル)といったように、カテゴリ別の判定モデルから構成されていてもよい。
判定部18Bは、判定モデル記憶部21に記憶された判定モデルと、特徴語記憶部15Bに記憶されている特徴語及び不正解特徴語とに基づいて判定対象テキスト中で判定対象特定地点名称が特定地点を意味するか否かを判定する判定手段である。
具体的には、判定部18Bは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味しないと判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味すると判定する。一方、判定部18Bは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味しないと判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない(特定地点以外の人名又は一般語を意味する)と判定する。
また、判定部18Bは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味すると判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている不正解特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味すると判定する。一方、判定部18Bは、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味すると判定した場合において、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている不正解特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない(特定地点以外の人名又は一般語を意味する)と判定する。
判定部18Bは、判定対象テキストと判定結果とを関連付けた判定結果データを出力する。ここで、判定結果とは、判定対象テキストに含まれる特定地点名称が判定部18Bによって特定地点、人名、及び一般語のいずれを意味するものと判定されたかを示す情報である。判定部18Bにより出力された判定結果データは、判定結果記憶部19に記憶される。この判定結果データは、後述する特徴語生成部20Aによる特徴語又は不正解特徴語の生成のために蓄積される。
ここで、判定モデル記憶部21にカテゴリ別の判定モデル(人名モデル、一般語モデル)が記憶されている場合には、判定部18Bは、判定モデルに基づく判定の際に、判定対象特定地点名称に対応する第1のフラグ(人名フラグ、一般語フラグ)に対応する判定モデルを用いて判定を行うことができる。具体的には、人名フラグが立っている場合には、判定部18Bは、人名モデルを用いて判定対象テキストを判定することで、当該判定対象テキスト中で判定対象特定地点名称が人名を意味するか否かを判定することができる。また、一般語フラグが立っている場合には、判定部18Bは、一般語モデルを用いて判定対象テキストを判定することで、当該判定対象テキスト中で判定対象特定地点名称が一般語を意味するか否かを判定することができる。また、人名フラグ及び一般語フラグの両方が立っている場合には、判定部18Bは、人名モデル及び一般語モデルの両方を用いて判定対象テキストを判定することで、当該判定対象テキスト中で判定対象特定地点名称が人名又は一般語を意味するか否かを判定することができる。
特徴語生成部20Bは、判定結果記憶部19に記憶された判定結果データに基づいて特徴語又は不正解特徴語を生成し、生成した特徴語又は不正解特徴語を特徴語記憶部15Bに記憶する特徴語生成手段である。具体的には、特徴語生成部20Bは、判定部18Bによって特定地点を意味するものと判定された特定地点名称を含む判定対象テキストを判定結果データから抽出し、当該判定対象テキストから特徴語を生成する。また、特徴語生成部20Bは、判定部18Bによって人名又は一般語を意味するものと判定された特定地点名称を含む判定対象テキストを判定結果データから抽出し、当該判定対象テキストから不正解特徴語を生成する。特徴語生成部20Bは、例えば公知の固有表現抽出技術により抽出した固有表現(関連語)を特徴語又は不正解特徴語として生成することができる。また、特徴語生成部20Bは、tfidf、ダイス係数などを用いて特徴語又は不正解特徴語を生成してもよい。
特徴語生成部20Bによって生成された特徴語又は不正解特徴語は、予め特徴語記憶部15Bに記憶されている特徴語及び不正解特徴語と共に特徴語記憶部15Bに記憶される。特徴語生成部20Bによって特徴語記憶部15Bに記憶される特徴語又は不正解特徴語と、予め管理者等により特徴語記憶部15Bに記憶されている特徴語及び不正解特徴語とは、判定部18Aによる判定においては、特に区別されることなく用いられる。
次に、図10を用いて、特定地点名称判定装置1Bの動作を説明する。まず、判定部18Bが、判定モデルに基づいて判定対象特定地点名称が判定対象テキスト中で特定地点を意味するか否かを判定する(ステップS401)。ステップS401において判定対象特定地点名称が判定対象テキスト中で特定地点を意味しないと判定された場合(ステップS401:NO)には、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている特徴語が当該判定対象テキストに含まれているか否かが判定される(ステップS402)。一方、ステップS401において判定対象特定地点名称が判定対象テキスト中で特定地点を意味すると判定された場合(ステップS401:YES)には、当該判定対象特定地点名称に関連付けて特徴語記憶部15Bに記憶されている不正解特徴語が当該判定対象テキストに含まれているか否かが判定される(ステップS403)。
ステップS402において判定対象特定地点名称に関連付けられる特徴語が判定対象テキストに含まれていなければ(ステップS402:NO)、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない(特定地点以外の人名又は一般語を指している)と判定される(ステップS405)。一方、ステップS402において判定対象特定地点名称に関連付けられる特徴語が判定対象テキストに含まれていれば(ステップS402:YES)、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味する(地名・施設名称を指している)と判定される(ステップS404)。
ステップS403において判定対象特定地点名称に関連付けられる不正解特徴語が判定対象テキストに含まれていなければ(ステップS403:NO)、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味する(地名・施設名称を指している)と判定される(ステップS404)。一方、ステップS403において判定対象特定地点名称に関連付けられる不正解特徴語が判定対象テキストに含まれていれば(ステップS403:YES)、当該判定対象テキスト中で当該判定対象特定地点名称が特定地点を意味しない(特定地点以外の人名又は一般語を指している)と判定される(ステップS405)。
続いて、ステップS404又はステップS405での判定結果と判定対象テキストとを関連付けた判定結果データが、判定結果記憶部19に記憶される(ステップS406)。そして、特徴語生成部20Bが、管理者等により予め定められた任意のタイミングで、判定結果記憶部19に記憶された判定結果データに基づいて動的特徴語又は不正解特徴語を生成し、生成した動的特徴語又は不正解特徴語を特徴語記憶部15Bに記憶する(ステップS407)。これにより、次に特定地点名称判定装置1Bを用いた判定処理を実行する際には、ステップS402において、予め管理者等により記憶された特徴語と共に、ステップS407で特徴語生成部20Bにより生成された特徴語を用いた判定処理が実行されることとなる。また、ステップS403においては、予め管理者等により記憶された不正解特徴語と共に、ステップS407で特徴語生成部20Bにより生成された不正解特徴語を用いた判定処理が実行されることとなる。
以上述べた特定地点名称判定装置1Bによれば、判定モデルによる判定と、特徴語又は不正解特徴語を用いた判定とを併せて行うことで、テキスト中で特定地点を意味するものとして用いられている特定地点名称の抽出の再現率を高めると共に精度(適合率)を高めることができる。具体的には、判定部18Bは、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味しないと判定された場合であっても、当該特定地点名称が特定地点を意味することを特徴付ける特徴語が含まれていれば、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の再現率が高められる。一方、判定部18Bは、判定モデルによる判定により判定対象テキスト中で特定地点名称が特定地点を意味すると判定された場合には、当該特定地点名称が特定地点を意味しないことを特徴付ける不正解特徴語が含まれていないことをもって、判定対象テキスト中で当該特定地点名称が特定地点を意味すると判定する。このような判定により、特定地点名称の抽出の精度を高めることができる。
次に、図11を用いて、本発明の一実施形態に係る特定地点名称判定プログラムP1について説明する。特定地点名称判定プログラムP1は、コンピュータを特定地点名称判定装置1Aとして機能させるためのプログラムである。
図11は、特定地点名称判定プログラムP1のモジュールを示すブロック図である。図11に示すように、特定地点名称判定プログラムP1は、特定地点情報記憶モジュールP11と、特徴語記憶モジュールP12と、テキスト取得モジュールP13と、テキスト抽出モジュールP14と、判定モジュールP15と、特徴語生成モジュールP16とを備える。上記の特定地点情報記憶モジュールP11、特徴語記憶モジュールP12、テキスト取得モジュールP13、テキスト抽出モジュールP14、判定モジュールP15、及び特徴語生成モジュールP16が実行されることにより実現される機能は、上述した特定地点名称判定装置1Aにおいて対応する特定地点情報記憶部13、特徴語記憶部15A、テキスト取得部11、テキスト抽出部14、判定部18A、及び特徴語生成部20Aの機能と同様である。
このように構成された特定地点名称判定プログラムP1は、例えばCD−ROM及びDVD等の記録媒体に記憶され、特定地点名称判定装置1Aとして用いられるコンピュータにより実行される。具体的には、当該コンピュータは、例えばCD−ROMドライブ及びDVDドライブ等の記録媒体読取部を備えている。記録媒体読取部に記録媒体が挿入されると、当該コンピュータは、記録媒体読取部から記録媒体に格納された特定地点名称判定プログラムP1にアクセス可能となる。そして、特定地点名称判定プログラムP1を当該コンピュータに実行させることによって、当該コンピュータを、特定地点名称判定装置1Aとして動作させることが可能となる。
なお、特定地点名称判定プログラムP1は、搬送波に重畳されたデータ信号としてネットワークを介して提供されるものであってもよい。この場合、特定地点名称判定装置1Aとして用いられるコンピュータは、通信モジュール106によって受信した特定地点名称判定プログラムP1をCPU101又はRAM102に格納することにより、特定地点名称判定プログラムP1を実行することができる。
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲において様々な変形が可能である。
例えば、本実施形態では、特定地点の例として、施設(清水寺)、湖沼(大沼)、山岳(函館山)のPOIを示したが、特定地点は、例えば観光地、繁華街、駅前等の何らかの地点を示すものであれば何でもよい。
また、本実施形態では、特定地点以外を意味するものの例として、人名及び一般語を挙げたが、その他のカテゴリを用いてもよい。例えば、駅名を示すものについては特定地点から除外したい場合には、駅名と同一名称であることを示す駅名フラグを第1のフラグとしてもよい。
また、本実施形態では、フラグの状態に応じた場合分けにより、同名フラグ処理と人名・一般語フラグ処理とのいずれかの処理を実施するものとして説明したが、両方のフラグが立っている場合には、両方の処理を実行して、総合的に判定することとしてもよい。また、本実施形態では、同名フラグ処理を優先させたが、人名・一般語フラグ処理を優先させてもよい。
1A,1B…特定地点名称判定装置、2…テキスト入力部、11…テキスト取得部、12…テキスト格納部、13…特定地点情報記憶部、14…テキスト抽出部、15…特徴語記憶部、16…有名度算出部、17…有名度算出部、18A,18B…判定部、19…判定結果記憶部、20A,20B…特徴語生成部、21…判定モデル記憶部、101…CPU、102…RAM、103…ROM、104…入力装置、105…出力装置、106…通信モジュール、107…補助記憶装置、P1…特定地点名称判定プログラム、P11…特定地点情報記憶モジュール、P12…特徴語記憶モジュール、P13…テキスト取得モジュール、P14…判定モジュール、P15…特徴語生成モジュール。

Claims (8)

  1. 予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が前記特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、
    前記特定地点名称がテキスト中で前記特定地点を意味することを特徴付ける単語である特徴語を前記特定地点毎に記憶する特徴語記憶手段と、
    テキストを取得するテキスト取得手段と、
    前記特定地点情報に関連付けられた特定地点名称を含む判定対象テキストを前記テキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、
    前記判定対象テキストに含まれる特定地点名称に対応する前記第1のフラグが当該特定地点名称が前記特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定する判定手段と、
    前記判定対象テキストと当該判定対象テキストに対する前記判定手段による判定結果とを関連付けた判定結果データに基づいて前記特徴語を生成し、生成した特徴語を前記特徴語記憶手段に記憶する特徴語生成手段と、
    を備える特定地点名称判定装置。
  2. 前記判定対象テキストを入力して前記特定地点名称が当該判定対象テキスト中で前記特定地点を意味するか否かを判定する判定モデルを記憶する判定モデル記憶手段を更に備え、
    前記特徴語記憶手段は、前記特定地点名称がテキスト中で前記特定地点を意味しないことを特徴付ける単語である不正解特徴語を前記特徴語と共に前記特定地点名称毎に記憶し、
    前記判定手段は、前記判定モデルに基づいて前記判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で前記特定地点を意味しないと判定した場合において、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定し、前記判定モデルに基づいて前記判定対象テキストに含まれる特定地点名称が当該判定対象テキスト中で前記特定地点を意味すると判定した場合において、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている不正解特徴語が当該判定対象テキストに含まれていなければ、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定し、
    前記特徴語生成手段は、前記判定結果データに基づいて前記特徴語又は前記不正解特徴語を生成し、生成した特徴語又は不正解特徴語を前記特徴語記憶手段に記憶する、
    請求項1記載の特定地点名称判定装置。
  3. 前記特定地点情報には、当該特定地点情報に関連付けられた特定地点名称と同一名称の特定地点である同名特定地点が複数存在することを示す第2のフラグが関連付けられており、
    前記同名特定地点の各々について、予め算出された有名度を記憶する有名度記憶手段と、を更に備え、
    前記判定手段は、前記判定対象テキストに含まれる特定地点名称に対応する前記第2のフラグが前記同名特定地点が複数存在することを示している場合には、前記有名度記憶手段に記憶されている前記同名特定地点の有名度に基づいて、同名判定処理を実行するか否かを決定し、
    前記同名判定処理は、前記判定対象テキスト中に含まれる前記特定地点名称以外の文字列に基づいて、当該判定対象テキスト中で当該特定地点名称が前記同名特定地点のうちどの特定地点を示すものかを判定する処理である、
    請求項1又は2記載の特定地点名称判定装置。
  4. 前記判定手段は、前記同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値以上の場合に、前記同名判定処理を実施せずに、前記判定対象テキスト中に含まれる特定地点名称が当該最大の有名度をもつ特定地点を示すと判定し、前記同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、前記同名判定処理を実行する、
    請求項3記載の特定地点名称判定装置。
  5. 前記判定手段は、前記同名特定地点のうち最大の有名度をもつ特定地点の有名度が所定の閾値未満の場合に、前記同名特定地点のうち、前記有名度が所定値以下の同名特定地点を除外して前記同名判定処理を実行する、
    請求項4記載の特定地点名称判定装置。
  6. 前記特定地点と当該特定地点に対応する周辺地名との両方が含まれる周辺地名テキストの数、前記特定地点と当該特定地点に対応する前記特徴語との両方が含まれる特徴語テキストの数、及び、移動通信端末のユーザが前記特定地点に滞在した回数を示すチェックイン数のうち少なくとも一つに基づいて前記特定地点の有名度を算出し、算出した有名度を前記有名度記憶手段に記憶する有名度算出手段を更に備える、
    請求項3〜5のいずれか一項記載の特定地点名称判定装置。
  7. 予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が前記特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、
    前記特定地点名称がテキスト中で前記特定地点を意味することを特徴付ける単語である特徴語を前記特定地点毎に記憶する特徴語記憶手段と、
    を備える特定地点名称判定装置により実行される特定地点名称判定方法であって、
    テキストを取得するテキスト取得ステップと、
    前記特定地点情報に関連付けられた特定地点名称を含む判定対象テキストを前記テキスト取得ステップにおいて取得されたテキストのうちから抽出するテキスト抽出ステップと、
    前記判定対象テキストに含まれる特定地点名称に対応する前記第1のフラグが当該特定地点名称が前記特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定する判定ステップと、
    前記判定対象テキストと当該判定対象テキストに対する前記判定ステップにおける判定結果とを関連付けた判定結果データに基づいて前記特徴語を生成し、生成した特徴語を前記特徴語記憶手段に記憶する特徴語生成ステップと、
    を含む特定地点名称判定方法。
  8. コンピュータを、
    予め定められた特定地点の名称を示す特定地点名称と、当該特定地点名称が前記特定地点以外の意味を有することを示す第1のフラグとを関連付けた特定地点情報を記憶する特定地点情報記憶手段と、
    前記特定地点名称がテキスト中で前記特定地点を意味することを特徴付ける単語である特徴語を前記特定地点毎に記憶する特徴語記憶手段と、
    テキストを取得するテキスト取得手段と、
    前記特定地点情報に関連付けられた特定地点名称を含む判定対象テキストを前記テキスト取得手段により取得されたテキストのうちから抽出するテキスト抽出手段と、
    前記判定対象テキストに含まれる特定地点名称に対応する前記第1のフラグが当該特定地点名称が前記特定地点以外の意味を有することを示しており、当該特定地点名称に関連付けて前記特徴語記憶手段に記憶されている特徴語が当該判定対象テキストに含まれていれば、当該判定対象テキスト中で当該特定地点名称が前記特定地点を意味すると判定する判定手段と、
    前記判定対象テキストと当該判定対象テキストに対する前記判定手段による判定結果とを関連付けた判定結果データに基づいて前記特徴語を生成し、生成した特徴語を前記特徴語記憶手段に記憶する特徴語生成手段
    として機能させる特定地点名称判定プログラム。
JP2013117083A 2013-06-03 2013-06-03 特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラム Active JP6060039B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013117083A JP6060039B2 (ja) 2013-06-03 2013-06-03 特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013117083A JP6060039B2 (ja) 2013-06-03 2013-06-03 特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラム

Publications (2)

Publication Number Publication Date
JP2014235597A JP2014235597A (ja) 2014-12-15
JP6060039B2 true JP6060039B2 (ja) 2017-01-11

Family

ID=52138247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013117083A Active JP6060039B2 (ja) 2013-06-03 2013-06-03 特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラム

Country Status (1)

Country Link
JP (1) JP6060039B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6419100B2 (ja) 2016-03-16 2018-11-07 株式会社トヨタマップマスター ナビゲーションシステム、poi提示方法、poi提示プログラム、記録媒体
WO2021241154A1 (ja) * 2020-05-26 2021-12-02 株式会社Nttドコモ Poi人気度導出装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4510792B2 (ja) * 2006-09-29 2010-07-28 日本電信電話株式会社 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体
JP5390840B2 (ja) * 2008-11-27 2014-01-15 株式会社日立製作所 情報分析装置

Also Published As

Publication number Publication date
JP2014235597A (ja) 2014-12-15

Similar Documents

Publication Publication Date Title
US11698261B2 (en) Method, apparatus, computer device and storage medium for determining POI alias
CN104866542B (zh) 一种poi数据验证方法和装置
CN106416313B (zh) 识别与无线网络接入点相关联的实体的方法和系统
WO2017215370A1 (zh) 构建决策模型的方法、装置、计算机设备及存储设备
JP6136702B2 (ja) 場所推定方法、場所推定装置および場所推定プログラム
WO2018177316A1 (zh) 信息识别方法、计算设备及存储介质
CN106033416A (zh) 一种字符串处理方法及装置
CA3078148A1 (en) Search method and apparatus, and non-temporary computer-readable storage medium
KR101390220B1 (ko) 소프트웨어 버그 정정을 위한 적합한 개발자 추천 방법 및 장치
US9753945B2 (en) Systems, methods, and computer-readable media for interpreting geographical search queries
JP2018537760A (ja) アドレス情報に基づいたアカウントマッピングの方法及び装置
US20230194302A1 (en) Method of updating map data, electronic device and storage medium
JP2020071839A (ja) 探索装置、探索方法、探索プログラムおよび記録媒体
JP2018055525A (ja) テキスト抽出装置
US20220128372A1 (en) Method for path planning, electronic device and storage medium
JP6060039B2 (ja) 特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラム
AU2015343949B2 (en) Method of predicting location of rendezvous and electronic device for providing same
US11023465B2 (en) Cross-asset data modeling in multi-asset databases
US20160085798A1 (en) Method and system for storing user information
JP2012252391A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2016162163A (ja) 情報処理装置及び情報処理プログラム
KR101804020B1 (ko) 공간 정보를 사용한 sns 봇 검출 방법
CN111125272B (zh) 一种区域特征获取方法、装置、计算机设备及介质
CN109241208B (zh) 地址定位、地址监测、信息处理方法及装置
JP5824429B2 (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161212

R150 Certificate of patent or registration of utility model

Ref document number: 6060039

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250