JP5637073B2

JP5637073B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP5637073B2
Application number: JP2011122462A
Authority: JP
Inventors: 阿部　修也; 修也阿部; 井形　伸之; 伸之井形; 哲朗 ▲高▼橋
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-05-31
Filing date: 2011-05-31
Publication date: 2014-12-10
Anticipated expiration: 2031-05-31
Also published as: JP2012252391A

Description

本発明は、地名と位置情報との対応情報を生成する情報処理装置、情報処理方法、及びプログラムに関する。

近年、各種のセンサ機器が小型化されて携帯電話等の端末に組み込まれ、多くの人々によってセンサ機器が利用されるようになっている。センサ機器が出力する値は、人間にとって直感的に理解しにくい場合があるため、別の表現に変換して出力する場合がある。例えば、ＧＰＳ（Global Positioning System）によって検出される緯度及び経度を、当該緯度及び経度に位置する土地の地名に変換することで人間が直感的に位置を理解できるようにする方法が考えられる。これを実現するためには、緯度及び経度と地名とが対応付けられた辞書情報を用いる方法がある．この方法では辞書が事前に作成されている必要がある。斯かる辞書情報の生成に、特許文献１に記載された技術を利用することが考えられる。

特開平８−１２９６３５号公報

しかしながら、特許文献１に記載された技術では、地名で区画される領域の定義等に関して、人手による操作が必要とされる。

そこで、地名と位置情報との対応情報を自動的に生成することのできる情報処理装置、情報処理方法、及びプログラムの提供を目的とする。

一態様では、情報処理装置は、第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出する抽出部と、抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する分類部とを有する。

地名と位置情報との対応情報を自動的に生成することができる。

本発明の実施の形態のシステム構成例を示す図である。本発明の実施の形態における投稿データの構成例を示す図である。本発明の実施の形態における辞書生成装置のハードウェア構成例を示す図である。本発明の実施の形態における辞書生成装置の機能構成例を示す図である。辞書生成処理の概要の一例を説明するためのフローチャートである。データ記憶部の構成例を示す図である。地名抽出後の辞書記憶部の構成例を示す図である。地名の抽出処理の処理手順の一例を説明するためのフローチャートである。場所の異同に基づく分類処理の処理手順の一例を説明するためのフローチャートである。クラスタリングの一例の処理概要を説明するための図である。クラスタリング後の辞書記憶部の構成例を示す図である。クラスタの分類後の辞書記憶部の構成例を示す図である。ノイズ除去処理の処理手順の一例を説明するためのフローチャートである。場所ＩＤが共通するレコード群の例を示す図である。緯度の信頼区間の求め方の一例を説明するための図である。除去対象とされるレコードの例を示す図である。信頼区間の算出処理の一例を説明するためのフローチャートである。地名間の境界の判定処理の処理手順の一例を説明するための図である。処理対象のクラスタに属するレコードの例を示す図である。二つの場所の領域の重複部分の有無の判定を説明するための図である。境界の検出処理の処理手順の一例を説明するためのフローチャートである。緯度又は経度に関する二つの確率密度関数の交点の例を示す図である。境界線の一例を説明するための図である。二つの場所ＩＤに係る確率密度関数の交点の算出処理の処理手順の一例を説明するためのフローチャートである。最終的な辞書記憶部の一例を示す図である。

以下、図面に基づいて本発明の実施の形態を説明する。図１は、本発明の実施の形態のシステム構成例を示す図である。

同図において、辞書生成装置１０は、例えば、インターネット等のネットワーク５０を介して、情報管理装置２０と通信可能とされている。また、端末３０ａ〜３０ｃ等の複数の端末３０は、ネットワーク５０を介して情報管理装置２０と通信可能とされている。

各端末３０は、文章等の投稿に利用される情報処理端末である。端末３０は、例えば、携帯電話、スマートフォン、ＰＤＡ（Personal Digital Assistance）、又はノートＰＣ(Personal Computer)等の移動可能な情報処理端末であってもよいし、デスクトップ型ＰＣ（Personal Computer）等の固定型の情報処理端末であってもよい。但し、端末３０の少なくとも一部は、移動可能な情報処理端末であることが好適である。

情報管理装置２０は、各端末３０より発信（又は送信）される文章を含むデータ（以下、「投稿データ」という。）を記憶するコンピュータである。情報処理装置２０は、例えば、ツイッターのようなサービスを提供するコンピュータであってもよい。例えば、情報管理装置２０は、ツイッター（登録商標）のようなサービスを利用して発信された投稿データを記憶する。

図２は、本発明の実施の形態における投稿データの構成例を示す図である。同図には三つの投稿データが例示されている。

本実施の形態において、各投稿データには、投稿内容である文章に加え、当該投稿データが発信されたときの端末３０の地理的な位置情報（例えば、緯度及び経度）が含まれている。当該位置情報は、例えば、端末３０が有するＧＰＳ（Global Positioning System）機能によって検出される。但し、全ての端末３０が、ＧＰＳ機能を有していなくてもよい。すなわち、位置情報を含んでいない投稿データが有ってもよい。

辞書生成装置１０は、情報管理装置２０が記憶する投稿データに基づいて、地名と位置情報とが対応付けられた辞書情報を生成する。すなわち、投稿データに含まれている文章（文字列）には、地名が含まれている場合がある。例えば、「ＸＸＸに着いた」という文章において、「ＸＸＸ」は地名である。本実施の形態では、投稿データが有する斯かる特性を利用して、地名と位置情報とが対応付けられた辞書情報が生成される。生成された辞書情報は、例えば、位置情報から地名への変換等に用いられる。なお、本実施の形態において、「地名」とは、土地の名称のみならず、施設等、特定の場所の名称として用いられる情報をいう。

図３は、本発明の実施の形態における辞書生成装置のハードウェア構成例を示す図である。図３の辞書生成装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、及びインタフェース装置１０５等を有する。

辞書生成装置１０での処理を実現するプログラムは、記録媒体１０１によって提供される。プログラムを記録した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って辞書生成装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

なお、記録媒体１０１の一例としては、ＣＤ−ＲＯＭ、ＤＶＤディスク、又はＵＳＢメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置１０２の一例としては、ＨＤＤ（Hard Disk Drive）又はフラッシュメモリ等が挙げられる。記録媒体１０１及び補助記憶装置１０２のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。

図４は、本発明の実施の形態における辞書生成装置の機能構成例を示す図である。同図において、辞書生成装置１０は、データ取得部１１、地名抽出部１２、分類部１３、ノイズ除去部１４、及び境界判定部１５等を有する。これら各部は、辞書生成装置１０にインストールされたプログラムが、ＣＰＵ１０４に実行させる処理により実現される。辞書生成装置１０は、また、データ記憶部１６及び辞書記憶部１７等を有する。これら各記憶部は、補助記憶装置１０２又はメモリ装置１０３等を用いて実現可能である。

データ取得部１１は、情報管理装置２０より投稿データを取得し、取得された投稿データをデータ記憶部１６に記録する。但し、辞書生成装置１０は、情報管理装置２０を兼ねてもよい。この場合、端末３０より発信された投稿データは、データ取得部１１によって受信され、データ記憶部１６に記録されてもよい。

地名抽出部１２は、投稿データに含まれる文章より地名を示す文字列を抽出する。地名抽出部１２は、抽出された地名と、抽出元の投稿データの位置情報とを対応付けて、辞書記憶部１７に記録する。

分類部１３は、辞書記憶部１７の各レコードを、位置情報に基づいてクラスタリングし、クラスタリングの結果を辞書記憶部１７に反映する。分類部１３は、更に、クラスタリングの結果が反映された辞書記憶部１７のレコードを、場所の異同に基づいて分類（グループ分け）し、分類結果を辞書記憶部１７に反映する。なお、辞書記憶部１７は、地名及び位置情報等を対応付けて記憶する。

ノイズ除去部１４は、辞書記憶部１７に記憶されているレコードの中から、ノイズである可能性の高いレコードを除去する。ノイズの意味については後述される。ノイズとは、位置情報を検出するＧＰＳの誤差や、文章内の地名が必ずしも投稿データの発信時に端末３０が位置する地名であるとは限らないといったこと等に鑑みて、信頼性の低い情報（レコード）をいう。

境界判定部１５は、位置情報によって特定される範囲の一部が相互に重複する地名間の境界を判定する。境界判定部１５は、判定された境界に基づいて、各地名に対応付いている位置情報の中から、各地名の境界外の位置情報を除去する。なお、境界外の位置情報もノイズの一種である。

以下、辞書生成装置１０が実行する処理手順について説明する。図５は、辞書生成処理の概要の一例を説明するためのフローチャートである。

ステップＳ１０において、データ取得部１１は、情報管理装置２０に記憶されている投稿データを取得し、データ記憶部１６に記録する。

図６は、データ記憶部の構成例を示す図である。同図において、データ記憶部１６の一つのレコードは、一つの投稿データに対応する。各レコードは、投稿データに含まれている位置情報（緯度及び経度）と、文章（文字列）とを含む。

続いて、地名抽出部１２は、データ記憶部１６に記録されたレコードに関して、地名抽出処理を実行する（Ｓ２０）。地名抽出処理によって、データ記憶部１６のレコードごとに、文章より地名が抽出され、抽出された地名と、抽出元のレコードの位置情報とが対応付けられて、辞書記憶部１７に記録される。

図７は、地名抽出後の辞書記憶部の構成例を示す図である。同図には、図６に示されているデータ記憶部１６の各レコードの文章より地名が抽出され、抽出された各地名が、当該地名の抽出元のレコードの位置情報と対応付けられている例が示されている。なお、データ記憶部１６には、一つの文章に複数の地名が含まれている場合もある。この場合、辞書記憶部１７では、地名ごとに別個のレコードとされる。例えば、図７の辞書記憶部１７の３番目及び４番目のレコードは、図６のデータ記憶部１６の３番目のレコードの文章に含まれている、「武蔵中原駅」、「ＸＸ家」のそれぞれに対応するものである。

続いて、分類部１３は、辞書記憶部１７の各レコードを、場所の一致又は不一致に基づいて分類する（Ｓ３０）。場所とは、地名、店名、施設名などの場所を示す名称によって識別されるある程度の範囲を有する実在の空間をいう。

より詳しくは、分類部１３は、辞書記憶部１７の各レコードが対応する場所の同定等を行う。各レコードが示す場所の同定は、同じ場所に対応するレコードをグループ化することによって行われる。斯かる処理は、単に、各レコードの地名が一致するか否かを判定することのみでは足りない。例えば、全国チェーンの店舗のように、同じ名称（地名）で、場所が異なる場合もあるからである。したがって、分類部１３は、地名のみではなく、地名に対応付けられている位置情報をも用いて、辞書記憶部１７の各レコードが対応する場所の同定を行う。

なお、辞書記憶部１７の各レコードが、場所の異同に基づいて分類されることにより、同一の場所に係る地名ごとに、当該場所の位置を示す位置情報の集合（すなわち、場所の範囲を示す情報）が対応付けられることになる。

続いて、境界判定部１５は、範囲が重複する地名間の境界を判定する（Ｓ４０）。境界の判定によって、各地名に対応付けられている位置情報の中で、当該地名が示す場所の境界外に含まれる位置情報は、当該地名に対応する位置情報から除去される。

続いて、ステップＳ２０の詳細について説明する。図８は、地名の抽出処理の処理手順の一例を説明するためのフローチャートである。

ステップＳ２１において、地名抽出部１２は、データ記憶部１６（図６）内に未処理のレコードが残っているか否かを判定する。未処理とは、ステップＳ２２及びＳ２３の処理が実行されていないことをいう。

未処理のレコードが残っている場合（Ｓ２１でＹｅｓ）、地名抽出部１２は、データ記憶部１６より未処理のレコード（以下、「対象レコード」という。）を一つ取得し、対象レコードの文章に対して固有表現抽出を行い、当該文章より地名を抽出する（Ｓ２２）。なお、固有表現抽出に関する技術は、公知技術であるため、その詳細については省略する。また、固有表現抽出ではなく、例えば、地名辞書を用いて地名の抽出が実行されてもよい。すなわち、地名辞書に含まれる地名の一覧との文字列の照合に基づいて、当該文章より地名が抽出されてもよい。

続いて、地名抽出部１２は、抽出された各地名を、対象レコードの位置情報と対応付けて、辞書記憶部１７（図７）に記録する（Ｓ２３）。ステップＳ２２及びＳ２３が、データ記憶部１６に記録されている全てのレコードに関して実行されると（Ｓ２１でＮｏ）、図８の処理は終了する。

続いて、図５のステップＳ３０の詳細について説明する。図９は、場所の異同に基づく分類処理の処理手順の一例を説明するためのフローチャートである。

ステップＳ３１において、分類部１３は、辞書記憶部１７が記憶するレコード群を分類対象として、各レコードの位置情報に基づいてクラスタリングを行う。ここでいうクラスタリングとは、データ・クラスタリング又はクラスタ解析等と呼ばれる、データ解析手法の一つをいう。例えば、最短距離法、最長距離法、群平均法、又はウォード法等を用いることができる。また、クラスタ数（分割数）を事前に決定して、ｋ−ｍｅａｎｓ法、ｋ−ｍｅｄｏｉｄｓ法、又はファジィｃ−ｍｅａｎｓ法等が用いられてもよい。

図１０は、クラスタリングの一例の処理概要を説明するための図である。同図において、（Ａ）は、辞書記憶部１７の各レコードを、その位置情報に基づいて、緯度を横軸とし、経度を縦軸とする２次元座標系に配置した例を示す。すなわち、同図において、一つの星印（★）は、辞書記憶部１７の一つのレコードを示す。

（Ｂ）は、クラスタリングの結果を示す。すなわち、（Ｂ）では、位置情報の近似性に基づいて、レコード群が３つのクラスタに分類（分割）された例が示されている。なお、クラスタリングにおいては、分類後の各部分集合は「クラスタ」と呼ばれる。

分類部１３は、クラスタリングの結果を辞書記憶部１７に記録する。

図１１は、クラスタリング後の辞書記憶部の構成例を示す図である。同図において、辞書記憶部１７には、クラスタＩＤの項目（列）が追加されている。

クラスタＩＤは、各クラスタを識別するための識別子である。すなわち、分類部１３は、クラスタリングによって形成されたクラスタごとにクラスタＩＤを割り当てる。分類部１３は、クラスタリングされた辞書記憶部１７の各レコードに対して、当該レコードが属するクラスタのクラスタＩＤを付与した結果を、辞書記憶部１７に反映する。その結果、辞書記憶部１７には、クラスタ別に、位置情報と地名とが対応付けて記憶される。

なお、図１１より明らかなように、同じクラスタに属するレコード（同じクラスタＩＤが付与されたレコード）であっても、地名が異なる場合がある。例えば、クラスタＩＤがＣ１のクラスタ（以下、「クラスタＣ１」といい、他のクラスタに関しても同様の命名規則に従う。）には、地名が「武蔵中原駅」であるレコードと、地名が「ＸＸ家」であるレコードとが含まれている。これは、武蔵中原駅の近辺に「ＸＸ家」という店舗が有るためである。

そこで、分類部１３は、ステップＳ３２以降において、各クラスタを地名に基づいて更に分類（分割）する。すなわち、ステップＳ３２において、分類部１３は、未処理のクラスタが残っているか否かを判定する。未処理のクラスタとは、辞書記憶部１７が記憶するレコードが形成するクラスタの中で、ステップＳ３３及びＳ３４の処理対象とされていないクラスタをいう。すなわち、ステップＳ３３及びＳ３４は、クラスタごと（クラスタＩＤが同一のレコード群ごと）のループ処理である。

未処理のクラスタが残っている場合（Ｓ３２でＹｅｓ）、分類部１３は、未処理の一つのクラスタを処理対象とし、当該クラスタ（以下、「対象クラスタ」という。）に属するレコード群を、地名の一致又は不一致に基づいて分類する（Ｓ３３）。分類部１３は、分類結果を、辞書記憶部１７に記録する。

図１２は、クラスタの分類後の辞書記憶部の構成例を示す図である。同図において、辞書記憶部１には、場所ＩＤの項目（列）が追加されている。

場所ＩＤは、各クラスタを、地名の異同に基づいて分類した結果として形成される各部分集合に対するＩＤである。同図の例では、場所ＩＤの値は、「＜クラスタＩＤ＞＿＜地名＞」の形式を有しているが、位置情報に基づくクラスタが識別可能であり、更に、当該クラスタ内で各地名を識別可能な値であれば、他の形式によって表現されてもよい。

なお、辞書記憶部１７において、場所ＩＤが共通する（一致する）レコード群は、同じ場所に対応するレコード群であるといえる。したがって、当該レコード群の位置情報は、当該レコード群が対応する場所の範囲を示す情報であるといえる。

続いて、ノイズ除去部１４は、対象クラスタに関して、ノイズの除去処理を実行する（Ｓ３４）。ノイズとは、上記したように、ＧＰＳの誤差を含む投稿データや、文章に含まれている地名が示す位置から発信されていない投稿データ等に基づくレコードである。後者の具体例としては、例えば、「もうすぐ武蔵中原駅に着きます」といった文章を含む投稿データから抽出された地名と、位置情報との対応関係は、正しい対応関係であるとはいえない。この場合、当該文章から地名として抽出される「武蔵中原駅」は、当該投稿データを発信した端末３０が位置していた場所とは異なるからである。そこで、ノイズの除去処理では、対象クラスタに属するレコードの中で、ノイズである可能性の高いレコードが辞書記憶部１７より除去される。

ステップＳ３３及びＳ３４が、辞書記憶部１７に記録されている全てのクラスタに関して実行されると（Ｓ３２でＮｏ）、図９の処理は終了する。

続いて、ステップＳ３４の詳細について説明する。図１３は、ノイズ除去処理の処理手順の一例を説明するためのフローチャートである。

ステップＳ３４１において、ノイズ除去部１４は、対象クラスタに属する場所ＩＤの中で、ノイズ除去処理（Ｓ３４２〜Ｓ３４５）の処理対象とされていない場所ＩＤの有無を判定する。

該当する場所ＩＤが有る場合（Ｓ３４１でＹｅｓ）、ノイズ除去部１４は、該当する場所ＩＤの中の一つの場所ＩＤ（以下、「対象場所ＩＤ」という。）を有するレコード群から位置情報の集合を取得する（Ｓ３４２）。すなわち、対象場所ＩＤを有するレコードが複数有る場合、複数の位置情報が取得される。

図１４は、場所ＩＤが共通するレコード群の例を示す図である。同図では、対象クラスタがクラスタＣ１であり、対象場所ＩＤとして「Ｃ１＿武蔵中原駅」を有するレコード群示されている。ステップＳ３４２では、斯かるレコード群より位置情報の集合が取得される。なお、同図では、便宜上、図１２には含まれていないレコードも含まれている。

続いて、ノイズ除去部１４は、取得された位置情報の集合に含まれる緯度の集合に関して信頼区間を算出する（Ｓ３４３）。すなわち、対象場所ＩＤに対応する場所の緯度がどのような数値の範囲であるのかが統計的に求められる。

図１５は、緯度の信頼区間の求め方の一例を説明するための図である。図１５において、（Ａ）は、対象場所ＩＤを有するレコードを、その位置情報に基づいて、緯度を横軸とし、経度を縦軸とする２次元座標系に配置した例を示す。すなわち、同図において、一つの星印（★）は、対象場所ＩＤを有するレコードを示す。

（Ｂ）は、（Ａ）における緯度の分布をｔ分布と仮定した場合の確率密度関数から信頼区間を求めた例を示す。

続いて、ノイズ除去部１４は、取得された位置情報の集合に含まれる経度の集合に関して信頼区間を算出する（Ｓ３４４）。経度の信頼区間は、緯度が経度に置き換わったことを除いて、緯度の信頼区間と同様に求められる。

続いて、ノイズ除去部１４は、対象場所ＩＤを有するレコードのうち、緯度又は経度が、緯度の信頼区間又は経度の信頼区間に含まれない位置情報を含むレコードを、辞書記憶部１７より除去（削除）する（Ｓ３４５）。例えば、緯度の信頼区間が、「３５．５８０〜３５．５８１」であり、経度の信頼区間が「１３９．６４１〜１３９．６４２」である場合、図１４に示されるレコード群の中から、図１６に示されるレコードが除去される。

図１６は、除去対象とされるレコードの例を示す図である。同図において、一番目のレコードは、経度が信頼区間に含まれていない。また、二番目のレコードは、緯度及び経度の双方が信頼区間に含まれていない。したがって、これらのレコードは、ノイズであるとして除去される。

続いて、ステップＳ３４３及びＳ３４４における、信頼区間の算出処理の詳細を説明する。

図１７は、信頼区間の算出処理の一例を説明するためのフローチャートである。

ステップＳ３５１において、ノイズ除去部１４は、サンプル数とｔ分布表とから有意水準０．１のｔの値を求める。サンプル数とは、緯度又は経度の集合の要素数である。なお、有意水準は、０．１以外の値が用いられてもよい。

続いて、ノイズ除去部１４は、緯度又は経度の分布をｔ分布と仮定して、以下の式（１）を利用して、緯度又は経度の信頼区間を算出する。

なお、本実施の形態では、緯度又は経度の分布をｔ分布と仮定して信頼区間を求める例を説明したが、例えば、ガンマ分布と仮定して信頼区間が求められてもよい。また、他の方法によって信頼区間が求められてもよい。

続いて、図５のステップＳ４０の詳細について説明する。図１８は、地名間の境界の判定処理の処理手順の一例を説明するための図である。

ステップＳ４１において、境界判定部１５は、辞書記憶部１７が記憶するクラスタの中で、未処理のクラスタの有無を判定する。未処理とは、ステップＳ４２以降の処理が実行されていないことをいう。

未処理のクラスタが有る場合（Ｓ４１でＹｅｓ）、境界判定部１５は、未処理のクラスタのうちの一つを処理対象として選択する（Ｓ４２）。以下、選択されたクラスタを、「対象クラスタ」という。ステップＳ４３以降では、対象クラスタに属するレコードが処理対象とされる。

図１９は、処理対象のクラスタに属するレコードの例を示す図である。同図では、クラスタＣ１が選択された例が示されている。したがって、クラスタＣ１に属するレコードが処理対象とされる。なお、同図には、便宜上、図１２に含まれていないレコードも含まれている。

続いて、境界判定部１５は、対象クラスタ中の二つの場所ＩＤの組み合わせの中で、ステップＳ４４以降が未処理の組み合わせの有無を判定する（Ｓ４３）。図１９に示されるクラスタには、「Ｃ１＿武蔵中原駅」、「Ｃ１＿ＸＸ家」、及び「Ｃ１＿○○○軒」の三つの場所ＩＤが属している。したがって、二つの場所ＩＤの組み合わせとしては、「Ｃ１＿武蔵中原駅」と「Ｃ１＿ＸＸ家」、「Ｃ１＿武蔵中原駅」と「Ｃ１＿○○○軒」、「Ｃ１＿ＸＸ家」、と「Ｃ１＿○○○軒」との３通りがある。ステップＳ４４以降は、このような組み合わせごとのループ処理である。なお、二つの場所ＩＤの組み合わせごとではなく、二つの地名の組み合わせごとであってもよい。一つのクラスタ内において、場所ＩＤと地名との単位は一致するからである。

ステップＳ４４以降が未処理の組み合わせが有る場合（Ｓ４３でＹｅｓ）、境界判定部１５は、未処理の組み合わせのうちの一つを処理対象として選択する（Ｓ４４）。続いて、境界判定部１５は、選択された組み合わせに含まれる二つの場所ＩＤのそれぞれの場所の範囲を特定する（Ｓ４５）。

具体的には、二つの場所ＩＤのそれぞれについて、対象クラスタ内において、当該場所ＩＤを有する全てのレコードの緯度の最大値及び最小値と、経度の最大値及び最小値とが特定される。そして、最小の緯度及び最小の経度によって特定される一点と、最大の緯度及び最大の経度によって特定される一点とを対角の頂点とする矩形範囲が当該場所ＩＤに係る場所の範囲とされる。

続いて、境界判定部１５は、二つの場所ＩＤのそれぞれについて特定された範囲を比較して、二つの場所ＩＤのそれぞれに係る場所に重複部分は有るか否かを判定する（Ｓ４６）。

図２０は、二つの場所の重複部分の有無の判定を説明するための図である。同図には、「Ｃ１＿武蔵中原駅」の場所を示す矩形範囲と、「Ｃ１＿ＸＸ家」の場所を示す矩形範囲とが示されている。これら、二つの場所は相互に重複していることが分かる。

二つの場所に重複部分が有る場合（Ｓ４６でＹｅｓ）、境界判定部１５は、重複部分の面積は、いずれか一方の場所の面積の７０％以上であるか否かを判定する（Ｓ４７）。当該判定は、二つの場所が包含関係にある可能性の有無の判定に相当する。なお、７０％は例示であり、他の値が包含関係の閾値として用いられてもよい。１００％を閾値としていないは、二つの場所が、実際には包含関係に有る場合であっても、投稿データに基づく判定では、一方の場所が他方の場所に完全に含まれない可能性もあるからである。

二つの場所が包含関係に無いと判定された場合（Ｓ４７でＮｏ）、境界判定部１５は、二つの場所の境界の検出処理を実行する（Ｓ４８）。

一方、二つの場所に重複部分は無い場合（Ｓ４６でＮｏ）、又は重複部分はあっても二つの場所が包含関係に有ると判定される場合（Ｓ４７でＹｅｓ）、境界の検出処理は行われない。この場合は、二つの場所は隣接しない（境界を形成しない）と考えられるからである。

続いて、ステップＳ４８の詳細について説明する。図２１は、境界の検出処理の処理手順の一例を説明するためのフローチャートである。

ステップＳ４８１において、境界判定部１５は、境界の検出処理の対象とされている二つの場所ＩＤのそれぞれの緯度の集合の確率密度関数の交点を算出する。例えば、二つの場所ＩＤが、「Ｃ１＿武蔵中原駅」と「Ｃ１＿ＸＸ家」とであるとする。この場合、図１９のレコード群の中で、「Ｃ１＿武蔵中原駅」を場所ＩＤとする全てのレコードに登録されている緯度の集合の確率密度関数が生成される。同様に、図１９のレコード群の中で、「Ｃ１＿ＸＸ家駅」を場所ＩＤとする全てのレコードに登録されている緯度の集合の確率密度関数が生成される。そして、二つの確率密度関数の交点の有無が判定され、交点が有る場合は、当該交点における緯度の値が特定される。

続いて、境界判定部１５は、境界の検出処理の対象とされている二つの場所ＩＤのそれぞれの経度の集合の確率密度関数の交点を算出する（Ｓ４８２）。当該処理は、ステップＳ４８１における「緯度」を「経度」に置き換えたものである。

続いて、境界判定部１５は、ステップＳ４８１において算出された緯度の交点の数、又はステップＳ４８２において算出された経度の交点の数が２以上であるか否かを判定する（Ｓ４８３）。このことは、境界の検出処理の対象とされている二つの場所ＩＤに係る二つの領域が境界を有さないか有するかの判定に相当する。この点に関して、図２２を用いて説明する。

図２２は、緯度又は経度に関する二つの確率密度関数の交点の例を示す図である。同図において、（Ａ）は、二つの確率密度関数の交点が二つである場合を示す。この場合、緯度又は経度方向において、一方の場所ＩＤに係る領域が他方の場所ＩＤに係る領域に包含されている可能性が高い。したがって、二つの場所ＩＤに係る二つの領域は、境界を有さない可能性が高い。

一方、（Ｂ）は、二つの確率密度関数の交点が一つである場合を示す。この場合、二つの場所ＩＤに係るそれぞれの領域は相互に隣接し、境界を有する可能性が高い。

このように、二つの確率密度関数の交点が一つである場合に、二つの地域分類ＩＤに係る二つの領域は境界を有する可能性が高いといえる。ステップＳ４８３では、斯かる考えに基づく判定処理である。

緯度の交点の数又は経度の交点の数が２以上であるとはいえない場合（Ｓ４８３でＮｏ）、境界判定部１５は、緯度の交点又は経度の交点を二つの場所ＩＤに係る二つの領域の境界とする（Ｓ４８４）。より詳しくは、緯度の交点が有る場合は、緯度の交点を通り、緯線の方向に対して垂直な線が境界線とされる。また、経度の交点が有る場合は、当該交点を通り、緯線の方向に対して垂直な線が境界線とされる。したがって、緯度又は経度のいずれかい一方に関してのみ交点が有る場合は、境界線は一つである。一方、緯度及び経度の双方に関して交点が有る場合は、境界線は二つである。

図２３は、境界線の一例を説明するための図である。同図において、ｐ１は、Ｃ１＿武蔵中原駅の緯度の集合に関する確率密度関数と、Ｃ１＿ＸＸ家の緯度の集合に関する確率密度関数との交点の緯度である。ｐ２は、Ｃ１＿武蔵中原駅の経度の集合に関する確率密度関数と、Ｃ１＿ＸＸ家の経度の集合に関する確率密度関数との交点の経度である。この場合、ｐ１を通り、緯線に垂直な線Ｌ１が、一つ目の境界線とされる。また、ｐ２を通り経線に垂直な線Ｌ２が、二つ目の境界線とされる。

続いて、境界判定部１５は、二つの場所ＩＤのそれぞれに係るレコード群のうち、境界外の位置情報を有するレコードを辞書記憶部１７より除去（削除）する（Ｓ４８５）。例えば、図２３において、ｐ１の値が「３５．５８２５」であり、ｐ２の値が「１３９．６４０５」である場合、図１９に示されるレコード群の中で、２番目のレコードが「Ｃ１＿武蔵中原駅」の境界外であるとして除去される。また、３番目のレコードが「Ｃ１＿ＸＸ家」の境界外であるとして除去される。

各場所ＩＤにとって、いずれの方向が「境界外」であるかは、例えば、境界を堺にしていずれの方向に含まれるレコード数が多いかに基づいて判定される。具体的には、図２３において、境界線Ｌ１のいずれの方向が（図中では左右方向のいずれの方向が）Ｃ１＿武蔵中原駅に関して境界外であるかは、次のように判定される。すなわち、Ｃ１＿武蔵中原駅に係るレコード群の中で、緯度がｐ１以下である位置情報を有するレコードの数が、緯度がｐ１以上である位置情報を有するレコードの数より多ければ、緯度がｐ１以上である方向が境界外であると判定される。したがって、Ｃ１＿武蔵中原駅に関して、緯度がｐ１以上である位置情報を有するレコードが、辞書記憶部１７（図１２）より除去される。経度に関する境界線についても同様に境界外が判定される。

なお、他方の場所ＩＤ（図２３では、「Ｃ１＿ＸＸ家」）に関しても、同様の処理によって境界外の方向が判定されてもよいし、一方の場所ＩＤ（図２３では、「Ｃ１＿武蔵中原駅」）に関する境界外の方向の判定結果を利用して、境界外の方向が判定されてもよい。すなわち、Ｃ１＿武蔵中原駅の境界外と反対の方向が、Ｃ１＿ＸＸ家の境界外の方向と判定されてもよい。

各場所ＩＤについて、境界外のレコードが除去された後に辞書記憶部１７に記憶されているレコード群が、地名と位置情報との辞書情報として用いられる。各場所ＩＤについて境界外のレコードが除去されることにより、各場所ＩＤに係る場所を示す位置情報群（すなわち、範囲）の精度を向上させることができる。例えば、Ｃ１＿ＸＸ家に係るレコード群の位置情報群は、ＸＸ家の店内の位置を示す位置情報である可能性を高めることができる。

なお、境界判定処理は、各場所ＩＤに係る領域の厳密な又は正確な境界を判定することを目的とするものではない。境界判定処理は、各場所ＩＤに関して、統計的にノイズである可能性の高い位置情報を除去することを目的とするものである。したがって、境界判定処理によって判定される境界は、必ずしも実際の境界と一致していなくてもよい。

続いて、ステップＳ４８１又はＳ４８２の詳細について説明する。図２４は、二つの場所ＩＤに係る確率密度関数の交点の算出処理の処理手順の一例を説明するためのフローチャートである。

ステップＳ４９１において、境界判定部１５は、二つの場所ＩＤに関するそれぞれの緯度の集合又は経度の集合に関して、以下の式（２）を用いて確率密度関数を生成する。その結果、二つの場所ＩＤに関する二つの確率密度関数が生成される。

続いて、境界判定部１５は、生成された二つ確率密度関数のそれぞれのｘの値を最小値から最大値に変化させて、二つの確率密度関数が交わるときのｘの値を求める（Ｓ４９２）。求められたｘの値が、緯度に関する二つの確率密度関数の交点の緯度、又は経度に関する二つの確率密度関数の交点の経度である。

なお、本実施の形態の成果物としての辞書記憶部１７の利用時においては、図２５に示されるように、クラスタＩＤ及び場所ＩＤの列は辞書記憶部１７より除去されてもよい。

図２５は、最終的な辞書記憶部の一例を示す図である。但し、同じ地名であっても、異なる場所の地名を区別したい場合、クラスタＩＤ又は場所ＩＤを残しておくと便利である。なお、同図では、例えば、「武蔵中原駅」や「武蔵新城駅」に対して、それぞれ一つの位置情報のみが対応しているが、これは便宜的なものである。すなわち、「武蔵中原駅」や「武蔵新城駅」に対して、複数の位置情報が対応付けられうる。要するに、一つの地名に対して複数の位置情報が対応付けられうる。

上述したように、本実施の形態によれば、複数の端末３０より発信された投稿データに基づいて、自動的に地名と位置情報との対応情報を生成することができる。また、ノイズ除去処理や、境界判定処理によって、ＧＰＳの誤差、文章に含まれる地名と端末３０の位置との不一致等のノイズ情報を適切に辞書情報から除去することができる。

なお、本実施の形態において、辞書生成装置１０は、情報処理装置の一例である。情報管理装置２０又はデータ記憶部１６は、第一の記憶部の一例である。地名抽出部１２は、抽出部の一例である。辞書記憶部１７は、第二の記憶部の一例である。ノイズ除去部１４は、第一の除去部の一例である。境界判定部１５は、第二の除去部の一例である。

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

以上の説明に関し、更に以下の項を開示する。
（付記１）
第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出する抽出部と、
抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する分類部とを有する情報処理装置。
（付記２）
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合ごとに、前記位置情報の信頼区間を算出し、該位置情報が該信頼区間に含まれない前記対応情報を前記第二の記憶部より除去する第一の除去部を有する付記１記載の情報処理装置。
（付記３）
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合のうち、当該集合に係る前記位置情報に基づいて特定される範囲が、他の前記集合に係る前記位置情報に基づいて特定される範囲と重複する集合について、当該集合に係る前記位置情報と前記他の集合に係る前記位置情報とに基づいて、当該集合に係る前記範囲と前記他の集合に係る前記範囲との境界を求め、前記位置情報が該境界外に含まれる前記対応情報を前記第二の記憶部より除去する第二の除去部を有する付記１又は２記載の情報処理装置。
（付記４）
第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出し、
抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する処理をコンピュータが実行する情報処理方法。
（付記５）
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合ごとに、前記位置情報の信頼区間を算出し、該位置情報が該信頼区間に含まれない前記対応情報を前記第二の記憶部より除去する処理を前記コンピュータが実行する付記４記載の情報処理方法。
（付記６）
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合のうち、当該集合に係る前記位置情報に基づいて特定される範囲が、他の前記集合に係る前記位置情報に基づいて特定される範囲と重複する集合について、当該集合に係る前記位置情報と前記他の集合に係る前記位置情報とに基づいて、当該集合に係る前記範囲と前記他の集合に係る前記範囲との境界を求め、前記位置情報が該境界外に含まれる前記対応情報を前記第二の記憶部より除去する処理を前記コンピュータが実行する付記４又は５記載の情報処理方法。
（付記７）
第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出し、
抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する処理をコンピュータに実行させるプログラム。
（付記８）
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合ごとに、前記位置情報の信頼区間を算出し、該位置情報が該信頼区間に含まれない前記対応情報を前記第二の記憶部より除去する処理を前記コンピュータに実行させる付記７記載のプログラム。
（付記９）
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合のうち、当該集合に係る前記位置情報に基づいて特定される範囲が、他の前記集合に係る前記位置情報に基づいて特定される範囲と重複する集合について、当該集合に係る前記位置情報と前記他の集合に係る前記位置情報とに基づいて、当該集合に係る前記範囲と前記他の集合に係る前記範囲との境界を求め、前記位置情報が該境界外に含まれる前記対応情報を前記第二の記憶部より除去する処理を前記コンピュータに実行させる付記７又は８記載のプログラム。

１０辞書生成装置
１１データ取得部
１２地名抽出部
１３分類部
１４ノイズ除去部
１５境界判定部
１６データ記憶部
１７辞書記憶部
２０情報管理装置
３０端末
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
Ｂバス

Claims

第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出する抽出部と、
抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する分類部とを有する情報処理装置。
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合ごとに、前記位置情報の信頼区間を算出し、該位置情報が該信頼区間に含まれない前記対応情報を前記第二の記憶部より除去する第一の除去部を有する請求項１記載の情報処理装置。
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合のうち、当該集合に係る前記位置情報に基づいて特定される範囲が、他の前記集合に係る前記位置情報に基づいて特定される範囲と重複する集合について、当該集合に係る前記位置情報と前記他の集合に係る前記位置情報とに基づいて、当該集合に係る前記範囲と前記他の集合に係る前記範囲との境界を求め、前記位置情報が該境界外に含まれる前記対応情報を前記第二の記憶部より除去する第二の除去部を有する請求項１又は２記載の情報処理装置。
第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出し、
抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する処理をコンピュータが実行する情報処理方法。
第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出し、
抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する処理をコンピュータに実行させるプログラム。