JP5637073B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP5637073B2
JP5637073B2 JP2011122462A JP2011122462A JP5637073B2 JP 5637073 B2 JP5637073 B2 JP 5637073B2 JP 2011122462 A JP2011122462 A JP 2011122462A JP 2011122462 A JP2011122462 A JP 2011122462A JP 5637073 B2 JP5637073 B2 JP 5637073B2
Authority
JP
Japan
Prior art keywords
storage unit
place
position information
place name
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011122462A
Other languages
English (en)
Other versions
JP2012252391A (ja
Inventor
阿部 修也
修也 阿部
井形 伸之
伸之 井形
哲朗 ▲高▼橋
哲朗 ▲高▼橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011122462A priority Critical patent/JP5637073B2/ja
Publication of JP2012252391A publication Critical patent/JP2012252391A/ja
Application granted granted Critical
Publication of JP5637073B2 publication Critical patent/JP5637073B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Navigation (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、地名と位置情報との対応情報を生成する情報処理装置、情報処理方法、及びプログラムに関する。
近年、各種のセンサ機器が小型化されて携帯電話等の端末に組み込まれ、多くの人々によってセンサ機器が利用されるようになっている。センサ機器が出力する値は、人間にとって直感的に理解しにくい場合があるため、別の表現に変換して出力する場合がある。例えば、GPS(Global Positioning System)によって検出される緯度及び経度を、当該緯度及び経度に位置する土地の地名に変換することで人間が直感的に位置を理解できるようにする方法が考えられる。これを実現するためには、緯度及び経度と地名とが対応付けられた辞書情報を用いる方法がある.この方法では辞書が事前に作成されている必要がある。斯かる辞書情報の生成に、特許文献1に記載された技術を利用することが考えられる。
特開平8−129635号公報
しかしながら、特許文献1に記載された技術では、地名で区画される領域の定義等に関して、人手による操作が必要とされる。
そこで、地名と位置情報との対応情報を自動的に生成することのできる情報処理装置、情報処理方法、及びプログラムの提供を目的とする。
一態様では、情報処理装置は、第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出する抽出部と、抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する分類部とを有する。
地名と位置情報との対応情報を自動的に生成することができる。
本発明の実施の形態のシステム構成例を示す図である。 本発明の実施の形態における投稿データの構成例を示す図である。 本発明の実施の形態における辞書生成装置のハードウェア構成例を示す図である。 本発明の実施の形態における辞書生成装置の機能構成例を示す図である。 辞書生成処理の概要の一例を説明するためのフローチャートである。 データ記憶部の構成例を示す図である。 地名抽出後の辞書記憶部の構成例を示す図である。 地名の抽出処理の処理手順の一例を説明するためのフローチャートである。 場所の異同に基づく分類処理の処理手順の一例を説明するためのフローチャートである。 クラスタリングの一例の処理概要を説明するための図である。 クラスタリング後の辞書記憶部の構成例を示す図である。 クラスタの分類後の辞書記憶部の構成例を示す図である。 ノイズ除去処理の処理手順の一例を説明するためのフローチャートである。 場所IDが共通するレコード群の例を示す図である。 緯度の信頼区間の求め方の一例を説明するための図である。 除去対象とされるレコードの例を示す図である。 信頼区間の算出処理の一例を説明するためのフローチャートである。 地名間の境界の判定処理の処理手順の一例を説明するための図である。 処理対象のクラスタに属するレコードの例を示す図である。 二つの場所の領域の重複部分の有無の判定を説明するための図である。 境界の検出処理の処理手順の一例を説明するためのフローチャートである。 緯度又は経度に関する二つの確率密度関数の交点の例を示す図である。 境界線の一例を説明するための図である。 二つの場所IDに係る確率密度関数の交点の算出処理の処理手順の一例を説明するためのフローチャートである。 最終的な辞書記憶部の一例を示す図である。
以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態のシステム構成例を示す図である。
同図において、辞書生成装置10は、例えば、インターネット等のネットワーク50を介して、情報管理装置20と通信可能とされている。また、端末30a〜30c等の複数の端末30は、ネットワーク50を介して情報管理装置20と通信可能とされている。
各端末30は、文章等の投稿に利用される情報処理端末である。端末30は、例えば、携帯電話、スマートフォン、PDA(Personal Digital Assistance)、又はノートPC(Personal Computer)等の移動可能な情報処理端末であってもよいし、デスクトップ型PC(Personal Computer)等の固定型の情報処理端末であってもよい。但し、端末30の少なくとも一部は、移動可能な情報処理端末であることが好適である。
情報管理装置20は、各端末30より発信(又は送信)される文章を含むデータ(以下、「投稿データ」という。)を記憶するコンピュータである。情報処理装置20は、例えば、ツイッターのようなサービスを提供するコンピュータであってもよい。例えば、情報管理装置20は、ツイッター(登録商標)のようなサービスを利用して発信された投稿データを記憶する。
図2は、本発明の実施の形態における投稿データの構成例を示す図である。同図には三つの投稿データが例示されている。
本実施の形態において、各投稿データには、投稿内容である文章に加え、当該投稿データが発信されたときの端末30の地理的な位置情報(例えば、緯度及び経度)が含まれている。当該位置情報は、例えば、端末30が有するGPS(Global Positioning System)機能によって検出される。但し、全ての端末30が、GPS機能を有していなくてもよい。すなわち、位置情報を含んでいない投稿データが有ってもよい。
辞書生成装置10は、情報管理装置20が記憶する投稿データに基づいて、地名と位置情報とが対応付けられた辞書情報を生成する。すなわち、投稿データに含まれている文章(文字列)には、地名が含まれている場合がある。例えば、「XXXに着いた」という文章において、「XXX」は地名である。本実施の形態では、投稿データが有する斯かる特性を利用して、地名と位置情報とが対応付けられた辞書情報が生成される。生成された辞書情報は、例えば、位置情報から地名への変換等に用いられる。なお、本実施の形態において、「地名」とは、土地の名称のみならず、施設等、特定の場所の名称として用いられる情報をいう。
図3は、本発明の実施の形態における辞書生成装置のハードウェア構成例を示す図である。図3の辞書生成装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
辞書生成装置10での処理を実現するプログラムは、記録媒体101によって提供される。プログラムを記録した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って辞書生成装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
なお、記録媒体101の一例としては、CD−ROM、DVDディスク、又はUSBメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置102の一例としては、HDD(Hard Disk Drive)又はフラッシュメモリ等が挙げられる。記録媒体101及び補助記憶装置102のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。
図4は、本発明の実施の形態における辞書生成装置の機能構成例を示す図である。同図において、辞書生成装置10は、データ取得部11、地名抽出部12、分類部13、ノイズ除去部14、及び境界判定部15等を有する。これら各部は、辞書生成装置10にインストールされたプログラムが、CPU104に実行させる処理により実現される。辞書生成装置10は、また、データ記憶部16及び辞書記憶部17等を有する。これら各記憶部は、補助記憶装置102又はメモリ装置103等を用いて実現可能である。
データ取得部11は、情報管理装置20より投稿データを取得し、取得された投稿データをデータ記憶部16に記録する。但し、辞書生成装置10は、情報管理装置20を兼ねてもよい。この場合、端末30より発信された投稿データは、データ取得部11によって受信され、データ記憶部16に記録されてもよい。
地名抽出部12は、投稿データに含まれる文章より地名を示す文字列を抽出する。地名抽出部12は、抽出された地名と、抽出元の投稿データの位置情報とを対応付けて、辞書記憶部17に記録する。
分類部13は、辞書記憶部17の各レコードを、位置情報に基づいてクラスタリングし、クラスタリングの結果を辞書記憶部17に反映する。分類部13は、更に、クラスタリングの結果が反映された辞書記憶部17のレコードを、場所の異同に基づいて分類(グループ分け)し、分類結果を辞書記憶部17に反映する。なお、辞書記憶部17は、地名及び位置情報等を対応付けて記憶する。
ノイズ除去部14は、辞書記憶部17に記憶されているレコードの中から、ノイズである可能性の高いレコードを除去する。ノイズの意味については後述される。ノイズとは、位置情報を検出するGPSの誤差や、文章内の地名が必ずしも投稿データの発信時に端末30が位置する地名であるとは限らないといったこと等に鑑みて、信頼性の低い情報(レコード)をいう。
境界判定部15は、位置情報によって特定される範囲の一部が相互に重複する地名間の境界を判定する。境界判定部15は、判定された境界に基づいて、各地名に対応付いている位置情報の中から、各地名の境界外の位置情報を除去する。なお、境界外の位置情報もノイズの一種である。
以下、辞書生成装置10が実行する処理手順について説明する。図5は、辞書生成処理の概要の一例を説明するためのフローチャートである。
ステップS10において、データ取得部11は、情報管理装置20に記憶されている投稿データを取得し、データ記憶部16に記録する。
図6は、データ記憶部の構成例を示す図である。同図において、データ記憶部16の一つのレコードは、一つの投稿データに対応する。各レコードは、投稿データに含まれている位置情報(緯度及び経度)と、文章(文字列)とを含む。
続いて、地名抽出部12は、データ記憶部16に記録されたレコードに関して、地名抽出処理を実行する(S20)。地名抽出処理によって、データ記憶部16のレコードごとに、文章より地名が抽出され、抽出された地名と、抽出元のレコードの位置情報とが対応付けられて、辞書記憶部17に記録される。
図7は、地名抽出後の辞書記憶部の構成例を示す図である。同図には、図6に示されているデータ記憶部16の各レコードの文章より地名が抽出され、抽出された各地名が、当該地名の抽出元のレコードの位置情報と対応付けられている例が示されている。なお、データ記憶部16には、一つの文章に複数の地名が含まれている場合もある。この場合、辞書記憶部17では、地名ごとに別個のレコードとされる。例えば、図7の辞書記憶部17の3番目及び4番目のレコードは、図6のデータ記憶部16の3番目のレコードの文章に含まれている、「武蔵中原駅」、「XX家」のそれぞれに対応するものである。
続いて、分類部13は、辞書記憶部17の各レコードを、場所の一致又は不一致に基づいて分類する(S30)。場所とは、地名、店名、施設名などの場所を示す名称によって識別されるある程度の範囲を有する実在の空間をいう。
より詳しくは、分類部13は、辞書記憶部17の各レコードが対応する場所の同定等を行う。各レコードが示す場所の同定は、同じ場所に対応するレコードをグループ化することによって行われる。斯かる処理は、単に、各レコードの地名が一致するか否かを判定することのみでは足りない。例えば、全国チェーンの店舗のように、同じ名称(地名)で、場所が異なる場合もあるからである。したがって、分類部13は、地名のみではなく、地名に対応付けられている位置情報をも用いて、辞書記憶部17の各レコードが対応する場所の同定を行う。
なお、辞書記憶部17の各レコードが、場所の異同に基づいて分類されることにより、同一の場所に係る地名ごとに、当該場所の位置を示す位置情報の集合(すなわち、場所の範囲を示す情報)が対応付けられることになる。
続いて、境界判定部15は、範囲が重複する地名間の境界を判定する(S40)。境界の判定によって、各地名に対応付けられている位置情報の中で、当該地名が示す場所の境界外に含まれる位置情報は、当該地名に対応する位置情報から除去される。
続いて、ステップS20の詳細について説明する。図8は、地名の抽出処理の処理手順の一例を説明するためのフローチャートである。
ステップS21において、地名抽出部12は、データ記憶部16(図6)内に未処理のレコードが残っているか否かを判定する。未処理とは、ステップS22及びS23の処理が実行されていないことをいう。
未処理のレコードが残っている場合(S21でYes)、地名抽出部12は、データ記憶部16より未処理のレコード(以下、「対象レコード」という。)を一つ取得し、対象レコードの文章に対して固有表現抽出を行い、当該文章より地名を抽出する(S22)。なお、固有表現抽出に関する技術は、公知技術であるため、その詳細については省略する。また、固有表現抽出ではなく、例えば、地名辞書を用いて地名の抽出が実行されてもよい。すなわち、地名辞書に含まれる地名の一覧との文字列の照合に基づいて、当該文章より地名が抽出されてもよい。
続いて、地名抽出部12は、抽出された各地名を、対象レコードの位置情報と対応付けて、辞書記憶部17(図7)に記録する(S23)。ステップS22及びS23が、データ記憶部16に記録されている全てのレコードに関して実行されると(S21でNo)、図8の処理は終了する。
続いて、図5のステップS30の詳細について説明する。図9は、場所の異同に基づく分類処理の処理手順の一例を説明するためのフローチャートである。
ステップS31において、分類部13は、辞書記憶部17が記憶するレコード群を分類対象として、各レコードの位置情報に基づいてクラスタリングを行う。ここでいうクラスタリングとは、データ・クラスタリング又はクラスタ解析等と呼ばれる、データ解析手法の一つをいう。例えば、最短距離法、最長距離法、群平均法、又はウォード法等を用いることができる。また、クラスタ数(分割数)を事前に決定して、k−means法、k−medoids法、又はファジィc−means法等が用いられてもよい。
図10は、クラスタリングの一例の処理概要を説明するための図である。同図において、(A)は、辞書記憶部17の各レコードを、その位置情報に基づいて、緯度を横軸とし、経度を縦軸とする2次元座標系に配置した例を示す。すなわち、同図において、一つの星印(★)は、辞書記憶部17の一つのレコードを示す。
(B)は、クラスタリングの結果を示す。すなわち、(B)では、位置情報の近似性に基づいて、レコード群が3つのクラスタに分類(分割)された例が示されている。なお、クラスタリングにおいては、分類後の各部分集合は「クラスタ」と呼ばれる。
分類部13は、クラスタリングの結果を辞書記憶部17に記録する。
図11は、クラスタリング後の辞書記憶部の構成例を示す図である。同図において、辞書記憶部17には、クラスタIDの項目(列)が追加されている。
クラスタIDは、各クラスタを識別するための識別子である。すなわち、分類部13は、クラスタリングによって形成されたクラスタごとにクラスタIDを割り当てる。分類部13は、クラスタリングされた辞書記憶部17の各レコードに対して、当該レコードが属するクラスタのクラスタIDを付与した結果を、辞書記憶部17に反映する。その結果、辞書記憶部17には、クラスタ別に、位置情報と地名とが対応付けて記憶される。
なお、図11より明らかなように、同じクラスタに属するレコード(同じクラスタIDが付与されたレコード)であっても、地名が異なる場合がある。例えば、クラスタIDがC1のクラスタ(以下、「クラスタC1」といい、他のクラスタに関しても同様の命名規則に従う。)には、地名が「武蔵中原駅」であるレコードと、地名が「XX家」であるレコードとが含まれている。これは、武蔵中原駅の近辺に「XX家」という店舗が有るためである。
そこで、分類部13は、ステップS32以降において、各クラスタを地名に基づいて更に分類(分割)する。すなわち、ステップS32において、分類部13は、未処理のクラスタが残っているか否かを判定する。未処理のクラスタとは、辞書記憶部17が記憶するレコードが形成するクラスタの中で、ステップS33及びS34の処理対象とされていないクラスタをいう。すなわち、ステップS33及びS34は、クラスタごと(クラスタIDが同一のレコード群ごと)のループ処理である。
未処理のクラスタが残っている場合(S32でYes)、分類部13は、未処理の一つのクラスタを処理対象とし、当該クラスタ(以下、「対象クラスタ」という。)に属するレコード群を、地名の一致又は不一致に基づいて分類する(S33)。分類部13は、分類結果を、辞書記憶部17に記録する。
図12は、クラスタの分類後の辞書記憶部の構成例を示す図である。同図において、辞書記憶部1には、場所IDの項目(列)が追加されている。
場所IDは、各クラスタを、地名の異同に基づいて分類した結果として形成される各部分集合に対するIDである。同図の例では、場所IDの値は、「<クラスタID>_<地名>」の形式を有しているが、位置情報に基づくクラスタが識別可能であり、更に、当該クラスタ内で各地名を識別可能な値であれば、他の形式によって表現されてもよい。
なお、辞書記憶部17において、場所IDが共通する(一致する)レコード群は、同じ場所に対応するレコード群であるといえる。したがって、当該レコード群の位置情報は、当該レコード群が対応する場所の範囲を示す情報であるといえる。
続いて、ノイズ除去部14は、対象クラスタに関して、ノイズの除去処理を実行する(S34)。ノイズとは、上記したように、GPSの誤差を含む投稿データや、文章に含まれている地名が示す位置から発信されていない投稿データ等に基づくレコードである。後者の具体例としては、例えば、「もうすぐ武蔵中原駅に着きます」といった文章を含む投稿データから抽出された地名と、位置情報との対応関係は、正しい対応関係であるとはいえない。この場合、当該文章から地名として抽出される「武蔵中原駅」は、当該投稿データを発信した端末30が位置していた場所とは異なるからである。そこで、ノイズの除去処理では、対象クラスタに属するレコードの中で、ノイズである可能性の高いレコードが辞書記憶部17より除去される。
ステップS33及びS34が、辞書記憶部17に記録されている全てのクラスタに関して実行されると(S32でNo)、図9の処理は終了する。
続いて、ステップS34の詳細について説明する。図13は、ノイズ除去処理の処理手順の一例を説明するためのフローチャートである。
ステップS341において、ノイズ除去部14は、対象クラスタに属する場所IDの中で、ノイズ除去処理(S342〜S345)の処理対象とされていない場所IDの有無を判定する。
該当する場所IDが有る場合(S341でYes)、ノイズ除去部14は、該当する場所IDの中の一つの場所ID(以下、「対象場所ID」という。)を有するレコード群から位置情報の集合を取得する(S342)。すなわち、対象場所IDを有するレコードが複数有る場合、複数の位置情報が取得される。
図14は、場所IDが共通するレコード群の例を示す図である。同図では、対象クラスタがクラスタC1であり、対象場所IDとして「C1_武蔵中原駅」を有するレコード群示されている。ステップS342では、斯かるレコード群より位置情報の集合が取得される。なお、同図では、便宜上、図12には含まれていないレコードも含まれている。
続いて、ノイズ除去部14は、取得された位置情報の集合に含まれる緯度の集合に関して信頼区間を算出する(S343)。すなわち、対象場所IDに対応する場所の緯度がどのような数値の範囲であるのかが統計的に求められる。
図15は、緯度の信頼区間の求め方の一例を説明するための図である。図15において、(A)は、対象場所IDを有するレコードを、その位置情報に基づいて、緯度を横軸とし、経度を縦軸とする2次元座標系に配置した例を示す。すなわち、同図において、一つの星印(★)は、対象場所IDを有するレコードを示す。
(B)は、(A)における緯度の分布をt分布と仮定した場合の確率密度関数から信頼区間を求めた例を示す。
続いて、ノイズ除去部14は、取得された位置情報の集合に含まれる経度の集合に関して信頼区間を算出する(S344)。経度の信頼区間は、緯度が経度に置き換わったことを除いて、緯度の信頼区間と同様に求められる。
続いて、ノイズ除去部14は、対象場所IDを有するレコードのうち、緯度又は経度が、緯度の信頼区間又は経度の信頼区間に含まれない位置情報を含むレコードを、辞書記憶部17より除去(削除)する(S345)。例えば、緯度の信頼区間が、「35.580〜35.581」であり、経度の信頼区間が「139.641〜139.642」である場合、図14に示されるレコード群の中から、図16に示されるレコードが除去される。
図16は、除去対象とされるレコードの例を示す図である。同図において、一番目のレコードは、経度が信頼区間に含まれていない。また、二番目のレコードは、緯度及び経度の双方が信頼区間に含まれていない。したがって、これらのレコードは、ノイズであるとして除去される。
続いて、ステップS343及びS344における、信頼区間の算出処理の詳細を説明する。
図17は、信頼区間の算出処理の一例を説明するためのフローチャートである。
ステップS351において、ノイズ除去部14は、サンプル数とt分布表とから有意水準0.1のtの値を求める。サンプル数とは、緯度又は経度の集合の要素数である。なお、有意水準は、0.1以外の値が用いられてもよい。
続いて、ノイズ除去部14は、緯度又は経度の分布をt分布と仮定して、以下の式(1)を利用して、緯度又は経度の信頼区間を算出する。
Figure 0005637073
なお、本実施の形態では、緯度又は経度の分布をt分布と仮定して信頼区間を求める例を説明したが、例えば、ガンマ分布と仮定して信頼区間が求められてもよい。また、他の方法によって信頼区間が求められてもよい。
続いて、図5のステップS40の詳細について説明する。図18は、地名間の境界の判定処理の処理手順の一例を説明するための図である。
ステップS41において、境界判定部15は、辞書記憶部17が記憶するクラスタの中で、未処理のクラスタの有無を判定する。未処理とは、ステップS42以降の処理が実行されていないことをいう。
未処理のクラスタが有る場合(S41でYes)、境界判定部15は、未処理のクラスタのうちの一つを処理対象として選択する(S42)。以下、選択されたクラスタを、「対象クラスタ」という。ステップS43以降では、対象クラスタに属するレコードが処理対象とされる。
図19は、処理対象のクラスタに属するレコードの例を示す図である。同図では、クラスタC1が選択された例が示されている。したがって、クラスタC1に属するレコードが処理対象とされる。なお、同図には、便宜上、図12に含まれていないレコードも含まれている。
続いて、境界判定部15は、対象クラスタ中の二つの場所IDの組み合わせの中で、ステップS44以降が未処理の組み合わせの有無を判定する(S43)。図19に示されるクラスタには、「C1_武蔵中原駅」、「C1_XX家」、及び「C1_○○○軒」の三つの場所IDが属している。したがって、二つの場所IDの組み合わせとしては、「C1_武蔵中原駅」と「C1_XX家」、「C1_武蔵中原駅」と「C1_○○○軒」、「C1_XX家」、と「C1_○○○軒」との3通りがある。ステップS44以降は、このような組み合わせごとのループ処理である。なお、二つの場所IDの組み合わせごとではなく、二つの地名の組み合わせごとであってもよい。一つのクラスタ内において、場所IDと地名との単位は一致するからである。
ステップS44以降が未処理の組み合わせが有る場合(S43でYes)、境界判定部15は、未処理の組み合わせのうちの一つを処理対象として選択する(S44)。続いて、境界判定部15は、選択された組み合わせに含まれる二つの場所IDのそれぞれの場所の範囲を特定する(S45)。
具体的には、二つの場所IDのそれぞれについて、対象クラスタ内において、当該場所IDを有する全てのレコードの緯度の最大値及び最小値と、経度の最大値及び最小値とが特定される。そして、最小の緯度及び最小の経度によって特定される一点と、最大の緯度及び最大の経度によって特定される一点とを対角の頂点とする矩形範囲が当該場所IDに係る場所の範囲とされる。
続いて、境界判定部15は、二つの場所IDのそれぞれについて特定された範囲を比較して、二つの場所IDのそれぞれに係る場所に重複部分は有るか否かを判定する(S46)。
図20は、二つの場所の重複部分の有無の判定を説明するための図である。同図には、「C1_武蔵中原駅」の場所を示す矩形範囲と、「C1_XX家」の場所を示す矩形範囲とが示されている。これら、二つの場所は相互に重複していることが分かる。
二つの場所に重複部分が有る場合(S46でYes)、境界判定部15は、重複部分の面積は、いずれか一方の場所の面積の70%以上であるか否かを判定する(S47)。当該判定は、二つの場所が包含関係にある可能性の有無の判定に相当する。なお、70%は例示であり、他の値が包含関係の閾値として用いられてもよい。100%を閾値としていないは、二つの場所が、実際には包含関係に有る場合であっても、投稿データに基づく判定では、一方の場所が他方の場所に完全に含まれない可能性もあるからである。
二つの場所が包含関係に無いと判定された場合(S47でNo)、境界判定部15は、二つの場所の境界の検出処理を実行する(S48)。
一方、二つの場所に重複部分は無い場合(S46でNo)、又は重複部分はあっても二つの場所が包含関係に有ると判定される場合(S47でYes)、境界の検出処理は行われない。この場合は、二つの場所は隣接しない(境界を形成しない)と考えられるからである。
続いて、ステップS48の詳細について説明する。図21は、境界の検出処理の処理手順の一例を説明するためのフローチャートである。
ステップS481において、境界判定部15は、境界の検出処理の対象とされている二つの場所IDのそれぞれの緯度の集合の確率密度関数の交点を算出する。例えば、二つの場所IDが、「C1_武蔵中原駅」と「C1_XX家」とであるとする。この場合、図19のレコード群の中で、「C1_武蔵中原駅」を場所IDとする全てのレコードに登録されている緯度の集合の確率密度関数が生成される。同様に、図19のレコード群の中で、「C1_XX家駅」を場所IDとする全てのレコードに登録されている緯度の集合の確率密度関数が生成される。そして、二つの確率密度関数の交点の有無が判定され、交点が有る場合は、当該交点における緯度の値が特定される。
続いて、境界判定部15は、境界の検出処理の対象とされている二つの場所IDのそれぞれの経度の集合の確率密度関数の交点を算出する(S482)。当該処理は、ステップS481における「緯度」を「経度」に置き換えたものである。
続いて、境界判定部15は、ステップS481において算出された緯度の交点の数、又はステップS482において算出された経度の交点の数が2以上であるか否かを判定する(S483)。このことは、境界の検出処理の対象とされている二つの場所IDに係る二つの領域が境界を有さないか有するかの判定に相当する。この点に関して、図22を用いて説明する。
図22は、緯度又は経度に関する二つの確率密度関数の交点の例を示す図である。同図において、(A)は、二つの確率密度関数の交点が二つである場合を示す。この場合、緯度又は経度方向において、一方の場所IDに係る領域が他方の場所IDに係る領域に包含されている可能性が高い。したがって、二つの場所IDに係る二つの領域は、境界を有さない可能性が高い。
一方、(B)は、二つの確率密度関数の交点が一つである場合を示す。この場合、二つの場所IDに係るそれぞれの領域は相互に隣接し、境界を有する可能性が高い。
このように、二つの確率密度関数の交点が一つである場合に、二つの地域分類IDに係る二つの領域は境界を有する可能性が高いといえる。ステップS483では、斯かる考えに基づく判定処理である。
緯度の交点の数又は経度の交点の数が2以上であるとはいえない場合(S483でNo)、境界判定部15は、緯度の交点又は経度の交点を二つの場所IDに係る二つの領域の境界とする(S484)。より詳しくは、緯度の交点が有る場合は、緯度の交点を通り、緯線の方向に対して垂直な線が境界線とされる。また、経度の交点が有る場合は、当該交点を通り、緯線の方向に対して垂直な線が境界線とされる。したがって、緯度又は経度のいずれかい一方に関してのみ交点が有る場合は、境界線は一つである。一方、緯度及び経度の双方に関して交点が有る場合は、境界線は二つである。
図23は、境界線の一例を説明するための図である。同図において、p1は、C1_武蔵中原駅の緯度の集合に関する確率密度関数と、C1_XX家の緯度の集合に関する確率密度関数との交点の緯度である。p2は、C1_武蔵中原駅の経度の集合に関する確率密度関数と、C1_XX家の経度の集合に関する確率密度関数との交点の経度である。この場合、p1を通り、緯線に垂直な線L1が、一つ目の境界線とされる。また、p2を通り経線に垂直な線L2が、二つ目の境界線とされる。
続いて、境界判定部15は、二つの場所IDのそれぞれに係るレコード群のうち、境界外の位置情報を有するレコードを辞書記憶部17より除去(削除)する(S485)。例えば、図23において、p1の値が「35.5825」であり、p2の値が「139.6405」である場合、図19に示されるレコード群の中で、2番目のレコードが「C1_武蔵中原駅」の境界外であるとして除去される。また、3番目のレコードが「C1_XX家」の境界外であるとして除去される。
各場所IDにとって、いずれの方向が「境界外」であるかは、例えば、境界を堺にしていずれの方向に含まれるレコード数が多いかに基づいて判定される。具体的には、図23において、境界線L1のいずれの方向が(図中では左右方向のいずれの方向が)C1_武蔵中原駅に関して境界外であるかは、次のように判定される。すなわち、C1_武蔵中原駅に係るレコード群の中で、緯度がp1以下である位置情報を有するレコードの数が、緯度がp1以上である位置情報を有するレコードの数より多ければ、緯度がp1以上である方向が境界外であると判定される。したがって、C1_武蔵中原駅に関して、緯度がp1以上である位置情報を有するレコードが、辞書記憶部17(図12)より除去される。経度に関する境界線についても同様に境界外が判定される。
なお、他方の場所ID(図23では、「C1_XX家」)に関しても、同様の処理によって境界外の方向が判定されてもよいし、一方の場所ID(図23では、「C1_武蔵中原駅」)に関する境界外の方向の判定結果を利用して、境界外の方向が判定されてもよい。すなわち、C1_武蔵中原駅の境界外と反対の方向が、C1_XX家の境界外の方向と判定されてもよい。
各場所IDについて、境界外のレコードが除去された後に辞書記憶部17に記憶されているレコード群が、地名と位置情報との辞書情報として用いられる。各場所IDについて境界外のレコードが除去されることにより、各場所IDに係る場所を示す位置情報群(すなわち、範囲)の精度を向上させることができる。例えば、C1_XX家に係るレコード群の位置情報群は、XX家の店内の位置を示す位置情報である可能性を高めることができる。
なお、境界判定処理は、各場所IDに係る領域の厳密な又は正確な境界を判定することを目的とするものではない。境界判定処理は、各場所IDに関して、統計的にノイズである可能性の高い位置情報を除去することを目的とするものである。したがって、境界判定処理によって判定される境界は、必ずしも実際の境界と一致していなくてもよい。
続いて、ステップS481又はS482の詳細について説明する。図24は、二つの場所IDに係る確率密度関数の交点の算出処理の処理手順の一例を説明するためのフローチャートである。
ステップS491において、境界判定部15は、二つの場所IDに関するそれぞれの緯度の集合又は経度の集合に関して、以下の式(2)を用いて確率密度関数を生成する。その結果、二つの場所IDに関する二つの確率密度関数が生成される。
Figure 0005637073
続いて、境界判定部15は、生成された二つ確率密度関数のそれぞれのxの値を最小値から最大値に変化させて、二つの確率密度関数が交わるときのxの値を求める(S492)。求められたxの値が、緯度に関する二つの確率密度関数の交点の緯度、又は経度に関する二つの確率密度関数の交点の経度である。
なお、本実施の形態の成果物としての辞書記憶部17の利用時においては、図25に示されるように、クラスタID及び場所IDの列は辞書記憶部17より除去されてもよい。
図25は、最終的な辞書記憶部の一例を示す図である。但し、同じ地名であっても、異なる場所の地名を区別したい場合、クラスタID又は場所IDを残しておくと便利である。なお、同図では、例えば、「武蔵中原駅」や「武蔵新城駅」に対して、それぞれ一つの位置情報のみが対応しているが、これは便宜的なものである。すなわち、「武蔵中原駅」や「武蔵新城駅」に対して、複数の位置情報が対応付けられうる。要するに、一つの地名に対して複数の位置情報が対応付けられうる。
上述したように、本実施の形態によれば、複数の端末30より発信された投稿データに基づいて、自動的に地名と位置情報との対応情報を生成することができる。また、ノイズ除去処理や、境界判定処理によって、GPSの誤差、文章に含まれる地名と端末30の位置との不一致等のノイズ情報を適切に辞書情報から除去することができる。
なお、本実施の形態において、辞書生成装置10は、情報処理装置の一例である。情報管理装置20又はデータ記憶部16は、第一の記憶部の一例である。地名抽出部12は、抽出部の一例である。辞書記憶部17は、第二の記憶部の一例である。ノイズ除去部14は、第一の除去部の一例である。境界判定部15は、第二の除去部の一例である。
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
以上の説明に関し、更に以下の項を開示する。
(付記1)
第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出する抽出部と、
抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する分類部とを有する情報処理装置。
(付記2)
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合ごとに、前記位置情報の信頼区間を算出し、該位置情報が該信頼区間に含まれない前記対応情報を前記第二の記憶部より除去する第一の除去部を有する付記1記載の情報処理装置。
(付記3)
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合のうち、当該集合に係る前記位置情報に基づいて特定される範囲が、他の前記集合に係る前記位置情報に基づいて特定される範囲と重複する集合について、当該集合に係る前記位置情報と前記他の集合に係る前記位置情報とに基づいて、当該集合に係る前記範囲と前記他の集合に係る前記範囲との境界を求め、前記位置情報が該境界外に含まれる前記対応情報を前記第二の記憶部より除去する第二の除去部を有する付記1又は2記載の情報処理装置。
(付記4)
第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出し、
抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する処理をコンピュータが実行する情報処理方法。
(付記5)
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合ごとに、前記位置情報の信頼区間を算出し、該位置情報が該信頼区間に含まれない前記対応情報を前記第二の記憶部より除去する処理を前記コンピュータが実行する付記4記載の情報処理方法。
(付記6)
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合のうち、当該集合に係る前記位置情報に基づいて特定される範囲が、他の前記集合に係る前記位置情報に基づいて特定される範囲と重複する集合について、当該集合に係る前記位置情報と前記他の集合に係る前記位置情報とに基づいて、当該集合に係る前記範囲と前記他の集合に係る前記範囲との境界を求め、前記位置情報が該境界外に含まれる前記対応情報を前記第二の記憶部より除去する処理を前記コンピュータが実行する付記4又は5記載の情報処理方法。
(付記7)
第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出し、
抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する処理をコンピュータに実行させるプログラム。
(付記8)
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合ごとに、前記位置情報の信頼区間を算出し、該位置情報が該信頼区間に含まれない前記対応情報を前記第二の記憶部より除去する処理を前記コンピュータに実行させる付記7記載のプログラム。
(付記9)
前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合のうち、当該集合に係る前記位置情報に基づいて特定される範囲が、他の前記集合に係る前記位置情報に基づいて特定される範囲と重複する集合について、当該集合に係る前記位置情報と前記他の集合に係る前記位置情報とに基づいて、当該集合に係る前記範囲と前記他の集合に係る前記範囲との境界を求め、前記位置情報が該境界外に含まれる前記対応情報を前記第二の記憶部より除去する処理を前記コンピュータに実行させる付記7又は8記載のプログラム。
10 辞書生成装置
11 データ取得部
12 地名抽出部
13 分類部
14 ノイズ除去部
15 境界判定部
16 データ記憶部
17 辞書記憶部
20 情報管理装置
30 端末
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
B バス

Claims (5)

  1. 第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出する抽出部と、
    抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する分類部とを有する情報処理装置。
  2. 前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合ごとに、前記位置情報の信頼区間を算出し、該位置情報が該信頼区間に含まれない前記対応情報を前記第二の記憶部より除去する第一の除去部を有する請求項1記載の情報処理装置。
  3. 前記第二の記憶部において前記クラスタ及び前記地名が一致する前記対応情報の集合のうち、当該集合に係る前記位置情報に基づいて特定される範囲が、他の前記集合に係る前記位置情報に基づいて特定される範囲と重複する集合について、当該集合に係る前記位置情報と前記他の集合に係る前記位置情報とに基づいて、当該集合に係る前記範囲と前記他の集合に係る前記範囲との境界を求め、前記位置情報が該境界外に含まれる前記対応情報を前記第二の記憶部より除去する第二の除去部を有する請求項1又は2記載の情報処理装置。
  4. 第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出し、
    抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する処理をコンピュータが実行する情報処理方法。
  5. 第一の記憶部が記憶する、端末より発信された各文字列より地名を抽出し、
    抽出された地名群に関して、各地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する、前記文字列が発信されたときの前記端末の位置情報に基づいて、クラスタリングを行い、クラスタ別に、前記地名と、該地名の抽出元の前記文字列に関連付けて前記第一の記憶部が記憶する前記位置情報との対応情報を第二の記憶部に記録する処理をコンピュータに実行させるプログラム。
JP2011122462A 2011-05-31 2011-05-31 情報処理装置、情報処理方法、及びプログラム Expired - Fee Related JP5637073B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011122462A JP5637073B2 (ja) 2011-05-31 2011-05-31 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011122462A JP5637073B2 (ja) 2011-05-31 2011-05-31 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012252391A JP2012252391A (ja) 2012-12-20
JP5637073B2 true JP5637073B2 (ja) 2014-12-10

Family

ID=47525185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011122462A Expired - Fee Related JP5637073B2 (ja) 2011-05-31 2011-05-31 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5637073B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6353199B2 (ja) * 2013-07-01 2018-07-04 株式会社 ミックウェア 情報処理装置、情報処理方法、およびプログラム
JP6654539B2 (ja) * 2016-09-30 2020-02-26 株式会社Nttドコモ エリア決定装置
JP6793535B2 (ja) * 2016-12-07 2020-12-02 共同印刷株式会社 活動拠点推定装置、活動拠点推定方法及び活動拠点推定用プログラム
CN112256888A (zh) * 2020-10-30 2021-01-22 南京师范大学 地理知识获取方法

Also Published As

Publication number Publication date
JP2012252391A (ja) 2012-12-20

Similar Documents

Publication Publication Date Title
CN110008300B (zh) Poi别名的确定方法、装置、计算机设备和存储介质
US10776888B1 (en) Systems and computer-implemented methods to compare and identify duplicative presentations of comparable data files including imagery and data representations of rental property listings
JP6759844B2 (ja) 画像を施設に対して関連付けるシステム、方法、プログラム及び装置
CN103795613B (zh) 一种在线社交网络中朋友关系预测的方法
WO2020052312A1 (zh) 一种定位方法、装置、电子设备及可读存储介质
US8958826B2 (en) Device and method for mobility pattern mining
CN111212383B (zh) 区域常住人口数量的确定方法、装置、服务器和介质
CN101542531A (zh) 图像识别装置及图像识别方法
Xu et al. A supervoxel approach to the segmentation of individual trees from LiDAR point clouds
CN109104688A (zh) 使用聚集技术生成无线网络接入点模型
KR20140137352A (ko) 위치 기반 언어 모델링을 사용하는 자동화 입력 신호 인식
JP5637073B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2018537760A (ja) アドレス情報に基づいたアカウントマッピングの方法及び装置
KR20190124436A (ko) 영상 기반 건물 검색 방법 및 장치
CN111460044B (zh) 地理位置数据处理方法及装置
Belcastro et al. Parallel extraction of Regions‐of‐Interest from social media data
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN116097242A (zh) 知识图谱构建方法和装置
CN116127337B (zh) 基于位置和图像的风险挖掘方法、装置、存储介质及设备
CN110647595B (zh) 一种新增兴趣点的确定方法、装置、设备和介质
CN111382220A (zh) 一种poi数据划分方法和装置
US11580101B2 (en) Method and apparatus for generating context category dataset
Loai Ali et al. Towards rule-guided classification for volunteered geographic information
JP6060039B2 (ja) 特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラム
JP5806974B2 (ja) 近隣情報検索装置及び方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140911

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141007

LAPS Cancellation because of no payment of annual fees