JP2015102987A - 地名推定方法、地名推定装置及び地名推定プログラム - Google Patents

地名推定方法、地名推定装置及び地名推定プログラム Download PDF

Info

Publication number
JP2015102987A
JP2015102987A JP2013242546A JP2013242546A JP2015102987A JP 2015102987 A JP2015102987 A JP 2015102987A JP 2013242546 A JP2013242546 A JP 2013242546A JP 2013242546 A JP2013242546 A JP 2013242546A JP 2015102987 A JP2015102987 A JP 2015102987A
Authority
JP
Japan
Prior art keywords
poi
name
place name
related place
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013242546A
Other languages
English (en)
Other versions
JP6106070B2 (ja
Inventor
良太 今井
Ryota Imai
良太 今井
良彦 数原
Yoshihiko Kazuhara
良彦 数原
浩之 戸田
Hiroyuki Toda
浩之 戸田
鷲崎 誠司
Seiji Washisaki
誠司 鷲崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013242546A priority Critical patent/JP6106070B2/ja
Publication of JP2015102987A publication Critical patent/JP2015102987A/ja
Application granted granted Critical
Publication of JP6106070B2 publication Critical patent/JP6106070B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】地点に関連する関連地名の推定精度を改善すること。
【解決手段】POIの名称とPOIの位置情報とを対応付けた複数のPOIデータをPOIデータ記憶部12に記憶しておき、POI関連文書抽出部13が、複数の文書データからPOIの名称を含む文書データを抽出し、文書解析部14が、抽出された文書データからPOIデータに関連する関連地名を抽出し、その関連地名が文書データ内に出現する回数を算出し、POI関連地名推定部16が、その出現頻度を用いてPOIに対する関連地名の共起スコアを算出し、所定の方法で求めた関連地名の位置情報とPOIの位置情報とを用いて関連地名に対するPOIの距離的な地理スコアを算出し、それら2つのスコアを用いて関連地名とPOIとの関連度を算出する。
【選択図】図1

Description

本発明は、地名を推定する技術に関する。
ある地点について、その地点がどこにあるかを表す地名を得る技術が求められている。例えば、「友人と中華街のAAという店にいきました。」という文書データから、「AA」という店が「中華街」にあることを推定する技術である。
このような技術の例として、非特許文献1では、予め与えられた地点の位置情報から地名の住所を推定する技術を開示している(従来技術1)。また、非特許文献2では、地点に関する地点データを用いてウェブ上の文書データから地点に関連する地名を抽出する技術を開示している(従来技術2)。
松田、"地理情報のクラスタリングによる逆ジオコーディング処理の効率化"、秋田職業能力開発短期大学校紀要、第13号、2008年3月、p.18-21 今井、"POI情報を利用したWeb文書からの地名の抽出"、情報処理学会、第12回情報科学技術フォーラム公演論文集 第2分冊、FIT2013、D-019、p.127-128 岡崎、外1名、"集合間類似度に対する簡潔かつ高速な類似文字列検索アルゴリズム"、言語処理学会、自然言語処理、Vol.13、No.2、2006年4月、p.1-29 T.FUCHI、"Japanese Morphological Analyzer using Word Co-occurrence"、COLING-ACL、1998年、p.409-413 斎藤、外2名、"CRFを用いたブログからの固有表現抽出"、言語処理学会、第13回年次大会、2007年
しかしながら、従来技術1によれば、地点の位置情報のみから推定するため、一般的に想起される地名に変換できない可能性がある。また、従来技術2によれば、少しでも関連のある地名を抽出するため、地点から地理的に遠く離れているような関連度の低い地名を出力してしまう。
本発明は、上記事情を鑑みてなされたものであり、地点に関連する関連地名の推定精度を改善することを目的とする。
請求項1に記載の地名推定方法は、コンピュータにより、所定の地点の名称と前記地点の位置情報とを対応付けた複数の地点データを記憶手段に記憶しておくステップと、前記記憶手段から地点の名称を読み出して、複数の文書データから前記地点の名称を含む文書データを抽出するステップと、抽出された文書データから前記地点に関連する関連地名を抽出し、前記関連地名が当該文書データ内に出現する頻度を算出するステップと、前記出現頻度を用いて前記地点に対する前記関連地名の共起スコアを算出し、所定の方法で求めた前記関連地名の位置情報と前記地点の位置情報とを用いて前記関連地名に対する前記地点の距離的な地理スコアを算出し、前記2つのスコアを用いて前記関連地名と前記地点との関連度を算出して当該関連地名に対応付けて出力するステップと、を有することを要旨とする。
本発明によれば、所定の地点の名称と地点の位置情報とを対応付けた複数の地点データを記憶しておき、複数の文書データから地点の名称を含む文書データを抽出し、抽出された文書データから地点に関連する関連地名を抽出し、その関連地名が文書データ内に出現する頻度を算出し、その出現頻度を用いて地点に対する関連地名の共起スコアを算出し、所定の方法で求めた関連地名の位置情報と地点の位置情報とを用いて関連地名に対する地点の距離的な地理スコアを算出し、それら2つのスコアを用いて関連地名と地点との関連度を算出して関連地名に対応付けて出力するため、関連地名の推定精度を向上できる。
請求項2に記載の地名推定装置は、所定の地点の名称と前記地点の位置情報とを対応付けた複数の地点データを記憶しておく記憶手段と、前記記憶手段から地点の名称を読み出して、複数の文書データから前記地点の名称を含む文書データを抽出する抽出手段と、抽出された文書データから前記地点に関連する関連地名を抽出し、前記関連地名が当該文書データ内に出現する頻度を算出する解析手段と、前記出現頻度を用いて前記地点に対する前記関連地名の共起スコアを算出し、所定の方法で求めた前記関連地名の位置情報と前記地点の位置情報とを用いて前記関連地名に対する前記地点の距離的な地理スコアを算出し、前記2つのスコアを用いて前記関連地名と前記地点との関連度を算出して当該関連地名に対応付けて出力する推定手段と、を有することを要旨とする。
請求項3に記載の地名推定プログラムは、請求項1に記載の地名推定方法をコンピュータに実行させることを要旨とする。
本発明によれば、地点に関連する関連地名の推定精度を向上できる。
POI関連地名推定装置の機能ブロック構成を示す図である。 文書データの例を示す図である。 POIデータの例を示す図である。 POI関連地名推定装置の動作フローを示す図である。 テキスト文書等の抽出結果例を示す図である。 文書解析部の機能ブロック構成を示す図である。 文書解析部の動作フローを示す図である。 文書解析部の動作フロー説明時の参照図である。 関連地名の出現回数等の出力結果例を示す図である。 POI関連地名推定部の機能ブロック構成を示す図である。 POI関連地名推定部の動作フローを示す図である。 統合グラフの例を示す図である。 共起スコア算出結果の例を示す図である。 地理スコアの付与例を示す図である。 関連度及び関連地名の出力結果例を示す図である。 POI・地名統合部の動作フローを示す図である。 共起スコア計算部の動作フローを示す図である。 地理スコア計算部の動作フローを示す図である。 スコア出力部の動作フローを示す図である。
本発明は、文書データから地点に関連する関連地名を出力する際に、その関連地名の出現頻度と地点から関連地名までの距離とを考慮した関連度を算出することを特徴としている。これにより、関連度の低い関連地名についてはユーザ端末の画面に表示しない等が実現可能となり、関連地名の推定精度を向上することができる。
以下、本発明を実施する一実施の形態について図面を用いて説明する。
まず、本実施の形態で使用する言葉の定義を説明する。
「テキスト文書」とは、日本語等の自然言語で記述された文書をプレーンテキストで表現したものである。例えば、インターネット上で公開されているブログの記事から本文を抽出したものが挙げられる。
「POI(Point of Interest)」とは、実世界に存在する何らかの意味を持つ地点を指す。例えば、飲食店等の店舗や観光スポット、「横浜マリンタワー」等のランドマークが挙げられる。
「関連地名」とは、何らかのPOIと意味的な繋がりを持ち、実世界に存在する場所を日本語等の自然言語で表したものである。例えば、「東京」、「横浜」、「どぶ板通り」、「東京ソラマチ」等が挙げられ、それぞれの場所の店舗やランドマークと意味的な繋がりを持つ。
「関連度」とは、POIと関連地名の意味的な近さを表す。例えば、「横浜マリンタワー」というPOIは、「横浜港」や「山下公園」という地名とは関連度が高く、「新宿」とは関連度が低い。
次に、本実施の形態に係るPOI関連地名推定装置1の機能を説明する。
図1は、POI関連地名推定装置1の機能ブロック構成を示す図である。このPOI関連地名推定装置1は、文書データ記憶部11と、POIデータ記憶部12と、POI関連文書抽出部13と、文書解析部14と、解析結果データ記憶部15と、POI関連地名推定部16と、POI関連地名データ記憶部17とを備えて構成される。
文書データ記憶部11は、地名の抽出元である複数のテキスト文書を記憶する。これらのテキスト文書は事前に収集され、文書データ記憶部11に予め記憶されている。文書データの例を図2に示す。
POIデータ記憶部12は、複数のPOIデータ(地点データ)を記憶する。POIデータには、少なくともPOIの名称とPOIの位置情報が対応付けて格納されている。POIの位置は、例えば緯度と経度の組として表されている。これらのPOIデータは事前に収集され、POIデータ記憶部12に予め記憶されている。POIデータの例を図3に示す。
POI関連文書抽出部13は、各テキスト文書と各POIデータを用いて、複数のテキスト文書からPOIの名称が含まれているテキスト文書を抽出する。
文書解析部14は、形態素解析技術及び固有表現抽出技術を用いて、POI関連文書抽出部13によって抽出されたテキスト文書からPOIに関連する関連地名を抽出し、更に関連地名がテキスト文書内に出現する回数(関連地名の出現頻度)を算出する。
解析結果データ記憶部15は、文書解析部14で抽出等された関連地名とその出現回数とPOIの名称とを対応付けた複数の解析結果データを記憶する。
POI関連地名推定部16は、各解析結果データと各POIデータを用いて関連地名とPOIとの関連度を算出し、その関連度を関連地名に対応付けて出力する。
POI関連地名データ記憶部17は、POI関連地名推定部16で出力された関連地名に関する情報を記憶する。
以上がPOI関連地名推定装置1の備える機能である。なお、文書データ記憶部11とPOIデータ記憶部12とPOI関連文書抽出部13と文書解析部14とは、前述の非特許文献2に開示された技術に基づいている。
次に、POI関連地名推定装置1の全体動作を説明する。図4は、POI関連地名推定装置1の動作フローを示す図である。
最初に、ステップS101において、POI関連文書抽出部13が、文書データ記憶部11とPOIデータ記憶部12から各テキスト文書と各POIの名称をそれぞれ読み出して、各テキスト文書のうちPOIの名称を含むテキスト文書を抽出する。その際、前述の非特許文献3に開示された類似文字列検索技術を利用し、POIの名称が表記ゆれによってわずかに異なる表記で記述されているテキスト文書を抽出してもよい。
そして、抽出されたテキスト文書と、そのテキスト文書に含まれるPOIの名称と、そのPOIの名称がテキスト文書上で出現する桁数や行数等の出現位置とを関連付けて出力する。その出力結果例を図5に示す。
例えば、「昨日は天気がよかったので、横浜通りに行って横浜cafeのケーキを食べました。」というテキスト文書があり、「横浜Cafe」という名称のPOIデータがある場合には、このテキスト文書を抽出し、POIの名称の出現位置として「22−27文字目」を出力する。
次に、ステップS102において、文書解析部14が、ステップS101で抽出されたテキスト文書とPOIの名称とPOIの出現位置とを用いて当該テキスト文書からPOIに関連する関連地名を抽出し、更に当該関連地名の出現回数を算出する。そして、その解析結果である関連地名とその出現回数とPOIの名称とを解析結果データ記憶部15に記憶させる。ここの処理は後で詳述する。
最後に、ステップS103において、POI関連地名推定部16が、ステップS102で算出された各解析結果データを用いてPOIに対する関連地名の共起スコアを算出し、所定の方法で求めた関連地名の位置情報とPOIの位置情報とを用いて関連地名に対するPOIの距離的な地理スコアを算出し、それら2つのスコアを用いて関連地名とPOIとの関連度を算出する。そして、その関連度を関連地名に対応付けて出力し、POI関連地名データ記憶部17に記憶させる。ここの処理についても後で詳述する。
以上がPOI関連地名推定装置1の全体動作である。
続いて、前述のステップS102における文書解析部14の動作を説明する。文書解析部14は、図6に示すように、文書入力部141と、形態素解析部142と、固有表現抽出部143と、関連地名抽出部144と、関連地名出力部145とを備えて構成される。図7は、文書解析部14の動作フローを示す図である。
最初に、ステップS102−1において、文書入力部141が、ステップS101で抽出されたテキスト文書とPOIの名称とPOIの名称の出現位置と(図5参照)の入力を受け付けた後、テキスト文書を形態素解析部142に出力し、POIの名称とPOIの表記を関連地名抽出部144に出力する。
「POIの表記」とは、POIの名称がテキスト文書内のPOIの名称の出現位置で実際に記述されている表記である。POI関連文書抽出部13は、前述したようにPOIの名称が表記ゆれによってわずかに異なる表記で記述されていてもテキスト文書を抽出できるため、ここでは実際の記述をPOIの表記として取り出す。例えば、POIの名称が「横浜Cafe」であり、出現位置で実際に記述されているのが「横浜cafe」の場合、「横浜cafe」がPOIの表記として出力される。
次に、ステップS102−2において、形態素解析部142が、入力されたテキスト文書を形態素解析することによって形態素で区切られた文の列に変換する。「文の列」とは、1つ以上の文からなる順序のある集まりを指す。例えば、図8(a)のテキスト文書が入力されると、同図(c)のような文の列が出力される。なお、形態素解析技術は公知の技術である(前述の非特許文献4参照)。
次に、ステップS102−3において、固有表現抽出部143が、形態素解析後のテキスト文書(文の列)から日時や場所等の固有表現を抽出し、抽出された形態素に各固有表現の種別を識別するマークを付与する。例えば、図8(c)の形態素で区切られた文の列が入力されると、同図(d)のような日時や場所のマークが付与された文の列が出力される。なお、固有表現抽出技術も公知の技術である(前述の非特許文献5参照)。
次に、ステップS102−4において、関連地名抽出部144が、固有表現のマークが付与された文の列の中からPOIの表記を含む文のみを抽出する。その際、非特許文献2の開示技術と同様に品詞等の条件を用いて文を選別することもできる。そしてその後、固有表現のマークのうち場所のマークが付与された形態素の列を抽出し、これらを関連地名として取り出す。ただし、非特許文献2の開示技術と同様に場所のマークがPOIの表記と重なっている場合には取り出さない。
例えば、図8(d)のマークが付与された文の列に対して、同図(b)のPOIの表記を含む文を抽出すると、同図(e)のようになる。そして、ここから場所のマークが付与された形態素の列を抽出すると、同図(f)のような関連地名が取り出される。
最後に、ステップS102−5において、関連地名出力部145が、ステップS102−4で取り出した関連地名について、POIの名称と関連地名と関連地名の出現回数とを対応付けた組み合わせデータを出力する。その出力結果を図9に示す。
以上が文書解析部14の動作である。なお、ステップS102−2〜S102−4は1つのテキスト文書につき1回実行される。テキスト文書が複数ある場合にはその数に応じて繰り返し実行され、複数の組み合わせデータが出力される。
引き続き、前述のステップS103におけるPOI関連地名推定部16の動作を説明する。POI関連地名推定部16は、図10に示すように、POI・地名入力部161と、POI・地名統合部162と、共起スコア計算部163と、地理スコア計算部164と、スコア出力部165とを備えて構成される。図11は、POI関連地名推定部16の動作フローを示す図である。
最初に、ステップS103−1において、POI・地名入力部161が、ステップS102−5で出力されたPOIの名称と関連地名と関連地名の出現回数とを対応付けた組み合わせデータ(図9参照)の入力を受け付け、更にPOIデータ記憶部12からPOIデータ(図3参照)を読み出した後、組み合わせデータをPOI・地名統合部162に出力し、POIデータを地理スコア計算部164とスコア出力部165に出力する。
次に、ステップS103−2において、POI・地名統合部162が、上記組み合わせデータを用いて、POIの名称と関連地名を頂点とし、POIの名称と関連地名の間に辺の重みとして関連地名の出現回数を付与することにより、POIの名称と関連地名の対応関係をグラフ化する。
具体的には、POIの名称や関連地名で同一のものについては統合し、対応する各POIの名称と各関連地名とを線で結び、その線上に関連地名の出現回数を付与することにより、複数の組み合わせデータを統合した1つの統合グラフを生成する。その統合グラフの例を図12に示す。
次に、ステップS103−3において、共起スコア計算部163が、上記統合グラフを用いて各POIの名称に繋がる関連地名を探索し、探索された関連地名の出現回数を共起スコアとすることにより、POIに対する各関連地名の共起スコアを算出する。そして、POIの名称と探索された関連地名とその共起スコアとの組み合わせデータをスコア出力部165に出力する。共起スコア算出結果の例を図13に示す。
次に、ステップS103−4において、地理スコア計算部164が、上記統合グラフを用いて各関連地名に繋がるPOIの名称を探索し、探索された各POIの名称に対応するPOIの位置情報をPOIデータから取得して、関連地名とPOIとの間の距離に基づく地理スコアを算出して統合グラフに追加する。
具体的には、関連地名の中心を算出し、その中心から距離的に近いPOIに対しては高い地理スコアを与え、距離的に遠いPOIに対しては低い地理スコアを与える。これにより、関連地名に対する各POIの地理スコアが追加される。関連地名の中心の求め方は本技術の適用先によって異なるが、例えば、各POIの位置座標の平均値を用いて算出する。
そして、各POIについて統合グラフ上で接続されている関連地名を探索し、POIの名称と探索した関連地名とそれらの地理スコアとの組み合わせデータをスコア出力部165に出力する。地理スコアの付与例を図14(a)に示し、地理スコアの追加例を同図(b)に示す。
最後に、ステップS103−5において、スコア出力部165が、共起スコアと地理スコアを用いてPOIと関連地名の関連度を算出し、POIデータを更に用いて、POIのIDと関連地名のIDと当該POIと当該関連地名の関連度とを対応付けた関連度データと、関連地名のIDと関連地名の名称とを対応付けた関連地名データとを出力し、POI関連地名データ記憶部17へ格納する。関連度データと関連地名データの各例を図15に示す。
ここで、関連度は、共起スコアと地理スコアとを演算して算出する。単純な四則演算により求めてもよいし、両スコアを変数に用いた関数を利用して計算してもよい。例えば、両スコアに係数を掛けて足し合わせた関数を用いてもよいし、本技術の適用先によって他の関数を用いてもよい。また、両スコアのどちらか又は両方の対数を求める方法や、地理スコアが一定の値未満のときは0とみなすといった方法があり、これらを組み合わせてもよい。
引き続き、ステップS103−2〜ステップS103−5の演算例を詳述する。
まず、ステップS103−2におけるPOI・地名統合部162の演算例を説明する。図16は、POI・地名統合部162の動作フローを示す図である。
最初に、ステップS103−2aにおいて、空のグラフGを作成する。
次に、ステップS103−2bにおいて、POI・地名入力部161からの組み合わせデータ(図9参照)から、POIの名称と関連地名と関連地名の出現回数との1つの組(p,g,f)を取得する。pはPOIの名称を表し、gは関連地名を表し、fは関連地名の出現回数(重み)を表す。
次に、ステップS103−2cにおいて、組の取得が成功すればステップS103−2dに進み、失敗すればステップS103−2gに進む。取得する組がない場合や過去に全ての組が取得されている場合に取得失敗となる。
次に、ステップS103−2dにおいて、POIの名称pがグラフGの頂点として存在していない場合には、pをGの頂点として追加する。同様に、ステップS103−2eにおいて、関連地名gがグラフGの頂点として存在していない場合には、gをGの頂点として追加する。
次に、ステップS103−2fにおいて、POIの名称pと関連地名gとの間に重みfをもつ辺を追加し、ステップS103−2bに戻る。ただし、同じpとgの組合せが2つ以上の組に現れることはないため、pとg間の辺が2本以上になることはない。
そして、ステップS103−2b〜ステップS103−2fを全ての組(p,g,f)について行った後、ステップS103−2gにおいて、グラフGを出力する。
続いて、ステップS103−3における共起スコア計算部163の演算例を説明する。図17は、共起スコア計算部163の動作フローを示す図である。
最初に、ステップS103−3aにおいて、POI・地名統合部162で生成されたグラフGを取得する。
次に、ステップS103−3bにおいて、グラフGから、未だ選択されていないPOIの名称pを選択する。
次に、ステップS103−3cにおいて、POIの名称pの選択が成功すればステップS103−3dに進み、失敗すれば本処理を終了する。全てのPOIの名称pが既に選択されている場合に選択失敗となる。
次に、ステップS103−3dにおいて、選択されたPOIの名称pに接続されている辺のうち、未だ選択されていない辺eを選択する。
次に、ステップS103−3eにおいて、辺eの選択が成功すればステップS103−3fに進み、失敗すればステップS103−3bに戻る。全ての辺が既に選択されている場合に選択失敗となる。
そして、ステップS103−3fにおいて、選択されたPOIの名称pと、選択した辺eに接続されている関連地名gと、選択された辺eの重みfとの3つの要素からなる組み合わせデータを出力し、ステップS103−3dに戻る。重みfは共起スコアを意味する。
続いて、ステップS103−4における地理スコア計算部164の演算例を説明する。図18は、地理スコア計算部164の動作フローを示す図である。
最初に、ステップS103−4aにおいて、POI・地名統合部162で生成されたグラフGを取得する。
次に、ステップS103−4bにおいて、グラフGから、未だ選択されていない関連地名gを選択する。
次に、ステップS103−4cにおいて、関連地名gの選択が成功すればステップS103−4dに進み、失敗すればステップS103−4iに進む。全ての関連地名gが既に選択されている場合に選択失敗となる。
次に、ステップS103−4dにおいて、関連地名gに接続されている全ての辺e(i:1〜n)と、各辺eに接続されている全てのPOIの名称pとを探索する。
次に、ステップS103−4eにおいて、POIデータに含まれるPOIの位置情報から、各POIの名称pに対応するPOIの位置cを取得する。
次に、ステップS103−4fにおいて、各POIの位置cの中心cを算出する。各POIの位置cが2次元の座標(x,y)で表されるとき、座標の平均を用いると、中心cは次の式(1)で求められる。
Figure 2015102987
次に、ステップS103−4gにおいて、中心cと各POIの位置cとを用いて、各POIの名称pの地理スコアsgiを算出する。中心cと各POIの位置cとの間の距離を地理スコアsgiとすると、POIの名称pの地理スコアsgiは次の式(2)で求められる。
Figure 2015102987
次に、ステップS103−4hにおいて、地理スコアsgiを、対応する辺eの属性としてグラフGに追加する。これにより、各辺eは、重みf(共起スコア)と地理スコアsgiの2つの属性を持つことになる。
次に、ステップS103−4iにおいて、グラフGから、未だ選択されていないPOIの名称pを選択する。
次に、ステップS103−4jにおいて、POIの名称pの選択が成功すればステップS103−4kに進み、失敗すれば本処理を終了する。全てのPOIの名称pが既に選択されている場合に選択失敗となる。
次に、ステップS103−4kにおいて、選択されたPOIの名称pに接続されている辺のうち、未だ選択されていない辺eを選択する。全ての辺eが既に選択されている場合には選択失敗となる。
そして、ステップS103−4lにおいて、選択されたPOIの名称pと、選択した辺eに接続されている関連地名gと、選択された辺eの地理スコアsgiとの3つの要素からなる組み合わせデータを出力し、ステップS103−4iに戻る。
続いて、ステップS103−5におけるスコア出力部165の演算例を説明する。図19は、スコア出力部165の動作フローを示す図である。
最初に、ステップS103−5aにおいて、共起スコア計算部163から出力された、POIの名称と関連地名と共起スコアとの組み合わせデータを取得する。
同様に、ステップS103−5bにおいて、地理スコア計算部164から出力された、POIの名称と関連地名と地理スコアとの組み合わせデータを取得する。これら2つのステップにより、POIの名称と関連地名のペアについて、共起スコアと地理スコアが結びつくことになる。
次に、ステップS103−5cにおいて、未だ選択されていないPOIの名称と関連地名とのペア(p,g)を選択する。
次に、ステップS103−5dにおいて、ペアの選択が成功すればステップS103−5eに進み、失敗すれば本処理を終了する。全てのペアが既に選択されている場合に選択失敗となる。
次に、ステップS103−5eにおいて、選択されたペアについて、共起スコアsと地理スコアsを変数とする関数f(s,s)を用いて関連度sを算出する。予め定めた係数λを用いると、次の式(3)のような関数で求められる。
Figure 2015102987
なお、係数λの値は、本技術の適用先に基づき予め定めておく。例えば、距離の単位をkmとし、テキスト文書内での関連地名の出現回数(2回)とPOIの位置と中心との距離(1km)とが同程度に重要である場合には、λ=0.2とする。更に、地理スコアをより重視したいときには、λ=0.1のように設定する。
次に、ステップS103−5fにおいて、POIの名称pをPOIデータに含まれているPOIのIDに置き換える。
そして、ステップS103−5gにおいて、POIのID(p)と関連地名gと関連度sとの組み合わせデータを出力し、ステップS103−5cに戻る。
以上がPOI関連地名推定装置1の動作である。以上、本実施の形態に係るPOI関連地名推定装置1について説明した。
以上より、本実施の形態によれば、POIの名称とPOIの位置情報とを対応付けた複数のPOIデータを記憶しておき、複数の文書データからPOIの名称を含む文書データを抽出し、抽出された文書データからPOIデータに関連する関連地名を抽出し、その関連地名が文書データ内に出現する頻度を算出し、その出現頻度を用いてPOIに対する関連地名の共起スコアを算出し、所定の方法で求めた関連地名の位置情報とPOIの位置情報とを用いて関連地名に対するPOIの距離的な地理スコアを算出し、それら2つのスコアを用いて関連地名とPOIとの関連度を算出して関連地名に対応付けて出力するので、POIに関連する関連地名の推定精度を向上できる。
つまり、文書データからPOIに関連する関連地名を出力する際に、その関連地名の出現頻度とPOIから関連地名までの距離とを考慮した関連度を算出するので、あるPOIと本来関係のない地名の共起を検出してしまった場合でも、そのような地名が関連のある地名として出力されるのを防止でき、POIから地理的に遠く離れている誤った地名がユーザ端末の画面に表示されることを防止できる。このような結果より、本実施の形態によれば、POIに関連する関連地名の推定精度を向上することが可能となる。
最後に、本実施の形態で説明したPOI関連地名推定装置1は、メモリやCPUを備えたコンピュータにより実現できる。また、POI関連地名推定装置1の各動作をプログラムとして構築し、コンピュータにインストールして実行させることや、通信ネットワークを介して流通させることも可能である。
1…POI関連地名推定装置
11…文書データ記憶部
12…POIデータ記憶部
13…POI関連文書抽出部
14…文書解析部
141…文書入力部
142…形態素解析部
143…固有表現抽出部
144…関連地名抽出部
145…関連地名出力部
15…解析結果データ記憶部
16…POI関連地名推定部
161…POI・地名入力部
162…POI・地名統合部
163…共起スコア計算部
164…地理スコア計算部
165…スコア出力部
17…POI関連地名データ記憶部
S101〜S103、S102−1〜S102−5、S103−1〜S103−5、S103−2a〜S103−2g、S103−3a〜S103−3f、S103−4a〜S103−4l、S103−5a〜S103−5g…ステップ

Claims (3)

  1. コンピュータにより、
    所定の地点の名称と前記地点の位置情報とを対応付けた複数の地点データを記憶手段に記憶しておくステップと、
    前記記憶手段から地点の名称を読み出して、複数の文書データから前記地点の名称を含む文書データを抽出するステップと、
    抽出された文書データから前記地点に関連する関連地名を抽出し、前記関連地名が当該文書データ内に出現する頻度を算出するステップと、
    前記出現頻度を用いて前記地点に対する前記関連地名の共起スコアを算出し、所定の方法で求めた前記関連地名の位置情報と前記地点の位置情報とを用いて前記関連地名に対する前記地点の距離的な地理スコアを算出し、前記2つのスコアを用いて前記関連地名と前記地点との関連度を算出して当該関連地名に対応付けて出力するステップと、
    を有することを特徴とする地名推定方法。
  2. 所定の地点の名称と前記地点の位置情報とを対応付けた複数の地点データを記憶しておく記憶手段と、
    前記記憶手段から地点の名称を読み出して、複数の文書データから前記地点の名称を含む文書データを抽出する抽出手段と、
    抽出された文書データから前記地点に関連する関連地名を抽出し、前記関連地名が当該文書データ内に出現する頻度を算出する解析手段と、
    前記出現頻度を用いて前記地点に対する前記関連地名の共起スコアを算出し、所定の方法で求めた前記関連地名の位置情報と前記地点の位置情報とを用いて前記関連地名に対する前記地点の距離的な地理スコアを算出し、前記2つのスコアを用いて前記関連地名と前記地点との関連度を算出して当該関連地名に対応付けて出力する推定手段と、
    を有することを特徴とする地名推定装置。
  3. 請求項1に記載の地名推定方法をコンピュータに実行させることを特徴とする地名推定プログラム。
JP2013242546A 2013-11-25 2013-11-25 地名推定方法、地名推定装置及び地名推定プログラム Active JP6106070B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013242546A JP6106070B2 (ja) 2013-11-25 2013-11-25 地名推定方法、地名推定装置及び地名推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013242546A JP6106070B2 (ja) 2013-11-25 2013-11-25 地名推定方法、地名推定装置及び地名推定プログラム

Publications (2)

Publication Number Publication Date
JP2015102987A true JP2015102987A (ja) 2015-06-04
JP6106070B2 JP6106070B2 (ja) 2017-03-29

Family

ID=53378644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013242546A Active JP6106070B2 (ja) 2013-11-25 2013-11-25 地名推定方法、地名推定装置及び地名推定プログラム

Country Status (1)

Country Link
JP (1) JP6106070B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017203594A (ja) * 2016-05-12 2017-11-16 シャープ株式会社 空気調和機
CN109165273A (zh) * 2018-08-24 2019-01-08 安徽讯飞智能科技有限公司 一种面向大数据环境的通用中文地址匹配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002163265A (ja) * 2000-11-22 2002-06-07 Nissan Motor Co Ltd 地域検索装置
JP2009063520A (ja) * 2007-09-07 2009-03-26 Nissan Motor Co Ltd 電子地図表示装置および電子地図表示方法、並びに電子地図表示プログラムを記憶した媒体
JP2010198281A (ja) * 2009-02-25 2010-09-09 Hyogo Prefecture 情報処理装置、情報処理方法、およびプログラム
JP2011170491A (ja) * 2010-02-17 2011-09-01 Panasonic Corp 地名検索装置、地名検索方法、および電子機器
JP2013134392A (ja) * 2011-12-27 2013-07-08 Toyota Mapmaster:Kk 通称データを生成するための装置及び方法、並びに通称データを生成するためのコンピュータプログラム及び該コンピュータプログラムを記録した記録媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002163265A (ja) * 2000-11-22 2002-06-07 Nissan Motor Co Ltd 地域検索装置
JP2009063520A (ja) * 2007-09-07 2009-03-26 Nissan Motor Co Ltd 電子地図表示装置および電子地図表示方法、並びに電子地図表示プログラムを記憶した媒体
JP2010198281A (ja) * 2009-02-25 2010-09-09 Hyogo Prefecture 情報処理装置、情報処理方法、およびプログラム
JP2011170491A (ja) * 2010-02-17 2011-09-01 Panasonic Corp 地名検索装置、地名検索方法、および電子機器
JP2013134392A (ja) * 2011-12-27 2013-07-08 Toyota Mapmaster:Kk 通称データを生成するための装置及び方法、並びに通称データを生成するためのコンピュータプログラム及び該コンピュータプログラムを記録した記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017203594A (ja) * 2016-05-12 2017-11-16 シャープ株式会社 空気調和機
CN109165273A (zh) * 2018-08-24 2019-01-08 安徽讯飞智能科技有限公司 一种面向大数据环境的通用中文地址匹配方法
CN109165273B (zh) * 2018-08-24 2021-10-26 安徽讯飞智能科技有限公司 一种面向大数据环境的通用中文地址匹配方法

Also Published As

Publication number Publication date
JP6106070B2 (ja) 2017-03-29

Similar Documents

Publication Publication Date Title
CN109145169B (zh) 一种基于统计分词的地址匹配方法
JP5315664B2 (ja) 位置表現検出装置、プログラム、及び、記憶媒体
JP7023821B2 (ja) 情報検索システム
JP5371480B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US11216499B2 (en) Information retrieval apparatus, information retrieval system, and information retrieval method
CN107203526B (zh) 一种查询串语义需求分析方法及装置
US20120047175A1 (en) Short Point-Of-Interest Title Generation
JP2018537760A (ja) アドレス情報に基づいたアカウントマッピングの方法及び装置
JP5886558B2 (ja) 電子書籍表示装置
CN111460327A (zh) 兴趣地搜索方法及装置、存储介质、计算机设备
JP6662689B2 (ja) 単語判定装置
JP6106070B2 (ja) 地名推定方法、地名推定装置及び地名推定プログラム
JP5351123B2 (ja) 文書検索キーワード提示装置および文書検索キーワード提示プログラム
JP4510792B2 (ja) 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体
JP4510780B2 (ja) 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体
CN112000495B (zh) 用于兴趣点信息管理的方法、电子设备和存储介质
JP5977199B2 (ja) 地域連想語抽出装置、地域連想語抽出方法及び地域連想語抽出プログラム
JP6060039B2 (ja) 特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラム
CN107463615B (zh) 开放网络中基于上下文和用户兴趣的实时去处推荐方法
JP6106069B2 (ja) 地名位置推定方法、地名位置推定装置及び地名位置推定プログラム
JP4510784B2 (ja) 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体
JP5327869B2 (ja) 有名度スコア算出装置、その方法及びプログラム
JP5400813B2 (ja) 住所検索装置及び住所検索方法
JP5305971B2 (ja) 略語推定装置および方法
JP6031164B1 (ja) スポット判定装置、スポット判定方法、および、スポット判定プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160303

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170303

R150 Certificate of patent or registration of utility model

Ref document number: 6106070

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150