JP6136702B2 - 場所推定方法、場所推定装置および場所推定プログラム - Google Patents

場所推定方法、場所推定装置および場所推定プログラム Download PDF

Info

Publication number
JP6136702B2
JP6136702B2 JP2013153939A JP2013153939A JP6136702B2 JP 6136702 B2 JP6136702 B2 JP 6136702B2 JP 2013153939 A JP2013153939 A JP 2013153939A JP 2013153939 A JP2013153939 A JP 2013153939A JP 6136702 B2 JP6136702 B2 JP 6136702B2
Authority
JP
Japan
Prior art keywords
address
location
information
word
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013153939A
Other languages
English (en)
Other versions
JP2015026135A (ja
Inventor
成司 岡嶋
成司 岡嶋
友哉 岩倉
友哉 岩倉
豊 光石
豊 光石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013153939A priority Critical patent/JP6136702B2/ja
Publication of JP2015026135A publication Critical patent/JP2015026135A/ja
Application granted granted Critical
Publication of JP6136702B2 publication Critical patent/JP6136702B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、場所推定方法、場所推定装置および場所推定プログラムに関する。
携帯電話機やスマートフォン等に代表される端末には、GPS(Global Positioning System)のような測位機能が一般的に搭載されてきている。端末のユーザは、端末を用いて現在の場所を測位することができる。また、端末のユーザは、例えばソーシャルメディアを利用して端末から文書を送信する際に、現在の場所の情報を文書に付与することができる。
近年では、端末から送信される文書の中で言及されている場所を推定する方法として、辞書ベースの場所推定手法および機械学習ベースの場所推定手法が開示されている。辞書ベースの場所推定手法は、予め用意された、キーワードと当該キーワードに対応する場所との組み合わせの情報を示す辞書を利用することにより、文書の中で言及されている場所を推定する方法である。一方、機械学習ベースの場所推定手法は、文書中に現れるキーワードの傾向を学習し、場所に間接的に対応したキーワード(地域関連語)から、言及されている場所を推定する方法である。
特開2010−128898号公報 特表2012−529717号公報
辞書ベースの場所推定手法によれば、場所を表すキーワードが辞書に登録されており、当該キーワードに対する場所を特定できた場合は、場所を正しく推定することができる。しかしながら、例えば同一の地名が複数の地域で用いられている場合には、場所を一意に特定できない曖昧性が問題となる。例えば、文書から「港区」が抽出されたとしても、「大阪市港区」、「名古屋市港区」、「東京都港区」のいずれを意味するのかを特定するのは困難である。
また、機械学習ベースの場所推定手法によれば、おおよその場所までは特定可能であるが、詳細な場所を特定できないことがある。例えば大阪府までは特定できても、大阪府の中のどこの市町であるのかまでは特定できないことがある。このように、機械学習ベースの場所推定手法は、推定の粒度が辞書ベースの場所推定手法に比べて大きいという問題を有している。
本発明の1つの側面では、ユーザの端末から発信される文書の中で言及されている場所を推定する精度を向上させることが可能な場所推定方法、場所推定装置および場所推定プログラムを提供することを目的とする。
発明の一観点によれば、場所推定装置によって実行される場所推定方法であって、ユーザの発信情報から第1の単語を抽出し、前記第1の単語に対応する住所に関する情報を記憶部から抽出し、前記第1の単語と前記住所に関する情報とを含む第1のキーワードに対応する第1の指標値を場所毎に算出し、前記第1の指標値に基づいて、前記発信情報が示す場所を推定する場所推定方法が提供される。
一実施態様によれば、ユーザの端末から発信される文書の中で言及されている場所を推定する精度を向上させることが可能な場所推定方法、場所推定装置および場所推定プログラムを提供することができる。
図1は、場所推定システムの構成の一例を示す図である。 図2は、場所推定装置のハードウェア構成の一例を示す図である。 図3は、場所推定システムによる場所推定方法の一例を示すフローチャートである。 図4は、S101における、学習フェーズの処理の一例を示すフローチャートである。 図5は、地域情報が付与された文書の情報の一例を示す図である。 図6は、地域情報が付与された文書から抽出された単語のリストの一例を示す図である。 図7は、S203における、住所表現辞書から住所に関する情報を抽出する処理の一例を示すフローチャートである。 図8は、学習フェーズにおける、住所表現のリストの一例を示す図である。 図9は、住所表現辞書の一例を示す図である。 図10は、住所表現辞書から抽出された、住所に関する情報のリストの一例である。 図11は、学習フェーズにおける、キーワード群の一例を示す図である。 図12は、地域分類規則の一例を示す図である。 図13は、S102における、推定フェーズの処理の一例を示すフローチャートである。 図14は、対象文書の情報の一例を示す図である。 図15は、S403における、住所表現辞書から住所を構成する文字列を抽出する処理の一例を示すフローチャートである。 図16は、推定フェーズにおける、住所表現のリストの一例を示す図である。 図17は、住所表現辞書から抽出された住所および座標の情報のリストの一例である。 図18は、推定フェーズにおける、キーワード群の一例を示す図である。 図19は、所属スコアの算出結果の一例である。 図20は、所属スコアが所定の閾値を超えている地域のリストの一例である。 図21は、推定結果の一例を示す図である。 図22は、対象文書から、対象文書の中で言及されている場所を推定する別の一例を示す図である。 図23は、学習フェーズの変形例を示すフローチャートである。 図24は、学習フェーズにおける、単語リストの一例を示す図である。
以下、本発明の実施形態について、図1から図24を参照して具体的に説明する。
図1は、場所推定システムの一例を示す図である。図1に示すように、場所推定システムは、場所推定装置10と端末装置30とを有している。場所推定装置10と端末装置30とは、ネットワーク50を介して相互に通信可能に接続されている。
場所推定装置10は、端末装置30から送信される文書を受信し、当該文書の中で言及されている場所を推定する装置である。場所推定装置10は、後述するように、例えば辞書ベースの場所推定手法と機械学習ベースの場所推定手法とを組み合わせて推定を行う。場所推定装置10は、例えばパーソナルコンピュータ(PC)、またはサーバ等によって実現される。場所推定装置10が実行する処理の方法については後述する。
端末装置30は、例えば文書を発信するユーザまたは場所推定装置10を利用するユーザが所有する端末であり、例えばスマートフォン、携帯電話、ノートPC(Personal Computer)、デスクトップPC、またはタブレット端末等である。ここで、文書とは、例えばニュース記事や、Twitter(登録商標)、ブログなどのソーシャルメディアに書き込まれた文章である。なお、ユーザには、後述する学習フェーズにおいて、地域分類規則を取得するために地域の付与された文書を発信するユーザも含まれる。
次に、場所推定装置10のハードウェア構成について説明する。
図2は、場所推定装置10のハードウェア構成の一例を示す図である。図2に示すように、場所推定装置10は、CPU(Central Processing Unit)61、ROM(Read Only Memory)62、RAM(Random Access Memory)63、ストレージ装置64、ネットワークインタフェース65、及び可搬型記憶媒体用ドライブ66等を備えている。
場所推定装置10の構成各部は、バス67に接続されている。ストレージ装置64は、例えばHDD(Hard Disk Drive)である。場所推定装置10では、ROM62あるいはストレージ装置64に格納されているプログラム(場所推定プログラムを含む)、或いは可搬型記憶媒体用ドライブ66が可搬型記憶媒体68から読み取ったプログラム(場所推定プログラムを含む)をCPU61等のプロセッサが実行することにより、場所推定装置10の機能が実現される。
以下、場所推定装置10を構成する各部の機能について説明する。
図1に示すように、場所推定装置10は、第1記憶部11と、第2記憶部12と、受信部13と、キーワード抽出部14と、辞書検索部15と、スコア算出部16と、推定部17と、出力部18と、送信部19とを備えている。
第1記憶部11は、例えば図2のROM62、ストレージ装置64、可搬型記憶媒体用ドライブ66あるいは可搬型記憶媒体68に対応する。第1記憶部11は、端末装置30から送信される文書の中で言及されている場所を推定するための場所推定プログラムを記憶することができる。
第2記憶部12は、例えば図2のROM62、RAM63、ストレージ装置64、可搬型記憶媒体用ドライブ66あるいは可搬型記憶媒体68に対応する。第2記憶部12は、場所推定装置10内で行われる各処理に用いる各種情報を記憶するためのデータベース(DB;Data Base)として用いられる。
受信部13は、端末装置30から地域の付与された文書を受信する。受信部13は、端末装置30と相互に通信可能に接続されており、例えば図2のネットワークインタフェース65によって実現される。
キーワード抽出部14は、受信部13が受信した文書から、単語を抽出することができる。また、キーワード抽出部14は、抽出した単語から住所表現を抽出することができる。ここで、住所表現とは、住所を有する、建造物、公園、企業、学校、または店舗等を示す名称、または住所そのものである。
辞書検索部15は、第2記憶部12に格納されている住所表現辞書を検索して、キーワード抽出部14が抽出した各単語に対応する住所に関する情報をそれぞれ抽出する。位置情報抽出部15は、例えば図2のCPU61あるいはMPU等のプロセッサによって実現される。
スコア算出部16は、後述する学習フェーズにおいて、キーワード抽出部14によって抽出された単語と、辞書検索部15によって抽出された住所表現のそれぞれについて、各地域との関連性の程度を示す地域関連スコアを地域毎に算出する。算出した地域関連スコアは、地域分類規則のデータとして用いられる。なお、地域関連スコアは、第2の指標値の一例である。
また、スコア算出部16は、後述する推定フェーズにおいて、キーワード抽出部14によって対象文書から抽出されたキーワード群が、どの地域に所属する(関連する)可能性が高いかを示す指標である所属スコアを地域毎に算出する。そして、地域毎に算出した所属スコアを比較することにより、文書の中で言及されている場所がどの地域に所属する可能性が高いのかを推定することができる。ここで、単語だけでなく住所を構成する文字列についても地域毎の所属スコアを算出する対象としている点が、本実施形態の特徴の一つである。スコア算出部16は、例えば図2のCPU61あるいはMPU等のプロセッサによって実現される。なお、所属スコアは、第1の指標値の一例である。
推定部17は、スコア算出部16によって算出された所属スコアを所定の閾値と比較することによって、入力文書の中で言及されている場所(地域)を推定する。推定部17は、例えば図1のCPU61あるいはMPU等のプロセッサによって実現される。
出力部18は、推定部17によって実行された、文書の中で言及されている場所の推定結果を出力する。出力部18は、例えば液晶ディスプレイ、プラズマディスプレイまたは有機ELディスプレイ等の表示装置である。
送信部19は、推定部17によって実行された、文書の中で言及されている場所の推定結果をネットワーク50に向けて送信する機能を有している。例えば、場所推定装置10を利用するユーザの端末装置30は、ネットワーク50を介して場所推定装置10から送信された推定結果を受信することができる。
次に、場所推定装置10による場所推定方法について説明する。
図3は、場所推定システムによる場所推定方法の一例を示すフローチャートである。
図3に示すように、場所推定装置10は、まず場所の情報の一例である地域の情報(地域情報)が付与された文書をもとに学習を行い、地域分類規則を取得する学習フェーズを実行する(S101)。続いて、場所推定装置10は、対象文書を取得し、地域分類規則をもとに、対象文書の中で言及されている場所の推定を行う推定フェーズを実行する(S102)。以降では、学習フェーズおよび推定フェーズの詳細について説明する。
まず、S101における学習フェーズの処理の詳細について説明する。
図4は、S101における、学習フェーズの処理の一例を示すフローチャートである。
まず、受信部13は、端末装置30から地域情報が付与された文書の情報を受信する(S201)。受信部13は、受信した文書の情報を第2記憶部12に格納する。
図5は、地域情報が付与された文書の情報の一例を示す図である。図5に示すように、地域情報が付与された文書の情報は、地域と文書とが対応付けられた構成を有している。地域は、例えば都道府県名である。図5の例では、文書「○タワーに行って、帰りに名物のウナギを食べた」には、地域「○県」が地域情報として付与されている。また、文書「△と言えば、やはり△寺でしょう」には、地域「△県」が地域情報として付与されている。
図4に戻り、キーワード抽出部14は、地域情報が付与された文書から、単語を抽出する(S202)。S202において、キーワード抽出部14は、第2記憶部12に格納されている地域情報が付与された文書を読み出す。そして、キーワード抽出部14は、地域情報が付与された文書の中に含まれている単語を、地域情報と対応付けながら抽出する。ここで抽出される単語としては、名詞および複合名詞が好ましい。
図6は、地域情報が付与された文書から抽出された単語のリストの一例を示す図である。図6の例では、地域「○県」に対応する単語として、「○タワー」、「名物」および「ウナギ」が抽出されている。また、地域「△県」に対応する単語として、「△」および「△寺」が抽出されている。
図4に戻り、辞書検索部15は、第2記憶部12に格納されている住所表現辞書を検索し、住所表現に対応する住所を構成する文字列を抽出する(S203)。以下、S203の処理の詳細について説明する。
図7は、S203における、住所表現辞書から住所に関する情報を抽出する処理の一例を示すフローチャートである。
まず、キーワード抽出部14は、地域情報が付与された文書から住所表現を抽出し、住所表現のリストを作成する(S301)。
図8は、学習フェーズにおける、住所表現のリストの一例を示す図である。図8に示すように、住所表現のリストには、文書「○タワーに行って、帰りに名物のウナギを食べた」から抽出された「○タワー」、および文書「△と言えば、やはり△寺でしょう」から抽出された「△寺」が登録されている。S301の処理によれば、住所表現の抽出は固有表現抽出技術等を用いて行われる。固有表現抽出技術については、公知の任意の手法を用いることができる。
図7に戻り、S301の処理の後、辞書検索部15は、住所表現のリストに住所表現が登録されているか否かを判定する(S302)。住所表現のリストに情報が登録されていると判定された場合(S302肯定)、辞書検索部15は、住所表現のリストから住所表現を1個抽出する。そして、キーワード抽出部14は、抽出した住所表現を住所表現のリストから削除する(S303)。
例えば、図8に示すように「○タワー」および「△寺」が住所表現のリストに登録されている状態で、辞書検索部15が「○タワー」を抽出したとする。このとき、辞書検索部15は、抽出した「○タワー」を住所表現のリストから削除する。その結果、「△寺」のみが住所表現のリストに残ることとなる。
続いて、辞書検索部15は、住所表現辞書を検索し、S303で抽出された住所表現が住所表現辞書に登録されているか否かを判定する(S304)。
図9は、住所表現辞書の一例を示す図である。住所表現辞書は、住所表現と、住所表現に対応する場所の情報とが対応付けられたリストである。住所表現辞書は、例えば図9に示すように、「住所表現」、「住所」および「座標(緯度,経度)」の欄を有している。「座標(緯度,経度)」の欄に登録されている情報は、推定フェーズにおいて使用される情報である。辞書検索部15は、抽出した住所表現が「住所表現」の欄に登録されているか否かを検索することにより、図7におけるS304の判定を行う。
なお、住所表現を検索する際、辞書検索部15によって抽出された住所表現の文字列と住所表現辞書中の住所表現の文字列とが完全一致である必要はない。例えば近似マッチングによる検索手法や、抽出された文字列を正規化後に完全一致検索する手法等の、公知の任意の手法を用いることができる。
S303で抽出された住所表現が住所表現辞書に含まれていると判定された場合(S304肯定)、辞書検索部15は、住所表現辞書から、当該住所表現に対応する住所を構成する文字列を抽出する。そして、辞書検索部15は、抽出した結果を第2記憶部12に格納する(S305)。
例えば、図9の住所表現辞書を参照すると、「住所表現」の欄に「○タワー」が登録されていることがわかる。そこで、辞書検索部15は、「○タワー」に対応する住所の欄を参照し、住所「○県,○市,○町」を構成する文字列として、「○県」、「○市」および「○町」を抽出する。S305の処理の後、S302に移り、S302以降の処理を再び実行する。
一方、抽出した住所表現が住所表現辞書に登録されていないと判定された場合(S304否定)、S302に移り、S302以降の処理を再び実行する。例えば2回目のS302の処理で、「△寺」が住所表現のリストに登録されている場合、再びS302肯定と判定される。そして、S303の処理を経てS304に移る。S304の処理において、辞書検索部15は、「△寺」に対応する住所の欄を参照し、住所「△県,△市,△町」を構成する文字列として「△県」、「△市」および「△町」をそれぞれ抽出する。
S302において、住所表現のリストに住所表現が登録されていないと判定された場合(S302否定)、S204に移る。S302では、例えば「○タワー」および「△寺」が住所表現のリストから削除されると、住所表現のリストに登録されている住所表現がなくなるため、この場合はS302で否定判定される。そして、住所を構成する文字列を抽出する一連の処理が終了する。
図10は、住所表現辞書から抽出された、住所を構成する文字列のリストの一例である。
図10に示すように住所を構成する文字列は、地域と対応付けられて登録されている。このように、地域と対応付けて登録しておくことにより、後の処理で単語と住所を構成する文字列とをマージする作業が容易になる。
以上のようにして、場所推定装置10は、住所表現辞書から住所を構成する文字列を取得することができる。
図4に戻り、S203の処理の後、スコア算出部16は、S202で抽出された単語と、S203で抽出された住所を構成する文字列とをマージすることにより、キーワード群を構築する(S204)。
図11は、学習フェーズにおける、キーワード群の一例を示す図である。図6に示す単語のリストと図10に示す住所を構成する文字列のリストとをマージすると、図11に示すキーワード群を得ることができる。図11に示すように、キーワード群のリストには、地域の情報と、地域に対応する単語または住所に関する情報とが対応付けられて登録されている。例えば、地域「○県」には、対応する単語である「○タワー」、「名物」および「ウナギ」と、対応する住所である「○県」、「○市」および「○町」とが登録されている。また、地域「△県」には、対応する単語である「△」および「△寺」と、対応する住所を構成する文字列である「△県」、「△市」および「△町」とが登録されている。
続いて、スコア算出部16は、抽出された単語および住所を構成する文字列の各々について、地域毎の地域関連スコアを算出する(S205)。地域関連スコアおよび後述する所属スコアの算出方法としては、例えばサポートベクターマシン(Support Vector Machine,SVM)によって学習された線形分類器を用いる方法等、機械学習における公知の種々のスコア算出法を用いることができる。地域関連スコアを算出することにより、地域分類規則を取得することができる。
図12は、地域分類規則の一例を示す図である。図12に示すように、単語の各々について、地域毎の地域関連スコアが登録されている。図12の例では、地域を都道府県名で表している。地域関連スコアの値が大きいほど、当該地域との関連性が高いことを示している。図12によれば、例えば単語「○タワー」の場合、「○県」のスコアは0.75、「△県」のスコアは0.03、「×県」のスコアは0.04である。よって、3つの地域の中では○県との関連性が最も高いことがわかる。取得された地域分類規則は第2記憶部12に格納され、以降の推定フェーズにおいて利用される。
以上のようにして、場所推定装置10は、地域分類規則を取得する学習フェーズを実行する。
次に、S102における、推定フェーズの処理の詳細について説明する。
図13は、S102における、推定フェーズの処理の一例を示すフローチャートである。
まず、受信部13は、場所の推定を行う対象文書を端末装置30から受信する(S401)。受信部13は、受信した対象文書の情報を第2記憶部12に格納する。
図14は、対象文書の情報の一例を示す図である。図14の例では、「休暇を取って△寺や△神社を見てきた」が対象文書である。図5に示す学習用の文書とは異なり、対象文書の情報には地域情報は含まれていない。そのため、対象文書と地域との対応関係が不明である。場所推定装置10は、対象文書の中で言及されている場所を推定するため、S401以降の各処理を実行する。
図13に戻り、S401の処理の後、キーワード抽出部14は、対象文書から単語を抽出する(S402)。S402において、キーワード抽出部14は、第2記憶部12に格納されている対象文書を読み出す。そして、キーワード抽出部14は、対象文書に含まれている単語を抽出する。ここでは、対象文書「休暇を取って△寺や△神社を見てきた」から単語として「休暇」、「△寺」および「△神社」が抽出される。
続いて、キーワード抽出部14は、対象文書から住所表現を抽出する。そして、辞書検索部15は、第2記憶部12に格納されている住所表現辞書を検索して、住所表現に対応する住所を構成する文字列を抽出する(S403)。
図15は、S403における、住所表現辞書から住所を構成する文字列を抽出する処理の一例を示すフローチャートである。
まず、キーワード抽出部14は、対象文書から住所表現を抽出し、住所表現のリストを作成する(S501)。
図16は、推定フェーズにおける、住所表現のリストの一例を示す図である。図16に示すように、キーワード抽出部14は、抽出された単語である「休暇」、「△寺」および「△神社」の中から、住所表現として「△寺」および「△神社」を抽出する。
続いて、辞書検索部15は、住所表現のリストに情報が登録されているか否かを判定する(S502)。住所表現のリストに情報が登録されていると判定された場合(S502肯定)、辞書検索部15は、住所表現のリストから住所表現を1個抽出する。そして、辞書検索部15は、抽出した住所表現を住所表現のリストから削除する(S503)。一方、住所表現のリストに情報が登録されていないと判定された場合(S502否定)、S404に移る。
例えば、図16に示すように「△寺」および「△神社」が住所表現のリストに登録されているときに、辞書検索部15が「△寺」を住所表現のリストから抽出したとする。このとき、辞書検索部15は、「△寺」を抽出した後、「△寺」を住所表現のリストから削除する。その結果、住所表現のリストには「△神社」のみが残ることとなる。
続いて、辞書検索部15は、S503で抽出された住所表現が、住所表現辞書に登録されているか否かを判定する(S504)。S503で抽出された住所表現が住所表現辞書に登録されていると判定された場合(S504肯定)、辞書検索部15は、住所表現辞書から、抽出した住所表現に対応する場所の情報として住所および座標の情報を抽出する(S505)。
図17は、住所表現辞書から抽出された住所および座標の情報のリストの一例である。図17に示すように、住所表現毎に、対応する住所および座標の情報が抽出される。
例えば、S504において住所表現「△寺」が住所表現辞書に登録されていると判定された場合、S505において辞書検索部15は、住所表現辞書から住所および座標の情報として「△県,△市,△町 34.xxxx,138.xxxx」を抽出する。S505の処理の後、S502に戻り、S502以降の処理を再び実行する。
再び実行するS502の処理では、「△神社」が住所表現のリストに登録されている。この場合、再びS502肯定と判定される。そして、S503の処理を経てS504に移る。S504の処理において辞書検索部15は、「△神社」に対応する住所および座標の情報として、2種類の地域の情報、すなわち「△県,△市,▲町 34.xxxx,137.xxxx」および「□県,□市,□町 37.xxxx,131.xxxx」を抽出する。このように、2種類の地域の情報が抽出されたのは、「△神社」が複数の地域に存在し、住所表現辞書に2つの地域の情報が登録されているためである。S505の処理の後、S502に戻る。
3回目に実行するS502の処理では、住所表現の抽出は全て終わっているため、住所表現のリストに登録されている住所表現は存在しない。よって、辞書検索部15は、住所表現のリストに情報が登録されていないと判定し(S502否定)、S404に移る。
図13に戻り、キーワード抽出部14と、スコア算出部16は、S402で抽出された単語と、S403で抽出された住所を構成する文字列とをマージすることにより、キーワード群を抽出する(S404)。S404において、キーワード抽出部14は、S505で住所表現辞書から抽出された、住所および座標の情報のリストから、住所を構成する文字列を抽出する。例えば、その結果、「△県」、「△市」、「▲町」、「□県」、「□市」、および「□町」が抽出される。これらの文字列と、S402で抽出された単語である「休暇」、「△寺」および「△神社」とをマージすると、キーワード群を得ることができる。
図18は、推定フェーズにおける、キーワード群の一例を示す図である。以上のようにして、場所の推定に用いるキーワード群を抽出する。
図13に戻り、S404の処理の後、スコア算出部16は、キーワード群がどの地域に所属する(関連する)可能性が高いかを推定するため、所属スコアを地域毎に算出する(S405)。スコア算出部16は、キーワード群およびS101で取得した地域分類規則に基づいて、地域毎の所属スコアを算出する。
図19は、所属スコアの算出結果の一例である。図19の例においても、図12と同様に地域を都道府県名で表している。また、所属スコアの値が大きいほど、当該地域との関連性が強いことを示している。
図13に戻り、S405の処理の後、推定部17は、所属スコアが所定の閾値を超えている地域のリストを作成する(S406)。具体的には、推定部17は、S405で算出した地域毎の所属スコアを参照し、所定の閾値を超えている地域を抽出する。例えば閾値を0として図17を参照すると、1.88の所属スコアを有する「△県」のみが抽出される。そこで、推定部17は、「△県」を載せた地域のリストを作成する。なお、閾値は、既に言及している場所が明らかになっている文書を用いて推定精度を測定する実験を繰り返しながら、最も推定精度が高くなるように設定することが好ましい。この方法により、推定精度の向上を図ることができる。
図20は、所属スコアが所定の閾値を超えている地域のリストの一例である。なお、図20の例では、地域として「△県」のみが地域のリストに登録されているが、閾値を超えた地域が複数存在する場合は、複数の地域が登録されることとなる。
図13に戻り、S405の処理の後、推定部17は、地域のリストに地域の情報が登録されているか否かを判定する(S407)。
地域のリストに地域の情報が登録されていないと判定された場合(S407否定)、推定フェーズの処理を終了する。
一方、地域のリストに地域の情報が登録されていると判定された場合(S407肯定)、推定部17は、地域のリストから地域を一つ抽出する。そして、推定部17は、地域を抽出した後、当該地域を地域のリストから削除する(S408)。
例えば、推定部17は、地域の情報である「△県」のみが地域のリストに登録されている状態で、「△県」を抽出する。その後、辞書検索部15は、地域のリストから「△県」を削除する。その結果、地域のリストには、地域の情報が登録されていない状態となる。
続いて、推定部17は、抽出した地域に関連する、住所に関する情報を抽出する。そして、出力部18は、抽出結果を出力する(S409)。例えば、推定部17は、図17に示す住所および座標の情報のリストから、「△県」が含まれる一連の情報として「△寺 △県,△市,△町 34.xxxx,138.xxxx」および「△神社 △県,△市,▲町 34.xxxx,137.xxxx」を抽出する。そして、出力部18は、抽出されたこれらの情報を、推定結果として出力する。
図21は、推定結果の一例を示す図である。図21に示すように、対象文書に含まれる住所表現の各々について、場所の推定結果を出力することができる。
図13に戻り、S409の処理の後、S407に戻る。そして、S407以降の処理を再び実行する。本実施例では、地域のリストには「△県」しか登録されていなかったため、「△県」が削除された後に実行する2回目のS407の処理では、S407否定と判定される。これにより、推定フェーズが終了となる。
以上のようにして、場所推定装置10は、受信した文書の中で言及されている場所を推定することができる。
以下、本実施形態による効果について説明する。
図22は、対象文書から、対象文書の中で言及されている場所を推定する別の一例を示す図である。図22(a)は対象文書を示している。図22(b)は、対象文書中の住所表現に対応する、住所表現辞書から抽出された住所および座標の情報のリストを示している。図22(c)は、対象文書中の住所表現をもとに算出した、各地域に関する所属スコアの算出結果を示している。
図22(a)に示すように、推定フェーズにおいて、対象文書が「昨日、武蔵小杉駅を利用した」である場合には、住所表現として「武蔵小杉駅」が抽出される。そして、図22(b)を参照すると、住所表現辞書には「武蔵小杉駅」が登録されているため、住所表現辞書から、「武蔵小杉駅」に対応する住所に関する情報「神奈川県,川崎市,中原区」および座標の情報「35.5766666667,139.659444444」を抽出することができる。
ところが、学習フェーズにおいて、地域分類規則を作成する際に用いるキーワード群は、辞書中の全ての住所表現を網羅しているとは限らない。例えば学習フェーズにおいて、地域関連スコアを算出する際に用いられるキーワード群に「武蔵小杉駅」が含まれていなかった場合は、「武蔵小杉駅」が神奈川県にあることが学習されない。このため、図22(c)の例に示すように、神奈川県に関する所属スコアを算出した場合に、所属スコアが閾値(0.3とする)よりも低くなることがあり得る。その結果、辞書による推定において住所表現辞書により正しい推定がなされたにも関わらず、機械学習による推定において辞書による推定結果が却下され、対象文書が場所について言及していないと判定されてしまうことがあり得る。
一方、本実施形態によれば、学習フェーズおよび推定フェーズにおいて、対象文書から抽出される単語だけでなく、住所表現辞書から抽出された住所を構成する文字列も加えてキーワード群を構築している。これにより、地域関連スコアおよび所属スコアをより正確に算出することができるため、上述のように、住所表現辞書によって正しい推定がされたにも関わらず、機械学習による推定に基づいて、推定結果が却下されることを防ぐことができる。
単語だけでなく住所を構成する文字列も加えてキーワード群を構築する処理は、推定フェーズだけで行った場合においても相応の効果が期待できる。しかし、上述の処理を学習フェーズおよび推定フェーズの両方において行う方が好ましい。
(変形例)
次に、本実施形態における変形例について説明する。なお、本変形例を実現するための情報処理システムは、図1および図2に例示されている場所推定システムの構成を用いることができるため、重複部分についての説明を省略する。
図23に示す実施形態では、学習フェーズにおいて、住所表現辞書から住所を構成する文字列を抽出する際に、文書から住所表現を抽出してから、各々の住所表現に対応する住所に関する情報を抽出している。これに対して本変形例では、住所表現を抽出せずに、単語に対応する住所を構成する文字列を、住所表現辞書を検索して抽出することを特徴としている。
図23は、学習フェーズの変形例を示すフローチャートである。なお、学習フェーズの処理を開始してからS202までの処理は、これまで説明した処理と同様であるので、説明は省略する。
S202の処理の後、キーワード抽出部14は、S202の処理で抽出された単語をもとに、単語リストを作成する(S301a)。
図24は、学習フェーズにおける、単語リストの一例を示す図である。図24に示すように、単語リストには、文書「○タワーに行って帰りに名物のウナギを食べた」から抽出された「○タワー」、「名物」、「ウナギ」および文書「△と言えば、やはり△寺でしょう」から抽出された「△」、「△寺」が登録されている。
図23に戻り、S301aの処理の後、辞書検索部15は、単語リストに登録されている単語について、住所表現辞書に対応する住所に関する情報があるか否かを一語ずつ検索していく。
まず、辞書検索部15は、単語リストに単語が登録されているか否かを判定する(S302a)。単語リストに単語が登録されていると判定された場合(S302a肯定)、辞書検索部15は、単語リストから単語を1個抽出する。そして、キーワード抽出部14は、抽出した単語を単語リストから削除する(S303a)。
続いて、辞書検索部15は、住所表現辞書を検索し、S303aで抽出した単語が住所表現辞書に登録されているか否かを判定する(S304a)。
抽出した単語が住所表現辞書に含まれていると判定された場合(S304a肯定)、辞書検索部15は、住所表現辞書から、抽出した単語に対応する住所を構成する文字列を抽出する。そして、辞書検索部15は、抽出した結果を第2記憶部12に格納する(S305a)。
一方、抽出した単語が住所表現辞書に登録されていないと判定された場合(S304a否定)、S302aに移り、S302a以降の処理を実行する。この処理を繰り返し行っていくと、やがて単語リストに登録されている単語がなくなる。登録されている単語がなくなると、S302aにおいて、住所表現のリストに住所表現が登録されていないと判定され(S302a否定)、S204に移る。これにより、住所を構成する文字列を抽出する一連の処理が終了する。S204以降の処理は、これまで説明した処理と同様であるので、説明は省略する。
本変形例によれば、単語から住所表現を抽出する処理を省くことができるため、処理を簡略化することができる。また、単語からの住所表現の抽出漏れが発生する懸念を払拭することができる。
以上、本発明の好ましい実施例について詳述したが、本発明は特定の実施例に限定されるものではなく、種々の変形や変更が可能である。例えば、これまで説明した場所推定装置10の処理は、辞書ベースの場所推定手法と機械学習ベースの場所推定手法とを組み合わせて推定を行うだけでなく、辞書ベースの場所推定手法のみ、あるいは機械学習ベースの場所推定手法のみのケースにおいても適用可能である。例えば機械学習ベースの場所推定手法のみを用いて推定を行う場合、抽出された単語に対応する住所に関する情報を抽出したあとに、住所に関する情報に含まれる場所の頻度をカウントし、カウント数を場所毎に比較することにより、文書が言及している場所を推定することも可能である。ここで、カウント数は、第1の指標値の別の一例である。
また、例えば、上述の変形例では、学習フェーズにおいて、単語に対応する住所を構成する文字列を、住所表現辞書を検索して抽出する処理について説明した。一方、当該処理は、推定フェーズにおいて、住所表現辞書を用いて、単語に対応する住所および座標の情報を抽出する処理に適用することも可能である。
10:場所推定装置
11:第1記憶部
12:第2記憶部
13:受信部
14:キーワード抽出部
15:辞書検索部
16:スコア算出部
17:推定部
18:出力部
19:送信部
30:端末装置
50:ネットワーク
61:CPU
62:ROM
63:RAM
64:ストレージ装置
65:ネットワークインタフェース
66:可搬型記憶媒体用ドライブ
67:バス
68:可搬型記憶媒体

Claims (6)

  1. 場所推定装置によって実行される場所推定方法であって、
    ユーザの発信情報から第1の単語を抽出し、
    前記第1の単語に対応する住所に関する情報を記憶部から抽出し、
    前記第1の単語と前記住所に関する情報とを含む第1のキーワードに対応する第1の指標値を場所毎に算出し、
    前記第1の指標値に基づいて、前記発信情報が示す場所を推定する、
    ことを特徴とする場所推定方法。
  2. 前記場所を推定する処理は、
    前記第1の指標値のうち、所定の閾値よりも大きい指標値に対応する場所を、前記発信情報が示す場所として推定し、
    前記第1の指標値の中に前記所定の閾値よりも大きい指標値が存在しない場合、前記発信情報が示す場所が存在しないと推定する、
    処理を含むことを特徴とする請求項1記載の場所推定方法。
  3. 場所の情報が付与された文書情報から抽出された第2の単語と、前記第2の単語に対応する住所に関する情報とを含む第2のキーワードを用いて、前記第2のキーワードと、前記場所毎との関連性の強さを示す第2の指標値を算出する処理を更に有し、
    前記第1の指標値は、前記第2の指標値に基づいて算出することを特徴とする請求項1又は2に記載の場所推定方法。
  4. 前記記憶部から抽出する処理は、前記第1の単語に対応する場所に関する複数の候補を抽出することを含み、
    前記発信情報が示す場所を推定する処理は、場所毎に算出した前記第1の指標値に基づいて、前記複数の候補を絞り込むことを含む、
    ことを特徴とする請求項1又は2に記載の場所推定方法。
  5. ユーザの発信情報から第1の単語を抽出するキーワード抽出部と、
    前記第1の単語に対応する住所に関する情報を記憶部から抽出する辞書検索部と、
    前記第1の単語と前記住所に関する情報とを含む第1のキーワードに対応する第1の指標値を場所毎に算出するスコア算出部と、
    前記第1の指標値に基づいて、前記発信情報が示す場所を推定する推定部と、
    を有することを特徴とする場所推定装置。
  6. 場所推定装置に、
    ユーザの発信情報から第1の単語を抽出する処理と、
    前記第1の単語に対応する住所に関する情報を記憶部から抽出する処理と、
    前記第1の単語と前記住所に関する情報とを含む第1のキーワードに対応する第1の指標値を場所毎に算出する処理と、
    前記第1の指標値に基づいて、前記発信情報が示す場所を推定する処理と、
    を実行させるための場所推定プログラム。
JP2013153939A 2013-07-24 2013-07-24 場所推定方法、場所推定装置および場所推定プログラム Active JP6136702B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013153939A JP6136702B2 (ja) 2013-07-24 2013-07-24 場所推定方法、場所推定装置および場所推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013153939A JP6136702B2 (ja) 2013-07-24 2013-07-24 場所推定方法、場所推定装置および場所推定プログラム

Publications (2)

Publication Number Publication Date
JP2015026135A JP2015026135A (ja) 2015-02-05
JP6136702B2 true JP6136702B2 (ja) 2017-05-31

Family

ID=52490772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013153939A Active JP6136702B2 (ja) 2013-07-24 2013-07-24 場所推定方法、場所推定装置および場所推定プログラム

Country Status (1)

Country Link
JP (1) JP6136702B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6403842B1 (ja) * 2017-07-13 2018-10-10 ヤフー株式会社 情報処理装置、コンテンツ提供システム、情報処理方法、およびプログラム
JP6403855B1 (ja) * 2017-10-20 2018-10-10 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP6788637B2 (ja) * 2018-02-27 2020-11-25 株式会社 ミックウェア 情報検索装置及び情報検索システム
EP3531303A1 (en) 2018-02-27 2019-08-28 Micware Co., Ltd. Information retrieval apparatus, information retrieval system, information retrieval method, and program
JP6568272B2 (ja) * 2018-08-01 2019-08-28 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP6570712B2 (ja) * 2018-08-01 2019-09-04 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
CN112819565B (zh) * 2021-01-20 2023-08-08 南方电网数字平台科技(广东)有限公司 围标串标的检测方法、系统及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5375056B2 (ja) * 2008-12-02 2013-12-25 沖電気工業株式会社 位置表現特定装置、位置表現特定方法及びプログラム
JP5371480B2 (ja) * 2009-02-25 2013-12-18 株式会社 ミックウェア 情報処理装置、情報処理方法、およびプログラム
JP2010231560A (ja) * 2009-03-27 2010-10-14 Zenrin Co Ltd 地図データ誤り修正装置
JP5579141B2 (ja) * 2011-09-06 2014-08-27 日本電信電話株式会社 地域に関する文書専門度判定装置及び方法及びプログラム

Also Published As

Publication number Publication date
JP2015026135A (ja) 2015-02-05

Similar Documents

Publication Publication Date Title
JP6136702B2 (ja) 場所推定方法、場所推定装置および場所推定プログラム
JP6343010B2 (ja) ワイヤレスネットワークのアクセスポイントに関連したエンティティの識別
CN103154993B (zh) 使用社交图信息的位置排序
US9959321B2 (en) Ranking search results by social relevancy
CN108701143B (zh) 促进图像在搜索查询中的使用
CN107771334B (zh) 自动的数据库模式注释
CN107690637B (zh) 使用大表语料库连接语义相关的数据
US10127245B2 (en) Systems, methods, and computer-readable media for interpreting geographical search queries
US20170293696A1 (en) Related entity discovery
US20120330955A1 (en) Document similarity calculation device
WO2015081720A1 (en) Instant messaging (im) based information recommendation method, apparatus, and terminal
JP6853179B2 (ja) 情報プッシュ方法及び装置
CN110674423A (zh) 一种地址定位的方法、装置、可读存储介质和电子设备
US9529822B2 (en) Media or content tagging determined by user credibility signals
KR101934420B1 (ko) 지도 중의 후보 주소 정보를 획득하기 위한 방법 및 장치
WO2018133648A1 (zh) 搜索方法、装置及非临时性计算机可读存储介质
CN112528145A (zh) 信息推荐方法、装置、设备及可读存储介质
CN103235773A (zh) 基于关键词的文本的标签提取方法及装置
CN105893396B (zh) 基于附近位置来解释用户查询
US20150334137A1 (en) Identifying reviews from content associated with a location
AU2015343949B2 (en) Method of predicting location of rendezvous and electronic device for providing same
JP6060039B2 (ja) 特定地点名称判定装置、特定地点名称判定方法、及び特定地点名称判定プログラム
US20170277702A1 (en) Interpreting user queries based on nearby locations
CN102713910B (zh) 辞典生成装置、辞典生成方法
CN106408115A (zh) 出行线路的推荐方法及装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160401

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170417

R150 Certificate of patent or registration of utility model

Ref document number: 6136702

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150