JP2015225491A - バースト領域抽出装置、バースト領域抽出方法及びバースト領域抽出プログラム - Google Patents

バースト領域抽出装置、バースト領域抽出方法及びバースト領域抽出プログラム Download PDF

Info

Publication number
JP2015225491A
JP2015225491A JP2014109760A JP2014109760A JP2015225491A JP 2015225491 A JP2015225491 A JP 2015225491A JP 2014109760 A JP2014109760 A JP 2014109760A JP 2014109760 A JP2014109760 A JP 2014109760A JP 2015225491 A JP2015225491 A JP 2015225491A
Authority
JP
Japan
Prior art keywords
geohash
name
identifier
score
burst
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014109760A
Other languages
English (en)
Other versions
JP5806364B1 (ja
Inventor
佐藤 吉秀
Yoshihide Sato
吉秀 佐藤
義昌 小池
Yoshimasa Koike
義昌 小池
京介 西田
Kyosuke Nishida
京介 西田
裕一郎 関口
Yuichiro Sekiguchi
裕一郎 関口
準二 富田
Junji Tomita
準二 富田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
NTT Resonant Inc
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Resonant Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Resonant Inc filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014109760A priority Critical patent/JP5806364B1/ja
Application granted granted Critical
Publication of JP5806364B1 publication Critical patent/JP5806364B1/ja
Publication of JP2015225491A publication Critical patent/JP2015225491A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】注目度が高まっているスポットや地点、地域を包含する最大の地理範囲を効率的に抽出すること。【解決手段】ジオハッシュ変換部13が、Web文書データに含まれるスポット名や地名を当該名称の地理的な広さに応じたジオハッシュ又は住所に変換し、頻度計数部14が、当該ジオハッシュ又は当該住所にスコアを加算し、当該ジオハッシュ又は当該住所を地理的に包含する、より広い地理範囲を表すジオハッシュ又は当該住所にもスコアを加算して、ジオハッシュ毎又は住所毎の総スコアを算出し、バースト判定部15が、当該総スコアが時間の経過に伴い上昇したジオハッシュ又は住所の有無を判定し、バースト領域抽出部16が、当該判定の結果、総スコアが時間の経過に伴い上昇したジオハッシュ又は住所を抽出する。【選択図】図1

Description

本発明は、バースト領域を抽出する技術に関する。
イベント場所や事件場所といった話題性の高い場所を抽出する技術が求められている。特許文献1,2によれば、Web文書データ内の単語や検索エンジンに入力される検索クエリの出現頻度に基づき、当該出現頻度が時間の経過に伴い上昇した単語を抽出する方法を考案している。この技術を用いることにより、Web文書データに出現するスポット名称(店舗名や駅名等のスポット名)や地域名称(地名)の出現頻度変化を分析し、当該出現頻度が急上昇したスポット名や地名を抽出することができる。
特許第5208232号公報 特許第5386548号公報
しかしながら、スポット名や地名のみが抽出されるため、それらを包含する最大の地理範囲を取得できないという課題があった。
本発明は、上記事情を鑑みてなされたものであり、注目度が高まっているスポットや地点、地域を包含する最大の地理範囲を効率的に抽出することを目的とする。
以上の課題を解決するため、請求項1に記載のバースト領域抽出装置は、Web文書データに含まれる地点又は地域の名称を識別子に変換する変換手段と、前記地点又は地域の名称の出現回数を前記識別子に対するスコアとして集計し、前記地点又は地域を地理的に包含する、より広い地理範囲を表す識別子に対するスコアにも前記出現回数を加算して、識別子毎の総スコアを算出し、記憶手段に記憶させる算出手段と、前記記憶手段から各識別子の総スコアを読み出して、前記総スコアが時間の経過に伴い上昇した識別子を抽出する抽出手段と、を有することを特徴とする。
本発明によれば、Web文書データに含まれる地点又は地域の名称を識別子に変換し、当該地点又は地域の名称の出現回数を前記識別子に対するスコアとして集計し、当該地点又は地域を地理的に包含する、より広い地理範囲を表す識別子に対するスコアにも上記出現回数を加算して、識別子毎の総スコアを算出し、当該総スコアが時間の経過に伴い上昇した識別子を抽出するため、注目度が高まっているスポットや地点、地域を包含する最大の地理範囲を効率的に抽出することができる。
請求項2に記載のバースト領域抽出装置は、請求項1に記載のバースト領域抽出装置において、前記抽出手段は、前記抽出した識別子に係る名称の地点又は地域を含むWeb文書データを更に抽出することを要旨とする。
本発明によれば、上記抽出した識別子に係る名称の地点又は地域を含むWeb文書データを更に抽出するため、注目度が高まっているスポットや地点、地域を把握可能なアプリケーションを容易に構築することができる。
請求項3に記載のバースト領域抽出装置は、請求項1又は2に記載のバースト領域抽出装置において、前記算出手段は、前記より広い地理範囲を表す識別子に対するスコアに、前記出現回数に減衰係数を掛けた値を加算することを要旨とする。
請求項4に記載のバースト領域抽出装置は、請求項1乃至3のいずれかに記載のバースト領域抽出装置において、前記識別子とは、前記名称の地理的な広さに応じたジオハッシュ、又は前記名称の地理的な位置を表す住所であることを要旨とする。
請求項5に記載のバースト領域抽出方法は、コンピュータにより、Web文書データに含まれる地点又は地域の名称を識別子に変換する変換ステップと、前記地点又は地域の名称の出現回数を前記識別子に対するスコアとして集計し、前記地点又は地域を地理的に包含する、より広い地理範囲を表す識別子に対するスコアにも前記出現回数を加算して、識別子毎の総スコアを算出し、記憶手段に記憶させる算出ステップと、前記記憶手段から各識別子の総スコアを読み出して、前記総スコアが時間の経過に伴い上昇した識別子を抽出する抽出ステップと、を有することを要旨とする。
請求項6に記載のバースト領域抽出方法は、請求項5に記載のバースト領域抽出方法において、前記抽出ステップでは、前記抽出した識別子に係る名称の地点又は地域を含むWeb文書データを更に抽出することを要旨とする。
請求項7に記載のバースト領域抽出方法は、請求項5又は6に記載のバースト領域抽出方法において、前記算出ステップでは、前記より広い地理範囲を表す識別子に対するスコアに、前記出現回数に減衰係数を掛けた値を加算することを要旨とする。
請求項8に記載のバースト領域抽出方法は、請求項5乃至7のいずれかに記載のバースト領域抽出方法において、前記識別子とは、前記名称の地理的な広さに応じたジオハッシュ、又は前記名称の地理的な位置を表す住所であることを要旨とする。
請求項9に記載のバースト領域抽出プログラムは、請求項5乃至8のいずれかに記載のバースト領域抽出方法をコンピュータに実行させることを要旨とする。
本発明によれば、注目度が高まっているスポットや地点を包含する最大の地理範囲を効率的に抽出することができる。
第1の実施の形態に係るバースト領域抽出装置の機能ブロック構成を示す図である。 バースト領域抽出装置のハードウェア構成を示す図である。 ジオハッシュ説明時の参照図である。 第1の実施の形態に係るバースト領域抽出方法の処理フローを示す図である。 ジオハッシュ変換部の処理フローを示す図である。 第1の実施の形態に係る頻度計数部の処理フローを示す図である。 時系列スコアデータ例を示す図である。 スポット名・地名と正規化住所との対応データ例を示す図である。 第2の実施の形態に係るバースト領域抽出装置の機能ブロック構成を示す図である。 第2の実施の形態に係るバースト領域抽出方法の処理フローを示す図である。 第2の実施の形態に係る頻度計数部の処理フローを示す図である。
以下、本発明を実施する一実施の形態について図面を用いて説明する。
〔第1の実施の形態〕
図1は、本実施の形態に係るバースト領域抽出装置1の機能ブロック構成を示す図である。当該バースト領域抽出装置1は、文書入力部11と、文書データ蓄積部12と、ジオハッシュ変換部13と、頻度計数部14と、バースト判定部15と、バースト領域抽出部16と、バースト領域表示部17と、スポット名・地名データ記憶部18と、時系列スコアデータ記憶部19と、を備えて構成される。
文書入力部11は、インターネット5に存在するWebサーバからWeb文書データを取得し、文書データ蓄積部12に蓄積させる機能を備えている。
文書データ蓄積部12は、インターネット5を介してWebサーバから取得したWeb文書データを蓄積する機能を備えている。
ジオハッシュ変換部13は、文書データ蓄積部12からWeb文書データを取得して、当該Web文書データに含まれるスポット名や地名の名称を当該名称の地理的な広さに応じたジオハッシュに変換する機能を備えている。ジオハッシュについては後述する。
頻度計数部14は、ジオハッシュにスコアを加算し、当該ジオハッシュを地理的に包含する、より広い地理範囲を表すジオハッシュにもスコアを加算してジオハッシュ毎の総スコアを算出し、当該ジオハッシュ毎の総スコアを時系列に記載した時系列スコアデータを時系列スコアデータ記憶部19に記憶する機能を備えている。
バースト判定部15は、時系列スコアデータ記憶部19から時系列スコアデータを取得して、総スコアが時間の経過に伴い上昇したジオハッシュがあるか否か判定する機能を備えている。
バースト領域抽出部16は、バースト判定部15での判定結果に基づき、総スコアが時間の経過に伴い上昇したジオハッシュを抽出する機能を備えている。
バースト領域表示部17は、上記抽出されたジオハッシュが表す地理範囲(バースト領域)をモニタの画面に表示する機能を備えている。
スポット名・地名データ記憶部18は、予め設定された「横浜ランドマークタワー」等のスポット名と「横浜市」や「神奈川県」等の地名とを区別して記憶しておく機能を備えている。
時系列スコアデータ記憶部19は、ジオハッシュと当該ジオハッシュの総スコアとを関連付けて時系列に記憶しておく機能を備えている。
このような機能を有するバースト領域抽出装置1は、図2に示すような、CPU31と、メモリ32と、ハードディスク33と、通信IF34と、モニタ35と、キーボード36と、マウス37と、CPU31〜マウス37の各間を通信可能に接続するバス39とを備えたコンピュータで実現される。メモリ32やハードディスク33は、文書データ蓄積部12と、スポット名・地名データ記憶部18と、時系列スコアデータ記憶部19の各機能を実現する。CPU31は、それら以外の各部の機能を実現する。
続いて、ジオハッシュについて説明する。ジオハッシュとは、地理空間を分割しながらそれぞれの地理範囲を複数文字で表現するエンコード手法である。具体的には、緯度及び経度を所定の変換表に基づき文字列に置換する技術である。詳しくは“http://geohash.org/”や“http://ja.wikipedia.org/wiki/ジオハッシュ”を参照されたい。
このジオハッシュは、「文字列の末尾を削除していくと次第に精度が落ちるが、その反面、広い地理範囲を表すジオハッシュを容易に取得できる」、という特徴がある。例えば、図3に示すように、“ezs42dt”という文字列で表される地理範囲の末尾を例えば1文字削除することにより、当該“ezs42dt”の地理範囲を包含した“ezs42d”という広い地理範囲を表すジオハッシュを取得することができる。同様に、“ezs42d”という文字列で表される地理範囲の末尾を1文字削除することにより、当該“ezs42d”の地理範囲を包含した“ezs42”という更に広い地理範囲を表すジオハッシュを取得することができる。一方、“ezs42”という文字列で表される地理範囲は、その文字列の末尾に1文字を付加した“ezs42d”という文字列が表す地理範囲を包含するだけでなく、他の1文字を付加した“ezs427”という文字列が表す地理範囲も包含する。なお、2つのジオハッシュにおいて、前方から一致する文字列が長いほど、それらのジオハッシュの表す地理範囲が互いに近いことを意味することになる。
本発明では、このようなジオハッシュというコード体系を用い、スポット名称のように緯度経度で表される地点を例えば10文字のジオハッシュで表現し、「横浜市」や「神奈川県」のような地名は、当該地理範囲を包含するような地域のジオハッシュで表現する。そして、あるジオハッシュで表されるスポット名や地名の出現頻度を、当該ジオハッシュの末尾の例えば1文字を削除したジオハッシュにも波及させ、加算する。同様に、2文字、3文字と末尾から1文字ずつ削除しながら、それぞれのジオハッシュのスコアとしても加算する。
次に、バースト領域抽出装置1で行うバースト領域抽出方法について説明する。図4は、バースト領域抽出方法の処理フローを示す図である。
最初に、ステップS101において、ジオハッシュ変換部13は、文書データ蓄積部12からWeb文書データを取得し、取得したWeb文書データに店舗名や駅名といったスポット名、又は横浜市や神奈川県といった地名が含まれる場合、その地理範囲を内包する広さに応じた最長文字数のジオハッシュを求める。
具体的には、地理範囲の狭い名称(スポット名)ほど長い文字数のジオハッシュに変換し、広い名称(地名)ほど短い文字列のジオハッシュに変換する。例えば、Web文書データ内に「横浜ランドマークタワー」というスポット名が存在する場合、当該スポット名を“ezs42wbcde”という文字列のジオハッシュに変換する。一方、「横浜市」という地名については、“ezs42wb”という文字列のジオハッシュに変換する。このとき、スポット名の場合は10文字、地名の場合は4文字〜7文字のように、名称の種別に応じて文字数の範囲に制約を設けてもよい。また、最短文字数のジオハッシュをはみ出すほど広い地名に対しては、ジオハッシュへの変換を行わないようにしてもよい。なお、ステップS101の処理については後で詳述する。
次に、ステップS102において、頻度計数部14は、ステップS101で求めたジオハッシュの末尾を例えば1文字ずつ削除しながら、当該ジオハッシュと、末尾削除による上位の(当該ジオハッシュよりも広い地理範囲を表す)ジオハッシュとにスコアを1ずつ加算し、ジオハッシュ毎の総スコアを集計する。
なお、出現頻度を上位レベルへ波及させる際、減衰係数を乗じて波及させてもよい。また、最上位レベルまで波及させるのではなく、波及させるレベル数に制限を設けてもよい。ステップS102の処理についても後述する。
以上の処理を最新のWeb文書データを収集しながら繰り返し行い、ジオハッシュ毎の総スコアを時系列に記載した時系列スコアデータを時系列スコアデータ記憶部19に蓄積する。
その後、ステップS103において、バースト判定部15は、時系列スコアデータ記憶部19から時系列スコアデータを取得して、バースト状態にあるジオハッシュの有無を判定(スコア値が急峻増加するジオハッシュの有無判定)する。例えば、過去のスコアと最近のスコアの比を算出し、その比が閾値以上のジオハッシュが存在するかを判定する。
最後に、ステップS104において、バースト領域抽出部16は、バースト判定結果がYesのジオハッシュを抽出して地理範囲に変換し、バースト領域表示部17は、当該ジオハッシュの地理範囲をモニタの画面に表示する。これにより、注目度が高まっているスポットや地点、地域を包含する最大の地理範囲を効率的に表示することができる。
また、ステップS104において、バースト領域抽出部16は、ジオハッシュを抽出する際、当該ジオハッシュに係るスポット名又は地名を含むWeb文書データを文書データ記憶部12から併せて抽出する。これにより、Web文書データからは注目度の高まりの根拠を知ることができ、イベント等の発生により注目度が高まっているスポットや地点、地域を、当該根拠と同時に効率的に把握可能なアプリケーションを容易に構築することができる。
なお、画面への表示方法については任意の方法が考えられる。例えば、地理的に包含関係のある複数の地理範囲がいずれもバースト性がある場合、広いほうの地理範囲のみを表示してもよい。具体的には、中華街付近での春節イベントやみなとみらい地区での大道芸イベントにより2つの地点が盛り上がっていて、それらを包含した横浜市中区付近も盛り上がっているとしてバースト判定された場合に、横浜市中区付近のみを表示する。これにより、地図をズームアウトした状態で表示される情報量を削減し、盛り上がっている地域を効率的に絞り込むことができる。
その他、バースト状態にある地理範囲を全て表示してもよい。上記例の場合、横浜市中区付近に加えて、中華街付近やみなとみらい地区も併せて表示する。これにより、近隣の地域が異なる理由で盛り上がっていることを把握することができる。
続いて、前述したように、ステップS101の処理について詳述する。図5は、ジオハッシュ変換部13の処理フローを示す図である。
最初に、ステップS101−1において、ジオハッシュ変換部13は、Web文書データから抽出した文字列が地名かスポット名かを判定する。具体的には、抽出した文字列がスポット名・地名データ記憶部18でスポット名として登録されている場合にはスポット名と判定し、地名として登録されている場合には地名と判定する。その他、形態素解析等の既存技術を用いて文字列の意味を判定してもよい。そして、地名と判定した場合はステップS101−2へ進み、スポット名と判定した場合はステップS101−5へ進む。
次に、ステップS101−2において、ジオハッシュ変換部13は、当該地名が表す地理範囲に外接する矩形を求め、当該外接矩形の南西端と北東端の緯度経度をそれぞれ取得する。あるいは、南東端と北西端の緯度経度をそれぞれ取得するとしてもよい。また、南西端と南東端と北西端と北東端の緯度経度をそれぞれ取得するとしてもよい。
次に、ステップS101−3において、ジオハッシュ変換部13は、ステップS101−2で取得した2組又は4組の緯度経度の各地点を最長文字列のジオハッシュにそれぞれ変換する。
最大文字数のジオハッシュとは、バースト領域抽出装置1で扱うジオハッシュの文字列を列挙したリストであるジオハッシュレベル一覧に記録された文字列のうち値が最大のものである。例えば、ジオハッシュレベル一覧が「4文字、5文字、6文字、7文字、10文字」と定義されている場合、10文字のジオハッシュが最大文字数のジオハッシュとなる。
次に、ステップS101−4において、ジオハッシュ変換部13は、ステップS101−3で生成された2つ又は4つのジオハッシュを先頭文字から順に比較し、最長一致文字列を新たなジオハッシュを求め、上記地名に対するジオハッシュとして出力する。
例えば、2つのジオハッシュが「ezs427bcde」と「ezs42dwxyz」である場合、前方から4文字「ezs4」までが一致し、5文字目が「7」と「d」で異なるため、最長一致文字列は「ezs4」という4文字が新たなジオハッシュとなる。但し、前方からの最長一致文字列がジオハッシュレベル一覧で定義された最短文字数よりも短い場合は、新たなジオハッシュは出力しない。その後、処理を終了する。
一方、ステップS101−1での判定の結果、Web文書データから抽出した文字列がスポット名の場合には、ステップS101−5において、ジオハッシュ変換部13は、当該スポット名の緯度経度の地点を最長文字列のジオハッシュに変換して出力する。その後、処理を終了する。
続いて、ステップS102の処理について詳述する。図6は、頻度計数部14の処理フローを示す図である。
最初に、ステップS102−1において、頻度計数部14は、ステップS101で求めたジオハッシュに対して1を加算する。当該ジオハッシュが過去に1度も出現していない場合、当該ジオハッシュのスコアは1に設定される。
次に、ステップS102−2において、頻度計数部14は、処理対象であるジオハッシュの文字数を、予め別途定められているジオハッシュのレベル一覧と照合し、1段階短いジオハッシュに変換可能か否かを判定する。前述の例で言えば、ジオハッシュから1文字削除できるか否かをここでは判定している。
例えば、ジオハッシュの文字数が10文字であり、ジオハッシュレベル一覧が「4文字、5文字、6文字、7文字、10文字」であれば、1段階短いジオハッシュは7文字であるため、変換可能と判定する。一方、1段階短いジオハッシュへの変換が不可能な場合には、処理を終了する。このとき、短縮する段階数に制限を持たせてもよい。例えば、段階数の制限を2とした場合、10文字のジオハッシュは、最大で6文字まで変換可能であり、5文字以下への短縮は行わず、短縮処理を終了する。
次に、1段階短いジオハッシュへの変換が可能な場合、ステップS102−3において、頻度計数部14は、処理対象のジオハッシュを1段階短縮する。例えば、10文字のジオハッシュから1段階短い7文字のジオハッシュに変換する場合、10文字のジオハッシュの末尾3文字を削除することにより7文字のジオハッシュを生成する。7文字から6文字、6文字から5文字など他の場合においても同様に、末尾から必要な文字数を削除することによりジオハッシュを短縮する。
その後、ステップS102−1に戻り、短縮されたジオハッシュに対して1を加算する。この際、短縮段階数に応じて加算スコアを減衰係数の短縮段階数(10文字→7文字→6文字)の累乗としてもよい。例えば、減衰係数を0.9としたとき、1段階短縮して生成したジオハッシュにはスコア0.9を加算し、2段階短縮して生成したジオハッシュには0.9の2乗=0.81を加算する。また、短縮段階数は、短縮文字数としてもよい。
以降、ジオハッシュの短縮ができなくなるまでステップS102−1〜S102−3を繰り返し実行する。また、同じWeb文書データ内に含まれる他のジオハッシュ、更にはステップS101と同じタイミングで取得した他のWeb文書データ内のジオハッシュについても、ステップS102−1〜S102−3を繰り返し実行する。
ここで、ステップS102−1〜S102−3に基づきジオハッシュに付与されるスコアの具体例を説明する。但し、時刻t1に2つのWeb文書データD1−1,D1−2を取得し、時刻t2にWeb文書データD2−1を取得したと仮定する。また、ジオハッシュレベル一覧は「4文字、5文字、6文字、7文字、10文字」であると仮定する。
まず、Web文書データD1−1の中に「横浜ランドマークタワー」が出現し、そのジオハッシュは10文字の“ezs42wbcde”と仮定する。ステップS102−1では当該“ezs42wbcde”に対して“1”を設定し、その後ステップS102−2からステップS102−3に進む。ステップS102−3では当該ジオハッシュを“ezs42wb”のように1段階短縮する。その後、再びステップS102−1に戻り、短縮後の“ezs42wb”に対して“1”を設定し、ステップS102−3では、当該ジオハッシュを“ezs42w”のように更に1段階短縮する。その後、同様の処理を繰り返し、“ezs4”に対して“1”が設定された時点でそれ以上の短縮はできないため、処理を終了する。
続いて、Web文書データD1−2の中に「横浜市」が出現し、そのジオハッシュは7文字の“ezs42wb”と仮定する。ステップS102−1では当該“ezs42wb”に対して“1”を設定するため、“ezs42wb”の総スコアは“2”となる。その後も同様に、“ezs42w”→”ezs42”→”ezs4”と順次短くしながらステップS102−1で“1”加算する。
これにより、2つのWeb文書データD−1,D−2に基づく時系列頻度データは図7(a)となる。ここで、時刻t1より後の時刻t2を持つWeb文書データD2−1に、“ezs42”のジオハッシュに対応する地名が出現した場合、時刻t2でのスコア集計結果は、“ezs42”=1、“ezs4”=1、他のジオハッシュは“0”となるため、時刻t2における時系列頻度データは図7(b)となる。
本実施の形態によれば、ジオハッシュ変換部13が、Web文書データに含まれるスポット名や地名を当該名称の地理的な広さに応じたジオハッシュに変換し、頻度計数部14が、当該ジオハッシュにスコアを加算し、当該ジオハッシュを地理的に包含する、より広い地理範囲を表すジオハッシュにもスコアを加算して、ジオハッシュ毎の総スコアを算出し、バースト判定部15が、当該総スコアが時間の経過に伴い上昇したジオハッシュの有無を判定し、バースト領域抽出部16が、当該判定の結果、総スコアが時間の経過に伴い上昇したジオハッシュを抽出するので、下位の(狭い)スポットや地域に加えて、これらを地理的に包含する上位の(広い)地域に対する注目度も高い場合には、該当の上位地域もバースト判定され、注目度が高まっているスポットや地点、地域を包含する最大の地理範囲を効率的に抽出することができる。
また、本実施の形態によれば、バースト領域抽出部16が、抽出したジオハッシュに係るスポット名又は地名を含むWeb文書データを更に抽出するので、イベント等の発生により注目度が高まっているスポットや地点、地域を把握可能なアプリケーションを容易に構築することができる。
〔第2の実施の形態〕
第1の実施の形態では、スポット名や地名をジオハッシュに一旦変換し、その末尾の一定文字数を削除することにより上位レベルの地理範囲を取得し、各レベルでのジオハッシュのスコアをカウントする方法について説明した。
一方、本発明は、スポット名や地名を地理的に内包する上位レベルの地域のスコアにもスコアを加算することがポイントであるため、必ずしもジオハッシュを使用する必要はない。そこで、第2の実施の形態では、ジオハッシュに変換することなく上位レベルの地理範囲を取得し、各レベルの地理範囲にスコアをカウントする方法について説明する。
具体的には、(1)まず、スポット名や地名を区切り位置付きの正規化住所に変換するための対応表(図8)をスポット名・地名データ記憶部18で保持しておく。当該スポット名・地名データ記憶部18で保持する正規化住所には、「神奈川県横浜市中区1−2−xx」であれば「神奈川県/横浜市/中区/1−2−xx」のように、住所体系に基づく区切り位置を予め設定しておく。
(2)次に、スポット名を住所に変換する。例えば、「神奈川県横浜市中区1−2−xx」に変換する。「横浜」等の地名についても、都道府県から始まる住所に変換する。例えば、「横浜」を「神奈川県横浜市」に変換する。
(3)続いて、ジオハッシュの末尾を削除するのと同様に、末尾から決まった一定単位の文字列を削除することにより上位レベルの住所を取得する。一定単位の文字列とは、スポット名・地名データ記憶部18に記録されている正規化住所において、1つ左の区切り位置までの文字列を指す。例えば、「神奈川県横浜市中区1−2−xx」を「神奈川県横浜市中区」に変換し、「神奈川県横浜市中区」を「神奈川県横浜市」に変換し、「神奈川県横浜市」を「神奈川県」に変換する。
(4)最後に、住所毎にスコアを加算する。
図9は、本実施の形態に係るバースト領域抽出装置1の機能ブロック構成を示す図である。ジオハッシュ変換部13に代えて、住所正規化部20を備えて構成される。
住所正規化部20は、文書データ蓄積部12からWeb文書データを取得して、当該Web文書データに含まれるスポット名や地名の名称を当該名称の地理的な位置を表す住所に変換する機能を備えている。
頻度計数部14は、住所にスコアを加算し、当該住所が示す地理範囲を包含する、より広い地理範囲を表す住所にもスコアを加算して住所毎の総スコアを算出し、当該住所毎の総スコアを時系列に記載した時系列スコアデータを時系列スコアデータ記憶部19に記憶する機能を備えている。
バースト判定部15は、時系列スコアデータ記憶部19から時系列スコアデータを取得して、総スコアが時間の経過に伴い上昇した住所があるか否か判定する機能を備えている。
バースト領域抽出部16は、バースト判定部15での判定結果に基づき、総スコアが時間の経過に伴い上昇した住所を抽出する機能を備えている。
バースト領域表示部17は、上記抽出された住所が表す地理範囲(バースト領域)をモニタの画面に表示する機能を備えている。
スポット名・地名データ記憶部18は、予め設定された「横浜ランドマークタワー」等のスポット名と「横浜市」や「神奈川県」等の地名とを区別しておく機能を備えている。また、「横浜ランドマークタワー」に対しては該当のスポットが存在する「神奈川県横浜市中区1−2−xx」のような住所を対応付け、「横浜市」に対しては「神奈川県横浜市」のように正確な住所表記を対応付けて記憶しておく機能を備えている。
時系列スコアデータ記憶部19は、住所と当該住所の総スコアとを関連付けて時系列に記憶しておく機能を備えている。
なお、文書入力部11と文書データ蓄積部12の機能については第1の実施の形態で説明した内容と同じである。
次に、バースト領域抽出装置1で行うバースト領域抽出方法について説明する。図10は、バースト領域抽出方法の処理フローを示す図である。
最初に、ステップS201において、住所正規化部20は、文書データ蓄積部12からWeb文書データを取得し、取得したWeb文書データにスポット名又は地名が含まれる場合、その名称を正規化住所に変換する。正規化住所とは、都道府県から始まる住所文字列、又はその末尾を削除した部分文字列である。スポット名に対しては、該当のスポットが存在する住所が正規化住所であり、地名に対しては、「横浜市」や「横浜」であれば「神奈川県横浜市」が正規化住所である。「神奈川県」に対しては、「神奈川県」自体が正規化住所となる。
次に、ステップS202において、頻度計数部14は、ステップS201で求めた住所の末尾を一定単位ずつ削除しながら、当該住所と、末尾削除による上位の(当該住所よりも広い地理範囲を表す)住所とにスコアを1ずつ加算し、住所毎の総スコアを集計する。ステップS202の処理については後述する。
以上の処理を最新のWeb文書データを収集しながら繰り返し行い、住所毎の総スコアを時系列に記載した時系列スコアデータを時系列スコアデータ記憶部19に蓄積する。
その後、ステップS203において、バースト判定部15は、時系列スコアデータ記憶部19から時系列スコアデータを取得して、バースト状態にある住所の有無を判定する。
最後に、ステップS204において、バースト領域抽出部16は、バースト判定結果がYesの住所を抽出して地理範囲に変換し、バースト領域表示部17は、当該住所の地理範囲をモニタの画面に表示する。これにより、注目度が高まっているスポットや地点、地域を包含する最大の地理範囲を効率的に表示することができる。
また、ステップS204において、バースト領域抽出部16は、住所を抽出する際、当該住所に係るスポット名又は地名を含むWeb文書データを、文書データ蓄積部12から併せて抽出する。これにより、Web文書データからは、注目度の高まりの根拠を知ることができ、イベント等の発生により注目度が高まっているスポットや地点、地域を、当該根拠と同時に効率的に把握可能なアプリケーションを容易に構築することができる。
続いて、ステップS202の処理について詳述する。図11は、頻度計数部14の処理フローを示す図である。
最初に、ステップS202−1において、頻度計数部14は、ステップS201で求めた住所に対して1を加算する。当該住所が過去に1度も出現していない場合、当該住所のスコアは1に設定される。
次に、ステップS202−2において、頻度計数部14は、処理対象である住所の文字数を、予め設定されている区切り位置に基づき末尾から1段階削除可能か否かを判定する。
例えば、住所が「神奈川県横浜市中区1−2−xx」であれば、1段階短い住所は「神奈川県横浜市中区」であるため、変換可能と判定する。一方、1段階短い住所への変換が不可能な場合には、処理を終了する。このとき、短縮する段階数に制限を持たせてもよい。例えば、段階数の制限を2とした場合、「神奈川県横浜市中区1−2−xx」という住所は、「神奈川県横浜市中区」「神奈川県横浜市」までの2段階の短縮を行うが、「神奈川県」という3段階の短縮は行わない。
次に、1段階短い住所への変換が可能な場合、ステップS202−3において、頻度計数部14は、処理対象の住所を1段階短縮する。
その後、ステップS202−1に戻り、短縮された住所に対し1を加算する。
本実施の形態によれば、住所正規化部20が、Web文書データに含まれるスポット名や地名を正規化住所に変換し、頻度計数部14が、当該住所にスコアを加算し、当該住所を地理的に包含する、より広い地理範囲を表す住所にもスコアを加算して、住所毎の総スコアを算出し、バースト判定部15が、当該総スコアが時間の経過に伴い上昇した住所の有無を判定し、バースト領域抽出部16が、当該判定の結果、総スコアが時間の経過に伴い上昇した住所を抽出するので、下位の(狭い)スポットや地域に加えて、これらを地理的に包含する上位の(広い)地域に対する注目度も高い場合には、該当の上位地域もバースト判定され、注目度が高まっているスポットや地点、地域を包含する最大の地理範囲を効率的に抽出することができる。
また、本実施の形態によれば、バースト領域抽出部16が、抽出した住所に係るスポット名又は地名を含むWeb文書データを更に抽出するので、イベント等の発生により注目度が高まっているスポットや地点、地域を把握可能なアプリケーションを容易に構築することができる。
最後に、各実施の形態で説明したバースト領域抽出装置1をプログラムとして構築し、コンピュータにインストールして実行させることや、通信ネットワークを介して流通させることも可能である。
1…バースト領域抽出装置
11…文書入力部
12…文書データ蓄積部
13…ジオハッシュ変換部
14…頻度計数部
15…バースト判定部
16…バースト領域抽出部
17…バースト領域表示部
18…スポット名・地名データ記憶部
19…時系列スコアデータ記憶部
20…住所正規化部
31…CPU
32…メモリ
33…ハードディスク
34…通信IF
35…モニタ
36…キーボード
37…マウス
S101〜S104、S101−1〜S101−5、S102−1〜S102−3、S201〜S204、S202−1〜S202−3…ステップ

Claims (9)

  1. Web文書データに含まれる地点又は地域の名称を識別子に変換する変換手段と、
    前記地点又は地域の名称の出現回数を前記識別子に対するスコアとして集計し、前記地点又は地域を地理的に包含する、より広い地理範囲を表す識別子に対するスコアにも前記出現回数を加算して、識別子毎の総スコアを算出し、記憶手段に記憶させる算出手段と、
    前記記憶手段から各識別子の総スコアを読み出して、前記総スコアが時間の経過に伴い上昇した識別子を抽出する抽出手段と、
    を有することを特徴とするバースト領域抽出装置。
  2. 前記抽出手段は、
    前記抽出した識別子に係る名称の地点又は地域を含むWeb文書データを更に抽出することを特徴とする請求項1に記載のバースト領域抽出装置。
  3. 前記算出手段は、
    前記より広い地理範囲を表す識別子に対するスコアに、前記出現回数に減衰係数を掛けた値を加算することを特徴とする請求項1又は2に記載のバースト領域抽出装置。
  4. 前記識別子とは、
    前記名称の地理的な広さに応じたジオハッシュ、又は前記名称の地理的な位置を表す住所であることを特徴とする請求項1乃至3のいずれかに記載のバースト領域抽出装置。
  5. コンピュータにより、
    Web文書データに含まれる地点又は地域の名称を識別子に変換する変換ステップと、
    前記地点又は地域の名称の出現回数を前記識別子に対するスコアとして集計し、前記地点又は地域を地理的に包含する、より広い地理範囲を表す識別子に対するスコアにも前記出現回数を加算して、識別子毎の総スコアを算出し、記憶手段に記憶させる算出ステップと、
    前記記憶手段から各識別子の総スコアを読み出して、前記総スコアが時間の経過に伴い上昇した識別子を抽出する抽出ステップと、
    を有することを特徴とするバースト領域抽出方法。
  6. 前記抽出ステップでは、
    前記抽出した識別子に係る名称の地点又は地域を含むWeb文書データを更に抽出することを特徴とする請求項5に記載のバースト領域抽出方法。
  7. 前記算出ステップでは、
    前記より広い地理範囲を表す識別子に対するスコアに、前記出現回数に減衰係数を掛けた値を加算することを特徴とする請求項5又は6に記載のバースト領域抽出方法。
  8. 前記識別子とは、
    前記名称の地理的な広さに応じたジオハッシュ、又は前記名称の地理的な位置を表す住所であることを特徴とする請求項5乃至7のいずれかに記載のバースト領域抽出方法。
  9. 請求項5乃至8のいずれかに記載のバースト領域抽出方法をコンピュータに実行させることを特徴とするバースト領域抽出プログラム。
JP2014109760A 2014-05-28 2014-05-28 バースト領域抽出装置、バースト領域抽出方法及びバースト領域抽出プログラム Active JP5806364B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014109760A JP5806364B1 (ja) 2014-05-28 2014-05-28 バースト領域抽出装置、バースト領域抽出方法及びバースト領域抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014109760A JP5806364B1 (ja) 2014-05-28 2014-05-28 バースト領域抽出装置、バースト領域抽出方法及びバースト領域抽出プログラム

Publications (2)

Publication Number Publication Date
JP5806364B1 JP5806364B1 (ja) 2015-11-10
JP2015225491A true JP2015225491A (ja) 2015-12-14

Family

ID=54545728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014109760A Active JP5806364B1 (ja) 2014-05-28 2014-05-28 バースト領域抽出装置、バースト領域抽出方法及びバースト領域抽出プログラム

Country Status (1)

Country Link
JP (1) JP5806364B1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6031164B1 (ja) * 2015-07-24 2016-11-24 日本電信電話株式会社 スポット判定装置、スポット判定方法、および、スポット判定プログラム
JP2022504597A (ja) * 2019-03-19 2022-01-13 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 エリアの分割方法と装置、電子装置およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6031164B1 (ja) * 2015-07-24 2016-11-24 日本電信電話株式会社 スポット判定装置、スポット判定方法、および、スポット判定プログラム
JP2022504597A (ja) * 2019-03-19 2022-01-13 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 エリアの分割方法と装置、電子装置およびプログラム
JP7210086B2 (ja) 2019-03-19 2023-01-23 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 エリアの分割方法と装置、電子装置およびプログラム
US11966424B2 (en) 2019-03-19 2024-04-23 Tencent Technology (Shenzhen) Company Limited Method and apparatus for dividing region, storage medium, and electronic device

Also Published As

Publication number Publication date
JP5806364B1 (ja) 2015-11-10

Similar Documents

Publication Publication Date Title
Arthur et al. Social sensing of floods in the UK
KR102137767B1 (ko) 동적 언어 모델
JP6689515B2 (ja) ユーザ地理的ロケーションのタイプを識別するための方法および装置
CN109478184B (zh) 识别、处理和显示数据点聚类
Venerandi et al. Measuring urban deprivation from user generated content
CN103795613B (zh) 一种在线社交网络中朋友关系预测的方法
CN111128399A (zh) 一种基于人流密度的流行病疫情风险等级评估方法
JP7023821B2 (ja) 情報検索システム
KR102117773B1 (ko) 어드레스 정보에 기초한 어카운트 맵핑 방법 및 장치
JP2009058252A5 (ja)
JP4950508B2 (ja) 施設情報管理システム、施設情報管理装置、施設情報管理方法および施設情報管理プログラム
CN104102637A (zh) 一种生成热点区域的方法及装置
CN105376223A (zh) 网络身份关系的可靠度计算方法
JP5806364B1 (ja) バースト領域抽出装置、バースト領域抽出方法及びバースト領域抽出プログラム
Baker et al. Crowdsourcing a cyclist perspective on suggested recreational paths in real-world networks
CN110060472B (zh) 道路交通事件定位方法、系统、可读存储介质和设备
JP6662689B2 (ja) 単語判定装置
KR101624382B1 (ko) 로그 데이터를 이용한 검색 서비스 제공 방법 및 장치
JP5637073B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2014048916A (ja) 周辺情報検索装置、周辺情報検索方法、及び周辺情報検索プログラム
JP7218827B2 (ja) 情報処理装置、ハザードマップ生成方法およびプログラム
Jerônimo et al. Using open data to analyze urban mobility from social networks
KR101623739B1 (ko) 관심지점 데이터베이스 구축 방법 및 그 시스템
JP6106070B2 (ja) 地名推定方法、地名推定装置及び地名推定プログラム
US9436715B2 (en) Data management apparatus and data management method

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150903

R150 Certificate of patent or registration of utility model

Ref document number: 5806364

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350