JP5824416B2

JP5824416B2 - 特徴語抽出装置及び方法及びプログラム

Info

Publication number: JP5824416B2
Application number: JP2012123652A
Authority: JP
Inventors: 宮原　伸二; 伸二宮原; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-05-30
Filing date: 2012-05-30
Publication date: 2015-11-25
Anticipated expiration: 2032-05-30
Also published as: JP2013250671A

Description

本発明は、特定の場所について書かれた文書の場所を推定できる特徴語抽出装置及び方法及びプログラムに係り、特に、場所を推定する際に利用する特徴語数の増加を目的とし、特定地域に関する特長語のスコア算出と、特徴語に対するユーザの認知度に基づいた特徴語抽出装置及び方法及びプログラムに関する。

近年、インターネットを利用したユーザの情報発信手段が多様化してきている。これまでは、ユーザの情報発信手段としてブログが広く利用されてきたが、新しい発信手段としてTwitter(登録商標)(http://www.twitter.com)が急速に広まってきた。このTwitter（登録商標）は、１４０文字以内の短い文章を多くのユーザへ情報を発信できる。また、利用方法はブログと異なり、１日に何度も情報発信するユーザが多いため、ユーザの日常的な情報発信ツールへと浸透している。以下、本明細書では、ブログで発信する情報を「文書」、Twitter(登録商標)で発信する文書を「短文書」と呼ぶ。

このTwitter（登録商標）を利用し、多くの技術開発が行われている。代表的な技術として、Twitter（登録商標）を利用したローカルイベント検出技術がある（例えば、非特許文献１参照）。この技術では、Twitter（登録商標）に対して短文書を分析し、ユーザが情報発信した場所を推定し、緯度、経度を短文書に付与している。この場所推定により、推定した場所近くでのイベントを抽出し、そのイベントをローカルイベントとして利用している。この技術の特徴は、誰でも知っている有名なイベントではなく、あまり知られていない比較的小規模なローカルイベントを抽出できることであり、これらのローカルイベントを自動抽出できることでユーザがより網羅的にイベントを知ることができる。この技術はユーザが情報発信している場所を推定することが重要であり、短文書の分析精度に大きく影響を受ける。

K. Watanabe, O. Ochi, M. Okabe, and R. Onai, Jasmin:A Real-time Local-event Detection System based on Geolocation Information Propagated to Microblogs. In Proc. ACM CIKM'11, pages 2541-2544, 2011.

上記従来の手法では、位置情報をもった施設情報ＤＢを手掛かりとして短文書の場所推定を行っている。ここで、施設情報ＤＢは店舗名を中心とした施設名と緯度経度情報で構成されている。場所推定では、施設情報ＤＢが店舗名の空間的分布度合いを算出し、場所推定に利用する施設名を抽出して利用している。図１、図２を用いて具体的に説明する。図１は、施設名「野菜ストア」の空間的分布を示している。「野菜ストア」はチェーン展開などの理由で、施設情報ＤＢには同じ施設名で複数登録されている。この場合、「野菜ストア」は広く分布しているため、短文書に「野菜ストア」を書いたユーザがどの場所にいるかを特定することは困難である。

次に、図２には、「横浜定食屋」の空間的分布を示している。「横浜定食屋」は数も少なく空間的な広がりが狭いため、短文書に「横浜定食屋」と書いたユーザの場所は高い確率で推定できる。

このように、施設情報ＤＢを利用して空間的分布の狭い施設名を用いて短文書を書いたユーザの場所を推定している。

ここで、従来手法を利用した場合、空間分布の狭い施設名は非常に少なく、また、空間分布の狭い施設名はユーザに広く知られていない場所が多いため、場所を推定できる短文書の数が少ないという問題がある。

本発明は、上記の点に鑑みなされたもので、施設名に限定しない幅広い特徴語を抽出し、それら特徴語を用いて住所不定文書の場所推定数を従来技術以上に推定することが可能な特徴語抽出装置及び方法及びプログラムを提供することを目的とする。

上記の課題を解決するため、本発明（請求項１）は、特定の場所について書かれた文書の場所推定に利用する住所の特徴語を抽出する特徴語抽出装置であって、
住所と作成者が付与された文書を保持する文書記憶手段と、
入力された位置情報に対応する前記文書記憶手段の文書の特徴語の時間情報から時間的周期性を算出し、周期に対する重み関数を用いて周期性スコアを算出し、周期性記憶手段に格納する周期性スコア算出手段と、
前記文書記憶手段から取得した文書を対象として、広域から広域内の狭域へのエリアの縮尺の変化に伴う、該文書に出現する各特徴語の出現確率の変化に基づいて該特徴語の順位上昇率を算出する順位上昇率算出手段と、
前記周期性記憶手段から取得した前記周期性スコアと、前記特徴語の順位上昇率から、特徴語スコアを求める特徴語スコア算出手段と、
前記特徴語スコアの上位Ｎ件の特徴語を本文に含む文書に、入力された住所を付与して住所不定文書記憶手段に格納する位置情報付与手段と、を有する。

また、本発明（請求項２）は、前記周期性スコア算出手段において、
前記特徴語の時間tにおける出現回数を求め、フーリエ変換を用いることにより、前記時間的周期性を算出する手段を含む。

また、本発明（請求項３）は、前記順位上昇率算出手段において、
前記特徴語の順位上昇率を、縮尺毎に、前記文書記憶手段から取得した全文書の数と、該全文書における前記入力された位置情報と同じ位置情報を持つ文書の数と、該全文書における該入力された位置情報と同じ位置情報を持つ文書内での単語の出現頻度から、出現回数が該単語の出現頻度以上のスコアの単語を特徴語とし、該スコアの順位に基づいて前記特徴語の順位上昇率を算出する手段を含む。

従来の技術では、空間分布の狭い施設名は非常に少なく、また、空間分布の狭い施設名はユーザに広く知られていない場合が多いため、場所を推定できる短文書の数が少ない問題があった。これに対し、本発明によれば、施設名に限定することなく、多くの特徴語を対象として、特定地域に関する特徴語、かつ、多くのユーザに知られていない特徴語としてのスコアを算出でき、従来技術以上に場所推定できる短文書の数が多くなる。

従来技術における施設名分布（その１）である。従来技術における施設名分布（その２）である。本発明の一実施の形態における時間周波数算出例（その１）である。本発明の一実施の形態における時間周波数算出例（その２）である。本発明の一実施の形態における特徴語抽出装置の構成図である。本発明の一実施の形態における文書記憶部のデータ例である。本発明の一実施の形態におけるエリア情報記憶部のデータ例である。本発明の一実施の形態における縮尺情報記憶部のデータ例である。本発明の一実施の形態における住所不定文書情報記憶部のデータ例である。本発明の一実施の形態における周期性スコア記憶部のデータ例である。本発明の一実施の形態における単語基本スコア情報記憶部のデータ例である。本発明の一実施の形態における縮尺とエリアの階層である。本発明の一実施の形態における縮尺とエリア別の文書の例である。本発明の一実施の形態における全体動作のフローチャートである。本発明の一実施の形態における周期性スコア算出のフローチャートである。本発明の一実施の形態における重み関数の例である。本発明の一実施の形態における特徴語スコア算出のフローチャートである。

まず、本発明の概要を説明する。

本発明は、特定の地域にしか出現せず、かつ、日常的に出現する特徴語を用いて住所不定文書の場所を推定するため、特徴語のスコアを下記の式を用いて算出する。

特徴語スコア＝「特徴語の順位上昇率」×「周期性スコア」
「特徴語の順位上昇率」は、広域内の狭域での特徴語の出現頻度を基に算出し、この値が大きい場合は特定地域で利用される特徴語とする。具体的には、広域の地域においてはあまり出現する確率は高くないが、狭域の地域においては出現する確率が高い特徴語のスコアを大きくする。また、広域と狭域の両方で出現確率が高い場合は広く知られた特徴語としてスコアを小さくする。そのための算出方法として、ポアソン確率を用いる。例えば、特徴語「青ガエル」（渋谷の待ち合わせ場所）は東京都全体では出現確率が低いが、東京都渋谷区では出現確率が高いため、地域を特定できる特徴語となる。特徴語「ハチ公前」は東京都全体と東京都渋谷区でも高い出現率のため広く知られた特徴語である。

「周期性スコア」は、短文書群に含まれる特徴語の時間的周期性であり、この周期性を用いて特徴語が様々な地域で利用される語かについての推定に利用できる。特徴語word_iの周期性の例を図３、図４に示す。両図では、横軸に時間周波数成分ｎ、縦軸を周波数特性地を示している。図３はｎが小さい場合に値が高くword_iがどの時間帯にも出現したり周期性がないことを示している。また、ｎが大きい場合に高く、word_iがイベントやニュース等の影響で突発的に出現したことを示している。図３の例では、word_iが様々な地域で発信されたり、イベントやニュース等の影響で様々な地域で発信されたと考えられるため、word_iによる場所の推定は困難と考える。次に、図４では、ｎの中間値あたりで値が高く、比較的周期的にword_iが出現している。この例では、word_iが配信される地域が限定されているため安定した周期性を持っていると考えられ、word_iを用いた場所推定が可能と考える。

以下、図面と共に本発明の実施の形態を説明する。

図５は、本発明の一実施の形態における特徴語抽出装置の構成を示す。

同図に示す特徴語抽出装置は、位置情報入力部１、文書収集部２、周期性スコア算出部３、特徴語抽出部４、位置情報付与部５、文書記憶部６、周期性記憶部７、エリア情報記憶部８、縮尺情報記憶部９、住所不定文書記憶部１０、単語基本スコア記憶部１１から構成される。

上記の文書記憶部６、周期性記憶部７、エリア情報記憶部８、縮尺情報記憶部９、住所不定文書記憶部１０、単語基本スコア記憶部１１は、ハードディスクやメモリ等の記憶媒体である。

文書記憶部６は、図６に示すように、予めURL、住所、タイトル、本文、作者ＩＤが格納されており、文書収集部２により参照される。

エリア情報記憶部８は、図７に示すように、予めエリア名、上位エリア、住所名が格納されており、特徴語抽出部４により参照される。

縮尺情報記憶部９は、図８に示すように、予め縮尺番号毎に対応エリアが格納されており、特徴語抽出部４により参照される。

住所不定文書情報記憶部１０は、図９に示すように、本文、作者ＩＤ，投稿時間、場所を格納する。

周期性記憶部７は、図１０に示すように、周期性スコア算出部３で算出された特徴語の周期性スコアが格納され、特徴語抽出部４により参照される。

単語基本スコア情報記憶部１１は、図１１に示すように、単語名、出現頻度、文書数が格納されており、特徴語抽出部４により参照される。

以下に、特徴語抽出装置の動作を説明する。

まず、はじめに、本発明で重要となるエリアの階層関係について説明する。エリア情報記憶部８は、図７に示すようにエリア名、上位エリア、住所名で構成されている。また、縮尺情報記憶部９は図８に示すように、縮尺番号と対応エリアで構成されている。ここで、エリア情報と縮尺情報の関係について、図１２を用いて説明する。各縮尺番号においてエリア名は１個以上存在し、各エリア名は上位と下位の階層関係にある。例えば、エリア１の下位にはエリア２、エリア３が存在し、エリア４の上位にはエリア２が存在する。図８の縮尺情報と図７のエリア情報には、これら縮尺番号に応じたエリア名の階層関係を示している。図１３に縮尺とエリア別の文書の例を示す。

図１４は、本発明の一実施の形態における全体動作のフローチャートである。

ステップ１００）位置情報入力部１において、位置情報を取得する。本実施の形態では、受け取る位置情報は「東京都千代田区」や「東京都千代田区大手町」など住所のテキスト表現とする。ここで、受け取る位置情報はテキスト表現の住所やGPS情報のように緯度、経度情報であっても実施可能である。本実施の形態では、位置情報入力部１に「東京都千代田区大手町」が入力されたものとする。

ステップ１１０）文書収集部２は、位置情報入力部１から位置情報を取得する。ここでは、位置情報として「東京都千代田区大手町」を取得したものとする。文書収集部２は、文書記憶部６にアクセスし、格納されている文書情報から入力された位置情報と同じ「東京都千代田区大手町」をもつ文書情報を抽出する。ここで、文書記憶部６には、図６に示す住所において、「東京都千代田区大手町」をもつ文書情報を全て抽出する。これら抽出した文書情報（短文書）を周期性スコア算出部３と特徴語抽出部４に出力する。

ステップ１２０）周期性スコア算出部３は、文書収集部２から取得した短文書から特徴語を抽出し、当該特徴語の周期性スコアを算出する。当該周期性スコア算出部の処理を図１５を用いて説明する。

ステップ２１０）周期性スコア算出部３は、文書収集部２から文書情報として、URL、住所、タイトル、本文、作者ＩＤを取得し、本文に対して形態素解析して単語に分割し、重複する単語を１つにまとめ、重複のない特徴語リストを作成する。次に、各特徴語に対して、住所不定文書記憶部１０にアクセスし、特徴語を含む短文書を抽出する。住所不定文書記憶部１０のデータ項目は図９に示す通りである。

ステップ２２０）周期性スコア算出部３は、特徴語リストの各特徴語に対して、特徴語を含む短文書を時系列順にソートし、時間ｔにおける特徴語word_iの出現回数f（word_i,t）を求める。

f（word_i,t）=時間tにおけるword_iの出現回数
上記の値を用いて、下記のフーリエ変換式を用いて特徴語の時間的周期性F(f(word_i,t))を算出する。

上記の式において、Nは時間を離散区間で分割した際の時間帯の数を示している。例えば、１ヶ月を１時間単位で分割した時は、N=24*30となる。n(n = 0，1，2，…，N-1)は分割したある時間帯を示している。本実施の形態では、k = 0，1，…，2/Nとする。

上記の式は虚数iを含むため、下記の式のように実数部Re_Fと虚数部Im_Fに分解して周期性F'(f(word_i,t))を算出する。

上記のように、各特徴語f（word_i,t）に対して周期性F'(f(word_i,t))を算出し、次の処理に移行する。

ステップ２３０）上記の周期性F'(f(word_i,t))に対して、nを変化させた値に重み関数を掛け合わせる。本実施の形態では、図１６に示す重み関数を利用し、指定したn1〜n3の周波数対に特徴的なword_iを抽出するため、word_iのスコアを算出する。算出したスコアを周期性記憶部７に格納する。周期性記憶部７のデータ項目は図１０に示す通りである。

ステップ１３０）特徴語抽出部４は、文書収集部２から取得した文書情報と入力された位置情報を取得し、特徴語スコアを算出する。特徴語抽出部４の処理を図１７を用いて説明する。

ステップ３１０）特徴語抽出部４は、制御変数ｔに−1を代入する。また、
文書収集部２から入力された位置情報と文書情報を取得する。位置情報として「東京都千代田区大手町」が入力されたものとする。

ステップ３２０）制御変数ｔにt＋１を代入する。tは縮尺を表しており、ループ回数最大数をt_maxとする。ここでは、t=−１のため、t=0とし、t_maxは図１２より３とする。

ステップ３３０）特徴語抽出部４は、エリア情報記憶部８にアクセスし、縮尺ｔに該当する縮尺のエリア名を抽出する。ここでは、t=0のため、縮尺０のエリア名を抽出する。

次に、以下の手順で、文書情報に含まれる特徴語のスコアを算出する。

１）文書収集部２から取得した全文書の数dを算出する。

２）文書情報の本文を形態素解析し、形態素解析して抽出した単語の全文書中での出現頻度を単語基本スコア記憶部１１にアクセスすることで抽出する。ここで、抽出した単語の出現頻度をｓとする。

３）全文書情報に対し、入力された住所と同じ住所を持つ文書数を算出し、ｋとする。

４）全文書情報に対し、入力された住所と同じ住所を持つ文書内での単語の出現頻度rを算出する。

５）出現頻度rのポアソン確率を下記の式で算出する。

６）上記の５）のポアソン確率を用いて、出現回数がｒ以上の確率を以下の式により算出する。

上記の６）のスコアP(x>r)を文書中の全特徴語について算出し、ステップ３４０に移行する。

ステップ３４０）特徴語抽出部４は、ステップ３３０で算出したP(x>r)のスコアに応じて降順でソートし、順位を付与する。次に、ｔ＞０であればステップ３２０に移行し、そうでなければステップ３５０に移行する。

ステップ３５０）ステップ３２０〜３４０で算出したスコアによる各縮尺の平均順位と縮尺の最下層の順位を基に、下記の式で順位の上昇率を算出する。

次に、特徴語に対する周期性スコアを抽出するため、周期性記憶部７にアクセスして、特徴語の周期性スコアを抽出する。特徴語の順位上昇率と周期性スコアを用いて下記の式で特徴語のスコアを算出する。

特徴語スコア＝α×特徴語の順位上昇率＋（1.0−α）×周期性スコア
ここで、αは0から1.0までの任意の実数とする。

ステップ１４０）位置情報付与部５は、ステップ３５０で算出された特徴語スコアを降順でソートし、上位N件を抽出する。次に、住所不定文書記憶部１０にアクセスし、抽出した上位N件の特徴語を本文に含む短文書に、位置情報入力部１で受け付けた住所を付与する。ここで、位置情報入力部１で受け付けた住所を住所不定文書記憶部１０の住所の欄に挿入する。

なお、上記の図５に示す特徴語抽出装置の各構成要素の各動作をプログラムとして構築し、特徴語抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

１位置情報入力部
２文書収集部
３周期性スコア算出部
４特徴語抽出部
５位置情報付与部
６文書記憶部
７周期性記憶部
８エリア情報記憶部
９縮尺情報記憶部
１０住所不定文書記憶部
１１単語基本スコア記憶部

Claims

特定の場所について書かれた文書の場所推定に利用する住所の特徴語を抽出する特徴語抽出装置であって、
住所と作成者が付与された文書を保持する文書記憶手段と、
入力された位置情報に対応する前記文書記憶手段の文書の特徴語の時間情報から時間的周期性を算出し、周期に対する重み関数を用いて周期性スコアを算出し、周期性記憶手段に格納する周期性スコア算出手段と、
前記文書記憶手段から取得した文書を対象として、広域から広域内の狭域へのエリアの縮尺の変化に伴う、該文書に出現する各特徴語の出現確率の変化に基づいて該特徴語の順位上昇率を算出する順位上昇率算出手段と、
前記周期性記憶手段から取得した前記周期性スコアと、前記特徴語の順位上昇率から、特徴語スコアを求める特徴語スコア算出手段と、
前記特徴語スコアの上位Ｎ件の特徴語を本文に含む文書に、入力された住所を付与して住所不定文書記憶手段に格納する位置情報付与手段と、
を有することを特徴とする特徴語抽出装置。
前記周期性スコア算出手段は、
前記特徴語の時間tにおける出現回数を求め、フーリエ変換を用いることにより、前記時間的周期性を算出する手段を含む
請求項１記載の特徴語抽出装置。
前記順位上昇率算出手段は、
前記特徴語の順位上昇率を、縮尺毎に、前記文書記憶手段から取得した全文書の数と、該全文書における前記入力された位置情報と同じ位置情報を持つ文書の数と、該全文書における該入力された位置情報と同じ位置情報を持つ文書内での単語の出現頻度から、出現回数が該単語の出現頻度以上のスコアの単語を特徴語とし、該スコアの順位に基づいて前記特徴語の順位上昇率を算出する手段を含む
請求項１記載の特徴語抽出装置。
特定の場所について書かれた文書の場所推定に利用する住所の特徴語を抽出する特徴語抽出方法であって、
住所と作成者が付与された文書を保持する文書記憶手段から、入力された位置情報に対応する文書の特徴語を抽出し、該特徴語の時間情報から時間的周期性を算出し、周期に対する重み関数を用いて周期性スコアを算出し、周期性記憶手段に格納する周期性スコア算出ステップと、
前記文書記憶手段から取得した文書を対象として、広域から広域内の狭域へのエリアの縮尺の変化に伴う、該文書に出現する各特徴語の出現確率の変化に基づいて該特徴語の順位上昇率を算出する順位上昇率算出ステップと、
前記周期性記憶手段から取得した前記周期性スコアと、前記特徴語の順位上昇率から、特徴語スコアを求める特徴語スコア算出ステップと、
前記特徴語スコアの上位Ｎ件の特徴語を本文に含む文書に、入力された住所を付与して住所不定文書記憶手段に格納する位置情報付与ステップと、
を行うことを特徴とする特徴語抽出方法。
前記周期性スコア算出ステップにおいて、
前記特徴語の時間tにおける出現回数を求め、フーリエ変換を用いることにより、前記時間的周期性を算出する
請求項４記載の特徴語抽出方法。
前記順位上昇率算出ステップにおいて、
前記特徴語の順位上昇率を、縮尺毎に、前記文書記憶手段から取得した全文書の数と、該全文書における前記入力された位置情報と同じ位置情報を持つ文書の数と、該全文書における該入力された位置情報と同じ位置情報を持つ文書内での単語の出現頻度から、出現回数が該単語の出現頻度以上のスコアの単語を特徴語とし、該スコアの順位に基づいて前記特徴語の順位上昇率を算出する
請求項４記載の特徴語抽出方法。
コンピュータを、
請求項１乃至３のいずれか１項に記載の特徴語抽出装置の各手段として機能させるための特徴語抽出プログラム。