JP2017091436A

JP2017091436A - 特徴語選択装置

Info

Publication number: JP2017091436A
Application number: JP2015224607A
Authority: JP
Inventors: 健榎園; Ken Enokizono; 佑介深澤; Yusuke Fukazawa; 悠菊地; Yu Kikuchi; 桂一落合; Keiichi Ochiai; 陽平森; Yohei Mori; 山田　渉; Wataru Yamada; 渉山田
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2015-11-17
Filing date: 2015-11-17
Publication date: 2017-05-25

Abstract

【課題】場所の特徴を示す特徴語を適切に選択する特徴語選択装置を提供する。【解決手段】ルールベース形態素抽出部１４が、ルールベース形態素を複数ユーザ毎抽出し、データ取得部１１が、各ユーザによって投稿されたマイクロブログを取得する。施設共起形態素抽出部１６が、マイクロブログに含まれる施設を示す情報と、当該マイクロブログに含まれる施設共起形態素とを対応付けて抽出し、算出部１９が、ルールベース形態素毎に、各ルールベース形態素のユーザ数を算出し、施設共起形態素毎に、当該施設共起形態素の施設数を算出する。特徴語選択部２０は、施設共起形態素毎に、当該施設共起形態素の施設数と、当該施設共起形態素と一致するルールベース形態素におけるユーザ数とを比較した結果に基づいて、施設共起形態素から特徴語を選択する。【選択図】図１

Description

本発明は、場所の特徴を示す特徴語を選択する特徴語選択装置に関する。

近年のＷｅｂ技術においては、ブログ、マイクロブログ、ＳＮＳ（ソーシャルネットワーキングサービス）など、一般ユーザが文章を投稿するサービスが普及している。また、上記のように投稿された文章を含む情報（投稿情報）を用いて、施設の関連ワードを抽出する技術がある。

例えば、特許文献１には、複数の施設の何れかに関する投稿情報に含まれる関連ワードを当該施設に関連付けて施設データベースに登録することが記載されている。

特開２０１３−９７７５８号公報

しかしながら、上記のような投稿情報には、当該施設に関連するワードだけでなく、施設に関連しないワード（例えば、施設の種類に関わらず用いられるワード）も含むので、単に投稿情報からワードを抽出するだけでは、施設等の場所の特徴を示す特徴語を適切に抽出することができないという問題点がある。

そこで、場所の特徴を示す特徴語を適切に選択する特徴語選択装置を提供することを目的とする。

本発明に係る特徴語選択装置は、各ユーザによって投稿された投稿情報を取得する投稿情報取得手段と、投稿情報取得手段により取得された投稿情報に含まれる場所を示す情報と、当該投稿情報に含まれる場所の特徴を示す特徴語の候補である特徴語候補とを対応付けて抽出する特徴語候補抽出手段と、特徴語候補抽出手段により抽出された特徴語候補それぞれに対応付けられた場所を示す情報の数に基づいた場所数を算出する算出手段と、算出手段により算出された当該特徴語候補の場所数に基づいて、当該特徴語候補から特徴語を選択する選択手段と、を備える。

このような本発明に係る特徴語選択装置によれば、特徴候補語の場所数に基づいて特徴語を選択するので、場所数が高い特徴語候補（何れの場所にも使われると推定される語）を、特徴語としてしまうことを回避することができる。すなわち、場所の特徴を示す特徴語を適切に選択することができる。

本発明に係る特徴語選択装置では、ユーザの属性を示す属性語を複数ユーザ毎に取得する属性取得手段をさらに備え、算出手段は、属性取得手段により取得された属性語それぞれのユーザ数をさらに算出し、選択手段は、特徴語候補抽出手段により抽出された特徴語候補毎に、算出手段により算出された当該特徴語候補の場所数と、当該特徴語候補と一致する属性語における算出手段により算出されたユーザ数とを比較した結果に基づいて、当該特徴語候補から特徴語を選択してもよい。

このような本発明に係る特徴語選択装置によれば、属性語それぞれのユーザ数をさらに用いて特徴語候補から特徴語を選択するので、同一種類の場所が多いことにより特徴語候補の場所数が多い場合でも、当該特徴語候補を画一的に特徴語ではないと判断してしまうことを回避することができる。

本発明に係る特徴語選択装置では、属性取得手段は、ユーザに関する文書であるユーザ文を取得し、当該ユーザ文における、予め定められたユーザの属性に関連する語の近傍にある語を、ユーザの属性語として取得してもよい。

このような本発明に係る特徴語選択装置によれば、ユーザの属性に関連する語の近くにある語をユーザの属性語として取得するので、適切にユーザの属性語を取得することができる。

本発明に係る特徴語選択装置では、複数の場所それぞれに関する場所名称を記憶する場所記憶手段をさらに備え、特徴語候補抽出手段は、投稿情報取得手段により取得された投稿情報の内、場所記憶手段により記憶される場所名称の何れかに関する投稿情報に含まれる場所を示す情報と、特徴語候補とを対応付けて抽出してもよい。

このような本発明に係る特徴語選択装置によれば、予め記憶されている場所名称を用いて、当該場所名称に関する投稿情報から特徴語候補を抽出するので、適切に場所名称に関する投稿情報を特定することができる。

本発明に係る特徴語選択装置では、特徴語候補抽出手段によって対応付けて抽出された情報を記憶する対応付け情報記憶手段をさらに備え、算出手段は、対応付け情報記憶手段に記憶された特徴語候補毎に、当該特徴語候補の場所数を算出してもよい。

このような本発明に係る特徴語選択装置によれば、対応付け情報記憶手段に記憶された特徴語候補をキーとして、特徴語候補の数を算出することができるので、当該特徴語候補の場所数を簡易に算出することができる。

本発明によれば、場所の特徴を示す特徴語を適切に選択することができる。

本発明の実施形態に係るサーバのブロック図である。サーバ１０のハードウェア構成を示す図である。プロフィール記憶部１２が記憶する情報のデータ構造を示す図である。マイクロブログ記憶部１３が記憶する情報のデータ構造を示す図である。ルールベース形態素記憶部１５が記憶する情報のデータ構造を示す図である。施設情報記憶部１７が記憶する情報のデータ構造を示す図である。施設共起形態素記憶部１８が記憶する情報のデータ構造を示す図である。スコアに基づいて特徴語を選択する例を示す図である。特徴語記憶部２１が記憶する情報のデータ構造を示す図である。特徴語選択処理全体を示すフローチャートである。ルールベース形態素を抽出する処理を示すフローチャートである。施設形態素を抽出する処理を示すフローチャートである。特徴語を選択する処理を示すフローチャートである。

以下、添付図面を参照して、本発明の好適な実施形態について詳細に説明する。なお、図面の説明において同一又は相当要素には同一符号を付し、重複する説明は省略する。

図１に本実施形態に係るサーバ１０（特徴語選択装置）を示す。サーバ１０は、各施設に関連付ける特徴語を選択する装置である。特徴語とは、各施設の特徴を示す語であり、当該施設に関心を示すユーザの趣味・嗜好を特定することが可能な語である。例えば、ある施設についての文を投稿するユーザがいる場合、当該施設に関連付けられている特徴語を参照することにより、当該ユーザの趣味・嗜好を特定することができる。

サーバ１０は、インターネット等のネットワークに接続されるサーバ装置である。本実施形態では、特徴語の選択は、例えば、Ｔｗｉｔｔｅｒ（登録商標）等のマイクロブログのデータを利用して行われる。本実施形態では、Ｔｗｉｔｔｅｒを例として説明する。

Ｔｗｉｔｔｅｒは、各ユーザがマイクロブログを投稿するシステムである。投稿されたマイクロブログは、ユーザの行動内容や、ユーザのいる場所の情報が含まれる。本実施形態では、当該マイクロブログを投稿情報として特徴語の選択に利用する。なお、ユーザにより入力（投稿）されるデータには、マイクロブログだけではなく、ユーザにおいて登録されたプロフィール文（自己紹介文）が含まれている。このプロフィール文には、例えば、ユーザの趣味や、興味を示すものであるユーザの属性を示す語（属性語）が含まれている。このように、プロフィール文は、ユーザに関する文書であり、ユーザの属性語を含む文書（ユーザ文）である。Ｔｗｉｔｔｅｒにおける各ユーザ（アカウント）には、ユーザを特定する情報であるユーザＩＤが付与されている。よって、上記のマイクロブログ及びプロフィール文には、ユーザＩＤが関連付けられている。

引き続いて、本実施形態に係るサーバ１０の機能について詳細に説明する。サーバ１０は、特徴語を選択するためのデータを取得（受信）できるように、Ｔｗｉｔｔｅｒのサービスを提供するサーバとインターネット等のネットワークを介して接続されている。図１に示すように、サーバ１０は、データ取得部１１（投稿情報取得手段、属性取得手段）と、プロフィール記憶部１２と、マイクロブログ記憶部１３と、ルールベース形態素抽出部１４（属性取得手段）と、ルールベース形態素記憶部１５と、施設共起形態素抽出部１６（特徴語候補抽出手段）と、施設情報記憶部１７（場所記憶手段）と、施設共起形態素記憶部１８（対応付け情報記憶手段）と、算出部１９（算出手段）と、特徴語選択部２０（選択手段）と、特徴語記憶部２１とを備えて構成される。

図２は、サーバ１０のハードウェア構成図である。図２に示すように、サーバ１０は、ＣＰＵ１０１、主記憶装置であるＲＡＭ（Random Access Memory）１０２及びＲＯＭ（Read Only Memory）１０３、通信を行うための通信モジュール１０４、並びにハードディスク等の補助記憶装置１０５等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、図１に示す各機能要素による機能が発揮される。なお、サーバ１０は複数台のコンピュータによるコンピュータシステムによって構成されていてもよい。以下、図１に示す各機能要素について説明する。

データ取得部１１は、特徴語を選択するために必要なデータを取得する手段である。すなわち、データ取得部１１は、各ユーザによって投稿されたマイクロブログを投稿したユーザのユーザＩＤと共に取得する。また、データ取得部１１は、プロフィール文を複数ユーザ毎に当該ユーザのユーザＩＤと共に取得する。データ取得部１１は、例えば、インターネット経由でＴｗｉｔｔｅｒのサーバに対してデータを要求することで、上記のマイクロブログ及びプロフィール文を取得する。

なお、データ取得部１１は、各ユーザのマイクロブログ全てを取得することとしてもよいし、例えば、過去一か月分等の一定期間に投稿されたマイクロブログのみを取得することとしてもよい。データ取得部１１は、Ｔｗｉｔｔｅｒのサーバから取得したプロフィール文をプロフィール記憶部１２へ記憶し、Ｔｗｉｔｔｅｒのサーバから取得したマイクロブログをマイクロブログ記憶部１３へ記憶する。

プロフィール記憶部１２は、プロフィール文を記憶するデータベースである。ここで、プロフィール記憶部１２が記憶する情報の例を図３に示す。図３に示すように、プロフィール記憶部１２は、ユーザＩＤと、プロフィール文とを対応付けて記憶している。このプロフィール記憶部１２が記憶している情報を用いて後述するルールベース形態素抽出部１４は、各ユーザの趣味又は嗜好を示す情報（属性語）を抽出する。

マイクロブログ記憶部１３は、マイクロブログを記憶するデータベースである。ここで、マイクロブログ記憶部１３が記憶する情報の例を図４に示す。図４に示すように、マイクロブログ記憶部１３は、ユーザＩＤと、マイクロブログとを対応付けて記憶している。

ルールベース形態素抽出部１４は、プロフィール文を取得し、当該プロフィール文から属性語を取得する部分である。ルールベース形態素抽出部１４は、予め定められたタイミング（例えば、データ取得部１１がマイクロブログ及びプロフィール文を取得した後）で、プロフィール記憶部１２からユーザＩＤ及びプロフィール文を取得する。例えば、ルールベース形態素抽出部１４は、ユーザＩＤが「User_0001」であり、プロフィール文が「横浜在住。野球が趣味な大学生です、よろしく！」であるデータを取得する。

ルールベース形態素抽出部１４は、取得したプロフィール文に対して、公知の形態素解析を行い、当該プロフィール文を単語列（形態素列）に分割すると共に分割した各単語の品詞を推定する。ルールベース形態素抽出部１４は、分割した各単語の品詞のみでなくそれらの活用形を推定してもよい。単語列への分割及び品詞や活用形の推定を行う形態素解析の実現方法については、従来から当業者に広く知られている方法を用いることができる。

例えば、ユーザＩＤ「User_0001」に対応するプロフィール文の場合、ルールベース形態素抽出部１４による形態素解析結果である単語列、当該単語の品詞、ヨミガナは、「横浜／名詞：固有：地／ヨコハマ」、「在住／名詞：動作／ザイジュウ」、「。／句点」、「野球／名詞：動作／ヤキュウ」、「が／格助詞：連用／ガ」、「趣味／名詞／シュミ」、「な／判定詞：連体／ナ」、「大学生／名詞／ダイガクセイ」、「です／判定詞：連体／デス」、「、／読点」、「よろしく／連用詞／ヨロシク」、「！／句点：感嘆符」のようになる。

続いて、ルールベース形態素抽出部１４は、予め記憶している特定ルールに基づいて解析済みの形態素を抽出する。特定ルールとして「好き」、「趣味」、及び「興味」の何れかの単語（特定文字列）の１つ前の形態素と、２つ前の形態素を抽出する。「好き」、「趣味」、及び「興味」の何れかの単語（ユーザの属性に関連する語）を含む文は、ユーザの趣味、嗜好を示す単語が含まれている可能性が高いため上記の特定ルールを記憶している。また、上記「好き」、「趣味」、及び「興味」という単語の近傍（例えば、１つ前又は２つ前）に、具体的な趣味を示す単語が有る場合が多いため、ルールベース形態素抽出部１４は、「好き」、「趣味」、及び「興味」の何れかの単語の１つ前の形態素と、２つ前の形態素とを抽出する。

ユーザＩＤが「User_0001」に対応するプロフィール文の場合、ルールベース形態素抽出部１４は、上記プロフィール文に「趣味」が含まれているので、当該「趣味」の１つ前の形態素「が」と、当該「趣味」の２つ前の形態素「野球」とを抽出する。

続いて、ルールベース形態素抽出部１４は、上記のように抽出した形態素の内、品詞が名詞であるものを、上記ルールに基づいた形態素であるルールベース形態素（属性語）として、他の形態素をルールベース形態素とはしない。すなわち、ルールベース形態素抽出部１４は、抽出した形態素の品詞によってフィルタリングする。上記のプロフィール文の場合、形態素「が」は格助詞で、形態素「野球」は名詞であるので、ルールベース形態素抽出部１４は、形態素「野球」のみルールベース形態素とする。このように、ルールベース形態素抽出部１４は、プロフィール文における、予め定められた特定語の近傍にある語を、ユーザの属性語として取得する。続いて、ルールベース形態素抽出部１４は、上記プロフィール文に対応するユーザＩＤと、ルールベース形態素とをルールベース形態素記憶部１５へ記憶する。

ルールベース形態素記憶部１５は、ユーザＩＤとルールベース形態素とを対応付けた情報を記憶するデータベースである。ここで、ルールベース形態素記憶部１５が記憶する情報の例を図５に示す。図５に示すように、ルールベース形態素記憶部１５は、ユーザＩＤと、ルールベース形態素とを対応付けて記憶している。このルールベース形態素記憶部１５が記憶している情報を用いて後述する算出部１９は、ルールベース形態素毎のユーザ数を算出する。

施設共起形態素抽出部１６は、データ取得部１１により取得されたマイクロブログに含まれる施設を示す情報と、当該マイクロブログに含まれる施設の特徴を示す特徴語の候補である特徴語候補とを対応付けて抽出する部分である。マイクロブログに含まれる施設とは、マイクロブログに含まれる施設名称等、マイクロブログに含まれる施設に関する情報をいう。また、施設を示す情報とは、当該施設を特定する情報であり、施設の識別子や施設名称が該当する。特徴語候補とは、特徴語の候補となる語である。施設共起形態素抽出部１６は、マイクロブログ記憶部１３からユーザＩＤ及びマイクロブログを取得する。続いて、施設共起形態素抽出部１６は、マイクロブログ記憶部１３から取得したマイクロブログに対して形態素解析を行って、形態素を抽出する。なお、施設共起形態素抽出部１６は、上述のルールベース形態素抽出部１４と同様の方法による形態素解析を行う。続いて、施設共起形態素抽出部１６は、施設情報記憶部１７を参照し、当該施設情報記憶部１７に記憶されている情報を取得する。

施設情報記憶部１７は、複数の施設それぞれにおける施設ＩＤと施設名称（場所名称）とを対応付けた情報を記憶するデータベースである。ここで、施設情報記憶部１７が記憶する情報の例を図６に示す。図６に示すように、施設情報記憶部１７は、施設ＩＤと、施設名称とを対応付けて記憶している。施設ＩＤは、施設を識別するための識別子である。施設名称は、施設の名称である。この施設情報記憶部１７が記憶している情報を用いて施設共起形態素抽出部１６は、施設名称を含むマイクロブログを特定する。

施設共起形態素抽出部１６は、施設情報記憶部１７に記憶されている施設名称の何れかの施設名称と同一の形態素を含むマイクロブログを特定する。このように、施設共起形態素抽出部１６は、施設情報記憶部１７により記憶される施設名称の何れかに関するマイクロブログを特定する。施設共起形態素抽出部１６は、特定したマイクロブログの形態素の内、当該施設名称とは異なり、且つ品詞が名詞である形態素を、当該施設名称と共起する形態素である施設共起形態素（特徴語候補）として抽出する。

施設共起形態素抽出部１６は、抽出した施設共起形態素を含めた情報を施設共起形態素記憶部１８へ記憶する。具体的に、施設共起形態素抽出部１６は、上記施設名称に対応する施設ＩＤと、当該マイクロブログに対応するユーザＩＤと、施設共起形態素とを対応付けた情報を施設共起形態素記憶部１８へ記憶する。

施設共起形態素記憶部１８は、施設ＩＤとユーザＩＤと施設共起形態素とを記憶するデータベースである。ここで、施設共起形態素記憶部１８が記憶する情報の例を図７に示す。図７に示すように、施設共起形態素記憶部１８は、施設ＩＤとユーザＩＤと施設共起形態素とを対応付けて記憶している。この施設共起形態素記憶部１８が記憶している情報を用いて後述する算出部１９は、施設共起形態素それぞれに対応付けられた施設ＩＤの数に基づいた施設共起形態素の施設数（場所数）を算出する。

算出部１９は、ルールベース形態素抽出部１４により抽出されたルールベース形態素毎に、各ルールベース形態素のユーザ数を算出すると共に施設共起形態素抽出部１６により抽出された施設共起形態素それぞれに対応付けられた施設ＩＤの数に基づいた施設共起形態素の施設数を算出する部分である。

算出部１９は、ルールベース形態素記憶部１５を参照し、ルールベース形態素毎に、各ルールベース形態素のユーザ数を算出する。具体的に、算出部１９は、ルールベース形態素記憶部１５に記憶されているそれぞれのルールベース形態素に対応するユーザＩＤの数を算出することにより、各ルールベース形態素のユーザ数を算出する。また、算出部１９は、施設共起形態素記憶部１８を参照し、施設共起形態素それぞれに対応付けられた施設ＩＤの数に基づいた施設共起形態素の施設数を算出する。具体的に、算出部１９は、施設共起形態素記憶部１８に記憶されているそれぞれの施設共起形態素に対応付けられた施設ＩＤの内、互いに重複しない施設ＩＤの数を算出することにより、各施設共起形態素の施設数を算出する。なお、算出部１９は、施設共起形態素記憶部１８に記憶されているそれぞれの施設共起形態素に対応付けられた施設ＩＤの数を算出することにより、各施設共起形態素の施設数を算出するようにしてもよい。すなわち、算出部１９は、施設共起形態素記憶部１８に記憶されているそれぞれの施設共起形態素に対応付けられた互いの施設ＩＤが重複する場合に、重複分を計数するようにしてもよい。

算出部１９は、各ルールベース形態素と、当該ルールベース形態素のユーザ数と、各施設共起形態素と、当該施設共起形態素の施設数とを特徴語選択部２０へ送出する。

特徴語選択部２０は、施設共起形態素毎に、当該施設共起形態素の施設数と、当該施設共起形態素と一致するルールベース形態素におけるユーザ数とを比較した結果に基づいて、施設共起形態素から特徴語を選択する部分である。

特徴語選択部２０は、算出部１９から各ルールベース形態素と、当該ルールベース形態素のユーザ数とを取得する。また、特徴語選択部２０は、算出部１９から各施設共起形態素と、当該施設共起形態素の施設数とを取得する。

特徴語選択部２０は、各施設共起形態素の施設数と、当該施設共起形態素と一致するルールベース形態素のユーザ数とを用いたスコアを算出する。具体的には、各ルールベース形態素のユーザ数を「ｎ（ルールベース、形態素）」とし、各施設共起形態素の施設数を「ｎ（施設共起、形態素）」とし、「ｎ（ルールベース、形態素）」の係数をα（例えば、１．０）とし、「ｎ（施設共起、形態素）」の係数をβ（例えば、１０．０）とすると、形態素毎の上記スコアである「ｎ（形態素）」は、以下の式で表される。
ｎ（形態素）＝α＊ｎ（ルールベース、形態素）―β＊ｎ（施設共起、形態素）

上述のように、特徴語選択部２０は、施設共起形態素毎に、当該施設共起形態素の施設数と、当該施設共起形態素と一致するルールベース形態素におけるユーザ数とを比較した結果である、形態素毎のスコアを算出する。特徴語選択部２０は、形態素毎のスコアと、予め記憶している閾値（例えば、５００００）とを比較する。特徴語選択部２０は、形態素毎のスコアが閾値以上である場合、当該形態素を特徴語とする。このように、特徴語選択部２０は、形態素毎のスコアに基づいて特徴語を選択する。また、特徴語選択部２０は、形態素毎のスコアが閾値未満である場合、当該形態素を特徴語としない。

例えば、ルールベース形態素が「野球」であるユーザ数（ルールベース形態素のユーザ数）が１０００００人、ルールベース形態素が「アニメ」であるユーザ数が１５００００人、ルールベース形態素が「シーズン」であるユーザ数が４００００人、ルールベース形態素が「到来」であるユーザ数が３００００人とする。また、施設共起形態素が「野球」である施設数（施設共起形態素毎の施設数）が２０００、施設共起形態素が「アニメ」である施設数が５００、施設共起形態素が「シーズン」である施設数が２５００、施設共起形態素が「到来」である施設数が２０００とする。

この場合、特徴語選択部２０が、上述の式に基づいて、各形態素のスコアを算出すると、図８に示すような結果となる。図８は、各形態素のｎ（ルールベース、形態素）と、ｎ（施設共起、形態素）と、ｎ（形態素）と、特徴語とするか否か判断した結果（特徴語とするか否か）とを示すリストである。なお、「特徴語とするか否か」欄に「○」が入力されている形態素は、特徴語となる形態素であり、「×」が入力されている形態素は、特徴語とならない形態素である。

例えば、形態素「アニメ」は、ｎ（ルールベース、形態素）が大きく、ｎ（施設共起、形態素）が小さいため、閾値を超えた値となる。従って、特徴語選択部２０は、形態素「アニメ」を特徴語とする。

また、形態素「シーズン」や形態素「到来」のように、特定施設の特徴を示すような形態素ではない場合、施設の種類に関係なく、何れの施設に関するマイクロブログでも共起することが多い。このようなマイクロブログの例として、「今年も〇〇に台風到来。」「○○も本格的な夏が到来したぁ。」「花見シーズンは〇〇で一杯やりたいね。」「シーズン最終戦、○○球場なう。」等がある。よって、施設共起形態素の施設数が非常に多くなる傾向がある。上述の式は、この傾向を考慮した式であるので、形態素「シーズン」及び形態素「到来」のスコアは、閾値を下回る値となる。よって、特徴語選択部２０は、形態素「シーズン」及び形態素「到来」を特徴語とはしない。

一方、形態素「野球」のように施設の特徴語として適切であると考えられるものの、野球に関する施設が多いために、多くの施設に関するマイクロブログで共起する形態素もある。そのような形態素は、「〜好き」等の上記特定語を含むプロフィール文に含まれる可能性が高い性質を利用して、ルールベース形態素でのユーザ数が多い場合に閾値以上となるように設定して特徴語から除外されないようにする。よって、特徴語選択部２０は、形態素「野球」を特徴語とする。

特徴語選択部２０は、特徴語を識別する識別子である特徴語ＩＤを生成し、当該特徴語ＩＤと、特徴語とを対応付けて特徴語記憶部２１へ記憶する。

特徴語記憶部２１は、特徴語ＩＤと特徴語とを記憶するデータベースである。ここで、特徴語記憶部２１が記憶する情報の例を図９に示す。図９に示すように、特徴語記憶部２１は、特徴語ＩＤと特徴語とを対応付けて記憶している。この特徴語記憶部２１が記憶している情報を用いて、マイクロブログに含まれる施設名称と共起する単語（例えば、形態素）を当該施設名称に係る施設に関連付ける特徴語とするか否かを判断する。

続いて、図１０〜図１３のフローチャートを用いて、サーバ１０が実行する処理手順の説明をする。図１０に示すフローチャートは、特徴語を選択する全体処理を示す図である。まず、前提として、データ取得部１１がプロフィール文とマイクロブログを取得して、プロフィール文をプロフィール記憶部１２に記憶し、マイクロブログをマイクロブログ記憶部１３へ記憶しているものとする。まず、ルールベース形態素抽出部１４は、プロフィール記憶部１２に記憶されているプロフィール文から上述の特定ルールに基づいて、ルールベース形態素を抽出し、当該ルールベース形態素をルールベース形態素記憶部１５へ記憶する（ステップＳ１）。ステップＳ１の詳細手順については後述する。

続いて、施設共起形態素抽出部１６は、マイクロブログ記憶部１３に記憶されているマイクロブログから当該マイクロブログに含まれる施設名称と共起する施設共起形態素を抽出し、当該施設共起形態素を施設共起形態素記憶部１８へ記憶する（ステップＳ２）。ステップＳ２の詳細手順については後述する。続いて、特徴語選択部２０は、ルールベース形態素のユーザ数と、施設共起形態素の施設数とに基づいて特徴語を選択し（ステップＳ３）、選択した特徴語を特徴語記憶部２１へ記憶し（ステップＳ４）、処理を終了する。ステップＳ３の詳細手順については後述する。

続いて、図１１に示すルールベース形態素抽出処理（図１０のステップＳ１）における詳細な処理手順を説明する。まず、ルールベース形態素抽出部１４は、プロフィール記憶部１２からユーザＩＤ及びプロフィール文を取得する（ステップＳ１１）。続いて、ルールベース形態素抽出部１４は、当該プロフィール文に対して形態素解析を行い、ルールベース形態素を抽出する（ステップＳ１２）。続いて、ルールベース形態素抽出部１４は、ユーザＩＤと抽出したルールベース形態素とを対応付けてルールベース形態素記憶部１５に記憶する（ステップＳ１３）。

続いて、図１２に示す施設共起形態素抽出処理（図１０のステップＳ２）における詳細な処理手順を説明する。まず、施設共起形態素抽出部１６は、マイクロブログ記憶部１３からユーザＩＤ及びマイクロブログを取得する（ステップＳ２１）。続いて、施設共起形態素抽出部１６は、当該マイクロブログに対して形態素解析を行い、形態素を抽出する（ステップＳ２２）。続いて、施設共起形態素抽出部１６は、施設名称を有するマイクロブログから当該施設名称に共起する形態素（施設共起形態素）を抽出する（ステップＳ２３）。施設共起形態素抽出部１６は、当該施設名称の施設ＩＤと、ユーザＩＤと、施設共起形態素とを対応付けて施設共起形態素記憶部１８へ記憶する（ステップＳ２４）。

続いて、図１３に示す特徴語の選択処理（図１０のステップＳ３）における詳細な処理手順を説明する。まず、算出部１９は、ルールベース形態素記憶部１５を参照し、ルールベース形態素のユーザ数を算出する（ステップＳ３１）。続いて、算出部１９は、施設共起形態素記憶部１８を参照し、施設共起形態素の施設数を算出する（ステップＳ３２）。特徴語選択部２０は、ルールベース形態素のユーザ数と、施設共起形態素の施設数とに基づいて、施設共起形態素毎にスコアを算出する（ステップＳ３３）。特徴語選択部２０は、形態素毎のスコアと閾値とを比較して当該形態素が特徴語を選択する（ステップＳ３４）。

上述の実施形態では、ｎ（ルールベース、形態素）とｎ（施設共起、形態素）との差分値を各形態素のスコアとする場合について述べたが、以下の式に示すように、比率をスコアとするようにしてもよい。
ｎ（形態素）＝{α＊ｎ（ルールベース、形態素）}/{β＊ｎ（施設共起、形態素）}

上述の実施形態では、特定文字列を「好き」、「趣味」、「興味」としたが、他の任意の文字列としてもよい。例えば、「ブーム」をさらに加えるようにしてよい。また特定ルールを「１つ前もしくは２つ前」としたが、「３つ前」や「１つ後」でもよい。また、上記特定文字列に共起する形態素全てとしてもよい。

上述の実施形態では、施設共起形態素の施設数とルールベース形態素のユーザ数とに基づいて施設共起形態素から特徴語を選択する場合について述べたが、施設共起形態素の施設数のみに基づいて施設共起形態素から特徴語を選択するようにしてもよい。この場合でも、異なる種類の施設名称と共起する形態素を特徴語として抽出してしまうことを回避することができる。

上述の実施形態では、マイクロブログに含まれる施設名称と共起する形態素を抽出する場合について述べたが、施設だけでなく、避難場所等のように任意の領域・位置を示すような場所でもよい。

上述の実施形態では、マイクロブログを用いて特徴語を選択する場合について述べたが、ブログ等の他の投稿情報を用いて特徴語を選択するようにしてもよい。

上述の実施形態では、プロフィール文を取得して、当該プロフィール文から属性語を取得する場合について述べたが、予めユーザＩＤと属性語とが対応付けられたリスト等の情報を取得するようにしてもよい。

続いて、作用効果について説明する。サーバ１０では、ルールベース形態素抽出部１４が、ユーザの属性を示すルールベース形態素を複数ユーザ毎抽出し、データ取得部１１が、各ユーザによって投稿されたマイクロブログを取得する。施設共起形態素抽出部１６が、マイクロブログに含まれる施設を示す情報と、当該マイクロブログに含まれる施設共起形態素とを対応付けて抽出し、算出部１９が、ルールベース形態素抽出部１４により抽出されたルールベース形態素毎に、各ルールベース形態素のユーザ数を算出し、施設共起形態素抽出部１６により抽出された施設共起形態素毎に、当該施設共起形態素の施設数を算出する。特徴語選択部２０は、施設共起形態素毎に、当該施設共起形態素の施設数と、当該施設共起形態素と一致するルールベース形態素のユーザ数とを比較した結果に基づいて、施設共起形態素から特徴語を選択する。

これにより、ルールベース形態素のユーザ数と、当該ルールベース形態素に一致する施設共起形態素の施設数とを比較して、特徴語を選択するので、同一種類の施設が多いことにより共起形態素の施設数が多い場合でも、当該共起形態素を画一的に特徴語でないと判断してしまうことを回避することができる。すなわち、施設の特徴を示す特徴語を適切に選択することができる。

ルールベース形態素抽出部１４は、プロフィール文における、予め定められた特定文字列の近傍にある語を、ルールベース形態素として取得する。これにより、ルールベース形態素抽出部１４は、特定文字列の近くにある語をルールベース形態素として取得するので、適切にユーザの属性を示す語（ルールベース形態素）を取得することができる。

施設情報記憶部１７は、複数の施設それぞれに関する情報である施設情報を記憶する。施設共起形態素抽出部１６は、データ取得部１１により取得されたマイクロブログの内、施設情報記憶部１７により記憶される情報が示す施設名称の何れかに関するマイクロブログに含まれる施設を示す情報と、施設共起形態素とを対応付けて抽出する。これにより、予め記憶されている施設名称を用いて、当該施設名称に関するマイクロブログから施設共起形態素を抽出するので、適切に施設名称に関するマイクロブログを特定することできる。

また、施設共起形態素記憶部１８は、施設共起形態素抽出部１６によって対応付けて抽出された情報を記憶する。算出部１９は施設共起形態素記憶部１８に記憶された施設共起形態素毎に、当該施設共起形態素の施設数を算出する。これにより、施設共起形態素記憶部１８に記憶された施設共起形態素をキーとして、特徴語候補の数を算出することができるので、当該施設共起形態素の施設数を簡易に算出することができる。

１０…サーバ、１１…データ取得部、１２…プロフィール記憶部、１３…マイクロブログ記憶部、１４…ルールベース形態素抽出部、１５…ルールベース形態素記憶部、１６…施設共起形態素抽出部、１７…施設情報記憶部、１８…施設共起形態素記憶部、１９…算出部、２０…特徴語選択部、２１…特徴語記憶部、１０１…ＣＰＵ、１０２…ＲＡＭ、１０３…ＲＯＭ、１０４…通信モジュール、１０５…補助記憶装置。

Claims

各ユーザによって投稿された投稿情報を取得する投稿情報取得手段と、
前記投稿情報取得手段により取得された投稿情報に含まれる場所を示す情報と、当該投稿情報に含まれる場所の特徴を示す特徴語の候補である特徴語候補とを対応付けて抽出する特徴語候補抽出手段と、
前記特徴語候補抽出手段により抽出された特徴語候補それぞれに対応付けられた場所を示す情報の数に基づいた場所数を算出する算出手段と、
前記算出手段により算出された当該特徴語候補の場所数に基づいて、当該特徴語候補から特徴語を選択する選択手段と、
を備える特徴語選択装置。
ユーザの属性を示す属性語を複数ユーザ毎に取得する属性取得手段をさらに備え、
前記算出手段は、前記属性取得手段により取得された属性語それぞれのユーザ数をさらに算出し、
前記選択手段は、特徴語候補抽出手段により抽出された特徴語候補毎に、前記算出手段により算出された当該特徴語候補の場所数と、当該特徴語候補と一致する属性語における前記算出手段により算出されたユーザ数とを比較した結果に基づいて、当該特徴語候補から特徴語を選択する、請求項１に記載の特徴語選択装置。
前記属性取得手段は、ユーザに関する文書であるユーザ文を取得し、当該ユーザ文における、予め定められたユーザの属性に関連する語の近傍にある語を、ユーザの属性語として取得する、請求項２に記載の特徴語選択装置。
複数の場所それぞれに関する場所名称を記憶する場所記憶手段をさらに備え、
前記特徴語候補抽出手段は、前記投稿情報取得手段により取得された投稿情報の内、前記場所記憶手段により記憶される場所名称の何れかに関する投稿情報に含まれる場所を示す情報と、特徴語候補とを対応付けて抽出する、請求項１〜３の何れか一項に記載の特徴語選択装置。
前記特徴語候補抽出手段によって対応付けて抽出された情報を記憶する対応付け情報記憶手段をさらに備え、
前記算出手段は、前記対応付け情報記憶手段に記憶された特徴語候補毎に、当該特徴語候補の場所数を算出する、請求項１〜４の何れか一項に記載の特徴語選択装置。