JP2017091436A - 特徴語選択装置 - Google Patents

特徴語選択装置 Download PDF

Info

Publication number
JP2017091436A
JP2017091436A JP2015224607A JP2015224607A JP2017091436A JP 2017091436 A JP2017091436 A JP 2017091436A JP 2015224607 A JP2015224607 A JP 2015224607A JP 2015224607 A JP2015224607 A JP 2015224607A JP 2017091436 A JP2017091436 A JP 2017091436A
Authority
JP
Japan
Prior art keywords
morpheme
feature word
facility
occurrence
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015224607A
Other languages
English (en)
Inventor
健 榎園
Ken Enokizono
健 榎園
佑介 深澤
Yusuke Fukazawa
佑介 深澤
悠 菊地
Yu Kikuchi
悠 菊地
桂一 落合
Keiichi Ochiai
桂一 落合
陽平 森
Yohei Mori
陽平 森
山田 渉
Wataru Yamada
渉 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2015224607A priority Critical patent/JP2017091436A/ja
Publication of JP2017091436A publication Critical patent/JP2017091436A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】場所の特徴を示す特徴語を適切に選択する特徴語選択装置を提供する。【解決手段】ルールベース形態素抽出部14が、ルールベース形態素を複数ユーザ毎抽出し、データ取得部11が、各ユーザによって投稿されたマイクロブログを取得する。施設共起形態素抽出部16が、マイクロブログに含まれる施設を示す情報と、当該マイクロブログに含まれる施設共起形態素とを対応付けて抽出し、算出部19が、ルールベース形態素毎に、各ルールベース形態素のユーザ数を算出し、施設共起形態素毎に、当該施設共起形態素の施設数を算出する。特徴語選択部20は、施設共起形態素毎に、当該施設共起形態素の施設数と、当該施設共起形態素と一致するルールベース形態素におけるユーザ数とを比較した結果に基づいて、施設共起形態素から特徴語を選択する。【選択図】図1

Description

本発明は、場所の特徴を示す特徴語を選択する特徴語選択装置に関する。
近年のWeb技術においては、ブログ、マイクロブログ、SNS(ソーシャルネットワーキングサービス)など、一般ユーザが文章を投稿するサービスが普及している。また、上記のように投稿された文章を含む情報(投稿情報)を用いて、施設の関連ワードを抽出する技術がある。
例えば、特許文献1には、複数の施設の何れかに関する投稿情報に含まれる関連ワードを当該施設に関連付けて施設データベースに登録することが記載されている。
特開2013−97758号公報
しかしながら、上記のような投稿情報には、当該施設に関連するワードだけでなく、施設に関連しないワード(例えば、施設の種類に関わらず用いられるワード)も含むので、単に投稿情報からワードを抽出するだけでは、施設等の場所の特徴を示す特徴語を適切に抽出することができないという問題点がある。
そこで、場所の特徴を示す特徴語を適切に選択する特徴語選択装置を提供することを目的とする。
本発明に係る特徴語選択装置は、各ユーザによって投稿された投稿情報を取得する投稿情報取得手段と、投稿情報取得手段により取得された投稿情報に含まれる場所を示す情報と、当該投稿情報に含まれる場所の特徴を示す特徴語の候補である特徴語候補とを対応付けて抽出する特徴語候補抽出手段と、特徴語候補抽出手段により抽出された特徴語候補それぞれに対応付けられた場所を示す情報の数に基づいた場所数を算出する算出手段と、算出手段により算出された当該特徴語候補の場所数に基づいて、当該特徴語候補から特徴語を選択する選択手段と、を備える。
このような本発明に係る特徴語選択装置によれば、特徴候補語の場所数に基づいて特徴語を選択するので、場所数が高い特徴語候補(何れの場所にも使われると推定される語)を、特徴語としてしまうことを回避することができる。すなわち、場所の特徴を示す特徴語を適切に選択することができる。
本発明に係る特徴語選択装置では、ユーザの属性を示す属性語を複数ユーザ毎に取得する属性取得手段をさらに備え、算出手段は、属性取得手段により取得された属性語それぞれのユーザ数をさらに算出し、選択手段は、特徴語候補抽出手段により抽出された特徴語候補毎に、算出手段により算出された当該特徴語候補の場所数と、当該特徴語候補と一致する属性語における算出手段により算出されたユーザ数とを比較した結果に基づいて、当該特徴語候補から特徴語を選択してもよい。
このような本発明に係る特徴語選択装置によれば、属性語それぞれのユーザ数をさらに用いて特徴語候補から特徴語を選択するので、同一種類の場所が多いことにより特徴語候補の場所数が多い場合でも、当該特徴語候補を画一的に特徴語ではないと判断してしまうことを回避することができる。
本発明に係る特徴語選択装置では、属性取得手段は、ユーザに関する文書であるユーザ文を取得し、当該ユーザ文における、予め定められたユーザの属性に関連する語の近傍にある語を、ユーザの属性語として取得してもよい。
このような本発明に係る特徴語選択装置によれば、ユーザの属性に関連する語の近くにある語をユーザの属性語として取得するので、適切にユーザの属性語を取得することができる。
本発明に係る特徴語選択装置では、複数の場所それぞれに関する場所名称を記憶する場所記憶手段をさらに備え、特徴語候補抽出手段は、投稿情報取得手段により取得された投稿情報の内、場所記憶手段により記憶される場所名称の何れかに関する投稿情報に含まれる場所を示す情報と、特徴語候補とを対応付けて抽出してもよい。
このような本発明に係る特徴語選択装置によれば、予め記憶されている場所名称を用いて、当該場所名称に関する投稿情報から特徴語候補を抽出するので、適切に場所名称に関する投稿情報を特定することができる。
本発明に係る特徴語選択装置では、特徴語候補抽出手段によって対応付けて抽出された情報を記憶する対応付け情報記憶手段をさらに備え、算出手段は、対応付け情報記憶手段に記憶された特徴語候補毎に、当該特徴語候補の場所数を算出してもよい。
このような本発明に係る特徴語選択装置によれば、対応付け情報記憶手段に記憶された特徴語候補をキーとして、特徴語候補の数を算出することができるので、当該特徴語候補の場所数を簡易に算出することができる。
本発明によれば、場所の特徴を示す特徴語を適切に選択することができる。
本発明の実施形態に係るサーバのブロック図である。 サーバ10のハードウェア構成を示す図である。 プロフィール記憶部12が記憶する情報のデータ構造を示す図である。 マイクロブログ記憶部13が記憶する情報のデータ構造を示す図である。 ルールベース形態素記憶部15が記憶する情報のデータ構造を示す図である。 施設情報記憶部17が記憶する情報のデータ構造を示す図である。 施設共起形態素記憶部18が記憶する情報のデータ構造を示す図である。 スコアに基づいて特徴語を選択する例を示す図である。 特徴語記憶部21が記憶する情報のデータ構造を示す図である。 特徴語選択処理全体を示すフローチャートである。 ルールベース形態素を抽出する処理を示すフローチャートである。 施設形態素を抽出する処理を示すフローチャートである。 特徴語を選択する処理を示すフローチャートである。
以下、添付図面を参照して、本発明の好適な実施形態について詳細に説明する。なお、図面の説明において同一又は相当要素には同一符号を付し、重複する説明は省略する。
図1に本実施形態に係るサーバ10(特徴語選択装置)を示す。サーバ10は、各施設に関連付ける特徴語を選択する装置である。特徴語とは、各施設の特徴を示す語であり、当該施設に関心を示すユーザの趣味・嗜好を特定することが可能な語である。例えば、ある施設についての文を投稿するユーザがいる場合、当該施設に関連付けられている特徴語を参照することにより、当該ユーザの趣味・嗜好を特定することができる。
サーバ10は、インターネット等のネットワークに接続されるサーバ装置である。本実施形態では、特徴語の選択は、例えば、Twitter(登録商標)等のマイクロブログのデータを利用して行われる。本実施形態では、Twitterを例として説明する。
Twitterは、各ユーザがマイクロブログを投稿するシステムである。投稿されたマイクロブログは、ユーザの行動内容や、ユーザのいる場所の情報が含まれる。本実施形態では、当該マイクロブログを投稿情報として特徴語の選択に利用する。なお、ユーザにより入力(投稿)されるデータには、マイクロブログだけではなく、ユーザにおいて登録されたプロフィール文(自己紹介文)が含まれている。このプロフィール文には、例えば、ユーザの趣味や、興味を示すものであるユーザの属性を示す語(属性語)が含まれている。このように、プロフィール文は、ユーザに関する文書であり、ユーザの属性語を含む文書(ユーザ文)である。Twitterにおける各ユーザ(アカウント)には、ユーザを特定する情報であるユーザIDが付与されている。よって、上記のマイクロブログ及びプロフィール文には、ユーザIDが関連付けられている。
引き続いて、本実施形態に係るサーバ10の機能について詳細に説明する。サーバ10は、特徴語を選択するためのデータを取得(受信)できるように、Twitterのサービスを提供するサーバとインターネット等のネットワークを介して接続されている。図1に示すように、サーバ10は、データ取得部11(投稿情報取得手段、属性取得手段)と、プロフィール記憶部12と、マイクロブログ記憶部13と、ルールベース形態素抽出部14(属性取得手段)と、ルールベース形態素記憶部15と、施設共起形態素抽出部16(特徴語候補抽出手段)と、施設情報記憶部17(場所記憶手段)と、施設共起形態素記憶部18(対応付け情報記憶手段)と、算出部19(算出手段)と、特徴語選択部20(選択手段)と、特徴語記憶部21とを備えて構成される。
図2は、サーバ10のハードウェア構成図である。図2に示すように、サーバ10は、CPU101、主記憶装置であるRAM(Random Access Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、図1に示す各機能要素による機能が発揮される。なお、サーバ10は複数台のコンピュータによるコンピュータシステムによって構成されていてもよい。以下、図1に示す各機能要素について説明する。
データ取得部11は、特徴語を選択するために必要なデータを取得する手段である。すなわち、データ取得部11は、各ユーザによって投稿されたマイクロブログを投稿したユーザのユーザIDと共に取得する。また、データ取得部11は、プロフィール文を複数ユーザ毎に当該ユーザのユーザIDと共に取得する。データ取得部11は、例えば、インターネット経由でTwitterのサーバに対してデータを要求することで、上記のマイクロブログ及びプロフィール文を取得する。
なお、データ取得部11は、各ユーザのマイクロブログ全てを取得することとしてもよいし、例えば、過去一か月分等の一定期間に投稿されたマイクロブログのみを取得することとしてもよい。データ取得部11は、Twitterのサーバから取得したプロフィール文をプロフィール記憶部12へ記憶し、Twitterのサーバから取得したマイクロブログをマイクロブログ記憶部13へ記憶する。
プロフィール記憶部12は、プロフィール文を記憶するデータベースである。ここで、プロフィール記憶部12が記憶する情報の例を図3に示す。図3に示すように、プロフィール記憶部12は、ユーザIDと、プロフィール文とを対応付けて記憶している。このプロフィール記憶部12が記憶している情報を用いて後述するルールベース形態素抽出部14は、各ユーザの趣味又は嗜好を示す情報(属性語)を抽出する。
マイクロブログ記憶部13は、マイクロブログを記憶するデータベースである。ここで、マイクロブログ記憶部13が記憶する情報の例を図4に示す。図4に示すように、マイクロブログ記憶部13は、ユーザIDと、マイクロブログとを対応付けて記憶している。
ルールベース形態素抽出部14は、プロフィール文を取得し、当該プロフィール文から属性語を取得する部分である。ルールベース形態素抽出部14は、予め定められたタイミング(例えば、データ取得部11がマイクロブログ及びプロフィール文を取得した後)で、プロフィール記憶部12からユーザID及びプロフィール文を取得する。例えば、ルールベース形態素抽出部14は、ユーザIDが「User_0001」であり、プロフィール文が「横浜在住。野球が趣味な大学生です、よろしく!」であるデータを取得する。
ルールベース形態素抽出部14は、取得したプロフィール文に対して、公知の形態素解析を行い、当該プロフィール文を単語列(形態素列)に分割すると共に分割した各単語の品詞を推定する。ルールベース形態素抽出部14は、分割した各単語の品詞のみでなくそれらの活用形を推定してもよい。単語列への分割及び品詞や活用形の推定を行う形態素解析の実現方法については、従来から当業者に広く知られている方法を用いることができる。
例えば、ユーザID「User_0001」に対応するプロフィール文の場合、ルールベース形態素抽出部14による形態素解析結果である単語列、当該単語の品詞、ヨミガナは、「横浜/名詞:固有:地/ヨコハマ」、「在住/名詞:動作/ザイジュウ」、「。/句点」、「野球/名詞:動作/ヤキュウ」、「が/格助詞:連用/ガ」、「趣味/名詞/シュミ」、「な/判定詞:連体/ナ」、「大学生/名詞/ダイガクセイ」、「です/判定詞:連体/デス」、「、/読点」、「よろしく/連用詞/ヨロシク」、「!/句点:感嘆符」のようになる。
続いて、ルールベース形態素抽出部14は、予め記憶している特定ルールに基づいて解析済みの形態素を抽出する。特定ルールとして「好き」、「趣味」、及び「興味」の何れかの単語(特定文字列)の1つ前の形態素と、2つ前の形態素を抽出する。「好き」、「趣味」、及び「興味」の何れかの単語(ユーザの属性に関連する語)を含む文は、ユーザの趣味、嗜好を示す単語が含まれている可能性が高いため上記の特定ルールを記憶している。また、上記「好き」、「趣味」、及び「興味」という単語の近傍(例えば、1つ前又は2つ前)に、具体的な趣味を示す単語が有る場合が多いため、ルールベース形態素抽出部14は、「好き」、「趣味」、及び「興味」の何れかの単語の1つ前の形態素と、2つ前の形態素とを抽出する。
ユーザIDが「User_0001」に対応するプロフィール文の場合、ルールベース形態素抽出部14は、上記プロフィール文に「趣味」が含まれているので、当該「趣味」の1つ前の形態素「が」と、当該「趣味」の2つ前の形態素「野球」とを抽出する。
続いて、ルールベース形態素抽出部14は、上記のように抽出した形態素の内、品詞が名詞であるものを、上記ルールに基づいた形態素であるルールベース形態素(属性語)として、他の形態素をルールベース形態素とはしない。すなわち、ルールベース形態素抽出部14は、抽出した形態素の品詞によってフィルタリングする。上記のプロフィール文の場合、形態素「が」は格助詞で、形態素「野球」は名詞であるので、ルールベース形態素抽出部14は、形態素「野球」のみルールベース形態素とする。このように、ルールベース形態素抽出部14は、プロフィール文における、予め定められた特定語の近傍にある語を、ユーザの属性語として取得する。続いて、ルールベース形態素抽出部14は、上記プロフィール文に対応するユーザIDと、ルールベース形態素とをルールベース形態素記憶部15へ記憶する。
ルールベース形態素記憶部15は、ユーザIDとルールベース形態素とを対応付けた情報を記憶するデータベースである。ここで、ルールベース形態素記憶部15が記憶する情報の例を図5に示す。図5に示すように、ルールベース形態素記憶部15は、ユーザIDと、ルールベース形態素とを対応付けて記憶している。このルールベース形態素記憶部15が記憶している情報を用いて後述する算出部19は、ルールベース形態素毎のユーザ数を算出する。
施設共起形態素抽出部16は、データ取得部11により取得されたマイクロブログに含まれる施設を示す情報と、当該マイクロブログに含まれる施設の特徴を示す特徴語の候補である特徴語候補とを対応付けて抽出する部分である。マイクロブログに含まれる施設とは、マイクロブログに含まれる施設名称等、マイクロブログに含まれる施設に関する情報をいう。また、施設を示す情報とは、当該施設を特定する情報であり、施設の識別子や施設名称が該当する。特徴語候補とは、特徴語の候補となる語である。施設共起形態素抽出部16は、マイクロブログ記憶部13からユーザID及びマイクロブログを取得する。続いて、施設共起形態素抽出部16は、マイクロブログ記憶部13から取得したマイクロブログに対して形態素解析を行って、形態素を抽出する。なお、施設共起形態素抽出部16は、上述のルールベース形態素抽出部14と同様の方法による形態素解析を行う。続いて、施設共起形態素抽出部16は、施設情報記憶部17を参照し、当該施設情報記憶部17に記憶されている情報を取得する。
施設情報記憶部17は、複数の施設それぞれにおける施設IDと施設名称(場所名称)とを対応付けた情報を記憶するデータベースである。ここで、施設情報記憶部17が記憶する情報の例を図6に示す。図6に示すように、施設情報記憶部17は、施設IDと、施設名称とを対応付けて記憶している。施設IDは、施設を識別するための識別子である。施設名称は、施設の名称である。この施設情報記憶部17が記憶している情報を用いて施設共起形態素抽出部16は、施設名称を含むマイクロブログを特定する。
施設共起形態素抽出部16は、施設情報記憶部17に記憶されている施設名称の何れかの施設名称と同一の形態素を含むマイクロブログを特定する。このように、施設共起形態素抽出部16は、施設情報記憶部17により記憶される施設名称の何れかに関するマイクロブログを特定する。施設共起形態素抽出部16は、特定したマイクロブログの形態素の内、当該施設名称とは異なり、且つ品詞が名詞である形態素を、当該施設名称と共起する形態素である施設共起形態素(特徴語候補)として抽出する。
施設共起形態素抽出部16は、抽出した施設共起形態素を含めた情報を施設共起形態素記憶部18へ記憶する。具体的に、施設共起形態素抽出部16は、上記施設名称に対応する施設IDと、当該マイクロブログに対応するユーザIDと、施設共起形態素とを対応付けた情報を施設共起形態素記憶部18へ記憶する。
施設共起形態素記憶部18は、施設IDとユーザIDと施設共起形態素とを記憶するデータベースである。ここで、施設共起形態素記憶部18が記憶する情報の例を図7に示す。図7に示すように、施設共起形態素記憶部18は、施設IDとユーザIDと施設共起形態素とを対応付けて記憶している。この施設共起形態素記憶部18が記憶している情報を用いて後述する算出部19は、施設共起形態素それぞれに対応付けられた施設IDの数に基づいた施設共起形態素の施設数(場所数)を算出する。
算出部19は、ルールベース形態素抽出部14により抽出されたルールベース形態素毎に、各ルールベース形態素のユーザ数を算出すると共に施設共起形態素抽出部16により抽出された施設共起形態素それぞれに対応付けられた施設IDの数に基づいた施設共起形態素の施設数を算出する部分である。
算出部19は、ルールベース形態素記憶部15を参照し、ルールベース形態素毎に、各ルールベース形態素のユーザ数を算出する。具体的に、算出部19は、ルールベース形態素記憶部15に記憶されているそれぞれのルールベース形態素に対応するユーザIDの数を算出することにより、各ルールベース形態素のユーザ数を算出する。また、算出部19は、施設共起形態素記憶部18を参照し、施設共起形態素それぞれに対応付けられた施設IDの数に基づいた施設共起形態素の施設数を算出する。具体的に、算出部19は、施設共起形態素記憶部18に記憶されているそれぞれの施設共起形態素に対応付けられた施設IDの内、互いに重複しない施設IDの数を算出することにより、各施設共起形態素の施設数を算出する。なお、算出部19は、施設共起形態素記憶部18に記憶されているそれぞれの施設共起形態素に対応付けられた施設IDの数を算出することにより、各施設共起形態素の施設数を算出するようにしてもよい。すなわち、算出部19は、施設共起形態素記憶部18に記憶されているそれぞれの施設共起形態素に対応付けられた互いの施設IDが重複する場合に、重複分を計数するようにしてもよい。
算出部19は、各ルールベース形態素と、当該ルールベース形態素のユーザ数と、各施設共起形態素と、当該施設共起形態素の施設数とを特徴語選択部20へ送出する。
特徴語選択部20は、施設共起形態素毎に、当該施設共起形態素の施設数と、当該施設共起形態素と一致するルールベース形態素におけるユーザ数とを比較した結果に基づいて、施設共起形態素から特徴語を選択する部分である。
特徴語選択部20は、算出部19から各ルールベース形態素と、当該ルールベース形態素のユーザ数とを取得する。また、特徴語選択部20は、算出部19から各施設共起形態素と、当該施設共起形態素の施設数とを取得する。
特徴語選択部20は、各施設共起形態素の施設数と、当該施設共起形態素と一致するルールベース形態素のユーザ数とを用いたスコアを算出する。具体的には、各ルールベース形態素のユーザ数を「n(ルールベース、形態素)」とし、各施設共起形態素の施設数を「n(施設共起、形態素)」とし、「n(ルールベース、形態素)」の係数をα(例えば、1.0)とし、「n(施設共起、形態素)」の係数をβ(例えば、10.0)とすると、形態素毎の上記スコアである「n(形態素)」は、以下の式で表される。
n(形態素)=α*n(ルールベース、形態素)―β*n(施設共起、形態素)
上述のように、特徴語選択部20は、施設共起形態素毎に、当該施設共起形態素の施設数と、当該施設共起形態素と一致するルールベース形態素におけるユーザ数とを比較した結果である、形態素毎のスコアを算出する。特徴語選択部20は、形態素毎のスコアと、予め記憶している閾値(例えば、50000)とを比較する。特徴語選択部20は、形態素毎のスコアが閾値以上である場合、当該形態素を特徴語とする。このように、特徴語選択部20は、形態素毎のスコアに基づいて特徴語を選択する。また、特徴語選択部20は、形態素毎のスコアが閾値未満である場合、当該形態素を特徴語としない。
例えば、ルールベース形態素が「野球」であるユーザ数(ルールベース形態素のユーザ数)が100000人、ルールベース形態素が「アニメ」であるユーザ数が150000人、ルールベース形態素が「シーズン」であるユーザ数が40000人、ルールベース形態素が「到来」であるユーザ数が30000人とする。また、施設共起形態素が「野球」である施設数(施設共起形態素毎の施設数)が2000、施設共起形態素が「アニメ」である施設数が500、施設共起形態素が「シーズン」である施設数が2500、施設共起形態素が「到来」である施設数が2000とする。
この場合、特徴語選択部20が、上述の式に基づいて、各形態素のスコアを算出すると、図8に示すような結果となる。図8は、各形態素のn(ルールベース、形態素)と、n(施設共起、形態素)と、n(形態素)と、特徴語とするか否か判断した結果(特徴語とするか否か)とを示すリストである。なお、「特徴語とするか否か」欄に「○」が入力されている形態素は、特徴語となる形態素であり、「×」が入力されている形態素は、特徴語とならない形態素である。
例えば、形態素「アニメ」は、n(ルールベース、形態素)が大きく、n(施設共起、形態素)が小さいため、閾値を超えた値となる。従って、特徴語選択部20は、形態素「アニメ」を特徴語とする。
また、形態素「シーズン」や形態素「到来」のように、特定施設の特徴を示すような形態素ではない場合、施設の種類に関係なく、何れの施設に関するマイクロブログでも共起することが多い。このようなマイクロブログの例として、「今年も〇〇に台風到来。」「○○も本格的な夏が到来したぁ。」「花見シーズンは〇〇で一杯やりたいね。」「シーズン最終戦、○○球場なう。」等がある。よって、施設共起形態素の施設数が非常に多くなる傾向がある。上述の式は、この傾向を考慮した式であるので、形態素「シーズン」及び形態素「到来」のスコアは、閾値を下回る値となる。よって、特徴語選択部20は、形態素「シーズン」及び形態素「到来」を特徴語とはしない。
一方、形態素「野球」のように施設の特徴語として適切であると考えられるものの、野球に関する施設が多いために、多くの施設に関するマイクロブログで共起する形態素もある。そのような形態素は、「〜好き」等の上記特定語を含むプロフィール文に含まれる可能性が高い性質を利用して、ルールベース形態素でのユーザ数が多い場合に閾値以上となるように設定して特徴語から除外されないようにする。よって、特徴語選択部20は、形態素「野球」を特徴語とする。
特徴語選択部20は、特徴語を識別する識別子である特徴語IDを生成し、当該特徴語IDと、特徴語とを対応付けて特徴語記憶部21へ記憶する。
特徴語記憶部21は、特徴語IDと特徴語とを記憶するデータベースである。ここで、特徴語記憶部21が記憶する情報の例を図9に示す。図9に示すように、特徴語記憶部21は、特徴語IDと特徴語とを対応付けて記憶している。この特徴語記憶部21が記憶している情報を用いて、マイクロブログに含まれる施設名称と共起する単語(例えば、形態素)を当該施設名称に係る施設に関連付ける特徴語とするか否かを判断する。
続いて、図10〜図13のフローチャートを用いて、サーバ10が実行する処理手順の説明をする。図10に示すフローチャートは、特徴語を選択する全体処理を示す図である。まず、前提として、データ取得部11がプロフィール文とマイクロブログを取得して、プロフィール文をプロフィール記憶部12に記憶し、マイクロブログをマイクロブログ記憶部13へ記憶しているものとする。まず、ルールベース形態素抽出部14は、プロフィール記憶部12に記憶されているプロフィール文から上述の特定ルールに基づいて、ルールベース形態素を抽出し、当該ルールベース形態素をルールベース形態素記憶部15へ記憶する(ステップS1)。ステップS1の詳細手順については後述する。
続いて、施設共起形態素抽出部16は、マイクロブログ記憶部13に記憶されているマイクロブログから当該マイクロブログに含まれる施設名称と共起する施設共起形態素を抽出し、当該施設共起形態素を施設共起形態素記憶部18へ記憶する(ステップS2)。ステップS2の詳細手順については後述する。続いて、特徴語選択部20は、ルールベース形態素のユーザ数と、施設共起形態素の施設数とに基づいて特徴語を選択し(ステップS3)、選択した特徴語を特徴語記憶部21へ記憶し(ステップS4)、処理を終了する。ステップS3の詳細手順については後述する。
続いて、図11に示すルールベース形態素抽出処理(図10のステップS1)における詳細な処理手順を説明する。まず、ルールベース形態素抽出部14は、プロフィール記憶部12からユーザID及びプロフィール文を取得する(ステップS11)。続いて、ルールベース形態素抽出部14は、当該プロフィール文に対して形態素解析を行い、ルールベース形態素を抽出する(ステップS12)。続いて、ルールベース形態素抽出部14は、ユーザIDと抽出したルールベース形態素とを対応付けてルールベース形態素記憶部15に記憶する(ステップS13)。
続いて、図12に示す施設共起形態素抽出処理(図10のステップS2)における詳細な処理手順を説明する。まず、施設共起形態素抽出部16は、マイクロブログ記憶部13からユーザID及びマイクロブログを取得する(ステップS21)。続いて、施設共起形態素抽出部16は、当該マイクロブログに対して形態素解析を行い、形態素を抽出する(ステップS22)。続いて、施設共起形態素抽出部16は、施設名称を有するマイクロブログから当該施設名称に共起する形態素(施設共起形態素)を抽出する(ステップS23)。施設共起形態素抽出部16は、当該施設名称の施設IDと、ユーザIDと、施設共起形態素とを対応付けて施設共起形態素記憶部18へ記憶する(ステップS24)。
続いて、図13に示す特徴語の選択処理(図10のステップS3)における詳細な処理手順を説明する。まず、算出部19は、ルールベース形態素記憶部15を参照し、ルールベース形態素のユーザ数を算出する(ステップS31)。続いて、算出部19は、施設共起形態素記憶部18を参照し、施設共起形態素の施設数を算出する(ステップS32)。特徴語選択部20は、ルールベース形態素のユーザ数と、施設共起形態素の施設数とに基づいて、施設共起形態素毎にスコアを算出する(ステップS33)。特徴語選択部20は、形態素毎のスコアと閾値とを比較して当該形態素が特徴語を選択する(ステップS34)。
上述の実施形態では、n(ルールベース、形態素)とn(施設共起、形態素)との差分値を各形態素のスコアとする場合について述べたが、以下の式に示すように、比率をスコアとするようにしてもよい。
n(形態素)={α*n(ルールベース、形態素)}/{β*n(施設共起、形態素)}
上述の実施形態では、特定文字列を「好き」、「趣味」、「興味」としたが、他の任意の文字列としてもよい。例えば、「ブーム」をさらに加えるようにしてよい。また特定ルールを「1つ前もしくは2つ前」としたが、「3つ前」や「1つ後」でもよい。また、上記特定文字列に共起する形態素全てとしてもよい。
上述の実施形態では、施設共起形態素の施設数とルールベース形態素のユーザ数とに基づいて施設共起形態素から特徴語を選択する場合について述べたが、施設共起形態素の施設数のみに基づいて施設共起形態素から特徴語を選択するようにしてもよい。この場合でも、異なる種類の施設名称と共起する形態素を特徴語として抽出してしまうことを回避することができる。
上述の実施形態では、マイクロブログに含まれる施設名称と共起する形態素を抽出する場合について述べたが、施設だけでなく、避難場所等のように任意の領域・位置を示すような場所でもよい。
上述の実施形態では、マイクロブログを用いて特徴語を選択する場合について述べたが、ブログ等の他の投稿情報を用いて特徴語を選択するようにしてもよい。
上述の実施形態では、プロフィール文を取得して、当該プロフィール文から属性語を取得する場合について述べたが、予めユーザIDと属性語とが対応付けられたリスト等の情報を取得するようにしてもよい。
続いて、作用効果について説明する。サーバ10では、ルールベース形態素抽出部14が、ユーザの属性を示すルールベース形態素を複数ユーザ毎抽出し、データ取得部11が、各ユーザによって投稿されたマイクロブログを取得する。施設共起形態素抽出部16が、マイクロブログに含まれる施設を示す情報と、当該マイクロブログに含まれる施設共起形態素とを対応付けて抽出し、算出部19が、ルールベース形態素抽出部14により抽出されたルールベース形態素毎に、各ルールベース形態素のユーザ数を算出し、施設共起形態素抽出部16により抽出された施設共起形態素毎に、当該施設共起形態素の施設数を算出する。特徴語選択部20は、施設共起形態素毎に、当該施設共起形態素の施設数と、当該施設共起形態素と一致するルールベース形態素のユーザ数とを比較した結果に基づいて、施設共起形態素から特徴語を選択する。
これにより、ルールベース形態素のユーザ数と、当該ルールベース形態素に一致する施設共起形態素の施設数とを比較して、特徴語を選択するので、同一種類の施設が多いことにより共起形態素の施設数が多い場合でも、当該共起形態素を画一的に特徴語でないと判断してしまうことを回避することができる。すなわち、施設の特徴を示す特徴語を適切に選択することができる。
ルールベース形態素抽出部14は、プロフィール文における、予め定められた特定文字列の近傍にある語を、ルールベース形態素として取得する。これにより、ルールベース形態素抽出部14は、特定文字列の近くにある語をルールベース形態素として取得するので、適切にユーザの属性を示す語(ルールベース形態素)を取得することができる。
施設情報記憶部17は、複数の施設それぞれに関する情報である施設情報を記憶する。施設共起形態素抽出部16は、データ取得部11により取得されたマイクロブログの内、施設情報記憶部17により記憶される情報が示す施設名称の何れかに関するマイクロブログに含まれる施設を示す情報と、施設共起形態素とを対応付けて抽出する。これにより、予め記憶されている施設名称を用いて、当該施設名称に関するマイクロブログから施設共起形態素を抽出するので、適切に施設名称に関するマイクロブログを特定することできる。
また、施設共起形態素記憶部18は、施設共起形態素抽出部16によって対応付けて抽出された情報を記憶する。算出部19は施設共起形態素記憶部18に記憶された施設共起形態素毎に、当該施設共起形態素の施設数を算出する。これにより、施設共起形態素記憶部18に記憶された施設共起形態素をキーとして、特徴語候補の数を算出することができるので、当該施設共起形態素の施設数を簡易に算出することができる。
10…サーバ、11…データ取得部、12…プロフィール記憶部、13…マイクロブログ記憶部、14…ルールベース形態素抽出部、15…ルールベース形態素記憶部、16…施設共起形態素抽出部、17…施設情報記憶部、18…施設共起形態素記憶部、19…算出部、20…特徴語選択部、21…特徴語記憶部、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置。

Claims (5)

  1. 各ユーザによって投稿された投稿情報を取得する投稿情報取得手段と、
    前記投稿情報取得手段により取得された投稿情報に含まれる場所を示す情報と、当該投稿情報に含まれる場所の特徴を示す特徴語の候補である特徴語候補とを対応付けて抽出する特徴語候補抽出手段と、
    前記特徴語候補抽出手段により抽出された特徴語候補それぞれに対応付けられた場所を示す情報の数に基づいた場所数を算出する算出手段と、
    前記算出手段により算出された当該特徴語候補の場所数に基づいて、当該特徴語候補から特徴語を選択する選択手段と、
    を備える特徴語選択装置。
  2. ユーザの属性を示す属性語を複数ユーザ毎に取得する属性取得手段をさらに備え、
    前記算出手段は、前記属性取得手段により取得された属性語それぞれのユーザ数をさらに算出し、
    前記選択手段は、特徴語候補抽出手段により抽出された特徴語候補毎に、前記算出手段により算出された当該特徴語候補の場所数と、当該特徴語候補と一致する属性語における前記算出手段により算出されたユーザ数とを比較した結果に基づいて、当該特徴語候補から特徴語を選択する、請求項1に記載の特徴語選択装置。
  3. 前記属性取得手段は、ユーザに関する文書であるユーザ文を取得し、当該ユーザ文における、予め定められたユーザの属性に関連する語の近傍にある語を、ユーザの属性語として取得する、請求項2に記載の特徴語選択装置。
  4. 複数の場所それぞれに関する場所名称を記憶する場所記憶手段をさらに備え、
    前記特徴語候補抽出手段は、前記投稿情報取得手段により取得された投稿情報の内、前記場所記憶手段により記憶される場所名称の何れかに関する投稿情報に含まれる場所を示す情報と、特徴語候補とを対応付けて抽出する、請求項1〜3の何れか一項に記載の特徴語選択装置。
  5. 前記特徴語候補抽出手段によって対応付けて抽出された情報を記憶する対応付け情報記憶手段をさらに備え、
    前記算出手段は、前記対応付け情報記憶手段に記憶された特徴語候補毎に、当該特徴語候補の場所数を算出する、請求項1〜4の何れか一項に記載の特徴語選択装置。
JP2015224607A 2015-11-17 2015-11-17 特徴語選択装置 Pending JP2017091436A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015224607A JP2017091436A (ja) 2015-11-17 2015-11-17 特徴語選択装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015224607A JP2017091436A (ja) 2015-11-17 2015-11-17 特徴語選択装置

Publications (1)

Publication Number Publication Date
JP2017091436A true JP2017091436A (ja) 2017-05-25

Family

ID=58768708

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015224607A Pending JP2017091436A (ja) 2015-11-17 2015-11-17 特徴語選択装置

Country Status (1)

Country Link
JP (1) JP2017091436A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948141A (zh) * 2017-12-21 2019-06-28 北京京东尚科信息技术有限公司 一种提取特征词的方法和装置
JP2019185442A (ja) * 2018-04-11 2019-10-24 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
US11182605B2 (en) 2018-11-02 2021-11-23 Toyota Mapmaster Incorporated Search device, search method, search program, and recording medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948141A (zh) * 2017-12-21 2019-06-28 北京京东尚科信息技术有限公司 一种提取特征词的方法和装置
JP2019185442A (ja) * 2018-04-11 2019-10-24 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
US11182605B2 (en) 2018-11-02 2021-11-23 Toyota Mapmaster Incorporated Search device, search method, search program, and recording medium

Similar Documents

Publication Publication Date Title
JP6568609B2 (ja) 構造化された検索クエリのための文法モデル
US10303731B2 (en) Social-based spelling correction for online social networks
KR101733135B1 (ko) 온라인 소셜 네트워크에서의 검색 질의 상호작용
KR101671878B1 (ko) 온라인 소셜 네트워크에서 질의를 위한 인버스 연산자의 사용
KR101648533B1 (ko) 온라인 소셜 네트워크에서 질의를 위한 검색 의도
US10409873B2 (en) Searching for content by key-authors on online social networks
Calvin et al. # bully: Uses of hashtags in posts about bullying on Twitter
US9703859B2 (en) Keyword search queries on online social networks
US10298528B2 (en) Topic thread creation
US20160063115A1 (en) Blending by Query Classification on Online Social Networks
WO2019037258A1 (zh) 信息推荐的装置、方法、系统及计算机可读存储介质
US20160042069A1 (en) Identifying and processing recommendation requests
US9369418B2 (en) Determining additional information associated with geographic location information
WO2016014091A1 (en) Ranking external content on online social networks
US10614141B2 (en) Vital author snippets on online social networks
JP6392042B2 (ja) 情報提供装置、情報を提供する方法およびプログラム
JP2017091436A (ja) 特徴語選択装置
US20160042302A1 (en) Information processing device, information processing method, and information processing program
JP7333931B2 (ja) 投稿分析システム、投稿分析装置および投稿分析方法
JP2008242835A (ja) 募集紹介支援システム
JP2017215803A (ja) 特徴語抽出装置
JP7139271B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN107292750B (zh) 社交网络的信息收集方法及信息收集装置
JP2022144120A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2018180915A (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法、及びプログラム