JP2010250496A - 時空間検索装置及び方法及びプログラム - Google Patents

時空間検索装置及び方法及びプログラム Download PDF

Info

Publication number
JP2010250496A
JP2010250496A JP2009098279A JP2009098279A JP2010250496A JP 2010250496 A JP2010250496 A JP 2010250496A JP 2009098279 A JP2009098279 A JP 2009098279A JP 2009098279 A JP2009098279 A JP 2009098279A JP 2010250496 A JP2010250496 A JP 2010250496A
Authority
JP
Japan
Prior art keywords
polarity
region
spatio
people
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009098279A
Other languages
English (en)
Other versions
JP5133294B2 (ja
Inventor
Takeshi Kurashima
健 倉島
Takashi Fujimura
考 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009098279A priority Critical patent/JP5133294B2/ja
Publication of JP2010250496A publication Critical patent/JP2010250496A/ja
Application granted granted Critical
Publication of JP5133294B2 publication Critical patent/JP5133294B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 ブログなどの個人発信情報を対象として、ある感情を抱く人々を最もよく特徴付ける最適な時空間領域を求める。
【解決手段】 本発明は、解析対象データと、求める時空間領域に対する制約と、人々を特徴付ける条件を入力し、該条件を、最適な時空間領域を求める目的値とし、解析対象データのテキストの内容が、人々を特徴付ける条件に該当する人々によって書かれたものかを判定し、その判定結果と、解析対象データに付与された位置情報、時間情報を要素に持つトランザクションを生成し、その集合から、目的値に該当するトランザクションの出現確率を最大化する時空間領域条件を、数値属性相関ルールを抽出することで導出する。
【選択図】 図1

Description

本発明は、時空間検索装置及び方法及びプログラムに係り、特に、個人の経験が自然言語で記述され、さらにそれを経験した(または、そこに記述されている経験を実際にした)日時、場所を一意に識別可能な数値情報がそれに付与された構造を持つデータを対象として、人間の感情と、時空間領域との関係性を分析するための時空間検索装置及び方法及びプログラムに関する。
近年、ブログやSNS(ソーシャルネットワークサービス)、インターネット掲示板などのいわゆるCGM(Consumer Generated Media)と呼ばれるメディアの普及が著しい。これらのメディアは、企業が発する広告情報や、客観的なデータとは異なり、人間の経験、つまり、個人の行動履歴や、主観的な記述を多く含むという特徴がある。そのため、マーケティングや企業経営、消費行動などの様々な分野で、これらのメディアの利用の必要性が高まっている。また、携帯電話などのGPSを搭載したモバイル端末の普及により、位置情報(緯度、経度)や時間情報(日付)が付与されたCGM、ウェブテキストが発信される機会も増えてきている。
従来の第1の技術として、このようなCGM、特に、ブログを対象として、時間、もしくは空間に特有な人々の行動や感情を発見する経験マイニング技術が知られている。この技術は、ブログに付与された時間情報と、ブログ中に存在する地名、行動語、感情語の共起関係を利用して時間、空間、行動、感情の関係性を導出している(例えば、非特許文献1参照)。
従来の第2の技術として、ある単語の極性(ポジティブ/ネガティブ)を自動抽出する技術が知られている。この技術は、Web検索エンジンのヒット件数を使い、ある単語が、ポジティブな単語(good)とネガティブな単語(bad)のどちらと共起しやすいかという情報をもとに、その単語の極性を自動で決定する。この技術によれば、単語「事故」が、ポジティブよりネガティブの意味を強く持つということがわかる(例えば、非特許文献2参照)。
従来の第3の技術は、単語の評価極性を一軸で評価する第1の技術を拡張し、単語の極性を人間の感情を構成する四軸(<嬉しい,哀しい>、<驚き,予期>、<受容,嫌悪>、<怒り,恐れ>)で評価する技術である(例えば、非特許文献3参照)。
また、従来の第2、第3の技術に依れば、最も単純には、ある文書においてポジティブな単語が、ネガティブな単語よりも多く出現している場合に、その内容が全体としてポジティブであると判断するといったように、文書分類にも応用することが可能である。
大規模テキストからの経験マイニング:倉島健、藤村考、奥田英範,電子情報通信学会 第19回データ工学ワークショップ/第6回日本データベース学会年次大会(DEWS2008),A1-4, 2008. Measuring Praise and Criticism: Inference of Semantic Orientation from Association, P. Turney and M.L. Littman, ACM transaction on Information Systems, Vol. 21, No. 4, 2003. Proposal of Impression Mining from News Articles, T. Kumamoto and K. Tanaka, Proc. of the 10th International Conference on Knowledge-Based & Intelligent Information & Engineering Systems (KES 2005), LNAI 3681, pp. 901-910, 2005.
従来の第1の技術は、時間属性(日付)や空間属性が数値データとして与えられた場合に、これら数値属性をカテゴリ属性に帰着して解くため、得られる解が最適性を持っていなかった。ここでは、血液型、性別のような2つ以上の値をとる属性をカテゴリ属性、時間、緯度/経度、体重、身長といった、一般の数値を取る属性を数値属性と呼ぶ。カテゴリ属性に帰着するということは、つまり、数値属性の連続性を無視することを意味する。例えば、数値属性「日付」の値「2008年11月06日」を、単純なカテゴリ属性「日付」の値「2008年11月6日」として扱った瞬間に、11月5日、11月6日、11月7日…といった連続性が失われ、その結果11月1日から11月7日までの一週間に起こった傾向といった、複数のカテゴリ属性値に跨って起きる傾向を得られなくなる。空間属性についても同様で、従来の第1の技術は、地名で表される領域の一つの単位として傾向を発見するため、地名で表される領域に跨る、もしくは、地名で表される領域の一部で起きている傾向を発見できなかった。
また、従来の第2・第3の技術は、時間に左右されない固定的な単語と極性との関係を発見するための技術であり、時間的/空間的要因によって変化する関係を発見することができない。
本発明は、上記の点に鑑みなされたもので、個人の経験が自然言語で記述され、さらに、それを経験した(または、そこに記述されている経験を実際にした)日時、場所を一意に識別可能な数値情報がそれに付与された構造を持つデータを対象として、ある感情を抱く人々を最もよく特徴付ける最適な時空間領域を求めることが可能な時空間検索装置及び方法及びプログラムを提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、個人の経験が自然言語で記述された文書と、該文書に対して、経験をした位置情報、時間情報が数値データで与えられた構造の解析対象データから、特定の人々を最もよく特徴付ける最適な時空間領域を求める時空間検索装置であって、
解析対象データと、求める時空間領域に対する制約と、人々を特徴付ける条件を入力し、入力情報記憶手段11に格納する入力手段10と、
入力手段10で与えられた人々を特徴付ける条件を、最適な時空間領域を求める目的値とする目的値導出手段30と、
解析対象データのテキストの内容が、人々を特徴付ける条件に該当する人々によって書かれたものかを判定する文書極性判定手段21と、
文書極性判定手段21の判定結果と、解析対象データに付与された位置情報、時間情報に基づいて、位置情報、時間情報、判定結果を要素として持つトランザクションを生成し、トランザクション記憶手段15に格納するトランザクション生成手段22と、
トランザクション記憶手段15のトランザクションの集合から、目的値に該当するトランザクションの出現確率を最大化する時空間領域条件を、求める時空間領域に対する制約に基づいて、数値属性相関ルールを抽出することで導出する数値属性相関ルール抽出手段40と、
を有する。
また、本発明(請求項2)は、請求項1の時空間検索装置において、
入力手段10は、
人々を特徴付ける条件として、反対の意味を持つ二つの感情からなる感情極性を指定することで、ある感情、もしくは、その逆の感情を抱くかどうかという観点で人々を特徴付けする手段を含み、
目的値導出手段30は、
入力手段10で与えられた二つの感情を、それぞれ、最適な時空間領域を求める目的値とする手段を含み、
文書極性判定手段21は、
解析対象データのテキストの内容が、感情極性の極性値である二つの感情のどちらに属するかを判定する手段を含む。
また、本発明(請求項3)は、請求項1の時空間検索装置において、
入力手段10は、
人々を特徴付ける条件として、指定された反対の意味を持つ二つの感情からなる複数の感情極性の入力を受け付け、複数の感情を同時に抱くかという観点で人々を特徴付けする手段を含み、
目的値導出手段30は、
入力手段で与えられたそれぞれの感情極性について、感情極性を構成する二つの反意の感情を元とする集合の直積集合を目的値とする手段を含み、
文書極性判定手段21は、それぞれの感情極性について、解析対象データのテキストの内容が、感情極性の極性値である二つの感情のどちらに属するかを判定する手段を含む。
また、本発明(請求項4)は、請求項1乃至3の何れか1項記載の時空間検索装置において、特定の人々を最も良く特徴付ける最適な時空間領域を出力する出力手段を更に有する。
図2は、本発明の原理を説明するための図である。
本発明(請求項5)は、個人の経験が自然言語で記述された文書と、該文書に対して、経験をした位置情報、時間情報が数値データで与えられた構造の解析対象データから、特定の人々を最もよく特徴付ける最適な時空間領域を求める時空間検索方法であって、
解析対象データと、求める時空間領域に対する制約と、人々を特徴付ける条件を入力し、入力情報記憶手段に格納する入力ステップ(ステップ1)と、
入力ステップ(ステップ1)で与えられた人々を特徴付ける条件を、最適な時空間領域を求める目的値とする目的値導出ステップ(ステップ2)と、
解析対象データのテキストの内容が、人々を特徴付ける条件に該当する人々によって書かれたものかを判定する文書極性判定ステップ(ステップ3)と、
文書極性判定ステップ(ステップ3)の判定結果と、解析対象データに付与された位置情報、時間情報に基づいて、位置情報、時間情報、判定結果を要素として持つトランザクションを生成し、トランザクション記憶手段に格納するトランザクション生成ステップ(ステップ4)と、
トランザクション記憶手段のトランザクションの集合から、目的値に該当するトランザクションの出現確率を最大化する時空間領域条件を、求める時空間領域に対する制約に基づいて、数値属性相関ルールを抽出することで導出する数値属性相関ルール抽出ステップ(ステップ5)と、を行う。
また、本発明(請求項6)は、請求項5記載の時空間検索方法の入力ステップ(ステップ1)では、人々を特徴付ける条件として、反対の意味を持つ二つの感情からなる感情極性を指定することで、ある感情、もしくは、その逆の感情を抱くかどうかという観点で人々を特徴付けし、
目的値導出ステップ(ステップ2)では、入力ステップで与えられた反対の意味を持つ二つの感情を、それぞれ、最適な時空間領域を求める目的値とし、
文書極性判定ステップ(ステップ3)では、解析対象データのテキストの内容が、感情極性の極性値である二つの感情のどちらに属するかを判定する。
また、本発明(請求項7)は、請求項5記載の時空間検索方法の入力ステップ(ステップ1)では、人々を特徴付ける条件として、指定された反対の意味を持つ二つの感情からなる複数の感情極性の入力を受け付け、複数の感情を同時に抱くかという観点で人々を特徴付けし、
目的値導出ステップ(ステップ2)では、入力ステップで与えられたそれぞれの感情極性について、感情極性を構成する二つの反意の感情を元とする集合の直積集合を目的値とし、
文書極性判定ステップ(ステップ3)では、それぞれの感情極性について、解析対象データのテキストの内容が、感情極性の極性値である二つの感情のどちらに属するかを判定する。
また、本発明(請求項8)は、請求項5乃至7のいずれか1項に記載の時空間検索方法において、特定の人々を最も良く特徴付ける最適な時空間領域を表示手段に出力する出力ステップを更に行う。
本発明(請求項9)は、請求項1乃至4記載の何れか1項記載の時空間検索装置を構成する各手段としてコンピュータを機能させるための時空間検索プログラムである。
本発明によれば、個人の経験が自然言語で記述されたテキストと、それに対して経験した位置情報、時間情報が数値データで与えられた構造のデータから、ある感情を抱く人々を最もよく特徴付ける最適な時空間領域を求めることが可能である。
本発明の原理構成図である。 本発明の原理を説明するための図である。 本発明の一実施の形態における時空間検索装置の構成図である。 本発明の一実施の形態における時空間検索装置の概要動作のフローチャートである。 本発明の一実施の形態における二次元平面上の領域族の例である。 本発明の一実施の形態におけるトランザクション生成部で生成されるトランザクションの例である。 本発明の一実施の形態における目的値導出部の処理を表すフローチャートである。 本発明の一実施の形態における図6のトランザクションに目的属性を付与した例である。 本発明の一実施の形態におけるトランザクションを二次元平面にマッピングした例である。 本発明の一実施の形態における図9から最適直方凸領域を求めた例である。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における時空間検索装置の構成を示す。
時空間検索装置は、入力部10、解析対象データ記憶部11、閾値記憶部12、感情極性記憶部13、領域族記憶部14、トランザクション記憶部15、最適解記憶部16、トランザクション生成機能部20、目的値導出部30、数値属性相関ルール抽出部40、出力部50からなり、ある特定の人々、代表的には、ある感情を抱く人々を最もよく特徴付ける最適な時空間領域を求める。本発明において、時空間領域とは、時間、または、空間領域、または、時空間領域を含む概念であると定義する。
図4は、本発明の一実施の形態における時空間検索装置の概要動作のフローチャートである。
ステップ100) 入力部10は、ユーザから入力された解析対象データ、閾値(最小支持度)、感情極性(<ポジティブ,ネガティブ>のような反対の意味を持つ二つの感情)、領域族(二つの数値属性が張る平面、及び、三つの数値属性が張る空間の種類)をそれぞれ、解析対象データ記憶部11、閾値記憶部12、感情極性記憶部13、領域族記憶部14に格納する。
ステップ200) 目的値導出部30は、感情極性記憶部13から感情極性を読み出して、最適な時間、空間領域、時空間領域を求める対象となる目的値を求める。または、それぞれの感情極性について、感情極性を構成する二つの範囲の感情を元とする集合の直積集合を求め、目的値とする。
ステップ300) トランザクション生成機能部20は、感情極性記憶部13から単一、または複数の感情極性を、解析対象データ記憶部11から解析対象データを、それぞれ読み出して、それぞれの感情極性について、解析対象データが極性値である二つの感情のどちらに属するかを判定する。
ステップ400) トランザクション生成機能部20は、ステップ300で判定された解析対象データの感情極性と、解析対象データの日付、緯度、経度、感情極性値を要素に持つトランザクションを生成し、トランザクション記憶部15に格納する。
ステップ500) 数値属性相関ルール抽出部40は、トランザクション記憶部15に格納されているトランザクション、目的値導出部30で求められた目的値、領域族記憶部14に格納されている領域族、閾値記憶部12に格納されている最小支持度を取得して、特定の人々を最も特徴付ける最適な空間領域、時空間領域を求め、最適解として、最適解記憶部16に格納する。
ステップ600) 出力部50は、最適解記憶部16に格納されている最適解を出力する。
以下に、各構成要素毎に詳細な動作を説明する。
入力部10は、解析対象データと、相関ルール抽出の際に用いる閾値と、感情極性、領域族とをユーザから受け付ける。入力部10は、例えば、キーボード、OCR、ペン入力、音声認識装置、GPSなどを搭載した端末等や、ネットワーク上に置かれたテキストファイルを読み込む手段等によって構成されている。
解析対象データは、個人の経験の履歴や経験に基づく感想、評価が自然言語で記述され、さらに、それを記述した、または、そこに記述されている経験を実際に行った時間、位置を一意に識別可能な数値情報がそれに付与されたデータであるものとする。本実施の形態では、時間情報として日付が、位置情報として緯度、経度が指定されたものとする。
上記の閾値としては、最小支持度が与えられる。当該最小支持度は、後述する相関ルールの有用性を示す尺度の一つである支持度に対する閾値である。
上記の感情極性は、<ポジティブ,ネガティブ>のような、逆の意味を持つ二つの概念を指定することで、ある特徴を持つ人々を絞り込むための極性を示すためのものである。ここで、<ポジティブ,ネガティブ>のような反意を持つ2概念からなる感情軸を『感情極性』(あるいは略して『極性』)、"ポジティブ"、"ネガティブ"をそれぞれ「極性値」と呼ぶこととする。<ポジティブ,ネガティブ>以外の代表的な感情極性として、
(1)<嬉しい,悲しい>
(2)<驚き,予期>
(3)<怒り,恐れ>
(4)<受容,嫌悪>
の4種類を挙げることができる。また、これらの4軸は直交する概念であることが知られているが、ユーザは複数の直交する感情極性を指定して、混合した感情を問い合わせすることも可能である。本実施の形態においては、ユーザはm個の感情極性Q={p,n},…,Q={P,N}を指定したとする。また、ここに示した感情極性以外にも例えば、<良い,悪い>、<明るい,暗い>など、形容詞の反意語のペアを入力してもよい。また、あるキーワードや概念を<含む,含まない>としたりしてもよい。
上記の領域族とは、二つの数値属性が張る平面、及び、三つの数値属性が張る空間の種類である。ユーザが、最適な空間領域(二次元)、時空間領域(三次元)を求める際にはこの領域族を指定する。時間を求める際には、単一の数値属性を扱うことになるため指定する必要はない。例えば、二値属性が張る平面における領域族の例としては、
(1)矩形領域、
(2)x単調領域、
(3)直方凸領域
が挙げられる。
(1)の矩形領域とは、図5(a)に示すように、二つの数値属性の区間の直積によって表現され、二つの数値属性がつくる平面上の軸に平行な領域である。
(2)のx単調領域とは、図5(b)に示すように、x軸(もしくはy軸)に垂直な直線との交わりが一つの区間か空であるような連結領域である。
(3)の直方凸領域とは、図5(c)に示すように、x単調かつ、y単調な連結領域である。
解析対象データ記憶部11は、入力部10で入力された上記の解析対象データを格納する。解析対象データ記憶部11は、入力データの構造が保存され、復元可能なものであれば何でもよい。例えば、データベースや、予め備えられた汎用的な記憶装置(メモリやハードディスク装置等)の特定領域に記憶される。
閾値記憶部12は、入力部10で入力された、上記閾値を格納する。閾値記憶部12は、解析対象データ記憶部11と同様に、最小支持度を保存し、復元可能なものであれば何でもよい。例えば、データベースや、予め備えられた汎用的な記憶装置(メモリやハードディスク装置等)の特定領域に記憶される。
感情極性記憶部13は、入力部10で入力された感情極性を格納する。感情極性記憶部13は、感情極性を保存し、復元可能なものであれば何でもよい。例えば、データベースや予め備えられた汎用的な記憶装置(メモリやハードディスク装置等)の特定領域に記憶される。
領域族記憶部14は、入力部10で入力された領域族を格納する。入力された領域族を保存し、復元可能なものであれば何でもよい。例えば、データベースや予め備えられた汎用的な記憶装置(メモリやハードディスク装置等)の特定領域に記憶される。
トランザクション生成機能部20は、文書極性判定部21とトランザクション生成部22とを有する。文書極性判定部21は、感情極性記憶部13に記憶されている極性に基づき、解析対象データ記憶部11に格納されている上記解析対象データのテキスト部分の内容の極性値を判定する。例えば、テキストを<ポジティブ,ネガティブ>という軸で評価する場合には、『店員の態度が悪かったです』というテキストを「ネガティブ」に、『料理が非常においしかったです』を「ポジティブ」に分類する。また、m個の極性に対して、一テキストをm回、異なる極性で判定する。
文書極性判定部21は、機械学習を用いた文書分類技術、前述の非特許文献2、非特許文献3や、評価表現辞書、感情辞書等のシソーラスを利用した方法等で実現できる。
トランザクション生成部22は、文書極性判定部21の結果と、解析対象データ記憶部11に記憶された解析対象データの日付、緯度、経度とから、以下の形式のトランザクションを生成する。
R={ID,日付,緯度,経度,感情極性,…,感情極性
上記のIDは、トランザクションの識別子である。感情極性は、文書極性判定部21で得られた極性値を値として持つ。図6に2つの感情極性<嬉しい,悲しい>、<驚き,予期>が入力された場合の結果の例を示す。
トランザクション記憶部15は、トランザクション生成部22で生成したトランザクションを格納する。トランザクション記憶部15は、トランザクションの構造を保存するものであればなんでもよい。例えば、データベースや予め備えられた汎用的な記憶装置(メモリやハードディスク装置等)の特定領域に記憶される。
目的値導出部30は、評価極性記憶部13に記憶されたユーザが入力したm個の感情極性から、最適な時間、空間領域、時空間領域を求める対象となる目的値の集合Pを導出する。
目的値集合Pは、以下の通り、m個の集合Q1,…,Qmの直積集合である。
Figure 2010250496
例えば、3つの感情極性Q={嬉しい,悲しい},Q={驚き,予期},Q={怒り,恐れ}が入力された場合には、P={(嬉しい,驚き,怒り),(嬉しい,驚き,恐れ),(嬉しい,予期,怒り),(嬉しい,予期,恐れ),(悲しい,驚き,怒り),(悲しい,驚き,恐れ),(悲しい,予期,怒り),(悲しい,予期,恐れ)}となる。つまり、m個の感情極性から2個の要素を持つ目的値集合Pが生成される。但し、m=1のときは、単一の感情極性集合Qを集合Pにセットする。目的値導出部30のフローチャートを図7に示す。
ステップ201) 目的値導出部30は、評価極性記憶部13から感情極性O,…,Oを読み込む。
ステップ202) m≧2であれば、ステップ103に移行し、そうでない場合はステップ208に移行する。
ステップ203) 一次変数iを初期化(i←1)する。
ステップ204) i≦mである場合にはステップ205に移行し、そうでない場合はステップ207に移行する。
ステップ205) 感情極性Oの極性値を元とする集合Qを生成する。
ステップ206) i=i+1としてステップ204に戻る。
ステップ207) ステップ204においてi>mである場合には、Q1,…,Qmの直積集合を目的値集合Pに設定し、ステップ209に移行する。
ステップ208) ステップ202において、m<2であれば感情極性Oの極性値を元とする目的値集合Pを生成する。
ステップ209) 目的値集合Pを目的値導出部30内のメモリ(図示せず)に記憶する。
数値属性相関ルール抽出部40は、トランザクション記憶部15に記憶されたトランザクションと、目的値導出部30が導出した目的値集合Pと、領域族記憶部14に記憶された領域族と、閾値記憶部12に記憶された最小支持度に基づいて、最適確信度数値属性相関ルールを抽出する。
数値属性相関ルール抽出部40は、目的値導出部30によって得られた目的値集合Pの全ての要素について、最適な時間、空間領域、時空間領域を順々に求めていく。
目的値集合Pのある要素p=[q,…,q]│q∈Q,…,q∈Qについて最適な時間、空間領域、時空間領域を求める場合を考える。数値属性相関ルール導出部40は、最初に、トランザクション記憶部15に記憶されたトランザクションに対して、トランザクションの極性属性部分p'=[q',…,q']│q'∈Q,…,q'∈Qが、pに等しいか否かを判別するための目的属性Eを付与する。本実施の形態においては、目的属性Eは、p=p'の場合には1を、そうでない場合には0をとるものとする。図8に、図6の例に目的属性を付与した例を示す。
数値属性相関ルール抽出部40は、最適な時間を求める場合には、一次元数値属性相関ルールを抽出する。また、最適な空間領域を求める場合には、二次元数値属性相関ルールを抽出する。また、最適な時空間領域を求める際には、三次元数値属性相関ルールを抽出する。数値属性相関ルールは以下の形式で表される。
(A∈(v,v))→(E=1)
上記のAは数値属性で、v≦vはAの定義域中の値、Eは目的属性である。矢印左の項を条件部、右の項を結論部と呼ぶ。相関ルールの有用性を示す尺度としては、支持度と確信度を用いる。全トランザクション数をN、属性Aの値がv≦vに含まれるトランザクション数をs、属性Aの値がv≦vに含まれ、かつ、属性Eの値として1を持つトランザクション数をhとすると、支持度はh/N、確信度はh/sで計算できる。また、設定のし易さを考えて、支持度をhと考えて計算してもよい。また、条件部に1,2,3個の数値属性を持つルールをそれぞれ、一次元、二次元、三次元数値属性相関ルールと呼ぶこととする。
最適な時間を求めるには、以下の形式の一次元数値属性相関ルールを抽出する。
(T∈[t1,t2])→(E=1)
ここで、Tは時間属性、t1≦t2はTの定義域中の値である。例えば、「2008年1月1日から2008年1月2日に、人は高い確率で嬉しいという感情を持つ」という事実は、以下の相関ルールで表現される。
(T∈[2008-01-01,2008-01-02])→(E=1)
前述の通り、目的属性Eは、極性値が"嬉しい"の場合に1をとる属性である。トランザクション記憶部15に格納されているトランザクション集合の中から、ある一定以上(最小支持度以上)の支持度を持ち、その中で確信度が最も高くなるルール(最適確信度相関ルール)を選択する。もし、確信度を最大とするルールが複数存在する場合には、支持度を最大にするものを優先的に選ぶ。そのルールの条件部が示す時間領域を、目的属性の値を最も良く特徴付ける最適領域とする。
最適な空間領域を求めるには、以下の形式の二次元数値属性相関ルールを抽出する。
(<L,A>∈R)→(E=1)
ここで、Lは緯度属性、Aは経度属性である。Rは数値属性L,Aとそれらが張る平面状の領域である。この領域Rの形式は、領域族記憶部14に記憶された領域族である。前記の通り、二次元の数値属性における代表的な領域族は、
1)矩形領域、
2)x単調領域、
3)直方凸領域
である。
1)の矩形領域は、二つの数値属性の区間の直積によって表現され、二つの数値属性がつくる平面上の軸に平行な領域であるため、一次元数値属性相関ルールを単純に拡張した以下の形式の相関ルールが矩形領域に該当する。
(L∈[35.0000,36.0000])∧(A∈[140.0000,141.0000])→(E=1)
トランザクション記憶部15に記憶されているトランザクション集合の中から、ある一定以上(最小支持度以上)を選択する。もし、確信度を最大とするルールが複数存在するとき、支持度を最大にするものを優先的に選ぶ。そのルールの条件部が示す空間領域<L,A>を、目的属性の値を最も良く特徴付ける最適領域とする。この方法は想定する領域族を(1)矩形領域、(2)x単調領域、(3)直方凸領域のどれにするかによって、異なる最適解を導き出す可能性がある。
最適な時空間領域を求めるには、以下の形式の三次元数値属性相関ルールを考える。
(<T,L,A>∈R)→(E=1)
ここで、Rは数値属性T,L,Aとそれらが張る三次元空間領域である。この領域Rの形式は、領域族記憶部14に記憶された領域族である。領域の形としては、三つの数値属性がつくる空間上の軸に平行な領域や、ある一つの軸に垂直な直線との交わりが一つの区間か空であるような連結領域や、ある二つの軸に垂直な直線との交わりがひとつの区間か空であるような連結領域や、全ての軸に垂直な直線との交わりが一つの区間か空であるような連結領域が考えられる。
トランザクション記憶部15に格納されているトランザクション集合の中から、ある一定以上(最小支持度以上)の支持度を持ち、その中で確信度が最も高くなるルール(最適確信度ルール)を選択する。もし、確信度を最大とするルールが複数存在するとき、支持度を最大にするものを優先的に選ぶ。そのルールの条件部が示す時空間領域<T,L,A>を、目的属性の値を最も良く特徴付ける最適領域とする。この方法は想定する領域族によって、異なる最適解を導き出す可能性がある。
全ての区間、領域を列挙して最大の確信度となる区間を選ぶ素朴な手法から、より効率的な既存技術など、それぞれの数値属性相関ルールを求める具体的な手法は問わない。
例えば、一次元数値属性相関ルールは、数値属性を偏りのないM個の区画に分割し、k=1,…,Mに対して二次元平面上における点の列、
Figure 2010250496
を考える。ここで、uは区画iに含まれるトランザクション数で、vは区画iに含まれるトランザクションの中で、目的属性の値がユーザからの要求を満たすトランザクション数である。x方向に最小支持度以上離れた2点で、それらを結ぶ直線の傾きが最大のものを発見するというように、幾何学の問題に置き換えて効率的に求める手法が知られているのでこれを使ってもよい(例えば、Mining optimized association rules for numeric attributes, T. Fukuda, Y. Morimoto, S. Morishita, and T. Tokuyama, ACM SIGACT-SIGART Symposium on Principles of Database Systems, pp.182-191, 1996)。矩形領域は、二次元、三次元数値属性相関ルールも、一次元数値属性相関ルールの問題に還元することで効率的に解くことができる。また、二次元数値属性相関ルールのx単調領域や直方凸領域を効率的に求める手法も知られている(例えば、Data mining using two-dimensional optimized association rules: Scheme, algorithms, and visualization, T. Fukuda, Y. Morimoto, S. Morishita, and T. Tokuyama, ACM SIGMOD Conference on Management of Data, pp.13-23, 1996)。
最適解記憶部16は、数値属性相関ルール抽出部40で得られた、目的値、数値属性相関ルール、各種ルールの優位性を示す指標(支持度、確信度)の組み合わせを格納する。最適解(最も高い確信度を持つルール)のみを記憶しても良いし、最小支持度以上の支持度を持つ数値属性相関ルールの全てを記憶しても良い。つまり、数値属性相関ルール抽出部40で得られた全ての情報を記憶可能なものである。例えば、データベースや予め備えられた汎用的な記憶装置(メモリやハードディスク装置等)の特定領域に記憶される。
出力部50は、最適解記憶部16に格納されている目的値、数値属性相関ルール(または、相関ルールの条件部の、時間領域、空間領域、時空間領域)、相関ルールの優位性を示す指標(支持度、確信度)を出力する。ここで、出力とはディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力部50は、ディスプレイやスピーカ等の出力デバイスを含むと考えても、含まないと考えてもよい。出力部50は、出力デバイスのドライバソフトまたは、出力デバイスのドライバソフトと出力デバイス等で実現することができる。
上記の実施の形態において、数値属性相関ルール抽出部40が、数値属性相関ルールを生成する動作について、最適空間領域を求める例を用いて説明する。ここでは、トランザクションの位置情報として緯度属性L,経度属性Aという二つの数値属性が付与されているとする。また、ユーザから指定された領域族は直方凸領域であるとする。また、最小支持度としては頻度「6」が指定されたとする(説明の簡略化のため、支持度を頻度ベースで定義)。
まず、最適化領域を求めるために、二つの数値属性L,Aが張る平面の定義域を適当な粒度のグリッドに分割し、グリッド上のピクセルをつなぎ合わせて領域を作る。次に、トランザクション記憶部15に記憶されたそれぞれのトランザクションを、位置(緯度、経度)情報に基づいて、L,Aが張る平面上にマッピングする。この際に、目的属性の値が「1」のトランザクションと「0」のトランザクションとを判別可能な形式でマッピングする。図9は、目的属性の値が「1」のトランザクションを黒い丸で、「0」のトランザクションを白い丸で表現し、緯度、経度に基づいてマッピングした領域の例である。
図9に示した領域から、数値属性相関ルールアルゴリズムを用いて、最小支持度以上の支持度を持つ直方凸領域を求めると、図10に示すように、三つの領域(直方凸領域A,直直方凸領域B,直方凸領域C)が得られる。この中で最も確信度の高い直方凸領域、つまり、直方凸領域Aが最適空間領域となる。
なお、上記の時空間検索装置の構成要素の動作をプログラムとして構築し、時空間検索装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、ブログ等の個人発信情報を時空間上で分類する技術に適用可能である。
10 入力手段、入力部
11 入力情報記憶手段、解析対象データ記憶部
12 閾値記憶部
13 感情極性記憶部
14 領域族記憶部
15 トランザクション記憶手段、トランザクション記憶部
16 最適解記憶部
20 トランザクション生成機能部
21 文書極性判定部
22 トランザクション生成手段、トランザクション生成部
30 目的値算出手段、目的値導出部
40 数値属性相関ルール抽出手段、数値属性相関ルール抽出部
50 出力部

Claims (9)

  1. 個人の経験が自然言語で記述された文書と、該文書に対して、経験をした位置情報、時間情報が数値データで与えられた構造の解析対象データから、特定の人々を最もよく特徴付ける最適な時空間領域を求める時空間検索装置であって、
    前記解析対象データと、求める時空間領域に対する制約と、人々を特徴付ける条件を入力し、記憶手段に格納する入力手段と、
    前記入力手段で与えられた前記人々を特徴付ける条件を、最適な時空間領域を求める目的値とする目的値導出手段と、
    前記解析対象データのテキストの内容が、前記人々を特徴付ける条件に該当する人々によって書かれたものかを判定する文書極性判定手段と、
    前記文書極性判定手段の判定結果と、前記解析対象データに付与された位置情報、時間情報に基づいて、位置情報、時間情報、判定結果を要素として持つトランザクションを生成し、トランザクション記憶手段に格納するトランザクション生成手段と、
    前記トランザクション記憶手段のトランザクションの集合から、前記目的値に該当するトランザクションの出現確率を最大化する時空間領域条件を、前記求める時空間領域に対する制約に基づいて、数値属性相関ルールを抽出することで導出する数値属性相関ルール抽出手段と、
    を有することを特徴とする時空間検索装置。
  2. 前記入力手段は、
    前記人々を特徴付ける条件として、反対の意味を持つ二つの感情からなる感情極性を指定することで、ある感情、もしくは、その逆の感情を抱くかどうかという観点で人々を特徴付けする手段を含み、
    前記目的値導出手段は、
    前記入力手段で与えられた前記二つの感情を、それぞれ、最適な時空間領域を求める目的値とする手段を含み、
    前記文書極性判定手段は、
    前記解析対象データのテキストの内容が、感情極性の極性値である二つの感情のどちらに属するかを判定する手段を含む
    請求項1記載の時空間検索装置。
  3. 前記入力手段は、
    前記人々を特徴付ける条件として、指定された反対の意味を持つ二つの感情からなる複数の感情極性の入力を受け付け、複数の感情を同時に抱くかという観点で人々を特徴付けする手段を含み、
    前記目的値導出手段は、
    前記入力手段で与えられたそれぞれの感情極性について、感情極性を構成する二つの反意の感情を元とする集合の直積集合を目的値とする手段を含み、
    前記文書極性判定手段は、
    それぞれの感情極性について、前記解析対象データのテキストの内容が、感情極性の極性値である二つの感情のどちらに属するかを判定する手段を含む
    請求項1記載の時空間検索装置。
  4. 特定の人々を最も良く特徴付ける最適な時空間領域を出力する出力手段を更に有する
    請求項1乃至3の何れか1項記載の時空間検索装置。
  5. 個人の経験が自然言語で記述された文書と、該文書に対して、経験をした位置情報、時間情報が数値データで与えられた構造の解析対象データから、特定の人々を最もよく特徴付ける最適な時空間領域を求める時空間検索方法であって、
    前記解析対象データと、求める時空間領域に対する制約と、人々を特徴付ける条件を入力し、記憶手段に格納する入力ステップと、
    前記入力ステップで与えられた前記人々を特徴付ける条件を、最適な時空間領域を求める目的値とする目的値導出ステップと、
    前記解析対象データのテキストの内容が、前記人々を特徴付ける条件に該当する人々によって書かれたものかを判定する文書極性判定ステップと、
    前記文書極性判定ステップの判定結果と、前記解析対象データに付与された位置情報、時間情報に基づいて、位置情報、時間情報、判定結果を要素として持つトランザクションを生成し、トランザクション記憶手段に格納するトランザクション生成ステップと、
    前記トランザクション記憶手段のトランザクションの集合から、前記目的値に該当するトランザクションの出現確率を最大化する時空間領域条件を、前記求める時空間領域に対する制約に基づいて、数値属性相関ルールを抽出することで導出する数値属性相関ルール抽出ステップと、
    を行うことを特徴とする時空間検索方法。
  6. 前記入力ステップにおいて、
    前記人々を特徴付ける条件として、反対の意味を持つ二つの感情からなる感情極性を指定することで、ある感情、もしくは、その逆の感情を抱くかどうかという観点で人々を特徴付けし、
    前記目的値導出ステップにおいて、
    前記入力ステップで与えられた前記二つの感情を、それぞれ、最適な時空間領域を求める目的値とし、
    前記文書極性判定ステップにおいて、
    前記解析対象データのテキストの内容が、感情極性の極性値である二つの感情のどちらに属するかを判定する
    請求項5記載の時空間検索方法。
  7. 前記入力ステップにおいて、
    前記人々を特徴付ける条件として、指定された反対の意味を持つ二つの感情からなる複数の感情極性の入力を受け付け、複数の感情を同時に抱くかという観点で人々を特徴付けし、
    前記目的値導出ステップにおいて、
    前記入力ステップで与えられたそれぞれの感情極性について、感情極性を構成する二つの反意の感情を元とする集合の直積集合を目的値とし、
    前記文書極性判定ステップにおいて、
    それぞれの感情極性について、前記解析対象データのテキストの内容が、感情極性の極性値である二つの感情のどちらに属するかを判定する
    請求項5記載の時空間検索方法。
  8. 特定の人々を最も良く特徴付ける最適な時空間領域を出力する出力ステップを更に行う
    請求項5乃至7のいずれか1項記載の時空間検索方法。
  9. 請求項1乃至4記載のいずれか1項記載の時空間検索装置を構成する各手段としてコンピュータを機能させるための時空間検索プログラム。
JP2009098279A 2009-04-14 2009-04-14 時空間検索装置及び方法及びプログラム Expired - Fee Related JP5133294B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009098279A JP5133294B2 (ja) 2009-04-14 2009-04-14 時空間検索装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009098279A JP5133294B2 (ja) 2009-04-14 2009-04-14 時空間検索装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010250496A true JP2010250496A (ja) 2010-11-04
JP5133294B2 JP5133294B2 (ja) 2013-01-30

Family

ID=43312761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009098279A Expired - Fee Related JP5133294B2 (ja) 2009-04-14 2009-04-14 時空間検索装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5133294B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146191A (ja) * 2011-01-13 2012-08-02 Fujitsu Ltd 領域発見装置、領域発見プログラム及び領域発見方法
WO2013046435A1 (ja) * 2011-09-30 2013-04-04 富士通株式会社 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法
WO2013061464A1 (ja) * 2011-10-28 2013-05-02 富士通株式会社 最適領域抽出方法およびその装置
JPWO2013046747A1 (ja) * 2011-09-30 2015-03-26 富士通株式会社 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法
JP2016122360A (ja) * 2014-12-25 2016-07-07 Kddi株式会社 コメント文章から人の心理状態に影響した場所を検知するプログラム、装置及び方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005108054A (ja) * 2003-09-30 2005-04-21 Eiichi Ehata 自然言語処理システム
JP2007280052A (ja) * 2006-04-06 2007-10-25 Nippon Telegr & Teleph Corp <Ntt> 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2008092163A (ja) * 2006-09-29 2008-04-17 Brother Ind Ltd 状況提示システム、サーバ及び、サーバプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005108054A (ja) * 2003-09-30 2005-04-21 Eiichi Ehata 自然言語処理システム
JP2007280052A (ja) * 2006-04-06 2007-10-25 Nippon Telegr & Teleph Corp <Ntt> 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2008092163A (ja) * 2006-09-29 2008-04-17 Brother Ind Ltd 状況提示システム、サーバ及び、サーバプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012146191A (ja) * 2011-01-13 2012-08-02 Fujitsu Ltd 領域発見装置、領域発見プログラム及び領域発見方法
WO2013046435A1 (ja) * 2011-09-30 2013-04-04 富士通株式会社 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法
WO2013046747A1 (ja) * 2011-09-30 2013-04-04 富士通株式会社 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法
JPWO2013046747A1 (ja) * 2011-09-30 2015-03-26 富士通株式会社 観測情報処理装置、観測情報処理プログラムおよび観測情報処理方法
US9519697B2 (en) 2011-09-30 2016-12-13 Fujitsu Limited Observation information processing apparatus, non-transitory computer-readable recording medium, and observation information processing method
WO2013061464A1 (ja) * 2011-10-28 2013-05-02 富士通株式会社 最適領域抽出方法およびその装置
JPWO2013061464A1 (ja) * 2011-10-28 2015-04-02 富士通株式会社 最適領域抽出方法およびその装置
JP2016122360A (ja) * 2014-12-25 2016-07-07 Kddi株式会社 コメント文章から人の心理状態に影響した場所を検知するプログラム、装置及び方法

Also Published As

Publication number Publication date
JP5133294B2 (ja) 2013-01-30

Similar Documents

Publication Publication Date Title
Toba et al. Discovering high quality answers in community question answering archives using a hierarchy of classifiers
Hammad et al. An approach for detecting spam in Arabic opinion reviews
Chen et al. General functional matrix factorization using gradient boosting
Weng et al. Using text classification and multiple concepts to answer e-mails
US8032469B2 (en) Recommending similar content identified with a neural network
Jotheeswaran et al. OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE.
US11023503B2 (en) Suggesting text in an electronic document
US20100185623A1 (en) Topical ranking in information retrieval
JP2009093649A (ja) オントロジー空間を規定するタームの推奨
KR20080106190A (ko) 문서 랭킹 컴포넌트 트레이닝 시스템 및 컴퓨터 판독 가능 매체
US20120323932A1 (en) Iterative set expansion using samples
CN110390052B (zh) 搜索推荐方法、ctr预估模型的训练方法、装置及设备
JP5133294B2 (ja) 時空間検索装置及び方法及びプログラム
US11182540B2 (en) Passively suggesting text in an electronic document
US11308146B2 (en) Content fragments aligned to content criteria
You et al. Exploring public sentiments for livable places based on a crowd-calibrated sentiment analysis mechanism
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
Li et al. Infographics retrieval: A new methodology
Iram et al. Anatomy of Sentiment Analysis of Tweets Using Machine Learning Approach: Anatomy of Sentiment Analysis of Tweets
Mazzoleni et al. Unsupervised learning of fundamental emotional states via word embeddings
Qin et al. Recommender resources based on acquiring user's requirement and exploring user's preference with Word2Vec model in web service
Gosavi et al. Answer selection in community question answering portals
Alali A novel stacking method for multi-label classification
Boteanu et al. Unsupervised rating prediction based on local and global semantic models
Villatoro et al. Document ranking refinement using a Markov random field model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121107

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5133294

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees