JP4995750B2

JP4995750B2 - Ｗｅｂ検索装置、Ｗｅｂ検索方法、プログラムおよび記録媒体

Info

Publication number: JP4995750B2
Application number: JP2008026334A
Authority: JP
Inventors: 卓也前川; 豊柳沢; 保志櫻井; 剛岡留; 泰恵岸野; 剛次亀井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-02-06
Filing date: 2008-02-06
Publication date: 2012-08-08
Anticipated expiration: 2028-02-06
Also published as: JP2009187268A

Description

本発明は、例えばカップや歯ブラシといった複数の物体の各々に装着されたセンサノードからセンサデータを受信し、ユーザの行動（物体の使用状況）に応じてＷｅｂ検索要求であるサブクエリを生成するＷｅｂ検索装置、Ｗｅｂ検索方法、プログラムおよび記録媒体に関するものである。

センサノードなどから得られたセンサデータに基づいてユーザの状況を検知し、検知した状況に応じてユーザに提供されるサービスを、状況依存サービスという。多くの状況依存サービスは、ルールベースシステムにより実現される。つまり、このシステムは、ある条件を満たせば、あらかじめ用意したサービスを提供するといったルールをルールベースに定義しておくことで、状況に合わせたサービスを提供するものである。このようなシステムでは、条件にセンサの出力信号やセンサデータを用いたＡＤＬ（Activity of Daily Living：ユーザの日常行動）の推定結果が用いられることが多い。

例えば非特許文献１では、ＥＣＡ（Event，Condition，Action）ルールを用いたシステムが開示されており、人が部屋に入ったことがセンサにより検知されれば部屋の照明やエアコンを自動的に調整するアプリケーションなどが紹介されている。しかし、多くの場合、ＡＤＬの推定にはその環境における教師信号を必要とするため、ユーザにかかる負担が大きい。さらに、このようなサービスは、状況（ＡＤＬ）ごとに人手によって作成されるルールを必要とする。

一方、状況に対応したＷｅｂページを検索する研究としては、クエリフリーサーチがある。非特許文献２に開示された技術では、ニュース番組の字幕（クローズドキャプション）に含まれる単語から重要と考えられる単語を抽出し、抽出した単語から検索エンジンに送信するクエリを作成する。そして、検索エンジンからそのニュースに関連するＷｅｂページを取得するようにしている。

T.Terada，M.Tsukamoto，K.Hayakawa，T.Yoshihisa，Y.Kishino，A.Kashitani，and S.Nishio，"Ubiquitous Chip:a Rule-based I/O Control Device for Ubiquitous Computing"，Proc.Pervasive 2004，pp.238-253，2004 M.Henzinger，B.W.Chang，B.Milch，and S.Brin，"Query-Free News Search"，Proc.WWW2003，pp.1-10，2003

以上のように、従来の状況依存サービスでは、状況の推定や、推定結果を利用したルールの作成が必要となる。推定結果を利用したルールとは、例えばお茶を入れているという状況が推定されたときにお茶の効能に関する情報を出すといったような、状況ごとに人手によって作成されるルールである。一方、クエリフリーサーチの研究では、ニュース番組の字幕から単語を抽出することで、状況に合わせたサービス（Ｗｅｂページ）を自動的にユーザに提示する。しかし、このクエリフリーサーチは、実世界においてユーザが行っている行動に関係するＷｅｂページを検索する技術ではない。このように、ユーザの行動に関係するＷｅｂページを検索する技術は、従来実現されていなかった。

ユーザの行動に関係するＷｅｂページを検索する方法としては、物体に装着したセンサノードから得られたセンサデータを用いてＷｅｂページを検索する方法が考えられる。しかし、センサデータを用いてＷｅｂページを検索するには問題がある。その理由は、ユーザの行動に直接関係のない物が使われる（動かされる）ことがあるためである。

例えば、ユーザが紅茶をいれるために茶葉や砂糖などを棚から取り出すときに、この取り出しとは直接関係ないが、一緒に棚に入っているココアや緑茶葉の容器を動かすことは日常生活では当たり前に起こる。また、１つの部屋に複数のユーザが居て、それぞれのユーザが異なる行動をしているとき（例えば１人は歯ブラシで歯を磨き、別の１人が電気カミソリで髭を剃っている等）、各ユーザが使っている物は同じようなタイミングで動かされるため、センサデータを用いてＷｅｂページを検索しようとすると混乱が起こる。

本発明は、上記課題を解決するためになされたもので、ユーザの行動（物体の使用状況）に関係するＷｅｂページを検索することができるＷｅｂ検索装置、Ｗｅｂ検索方法、プログラムおよび記録媒体を提供することを目的とする。

本発明は、複数の物体の各々に装着されたセンサノードからセンサデータを受信し、各物体の使用状況に応じてＷｅｂ検索要求であるサブクエリを生成するＷｅｂ検索装置において、前記センサノードから受信したセンサデータに基づいて、各物体が使用された時間範囲であるアクティビティを検出するアクティビティ検出手段と、前記アクティビティが検出された複数の物体について使用状況の類似度を表す指標であるＤｏｓを計算するＤｏｓ計算手段と、前記Ｄｏｓに基づいて、前記アクティビティが検出された複数の物体をクラスタに分類するクラスタ解析手段と、このクラスタ解析手段が求めたクラスタから、前記アクティビティが検出された複数の物体のうち所定時間以下しか使用されていない物体のみを含むクラスタを削除して残りのクラスタを出力するフィルタ手段と、このフィルタ手段から出力されたクラスタに所属する物体の名前をキーワードとして含むサブクエリを作成するクエリ作成手段とを備え、前記Ｄｏｓ計算手段は、前記アクティビティが検出された複数の物体について、これらの物体が近い時刻で使用されたかどうかの程度を表す指標Ｔｅｍｐを計算し、前記アクティビティが検出された複数の物体が同時に使われていたかどうかの程度を表す指標Ｈｉｓｔを、過去のアクティビティのデータから計算し、前記アクティビティが検出された複数の物体が意味的に近いかどうかの程度を表す指標Ｓｅｍを、検索エンジンによる検索結果から計算し、前記ＴｅｍｐとＨｉｓｔとＳｅｍとの積を前記Ｄｏｓとすることを特徴とするものである。

また、本発明のＷｅｂ検索装置の１構成例において、前記クエリ作成手段は、前記フィルタ手段から出力されたクラスタから、物体の名前と物体の重要度とからなるクエリベクトルを作成し、このクエリベクトルとの類似度が最も高い過去のクエリベクトルを用いて前記クエリベクトルを拡張し、拡張したクエリベクトルから複数の前記サブクエリを作成し、このサブクエリにあらかじめ用意された用語を組み合わせて前記サブクエリを拡張するものである。
また、本発明のＷｅｂ検索装置の１構成例は、さらに、前記サブクエリに応じて検索されたＷｅｂページと前記クラスタとの類似度を求めることにより、前記検索されたＷｅｂページを順位付けし直し、最上位のＷｅｂページを最終的な検索結果とするリランク手段を備えるものである。

また、本発明は、ＣＰＵとメモリとを備えたコンピュータからなるＷｅｂ検索装置において、前記メモリに格納されたプログラムに従って前記ＣＰＵが、アクティビティ検出手段とＤｏｓ計算手段とクラスタ解析手段とフィルタ手段とクエリ作成手段として機能し、複数の物体の各々に装着されたセンサノードからセンサデータを受信し、各物体の使用状況に応じてＷｅｂ検索要求であるサブクエリを生成するＷｅｂ検索方法であって、前記アクティビティ検出手段が、前記センサノードから受信したセンサデータに基づいて、各物体が使用された時間範囲であるアクティビティを検出するアクティビティ検出ステップと、前記Ｄｏｓ計算手段が、前記アクティビティが検出された複数の物体について使用状況の類似度を表す指標であるＤｏｓを計算するＤｏｓ計算ステップと、前記クラスタ解析手段が、前記Ｄｏｓに基づいて、前記アクティビティが検出された複数の物体をクラスタに分類するクラスタ解析ステップと、前記フィルタ手段が、前記クラスタ解析手段が求めたクラスタから、前記アクティビティが検出された複数の物体のうち所定時間以下しか使用されていない物体のみを含むクラスタを削除して残りのクラスタを出力するフィルタステップと、前記クエリ作成手段が、前記フィルタステップで得られたクラスタに所属する物体の名前をキーワードとして含むサブクエリを作成するクエリ作成ステップとを備え、前記Ｄｏｓ計算ステップは、前記アクティビティが検出された複数の物体について、これらの物体が近い時刻で使用されたかどうかの程度を表す指標Ｔｅｍｐを計算するステップと、前記アクティビティが検出された複数の物体が同時に使われていたかどうかの程度を表す指標Ｈｉｓｔを、過去のアクティビティのデータから計算するステップと、前記アクティビティが検出された複数の物体が意味的に近いかどうかの程度を表す指標Ｓｅｍを、検索エンジンによる検索結果から計算するステップと、前記ＴｅｍｐとＨｉｓｔとＳｅｍとの積を前記Ｄｏｓとするステップとを含むことを特徴とするものである。

また、本発明のＷｅｂ検索方法の１構成例において、前記クエリ作成ステップは、前記フィルタステップで得られたクラスタから、物体の名前と物体の重要度とからなるクエリベクトルを作成するステップと、このクエリベクトルとの類似度が最も高い過去のクエリベクトルを用いて前記クエリベクトルを拡張するステップと、拡張したクエリベクトルから複数の前記サブクエリを作成するステップと、このサブクエリにあらかじめ用意された用語を組み合わせて前記サブクエリを拡張するステップとを含むものである。
また、本発明のＷｅｂ検索方法の１構成例は、さらに、前記メモリに格納されたプログラムに従って前記ＣＰＵが、リランク手段として機能し、前記リランク手段が、前記サブクエリに応じて検索されたＷｅｂページと前記クラスタとの類似度を求めることにより、前記検索されたＷｅｂページを順位付けし直し、最上位のＷｅｂページを最終的な検索結果とするリランクステップを備えるものである。

また、本発明のＷｅｂ検索プログラムは、Ｗｅｂ検索方法の各ステップをコンピュータに実行させるようにしたものである。
また、本発明の記録媒体は、Ｗｅｂ検索プログラムを記録したことを特徴とするものである。

本発明によれば、環境中に存在する様々な物体に装着されたセンサノードのセンサデータから複数の物体の使用状況の類似度を表す指標であるＤｏｓを計算し、Ｄｏｓに基づいて複数の物体をクラスタに分類し、このクラスタに所属する物体の名前をキーワードとして含むサブクエリを作成するようにしたので、ユーザの行動（物体の使用状況）に関係するＷｅｂページを検索することができる。この結果、本発明では、ユーザが行っている行動に関する有用な情報を含むＷｅｂページを自動的に取得してユーザに提示することができる。

また、本発明では、さらにリランク部を設けることにより、サブクエリに応じて検索されたＷｅｂページとクラスタとの類似度に基づいて、検索されたＷｅｂページを順位付けし直すことができるので、ユーザの行動（物体の使用状況）に関連性の高いＷｅｂページをユーザに提示することができる。

［第１の実施の形態］
以下、本発明の実施の形態について図面を参照して説明する。本実施の形態は、カップや歯ブラシといった複数の物体の各々に装着したセンサノードから取得した加速度の信号を用いて、ユーザの行動に関係するＷｅｂページを検索する技術に関するものである。ここで、ユーザが行っている行動とは、センサノードが装着された物体を使った行動であり、例えば、カップと茶葉の入った茶筒と急須とを使ってお茶を入れる行為に該当する。また、検索されるＷｅｂページは、そのような行動に関係するものであり、例えばお茶を入れる行動に関係するＷｅｂページとしては、お茶のおいしい入れ方や、茶の効能に関するページなどがある。

本実施の形態の想定している環境では、室内のさまざまな物体に汎用的なセンサノードが装着されており、それらのセンサノードがセンサデータとして加速度のデータを常時取得している。そして、得られたｎ（ｎは正の整数）分間のセンサデータを用いてＷｅｂページ検索のための検索要求であるサブクエリを作成する。例えば、３分間のセンサデータを用いるとすると、３分ごとに過去３分間のセンサデータを用いてサブクエリを作成する。

また、本実施の形態では、各センサノードは、そのノードが装着されている物体の名前を持つと想定している。例えば、カップに装着されたセンサノードは、カップという名前を持っている。そして、ｎ分間において一緒に使用された物体の名前からサブクエリを作成する。例えば、緑茶の茶筒と急須とがｎ分の間に一緒に使われた場合には、これらの物体の名前をキーワードとして含むサブクエリ、すなわち“緑茶急須”といったサブクエリを作成する。そして、そのサブクエリを検索エンジンに送信し、返ってきたＷｅｂページの中から、ユーザの行動に相応しいものをユーザに提示する。

図１は本発明の第１の実施の形態に係るＷｅｂ検索システムの構成を示すブロック図である。Ｗｅｂ検索システムは、Ｗｅｂ検索装置１と、図示しない物体に装着されたセンサノード２とから構成される。なお、図１では、センサノード２を１つだけ記載しているが、対象となる環境中（例えば室内）にある複数の物体にそれぞれセンサノード２が装着されているものとする。

Ｗｅｂ検索装置１は、アクティビティ検出部３と、物体解析部４と、Ｗｅｂ検索部５とを有する。物体解析部４は、Ｄｏｓ計算部４０と、クラスタ解析部４１と、フィルタ部４２とから構成され、Ｗｅｂ検索部５は、クエリ作成部５０と、検索部５１と、リランク部５２とから構成される。

Ｗｅｂ検索装置１は、ｎ分ごとに現時点から過去ｎ分間のアクティビティをセンサノード２ごとに求め、求めたアクティビティを用いてＷｅｂ検索を行う。アクティビティを用いてＷｅｂ検索を行うには、まず、環境中に存在する複数の物体のうち過去ｎ分間において一緒に使用された物体からなるクラスタ（部分集合）を求める。そして、求めたクラスタごとにクラスタに含まれる物体の名前を用いてＷｅｂを検索し、クラスタに対応するＷｅｂページを求める。したがって、クラスタごとに１つのＷｅｂページが得られる。なお、本実施の形態では、ｎ＝３とした。

図２はＷｅｂ検索システムの動作を示すフローチャートである。以下、図２を用いてＷｅｂ検索システムの動作を説明する。
まず、Ｗｅｂ検索装置１のアクティビティ検出部３は、各センサノード２からセンサデータをｎ分間収集し（図２ステップＳ１）、センサノード２ごとに過去ｎ分間のアクティビティを検出する（ステップＳ２）。本実施の形態におけるアクティビティとは、センサデータ（加速度データ）が大きく変化している時間範囲のことである。この時間範囲を、物体が動いている時間（物体が使用されている時間）とする。

本実施の形態では、センサノード２として３軸（ｘ，ｙ，ｚ）加速度センサを用いている。このため、アクティビティ検出部３は、それぞれの軸のセンサデータから軸ごとにアクティビティを検出し、検出した各アクティビティの和集合の区間を、そのセンサノード２が装着されている物体が使用された区間とする。

信号処理の分野では、アクティビティの検出に学習を用いることが多い。例えば参考文献１「J.Sohn，N.S.Kim，and W.Sung，“A statistical model-based voice activity detection”，IEEE Signal Processing Letters，6，pp.1-3，1999」では、あらかじめアクティビティ区間と雑音区間（アクティビティ以外の区間）のフーリエ成分をＧＭＭ（Gaussian Mixture Model）により学習することでアクティビティを検出している。本実施の形態でも、参考文献１と同様の手法を用いてアクティビティを検出する。

ここで、本実施の形態では、物体が使用されている時間とその物体の名前とを用いてＷｅｂページの検索を実現する。したがって、物体が使用されている時間を検出できるセンサノード２であれば、加速度センサでなくとも、センサノード２の出力をそのまま、もしくは少しの改変で本実施の形態のＷｅｂ検索手法に適用できる。

例えば、参考文献２「M.Perkowitz，M.Philipose，D.Patterson，and K.Fishkin，“Mining models of human activities from the web”，Proc.WWW2004，pp.573-582，2004」に開示されたシステムでは、物体に装着したＲＦＩＤ（Radio Frequency Identification）タグと、ユーザが装着したＲＦＩＤリーダを用いて物体の利用を検出している。ＲＦＩＤタグは価格面で非常に利点があり、将来、商品情報（物体の名前も含む）などを記録したタグが出荷時に物体に埋め込まれることも十分考えられる。

また、接触センサにより、物体と人との接触を検知できれば、同様にアクティビティを検出できると考えられる。もちろん、２軸加速度センサや傾きセンサといったものをセンサノード２として用いても、アクティビティの検出は十分実現可能である。

次に、物体解析部４の動作について説明する。物体解析部４は、前述の従来の問題点を解決するために、物体をその使用状況ごとにクラスタ（部分集合）に分類する。図１に示すように、物体解析部４は、Ｄｏｓ計算部４０とクラスタ解析部４１とフィルタ部４２の３つの構成要素からなる。ここで、２つの物体の使用状況の類似度を示す指標を、以下ではＤｏｓ（Degree Of being used in Same ADL）と呼ぶ、物体間のＤｏｓが大きい場合は、その２つの物体同士が一緒に使用された可能性が高いとする。

物体解析部４のＤｏｓ計算部４０は、アクティビティ検出部３で検出されたアクティビティ区間において、この区間で使用された物体間のＤｏｓを計算し（図２ステップＳ３）、クラスタ解析部４１は、このＤｏｓに従って物体をクラスタに分類する（ステップＳ４）。そして、フィルタ部４２は、クラスタ解析部４１が求めたクラスタのうち、アクティビティ検出部３で検出されたアクティビティ区間において短時間しか使用されていない物体のみを含むクラスタを削除する（ステップＳ５）。

以下、物体解析部４の各構成要素の動作をより詳細に説明する。図４はＤｏｓ計算部４０の動作を示すフローチャートである。Ｄｏｓ計算部４０は、主にＴｅｍｐ（Ｘ，Ｙ，ｔ）、Ｈｉｓｔ（Ｘ，Ｙ）、Ｓｅｍ（Ｘ，Ｙ）の３つの指標を基に物体ＸとＹのＤｏｓを計算する。

Ｔｅｍｐ（Ｘ，Ｙ，ｔ）は、時区間ｔ（ｎ分間の時間）において、物体ＸとＹが近い時刻で使用されたかどうかの程度を表す指標である。指標Ｔｅｍｐ（Ｘ，Ｙ，ｔ）の計算には、アクティビティ検出部３で検出された、時区間ｔにおけるアクティビティを用いる。指標Ｔｅｍｐ（Ｘ，Ｙ，ｔ）は、近い時刻で使用された物体はユーザの同じ行動によって一緒に使われている可能性が高いという考えを基にしている。

Ｈｉｓｔ（Ｘ，Ｙ）は、過去のアクティビティのデータセットにおいて、物体ＸとＹが同時に使われていたかどうかの程度を表す指標である。指標Ｈｉｓｔ（Ｘ，Ｙ）の計算のために、ある程度の期間の過去のデータセットをあらかじめ用意しておく。指標Ｈｉｓｔ（Ｘ，Ｙ）は、ユーザの過去の行動において一緒に使われた物体は同じＡＤＬに使用される可能性が高いという考えを基にしている。

Ｓｅｍ（Ｘ，Ｙ）は、物体ＸとＹが意味的に近いかどうかの程度を表す指標である。指標Ｓｅｍ（Ｘ，Ｙ）の計算には、検索エンジンのヒット数を用いて計算した物体ＸとＹの共起を用いる。指標Ｓｅｍ（Ｘ，Ｙ）は、実世界において一緒に使用される物体は実世界を反映したＷＷＷ（World Wide Web）の文書中でも共起して現れるという考えを基にしている。
物体ＸとＹのＤｏｓ（Ｘ，Ｙ，ｔ）は、指標Ｔｅｍｐ（Ｘ，Ｙ，ｔ）とＨｉｓｔ（Ｘ，Ｙ）とＳｅｍ（Ｘ，Ｙ）との積で表される。以下、この３つの指標について詳しく説明する。

［Ｔｅｍｐ（Ｘ，Ｙ，ｔ）］
指標Ｔｅｍｐ（Ｘ，Ｙ，ｔ）の計算方法を説明する前に、用語を図３を用いて説明する。図３において、ｘ_iは物体Ｘのアクティビティ区間を表し、ｙ_jは物体Ｙのアクティビティ区間を表す。ｄ（ｘ_i，ｙ_j）はアクティビティ区間ｘ_iとｙ_jの時間軸上の距離を表す。距離ｄ（ｘ_i，ｙ_j）が大きくなれば、指標Ｔｅｍｐ（Ｘ，Ｙ，ｔ）は小さくなる。このような考えを基に、忘却係数の概念を利用して指標Ｔｅｍｐ（Ｘ，Ｙ，ｔ）を下記のように計算する。

λ₁が忘却係数で、λ₁が小さいほど過去の値の影響が小さくなる。本実施の形態では、忘却係数λ₁として０．９９を用いた。忘却係数λ₁は、学習や信号処理に用いられることが多く、例えば学習では近い過去のトレーニングデータに重みをおいてモデルの作成を行う。また、時区間ｔにおいて、物体ＸにＮ個のアクティビティｘ_i（ｉ＝１，・・・，Ｎ）が観測され、物体ＹにＭ個のアクティビティｙ_j（ｉ＝１，・・・，Ｍ）が観測されたとする。

ｗ（ｘ_i）はアクティビティｘ_iの重みを示す。｜ｘ_i｜はアクティビティｘ_iの長さである。また、あらかじめ十分な長さの時間において観測されたアクティビティｘ_k（ｋ＝１，・・・，ｉ−１）を得ているとする。つまり、重みｗ（ｘ_i）は、アクティビティｘ_iの長さが過去に得られた物体Ｘのアクティビティの長さの平均と比べてどの程度大きいかを表す。アクティビティｙ_jの重みｗ（ｙ_j）の意味も同様である。重みｗ（ｘ_i），ｗ（ｙ_j）を用いることにより、普段の利用に比べて短時間の利用（例えば、ちょっと触れた程度の動きなど）の重みを抑制できる。以上から、指標Ｔｅｍｐ（Ｘ，Ｙ，ｔ）は、時区間ｔにおける、物体ＸとＹのアクティビティ間の時間的な距離と、過去のデータから求めたアクティビティの重みを考慮した指標といえる。

［Ｈｉｓｔ（Ｘ，Ｙ）］
次に、指標Ｈｉｓｔ（Ｘ，Ｙ）の計算方法について説明する。ここでは、Ｗｅｂ検索システムのアクティビティ検出の対象となる室内環境中でｐ日分（Ｔ₁，・・・，Ｔ_p）の間に存在した全ての物体のアクティビティがあらかじめ取得され、Ｄｏｓ計算部４０が記憶しているものとする。この過去のアクティビティのデータにより、指標Ｈｉｓｔ（Ｘ，Ｙ）は下記の式で表される。

ｈ（Ｘ，Ｙ）は、ある日Ｔ₁から別の日Ｔ_pまでのｐ日間において物体Ｙが、環境中に存在した全ての物体と比べてどの程度物体Ｘと一緒に使われたかを表す。ここでも、忘却係数λ₂を用いることで、近い過去を重視している。本実施の形態では、忘却係数λ₂として０．９９を用いた。Ｄｏｓ計算部４０は、全ての物体間の指標Ｈｉｓｔを日が変わるごとに計算してあらかじめ保持しておく。

［Ｓｅｍ（Ｘ，Ｙ）］
次に、指標Ｓｅｍ（Ｘ，Ｙ）の計算方法について説明する。指標Ｓｅｍ（Ｘ，Ｙ）は、語彙の関連性を測るのによく使われるシンプソン（Simpson）係数を用いて下記のように表される。

Ｈｉｔ（Ｘ）は、「Ｘ」というキーワードを検索エンジンに送信したときにＷＷＷの文書中に出現したヒット数である。また、Ｈｉｔ（Ｘ∩Ｙ）は、「Ｘ」と「Ｙ」というキーワードがＷＷＷの文書中に同時に出現したヒット数である。さらに、ｍｉｎ（Ｈｉｔ（Ｘ），Ｈｉｔ（Ｙ））はヒット数Ｈｉｔ（Ｘ）とＨｉｔ（Ｙ）のうち小さい方を採用することを意味する。ヒット数の導出は、後述する検索部５１を通じて検索エンジンにキーワードを送信すればよい。

以上のように、Ｄｏｓ計算部４０は、時区間ｔ（ｎ分間の時間）において、アクティビティ検出部３によりアクティビティが検出された物体ＸとＹについて、式（１）〜式（３）を用いて指標Ｔｅｍｐ（Ｘ，Ｙ，ｔ）を計算する（図４ステップＳ１０）。また、Ｄｏｓ計算部４０は、過去のアクティビティのデータセットから、式（４）〜式（６）を用いて指標Ｈｉｓｔ（Ｘ，Ｙ）を計算する（ステップＳ１１）。さらに、Ｄｏｓ計算部４０は、検索エンジンによる検索結果から、式（７）を用いて指標Ｓｅｍ（Ｘ，Ｙ）を計算する（ステップＳ１２）。そして、Ｄｏｓ計算部４０は、指標Ｔｅｍｐ（Ｘ，Ｙ，ｔ）とＨｉｓｔ（Ｘ，Ｙ）とＳｅｍ（Ｘ，Ｙ）との積を、物体ＸとＹのＤｏｓ（Ｘ，Ｙ，ｔ）とする（ステップＳ１３）。Ｄｏｓ計算部４０は、アクティビティ検出部３によりアクティビティが検出された全ての物体間についてＤｏｓを計算する。

次に、クラスタ解析部４１について説明する。Ｄｏｓの計算により、時区間ｔにおける全ての物体間の距離（近さ）が求まった。したがって、既存のクラスタリング手法を用いれば、使用状況ごとに物体を分類できる。本実施の形態では、クラスタ解析部４１は、階層的クラスタリング手法の一つであるウォード法（Ward's method）を用いて、アクティビティ検出部３によりアクティビティが検出された物体をクラスタに分類する（ステップＳ４）。ウォード法については、参考文献３「J.F.Hair，R.E.Andersen，R.L.Tatham and W.C.Black，“Multivariate data analysis”，4th ed.Prentice-Hall，Englewood Cliffs，N.J.」に記載されている。

フィルタ部４２は、クラスタ解析部４１が求めたクラスタのうち、時区間ｔにおけるアクティビティの合計時間が所定時間（例えば５秒）を超える物体を含まないクラスタを削除し、残りのクラスタをＷｅｂ検索部５に出力する（ステップＳ５）。
以上で、物体解析部４の処理が終了する。

次に、Ｗｅｂ検索部５の動作について説明する。Ｗｅｂ検索部５は、物体解析部４で求められたクラスタごとにサブクエリ（複数のクエリのセット）を作成し、サブクエリに対応するＷｅｂページを検索する。図１に示すように、Ｗｅｂ検索部５は、クエリ作成部５０と検索部５１とリランク部５２の３つの構成要素からなる。

クエリ作成部５０は、クラスタから複数のサブクエリを作成し（ステップＳ６）、検索部５１は、そのサブクエリを図示しない検索エンジンに送信することで複数の検索結果を得る（ステップＳ７）。そして、リランク部５２は、クラスタとＷｅｂページの類似度を求めることで検索結果を順位付けし直し（リランク）、最上位のＷｅｂページのＵＲＬ（Uniform Resource Locators ）を最終的な検索結果として出力する。

以下、Ｗｅｂ検索部５の各構成要素の動作をより詳細に説明する。図５はクエリ作成部５０の動作を示すフローチャートである。本実施の形態では、クエリ作成部５０は、クラスタにおける物体の重要度を用いてクラスタをベクトルで表現する。ある物体の重要度は、同じクラスタに属する他の物体とのＤｏｓのうち最も大きいものであると定義する。物体の重要度は、クラスタに対応する行動（使用状況）におけるその物体の貢献度と言ってもいい。つまり、本実施の形態で用いる重要度は、物体間の意味的な関係、過去のアクティビティのデータ、および他の物体と近い時刻に使われたかどうか、を考慮した重要度と言える。

このように物体の重要度を定義することにより、例えば、、＜juicer,3.0＞，＜cup,3.0＞，＜milk,2.0＞，＜cup,1.0＞，＜sugar,0.5＞といった重要度付きの物体のリスト（クエリベクトル）が得られる。ここでは、＜＞中のカンマ（，）より前の記述が物体の名前、カンマより後の数値が重要度である。つまり、＜juicer,3.0＞は、「juicer」と「milk」と「sugar」と２つの「cup,3.0」という５つの物体からなるクラスタにおける物体「juicer」の重要度が３．０であることを示している。

ただし、クエリ作成部５０は、クラスタに同じ名前の物体が複数含まれるときは、最も大きい重要度を持つ物体以外はクラスタから削除する。上記の例では、「cup」という名前の物体が同一のクラスタに２つ含まれるので、＜cup,1.0＞が削除される。以上の手順により、＜juicer,3.0＞，＜cup,3.0＞，＜milk,2.0＞，＜sugar,0.5＞という４つの要素を持つ４次元のクエリベクトルが作成される。上述のように重要度は、Ｄｏｓで表現されるため、値の上限などはないが、大きければ大きいほど重要と言える。以下で説明する手法の目的は、このクエリベクトルを用いて物体の使用状況に良く関連するＷｅｂページを見つけることである。クエリ作成部５０は、下記の３つの技術をクラスタに対して順に適用する。

［ベクトル拡張］
以前の時区間において一緒に使っていた物体の名前がクエリ生成に役立つことは多い。例えば、ある時区間において、室内環境にいるユーザが、紅茶が入っている茶筒（以下、物体「green-tea」とする）とティーカップ（以下、物体「cup」とする）を用いてお茶をいれていたとする。そして、ユーザは、その後の時区間において物体「cup」を使ってお茶を飲んでいたとする。このとき、「cup」という名前のみを用いてクエリを作成しても、お茶を飲むという行動に関係するＷｅｂページを得ることは難しい。

しかし、以前の時区間において、物体「cup」と一緒に使用されていた物体「green-tea」もクエリ生成に利用することで行動に関係するＷｅｂページを取得し易くなる。まず、クエリ作成部５０は、注目している時区間ｔにおけるクエリベクトルＱ_iの要素数が所定数ε_hq（本実施の形態ではε_hq＝２）以下のとき、時区間ｔよりも過去の時区間におけるクエリベクトルのうち、下記に示すＳｉｍ_hが最も大きく、Ｑ_iとの類似度が所定値ε_hw（本実施の形態ではε_hw＝０．７）より大きいクエリベクトルＱ_jを選ぶ。

ただし、ｃｏｓ（Ｑ_i，Ｑ_j）はクエリベクトルＱ_iとＱ_j間のコサイン類似度で、ｄ（Ｑ_i，Ｑ_j）はクエリベクトルＱ_iが得られた時区間とクエリベクトルＱ_jが得られた時区間の時間的な距離（分）である。また、実際のアルゴリズムでは計算コスト削減のため、過去２時間までの時区間に含まれるクラスタしか用いない。

そして、クエリ作成部５０は、式（８）により選んだクエリベクトルＱ_jの各要素の重要度にλ₃ ^d(Qi,Qj)を乗算したものを、クエリベクトルＱ_iの新たな要素として加える。つまり、過去のクエリベクトルＱ_jを用いて時区間ｔにおけるクエリベクトルＱ_iを拡張する。本実施の形態では、係数λ₃として０．９９を用いた。

［サブクエリ作成］
続いて、クエリ作成部５０は、拡張した１つのクエリベクトルから複数のサブクエリを作成する。簡単に言うと、クエリベクトルからある程度の数の物体の名前を抽出し、クエリを作成する。物体の名前を抽出して複数のサブクエリを作成することで、物体解析部４による物体のクラスタリングにおいてクラスタに混入したノイズ（すなわち、間違ってクラスタの要素となっている物体）を含まないクエリを作成できる可能性が高くなる。また、ある程度の数の物体の名前（語）を抽出することで、クエリが厳密になり過ぎるのを防ぐことができる。

以下、サブクエリの作成方法を説明する。クエリ作成部５０は、次元がｉ（要素数がｉ）のクエリベクトルから、所定数ｌ（ｉ≧ｌ）個の物体の全ての組合せを求めることでサブクエリを作成する。ただし、クエリ作成部５０は、重要度が最上位からｐ番目までの物体を含まないサブクエリは省略する。

ｌ＝２、ｐ＝２とすると、上記の＜juicer,3.0＞，＜cup,3.0＞，＜milk,2.0＞，＜sugar,0.5＞という４次元のクエリベクトルからは、“juicer cup”，“juicer milk”，“juicer sugar”，“cup milk”，“cup sugar”という５つのサブクエリが作成される。このサブクエリ作成のアルゴリズムによると、クエリ作成部５０は、重要度の大きい物体を優先した語（物体の名前）の組み合わせをサブクエリとして出力する。

［クエリ拡張］
物体の名前しか含まないクエリは曖昧になることがある。例えば、“cup green-tea”といったクエリから、ユーザが欲するＷｅｂページ（生活行動に関する追加情報やｔｉｐｓ）を得るのは難しい。一方、参考文献４「R.Kraft and R.Stata，“Finding buying guides with a web carnivore”，Proc.the 1st Latin American Web Congress(LA-WEB)，pp.84-92，2003」では、良いクエリを作成するには、トピックに関する語とジャンルに関する語を組み合わせるとよいと言われている。例えばカメラを買いたいときは、“camera”という語と“buying”や“choosing”といった語を組み合わせ、“camera buying”というクエリを作る。

本実施の形態でも同様に、クエリ作成部５０は、生活行動に関するＷｅｂページが得られそうなジャンルに関する語をサブクエリに組み合わせて、それぞれのサブクエリを拡張をする。ここでは、クエリ作成部５０は、あらかじめ用意されたジャンルに関する語（例えば、英語ならば、“advice”，“how-to”，“tips”，“trivia”など、日本語ならば、“豆知識”，“アドバイス”，“こつ”など）の中から１つをランダムに選択してサブクエリに組み合わせる。

以上のように、クエリ作成部５０は、物体解析部４のフィルタ部４２から出力されたクラスタから、クエリベクトルＱ_iを作成し（ステップＳ２０）、時区間ｔよりも過去の時区間のクエリベクトルＱ_jを用いてクエリベクトルＱ_iを拡張する（ステップＳ２１）。さらに、クエリ作成部５０は、拡張したクエリベクトルＱ_iから複数のサブクエリを作成し（ステップＳ２２）、この複数のサブクエリをそれぞれ拡張する（ステップＳ２３）。なお、クエリ作成部５０は、以上の処理を物体解析部４から出力されたクラスタごとに行う。

次に、検索部５１は、クエリ作成部５０が作成したサブクエリを図示しないインターネットを通じて検索エンジンに送信することにより、複数の検索結果を得ることができる（図２ステップＳ７）。検索エンジンは、送信されたサブクエリ（キーワード）に関係すると考えられるＷｅｂページを、サブクエリとの関連性が高い順に並べて検索結果として提示する。したがって、検索エンジンによって順位付けされた検索結果を得ることができる。

次に、リランク部５２について説明する。リランク部５２は、検索エンジンの検索結果を順位付けし直すために、クエリベクトルとＷｅｂページとの類似度を測る指標を用いる。なお、以降では、最上位からｎ番目までの順位（以下、ｔｏｐ−ｎとする）のＷｅｂページを取得する手続きが多く行われるが、ｔｏｐ−ｎのＷｅｂページは以前の期間において出力されたＷｅｂページを省いたｔｏｐ−ｎであることに注意を要する。これは、同じＷｅｂページを複数回ユーザに提示しないようにするためである。このような重複したＷｅｂページの提示を防ぐため、リランク部５２は、既に提示したＷｅｂページのＵＲＬを図示しないデータベースに保存しておく。

クエリを用いてＷｅｂページを順位付けし直したり、点数付けしたりする研究は多くある。本実施の形態では、それらの研究の中でも、物体の名前をクエリに用いたＷｅｂ検索に適した手法を拡張した手法を用いる。Ｗｅｂページ内の近くにクエリターム（クエリに含まれる語）が位置しているページはクエリによく合った文章を含むだろうという視点から、メタサーチ（meta-search）の分野においてクエリターム間の距離を考慮したＷｅｂページとクエリの類似度の尺度が提案されている。この研究は、参考文献５「S.Lawrence and C.L.Giles，“Inquirus,the NECI meta search engine”，Proc.WWW-7，pp.95-105，1998」に開示されている。

発明者は、参考文献５に開示された尺度をＷｅｂページとクエリベクトルの比較用に改良した。下記にその尺度Ｒ_d（Ｑ，Ｗ）を示す。

上記と同様に、Ｑはクエリベクトルで、Ｑ＝｛＜ｔ₁，ｗ₁＞，・・・，＜ｔ_N，ｗ_N＞｝で表される。ｔはポーターのアルゴリズム (Porter's algorithm) によりステミング（stemming）された語、ｗは語の重要度である。ポーターのアルゴリズムについては、参考文献６「M.F.Porter，“An algorithm for suffix stripping”，Program，4，pp.130-137，1980」に開示されている。

また、式（９）〜式（１２）において、ＷはＨＴＭＬ（Hyper Text Markup Language）タグが除去され、ステミングされたＷｅｂページである。ｎ_t（ｔ，Ｗ）は文書Ｗに語ｔが出現する数である。Ｄ₁（ｔ_i，ｔ_j，Ｗ）は、文書Ｗにおけるｔ_iとｔ_j間の最小距離（キャラクタ数）である。ｃ₁は尺度Ｒ_d（Ｑ，Ｗ）の大きさを調整する定数である。ｃ₂は語間の最大距離を表す整数である。ｃ₃は語の出現回数の重み付けのための整数である。参考文献５と同様に、ｃ₁＝１００，ｃ₂＝５０００，ｃ₃＝１０ｃ₁とした。

リランク部５２は、検索エンジンによる検索結果のうちｔｏｐ−（ｒ／＃ｓｕｂｑｕｅｒｉｅｓ）をダウンロードし、ダウンロードしたＷｅｂページとサブクエリとの類似度の尺度Ｒ_dを式（９）〜式（１２）によりページごとに計算する。なお、本実施の形態ではｒ＝５０とした。また、＃ｓｕｂｑｕｅｒｉｅｓはクエリ作成部５０が作成したサブクエリの数である。したがって、最上位から（ｒ／＃ｓｕｂｑｕｅｒｉｅｓ）までの順位のＷｅｂページをダウンロードすることになる。そして、リランク部５２は、計算した類似度の尺度Ｒ_dが最も大きいＷｅｂページのＵＲＬをユーザに提示する。なお、リランク部５２は、以上の処理をクエリ作成部５０が作成したサブクエリごとに行う。

以上のように、本実施の形態では、環境中に存在する様々な物体に装着されたセンサノード２のセンサデータから複数の物体の使用状況の類似度を表す指標であるＤｏｓを計算し、Ｄｏｓに基づいて複数の物体をクラスタに分類し、このクラスタに所属する物体の名前をキーワードとして含むサブクエリを作成するようにしたので、ユーザの行動（物体の使用状況）に関係するＷｅｂページを検索することができる。この結果、本実施の形態では、ユーザが行っている行動に関する有用な情報を含むＷｅｂページ、例えば生活を豊かにするような情報が記述されたＷｅｂページや、知識欲を満たすような情報が記述されたＷｅｂページ、あるいは購買意欲を喚起するような情報が記述されたＷｅｂページを自動的に取得してユーザに提示することができる。

なお、本実施の形態では、センサノード２として加速度センサを用いているが、前述のとおり、これに限るものではない。本実施の形態は、物体の名前と、物体が使用された時間というシンプルな指標を使っているため、物体が使用された時間を検知できるセンサであれば何でも使用することができる。

また、本実施の形態では、センサノードと物体の名前が１対１で対応しているが、各センサノードは複数の物体の名前を持っていてもよい。その理由は、１つの物体が複数の呼び方をされる場合があるからである。このような場合の例としては、例えば茶筒に装着されたセンサノードが、「green-tea」、「玉露」、「煎茶」という複数の名前を持つ場合が考えられる。１つのセンサノードが複数の物体の名前を持つ場合、それぞれの名前を含むサブクエリが多数生成されるが、それらの名前を含むサブクエリの全てをＷｅｂページの検索に使用してもよいし、いずれか１つのサブクエリを選択して検索するようにしてもよい。

［第２の実施の形態］
第１の実施の形態のＷｅｂ検索装置１は、ＣＰＵ、メモリおよび外部とのインタフェースを備えたコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。
図６はこのようなコンピュータの構成例を示すブロック図である。図１において、１００はＣＰＵ、１０１はＲＡＭ、１０２はＲＯＭ、１０３，１０４はインターフェイス装置（以下、Ｉ／Ｆと略する）である。

Ｉ／Ｆ１０３は、センサノード２からのセンサデータを受信する。ＣＰＵ１００は、Ｉ／Ｆ１０４を通じて図示しない表示装置に検索結果を表示させる。
このようなコンピュータにおいて、本発明のＷｅｂ検索方法を実現させるためのＷｅｂ検索プログラムは、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカードなどの記録媒体に記録された状態で提供され、ＲＡＭ１０１あるいは外部のハードディスク装置等のメモリに格納される。ＣＰＵ１００は、格納されたプログラムに従って第１の実施の形態で説明した処理を実行する。

本発明は、ユーザの行動に関係するＷｅｂページを検索する技術に適用することができる。

本発明の第１の実施の形態に係るＷｅｂ検索システムの構成を示すブロック図である。本発明の第１の実施の形態に係るＷｅｂ検索システムの動作を示すフローチャートである。本発明の第１の実施の形態において物体間のＤｏｓの計算に用いる指標Ｔｅｍｐの計算方法を説明するための図である。本発明の第１の実施の形態に係る物体解析部のＤｏｓ計算部の動作を示すフローチャートである。本発明の第１の実施の形態に係るＷｅｂ検索部のクエリ作成部の動作を示すフローチャートである。本発明の第２の実施の形態におけるコンピュータの構成例を示すブロック図である。

符号の説明

１…Ｗｅｂ検索装置、２…センサノード、３…アクティビティ検出部、４…物体解析部、５…Ｗｅｂ検索部、４０…Ｄｏｓ計算部、４１…クラスタ解析部、４２…フィルタ部、５０…クエリ作成部、５１…検索部、５２…リランク部。

Claims

複数の物体の各々に装着されたセンサノードからセンサデータを受信し、各物体の使用状況に応じてＷｅｂ検索要求であるサブクエリを生成するＷｅｂ検索装置において、
前記センサノードから受信したセンサデータに基づいて、各物体が使用された時間範囲であるアクティビティを検出するアクティビティ検出手段と、
前記アクティビティが検出された複数の物体について使用状況の類似度を表す指標であるＤｏｓを計算するＤｏｓ計算手段と、
前記Ｄｏｓに基づいて、前記アクティビティが検出された複数の物体をクラスタに分類するクラスタ解析手段と、
このクラスタ解析手段が求めたクラスタから、前記アクティビティが検出された複数の物体のうち所定時間以下しか使用されていない物体のみを含むクラスタを削除して残りのクラスタを出力するフィルタ手段と、
このフィルタ手段から出力されたクラスタに所属する物体の名前をキーワードとして含むサブクエリを作成するクエリ作成手段とを備え、
前記Ｄｏｓ計算手段は、前記アクティビティが検出された複数の物体について、これらの物体が近い時刻で使用されたかどうかの程度を表す指標Ｔｅｍｐを計算し、前記アクティビティが検出された複数の物体が同時に使われていたかどうかの程度を表す指標Ｈｉｓｔを、過去のアクティビティのデータから計算し、前記アクティビティが検出された複数の物体が意味的に近いかどうかの程度を表す指標Ｓｅｍを、検索エンジンによる検索結果から計算し、前記ＴｅｍｐとＨｉｓｔとＳｅｍとの積を前記Ｄｏｓとすることを特徴とするＷｅｂ検索装置。
請求項１記載のＷｅｂ検索装置において、
前記クエリ作成手段は、前記フィルタ手段から出力されたクラスタから、物体の名前と物体の重要度とからなるクエリベクトルを作成し、このクエリベクトルとの類似度が最も高い過去のクエリベクトルを用いて前記クエリベクトルを拡張し、拡張したクエリベクトルから複数の前記サブクエリを作成し、このサブクエリにあらかじめ用意された用語を組み合わせて前記サブクエリを拡張することを特徴とするＷｅｂ検索装置。
請求項１記載のＷｅｂ検索装置において、
さらに、前記サブクエリに応じて検索されたＷｅｂページと前記クラスタとの類似度を求めることにより、前記検索されたＷｅｂページを順位付けし直し、最上位のＷｅｂページを最終的な検索結果とするリランク手段を備えることを特徴とするＷｅｂ検索装置。
ＣＰＵとメモリとを備えたコンピュータからなるＷｅｂ検索装置において、前記メモリに格納されたプログラムに従って前記ＣＰＵが、アクティビティ検出手段とＤｏｓ計算手段とクラスタ解析手段とフィルタ手段とクエリ作成手段として機能し、複数の物体の各々に装着されたセンサノードからセンサデータを受信し、各物体の使用状況に応じてＷｅｂ検索要求であるサブクエリを生成するＷｅｂ検索方法であって、
前記アクティビティ検出手段が、前記センサノードから受信したセンサデータに基づいて、各物体が使用された時間範囲であるアクティビティを検出するアクティビティ検出ステップと、
前記Ｄｏｓ計算手段が、前記アクティビティが検出された複数の物体について使用状況の類似度を表す指標であるＤｏｓを計算するＤｏｓ計算ステップと、
前記クラスタ解析手段が、前記Ｄｏｓに基づいて、前記アクティビティが検出された複数の物体をクラスタに分類するクラスタ解析ステップと、
前記フィルタ手段が、前記クラスタ解析手段が求めたクラスタから、前記アクティビティが検出された複数の物体のうち所定時間以下しか使用されていない物体のみを含むクラスタを削除して残りのクラスタを出力するフィルタステップと、
前記クエリ作成手段が、前記フィルタステップで得られたクラスタに所属する物体の名前をキーワードとして含むサブクエリを作成するクエリ作成ステップとを備え、
前記Ｄｏｓ計算ステップは、前記アクティビティが検出された複数の物体について、これらの物体が近い時刻で使用されたかどうかの程度を表す指標Ｔｅｍｐを計算するステップと、前記アクティビティが検出された複数の物体が同時に使われていたかどうかの程度を表す指標Ｈｉｓｔを、過去のアクティビティのデータから計算するステップと、前記アクティビティが検出された複数の物体が意味的に近いかどうかの程度を表す指標Ｓｅｍを、検索エンジンによる検索結果から計算するステップと、前記ＴｅｍｐとＨｉｓｔとＳｅｍとの積を前記Ｄｏｓとするステップとを含むことを特徴とするＷｅｂ検索方法。
請求項４記載のＷｅｂ検索方法において、
前記クエリ作成ステップは、前記フィルタステップで得られたクラスタから、物体の名前と物体の重要度とからなるクエリベクトルを作成するステップと、このクエリベクトルとの類似度が最も高い過去のクエリベクトルを用いて前記クエリベクトルを拡張するステップと、拡張したクエリベクトルから複数の前記サブクエリを作成するステップと、このサブクエリにあらかじめ用意された用語を組み合わせて前記サブクエリを拡張するステップとを含むことを特徴とするＷｅｂ検索方法。
請求項４記載のＷｅｂ検索方法において、
さらに、前記メモリに格納されたプログラムに従って前記ＣＰＵが、リランク手段として機能し、
前記リランク手段が、前記サブクエリに応じて検索されたＷｅｂページと前記クラスタとの類似度を求めることにより、前記検索されたＷｅｂページを順位付けし直し、最上位のＷｅｂページを最終的な検索結果とするリランクステップを備えることを特徴とするＷｅｂ検索方法。
請求項４乃至６のいずれか１項に記載のＷｅｂ検索方法の各ステップをコンピュータに実行させることを特徴とするＷｅｂ検索プログラム。
請求項７記載のＷｅｂ検索プログラムを記録したことを特徴とする記録媒体。