JP5545876B2 - クエリ提供装置、クエリ提供方法及びクエリ提供プログラム - Google Patents

クエリ提供装置、クエリ提供方法及びクエリ提供プログラム Download PDF

Info

Publication number
JP5545876B2
JP5545876B2 JP2011006820A JP2011006820A JP5545876B2 JP 5545876 B2 JP5545876 B2 JP 5545876B2 JP 2011006820 A JP2011006820 A JP 2011006820A JP 2011006820 A JP2011006820 A JP 2011006820A JP 5545876 B2 JP5545876 B2 JP 5545876B2
Authority
JP
Japan
Prior art keywords
query
keywords
keyword
clustering
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011006820A
Other languages
English (en)
Other versions
JP2012150539A (ja
Inventor
毅晴 江田
典史 片渕
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011006820A priority Critical patent/JP5545876B2/ja
Publication of JP2012150539A publication Critical patent/JP2012150539A/ja
Application granted granted Critical
Publication of JP5545876B2 publication Critical patent/JP5545876B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、クエリを提供する技術に関する。
情報が常に増加し続けるというオープンエンド性を有するウェブ検索エンジン(Google、Bing等)は、史上類を見ない情報源となり、人々の生活に欠かせないものとなっている。我々は、身の回りの様々な情報をその検索エンジンを利用して探すことができる。
このような検索活動を支援する方法としてクエリサジェストがある。入力中のクエリに対して次に検索すべき関連クエリが推薦されるため、キーボードを入力する手間を省く効果がある。このような効果から、携帯電話やタッチインタフェースを持つスマートフォン等のモバイル端末においても積極的に利用されつつある。
また、クエリサジェストに用いる関連クエリ取得方法として、様々な方法が提案されている。単純なクエリの共起を行う技術(安川美智子、外1名、「クエリログから獲得した関連語のクラスタリングに基づくWeb検索」、電子情報通信学会論文誌、2007年、D Vol.J90-D No.2、p.269-280(以下、関連文献1))、クリックログから生成した「クエリ×URL」の二部グラフ内のランダムウォークを用いる技術(Qiaozhu Mei、外1名、「Query Suggestion Using Hitting Time」、CIKM、2009年(以下、関連文献2))等がある。
特に、商品推薦においては、より多様な商品を推薦する方がユーザ満足度の向上につながるとの仮説に基づいて、検索結果をクラスタリングして推薦される関連クエリを多様化する手法が提案されている(非特許文献1)。また、ウェブ検索や画像検索においても、同様の仮説に基づいて検索結果の多様化方法が提案されている(非特許文献2乃至5)。更に、関連クエリの取得についても、多様なクエリ選択方法が提案されている(非特許文献6)。
Cai-Nicolas Ziegler、外3名、「Improving recommendation lists through topic diversification」、Proc. WWW、2005年 Filip Radlinski、外1名、「Improving personalized web search using result diversification」、Proc. SIGIR 2006 Rakesh Agrawal、外3名、「Diversifying search results」、Proc WSDM 2009 Kai Song、外3名、「Diversifying the image retrieval results」、Proc. ACM Multimedia 2006 Reinier H. van Leuken、外3名、「Visual diversification of image search results」、Proc. WWW 2009 今井、外5名、「ウェブ検索サービスにおける多義的なクエリ推薦手法」、DEIM Forum 2010
しかしながら、携帯電話やスマートフォン等のモバイル端末はパソコンに比べて画面サイズが小さいため、パソコンを対象に開発された従来のクエリ支援技術をモバイル端末上で効果的に利用することは難しい。
例えば、前述のクエリサジェストの場合には、画面サイズの制約から多数の関連クエリを推薦するとクエリ選択が難しくなり、一方で少なくするとユーザの情報要求に答えられない可能性がある。画面サイズは端末に応じて異なるにもかかわらず、推薦される関連クエリの数をサービス提供側で事前に固定してしまうことが問題であり、端末によっては従来のクエリサジェストは使用し難いと言える。
すなわち、従来のクエリ支援技術は、関連クエリが表示される端末の画面サイズが考慮されていないため、画面サイズに適切に対応した数の関連クエリを推薦できず、特にモバイル端末上において検索エンジンの利便性を低下させていたという問題があった。
また、従来のクエリ多様化技術は、推薦される関連クエリを選択後にオンデマンドでクラスタリングする(Post-Processing)ため、関連クエリを端末に表示するまでに時間がかかるという問題があった。
本発明は、上記を鑑みてなされたものであり、推薦されるクエリを高速に選択することを第1の課題とし、端末の画面サイズ等に適した数に多様化されたクエリを選択することを第2の課題とする。
請求項1記載のクエリ提供装置は、キーワードの意味的な類似性に基づいてキーワード間の距離を計算し、キーワードからキーワード間距離を探索可能な距離行列データを生成して記憶手段に記憶しておく距離行列計算手段と、前記距離行列データを用いて前記キーワードを階層的クラスタリングし、前記階層的クラスタリングによって構築されたデンドログラムを下層から上層に探索可能なボトムアップインデックスとして記憶手段に記憶しておくクラスタリング手段と、クラスタリングの対象となるキーワードの部分集合が入力された後、前記記憶手段からボトムアップインデックスを読み出して、所定のクラスタ数になるまで下層を併合して前記入力されたキーワードをクラスタリングすることをボトムアップに繰り返すクラスタリング手段と、当該クラスタリングによって生じた各クラスタから所定のキーワードを代表クエリとしてそれぞれ選択する代表クエリ選択手段と、を有することを特徴とする。
本発明によれば、キーワードからキーワード間距離を探索可能な距離行列データと、階層的クラスタリングされたキーワードのボトムアップインデックスとを予め生成し記憶しておくため、情報検索時に代表クエリを高速に選択できる。
本発明によれば、所定のクラスタ数になるまでクラスタリングすることを繰り返し、各クラスタからキーワードを代表クエリとしてそれぞれ選択するため、端末の画面サイズや検索アプリケーションのデザイン等に応じて推薦されるクエリ数を動的に変えたいとするユーザの要望を満たすことができる。
本発明によれば、階層的クラスタリングによって構築されたボトムアップインデックスを下層から併合してクラスタリングするため、多様化された代表クエリを選択できる。
請求項記載のクエリ提供装置は、請求項記載のクエリ提供装置において、前記代表クエリ選択手段は、前記入力されたキーワードのクラスタリングによって生じたクラスタ内のキーワードが他のキーワードに対して有するキーワード間距離を前記距離行列データから探索して平均値を計算し、前記平均値が最も小さいキーワードを前記代表クエリとして選択することを特徴とする。
本発明によれば、クラスタ内のキーワードが他のキーワードに対して有するキーワード間距離を距離行列データから探索するため、キーワード間距離の探索を定数時間で実行可能となり、代表クエリを高速に選択できる。
本発明によれば、クラスタリングによって生じたクラスタ内のキーワードが他のキーワードに対して有するキーワード間距離を距離行列データから探索して平均値を計算し、その平均値が最も小さいキーワードを代表クエリとして選択するため、より適切に多様化された代表クエリを選択できる。
請求項記載のクエリ提供方法は、コンピュータにより行うクエリ選択方法において、キーワードの意味的な類似性に基づいてキーワード間の距離を計算し、キーワードからキーワード間距離を探索可能な距離行列データを生成して記憶手段に記憶しておく距離行列計算ステップと、前記距離行列データを用いて前記キーワードを階層的クラスタリングし、前記階層的クラスタリングによって構築されたデンドログラムを下層から上層に探索可能なボトムアップインデックスとして記憶手段に記憶しておくクラスタリングステップと、クラスタリングの対象となるキーワードの部分集合が入力された後、前記記憶手段からボトムアップインデックスを読み出して、所定のクラスタ数になるまで下層を併合して前記入力されたキーワードをクラスタリングすることをボトムアップに繰り返すクラスタリングステップと、当該クラスタリングによって生じた各クラスタから所定のキーワードを代表クエリとしてそれぞれ選択する代表クエリ選択ステップと、を有することを特徴とする。
本発明によれば、キーワードからキーワード間距離を探索可能な距離行列データと、階層的クラスタリングされたキーワードのボトムアップインデックスとを予め生成し記憶しておくため、情報検索時に代表クエリを高速に選択できる。
本発明によれば、所定のクラスタ数になるまでクラスタリングすることを繰り返し、各クラスタからキーワードを代表クエリとしてそれぞれ選択するため、端末の画面サイズや検索アプリケーションのデザイン等に応じて推薦されるクエリ数を動的に変えたいとするユーザの要望を満たすことができる。
本発明によれば、階層的クラスタリングによって構築されたボトムアップインデックスを下層から併合してクラスタリングするため、多様化された代表クエリを選択できる。
請求項記載のクエリ提供方法は、請求項記載のクエリ提供方法において、前記代表クエリ選択ステップは、前記入力されたキーワードのクラスタリングによって生じたクラスタ内のキーワードが他のキーワードに対して有するキーワード間距離を前記距離行列データから探索して平均値を計算し、前記平均値が最も小さいキーワードを前記代表クエリとして選択することを特徴とする。
本発明によれば、クラスタ内のキーワードが他のキーワードに対して有するキーワード間距離を距離行列データから探索するため、キーワード間距離の探索を定数時間で実行可能となり、代表クエリを高速に選択できる。
本発明によれば、クラスタリングによって生じたクラスタ内のキーワードが他のキーワードに対して有するキーワード間距離を距離行列データから探索して平均値を計算し、その平均値が最も小さいキーワードを代表クエリとして選択するため、より適切に多様化された代表クエリを選択できる。
請求項記載のクエリ提供プログラムは、請求項3又は4の各ステップをコンピュータに実行させることを特徴とする。
本発明によれば、適切に多様化されたクエリを高速に選択できる。
多様な関連クエリを推薦するメリットを説明する図である。 情報検索システムの全体構成を示す図である。 クライアント端末及びクエリ提供装置の機能ブロック構成を示す図である。 情報検索時前の事前処理フローを示す図である。 階層的クラスタリングによって構築されたデンドログラムの一例を示す図である。 デンドログラム及びボトムアップインデックスの一例を示す図である。 情報検索時の処理フローを示す図である。 情報検索時の処理状態を示す図である。 クラスタリングの一例を示す図である。 クラスタリングの処理フローを示す図である。 クラスタリングの遷移を説明する図である。 タグの所属クラスタの遷移を説明する図である。 クラスタリングの効果を説明する図である。 関連クエリ間の中心性計算を説明する図である。 代表クエリの選択処理フローを示す図である。 関連クエリ出力結果を示す図である。
本発明の具体的特徴について先ず説明する。
本発明は、クライアント端末を用いて情報検索が実行される前に、複数のキーワード(入力されたクエリに関連性のある関連クエリとして検索後に推薦される候補となる複数のキーワード)を用いて階層的クラスタリングを事前に完了しておき、ボトムアップなインデックスとして保持しておくことを特徴とする。同時に、キーワード間の距離を検索可能な距離行列データを生成し保持しておくことを特徴とする。
そのように生成されたボトムアップインデックス及び距離行列データを予め保持しておく(Pre-Processing)ことにより、従来よりも高速にクエリを選択可能となる。
なお、階層的クラスタリングには分割最適化手法と階層的手法が存在するが、本発明では最終的に推薦されるクエリが単に高精度というだけではなく多様であることがユーザの情報検索要求を満たすことに繋がるという仮説に基づいているため、階層的手法を用いる。階層的クラスタリングに関する技術については、「データマイニング分野のクラスタリング手法(1)」、神嶌 敏弘、人口知能学会誌、18巻1号、2003年1月(以下、関連文献3)に記載されている。
そのような仮説は、「Assessing the Scenic Route: Measuring the Value of Search Trails in Web Logs」、Ryen White、外1名、SIGIR 2010(関連文献4)にて間接的に証明されていることを付言しておく。また、非特許文献4によれば、検索行動の途中状態時において、ユーザは妥当性だけでなく多様性も加味しながら多様なクエリを選択していることが証明されている。なお、推薦される関連クエリが多様であるとは、互いに意味が似通っていないということを意味している(図1参照)。
階層的クラスタリングによって生じたデンドログラムを全てのキーワード集合上に構築すると、任意の部分キーワード集合をキーワード数以下の任意の個数にクラスタリング可能となる。この性質により、端末の画面サイズ等を考慮してアプリケーション側(ユーザ側)によって指定された任意の組合せのキーワード集合を任意の個数にクラスタリング可能となり、多様化されたクエリを選択可能となる。
また、本発明では、階層的クラスタリングを行う際に用いた距離行列データを各クラスタから代表クエリをそれぞれ選択する際に再利用することを特徴とする。距離行列データを用いることにより、定数時間で代表クエリを選択可能となる。
以下、本発明を実施する一実施の形態について図面を用いて説明する。但し、本発明は多くの異なる様態で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。
図2は、本実施の形態に係る情報検索システムの全体構成を示す図である。本情報検索システムは、ネットワークサービスとして利用可能であり、キーワードをキーワード入力欄に入力して所期情報を検索するユーザは、ウェブアプリケーションやクライアントアプリケーションを通じて当該サービスを利用できる。
本情報検索システムは、情報検索時にキーワードが入力されるクライアント端末5と、通信ネットワーク3を介してクライアント端末5に通信可能に接続され、入力されたキーワードをクエリとして受信し、そのクエリに対して推薦される関連クエリをデータベースサーバ20から選択して、クライアント端末5に提供するアプリケーションサーバ10を備えたクエリ提供装置1とで構成されている。
なお、このようなクライアント端末5としては、例えば、ウェブブラウザやクライアントアプリケーションがインストールされた携帯電話,スマートフォン,汎用パソコン等により実現される。また、クエリ提供装置1としては、例えば、汎用パソコンやサーバ等により実現される。
次に、クライアント端末5とクエリ提供装置1を構成する各機能部について詳述する。図3は、クライアント端末及びクエリ提供装置の各機能ブロックを示している。
クライアント端末5は、情報検索時に入力されたキーワードをクエリとして受け付けると共に、そのクエリでヒットした情報検索結果や当該クエリに対して当該情報検索後に推薦される関連クエリを表示するユーザインタフェース部51と、入力されたキーワードや情報検索結果等の各種データを記憶する記憶部52と、通信ネットワーク3に対して各種データの入出力を行う通信部53と、各種データを処理するデータ処理部54とで構成されている。
クエリ提供装置1は、アプリケーションサーバ10を構成する距離行列計算部11とクラスタリング部12と関連クエリ取得部13と代表クエリ選択部14と代表クエリ出力部15と、データベースサーバ20を構成するデータ記憶部21と、通信ネットワーク3を介してクライアント端末5に対して各種データの入出力を行う通信部30とで構成されている。以下、それら各機能部の有する具体的特徴について詳述する。
距離行列計算部11は、データ記憶部21から読み出したキーワードの意味的な類似性に基づいてそれら全てのキーワード間の距離を計算し、一のキーワードから他のキーワードへの距離(以下、キーワード間距離)を探索可能な距離行列データを生成してデータ記憶部21に記憶しておく機能を有している。
クラスタリング部12は、その距離行列データを用いて複数のキーワードを階層的クラスタリングし、その階層的クラスタリングによって構築されたデンドログラムを下層から上層に探索可能なボトムアップインデックスとしてデータ記憶部21に記憶しておく機能を有している。
また、クラスタリング部12は、情報検索時において、データ記憶部21からボトムアップインデックスを読み出して、関連クエリ取得部13によって取得された関連クエリについて、指定されたクラスタ数になるまで下層を併合してクラスタリングすることをボトムアップに繰り返す機能を有している。
関連クエリ取得部13は、情報検索時に入力されたキーワードに関連する複数のキーワードを関連クエリとしてデータ記憶部21から取得する機能を有している。
代表クエリ選択部14は、クラスタリングによって生じた各クラスタ内の関連クエリが当該クラスタ内の他の関連クエリに対して有するキーワード間距離を上記距離行列データから探索して平均値を計算し、その平均値が最も小さい関連クエリを各クラスタから代表クエリとしてそれぞれ選択する機能を有している。
代表クエリ出力部15は、選択された複数の代表クエリを入力されたキーワードに関連付けてクライアント端末5に出力する機能を有している。
データ記憶部21は、情報検索後に推薦される候補となる様々な複数のキーワード、予め生成された距離行列データ及びボトムアップインデックスを読み出し可能に保持しておく機能を有している。
なお、距離行列計算部11とクラスタリング部12と関連クエリ取得部13と代表クエリ選択部14と代表クエリ出力部15とは、CPU等の処理手段により実現される。また、データ記憶部21は、ROM、RAM、HDD等の記憶手段により実現される。これらの各処理部は単一装置内で実現されるだけでなく、複数台で分散構成により実現することも可能である。
続いて、クエリ提供装置1の処理動作を2段階に分けて説明する。最初に、図4を参照しながら、情報検索時前の事前処理について説明する。
まず、距離行列計算部11が、データ記憶部21から全てのキーワードを読み出してキーワード間距離を計算し、キーワードからキーワード間距離を探索可能な距離行列データを生成して、データ記憶部21に保持する(S101)。
なお、キーワードはTF*IDFやPageRank等を用いて計算される特徴量を表したベクトルとして表現されている場合が一般的であるが、必ずしもベクトル表現されている必要はなく、意味的な類似性に基づいてキーワード間距離が計算できればどのような特徴量であっても良い。
例えば、キーワード間距離として検索エンジンの結果数を利用したJaccard係数の逆数を用いる場合には、キーワードk,kの距離distanceを以下の式(1)を用いて計算してもよい。但し、#(k)は、キーワードkの結果数であり、∩,∪は、それぞれ、AND,ORの演算子である。
Figure 0005545876
なお、ここで生成保持された距離行列データは、後段のクラスタリング処理と代表クエリ選択処理にて利用される。
次に、クラスタリング部12が、距離行列データを用いてデータ記憶部21に記憶されている全キーワード集合に対して階層的クラスタリングを行い、その階層的クラスタリングによって構築されたデンドログラムをボトムアップインデックスとしてデータ記憶部21に保持する(S102)。
ここで、階層的クラスタリング技術について説明する。階層的クラスタリングとは、キーワード間,クラスタ間,キーワードとクラスタとの間の距離を求めて最も近いものを新たなクラスタとし、新しく形成されたクラスタと他のキーワードや他のクラスタとの距離を求めて最も近い2つを結合して新たなクラスタを生成していくことをクラスタ数が1つ(本発明では指定数)になるまで繰り返す処理をいう。より具体的には、前述した関連文献3に記載されている。
そして、その階層的クラスタリングによって、例えば、図5に示すようなデンドログラム(樹状図)が構築される。なお、図5の中間ノードに付与されている数字は、全体集合を上層ノードから下層ノードに向けて順番に分割する順番を表している。
例えば、上層の根ノードからたどり、2番の中間ノードでデンドログラムをクラスタリングすると、全体集合は2分割される。引き続き、3番の中間ノードでクラスタリングすると、全体集合は3分割される。さらに4番の中間ノードでクラスタリングすると4分割(A〜D)され、結果として中間ノードの数字で全体集合をクラスタリングしたことになる。
この性質により、前述したように、デンドログラムをキーワード集合上に一度構築すると、キーワードの総数以下の任意の個数にクラスタリングできる。
その後、図6(b)に示すように、階層的クラスタリングによって構築されたデンドログラムが、下層から上層に探索可能なボトムアップインデックスとしてデータ記憶部21に保持されるため、後段のクラスタリング処理の高速化が可能となる。ボトムアップなインデックスとは、デンドログラム中の下層ノードをキーとした索引であり、ある下層ノードから上層ノード(以下、親ノードという場合もある)を高速に取得することができる。
続いて、図7及び図8を参照しながら、情報検索時の処理について説明する。
まず、関連クエリ取得部13が、情報検索時に入力されたキーワードに関連する複数のキーワードを関連クエリとしてデータ記憶部21から取得する(S201)。
例えば、「openCV」というキーワードが入力され、「OCR」,「使い方」,「ダウンロード」,「顔検出」,「画像処理」,「テンプレートマッチング」,「カメラ」,「顔認識」,「インストール」,「2.1」,「2.0」,「動画」,「関数」,「リファレンス」,「本」という関連クエリがデータ記憶部21から取得されたとする。
なお、本発明では、関連クエリの取得方法(取得数を含む)には何ら制限されない。例えば、前述した関連文献1,2に記載の取得方法を利用できる。また、関連クエリの取得数はアプリケーションに依存しており、所定数にチューニング可能である。より多くの関連クエリを取得すると、後段にてクラスタリングする際における各クラスタ内の関連クエリ濃度が高くなるため、クラスタリング処理時の精度が向上することが期待できる。一方、手法によっては関連クエリの取得に時間がかかる可能性もある。
次に、クラスタリング部12が、S201で取得した関連クエリ集合について、予め生成しておいたボトムアップインデックスを利用して、指定されたクラスタ数になるまでクラスタリングする(S202)。
ここで、図9に示すように、T1,T4,T7,T9,T13,T14の関連クエリをクラスタリングする場合について、図10〜図13を参照しながら、クラスタリングの処理について説明する。
最初に、アプリケーションが要求する指定クラスタ数k、クラスタリング対象となる関連クエリ集合T’、事前に取得したボトムアップインデックスIDXの入力を受け付ける(S202a)。以下、指定クラスタ数kは3、関連クエリ集合T’はT1,T4,T7,T9,T13,T14、ボトムアップインデックスIDXは図6(b)とする。
次いで、その時点の一時クラスタ数c(=|T’|)と、関連クエリ集合T’の親ノードの分割順位をボトムアップインデックスIDXから取得して降順にソートした親ノードリストPと、親ノードリストPの中で最も分割順位が大きいノードの親ノードの分割順位が設定された位置ポインタcpとを一時変数として設定する(S202b)。関連クエリ集合T’がT1,T4,T7,T9,T13,T14であることから、この時点で、c=6、P=5,7,8,11,14,15、cp=13が設定される。
次いで、一時クラスタ数cと指定クラスタ数kとが比較され(S202c)、一時クラスタ数cが指定クラスタ数kよりも大きい場合には、一時クラスタ数cが指定クラスタ数kに一致するまで以下説明するS202d〜S202iの処理が繰り返される。
次いで、S202cでの比較の結果、一時クラスタ数cが指定クラスタ数kよりも大きい場合には、親ノードリストPの中で最も分割順位が大きいノードの親ノードの分割順位をボトムアップインデックスIDXから取得し、位置ポインタcpに設定する(S202d)。親ノードリストPは変更されていないため、初期の一時値と同じcp=13が設定される(図11、図12に示す時点A参照)。
次いで、S202dで新たに設定された位置ポインタcpが親ノードリストPに含まれるか否かを判定する(S202e)。図11、図12の時点Aを参照すると、cp=13は、Pの中に含まれていない。
次いで、S202eでの判定の結果、位置ポインタcpが親ノードリストPに含まれていない場合には、親ノードリストPの中で最も分割順位が大きいノードの親ノードの分割順位をボトムアップインデックスIDXから取得し、その最も大きいノードの分割順位を、取得した親ノードの分割順位と交換して降順に並び替えた後に、S202cに戻る(S202f)。これにより、P=5,7,8,11,13,14が設定される。
その後、S202c、S202dの処理により、cp=12が設定される(図11、図12に示す時点B参照)。同様に、S202f、S202c、S202dの処理により、P=5,7,8,11,12,13、cp=12が設定される(図11、図12に示す時点C参照)。
次いで、S202eでの判定の結果、位置ポインタcpが親ノードリストPに含まれている場合には、これまで処理対象であった部分関連クエリ集合の親ノードと同じ親ノードの他の部分関連クエリ集合が存在すると判断できるため、親ノードリストPの中で最も大きいノードの分割順位を削除することで、2つの部分キーワード集合を併合する(S202g)。
次いで、親ノードリストPを降順に並び替え(S202h)、一時クラスタ数cから1を引いた(S202i)後に、S202cに戻る。
その後、S202c、S202dの処理により、cp=4が設定される(図11、図12に示す時点D参照)。同様に、S202c〜S202iの処理を繰り返すことにより、現在の処理時点は、図11、図12に示す時点Eであるとする。
次いで、S202cでの比較の結果、一時クラスタ数cが指定クラスタ数kよりも大きくない場合には、k個にクラスタリングされた関連クエリ集合を出力する(S202j)。これにより、P=3を親ノードとする関連クエリ集合(T13とT14)と、P=4を親ノードとする関連クエリ集合(T1とT4)と、P=5を親ノードとする関連クエリ集合(T7とT9)とが出力される。
以上がクラスタリングの処理であるが、直感的には、最初に、部分集合中の関連クエリそれぞれを1つのクラスタとみなしてクラスタ数を初期化し、次に、デンドログラムをボトムアップに登りながら併合する処理を行っている。
すなわち、図13(b)に示すように、キーワードを事前にクラスタリングしておき(Pre-Processing)、その事前のクラスタリング結果を情報検索時にインデックスとして利用することにより、図13(a)に示した従来のオンデマンドクラスタリングよりも高速に関連タグの多様化を図ることができる。
なお、このクラスタリングの結果、「OCR」,「テンプレートマッチング」,「顔検出」,「顔認識」という第1クラスタと、「使い方」,「ダウンロード」,「インストール」,「関数」,「リファレンス」,「本」という第2クラスタと、「画像処理」,「カメラ」,「2.1」,「2.0」,「動画」という第3クラスタとにクラスタリングされたとする。
次に、図7及び図8に戻り、代表クエリ選択部14が、各クラスタ内から代表クエリをそれぞれ選択する(S203)。
例えば、クラスタ内での関連クエリの中心性に基づいて代表クエリを判定する。具体的には、クラスタに含まれる全ての関連クエリ間に枝があると仮定し、図14に示すように、以下の式(2)を用いて各クエリ間の中心性centralityをそれぞれ計算する。なお、QSは、クラスタ内における自分以外の関連クエリの総数である。
Figure 0005545876
すなわち、自分以外の関連クエリへのキーワード間距離を距離行列データから探索して平均値を計算し、その平均値が最も小さい関連クエリをクラスタ内の中心とみなして代表クエリとして選択する。1回の距離行列データの探索は定数時間で実行できるため、キーワード間距離をナイーブに計算するのと比べて非常に高速に取得できる。
ここで、図15を参照しながら、代表クエリの選択処理について説明する。
最初に、S202で得られたクラスタCi(0≦i≦n:nはクラスタの総数(=指定されたクラスタ数))、距離行列データMを受け付ける(S203a)。
次いで、クラスタCiのiに1を初期値として設定する(S203b)。
次いで、iとnとが比較され(S203c)、iがn以下の場合には、クラスタCi内の全ての関連クエリの中心性を距離行列データを用いて計算し(S203d)、中心性の最も高い関連クエリを代表クエリQiに設定する(S203e)。その後、iに1を追加し(S203f)、全てのクラスタの代表クエリQiが設定されるまでS203c〜S203eの処理を繰り返す。
最後に、iがnよりも大きい場合には、各クラスタCiから代表クエリQiを出力する(S203g)。
前述の第1〜第3クラスタに対してGoogle検索エンジンでのヒット数を用いた中心性の計算結果を以下に示す。()内に中心性の値を示す。
第1クラスタについては、平均値の小さい順に、「顔認識(25.47)」,「顔検出(57.33)」,「テンプレートマッチング(87.13)」,「OCR(163.92)」となった。
第2クラスタについては、「使い方(5.02)」,「ダウンロード(5.03)」,「インストール(5.03)」,「リファレンス(5.05)」,「関数(5.07)」,「本(5.08)」となった。
第3クラスタについては、「画像処理(28.35)」,「動画(31.25)」,「2.0(61.83)」,「カメラ(133.85)」,「2.1(242.52)」となった。
以上の計算結果より、アプリケーション側(ユーザ側)に推薦される関連クエリとしては、各クラスタで最も平均値の小さい「顔認識」,「使い方」,「画像処理」がそれぞれ選択される。いずれの関連クエリも多様であることが把握できる。
なお、代表クエリを選択する方法としては、クエリにマッチした文書数、指定した期間においてクエリが発行された回数、鮮度の高いクエリを選ぶ方法を利用してもよい。
最後に、図7及び図8に戻り、代表クエリ出力部15が、選択された各代表クエリを入力キーワードに関連付けて視認可能にクライアント端末5に出力する(S204)。
参考までに、クライアント端末5に出力される情報検索結果を図16に示す。入力された「openCV」のキーワードに対して、「顔認識」と「使い方」と「画像処理」の関連クエリ(代表クエリ)がそれぞれ紐付けされて表示されている。なお、計算されたキーワード間距離の平均値に応じて各関連クエリの文字や形状を変化させ、更には入力キーワードとの距離を調整するようにしてもよい。
以上より、本実施の形態によれば、キーワードからキーワード間距離を探索可能な距離行列データと、階層的クラスタリングされたキーワードのボトムアップインデックスとを予め生成し記憶しておくので、情報検索時に代表クエリを高速に選択できる。
本実施の形態によれば、所定のクラスタ数になるまでクラスタリングすることを繰り返し、各クラスタからキーワードを代表クエリとしてそれぞれ選択するので、端末の画面サイズや検索アプリケーションのデザイン等に応じて推薦されるクエリ数を動的に変えたいとするユーザの要望を満たすことができる。
本実施の形態によれば、階層的クラスタリングによって構築されたボトムアップインデックスを下層から併合してクラスタリングするので、多様化された代表クエリを選択できる。
本実施の形態によれば、クラスタ内のキーワードが他のキーワードに対して有するキーワード間距離を距離行列データから探索するので、キーワード間距離の探索を定数時間で実行可能となり、代表クエリを高速に選択できる。
本実施の形態によれば、クラスタリングによって生じたクラスタ内のキーワードが他のキーワードに対して有するキーワード間距離を距離行列データから探索して平均値を計算し、その平均値が最も小さいキーワードを代表クエリとして選択するので、より適切に多様化された代表クエリを選択できる。
これらの効果から、クエリの違いが容易に把握可能なクエリを提供可能であり、次の検索時において容易にクエリを選択可能となる。特に、モバイル端末において、検索時におけるユーザ満足度を高めるようにユーザをナビゲート可能となる(情報検索時における検索ナビゲーションの効率化)。
1…クエリ提供装置
3…通信ネットワーク
5…クライアント端末
10…アプリケーションサーバ
11…距離行列計算部
12…クラスタリング部
13…関連クエリ取得部
14…代表クエリ選択部
15…代表クエリ出力部
20…データベースサーバ
21…データ記憶部
30…通信部
51…ユーザインタフェース部
52…記憶部
53…通信部
54…データ処理部
S101〜S102、S201〜S204、S202a〜S202j、S203a〜S203g…処理ステップ

Claims (5)

  1. キーワードの意味的な類似性に基づいてキーワード間の距離を計算し、キーワードからキーワード間距離を探索可能な距離行列データを生成して記憶手段に記憶しておく距離行列計算手段と、
    前記距離行列データを用いて前記キーワードを階層的クラスタリングし、前記階層的クラスタリングによって構築されたデンドログラムを下層から上層に探索可能なボトムアップインデックスとして記憶手段に記憶しておくクラスタリング手段と、
    クラスタリングの対象となるキーワードの部分集合が入力された後、前記記憶手段からボトムアップインデックスを読み出して、所定のクラスタ数になるまで下層を併合して前記入力されたキーワードをクラスタリングすることをボトムアップに繰り返すクラスタリング手段と、
    当該クラスタリングによって生じた各クラスタから所定のキーワードを代表クエリとしてそれぞれ選択する代表クエリ選択手段と、
    を有することを特徴とするクエリ提供装置。
  2. 前記代表クエリ選択手段は、
    前記入力されたキーワードのクラスタリングによって生じたクラスタ内のキーワードが他のキーワードに対して有するキーワード間距離を前記距離行列データから探索して平均値を計算し、前記平均値が最も小さいキーワードを前記代表クエリとして選択することを特徴とする請求項1記載のクエリ提供装置。
  3. コンピュータにより行うクエリ選択方法において、
    キーワードの意味的な類似性に基づいてキーワード間の距離を計算し、キーワードからキーワード間距離を探索可能な距離行列データを生成して記憶手段に記憶しておく距離行列計算ステップと、
    前記距離行列データを用いて前記キーワードを階層的クラスタリングし、前記階層的クラスタリングによって構築されたデンドログラムを下層から上層に探索可能なボトムアップインデックスとして記憶手段に記憶しておくクラスタリングステップと、
    クラスタリングの対象となるキーワードの部分集合が入力された後、前記記憶手段からボトムアップインデックスを読み出して、所定のクラスタ数になるまで下層を併合して前記入力されたキーワードをクラスタリングすることをボトムアップに繰り返すクラスタリングステップと、
    当該クラスタリングによって生じた各クラスタから所定のキーワードを代表クエリとしてそれぞれ選択する代表クエリ選択ステップと、
    を有することを特徴とするクエリ提供方法。
  4. 前記代表クエリ選択ステップは、
    前記入力されたキーワードのクラスタリングによって生じたクラスタ内のキーワードが他のキーワードに対して有するキーワード間距離を前記距離行列データから探索して平均値を計算し、前記平均値が最も小さいキーワードを前記代表クエリとして選択することを特徴とする請求項3記載のクエリ提供方法。
  5. 請求項3又は4の各ステップをコンピュータに実行させることを特徴とするクエリ提供プログラム。
JP2011006820A 2011-01-17 2011-01-17 クエリ提供装置、クエリ提供方法及びクエリ提供プログラム Expired - Fee Related JP5545876B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011006820A JP5545876B2 (ja) 2011-01-17 2011-01-17 クエリ提供装置、クエリ提供方法及びクエリ提供プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011006820A JP5545876B2 (ja) 2011-01-17 2011-01-17 クエリ提供装置、クエリ提供方法及びクエリ提供プログラム

Publications (2)

Publication Number Publication Date
JP2012150539A JP2012150539A (ja) 2012-08-09
JP5545876B2 true JP5545876B2 (ja) 2014-07-09

Family

ID=46792748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011006820A Expired - Fee Related JP5545876B2 (ja) 2011-01-17 2011-01-17 クエリ提供装置、クエリ提供方法及びクエリ提供プログラム

Country Status (1)

Country Link
JP (1) JP5545876B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862070A (zh) * 2017-11-22 2018-03-30 华南理工大学 基于文本聚类的线上课堂讨论短文本即时分组方法及系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101485940B1 (ko) * 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법
JP6794162B2 (ja) 2016-07-25 2020-12-02 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
KR102583916B1 (ko) * 2021-10-26 2023-09-26 연세대학교 산학협력단 저전력 테스트를 위한 스캔 상관관계 기반 스캔 클러스터 리오더링 방법 및 장치

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09120401A (ja) * 1995-10-24 1997-05-06 Oki Electric Ind Co Ltd シソーラス作成装置
JP2001331515A (ja) * 2000-05-23 2001-11-30 Sigmatics Inc 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
WO2006048998A1 (ja) * 2004-11-05 2006-05-11 Intellectual Property Bank Corp. キーワード抽出装置
JP4807881B2 (ja) * 2006-12-19 2011-11-02 日本電信電話株式会社 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体
JP2009064191A (ja) * 2007-09-05 2009-03-26 Sharp Corp 情報検索支援装置、情報検索支援方法、プログラムおよび記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862070A (zh) * 2017-11-22 2018-03-30 华南理工大学 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN107862070B (zh) * 2017-11-22 2021-08-10 华南理工大学 基于文本聚类的线上课堂讨论短文本即时分组方法及系统

Also Published As

Publication number Publication date
JP2012150539A (ja) 2012-08-09

Similar Documents

Publication Publication Date Title
US9864803B2 (en) Method and system for multimodal clue based personalized app function recommendation
Bhargava et al. Who, what, when, and where: Multi-dimensional collaborative recommendations using tensor factorization on sparse user-generated data
Bartolini et al. Recommending multimedia visiting paths in cultural heritage applications
Chen et al. Collabseer: a search engine for collaboration discovery
US9171078B2 (en) Automatic recommendation of vertical search engines
US11188830B2 (en) Method and system for user profiling for content recommendation
Wen et al. Efficient keyword-aware representative travel route recommendation
Dou et al. A survey of collaborative filtering algorithms for social recommender systems
JP5469046B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
Binucci et al. Designing the content analyzer of a travel recommender system
CN101256596A (zh) 一种站内导航的方法及系统
US20210397670A1 (en) User-directed suggestions
JP5545876B2 (ja) クエリ提供装置、クエリ提供方法及びクエリ提供プログラム
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
Yigit et al. Extended topology based recommendation system for unidirectional social networks
Moscato et al. A recommendation strategy based on user behavior in digital ecosystems
KR101140724B1 (ko) 개념 네트워크 기반 사용자 프로파일 구성 방법 및 시스템과 이를 이용한 개인화 질의 확장 시스템
Kashevnik et al. Context-driven tour planning service: an approach based on synthetic coordinates recommendation
Wu et al. How Airbnb tells you will enjoy sunset sailing in Barcelona? Recommendation in a two-sided travel marketplace
KR20110038247A (ko) 키워드 추출 장치 및 방법
CN116186413A (zh) 一种用于多模态特征推荐的方法和系统
Talha et al. Deep learning in news recommender systems: A comprehensive survey, challenges and future trends
Papadakis et al. A mobile application for personalized movie recommendations with dynamic updates
CN116569164A (zh) 在内容管理系统中对内容进行智能归类的系统和方法
Joseph et al. A Comparative Study of Collaborative Movie Recommendation System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131022

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140509

R150 Certificate of patent or registration of utility model

Ref document number: 5545876

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees