JP5903370B2 - 情報検索装置、情報検索方法、及びプログラム - Google Patents

情報検索装置、情報検索方法、及びプログラム Download PDF

Info

Publication number
JP5903370B2
JP5903370B2 JP2012250671A JP2012250671A JP5903370B2 JP 5903370 B2 JP5903370 B2 JP 5903370B2 JP 2012250671 A JP2012250671 A JP 2012250671A JP 2012250671 A JP2012250671 A JP 2012250671A JP 5903370 B2 JP5903370 B2 JP 5903370B2
Authority
JP
Japan
Prior art keywords
search
information
query
search query
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012250671A
Other languages
English (en)
Other versions
JP2014099062A (ja
Inventor
浩之 戸田
浩之 戸田
恭太 堤田
恭太 堤田
内山 匡
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012250671A priority Critical patent/JP5903370B2/ja
Publication of JP2014099062A publication Critical patent/JP2014099062A/ja
Application granted granted Critical
Publication of JP5903370B2 publication Critical patent/JP5903370B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンピュータ内部に存在もしくはコンピュータネットワークを介してアクセスできる文書ならびにその他情報の集合を、一つ以上のキーワードから構成される検索条件を元に検索し、ユーザの求める情報を提示する手法に関する。
基本的な文書の検索は、文書の単位で行われ、検索結果として提示するのは文書のリストであり、ユーザは得られた検索結果中の個々の文書を精査し、必要な情報が記述された文書にアクセスする。この際、得られた検索結果中の個々の文書を精査することはユーザの大きな負担となっている。
この負担を解消するひとつの方法として、非特許文献1に記載された方法がある。この方法では、個々の検索結果文書からクエリに関連する部分を抽出して、検索結果とともに提示する。この方法は、商用サーチエンジンを中心に広く活用されている。
また別の方法として、非特許文献2に記載された方法がある。この方法は、ユーザから自然言語による検索クエリを受け付け、その検索クエリに対応する情報のみを提示する質問応答の方法である。
更に別の方法として、非特許文献3に記載された方法がある。この方法では、ユーザから得られたキーワードを元に検索した検索結果から必要と思われる部分文書を提示する。 この方法では、検索結果文書の中から検索条件と関連性の高いキーワードを抽出し、それらのキーワードを含む文を抽出して提示する。この方法によれば、ユーザが検索結果から提示する文書を選択することなく、必要な情報を取得可能となる。
Anastasios Tombros, Mark Sanderson, "Advantages of Query Biased Summaries in Information Retrieval", Proc. of SIGIR 1998 E. Voorhees, "The TREC-8 question answering track report", Proc. of TREC8 Hajima Morita, Takuya Makino, Tetsuya Sakai, Hiroya Takamura, and Manabu Okumura, "TTOKU Summarization Based Systems at NTCIR-9 1CLICK task", Proc. of NTCIR 9
上記で示した一番目の方法(非特許文献1)では、検索クエリ近傍の文書を概要文として抽出し、提示することにより、ユーザが必要な情報が含まれる文書を見極めることを支援するが、個々の検索結果文書毎に概要文を閲覧し精査することは必要であり、必要な情報は結局文書にアクセスしなければならない。
一方、二番目に示した方法(非特許文献2)では、ユーザが求める情報を直接得ることができるため、必要な情報を含む文書を探すということをする必要がない。しかしながら、この方法では、検索クエリとして質問文を与える必要があり、キーワードなどの入力と比較して手間がかかるという問題がある。
また、三番目に示した方法(非特許文献3)では、検索結果の中から検索条件と関連性が高い部分を抽出してユーザに提示するため必要な情報を含む文書を探すということを意識する必要はない。またキーワード入力を前提とした手法であるため、入力に手間がかかるという問題もない。しかしながら、この方法では、検索結果文書の中で多く述べられている情報が中心に提示される可能性があり、提示できる情報に十分な多様性がないことが想定され、結局必要な情報は別途探す必要が生じることが考えられる。
本発明は上記の点に鑑みてなされたものであり、ユーザからはキーワードのみを入力として受け付け、個々の文書を閲覧することなく、多様性を考慮した情報提示を実現するための技術を提供することを目的とする。
上記の課題を解決するため、本発明は、コンピュータ内部に存在もしくはコンピュータネットワークを介してアクセスできるリソースを対象に検索クエリを受け付け、当該検索クエリを利用して得られた検索結果から、前記検索クエリを発行したユーザに提示すべき情報を生成する情報検索装置であって、
検索クエリおよび当該検索クエリに対して閲覧された情報を含む検索ログから算出された統計情報を格納するクエリ統計情報格納手段と、
前記情報検索装置に入力された検索クエリに基づき、前記クエリ統計情報格納手段に格納された統計情報を利用して、入力された検索クエリに対応する絞り込み検索クエリのリストを生成する検索条件分析手段と、
前記検索条件分析手段によって生成された前記検索クエリのリストにおける個々の検索クエリを用いて検索を行い、個々の検索クエリに対する検索結果を用いてユーザに提示すべき情報を生成する提示情報生成手段と、を備え
前記検索条件分析手段は、前記クエリ統計情報格納手段に格納された統計情報を利用して、前記入力された検索クエリの使用頻度に対して、当該検索クエリに対する絞り込み検索クエリの使用頻度が大きいかどうかを所定の条件に基づき判定し、大きいと判定したときに、前記絞り込み検索クエリのリストを生成し、
大きいと判定しないときに、前記絞り込み検索クエリのリストを生成せず、前記提示情報生成手段は、前記入力された検索クエリを用いて検索を行い、当該検索クエリに対する検索結果を用いてユーザに提示すべき情報を生成することを特徴とする情報検索装置として構成される。
また、前記検索条件分析手段は、例えば、前記クエリ統計情報格納手段に格納された統計情報を利用して、前記入力された検索クエリに基づき検索されたリソースの閲覧回数合計に対する特定のリソースの閲覧回数の割合が所定の閾値よりも大きいか否かを判定することにより、前記入力された検索クエリが特定のリソースにアクセスする検索クエリであるか否かを判定し、特定のリソースにアクセスする検索クエリであると判定された場合、前記提示情報生成手段は、前記ユーザに提示すべき情報を、当該特定のリソースの識別情報とする。

また、本発明は、前記情報検索装置が実行する情報検索方法、および、コンピュータを、前記情報検索装置における各手段として機能させるためのプログラムとして構成することもできる。
本発明によれば、ユーザからはキーワードのみを入力として受け付け、個々の文書を閲覧することなく、多様性を考慮した情報提示を実現するための技術を提供することが可能となる。
本発明の実施の形態に係る検索結果推薦システムの概要構成図である。 検索ログDB300に格納されるデータの例を示す図である。 クエリ統計情報DB310に格納されるデータの例を示す図である。 検索結果生成処理の手順を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を説明する。なお、以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
<実施の形態の原理、概要>
まず、本実施の形態に係る技術の原理及び概要について説明する。
本実施の形態では、検索システム全体の検索ログを利用して、ある検索クエリを利用した場合の絞り込みクエリを特定する。絞り込みクエリとは、元の検索クエリに1つ以上の追加のキーワードを含む検索クエリのことである。この絞り込みクエリは元の検索クエリの検索要求をより具体化したものと考えられる。そこで、元の検索クエリで検索が行われた際に、この絞り込み検索の検索クエリを利用して検索結果として提示する情報を生成する。
これにより、入力された検索クエリに対して提示する情報を生成する際に、ユーザが望むであろう情報を生成することが可能となり、ユーザは少ないアクションで必要な情報にたどり着くことが可能となる。
<システム構成>
図1に、本発明の実施の形態に係る検索結果推薦システムの構成を示す。図1に示すように、本実施の形態に係る検索結果推薦システムは、ブラウザ210、検索アプリケーション170、ログ収集部100、検索ログDB(データベース)300、履歴分析部110、クエリ統計情報DB310、検索条件分析部120、検索システム140、検索結果取得部130、情報生成部160、及び検索結果生成部150を備える。
当該検索結果推薦システムは、1つ又は複数のコンピュータにより実現される。複数のコンピュータで構成される場合に、各コンピュータがどの機能を担うかについては特に限定されない。一例として、検索結果推薦システムは、それぞれ通信ネットワーク(コンピュータネットワーク)に接続されるユーザ端末、アプリケーションサーバ、検索結果推薦装置、検索システム140から構成されるものとすることができる。このとき、ユーザ端末がブラウザ210を備え、アプリケーションサーバが検索アプリケーション170を備え、検索結果推薦装置が、ログ収集部100、検索ログDB300、履歴分析部110、クエリ統計情報DB310、検索条件分析部120、検索結果取得部130、情報生成部160、及び検索結果生成部150を備える。
なお、検索結果推薦装置は、「情報検索装置」の例である。また、検索結果推薦装置において、例えば、ログ収集部100、検索ログDB300、履歴分析部110を備えなくてもよい。この場合、外部で算出されたクエリ統計情報がクエリ統計情報DB310に格納される。
以下、各機能部の機能概要を説明する。以下は機能の概要であり、分析や判断等の詳細な内容については、フローチャートを参照した動作説明において後述する。
検索アプリケーション170は、ブラウザ210を介してユーザから検索クエリの入力を受け付け、検索条件分析部120に検索クエリを渡し、検索結果生成部150から得られた検索結果をブラウザ210を介してユーザに提示する。また、ユーザが入力した検索クエリおよび、当該検索クエリに対する検索結果としてユーザが閲覧した文書のURLをログ収集部100に渡す。
ブラウザ210は、ユーザとのインタフェースであり、検索アプリケーション170が生成するページを表示し、検索クエリの受け付け、検索結果の提示を行う。
ログ収集部100は、検索アプリケーション170が収集した検索ログ(検索クエリおよび当該検索クエリに対して閲覧された情報等)を受け取り、検索ログDB300に格納する。検索ログDB300は、ログ収集部100が集めた検索ログを格納するデータベースである。
検索ログDB300に格納されるデータの例を図2に示す。図2(a)は、閲覧URLを含まないデータの例であり、図2(b)は、閲覧URLを含むデータの例である。
履歴分析部110は、検索ログDB300の情報を利用し、検索条件分析部120で必要となる統計情報を取得し、クエリ統計情報DB310に格納する。
クエリ統計情報DB310は、履歴分析部110が算出した統計情報を格納するデータベースである。クエリ統計情報DB310に格納されるデータの例を図3に示す。図3(a)は、閲覧URLを含まないデータの例であり、図3(b)は、閲覧URLを含むデータの例である。
検索条件分析部120は、クエリ統計情報DB310の情報を活用し、入力されたクエリに関する分析を行い、その結果を検索結果生成部150に渡す。
検索結果取得部130は、検索結果生成部150から入力された情報に基づき、検索システム140にアクセスして検索結果を取得し、検索結果生成部150へ返す。また、検索結果取得部130は、検索結果生成部150から検索対象(検索システム)について指定がある場合には、その指定された検索対象を検索できる検索システムに問い合わせる。
検索システム140は、検索対象となる種々の情報(リソース)を蓄積するとともに、与えられた入力に対して情報の検索を行い、結果を生成し、出力する。結果には、当該リソースへのアクセスを可能とする識別情報、タイトル、概要文が含まれるものとする。ただし、検索結果のリソースが文書ではない場合にはタイトル、概要文等は含まれない場合もある。上記検索対象となるリソースは、検索システム140を構成するコンピュータ内部存在する場合もあるし、検索システム140からコンピュータネットワークを介してアクセスできるリソースである場合もある。
検索結果生成部150は、検索条件分析部120から、分析の結果を取得し、検索結果取得部130、情報生成部160にアクセスし、得られた情報に基づき、検索結果を生成する。情報生成部160は、検索結果生成部150から入力される検索クエリと検索結果を元に提示するための情報を生成し、返す。
なお、検索結果取得部130、情報生成部160、及び検索結果生成部150により、検索結果としてユーザに提示される情報が生成されるから、これらをまとめて提示情報生成手段と称してもよい。
上記検索結果推薦装置は、例えば、1つ又は複数のコンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、検索結果推薦装置の各部が有する機能は、当該検索結果推薦装置を構成するコンピュータに内蔵されるCPUやメモリ、ハードディスクなどのハードウェア資源を用いて、各部で実施される処理に対応するプログラムを実行することによって実現することが可能である。より具体的には、プログラムに従って、処理対象のデータをメモリから読み出し、CPUにより演算を行って、メモリに格納する動作を繰り返しながら処理が実行される。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
<システムの動作>
本実施の形態における検索結果推薦システムにおける手順は大きく別けてログ収集処理と検索結果生成処理に分かれる。ログ収集処理では、前述したように、ログ収集部100により検索ログDB300にログが蓄積されるとともに、履歴分析部110により履歴分析行われ、その結果がクエリ統計情報DB310に格納される。以下、検索結果生成処理について詳細に説明する。
本実施の形態では、検索結果生成処理はオンラインでの処理を想定しているが、代表的な検索クエリに対してオフラインで実行し、その結果を記録し、オンライン処理ではその結果を参照するのみとしてもよい。
図4は、本実施の形態に係る検索結果推薦システムにより実行される検索結果生成処理の手順を示すフローチャートである。以下、図4に示すフローチャートの手順に沿って検索結果生成処理を説明する。
ステップ1)検索アプリケーション170は、ブラウザ210を介してユーザから検索クエリの入力を受け付け、検索条件分析部120に検索クエリを渡す。
ステップ2)検索条件分析部120は、クエリ統計情報DB310の情報を活用し、入力された検索クエリについて分析を行う。検索条件分析部120が行う分析として、本実施の形態では以下の観点で分析を行う分析1〜3がある。
分析1:当該検索クエリが特定のページ(URL)を閲覧するためのクエリか否か。
分析2:当該検索クエリを元にした絞り込み検索がどの程度行われているか。
分析3:当該検索クエリを元にした絞り込み検索が行われる場合に、どのようなクエリがどの程度絞り込み検索が行われるのか。
分析1の結果により、当該検索クエリが特定のページ(URL)を閲覧するためのクエリであると判断された場合は、ステップ3に進む。分析1により、当該検索クエリが特定のページを閲覧するためのクエリであると判断されない場合であって、分析2により当該検索クエリを元にした絞り込み検索が一定数以上であると判断された場合はステップ5に進み、絞り込み検索が一定数以上であると判断されない場合は、ステップ4に進む。分析3の分析結果は、ステップ5に進む場合において、検索結果をどのように提示するかを決定する際に用いられる。なお、各分析は、当該分析の必要に応じて行えばよい。例えば、分析1の結果によりステップ3に進む場合、分析2、分析3は行わなくてもよい。
以下、各分析について説明する。
(分析1)
分析1の分析方法の例としては、クエリ統計情報DB310に格納される情報のうち、 検索クエリと閲覧URLの情報を利用し、以下の値が一定の値を越える場合に、当該検索クエリは特定のページを閲覧するためのクエリとみなす。
Figure 0005903370
ここで、freq(qi, Uj)は、検索クエリqiで検索されたときにURL Uj が閲覧された回数を示し、上記の式では、検索クエリが発行された場合に、特定のURLが閲覧された割合を示す。αは、予め定めた正の実数であり、検索クエリが特定のページを閲覧するものか否かを判断するための閾値を示す。
(分析2)
分析2の分析方法の例としては、クエリ統計情報DB310に格納される情報のうち、当該検索クエリを含む検索クエリ(絞り込み検索クエリと呼ぶ)の頻度を元に分析することが考えられる。具体的には、例えば、以下の条件を満たすかどうか判定する。なお、本実施の形態では、以下の条件を満たす場合を、「絞り込み検索クエリが一定数以上である」と表現することがある。
Figure 0005903370
ここで、q0は元の検索クエリを示し、qiはq0の絞り込み検索クエリを示す。また、freq(qi)は、検索クエリqiの頻度であり、上記の式では、元の検索クエリでの検索回数に対する絞り込み検索クエリ全体の検索回数の割合を示す。βは、予め定めた正の実数であり、当該検索クエリについて絞り込み検索が多く行われるか否かを判断するための閾値である。すなわち、分析2では、入力された検索クエリの使用頻度に対して、当該検索クエリに対する絞り込み検索クエリの使用頻度が大きいかどうかを所定の条件(βを用いた上記の式)に基づき判定する。大きいと判定したときに、絞り込み検索クエリのリストを生成する。
(分析3)
分析3の分析方法の例としては、クエリ統計情報DB310に格納される情報のうち、当該検索クエリを含む検索クエリの頻度を元に分析することが考えられる。例えば、あるアーチスト名に関するクエリ(ここではAAAとする)の分析を考えた場合、クエリ統計情報DB310に格納されているクエリのうち、「AAA」をクエリ中に含むクエリ(例えば、「AAAコンサート」、「AAAアルバム」、「AAA画像」)の一覧を取得するとともに、それらの出現頻度を取得する。
この例では単に、初期のクエリを含むクエリの頻度を利用したが、その他には検索エンジン上で実際にユーザがクエリを修正した過程をログから発見しその頻度を利用することとしてもよい。
また、取得した絞り込みクエリには相互に類似した絞り込みクエリが含まれること(例えば「AAA写真」と「AAA画像」等)があり、この問題に対処する必要がある。対処法としては、元の検索クエリと絞り込みクエリの類似性および絞り込みクエリ間の類似性を利用する方法がある。この方法では、元の検索クエリと類似度が高いが、その他の絞り込みクエリとは類似性が高くないクエリを選択する。これにより、検索者の意図と合致しつつ、多様性を持った情報の提示が可能となる。また、この絞り込みクエリの選択方法としては、クラスタリングを利用する方法や、語彙のオントロジを利用してまとめる方法もある。
ステップ3)前述したように、分析1により、当該検索クエリが特定のページ(URL)を閲覧するためのクエリであると判断された場合にステップ3に進む。ステップ3では、検索条件分析部120は、上記URLを特定し、それを検索結果生成部150へ送信する。その後、ステップ11に進む。この場合のステップ11では、ユーザに検索結果として提示すべき情報を、当該URL(特定のリソースの識別情報)とする。
ステップ4)前述したように、分析1により、当該検索クエリが特定のページを閲覧するためのクエリであると判断されない場合であって、分析2により当該検索クエリを元にした絞り込み検索が一定数以上であると判断されない場合にステップ4に進む。ステップ4では、検索条件分析部120は、当該検索クエリのみを検索結果生成部150へ送信する。その後、ステップ6に進む。
ステップ5)前述したように、分析1により、当該検索クエリが特定のページを閲覧するためのクエリであると判断されない場合であって、分析2により当該検索クエリを元にした絞り込み検索が一定数以上であると判断された場合はステップ5に進む。ステップ5では、検索条件分析部120は当該検索クエリの絞り込み検索クエリのリストを生成し、当該リストを元の検索クエリとともに検索結果生成部150へ送信する。なお、上記リストに含める絞り込み検索クエリは、例えば、分析3で取得する出現頻度が多い順に所定数個など、出現頻度に基づいて決めることができる。
ステップ6)検索結果生成部150は、検索条件分析部120から送信された情報を元に検索クエリ毎に検索結果取得部130にアクセスする。つまり、検索結果生成部150は、検索条件分析部120から送信された検索クエリ毎に、検索クエリを検索結果取得部130に渡し、検索結果取得を要求する。
検索結果取得部130へのアクセスの際に、予め決められた情報に基づき検索対象(検索システム)を指定することができる。この予め決められた情報とは、検索クエリに対する条件とその条件を満たした際にアクセスする検索システムである。この条件の例としては、「検索クエリの中に"画像"というキーワードを含む場合」があげられ、この場合にアクセスする検索システムの例として「画像検索システム」があげられる。
ステップ7)検索結果取得部130は、受け付けた検索クエリを元に検索システム140にアクセスし、受け付けた検索クエリに対する検索の結果を取得する。前述したように、検索システム140が出力し、検索結果取得部130が取得する結果には、リソースへのアクセスを可能とする識別情報(URL等)、タイトル、概要文が含まれる。ただし、検索結果のリソースが文書ではない場合にはタイトル、概要文等は含まれない場合もある。
ステップ8)検索結果取得部130は、得られた検索結果(検索クエリと検索結果の組み合せ)を検索結果生成部150に送信する。
ステップ9)検索結果生成部150は、得られた検索結果(検索クエリと検索結果の組み合せ)を情報生成部160に送信する。
情報生成部160へのアクセスの際に、予め決められた情報に基づき情報生成の方法を指定することができる。この予め決められた情報とは、検索クエリもしくは検索結果に対する条件とその条件を満たした際に情報を生成するためのルールである。条件の例としては、「検索クエリの中に"電話番号"というキーワードを含む場合」があげられ、この場合の情報生成のルールとしては、「電話番号以外のクエリと文書中で近接しており電話番号のパターン(例:0からはじまり、"-"、"(",")"を間にはさむ、10から11桁の数字を持つ文字列)を持つ情報」があげられる。
ステップ10)情報生成部160は、検索結果生成部150から受信した検索クエリと検索結果の組み合せを元に、結果として提示する情報を生成し、当該情報を検索結果生成部150に送信する。
例えば、情報生成部160は、個々の検索クエリ毎に、検索結果として得られるタイトルや概要文、場合によっては本文から、必要と考えられる情報を抽出し、提示する。情報の生成方法としては、例えば、検索結果を代表する部分文書を取得する。
この方法の例としては、検索結果の中で重要と考えられるキーワード群をtf-idf等のキーワードの重みづけを行う方法で特定し、それらのキーワードを多く含む部分文書を抽出する。また、検索結果生成部150から情報の生成方法について指定がある場合には、その指定された方法によって情報の生成を行う。
ステップ11)検索結果生成部150は、情報生成部160から受信した情報を取りまとめ、検索結果を生成し、検索アプリケーション170に送信する。
例えば、検索結果生成部150は、絞り込み検索クエリの頻度に応じて、情報生成部160から受信した情報を組合せ、検索結果として返す。組み合せ方の例としては、例えば、絞り込み検索の回数の多いクエリに関する情報をより優先的に提示する。また提示する情報の量を、検索クエリの優先度に応じてコントロールすることとしてもよい。例えば、絞り込み検索の回数(頻度)の多い上からN番目(Nは自然数)までのクエリに関する情報のみを提示するといったことができる。
ステップ12)検索アプリケーション170は、検索結果生成部150から得られた情報を元に検索結果情報を生成し、ブラウザ210を介してユーザに結果を送信する。
以上が、検索結果生成処理である。上記のように分析1、分析2の結果に応じた検索結果を検索結果生成部150から返す処理がなされるが、その処理内容をまとめると以下のようになる。
まず分析1で、ユーザから受け付けた検索クエリが特定のURLに到達するためのものであると判断された場合には、検索結果として当該URLを返す。
分析1で、当該検索クエリは特定のURLに到達するものではないと判断されたが、分析2で絞り込み検索のクエリが一定以上存在しないと判断された場合には、もとのクエリで検索システム140にアクセスし検索結果を取得する。そして、検索クエリとこの検索結果を情報生成部160に渡して、検索結果の中から必要と思われる情報を取得し、検索結果としてその情報を返す。
分析1で特定のURLに到達するものではないと判断され、分析2で絞り込み検索のクエリが一定以上存在すると判断された場合には、もとのクエリと絞り込みクエリのそれぞれについて検索システム140にアクセスして、それぞれの検索クエリに対する検索結果を取得する。そして、検索クエリと検索結果の組合せを情報生成部160に渡して、個々の検索クエリ毎に、検索結果の中から必要と思われる情報を取得し、絞り込み検索クエリの頻度に応じて、それらの情報を組合せ、検索結果として返す。
<実施の形態のまとめ、効果>
以上説明したように、本実施の形態に係る検索結果推薦システムは、コンピュータ内部に存在もしくはコンピュータネットワークを介してアクセスできる文書を対象に一つ以上のキーワードで構成される検索クエリを受け付け、その検索クエリを利用して得られた1件以上の検索結果文書から、検索クエリを発行したユーザが必要とすると考えられる情報を提示するシステムである。
当該システムは、システムの利用者が入力した検索クエリおよびその際に閲覧した情報を取得するログ収集部110と、ログ収集部110によって取得された検索の履歴情報を蓄積する検索ログDB300と、検索ログDB300に蓄積される検索クエリログを元に、個々の検索クエリや閲覧した情報の頻度などの統計情報を算出する履歴分析部110と、履歴分析部110によって算出され統計情報を格納するクエリ統計情報DB310と、入力された検索クエリをもとに、上記統計情報を利用して、入力された検索クエリのユーザが検索することが多いと推定される絞り込み検索クエリのリストを抽出する検索条件分析部120と、検索対象となる文書やその他の情報を検索可能な形で蓄積する検索システム140と、検索条件分析部120によって生成された検索クエリのリストに基づき、個々の検索クエリを元に検索を行う検索結果取得部130と、個々の検索クエリに対する検索結果文書の情報から検索クエリごとにユーザに提示する情報を生成する情報生成部160と、個々の検索クエリについての提示すべき情報を組み合わせてユーザに提示すべき結果を生成する検索結果生成部150を含む。
このような構成からなる本実施の形態のシステムによれば、ユーザから入力された検索条件と過去の検索者の検索傾向から、ユーザがどのような情報を探しているのかを推定し、検索システムに含まれる情報の中から必要と思われる情報を取得し、提示することが可能となる。これにより、ユーザは検索結果リストからの必要な情報の選別や検索クエリの修正を行う必要がなくなり、ユーザの検索行動を支援することができる。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
100 ログ収集部
110 履歴分析部
120 検索条件分析部
130 検索結果取得部
140 検索システム
150 検索結果生成部
160 情報生成部
170 検索アプリケーション
210 ブラウザ
300 検索ログDB
310 クエリ統計情報DB

Claims (5)

  1. コンピュータ内部に存在もしくはコンピュータネットワークを介してアクセスできるリソースを対象に検索クエリを受け付け、当該検索クエリを利用して得られた検索結果から、前記検索クエリを発行したユーザに提示すべき情報を生成する情報検索装置であって、
    検索クエリおよび当該検索クエリに対して閲覧された情報を含む検索ログから算出された統計情報を格納するクエリ統計情報格納手段と、
    前記情報検索装置に入力された検索クエリに基づき、前記クエリ統計情報格納手段に格納された統計情報を利用して、入力された検索クエリに対応する絞り込み検索クエリのリストを生成する検索条件分析手段と、
    前記検索条件分析手段によって生成された前記検索クエリのリストにおける個々の検索クエリを用いて検索を行い、個々の検索クエリに対する検索結果を用いてユーザに提示すべき情報を生成する提示情報生成手段と、を備え
    前記検索条件分析手段は、前記クエリ統計情報格納手段に格納された統計情報を利用して、前記入力された検索クエリの使用頻度に対して、当該検索クエリに対する絞り込み検索クエリの使用頻度が大きいかどうかを所定の条件に基づき判定し、大きいと判定したときに、前記絞り込み検索クエリのリストを生成し、
    大きいと判定しないときに、前記絞り込み検索クエリのリストを生成せず、前記提示情報生成手段は、前記入力された検索クエリを用いて検索を行い、当該検索クエリに対する検索結果を用いてユーザに提示すべき情報を生成する
    ことを特徴とする情報検索装置。
  2. 前記検索条件分析手段は、前記クエリ統計情報格納手段に格納された統計情報を利用して、前記入力された検索クエリにより検索されたリソースの閲覧回数合計に対する特定のリソースの閲覧回数の割合が所定の閾値よりも大きいか否かを判定することにより、前記入力された検索クエリが特定のリソースにアクセスする検索クエリであるか否かを判定し、特定のリソースにアクセスする検索クエリであると判定された場合、前記提示情報生成手段は、前記ユーザに提示すべき情報を、当該特定のリソースの識別情報とする
    ことを特徴とする請求項1に記載の情報検索装置。
  3. コンピュータ内部に存在もしくはコンピュータネットワークを介してアクセスできるリソースを対象に検索クエリを受け付け、当該検索クエリを利用して得られた検索結果から、前記検索クエリを発行したユーザに提示すべき情報を生成する情報検索装置が実行する情報検索方法であって、
    前記情報検索装置は、検索クエリおよび当該検索クエリに対して閲覧された情報を含む検索ログから算出された統計情報を格納するクエリ統計情報格納手段を備えており、
    前記情報検索装置に入力された検索クエリに基づき、前記クエリ統計情報格納手段に格納された統計情報を利用して、入力された検索クエリに対応する絞り込み検索クエリのリストを生成する検索条件分析ステップと、
    前記検索条件分析ステップによって生成された前記検索クエリのリストにおける個々の検索クエリを用いて検索を行い、個々の検索クエリに対する検索結果を用いてユーザに提示すべき情報を生成する提示情報生成ステップと、を備え
    前記検索条件分析ステップにおいて、前記情報検索装置は、前記クエリ統計情報格納手段に格納された統計情報を利用して、前記入力された検索クエリの使用頻度に対して、当該検索クエリに対する絞り込み検索クエリの使用頻度が大きいかどうかを所定の条件に基づき判定し、大きいと判定したときに、前記絞り込み検索クエリのリストを生成し、
    大きいと判定しないときに、前記絞り込み検索クエリのリストを生成せず、前記提示情報生成ステップにおいて、前記入力された検索クエリを用いて検索を行い、当該検索クエリに対する検索結果を用いてユーザに提示すべき情報を生成する
    ことを特徴とする情報検索方法。
  4. 前記検索条件分析ステップにおいて、前記情報検索装置は、前記クエリ統計情報格納手段に格納された統計情報を利用して、前記入力された検索クエリにより検索されたリソースの閲覧回数合計に対する特定のリソースの閲覧回数の割合が所定の閾値よりも大きいか否かを判定することにより、前記入力された検索クエリが特定のリソースにアクセスする検索クエリであるか否かを判定し、特定のリソースにアクセスする検索クエリであると判定された場合、前記提示情報生成ステップにおいて、前記ユーザに提示すべき情報を、当該特定のリソースの識別情報とする
    ことを特徴とする請求項に記載の情報検索方法。
  5. コンピュータを、請求項1又は2に記載の情報検索装置における各手段として機能させるためのプログラム。
JP2012250671A 2012-11-14 2012-11-14 情報検索装置、情報検索方法、及びプログラム Active JP5903370B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012250671A JP5903370B2 (ja) 2012-11-14 2012-11-14 情報検索装置、情報検索方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012250671A JP5903370B2 (ja) 2012-11-14 2012-11-14 情報検索装置、情報検索方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014099062A JP2014099062A (ja) 2014-05-29
JP5903370B2 true JP5903370B2 (ja) 2016-04-13

Family

ID=50941020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012250671A Active JP5903370B2 (ja) 2012-11-14 2012-11-14 情報検索装置、情報検索方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5903370B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11182435B2 (en) 2016-11-25 2021-11-23 Nippon Telegraph And Telephone Corporation Model generation device, text search device, model generation method, text search method, data structure, and program

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108594A (ja) * 2001-10-01 2003-04-11 Seiko Epson Corp 情報検索装置およびその方法
US20070220037A1 (en) * 2006-03-20 2007-09-20 Microsoft Corporation Expansion phrase database for abbreviated terms
JP4631795B2 (ja) * 2006-05-18 2011-02-16 日本電気株式会社 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
JP4839295B2 (ja) * 2007-11-02 2011-12-21 ヤフー株式会社 クエリ抽出方法、クエリ抽出装置およびクエリ抽出プログラム
JP2010191796A (ja) * 2009-02-19 2010-09-02 Fujitsu Ltd 情報検索装置
WO2010106642A1 (ja) * 2009-03-17 2010-09-23 富士通株式会社 検索処理方法及び装置
JP5366632B2 (ja) * 2009-04-21 2013-12-11 エヌ・ティ・ティ・コミュニケーションズ株式会社 検索サポートキーワード提示装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2014099062A (ja) 2014-05-29

Similar Documents

Publication Publication Date Title
JP5727512B2 (ja) 検索提案のクラスタ化及び提示
Li et al. Tag-based social interest discovery
US20170116200A1 (en) Trust propagation through both explicit and implicit social networks
US7890485B2 (en) Knowledge management tool
US8745039B2 (en) Method and system for user guided search navigation
KR101527259B1 (ko) 검색 질의에 응답하여 디스커션 스레드에 대한 포스트를 제공하는 방법 및 시스템
US9251208B2 (en) Information theory based result merging for searching hierarchical entities across heterogeneous data sources
US10169449B2 (en) Method, apparatus, and server for acquiring recommended topic
US20090171938A1 (en) Context-based document search
US9177057B2 (en) Re-ranking search results based on lexical and ontological concepts
Nguyen et al. Federated search in the wild: the combined power of over a hundred search engines
US20120059822A1 (en) Knowledge management tool
EP2160677A2 (en) System and method for measuring the quality of document sets
KR101098832B1 (ko) 개인화 검색 장치 및 방법
Bota et al. Composite retrieval of heterogeneous web search
RU2473119C1 (ru) Способ и система семантического поиска электронных документов
Hsu et al. Efficient and effective prediction of social tags to enhance web search
JP5903370B2 (ja) 情報検索装置、情報検索方法、及びプログラム
KR101180371B1 (ko) 폭소노미 기반 개인화 웹 검색 방법 및 이를 수행하는 시스템
JP2004348607A (ja) コンテンツ検索方法、コンテンツ検索システム、コンテンツ検索用プログラムおよびコンテンツ検索用プログラムが記録された記録媒体
Praba et al. Evaluation of Web Searching Method Using a Novel WPRR Algorithm for Two Different Case Studies
JP6228425B2 (ja) 広告生成装置および広告生成方法
Wu et al. A quality analysis of keyword searching in different search engines projects
US20150169526A1 (en) Heuristically determining key ebook terms for presentation of additional information related thereto
CN114218473A (zh) 一种电子书内容推荐系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151201

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160314

R150 Certificate of patent or registration of utility model

Ref document number: 5903370

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150