JP2010282402A - 検索システム - Google Patents

検索システム Download PDF

Info

Publication number
JP2010282402A
JP2010282402A JP2009134933A JP2009134933A JP2010282402A JP 2010282402 A JP2010282402 A JP 2010282402A JP 2009134933 A JP2009134933 A JP 2009134933A JP 2009134933 A JP2009134933 A JP 2009134933A JP 2010282402 A JP2010282402 A JP 2010282402A
Authority
JP
Japan
Prior art keywords
search
document
document file
search algorithm
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009134933A
Other languages
English (en)
Inventor
Toshio Ikeda
利夫 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kansai Electric Power Co Inc
Original Assignee
Kansai Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kansai Electric Power Co Inc filed Critical Kansai Electric Power Co Inc
Priority to JP2009134933A priority Critical patent/JP2010282402A/ja
Publication of JP2010282402A publication Critical patent/JP2010282402A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザが常に必要な情報を的確に得ることができるよう検索アルゴリズムの自動チューニングを行う。
【解決手段】クエリ文書に対して文書解析処理を行い(S1)、得られた単語をベースにして検索インデックスが作成される(S2)。当該検索インデックスを用いて、大量のデータを含むデータベース10に対して文書の検索処理を行う(S3)。検索先側の処理として、メタデータの抽出のための文書解析(S01)、検索インデックスの作成(S02)が行われる。ステップS3の検索処理で得られた結果は、前記クエリを入力したユーザの端末装置にランキング表示される(S4)。ここで、ステップS4のランキング表示された文書の閲覧の程度を評価し、その評価結果に応じて各ユーザが望む文書がランキング表示の上位に表示されるよう、検索アルゴリズムを自動チューニングする(S5)。
【選択図】図2

Description

本発明は、データベースに対して検索アルゴリズムを用いてクエリに応じた検索処理を行い、所望の文書ファイルを抽出するための検索システムに関する。
ワールドワイドなインターネット上や社内ネットワークのようなローカルネット上において、データベース中からユーザが望む文書ファイルを検索可能とした検索システムが汎用されている。このような検索システムにおいては、検索エンジンが、ユーザが欲する情報を含む文書ファイルを的確に抽出できる検索アルゴリズムを具備していることが望ましい。なお、検索エンジンの文書検索の精度を向上させる技術として、例えば特許文献1、特許文献2に開示されたものがある。
ところで、検索システムの供用期間が長期に亘るようになると、ユーザの嗜好が変化すること等に起因して該ユーザが欲する情報も変化し、ユーザが有用性を感じる文書も時々に応じて変わってゆくことが多々ある。従って、検索アルゴリズムを一旦最適な態様に設定したとしても、事後的にユーザのニーズや世の中の変化に対応できず、ユーザがその時に欲する文書ファイルが検索ヒットリストの上位に抽出されなくなるという事象が生じることがある。
この場合、検索アルゴリズムのチューニングが必要となる。従来、このチューニングは専らマニュアル作業で行われている。すなわち、数人の被験者を設定して評価用のクエリを検索エンジンに実行させ、その検索ヒットリストの中から各被験者が最も有用性を感じるベスト文書を特定させ、その各自のベスト文書がリストの上位に並ぶように検索アルゴリズムのパラメータを作業者がチューニングするものである。
特開2003−216646号公報 特開2004−272492号公報
しかしながら、マニュアル作業による検索アルゴリズムのチューニングでは、被験者の数が限られていることから、精度の高い検索アルゴリズムを抽出することは困難であり、また個々のユーザ毎に最も適した検索アルゴリズムを抽出することも困難である。なお、被験者の数を増やせば、ある程度は精度の高い検索アルゴリズムを抽出可能となるが、そのチューニング処理には大変な手間を要してしまう。
本発明の目的は、本発明は、データベースに対する検索処理において、マニュアル作業による検索アルゴリズムのチューニングを行うことなく、ユーザが常に必要な情報を的確に得ることができる検索システムを提供することにある。
上記目的を達成する本発明の一の局面に係る検索システムは、検索対象となる多数の文書ファイルが記憶されたデータベースと、所定のパラメータを有する検索アルゴリズムが搭載され、前記データベースに対して前記検索アルゴリズムを用いて前記文書ファイルの検索処理を行う検索手段と、前記検索処理のためのクエリの入力を受け付ける入力手段と、前記クエリでの検索処理によりヒットした文書ファイルのリストを、前記検索アルゴリズムでの合致度合いに応じた順位付けをして作成するリスト生成手段と、前記リストを表示すると共に、前記リストのいずれかに選択指示が与えられたときに対応する文書ファイルの内容を表示し、選択終了指示が与えられたときに前記内容の表示を停止する表示手段と、前記選択指示が与えられた後、前記選択終了指示が与えられるまでの前記表示手段への前記文書ファイルの表示時間を、前記文書ファイル単位で計測すると共に記憶する計時手段と、前記表示時間を含む評価要素を参照して、前記文書ファイルのリストの前記順位付けが妥当であるか否かを判定する判定手段と、前記判定手段により前記順位付けが妥当でないと判断されたときに、前記検索アルゴリズムのパラメータをチューニングするチューニング手段と、を備えることを特徴とする(請求項1)。
この構成によれば、リストアップされた文書ファイルが実際に表示手段へ表示された時間(ユーザの閲覧時間)を含む評価要素を参照して、判定手段によりリストの順位付けが妥当であるか否かが判定される。一般傾向として、ユーザが有用性を感じた文書ファイルの表示時間は長くなる。上記検索システムでは、この傾向を利用して、実際に個々のユーザに対して検索サービスが提供されている過程において、表示時間を含む評価要素を個々に評価し、必要に応じて検索アルゴリズムのパラメータをチューニングするものである。従って、個々のユーザに対して、パーソナライズされた検索システムを提供することが可能となる。
上記構成において、前記判定手段は、前記評価要素に基づき前記リストの最上位にリストアップされるべき最上位文書ファイルを特定する特定部を有し、前記最上位文書ファイルが、前記リスト生成手段が作成した文書ファイルのリストの最上位に位置しているか否かに基づいて、前記順位付けが妥当であるか否かを判定することが望ましい(請求項2)。この構成によれば、順位付けの妥当性評価を、最上位文書ファイルのリスト中におけるランキングに基づいて、シンプルに実行させることができる。
この場合、前記判定手段は、前記文書ファイルの前記表示時間を、当該文書ファイルを構成する文字数で除して得られる評価値を、前記評価要素として導出する解析部を備えることが望ましい(請求項3)。前記表示時間を前記文字数で除することで、どれだけその文書ファイルを熱心に閲読したかを、定量的に評価することが可能となる。従って、前記評価要素の信頼性を高めることができる。
また、前記判定手段は、前記順位付けの妥当性を判定する前に、所定の選別基準を適用して、判定対象とする文書ファイルの選別処理を実行する選別部を備えることが望ましい(請求項4)。この構成によれば、順位付けの妥当性評価に当たり、判定対象とすることが妥当でない文書ファイルを除外することができ、順位付けの妥当性評価の精度を向上させることができる。
前記選別基準は、前記表示時間が予め定められた上限値と下限値との間の値であるか否かと、前記文書ファイルを構成する文字数が予め定められた値を上回っているか否かと、を含むことが望ましい(請求項5)。
この構成によれば、表示時間が異常に長い文書ファイルや、文字数が少なすぎる文書ファイルを、評価対象から除外することができる。例えば前者では、ユーザが選択指示を与えた後に他の作業を実行したことに起因して表示時間が長くなった文書ファイルを、後者では、到底満足感を持つことが無いと推定される短文文書ファイル等を、それぞれ除外することが可能となる。
上記構成において、前記チューニング手段は、前記チューニング前の第1検索アルゴリズムの前記パラメータを変更して第2検索アルゴリズムを設定し、前記検索手段に、前記第2検索アルゴリズムを用いて、前記入力手段に入力されたクエリと同じクエリで検索処理を実行させ、前記判定手段に、前記第2検索アルゴリズムに基づき前記リスト生成手段が作成した文書ファイルのリストの順位付けが妥当であるか否かを判定させることが望ましい(請求項6)。
この構成によれば、チューニング手段が検索アルゴリズムのチューニングを実行した後に、その検索アルゴリズムの精度を確認させることができる。
或いは、前記チューニング手段は、前記チューニング前の第1検索アルゴリズムの前記パラメータを変更して第2検索アルゴリズムを設定し、前記検索手段に、前記第2検索アルゴリズムを用いて、前記入力手段に入力されたクエリと同じクエリで検索処理を実行させ、前記判定手段に、前記第2検索アルゴリズムに基づき前記リスト生成手段が作成した文書ファイルのリストの最上位に前記最上位文書ファイルが位置しているか否かを判定させ、前記リストの最上位に前記最上位文書ファイルが位置していない場合に、前記パラメータをさらに変更して第3検索アルゴリズムを設定し、前記検索処理及び前記判定を再度実行させることが望ましい(請求項7)。
この構成によれば、最上位文書ファイルのリストにおける順位がトップに近づいていくように、検索アルゴリズムのチューニングを行わせることができる。従って、最もユーザに適した検索アルゴリズムを抽出することが可能となる。
本発明によれば、データベースに対する検索処理において、マニュアル作業を伴うことなく、実際にユーザが検索システムのサービスを利用している状態において検索アルゴリズムのチューニングを行うことができる。しかも、個々のユーザに適した検索アルゴリズムを抽出することが可能である。従って、各ユーザが、常に必要な情報を的確に得ることができる検索システムを提供することができる。
本発明に係る検索システムが適用されるネットワークシステムのハードウェア構成を概略的に示す構成図である。 本発明の検索システムの概要を示す模式的なフローチャートである。 従来の検索システムにおける検索アルゴリズムのチューニング処理手順を示す模式図である。 本発明の検索システムにおける検索アルゴリズムのチューニング処理手順を示す模式図である。 本発明の検索システムの構成を示す機能ブロック図である。 検索アルゴリズムのチューニング実施条件を示す表形式の図である。 本発明の検索システムの全体的なフローチャートである。 図7の処理ブロック−1の詳細フローチャートである。 図7の処理ブロック−2の詳細フローチャートである。 図7の処理ブロック−2の詳細フローチャートである。 図7の処理ブロック−3の詳細フローチャートである。 図7の処理ブロック−3の詳細フローチャートである。 図7の処理ブロック−4の詳細フローチャートである。 図7の処理ブロック−4の詳細フローチャートである。
以下、図面に基づいて本発明の実施形態につき詳細に説明する。
図1は、本発明の検索システムが適用されるネットワークシステムSのハードウェア構成を概略的に示す構成図である。このネットワークシステムSは、インターネット上において利用可能なデータベース10と、このデータベース10に対して所定の検索アルゴリズムを用いて検索処理を行う検索エンジン20(検索手段)と、ユーザが利用する端末装置30(入力手段/表示手段)と、検索アルゴリズムのチューニング処理を行うデータ処理装置40とが、インターネットINを介してデータ通信可能に接続されてなる。
データベース10は、インターネットに接続され、検索対象となる多数の文書ファイル(HTMLファイル等)が大量に記憶されているデータベースである。ここでは簡略的に図示しているが、データベース10は各々ドメイン名を持つ多数のウエブサイトの集合を示している。このようなデータベース10としては、例えばYahoo(登録商標)やGoogle(登録商標)などのポータルサイトを通してアクセス可能なデータベースを例示することができる。
検索エンジン20は、所定のパラメータを有する検索アルゴリズムが搭載され、データベース10に対し、与えられたクエリに対応する文書ファイルの検索処理を行う。すなわち検索エンジン20は、データベース10に記憶されている検索対象の文書ファイル毎にキーワードや属性(メタデータ)を抽出して検索用の文書インデックスを作成すると共に、クエリを文書解析して検索インデックスを作成する。さらに検索エンジン20は、前記検索アルゴリズムを用いて、前記文書インデックスと前記検索インデックスとの照合処理を行い、合致度合いの高い(クエリに適合する)文書ファイルを抽出する。
端末装置30は、多数のユーザに各々保有されるパーソナルコンピュータや携帯電話機、携帯情報端末機等の通信端末機31、32、33、34・・・である。端末装置30は、インターネットINを介して検索エンジン20及びデータベース10にアクセス可能とされている。例えば端末機31は、検索処理条件となるキーワードや文章(クエリ)を入力するためのキーボード311(入力手段)と、検索画面、ヒット文書のリスト、文書のコンテンツ等を表示するディスプレイ312(表示手段)と、ディスプレイ312上の表示画面に対してコマンド(文書の選択指示や選択終了指示等)を入力するためのマウス313を備えている。
各ユーザは、各自の通信端末機31、32、33、34・・・の入力手段(キーボード311)を介して、検索エンジン20にクエリを与え、そのクエリでの検索処理によりヒットした文書ファイルのリストを取得する。さらにユーザは、前記リストの中から希望する文書ファイルを選択し、その文書ファイルの内容を自身の表示手段(ディスプレイ312)で表示させることができる。
データ処理装置40は、検索エンジン20に備えられている検索アルゴリズムのパラメータを、ユーザ毎に、それぞれ最適なものとなるようにチューニングする処理を行う。かかるチューニング処理は、実際の検索サービス上においてユーザが検索ヒット文書を閲覧した時間をベースとして、自動的に行われる。このデータ処理装置40の具体的構成については、後記で詳述する。
図2は、ネットワークシステムSにより実行される文書ファイル検索処理の概要を示す模式的なフローチャートである。検索エンジン20は、検索元側の処理として、端末装置30からクエリが与えられると、このクエリ文書に対して例えば形態素解析等を含む文書解析処理を行う(ステップS1)。次いで、上記の文書解析処理で得られた単語をベースにして検索インデックスが作成される(ステップS2)。この検索インデックスは、主に質問事象に関連深いキーワード群からなる。そして、当該検索インデックスを用いて、大量のデータを含むデータベース10に対して文書の検索処理を行う(ステップS3)。
また、検索先側の処理として、検索エンジン20は、メタデータの抽出のための文書解析(ステップS01)、及び検索インデックスの作成(ステップS02)を定期的に行う。ステップS3の検索処理で得られた結果は、前記クエリを入力したユーザの端末装置4に、検索アルゴリズムでの合致度合いに応じた順位付けをしてリスト出力(ランキング表示)される(ステップS4)。以上の処理は、通常の検索システムと同様であるが、本実施形態では、ステップS4のランキング表示された文書の閲覧の程度を評価し、その評価結果に応じて各ユーザが望む文書がランキング表示の上位に表示されるよう、検索アルゴリズムを自動チューニングする(ステップS5)。これにより、各ユーザの嗜好に合わせてパーソナライズされた検索システムを提供可能としている。
以上が、本実施形態に係る検索システムの概要であるが、ここで本実施形態との比較のために、検索アルゴリズムのチューニングの従来手法について説明する。図3は、従来手法に係るチューニングを説明するための模式図である。
従来のチューニング方法では、検索システムの通常使用とは切り離して、数人の評価者を選択し、これら評価者の検索結果に基づいて、手動で検索アルゴリズムがチューニングされる。先ず、選定された評価者ごとに評価用クエリを設定し、検索システムが備える検索エンジンに該クエリを入力する(ステップ#01)。そして、文書1、文書2,文書3・・・が蓄積されているデータベース10Aを対象として、検索アルゴリズムに検索処理を実行させる(ステップ#02)。
その後、各評価用クエリによりヒットした文書ファイルのリスト(検索結果)を出力させる(ステップ#03)。この検索結果は、評価用クエリに対して合致度が高い順にランキング表示される(ステップ#04)。そして、前記評価者がリストアップされた文書ファイルの内容を評価し、自身の要望に最も添うベスト文書ファイルを選択する(ステップ#05)。ここでは、最上位から4番目にランクされた「文書10」が最も適合するベスト文書ファイルである場合を例示している。
ここで、各評価者の評価が悪い場合、つまり、ステップ#5において各評価者が望むベスト文書ファイルが、検索結果リストの上位に位置していない場合、検索システムの管理者が検索アルゴリズムのチューニングを行う(ステップ#06)。このチューニングとは、例えば検索インデックスの単語の重み付け値の変更や、ベクトル空間モデルの再選択等である。このようなチューニングをシステム管理者が手動で行い、ステップ#2以下の処理を繰り返して、各評価者のベスト文書ファイルがリストの上位にランクされるような検索アルゴリズムを設定する。
この従来のチューニング方法によれば、数名の評価者を選択したサンプル評価であるため、限定的な評価となり、精度の高い検索アルゴリズムを抽出することは困難である。評価者の数を増やせば精度は向上し得るが、マニュアルチューニングであるため、膨大な手間を要してしまうことになる。さらに、ユーザ個々に最も適した検索アルゴリズムを設定することも困難である。
本発明の実施形態に係る検索システムでは、上記の従来手法の問題に鑑み、サンプル評価に基づいた別環境でのチューニングではなく、実際の検索システムの運用上において、ユーザ個々に最も適した検索アルゴリズムを自動的に設定するチューニング方法が採用されている。自動化のキーは、ヒット文書の閲覧時間である。図4は、本実施形態に係る検索システムにおける検索アルゴリズムのチューニング処理手順を概略的に示す模式図である。
本実施形態に係るチューニングでは、該チューニングのため特定の評価者の選定は行わず、ユーザが通常に検索システムを利用している状況において、ユーザ毎にチューニングが実行される。すなわち、評価者は、検索システムのユーザ全員である。先ず、一人のユーザが、検索システムが備える検索エンジンに、通常の利用状態で発生するクエリを入力することが端緒となる(ステップ#1)。そして、データベース10Aを対象として、検索アルゴリズムに前記クエリに応じた検索処理が実行される(ステップ#2)。その検索結果のリストは、前記クエリを入力したユーザの端末機のディスプレイ(表示手段)にランキング表示される(ステップ#3)。
ユーザは、ランキング表示されたヒット文書のリストの中から、マウスのクリック操作等によって、適宜文書ファイルを選択して開き(選択指示)、その内容を閲覧する(ステップ#4)。閲覧が完了すると、ユーザは、同様なクリック操作等によって開いている文書ファイルを閉じ(選択終了指示)、別のファイルを開くという操作を繰り返すことになる。以上は、ユーザによる検索システムの通常の利用態様である。この際、各文書の表示時間(選択指示が与えられた後、選択終了指示が与えられるまでの時間)及びその文書の関連情報が取得される(ステップ#5)。
その後、ステップ#5で取得した表示時間等に基づく解析、及びこの解析結果に従い検索処理に適用された検索アルゴリズムの精度が自動的に評価される(ステップ#6)。このステップ#6の詳細については後記で説明するが、ユーザが望む文書であるほど、表示時間が長くなるという傾向を利用している。ここで検索アルゴリズムの評価が悪い場合、自動チューニング処理が実行される(ステップ#7)。
この自動チューニング処理では、検索アルゴリズムのパラメータ等が変更設定(上述の検索インデックスの単語の重み付け値の変更や、ベクトル空間モデルの再選択等)される(ステップ#71)。そして、変更された検索アルゴリズム(第2検索アルゴリズム)を用いて、同一クエリで同一データベース10A(同一検索先文書)を再検索し、その検索結果を再評価する(ステップ#72)。このような処理が所定回数繰り返され、当該一人のユーザについて、最も精度が高い検索アルゴリズムが抽出される(ステップ#73)。この修正検索アルゴリズムは保存され、当該ユーザが次回にクエリを検索システムに与えた場合、かかる修正検索アルゴリズムにて検索処理が実行されることになる。当該ユーザの次回の検索処理、若しくは次回以降のn回目の検索処理において、同様な検索アルゴリズムの評価と、必要に応じてチューニング処理が実行されるものである。
このようなチューニング方法によれば、ユーザに特段の負担をかけることなく、個々のユーザに応じた最適な検索アルゴリズムを、ユーザ毎にその都度導出することができる。従って、ユーザの嗜好が経年変化したとしても、その時点での当該ユーザの嗜好にマッチした検索アルゴリズムを設定できる。
以下、図5〜図14に基づいて、本実施形態の自動チューニングの手法について詳述する。図5は、本実施形態に係るネットワークシステムSの機能構成を示す機能ブロック図である。データベース10は、各種の文書ファイルが記憶された複数のウエブサイト(ウエブサーバ)11、12、13・・・を含む。検索エンジン20(検索手段)は、文書インデックス作成部21、検索インデックス作成部22、検索処理部23、ランキング表示処理部24(リスト生成手段)、アルゴリズム管理部25及び検索データ記憶部26を機能的に備えている。端末装置30は、クエリ入力部301(入力部)、表示部302(表示手段)及び操作部303を備えている。データ処理装置40は、検索情報取得部41、表示時間測定部42(計時手段)、文字数カウント部43、判定部44(判定手段)及びチューニング処理部45(チューニング手段)を備えている。
文書インデックス作成部21は、データベース10に含まれる文書ファイルを検索させるためのインデックス(文書インデックス)を作成する(図2のステップS01、S02の処理)。文書インデックス作成部21は、複数のウエブサイト11、12、13・・・に各々存在する文書ファイルを統合・編集してデータを共通化し、これらの文書に対して、正規化処理、形態素解析及び同義語処理などの文書解析処理を行う。かかる文書解析処理により、文書タイトルや著者、自立する単語(キーワード)が導出され、これらの単語等に基づいて、文書インデックスが作成される。
検索インデックス作成部22は、端末装置30から与えられたクエリ(キーワードや質問文書)を文書解析し、検索インデックスを作成する処理を行う。例えば、クエリが質問文書である場合は、その文書内において自立する単語として抽出すると共に、これら単語の出現頻度等を参照して重み付けする等して、検索インデックスを作成する(図2のステップS1、S2の処理)。
検索処理部23は、検索アルゴリズムを用いて、データベース10に対して文書ファイルの検索処理を行う。具体的には、前記検索インデックスと前記文書インデックスとを照合し、検索インデックス(クエリ)に対する類似度が高い文書ファイルを抽出する。ここで、この検索処理には、ユーザ毎に設定された検索アルゴリズムが用いられる。検索処理部23は、クエリを与えたユーザを検索者ID等で特定し、該ユーザについて設定されている個別の検索アルゴリズムをアルゴリズム管理部25から抽出し、その検索アルゴリズムを用いて検索処理を実行する。
ランキング表示処理部24は、検索処理部23による検索処理でヒットした複数の文書ファイルを、クエリに対する類似度(合致度合い)が高い順に順位付けしたリストを作成する。このリストは、端末装置30によりブラウジングが可能であり、実際は検索処理の完了後に表示部302で表示される。
アルゴリズム管理部25は、ユーザ毎に割り当てられている検索者IDに関連付けて、個別の検索アルゴリズムを記憶する。検索アルゴリズムは、例えばベクトル空間モデル(コサイン尺度)、Dics係数、Jaccard係数、Tスコア、相互情報量、Simpuson係数などから選ばれる。これらの検索アルゴリズムは各々計算式を有し、その計算式において種々のパラメータが設定される。
検索データ記憶部26は、検索処理部23により実行された検索処理の検索データ及び検索情報を記憶する。前記検索データは、検索要求に際して与えられた情報であって、例えば検索処理単位で付番される検索要求番号、クエリを入力した検索者ID、クエリ等である。検索情報は、検索処理によって生じた情報であって、例えばデータベース10において検索対象とした文書ファイルの文書ID、ヒット文書ファイルの文書ID、ヒット文書リストのランキング情報(表示順位等)、ヒット文書ファイルの表示開始時刻及び表示終了時刻等である。
端末装置30のクエリ入力部301は、ユーザから検索処理のためのクエリの入力を受け付ける部位であって、例えば図1に示すキーボード311である。
表示部302は、例えば図1に示すディスプレイ312であって、検索エンジン20のブラウジング画面(クエリ入力画面)、ヒット文書ファイルのリスト、及び前記リストから選択された文書ファイルの内容等を表示する。
操作部303は、例えば図1に示すマウス313であって、表示部302に表示された画像上の選択部、リンク部、タスクバー等に対して操作指示を与える。ユーザは、表示部302に表示されたヒット文書ファイルのリストのいずれかを選択しその内容を表示させる選択指示、及び、その表示を停止させる選択終了指示を、この操作部303を介して与える。
データ処理装置40の検索情報取得部41は、ユーザ毎のチューニング処理が実行される際に、対象ユーザの検索者ID関連付けて検索データ記憶部26に格納されている検索処理の前記検索データ、並びに前記検索情報を、データ処理装置40に取り込む処理を行う。
表示時間測定部42は、ヒット文書ファイルのリストからいずれかの文書ファイルについて前記選択指示が与えられた後、前記選択終了指示が与えられるまでの時間、つまり表示部302への選択文書ファイルの表示時間を、文書ファイル単位で計測すると共に記憶する。この際、表示時間測定部42は、検索情報取得部41が検索データ記憶部26から取得した、ヒット文書ファイルの表示開始時刻及び表示終了時刻のデータを使用する。
文字数カウント部43は、リスト中の各文書ファイルの文字数を求める処理を行う。文字数カウント部43が求める文字数情報は、ランキング表示の妥当性、すなわちリストアップされた文書ファイルの中で、ユーザのクエリに最も適合した文書(以下、「ベスト文書ファイル」という)を特定するに際して、評価対象とする文書ファイルを選別する際に用いられる。
判定部44は、前記表示時間をベースとする評価要素を参照して、ヒット文書ファイルのリストのランキング表示が妥当であるか否かを判定する処理を行う。判定部44は、解析部441、選別部442及びベスト文書特定部443を備えている。
解析部441は、各文書ファイルについての前記表示時間、前記文字数のデータを用いて、それぞれの文書ファイルについて評価基準値を算出する。選別部442は、所定の選別基準(図6に基づき後述する)を適用して、ベスト文書ファイルの評価対象となる文書(有効文書)と、評価対象外とする文書(無効文書)とを選別する。ベスト文書特定部443は、前記有効文書の中から、ベスト文書ファイルがいずれの文書であるかを特定する。この際、ベスト文書特定部443は、s=表示時間/文字数で求められる値の最大値(最大s値)と、他のs値に対する最大s値の突出度とを参照する。最終的に判定部44は、ベスト文書ファイルがランキング表示の最上位に位置しているか否かに基づいて、順位付けが妥当であるか否か、つまりは検索アルゴリズムのチューニングが必要か否かを判定する。
図6は、判定部44による判定処理の具体例を説明するための表形式の図である。ここでは、検索システムのユーザA氏が、2009年3月27日に検索処理を実行させた検索結果に基づき、チューニングの必要性が判定される例を示している。図6の最左欄の「システム文書表示順位」欄に記載されている1位文書〜10位文書は、当該検索処理に際して用いられた検索アルゴリズムによりヒットした文書であって、クエリに対する類似度が高い順に順位を付されたものである。
図6の最左欄から2番目の「表示時間」は、表示時間測定部42により求められる各文書ファイルの表示時間である。その隣の「文字数」は、文字数カウント部43により求められる各文書ファイルに含まれる文字の数である。「表示時間/文字数」=s値は、各々の表示時間及び文字数から、解析部441が求めた数値である。このs値は、ユーザがどれだけじっくりと各文書を読んでいるかの目安となる評価基準値となる。
上記s値は、一応の評価基準値としては用いることができるが、このs値だけに依存すると、ベスト文書ファイルの特定精度が低くなる。そこで、本実施形態では、図6の「チューニング実施条件」欄にも示しているように、次の条件(1)〜(6)を設定して、文書ファイルの選別、並びにベスト文書ファイルの特定を行うようにしている。
(1)表示時間適正;600秒≧表示時間≧5秒
(2)文字数適正;文字数≧200文字
(3)読む速度の適正;1≧s≧0.03
(4)有効文書数;条件(1)〜(3)を全て満たす文書数≧5
(5)突出度;最大s値≧平均s値+σ
(6)文書順位;最大s値文書の順位≧2位
条件(1)は、表示時間が著しく長い、若しくは著しく短いような文書ファイルを、評価対象から外すための条件である。表示時間が600秒を超過するようなケースでは、ユーザが端末機から離席したり、表示状態は維持されているものの他のタスクを実行させたりしていることが想定されるため、これを除外する。一方、5秒にも満たない表示時間では、到底表示内容を充分に確認できないと想定されるので、これも除外する。
条件(2)は、ユーザがクエリに対して満足を得るには相応の文書情報が必要であるとの推定に基づいて、少なすぎる文字数(ここでは200文字未満)の文書ファイルを足切するための条件である。条件(3)は、ユーザが文書を読んだと言うには表示時間と文字数とには一定のバランスが必要との推定に基づいて、s値が小さすぎる(読む速度が早すぎる)場合と、大きすぎる(読む速度が遅すぎる)場合については、その文書ファイルを足切する条件である。条件(4)は、最低限の文書ファイルサンプル数を確保するための条件であり、上記条件(1)〜(3)を満たす文書ファイルの数が5以上であることを要件としている。
なお、上記条件(1)〜(3)の全てを満たす文書ファイルには「有効」フラグが付与され、逆に一つでも満たさない文書ファイルには「無効」フラグが付与される。図6の例では、2位文書、3位文書、5位文書、6位文書、8位文書及び10位文書の6つが有効文書とされている例を示している。そして、8位文書のs値が、最も高い値(0.1237=最大s値)を示している。
条件(5)は、最大s値の他のS値に対する突出度を考慮する条件である。この場合、8位文書のs値が、6つの有効文書の平均s値から1σ以上(65%以上)突出していることを要件としている。ベスト文書ファイルと扱う文書ファイルに一定の突出性を求めることで、ベスト文書ファイルの特定精度を向上させることができる。条件(6)は、チューニング処理の必要性を決定する条件であり、ここでは最大s値の文書ファイル(ここでは8位文書)のランキング表示が2位未満であるときに「チューニング処理要」としている。図6の例では、条件(4)が満たされた状況で、8位文書が最大s値を持ち、かつ条件(1)〜(3)、(5)を満たすので、当該ユーザについては8位文書が本来は1位文書としてランキング表示されるべきベスト文書ファイルであると判定される。さらに、条件(6)を満たすので、検索アルゴリズムのチューニングが必要と判定される。なお、上記条件(1)〜(6)の設定値は一例であり、上記以外の適宜な値に設定することができる。
チューニング処理部45は、判定部44が検索アルゴリズムのチューニングが必要と判定したとき、検索アルゴリズムのパラメータをチューニングする処理を行う。後記で詳述するが、チューニング前の第1検索アルゴリズムのパラメータを変更して第2検索アルゴリズムを設定し、検索エンジン20に第2検索アルゴリズムを用いて、ユーザが入力したクエリと同じクエリで検索処理を実行させる。そして、判定部44に、当該検索でランキング表示処理部24が作成したランキング表示において、ベスト文書ファイルの表示順位が妥当であるか否かを判定させる。上記の例では、8位文書がランキング表示で2位以上であるか否かを確認する。もし、2位以上にランキング表示されていない場合は、第2検索アルゴリズムのパラメータを変更して第3検索アルゴリズムを設定し、同様な処理を行わせるものである。
以上説明した本実施形態に係る検索システムの動作を、図7〜図14に示すフローチャートに基づいて説明する。図7は、検索システムの全体的なフローチャートである。検索システムの処理は、大別して4つの処理ブロック1〜4で構成される。まず、あるユーザのクエリの入力を端緒として、そのクエリについての通常の検索処理、文書のランキング表示が行われる(処理ブロック−1)。この際、ユーザは、ランキング表示された文書ファイルを選択し、コンテンツを閲覧する。
処理ブロック−2では、処理ブロック−1で実行された検索処理に基づいて、当該ユーザが閲覧した各文書ファイルについて文書表示時間が求められる(処理ブロック−2)。ここで取得された文書表示時間に基づいて、図6に例示したような条件判定が実行され、検索アルゴリズムのチューニング要否が判定される(処理ブロック−3)。そして、チューニング要と判定された場合には、検索アルゴリズムのチューニング処理が実行される(処理ブロック−4)。以下、各処理ブロック1〜4における詳細な処理内容を説明する。
図8は、図7の処理ブロック−1の詳細フローチャートである。ユーザが、端末装置30のクエリ入力部301からクエリを入力すると(ステップS11)、このクエリは検索エンジン20にインターネットを介して送信される。この際の検索要求番号、検索者ID、クエリ等の検索データは、検索データ記憶部26に格納される(ステップS12)。一方、検索処理部23は、与えられたクエリに従って、データベース10に対する文書ファイルの検索処理を実行する(ステップS13)。
前記検索処理においては、検索インデックス作成部22にてクエリに基づき検索インデックスが作成され、文書インデックス作成部21にて予め作成されている文書インデックスと前記検索インデックスとが照合される。この際、現時点で当該ユーザに対して設定されている検索アルゴリズムが適用される。検索処理でヒットした文書ファイルは、ランキング表示処理部24により、クエリに対する類似度が高い順に並べたリストにされ、端末装置30の表示部302でランキング表示される(ステップS14)。
ユーザは、ランキング表示されたリストに対し、操作部303で特定の文書ファイルに対して、選択指示(クリック操作)を与えて当該文書ファイルを開き、当該文書ファイルを閲読する。その後、選択終了指示(クリック操作)を与えて当該文書ファイルを閉じる。このような一連の処理において、検索対象とした文書ファイルの文書ID、ヒット文書ファイルの文書ID、ヒット文書リストのランキング情報(表示順位等)、ヒット文書ファイルの表示開始時刻及び表示終了時刻等の検索情報が検索データ記憶部26に格納される(ステップS15)。この際、処理ブロック−2が並行的に実行される。
図9及び図10は、図7の処理ブロック−2の詳細フローチャートである。処理ブロック−2では、検索データ記憶部26に格納されている前記検索データ及び検索情報を用いて、各文書ファイルの表示時間が求められる。前処理として、カウンタn=0と設定され(ステップS21)、ランキング表示されたリストに対しユーザが最初に選択指示(クリック操作)を与えた時刻t1=NULLと設定され(ステップS22)、ランキング表示された文書ファイルのリストに対しユーザが2番目にクリック操作を与えた時刻t2=NULLと設定される(ステップS23)。
以下、データ処理装置30の表示時間測定部42により以下の処理が実行される。先ずランキング表示された文書のいずれかに対しクリック操作で選択指示が与えられたか否かが確認される(ステップS24)。クリック操作が与えられた場合(ステップS24でYES)、カウンタnがインクリメントされ(ステップS25)、続いてn≧2であるか否かが判定される(ステップS26)。n=1である場合(ステップS26でNO)、t1としてユーザが1番目にクリック操作を与えた時刻が取得される(ステップS27)。n=1以外である場合(ステップS26でYES)、ステップS27はスキップされる。
続いて、所定のサンプリング周期に、ユーザが他の文書に2番目の選択指示(つまり、1番目の選択文書の選択終了指示)を与えたか否かが確認される(ステップS28)。他の文書に選択指示のクリック操作が与えられた場合(ステップS28でYES)、t2としてユーザが2番目にクリック操作を与えた時刻が取得される(ステップS29)。そして、1番目の選択文書の表示時間taが、ta=t2−t1で算出される。併せて、文字数カウント部43により、1番目の選択文書を構成する文字の数が求められる。これら表示時間taと文字数とは、1番目の選択文書のIDに関連付けて、図略のメモリに記憶される(ステップS30)。
これに対し、他の文書に選択指示のクリック操作が与えられていない場合(ステップS28でNO)、現在の時刻tsが取得され(ステップS31)、ts−t1>600秒の条件を満たすか否かが判定される(ステップS32)。これは、1番目の選択文書の表示時間が、上述の条件(1)の上限値を超過するか否かを確認するステップである。以後、ステップS28、S31、S32のループがサンプリング周期毎に実行される。
そして、ts−t1>600秒の条件を満たすものになったとき(ステップS32でYES)、続いてn=1であるか否かが確認される(ステップS33)。n=1である場合(ステップS33でYES)、1番目の文書を選択した後、ユーザは次の文書を何ら開いていないことになり、その後の処理は不能となるので、処理を終了する。一方、n=1でない場合は(ステップS33でNO)、処理ブロック−3に移行する。
ステップS30の後、t2の時刻がt1に置換され、t2がリセットされる(ステップS34)。そして、カウンタn=0であるか否かが確認される(図10;ステップS35)。ここでは、1番目の文書が選択された実績があるため、n=0ではない(ステップS35でNO)。従って、ステップS36に移行し、現在の時刻trが取得される(ステップS36)。続いて、tr−t1>600秒の条件を満たすか否かが確認される(ステップS37)。
これは、2番目の文書が選択された後、次の文書が選択されることなく上述の条件(1)の上限値時間だけ放置された状態に至っていないかを確認するステップである。もし、tr−t1>600秒の条件を満足したなら(ステップS37でYES)、これ以上の表示時間情報を取得できないので、処理ブロック−3に移行する。一方、tr−t1>600秒の条件を満足しない場合は(ステップS37でNO)、ステップS24に戻り、ランキング表示されて文書ファイルのいずれかが選択されるのを待つ。
1番目の文書が未だ選択されていない場合、並びにステップS37の後に3番目の文書が未だ選択されていない場合(ステップS24でNO)、ステップS38に移行し、カウンタn=0であるか否かが確認される。n=0のとき、つまり1番目の文書が未だ選択されていない場合(ステップS38でYES)、現在の時刻tuが取得される(ステップS39)。そして、ランキング表示がなされた時間から600秒を超過したか否かが確認され(ステップS40)、600秒を超過した場合は(ステップS40でYES)、ユーザはいずれの文書も条件(1)の上限値時間内に選択しなかったことになり、その後の処理は不能となるので、処理を終了する。600秒を超過していない場合は(ステップS40でNO)、ステップS35を介してステップS24に戻る。一方、ステップS38でn=0でないとき、ステップS36に戻り処理が繰り返される。
ステップS24で3番目の文書が選択された場合(ステップS24でYES)、ステップS25〜S30の処理が実行され、2番目の選択文書の表示時間taが、ta=t2−t1で算出される。以下、同様にして、3番目の文書以降の表示時間が取得されるものである。
図11、図12は、図7の処理ブロック−3の詳細フローチャートである。この処理ブロック−3の処理は、専らデータ処理装置40の判定部44により実行される。先ず、カウンタq、m、Pがゼロに設定される(ステップS41)。ここに、qはランキング表示された文書の順位、mは有効文書(図6の条件(1)〜(3)を全て満たす文書)の数、Pはチューニング処理が不要と判定された検索処理の回数を示す。
続いて、qが1つインクリメントされ(ステップS42)、判定部44の解析部441は、ランキング表示された文書のq番目(1番目)の文書についての表示時間ta及び文字数の情報を取得し、S値を算出する(ステップS43)。その後、選別部442により、有効文書と無効文書の選別処理が実行される。すなわち、上記条件(1)の「表示時間ta≧5秒」の条件を満たすか否か(ステップS44;なお、上限値(600秒)は処理ブロック−2で判定済み)、上記条件(2)の「文字数≧200文字」の条件を満たすか否か(ステップS45)、上記条件(3)の「1≧s値≧0.03」の条件を満たすか否か(ステップS46)が、順次判定される。これら3つの条件を全て満たすとき(ステップS44〜46でYES)、有効文書カウンタmが一つインクリメントされると共に(ステップS47)、選別部442は当該q番目の文書ファイルに有効フラグを付加する(ステップS48)。
これに対し、条件(1)〜(3)のいずれか一つでも満たされない場合は(ステップS44〜46のいずれか一つでNO)、ステップS47、S48はスキップされる。この場合、選別部442は、当該q番目の文書ファイルに無効フラグを付加する。その後、qが最終であるか否かが確認され(ステップS49)、最終でない場合は(ステップS49でNO)、ステップS42に戻り、qを一つインクリメントして、ランキング表示が2番目以降の文書ファイルについて同様の選別処理が実行される。
qが最終である場合、図12に移って、有効文書カウンタmが5以上であるか否かが判定される(ステップS50;図6の条件(4)参照)。mが5に満たない場合(ステップS50でNO)、サンプル不足としてチューニング要否判定を行わず、処理を終える。これに対し、mが5以上である場合は(ステップS50でYES)、ベスト文書特定部443により、m個ある有効文書の中からベスト文書ファイルを特定するための以下の処理が実行される。
すなわち、有効フラグが付加されている文書ファイルの表示時間taの平均と標準偏差とが算出され(ステップS51)、これら有効文書中で、最大s値を持つ文書ファイルが特定される(ステップS52)。その後、この最大s値の突出度が判定され(ステップS53;図6の条件(5)参照)、さらに最大s値を持つ文書ファイルのランキング表示順位が1位又は2位であるか否かが判定される(ステップS54;図6の条件(6)参照)。最大s値の突出度が低く当該文書ファイルをベスト文書ファイルと扱う程の有意性が認められない場合(ステップS53でNO)、或いは最大s値を持つ文書ファイルが最上位近辺(1位又は2位)に表示され検索アルゴリズムが適正に機能している場合(ステップS54でNO)、チューニング処理不要カウンタPが一つインクリメントされ(ステップS55)、処理を終える。
これに対し、最大s値≧ta平均値+標準偏差σの条件を満たし(ステップS53でYES)、且つ、そのベスト文書ファイルの表示順位が3位以下である場合、ベスト文書特定部443は、当該検索処理の検索要求番号を、ユーザIDに関連付けてデータ管理部444に格納する(ステップS56)。
そして、当該ユーザIDに関連付けられた検索要求番号の格納数rが30個であるか否かが確認される(ステップS58)。この格納数rは、当該ユーザのクエリにおいて、ベスト文書ファイルの表示順位が3位以下となった検索処理の累積回数を表す。従って、rの値が増加する程、検索アルゴリズムのチューニングの必要性が高くなることを意味する。格納数rが30個に満たない場合は(ステップS58でNO)、ステップS57に戻り待機する。
一方、格納数rが30個に到達した場合、格納数rに対するチューニング処理不要カウンタPの割合が判定される(ステップS59)。ここでは、r/P>30/100の条件を満たすか否かが判定される。もし、rの値がPの値に対して十分小さいなら(ステップS59でNO)、rが30個に到達したとはいえ、検索アルゴリズムが適正に機能している割合が高いことになるので、判定部44はチューニング不要と判定し、処理を終える。これに対し、rの値がPの値に対して相当大きいなら(ステップS59でYES)、判定部44は「検索アルゴリズムのチューニング要」と判定し(ステップS60)、処理ブロック−4が実行される。
図13、図14は、図7の処理ブロック−4の詳細フローチャートである。この処理ブロック−4の処理は、専らデータ処理装置40のチューニング処理部45により実行される。先ず、カウンタf、k、gがゼロに設定される(ステップS61)。ここに、fはチューニング要と判定されたユーザに付与された通し番号、kは予め用意された検索アルゴリズムのパターンに付与された通し番号、gは各ユーザの格納数rに対応させた通し番号である。上記のステップS58が存在するので、通常、gは1〜30まで存在する。
続いて、fが1つインクリメントされ(ステップS62)、特定のユーザが選定され、そのf番目のユーザの検索者IDが取得される(ステップS63)。また、カウンタkも1つインクリメントされ(ステップS64)、k番目の検索アルゴリズムパターンが抽出される。なお、ここでの実施形態では、多数パターンの検索アルゴリズムを予めデータベースの蓄積しておき、その中から順次抽出する態様を例示している。これに代えて、検索アルゴリズムのテンプレートを設定し、数値を適宜代入する方式としても良い。
続いて、gが1つインクリメントされ(ステップS66)、g番目の検索要求番号が取得される(ステップS67)。そして、チューニング処理部45は、g番目の検索要求時の検索条件を検索データ記憶部24から取得する(ステップS68)。そして、g番目の検索要求によりヒットした文書ファイルが存在するか否かが確認される(ステップS69)。存在する場合(ステップS69でYES)、チューニング処理部45は、k番目の検索アルゴリズムパターンで、検索処理部23にデータベース10の検索処理を実行させる(ステップS70)。この検索処理の結果として得られるヒット文書のランキング情報がメモリに一時的に格納される(ステップS71)。なお、ステップS69において文書ファイルが存在しない場合は(ステップS69でNO)、ステップS70、S71はスキップされる。
次に、gが最終であるか否かが判定され(ステップS72)、最終ではない場合は(ステップS72でNO)、ステップS67に戻って処理が繰り返される。最終である場合は(ステップS72でYES)、kが最終であるか否かが判定される(ステップS73)。最終ではない場合は(ステップS73でNO)、g=0と設定した上で(ステップS74)、ステップS64に戻って処理が繰り返される。kが最終である場合は(ステップS73でYES)、fが最終であるか否かが判定される(ステップS75)。最終ではない場合は(ステップS75でNO)、g=0、k=0と設定した上で(ステップS76)、ステップS63に戻って処理が繰り返される。
fが最終である場合は(ステップS75でYES)、図14に移行して、検索者ID毎に、検索アルゴリズム毎の最大s値文書の順位が求められる(ステップS77)。例えば、検索アルゴリズムパターン番号kが1〜10個、検索要求番号gが1〜30個存在するならば、一つの検索者ID当たり10×30=300回のチューニング検索処理が実行され、300個の最大s値文書の順位情報が取得される。この場合、10個の検索アルゴリズムのそれぞれについて、最大s値文書の平均順位が算出される。そして、最大s値文書の順位が最も高い検索アルゴリズムが抽出される(ステップS78)。
その後、検索者ID毎に、現状で設定されている検索アルゴリズムに基づき実際に行われた検索処理における最大s値文書の平均順位が抽出される(ステップS79)。そして、ステップS78で特定された検索アルゴリズムによる最大s値文書のチューニング平均順位と、ステップS79で抽出された実際の平均順位とが比較される(ステップS80)。
チューニング処理部45は、チューニング平均順位の方が高い場合(ステップS80でYES)、当該検索者IDについて現状で設定されている検索アルゴリズム(第1検索アルゴリズム)を、チューニング処理で得られた検索アルゴリズム(第2検索アルゴリズム)に置き換える。その後、検索要求番号に対応付けられたデータが削除され(ステップS82)、処理を終える。一方、実際の平均順位の方が高い場合(ステップS80でNO)、当該検索者IDについて現状の検索アルゴリズムを維持し、ステップS82を実行する。かかる処理が、検索者ID毎に実行され、個別に現状で最も適した検索アルゴリズムが、検索者ID毎に設定されるものである。
以上説明した本実施形態に係るネットワークシステムSによれば、データベース10に対する検索処理において、マニュアル作業を伴うことなく、実際にユーザが検索システムのサービスを利用している状態において検索アルゴリズムのチューニングを行うことができる。しかも、個々のユーザに適した検索アルゴリズムを抽出することが可能である。従って、各ユーザが、常に必要な情報を的確に得ることができる検索システムを提供することができる。
S ネットワークシステムS(検索システム)
10 データベース
20 検索エンジン(検索手段)
21 文書インデックス作成部
22 検索インデックス作成部
23 検索処理部
24 ランキング表示処理部(リスト生成手段)
25 アルゴリズム管理部
26 検索データ記憶部
30 端末装置
301 クエリ入力部(入力部)
302 表示部(表示手段)
303 操作部
40 データ処理装置
41 検索情報取得部
42 表示時間測定部(計時手段)
43 文字数カウント部
44 判定部(判定手段)
45 チューニング処理部(チューニング手段)

Claims (7)

  1. 検索対象となる多数の文書ファイルが記憶されたデータベースと、
    所定のパラメータを有する検索アルゴリズムが搭載され、前記データベースに対して前記検索アルゴリズムを用いて前記文書ファイルの検索処理を行う検索手段と、
    前記検索処理のためのクエリの入力を受け付ける入力手段と、
    前記クエリでの検索処理によりヒットした文書ファイルのリストを、前記検索アルゴリズムでの合致度合いに応じた順位付けをして作成するリスト生成手段と、
    前記リストを表示すると共に、前記リストのいずれかに選択指示が与えられたときに対応する文書ファイルの内容を表示し、選択終了指示が与えられたときに前記内容の表示を停止する表示手段と、
    前記選択指示が与えられた後、前記選択終了指示が与えられるまでの前記表示手段への前記文書ファイルの表示時間を、前記文書ファイル単位で計測すると共に記憶する計時手段と、
    前記表示時間を含む評価要素を参照して、前記文書ファイルのリストの前記順位付けが妥当であるか否かを判定する判定手段と、
    前記判定手段により前記順位付けが妥当でないと判断されたときに、前記検索アルゴリズムのパラメータをチューニングするチューニング手段と、
    を備えることを特徴とする検索システム。
  2. 前記判定手段は、
    前記評価要素に基づき前記リストの最上位にリストアップされるべき最上位文書ファイルを特定する特定部を有し、
    前記最上位文書ファイルが、前記リスト生成手段が作成した文書ファイルのリストの最上位に位置しているか否かに基づいて、前記順位付けが妥当であるか否かを判定することを特徴とする請求項1に記載の検索システム。
  3. 前記判定手段は、前記文書ファイルの前記表示時間を、当該文書ファイルを構成する文字数で除して得られる評価値を、前記評価要素として導出する解析部を備えることを特徴とする請求項2に記載の検索システム。
  4. 前記判定手段は、前記順位付けの妥当性を判定する前に、所定の選別基準を適用して、判定対象とする文書ファイルの選別処理を実行する選別部を備えることを特徴とする請求項2又は3に記載の検索システム。
  5. 前記選別基準は、前記表示時間が予め定められた上限値と下限値との間の値であるか否かと、前記文書ファイルを構成する文字数が予め定められた値を上回っているか否かと、を含むことを特徴とする請求項4に記載の検索システム。
  6. 前記チューニング手段は、
    前記チューニング前の第1検索アルゴリズムの前記パラメータを変更して第2検索アルゴリズムを設定し、
    前記検索手段に、前記第2検索アルゴリズムを用いて、前記入力手段に入力されたクエリと同じクエリで検索処理を実行させ、
    前記判定手段に、前記第2検索アルゴリズムに基づき前記リスト生成手段が作成した文書ファイルのリストの順位付けが妥当であるか否かを判定させる、
    ことを特徴とする請求項1〜5のいずれかに記載の検索システム。
  7. 前記チューニング手段は、
    前記チューニング前の第1検索アルゴリズムの前記パラメータを変更して第2検索アルゴリズムを設定し、
    前記検索手段に、前記第2検索アルゴリズムを用いて、前記入力手段に入力されたクエリと同じクエリで検索処理を実行させ、
    前記判定手段に、前記第2検索アルゴリズムに基づき前記リスト生成手段が作成した文書ファイルのリストの最上位に前記最上位文書ファイルが位置しているか否かを判定させ、
    前記リストの最上位に前記最上位文書ファイルが位置していない場合に、前記パラメータをさらに変更して第3検索アルゴリズムを設定し、前記検索処理及び前記判定を再度実行させる、
    ことを特徴とする請求項2〜5のいずれかに記載の検索システム。
JP2009134933A 2009-06-04 2009-06-04 検索システム Pending JP2010282402A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009134933A JP2010282402A (ja) 2009-06-04 2009-06-04 検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009134933A JP2010282402A (ja) 2009-06-04 2009-06-04 検索システム

Publications (1)

Publication Number Publication Date
JP2010282402A true JP2010282402A (ja) 2010-12-16

Family

ID=43539077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009134933A Pending JP2010282402A (ja) 2009-06-04 2009-06-04 検索システム

Country Status (1)

Country Link
JP (1) JP2010282402A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012063829A (ja) * 2010-09-14 2012-03-29 Jvc Kenwood Corp コンテンツ再生装置、コンテンツ再生方法及びコンテンツ再生プログラム
JP5735191B1 (ja) * 2014-07-31 2015-06-17 楽天株式会社 検索装置、検索方法、記録媒体、ならびに、プログラム
JP2017157191A (ja) * 2016-03-01 2017-09-07 ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. 人工知能に基づく検索方法及び装置
JP2017535866A (ja) * 2014-11-21 2017-11-30 マイクロソフト テクノロジー ライセンシング,エルエルシー ランキング関数のオフライン評価

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012063829A (ja) * 2010-09-14 2012-03-29 Jvc Kenwood Corp コンテンツ再生装置、コンテンツ再生方法及びコンテンツ再生プログラム
JP5735191B1 (ja) * 2014-07-31 2015-06-17 楽天株式会社 検索装置、検索方法、記録媒体、ならびに、プログラム
WO2016017001A1 (ja) * 2014-07-31 2016-02-04 楽天株式会社 検索装置、検索方法、記録媒体、ならびに、プログラム
JP2017535866A (ja) * 2014-11-21 2017-11-30 マイクロソフト テクノロジー ライセンシング,エルエルシー ランキング関数のオフライン評価
US11636120B2 (en) 2014-11-21 2023-04-25 Microsoft Technology Licensing, Llc Offline evaluation of ranking functions
JP2017157191A (ja) * 2016-03-01 2017-09-07 ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. 人工知能に基づく検索方法及び装置

Similar Documents

Publication Publication Date Title
US8793259B2 (en) Information retrieval device, information retrieval method, and program
US7475074B2 (en) Web search system and method thereof
US8661031B2 (en) Method and apparatus for determining the significance and relevance of a web page, or a portion thereof
JP5612731B2 (ja) 関心領域についての関連情報の決定
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
US20080065617A1 (en) Search entry system with query log autocomplete
US8527487B2 (en) Method and system for automatic construction of information organization structure for related information browsing
JP4896268B2 (ja) 情報価値を反映した情報検索方法及びその装置
JP2010282402A (ja) 検索システム
JP2007034772A (ja) Webサイト検索結果の最適表示システム及びその装置及びその方法及びそのプログラム
JP4084647B2 (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JP3746233B2 (ja) 知識分析システムおよび知識分析方法
JP5579140B2 (ja) 文書検索装置及び方法及びプログラム
JP2010055155A (ja) サーバ装置、情報処理方法およびプログラム
US20140095465A1 (en) Method and apparatus for determining rank of web pages based upon past content portion selections
JP2010003134A (ja) 検索キーワードを推薦するサーバ、方法、およびプログラム
JP2010244187A (ja) 文書検索システムおよび方法
JP2005196336A (ja) キーワード設定装置及びキーワード検索装置等
JP5380874B2 (ja) 情報検索方法、プログラム及び装置
US20140149378A1 (en) Method and apparatus for determining rank of web pages based upon past content portion selections
JP2011175453A (ja) キーワード検索システム
JP6534454B2 (ja) 情報検索方法及び情報検索装置並びに情報検索システム
KR101134073B1 (ko) 검색어와 검색 결과의 단어 연관성을 이용하는 검색 방법 및 검색 시스템
JP2003256472A (ja) 文書検索システム
JP2005122509A (ja) 階層構造データ分析方法、分析装置および分析プログラム