JP2012155673A - 検索式生成装置、検索システム、検索式生成方法 - Google Patents
検索式生成装置、検索システム、検索式生成方法 Download PDFInfo
- Publication number
- JP2012155673A JP2012155673A JP2011016661A JP2011016661A JP2012155673A JP 2012155673 A JP2012155673 A JP 2012155673A JP 2011016661 A JP2011016661 A JP 2011016661A JP 2011016661 A JP2011016661 A JP 2011016661A JP 2012155673 A JP2012155673 A JP 2012155673A
- Authority
- JP
- Japan
- Prior art keywords
- search
- expression
- expression generation
- formula
- generation unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本発明に係る検索式生成装置は、検索タームの論理積を論理和で結合した積和標準形で表される検索条件式を構築し、再現率と精度を基準としてその検索条件式を評価する。次に、検索タームの論理積のうち評価値が最大となるものを論理和で結合することを繰り返し、検索条件式を構築する。
【選択図】図5
Description
図1は、本発明の実施形態1に係る検索システム1000の構成図である。検索システム1000は、検索式生成装置10と検索サーバ12を有する。これらはネットワーク11を介して接続されている。
(図2:動作手順ステップ1)
ユーザは、テキスト入力エリア201に検索要求を入力する。概念検索を実施する場合は文章を入力し、全文検索を実施する場合は検索式を入力する。ここでは、概念検索を実施する例を示した。検索要求として、「1,8−シネオールを有効成分として含有することを特徴とするヒョウダニの忌避剤。」という文章が入力されている。
(図2:動作手順ステップ2)
ユーザが検索ボタン204をクリックすると、表示制御部106はテキスト入力エリア201に入力されている文字列を取得し、データ通信部107を介して検索サーバ12にその文字列を検索条件とする検索要求を送信する。
検索サーバ12は、検索式生成装置10が送信した検索要求を受け取る。検索部124は、検索インデックス123を用いて検索要求に合致する文書を検索する。検索部124は、検索に合致する文書の識別子、タイトルなどを取得し、検索結果として検索式生成装置10に送信する。
(図2:動作手順ステップ4)
表示制御部106は、データ通信部107を介して検索結果を受け取り、表示エリア203にリスト形式で表示する。表示エリア203は、検索結果に含まれる文書のタイトルなどを表示する。各タイトルの横には、選択/非選択を切り替えられるチェックボックス209を配置する。チェックボックスが選択状態にある文書は、検索式を生成する対象となる。デフォルトでは表示エリア203に表示している全文書が選択されている。全選択ボタン207をクリックすると、全文書を一括して選択することができる。全解除ボタン208をクリックすると、全文書を一括して選択解除することができる。
ユーザが根拠ボタン206をクリックすると、表示制御部106は選択されている文書の識別子を検索式生成部105に渡す。検索式生成部105は、後述の図3〜図6で説明する手法を用いて、検索インターフェース画面20上で選択されている文書を正確に検索することができる検索式を生成する。
(図2:動作手順ステップ6)
表示制御部106は、検索式生成部105が生成した検索式を、テキスト入力エリア202に表示する。ここでは「剤*忌避+害虫*忌避*成分」という検索式が表示されている。この検索式を用いて全文検索を実施すると、現在選択されている文書を正確に検索できる、ということを示唆している。ユーザは、概念検索を実施して得られた検索結果の根拠を、検索結果と等価な検索式として確認することができる。
(図2:動作手順ステップ6:補足)
図2に示す例の場合、もともとの概念検索ではテキスト入力エリア201に「ヒョウダニ」という言葉が入力されていたが、テキスト入力エリア202に表示されている検索式では、より一般的な「害虫」というキーワードが使われている。すなわち、テキスト入力エリア201に入力されている文章を用いた概念検索の結果は、「害虫」という一般的なキーワードを使って全文検索した結果と等価であるといえる。ユーザは、テキスト入力エリア201と202の表示内容を比較することにより、網羅的な検索が実施できているか否かを確認できる。さらに、選択されている文書の内容を調べれば、ヒョウダニを含む「害虫」に関する文書を全て調べ尽くすことができる。
ユーザは、検索式生成部105が生成した検索式をテキスト入力エリア202上で修正することもできる。検索式を修正した後に再検索ボタン205をクリックすると、表示制御部106はテキスト入力エリア202に入力されている検索式を取得し、データ通信部107を介して検索サーバ12にその検索式を検索条件とする検索要求を送信する。検索サーバ12はその検索式を用いて検索を実施し、表示制御部106はその検索結果を表示エリア203に表示する。
(図2:動作手順ステップ7:補足)
例えば、現在の検索結果には、ヒョウダニ以外の害虫に関する文書も含まれている可能性がある。ヒョウダニに特化した文書のみが欲しければ、テキスト入力エリア202に表示されている「害虫」を「ヒョウダニ」に修正し、「剤*忌避+ヒョウダニ*忌避*成分」という検索式を用いて再度検索を実施すればよい。
(図4:処理手順ステップ1)
検索式生成部105は、検索タームの論理積1つで構成されている検索式L1を生成する。検索式生成部105は、F値が最大となるL1を探索する。検索式生成部105は、L1を探索する過程において、論理積を構成する検索タームおよび検索タームの個数を最適化する。例えば、L1=a*b*cなどの結果が得られる。検索式L1がカバーする文書集合は、図4のH(L1)(302a)である。DとH(L1)が重なる部分D∧H(L1)は、図4の斜線領域303aである。
(図4:処理手順ステップ2)
検索式生成部105は、文書集合DからH(L1)を除いた部分に対してステップ1と同様の処理を実施し、F値が最大となる検索式L2を生成する。検索式L2は、検索タームの論理積1つで構成されている。ここで得られる検索式L2は、ステップ1と同一であるとは限らない。例えば、L2=d*eなどの結果が得られる。L2がカバーする文書集合は、図4のH(L2)(302b)である。
検索式生成部105は、文書集合DからH(L1)とH(L2)を除いた部分に対してステップ1と同様の処理を実施し、F値が最大となる検索式L3を生成する。検索式L3は、検索タームの論理積1つで構成されている。ここで得られる検索式L3は、ステップ1〜ステップ2と同一であるとは限らない。例えば、L3=f*gなどの結果が得られる。L3がカバーする文書集合は、図4のH(L3)(302c)である。
(図4:処理手順ステップ4)
検索式生成部105は、以上と同様の処理を、所定回数または文書集合Dのうちカバーできていない範囲が所定範囲以下になるまで繰り返す。ここでは繰り返し回数を3回と仮定する。検索式探索部105は、各ステップで得られた検索式を論理和で結合し、最終的な検索式Lとする。ここでは、L=L1+L2+L3=(a*b*c)+(d*e)+(f*g)となる。
(図4:処理手順ステップ4:補足)
図4の点線で囲われた部分が、検索式Lでカバーできる文書集合となる。各ステップ1〜ステップ3では、局所的にF値が最大となる論理積L1〜L3を生成しているため、それらを結合した積和標準形のF値も相応に大きな値となる。局所最適解を繰り返し取得する貪欲法を用いて検索式Lを生成しているため、必ずしも大域的な最大値が得られているとは限らないが、探索空間が膨大になることを回避できる。
(図5:ステップS501)
検索式生成部105は、文書集合Dを構成する各文書を取得する。Dの要素d_iは各文書の識別子である。検索式生成部105は、文書集合Dの各構成要素を検索サーバ12に問い合わせてもよいし、ユーザが各構成要素を入力してもよい。
(図5:ステップS502)
検索式生成部105は、最終的な検索式Lを出力するための論理積集合をOとし、Oを空集合で初期化する。
検索式生成部105は、本処理を終了するか否かを判定するための残文書数閾値c_minを設定する。c_minについてはステップS509で改めて説明する。c_minの値は事前にメモリ102などに格納しておいてもよいし、ユーザが入力してもよい。
(図5:ステップS504)
検索式生成部105は、ステップS509で説明する条件が満たされるまで、以下のステップS505〜S508を繰り返す。
検索式生成部105は、F値が最大となる検索式Lを探索する。検索式Lは、検索タームの論理積1つで構成されている。本ステップは、図4で説明したステップ1〜ステップ3それぞれにおいてL1〜L3を探索する処理に対応する。本ステップの詳細については図6で改めて説明する。
(図5:ステップS506)
検索式生成部105は、ステップS505で得られた検索式Lを集合Oの構成要素として加える。
(図5:ステップS507〜S508)
検索式生成部105は、ステップS505で得られた検索式Lを用いて検索することができる文書集合をDLとする(S507)。検索式生成部105は、文書集合DからDLを差し引いて新たな文書集合Dとする(S508)。
検索式生成部105は、文書集合Dが空であるか、またはステップS505で新たに検索した文書数(DLの要素数)が閾値c_minより小さくなっている場合、ステップS505〜S508の繰り返し処理を終了する。いずれの条件も満たしていない場合は、ステップS505に戻って同様の処理を繰り返す。
(図5:ステップS509:補足)
本ステップでは、新たに検索できる文書数がc_minを下回った場合、繰り返し探索を終了させることになる。この終了条件は、ごく少数の文書しか検索できないような特殊な論理積を生成させないために必要となる。本実施形態1では貧欲法を用いて検索式Lを探索しているため、繰り返し処理が進むにつれ新たにカバーできる文書数は減少する傾向にある。よって、カバーできる文書数が増加に転じる可能性は少ないため、DLの要素数がc_minを下回った時点で、即座に繰り返し探索を終了してもよい。
(図5:ステップS510)
検索式生成部105は、生成した検索式が保存されているOを表示制御部106に出力する。例えば最終的にL=(a*b*c)+(d*e)+(f*g)という検索式が生成された場合、O={a*b*c,d*e,f*g}となっている。
(図6:ステップS601)
検索式生成部105は、文書集合Dを構成する各文書を取得する。本ステップにおける文書集合Dは、ステップS501およびS508で得られるDに等しい。
検索式生成部105は、ステップS505で生成する検索式の論理積を構成する候補となる検索ターム(キーワード)を収集し、これを検索ターム集合Tとする。D内の文書に現れる全てのタームをTに入れてもよいし、D内で重みの高いタームのみを所定個数Tに入れるようにしてもよい。
(図6:ステップS602:補足1)
本ステップで検索ターム集合Tに入れるタームを選択する基準となる重みとして、例えばIDF(Inverse Document Frequency)値などを用いることができる。重みの値は検索サーバ12に問い合わせてもよいし、検索式生成部105が計算してもよい。重みを計算するために必要なデータや重みの計算方法については、任意の公知手法を用いることができる。
(図6:ステップS602:補足2)
本実施形態1では、検索タームとして単語(形態素)を用いることを想定するが、その他に例えば文字Nグラムなどを用いることもできる。
検索式生成部105は、探索の深さの上限l_maxを設定する。探索の深さとは、検索式Lに含まれる各論理積を構成する要素数に相当する。例えば、ステップS505において最大3個の検索タームの論理積を探索範囲とする場合、l_max=3となる。この場合、検索タームを論理積で結合することができる最大個数は3個となる。
(図6:ステップS604)
検索式生成部105は、探索している地点を保持するための集合Bを初期化し、探索開始点を設定する。例えば開始点として、Tに含まれている全てのタームを、論理結合せずに集合Bへ登録する。この場合、例えばB={a,b,c,・・・}となる。集合Bを初期化するその他の手法として、例えばF値が大きい検索タームから所定個数のみを抽出してBに登録するなどが考えられる。
検索式生成部105は、集合Bに登録されている検索タームのなかで最もF値が大きいものをB_maxとする。以後、F値がより大きい検索タームの論理積が得られる毎に、B_maxを更新する。
(図6:ステップS606〜S607)
検索式生成部105は、探索の深さを示す変数iを初期化する(S606)。検索式生成部105は、探索深さiが上限l_maxを超えるまで、以下のステップS607〜S613を繰り返す。ステップS607〜S613は、探索深さiに対する探索処理である。すなわち、ステップS607〜S613では、幅優先探索を行っていることになる。
検索式生成部105は、集合Bの構成要素のインデックスを示す変数jを初期化する(S608)。検索式生成部105は、集合Bの最終要素番号mに到達するまで、以下のステップS610〜S612を繰り返す(S609)。
(図6:ステップS610)
検索式生成部105は、集合Bのj番目の要素B_jに、集合T内の1つの検索タームを論理積で結合する。論理積で結合する検索タームは、結合することによってF値が最も増加するものを選ぶ。すなわち本ステップでは、山登り法で検索タームを探索していることになる。
(図6:ステップS610:補足)
上記説明では、F値が最大となる論理積を結合することとしたが、F値が最大値よりも小さくなる検索タームを予備的に採用し、探索範囲を広く確保するようにしてもよい。この場合、探索が進むにつれ、現在の探索地点を保持する集合Bも大きくなってしまうが、集合Bの要素数の上限値をあらかじめ決めておき、F値が大きいものから優先的に集合Bに登録するなどの手法を用いることもできる。
検索式生成部105は、ステップS610で新たに検索タームを結合した要素B_jのF値が現在のB_maxのF値より大きければ、B_maxをB_jで更新する。
(図6:ステップS612)
検索式生成部105は、変数jを1インクリメントする。jが集合Bの最終要素番号mに到達していなければステップS609に戻って同様の処理を繰り返し、到達していればステップS609〜S612の繰り返し処理を終了する。
検索式生成部105は、変数iを1インクリメントする。iが探索深さ上限l_maxに到達していなければステップS607に戻って同様の処理を繰り返し、到達していればステップS607〜S613の繰り返し処理を終了する。
(図6:ステップS614)
検索式生成部105は、現在のB_maxを本処理の結果として出力する。
以上、本実施形態1に係る検索式生成装置10が検索式を生成する手法を説明した。検索式生成装置10は、概念検索の検索結果と等価な検索式を自動生成することができる。
本実施形態1に係る検索式生成装置10は、所望の検索結果を得るための検索式Lを、積和標準形で生成する。これにより、最適な検索式Lを探索する際の探索空間が膨大になることを防ぐことができる。
実施形態1では、再現率Rと精度Pを用いて検索式Lを評価する手法を説明した。精度Pを求める際には、検索式Lが合致する文書数、すなわちヒット件数|H(L)|を取得する必要があるので、検索式生成部105は必要に応じて検索サーバ12に|H(L)|を問い合わせることができる。
(図7:式701)
検索式生成部105は、図6の各ステップのうちF値を算出するステップ(S605とS610)を実施する際に、ヒット件数|H(L)|を取得する対象である検索式Lを取得する。検索式生成部105は、検索式Lを構成する論理積毎に|H(L)|を求めるので、本ステップにおけるLは検索タームの論理積となる。ここでは、L=t_1*t_2*・・・*t_kと仮定する。t_iは各検索タームである。
(図7:式702)
検索式生成部105は、検索対象となる全文書数Nを取得する。Nの値は検索サーバ12に問い合わせてもよいし、ユーザが入力してもよい。
ある文書が検索式(論理積)Lで検索できる確率をP(L)と定義すると、Lで検索できる文書数H(L)は、P(L)*Nで推定することができる。
(図7:式704)
検索式(論理積)Lを構成する各検索タームt_1〜t_kが文書内で独立に出現するものとして近似すると、P(L)≒P(t_1)*P(t_2)*・・・*P(t_k)となる。
P(t_i)は、ある文書が検索タームt_iで検索できる確率であり、全文書数Nに対するt_iのヒット件数H(t_i)の比で推定することができる。
(図7:式706)
以上の式701〜式705によれば、求めるH(L)は、検索ターム毎のヒット件数H(t_i)の積を用いた式706で近似計算できることが分かる。検索式生成部105は、最終的に式706を用いてH(L)を近似計算することができる。
以上のように、本実施形態2に係る検索式生成装置10は、検索インデックス123が保持している、検索タームt_i毎のヒット件数を取得し、その値を用いて検索式Lによるヒット件数|H(L)|を近似計算する。これにより、ヒット件数|H(L)|を取得する毎に検索を実施する必要がなくなり、検索負荷を低減するとともに、検索式Lを生成する処理を高速化することができる。
実施形態1において、検索式生成部105は、再現率Rと精度Pを算出する際に、|D∧H(L)|を求める必要がある。|D∧H(L)|は、文書集合D中で検索式Lにヒットする文書数であるから、実際に検索してみないと正確な値はわからない。この課題を局所ヒット件数取得問題と呼ぶ。
以上のように、本実施形態3に係る検索式生成装置100は、検索インデックス123が保持している、文書d_i(901)に含まれる検索タームのリスト(902)を用いて、局所ヒット件数|D∧H(L)|を求める。これにより、各文書d_iに含まれる検索タームを解析した上で|D∧H(L)|を求める場合に比べて、処理負荷を軽減し、高速に検索式Lを生成することができる。
本発明の実施形態4では、実施形態3で説明した局所ヒット件数|D∧H(L)|を高速に求める手法に代えて、サンプリングを用いた近似的手法により|D∧H(L)|を推定する手順を説明する。その他の構成は実施形態3と同様である。
実施形態4で説明した計算式1002は、論理積Lの目標ヒット件数Xを設定するために使うこともできる。ここでは、構成要素が不明な要素数Xの文書集合Dのうち一部を抽出した集合Sが与えられており、文書集合Dを検索する論理積Lを生成することを目的として設定する。所与の文書集合Sは、要素数Xの仮想的な文書集合Dからランダムサンプリングで抽出されたものと仮定する。
本発明の実施形態6では、文書集合Dを構成する文書の重み(検索スコア)を考慮した動作例を説明する。検索システム1000の構成は、実施形態1〜5と同様である。
以上のように、本実施形態6に係る検索式生成装置10は、検索式Lを評価する際に、検索スコアを加味した評価式を用いる。これにより、検索ランクが上位の文書を優先して検索することができる検索式Lを得られるので、検索ニーズに適合した検索式を生成することができる。
本発明の実施形態7では、検索結果をクラスタリングして、それぞれのクラスタに対して検索式を生成して表示する構成を説明する。クラスタリングに係る処理および画面表示以外については実施形態1〜6と同様であるため、以下では差異点を中心に説明する。
(図11:動作手順ステップ1)
ユーザは、テキスト入力エリア1101に検索要求を入力する。概念検索を実施する場合は文章を入力し、全文検索を実施する場合は検索式を入力する。ここでは、概念検索を実施する例を示した。検索要求として、「写真を撮影するためのまたは写真を投影もしくは直視するための装置」という文章が入力されている。
(図11:動作手順ステップ2〜ステップ3)
ユーザが検索ボタン1102をクリックすると、図2のステップ2〜ステップ3で説明したものと同様の処理が実施される。
表示制御部106は、データ通信部107を介して検索結果を受け取る。検索式生成部105は、検索結果に含まれる文書集合をクラスタリングして部分集合に分割する。表示制御部106は、クラスタ毎に表示エリア1104を設け、各表示エリア1104にクラスタ内の文書リストを表示する。表示エリア1104の表示内容は、図2と同様である。
(図11:動作手順ステップ5)
表示制御部106は、クラスタ毎に根拠ボタン1106を設ける。ユーザが根拠ボタン1106をクリックすると、表示制御部106は表示エリア1104内で選択されている文書の識別子を検索式生成部105に渡す。検索式生成部105は、クラスタ内で選択されている文書集合を検索することのできる検索式を生成する。ユーザは、クラスタの文書から必要な文書のみを選ぶことにより、クラスタに含まれる文書リストを自分の好みに合わせて修正することができる。
表示制御部106は、クラスタ毎にテキスト入力エリア1103を設ける。表示制御部106は、検索式生成部105が生成したクラスタ毎の検索式を、テキスト入力エリア1103に表示する。
(図11:動作手順ステップ7)
ユーザは、テキスト入力エリア1103に表示されている検索式を直接修正することもできる。ユーザが再検索ボタン1105をクリックすると、表示制御部106はテキスト入力エリア1103に入力されている検索式を取得し、データ通信部107を介して検索サーバ12にその検索式を検索条件とする検索要求を送信する。検索サーバ12はその検索式を用いて検索を実施し、表示制御部106はその検索結果を表示エリア1104に表示する。
以上のように、本実施形態7に係る検索式生成装置10は、検索結果をクラスタリングし、クラスタ毎に検索結果を表示する。また、各クラスタに含まれる文書を検索することのできる検索式をクラスタ毎に生成する。これにより、ユーザはクラスタ毎の特徴を容易に把握することができる。
本発明の実施形態8では、実施形態1〜7で説明した検索式生成装置10を用いて、文書分類コードを自動的に付与する規則を生成する手法を説明する。
検索式生成部105は、実施形態1〜7で説明した手順を用いて、検索式Lを構成する各論理積に対し、訓練データ中における精度と再現率を計算する。ここでは、図12の上半分に示す4つの論理積「検眼」「検*者」「眼科*装置」「光学*撮影*系」が得られたものとする。
(図12:分類規則生成手順ステップ2)
ユーザは、所望の精度値を検索式生成装置10に入力する。ここでは精度≧0.8を指定したものとする。
検索式生成部105は、精度が0.8以上の論理積のみを抽出して論理和で結合する。これにより、訓練データに関して0.8以上の精度を有する検索式「(検眼)+(眼科*装置)」を生成することができる。なお、精度の値は正解訓練データを用いて算出する。
(図12:分類規則生成手順ステップ4)
検索式生成装置10は、ステップ3で得られた検索式を、分類規則としてユーザに提示する。これにより、目標とする精度を指定して、分類規則を自動生成することができる。目標精度を十分高くして生成した分類規則を用いれば、分類コードを十分な精度で自動付与することができる。
以上のように、本実施形態8に係る検索式生成装置10は、指定された以上の精度を有する検索式を生成し、文書分類規則として提示する。これにより、文書に分類コードを自動的に高精度で付与することができる。
以上の実施形態1〜8において、検索式生成部105は検索サーバ12に配置してもよい。また、実施形態7のように検索結果をクラスタリングする場合、クラスタリング処理を実施する機能部を、検索式生成部105とは別に新たに設けてもよい。
本発明の実施例1では、実施形態1で説明した検索式の精度について評価した結果を説明する。精度を評価するために、ある検索式Lを用いて実際に文書を検索し、検索された文書集合から検索式を生成し、元の検索式Lが復元できるかどうかを確かめた。なお、検索式Lを用いた検索結果が300件を超える場合は、300個の文書をサンプリングして評価を実施した。
本発明の実施例2では、図12で生成した精度0.8以上の分類規則「(検眼)+(眼科*装置)」を使い、1994年(訓練データの次の年)公開の特許公開公報に国際特許分類A61B3を付与した結果について説明する。
Claims (16)
- 1以上の文書からなる母集合を検索対象の文書集合から検索するための検索条件式を生成する検索式生成部と、
任意の検索条件式を用いて前記検索対象を検索した結果を取得して前記検索式生成部に出力する検索結果取得部と、
を備え、
前記検索式生成部は、
1以上の検索タームからなる論理積を検索条件式として前記検索対象を検索した場合に得られる検索結果のうち前記母集合に含まれる文書が前記母集合に対して占める割合を示す再現率と、前記検索結果のうち前記母集合に含まれる文書が前記検索結果に対して占める割合を示す精度を、前記検索結果取得部から前記検索結果を取得して算出し、
前記再現率と前記精度を用いて構築された評価式によって前記論理積を評価し、
前記評価式による評価値が最大となる前記論理積を論理和で結合することを繰り返すことにより、積和標準形で表される前記検索条件式を生成する
ことを特徴とする検索式生成装置。 - 前記検索結果取得部は、
前記検索式生成部が前記精度を算出する際に、前記論理積中の各検索タームのヒット件数を、前記検索対象の検索インデックスに記録されている検索ターム毎のヒット件数から取得し、
前記検索式生成部は、前記ヒット件数を用いて前記精度を近似する
ことを特徴とする請求項1記載の検索式生成装置。 - 前記検索式生成部は、
前記検索対象中の全文書数に対する前記ヒット件数の比を用いて検索ターム毎のヒット確率を推定し、
前記推定したヒット確率を用いて前記精度を近似する
ことを特徴とする請求項2記載の検索式生成装置。 - 前記検索式生成部は、
検索ターム毎の前記推定したヒット確率を掛け合わせることにより、前記論理積を検索条件として前記検索対象を検索した場合のヒット件数を推定し、そのヒット件数を用いて前記精度を近似する
ことを特徴とする請求項3記載の検索式生成装置。 - 前記検索式生成部は、
前記再現率または前記精度のうち少なくともいずれかを算出する際に、
前記母集合に属する各文書の検索インデックスに記録されている、前記各文書内に含まれる検索タームのリストを照会することにより、前記検索結果のうち前記母集合に含まれる文書の数を取得する
ことを特徴とする請求項1記載の検索式生成装置。 - 前記検索式生成部は、
前記再現率または前記精度のうち少なくともいずれかを、前記母集合からサンプリングした文書集合に対して算出し、
その算出結果と前記サンプリングのサンプリング率とを用いて構築された評価式によって前記論理積を評価する
ことを特徴とする請求項1記載の検索式生成装置。 - 前記検索結果取得部は、
前記論理積を検索条件として前記検索対象を検索した場合に得られる検索結果に含まれる各文書の重み係数を取得し、
前記検索式生成部は、
前記重み係数を用いて前記再現率または前記精度の少なくともいずれかを算出する
ことを特徴とする請求項1記載の検索式生成装置。 - 前記検索式生成部は、
前記母集合内に含まれる文書の重み係数のうち最小のものを、前記母集合に含まれない文書の重み係数として近似する
ことを特徴とする請求項7記載の検索式生成装置。 - 前記検索結果取得部が取得した検索結果を表示する表示部を備え、
前記検索式生成部は、
前記検索結果を得るための前記検索条件式を生成し、前記検索結果とともに前記表示部に表示させる
ことを特徴とする請求項1記載の検索式生成装置。 - 前記表示部は、
前記検索式生成部が生成した前記検索条件式を修正するための入力欄を有し、
前記検索結果取得部は、
前記入力欄に入力された修正後の検索条件式を用いて前記文書を検索した結果を取得して前記表示部に表示させる
ことを特徴とする請求項9記載の検索式生成装置。 - 前記検索式生成部は、
前記検索結果取得部が取得した検索結果をクラスタリングし、
前記表示部は、
前記クラスタリングで得られたクラスタ毎に前記検索結果を表示する
ことを特徴とする請求項9記載の検索式生成装置。 - 前記表示部は、
前記検索式生成部が生成した前記検索条件式を修正するための入力欄を、前記クラスタリングで得られたクラスタ毎に有し、
前記検索結果取得部は、
前記入力欄に入力された修正後の検索条件式を用いて前記文書を検索した結果を取得し、前記クラスタリングで得られたクラスタ毎に前記表示部に表示させる
ことを特徴とする請求項11記載の検索式生成装置。 - 前記検索式生成部は、
前記精度の指定値を入力として受け取り、前記指定値以上の前記精度を有する前記検索条件式を生成する
ことを特徴とする請求項1記載の検索式生成装置。 - 請求項1記載の検索式生成装置と、
任意の検索条件式から前記検索対象を検索する検索サーバと、
を有し、
前記検索結果取得部は、
前記検索条件式を用いて前記検索対象を検索した結果を前記検索サーバから取得する
ことを特徴とする検索システム。 - 1以上の文書からなる母集団を検索対象の文書集合から検索するための検索条件式を生成する検索式生成ステップと、
任意の検索条件式を用いて前記検索対象を検索した結果を取得する検索結果取得ステップと、
を有し、
前記検索式生成ステップでは、
1以上の検索タームからなる論理積を検索条件式として前記検索対象を検索した場合に得られる検索結果のうち前記母集合に含まれる文書が前記母集合に対して占める割合を示す再現率と、前記検索結果のうち前記母集合に含まれる文書が前記検索結果に対して占める割合を示す精度を、前記検索結果取得ステップにより前記検索結果を取得して算出し、
前記再現率と前記精度を用いて構築された評価式によって前記論理積を評価し、
前記評価式による評価値が最大となる前記論理積を論理和で結合することを繰り返すことにより、積和標準形で表される前記検索条件式を生成する
ことを特徴とする検索式生成方法。 - 前記精度の指定値を入力として受け取るステップを有し、
前記検索式生成ステップでは、
前記指定値以上の前記精度を有する前記検索条件式を生成する
ことを特徴とする請求項15記載の検索式生成方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011016661A JP5552448B2 (ja) | 2011-01-28 | 2011-01-28 | 検索式生成装置、検索システム、検索式生成方法 |
CN201110240983.2A CN102622389B (zh) | 2011-01-28 | 2011-08-22 | 检索式生成装置、检索系统、检索式生成方法 |
US13/226,935 US8566351B2 (en) | 2011-01-28 | 2011-09-07 | System and program for generating boolean search formulas |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011016661A JP5552448B2 (ja) | 2011-01-28 | 2011-01-28 | 検索式生成装置、検索システム、検索式生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012155673A true JP2012155673A (ja) | 2012-08-16 |
JP5552448B2 JP5552448B2 (ja) | 2014-07-16 |
Family
ID=46562312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011016661A Active JP5552448B2 (ja) | 2011-01-28 | 2011-01-28 | 検索式生成装置、検索システム、検索式生成方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8566351B2 (ja) |
JP (1) | JP5552448B2 (ja) |
CN (1) | CN102622389B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015001770A (ja) * | 2013-06-13 | 2015-01-05 | 株式会社日立製作所 | クエリ処理システム、及び、クエリ処理方法 |
JP2015090618A (ja) * | 2013-11-06 | 2015-05-11 | 富士通株式会社 | キーワード生成方法、プログラム及び情報処理装置 |
JP2021072009A (ja) * | 2019-11-01 | 2021-05-06 | 株式会社日立製作所 | 文書検索支援装置、文書検索支援方法及び文書検索支援プログラム |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105103152A (zh) * | 2013-01-31 | 2015-11-25 | 惠普发展公司,有限责任合伙企业 | 近似查询处理 |
CN103699574B (zh) * | 2013-11-28 | 2017-01-11 | 科大讯飞股份有限公司 | 一种对复杂检索式进行检索优化的方法及系统 |
RU2587429C2 (ru) | 2013-12-05 | 2016-06-20 | Закрытое акционерное общество "Лаборатория Касперского" | Система и способ оценки надежности правила категоризации |
CN110546631A (zh) * | 2017-04-25 | 2019-12-06 | 三菱电机株式会社 | 检索装置、检索系统、检索方法和检索程序 |
US10698936B2 (en) | 2017-12-19 | 2020-06-30 | Hireteammate, Inc. | Generating and using multiple representations of data objects in computing systems and environments |
CN110209663B (zh) * | 2018-02-14 | 2023-06-20 | 阿里巴巴集团控股有限公司 | 搜索范围确定的方法、装置和存储介质 |
CN112988750A (zh) * | 2018-03-14 | 2021-06-18 | 北京忆芯科技有限公司 | 基于结构化信息的kv存储的键与值的生成方法及装置 |
CN111581349A (zh) * | 2020-04-30 | 2020-08-25 | 沃杰(北京)科技有限公司 | 专利文献的语义检索方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07271798A (ja) * | 1994-03-30 | 1995-10-20 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索手法評価方法及びその装置 |
JPH10320403A (ja) * | 1997-05-14 | 1998-12-04 | N T T Data:Kk | 検索式作成方法、検索式作成装置、及び記録媒体 |
JP2000293529A (ja) * | 1999-04-02 | 2000-10-20 | Mitsubishi Gas Chem Co Inc | 情報の機械的検索法およびその装置 |
JP2002108900A (ja) * | 2000-09-29 | 2002-04-12 | Ricoh Co Ltd | 文書集合間分析装置、文書集合間分析方法及び文書集合間分析プログラムを記録した記録媒体 |
JP2002183194A (ja) * | 2000-12-15 | 2002-06-28 | Ricoh Co Ltd | 検索式生成装置およびその方法 |
JP2010086332A (ja) * | 2008-09-30 | 2010-04-15 | Canon Inc | 検索方法及び検索装置 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3614618B2 (ja) | 1996-07-05 | 2005-01-26 | 株式会社日立製作所 | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
US6457004B1 (en) * | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
AU7339700A (en) * | 1999-11-16 | 2001-05-30 | Searchcraft Corporation | Method for searching from a plurality of data sources |
SE0101127D0 (sv) * | 2001-03-30 | 2001-03-30 | Hapax Information Systems Ab | Method of finding answers to questions |
WO2003019320A2 (en) * | 2001-08-27 | 2003-03-06 | E-Base, Ltd. | Method for defining and optimizing criteria used to detect a contextualy specific concept within a paragraph |
US20040024756A1 (en) * | 2002-08-05 | 2004-02-05 | John Terrell Rickard | Search engine for non-textual data |
US20050086209A1 (en) * | 2003-10-16 | 2005-04-21 | Peilin Chou | Conceptual article collector |
US8024329B1 (en) * | 2006-06-01 | 2011-09-20 | Monster Worldwide, Inc. | Using inverted indexes for contextual personalized information retrieval |
US8150827B2 (en) * | 2006-06-07 | 2012-04-03 | Renew Data Corp. | Methods for enhancing efficiency and cost effectiveness of first pass review of documents |
US20100198802A1 (en) * | 2006-06-07 | 2010-08-05 | Renew Data Corp. | System and method for optimizing search objects submitted to a data resource |
US20080189273A1 (en) * | 2006-06-07 | 2008-08-07 | Digital Mandate, Llc | System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data |
JP4972358B2 (ja) * | 2006-07-19 | 2012-07-11 | 株式会社リコー | 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。 |
JP2008165303A (ja) * | 2006-12-27 | 2008-07-17 | Fujifilm Corp | コンテンツ登録装置、及びコンテンツ登録方法、及びコンテンツ登録プログラム |
US7836060B1 (en) * | 2007-04-13 | 2010-11-16 | Monster Worldwide, Inc. | Multi-way nested searching |
JP5295605B2 (ja) * | 2008-03-27 | 2013-09-18 | 株式会社東芝 | 検索キーワード改良装置、サーバ装置、および方法 |
JP5155001B2 (ja) * | 2008-04-01 | 2013-02-27 | 株式会社日立製作所 | 文書検索装置 |
JP5340751B2 (ja) * | 2008-04-22 | 2013-11-13 | 株式会社エヌ・ティ・ティ・ドコモ | 文書処理装置および文書処理方法 |
US7930306B2 (en) * | 2008-04-30 | 2011-04-19 | Msc Intellectual Properties B.V. | System and method for near and exact de-duplication of documents |
US7882143B2 (en) * | 2008-08-15 | 2011-02-01 | Athena Ann Smyros | Systems and methods for indexing information for a search engine |
CN101887436B (zh) * | 2009-05-12 | 2013-08-21 | 阿里巴巴集团控股有限公司 | 一种检索方法和装置 |
CN102473180B (zh) * | 2009-07-30 | 2015-06-10 | 株式会社东芝 | 接收装置 |
CN102023995B (zh) * | 2009-09-22 | 2013-01-30 | 株式会社理光 | 语音检索设备和语音检索方法 |
US20110113357A1 (en) * | 2009-11-12 | 2011-05-12 | International Business Machines Corporation | Manipulating results of a media archive search |
US20110145269A1 (en) * | 2009-12-09 | 2011-06-16 | Renew Data Corp. | System and method for quickly determining a subset of irrelevant data from large data content |
-
2011
- 2011-01-28 JP JP2011016661A patent/JP5552448B2/ja active Active
- 2011-08-22 CN CN201110240983.2A patent/CN102622389B/zh not_active Expired - Fee Related
- 2011-09-07 US US13/226,935 patent/US8566351B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07271798A (ja) * | 1994-03-30 | 1995-10-20 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索手法評価方法及びその装置 |
JPH10320403A (ja) * | 1997-05-14 | 1998-12-04 | N T T Data:Kk | 検索式作成方法、検索式作成装置、及び記録媒体 |
JP2000293529A (ja) * | 1999-04-02 | 2000-10-20 | Mitsubishi Gas Chem Co Inc | 情報の機械的検索法およびその装置 |
JP2002108900A (ja) * | 2000-09-29 | 2002-04-12 | Ricoh Co Ltd | 文書集合間分析装置、文書集合間分析方法及び文書集合間分析プログラムを記録した記録媒体 |
JP2002183194A (ja) * | 2000-12-15 | 2002-06-28 | Ricoh Co Ltd | 検索式生成装置およびその方法 |
JP2010086332A (ja) * | 2008-09-30 | 2010-04-15 | Canon Inc | 検索方法及び検索装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015001770A (ja) * | 2013-06-13 | 2015-01-05 | 株式会社日立製作所 | クエリ処理システム、及び、クエリ処理方法 |
JP2015090618A (ja) * | 2013-11-06 | 2015-05-11 | 富士通株式会社 | キーワード生成方法、プログラム及び情報処理装置 |
JP2021072009A (ja) * | 2019-11-01 | 2021-05-06 | 株式会社日立製作所 | 文書検索支援装置、文書検索支援方法及び文書検索支援プログラム |
JP7369594B2 (ja) | 2019-11-01 | 2023-10-26 | 株式会社日立製作所 | 文書検索支援装置、文書検索支援方法及び文書検索支援プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN102622389B (zh) | 2015-11-25 |
US8566351B2 (en) | 2013-10-22 |
JP5552448B2 (ja) | 2014-07-16 |
US20120197940A1 (en) | 2012-08-02 |
CN102622389A (zh) | 2012-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5552448B2 (ja) | 検索式生成装置、検索システム、検索式生成方法 | |
KR101793222B1 (ko) | 어플리케이션 검색들을 가능하게 하기 위해 사용되는 검색 인덱스의 업데이트 | |
US9495460B2 (en) | Merging search results | |
US8086631B2 (en) | Search result diversification | |
JP2020500371A (ja) | 意味的検索のための装置および方法 | |
KR20140128443A (ko) | 관련 엔티티들 | |
BRPI1007939B1 (pt) | Métodos de identificação de aspectos de consulta | |
KR101220557B1 (ko) | 사람의 활동 지식 데이터베이스를 이용한 모바일 어플리케이션 검색 방법 및 시스템 | |
CN106095738B (zh) | 推荐表单片段 | |
US8997008B2 (en) | System and method for searching through a graphic user interface | |
Jiang et al. | Towards intelligent geospatial data discovery: a machine learning framework for search ranking | |
US11762899B1 (en) | Lightness filter | |
JP2002215659A (ja) | 情報検索支援方法および情報検索支援システム | |
US11669536B2 (en) | Information providing device | |
JP2013105213A (ja) | 情報推薦装置及び方法及び装置及びプログラム | |
JPWO2017043424A1 (ja) | 音象徴語・物理特徴情報提供装置、音象徴語・物理特徴情報提供方法および音象徴語・物理特徴情報提供プログラム | |
JP2010186214A (ja) | 検索装置 | |
WO2016088212A1 (ja) | データ収集装置、及びデータ収集方法 | |
CN110413763A (zh) | 搜索排序器的自动选择 | |
WO2008032037A1 (en) | Method and system for filtering and searching data using word frequencies | |
JP5518665B2 (ja) | 特許検索装置、特許検索方法、およびプログラム | |
JP2004259083A (ja) | 情報検索方法、情報検索サーバ、及び情報検索プログラム | |
JP6985181B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US9116996B1 (en) | Reverse question answering | |
JP2011170666A (ja) | 検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131210 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140204 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140513 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140526 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5552448 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |