JP2010033197A - 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム - Google Patents

公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム Download PDF

Info

Publication number
JP2010033197A
JP2010033197A JP2008192799A JP2008192799A JP2010033197A JP 2010033197 A JP2010033197 A JP 2010033197A JP 2008192799 A JP2008192799 A JP 2008192799A JP 2008192799 A JP2008192799 A JP 2008192799A JP 2010033197 A JP2010033197 A JP 2010033197A
Authority
JP
Japan
Prior art keywords
search
sub
input
keywords
combinations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008192799A
Other languages
English (en)
Other versions
JP5116593B2 (ja
Inventor
Yoshitaka Adachi
宜隆 安達
Maya Kawanaka
真耶 川中
Shingo Kato
真吾 加藤
Raymond Rudy
レイモンド ルディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2008192799A priority Critical patent/JP5116593B2/ja
Priority to US12/506,109 priority patent/US9195744B2/en
Publication of JP2010033197A publication Critical patent/JP2010033197A/ja
Application granted granted Critical
Publication of JP5116593B2 publication Critical patent/JP5116593B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24535Query rewriting; Transformation of sub-queries or views
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】秘密情報が推測されることなく、必要な情報を効率的に取得できる検索装置、検索方法及び検索プログラムを提供する。
【解決手段】検索装置は公開された複数の検索エンジンを用いて検索を行う。検索装置は、複数のキーワードを含むメインクエリの入力を受け付け(S1)、禁止すべきキーワードの組合せの入力を受け付け(S2)、メインクエリに含まれるキーワードを組み合わせ、検索エンジンと同数のサブクエリを生成する(S3)。各サブクエリは1又は2以上のキーワードを含む。検索装置はさらに、複数のサブクエリを別々に複数の検索エンジンに送信し(S4)、複数のサブクエリに応答して複数の検索エンジンから返信されて来た各検索結果をメインクエリでフィルタリングし、無関係なヒットページを各検索結果から除外する(S5)。そして、得られた複数の個別検索結果を統合し(S6)、その統合検索結果をディスプレイに表示する(S7)。
【選択図】図2

Description

本発明は、検索技術に関し、さらに詳しくは、公開された検索エンジンを用いて検索を行う検索装置、検索方法及び検索プログラムに関する。
現在、インターネット上には、ウェブページを検索するための各種検索エンジンが公開され、誰でも利用可能である。しかしながら、公開された検索エンジンを用いて秘密情報(特許情報、新製品の開発情報、ノウハウ、個人情報など)を検索すると、その検索クエリに含まれるキーワードから秘密情報を推測されるおそれがある。
このような問題を解決するために、特開平11−259512号公報(特許文献1)は、データ検索装置に入力される検索条件の全て又は一部を機密情報としてデータ検索装置に隠蔽又は不鮮明にして検索を行い、その検索結果をデータ検索装置で絞り込むデータ検索システムを開示する。検索条件を隠蔽又は不鮮明にするために、このシステムは、入力された全ての検索条件から予め登録された隠蔽すべき検索条件を削除し、入力された検索条件を類似語若しくは上位概念語に置き換え、入力された検索条件に余分な検索条件を付加し、又は入力された検索条件を複数の検索言語に分割する。
しかしながら、このシステムは検索条件を上記のように改変しているため、必要な情報をわずかしか取得できなかったり、不必要な情報を多数取得してしまったりするという問題がある。
特開2002−297606号公報(特許文献2)は、ユーザが機密にしたい検索条件を隠蔽したまま、情報提供サービスを利用できるデータベースアクセスシステムを開示する。クライアント計算機は、検索条件に含まれる秘匿すべきデータ項目を暗号化した暗号化問合せをサーバ計算機に送信し、サーバ計算機は、暗号化された検索条件を復号化することなく、検索対象となるデータを上記秘匿データ項目と同様に暗号化しながら、暗号化データマッチングによってデータ検索する。
しかしながら、このシステムは暗号化により検索条件の組合せ方法(AND、OR、NOTなど)を秘密にしているに過ぎない。また、暗号化及びそのデータマッチングにかかる処理負荷が大きくなるという問題がある。
上記のほか、次のような検索方法が提案されている。
「Private Information Retrieval (PIR)」
サーバがNビットのデータを所有し、クライアントがNビットの内の1ビットをサーバに知らせることなく取得する問題があるが、この問題の単純な解決方法はサーバが全Nビットをクライアントに送ることである。しかし、複数のサーバの存在や計算複雑性の仮定の下で全ビットを送ることなく解決できるという研究結果は90年代からすでにある。これらは数学的な基礎理論であり、実用にはいたっていない(http://www.cs.umd.edu/~gasarch/papers/pirsurvey.pdf(非特許文献1)参照)。
「Oblivious Transfer (OT)」
PIRの場合、クライアントは自分が欲しがる情報以外の情報を得られるかもしれないが、OTの設定ではPIRを満たすほかに、クライアントは自分の欲しがるデータ以外の情報が得られないようなプロトコルを設計する。また、OTの場合、通信量の制限がない。OTは非特許文献1に登場するSymmetric PIRと同じである。これらも理論であり、実装例はほとんどない。
「New techniques for private stream searching」
この手法では、ユーザの公開鍵でクエリをサーバ側で暗号化し、同時にインデックスも暗号化することで、サーバ側に情報を公開せずに、検索結果を得ることができる。しかし、この手法では、サーバ側の実装が必要になるため、通常利用されている検索サーバを活用することができない(http://acsc.csl.sri.com/privss/(非特許文献2))参照)。
特開平11−259512号公報 特開2002−297606号公報 http://www.cs.umd.edu/~gasarch/papers/pirsurvey.pdf http://acsc.csl.sri.com/privss/
本発明の目的は、秘密情報が推測されることなく、必要な情報を効率的に取得することができる、公開された検索エンジンを用いて検索を行う検索装置、検索方法及び検索プログラムを提供することである。
課題を解決するための手段及び発明の効果
本発明による検索装置は、複数のキーワードを含むメインクエリの入力を受け付けるメインクエリ入力手段と、入力手段で入力されたメインクエリに含まれるキーワードを組み合わせ、各々が1又は2以上のキーワードを含む複数のサブクエリを生成するサブクエリ生成手段と、サブクエリ生成手段で生成された複数のサブクエリを別々に検索エンジンに送信する検索要求手段と、検索要求手段からの複数のサブクエリに応答して検索エンジンから返信されて来た複数の検索結果を入力手段で入力されたメインクエリで再検索する再検索手段と、再検索手段による検索結果を表示する検索結果表示手段とを備える。
本発明によれば、メインクエリに含まれるキーワードを組み合わせて複数のサブクエリを生成し、これらを別々に検索エンジンに送信しているため、メインクエリから秘密情報が推測されることなく、必要な情報を効率的に取得することができる。
好ましくは、サブクエリ生成手段は、各々が1又は2以上のキーワードを含む複数の組合せを生成するキーワード組合せ手段と、キーワード組合せ手段で生成された複数の組合せのうち秘密情報が推測され易い組合せをサブクエリから除外するサブクエリ除外手段とを含む。
好ましくは、サブクエリ除外手段は、禁止すべきキーワードの組合せの入力を受け付ける手段と、入力された組合せを除外する手段とを含む。
好ましくは、サブクエリ除外手段は、あらかじめ指定された組合せを除外する手段を含む。
好ましくは、サブクエリ除外手段は、未知のキーワードを含む組合せを除外する手段を含む。
好ましくは、サブクエリ除外手段は、キーワード組合せ手段で生成された各組合せに含まれるキーワードの共起確率を取得する手段と、取得された共起確率が所定の値よりも低い組合せを除外する手段とを含む。
好ましくは、検索エンジンは複数ある。サブクエリ生成手段はさらに、サブクエリ除外手段で残された組合せのうち取得された共起確率が低い方から順に検索エンジンと同数の組合せをサブクエリとして選択する手段を含む。
好ましくは、サブクエリの数は検索エンジンの数と同じである。検索要求手段は、複数のサブクエリの各々を対応する検索エンジンに送信する。
好ましくは、再検索手段は、複数の検索エンジンから返信されて来た複数の検索結果の各々から無関係なヒットデータを除外するフィルタリング手段と、フィルタリング手段により無関係なヒットデータが除外された複数の検索結果を統合する統合手段とを含む。
本発明は、上述のような検索装置で実行される検索方法及び検索プログラムも提供する。
以下、図面を参照し、本発明の実施の形態を詳しく説明する。図中同一又は相当部分には同一符号を付してその説明は繰り返さない。
図1を参照して、本発明の実施の形態による検索装置10は、CPU(中央演算処理装置)11と、メモリ12と、ハードディスク13と、通信装置14と、入力装置15と、ディスプレイ16とを備える。通信装置14は、検索装置10をインターネット20に接続し、各種要求を検索エンジン21〜23に送信し、かつ、検索エンジン21〜23からの各種応答を受信する。入力装置15は、キーボード、マウスなどである。検索装置10は、後述する検索プログラムをパーソナルコンピュータ(PC)にインストールすることにより構築される。検索プログラムは、CD−ROM等の記憶媒体に固定されて提供されるか、又はサーバからインターネット20経由でダウンロードされる。
各種事業者は、インターネット20に接続されたWWW(World Wide Web)サーバ上に検索エンジン21〜23を構築し、ウェブサイトの検索サービスを無料又は有料で公衆に提供している。検索エンジン21〜23は、インターネット20に接続された不特定多数のクライアントからの検索要求(クエリ)に応答して検索結果を返信する。検索装置10もクライアントの1つとして、このような公開された検索エンジン21〜23を用いて検索を行う。
以下、検索装置10の動作を説明する。CPU11は、図2に示した検索プログラムを実行する。
図2を参照して、検索装置10は、複数のキーワードを含むメインクエリの入力を受け付ける(S1)。具体的には、図3に示した画面30がディスプレイ16に表示される。この画面上において、ユーザは入力装置15を操作し、検索しようとする情報に関連する複数のキーワードを所定欄31にメインクエリとして入力する。
続いて、検索装置10は、禁止すべきキーワードの組合せの入力を受け付ける(S2)。具体的には、図3に示した画面30上において、ユーザは入力装置15を操作し、秘密情報が推測され易いキーワードの組合せ(以下、「ユーザ禁止組合せ」という。)を所定欄32に入力する。所望のユーザ禁止組合せを入力し、追加ボタン33をクリックすると、入力されたユーザ禁止組合せはリストに追加され、メモリ12又はハードディスク13に保存される。ユーザ禁止組合せのリストは、図3に示した画面30上の所定欄34に表示される。リストの中から削除しようとするユーザ禁止組合せを選択し、削除ボタン35をクリックすると、選択されたユーザ禁止組合せがリストから削除される。
続いて、検索装置10は、ステップS1で入力されたメインクエリに含まれるキーワードを組み合わせ、検索エンジンと同数(本例では3つ)のサブクエリを生成する(S3)。サブクエリの各々は、1又は2以上のキーワードを含む。詳細は後述する。
図3に示した画面30上の検索ボタン36をクリックすると、検索装置10は、ステップS3で生成された複数のサブクエリをそれぞれ複数の検索エンジン21〜23に送信することにより検索エンジン21〜23に検索を要求する(S4)。
続いて、検索装置10は、複数のサブクエリに応答して複数の検索エンジン21〜23からそれぞれ返信されて来た複数の検索結果をメモリ12又はハードディスク13に一時的に保存する。検索結果の各々は、ヒットした1又は2以上のウェブページを特定するために必要なデータ(具体的には、ウェブページのURL(Uniform Resource Locator)、タイトル、抽出された本文の一部などであり、以下、「ヒットページ」という。)を含む。そして、保存された複数の検索結果をステップS1で入力されたメインクエリで再検索する(S5,S6)。具体的には、各検索結果をメインクエリで再検索(フィルタリング)し、メインクエリをそのまま検索エンジン21〜23に送信していたならヒットしないであろう無関係なヒットページを各検索結果から除外する(S5)。そして、無関係なヒットページが除外された複数の検索結果を統合する(S6)。詳細は後述する。
最後に、検索装置10は、ステップS5及びS6による再検索結果をディスプレイ16に表示する(S6)。
次に図4を参照し、ステップS3のサブクエリ生成のサブルーチンを説明する。
まず、キーワードの数学的組合せを全て生成する(S31)。各組合せは、1又は2以上のキーワードを含む。ステップS1で入力されたキーワードの数をNとすると、2−1通りの組合せが生成される。
続いて、ステップS31で生成されたキーワードの各組合せを、ステップS2で入力されたユーザ禁止組合せとそれぞれ比較する(S32)。ユーザ禁止組合せの場合(S32でYES)、その組合せを除外する(S33)。
また、ステップS31で生成されたキーワードの各組合せを、デフォルト禁止組合せとそれぞれ比較する(S34)。デフォルト禁止組合せは、秘密情報が推測され易いキーワードの組合せとして、管理者によってあらかじめ指定される。デフォルト禁止組合せの場合(S34でYES)、当該組合せを除外する(S33)。
また、ステップS31で生成された各組合せの中に辞書に載っていない未知のキーワードがないか判断する(S35)。未知のキーワードがある場合(S35でYES)、未知のキーワードから秘密情報が推測され易いので、未知のキーワードを含む組合せを除外する(S33)。
続いて、ステップS31で生成された各組合せに含まれるキーワードの共起確率を計算する(S26)。共起確率は、2以上のキーワードが同一文書又はウェブサイト中で使用される割合を表す。共起確率が高いほど一般性が高く、キーワードの組合せから秘密情報が推測される可能性は低い。逆に、共起確率が低いほど一般性が低く、キーワードの組合せから秘密情報が推測される可能性は高い。共起確率は、たとえば膨大な文書をテキスト形式で保存したコーパスを参照することにより算出することができる。
全ての組合せについて上記ステップS32〜S36の処理を終えると(S37でYES)、ステップS36で算出された共起確率が高い方から順にキーワードの組合せをソートする(S38)。ソートの結果を図5に示す。そして、共起確率が所定のしきい値(本例では0.25)以下のキーワードの組合せを除外する(S39)。
なお、しきい値の代わりに、除外すべきキーワードの組合せ数を設定してもよい。たとえば、この組合せ数として「2」を設定した場合、共起確率の低い2つの組合せを除外する。また、共起確率として検索エンジンによる検索結果数を用いてもよい。検索結果数が少ないことは、特定の2以上のキーワードが一緒に出現する文書が少なく、共起確率が低いことを意味する。逆に、検索結果数が多いことは、特定の2以上のキーワードが一緒に出現する文書が多く、共起確率が高いことを意味する。また、検索エンジンに与えられる検索クエリの履歴を参照し、一緒に用いられるキーワードの組合せの頻度を共起確率として用いてもよい。
上記除外の結果、残された組合せのうち共起確率が低い方から順にn個(検索エンジンと同数で、本例ではn=3)の組合せをサブクエリとして選択する(S40)。
図5に示した例では、「複数」、「サーバ」及び「問い合わせ」の組合せがユーザ禁止組合せとして除外され、「検索」、「クエリ」、「複数」及び「問い合わせ」の組合せと、「検索」、「秘密」、「サーバ」及び「問い合わせ」の組合せとが0.25以下の共起確率として除外される。そして、残された組合せのうち共起確率が低い3つの組合せ(図5中の○印)がサブクエリとして選択される。
次に図6を参照し、ステップS6の検索結果統合のサブルーチンを説明する。
複数の検索エンジン21〜23から得られ、無関係なヒットページを含まない複数の検索結果(以下、「個別検索結果」という。)の例を図7に示す。個別検索結果41〜43の各々は、1又は2以上のヒットページ及びその順位(ランキング)を含む。検索エンジン21〜23は一般に、独自の規則に従って、与えられたクエリと関連性の高いウェブページほど高い順位を付ける。
個別検索結果41〜43を統合して1つの検索結果(以下、「統合検索結果」という。)を生成するに際しては、次の規則を適用する。すなわち、原則として、個別検索結果41〜43の順位でヒットページをソートする。ただし、同一ヒットページが2以上の個別検索結果に含まれる場合は、それらの中の最高順位を優先する。それでも同一順位の場合は、以下の規則を順に適用する。
(1)検索エンジン21〜23の中から優先するものをあらかじめ指定しておき、優先検索エンジンで得られた個別検索結果の順位を優先する。
(2)同一ヒットページを含む個別検索結果の数が多い方の順位を優先する。
(3)ヒットページの数が多い方の個別検索結果の順位を優先する。
図6を参照して、個別検索結果41〜43を順に1つずつ選択し(S61)、さらに選択された個別検索結果中のヒットページを順に1つずつ選択する(S62)。
続いて、選択されたヒットページが、選択されていない他の個別検索結果中にも含まれているか否かを判断する(S63)。当該ヒットページが他の個別検索結果中にも含まれている場合(S63でYES)、当該ヒットページを含む2以上の個別検索結果の中で最も高い順位を仮順位に設定する(S64)。一方、当該ヒットページが他の個別検索結果中には含まれていない場合(S63でNO)、選択された個別検索結果中で選択されたヒットページの順位を仮順位に設定する(S65)。
全てのヒットページについて上記ステップS62〜S65の処理を繰り返し(S66でNO)、さらに全ての個別検索結果について上記ステップS61〜S66の処理を繰り返す(S67でNO)。一方、全ての個別検索結果について上記処理を終えると(S67でYES)、設定された仮順位でヒットページをソートする(S68)。
ヒットページのソート後、ヒットページを順に1つずつ選択する(S69)。選択されたヒットページと同じ仮順位のヒットページが他にあるか判断する(S70)。同じ仮順位のヒットページが複数ある場合(S70でYES)、上記規則(1)〜(3)を適用する。
具体的には、優先検索エンジンがあらかじめ指定されている場合において(S71でYES)、選択されたヒットページがその優先検索エンジンで得られたものであるときは(S72でYES)、当該ヒットページの順位を当該他のヒットページの順位よりも高くする(S73)。
一方、優先検索エンジンがあらかじめ指定されていない場合(S71でNO)、又は選択されたヒットページが優先検索エンジンで得られたものでない場合(S72でNO)、選択されたヒットページを含む個別検索結果の数を、そのヒットページと同じ仮順位のヒットページを含む個別検索結果の数と比較し、その数が多い場合(S74でYES)、当該ヒットページの順位を当該他のヒットページの順位よりも高くする(S73)。
一方、その個別検索結果の数が少ない場合(S74でNO)、選択されたヒットページを含む個別検索結果の全ヒットページの数を、そのヒットページと同じ仮順位のヒットページを含む個別検索結果の全ヒットページの数と比較し、その数が多い場合(S75でYES)、当該ヒットページの順位を当該他のヒットページの順位よりも高くする(S73)。
全てのヒットページについて上記ステップS69〜S75の処理を繰り返す(S76でNO)。以上の結果、1つの統合検索結果が生成される。
優先検索エンジンが指定されていない場合において、図7に示した個別検索結果41〜43を統合し、その結果、生成された統合検索結果の例を図8に示す。この例では、「AAAA」は2つの検索エンジン21,22で上位であるから、上記規則(2)により「AAAA」は「JJJJ」よりも上位になっている。また、「BBBB」の個別検索結果41〜43における仮順位は順に「2位」、「3位」、「3位」であり、「CCCC」の個別検索結果41〜43における仮順位は順に「3位」、「2位」、「なし」であるから、上記規則(2)により「BBBB」は「CCCC」よりも上位になっている。また、「GGGG」を含む個別検索結果42のヒット数は「5件」であり、「IIII」を含む個別検索結果43のヒット数は「4件」であるから、上記規則(3)により「GGGG」は「IIII」よりも上位になっている。
上記検索結果統合の方法に代えて、図9に示した方法を用いてもよい。この方法では、選択されたヒットページに対し、次の式(1)により得点を計算して付与する(S81)。ただし、2以上の個別検索結果に含まれるヒットページについては、全ての得点を合計する。
得点=所定値(たとえば200)−当該ヒットページの順位 …(1)
そして、付与された得点でヒットページをソートする(S82)。
また、上記方法に代えて、メタサーチの分野で使用されている方法(たとえば「Cynthia Dwork, Ravi Kumar, Moni Naor and D. Sivakumar, "Rank aggregation methods for the Web", Proceedings of the 10th international conference on World Wide Web, p613-622, 2001」参照)を用いてもよい。
本発明によれば、メインクエリに含まれるキーワードを組み合わせて複数のサブクエリを生成し、これらを別々に複数の検索エンジンに送信しているため、メインクエリから秘密情報が推測されることなく、必要な情報を効率的に取得することができる。
上記実施の形態は3つの検索エンジンを用いているが、検索エンジンの数は特に限定されない。たとえば1つの検索エンジンだけを用い、複数のサブクエリを別々にその同じ検索エンジンに送信するようにしてもよい。
以上、本発明の実施の形態を説明したが、上述した実施の形態は本発明を実施するための例示に過ぎない。よって、本発明は上述した実施の形態に限定されることなく、その趣旨を逸脱しない範囲内で上述した実施の形態を適宜変形して実施することが可能である。
本発明の実施の形態による検索装置の構成を示す機能ブロック図である。 図1に示した検索装置内の検索プログラムを示すフロー図である。 図2中のメインクエリ及びユーザ禁止組合せの入力画面を示す図である。 図2中のサブクエリ生成のサブルーチンを示すフロー図である。 図4中で共起確率の順にソートされた組合せのリストである。 図2中の検索結果統合のサブルーチンを示すフロー図である。 図1中の複数の検索エンジンから得られる複数の個別検索結果の例を示す図である。 図2中の検索結果統合で生成される統合検索結果の例を示す図である。 図2中の検索結果統合の別のサブルーチンを示すフロー図である。
符号の説明
10 検索装置
15 入力装置
16 ディスプレイ
20 インターネット
21〜23 検索エンジン
41〜43 個別検索結果

Claims (12)

  1. 公開された検索エンジンを用いて検索を行う検索装置であって、
    複数のキーワードを含むメインクエリの入力を受け付けるメインクエリ入力手段と、
    前記入力手段で入力されたメインクエリに含まれるキーワードを組み合わせ、各々が1又は2以上のキーワードを含む複数のサブクエリを生成するサブクエリ生成手段と、
    前記サブクエリ生成手段で生成された複数のサブクエリを別々に前記検索エンジンに送信する検索要求手段と、
    前記検索要求手段からの複数のサブクエリに応答して前記検索エンジンから返信されて来た複数の検索結果を前記入力手段で入力されたメインクエリで再検索する再検索手段と、
    前記再検索手段による検索結果を表示する検索結果表示手段とを備える、ことを特徴とする検索装置。
  2. 請求項1に記載の検索装置であって、
    前記サブクエリ生成手段は、
    各々が1又は2以上のキーワードを含む複数の組合せを生成するキーワード組合せ手段と、
    前記キーワード組合せ手段で生成された複数の組合せのうち秘密情報が推測され易い組合せを前記サブクエリから除外するサブクエリ除外手段とを含む、ことを特徴とする検索装置。
  3. 請求項2に記載の検索装置であって、
    前記サブクエリ除外手段は、
    禁止すべきキーワードの組合せの入力を受け付ける手段と、
    前記入力された組合せを除外する手段とを含む、ことを特徴とする検索装置。
  4. 請求項2に記載の検索装置であって、
    前記サブクエリ除外手段は、
    あらかじめ指定された組合せを除外する手段を含む、ことを特徴とする検索装置。
  5. 請求項2に記載の検索装置であって、
    前記サブクエリ除外手段は、
    未知のキーワードを含む組合せを除外する手段を含む、ことを特徴とする検索装置。
  6. 請求項2に記載の検索装置であって、
    前記サブクエリ除外手段は、
    前記キーワード組合せ手段で生成された各組合せに含まれるキーワードの共起確率を取得する手段と、
    前記取得された共起確率が所定の値よりも低い組合せを除外する手段とを含む、ことを特徴とする検索装置。
  7. 請求項6に記載の検索装置であって、
    前記検索エンジンは複数あり、
    前記サブクエリ生成手段はさらに、
    前記サブクエリ除外手段で残された組合せのうち前記取得された共起確率が低い方から順に前記検索エンジンと同数の組合せをサブクエリとして選択する手段を含む、ことを特徴とする検索装置。
  8. 請求項1に記載の検索装置であって、
    前記検索エンジンは複数あり、前記サブクエリの数は前記検索エンジンの数と同じであり、
    前記検索要求手段は、前記複数のサブクエリの各々を対応する検索エンジンに送信する、ことを特徴とする検索装置。
  9. 請求項8に記載の検索装置であって、
    前記再検索手段は、
    前記複数の検索エンジンから返信されて来た複数の検索結果の各々から無関係なヒットデータを除外するフィルタリング手段と、
    前記フィルタリング手段により無関係なヒットデータが除外された複数の検索結果を統合する統合手段とを含む、ことを特徴とする検索装置。
  10. 公開された検索エンジンを用いて検索を行う検索方法であって、
    複数のキーワードを含むメインクエリの入力を受け付けるステップと、
    前記入力されたメインクエリに含まれるキーワードを組み合わせ、各々が1又は2以上のキーワードを含む複数のサブクエリを生成するステップと、
    前記生成された複数のサブクエリを別々に前記検索エンジンに送信するステップと、
    前記複数のサブクエリに応答して前記検索エンジンから返信されて来た複数の検索結果を前記入力されたメインクエリで再検索するステップと、
    前記再検索による検索結果を表示するステップとを含む、ことを特徴とする検索方法。
  11. 請求項10に記載の各ステップをコンピュータに実行させるための検索プログラム。
  12. 公開された検索エンジンを用いて検索を行う検索装置であって、
    複数のキーワードを含むメインクエリの入力を受け付けるメインクエリ入力手段と、
    前記入力手段で入力されたメインクエリに含まれるキーワードを組み合わせ、各々が1又は2以上のキーワードを含む複数のサブクエリを生成するサブクエリ生成手段と、
    前記サブクエリ生成手段で生成された複数のサブクエリを別々に前記検索エンジンに送信する検索要求手段と、
    前記検索要求手段からの複数のサブクエリに応答して前記検索エンジンから返信されて来た複数の検索結果を前記入力手段で入力されたメインクエリで再検索する再検索手段と、
    前記再検索手段による検索結果を表示する検索結果表示手段とを備え、
    前記サブクエリ生成手段は、
    各々が1又は2以上のキーワードを含む複数の組合せを生成するキーワード組合せ手段と、
    前記キーワード組合せ手段で生成された複数の組合せのうち秘密情報が推測され易い組合せを前記サブクエリから除外するサブクエリ除外手段とを含み、
    前記サブクエリ除外手段は、
    禁止すべきキーワードの組合せの入力を受け付ける手段と、
    前記入力された組合せを除外する手段と、
    あらかじめ指定された組合せを除外する手段と、
    未知のキーワードを含む組合せを除外する手段と、
    前記キーワード組合せ手段で生成された各組合せに含まれるキーワードの共起確率を取得する手段と、
    前記取得された共起確率が所定の値よりも低い組合せを除外する手段とを含み、
    前記検索エンジンは複数あり、前記サブクエリの数は前記検索エンジンの数と同じであり、
    前記サブクエリ生成手段はさらに、
    前記サブクエリ除外手段で残された組合せのうち前記取得された共起確率が低い方から順に前記検索エンジンと同数の組合せをサブクエリとして選択する手段を含み、
    前記検索要求手段は、前記複数のサブクエリの各々を対応する検索エンジンに送信し、
    前記再検索手段は、
    前記複数の検索エンジンから返信されて来た複数の検索結果の各々から無関係なヒットデータを除外するフィルタリング手段と、
    前記フィルタリング手段により無関係なヒットデータが除外された複数の検索結果を統合する統合手段とを含む、ことを特徴とする検索装置。
JP2008192799A 2008-07-25 2008-07-25 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム Active JP5116593B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008192799A JP5116593B2 (ja) 2008-07-25 2008-07-25 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
US12/506,109 US9195744B2 (en) 2008-07-25 2009-07-20 Protecting information in search queries

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008192799A JP5116593B2 (ja) 2008-07-25 2008-07-25 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム

Publications (2)

Publication Number Publication Date
JP2010033197A true JP2010033197A (ja) 2010-02-12
JP5116593B2 JP5116593B2 (ja) 2013-01-09

Family

ID=41569545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008192799A Active JP5116593B2 (ja) 2008-07-25 2008-07-25 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム

Country Status (2)

Country Link
US (1) US9195744B2 (ja)
JP (1) JP5116593B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013118592A1 (ja) * 2012-02-08 2013-08-15 株式会社エヌ・ティ・ティ・ドコモ 情報検索装置および情報検索方法
JP2013196311A (ja) * 2012-03-19 2013-09-30 Fuji Xerox Co Ltd 文書管理装置及びプログラム
JP2013200862A (ja) * 2012-03-23 2013-10-03 Nec (China) Co Ltd クエリ結果を多様化するための方法および装置
WO2016207996A1 (ja) * 2015-06-24 2016-12-29 三菱電機株式会社 表示制御装置および表示制御方法
US10078686B2 (en) 2015-06-30 2018-09-18 Yandex Europe Ag Combination filter for search query suggestions
JP2021068325A (ja) * 2019-10-25 2021-04-30 ヤフー株式会社 提供装置、提供方法、および提供プログラム

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2336908B1 (en) * 2008-08-26 2014-01-29 International Business Machines Corporation Search device, search method and search program using open search engine
EP2558988A4 (en) 2010-04-14 2016-12-21 The Dun And Bradstreet Corp ASSIGNMENT OF ACTIONABLE ATTRIBUTES TO DATA DESCRIBING A PERSONAL IDENTITY
US8849776B2 (en) * 2011-10-17 2014-09-30 Yahoo! Inc. Method and system for resolving data inconsistency
US9576077B2 (en) * 2012-12-28 2017-02-21 Intel Corporation Generating and displaying media content search results on a computing device
US9721020B2 (en) * 2013-07-31 2017-08-01 International Business Machines Corporation Search query obfuscation via broadened subqueries and recombining
US9118631B1 (en) * 2013-08-16 2015-08-25 Google Inc. Mixing secure and insecure data and operations at server database
CN104572713A (zh) * 2013-10-18 2015-04-29 英业达科技有限公司 文件搜寻保护系统及其方法
US9444797B2 (en) * 2014-07-10 2016-09-13 Empire Technology Development Llc Protection of private data
US9965649B2 (en) * 2015-05-19 2018-05-08 Rujing Tang System and method for protecting internet user data privacy
US10362060B2 (en) * 2015-12-30 2019-07-23 International Business Machines Corporation Curtailing search engines from obtaining and controlling information
US11227113B2 (en) * 2016-01-20 2022-01-18 International Business Machines Corporation Precision batch interaction with a question answering system
US10601784B2 (en) * 2017-11-15 2020-03-24 International Business Machines Corporation Obscuring internet searches from external web service providers
CN108345702A (zh) * 2018-04-10 2018-07-31 北京百度网讯科技有限公司 实体推荐方法和装置
US11544597B2 (en) * 2020-04-30 2023-01-03 International Business Machines Corporation Problem manipulators for language-independent computerized reasoning
GB202107332D0 (en) * 2021-05-21 2021-07-07 Cyan Forensics Ltd Improvements in or relating to data transmission
WO2023106608A1 (ko) * 2021-12-06 2023-06-15 삼성전자 주식회사 개인정보 침해를 방지하기 위한 빅데이터 분석 장치, 동작 방법 및 비-일시적 컴퓨터 판독가능 저장 매체

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07146878A (ja) * 1993-11-25 1995-06-06 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置
JPH09120402A (ja) * 1995-10-24 1997-05-06 Fujitsu Ltd 情報検索方法および情報検索装置
JPH1145274A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11259512A (ja) * 1998-03-12 1999-09-24 Hitachi Ltd データ検索システム
JP2001125923A (ja) * 1999-10-29 2001-05-11 Canon Inc 情報処理装置及びその方法、コンピュータ可読メモリ
JP2002297606A (ja) * 2001-01-26 2002-10-11 Hitachi Ltd 問合せ内容を隠蔽可能なデータベースのアクセス方法およびシステム
JP2002351908A (ja) * 2001-05-15 2002-12-06 Internatl Business Mach Corp <Ibm> データベース検索装置、データベース検索システム、データベース検索方法、プログラム及び記憶媒体
US20030014405A1 (en) * 2001-07-09 2003-01-16 Jacob Shapiro Search engine designed for handling long queries
JP2006313558A (ja) * 1997-03-31 2006-11-16 Microsoft Corp クエリベースの電子式プログラム・ガイド
US20070016574A1 (en) * 2005-07-14 2007-01-18 International Business Machines Corporation Merging of results in distributed information retrieval
JP2007034874A (ja) * 2005-07-29 2007-02-08 Nomura Research Institute Ltd 検索システム及び検索方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5590319A (en) * 1993-12-15 1996-12-31 Information Builders, Inc. Query processor for parallel processing in homogenous and heterogenous databases
US6928428B1 (en) * 2000-11-27 2005-08-09 Microsoft Corporation Distributed confidential contextual querying
JP2004530977A (ja) * 2001-03-30 2004-10-07 ゴールドマン サックス アンド カンパニー 分散データベースに対して協調アクセスを必要とするクエリ処理の方法およびシステム
AUPR796701A0 (en) * 2001-09-27 2001-10-25 Plugged In Communications Pty Ltd Database query system and method
US7437349B2 (en) * 2002-05-10 2008-10-14 International Business Machines Corporation Adaptive probabilistic query expansion
US7103593B2 (en) * 2002-06-14 2006-09-05 Christopher James Dean System and method for retrieving information from disparate information sources in a decentralized manner and integrating the information in accordance with a distributed domain model/ontology
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US20100153107A1 (en) * 2005-09-30 2010-06-17 Nec Corporation Trend evaluation device, its method, and program
US7536383B2 (en) * 2006-08-04 2009-05-19 Apple Inc. Method and apparatus for searching metadata
US8738606B2 (en) * 2007-03-30 2014-05-27 Microsoft Corporation Query generation using environment configuration
US7984043B1 (en) * 2007-07-24 2011-07-19 Amazon Technologies, Inc. System and method for distributed query processing using configuration-independent query plans
EP2338118A4 (en) * 2008-09-08 2013-01-09 Chuan David Ai PRIVATE INFORMATION REQUESTS AND INFORMATION MANAGEMENT

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07146878A (ja) * 1993-11-25 1995-06-06 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置
JPH09120402A (ja) * 1995-10-24 1997-05-06 Fujitsu Ltd 情報検索方法および情報検索装置
JP2006313558A (ja) * 1997-03-31 2006-11-16 Microsoft Corp クエリベースの電子式プログラム・ガイド
JPH1145274A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11259512A (ja) * 1998-03-12 1999-09-24 Hitachi Ltd データ検索システム
JP2001125923A (ja) * 1999-10-29 2001-05-11 Canon Inc 情報処理装置及びその方法、コンピュータ可読メモリ
JP2002297606A (ja) * 2001-01-26 2002-10-11 Hitachi Ltd 問合せ内容を隠蔽可能なデータベースのアクセス方法およびシステム
JP2002351908A (ja) * 2001-05-15 2002-12-06 Internatl Business Mach Corp <Ibm> データベース検索装置、データベース検索システム、データベース検索方法、プログラム及び記憶媒体
US20030014405A1 (en) * 2001-07-09 2003-01-16 Jacob Shapiro Search engine designed for handling long queries
US20070016574A1 (en) * 2005-07-14 2007-01-18 International Business Machines Corporation Merging of results in distributed information retrieval
JP2007034874A (ja) * 2005-07-29 2007-02-08 Nomura Research Institute Ltd 検索システム及び検索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNH200400037003; 塩原立也: 'JBiCバイオDBシステム' FUJITSU 第53巻,第5号, 20020920, p.359-365, 富士通株式会社 *
JPN6012049694; 塩原立也: 'JBiCバイオDBシステム' FUJITSU 第53巻,第5号, 20020920, p.359-365, 富士通株式会社 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013118592A1 (ja) * 2012-02-08 2013-08-15 株式会社エヌ・ティ・ティ・ドコモ 情報検索装置および情報検索方法
JP2013161441A (ja) * 2012-02-08 2013-08-19 Ntt Docomo Inc 情報検索装置および情報検索方法
CN103348348A (zh) * 2012-02-08 2013-10-09 株式会社Ntt都科摩 信息检索装置以及信息检索方法
KR101491549B1 (ko) 2012-02-08 2015-02-09 가부시키가이샤 엔.티.티.도코모 정보 검색 장치 및 정보 검색 방법
JP2013196311A (ja) * 2012-03-19 2013-09-30 Fuji Xerox Co Ltd 文書管理装置及びプログラム
JP2013200862A (ja) * 2012-03-23 2013-10-03 Nec (China) Co Ltd クエリ結果を多様化するための方法および装置
WO2016207996A1 (ja) * 2015-06-24 2016-12-29 三菱電機株式会社 表示制御装置および表示制御方法
JPWO2016207996A1 (ja) * 2015-06-24 2017-11-16 三菱電機株式会社 表示制御装置および表示制御方法
US10078686B2 (en) 2015-06-30 2018-09-18 Yandex Europe Ag Combination filter for search query suggestions
JP2021068325A (ja) * 2019-10-25 2021-04-30 ヤフー株式会社 提供装置、提供方法、および提供プログラム
JP7069098B2 (ja) 2019-10-25 2022-05-17 ヤフー株式会社 提供装置、提供方法、および提供プログラム

Also Published As

Publication number Publication date
US20100023509A1 (en) 2010-01-28
US9195744B2 (en) 2015-11-24
JP5116593B2 (ja) 2013-01-09

Similar Documents

Publication Publication Date Title
JP5116593B2 (ja) 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
JP5306356B2 (ja) 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
US10289700B2 (en) Method for dynamically matching images with content items based on keywords in response to search queries
JP4991289B2 (ja) 予め定義されたサーチ問合せからサーチ結果へのアクセスを与えるurlで補足されるサーチエンジン
CN105956116B (zh) 用于处理将要显示的内容的方法和系统
US8352396B2 (en) Systems and methods for improving web site user experience
JP4638439B2 (ja) ウェブ検索の個人化
US10216851B1 (en) Selecting content using entity properties
US20110078140A1 (en) Method and system for user guided search navigation
US20110060717A1 (en) Systems and methods for improving web site user experience
US20090299978A1 (en) Systems and methods for keyword and dynamic url search engine optimization
US10296535B2 (en) Method and system to randomize image matching to find best images to be matched with content items
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
US10235387B2 (en) Method for selecting images for matching with content based on metadata of images and content in real-time in response to search queries
US9501530B1 (en) Systems and methods for selecting content
US10685073B1 (en) Selecting textual representations for entity attribute values
CN109952571B (zh) 基于上下文的图像搜索结果
US20190294976A1 (en) User-centric artificial intelligence knowledge base
US20170351706A1 (en) Method and system for matching images with content using whitelists and blacklists in response to a search query
US20160335358A1 (en) Processing search queries and generating a search result page including search object related information
US20160335365A1 (en) Processing search queries and generating a search result page including search object information
JP2004287835A (ja) オブジェクト表作成方法及びオブジェクト推薦方法及びオブジェクト表作成プログラム及びオブジェクト推薦方法
Patel et al. Seo and Content Management System
WO2015198115A1 (en) Method of and a system for determining linked objects
JP2006164045A (ja) 共起グラフ作成方法及び装置及びプログラム及びプログラムを格納した記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120925

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121016

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5116593

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151026

Year of fee payment: 3