JP5110201B2 - 検索処理方法及び装置 - Google Patents

検索処理方法及び装置 Download PDF

Info

Publication number
JP5110201B2
JP5110201B2 JP2011504649A JP2011504649A JP5110201B2 JP 5110201 B2 JP5110201 B2 JP 5110201B2 JP 2011504649 A JP2011504649 A JP 2011504649A JP 2011504649 A JP2011504649 A JP 2011504649A JP 5110201 B2 JP5110201 B2 JP 5110201B2
Authority
JP
Japan
Prior art keywords
search
extended
keyword
search result
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011504649A
Other languages
English (en)
Other versions
JPWO2010106642A1 (ja
Inventor
友哉 岩倉
青史 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2010106642A1 publication Critical patent/JPWO2010106642A1/ja
Application granted granted Critical
Publication of JP5110201B2 publication Critical patent/JP5110201B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本技術は、キーワード検索技術に関する。
従来、例えば「リンゴ」というキーワードでデータベース検索を実施すると、図1に示すような検索結果が得られるとする。図1から分かるように、上位1000件の検索結果には、「リンゴジュース」と「リンゴジャム」についての文書ばかりが含まれる。通常検索エンジンは、検索結果として返す文書の件数を制限しており、検索者は例えば1001番目以降の文書、例えば「リンゴパイ」を含む文書にはアクセスできない。
また、予めキーワード毎に関連語を格納する関連辞書から、入力キーワードに関連する関連語を抽出し、抽出関連語をさらに用いて検索を行うような従来技術も存在する。連語は、予め定められた優先度などに基づき抽出される。しかしながら、図1のような検索結果が得られるような状況において「ジュース」や「ジャム」といったような関連語を付加して別途検索を行っても、図2に示すように、ほとんど図1の検索結果と同様の結果が得られるので、検索者はあまり有効な付加情報が得られていない。
また、文書の検索結果としてヒット件数が多い場合に、検索語の近傍(文書内の近傍)から出現頻度順に追加検索語を抽出し、各単語の関連性を階層化して表示して、その中から選択された単語を検索条件に追加して絞込検索を行うといった技術も存在している。しかしながら、文書内の近傍の単語を追加検索語として抽出するので、入力キーワードだけでも得られる文書が抽出される可能性が高い。
特開2001−75981号公報 日本特許第3428554号公報
従って、本技術の目的は、入力検索キーワードから得られる検索結果の内容とは異なる内容の検索結果を自動的に提示できるようにするための新規な技術を提供することである。
本検索処理方法は、検索キーワードを受信するステップと、受信した検索キーワードで、文書に関するデータを格納するデータベースを検索エンジンに検索させ、当該検索エンジンから該当文書の少なくとも一部のテキストデータを含む初期検索結果を取得し、初期検索結果格納部に格納するステップと、各キーワードに対応付けて拡張検索キーワードを格納する拡張検索キーワード格納部から、受信した検索キーワードに対応付けられている拡張検索キーワードを抽出するステップと、抽出された各拡張検索キーワードで初期検索結果格納部を検索して、抽出された各拡張検索キーワードについて該当文書件数又は出現頻度を計数し、各拡張検索キーワードに対応付けて該当文書件数又は出現頻度を集計結果格納部に格納するステップと、集計結果格納部に格納されている拡張検索キーワードのうち該当文書件数又は出現頻度が少ない順で上位所定数の拡張検索キーワードの各々又は該当文書件数又は出現頻度が所定値以下の拡張検索キーワードの各々と受信した検索キーワードとの組み合わせで、データベースを検索エンジンに検索させ、当該検索エンジンから該当文書の少なくとも一部のテキストデータを含む拡張検索結果を取得し、拡張検索結果格納部に格納するステップと、初期検索結果格納部に格納されている初期検索結果の少なくとも一部と、拡張検索結果格納部に格納されている拡張検索結果の少なくとも一部とを出力する出力ステップとを含む。
図1は、従来技術を説明するための図である。 図2は、従来技術を説明するための図である。 図3は、実施の形態に係るシステム概要を示す図である。 図4は、メインの処理フローを示す図である。 図5は、初期検索処理の処理フローを示す図である。 図6は、検索キーワード入力画面の一例を示す図である。 図7は、セッションDBに格納されるデータの一例を示す図である。 図8は、初期検索結果DBに格納されるデータの一例を示す図である。 図9は、拡張キーワード選択処理の処理フローを示す図である。 図10は、拡張キーワードDBに格納されているデータの一例を示す図である。 図11は、拡張キーワード候補DBに格納されるデータの一例を示す図である。 図12は、ソート後の拡張キーワード候補リストの一例を示す図である。 図13は、拡張検索処理の処理フローを示す図である。 図14は、拡張検索結果DBに格納されるデータの一例を示す図である。 図15は、検索結果生成処理の処理フローを示す図である。 図16は、検索結果表示画面の一例を示す図である。 図17は、コンピュータの機能ブロック図である。
図3に本技術の実施の形態に係るシステムの概要図を示す。例えばインターネットやLAN(Local Area Network)などのコンピュータネットワーク1には、複数のユーザ端末3と、本実施の形態の主要な処理を実施する検索処理サーバ5と、周知のデータベース検索を実施する検索エンジン7とが接続されている。
検索エンジン7は、データベース(DB)71に接続されており、このDB71には、文書そのものを蓄積している場合もあれば、例えばネットワーク1に接続されている多数のサーバが保持している多数の文書(Webページ・データなど)のインデックスデータ等を保持している場合もある。検索エンジン7及び検索エンジン7が管理しているDB71の構成は、本実施の形態の主要部ではなく周知なので、これ以上述べない。
また、検索処理サーバ5は、ユーザ端末3とのインターフェースとなるユーザインターフェース部51と、検索エンジン7とのインターフェースとなる検索インターフェース部53と、制御部55と、セッションDB56と、初期検索結果DB57と、拡張キーワードDB58と、拡張キーワード候補DB59と、拡張検索結果DB60とを有する。制御部55は、ユーザインターフェース部51と検索インターフェース部53と連携して動作する。
また、制御部55は、セッションDB56に格納されているデータを用いて処理を行い、初期検索結果DB57に初期検索結果を格納する初期検索部551と、初期検索結果DB57及び拡張キーワードDB58に格納されているデータを用いて処理を行い、処理結果を拡張キーワード候補DB59に格納する拡張キーワード選択部552と、セッションDB56及び拡張キーワードDB58に格納されているデータを用いて処理を行い、処理結果を拡張検索結果DB60に格納する拡張検索部553とを有する。
ユーザインターフェース部51は、ユーザ端末3から受信したデータをセッションDB56に登録し、初期検索結果DB57及び拡張検索結果DB60に格納されているデータを用いて検索結果表示データを生成し、ユーザ端末3に送信する。
次に、図4乃至図16を用いて図3に示したシステムの動作を説明する。まず、図4を用いて処理の概要を示す。最初に、初期検索処理を実施する(ステップS1)。初期検索処理については、後に詳細に述べるが、通常の検索処理と同様である。次に、拡張キーワード選択処理を実施する(ステップS3)。拡張キーワード選択処理については、後に詳細に述べるが、入力検索キーワードに加えて用いる拡張キーワード候補が選択される。但し、ステップS3はステップS1と並列に処理を実施してもよい。また、シリアルに実施する場合には、ステップS1より先にステップS3を実施しても良い。その後、拡張検索処理を実施する(ステップS5)。拡張検索処理については、後に詳細に述べるが、入力検索キーワードと拡張キーワード候補との組み合わせについて検索処理を実施するものである。最後に、検索結果生成処理を実施する(ステップS7)。検索結果生成処理については、後に詳細を述べるが、初期検索結果と拡張検索結果とを例えば1画面で上下又は左右に並べて表示するためのWebページ・データを生成してユーザ端末3に送信して表示する処理である。
次に、図5を用いて初期検索処理を説明する。まず、検索処理サーバ5のユーザインターフェース部51は、ユーザ端末3から検索キーワードを受信する(ステップS11)。例えば、ユーザ端末3からのアクセスに応じてユーザインターフェース部51は、検索キーワード入力画面を表示するためのWebページ・データをユーザ端末3に送信し、ユーザ端末3は、当該Webページ・データを受信し、図6に示すような検索キーワード入力画面を表示する。図6の画面例は、入力欄601及び検索ボタン602を有している。ここでは、入力欄601に検索キーワード「リンゴ」を入力して、検索ボタン602をクリックしたものとする。ユーザ端末3は、検索キーワードを検索要求として検索処理サーバ5に送信する。
次に、ユーザインターフェース部51は、セッションIDを発行し、当該セッションIDと検索キーワードと端末情報(例えば端末IDやIPアドレスなど)とを、セッションDB56に登録する(ステップS13)。セッションDB56には、例えば図7に示すようなデータが登録される。図7の例では、セッションIDと、キーワードと、端末ID(IPアドレスなどの場合もある)とが登録されるようになっている。また、ユーザインターフェース部51は、制御部55に処理を指示する。
例えば新たなレコードがセッションDB56に登録されると、制御部55の初期検索部551は、セッションDB56から新たに登録された検索キーワードを読み出し、検索インターフェース部53に対して、当該検索キーワードによる検索を検索エンジン7に実施させるように要求する。検索インターフェース部53は、初期検索部551からの要求に応じて、検索キーワードを含む検索要求を検索エンジン7に送信する。検索エンジン7は、検索処理サーバ5から検索キーワードを含む検索要求を受信し、例えばDB71に対して検索処理を実施し、検索結果の上位M件分のデータを検索処理サーバ5に送信する。検索処理サーバ5の検索インターフェース部53は、検索結果の上位M件分のデータを受信し、制御部55の初期検索部551に出力する。初期検索部551は、検索インターフェース部53から検索結果の上位M件分のデータを取得する(ステップS15)。検索結果は、例えば該当文書のタイトルとURL(Uniform Resource Locator)などを含む。
そして、初期検索部551は、タイトル及びURLを含む検索結果のデータを、現セッションIDに対応付けて、初期検索結果DB57に格納する(ステップS17)。初期検索結果DB57には、例えば図8のようなデータが登録される。図8の例では、検索結果IDと、タイトルと、URLとが登録されるようになっている。なお、本例では、上位100件分のデータが登録されたことになる。なお、初期検索結果DB57は、セッションID毎に図8のようなテーブルを格納している。
このように通常どおり入力された検索キーワードに基づく検索結果を得ることができる。
次に、図9を用いて拡張キーワード選択処理について説明する。拡張キーワード選択部552は、拡張キーワードDB58から検索キーワードに対応する拡張キーワード候補を取得する(ステップS51)。例えば図10に示すようなデータが拡張キーワードDB58に格納されている。図10の例では、入力キーワードと、対応する拡張キーワード候補群とが登録されるようになっている。例えば、「リンゴ」という入力キーワードに対して「ジュース」「ジャム」「あめ」「パイ」といった拡張キーワード候補が登録されている。
次に、拡張キーワード選択部552は、取得した拡張キーワード候補のうち、未処理の拡張キーワード候補を1つ特定する(ステップS53)。そして、特定された拡張キーワード候補で初期検索結果DB57を検索し、初期検索結果DB57に格納されている初期検索結果における該当文書件数を計数し、拡張キーワード候補DB59に格納する(ステップS55)。例えば、初期検索結果DB57中の文書のうち、タイトルに、特定された拡張キーワード候補を含んでいる文書を該当すると判断し、その件数を計数する。例えば、図11に示すようなデータが、拡張キーワード候補DB59に格納されている。図11の例では、拡張キーワード候補毎に、該当文書件数が登録されるようになっている。なお、該当文書件数ではなく、出現回数を計数して登録するようにしても良い。すなわち、例えばタイトル等が長くて1件の文書のタイトル等に同じ単語が2度以上出現する場合には、出現回数は多くなる。なお、ステップS55を1回実行すると、図11の1行が登録される。
そして、拡張キーワード選択部552は、未処理の拡張キーワード候補が存在しているか判断する(ステップS57)。未処理の拡張キーワード候補が存在している場合には、ステップS53に戻る。一方、全ての拡張キーワード候補を処理した場合には、計数結果(図11)に基づき拡張キーワード候補を昇順にソートし、ソート結果を拡張キーワード候補DB59に格納する(ステップS59)。図11の例では、「あめ」が最も計数値が少なく、「ジュース」が最も計数値が多い。従って、図12に示すような拡張キーワード候補のリストが得られ、拡張キーワード候補DB59に登録される。そして処理は元の処理に戻る。
なお、ステップS55の代わりに、計数値が「0」であるかを判断し、計数値が「0」であれば、拡張キーワード候補DB59に登録するようにしても良い。このようにすれば、全く初期検索結果には含まれていないような拡張キーワード候補を特定できるので、初期検索結果とは全く異なる内容の検索結果を以下の処理で取得できるようになる。このような場合にも、計数値が「0」である拡張キーワード候補を、図12に示すようなリストとして保持する。
次に、拡張検索処理について図13を用いて説明する。最初に、拡張検索部553は、カウンタiを1に初期化すると共に、Nに採用拡張キーワード数を設定する(ステップS61)。そして、i番目の拡張キーワード候補を拡張キーワード候補DB59から取得する(ステップS63)。そして、拡張検索部553は、セッションDB56から処理に係る検索キーワード(すなわち現セッションIDに対応付けられた検索キーワード)を読み出し、検索インターフェース部53に対して、「検索キーワード&拡張キーワード候補」による検索を検索エンジン7に実施させるように要求する。検索インターフェース部53は、拡張検索部553からの要求に応じて、「検索キーワード&拡張キーワード候補」を含む検索要求を検索エンジン7に送信する。検索エンジン7は、検索処理サーバ5から「検索キーワード&拡張キーワード候補」を含む検索要求を受信し、例えばDB71に対して検索処理を実施し、検索結果(すなわち拡張検索結果)の上位M件分のデータを検索処理サーバ5に送信する。検索処理サーバ5の検索インターフェース部53は、拡張検索結果の上位M件分(初期検索処理の際のMと同じでも異なっていても良い。)のデータを受信し、制御部55の拡張検索部553に出力する。拡張検索部553は、検索インターフェース部53から拡張検索結果の上位M件分のデータを取得する(ステップS65)。拡張検索結果は、例えば該当文書のタイトルとURL(Uniform Resource Locator)などを含む。
そして、拡張検索部553は、取得した拡張検索結果を拡張検索結果DB60に格納する(ステップS67)。拡張検索結果DB60に格納されるデータの一例を図14に示す。図14の例では、ステップS65を実施する毎に発行される拡張検索結果ID毎に、拡張クエリの条件である「検索キーワード&拡張キーワード候補」と、タイトル及びURLとが登録されるようになっている。拡張検索結果ID毎に、M件分のデータが登録される。本実施の形態では、セッションID毎に図14に示したようなデータテーブルを、拡張検索結果DB60に格納する。
そして、拡張検索部553は、iがNより小さいか判断する(ステップS69)。iがNより小さい場合には、iを1インクリメントして(ステップS71)、ステップS63に戻る。一方、iがN以上であれば、元の処理戻る。
このように、初期検索にはあまり含まれない又は全く含まれない内容を有し、検索者に対して提示すべき拡張検索結果を取得する。
次に、図15を用いて検索結果生成処理について説明する。制御部55は、拡張検索部553の処理が終了すると、ユーザインターフェース部51に対して処理が完了したセッションIDを出力して検索結果生成処理を実施させる。
ユーザインターフェース部51は、保持している結果表示用フォームを読み出し(ステップS71)、処理完了に係る検索キーワードを例えばセッションDB56から読み出し、結果表示フォーム中の提示箇所に設定する(ステップS73)。また、初期検索結果DB57から、処理完了に係るセッションIDに対応する初期検索結果を読み出し、表示可能な件数分だけ、各該当文書のタイトルをハイパーリンク化して該当URLにアクセスできるようにして、結果表示用フォーム中の提示箇所に設定する(ステップS75)。また、カウンタiを1に初期化すると共に、N採用された拡張キーワード数設定する(ステップS77)。
そして、ユーザインターフェース部51は、拡張検索結果領域のi番目の枠を、結果表示用フォーム内に確保すると共に(ステップS79)、i番目の拡張クエリの条件(すなわち、「検索キーワード&拡張キーワード候補」)とその拡張検索結果を、拡張検索結果DB60から読み出し、当該拡張クエリを結果表示用フォーム中のその提示枠に設定すると共に、表示可能な件数分だけ、各該当文書のタイトルをハイパーリンク化して該当URLにアクセスできるようにして、結果表示用フォーム中の提示箇所に設定する(ステップS81)。
そして、ユーザインターフェース部51は、iがNより小さいか判断する(ステップS83)。iがNより小さい場合には、iを1インクリメントして(ステップS85)ステップS79に戻る。一方、iがN以上であれば、上で述べた処理で生成された結果表示用フォームによる検索結果表示用ページ・データを、現セッションIDに係るユーザ端末3に送信する(ステップS87)。
これに対して、ユーザ端末3は、検索処理サーバ5から検索結果表示用ページ・データを受信し、表示装置に例えば図16に示すような表示を行う。図16の例では、検索キーワードが、ページの冒頭部分1501に提示され、その下の左側に検索キーワードによる初期検索結果の提示枠1502が含まれ、この提示枠1502の右側に拡張検索結果の提示枠1510及び1520が設けられている。提示枠1504には、初期検索結果の各該当文書(Webページなど)が列挙されており、ハイパーリンクで各該当文書(例えばWebページ)の具体的内容を参照できるようになっている。
同様に、提示枠1511には、拡張クエリの条件「リンゴ&あめ」が提示されており、具体的な拡張検索結果は提示枠1512に列挙されている。同様に、提示枠1521には、拡張クエリの条件「リンゴ&パイ」が提示されており、具体的な拡張検索結果は提示枠1522に列挙されている。いずれも「リンゴ」だけで検索した際には、提示されない又はされにくい検索結果を含んでいる。
該当文書の提示件数や拡張検索結果の提示枠数については表示領域の広さなどに依存する部分もあるが、任意である。複数ページに分割して提示するようにしても良いが、図6のように比較対比できるような提示態様が好ましい。なお、1つのウィンドウで全ての情報を提示する場合もあれば、例えば初期検索結果を第1のウィンドウで、拡張検索結果を第2のウィンドウで分けて提示するようにしても良い。さらに、拡張キーワード毎にウィンドウを分けても良い。このようにすれば、それぞれについてより多くの検索結果を一度に表示させることができるようになる。
以上述べたように、本実施の形態のような処理を実施すれば、検索者が入力した入力検索キーワードだけでは通常検索者に提示されないような内容を、拡張検索結果としてユーザに提示できるようになるので、検索者に新たな気付きや視点を与えることができるようになる。特に、入力検索キーワードだけでは検索結果下位にランキングされてしまって埋もれてしまう文書を浮き上がらせることができるようになる。
以上本技術の一実施の形態を説明したが、本技術はこれに限定されるものではない。例えば、図3の検索処理サーバ5の機能ブロック図は一例であって、必ずしも実際のプログラムモジュール構成と一致しない場合もある。さらに、図3で示したネットワーク接続関係についても一例であって、例えば検索エンジン7を、検索処理サーバ5のバックグランドで動作するサーバとして、ユーザ端末3から見て検索処理サーバ5の背後にネットワーク接続させても良い。さらに、サーバ・クライアント構成の例を示したが、ユーザ端末3と検索処理サーバ5とが一体となったスタンドアロン型構成であっても良い。さらに検索エンジン7も一体化される場合もある。
さらに、処理フローについても処理結果が変わらない限りにおいてステップの順番を入れ替えたり、並列実行するようにしても良い。
なお、上で述べた例では入力検索キーワードが1つの場合を説明したが、2つ以上であっても基本的には同じ処理で対処可能である。すなわち、複数の入力検索キーワードのそれぞれについて拡張キーワード候補を抽出して、上で述べた処理を実施すればよい。
さらに、画面構成例を図示したが、様の情報を提示できれば、他の画面構成を採用することも可能である。
なお、上で述べた検索処理サーバ5や検索エンジン7、ユーザ端末3は、コンピュータ装置であって、図17に示すように、メモリ2501とCPU2503とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上本実施の形態をまとめると以下のようになる。
本検索処理方法は、検索キーワードを受信するステップと、受信した検索キーワードで、文書に関するデータを格納するデータベースを検索エンジンに検索させ、当該検索エンジンから該当文書の少なくとも一部のテキストデータを含む初期検索結果を取得し、初期検索結果格納部に格納するステップと、各キーワードに対応付けて拡張検索キーワードを格納する拡張検索キーワード格納部から、受信した検索キーワードに対応付けられている拡張検索キーワードを抽出するステップと、抽出された各拡張検索キーワードで初期検索結果格納部を検索して、抽出された各拡張検索キーワードについて該当文書件数又は出現頻度を計数し、各拡張検索キーワードに対応付けて該当文書件数又は出現頻度を集計結果格納部に格納するステップと、集計結果格納部に格納されている拡張検索キーワードのうち該当文書件数又は出現頻度が少ない順で上位所定数の拡張検索キーワードの各々又は該当文書件数又は出現頻度が所定値以下の拡張検索キーワードの各々と受信した検索キーワードとの組み合わせで、データベースを検索エンジンに検索させ、当該検索エンジンから該当文書の少なくとも一部のテキストデータを含む拡張検索結果を取得し、拡張検索結果格納部に格納するステップと、初期検索結果格納部に格納されている初期検索結果の少なくとも一部と、拡張検索結果格納部に格納されている拡張検索結果の少なくとも一部とを出力する出力ステップとを含む。
このように入力検索キーワードに関連する拡張検索キーワードのうち入力検索キーワードによる検索結果(すなわち初期検索結果)にあまり出てこない(又は全く出てこない)ような拡張検索キーワードを、拡張検索に用いることによって、入力検索キーワードのみによる検索結果とは異なる内容や観点の検索結果を検索者に提示できるようになる。
また、上で述べた出力ステップにおいて、初期検索結果の少なくとも一部と、拡張検索結果の少なくとも一部とを異なる画面領域で表示するためのデータを生成するようにしてもよい。上下又は左右に並べて見せることによって、検索者は異なる検索結果を対比して把握することができ、より目的に近い文書を見出す、又は検索の新たな方向を見出すことができるようになる。なお、同じウィンドウにおいて異なる領域を分けるようにしても良いが、例えば初期検索結果をメインウィンドウに表示させ、拡張検索結果を1又は複数のサブウィンドウに表示させるようにしてもよい。
さらに、上で述べた所定値を「0」に設定するようにしても良い。入力検索キーワードによる初期検索結果では全く提示できないような異なる内容の検索結果を提示できるようになる。なお、初期検索結果に含まれる範囲は位所定件数分のみであり、その範囲に拡張検索キーワードが含まれていないだけであって、上位所定件数より下位の文書においては拡張検索キーワードは含まれている。
なお、上で述べたような処理をハードウエアに実施させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。なお、処理途中のデータについては、コンピュータのメモリ等の記憶装置に一時保管される。

Claims (6)

  1. 検索キーワードを受信するステップと、
    受信した前記検索キーワードで、文書に関するデータを格納するデータベースを検索エンジンに検索させ、当該検索エンジンから該当文書の少なくとも一部のテキストデータを含む初期検索結果を取得し、初期検索結果格納部に格納するステップと、
    各キーワードに対応付けて拡張検索キーワードを格納する拡張検索キーワード格納部から、受信した前記検索キーワードに対応付けられている拡張検索キーワードを抽出するステップと、
    抽出された各前記拡張検索キーワードで前記初期検索結果格納部を検索して、抽出された各前記拡張検索キーワードについて該当文書件数又は出現頻度を計数し、各前記拡張検索キーワードに対応付けて前記該当文書件数又は出現頻度を集計結果格納部に格納するステップと、
    前記集計結果格納部に格納されている前記拡張検索キーワードのうち前記該当文書件数又は出現頻度が少ない順で上位所定数の前記拡張検索キーワードの各々又は前記該当文書件数又は出現頻度が所定値以下の前記拡張検索キーワードの各々と受信した前記検索キーワードとの組み合わせで、前記データベースを前記検索エンジンに検索させ、当該検索エンジンから該当文書の少なくとも一部のテキストデータを含む拡張検索結果を取得し、拡張検索結果格納部に格納するステップと、
    前記初期検索結果格納部に格納されている前記初期検索結果の少なくとも一部と、前記拡張検索結果格納部に格納されている前記拡張検索結果の少なくとも一部とを出力する出力ステップと、
    を、コンピュータに実行させるための検索処理プログラムを格納するコンピュータ読み取り可能な記録媒体。
  2. 前記出力ステップにおいて、
    前記初期検索結果の少なくとも一部と、前記拡張検索結果の少なくとも一部とを異なる画面領域で表示するためのデータを生成する
    請求項1記載のコンピュータ読み取り可能な記録媒体。
  3. 検索キーワードを受信するステップと、
    受信した前記検索キーワードで、文書に関するデータを格納するデータベースを検索エンジンに検索させ、当該検索エンジンから該当文書の少なくとも一部のテキストデータを含む初期検索結果を取得し、初期検索結果格納部に格納するステップと、
    各キーワードに対応付けて拡張検索キーワードを格納する拡張検索キーワード格納部から、受信した前記検索キーワードに対応付けられている拡張検索キーワードを抽出するステップと、
    抽出された各前記拡張検索キーワードで前記初期検索結果格納部を検索して、抽出された各前記拡張検索キーワードについて該当文書件数又は出現頻度を計数し、各前記拡張検索キーワードに対応付けて前記該当文書件数又は出現頻度を集計結果格納部に格納するステップと、
    前記集計結果格納部に格納されている前記拡張検索キーワードのうち前記該当文書件数又は出現頻度が少ない順で上位所定数の前記拡張検索キーワードの各々又は前記該当文書件数又は出現頻度が所定値以下の前記拡張検索キーワードの各々と受信した前記検索キーワードとの組み合わせで、前記データベースを前記検索エンジンに検索させ、当該検索エンジンから該当文書の少なくとも一部のテキストデータを含む拡張検索結果を取得し、拡張検索結果格納部に格納するステップと、
    前記初期検索結果格納部に格納されている前記初期検索結果の少なくとも一部と、前記拡張検索結果格納部に格納されている前記拡張検索結果の少なくとも一部とを出力する出力ステップと、
    を含み、コンピュータに実行される検索処理方法。
  4. 前記出力ステップにおいて、
    前記初期検索結果の少なくとも一部と、前記拡張検索結果の少なくとも一部とを異なる画面領域で表示するためのデータを生成する
    請求項記載の検索処理方法。
  5. 検索キーワードを受信し、受信した前記検索キーワードで、文書に関するデータを格納するデータベースを検索エンジンに検索させ、当該検索エンジンから該当文書の少なくとも一部のテキストデータを含む初期検索結果を取得し、初期検索結果格納部に格納する手段と、
    各キーワードに対応付けて拡張検索キーワードを格納する拡張検索キーワード格納部から、受信した前記検索キーワードに対応付けられている拡張検索キーワードを抽出する手段と、
    抽出された各前記拡張検索キーワードで前記初期検索結果格納部を検索して、抽出された各前記拡張検索キーワードについて該当文書件数又は出現頻度を計数し、各前記拡張検索キーワードに対応付けて前記該当文書件数又は出現頻度を集計結果格納部に格納する手段と、
    前記集計結果格納部に格納されている前記拡張検索キーワードのうち前記該当文書件数又は出現頻度が少ない順で上位所定数の前記拡張検索キーワードの各々又は前記該当文書件数又は出現頻度が所定値以下の前記拡張検索キーワードの各々と受信した前記検索キーワードとの組み合わせで、前記データベースを前記検索エンジンに検索させ、当該検索エンジンから該当文書の少なくとも一部のテキストデータを含む拡張検索結果を取得し、拡張検索結果格納部に格納する手段と、
    前記初期検索結果格納部に格納されている前記初期検索結果の少なくとも一部と、前記拡張検索結果格納部に格納されている前記拡張検索結果の少なくとも一部とを出力する出力手段と、
    を有する検索処理装置。
  6. 前記出力手段が、
    前記初期検索結果の少なくとも一部と、前記拡張検索結果の少なくとも一部とを異なる画面領域で表示するためのデータを生成する
    請求項記載の検索処理装置。
JP2011504649A 2009-03-17 2009-03-17 検索処理方法及び装置 Expired - Fee Related JP5110201B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/055177 WO2010106642A1 (ja) 2009-03-17 2009-03-17 検索処理方法及び装置

Publications (2)

Publication Number Publication Date
JPWO2010106642A1 JPWO2010106642A1 (ja) 2012-09-20
JP5110201B2 true JP5110201B2 (ja) 2012-12-26

Family

ID=42739313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011504649A Expired - Fee Related JP5110201B2 (ja) 2009-03-17 2009-03-17 検索処理方法及び装置

Country Status (5)

Country Link
US (1) US20120072406A1 (ja)
JP (1) JP5110201B2 (ja)
CN (1) CN102341800B (ja)
GB (1) GB2481333A (ja)
WO (1) WO2010106642A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101741698B1 (ko) 2010-10-18 2017-05-31 삼성전자주식회사 검색 서비스 제공방법 및 이를 적용한 디스플레이 장치
JP5338835B2 (ja) * 2011-03-24 2013-11-13 カシオ計算機株式会社 類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム
JP2013003796A (ja) * 2011-06-15 2013-01-07 Navitime Japan Co Ltd 施設情報提供装置、施設情報提供システム、サーバ装置、端末装置、施設情報提供方法、およびプログラム
EP2724309A4 (en) * 2011-06-24 2015-02-25 Monster Worldwide Inc DEVICES, METHODS AND SYSTEMS FOR A PLATFORM FOR PAIRING SOCIAL DATA
US9558274B2 (en) 2011-11-02 2017-01-31 Microsoft Technology Licensing, Llc Routing query results
US9177022B2 (en) 2011-11-02 2015-11-03 Microsoft Technology Licensing, Llc User pipeline configuration for rule-based query transformation, generation and result display
US20130110816A1 (en) * 2011-11-02 2013-05-02 Microsoft Corporation Default Query Rules
US9189563B2 (en) 2011-11-02 2015-11-17 Microsoft Technology Licensing, Llc Inheritance of rules across hierarchical levels
CN103678362A (zh) * 2012-09-13 2014-03-26 深圳市世纪光速信息技术有限公司 搜索方法及系统
JP5903370B2 (ja) * 2012-11-14 2016-04-13 日本電信電話株式会社 情報検索装置、情報検索方法、及びプログラム
JP5886223B2 (ja) * 2013-02-20 2016-03-16 日本食品製造合資会社 検索装置
US9817899B2 (en) * 2013-08-26 2017-11-14 Globalfoundries Searching for secret data through an untrusted searcher
CN103699619A (zh) * 2013-12-18 2014-04-02 北京百度网讯科技有限公司 一种用于提供搜索结果的方法及装置
US9454621B2 (en) * 2013-12-31 2016-09-27 Google Inc. Surfacing navigational search results
CN103902670B (zh) * 2014-03-17 2016-04-13 百度在线网络技术(北京)有限公司 搜索推荐方法和装置
JP6316642B2 (ja) * 2014-04-21 2018-04-25 アルパイン株式会社 コンテンツ検索装置、方法およびプログラム
KR101606758B1 (ko) * 2014-06-30 2016-03-28 경일대학교산학협력단 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템
JP2017054232A (ja) * 2015-09-08 2017-03-16 株式会社東芝 情報抽出装置、情報抽出方法及び情報抽出プログラム
WO2018006217A1 (zh) * 2016-07-04 2018-01-11 马岩 基于网络邮件数据的抓取方法及系统
JP6653669B2 (ja) * 2017-01-17 2020-02-26 株式会社LIGHTz 情報提供装置、情報提供システム、情報提供方法及びプログラム
JP6880974B2 (ja) * 2017-04-19 2021-06-02 富士通株式会社 情報出力プログラム、情報出力方法および情報処理装置
JP6435467B1 (ja) * 2018-03-05 2018-12-12 株式会社テンクー 検索システム及び検索システムの動作方法
CN112749258A (zh) * 2021-01-21 2021-05-04 京东数字科技控股股份有限公司 数据搜索的方法和装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075981A (ja) * 1999-09-02 2001-03-23 Ntt Data Corp 検索システム、検索条件受付方法及び記録媒体
JP2004110664A (ja) * 2002-09-20 2004-04-08 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラム、及び記録媒体
JP2004118262A (ja) * 2002-09-24 2004-04-15 Toshiba Corp 文書検索装置、文書検索方法及び文書検索プログラム
JP2004164662A (ja) * 2003-12-24 2004-06-10 Just Syst Corp 検索装置、検索方法、ならびに、情報記録媒体
JP2007133769A (ja) * 2005-11-11 2007-05-31 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916607A (ja) * 1995-06-26 1997-01-17 Hitachi Ltd データベース管理システムにおけるインデクス管理方法
US8266162B2 (en) * 2005-10-31 2012-09-11 Lycos, Inc. Automatic identification of related search keywords
CN101063975A (zh) * 2007-02-15 2007-10-31 刘二中 电子文本处理与检索的方法和系统
JP4436894B2 (ja) * 2007-08-09 2010-03-24 パナソニック株式会社 コンテンツ検索装置
US20090055374A1 (en) * 2007-08-20 2009-02-26 Cisco Technology, Inc. Method and apparatus for generating search keys based on profile information
JP5106045B2 (ja) * 2007-10-30 2012-12-26 株式会社日立製作所 検索エンジン連携ファイル共有システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075981A (ja) * 1999-09-02 2001-03-23 Ntt Data Corp 検索システム、検索条件受付方法及び記録媒体
JP2004110664A (ja) * 2002-09-20 2004-04-08 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラム、及び記録媒体
JP2004118262A (ja) * 2002-09-24 2004-04-15 Toshiba Corp 文書検索装置、文書検索方法及び文書検索プログラム
JP2004164662A (ja) * 2003-12-24 2004-06-10 Just Syst Corp 検索装置、検索方法、ならびに、情報記録媒体
JP2007133769A (ja) * 2005-11-11 2007-05-31 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体

Also Published As

Publication number Publication date
CN102341800B (zh) 2014-10-29
JPWO2010106642A1 (ja) 2012-09-20
CN102341800A (zh) 2012-02-01
GB201116081D0 (en) 2011-11-02
WO2010106642A1 (ja) 2010-09-23
US20120072406A1 (en) 2012-03-22
GB2481333A (en) 2011-12-21

Similar Documents

Publication Publication Date Title
JP5110201B2 (ja) 検索処理方法及び装置
US10140368B2 (en) Method and apparatus for generating a recommendation page
US9721018B2 (en) System and method for displaying of most relevant vertical search results
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
WO2015172490A1 (zh) 一种提供扩展搜索项的方法与装置
CN102368262B (zh) 一种提供与查询序列相对应的搜索建议的方法与设备
KR102281186B1 (ko) 검색 결과에 대한 애니메이션 스니핏
US10592565B2 (en) Method and apparatus for providing recommended information
US8468145B2 (en) Indexing of URLs with fragments
US9195717B2 (en) Image result provisioning based on document classification
US9910932B2 (en) System and method for completing a user query and for providing a query response
US10713291B2 (en) Electronic document generation using data from disparate sources
US20080306913A1 (en) Dynamic aggregation and display of contextually relevant content
US9779139B1 (en) Context-based filtering of search results
JP2014515514A (ja) 提案される語を提供するための方法および装置
CN105095441A (zh) 一种信息获取方法及装置
JP2019522852A (ja) 文脈情報を提供するためのシステムおよび方法
US20230297618A1 (en) Information display method and electronic apparatus
JP2010049384A (ja) 動画評価方法、装置及びプログラム
JP2020042771A (ja) データ分析方法及びデータ分析システム
JP2009070210A (ja) カテゴリ別ランキング作成装置
JP5226471B2 (ja) 文書データを検索する装置及び方法
JP2003122795A (ja) 情報表示装置、情報表示方法、情報表示プログラムおよび情報表示プログラムを記録したコンピュータ読取可能な記録媒体
EP3058489A1 (en) A system and method for determining a search response to a research query
JP2002269153A (ja) リンク解説情報の提示方法、リンク解説情報の提示プログラムおよびリンク解説情報の提示プログラムを記録した記録媒体

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120911

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120924

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees