JP4997743B2 - 文書検索装置、文書検索プログラムおよび文書検索方法 - Google Patents

文書検索装置、文書検索プログラムおよび文書検索方法 Download PDF

Info

Publication number
JP4997743B2
JP4997743B2 JP2005326482A JP2005326482A JP4997743B2 JP 4997743 B2 JP4997743 B2 JP 4997743B2 JP 2005326482 A JP2005326482 A JP 2005326482A JP 2005326482 A JP2005326482 A JP 2005326482A JP 4997743 B2 JP4997743 B2 JP 4997743B2
Authority
JP
Japan
Prior art keywords
search
document
user
word
task word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005326482A
Other languages
English (en)
Other versions
JP2007133688A (ja
Inventor
英紀 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005326482A priority Critical patent/JP4997743B2/ja
Publication of JP2007133688A publication Critical patent/JP2007133688A/ja
Application granted granted Critical
Publication of JP4997743B2 publication Critical patent/JP4997743B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、利用者から入力された検索キーワードに基づいて文書を検索する文書検索装置、文書検索プログラムおよび文書検索方法に関し、特に、利用者の検索目的に着目した表現を用いて検索することを可能とする文書検索装置、文書検索プログラムおよび文書検索方法に関する。
近年、インターネットの普及に伴い、インターネットのWebサイトを対象とした文書検索の重要性が高まってきている。一般的な文書検索装置は、利用者から入力された検索キーワードが含まれる文書を検索して検索結果を提示する。このような文書検索装置では、利用者から適切な検索キーワードが入力されないと、適切な検索結果を提示することができない。このため、利用者が入力した検索キーワードに関連する関連語を用いて、検索キーワードを拡張する技術が数多く提案されている。
利用者が入力した検索キーワードを拡張するための従来技術は、大きく以下の3つに分類できる。
(A):シソーラスや概念辞書に登録された類義語、下位語、上位語などを追加する方法
(B):検索結果の中の適合文書に含まれる単語を追加する方法
(C):検索キーワードと、文書中や検索履歴中とで同時に使われている共起語を追加する方法
従来技術(A)の例として、特許文献1が挙げられる。特許文献1に記載の検索方法は、図15に示すような、あらかじめ保持している検索語関連情報を用いて検索キーワードを拡張する。ここで、検索語関連情報とは、分類を単位とし、この分類名と、その分類における類義を集めた類義語集合と、その類義語集合を代表する検索語である上位語とを含む情報をいう。
特許文献1に記載の検索方法は、例えば、利用者から検索キーワードとして単語「犬」が入力された場合に、検索語関連情報から、検索キーワードが含まれる類義語集合を検索することによって、「犬」を「愛玩動物」に分類した場合の類義語である「猫」「金魚」などの単語を追加した検索キーワードの拡張が可能である。また、「犬」の上位語である「愛玩動物」「犬科」「干支」などの単語を追加した検索キーワードの拡張も可能である。さらに、検索キーワードが含まれる上位語を検索することによって、「飼育状態」分野における「犬」の下位概念を示す語である「野犬」「ペット」などの単語を追加した検索キーワードの拡張も可能である。つまり、1つの登録語に対して多様な分類方法で分類したデータを追加することができる。
また、従来技術(B)の例として、特許文献2が挙げられる。特許文献2に記載の検索式拡張方法は、強調フィルタリング手法を利用して検索キーワードを拡張する方法である。特許文献2に記載の検索式拡張方法は、まず、検索キーワードと検索対象文書とをそれぞれ単語ベクトルとして表現し、両者の類似度をベクトルのなす角度θの余弦cosθとして計算することによって、類似度の高い上位数件の文書から類似文書ベクトル群D_simを導出する。次に、導出した類似文書ベクトル群D_simを適合文書とみなし、類似文書ベクトル群D_simに含まれる単語を検索キーワードに追加する。つまり、類似度が高い文書から追加する単語を選択するので、検索結果の適合度合いを考慮した高精度な検索キーワードに拡張することができる。
また、従来技術(C)の例として、特許文献3が挙げられる。特許文献3に記載の情報処理システムは、利用者がクリックしたWeb文書のアンカー文字列の集合を蓄積しておき、入力された検索キーワードを含むアンカー文字列中で共起している別の単語を表示することによって、共起語を追加した検索キーワードの拡張を可能としている。
また、従来技術(C)の別の例として、不特定多数の検索履歴(頻繁に検索された言葉や、その言葉が検索された場合に頻繁にクリックされる検索結果等)を用いて、利用者がキーワードを入力している段階から、キーワードから想定される様々な言葉を提案するサービスが挙げられる(例えば、グーグル株式会社が提供するグーグル・サジェスト。非特許文献1参照。)。
特開平10−21266号公報(段落0039,0043−0049、図2) 特開2002−215672号公報(段落0019−0023) 特開2004−54918号公報(段落0034−0038) japan.internet.com編集部、"キーワードから言葉を提案する、「Googleサジェスト」日本語版登場"、[online]、平成17年3月9日、[平成17年10月25日検索]、インターネット<URL:http://japan.internet.com/busnews/20050309/print3.html>
従来技術の問題点は、(A)〜(C)のいずれの方法も、基本的には類似語、上位語、下位語、共起語などの関連語を順次追加するだけであって、利用者が、自身の検索目的に近いより自然な表現を直接指定できない点である。その理由は、従来技術が、利用者の検索目的の表現についてなんら考慮していないからである。
例えば、検索キーワード「自動車」を、「自動車保険」に拡張することによって検索結果を絞り込むことはできるが、「自動車保険」について、利用者の検索目的が「基本的な知識を知るために解説記事を読みたい」のか、「自動車保険に入りたいので各社の見積りを比較したい」のかを区別するためには、更に「解説」や「加入」等を検索キーワードに加えて絞り込みをしなければならない。
従来技術において、利用者から入力された検索キーワードと関連があるとして拡張される単語は、単語レベルでの関連性によって抽出されたものである。つまり、入力された検索キーワードを文章に用いる際の表現(例えば、文の構造)までを考慮して抽出したものではないため、例えば、検索キーワードを目的語として扱っていない文書から共起語を抽出したり、逆に、検索キーワードを目的語として専ら用いる動詞があっても単語でないために抽出されなかったり、または語尾が変化するために頻度で劣り拡張候補から落ちてしまう可能性がある。
本発明の目的は、利用者から入力されたキーワードから、利用者の検索目的に近いより自然な表現に拡張した検索キーワードを提供することである。
本発明による文書検索装置は、利用者から入力される検索キーワードに基づいて、文書を検索する文書検索装置であって、情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現の構文パターンを定めた抽出ルールに基づいて、所定の文書データから、情報入手型またはサービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語であって不特定の探索対象を表す表現を含む検索タスク語を抽出する検索タスク語抽出手段(例えば、検索タスク語抽出手段11と)と、検索タスク語抽出手段によって抽出された検索タスク語の中から、利用者から入力された検索キーワードに関連する検索タスク語を検索し、利用者に対応する検索タスク語として抽出する関連検索タスク語検索手段(例えば、検索タスク語検索手段12)とを備えたことを特徴とする。検索タスク語とは、利用者の検索目的に近いより自然な表現をいい、より具体的には、類型化した検索目的表現である。ここで、検索目的表現とは、利用者の検索目的を示す語句または文言であって、例えば、利用者の欲しい情報を表すのによく用いられる語句または文言や、利用者の欲しい情報が記載されている文書によく用いられている語句または文言である。また、構文パターンとは、特定の単語や言い回しを持つ文字列の構造(例えば、品詞構造)の型をいう。
また、本発明による文書検索装置は、検索タスク語抽出手段が抽出した各検索タスク語のスコアを、抽出に用いた構文パターンに与えられたスコアと、抽出元となった文書データ内において同じ検索タスク語が出現する頻度とに基づいて算出するスコア算出手段(例えば、例えば、検索タスク語抽出手段11)と、関連検索タスク語検索手段によって抽出された利用者に対応する検索タスク語を、検索キーワードの拡張に用いる拡張候補として表示する拡張候補表示手段(例えば、検索タスク語検索手段12)とを備え、拡張候補表示手段は、関連検索タスク語検索手段によって抽出された検索タスク語の中から、当該検索タスク語のスコアに基づいて、拡張候補として表示する検索タスク語を選択してもよい。
また、検索タスク語抽出手段は、情報入手型の検索目的を表す表現として、情報を入手できる旨または情報を提供している旨を表す表現抽出するための構文パターンと、サービス利用型の検索目的を表す表現として、サービスを利用できる旨またはサービスを提供している旨を表す表現抽出するための構文パターンのいずれか一方または両方の構文パターンを定めた抽出ルールに基づいて、検索タスク語を抽出してもよい。
また、検索タスク語抽出手段は、特定のトピックに関する、(1)「専門サイト」または専門に扱うサイト種別の呼称、(2)「コミュニティサイト」または情報交換を目的とするサイト種別の呼称、(3)「ニュースサイト」または最新情報を提供するサイト種別の呼称、(4)「マニュアル」または「基礎知識」または体系的にまとめた情報を提供する旨を示すサイトのタイトル、(5)「専門家」または「組織」または「イベント」、(6)情報を入手したい旨を示す要望表現、(7)「ショッピングサイト」または商品購入を目的とするサイト種別の呼称、(8)「検索サイト」または独自データベースの検索を提供するサイト種別の呼称、(9)サービスを利用したい旨を示す要望表現、をそれぞれ有する構文パターンのうちいずれか、または全ての構文パターンを定めた抽出ルールに基づいて、検索タスク語を抽出してもよい。
また、本発明による文書検索装置は、利用者から入力される検索キーワードに基づいて、文書を検索する文書検索装置であって、情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現であって探索対象とする情報またはサービスを表す表現として所定の文字列構造を有する不特定の言葉を含む表現の構文パターンを定めた抽出ルールを記憶する抽出ルール記憶部(例えば、検索タスク語抽出ルール記憶部22)と、検索対象となる文書または過去に検索した文書の内容を示す情報を文字列として含む文書データ(例えば、文書データ記憶部21に記憶される文書データ)から、抽出ルール記憶部に記憶されている抽出ルールに定められた構文パターンに合致する表現を、情報入手型またはサービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語として抽出する検索タスク語抽出手段(例えば、検索タスク語抽出手段11)と、検索タスク語抽出手段によって抽出された検索タスク語の中から、利用者から入力された検索キーワードに関連する検索タスク語を検索し、利用者に対応する検索タスク語として抽出する関連検索タスク語検索手段(例えば、検索タスク語検索手段12)と、関連検索タスク語検索手段によって抽出された利用者に対応する検索タスク語を、検索キーワードの拡張に用いる拡張候補として表示する拡張候補表示手段(例えば、検索タスク語検索手段12)とを備えたことを特徴とする。
また、抽出ルール記憶部は、文パターンと、該構文パターンのスコアとを定めた抽出ルールを記憶し、検索タスク語抽出手段検索タスク語を抽出した際に、抽出ルール記憶部に記憶される抽出に用いた構文パターンのスコアに基づいて、抽出した検索タスク語のスコアを算出するスコア算出手段(例えば、検索タスク語抽出手段11)を備え、拡張候補表示手段は、関連検索タスク語検索手段によって抽出された利用者に対応する検索タスク語の中から、該検索タスク語のスコアに基づいて、拡張候補として表示する検索タスク語を選択してもよい。
また、本発明による文書検索装置は、拡張候補表示手段が表示した検索タスク語の中から利用者が選択した検索タスク語を用いて、検索キーワードを拡張し、検索を行う検索手段(例えば、検索タスク語検索手段12)を備えていてもよい。
また、本発明による文書検索装置は、過去に利用者から入力された検索キーワードを含む検索履歴を記憶する検索履歴記憶部(例えば、検索履歴記憶部24)と、検索履歴記憶部に記憶された検索履歴に含まれる検索キーワードの利用頻度に基づいて、スコア算出手段が算出した検索タスク語のスコアを補正し、更新するスコア更新手段(例えば、検索タスク語スコア更新手段14)とを備えていてもよい。
また、本発明による文書検索装置は、特定のキーワードと該キーワードの重要度を記憶するキーワードリスト記憶部(例えば、検索履歴記憶部24の変形例)を備え、スコア更新手段は、キーワードリスト記憶部に記憶されたキーワードおよび重要度に基づいて、スコア算出手段が算出した検索タスク語のスコアを補正し、更新するスコア更新手段(例えば、検索タスク語スコア更新手段14)を備えていてもよい。
また、本発明による文書検索システムは、利用者から入力される検索キーワードに基づいて、文書を検索する文書検索システムであって、ユーザ端末と、ユーザ端末と通信ネットワークを介して接続される文書検索サーバ装置とを備え、ユーザ端末は、利用者から入力された検索キーワードを送信する送信手段を備え、文書検索サーバ装置は、情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現であって探索対象とする情報またはサービスを表す表現として所定の文字列構造を有する不特定の言葉を含む表現の構文パターンを定めた抽出ルールを記憶する抽出ルール記憶部と、検索対象となる文書または過去に検索した文書の内容を示す情報を文字列として含む文書データから、抽出ルール記憶部に記憶されている抽出ルールに定められた構文パターンに合致する表現を、情報入手型またはサービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語として抽出する検索タスク語抽出手段と、ユーザ端末から利用者が入力した検索キーワードを受信すると、検索タスク語抽出手段によって抽出された検索タスク語の中から、検索キーワードに関連する検索タスク語を検索し、利用者に対応する検索タスク語として抽出する関連検索タスク語検索手段と、関連検索タスク語検索手段によって抽出された検索タスク語を、検索キーワードの拡張に用いる拡張候補としてユーザ端末に表示させる拡張候補表示手段とを備えたことを特徴とする。
また、本発明による文書検索システムにおいて、抽出ルール記憶部は、文パターンと、該構文パターンのスコアとを定めた抽出ルールを記憶し、文書検索サーバ装置は、検索タスク語抽出手段検索タスク語を抽出した際に、抽出ルール記憶部に記憶される抽出に用いた構文パターンのスコアに基づいて、抽出した検索タスク語のスコアを算出するスコア算出手段を備え、拡張候補表示手段は、関連検索タスク語検索手段によって抽出された利用者に対応する検索タスク語の中から、該検索タスク語のスコアに基づいて、拡張候補としてユーザ端末に表示させる検索目的表現を選択してもよい。
また、文書検索サーバ装置は、キーワードと該キーワードの重要度を記憶するキーワードリスト記憶部と、キーワードリスト記憶部に記憶されたキーワードおよび重要度に基づいて、スコア算出手段が算出した検索タスク語のスコアを補正し、更新するスコア更新手段とを備えていてもよい。
また、キーワードリスト記憶部は、文書の広告に用いられるキーワードと該キーワードの重要度を記憶してもよい。
また、本発明による文書検索方法は、利用者から入力される検索キーワードに基づいて、文書を検索する文書検索方法であって、情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現であって探索対象とする情報またはサービスを表す表現として所定の文字列構造を有する不特定の言葉を含む表現の構文パターンを定めた抽出ルールを予め所定の記憶装置に記憶しておき、検索タスク語抽出手段が、検索対象となる文書または過去に検索した文書の内容を示す情報を文字列として含む文書データから、記憶装置に記憶されている抽出ルールに定められた構文パターンに合致する表現を、情報入出型またはサービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語として抽出し、関連検索タスク語検索手段が、検索タスク語抽出手段によって抽出された検索タスク語の中から、利用者から入力された検索キーワードに関連する検索タスク語を検索して利用者に対応する検索タスク語として抽出、拡張候補表示手段が、関連検索タスク語検索手段によって抽出された利用者に対応する検索タスク語を、検索キーワードの拡張に用いる拡張候補として表示することを特徴とする。
また、本発明による文書検索方法は、利用者から入力される検索キーワードに基づいて、文書を検索する文書検索方法であって、情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現であって探索対象とする情報またはサービスを表す表現として所定の文字列構造を有する不特定の言葉を含む表現の構文パターンを定めた抽出ルールを予め所定の記憶装置に記憶しておき、ユーザ端末が、利用者から入力された検索キーワードを送信し、文書検索サーバ装置が、検索対象となる文書または過去に検索した文書の内容を示す情報を文字列として含む文書データから、記憶装置に記憶されている抽出ルールに定められた構文パターンに合致する表現を、情報入手型またはサービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語として抽出し、文書検索サーバ装置が、ユーザ端末から利用者が入力した検索キーワードを受信すると、抽出された検索タスク語の中から、検索キーワードに関連する検索タスク語を検索して記利用者に対応する検索タスク語として抽出し、文書検索サーバ装置が、抽出された利用者に対応する検索タスク語を、検索キーワードの拡張に用いる拡張候補としてユーザ端末に表示させることを特徴とする。
また、本発明による文書検索プログラムは、利用者から入力される検索キーワードに基づいて文書を検索するための文書検索プログラムであって、情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現であって探索対象とする情報またはサービスを表す表現として所定の文字列構造を有する不特定の言葉を含む表現の構文パターンを定めた抽出ルールを記憶する抽出ルール記憶部を備えたコンピュータに、検索対象となる文書または過去に検索した文書の内容を示す情報を文字列として含む文書データから、抽出ルール記憶部に記憶されている抽出ルールに定められた構文パターンに合致する表現を、情報入手型またはサービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語として抽出する第1の抽出処理、第1の抽出処理で抽出された検索タスク語の中から、利用者から入力された検索キーワードに関連する検索タスク語を検索し、利用者に対応する検索タスク語として抽出する第2の抽出処理、および第2の抽出処理で抽出された利用者に対応する検索タスク語を、検索キーワードの拡張に用いる拡張候補として表示する拡張候補表示処理を実行させることを特徴とする。
また、本発明による文書検索プログラムは、利用者から入力される検索キーワードに基づいて文書を検索するための文書検索プログラムであって、情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現であって探索対象とする情報またはサービスを表す表現として所定の文字列構造を有する不特定の言葉を含む表現の構文パターンを定めた抽出ルールを記憶する抽出ルール記憶部を備えたコンピュータに、検索対象となる文書または過去に検索した文書の内容を示す情報を文字列として含む文書データから、抽出ルール記憶部に記憶されている抽出ルールに定められた構文パターンに合致する表現を、情報入手型またはサービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語として抽出する第1の抽出処理、ユーザ端末から利用者が入力した検索キーワードを受信すると、第1の抽出処理で抽出された検索タスク語の中から、検索キーワードに関連する検索タスク語を検索し、利用者に対応する検索タスク語として抽出する第2の抽出処理、および第2の抽出処理で抽出された利用者に対応する検索タスク語を、検索キーワードの拡張に用いる拡張候補としてユーザ端末に表示させる拡張候補表示処理を実行させることを特徴とする。
本発明によれば、典型的な検索目的を表す表現の構文パターンを定めた抽出ルールに基づき、所定の文書データから、不特定の探索対象を表す表現を含む検索タスク語を抽出した上で、利用者から入力される検索キーワードに関連する検索タスク語を検索し、そのようにして抽出された利用者に対応する検索タスク語を検索キーワードの拡張に用いるので、利用者に、利用者から入力されたキーワードに基づく、利用者の検索目的をより自然な表現に拡張した検索キーワードを提供することができる。
また、利用者の検索目的を表現した拡張された検索キーワードを直接指定して検索を行うことができるので、検索回数を増やすことなく、目的とする文書を検索することができる。
また、実際の検索に使われた検索キーワードの利用頻度に基づいて抽出した検索タスク語をランク付けし、ランク付けした順位に基づいて拡張検索キーワードを提供するので、利用頻度が高い検索タスク語ほど、簡単に指定して検索することができる。
実施の形態1.
以下、本発明の実施の形態を図面を参照して説明する。図1は、本発明による文書検索装置の構成例を示すブロック図である。図1に示す文書検索装置は、CPU等のプログラムに従って動作するデータ処理装置1と、ハードディスク等の情報を記憶する記憶装置2と、キーボードやマウス等の入力装置3と、ディスプレイ装置やプリンタ等の出力装置4とを備える。また、データ処理装置1は、検索タスク語抽出手段11と、検索タスク語検索手段12とを含む。また、記憶装置2は、文書データ記憶部21と、検索タスク語抽出ルール記憶部22と、検索タスク語リスト記憶部23とを含む。
ここで、検索タスク語とは、利用者の検索目的に近いより自然な表現をいい、より具体的には、類型化した検索目的表現である。ここで、検索目的表現とは、利用者の検索目的を示す語句または文言であって、例えば、利用者の欲しい情報を表すのによく用いられる語句または文言や、利用者の欲しい情報が記載されている文書によく用いられている語句または文言に相当する。また、本発明による文書検索装置の検索対象の文書には、Webページや、新聞記事、スポーツニュース、論文、日記、掲示板、weblog(Web上に残される記録,ブログ)、メーリングリスト、メールマガジンなどがある。
文書データ記憶部21には、文書データとして、検索対象となる文書について、文書の所在を示す情報と、文書内容を示す情報とをあらかじめ記憶する。文書の所在を示す情報とは、例えば、URLや、所定のデータベースに記憶する際に対応づけられた識別IDである。文書の内容を示す情報とは、例えば、文書のタイトル、見出し、本文、要約である。また、文書データ記憶部21には、上記以外にも更新日時、収集日時、執筆者、執筆者の個人情報、ジャンルなどを記憶してもよい。
検索タスク語抽出ルール記憶部22には、検索タスク語を抽出するための検索タスク語抽出ルールとして、典型的な検索タスク(検索目的)を表す表現の構文パターンをあらかじめ記憶する。構文パターンとは、特定の単語や言い回しを持つ文字列の構造(例えば、品詞構造)の型をいう。つまり、検索タスク語抽出ルールは、検索タスク語として抽出する表現の構文上の条件を示す情報である。
ここで、検索タスク語抽出ルールの策定について説明する。典型的な検索タスクは、大きく以下の2つに分類することができる。
(a):情報入手型タスク
(b):サービス利用型タスク
情報入手型タスク(a)とは、利用者が必要とする情報を入手することによって達成されるタスク(目的)である。例えば、利用者の検索目的が、「自動車保険に関する基礎知識を入手する」や、「自動車保険に関する最新情報を入手する」である場合には、この利用者の検索目的は、情報入手型タスクに分類される。情報入手型タスクを達成するための探索戦略には、大きく分けて以下の6つの方法が考えられる。
(a−1):専門ポータルサイトや公式ページなどの専門サイトを探す(専門サイト探索戦略)
(a−2):掲示板やメーリングリストなどのコミュニティサイトを探す(コミュニティサイト探索戦略)
(a−3):最新情報が掲載されているニュースサイトを探す(ニュースサイト探索戦略)
(a−4):マニュアルや基礎知識など、体系的にまとめられた情報を探す(マニュアル探索戦略)
(a−5):専門家が集まる組織、イベントなどを探す(専門家探索戦略)
(a−6):「〜を知りたい」のように、情報を入手したい要望表現が書かれている文書を探す(情報要望探索戦略)
また、サービス利用型タスク(b)とは、利用者が必要とするサービスを利用することによって達成されるタスクである。例えば、利用者の検索目的が、「オンラインショッピングやオークションで商品を購入する」や、「ホテルやチケットなどを予約する」である場合には、この利用者の検索目的は、サービス利用型タスクに分類される。サービス利用型タスクを達成するための探索戦略には、大きく分けて以下の3つの方法が考えられる。
(b−1):ショッピングやオークションなど、商品を購入できるサイトを探す(ショッピングサイト探索戦略)
(b−2):地図や路線など、独自データベースの検索を提供しているサイトを探す(検索サイト探索戦略)
(b−3):「〜を〜したい」のように、サービスを利用したい要望表現が書かれている文書を探す(サービス要望探索戦略)
検索タスク語抽出ルールは、利用者の検索目的を達成するための方法を分類した探索戦略に基づいて、各探索戦略において探索対象を表す表現の構文パターンを作成することで定めることができる。従って、検索タスク語抽出ルールは、各探索戦略において探索対象を表す表現にもっぱら用いられる言葉やその言い回しを品詞として当てはめた品詞構造を作成することによって定めることができる。
図2は、検索タスク語抽出ルール記憶部22に記憶される検索タスク語抽出ルールの一例を示す説明図である。なお、図2の検索タスク語抽出ルール中の記号は、次のような意味をもつ。
[x]:品詞がxである単語
(x|y):品詞がxまたはyである単語
+:1回以上の繰り返し
?:直前にある正規表現または空文字列
ルール番号R1の検索タスク語抽出ルールは、専門サイト探索戦略(a−1)を対象とする構文パターンを抽出条件として定めたルールである。ルール番号R1の検索タスク語抽出ルール「([名詞]|[未知語])+(の|に関する)?(専門ポータル|公式サイト|オフィシャルサイト)」は、名詞または未知語の単語が1回以上連続した後、「の」または「に関する」または「(空文字列)」が続き、さらに「専門ポータル」または「公式サイト」または「オフィシャルサイト」が続く表現を検索タスク語として抽出することを表している。ここで、「クルマのことなら自動車専門ポータルへ」を入力文字列として与えるとする。例えば、形態素解析した結果「クルマ[品詞]/の[助詞]/こと[名詞]/なら[助動詞]/自動車[名詞]/専門[名詞]/ポータル[名詞]/へ[助詞]」であった場合には、「自動車[名詞]/専門[名詞]/ポータル[名詞]」の部分がルール番号R1に合致するため、「自動車専門ポータル」が検索タスク語として抽出される。
ルール番号R1に合致する検索タスク語の他の例としては、「自動車保険に関する専門ポータル」、「自動車メーカーの公式サイト」などが挙げられる。なお、検索タスク語抽出ルールの結びの文字列として、ここでは「専門ポータル」「公式サイト」「オフィシャルサイト」を挙げているが、他にも「リンク集」「専門サイト」「総合サイト」などといった表現も可能であり、本実施の形態に述べた表現に限定されない。
ルール番号R2の検索タスク語抽出ルールは、コミュニティサイト探索戦略(a−2)を対象とする構文パターンを抽出条件として定めたルールである。ルール番号R2の検索タスク語抽出ルール「([名詞]|[未知語])+(の|に関する)?(掲示板|チャット|コミュニティ|フォーラム)」は、名詞または未知語の単語が1回以上連続した後、「の」または「に関する」または「(空文字列)」が続き、さらに「掲示板」または「チャット」または「コミュニティ」または「フォーラム」が続く表現を検索タスク語として抽出することを表している。ここで、「自動車口コミ情報掲示板へようこそ」を入力文字列として与えるとする。例えば、形態素解析した結果「自動車[名詞]/口コミ[名詞]/情報[名詞]/掲示板[名詞]/へ[助詞]/ようこそ[感動詞]」であった場合には、「自動車[名詞]/口コミ[名詞]/情報[名詞]/掲示板[名詞]」の部分がルール番号R2に合致するため、「自動車口コミ情報掲示板」が検索タスク語として抽出される。
ルール番号R2に合致する検索タスク語の他の例としては、「自動車に関するチャット」、「自動車産業フォーラム」などが挙げられる。なお、検索タスク語抽出ルールの結びの文字列として、ここでは「掲示板」「チャット」「コミュニティ」「フォーラム」を挙げているが、他にも「メーリングリスト」「会議室」「BBS」などといった表現も可能であり、本実施の形態に述べた表現に限定されない。
ルール番号R3の検索タスク語抽出ルールは、ニュースサイト探索戦略(a−3)を対象とする構文パターンを抽出条件として定めたルールである。ルール番号R3の検索タスク語抽出ルール「([名詞]|[未知語])+(の|に関する)?(ニュース|速報|ブログ)」は、名詞または未知語の単語が1回以上連続した後、「の」または「に関する」または「(空文字列)」が続き、さらに「掲示板」またはニュース」または「速報」または「ブログ」が続く表現を検索タスク語として抽出することを表している。ここで、「F1レース結果速報」を入力文字列として与えるとする。例えば、形態素解析した結果「F[未知語]/1[未知語]/レース[名詞]/結果[名詞]/速報[名詞]」であった場合には、「F[未知語]/1[未知語]/レース[名詞]/結果[名詞]/速報[名詞]」の部分がルール番号R3に合致するため、「F1レース結果速報」が検索タスク語として抽出される。
ルール番号R3に合致する検索タスク語の他の例としては、「F1関連最新ニュース」、「自動車試乗ブログ」などが挙げられる。なお、検索タスク語抽出ルールの結びの文字列として、ここでは「ニュース」「速報」「ブログ」を挙げているが、他にも「プレスリリース」「日記」「記事」「レポート」「調査報告」などといった表現も可能であり、本実施の形態に述べた表現に限定されない。
ルール番号R4の検索タスク語抽出ルールは、マニュアル探索戦略(a−4)を対象とする構文パターンを抽出条件として定めたルールである。ルール番号R4の検索タスク語抽出ルール「([名詞]|[未知語])+(の|に関する)?(マニュアル|基礎知識|入門)」は、名詞または未知語の単語が1回以上連続した後、「の」または「に関する」または「(空文字列)」が続き、さらに「マニュアル」または「基礎知識」または「入門」が続く表現を検索タスク語として抽出することを表している。ここで、「自動車保険の基礎知識はこちら」を入力文字列として与えるとする。例えば、形態素解析した結果「自動車[名詞]/保険[名詞]/の[助詞]/基礎[名詞]/知識[名詞]/は[助詞]/こちら[名詞]」であった場合には、「自動車[名詞]/保険[名詞]/の[助詞]/基礎[名詞]/知識[名詞]」の部分がルール番号R4に合致するため、「自動車保険の基礎知識」が検索タスク語として抽出される。
ルール番号R4に合致する検索タスク語の他の例としては、「自動車整備マニュアル」、「自動車メンテナンス入門」などが挙げられる。なお、検索タスク語抽出ルールの結びの文字列として、ここでは「マニュアル」「基礎知識」「入門」を挙げているが、他にも「FAQ」「解説」「用語集」「レビュー」「論文」などといった表現も可能であり、本実施の形態に述べた表現に限定されない。
ルール番号R5の検索タスク語抽出ルールは、専門家探索戦略(a−5)を対象とする構文パターンを抽出条件として定めたルールである。ルール番号R5の検索タスク語抽出ルール「([名詞]|[未知語])+(の|に関する)?(専門家|委員会|セミナー)」は、名詞または未知語の単語が1回以上連続した後、「の」または「に関する」または「(空文字列)」が続き、さらに「専門家」または「委員会」または「セミナー」が続く表現を検索タスク語として抽出することを表している。ここで、「自動車防犯対策の専門家におまかせ」を入力文字列として与えるとする。例えば、形態素解析した結果「自動車[名詞]/防犯[名詞]/対策[名詞]/の[助詞]/専門[名詞]/家[名詞]/に[助詞]/おまかせ[名詞]」であった場合には、「自動車[名詞]/防犯[名詞]/対策[名詞]/の[助詞]/専門[名詞]/家[名詞]」の部分がルール番号R5に合致するため、「自動車防犯対策の専門家」が検索タスク語として抽出される。
ルール番号R5に合致する検索タスク語の他の例としては、「自動車リサイクル専門委員会」「自動車環境セミナー」などが挙げられる。なお、検索タスク語抽出ルールの結びの文字列として、ここでは「専門家」「委員会」「セミナー」を挙げているが、他にも「研究家」「達人」「鉄人」「職人」「学会」「協会」「研究会」「学校」「展示会」「展覧会」などといった表現も可能であり、本実施の形態に述べた表現に限定されない。
ルール番号R6の検索タスク語抽出ルールは、情報要望探索戦略(a−6)を対象とする構文パターンを抽出条件として定めたルールである。ルール番号R6の検索タスク語抽出ルール「([名詞]|[未知語])+(を|について|に関して)?(知りたい|教えて下さい|探す)」は、名詞または未知語の単語が1回以上連続した後、「を」または「について」または「に関して」または「(空文字列)」が続き、さらに「知りたい」または「教えて下さい」または「探す」が続く表現を検索タスク語として抽出することを表している。ここで、「自動車税について知りたい人はこちら」を入力文字列として与えるとする。例えば、形態素解析した結果「自動車[名詞]/税[名詞]/について[助詞]/知り[動詞]/たい[助動詞]/人[名詞]/は[助詞]/こちら[名詞]」であった場合には、「自動車[名詞]/税[名詞]/について[助詞]/知り[動詞]/たい[助動詞]」の部分がルール番号R6に合致するため、「自動車税について知りたい」が検索タスク語として抽出される。
ルール番号R6に合致する検索タスク語の他の例としては、「自動車保険について教えて下さい」「自動車ディーラーを探す」などが挙げられる。なお、検索タスク語抽出ルールの結びの文字列として、ここでは「知りたい」「教えて下さい」「探す」を挙げているが、他にも「調査する」「調べる」などといった表現も可能であり、本実施の形態に述べた表現に限定されない。
ルール番号R7の検索タスク語抽出ルールは、ショッピングサイト探索戦略(a−7)を対象とする構文パターンを抽出条件として定めたルールである。ルール番号R7の検索タスク語抽出ルール「([名詞]|[未知語])+(の|に関する)?(ショップ|オークション|比較サイト)」は、名詞または未知語の単語が1回以上連続した後、「の」または「に関する」または「(空文字列)」が続き、さらに「ショップ」または「オークション」または「比較サイト」が続く表現を検索タスク語として抽出することを表している。ここで、「自動車パーツに関するショップはこちら」を入力文字列として与えるとする。例えば、形態素解析した結果「自動車[名詞]/パーツ[名詞]/に関する[助詞]/ショップ[名詞]/は[助詞]/こちら[名詞]」であった場合には、「自動車[名詞]/パーツ[名詞]/に関する[助詞]/ショップ[名詞]」の部分がルール番号R7に合致するため、「自動車パーツに関するショップ」が検索タスク語として抽出される。
ルール番号R7に合致する検索タスク語の他の例としては、「中古自動車のオークション」「自動車保険比較サイト」などが挙げられる。なお、検索タスク語抽出ルールの結びの文字列として、ここでは「ショップ」「オークション」「比較サイト」を挙げているが、他にも「専門店」「オンラインストア」「フリマ」などといった表現も可能であり、本実施の形態に述べた表現に限定されない。
ルール番号R8の検索タスク語抽出ルールは、検索サイト探索戦略(a−8)を対象とする構文パターンを抽出条件として定めたルールである。ルール番号R8の検索タスク語抽出ルール「([名詞]|[未知語])+(の|に関する)?(検索サイト|専門検索|サーチエンジン)」は、名詞または未知語の単語が1回以上連続した後、「の」または「に関する」または「(空文字列)」が続き、さらに「検索サイト」または「専門検索」または「サーチエンジン」が続く表現を検索タスク語として抽出することを表している。ここで、「自動車教習所検索サイトはこちら」を入力文字列として与えるとする。例えば、形態素解析した結果「自動車[名詞]/教習所[名詞]/検索[名詞]/サイト[名詞]/は[助詞]/こちら[名詞]」であった場合には、「自動車[名詞]/教習所[名詞]/検索[名詞]/サイト[名詞]」の部分がルール番号R8に合致するため、「自動車教習所検索サイト」が検索タスク語として抽出される。
ルール番号R8に合致する検索タスク語の他の例としては、「自動車サイト専門検索」「自動車専用のサーチエンジン」などが挙げられる。なお、検索タスク語抽出ルールの結びの文字列として、ここでは「検索サイト」「専門検索」「サーチエンジン」を挙げているが、他にも「検索サービス」「専門サーチ」などといった表現も可能であり、本実施の形態に述べた表現に限定されない。
ルール番号R9の検索タスク語抽出ルールは、サービス要望探索戦略(a−9)を対象とする構文パターンを抽出条件として定めたルールである。ルール番号R9の検索タスク語抽出ルール「([名詞]|[未知語])+(を|が|について)?([名詞]|[動詞])(したい|できる|たい)」は、名詞または未知語の単語が1回以上連続した後、「を」または「が」または「について」または「(空文字列)」が続き、さらに名詞または動詞が続き、その後に「したい」または「できる」または「たい」が現れた場合に検索タスク語として抽出することを表している。ここで、「自動車を売却したい」を入力文字列として与えるとする。例えば、形態素解析した結果「自動車[名詞]/を[助詞]/売却[名詞]/し[動詞]/たい[助動詞]」であった場合には、「自動車[名詞]/を[助詞]/売却[名詞]/し[動詞]/たい[助動詞]」の部分がルール番号R9に合致するため、「自動車を売却したい」が検索タスク語として抽出される。
ルール番号R9に合致する検索タスク語の他の例としては、「自動車を買いたい」「自動保険を見直したい」などが挙げられる。なお、検索タスク語抽出ルールの結びの文字列として、ここでは「したい」「できる」「たい」を挙げているが、他にも「やりたい」「可能」「サービス」などといった表現も可能であり、本実施の形態に述べた表現に限定されない。
また、図2では、検索タスク語抽出ルールの他に、検索タスク語構パターンに対応する探索戦略と、検索タスク語構パターンに与えられたスコアとが記憶される例を示している。検索タスク語抽出ルール記憶部22に記憶されるスコアは、検索タスク語を抽出した際に、その検索タスク語のスコア値として加算される値である。検索タスク語抽出ルールのスコアに高低差をつけることによって、探索戦略の優先度を反映することも可能である。
検索タスク語リスト記憶部23は、検索タスク語抽出ルールに基づいて抽出された検索タスク語について、検索タスク語を識別するための検索タスク語番号と、スコア(図中では、スコア合計と表示)とを記憶する。また、検索タスク語リスト記憶部23には、検索タスク語を抽出する際に用いたルール番号または探索戦略を含めて記憶してもよい。図3は、検索タスク語リスト記憶部23が記憶する検索タスク語リストの一例を示す説明図である。図3では、例えば、検索タスク番号T1の検索タスク語「自動車専門ポータル」が、専門サイト探索戦略に関する抽出ルールを用いて抽出され、そのスコア値が1123であることを示している。
検索タスク語抽出手段11は、検索タスク語抽出ルールに基づいて、入力文字列から検索タスク語を抽出する。具体的には、入力文字列を形態素解析することによって分解し、分解した結果判明する入力文字列の構文パターンが検索タスク語抽出ルール記憶部22に記憶されている検索タスク語抽出ルールに合致するか否かを判定する。判定した結果、合致した場合には、合致した範囲の部分文字列を検索タスク語として抽出する。また、検索タスク語抽出手段11は、新規に検索タスク語を抽出した際に、検索タスク語番号を割り当てて検索タスク語リスト記憶部23に記憶させる。また、検索タスク語抽出手段11は、検索タスク語を抽出した際に、抽出に用いた検索タスク語抽出ルールに応じたスコアを、検索タスク語のスコアに加算する。従って、検索タスク語リスト記憶部23のスコアには、出現頻度に応じたスコア値が記憶されることになる。
本実施の形態において、検索タスク語抽出手段11は、入力文字列として、文書データ記憶部21に記憶されている文書データを用いる。検索タスク語抽出手段11は、文書データ記憶部21から文書データを読み込み、文書内容を示す情報として記憶されている、例えば、文書のタイトル、見出し、要約の各文を入力文字列とし、形態素解析する。他にも、リンクのアンカーテキスト、本文中の太字、下線または色で強調された文字列などを入力文字列の対象とすることも可能であり、また、これらに限定されない。
検索タスク語検索手段12は、入力手段3から入力される利用者からの検索キーワードを受け付け、入力された検索キーワードに関連する検索タスク語を検索タスク語リスト記憶部23から検索し抽出する。また、検索タスク語検索手段12は、抽出した検索タスク語を、検索キーワードの拡張に用いる拡張候補として出力手段4に出力する。
次に、図4を参照して本実施の形態の動作について説明する。図4は、本実施の形態における文書検索装置の動作例を示す流れ図である。本実施の形態による文書検索装置の動作は、大きく図4(a)に示す登録処理と、図4(b)に示す検索処理とに分けられる。
まず、登録処理について説明する。登録処理は、検索タスク語の抽出対象となる文書、ここでは文書データ記憶部21に記憶されている文書データから検索タスク語を抽出し、抽出した検索タスク語をスコア等とともに、検索タスク語リスト記憶部23に登録する処理である。登録処理は、検索処理の前に少なくとも1度は行っておく処理である。登録処理は、例えば文書データ記憶部21に文書データが記憶されていることを条件に、電源投入時に必ず行ってもよい。また、1度だけでなく文書データ更新の度に行ってもよいし、更新のタイミングに限らず、所定の周期毎に行ってもよい。
まず、検索タスク語抽出手段11は、文書データ記憶部21から文書データを読み込み、読み込んだ文書データから入力文字列を抽出する(ステップS11)。検索タスク語抽出手段11は、例えば、文書データ記憶部21に記憶されている文書データを読み込み、文書データに含まれる文書のタイトル、見出し、要約を句点や改行コード等の所定の区切り文字に基づいて文字列に分解し、入力文字列を抽出する。次に、検索タスク語抽出手段11は、抽出した文字列(入力文字列)を形態素解析することによって、形態素(品詞)に分解する(ステップS12)。例えば、文書データに含まれる文書のタイトルが、「クルマのことなら自動車専門ポータルへ」という文字列であった場合、検索タスク語抽出手段11は、入力文字列を、”クルマ[名詞]”と、”の[助詞]”と、”こと[名詞]”と、”なら[助動詞]”と、”自動車[名詞]”と、”専門[名詞]”と、”ポータル[名詞]”と、”へ[助詞]”とに分解する。
次に、検索タスク語抽出手段11は、形態素解析の結果、入力文字列が検索タスク語抽出ルールに合致するか否かを判定し、合致した場合には、合致した範囲の部分文字列を検索タスク語として抽出し、検索タスク語リスト記憶部23に抽出した検索タスク語を登録する(ステップS13)。検索タスク語抽出手段11は、入力文字列が検索タスク語抽出ルール記憶部22に検索タスク語抽出ルールとして記憶されている構文パターンに合致するか否かを判定し、判定した結果合致した場合には、合致した範囲の部分文字列を検索タスク語として抽出する。また、検索タスク語抽出手段11は、抽出した検索タスク語のスコアに検索タスク語抽出ルールで指定されているスコアを加算する。
検索タスク語抽出手段11は、抽出した検索タスク語が新規の検索タスク語である場合には、新たに検索タスク語番号を割り当てて、抽出した検索タスク語を検索タスク語リスト記憶部23に登録する。この際、検索タスク語のスコアには、検索タスク語抽出ルール記憶部22に記憶されているスコアを登録する。新規の検索タスク語でない場合には、検索タスク語抽出手段11は、既に登録されている検索タスク語リスト記憶部23のスコアに検索タスク語抽出ルール記憶部22に記憶されているスコアを加算し更新する。
例えば、図2に示す検索タスク語抽出ルールが検索タスク語抽出ルール記憶部22に記憶されている場合であって、入力文字列の形態素解析の結果が、「クルマ[品詞]/の[助詞]/こと[名詞]/なら[助動詞]/自動車[名詞]/専門[名詞]/ポータル[名詞]/へ[助詞]」であった場合には、「自動車[名詞]/専門[名詞]/ポータル[名詞]」の部分が、検索タスク語抽出ルールのルール番号R1に規定されている構文パターンに合致するため、合致した部分文字列である「自動車専門ポータル」を検索タスク語として抽出する。また、検索タスク語リスト記憶部23を検索した結果、抽出した検索タスク語が新規である場合には、検索タスク語番号を割り当てて検索タスク語リスト記憶部23に登録する。その際、検索タスク語のスコアには、検索タスク語抽出ルールのルール番号R1のスコアとして指定されている7を登録する。なお、既に検索タスク語リスト記憶部23に抽出した検索タスク語「自動車専門ポータル」が登録されている場合には、登録されている検索タスク語のスコア値に7を加算し更新する。
本実施の形態においては、検索タスク語抽出手段11が、文書データ記憶部21に記憶されている文書データを順に読み出して登録処理を行うことによって、検索タスク語リスト記憶部23に文書データ記憶部21の文書データから抽出した検索タスク語をあらかじめ登録しておくことができる。つまり、検索タスク語抽出手段11によって、文書データで用いられている表現の中から探索戦略において探索対象を表す表現、すなわち検索目的の表現としても使われる部分文字列を抽出し、検索タスク語リスト記憶部23に記憶しておくことができる。
次に、検索処理について説明する。検索処理は、利用者から入力された検索キーワードを拡張する処理である。まず、検索タスク語検索手段12は、入力手段3を通じて利用者からの検索キーワードの入力を受け付ける(ステップS21)。検索タスク語検索手段12は、例えば図5に示すような検索画面を表示する。図5は、検索画面の一例を示す説明図である。図5に示す検索画面は、大きくは検索初期画面G10と検索結果画面G20とに分かれ、検索タスク語検索手段12は、まず検索初期画面G10を表示してもよい。検索初期画面G10は、検索キーワードを入力項目とする入力フォームG11と、検索指示をするための検索ボタンG12とを含む。
ここでは、利用者が検索キーワードとして「自動車」を入力した場合を例にとって説明する。利用者が検索ボタンG12を押下すると、検索タスク語検索手段12は、検索指示の入力を受け付け、入力フォームG11に入力された検索キーワードを読み出す。次に、検索タスク語検索手段12は、入力された検索キーワードに関連する検索タスク語(以下、関連検索タスク語という。)を、検索タスク語リスト記憶部23から検索し抽出する(ステップS22)。検索タスク語検索手段12は、例えば、入力された検索キーワードを含む検索タスク語を検索してもよい。または、入力された検索キーワードの同義語を検索対象に含めることも可能である。
例えば、入力された検索キーワードが「自動車」であり、検索タスク語リスト記憶部23の記憶内容が図3に示すとおりである場合には、関連検索タスク語として、「自動車専門ポータル(T1)」、「自動車保険を見積りたい(T2)」、「自動車学校の検索サイト(T3)」、「自動車試乗レポートのブログ(T4)」、「自動車保険の基礎知識(T9)」、「自動車防犯対策の専門家(T10)」が検索される。
次に、検索タスク語検索手段12は、検索した結果抽出した関連検索タスク語を、検索キーワードの拡張に用いる拡張候補として、スコアの高い順に出力手段4を通して表示する(ステップS23)。検索タスク語検索手段12は、例えば、図5に示す検索結果画面G20を表示する。検索結果画面G20は、利用者が入力した検索キーワードに関連する検索タスク語を、検索キーワードの拡張に用いる拡張候補として表示する拡張候補表示画面G21を含む。
例えば、入力された検索キーワードが「自動車」であり、検索タスク語リスト記憶部23の記憶内容が図3に示すとおりである場合には、各検索タスク語のスコアに従って、「自動車専門ポータル(T1,スコア=1123)」、「自動車保険を見積りたい(T2,スコア=354)」、「自動車保険の基礎知識(T9,スコア=223)」、「自動車学校の検索サイト(T3,スコア=127)」、「自動車試乗レポートのブログ(T4,スコア=54)」、「自動車防犯対策の専門家(T10,スコア=37)」の順に、検索タスク語を表示する。
なお、ここでは、検索された検索タスク語を全て表示する場合について述べたが、スコアの上位n件の検索タスク語だけを表示することも、スコア値が閾値x以上の検索タスク語だけを表示することも、スコアの上位n件で、かつスコア値が閾値x以上の検索タスク語だけを表示することもでき、本実施の形態に述べた方法に限定されない。例えば、「スコアの上位5件で、かつスコア値が100以上の検索タスク語だけを表示」することにした場合には、拡張候補表示画面G21には、「自動車専門ポータル(T1,スコア=1123)」、「自動車保険を見積りたい(T2,スコア=354)」、「自動車保険の基礎知識(T9,スコア=223)」、「自動車学校の検索サイト(T3,スコア=127)」だけが表示される。
また、ここでは、文書データ記憶部21と、検索タスク語抽出ルール記憶部22と、検索タスク語リスト記憶部23とが同一装置に含まれる例を示したが、それぞれ別々の装置であってもよい。つまり、文書データ記憶部21と、検索タスク語抽出ルール記憶部22と、検索タスク語リスト記憶部23とが外部のデータベースによって実現される場合には、文書検索装置が、通信ネットワーク(例えば、インターネット)を介してアクセスすることで同様の動作が可能である。
このように、本実施の形態によれば、典型的な検索目的を表現した構文パターンに基づいて検索タスク語を抽出し、その中から利用者が入力した検索キーワードに関連する検索タスク語を抽出して表示するので、利用者は、自身の検索目的により近い自然な表現で表された検索タスク語を得ることができる。
実施の形態2.
次に、本発明の第2の実施の形態について図面を参照して説明する。図6は、第2の実施の形態による文書検索装置の構成例を示すブロック図である。図6に示す文書検索装置は、CPU等のプログラムに従って動作するデータ処理装置1と、ハードディスク等の情報を記憶する記憶装置2と、キーボードやマウス等の入力装置3と、ディスプレイ装置やプリンタ等の出力装置4とを備える。また、データ処理装置1は、検索タスク語抽出手段11と、検索タスク語検索手段12と、文書データ検索手段13とを含む。また、記憶装置2は、文書データ記憶部21と、検索タスク語抽出ルール記憶部22と、検索タスク語リスト記憶部23とを含む。図1に示す第1の実施の形態と比べて、文書データ検索手段13が追加されている点で異なる。
文書データ検索手段13は、利用者が指定した検索キーワードを用いて、検索キーワードに関連する文書データを、文書データ記憶部21から検索し抽出する。文書データ検索手段13が検索に用いる検索キーワードには、入力手段3を通じて入力された検索キーワードや、検索タスク語検索手段12が検索キーワードの拡張に用いる拡張候補として提示した検索タスク語から抽出されるキーワードが含まれる。なお、検索タスク語そのものをフレーズ検索として用いることも可能である。また、検索タスク語からさらに利用者が加工したものであってもよい。文書データ検索手段13は、例えば、文書データ記憶部21に記憶されている文書データのうち、文書内容を示す情報に検索キーワードを含む文書データを検索する。
次に、図7を参照して第2の実施の形態の動作について説明する。図7は、第2の実施の形態における文書検索装置の動作例を示す流れ図である。なお、本実施の形態における登録処理は、図4(a)に示す第1の実施の形態における登録処理と同様であるため、説明省略している。また、本実施の形態における検索処理のステップS21〜S23も、図4(b)に示す第1の実施の形態における検索処理のステップS21〜S23と同様であるため、説明省略している。
文書データ検索手段13は、利用者が指定した検索キーワード、例えば、入力手段3を通じて入力された検索キーワードや、検索タスク語検索手段12が提示した拡張検索キーワードから利用者が指定した拡張検索キーワードを形態素解析により分解する。次に、文書データ検索手段13は、分解された形態素から、名詞、動詞、形容詞、副詞などの自立語と未知語を抽出する。文書データ検索手段13は、抽出された単語を検索キーとして、
文書データ記憶部21に記憶されている文書データを検索し抽出する(ステップS24)。例えば、文書データ検索手段13は、文書データ記憶部21に文書内容を示す情報として記憶されている各文字列(タイトルや見出し、要約等)に、利用者が指定した検索キーワードから抽出される検索キーと一致する単語を含む文書データを検索して抽出する。
また、本実施の形態では、出力装置4はディスプレイ装置等の表示装置であり、例えば図8に示すような検索結果画面を表示する。図8は、第2の実施の形態における検索結果画面例を示す説明図である。図8に示す検索結果画面は、検索タスク語検索手段12が拡張候補として検索タスク語を出力する拡張候補表示画面G21と、文書データ検索手段13が検索した文書の情報を出力する検索結果表示画面G22とを含む。例えば、利用者から検索キーワードとして「自動車」が入力された場合には、検索タスク語検索手段12が「自動車」に関連する検索タスク語を抽出し、結果を拡張候補表示画面G21に表示するとともに、文書データ検索手段13が、「自動車」を検索キーとして文書データ記憶部21の文書データを検索し、結果を検索結果表示画面G22に表示する。
検索結果表示画面G22では、「自動車」がヒットした文書として、文書のタイトルと要約のリストを表示し、文書のタイトルがリンク機能を備え、これをクリックすると、該当文書の本文が閲覧できてもよい。また、拡張候補表示画面G21では、「自動車」に関連した検索タスク語のリストを表示し、検索タスク語がリンク機能を備え、これをクリックすると、該当検索タスク語が検索キーワードの拡張に用いる検索タスク語として選択されたとして、該検索タスク語に基づいて新たに検索キーワードを設定してもよい。この際、文書データ検索手段13は、新たな検索キーワードが設定されたことを受けて、再度、文書データ記憶部21の文書データを検索してもよい。なお、検索タスク語抽出手段11も、新たな検索キーワードが設定されたことを受けて、再度、新たな検索キーワードに関連する検索タスク語を検索することも可能である。
図9は、図8で示す検索結果画面にて、検索キーワードの拡張に用いる検索タスク語を指定した場合の検索結果画面例を示す説明図である。利用者は、検索キーワードの拡張に用いる検索タスク語として「自動車保険を見積もりたい」を選択したとする。図9では、検索タスク語検索手段12が、選択された「自動車保険を見積もりたい」という検索タスク語をさらに拡張できるような検索タスク語を検索タスク語リスト記憶部23から検索できなかったため、拡張候補表示画面G21を表示していない。検索結果表示画面G22には、文書データ検索手段13が、「自動車保険を見積もりたい」という検索キーワードに基づいて文書データ記憶部21の文書データを検索した結果、検索された文書の情報が出力されている。
文書データ検索手段13は、まず、「自動車保険を見積もりたい」を形態素解析によって分解する。次に、文書データ検索手段13は、分解した結果が「自動車[名詞]/保険[名詞]/を[助詞]/見積もり[動詞]/たい[助動詞]」であった場合に、自立語である「自動車」「保険」「見積もり」を検索キーとして抽出する。文書データ検索手段13は、抽出した検索キーを用いて、文書データ記憶部21の文書データを検索し、その結果を「自動車保険を見積もりたい」でヒットした文書として、検索結果表示画面G22に表示する。
なお、ここでは、文書データ検索手段13が、検索タスク語を形態素解析により分割して、文書データ記憶部21を検索する方法について述べたが、他にも検索タスク語を分割せずそのままフレーズ検索するなどの方法も考えられ、本実施の形態に述べた方法に限定されない。
このように、本実施の形態によれば、典型的な検索目的を表現した構文パターンと、利用者から入力された検索キーワードに基づいて検索タスク語を抽出し、抽出した検索タスク語を検索キーワードの拡張に用いる候補として表示し、選択された検索タスク語を使って文書を検索することができるので、利用者は、入力した検索キーワードから、利用者の検索目的をより自然に表現した検索タスク語を直接指定した検索拡張を行うことができる。
実施の形態3.
次に、本発明の第3の実施の形態について図面を参照して説明する。図10は、第3の実施の形態による文書検索装置の構成例を示すブロック図である。図10に示す文書検索装置は、CPU等のプログラムに従って動作するデータ処理装置1と、ハードディスク等の情報を記憶する記憶装置2と、キーボードやマウス等の入力装置3と、ディスプレイ装置やプリンタ等の出力装置4とを備える。また、データ処理装置1は、検索タスク語抽出手段11と、検索タスク語検索手段12と、検索タスク語スコア更新手段14とを含む。また、記憶装置2は、文書データ記憶部21と、検索タスク語抽出ルール記憶部22と、検索タスク語リスト記憶部23と、検索履歴記憶部24とを含む。図1に示す第1の実施の形態と比べて、検索タスク語スコア更新手段14と検索履歴記憶部24とが追加されている点で異なる。
検索履歴記憶部24には、入力手段3を通じて利用者から入力された過去の検索キーワードが、利用頻度とともに検索履歴データとして記憶される。図11は、検索履歴記憶部24に記憶される検索履歴データの一例を示す説明図である。図11は、例えば、「自動車」単独の検索キーワードが、過去13112回利用されたこと、「自動車」「保険」の組み合わせの検索キーワードが、過去8671回利用されたことを示している。なお、ここでは、検索キーワードとその利用頻度を例として示しているが、利用頻度を日付や時間毎に集計しておき、過去y日分の利用頻度としてもよい。
検索タスク語スコア更新手段14は、検索履歴記憶部24に記憶されている検索キーワードの利用頻度に基づいて、検索タスク語リスト記憶部23に登録している検索タスク語のスコアを補正し更新する。
次に、図12を参照して第3の実施の形態の動作について説明する。図12は、第3の実施の形態における文書検索装置の動作例を示す流れ図である。なお、本実施の形態における登録処理および検索処理は、図4に示す第1の実施の形態と同様のため、説明省略している。本実施の形態では、登録処理、検索処理に加え、さらに別の処理フェーズである更新処理が追加となる。更新処理は、検索タスク語リスト記憶部23に記憶されている検索タスク語のスコアを補正更新する処理であって、登録処理の後に必ず行ってもよいし、または、登録処理とは別の独立したタイミング(例えば、所定の周期毎)に行ってもよい。
まず、検索タスク語スコア更新手段14は、検索履歴記憶部24に記憶されている検索キーワードとその利用頻度を読み込む(ステップS31)。次に、読み込んだ検索キーワードを検索キーとして、検索タスク語リスト記憶部23に記憶されている検索タスク語を検索する。検索タスク語スコア更新手段14は、検索履歴記憶部24に記憶されている検索キーワードと一致する検索タスク語を検索して抽出し、その検索タスク語のスコアを更新する(ステップS32)。例えば、検索タスク語スコア更新手段14は、検索タスク語のスコア値に、利用頻度の対数を掛けてスコアの更新を行ってもよい。
例えば、検索履歴記憶部24に記憶されている検索履歴データが、図11に示すとおりであって、検索タスク語リスト記憶部23に記憶されている検索タスク語とそのスコアが図3に示すとおりである場合には、検索タスク語スコア更新手段14は、検索履歴記憶部24に記憶されている検索キーワード「自動車」を検索キーとして、検索タスク語リスト記憶部23から「自動車」が一致する検索タスク語「自動車専門ポータル」を検索により抽出する。検索タスク語「自動車専門ポータル」のスコア値が1123であり、検索履歴データの検索キーワード「自動車」の利用頻度が13112であることから、更新後のスコア値は、1123*log(13112)=4624となる。検索タスク語スコア更新手段14は、抽出した検索タスク語「自動車専門ポータル」のスコアを4624に更新する。
また、検索タスク語「自動車保険を見積もりたい」は、検索履歴記憶部24に記憶されている検索履歴データのK1「自動車」と、K2「自動車,保険」とに一致することから、検索タスク語「自動車保険を見積もりたい」の更新後のスコア値は、354*log(13112)*log(8671)=5740に更新される。
従って、過去に検索した検索キーワードと一致するほど、また、利用頻度が高い検索キーワードと一致するほど、検索タスク語のスコアが高くなり、検索処理にて拡張候補として表示する際に、上位に出現させることができる。
なお、ここでは、検索タスク語のスコアの更新方法として、検索キーワードの利用頻度の対数を掛ける方法について説明したが、他にもスコアに掛ける数値(増分)を検索キーワードの利用頻度を基準に量子化して決定する方法なども考えられ、本実施の形態に述べた方法に限定されない。増分を検索キーワードの利用頻度を基準に量子化する方法としては、検索履歴記憶部24に登録されている検索キーワードを利用頻度順に並べ、上位20%未満の増分を2.0倍、上位20%以降40%未満の増分を1.5倍、上位40%以降60%未満の増分を1.2倍、上位60%以降の増分を0.5倍とするなどの方法も可能である。
また、ここでは、過去の利用者の検索履歴を利用して検索タスク語のスコアを更新する方法について説明したが、他にもキーワードリストとその重要度を記憶し、利用頻度の代わりに重要度を用いて補正する方法も可能である。そのような場合には、特定のキーワードの重要度を高くすることで、特定のキーワードを含む検索タスク語を上位の拡張候補として表示することができる。
このように、本実施の形態によれば、検索キーワードの過去の利用頻度や重要度に応じて、検索タスク語のスコアを更新するので、過去に頻繁に利用したキーワードや、重要度の高いキーワードに関連する検索タスク語ほど、上位の拡張候補として出現させることができる。
実施の形態4.
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。図13は、第4の実施の形態による文書検索装置の構成例を示すブロック図である。図13に示す文書検索装置は、入力手段501と、データ処理装置502と、出力手段503と、記憶装置504と、本発明による文書検索装置を実現するための文書検索装置用プログラム500とを備える。また、文書検索装置用プログラム500は、記憶媒体(例えば、CD−ROM)から読み込んで実行されてもよいし、図示していないが、あらかじめ記憶装置に記憶し、記憶装置から読み込んで実行されてもよい。
入力手段501は、マウスやキーボード等の操作者からの指示を入力する入力装置である。データ処理装置502は、CPU等のプログラムに従って動作する処理装置である。出力手段503は、ディスプレイ装置やプリンタ等の処理結果を出力する出力装置である。文書検索装置用プログラム500は、データ処理装置502に読み込まれ、データ処理装置502の動作を制御し、記憶装置504に入力メモリ505とワークメモリ506を生成する。文書検索装置用プログラム500は、例えば、第1の実施の形態で示した文書検索装置の処理を実行するためのプログラムである。
入力メモリ505は、文書検索装置用プログラム500が参照する情報の領域を示している。例えば、文書検索装置用プログラム500が第1の実施の形態で示した文書検索装置の処理を実行するためのプログラムである場合には、入力メモリ505は、文書データ記憶部21が記憶されている記憶領域が確保される。ワークメモリ506は、文書検索装置用プログラム500が登録する情報の領域を示している。例えば、文書検索装置用プログラム500が第1の実施の形態で示した文書検索装置の処理を実行するためのプログラムである場合には、ワークメモリ506は、検索タスク語抽出ルール記憶部22と検索タスク語リスト記憶部23を記憶するための記憶領域が確保される。
本実施の形態における文書検索装置の動作は、文書検索装置用プログラム500の制御に従って動作する。文書検索装置用プログラム500が、例えば、第1の実施の形態で示した文書検索装置の処理を実行するためのプログラムである場合には、図4に示す第1の実施の形態による文書検索装置の動作と同様となる。
なお、第1の実施の形態においても説明したが、文書データ記憶部21が記憶されている記憶領域に相当する入力メモリ505は、記憶装置504に割り当てるのではなく、外部にあるデータベースに割り当てることも可能である。このような場合には、データ処理装置502が文書検索装置用プログラム500に従って、外部にあるデータベースにネットワーク(例えばインターネット)を介してアクセスすることで同様の動作を行うことが可能である。また、文書検索装置用プログラム500は、第1の実施の形態で示した文書検索装置の処理を実行するためのプログラムに限定されず、第2の実施の形態や第3の実施の形態で示した文書検索装置の処理を実行するためのプログラムであってもよい。
なお、これまでの実施の形態では、あらかじめ検索対象の文書データから検索タスク語を抽出して、検索タスク語リスト記憶部23に記憶しておくことによって、利用者が入力した検索キーワードと関連する検索タスク語を利用者に提示する例を示したが、利用者から入力された検索キーワードを用いて一旦検索を行い、その検索結果の文書データを文書データ記憶部21に記憶し、その文書データから利用者が入力した検索キーワードと関連する検索タスク語を抽出することも可能である。その際、検索タスク語リスト記憶部23に、検索タスク語を抽出した文書を示す情報を合わせて登録しておくことで、利用者が検索タスク語を選択した際に、再度検索することなく利用者の検索目的に合致する検索結果を提示することもできる。
実施の形態5.
次に、本発明の第5の実施の形態について図面を参照して説明する。図14は、第5の実施の形態による文書検索システムの構成列を示すブロック図である。図14に示す文書検索システムは、利用者が操作するユーザ端末600と、ユーザ端末600と通信ネットワークを介して接続される文書検索サーバ601とを備える。
ユーザ端末600は、通信ネットワーク(例えば、インターネット)を介して文書検索サーバと通信可能な、例えば、パーソナルコンピュータである。また、文書検索サーバ601は、通信ネットワークとの接続機能を備え、ユーザ端末からの要求に応じて検索タスク語や文書の検索結果を配信するサーバ装置である。なお、文書検索サーバ601は、第1〜第3の実施の形態のいずれかの文書検索装置と同様の構成を含み、同様の処理に従って動作する情報処理装置である。なお、図14では、1つのユーザ端末を示しているが、文書検索システムは複数のユーザ端末を含んでもよい。
文書検索サーバ601は、例えば、検索画面や検索結果画面をWebページとして提供する。なお、文書検索サーバ601には、検索画面および検索結果画面のページ情報をあらかじめ記憶しておく。ユーザ端末600は、利用者の操作に従って、例えば、文書検索サービスが提供する文書検索サイトにアクセスする。文書検索サーバ601は、ユーザ端末600からの要求に応じて検索画面のページ情報を送信する。ユーザ端末600は、文書検索サーバ601からページ情報を受信し、検索画面を表示する。ここで、利用者が検索キーワードを入力すると、ユーザ端末600は、ユーザ操作に従って文書検索サーバ601に利用者から入力された検索キーワードを送信する。
文書検索サーバ601は、検索キーワードを受信すると、検索処理に従って検索タスク語リスト記憶部23からユーザ端末600の利用者に応じた検索タスク語を抽出する。または、利用者が指定した検索キーワード(検索タスク語を含む)に基づいて、文書データ記憶部21から文書データを抽出する。なお、文書検索サーバ601は、あらかじめ登録処理に従って検索タスク語リスト記憶部23に検索タスク語を記憶させる。また、文書検索サーバ601は、検索タスク語または文書データを抽出すると、検索結果画面のページ情報をユーザ端末600に送信する。ユーザ端末600は、検索結果画面のページ情報を受信し、検索結果画面を表示する。
このように、本実施の形態では、ユーザ端末からの要求に応じて検索タスク語や文書の検索結果を配信するサービスを提供するビジネスモデルに適用できる。なお、第1の実施の形態においても説明したが、文書データ記憶部21を、外部のデータベースによって実現することも可能である。そのような場合には、文書検索サーバ601は、データベースを管理するデータベースサーバに文書データの読み出し要求を送信し、文書データを読み出してもよい。
なお、事業形態としては、文書検索サーバ601とデータベースサーバとを同一の事業者が所有するだけでなく、別の事業者が所有する場合も考えられる。つまり、別の事業者が所有する文書データに対して、検索タスク語リスト記憶部23を出力するなど、検索キーワードの拡張をアウトソーシングで行えるような事業形態であってもよく、本実施の形態に述べた事業形態に限定されない。
また、第3の実施の形態においても説明したが、検索履歴記憶部24の代わりに、キーワードリストとその重要度を記憶するキーワードリスト記憶部を備えてもよい。例えば、事業形態として、本システムを運営する事業者が広告提供者から広告料を受け取っている場合には、例えば、広告事業者から指定されるキーワードと広告提供者から支払われる広告料を重要度としてキーワードリスト記憶部に登録することも考えられる。そのような場合には、支払い金額の多い広告提供者が指定するキーワードを含む検索タスク語を上位の拡張候補として表示することも可能となる。
本発明によれば、利用者の検索目的により近い表現を使った検索拡張を行う文書検索サービスを提供できる。
本発明による文書検索装置の構成例を示すブロック図である。 検索タスク語抽出ルールの一例を示す説明図である。 検索タスク語リストの一例を示す説明図である。 文書検索装置の動作例を示す流れ図である。 検索画面の一例を示す説明図である。 第2の実施の形態による文書検索装置の構成例を示すブロック図である。 第2の実施の形態における文書検索装置の動作例を示す流れ図である。 第2の実施の形態における検索結果画面例を示す説明図である。 第2の実施の形態における検索結果画面例を示す説明図である。 第3の実施の形態による文書検索装置の構成例を示すブロック図である。 第3の実施の形態における検索履歴データの一例を示す説明図である。 第3の実施の形態における文書検索装置の動作例を示す流れ図である。 第4の実施の形態における文書検索装置の構成例を示すブロック図である。 第5の実施の形態による文書検索システムの構成列を示すブロック図である。 従来技術である特許文献1における検索語関連情報の説明図である。
符号の説明
1 データ処理装置
2 記憶装置
3 入力装置
4 出力装置
11 検索タスク語抽出手段
12 検索タスク語検索手段
13 文書データ検索手段
14 検索タスク語スコア更新手段
21 文書データ記憶部
22 検索タスク語抽出ルール記憶部
23 検索タスク語リスト記憶部
24 検索履歴記憶部

Claims (17)

  1. 利用者から入力される検索キーワードに基づいて、文書を検索する文書検索装置であって、
    情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現の構文パターンを定めた抽出ルールに基づいて、所定の文書データから、前記情報入手型または前記サービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語であって不特定の探索対象を表す表現を含む検索タスク語を抽出する検索タスク語抽出手段と、
    前記検索タスク語抽出手段によって抽出された検索タスク語の中から、前記利用者から入力された検索キーワードに関連する検索タスク語を検索し、前記利用者に対応する検索タスク語として抽出する関連検索タスク語検索手段とを備えた
    ことを特徴とする文書検索装置。
  2. 前記検索タスク語抽出手段が抽出した各検索タスク語のスコアを、抽出に用いた構文パターンに与えられたスコアと、抽出元となった文書データ内において同じ検索タスク語が出現する頻度とに基づいて算出するスコア算出手段と、
    前記関連検索タスク語検索手段によって抽出された前記利用者に対応する検索タスク語を、検索キーワードの拡張に用いる拡張候補として表示する拡張候補表示手段とを備え、
    前記拡張候補表示手段は、前記関連検索タスク語検索手段によって抽出された前記検索タスク語の中から、当該検索タスク語のスコアに基づいて、拡張候補として表示する検索タスク語を選択する
    請求項1記載の文書検索装置。
  3. 前記検索タスク語抽出手段は、情報入手型の検索目的を表す表現として、情報を入手できる旨または情報を提供している旨を表す表現を抽出するための構文パターンと、サービス利用型の検索目的を表す表現として、サービスを利用できる旨またはサービスを提供している旨を表す表現を抽出するための構文パターンのいずれか一方または両方の構文パターンを定めた抽出ルールに基づいて、検索タスク語を抽出する
    請求項1または請求項2に記載の文書検索装置。
  4. 前記検索タスク語抽出手段は、特定のトピックに関する、(1)「専門サイト」または専門に扱うサイト種別の呼称、(2)「コミュニティサイト」または情報交換を目的とするサイト種別の呼称、(3)「ニュースサイト」または最新情報を提供するサイト種別の呼称、(4)「マニュアル」または「基礎知識」または体系的にまとめた情報を提供する旨を示すサイトのタイトル、(5)「専門家」または「組織」または「イベント」、(6)情報を入手したい旨を示す要望表現、(7)「ショッピングサイト」または商品購入を目的とするサイト種別の呼称、(8)「検索サイト」または独自データベースの検索を提供するサイト種別の呼称、(9)サービスを利用したい旨を示す要望表現、をそれぞれ有する構文パターンのうちいずれか、または全ての構文パターンを定めた抽出ルールに基づいて、検索タスク語を抽出する
    請求項1から請求項3のうちのいずれか1項に記載の文書検索装置。
  5. 利用者から入力される検索キーワードに基づいて、文書を検索する文書検索装置であって、
    情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現であって探索対象とする情報またはサービスを表す表現として所定の文字列構造を有する不特定の言葉を含む表現の構文パターンを定めた抽出ルールを記憶する抽出ルール記憶部と、
    検索対象となる文書または過去に検索した文書の内容を示す情報を文字列として含む文書データから、前記抽出ルール記憶部に記憶されている抽出ルールに定められた構文パターンに合致する表現を、前記情報入手型または前記サービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語として抽出する検索タスク語抽出手段と、
    前記検索タスク語抽出手段によって抽出された検索タスク語の中から、前記利用者から入力された検索キーワードに関連する検索タスク語を検索し、前記利用者に対応する検索タスク語として抽出する関連検索タスク語検索手段と、
    前記関連検索タスク語検索手段によって抽出された前記利用者に対応する検索タスク語を、前記検索キーワードの拡張に用いる拡張候補として表示する拡張候補表示手段とを備えた
    ことを特徴とする文書検索装置。
  6. 前記抽出ルール記憶部は、構文パターンと、該構文パターンのスコアとを定めた抽出ルールを記憶し、
    前記検索タスク語抽出手段が検索タスク語を抽出した際に、前記抽出ルール記憶部に記憶される抽出に用いた構文パターンのスコアに基づいて、抽出した検索タスク語のスコアを算出するスコア算出手段を備え、
    前記拡張候補表示手段は、前記関連検索タスク語検索手段によって抽出された前記利用者に対応する検索タスク語の中から、該検索タスク語のスコアに基づいて、拡張候補として表示する検索タスク語を選択する
    請求項5記載の文書検索装置。
  7. 前記拡張候補表示手段が表示した検索タスク語の中から利用者が選択した検索タスク語を用いて、検索キーワードを拡張し、検索を行う検索手段を備えた
    請求項6記載の文書検索装置。
  8. 過去に利用者から入力された検索キーワードを含む検索履歴を記憶する検索履歴記憶部と、
    前記検索履歴記憶部に記憶された検索履歴に含まれる検索キーワードの利用頻度に基づいて、前記スコア算出手段が算出した検索タスク語のスコアを補正し、更新するスコア更新手段とを備えた
    請求項6または請求項7に記載の文書検索装置。
  9. 特定のキーワードと該キーワードの重要度を記憶するキーワードリスト記憶部を備え、
    前記キーワードリスト記憶部に記憶されたキーワードおよび重要度に基づいて、前記スコア算出手段が算出した検索タスク語のスコアを補正し、更新するスコア更新手段を備えた
    請求項6または請求項7に記載の文書検索装置。
  10. 利用者から入力される検索キーワードに基づいて、文書を検索する文書検索システムであって、
    ユーザ端末と、前記ユーザ端末と通信ネットワークを介して接続される文書検索サーバ装置とを備え、
    前記ユーザ端末は、利用者から入力された検索キーワードを送信する送信手段を備え、
    前記文書検索サーバ装置は、
    情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現であって探索対象とする情報またはサービスを表す表現として所定の文字列構造を有する不特定の言葉を含む表現の構文パターンを定めた抽出ルールを記憶する抽出ルール記憶部と、
    検索対象となる文書または過去に検索した文書の内容を示す情報を文字列として含む文書データから、前記抽出ルール記憶部に記憶されている抽出ルールに定められた構文パターンに合致する表現を、前記情報入手型または前記サービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語として抽出する検索タスク語抽出手段と、
    前記ユーザ端末から利用者が入力した検索キーワードを受信すると、前記検索タスク語抽出手段によって抽出された検索タスク語の中から、前記検索キーワードに関連する検索タスク語を検索し、前記利用者に対応する検索タスク語として抽出する関連検索タスク語検索手段と、
    前記関連検索タスク語検索手段によって抽出された検索タスク語を、前記検索キーワードの拡張に用いる拡張候補として前記ユーザ端末に表示させる拡張候補表示手段とを備えた
    ことを特徴とする文書検索システム。
  11. 前記抽出ルール記憶部は、構文パターンと、該構文パターンのスコアとを定めた抽出ルールを記憶し、
    前記文書検索サーバ装置は、
    前記検索タスク語抽出手段が検索タスク語を抽出した際に、前記抽出ルール記憶部に記憶される抽出に用いた構文パターンのスコアに基づいて、抽出した検索タスク語のスコアを算出するスコア算出手段を備え、
    前記拡張候補表示手段は、前記関連検索タスク語検索手段によって抽出された前記利用者に対応する検索タスク語の中から、該検索タスク語のスコアに基づいて、拡張候補として前記ユーザ端末に表示させる検索目的表現を選択する
    請求項10記載の文書検索システム。
  12. 前記文書検索サーバ装置は、
    キーワードと該キーワードの重要度を記憶するキーワードリスト記憶部と、
    前記キーワードリスト記憶部に記憶されたキーワードおよび重要度に基づいて、前記スコア算出手段が算出した検索タスク語のスコアを補正し、更新するスコア更新手段とを備えた
    請求項11に記載の文書検索システム。
  13. キーワードリスト記憶部は、文書の広告に用いられるキーワードと該キーワードの重要度を記憶する
    請求項12記載の文書検索システム。
  14. 利用者から入力される検索キーワードに基づいて、文書を検索する文書検索方法であって、
    情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現であって探索対象とする情報またはサービスを表す表現として所定の文字列構造を有する不特定の言葉を含む表現の構文パターンを定めた抽出ルールを予め所定の記憶装置に記憶しておき、
    検索タスク語抽出手段が、検索対象となる文書または過去に検索した文書の内容を示す情報を文字列として含む文書データから、前記記憶装置に記憶されている抽出ルールに定められた構文パターンに合致する表現を、前記情報入手型または前記サービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語として抽出し、
    関連検索タスク語検索手段が、前記検索タスク語抽出手段によって抽出された検索タスク語の中から、前記利用者から入力された検索キーワードに関連する検索タスク語を検索して前記利用者に対応する検索タスク語として抽出し、
    拡張候補表示手段が、前記関連検索タスク語検索手段によって抽出された前記利用者に対応する検索タスク語を、前記検索キーワードの拡張に用いる拡張候補として表示する
    ことを特徴とする文書検索方法。
  15. 利用者から入力される検索キーワードに基づいて、文書を検索する文書検索方法であって、
    情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現であって探索対象とする情報またはサービスを表す表現として所定の文字列構造を有する不特定の言葉を含む表現の構文パターンを定めた抽出ルールを予め所定の記憶装置に記憶しておき、
    ユーザ端末が、利用者から入力された検索キーワードを送信し、
    文書検索サーバ装置が、検索対象となる文書または過去に検索した文書の内容を示す情報を文字列として含む文書データから、前記記憶装置に記憶されている抽出ルールに定められた構文パターンに合致する表現を、前記情報入手型または前記サービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語として抽出し、
    前記文書検索サーバ装置が、ユーザ端末から利用者が入力した検索キーワードを受信すると、抽出された前記検索タスク語の中から、前記検索キーワードに関連する検索タスク語を検索して、前記利用者に対応する検索タスク語として抽出し、
    前記文書検索サーバ装置が、抽出された前記利用者に対応する前記検索タスク語を、前記検索キーワードの拡張に用いる拡張候補として前記ユーザ端末に表示させる
    ことを特徴とする文書検索方法。
  16. 利用者から入力される検索キーワードに基づいて文書を検索するための文書検索プログラムであって、
    情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現であって探索対象とする情報またはサービスを表す表現として所定の文字列構造を有する不特定の言葉を含む表現の構文パターンを定めた抽出ルールを記憶する抽出ルール記憶部を備えたコンピュータに、
    検索対象となる文書または過去に検索した文書の内容を示す情報を文字列として含む文書データから、前記抽出ルール記憶部に記憶されている抽出ルールに定められた構文パターンに合致する表現を、前記情報入手型または前記サービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語として抽出する第1の抽出処理、
    前記第1の抽出処理で抽出された検索タスク語の中から、前記利用者から入力された検索キーワードに関連する検索タスク語を検索し、前記利用者に対応する検索タスク語として抽出する第2の抽出処理、および
    前記第2の抽出処理で抽出された前記利用者に対応する検索タスク語を、前記検索キーワードの拡張に用いる拡張候補として表示する拡張候補表示処理
    を実行させるための文書検索プログラム。
  17. 利用者から入力される検索キーワードに基づいて文書を検索するための文書検索プログラムであって、
    情報入手型とサービス利用型の2種類に類型化した利用者の検索目的を表す表現であって探索対象とする情報またはサービスを表す表現として所定の文字列構造を有する不特定の言葉を含む表現の構文パターンを定めた抽出ルールを記憶する抽出ルール記憶部を備えたコンピュータに、
    検索対象となる文書または過去に検索した文書の内容を示す情報を文字列として含む文書データから、前記抽出ルール記憶部に記憶されている抽出ルールに定められた構文パターンに合致する表現を、前記情報入手型または前記サービス利用型に類型化される利用者の検索目的を表す表現である検索タスク語として抽出する第1の抽出処理、
    ユーザ端末から利用者が入力した検索キーワードを受信すると、前記第1の抽出処理で抽出された検索タスク語の中から、前記検索キーワードに関連する検索タスク語を検索し、前記利用者に対応する検索タスク語として抽出する第2の抽出処理、および
    前記第2の抽出処理で抽出された前記利用者に対応する検索タスク語を、前記検索キーワードの拡張に用いる拡張候補として前記ユーザ端末に表示させる拡張候補表示処理
    を実行させるための文書検索プログラム。
JP2005326482A 2005-11-10 2005-11-10 文書検索装置、文書検索プログラムおよび文書検索方法 Expired - Fee Related JP4997743B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005326482A JP4997743B2 (ja) 2005-11-10 2005-11-10 文書検索装置、文書検索プログラムおよび文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005326482A JP4997743B2 (ja) 2005-11-10 2005-11-10 文書検索装置、文書検索プログラムおよび文書検索方法

Publications (2)

Publication Number Publication Date
JP2007133688A JP2007133688A (ja) 2007-05-31
JP4997743B2 true JP4997743B2 (ja) 2012-08-08

Family

ID=38155290

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005326482A Expired - Fee Related JP4997743B2 (ja) 2005-11-10 2005-11-10 文書検索装置、文書検索プログラムおよび文書検索方法

Country Status (1)

Country Link
JP (1) JP4997743B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009053757A (ja) * 2007-08-23 2009-03-12 Toshiba Corp 情報処理装置、入力方法およびプログラム
WO2009136426A1 (ja) * 2008-05-08 2009-11-12 三菱電機株式会社 検索クエリ提供装置
JP5434146B2 (ja) * 2009-03-04 2014-03-05 日本電気株式会社 未来表現収集システム、未来表現収集方法および未来表現収集用プログラム
CN102012900B (zh) * 2009-09-04 2013-01-30 阿里巴巴集团控股有限公司 信息检索方法和系统
US8214344B2 (en) 2010-03-16 2012-07-03 Empire Technology Development Llc Search engine inference based virtual assistance
JP5480058B2 (ja) * 2010-08-03 2014-04-23 ヤフー株式会社 広告マッチング装置、方法及びプログラム
JP5403696B2 (ja) 2010-10-12 2014-01-29 株式会社Nec情報システムズ 言語モデル生成装置、その方法及びそのプログラム
JP5726815B2 (ja) * 2012-06-13 2015-06-03 日本電信電話株式会社 検索方法、システム、及びプログラム
JP2014157436A (ja) * 2013-02-15 2014-08-28 Hitachi Ltd 代案列車提示方法およびシステム
JP6173990B2 (ja) * 2014-09-16 2017-08-02 株式会社東芝 検索支援装置、方法およびプログラム
JP6647704B2 (ja) * 2015-06-29 2020-02-14 国立大学法人佐賀大学 検索候補語表示装置、検索候補語表示方法及び検索候補語表示プログラム
JP6109889B2 (ja) * 2015-08-04 2017-04-05 ヤフー株式会社 情報処理装置、方法及びコンピュータ・プログラム
JP2017220263A (ja) * 2017-09-20 2017-12-14 パイオニア株式会社 情報表示装置、検索キーワード生成方法、及び、検索キーワード生成プログラム
JP7264414B2 (ja) * 2017-12-26 2023-04-25 Necソリューションイノベータ株式会社 信頼性判定装置、信頼性判定方法、及びプログラム
WO2020234920A1 (ja) * 2019-05-17 2020-11-26 株式会社マネーフォワード 情報処理装置及びプログラム
JP7234079B2 (ja) * 2019-08-30 2023-03-07 トッパン・フォームズ株式会社 検索支援システム、検索支援方法、及びプログラム
JP7234078B2 (ja) * 2019-08-30 2023-03-07 トッパン・フォームズ株式会社 検索支援システム、学習システム、検索支援方法、及びプログラム
JP7234077B2 (ja) * 2019-08-30 2023-03-07 トッパン・フォームズ株式会社 検索支援システム、学習システム、検索支援方法、及びプログラム
CN110955763A (zh) * 2019-11-15 2020-04-03 深圳供电局有限公司 一种基于审计风险库的数据搜索方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3616507B2 (ja) * 1998-10-02 2005-02-02 沖電気工業株式会社 情報抽出装置

Also Published As

Publication number Publication date
JP2007133688A (ja) 2007-05-31

Similar Documents

Publication Publication Date Title
JP4997743B2 (ja) 文書検索装置、文書検索プログラムおよび文書検索方法
CN101501630B (zh) 计算机化搜索结果列表的排序方法及其数据库搜索引擎
US7680778B2 (en) Support for reverse and stemmed hit-highlighting
CN106663125B (zh) 提问句生成装置以及记录介质
Qiu et al. DASA: dissatisfaction-oriented advertising based on sentiment analysis
US8458207B2 (en) Using anchor text to provide context
Balog et al. Formal models for expert finding in enterprise corpora
US20170235841A1 (en) Enterprise search method and system
EP1389322B1 (en) Search query autocompletion
EP2347354B1 (en) Retrieval using a generalized sentence collocation
US20110179026A1 (en) Related Concept Selection Using Semantic and Contextual Relationships
US20100235311A1 (en) Question and answer search
US20140205985A1 (en) Method and Apparatus for Responding to an Inquiry
US20040078192A1 (en) Apparatus and method for identifying and/or for analyzing potential patent infringement
US20040078365A1 (en) Apparatus and method for identifying and/or for analyzing potential patent infringement
JP2008511075A5 (ja)
US8577887B2 (en) Content grouping systems and methods
CN101390096A (zh) 使用传播的文档相关性来训练排名功能
KR20140069006A (ko) 검색 안내에 기초하여 토픽을 제공하는 기법
WO2009073389A1 (en) Providing suggestions during formation of a search query
JP2009528636A (ja) 複数の書記体系を有する言語に対する関連のクエリーを識別するためのシステム及び方法
CN101281523A (zh) 查询扩展方法和装置以及相关检索词库
JPWO2007108529A1 (ja) 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
US7076497B2 (en) Method for providing and exchanging search terms between internet site promoters
Thomas et al. Trashy tags: problematic tags in LibraryThing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110301

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120417

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120430

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees