JP2004133564A - 文書検索装置 - Google Patents
文書検索装置 Download PDFInfo
- Publication number
- JP2004133564A JP2004133564A JP2002295537A JP2002295537A JP2004133564A JP 2004133564 A JP2004133564 A JP 2004133564A JP 2002295537 A JP2002295537 A JP 2002295537A JP 2002295537 A JP2002295537 A JP 2002295537A JP 2004133564 A JP2004133564 A JP 2004133564A
- Authority
- JP
- Japan
- Prior art keywords
- search
- information
- narrowing
- user
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】ユーザインタフェース3と、キーワード検索エンジン4とを備えた文書検索装置において、入力されたキーワードを含む文節と、その係元または係先となる文節とで絞り込み情報を作成して提示する絞り込み情報作成部5と、提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する係受け情報検索エンジン6を備えた。
【選択図】 図1
Description
【発明の属する技術分野】本発明は、ユーザが求める文書を効率的に、かつ漏れなく検索する文書検索装置に関する。
【0002】
【従来の技術】以下、従来例について説明する。
§1:従来例1
(1) :文書検索装置に関しては、検索条件としてユーザがキーワードを指定し、指定されたキーワードを含む文書を提示する方法が広く用いられている。しかしながら、上記のような「入力したキーワードを含む文書」を検索することがユーザの真の検索目的である事は少なく、「ユーザが検索したい文書」が含んでいる語句をユーザが想定し、それをキーワードとしユーザが入力する事で間接的に目的の文書を検索するのが一般的である。この点に着目すると、従来の検索方法には以下の2つの問題がある。
【0003】
(2) :第一の問題は、ユーザが目的とする文書にユーザが想定したキーワードが含まれていない場合に、その文書が検索できないという問題である。この問題を解決するためには、同義語やシソーラス情報を用いて、ユーザの入力キーワードに関してその同義語や上位語または下位語でも検索するという方法が広く用いられている。
【0004】
しかしながら、この方式を用いる場合には、入力が想定されるキーワードに関する同義語情報やシソーラス情報を用意する必要があり、それは非常に困難であるという別の問題が発生する。この問題を解決する発明としては、特許文献1の発明が上げられる。
【0005】
この発明は、予め、単語とその意味概念辞書及び概念間の格情報を含めた係り受け関係を記述した共起事例データベースを用意し、概念辞書にない未登録語が出現した場合は、その未登録語を含む文節と係り受け関係にある文節に含まれる単語概念及びその格情報で共起事例データベースを検索し、検索結果である共起事例において未登録語の位置にくる単語の意味概念を未登録語の意味概念の候補としてユーザに退治し、ユーザが正しい意味概念を選択させてその結果を新たに概念辞書に登録する事を要旨としている。
【0006】
ただし、単語は多義性を持つ場合があり、一つの共起事例でのみ得られた意味概念を以降の全ての文の解析に利用するのは、たとえユーザの確認フェーズを加えたとしてもユーザがその多義性に気がつかない場合があり、誤った登録が行われる危険性がある。
【0007】
(3) :第二の問題としては、ユーザの目的とする文書以外の不必要な文書も検索されてしまうという問題である。キーワード検索は、ユーザが検索を行いたい内容の文書に含まれていそうな単語をキーワードとして入力するという操作であるが、入力キーワードを含む文書であっても、その実際の記述内容は無数であり、ユーザが想定している記述内容以外の文書もヒットするのが原因となっている。
【0008】
例えば、ユーザが「無料のピアノ教室」に関する情報を知りたいという目的において、キーワードとして「無料&ピアノ教室」を入力した場合、「ピアノ教室でのレッスンの成果を、入場無料の市民コンサートで披露した」という文は検索条件にはヒットするが、ユーザの検索意図に合致しない。
【0009】
これに対して、検索文書そのものを提示する前に、文書中の入力キーワードを含んだ文中の入力キーワード前後の部分を提示し、ユーザはそれを見る事で元文書への不要なアクセスを抑止するといった工夫が行われている。しかしながらこの方式では、結局ユーザは提示される情報の全てに目を通す必要があり、提示情報を用いた絞り込みを行うことが出来ない。
【0010】
また、ユーザが想定している記述内容の文を含む文書を検索する方式としては、ユーザが検索条件として文を入力し、その文と同じ文意を持つ文を格納文書中より検索するといった方式が広く用いられている。ただしこの場合、入力した文と全く同じ記述を含む文書を検索するには、全文検索技術を用いれば簡単に実現できるが、これでは同じ文意で表層表現が異なる文を含む文書は検索できない。
【0011】
つまり、漏れの少ない検索を実現するには表層表現の違いを吸収する処理が必要となる。このような吸収処理の手段としては、文を係り受け組の形に分解し、文意の情報の過不足や、語順に関するバリエーションを吸収する方法が広く用いられている。この手段を用いた発明の例としては、特許文献2が挙げられる。以下、この発明について説明する。
【0012】
(4) :特許文献2に記載された発明の説明
特許文献2に記載された発明は、入力として「テキストを検索する」を指定した場合、2つの文節「テキストを」と「検索する」の係り受け関係を解析し、文節を構成する単語の同義語情報や受動態などの表現の揺れを吸収して検索を行い、「文書を探す」、「テキストが検索される」といった文を検索するものである。
【0013】
しかしながら、この発明において、用いられている単語レベルまたは文節レベルの変換のみでは検索できない文書が存在するといった問題がある。例えばこの方式においては、「テキストの検索を行う」といった入力文と同内容の文が検索できない。この問題は、入力文と同内容であるが、その係り受け構造が異なる文が存在する事がその本質である。
【0014】
この問題の一部を解決するための発明としては、特許文献3の発明が上げられる。以下、この発明について説明する。
【0015】
(5) :特許文献3の発明の説明
この発明は、同内容の埋め込み文(述語が主格に連帯修飾している文)や拡張格構造(「(主格)が(述語派生の名詞)を(遂行を表す動詞文節)」の構造を持つ文)も検索する事を可能にする発明である。これにより、「山田電機が開発する」という入力文に対して「〜を開発した山田電機」(埋め込み文)、「山田電機が開発を完了した」(拡張格構造の文)という記述を含む文も検索可能とするのがこの要旨である。しかしながら、係り受け構造のバリエーションはこれらのみで発生するものではなく、例えば「山田電機での開発は順調だ」といった文には対応できない。
【0016】
一方、文書検索手法としては、上記キーワード検索以外にも、ディレクトリ型検索と呼ばれる手法が広く知られている。この手法は、検索対象文書に階層的な分類カテゴリを付与しておき、ユーザは提示された分類カテゴリを選択していく事で目的の文書にたどり着くといったインタフェースを特徴としている。
【0017】
このインタフェースは、例えば、「バリアフリー」に関する文書を検索する時には最初に提示される分類カテゴリ名、「社会」から、「福祉」「バリアフリー」といった下位の分類カテゴリ名を選択していき、目的の文書にたどり着くといった操作である。
【0018】
この方式の場合、文書の表層上の記述文とは独立に、文書の内容で検索を行っているので、キーワード検索に伴う上記の諸問題は発生しないが、ユーザが求める文書がどの分類カテゴリに分類されているかを推測する必要があり、また分類カテゴリ体系も把握していないとうまく検索が行えないといった別の問題が発生する。
【0019】
上記例においては、分類カテゴリ「社会」を選択した際に提示される分類カテゴリの内、正解に至るカテゴリ名である「福祉」を選択せずに他のカテゴリを選択してしまった場合に、その下位カテゴリに「バリアフリー」が存在しない場合があり、検索に失敗してしまう。
【0020】
【特許文献1】
特開平6−195371号公報
【特許文献2】
特開平3−20866号公報
【特許文献3】
特開平7−244669号公報
【0021】
【発明が解決しようとする課題】
前記のような従来のものにおいては、ユーザが検索対象文書の記述内容で正しく検索を行う際に、次のような課題があった。
【0022】
▲1▼:ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示することができない。また、従来のディレクトリ型検索方式においては、次の絞り込み操作のための情報を提示するが、ここで提示される情報は、ユーザの検索観点により動的に生成されるものではない。
【0023】
▲2▼:入力キーワードの同義語を用いて記述されている文は、予め同義語辞書を用意せずに検索可能とする事ができない。
【0024】
本発明は、このような従来の課題を解決し、
▲1▼:ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示することができるようにする。その際に提示される情報は、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成されるものであるようにする。
【0025】
▲2▼:入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能とする、の少なくとも前記2点を実現させることを目的とする。
【0026】
【課題を解決するための手段】本発明は前記の目的を達成するため、次のように構成した。
【0027】
(1) :ユーザインタフェースと、キーワード検索エンジンとを備えた文書検索装置において、入力されたキーワードを含む文節と、その係元または係先となる文節とで絞り込み情報を作成して提示する絞り込み情報作成部と、提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する係り受け情報検索エンジンを備えたことを特徴とする。
【0028】
(2) :前記(1) の文書検索装置において、前記絞り込み情報作成部は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして、絞り込み情報を作成する機能を備えていることを特徴とする。
【0029】
(3) :前記(1) 又は(2) の文書検索装置において、前記絞り込み情報作成部は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する機能を備えていることを特徴とする。
【0030】
(4) :前記(1) 乃至(3) のいずれかの文書検索装置において、前記絞り込み情報作成部は、選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する機能を備えていることを特徴とする。
【0031】
(5) :前記(1) 乃至(3) のいずれかの文書検索装置において、予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する主題抽出部、およびユーザが検索時にその検索観点を入力するユーザインタフェースを具備し、かつ、作成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する絞り込み情報作成部を備えたことを特徴とする。
【0032】
(作用)
前記構成に基づく本発明の作用を、図1に基づいて説明する。
【0033】
(a) :前記(1) では、絞り込み情報作成部5は、入力されたキーワードを含む文節と、その係元または係先となる文節とで絞り込み情報を作成してユーザに提示する。係受け情報検索エンジン6は、提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する。
【0034】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0035】
(b) :前記(2) では、絞り込み情報作成部5は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして、絞り込み情報を作成する。
【0036】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報としてユーザに提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0037】
(c) :前記(3) では、絞り込み情報作成部5は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する。
【0038】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報は、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0039】
さらに、絞り込み情報としてまとまった形式で提示されるので、提示された情報が多すぎるために、次のユーザの選択操作を阻害することがない。
【0040】
(d) :前記(4) では、絞り込み情報作成部5は、選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する。
【0041】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。
【0042】
また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。更に、ユーザが十分な絞り込み結果を得るまで処理を繰り返すので、十分な絞り込みによる検索が可能になる。
【0043】
(e) :前記(5) では、主題抽出部7は、予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する。また、ユーザインタフェース3は、ユーザが検索時にその検索観点を入力する。そして、絞り込み情報作成部5は、作成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する。
【0044】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0045】
【発明の実施の形態】以下、本発明の実施の形態を図面に基づいて詳細に説明する。
【0046】
§1:文書検索装置の概要
以下、図1を参照しながら文書検索装置の概要を説明する。
【0047】
(1) :本発明に係る文書検索装置では、ユーザのキーワード入力及び検索結果の提示を行うユーザインタフェース3及び入力されたキーワードを含む文を検索するキーワード検索エンジン4から構成される従来のキーワード型文書検索装置において、更に、入力キーワードを含む文節に関する係り受け情報を整理して提示する絞り込み情報作成部5、停止された絞り込み情報の中でユーザが選択した結果より文書の検索を行う係り受け情報検索エンジン6と主題抽出部7とを具備するものである。
【0048】
(2) :前記各処理部の例と処理の概要を、ある検索タスクを例として説明する。なお、ユーザインタフェース3以外の全ての処理は、計算機上のプログラムとして実現可能である。
【0049】
例とする検索タスクは、あるソフトウェア製品において、処理終了後に本来削除されるべき一時ファイルが残ってしまうという不具合を解決するために、過去の障害事例(ここでは「不具合の内容とその対処方法が記載された文書」を想定する)が格納されたデータベース(DB)を検索するというものである。
【0050】
(3) :ユーザインタフェース3
ユーザが検索を行うための検索条件を入力する手段及び、処理結果のユーザへの提示を行う手段を具備するものであり、キーボード等の入力デバイス及びモニタ等の出力デバイスで実現可能である。以下の検索タスクにおいては「一時ファイル」がキーワードとして入力される。
【0051】
(4) :キーワード検索エンジン4
前記ユーザインタフェース3によって入力されたキーワードを含む文を検索するものであり、従来の全文検索エンジン等がそのまま流用可能である。
【0052】
§2:文書検索装置の構成と処理の説明
(1) :文書検索装置の構成の説明
図2は文書検索装置の構成図である。文書検索装置2は、ユーザインタフェース3と、キーワード検索エンジン4と、絞り込み情報作成部5と、係り受け情報検索エンジン6と、主題抽出部7と、絞り込み情報作成ルール格納DB8と、検索対象文書DB9と、主題抽出ルール格納DB10等を備えている。なお、前記DBは全てデータベースのことである。
【0053】
前記構成において、絞り込み情報作成ルール格納DB8は、絞り込み情報作成部5が情報を参照して絞り込み情報を作成するDBである。検索対象文書DB9は、キーワード検索エンジン4と係り受け情報検索エンジン6が使用するもの(参照/格納)するDBである。主題抽出ルール格納DB10は、主題抽出部7が検索対象文書から主題を抽出する際に参照するDBである。
【0054】
(2) :処理例の説明
図3は文書検索装置の処理説明図である。以下、図1及び図3に基づいて文書検索装置全体の処理を説明する。
【0055】
▲1▼:絞り込み情報作成部5は、入力されたキーワードを含む文節と、その係元または係先となる文節とで絞り込み情報を作成してユーザに提示する。係受け情報検索エンジン6は、提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する。
【0056】
▲2▼:絞り込み情報作成部5は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして、絞り込み情報を作成する。
【0057】
▲3▼:絞り込み情報作成部5は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する。
【0058】
▲4▼:絞り込み情報作成部5は、選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する。
【0059】
▲5▼:主題抽出部7は、予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する。また、ユーザインタフェース3は、ユーザが検索時にその検索観点を入力する。そして、絞り込み情報作成部5は、生成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する。 図1に示した図示矢印及び図中の(a) 〜(Z) の内容は次の通りである。図1中の矢印は情報の流れを示しており、(a) はユーザが入力したキーワード等の検索条件、(g) は(a) の検索エリア、(b) は(g) に対する検索結果、(c) は検索結果から絞り込み情報を作成するための情報、(d) は(b) 、(c) から作成された絞り込み情報、(e) は提示された(d) において、絞り込み情報を用いて更に絞り込みを行うとした場合のユーザの選択情報、(i) は(e) の検索エリア、(f) は(i) に対する検索結果である。また、検索結果(f) に関して、(b) と同様に(c) を用いて新たな絞り込み情報(d) が生成されてユーザに提示される。
【0060】
例1〜例3(請求項1〜3に対応)の装置においては、新たに生成した(d) より検索対象文書への参照情報がユーザに提示されるが、例4(請求項4に対応)の装置に関しては、絞り込み情報(d)が十分な絞り込みを達成した場合には同様に、(d) 中の検索対象文書への参照情報がユーザに提示されるが、そうでない場合には、更に新たに選択情報(e) がユーザに与えられて、それを基に再度(d) が生成される。
【0061】
また、他の例で述べた例5(請求項5に対応)の発明に関しては、これは、検索対象文書DBを構築する際に、キーワードまたは係り受け情報からの検索処理において、その検索対象を文書に含まれている全ての文を対象にするのではなく、その主題抽出結果にのみ制限してDBが構築される。
【0062】
この処理は、ユーザの検索操作に先立ち、DBの構築時に実施されるが、そのための処理における情報の流れも図1に示されており、(X) は検索対象文書内のテキスト情報及び検索対象文書への参照情報、(Y) は主題抽出を行うためのルール、(z) は(X) に(Y) が適用される事によって抽出された主題及び検索対象文書への参照情報である。
【0063】
(3) :フローチャートによる処理例1の説明
図4は検索時の処理フローチャート1である。以下、図4に基づいて、検索時の処理フローチャート1の処理(処理例1とする)を説明する。なお、この処理例は、請求項1〜3に対応する処理例であり図3も参照しながら説明する。また、S1〜S6は各処理ステップを示す。
【0064】
先ず、ユーザ操作により検索条件(a) が入力されると(S1)、キーワード検索エンジン4は検索対象文書DB9に対し文書情報検索を行い、検索結果(b) を得る(S2)。次に、絞り込み情報作成部5は、キーワード検索エンジン4から検索結果(b) を受け取り、絞り込み情報作成ルール格納DB8を参照して絞り込み情報を作成し(S3)、ユーザインタフェース3を介してユーザに提示する(S4)。
【0065】
次に、ユーザ操作により、提示された絞り込み情報の選択が行なわれ、ユーザの選択情報(e) が入力されると(S5)、係り受け情報検索エンジン6は検索対象文書DB9を対象として検索を行い、検索結果(f) を得る。その後、絞り込み情報作成部5は、係り受け情報検索エンジン6からの検索結果(f) を受け取り、ユーザインタフェース3を介してユーザに提示する(S6)。
【0066】
(4) :フローチャートによる処理例2の説明
図5は検索時の処理フローチャート2である。以下、図5に基づいて、検索時の処理フローチャート2の処理(処理例2とする)を説明する。なお、この処理例は、請求項4に対応する処理例であり、S11〜S17は各処理ステップを示す。
【0067】
先ず、ユーザ操作により検索条件(a) が入力されると(S11)、キーワード検索エンジン4は検索対象文書DB9に対し文書情報検索を行い、検索結果(b) を得る(S12)。次に、絞り込み情報作成部5は、キーワード検索エンジン4から検索結果(b) を受け取り、絞り込み情報作成ルール格納DB8を参照して絞り込み情報を作成し(S13)、ユーザインタフェース3を介してユーザに提示する(S14)。
【0068】
次に、ユーザにより絞り込みが十分か否かが判断され(S15)、十分でなければ、ユーザ操作により絞り込み情報選択を行い(S16)、その後、S12の処理へ移行し、前記のS12からの処理が繰り返される。また、ユーザにより絞り込みが十分であれば、ユーザインタフェース3を介してユーザに検索結果の提示が行なわれる(S17)。
【0069】
§3:絞り込み情報作成部の詳細な説明
(1) :例1の説明
▲1▼:概要
絞り込み情報作成部5は、検索された文から、公知である係り受け解析手段を用いて、その文の係り受け組(係り元文節表記と係り先文節表記の組で表現される。以後「係り元文節表記−係り先文節表記」の形で記述する)を獲得し、その係り受け組を基に次の絞り込み操作のための情報を作成する。
【0070】
また、絞り込み情報の生成に用いる係り受け組は、上記のように検索された文に対して係り受け解析処理を行って獲得しても良いが、予め全検索対象文書に対して係り受け解析を行っておき、前記キーワード検索エンジンの検索対象を文書中の文ではなく、その係り受け組を対象にする事でも獲得可能である。
【0071】
獲得した係り受け組から絞り込み情報を生成する際に、まず獲得した係り受け組の表層表現を統一する必要がある。これは同じ内容を意味する係り受け組を、同じ表層表現の係り受け組に統一する処理である。この処理を行う事により、記述内容で検索を行うという本発明の目的に合致した絞り込み情報を提示する事を実現すると共に、ある入力に対して提示する絞り込み情報を削減する事により、ユーザの選択処理の負担を軽減する事もできる。この表層表現の統一処理としては、例えば次のような処理が上げられる。
【0072】
▲2▼:文節の統一処理
文節の表現の揺れを吸収する処理である。公知の係り受け解析手法においては、まず文を形態素解析手法により形態素に分解し、ついでそれらを文法的なルールに基づき文節にまとめあげ、最後に文節の属性情報に基づきその係り受け関係を推定するといった処理を行う。この場合、各文節においてはその文節を構成する形態素が分かっているので、その形態素情報に基づいて、例えば文法的には副助詞と呼ばれる形態素を削除するといった処理を行う。副助詞として例えば「〜をも」という文節における「も」が挙げられる。
【0073】
また、係り受け解析処理とは別に、これも公知である並列構造解析手段を用いて、並列文節に関して格助詞を補完するといった処理も行える。例えば「ファイルやディレクトリを削除する」といった文からは「ファイルや−削除する」「ディレクトリを−削除する」という係り受け組が抽出されるが、並列構造解析により、文節「ファイルや」と文節「ディレクトリを」が並列構造となっている事が判明しているので、前者の文節に関して上記の副助詞の削除を行い、その並列構造の文節の助詞を補完する事で、「ファイルを−削除する」といった文節を生成する処理である。
【0074】
この処理は副助詞を伴わずに読点で並列構造を表現するような次の文「ファイル、ディレクトリを削除する」にも適用され、同様に「ファイルを−削除する」という係り受け組を生成する事になる。更に、文の述語となる文節が過去の助動詞などを含む場合に、その助動詞を削除して現在形に変換する処理も考えられる。これにより、「残った」という文節が「残る」と変換される事になる。
【0075】
また、上記形態素解析手法において利用される形態素解析用の辞書に、表記の揺れを吸収するための情報を格納しておき、例えば、検索対象文書中の表記が「インタフェース」であった場合でも、「インタフェース」に変換するといった文節を構成する形態素の表記を変換するといった処理も可能である。
【0076】
▲3▼:係り受け組の統一処理の説明
この処理は、係り受け組としての表記を標準化する処理である。例えば、述語となる文節が受動態の助動詞を持つ場合に、それを係り先とする名詞相当語とガ格の助詞から構成される文節とでなる係り受け組を、名詞相当語とヲ格の助詞から構成される文節と、能動態の述語文節からなる係り受け組に変換するといった処理である。
【0077】
この処理により、「ファイルが−削除される」という係り受け組が、「ファイルを−削除する」に変換される。なお、同様の処理が自動詞と他動詞の間にも行うことが可能である。この場合、自動詞と他動詞の関係にある動詞の情報が必要になるが、この情報は一般的な電子化辞書から取得可能である。この処理により、例えば「ファイルを−残す」が「ファイルが−残る」に変換される。
【0078】
▲4▼:文節の結合処理の説明
検索された文から獲得される係り受け組を組み合わせて、絞り込みに有用な形の係り受け組に変換する処理である。例えば、「セルが空白になる」という文における処理が上げられる。この文は通常の文法に基づく係り受け処理では「セルが−なる」「空白に−なる」という二つの係り受け組が得られるが、「なる」という動詞に関しては、検索キーとしての情報が乏しく、「セルが−なる」という係り受け組だけではその記述内容は推測できない。
【0079】
そこで、この二つを結合して「セルが−空白になる」という形で係り受け組を構成することにより、その係り受け組のみで内容が把握可能な形とすることができる。
【0080】
また、「情報がセーブされない事がある。」という文において、通常の文法に基づく係り受け解析結果は、「情報が−セーブされない」、「セーブされない−事が」、「事が−ある」となる。しかしながらこの記述は「情報がセーブされない」事が主たる表現内容であって「事がある」は、この内容に「必ず起こるとは限らない」というニュアンスを付加しているとみなせる。
【0081】
このような補助的な内容を表す係り受け組は検索キーとして意味がないのでこれらを結合して「情報が−セーブされない事がある」を係り受け情報とする。この係り受け組の係り先文節は、さらに上記処理により「情報を−セーブしない」と変換される。また、元の文が「情報がセーブされる事はない」である場合も、同様に「情報を−セーブしない」に変換されるような変換ルールを設定する。
【0082】
このような結合処理を行うべき文節は、「事」、「もの」、「する」、「ある」、「ない」といった、それだけでは絞り込みのキーとしては広過ぎる少数の名詞や述語にのみ行えば良く、それらに関するルールを設定するのは容易である。
【0083】
以上の処理によって、今回の検索タスクにおいて入力されたキーワードからは「一時ファイル−削除する」「一時ファイルが−残る」「一時ファイルを−削除しない」「一時ファイルを−破壊する」「ディレクトリ内の−一時ファイル」「生成する−一時ファイル」といった係り受け組が絞り込み情報として提示される。
【0084】
(2) :例2(請求項2に対応)の説明
例2(請求項2に対応)では、絞り込み情報作成部5は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして、絞り込み情報を作成する機能を備えている。これに関しては、ユーザがキーワードと共に、そのキーワードの文中における用法を入力する機能をユーザインタフェースに追加し、その用法にマッチする係り受け組のみを絞り込み情報として提示することができる。
【0085】
キーワードの用法とは例えば、「入力キーワードが助詞を伴って述語に係る」や「入力キーワードを係り先とする修飾表現」といったものであり、前者の用法をユーザが入力した場合には、上記例においては、「ディレクトリ内の−一時ファイル」及び「生成した−一時ファイル」の二つの係り受け組がユーザの指定した用法に合致しないので絞り込み情報として提示されない。この処理により、ユーザの想定していない係り受け関係における情報は提示されないので、不要な絞り込み情報の提示を抑制する事ができる。
【0086】
次に、生成した係り受け組に対して、絞り込み情報としてユーザが活用しやすい形式にまとめる。この処理としては、その係り受け組が獲得される文を含む文書数と共に提示するのが最も単純な例として挙げられる。今回の検索タスクにおいては、「入力キーワードが助詞を伴って述語にかかる」というキーワードの用法を指定した時には、例えば図6の「提示結果1」のような形式に整形してユーザインタフェースを通じてユーザに提示することになる。
【0087】
ユーザは提示された情報に基づき、今回の検索タスクにおいては「一時ファイルを−削除しない」及び「一時ファイルが−残る」を選択し、選択された係り受け組を含む文書を検索することができる。
【0088】
この時、今回の検索タスクにおいてユーザが想定していた「一時ファイルが残る」といった表現だけでなく、「一時ファイルを−削除しない」といった同意の表現を含む文も、絞り込み情報として提示されているので検索できる。
【0089】
これは一般的には「削除しない」と「残る」は同義語と言えないが、係り受け組で表現されたフレーズとしては同義であるといった、単語単位の同義語では処理不可能な同意性の判定をユーザに任せる事により実現している。
【0090】
また、この提示結果から文書を検索するのではなく、提示された文節がキーワードとして入力された時と同様の処理を行い、再度、絞り込み情報として提示する処理を行う検索モードを具備する事も可能である。例えば、絞り込み情報中の文節「残る」を選択し、その用法として「述語文節に係る助詞を伴う名詞文節」を指定した場合、図7の「提示結果2」のような情報をユーザに提示する。
【0091】
この提示結果においては、「data.tmp」はユーザがキーワードとして想定した「一時ファイル」の具体的なファイル名であると推定できるので、係り受け組「data.tmpが−残る」を検索キーにして文書を行う事で、当初入力したキーワードを用いていないが同じ内容の文を含む文書も検索可能となる。
【0092】
なお、上記の例は最も簡単な提示形式であるが、入力されたキーに対する文節のバリエーションが多い場合には、そこから選択する処理は非効率的になる可能性がある。
【0093】
(3) :例3(請求項3に対応)の説明
例3(請求項3に対応)では、絞り込み情報作成部5は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する機能を備えている。
【0094】
前記のように、入力されたキーに対する文節のバリエーションが多い場合には、そこから選択する処理は非効率的になる可能性がある。これを解決するため、例3では提示結果に対して、階層的なまとめ挙げ処理を行い、各エントリを一度に提示する代わりにそのカテゴリ名を提示することで一度に提示する情報量を抑制し、ユーザの効率的な選択を支援するような形式で提示する機能を具備している。
【0095】
例えば、図7の「提示結果2」において、提示する文節が持っている助詞に注目し、同じ助詞を伴う文節をまとめ挙げて、その助詞種別のカテゴリ名を提示するといった処理である。この場合の提示結果は図8の「提示結果3」のようになる。
【0096】
ここで、ユーザがカテゴリ名「〜が」を選択し、例えばユーザインタフェース画面に「カテゴリを展開する」というメニューを追加し、ユーザがそれを選択した時に、その具体的な文節である「一時ファイルが」、「プロセスが」・・・といった実際の文節が提示され、ユーザはその提示結果からさらに選択操作を行う事ができる。
【0097】
また、このカテゴリ名を選択し、別メニューとして「検索を行なう」というメニューを用意し、選択された分類カテゴリ名で文書の検索を行う事も考えられる。その場合には、その分類カテゴリに属する文節が選択されたとして検索が行なわれる。
【0098】
このようなまとめ挙げ処理としては、上記のような助詞に注目した分類カテゴリのみではなく、他にも種々のものが考えられる。
【0099】
そのような分類基準の例として、名詞文節を構成する複合語の部分形態素の一致によるカテゴリを作成する事もできる。これは例えば、「ファイルが」、「一時ファイルが」、「データファイルが」「画像ファイルが」・・・といった「〜ファイルが」となる文節のバリエーションが多い場合には、カテゴリ名を「〜ファイルが」とするカテゴリを自動的に作成し、絞り込み情報を提示する際に、まずはそのカテゴリ名「〜ファイルが」を提示する事で一度提示する絞り込み情報を削減する事ができる。
【0100】
また、このように複数の分類カテゴリ名を用意する事により、あるカテゴリの展開結果に別のカテゴリ名が出力される事もある。上の例の場合は、まず分類カテゴリ「〜が」の展開を行うと、「ディレクトリが」「プロセスが」といった具体的な文節や「〜ファイルが」といったカテゴリ名がユーザに提示される。
【0101】
この提示結果中のカテゴリ「〜ファイルが」を指定してさらに展開を行うと、そのカテゴリに属する具体的な文節である「ファイルが」「一時ファイルが」「データファイルが」「画像ファイルが」といった実際の文節が提示される事になる。
【0102】
また、以上の例は、「文節A(〜が)−文節B(〜する)」と表現可能な係り受け組において、文節A及び文節Bの具体的な文節を、キーワードの入力や提示された絞り込み情報からの選択によりユーザが指定して検索を行うものである。
【0103】
(4) :例4(請求項4に対応)の説明
これに対して例4(請求項4に対応)では、絞り込み情報作成部5は選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する機能を備えている。
【0104】
すなわち、文節Aまたは文節Bに関する他の係り受け組を用いてさらなる絞り込みを行うことを特徴としている。これは例えば、「一時ファイルが−残る」という係り受け組を持つ文書が多量に存在する場合に、さらに絞り込みを行う機能を提供するものである。
【0105】
例えば、元の文が「一時ファイルがディレクトリ上に残る」である場合、「一時ファイルが−残る」だけでなく、「ディレクトリ上に−残る」という係り受け組も得られるが、この係り受け組を利用してさらに絞り込み情報を作成してユーザに提示する。
【0106】
ユーザは新たに提示された結果を選択する事でさらに絞り込みを行う事ができる。このように機能を具備した検索装置において、例えば、第1の選択処理により、「一時ファイルが−残る」を選択し、次の絞り込み情報を作成する際に利用する係り受け関係を「係り先文節に対する他の係り受け組」を選択した場合には、図9の「提示結果4」のような結果が提示される。
【0107】
この例は、係り先文節に属する係り受け組をさらに絞り込むための情報に利用しているが、係り元文節である「一時ファイルが」を係り先とする係り受け組、例えば「更新する−一時ファイル」、「カレントの−一時ファイル」といった係り受け組を絞り込み情報として利用する事も可能である。
【0108】
またここで提示される「更新する」といった文節のように、それがさらに他の係り受け組の係り先文節となっている場合には、その係り元文節でさらに絞り込み情報を作成する事もできる。例えば、この時点でのユーザの選択情報は、「一時ファイル−残る」「更新する−一時ファイル」であり、そこからさらに、「更新する」にヲ格で係る文節で細分化するとユーザが選択した場合には図10の「提示結果5」のような絞り込み情報が提示される。
【0109】
このようにある文節に関して、その文節に関する係り受け組で絞り込み情報を提示する装置の内部処理と、提示結果をユーザが選択する操作及び選択結果からの文書の絞り込みという一連の処理を、十分な絞り込み結果になるまで繰り返す事で、目的とする文書を効率良く検索することができる。なお、ユーザへの提示形式は上記例に限るものではなく、本発明の要旨を変えない範囲で変更が可能である。
【0110】
§4:係り受け情報検索エンジンの詳細な説明
検索結果である文書集合から、前記絞り込み情報作成部5によって作成された絞り込み情報がユーザに提示されるが、その文書の件数が十分に少数である場合、そこから文書が検索されてユーザインタフェース3を通じてユーザに提示される。一方、絞り込み情報が十分でなく、さらに文書の絞り込みを行う必要があるとユーザが判断した場合には、ユーザは提示された絞り込み情報の選択操作を行う事になる。
【0111】
係り受け情報検索エンジン6では、前記の選択された絞り込み情報を用いて、それを含む文またはその文を含む文書を検索する処理を行う。この処理は、例えば、絞り込み情報を構成する文節を含む文を全文検索により検索し、その結果に対して係り受け解析処理を行なって係り受け組を抽出し、絞り込み情報の係り受け組とマッチングを行なって、適合するものを検索結果として提示する事で実現可能である。
【0112】
また、検索対象文書から予め全ての係り受け組を抽出しておき、その係り受け組を関係データベースに格納し、格納した関係データベースにおいて、絞り込み情報にマッチするものを検索結果として提示する事も実現可能である。
【0113】
例えば、図10の「提示結果5」における一番上の提示結果が選択された場合には、一文に「予約データを−更新する」「更新する−一時ファイル」「一時ファイルが−残る」という係り受け組情報が作成されてユーザに提示される。
【0114】
§5:他の例(主題獲得手段等)の詳細な説明
前記構成を持つ文書検索装置で課題は解決されるが、より効率的な検索を実現する文書検索装置として、「予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する主題獲得手段、およびユーザが検索時にその検索観点を入力するユーザインタフェースを具備し、かつ、生成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する絞り込み情報作成部を備えた」構成の文書検索装置が提案されている。以下、この装置の構成について説明する。これらの手段は計算機上のプログラムとして実現可能である。
【0115】
(1) :主題抽出部
前節で説明に使用した検索タスクにおいては、検索対象文書はあるソフトウェア製品に関する不具合の内容とその対策方法を記述した障害事例である。ここで各障害事例の表層的な記述の仕方は、無数のバリエーションが存在するが、障害内容の具体的記述が必ず存在し、この記述がユーザの検索を行う際に検索対象として想定する部分である。このような検索対象文書に記載されている種々の内容の中で、ユーザが文書の内容で検索を行う際にキーとして想定される記述内容を主題と呼ぶことにする。
【0116】
例えば、「キャンセル処理を行なった所、一時ファイルが残る」という記事文においては実際の不具合の記述は「一時ファイルが残る」であり、その前の部分「キェンセル処理を行なった所」はその不具合が起こるための条件を記述している部分である。ユーザが障害事例の検索を行う際には、その障害の具体的内容で検索を行うのが自然であり、この例においては、「一時ファイルが残る」の部分がその障害事例の主題となる。
【0117】
前記のように、例5(請求項5に対応)の文書検索装置は、この主題を抽出する手段を具備し、キーワード検索及び絞り込み情報の作成などの処理を文書中の主題を記述する部分に限定して行うことで、ユーザの想定した内容で正しく検索を行うことを可能にしたものである。
【0118】
例えば、ユーザが「(本来削除されるはずの)一時ファイルが残る」といった障害事例を検索したい場合には「仕様通り一時ファイルが残るが、データが破壊される」という記述の障害事例は検索されるべきではない。
【0119】
この事例の不具合は、一時ファイルが残る事ではなく、データが破壊される事であるからである。例5(請求項5に対応)の文書検索装置によれば、障害の内容を記述している部分に処理を限定するので、この記述内の「データが破壊される」にのみ処理が行なわれるのでこの障害事例はうまく排除される事になる。
【0120】
このような検索対象文書より主題を抽出する手段は、対象文書の種別や特徴に基づく抽出ルールを用意し、そのルールにマッチする記述を抽出する事で実現する。このルールとは、例えば、対象文書が新聞記事であるならば、記事中の第1文を抽出するといった簡単なものもあるし、また、障害事例においては、
▲1▼最初の文が「(名詞文節A)−(述語文節B)」.「(述語文節B)−(述語文節D)」.「(名詞文節祖)−(述語文節D)」の3つの係り受け組を含み、(述語文節B)の最後の付属語が接続助詞の「が」で終わる場合、「(名詞文節C)−(述語文節D)」を主題として抽出する。
【0121】
▲2▼障害を発生させるための手順が記述されている場合、その最後の項目の文を抽出する。
【0122】
といった、文の係り受け関係のパターンや文書構造に基づく抽出ルールが挙げられる。
【0123】
前者のルールにおいては、上で例として挙げた記述「仕様通り一時ファイルが残るが、データが破壊される」(含まれる係り受け組は「仕様通り−残るが」「一時ファイルが−残るが」「残るが−破壊される」「データが−破壊される」)がマッチするので主題として「データが−破壊される」が抽出される。
【0124】
後者のルールにおいては、例えばある障害事例が以下のように、その障害を再現させるための手順が箇条書きにされている場合において、
1.更新処理を起動する。
2.処理の終了直前にキャンセルをかけて処理を中断させる。
3.ディレクトリに一時ファイルが残る。
【0125】
「ディレクトリに一時ファイルが残る」が主題として抽出される。勿論、この抽出結果である文に対して係り受け解析を行なって、主題となる係り受け組を選択するルール(例えば、「述語にガ格で係る名詞文節、ニ格で係る名詞文節の両方が存在する場合にはニ格で係る名詞節は削除する。」)を適用して、「一時ファイルが−残る」のみを主題として抽出する事も可能である。
【0126】
以上、主題抽出ルールとしていくつか挙げたが、抽出ルールは例のように、また格納文書内の文そのものに対して抽出ルールを適用する事は必須ではなく、例えば対象文書に対して公知である自動要約処理を行なった結果を処理対象とする事もできる。
【0127】
また、検索対象文書の主題として抽出される記述がただ一つである必要はなく、例えば、「〜したら、システムが異常終了し、一時ファイルが残る」という記述からは「システムが−異常終了する」、「一時ファイルが−残る」といった2つの係り受け組が主題として抽出される。
【0128】
更に、以上の説明は、文書の主題が一つである場合の説明をしているが、ユーザが検索を行うと想定される記述内容が一つに限らない事もある。まず、「一時ファイルが残る」という記述内容で検索を行い、その検索結果が大量である場合に、上の説明では副次的記述として廃棄されていたその障害の起きる状況でさらに検索を行うという操作は自然である。
【0129】
このような検索操作を可能にするのが例5(請求項5に対応)の文書検索装置である。この文書検索装置においては、主題を一つの検索観点(例では「障害内容」)のものに限定せずに、複数の検索観点を用意し、各々の検索観点に基づいてその記述部分を主題として文書中より抽出し、ユーザが検索時に指定した検索観点に合致する主題を処理の対象とする事で実現される。
【0130】
このような抽出を行うためのルールは、文書内の記述から適合する部分をその検索観点と共に主題として抽出するものである。このルールの例としては、上記の一つの検索観点に基づく主題のみを抽出するルールを拡張した以下のものがある。
【0131】
▲1▼:最初の文が「(名詞文節A)−(述語文節B)」、「(述語文節B)−(述語文節D)」、「(名詞文節C)−(述語文節D)」の3つの係り受け組を含み、(述語文節B)の最後の付属語が接続助詞の「が」で終わる場合、「(名詞文節A)−(述語文節B)」を検索観点「発現条件記述」として抽出し、「(名詞文節C)−(述語文節D)」を主題検索観点「障害内容記述」として抽出する。
【0132】
▲2▼:障害を発生させる手順が箇条書きで記述されている場合、その最後の項目の文を検索観点「障害内容記述」、その以前の項目の文を検索観点「発現条件記述」として抽出する。
【0133】
ユーザの操作としては、まず用意された検索観点の1つの検索観点をユーザが選択して検索作業を行い、その検索結果に関して、別の検索観点でさらに絞り込みを行うものである。例えば、ユーザは検索観点「障害内容記述」を選択し、まず本発明の装置が提供する機能を用いて検索作業を行い、求める障害内容が記述された障害事例を検索する。
【0134】
この件数が多い時には、この検索結果を対象にして、さらに検索観点「発現条件記述」で検索を行うといった効率的な検索が実現される。
【0135】
§6:具体的な装置例と記録媒体の説明
図11は具体的な装置例である。前記文書検索装置は、ワークステーション、パーソナルコンピュータ等の任意のコンピュータにより実現することができる。この装置は、コンピュータ本体21と、該コンピュータ本体21に接続されたディスプレイ装置22、入力装置(キーボード/マウス等)23、リムーバブルディスクドライブ(「RDD」という)24、ハードディスク装置(「HDD」という)25等で構成されている。
【0136】
そして、コンピュータ本体21には、内部の各種制御や処理を行うCPU26と、プログラムや各種データを格納しておくためのROM27(不揮発性メモリ)と、メモリ28と、インタフェース制御部(「I/F制御部」という)29と、通信制御部30等が設けてある。なお、前記RDD24には、フレキシブルディスクドライブや光ディスクドライブ等が含まれる。
【0137】
前記構成の装置において、例えば、HDD25の磁気ディスク(記録媒体)に、前記文書検索装置の処理を実現するためのプログラムを格納しておき、このプログラムをCPU26が読み出して実行することにより、前記文書検索装置が行う処理を実行する。
【0138】
しかし、本発明は、このような例に限らず、例えば、HDD25の磁気ディスクに、次のようにしてプログラムを格納し、このプログラムをCPU26が実行することで前記処理を行うことも可能である。
【0139】
▲1▼:他の装置で作成されたリムーバブルディスクに格納されているプログラム(他の装置で作成したプログラムデータ)を、RDD24により読み取り、HDD25の記録媒体に格納する。
【0140】
▲2▼:通信回線を介して他の装置から伝送されたプログラム等のデータを、通信制御部30を介して受信し、そのデータをHDD22の記録媒体(磁気ディスク)に格納する。
【0141】
前記の説明に対し、次の構成を付記する。
(付記1)
ユーザインタフェースと、キーワード検索エンジンとを備えた文書検索装置において、
入力されたキーワードを含む文節と、その係元または係先となる文節とで絞り込み情報を作成して提示する絞り込み情報作成部と、
提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する係り受け情報検索エンジンを備えたことを特徴とする文書検索装置。
【0142】
(付記2)
前記絞り込み情報作成部は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして、絞り込み情報を作成する機能を備えていることを特徴とする(付記1)記載の文書検索装置。
【0143】
(付記3)
前記絞り込み情報作成部は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する機能を備えていることを特徴とする(付記1)または(付記2)に記載の文書検索装置。
【0144】
(付記4)
前記絞り込み情報作成部は、選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する機能を備えていることを特徴とする(付記1)乃至(付記3)のいずれかに記載の文書検索装置。
【0145】
(付記5)
予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する主題抽出部、およびユーザが検索時にその検索観点を入力するユーザインタフェースを具備し、かつ、
作成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する絞り込み情報作成部を備えたことを特徴とする(付記1)乃至(付記3)のいずれかに記載の文書検索装置。
【0146】
(付記6)
コンピュータに、
入力されたキーワードを含む文節と、その係元または係先となる文節とで絞り込み情報を作成して提示する絞り込み情報作成部と、
提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する係り受け情報検索エンジンの機能を実現させるためのプログラム、又は該プログラムを記録したコンピュータ読み取り可能な記録媒体。
【0147】
【発明の効果】以上説明したように、本発明によれば次のような効果がある。
(1) :請求項1では、絞り込み情報作成部は、入力されたキーワードを含む文節と、その係元または係先となる文節とで絞り込み情報を作成してユーザに提示する。係り受け情報検索エンジンは、提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する。
【0148】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0149】
(2) :請求項2では、絞り込み情報作成部は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして絞り込み情報を作成する。
【0150】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0151】
(3) :請求項3では、絞り込み情報作成部は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する。
【0152】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0153】
さらに、提示される絞り込み操作のための情報がカテゴリにまとめられているので、次の絞り込みにおいて、効率的な操作を行うことを可能にする。
【0154】
(4) :請求項4では、絞り込み情報作成部は、選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する。
【0155】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。
【0156】
また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。更に、ユーザが十分な絞り込み結果を得るまで処理を繰り返すので、十分な絞り込みによる検索が可能になる。
【0157】
(5) :請求項5では、主題抽出部は、予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する。また、ユーザインタフェースは、ユーザが検索時にその検索観点を入力する。そして、絞り込み情報作成部は、生成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する。
【0158】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】本発明の実施の形態における文書検索装置の構成図である。
【図3】本発明の実施の形態における文書検索装置の処理説明図である。
【図4】本発明の実施の形態における検索時の処理フローチャート1である。
【図5】本発明の実施の形態における検索時の処理フローチャート2である。
【図6】本発明の実施の形態における提示結果1を示した図である。
【図7】本発明の実施の形態における提示結果2を示した図である。
【図8】本発明の実施の形態における提示結果3を示した図である。
【図9】本発明の実施の形態における提示結果4を示した図である。
【図10】本発明の実施の形態における提示結果5を示した図である。
【図11】本発明の実施の形態における具体的に装置例である。
【符号の説明】
1 ユーザ
2 文書検索装置
3 ユーザインタフェース
4 キーワード検索エンジン
5 絞り込み情報作成部
6 係り受け情報検索エンジン
7 主題抽出部
8 絞り込み情報作成ルール格納データベース(絞り込み情報作成ルール格納DB)
9 検索対象文書データベース(検索対象文書DB)
10 主題抽出ルール格納データベース(主題抽出ルール格納DB)
21 コンピュータ本体
22 ディスプレイ装置
23 入力装置(キーボード/マウス等)
24 リムーバブルディスクドライブ(RDD)
25 ハードディスク装置(HDD)
26 CPU(中央演算処理装置)
27 ROM(リードオンリメモリ)
28 メモリ
29 インタフェース制御部(I/F制御部)
30 通信制御部
Claims (5)
- ユーザインタフェースと、キーワード検索エンジンとを備えた文書検索装置において、
入力されたキーワードを含む文節と、その係元または係先となる文節とで絞り込み情報を作成して提示する絞り込み情報作成部と、
提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する係り受け情報検索エンジンを備えたことを特徴とする文書検索装置。 - 前記絞り込み情報作成部は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして、絞り込み情報を作成する機能を備えていることを特徴とする請求項1記載の文書検索装置。
- 前記絞り込み情報作成部は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する機能を備えていることを特徴とする請求項1または2に記載の文書検索装置。
- 前記絞り込み情報作成部は、選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する機能を備えていることを特徴とする請求項1乃至請求項3のいずれかに記載の文書検索装置。
- 予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する主題抽出部、およびユーザが検索時にその検索観点を入力するユーザインタフェースを具備し、かつ、
作成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する絞り込み情報作成部を備えたことを特徴とする請求項1乃至請求項3のいずれかに記載の文書検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002295537A JP4177070B2 (ja) | 2002-10-09 | 2002-10-09 | 文書検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002295537A JP4177070B2 (ja) | 2002-10-09 | 2002-10-09 | 文書検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004133564A true JP2004133564A (ja) | 2004-04-30 |
JP4177070B2 JP4177070B2 (ja) | 2008-11-05 |
Family
ID=32285744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002295537A Expired - Fee Related JP4177070B2 (ja) | 2002-10-09 | 2002-10-09 | 文書検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4177070B2 (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005031950A (ja) * | 2003-07-11 | 2005-02-03 | Canon Inc | 情報検索装置、情報検索方法およびプログラム |
JP2007200321A (ja) * | 2006-01-27 | 2007-08-09 | Xerox Corp | 言語ユーザインターフェース |
JP2007310663A (ja) * | 2006-05-18 | 2007-11-29 | Nec Corp | 情報検索支援システム、情報検索支援方法および情報検索支援プログラム |
WO2009004930A1 (ja) * | 2007-07-02 | 2009-01-08 | Nec Corporation | 検索システム、検索方法およびプログラム |
JP2010009215A (ja) * | 2008-06-25 | 2010-01-14 | Yahoo Japan Corp | テキスト抽出装置、そのシステム、その方法、および、そのプログラム |
JP2015095180A (ja) * | 2013-11-13 | 2015-05-18 | Kddi株式会社 | 絞り込み検索のためのクエリ語の選択候補を明示するコンテンツ検索プログラム、装置及び方法 |
JP2016091269A (ja) * | 2014-11-04 | 2016-05-23 | 株式会社東芝 | 外国語文作成支援装置、方法及びプログラム |
US10114888B2 (en) | 2015-07-13 | 2018-10-30 | Y's Reading Inc. | Terminal, system, method, and program for presenting sentence candidate |
CN112182148A (zh) * | 2020-09-14 | 2021-01-05 | 山西和耀科技有限公司 | 一种基于全文检索的标准辅助编写方法 |
CN114780690A (zh) * | 2022-06-20 | 2022-07-22 | 成都信息工程大学 | 基于多模态矩阵向量表示的专利文本检索方法及装置 |
CN117573704A (zh) * | 2024-01-17 | 2024-02-20 | 上海合见工业软件集团有限公司 | Eda软件的复合文档索引方法、装置、设备及介质 |
-
2002
- 2002-10-09 JP JP2002295537A patent/JP4177070B2/ja not_active Expired - Fee Related
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005031950A (ja) * | 2003-07-11 | 2005-02-03 | Canon Inc | 情報検索装置、情報検索方法およびプログラム |
JP4557513B2 (ja) * | 2003-07-11 | 2010-10-06 | キヤノン株式会社 | 情報検索装置、情報検索方法およびプログラム |
JP2007200321A (ja) * | 2006-01-27 | 2007-08-09 | Xerox Corp | 言語ユーザインターフェース |
JP2007310663A (ja) * | 2006-05-18 | 2007-11-29 | Nec Corp | 情報検索支援システム、情報検索支援方法および情報検索支援プログラム |
JP4631795B2 (ja) * | 2006-05-18 | 2011-02-16 | 日本電気株式会社 | 情報検索支援システム、情報検索支援方法および情報検索支援プログラム |
WO2009004930A1 (ja) * | 2007-07-02 | 2009-01-08 | Nec Corporation | 検索システム、検索方法およびプログラム |
JP2010009215A (ja) * | 2008-06-25 | 2010-01-14 | Yahoo Japan Corp | テキスト抽出装置、そのシステム、その方法、および、そのプログラム |
JP2015095180A (ja) * | 2013-11-13 | 2015-05-18 | Kddi株式会社 | 絞り込み検索のためのクエリ語の選択候補を明示するコンテンツ検索プログラム、装置及び方法 |
JP2016091269A (ja) * | 2014-11-04 | 2016-05-23 | 株式会社東芝 | 外国語文作成支援装置、方法及びプログラム |
US10394961B2 (en) | 2014-11-04 | 2019-08-27 | Kabushiki Kaisha Toshiba | Foreign language sentence creation support apparatus, method, and program |
US10114888B2 (en) | 2015-07-13 | 2018-10-30 | Y's Reading Inc. | Terminal, system, method, and program for presenting sentence candidate |
CN112182148A (zh) * | 2020-09-14 | 2021-01-05 | 山西和耀科技有限公司 | 一种基于全文检索的标准辅助编写方法 |
CN112182148B (zh) * | 2020-09-14 | 2023-08-25 | 山西和耀科技有限公司 | 一种基于全文检索的标准辅助编写方法 |
CN114780690A (zh) * | 2022-06-20 | 2022-07-22 | 成都信息工程大学 | 基于多模态矩阵向量表示的专利文本检索方法及装置 |
CN117573704A (zh) * | 2024-01-17 | 2024-02-20 | 上海合见工业软件集团有限公司 | Eda软件的复合文档索引方法、装置、设备及介质 |
CN117573704B (zh) * | 2024-01-17 | 2024-04-12 | 上海合见工业软件集团有限公司 | Eda软件的复合文档索引方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4177070B2 (ja) | 2008-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7707023B2 (en) | Method of finding answers to questions | |
US10296584B2 (en) | Semantic textual analysis | |
US8346795B2 (en) | System and method for guiding entity-based searching | |
US7398201B2 (en) | Method and system for enhanced data searching | |
US8041697B2 (en) | Semi-automatic example-based induction of semantic translation rules to support natural language search | |
US7593940B2 (en) | System and method for creation, representation, and delivery of document corpus entity co-occurrence information | |
JP2007087401A (ja) | インデクシングシステム、インデクシング方法、質問テンプレート生成システム、質問テンプレート生成方法、及びプログラム | |
JP4177070B2 (ja) | 文書検索装置 | |
JP7434125B2 (ja) | 文書検索装置、文書検索方法、及びプログラム | |
Selvaretnam et al. | A linguistically driven framework for query expansion via grammatical constituent highlighting and role-based concept weighting | |
JP2894301B2 (ja) | 文脈情報を用いた文書検索方法および装置 | |
JP3856388B2 (ja) | 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Lin et al. | Biological question answering with syntactic and semantic feature matching and an improved mean reciprocal ranking measurement | |
JP2011076194A (ja) | トピック具体表現辞書作成システム、トピック具体表現辞書作成方法及びそのプログラム | |
JPH11195041A (ja) | 文書検索装置、方法及び記録媒体 | |
Paik | CHronological information Extraction SyStem (CHESS) | |
Lin et al. | A supervised learning approach to biological question answering | |
Litkowski | Text summarization using xml-tagged documents | |
van der Pol | Dipe-D: A tool for knowledge-based query formulation in information retrieval | |
JPH1145249A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
Yan et al. | A novel word-graph-based query rewriting method for question answering | |
Thapa | Use Case Driven Evaluation of Database Systems for ILDA | |
Nabila et al. | Improving knowledge extraction from texts by generating possible relations | |
Dinşoreanu et al. | Integrated System for Developing Semantically-Enhanced Archive Econtent | |
JPH0540783A (ja) | 自然言語解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050112 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080115 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080311 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20080311 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080819 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080821 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110829 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130829 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |