JP4177070B2 - Document search device - Google Patents

Document search device Download PDF

Info

Publication number
JP4177070B2
JP4177070B2 JP2002295537A JP2002295537A JP4177070B2 JP 4177070 B2 JP4177070 B2 JP 4177070B2 JP 2002295537 A JP2002295537 A JP 2002295537A JP 2002295537 A JP2002295537 A JP 2002295537A JP 4177070 B2 JP4177070 B2 JP 4177070B2
Authority
JP
Japan
Prior art keywords
search
information
user
document
presented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002295537A
Other languages
Japanese (ja)
Other versions
JP2004133564A (en
Inventor
孝広 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002295537A priority Critical patent/JP4177070B2/en
Publication of JP2004133564A publication Critical patent/JP2004133564A/en
Application granted granted Critical
Publication of JP4177070B2 publication Critical patent/JP4177070B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、ユーザが求める文書を効率的に、かつ漏れなく検索する文書検索装置に関する。
【0002】
【従来の技術】
以下、従来例について説明する。
§1:従来例1
(1) :文書検索装置に関しては、検索条件としてユーザがキーワードを指定し、指定されたキーワードを含む文書を提示する方法が広く用いられている。しかしながら、上記のような「入力したキーワードを含む文書」を検索することがユーザの真の検索目的である事は少なく、「ユーザが検索したい文書」が含んでいる語句をユーザが想定し、それをキーワードとしユーザが入力する事で間接的に目的の文書を検索するのが一般的である。この点に着目すると、従来の検索方法には以下の2つの問題がある。
【0003】
(2) :第一の問題は、ユーザが目的とする文書にユーザが想定したキーワードが含まれていない場合に、その文書が検索できないという問題である。この問題を解決するためには、同義語やシソーラス情報を用いて、ユーザの入力キーワードに関してその同義語や上位語または下位語でも検索するという方法が広く用いられている。
【0004】
しかしながら、この方式を用いる場合には、入力が想定されるキーワードに関する同義語情報やシソーラス情報を用意する必要があり、それは非常に困難であるという別の問題が発生する。この問題を解決する発明としては、特許文献1の発明が上げられる。
【0005】
この発明は、予め、単語とその意味概念辞書及び概念間の格情報を含めた係り受け関係を記述した共起事例データベースを用意し、概念辞書にない未登録語が出現した場合は、その未登録語を含む文節と係り受け関係にある文節に含まれる単語概念及びその格情報で共起事例データベースを検索し、検索結果である共起事例において未登録語の位置にくる単語の意味概念を未登録語の意味概念の候補としてユーザに退治し、ユーザが正しい意味概念を選択させてその結果を新たに概念辞書に登録する事を要旨としている。
【0006】
ただし、単語は多義性を持つ場合があり、一つの共起事例でのみ得られた意味概念を以降の全ての文の解析に利用するのは、たとえユーザの確認フェーズを加えたとしてもユーザがその多義性に気がつかない場合があり、誤った登録が行われる危険性がある。
【0007】
(3) :第二の問題としては、ユーザの目的とする文書以外の不必要な文書も検索されてしまうという問題である。キーワード検索は、ユーザが検索を行いたい内容の文書に含まれていそうな単語をキーワードとして入力するという操作であるが、入力キーワードを含む文書であっても、その実際の記述内容は無数であり、ユーザが想定している記述内容以外の文書もヒットするのが原因となっている。
【0008】
例えば、ユーザが「無料のピアノ教室」に関する情報を知りたいという目的において、キーワードとして「無料&ピアノ教室」を入力した場合、「ピアノ教室でのレッスンの成果を、入場無料の市民コンサートで披露した」という文は検索条件にはヒットするが、ユーザの検索意図に合致しない。
【0009】
これに対して、検索文書そのものを提示する前に、文書中の入力キーワードを含んだ文中の入力キーワード前後の部分を提示し、ユーザはそれを見る事で元文書への不要なアクセスを抑止するといった工夫が行われている。しかしながらこの方式では、結局ユーザは提示される情報の全てに目を通す必要があり、提示情報を用いた絞り込みを行うことが出来ない。
【0010】
また、ユーザが想定している記述内容の文を含む文書を検索する方式としては、ユーザが検索条件として文を入力し、その文と同じ文意を持つ文を格納文書中より検索するといった方式が広く用いられている。ただしこの場合、入力した文と全く同じ記述を含む文書を検索するには、全文検索技術を用いれば簡単に実現できるが、これでは同じ文意で表層表現が異なる文を含む文書は検索できない。
【0011】
つまり、漏れの少ない検索を実現するには表層表現の違いを吸収する処理が必要となる。このような吸収処理の手段としては、文を係り受け組の形に分解し、文意の情報の過不足や、語順に関するバリエーションを吸収する方法が広く用いられている。この手段を用いた発明の例としては、特許文献2が挙げられる。以下、この発明について説明する。
【0012】
(4) :特許文献2に記載された発明の説明
特許文献2に記載された発明は、入力として「テキストを検索する」を指定した場合、2つの文節「テキストを」と「検索する」の係り受け関係を解析し、文節を構成する単語の同義語情報や受動態などの表現の揺れを吸収して検索を行い、「文書を探す」、「テキストが検索される」といった文を検索するものである。
【0013】
しかしながら、この発明において、用いられている単語レベルまたは文節レベルの変換のみでは検索できない文書が存在するといった問題がある。例えばこの方式においては、「テキストの検索を行う」といった入力文と同内容の文が検索できない。この問題は、入力文と同内容であるが、その係り受け構造が異なる文が存在する事がその本質である。
【0014】
この問題の一部を解決するための発明としては、特許文献3の発明が上げられる。以下、この発明について説明する。
【0015】
(5) :特許文献3の発明の説明
この発明は、同内容の埋め込み文(述語が主格に連帯修飾している文)や拡張格構造(「(主格)が(述語派生の名詞)を(遂行を表す動詞文節)」の構造を持つ文)も検索する事を可能にする発明である。これにより、「山田電機が開発する」という入力文に対して「〜を開発した山田電機」(埋め込み文)、「山田電機が開発を完了した」(拡張格構造の文)という記述を含む文も検索可能とするのがこの要旨である。しかしながら、係り受け構造のバリエーションはこれらのみで発生するものではなく、例えば「山田電機での開発は順調だ」といった文には対応できない。
【0016】
一方、文書検索手法としては、上記キーワード検索以外にも、ディレクトリ型検索と呼ばれる手法が広く知られている。この手法は、検索対象文書に階層的な分類カテゴリを付与しておき、ユーザは提示された分類カテゴリを選択していく事で目的の文書にたどり着くといったインタフェースを特徴としている。
【0017】
このインタフェースは、例えば、「バリアフリー」に関する文書を検索する時には最初に提示される分類カテゴリ名、「社会」から、「福祉」「バリアフリー」といった下位の分類カテゴリ名を選択していき、目的の文書にたどり着くといった操作である。
【0018】
この方式の場合、文書の表層上の記述文とは独立に、文書の内容で検索を行っているので、キーワード検索に伴う上記の諸問題は発生しないが、ユーザが求める文書がどの分類カテゴリに分類されているかを推測する必要があり、また分類カテゴリ体系も把握していないとうまく検索が行えないといった別の問題が発生する。
【0019】
上記例においては、分類カテゴリ「社会」を選択した際に提示される分類カテゴリの内、正解に至るカテゴリ名である「福祉」を選択せずに他のカテゴリを選択してしまった場合に、その下位カテゴリに「バリアフリー」が存在しない場合があり、検索に失敗してしまう。
【0020】
【特許文献1】
特開平6−195371号公報
【特許文献2】
特開平3−20866号公報
【特許文献3】
特開平7−244669号公報
【0021】
【発明が解決しようとする課題】
前記のような従来のものにおいては、ユーザが検索対象文書の記述内容で正しく検索を行う際に、次のような課題があった。
【0022】
▲1▼:ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示することができない。また、従来のディレクトリ型検索方式においては、次の絞り込み操作のための情報を提示するが、ここで提示される情報は、ユーザの検索観点により動的に生成されるものではない。
【0023】
▲2▼:入力キーワードの同義語を用いて記述されている文は、予め同義語辞書を用意せずに検索可能とする事ができない。
【0024】
本発明は、このような従来の課題を解決し、
▲1▼:ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示することができるようにする。その際に提示される情報は、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成されるものであるようにする。
【0025】
▲2▼:入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能とする、の少なくとも前記2点を実現させることを目的とする。
【0026】
【課題を解決するための手段】
本発明は前記の目的を達成するため、次のように構成した。
【0027】
(1) :ユーザインタフェースと、キーワード検索エンジンとを備えた文書検索装置において、入力されたキーワードを含む文節と、係り受け解析により獲得された、該キーワードの係元または係先となる文節とで絞り込み情報を作成して提示する絞り込み情報作成部と、提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する係り受け情報検索エンジンを備えたことを特徴とする。
【0028】
(2) :前記(1) の文書検索装置において、前記絞り込み情報作成部は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして、絞り込み情報を作成する機能を備えていることを特徴とする。
【0029】
(3) :前記(1) 又は(2) の文書検索装置において、前記絞り込み情報作成部は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する機能を備えていることを特徴とする。
【0030】
(4) :前記(1) 乃至(3) のいずれかの文書検索装置において、前記絞り込み情報作成部は、選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する機能を備えていることを特徴とする。
【0031】
(5) :前記(1) 乃至(3) のいずれかの文書検索装置において、予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する主題抽出部、およびユーザが検索時にその検索観点を入力するユーザインタフェースを具備し、かつ、作成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する絞り込み情報作成部を備えたことを特徴とする。
【0032】
(作用)
前記構成に基づく本発明の作用を、図1に基づいて説明する。
【0033】
(a) :前記(1) では、絞り込み情報作成部5は、入力されたキーワードを含む文節と、係り受け解析により獲得された、該キーワードの係元または係先となる文節とで絞り込み情報を作成してユーザに提示する。係受け情報検索エンジン6は、提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する。
【0034】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0035】
(b) :前記(2) では、絞り込み情報作成部5は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして、絞り込み情報を作成する。
【0036】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報としてユーザに提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0037】
(c) :前記(3) では、絞り込み情報作成部5は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する。
【0038】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報は、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0039】
さらに、絞り込み情報としてまとまった形式で提示されるので、提示された情報が多すぎるために、次のユーザの選択操作を阻害することがない。
【0040】
(d) :前記(4) では、絞り込み情報作成部5は、選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する。
【0041】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。
【0042】
また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。更に、ユーザが十分な絞り込み結果を得るまで処理を繰り返すので、十分な絞り込みによる検索が可能になる。
【0043】
(e) :前記(5) では、主題抽出部7は、予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する。また、ユーザインタフェース3は、ユーザが検索時にその検索観点を入力する。そして、絞り込み情報作成部5は、作成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する。
【0044】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0045】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。
【0046】
§1:文書検索装置の概要
以下、図1を参照しながら文書検索装置の概要を説明する。
【0047】
(1) :本発明に係る文書検索装置では、ユーザのキーワード入力及び検索結果の提示を行うユーザインタフェース3及び入力されたキーワードを含む文を検索するキーワード検索エンジン4から構成される従来のキーワード型文書検索装置において、更に、入力キーワードを含む文節に関する係り受け情報を整理して提示する絞り込み情報作成部5、停止された絞り込み情報の中でユーザが選択した結果より文書の検索を行う係り受け情報検索エンジン6と主題抽出部7とを具備するものである。
【0048】
(2) :前記各処理部の例と処理の概要を、ある検索タスクを例として説明する。なお、ユーザインタフェース3以外の全ての処理は、計算機上のプログラムとして実現可能である。
【0049】
例とする検索タスクは、あるソフトウェア製品において、処理終了後に本来削除されるべき一時ファイルが残ってしまうという不具合を解決するために、過去の障害事例(ここでは「不具合の内容とその対処方法が記載された文書」を想定する)が格納されたデータベース(DB)を検索するというものである。
【0050】
(3) :ユーザインタフェース3
ユーザが検索を行うための検索条件を入力する手段及び、処理結果のユーザへの提示を行う手段を具備するものであり、キーボード等の入力デバイス及びモニタ等の出力デバイスで実現可能である。以下の検索タスクにおいては「一時ファイル」がキーワードとして入力される。
【0051】
(4) :キーワード検索エンジン4
前記ユーザインタフェース3によって入力されたキーワードを含む文を検索するものであり、従来の全文検索エンジン等がそのまま流用可能である。
【0052】
§2:文書検索装置の構成と処理の説明
(1) :文書検索装置の構成の説明
図2は文書検索装置の構成図である。文書検索装置2は、ユーザインタフェース3と、キーワード検索エンジン4と、絞り込み情報作成部5と、係り受け情報検索エンジン6と、主題抽出部7と、絞り込み情報作成ルール格納DB8と、検索対象文書DB9と、主題抽出ルール格納DB10等を備えている。なお、前記DBは全てデータベースのことである。
【0053】
前記構成において、絞り込み情報作成ルール格納DB8は、絞り込み情報作成部5が情報を参照して絞り込み情報を作成するDBである。検索対象文書DB9は、キーワード検索エンジン4と係り受け情報検索エンジン6が使用するもの(参照/格納)するDBである。主題抽出ルール格納DB10は、主題抽出部7が検索対象文書から主題を抽出する際に参照するDBである。
【0054】
(2) :処理例の説明
図3は文書検索装置の処理説明図である。以下、図1及び図3に基づいて文書検索装置全体の処理を説明する。
【0055】
▲1▼:絞り込み情報作成部5は、入力されたキーワードを含む文節と、その係元または係先となる文節とで絞り込み情報を作成してユーザに提示する。係受け情報検索エンジン6は、提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する。
【0056】
▲2▼:絞り込み情報作成部5は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして、絞り込み情報を作成する。
【0057】
▲3▼:絞り込み情報作成部5は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する。
【0058】
▲4▼:絞り込み情報作成部5は、選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する。
【0059】
▲5▼:主題抽出部7は、予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する。また、ユーザインタフェース3は、ユーザが検索時にその検索観点を入力する。そして、絞り込み情報作成部5は、生成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する。 図1に示した図示矢印及び図中の(a) 〜(Z) の内容は次の通りである。図1中の矢印は情報の流れを示しており、(a) はユーザが入力したキーワード等の検索条件、(g) は(a) の検索エリア、(b) は(g) に対する検索結果、(c) は検索結果から絞り込み情報を作成するための情報、(d) は(b) 、(c) から作成された絞り込み情報、(e) は提示された(d) において、絞り込み情報を用いて更に絞り込みを行うとした場合のユーザの選択情報、(i) は(e) の検索エリア、(f) は(i) に対する検索結果である。また、検索結果(f) に関して、(b) と同様に(c) を用いて新たな絞り込み情報(d) が生成されてユーザに提示される。
【0060】
例1〜例3(請求項1〜3に対応)の装置においては、新たに生成した(d) より検索対象文書への参照情報がユーザに提示されるが、例4(請求項4に対応)の装置に関しては、絞り込み情報(d)が十分な絞り込みを達成した場合には同様に、(d) 中の検索対象文書への参照情報がユーザに提示されるが、そうでない場合には、更に新たに選択情報(e) がユーザに与えられて、それを基に再度(d) が生成される。
【0061】
また、他の例で述べた例5(請求項5に対応)の発明に関しては、これは、検索対象文書DBを構築する際に、キーワードまたは係り受け情報からの検索処理において、その検索対象を文書に含まれている全ての文を対象にするのではなく、その主題抽出結果にのみ制限してDBが構築される。
【0062】
この処理は、ユーザの検索操作に先立ち、DBの構築時に実施されるが、そのための処理における情報の流れも図1に示されており、(X) は検索対象文書内のテキスト情報及び検索対象文書への参照情報、(Y) は主題抽出を行うためのルール、(z) は(X) に(Y) が適用される事によって抽出された主題及び検索対象文書への参照情報である。
【0063】
(3) :フローチャートによる処理例1の説明
図4は検索時の処理フローチャート1である。以下、図4に基づいて、検索時の処理フローチャート1の処理(処理例1とする)を説明する。なお、この処理例は、請求項1〜3に対応する処理例であり図3も参照しながら説明する。また、S1〜S6は各処理ステップを示す。
【0064】
先ず、ユーザ操作により検索条件(a) が入力されると(S1)、キーワード検索エンジン4は検索対象文書DB9に対し文書情報検索を行い、検索結果(b) を得る(S2)。次に、絞り込み情報作成部5は、キーワード検索エンジン4から検索結果(b) を受け取り、絞り込み情報作成ルール格納DB8を参照して絞り込み情報を作成し(S3)、ユーザインタフェース3を介してユーザに提示する(S4)。
【0065】
次に、ユーザ操作により、提示された絞り込み情報の選択が行なわれ、ユーザの選択情報(e) が入力されると(S5)、係り受け情報検索エンジン6は検索対象文書DB9を対象として検索を行い、検索結果(f) を得る。その後、絞り込み情報作成部5は、係り受け情報検索エンジン6からの検索結果(f) を受け取り、ユーザインタフェース3を介してユーザに提示する(S6)。
【0066】
(4) :フローチャートによる処理例2の説明
図5は検索時の処理フローチャート2である。以下、図5に基づいて、検索時の処理フローチャート2の処理(処理例2とする)を説明する。なお、この処理例は、請求項4に対応する処理例であり、S11〜S17は各処理ステップを示す。
【0067】
先ず、ユーザ操作により検索条件(a) が入力されると(S11)、キーワード検索エンジン4は検索対象文書DB9に対し文書情報検索を行い、検索結果(b) を得る(S12)。次に、絞り込み情報作成部5は、キーワード検索エンジン4から検索結果(b) を受け取り、絞り込み情報作成ルール格納DB8を参照して絞り込み情報を作成し(S13)、ユーザインタフェース3を介してユーザに提示する(S14)。
【0068】
次に、ユーザにより絞り込みが十分か否かが判断され(S15)、十分でなければ、ユーザ操作により絞り込み情報選択を行い(S16)、その後、S12の処理へ移行し、前記のS12からの処理が繰り返される。また、ユーザにより絞り込みが十分であれば、ユーザインタフェース3を介してユーザに検索結果の提示が行なわれる(S17)。
【0069】
§3:絞り込み情報作成部の詳細な説明
(1) :例1の説明
▲1▼:概要
絞り込み情報作成部5は、検索された文から、公知である係り受け解析手段を用いて、その文の係り受け組(係り元文節表記と係り先文節表記の組で表現される。以後「係り元文節表記−係り先文節表記」の形で記述する)を獲得し、その係り受け組を基に次の絞り込み操作のための情報を作成する。
【0070】
また、絞り込み情報の生成に用いる係り受け組は、上記のように検索された文に対して係り受け解析処理を行って獲得しても良いが、予め全検索対象文書に対して係り受け解析を行っておき、前記キーワード検索エンジンの検索対象を文書中の文ではなく、その係り受け組を対象にする事でも獲得可能である。
【0071】
獲得した係り受け組から絞り込み情報を生成する際に、まず獲得した係り受け組の表層表現を統一する必要がある。これは同じ内容を意味する係り受け組を、同じ表層表現の係り受け組に統一する処理である。この処理を行う事により、記述内容で検索を行うという本発明の目的に合致した絞り込み情報を提示する事を実現すると共に、ある入力に対して提示する絞り込み情報を削減する事により、ユーザの選択処理の負担を軽減する事もできる。この表層表現の統一処理としては、例えば次のような処理が上げられる。
【0072】
▲2▼:文節の統一処理
文節の表現の揺れを吸収する処理である。公知の係り受け解析手法においては、まず文を形態素解析手法により形態素に分解し、ついでそれらを文法的なルールに基づき文節にまとめあげ、最後に文節の属性情報に基づきその係り受け関係を推定するといった処理を行う。この場合、各文節においてはその文節を構成する形態素が分かっているので、その形態素情報に基づいて、例えば文法的には副助詞と呼ばれる形態素を削除するといった処理を行う。副助詞として例えば「〜をも」という文節における「も」が挙げられる。
【0073】
また、係り受け解析処理とは別に、これも公知である並列構造解析手段を用いて、並列文節に関して格助詞を補完するといった処理も行える。例えば「ファイルやディレクトリを削除する」といった文からは「ファイルや−削除する」「ディレクトリを−削除する」という係り受け組が抽出されるが、並列構造解析により、文節「ファイルや」と文節「ディレクトリを」が並列構造となっている事が判明しているので、前者の文節に関して上記の副助詞の削除を行い、その並列構造の文節の助詞を補完する事で、「ファイルを−削除する」といった文節を生成する処理である。
【0074】
この処理は副助詞を伴わずに読点で並列構造を表現するような次の文「ファイル、ディレクトリを削除する」にも適用され、同様に「ファイルを−削除する」という係り受け組を生成する事になる。更に、文の述語となる文節が過去の助動詞などを含む場合に、その助動詞を削除して現在形に変換する処理も考えられる。これにより、「残った」という文節が「残る」と変換される事になる。
【0075】
また、上記形態素解析手法において利用される形態素解析用の辞書に、表記の揺れを吸収するための情報を格納しておき、例えば、検索対象文書中の表記が「インタフェース」であった場合でも、「インタフェース」に変換するといった文節を構成する形態素の表記を変換するといった処理も可能である。
【0076】
▲3▼:係り受け組の統一処理の説明
この処理は、係り受け組としての表記を標準化する処理である。例えば、述語となる文節が受動態の助動詞を持つ場合に、それを係り先とする名詞相当語とガ格の助詞から構成される文節とでなる係り受け組を、名詞相当語とヲ格の助詞から構成される文節と、能動態の述語文節からなる係り受け組に変換するといった処理である。
【0077】
この処理により、「ファイルが−削除される」という係り受け組が、「ファイルを−削除する」に変換される。なお、同様の処理が自動詞と他動詞の間にも行うことが可能である。この場合、自動詞と他動詞の関係にある動詞の情報が必要になるが、この情報は一般的な電子化辞書から取得可能である。この処理により、例えば「ファイルを−残す」が「ファイルが−残る」に変換される。
【0078】
▲4▼:文節の結合処理の説明
検索された文から獲得される係り受け組を組み合わせて、絞り込みに有用な形の係り受け組に変換する処理である。例えば、「セルが空白になる」という文における処理が上げられる。この文は通常の文法に基づく係り受け処理では「セルが−なる」「空白に−なる」という二つの係り受け組が得られるが、「なる」という動詞に関しては、検索キーとしての情報が乏しく、「セルが−なる」という係り受け組だけではその記述内容は推測できない。
【0079】
そこで、この二つを結合して「セルが−空白になる」という形で係り受け組を構成することにより、その係り受け組のみで内容が把握可能な形とすることができる。
【0080】
また、「情報がセーブされない事がある。」という文において、通常の文法に基づく係り受け解析結果は、「情報が−セーブされない」、「セーブされない−事が」、「事が−ある」となる。しかしながらこの記述は「情報がセーブされない」事が主たる表現内容であって「事がある」は、この内容に「必ず起こるとは限らない」というニュアンスを付加しているとみなせる。
【0081】
このような補助的な内容を表す係り受け組は検索キーとして意味がないのでこれらを結合して「情報が−セーブされない事がある」を係り受け情報とする。この係り受け組の係り先文節は、さらに上記処理により「情報を−セーブしない」と変換される。また、元の文が「情報がセーブされる事はない」である場合も、同様に「情報を−セーブしない」に変換されるような変換ルールを設定する。
【0082】
このような結合処理を行うべき文節は、「事」、「もの」、「する」、「ある」、「ない」といった、それだけでは絞り込みのキーとしては広過ぎる少数の名詞や述語にのみ行えば良く、それらに関するルールを設定するのは容易である。
【0083】
以上の処理によって、今回の検索タスクにおいて入力されたキーワードからは「一時ファイル−削除する」「一時ファイルが−残る」「一時ファイルを−削除しない」「一時ファイルを−破壊する」「ディレクトリ内の−一時ファイル」「生成する−一時ファイル」といった係り受け組が絞り込み情報として提示される。
【0084】
(2) :例2(請求項2に対応)の説明
例2(請求項2に対応)では、絞り込み情報作成部5は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして、絞り込み情報を作成する機能を備えている。これに関しては、ユーザがキーワードと共に、そのキーワードの文中における用法を入力する機能をユーザインタフェースに追加し、その用法にマッチする係り受け組のみを絞り込み情報として提示することができる。
【0085】
キーワードの用法とは例えば、「入力キーワードが助詞を伴って述語に係る」や「入力キーワードを係り先とする修飾表現」といったものであり、前者の用法をユーザが入力した場合には、上記例においては、「ディレクトリ内の−一時ファイル」及び「生成した−一時ファイル」の二つの係り受け組がユーザの指定した用法に合致しないので絞り込み情報として提示されない。この処理により、ユーザの想定していない係り受け関係における情報は提示されないので、不要な絞り込み情報の提示を抑制する事ができる。
【0086】
次に、生成した係り受け組に対して、絞り込み情報としてユーザが活用しやすい形式にまとめる。この処理としては、その係り受け組が獲得される文を含む文書数と共に提示するのが最も単純な例として挙げられる。今回の検索タスクにおいては、「入力キーワードが助詞を伴って述語にかかる」というキーワードの用法を指定した時には、例えば図6の「提示結果1」のような形式に整形してユーザインタフェースを通じてユーザに提示することになる。
【0087】
ユーザは提示された情報に基づき、今回の検索タスクにおいては「一時ファイルを−削除しない」及び「一時ファイルが−残る」を選択し、選択された係り受け組を含む文書を検索することができる。
【0088】
この時、今回の検索タスクにおいてユーザが想定していた「一時ファイルが残る」といった表現だけでなく、「一時ファイルを−削除しない」といった同意の表現を含む文も、絞り込み情報として提示されているので検索できる。
【0089】
これは一般的には「削除しない」と「残る」は同義語と言えないが、係り受け組で表現されたフレーズとしては同義であるといった、単語単位の同義語では処理不可能な同意性の判定をユーザに任せる事により実現している。
【0090】
また、この提示結果から文書を検索するのではなく、提示された文節がキーワードとして入力された時と同様の処理を行い、再度、絞り込み情報として提示する処理を行う検索モードを具備する事も可能である。例えば、絞り込み情報中の文節「残る」を選択し、その用法として「述語文節に係る助詞を伴う名詞文節」を指定した場合、図7の「提示結果2」のような情報をユーザに提示する。
【0091】
この提示結果においては、「data.tmp」はユーザがキーワードとして想定した「一時ファイル」の具体的なファイル名であると推定できるので、係り受け組「data.tmpが−残る」を検索キーにして文書を行う事で、当初入力したキーワードを用いていないが同じ内容の文を含む文書も検索可能となる。
【0092】
なお、上記の例は最も簡単な提示形式であるが、入力されたキーに対する文節のバリエーションが多い場合には、そこから選択する処理は非効率的になる可能性がある。
【0093】
(3) :例3(請求項3に対応)の説明
例3(請求項3に対応)では、絞り込み情報作成部5は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する機能を備えている。
【0094】
前記のように、入力されたキーに対する文節のバリエーションが多い場合には、そこから選択する処理は非効率的になる可能性がある。これを解決するため、例3では提示結果に対して、階層的なまとめ挙げ処理を行い、各エントリを一度に提示する代わりにそのカテゴリ名を提示することで一度に提示する情報量を抑制し、ユーザの効率的な選択を支援するような形式で提示する機能を具備している。
【0095】
例えば、図7の「提示結果2」において、提示する文節が持っている助詞に注目し、同じ助詞を伴う文節をまとめ挙げて、その助詞種別のカテゴリ名を提示するといった処理である。この場合の提示結果は図8の「提示結果3」のようになる。
【0096】
ここで、ユーザがカテゴリ名「〜が」を選択し、例えばユーザインタフェース画面に「カテゴリを展開する」というメニューを追加し、ユーザがそれを選択した時に、その具体的な文節である「一時ファイルが」、「プロセスが」・・・といった実際の文節が提示され、ユーザはその提示結果からさらに選択操作を行う事ができる。
【0097】
また、このカテゴリ名を選択し、別メニューとして「検索を行なう」というメニューを用意し、選択された分類カテゴリ名で文書の検索を行う事も考えられる。その場合には、その分類カテゴリに属する文節が選択されたとして検索が行なわれる。
【0098】
このようなまとめ挙げ処理としては、上記のような助詞に注目した分類カテゴリのみではなく、他にも種々のものが考えられる。
【0099】
そのような分類基準の例として、名詞文節を構成する複合語の部分形態素の一致によるカテゴリを作成する事もできる。これは例えば、「ファイルが」、「一時ファイルが」、「データファイルが」「画像ファイルが」・・・といった「〜ファイルが」となる文節のバリエーションが多い場合には、カテゴリ名を「〜ファイルが」とするカテゴリを自動的に作成し、絞り込み情報を提示する際に、まずはそのカテゴリ名「〜ファイルが」を提示する事で一度提示する絞り込み情報を削減する事ができる。
【0100】
また、このように複数の分類カテゴリ名を用意する事により、あるカテゴリの展開結果に別のカテゴリ名が出力される事もある。上の例の場合は、まず分類カテゴリ「〜が」の展開を行うと、「ディレクトリが」「プロセスが」といった具体的な文節や「〜ファイルが」といったカテゴリ名がユーザに提示される。
【0101】
この提示結果中のカテゴリ「〜ファイルが」を指定してさらに展開を行うと、そのカテゴリに属する具体的な文節である「ファイルが」「一時ファイルが」「データファイルが」「画像ファイルが」といった実際の文節が提示される事になる。
【0102】
また、以上の例は、「文節A(〜が)−文節B(〜する)」と表現可能な係り受け組において、文節A及び文節Bの具体的な文節を、キーワードの入力や提示された絞り込み情報からの選択によりユーザが指定して検索を行うものである。
【0103】
(4) :例4(請求項4に対応)の説明
これに対して例4(請求項4に対応)では、絞り込み情報作成部5は選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する機能を備えている。
【0104】
すなわち、文節Aまたは文節Bに関する他の係り受け組を用いてさらなる絞り込みを行うことを特徴としている。これは例えば、「一時ファイルが−残る」という係り受け組を持つ文書が多量に存在する場合に、さらに絞り込みを行う機能を提供するものである。
【0105】
例えば、元の文が「一時ファイルがディレクトリ上に残る」である場合、「一時ファイルが−残る」だけでなく、「ディレクトリ上に−残る」という係り受け組も得られるが、この係り受け組を利用してさらに絞り込み情報を作成してユーザに提示する。
【0106】
ユーザは新たに提示された結果を選択する事でさらに絞り込みを行う事ができる。このように機能を具備した検索装置において、例えば、第1の選択処理により、「一時ファイルが−残る」を選択し、次の絞り込み情報を作成する際に利用する係り受け関係を「係り先文節に対する他の係り受け組」を選択した場合には、図9の「提示結果4」のような結果が提示される。
【0107】
この例は、係り先文節に属する係り受け組をさらに絞り込むための情報に利用しているが、係り元文節である「一時ファイルが」を係り先とする係り受け組、例えば「更新する−一時ファイル」、「カレントの−一時ファイル」といった係り受け組を絞り込み情報として利用する事も可能である。
【0108】
またここで提示される「更新する」といった文節のように、それがさらに他の係り受け組の係り先文節となっている場合には、その係り元文節でさらに絞り込み情報を作成する事もできる。例えば、この時点でのユーザの選択情報は、「一時ファイル−残る」「更新する−一時ファイル」であり、そこからさらに、「更新する」にヲ格で係る文節で細分化するとユーザが選択した場合には図10の「提示結果5」のような絞り込み情報が提示される。
【0109】
このようにある文節に関して、その文節に関する係り受け組で絞り込み情報を提示する装置の内部処理と、提示結果をユーザが選択する操作及び選択結果からの文書の絞り込みという一連の処理を、十分な絞り込み結果になるまで繰り返す事で、目的とする文書を効率良く検索することができる。なお、ユーザへの提示形式は上記例に限るものではなく、本発明の要旨を変えない範囲で変更が可能である。
【0110】
§4:係り受け情報検索エンジンの詳細な説明
検索結果である文書集合から、前記絞り込み情報作成部5によって作成された絞り込み情報がユーザに提示されるが、その文書の件数が十分に少数である場合、そこから文書が検索されてユーザインタフェース3を通じてユーザに提示される。一方、絞り込み情報が十分でなく、さらに文書の絞り込みを行う必要があるとユーザが判断した場合には、ユーザは提示された絞り込み情報の選択操作を行う事になる。
【0111】
係り受け情報検索エンジン6では、前記の選択された絞り込み情報を用いて、それを含む文またはその文を含む文書を検索する処理を行う。この処理は、例えば、絞り込み情報を構成する文節を含む文を全文検索により検索し、その結果に対して係り受け解析処理を行なって係り受け組を抽出し、絞り込み情報の係り受け組とマッチングを行なって、適合するものを検索結果として提示する事で実現可能である。
【0112】
また、検索対象文書から予め全ての係り受け組を抽出しておき、その係り受け組を関係データベースに格納し、格納した関係データベースにおいて、絞り込み情報にマッチするものを検索結果として提示する事も実現可能である。
【0113】
例えば、図10の「提示結果5」における一番上の提示結果が選択された場合には、一文に「予約データを−更新する」「更新する−一時ファイル」「一時ファイルが−残る」という係り受け組情報が作成されてユーザに提示される。
【0114】
§5:他の例(主題獲得手段等)の詳細な説明
前記構成を持つ文書検索装置で課題は解決されるが、より効率的な検索を実現する文書検索装置として、「予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する主題獲得手段、およびユーザが検索時にその検索観点を入力するユーザインタフェースを具備し、かつ、生成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する絞り込み情報作成部を備えた」構成の文書検索装置が提案されている。以下、この装置の構成について説明する。これらの手段は計算機上のプログラムとして実現可能である。
【0115】
(1) :主題抽出部
前節で説明に使用した検索タスクにおいては、検索対象文書はあるソフトウェア製品に関する不具合の内容とその対策方法を記述した障害事例である。ここで各障害事例の表層的な記述の仕方は、無数のバリエーションが存在するが、障害内容の具体的記述が必ず存在し、この記述がユーザの検索を行う際に検索対象として想定する部分である。このような検索対象文書に記載されている種々の内容の中で、ユーザが文書の内容で検索を行う際にキーとして想定される記述内容を主題と呼ぶことにする。
【0116】
例えば、「キャンセル処理を行なった所、一時ファイルが残る」という記事文においては実際の不具合の記述は「一時ファイルが残る」であり、その前の部分「キェンセル処理を行なった所」はその不具合が起こるための条件を記述している部分である。ユーザが障害事例の検索を行う際には、その障害の具体的内容で検索を行うのが自然であり、この例においては、「一時ファイルが残る」の部分がその障害事例の主題となる。
【0117】
前記のように、例5(請求項5に対応)の文書検索装置は、この主題を抽出する手段を具備し、キーワード検索及び絞り込み情報の作成などの処理を文書中の主題を記述する部分に限定して行うことで、ユーザの想定した内容で正しく検索を行うことを可能にしたものである。
【0118】
例えば、ユーザが「(本来削除されるはずの)一時ファイルが残る」といった障害事例を検索したい場合には「仕様通り一時ファイルが残るが、データが破壊される」という記述の障害事例は検索されるべきではない。
【0119】
この事例の不具合は、一時ファイルが残る事ではなく、データが破壊される事であるからである。例5(請求項5に対応)の文書検索装置によれば、障害の内容を記述している部分に処理を限定するので、この記述内の「データが破壊される」にのみ処理が行なわれるのでこの障害事例はうまく排除される事になる。
【0120】
このような検索対象文書より主題を抽出する手段は、対象文書の種別や特徴に基づく抽出ルールを用意し、そのルールにマッチする記述を抽出する事で実現する。このルールとは、例えば、対象文書が新聞記事であるならば、記事中の第1文を抽出するといった簡単なものもあるし、また、障害事例においては、
▲1▼最初の文が「(名詞文節A)−(述語文節B)」.「(述語文節B)−(述語文節D)」.「(名詞文節祖)−(述語文節D)」の3つの係り受け組を含み、(述語文節B)の最後の付属語が接続助詞の「が」で終わる場合、「(名詞文節C)−(述語文節D)」を主題として抽出する。
【0121】
▲2▼障害を発生させるための手順が記述されている場合、その最後の項目の文を抽出する。
【0122】
といった、文の係り受け関係のパターンや文書構造に基づく抽出ルールが挙げられる。
【0123】
前者のルールにおいては、上で例として挙げた記述「仕様通り一時ファイルが残るが、データが破壊される」(含まれる係り受け組は「仕様通り−残るが」「一時ファイルが−残るが」「残るが−破壊される」「データが−破壊される」)がマッチするので主題として「データが−破壊される」が抽出される。
【0124】
後者のルールにおいては、例えばある障害事例が以下のように、その障害を再現させるための手順が箇条書きにされている場合において、
1.更新処理を起動する。
2.処理の終了直前にキャンセルをかけて処理を中断させる。
3.ディレクトリに一時ファイルが残る。
【0125】
「ディレクトリに一時ファイルが残る」が主題として抽出される。勿論、この抽出結果である文に対して係り受け解析を行なって、主題となる係り受け組を選択するルール(例えば、「述語にガ格で係る名詞文節、ニ格で係る名詞文節の両方が存在する場合にはニ格で係る名詞節は削除する。」)を適用して、「一時ファイルが−残る」のみを主題として抽出する事も可能である。
【0126】
以上、主題抽出ルールとしていくつか挙げたが、抽出ルールは例のように、また格納文書内の文そのものに対して抽出ルールを適用する事は必須ではなく、例えば対象文書に対して公知である自動要約処理を行なった結果を処理対象とする事もできる。
【0127】
また、検索対象文書の主題として抽出される記述がただ一つである必要はなく、例えば、「〜したら、システムが異常終了し、一時ファイルが残る」という記述からは「システムが−異常終了する」、「一時ファイルが−残る」といった2つの係り受け組が主題として抽出される。
【0128】
更に、以上の説明は、文書の主題が一つである場合の説明をしているが、ユーザが検索を行うと想定される記述内容が一つに限らない事もある。まず、「一時ファイルが残る」という記述内容で検索を行い、その検索結果が大量である場合に、上の説明では副次的記述として廃棄されていたその障害の起きる状況でさらに検索を行うという操作は自然である。
【0129】
このような検索操作を可能にするのが例5(請求項5に対応)の文書検索装置である。この文書検索装置においては、主題を一つの検索観点(例では「障害内容」)のものに限定せずに、複数の検索観点を用意し、各々の検索観点に基づいてその記述部分を主題として文書中より抽出し、ユーザが検索時に指定した検索観点に合致する主題を処理の対象とする事で実現される。
【0130】
このような抽出を行うためのルールは、文書内の記述から適合する部分をその検索観点と共に主題として抽出するものである。このルールの例としては、上記の一つの検索観点に基づく主題のみを抽出するルールを拡張した以下のものがある。
【0131】
▲1▼:最初の文が「(名詞文節A)−(述語文節B)」、「(述語文節B)−(述語文節D)」、「(名詞文節C)−(述語文節D)」の3つの係り受け組を含み、(述語文節B)の最後の付属語が接続助詞の「が」で終わる場合、「(名詞文節A)−(述語文節B)」を検索観点「発現条件記述」として抽出し、「(名詞文節C)−(述語文節D)」を主題検索観点「障害内容記述」として抽出する。
【0132】
▲2▼:障害を発生させる手順が箇条書きで記述されている場合、その最後の項目の文を検索観点「障害内容記述」、その以前の項目の文を検索観点「発現条件記述」として抽出する。
【0133】
ユーザの操作としては、まず用意された検索観点の1つの検索観点をユーザが選択して検索作業を行い、その検索結果に関して、別の検索観点でさらに絞り込みを行うものである。例えば、ユーザは検索観点「障害内容記述」を選択し、まず本発明の装置が提供する機能を用いて検索作業を行い、求める障害内容が記述された障害事例を検索する。
【0134】
この件数が多い時には、この検索結果を対象にして、さらに検索観点「発現条件記述」で検索を行うといった効率的な検索が実現される。
【0135】
§6:具体的な装置例と記録媒体の説明
図11は具体的な装置例である。前記文書検索装置は、ワークステーション、パーソナルコンピュータ等の任意のコンピュータにより実現することができる。この装置は、コンピュータ本体21と、該コンピュータ本体21に接続されたディスプレイ装置22、入力装置(キーボード/マウス等)23、リムーバブルディスクドライブ(「RDD」という)24、ハードディスク装置(「HDD」という)25等で構成されている。
【0136】
そして、コンピュータ本体21には、内部の各種制御や処理を行うCPU26と、プログラムや各種データを格納しておくためのROM27(不揮発性メモリ)と、メモリ28と、インタフェース制御部(「I/F制御部」という)29と、通信制御部30等が設けてある。なお、前記RDD24には、フレキシブルディスクドライブや光ディスクドライブ等が含まれる。
【0137】
前記構成の装置において、例えば、HDD25の磁気ディスク(記録媒体)に、前記文書検索装置の処理を実現するためのプログラムを格納しておき、このプログラムをCPU26が読み出して実行することにより、前記文書検索装置が行う処理を実行する。
【0138】
しかし、本発明は、このような例に限らず、例えば、HDD25の磁気ディスクに、次のようにしてプログラムを格納し、このプログラムをCPU26が実行することで前記処理を行うことも可能である。
【0139】
▲1▼:他の装置で作成されたリムーバブルディスクに格納されているプログラム(他の装置で作成したプログラムデータ)を、RDD24により読み取り、HDD25の記録媒体に格納する。
【0140】
▲2▼:通信回線を介して他の装置から伝送されたプログラム等のデータを、通信制御部30を介して受信し、そのデータをHDD22の記録媒体(磁気ディスク)に格納する。
【0141】
前記の説明に対し、次の構成を付記する。
(付記1)
ユーザインタフェースと、キーワード検索エンジンとを備えた文書検索装置において、
入力されたキーワードを含む文節と、その係元または係先となる文節とで絞り込み情報を作成して提示する絞り込み情報作成部と、
提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する係り受け情報検索エンジンを備えたことを特徴とする文書検索装置。
【0142】
(付記2)
前記絞り込み情報作成部は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして、絞り込み情報を作成する機能を備えていることを特徴とする(付記1)記載の文書検索装置。
【0143】
(付記3)
前記絞り込み情報作成部は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する機能を備えていることを特徴とする(付記1)または(付記2)に記載の文書検索装置。
【0144】
(付記4)
前記絞り込み情報作成部は、選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する機能を備えていることを特徴とする(付記1)乃至(付記3)のいずれかに記載の文書検索装置。
【0145】
(付記5)
予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する主題抽出部、およびユーザが検索時にその検索観点を入力するユーザインタフェースを具備し、かつ、
作成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する絞り込み情報作成部を備えたことを特徴とする(付記1)乃至(付記3)のいずれかに記載の文書検索装置。
【0146】
(付記6)
コンピュータに、
入力されたキーワードを含む文節と、その係元または係先となる文節とで絞り込み情報を作成して提示する絞り込み情報作成部と、
提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する係り受け情報検索エンジンの機能を実現させるためのプログラム、又は該プログラムを記録したコンピュータ読み取り可能な記録媒体。
【0147】
【発明の効果】
以上説明したように、本発明によれば次のような効果がある。
(1) :請求項1では、絞り込み情報作成部は、入力されたキーワードを含む文節と、その係元または係先となる文節とで絞り込み情報を作成してユーザに提示する。係り受け情報検索エンジンは、提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する。
【0148】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0149】
(2) :請求項2では、絞り込み情報作成部は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして絞り込み情報を作成する。
【0150】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0151】
(3) :請求項3では、絞り込み情報作成部は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する。
【0152】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【0153】
さらに、提示される絞り込み操作のための情報がカテゴリにまとめられているので、次の絞り込みにおいて、効率的な操作を行うことを可能にする。
【0154】
(4) :請求項4では、絞り込み情報作成部は、選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する。
【0155】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。
【0156】
また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。更に、ユーザが十分な絞り込み結果を得るまで処理を繰り返すので、十分な絞り込みによる検索が可能になる。
【0157】
(5) :請求項5では、主題抽出部は、予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する。また、ユーザインタフェースは、ユーザが検索時にその検索観点を入力する。そして、絞り込み情報作成部は、生成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する。
【0158】
このようにすれば、ユーザが入力したキーワードを含む文を単に検索するのではなく、ユーザの検索意図に合致した文を検索するための情報を、次の絞り込み操作のための情報として提示できるようになる。その際に提示される情報を、従来のディレクトリ型検索方式のように、予め設定されているものではなく、ユーザの検索観点により動的に生成できる。また、同義語となっている語も提示されるので入力キーワードの同義語を用いて記述されている文も、予め同義語辞書を用意せずに検索可能になる。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】本発明の実施の形態における文書検索装置の構成図である。
【図3】本発明の実施の形態における文書検索装置の処理説明図である。
【図4】本発明の実施の形態における検索時の処理フローチャート1である。
【図5】本発明の実施の形態における検索時の処理フローチャート2である。
【図6】本発明の実施の形態における提示結果1を示した図である。
【図7】本発明の実施の形態における提示結果2を示した図である。
【図8】本発明の実施の形態における提示結果3を示した図である。
【図9】本発明の実施の形態における提示結果4を示した図である。
【図10】本発明の実施の形態における提示結果5を示した図である。
【図11】本発明の実施の形態における具体的に装置例である。
【符号の説明】
1 ユーザ
2 文書検索装置
3 ユーザインタフェース
4 キーワード検索エンジン
5 絞り込み情報作成部
6 係り受け情報検索エンジン
7 主題抽出部
8 絞り込み情報作成ルール格納データベース(絞り込み情報作成ルール格納DB)
9 検索対象文書データベース(検索対象文書DB)
10 主題抽出ルール格納データベース(主題抽出ルール格納DB)
21 コンピュータ本体
22 ディスプレイ装置
23 入力装置(キーボード/マウス等)
24 リムーバブルディスクドライブ(RDD)
25 ハードディスク装置(HDD)
26 CPU(中央演算処理装置)
27 ROM(リードオンリメモリ)
28 メモリ
29 インタフェース制御部(I/F制御部)
30 通信制御部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document search apparatus that searches a document requested by a user efficiently and without omission.
[0002]
[Prior art]
A conventional example will be described below.
§1: Conventional example 1
(1): With respect to document search devices, a method in which a user specifies a keyword as a search condition and presents a document including the specified keyword is widely used. However, it is rare that the user's true search purpose is to search for the “document including the input keyword” as described above, and the user assumes a phrase included in the “document that the user wants to search”. Generally, a target document is searched indirectly by inputting a keyword as a keyword. Focusing on this point, the conventional search method has the following two problems.
[0003]
(2): The first problem is that when a user's target document does not include a keyword assumed by the user, the document cannot be searched. In order to solve this problem, a method is widely used in which synonyms and thesaurus information are used to search for synonyms, broader terms, or narrower terms of user input keywords.
[0004]
However, when this method is used, it is necessary to prepare synonym information and thesaurus information related to a keyword that is supposed to be input, which causes another problem that it is very difficult. As an invention for solving this problem, the invention of Patent Document 1 is raised.
[0005]
This invention prepares a co-occurrence case database that describes a dependency relationship including a word and its semantic concept dictionary and case information between concepts, and if an unregistered word that does not exist in the concept dictionary appears, Search the co-occurrence example database with the word concept and its case information included in the clauses that have a dependency relationship with the clause containing the registered word, and find the semantic concept of the word that is at the position of the unregistered word in the co-occurrence case that is the search result The gist is that the user is extinguished as a candidate for a semantic concept of an unregistered word, the user selects a correct semantic concept, and the result is newly registered in the concept dictionary.
[0006]
However, the word may have ambiguity, and the semantic concept obtained only in one co-occurrence case is used for the analysis of all subsequent sentences even if the user's confirmation phase is added. The ambiguity may not be noticed, and there is a risk of incorrect registration.
[0007]
(3) The second problem is that unnecessary documents other than the user's target document are also retrieved. A keyword search is an operation in which a word that is likely to be included in a document whose contents are to be searched by a user is input as a keyword. However, even if the document includes an input keyword, the actual description content is innumerable. This is because documents other than the description contents assumed by the user are hit.
[0008]
For example, if a user enters “Free & Piano Class” as a keyword for the purpose of knowing information related to “Free Piano Class”, “The result of the lesson in the piano class was performed at a free public concert The sentence "" hits the search condition, but does not match the user's search intention.
[0009]
On the other hand, before presenting the search document itself, the part before and after the input keyword in the sentence including the input keyword in the document is presented, and the user suppresses unnecessary access to the original document by viewing it. Ingenuity has been made. However, in this method, the user needs to look through all of the presented information after all, and cannot narrow down using the presented information.
[0010]
In addition, as a method of searching for a document including a sentence having a description content assumed by a user, a method in which the user inputs a sentence as a search condition and searches a stored document for a sentence having the same meaning as the sentence. Is widely used. However, in this case, searching for a document containing exactly the same description as the input sentence can be easily realized by using a full-text search technique. However, it is not possible to search for a document containing a sentence having the same sentence meaning but a different surface expression.
[0011]
In other words, in order to realize a search with less leakage, processing that absorbs the difference in surface expression is required. As a means for such an absorption process, a method is widely used in which a sentence is decomposed into a dependency group to absorb excess or deficiency of sentence meaning information and variations in word order. As an example of the invention using this means, Patent Document 2 can be cited. The present invention will be described below.
[0012]
(4): Description of the invention described in Patent Document 2
In the invention described in Patent Document 2, when “search text” is specified as an input, the dependency relationship between two clauses “text” and “search” is analyzed, and the synonyms of words constituting the clause The search is performed by absorbing fluctuations in expressions such as word information and passive information, and sentences such as “search for documents” and “search for text” are searched.
[0013]
However, in the present invention, there is a problem that there is a document that cannot be searched only by conversion at the word level or phrase level used. For example, in this method, a sentence having the same content as an input sentence such as “search text” cannot be searched. This problem has the same contents as the input sentence, but the essence is that there is a sentence with a different dependency structure.
[0014]
As an invention for solving a part of this problem, the invention of Patent Document 3 is raised. The present invention will be described below.
[0015]
(5): Description of the invention of Patent Document 3
The present invention has the structure of embedded sentences (sentences whose predicates are jointly modified to the main case) and extended case structures (“(main case) is (predicate-derived noun) (verb clause representing execution)”. Sentence) is an invention that makes it possible to search. As a result, in response to the input sentence “Developed by Yamada Denki”, a sentence including the descriptions “Yamada Denki that developed ~” (embedded sentence) and “Yamada Denki completed development” (sentence of the extended case structure) The gist of this is to enable search. However, the variation of the dependency structure does not occur only by these, and cannot cope with a sentence such as “Development at Yamada Electric is going well”.
[0016]
On the other hand, as a document search technique, a technique called directory search is widely known in addition to the keyword search. This method is characterized by an interface in which a hierarchical classification category is assigned to a search target document and the user arrives at a target document by selecting the presented classification category.
[0017]
In this interface, for example, when searching for documents related to “barrier-free”, the classification category name that is presented first, “society”, lower-level classification category names such as “welfare” and “barrier-free” are selected. The operation of arriving at the document.
[0018]
In this method, since the search is performed by the contents of the document independently of the description sentence on the surface layer of the document, the above-described problems associated with the keyword search do not occur, but in which classification category the document requested by the user belongs. Another problem arises that it is necessary to infer whether it is classified, and if the classification category system is not grasped, search cannot be performed well.
[0019]
In the above example, if you select another category without selecting “Welfare”, which is the category name leading to the correct answer, among the classification categories presented when you select the classification category “Society” In some cases, “barrier free” does not exist in the lower category, and the search fails.
[0020]
[Patent Document 1]
JP-A-6-195371
[Patent Document 2]
JP-A-3-20866
[Patent Document 3]
Japanese Patent Laid-Open No. 7-244669
[0021]
[Problems to be solved by the invention]
In the prior art as described above, there are the following problems when the user performs a search correctly with the description content of the search target document.
[0022]
(1): It is not possible to simply search for a sentence including a keyword input by the user, but to present information for searching for a sentence that matches the user's search intention as information for the next narrowing operation. . Further, in the conventional directory type search method, information for the next narrowing-down operation is presented, but the information presented here is not dynamically generated from a user's search viewpoint.
[0023]
{Circle around (2)} A sentence described using a synonym of an input keyword cannot be made searchable without preparing a synonym dictionary in advance.
[0024]
The present invention solves such a conventional problem,
(1): Instead of simply searching for a sentence including a keyword input by a user, information for searching for a sentence that matches the user's search intention can be presented as information for the next narrowing operation. Like that. The information presented at that time is not set in advance as in the conventional directory type search method, but is dynamically generated from the user's point of view.
[0025]
{Circle around (2)} An object is to realize at least the above two points that a sentence described using a synonym of an input keyword can be searched without preparing a synonym dictionary in advance.
[0026]
[Means for Solving the Problems]
In order to achieve the above object, the present invention is configured as follows.
[0027]
(1): In a document search device having a user interface and a keyword search engine, a phrase including an input keyword; The keyword obtained by dependency analysis A refined information creating unit for creating and presenting refined information based on a clause that is a source or an affiliated person, and a dependency information search engine that retrieves a document based on information selected by the user from the presented refined information It is characterized by having.
[0028]
(2): In the document search apparatus according to (1), the narrowed-down information creating unit has a function of creating narrowed-down information based on the type of phrase presented together with the phrase including the input keyword. It is characterized by.
[0029]
(3): In the document search device according to (1) or (2), the narrowing-down information creating unit creates a hierarchical structure by collecting common phrases among the phrases presented as narrowing information, and The narrowing information to be presented has a function of presenting the hierarchical structure.
[0030]
(4): In the document search device according to any one of (1) to (3), the narrowed-down information creating unit is based on a search result in the selected narrowed-down information based on another dependency relationship designated by the user. It has a function of creating narrowed-down information and presenting it as new narrowed-down information.
[0031]
(5): In the document search device according to any one of (1) to (3), according to one or more search viewpoints prepared in advance, a sentence characterizing the content of a search target document that matches the search viewpoint or A subject extraction unit that extracts a part of a sentence together with a search viewpoint, and a user interface for a user to input the search viewpoint at the time of search, and a narrowing information to be created from a subject description that matches the input search viewpoint It is characterized by having a refined information creating unit that creates from what is acquired.
[0032]
(Function)
The operation of the present invention based on the above configuration will be described with reference to FIG.
[0033]
(a): In the above (1), the refinement information creating unit 5 includes a phrase including the input keyword, The keyword obtained by dependency analysis Narrow down information is created with the phrase that becomes the source or destination, and is presented to the user. The dependency information search engine 6 searches the document based on the information selected by the user from the presented narrowing information.
[0034]
In this way, it is possible to present information for searching for a sentence that matches the user's search intention as information for the next narrowing operation, instead of simply searching for a sentence including the keyword entered by the user. become. The information presented at that time is not preset as in the conventional directory-type search method, but can be dynamically generated from the user's search viewpoint. In addition, since a word that is a synonym is also presented, a sentence described using the synonym of the input keyword can be searched without preparing a synonym dictionary in advance.
[0035]
(b): In the above (2), the narrowing information creating unit 5 creates narrowing information based on the type of phrase to be presented together with the phrase including the input keyword.
[0036]
In this way, instead of simply searching for a sentence containing the keyword entered by the user, information for searching for a sentence that matches the user's search intention is presented to the user as information for the next refinement operation. become able to. The information presented at that time is not preset as in the conventional directory-type search method, but can be dynamically generated from the user's search viewpoint. In addition, since a word that is a synonym is also presented, a sentence described using the synonym of the input keyword can be searched without preparing a synonym dictionary in advance.
[0037]
(c): In the above (3), the narrowed-down information creating unit 5 creates a hierarchical structure by collecting common phrases among the clauses presented as the narrowed-down information, and the hierarchical structure as the narrowed-down information presented to the user Present.
[0038]
In this way, it is possible to present information for searching for a sentence that matches the user's search intention as information for the next narrowing operation, instead of simply searching for a sentence including the keyword entered by the user. become. The information presented at that time is not preset as in the conventional directory-type search method, and can be dynamically generated from the user's search viewpoint. In addition, since a word that is a synonym is also presented, a sentence described using the synonym of the input keyword can be searched without preparing a synonym dictionary in advance.
[0039]
Furthermore, since the information is presented in a unified format as the narrowed-down information, there is too much information presented, so that the selection operation of the next user is not hindered.
[0040]
(d): In the above (4), the refinement information creation unit 5 creates refinement information from the search result in the selected refinement information based on other dependency relationships designated by the user, and newly refines it. Present as information.
[0041]
In this way, it is possible to present information for searching for a sentence that matches the user's search intention as information for the next narrowing operation, instead of simply searching for a sentence including the keyword entered by the user. become. The information presented at that time is not preset as in the conventional directory-type search method, but can be dynamically generated from the user's search viewpoint.
[0042]
In addition, since a word that is a synonym is also presented, a sentence described using the synonym of the input keyword can be searched without preparing a synonym dictionary in advance. Furthermore, since the process is repeated until the user obtains a sufficient narrowing result, a search with sufficient narrowing can be performed.
[0043]
(e): In the above (5), the subject extraction unit 7 determines a sentence or a part of the sentence that characterizes the content of the search target document that matches the search viewpoint according to one or more search viewpoints prepared in advance. Extract with search perspective. Further, the user interface 3 inputs the search viewpoint when the user searches. The refinement information creation unit 5 creates refinement information to be created from information obtained from the subject description that matches the input search viewpoint.
[0044]
In this way, it is possible to present information for searching for a sentence that matches the user's search intention as information for the next narrowing operation, instead of simply searching for a sentence including the keyword entered by the user. become. The information presented at that time is not preset as in the conventional directory-type search method, but can be dynamically generated from the user's search viewpoint. In addition, since a word that is a synonym is also presented, a sentence described using the synonym of the input keyword can be searched without preparing a synonym dictionary in advance.
[0045]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0046]
§1: Outline of document retrieval device
The outline of the document search apparatus will be described below with reference to FIG.
[0047]
(1): In the document search apparatus according to the present invention, a conventional keyword type comprising a user interface 3 for inputting a keyword of a user and presenting a search result and a keyword search engine 4 for searching a sentence including the input keyword. In the document search apparatus, further, a refined information creating unit 5 that organizes and presents dependency information related to a phrase including an input keyword, and dependency information that searches a document based on a result selected by the user from the stopped refined information A search engine 6 and a subject extraction unit 7 are provided.
[0048]
(2): An example of each processing unit and an outline of the processing will be described by taking a search task as an example. All processes other than the user interface 3 can be realized as a computer program.
[0049]
In order to solve the problem that a temporary file that should be deleted after the end of processing is left in a software product, an example search task is a past failure case (in this case, A database (DB) in which “documents described” are stored is searched.
[0050]
(3): User interface 3
A means for inputting a search condition for the user to perform a search and a means for presenting the processing result to the user are provided, which can be realized by an input device such as a keyboard and an output device such as a monitor. In the following search task, “temporary file” is input as a keyword.
[0051]
(4): Keyword search engine 4
A sentence including a keyword input by the user interface 3 is searched, and a conventional full-text search engine or the like can be used as it is.
[0052]
§2: Description and configuration of document search device
(1): Explanation of the configuration of the document search device
FIG. 2 is a block diagram of the document search apparatus. The document search device 2 includes a user interface 3, a keyword search engine 4, a refinement information creation unit 5, a dependency information search engine 6, a subject extraction unit 7, a refinement information creation rule storage DB 8, and a search target document DB 9. And a subject extraction rule storage DB 10 and the like. The DBs are all databases.
[0053]
In the above configuration, the refinement information creation rule storage DB 8 is a database in which the refinement information creation unit 5 creates refinement information with reference to the information. The search target document DB 9 is a DB used (referenced / stored) by the keyword search engine 4 and the dependency information search engine 6. The theme extraction rule storage DB 10 is a DB that the theme extraction unit 7 refers to when extracting a theme from a search target document.
[0054]
(2): Explanation of processing example
FIG. 3 is an explanatory diagram of processing of the document search apparatus. Hereinafter, processing of the entire document search apparatus will be described with reference to FIGS. 1 and 3.
[0055]
{Circle around (1)} The narrowed-down information creating unit 5 creates narrowed-down information based on the phrase including the input keyword and the phrase that is the source or destination, and presents it to the user. The dependency information search engine 6 searches the document based on the information selected by the user from the presented narrowing information.
[0056]
{Circle around (2)} The narrowed-down information creating unit 5 creates narrowed-down information based on the type of phrase presented together with the phrase including the input keyword.
[0057]
{Circle around (3)} The narrowed-down information creation unit 5 creates a hierarchical structure by collecting common phrases presented as narrowed-down information, and presents the hierarchical structure as narrowed-down information presented to the user.
[0058]
{Circle around (4)} The narrowed-down information creating unit 5 creates narrowed-down information based on other dependency relationships designated by the user from the search result in the selected narrowed-down information, and presents it as new narrowed-down information.
[0059]
{Circle around (5)} The subject extraction unit 7 extracts a sentence or a part of the sentence characterizing the search target document that matches the search viewpoint together with the search viewpoint in accordance with one or a plurality of search viewpoints prepared in advance. Further, the user interface 3 inputs the search viewpoint when the user searches. The refinement information creation unit 5 creates the refinement information to be generated from information obtained from the subject description that matches the input search viewpoint. The contents of the arrows shown in FIG. 1 and (a) to (Z) in the figure are as follows. The arrows in FIG. 1 indicate the flow of information, (a) is a search condition such as a keyword input by the user, (g) is a search area of (a), (b) is a search result for (g), (c) is information for creating refinement information from search results, (d) is refinement information created from (b) and (c), and (e) is refinement information in presented (d). (I) is the search area of (e), and (f) is the search result for (i). As for the search result (f), new refinement information (d) is generated and presented to the user using (c) as in (b).
[0060]
In the devices of Examples 1 to 3 (corresponding to claims 1 to 3), reference information to the search target document is presented to the user from the newly generated (d), but Example 4 (corresponding to claim 4) In the case of the device of), when the narrowing down information (d) has achieved sufficient narrowing down, the reference information to the search target document in (d) is also presented to the user. Further, new selection information (e) is given to the user, and (d) is generated again based on the selection information (e).
[0061]
Further, regarding the invention of Example 5 (corresponding to claim 5) described in the other examples, this means that when the search target document DB is constructed, the search target is determined in the search processing from the keyword or dependency information. Instead of targeting all sentences included in the document, the database is constructed by limiting only the subject extraction results.
[0062]
This process is performed at the time of DB construction prior to the user's search operation. The flow of information in the process is also shown in FIG. 1, and (X) is the text information in the search target document and the search target. Reference information to the document, (Y) is a rule for subject extraction, and (z) is reference information to the subject extracted by applying (Y) to (X) and the search target document.
[0063]
(3): Explanation of processing example 1 by flowchart
FIG. 4 is a processing flowchart 1 at the time of retrieval. Hereinafter, based on FIG. 4, the processing (processing example 1) of the processing flowchart 1 at the time of search will be described. This processing example is a processing example corresponding to claims 1 to 3 and will be described with reference to FIG. S1 to S6 indicate each processing step.
[0064]
First, when a search condition (a) is input by a user operation (S1), the keyword search engine 4 searches document information in the search target document DB 9 to obtain a search result (b) (S2). Next, the refinement information creation unit 5 receives the search result (b) from the keyword search engine 4, creates refinement information with reference to the refinement information creation rule storage DB 8 (S 3), and notifies the user via the user interface 3. Present (S4).
[0065]
Next, when the presented refinement information is selected by user operation and user selection information (e) is input (S5), the dependency information search engine 6 searches the search target document DB 9 as a target. To obtain the search result (f). Thereafter, the refined information creation unit 5 receives the search result (f) from the dependency information search engine 6 and presents it to the user via the user interface 3 (S6).
[0066]
(4): Explanation of processing example 2 by flowchart
FIG. 5 is a processing flowchart 2 at the time of retrieval. Hereinafter, based on FIG. 5, processing (processing example 2) of the processing flowchart 2 during search will be described. In addition, this process example is a process example corresponding to Claim 4, and S11-S17 show each process step.
[0067]
First, when a search condition (a) is input by a user operation (S11), the keyword search engine 4 searches document information in the search target document DB 9 to obtain a search result (b) (S12). Next, the refinement information creation unit 5 receives the search result (b) from the keyword search engine 4, creates refinement information with reference to the refinement information creation rule storage DB 8 (S 13), and notifies the user via the user interface 3. Present (S14).
[0068]
Next, it is determined whether or not the narrowing is sufficient by the user (S15). If not enough, narrowing information selection is performed by the user operation (S16), and then the process proceeds to S12, and the processes from S12 are performed. Is repeated. Further, if the narrowing down by the user is sufficient, the search result is presented to the user via the user interface 3 (S17).
[0069]
§3: Detailed explanation of the refinement information creation unit
(1): Explanation of Example 1
(1): Overview
The narrowed-down information creation unit 5 uses a known dependency analysis means from the retrieved sentence and expresses it as a dependency group (a combination of a source phrase notation and a destination phrase notation. Information for the next refinement operation is created based on the dependency group.
[0070]
In addition, the dependency group used to generate the refinement information may be obtained by performing dependency analysis processing on the sentence searched as described above. However, dependency analysis is performed on all search target documents in advance. Further, it is possible to obtain the search target of the keyword search engine not by using the sentence in the document but by using the dependency group.
[0071]
When generating refined information from the acquired dependency group, it is necessary to unify the surface representation of the acquired dependency group first. This is a process for unifying dependency groups that mean the same content into dependency groups having the same surface representation. By performing this processing, it is possible to present the narrowing information that matches the purpose of the present invention to search by the description content, and to reduce the narrowing information to be presented for a certain input, thereby selecting the user The burden of processing can also be reduced. For example, the following processing can be given as the surface layer expression unification processing.
[0072]
(2): Unified processing of phrases
It is a process that absorbs the shaking of the phrase expression. In the known dependency analysis method, sentences are first decomposed into morphemes by a morphological analysis method, then they are grouped into clauses based on grammatical rules, and finally the dependency relationship is estimated based on attribute information of the clauses. Process. In this case, since the morpheme that constitutes the phrase is known in each phrase, a process of deleting a morpheme, for example, grammatically called an auxiliary particle, is performed based on the morpheme information. As an adjunct particle, for example, “mo” in the phrase “to omo” is mentioned.
[0073]
In addition to the dependency analysis processing, processing such as complementing case particles with respect to parallel clauses can also be performed by using a known parallel structure analysis means. For example, a dependency such as “delete file or −delete” or “delete −directory” is extracted from a sentence such as “delete file or directory”, but the clause “file or” and clause “ Since it is known that "directory" has a parallel structure, delete the above auxiliary particle with respect to the former clause, and complement the particle of the phrase with the parallel structure. Is a process for generating a phrase such as
[0074]
This process is also applied to the next sentence “deleting a file or directory” that expresses a parallel structure with punctuation without adverbial particles, and similarly generates a dependency group “deleting a file”. It will be a thing. Furthermore, when a clause serving as a predicate of a sentence includes a past auxiliary verb or the like, a process of deleting the auxiliary verb and converting it to the present form may be considered. As a result, the phrase “remaining” is converted to “remaining”.
[0075]
Further, in the morpheme analysis dictionary used in the morpheme analysis method, information for absorbing the fluctuation of the notation is stored, for example, even when the notation in the search target document is “interface”, Processing such as converting the notation of the morpheme constituting the clause, such as converting to “interface”, is also possible.
[0076]
(3): Explanation of unified processing of dependency groups
This process is a process for standardizing the notation as a dependency group. For example, if a clause that is a predicate has a passive auxiliary verb, a dependency group consisting of a noun equivalent word and a phrase composed of a ga case particle is used as a noun equivalent word and a wo case particle. This is a process of converting into a dependency group consisting of a clause composed of the above and an active predicate clause.
[0077]
By this processing, the dependency group “the file is deleted” is converted to “the file is deleted”. Similar processing can be performed between intransitive verbs and transitive verbs. In this case, information on verbs in the relationship between intransitive verbs and transitive verbs is necessary, but this information can be obtained from a general electronic dictionary. By this process, for example, “leave the file” is converted to “leave the file”.
[0078]
(4): Explanation of clause combination processing
This is a process of combining the dependency pairs acquired from the retrieved sentences and converting them into dependency combinations having a form useful for narrowing down. For example, processing in a sentence “cell becomes blank” is raised. This sentence has two dependency pairs, “cell becomes-” and “becomes blank”, in the dependency processing based on the normal grammar, but the verb as “being” has little information as a search key. The description content cannot be guessed only by the dependency group “cell becomes-”.
[0079]
Therefore, by combining these two and configuring a dependency group in the form of “cell becomes -blank”, the content can be grasped only by the dependency group.
[0080]
In addition, in the sentence “Information may not be saved.”, The dependency analysis result based on normal grammar is “Information is not saved”, “Not saved” is “Things are” Become. However, in this description, the main expression content is that “information is not saved”, and “something” can be regarded as adding a nuance of “not necessarily happening” to this content.
[0081]
Since such a dependency group representing auxiliary contents is meaningless as a search key, these are combined to make “information may not be saved” as dependency information. The dependency clause of this dependency group is further converted to “information is not saved” by the above processing. Also, when the original sentence is “information is never saved”, a conversion rule is set so that the information is similarly converted to “information is not saved”.
[0082]
The clauses that should be subjected to such join processing should be limited to a small number of nouns and predicates that are too wide as a narrow-down key, such as “things”, “things”, “yes”, “yes”, “no”. Well, it is easy to set rules about them.
[0083]
As a result of the above processing, the keywords entered in this search task are “temporary file-deleted”, “temporary file-remains”, “temporary file-does not delete”, “temporary file-destroys”, “directory” Dependent groups such as “temporary file” and “generate-temporary file” are presented as narrowing information.
[0084]
(2): Explanation of Example 2 (corresponding to claim 2)
In Example 2 (corresponding to claim 2), the narrowed-down information creating unit 5 has a function of creating narrowed-down information based on the type of phrase to be presented together with the phrase containing the input keyword. In this regard, it is possible to add to the user interface a function that allows the user to input a usage in the sentence of the keyword together with the keyword, and to show only the dependency pairs that match the usage as the narrowing information.
[0085]
The keyword usage is, for example, “the input keyword is related to a predicate with a particle” or “modified expression with the input keyword as a destination”. When the user inputs the former usage, the above example In FIG. 2, since the two dependency groups of “temporary file in directory” and “generated temporary file” do not match the usage specified by the user, they are not presented as narrowing information. By this process, information on the dependency relationship that is not assumed by the user is not presented, so that it is possible to suppress presentation of unnecessary narrowing information.
[0086]
Next, the generated dependency groups are collected into a format that can be easily used by the user as narrowing-down information. The simplest example of this process is to present the modification number together with the number of documents including the sentence to be acquired. In this search task, when the usage of a keyword “input keyword is related to a predicate with a particle” is specified, the keyword is formatted into a format such as “presentation result 1” in FIG. Will be presented.
[0087]
Based on the presented information, the user can select “Do not delete temporary files” and “Remain temporary files” in the current search task, and search for documents including the selected dependency group. .
[0088]
At this time, not only the expression “temporary file remains” assumed by the user in this search task but also a sentence including an expression of consent “temporary file is not deleted” is presented as narrowing information. So you can search.
[0089]
In general, “do not delete” and “remain” are not synonyms, but synonyms that are synonymous as phrases expressed in a dependency group cannot be processed with synonyms in word units. This is achieved by leaving the decision to the user.
[0090]
It is also possible to have a search mode that does not search for a document from this presentation result, but performs the same processing as when the presented phrase is input as a keyword, and again presents it as refinement information. It is. For example, when the phrase “remaining” in the refined information is selected and “noun phrase with a particle related to the predicate phrase” is specified as the usage, information such as “presentation result 2” in FIG. 7 is presented to the user. .
[0091]
In this presentation result, it can be estimated that “data.tmp” is a specific file name of “temporary file” that the user assumed as a keyword, so the dependency group “data.tmp remains” is used as a search key. By doing so, it is possible to search for documents that do not use the keyword that was initially input, but that contain sentences with the same content.
[0092]
Although the above example is the simplest presentation format, when there are many variations of clauses for the input key, there is a possibility that the process of selecting from there will be inefficient.
[0093]
(3): Explanation of Example 3 (corresponding to claim 3)
In Example 3 (corresponding to claim 3), the refinement information creation unit 5 creates a hierarchical structure by collecting common phrases among the phrases presented as refinement information, and uses the hierarchy as refinement information to be presented to the user. It has a function to present the structure.
[0094]
As described above, when there are many clause variations for the input key, there is a possibility that the process of selecting from there will be inefficient. In order to solve this, in Example 3, hierarchical summarization processing is performed on the presentation result, and the amount of information presented at one time is suppressed by presenting the category name instead of presenting each entry at once. And a function of presenting in a format that supports efficient selection by the user.
[0095]
For example, in “presentation result 2” in FIG. 7, attention is paid to the particles possessed by the phrase to be presented, the phrases with the same particle are listed together, and the category name of the particle type is presented. The presentation result in this case is as “presentation result 3” in FIG.
[0096]
Here, when the user selects the category name “˜ga”, for example, a menu “expand category” is added to the user interface screen, and when the user selects it, the specific clause “temporary file” Actual phrases such as "", "Process is", etc. are presented, and the user can further perform a selection operation from the presentation result.
[0097]
It is also conceivable to select a category name, prepare a menu “search” as another menu, and perform a document search with the selected category name. In that case, the search is performed assuming that the phrase belonging to the classification category is selected.
[0098]
As such a summary enumeration process, not only the classification category focused on the particle as described above but also various other processes can be considered.
[0099]
As an example of such a classification criterion, a category based on the matching of partial morphemes of compound words constituting noun phrases can be created. For example, when there are many variations of the phrase “~ file is” such as “file is”, “temporary file”, “data file is”, “image file is”,... When the category “file” is automatically created and the narrowing information is presented, the narrowing information once presented can be reduced by first presenting the category name “˜file is”.
[0100]
In addition, by preparing a plurality of classification category names in this way, another category name may be output as a development result of a certain category. In the case of the above example, when the classification category “toga” is first expanded, a specific clause such as “directory is” and “process is” and a category name such as “to is file” are presented to the user.
[0101]
If the category “~ file is” specified in the presentation result and further expansion is performed, the specific clauses belonging to the category are “file is”, “temporary file”, “data file”, “image file” Will be presented.
[0102]
In the above example, specific clauses of clause A and clause B are input or presented in a dependency group that can be expressed as “phrase A (˜)”-clause B (˜). The user designates and searches by selection from the narrowing down information.
[0103]
(4): Explanation of Example 4 (corresponding to claim 4)
On the other hand, in Example 4 (corresponding to claim 4), the refinement information creation unit 5 creates refinement information from the search result in the selected refinement information based on other dependency relationships designated by the user, Is provided as new refinement information.
[0104]
That is, it is characterized by further narrowing down using other dependency groups relating to the phrase A or the phrase B. This provides, for example, a function for further narrowing down when there are a large number of documents having a dependency that “temporary files remain”.
[0105]
For example, when the original sentence is “temporary file remains in directory”, not only “temporary file remains” but also “remaining in directory” can be obtained. Further refined information is created using and presented to the user.
[0106]
The user can further narrow down by selecting a newly presented result. In the search device having such a function, for example, in the first selection process, “temporary file remains” is selected, and the dependency relationship used when creating the next narrowing information is expressed as “relationship clause”. When “other dependency for” is selected, a result such as “presentation result 4” in FIG. 9 is presented.
[0107]
In this example, it is used as information for further narrowing down the dependency groups belonging to the dependency clause, but the dependency group whose temporary clause is “temporary file is”, for example, “update-temporary” It is also possible to use dependency groups such as “file” and “current-temporary file” as narrowing down information.
[0108]
Also, if it is a dependency clause of another dependency group, such as the phrase “update” presented here, further refinement information can be created with that dependency source clause. . For example, the selection information of the user at this time is “temporary file—remaining” “update-temporary file”, and the user selects to further subdivide into “update” with a clause related to “update”. In this case, narrowing-down information such as “Presentation result 5” in FIG. 10 is presented.
[0109]
In this way, with regard to a clause, the internal processing of the device that presents narrowing information with the dependency group related to the clause, and the series of processing of selecting the presentation result by the user and narrowing down the document from the selection result are sufficiently narrowed down. By repeating until the result is obtained, the target document can be efficiently searched. The presentation format to the user is not limited to the above example, and can be changed without changing the gist of the present invention.
[0110]
§4: Detailed explanation of dependency information search engine
The narrowed-down information created by the narrowed-down information creating unit 5 is presented to the user from the document set that is the search result. If the number of documents is sufficiently small, the document is searched from there, and the user interface 3 To the user. On the other hand, when the narrowing information is not sufficient and the user determines that it is necessary to further narrow down the document, the user performs an operation of selecting the presented narrowing information.
[0111]
The dependency information search engine 6 performs processing for searching for a sentence including the sentence or a document including the sentence, using the selected narrowing information. In this process, for example, a sentence including clauses constituting narrowing information is searched by full-text search, and a dependency analysis process is performed on the result to extract a dependency pair, and matching with the dependency group of the narrowing information is performed. It is possible to achieve this by presenting the matching result as a search result.
[0112]
It is also possible to extract all the dependency groups from the search target document in advance, store the dependency groups in the relational database, and present the stored relational database as a search result that matches the refinement information. Is possible.
[0113]
For example, when the top presentation result in “presentation result 5” in FIG. 10 is selected, “reservation data is updated—updated” “updated—temporary file” “temporary file remains” in one sentence. Dependency group information is created and presented to the user.
[0114]
§5: Detailed explanation of other examples (subject acquisition means, etc.)
The document search apparatus having the above configuration solves the problem, but as a document search apparatus that realizes more efficient search, “a search target that matches the search viewpoint according to one or more prepared search viewpoints” The subject acquisition means for extracting a sentence or a part of the sentence characterizing the document together with a search viewpoint, and a user interface for the user to input the search viewpoint at the time of search, and the refinement information to be generated are input There has been proposed a document retrieval apparatus having a configuration including a refinement information creation unit that is created from a subject description that matches a search viewpoint. The configuration of this apparatus will be described below. These means can be realized as a program on a computer.
[0115]
(1): Theme extraction unit
In the search task used in the explanation in the previous section, the search target document is a failure example describing the content of a defect related to a software product and the countermeasure method. Here, there are countless variations on how to describe each failure case, but there is always a specific description of the failure content, and this description is the part that is assumed as the search target when performing a user search. is there. Among various contents described in such a search target document, description contents assumed as a key when the user performs a search with the contents of the document will be referred to as a subject.
[0116]
For example, in the article sentence “A temporary file remains after cancel processing”, the actual defect description is “Temporary file remains”, and the previous part “The place where the cancel process was performed” is the defect. This is the part that describes the conditions for this to occur. When a user searches for a failure case, it is natural to search using the specific contents of the failure, and in this example, the part of “temporary file remains” is the subject of the failure case.
[0117]
As described above, the document search apparatus of Example 5 (corresponding to claim 5) includes means for extracting the subject, and processing such as keyword search and creation of narrowing-down information is performed on the part describing the subject in the document. By limiting the search, it is possible to search correctly with the contents assumed by the user.
[0118]
For example, when a user wants to search for a failure case such as “a temporary file (which should be deleted) remains”, a failure case with the description “temporary file remains as specified but data is destroyed” is searched. Should not.
[0119]
The problem with this case is that the data is destroyed, not the temporary file. According to the document search apparatus of Example 5 (corresponding to claim 5), the processing is limited to the portion describing the content of the failure, so that the processing is performed only for “data is destroyed” in this description. Therefore, this failure case is successfully eliminated.
[0120]
The means for extracting the subject from such a search target document is realized by preparing an extraction rule based on the type and characteristics of the target document and extracting a description that matches the rule. For example, if the target document is a newspaper article, this rule can be as simple as extracting the first sentence in the article.
(1) The first sentence is “(noun clause A) − (predicate clause B)”. “(Predicate clause B) − (predicate clause D)”. If it includes three dependency pairs of “(noun phrase ancestor) − (predicate phrase D)”, and the last adjunct of (predicate phrase B) ends with the connected particle “ga”, then “(noun phrase C) − (Predicate clause D) ”is extracted as the subject.
[0121]
(2) If a procedure for causing a failure is described, the sentence of the last item is extracted.
[0122]
For example, an extraction rule based on a dependency pattern of a sentence or a document structure.
[0123]
In the former rule, the description given above as an example “temporary file remains as specified, but data is destroyed” (the included dependency groups remain “as specified” but “temporary file remains”). "Remaining but destroyed" and "Data destroyed") match, so "Data destroyed" is extracted as the subject.
[0124]
In the latter rule, for example, in the case where a procedure for reproducing a failure is itemized as follows:
1. Start the update process.
2. Cancel the process immediately before the end of the process to interrupt the process.
3. Temporary files remain in the directory.
[0125]
“A temporary file remains in the directory” is extracted as a theme. Of course, a dependency analysis is performed on the sentence which is the extraction result, and a rule for selecting a subject dependency group (for example, “a noun clause related to a predicate and a noun clause related to a dual case is included. It is also possible to extract only “temporary file-remaining” as a theme by applying “deleting noun clauses in case of existence”.
[0126]
As mentioned above, some of the subject extraction rules are listed. However, it is not essential to apply the extraction rule to the sentence itself in the stored document as an example. The result of the automatic summarization process can be set as a processing target.
[0127]
Further, it is not necessary that the description extracted as the subject of the search target document is only one. For example, from the description that “the system ends abnormally and temporary files remain”, “the system ends abnormally”. ”And“ Temporary files remain ”are extracted as themes.
[0128]
Furthermore, although the above description has been given for the case where there is only one subject of the document, the description content that the user is supposed to perform a search may not be limited to one. First, a search is performed with the description content “temporary file remains”, and if the search result is large, the above description further searches in the situation where the failure that was discarded as a secondary description occurs. The operation is natural.
[0129]
The document search apparatus of Example 5 (corresponding to claim 5) enables such a search operation. In this document search device, a plurality of search viewpoints are prepared without limiting the subject to one search viewpoint (in the example, “failure content”), and the description portion is used as the subject based on each search viewpoint. This is realized by extracting the subject from the document and subjecting the subject matter that matches the search viewpoint specified at the time of the search by the user.
[0130]
The rule for performing such extraction is to extract a relevant part from a description in a document as a subject together with its search viewpoint. As an example of this rule, there is the following one that extends the rule for extracting only the subject based on the above-mentioned one search viewpoint.
[0131]
(1): The first sentence is “(noun clause A) − (predicate clause B)”, “(predicate clause B) − (predicate clause D)”, “(noun clause C) − (predicate clause D)”. If it contains three dependency pairs and the last adjunct of (predicate clause B) ends with the connecting particle “ga”, then “(noun clause A) − (predicate clause B)” is used as a search viewpoint “expression condition description”. And “(noun clause C) − (predicate clause D)” is extracted as the subject search viewpoint “failure content description”.
[0132]
(2): When the procedure for generating a fault is described in a bulleted list, the sentence of the last item is extracted as the search viewpoint “description of fault contents”, and the sentence of the previous item is extracted as the search viewpoint “expression condition description”. To do.
[0133]
As a user operation, the user first selects one search viewpoint from the prepared search viewpoints, performs a search operation, and further narrows down the search result from another search viewpoint. For example, the user selects the search viewpoint “failure content description”, and first performs a search operation using the function provided by the apparatus of the present invention to search for a failure case in which the desired failure content is described.
[0134]
When the number of cases is large, an efficient search can be realized such that a search is performed from the search viewpoint “expression condition description” with respect to the search results.
[0135]
§6: Description of specific device examples and recording media
FIG. 11 shows a specific device example. The document retrieval apparatus can be realized by an arbitrary computer such as a workstation or a personal computer. This apparatus includes a computer main body 21, a display device 22 connected to the computer main body 21, an input device (keyboard / mouse, etc.) 23, a removable disk drive (referred to as “RDD”) 24, and a hard disk device (referred to as “HDD”). 25 or the like.
[0136]
The computer main body 21 includes a CPU 26 that performs various internal controls and processes, a ROM 27 (nonvolatile memory) for storing programs and various data, a memory 28, and an interface control unit (“I / F”). 29) and a communication control unit 30 are provided. The RDD 24 includes a flexible disk drive, an optical disk drive, and the like.
[0137]
In the apparatus configured as described above, for example, a program for realizing the processing of the document search apparatus is stored in a magnetic disk (recording medium) of the HDD 25, and the CPU 26 reads out and executes the program, whereby the document The processing performed by the search device is executed.
[0138]
However, the present invention is not limited to such an example. For example, the program can be stored in the magnetic disk of the HDD 25 as follows, and the CPU 26 can execute the process by executing the program. .
[0139]
{Circle around (1)} A program (program data created by another device) stored in a removable disk created by another device is read by the RDD 24 and stored in a recording medium of the HDD 25.
[0140]
{Circle around (2)}: Data such as a program transmitted from another device via a communication line is received via the communication control unit 30 and the data is stored in a recording medium (magnetic disk) of the HDD 22.
[0141]
The following configuration is appended to the above description.
(Appendix 1)
In a document search apparatus provided with a user interface and a keyword search engine,
A refinement information creation unit that creates and presents refinement information based on the clause including the input keyword and the clause that is the source or destination,
A document search apparatus comprising a dependency information search engine for searching for a document based on information selected by a user from presented refined information.
[0142]
(Appendix 2)
The document search device according to (Appendix 1), wherein the narrowed-down information creating unit has a function of creating narrowed-down information based on the type of phrase to be presented together with the phrase including the input keyword.
[0143]
(Appendix 3)
The refinement information creation unit has a function of creating a hierarchical structure by gathering common phrases presented as refinement information and presenting the hierarchical structure as refinement information to be presented to the user. The document search device according to (Appendix 1) or (Appendix 2), which is characterized.
[0144]
(Appendix 4)
The narrowed-down information creation unit has a function of creating narrowed-down information based on other dependency relationships designated by the user from a search result in the selected narrowed-down information and presenting it as new narrowed-down information. The document search device according to any one of (Appendix 1) to (Appendix 3).
[0145]
(Appendix 5)
In accordance with one or more search viewpoints prepared in advance, a subject extraction unit that extracts a sentence or a part of the sentence that characterizes the search target document that matches the search viewpoint together with the search viewpoint, and the user performs the search when searching A user interface for inputting a viewpoint, and
Any one of (Appendix 1) to (Appendix 3) is provided with a refinement information creation unit that creates refinement information to be created from a subject description that matches an input search viewpoint. Document retrieval device.
[0146]
(Appendix 6)
On the computer,
A refinement information creation unit that creates and presents refinement information based on the clause including the input keyword and the clause that is the source or destination,
A program for realizing a function of a dependency information search engine for searching a document based on information selected by a user from presented narrowing information, or a computer-readable recording medium on which the program is recorded.
[0147]
【The invention's effect】
As described above, the present invention has the following effects.
(1): In claim 1, the narrowed-down information creating unit creates narrowed-down information based on the phrase including the input keyword and the phrase that is the source or destination of the phrase and presents it to the user. The dependency information search engine searches for documents based on information selected by the user from the presented narrowing information.
[0148]
In this way, it is possible to present information for searching for a sentence that matches the user's search intention as information for the next narrowing operation, instead of simply searching for a sentence including the keyword entered by the user. become. The information presented at that time is not preset as in the conventional directory-type search method, but can be dynamically generated from the user's search viewpoint. In addition, since a word that is a synonym is also presented, a sentence described using the synonym of the input keyword can be searched without preparing a synonym dictionary in advance.
[0149]
(2): In claim 2, the narrowed-down information creating unit creates narrowed-down information based on the type of phrase presented together with the phrase including the input keyword.
[0150]
In this way, it is possible to present information for searching for a sentence that matches the user's search intention as information for the next narrowing operation, instead of simply searching for a sentence including the keyword entered by the user. become. The information presented at that time is not preset as in the conventional directory-type search method, but can be dynamically generated from the user's search viewpoint. In addition, since a word that is a synonym is also presented, a sentence described using the synonym of the input keyword can be searched without preparing a synonym dictionary in advance.
[0151]
(3): In claim 3, the narrowed-down information creating unit creates a hierarchical structure by collecting common phrases among the phrases presented as the narrowed-down information, and presents the hierarchical structure as the narrowed-down information presented to the user. To do.
[0152]
In this way, it is possible to present information for searching for a sentence that matches the user's search intention as information for the next narrowing operation, instead of simply searching for a sentence including the keyword entered by the user. become. The information presented at that time is not preset as in the conventional directory-type search method, but can be dynamically generated from the user's search viewpoint. In addition, since a word that is a synonym is also presented, a sentence described using the synonym of the input keyword can be searched without preparing a synonym dictionary in advance.
[0153]
Furthermore, since the information for the narrowing operation to be presented is grouped into categories, it is possible to perform an efficient operation in the next narrowing.
[0154]
(4): In claim 4, the narrowed-down information creating unit creates narrowed-down information from the search result in the selected narrowed-down information based on other dependency relationships designated by the user, and uses this as new narrowed-down information. Present.
[0155]
In this way, it is possible to present information for searching for a sentence that matches the user's search intention as information for the next narrowing operation, instead of simply searching for a sentence including the keyword entered by the user. become. The information presented at that time is not preset as in the conventional directory-type search method, but can be dynamically generated from the user's search viewpoint.
[0156]
In addition, since a word that is a synonym is also presented, a sentence described using the synonym of the input keyword can be searched without preparing a synonym dictionary in advance. Furthermore, since the process is repeated until the user obtains a sufficient narrowing result, a search with sufficient narrowing can be performed.
[0157]
(5): In claim 5, the subject extraction unit searches a sentence or a part of a sentence that characterizes the content of a search target document that matches the search viewpoint according to one or more search viewpoints prepared in advance. Extract with. The user interface also inputs the search viewpoint when the user searches. The refinement information creation unit creates the refinement information to be generated from information obtained from the subject description that matches the input search viewpoint.
[0158]
In this way, it is possible to present information for searching for a sentence that matches the user's search intention as information for the next narrowing operation, instead of simply searching for a sentence including the keyword entered by the user. become. The information presented at that time is not preset as in the conventional directory-type search method, but can be dynamically generated from the user's search viewpoint. In addition, since a word that is a synonym is also presented, a sentence described using the synonym of the input keyword can be searched without preparing a synonym dictionary in advance.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating the principle of the present invention.
FIG. 2 is a configuration diagram of a document search apparatus according to an embodiment of the present invention.
FIG. 3 is a process explanatory diagram of the document search apparatus according to the embodiment of the present invention.
FIG. 4 is a processing flowchart 1 at the time of search in the embodiment of the present invention.
FIG. 5 is a processing flowchart 2 at the time of search in the embodiment of the present invention.
FIG. 6 is a diagram showing a presentation result 1 in the embodiment of the present invention.
FIG. 7 is a diagram showing a presentation result 2 in the embodiment of the present invention.
FIG. 8 is a diagram showing a presentation result 3 in the embodiment of the present invention.
FIG. 9 is a diagram showing a presentation result 4 in the embodiment of the present invention.
FIG. 10 is a diagram showing a presentation result 5 in the embodiment of the present invention.
FIG. 11 is a specific example of an apparatus according to an embodiment of the present invention.
[Explanation of symbols]
1 user
2 Document search device
3 User interface
4 Keyword search engine
5 Refinement information creation department
6 dependency information search engine
7 Theme extraction part
8 Refinement information creation rule storage database (Refinement information creation rule storage database)
9 Search target document database (Search target document DB)
10 Theme extraction rule storage database (Theme extraction rule storage DB)
21 Computer body
22 Display device
23 Input devices (keyboard / mouse, etc.)
24 Removable disk drive (RDD)
25 Hard Disk Drive (HDD)
26 CPU (Central Processing Unit)
27 ROM (Read Only Memory)
28 memory
29 Interface control unit (I / F control unit)
30 Communication control unit

Claims (5)

ユーザインタフェースと、キーワード検索エンジンとを備えた文書検索装置において、
入力されたキーワードを含む文節と、係り受け解析により獲得された、該キーワードの係元または係先となる文節とで絞り込み情報を作成して提示する絞り込み情報作成部と、
提示された絞り込み情報からユーザが選択した情報を基にして文書を検索する係り受け情報検索エンジンを備えたことを特徴とする文書検索装置。
In a document search apparatus provided with a user interface and a keyword search engine,
A refinement information creation unit that creates refinement information and presents the clause including the input keyword and the clause that is obtained by dependency analysis and is the source or destination of the keyword ;
A document search apparatus comprising a dependency information search engine for searching for a document based on information selected by a user from presented refined information.
前記絞り込み情報作成部は、入力されたキーワードを含む文節と共に提示する文節の種別を基にして、絞り込み情報を作成する機能を備えていることを特徴とする請求項1記載の文書検索装置。  2. The document search apparatus according to claim 1, wherein the narrowed-down information creating unit has a function of creating narrowed-down information based on the type of phrase presented together with the phrase including the input keyword. 前記絞り込み情報作成部は、絞り込み情報として提示される文節の中で共通するものをまとめあげることにより階層構造を作成し、ユーザに提示する絞り込み情報として前記階層構造を提示する機能を備えていることを特徴とする請求項1または2に記載の文書検索装置。  The refinement information creation unit has a function of creating a hierarchical structure by collecting common phrases presented as refinement information and presenting the hierarchical structure as refinement information to be presented to the user. The document search apparatus according to claim 1, wherein the document search apparatus is a document search apparatus. 前記絞り込み情報作成部は、選択された絞り込み情報における検索結果から、ユーザの指定した他の係り受け関係に基づいて絞り込み情報を作成し、それを新たな絞り込み情報として提示する機能を備えていることを特徴とする請求項1乃至請求項3のいずれかに記載の文書検索装置。  The narrowed-down information creating unit has a function of creating narrowed-down information based on other dependency relationships designated by the user from a search result in the selected narrowed-down information and presenting it as new narrowed-down information. The document search apparatus according to claim 1, wherein 予め用意した単数または複数の検索観点に応じて、その検索観点に合致した検索対象文書を内容を特徴づける文または文の一部を検索観点と共に抽出する主題抽出部、およびユーザが検索時にその検索観点を入力するユーザインタフェースを具備し、かつ、
作成する絞り込み情報を、入力された検索観点に合致する主題記述から獲得されるものから作成する絞り込み情報作成部を備えたことを特徴とする請求項1乃至請求項3のいずれかに記載の文書検索装置。
In accordance with one or more search viewpoints prepared in advance, a subject extraction unit that extracts a sentence or a part of the sentence that characterizes the search target document that matches the search viewpoint together with the search viewpoint, and the user performs the search when searching A user interface for inputting a viewpoint, and
The document according to any one of claims 1 to 3, further comprising: a refinement information creation unit that creates refinement information to be created from information obtained from a subject description that matches an input search viewpoint. Search device.
JP2002295537A 2002-10-09 2002-10-09 Document search device Expired - Fee Related JP4177070B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002295537A JP4177070B2 (en) 2002-10-09 2002-10-09 Document search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002295537A JP4177070B2 (en) 2002-10-09 2002-10-09 Document search device

Publications (2)

Publication Number Publication Date
JP2004133564A JP2004133564A (en) 2004-04-30
JP4177070B2 true JP4177070B2 (en) 2008-11-05

Family

ID=32285744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002295537A Expired - Fee Related JP4177070B2 (en) 2002-10-09 2002-10-09 Document search device

Country Status (1)

Country Link
JP (1) JP4177070B2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4557513B2 (en) * 2003-07-11 2010-10-06 キヤノン株式会社 Information search apparatus, information search method and program
US8060357B2 (en) * 2006-01-27 2011-11-15 Xerox Corporation Linguistic user interface
JP4631795B2 (en) * 2006-05-18 2011-02-16 日本電気株式会社 Information search support system, information search support method, and information search support program
JP2010237721A (en) * 2007-07-02 2010-10-21 Nec Corp Search system, search method and search program
JP5048598B2 (en) * 2008-06-25 2012-10-17 ヤフー株式会社 Text extraction apparatus, system thereof, method thereof, and program thereof
JP6172750B2 (en) * 2013-11-13 2017-08-02 Kddi株式会社 Content search program, apparatus, and method for specifying query word selection candidates for refined search
JP6466138B2 (en) 2014-11-04 2019-02-06 株式会社東芝 Foreign language sentence creation support apparatus, method and program
JP6180470B2 (en) 2015-07-13 2017-08-16 株式会社ワイズ・リーディング Sentence candidate presentation terminal, sentence candidate presentation system, sentence candidate presentation method, and program
CN112182148B (en) * 2020-09-14 2023-08-25 山西和耀科技有限公司 Standard aided writing method based on full text retrieval
CN114780690B (en) * 2022-06-20 2022-09-09 成都信息工程大学 Patent text retrieval method and device based on multi-mode matrix vector representation
CN117573704B (en) * 2024-01-17 2024-04-12 上海合见工业软件集团有限公司 Method, device, equipment and medium for indexing composite document of EDA software

Also Published As

Publication number Publication date
JP2004133564A (en) 2004-04-30

Similar Documents

Publication Publication Date Title
US7707023B2 (en) Method of finding answers to questions
US10296584B2 (en) Semantic textual analysis
US8346795B2 (en) System and method for guiding entity-based searching
Wan et al. Person resolution in person search results: Webhawk
US6829605B2 (en) Method and apparatus for deriving logical relations from linguistic relations with multiple relevance ranking strategies for information retrieval
US20070168181A1 (en) Method and system for information extraction
JP2007087401A (en) System and method for indexing, and system and method and program for generating questionnaire template
Liu et al. Information retrieval and Web search
JP4177070B2 (en) Document search device
JP7434125B2 (en) Document search device, document search method, and program
Bhoir et al. Question answering system: A heuristic approach
Selvaretnam et al. A linguistically driven framework for query expansion via grammatical constituent highlighting and role-based concept weighting
JP4469817B2 (en) Document search system and program
Brook Wu et al. Finding nuggets in documents: A machine learning approach
KR101835994B1 (en) Method and apparatus of providing searching service for electronic books
JP2894301B2 (en) Document search method and apparatus using context information
JP3275813B2 (en) Document search apparatus, method and recording medium
JP2011076194A (en) System, method and program for creating topic concrete expression dictionary
Lin et al. A supervised learning approach to biological question answering
Litkowski Text summarization using xml-tagged documents
van der Pol Dipe-D: A tool for knowledge-based query formulation in information retrieval
Li et al. Concept Expansion Based Answer Summarization
Panunzi et al. Keyword extraction in open-domain multilingual textual resources
JPH1145249A (en) Information retrieval device and computer-readable recording medium where program for making computer function as same device is recorded
Braun Information retrieval from Dutch historical corpora

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050112

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080115

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080311

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080311

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080819

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080821

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130829

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees