JP4092933B2 - 文書情報検索装置及び文書情報検索プログラム - Google Patents

文書情報検索装置及び文書情報検索プログラム Download PDF

Info

Publication number
JP4092933B2
JP4092933B2 JP2002078295A JP2002078295A JP4092933B2 JP 4092933 B2 JP4092933 B2 JP 4092933B2 JP 2002078295 A JP2002078295 A JP 2002078295A JP 2002078295 A JP2002078295 A JP 2002078295A JP 4092933 B2 JP4092933 B2 JP 4092933B2
Authority
JP
Japan
Prior art keywords
document information
search
search request
words
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002078295A
Other languages
English (en)
Other versions
JP2003281183A (ja
Inventor
忠信 宮内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2002078295A priority Critical patent/JP4092933B2/ja
Publication of JP2003281183A publication Critical patent/JP2003281183A/ja
Application granted granted Critical
Publication of JP4092933B2 publication Critical patent/JP4092933B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、検索の対象となる文書情報の集合から検索要求に関連する文書情報を検索するために用いられる文書情報検索装置、文書情報検索方法及び文書情報検索プログラムに関する。
【0002】
【従来の技術】
近年のインターネット等の情報伝達手段の発達に伴って、電子情報化された大量の文書情報が流通している。これらの大量の文書情報を利用するためには、ユーザが必要とする情報を適切に検索できることが必要とされる。そのため、ユーザが指定した自然文等を含む文書情報(以下、検索要求という)の内容に関連する文書情報を、容易かつ簡便に見つけ出すための文書検索技術が必要とされている。
【0003】
計算機の高速化、大容量化に伴い、一般的になりつつある文書検索技術として、tf*IDF(term frequency*inverse document frequency)法等の統計情報に基づく類似文書検索技術が挙げられる。tf*IDF法を用いた類似文書検索技術では、まず入力文に対して、既存の形態素解析等を用いることによって、その集合に含まれる文書情報を形態素(単語)に切り出す。その各単語が入力文中に出現する頻度を示すtf値と、入力文内においてその単語が出現する文書情報数の逆数を示すIDF値との積を、その単語の重要度と決定する。次に、検索対象となる各文書情報に、それらの単語が出現するかを調査し、出現した単語の重要度の総和をその文書情報の関連度とする。その関連度が相対的に高い順に文書情報を抽出することによって、入力文に関連(類似)する文書情報を検索することができる。
【0004】
このような類似文書検索技術においては、最初はあいまいな語句(又は、一般的な自然文)や検索者の検索意図に近い内容を含むことが分かっている文書情報を検索要求として入力し、その検索結果から検索者の意図に近い文書情報を選択し、新たな検索要求として検索をさらに続けることによって、結果的に検索者の検索意図に近い文書情報を得ることができる。
【0005】
これによって、熟練した検索者でなくても、思いついた文や文書から検索を開始し、簡易な検索操作によって文書情報の検索を行なうことが可能となる。
【0006】
このように、検索結果を検索要求にフィードバックする方法では、検索を続けるうちに、検索者の検索意図が徐々に明確になることが多い。従って、検索者は容易に思いつくことができる簡単な文や文書から検索を開始したい場合が考えられる。
【0007】
しかしながら、最初に入力する検索要求が簡単で曖昧であるほど、その検索要求との関連性が同程度である文書情報が多くなり、検索結果として抽出される文書情報が膨大となる。その結果、膨大な検索結果から検索意図に沿った文書情報を選択することが困難となる問題があった。
【0008】
一方、特開平8−44771号公報に「情報検索装置」に関する技術が開示されている。本技術では、文書情報に含まれる単語間の係り受け関係に着目し、入力された検索要求に含まれる単語間の係り受け関係と、各検索対象文書情報に含まれる単語間の係り受け関係との一致度を調査し、その一致度が高い文書情報を検索要求と関連するものとして抽出する。
【0009】
【発明が解決しようとする課題】
しかしながら、単語間の係り受け関係の評価基準を厳しくすると、検索される文書情報が極端に少なくなり、検索者が必要とする文書情報まで排除されてしまう問題を生じていた。これに対して、単語間の係り受け関係の評価基準を甘くすると、係り受け関係を考慮しない検索方法に近づき、検索される文書情報が膨大となり、評価基準の設定が困難となる問題があった。
【0010】
本発明は、上記従来技術の問題を鑑み、簡単な検索要求から検索を開始した場合においても、検索意図に沿った文書情報を容易に検索できる文書情報検索装置、文書情報検索方法及び文書情報検索プログラムを提供することを目的とする。
【0011】
【課題を解決するための手段】
発明の1つの態様は、指定された検索要求を検索キーとして、文書情報の集合から、前記検索要求に関連する文書情報を検索する文書情報検索装置であって、前記検索要求から抽出された複数の単語と、前記文書情報の集合内の各文書情報から抽出された単語との関連に基づいて、前記文書情報の集合から少なくとも1つの前記文書情報を含む候補文書情報の集合を検索する第1検索手段と、前記検索要求から抽出された複数の単語間の関係と、前記候補文書情報の各々から抽出された複数の単語間の関係に基づいて、前記候補文書情報の集合から前記検索要求に関連する文書情報を検索する第2検索手段と、前記第2検索手段において前記検索された文書情報に含まれる単語及び当該単語間の関係に基づいて生成された要約を要約に含まれる文毎にユーザに呈示し、ユーザによる少なくとも1つの文の選択を受け付ける要約選択手段と、前記選択された文に含まれる単語間の関係から新たな検索要求を生成する検索要求生成手段と、を含み、前記新たな検索要求を用いて前記第1検索手段及び前記第2検索手段における検索処理を行うことを特徴とする。
【0012】
さらに、前記第1検索手段は、前記検索要求から抽出された複数の自立語と、前記文書情報の集合内の各文書情報から抽出された自立語との関連に基づいて前記候補文書情報の集合を検索するものとしてもよい。
【0013】
さらに、前記第1検索手段は、前記検索要求から抽出された複数の単語と、前記文書情報の集合内の各文書情報から抽出された単語との一致度の総和が高い順に前記候補文書情報の集合を検索するものとしてもよい。
【0014】
さらに、前記第2検索手段は、前記検索要求から抽出された複数の自立語間の係り受け関係と、前記候補文書情報の各々から抽出された複数の自立語間の係り受け関係に基づいて、前記候補文書情報の集合から前記検索要求に関連する文書情報を検索するものとしてもよい。
【0015】
また、本発明の別の態様は、指定された検索要求を検索キーとして、文書情報の集合から、前記検索要求に関連する文書情報を検索する文書情報検索プログラムであって、前記検索要求から抽出された複数の単語と、前記文書情報の集合内の各文書情報から抽出された単語との関連に基づいて、前記文書情報の集合から少なくとも1つの前記文書情報を含む候補文書情報の集合を検索する第1検索工程と、前記検索要求から抽出された複数の単語間の関係と、前記候補文書情報の各々から抽出された複数の単語間の関係に基づいて、前記候補文書情報の集合から前記検索要求に関連する文書情報を検索する第2検索工程と、前記第2検索工程において前記検索された文書情報に含まれる単語及び当該単語間の関係に基づいて生成された要約を要約に含まれる文毎にユーザに呈示し、ユーザによる少なくとも1つの文の選択を受け付ける要約選択工程と、前記選択された文に含まれる単語間の関係から新たな検索要求を生成する検索要求生成工程と、を含み、前記新たな検索要求を用いて前記第1検索工程及び前記第2検索工程における検索処理をコンピュータに実行させることを特徴とする文書情報検索プログラムである。
【0016】
さらに、前記第1検索工程は、前記検索要求から抽出された複数の自立語と、前記文書情報の集合内の各文書情報から抽出された自立語との関連に基づいて前記候補文書情報の集合を検索するものとしてもよい
【0017】
さらに、前記第1検索工程は、前記検索要求から抽出された複数の単語と、前記文書情報の集合内の各文書情報から抽出された単語との一致度の総和が高い順に前記候補文書情報の集合を検索するものとしてもよい。
【0018】
さらに、前記第2検索工程は、前記検索要求から抽出された複数の自立語間の係り受け関係と、前記候補文書情報の各々から抽出された複数の自立語間の係り受け関係に基づいて、前記候補文書情報の集合から前記検索要求に関連する文書情報を検索するものとしてもよい。
【0023】
【発明の実施の形態】
図1に、本発明の実施の形態における文書情報検索装置の構成を示す。文書情報検索装置10は、制御部12、記憶部14、出力部16、入力部18、内部データベース20及び外部インターフェース22を含んで成る。各部は、バス24によって互いに情報伝達可能に接続されている。また、文書情報検索装置10は、外部インターフェース22によってネットワーク26に接続され、ネットワーク26を介して外部データベース28(ネットワークに接続された他のコンピュータ等)と文書情報の送受信を行なうことができる。
【0024】
制御部12には、半導体素子である中央処理装置(CPU)を用いることができる。記憶部14は、例えば、半導体メモリである。内部データベース20及び外部データベース28は、例えば、半導体メモリ、ハードディスク装置、フレキシブルディスク又は光磁気ディスク等である。出力部16は、文書情報等を出力するものであり、例えば、ディスプレイ、プリンタ等である。また、ハードディスク装置、フレキシブルディスク等としても良い。入力部18は、検索者が検索要求を入力したり、要約を選択するために用いるものであり、例えば、キーボードやマウス等である。
【0025】
制御部12は、記憶部14等に記憶されているプログラムを実行することによって、記憶部14、内部データベース20又は外部データベース28に記憶されている文書情報の集合から検索を行なう。文書情報の検索は、以下の文書検索方法に従って行なわれる。
【0026】
図2に、本発明の第1の実施の形態における文書情報検索方法のフローチャートを示す。本実施形態の文書情報検索方法は、上記の文書情報検索装置を用いて実行することができる。図を参照して、以下に各工程を詳細に説明する。
【0027】
制御部12は、記憶部14、内部データベース20又は外部データベース28を随時参照し、そこに記憶されている情報を利用して処理を行なう。
【0028】
工程ST1では、検索を行なうキーとなる検索要求の入力が行なわれる。検索者は、入力部18を用いることによって、検索要求を文書情報検索装置10に入力することができる。入力された検索要求は、記憶部14に記憶される。
【0029】
ここでは、単語、句表現、文、文書又は文書群の情報が入力され、検索要求はこれらの情報の組み合せとなる。ここでは、説明を簡単にするために、検索要求として自然文「高速検索を実現する」が入力されたものとする。
【0030】
工程ST2では、一般的な形態素解析方法を用いて、入力された検索要求を形態素(単語)に分解する。
【0031】
上記の検索要求の例では、句表現「高速検索を実現する」が「高速」「検索」「を」「実現」「する」という単語に分解される。
【0032】
工程ST3では、分解された検索要求の各単語からキーワードの特定を行なう。本実施形態では、各単語は自立語(単独で文節となることができる単語)と、そうでない単語(助詞等)に分類される。これらの結果は、記憶部14に記憶しておくことができる。
【0033】
上記の例では、「高速」「検索」「を」「実現」「する」に分解される単語のうち、「高速」「検索」「実現」が自立語として特定され、「を」「する」が自立語でない単語として特定される。
【0034】
工程ST4では、検索の対象となる検索対象文書情報の各々について、形態素解析を用いて、その文書情報を単語に分解する。検索対象文書情報は、文書情報検索装置10の内部データベース20に蓄積されたものを対象としてもよいし、ネットワーク26を介して外部データベース28に蓄積されている文書情報を対象としても良い。
【0035】
例えば、検索対象文書情報に「実現したシステムは、本手法適用により文書の高速検索を実現する。」といった文を含む場合、その文は「実現」「した」「システム」「は」「本手法」「適用」・・・・というように単語に分解される。
【0036】
工程ST5では、さらに、分解された各単語からキーワードの特定を行なう。本実施形態では、上記の検索要求と同様に、各単語は自立語と、そうでない単語に分類される。これらの結果は、記憶部14等に記憶しておくことができる。
【0037】
上記の例では、「実現」「システム」「本手法」「適用」「文書」「高速」「検索」が自立語として特定される。
【0038】
工程ST6では、上記の各自立語(キーワード)の重要度を決定する。重要度の決定には、例えば、特許第3028811号の「テキスト検索装置」に開示された語重要度計算処理を用いることができる。
【0039】
工程ST7では、検索対象文書情報の各々に含まれる単語と、検索要求に含まれる各単語と比較され、各検索対象文書情報ごとに検索要求との単語レベルでの関連性が調べられる。例えば、その検索対象文書情報に出現する単語の重要度の総和を算出する。その総和が、検索対象文書情報のそれぞれに対する仮関連度として決定される。仮関連度は、検索対象文書集合と関連付けて記憶部14等に記憶することができる。
【0040】
さらに、仮関連度が相対的に高い順に検索対象文書情報を選択し、候補文書情報の集合として抽出する。抽出される候補文書情報の数は、適宜設定することができることが好適である。候補文書情報の集合も記憶部14等に記憶しておくことができる。
【0041】
ここまでの処理によって、莫大な文書情報から抽出された候補文書情報は仮関連度によってランキングされており、本実施の形態ではさらに単語間の関係を用いて候補文書情報の再ランキングを行なう。
【0042】
工程ST8では、検索要求の自立語間の係り受け関係が調べられる。関係の評価には、特開平7−319885号公報に開示されている「キーワード抽出装置」等を用いることができる。自立語間の係り受け関係は、記憶部14等に記憶することができる。
【0043】
上記の検索要求の例に対して自立語間の係り受け関係を調べた結果を示す。係り受け関係は、図3に示す対照表を用いて調べられる。例えば、自立語「実現」(サ変動詞)に格助詞「を」を介して自立語「高速−検索」が係り受け関係にある。この係り受け関係は、例えば、{[ヲ] 高速検索 実現}と表現される。
【0044】
本実施の形態では、単語間の関係として、自立語間の係り受け関係を用いたが、その他にも意味関係、格関係等を用いても同様の作用又は効果を得ることができる。
【0045】
工程ST9では、候補文書情報の集合に含まれる文書情報の各々に含まれる自立語間の係り受け関係を調査する。
【0046】
例えば、上記の「実現したシステムは、本手法適用により文書の高速検索を実現する。」といった文を含む候補文書情報がある場合、図4に示すように、その文についての係り受け関係は{[スル] システム 実現}、{[直結] 手法適用}、{[名詞接続] 文書 高速検索}及び{[ヲ] 高速検索 実現}となる。
【0047】
工程ST10では、検索要求に含まれる自立語間の係り受け関係と、候補文書情報の集合の中の各文書情報に含まれる自立語間の係り受け関係とが、特開平8−44771号の「情報検索装置」に開示された技術等を用いて比較され、各文書情報ごとに出現した検索要求の係り受け関係の一致度が求められる。その一致度を仮関連度に乗算する等して、最終的な関連度が決定される。
【0048】
例えば、上記の検索要求及び文書情報においては、係り受け関係{[ヲ] 高速検索 実現}が一致するものであるので、その係り受け関係の一致度がその文書情報の仮関連度に乗算され、関連度として決定される。
【0049】
工程ST11では、関連度が相対的に高い順に候補文書情報の集合から文書情報に関する情報を出力(表示)する。これによって、検索者は検索要求に関連する文書情報を得ることができる。
【0050】
図5に、本実施の形態における文書情報の検索結果の表示例を示す。この検索結果は、上記の検索要求の例を用いて検索を行なった結果である。本例では、検索の結果得られた文書情報のタイトル、先頭から所定数の文字及びURLが併せて表示されている。
【0051】
また、検索意図に沿った内容を含む文書情報を、検索者が選択可能としておくことによって、その選択された文書情報を検索要求として検索を進めることも可能である。例えば、図5のように、各文書情報に選択ボックスによるユーザインターフェース等を設けておくことによって、入力部18であるマウス等で必要な文書情報を選択することを可能とすることができる。
【0052】
工程ST12では、さらに検索を続けるかの判断が行なわれる。新たな検索要求を入力しての検索を行なう場合には、工程ST1に処理が戻される。検索された文書情報の少なくとも1つを選択して再検索を行なう場合には、工程ST13に処理を移す。
【0053】
このとき、例えば、図5に示すように、“検索結果から検索”ボタン等のユーザインターフェースを設けておくことによって、新たな検索を行なうか、再検索を行なうかの確認をすることができる。
【0054】
工程ST13では、選択された文書情報を検索要求とする処理が行なわれ、工程ST2に処理が戻される。
【0055】
本実施形態では、検索時に検索対象文書情報の形態素解析及び自立語の特定を行なったが、これらの処理を各検索対象文書情報のデータベースへの登録時に行なうことも好適である。このように、登録時に予備的に処理を行なっておくことによって、検索処理の処理時間を短縮する等の有利な効果を得ることができる。
【0056】
以上のように、まず検索要求に含まれる単語と、検索対象文書情報に含まれる単語との比較によって検索対象を絞り込み、その後、単語間の関係を用いて検索要求に関連する文書情報を検索することによって、検索対象となる文書情報を適切にランキングすることが可能となり、検索者の検索意図に沿った文書情報を適切な数だけ得ることができる。
【0057】
図6に、本発明の第2の実施の形態における文書情報検索方法のフローチャートを示す。上記の第1の実施の形態と等しい処理を行なう工程には同一の符号を付し、説明を省略する。
【0058】
工程ST2−1では、検索の結果得られた検索要求に関連する文書情報の単語間の関係を用いて、その文書情報の要約が作成される。このとき、工程ST9において、既に得られている単語間の関係を用いることによって処理を簡略化することができる。
【0059】
要約の作成には、例えば、特開平11−282881号公報に開示された「文書要約装置および記録媒体」、又は特開2001−84248号公報に開示された「文書要約装置、文書要約方法及び記録媒体」等の技術を用いることができる。これらの技術では、文書情報に含まれる自立語間の係り受け関係に基づいて、文書情報から短く的確な要約を作成することができる。
【0060】
工程ST2−2では、検索の結果得られた文書情報に関する情報と併せて、生成された要約が出力(表示)される。この要約を確認することによって、検索者は文書情報の内容を短時間で、容易に把握することが可能となる。
【0061】
図7に、本実施の形態における文書情報の表示例を示す。本例では、検索の結果得られた文書情報のタイトルやURLと共に、その文書情報から生成された要約がそれぞれ表示されている。
【0062】
このとき、例えば、検索要求の単語間の関係(第1の実施の形態では、係り受け関係)を含む要約が存在する場合、図7のように、その関係に該当する箇所を強調表示することによって、その文書情報と検索要求との関連を判断・確認し易くすることができる。また、文書情報と共に関連度を表示することによって、検索者がその文書情報と検索要求との関連性を数値によって確認することも可能である。
【0063】
また、出力された文書情報又は要約から、検索者の検索意図に沿ったものを選択可能としておくことによって、その選択された文書情報又は要約を用いてさらに検索を進めることも可能である。例えば、図7のように、各文書情報のタイトル及び要約に選択ボックスによるユーザインターフェース等を設けておくことによって、入力部18であるマウス等で必要な文書情報又は要約を選択することを可能とすることができる。
【0064】
工程ST2−3では、新たな検索要求を入力しての検索、または選択された文書情報又は要約を用いた再検索の判断がされる。新たな検索要求からの検索を行なう際には、工程ST1に処理を戻す。文書情報又は要約に基づいて再検索を行なう際には、工程ST2−4に処理を移す。
【0065】
このとき、例えば、図7に示すように、“検索結果から検索”ボタン等のユーザインターフェースを設けておくことによって、新たな検索を行なうか、再検索を行なうかの確認をすることができる。
【0066】
工程ST2−4では、選択された文書情報又は要約から新たな検索要求が作成される。検索要求を作成する方法としては、最も簡単には、文書情報又は要約の全部を検索要求とするものが挙げられる。また、文書情報又は要約から重要語又は重要な単語間の関係を抽出して、新たな検索要求とすることも好適である。単語間の関係を用いる場合には、工程ST9において、既に得られた単語間の関係を利用することが好適である。これによって、処理を簡略化することができる。本工程後は工程ST2に処理が戻される。
【0067】
また、本実施の形態では、文書情報又は要約から新たな検索要求を作成し、再検索を実行するものとしたが、例えば、文書情報又は要約を用いて自然文検索を実行するような実施の形態とすることも好適である。
【0068】
以上のように、本実施の形態によると、文書情報の内容を的確な要約によって確認することができる。検索者は、それぞれの文書情報の本文にアクセスすることなく、その文書情報の内容を迅速かつ容易に把握することが可能となる。
【0069】
また、検索要求に含まれる単語間の関係に基づいて、要約を強調表示することによって、より容易に文書情報の内容を把握することが可能となる。さらに、関連度を表示することによって、検索要求と文書情報との関連性を具体的な数値として把握することができる。
【0070】
さらに、要約を選択し、その要約を用いた再検索を可能とすることによって、検索者の意図に沿った検索キーを容易に作成し、再検索を行なうことができる。なぜなら、単語間の関係を用いた検索結果である文書情報から生成された要約には、検索者の検索意図が反映された情報が多数含まれる可能性が高いためである。
【0071】
上記の実施の形態における文書情報検索方法をプログラム化し、そのプログラムをコンピュータに実行させることによっても同様の作用及び効果を得ることができる。また、そのプログラムをコンピュータ読み取り可能な記録媒体に記録し、その記録媒体からコンピュータにプログラムを読み取らせることによっても同様の作用及び効果を得ることができる。記録媒体としては、例えば、フレキシブルディスク、光磁気ディクス等が挙げられる。
【0072】
【発明の効果】
本発明によって、簡単な検索要求から検索を開始した場合においても、検索意図に沿った文書情報を容易に検索できる文書情報検索装置、文書情報検索方法及び文書情報検索プログラムを提供することができる。
【図面の簡単な説明】
【図1】 本発明の実施の形態における文書情報検索装置の構成のブロック図である。
【図2】 本発明の第1の実施の形態における文書情報検索方法のフローチャートを示す図である。
【図3】 本発明の実施の形態における係り受け関係の対照表を示す図である。
【図4】 本発明の実施の形態における係り受け関係の解析例を示す図である。
【図5】 本発明の第1の実施の形態における検索結果の表示例を示す図である。
【図6】 本発明の第2の実施の形態における文書情報検索方法のフローチャートを示す図である。
【図7】 本発明の第2の実施の形態における検索結果の表示例を示す図である。
【符号の説明】
10 文書情報検索装置、12 制御部、14 記憶部、16 出力部、18入力部、20 内部データベース、22 外部インターフェース、24 バス、26 ネットワーク、28 外部データベース。

Claims (8)

  1. 指定された検索要求を検索キーとして、文書情報の集合から、前記検索要求に関連する文書情報を検索する文書情報検索装置であって、
    前記検索要求から抽出された複数の単語と、前記文書情報の集合内の各文書情報から抽出された単語との関連に基づいて、前記文書情報の集合から少なくとも1つの前記文書情報を含む候補文書情報の集合を検索する第1検索手段と、
    前記検索要求から抽出された複数の単語間の関係と、前記候補文書情報の各々から抽出された複数の単語間の関係に基づいて、前記候補文書情報の集合から前記検索要求に関連する文書情報を検索する第2検索手段と、
    前記第2検索手段において前記検索された文書情報に含まれる単語及び当該単語間の関係に基づいて生成された要約を要約に含まれる文毎にユーザに呈示し、ユーザによる少なくとも1つの文の選択を受け付ける要約選択手段と、
    前記選択された文に含まれる単語間の関係から新たな検索要求を生成する検索要求生成手段と、
    を含み、
    前記新たな検索要求を用いて前記第1検索手段及び前記第2検索手段における検索処理を行うことを特徴とする文書情報検索装置。
  2. 請求項1に記載の文書情報検索装置において、
    前記第1検索手段は、前記検索要求から抽出された複数の自立語と、前記文書情報の集合内の各文書情報から抽出された自立語との関連に基づいて前記候補文書情報の集合を検索することを特徴とする文書情報検索装置。
  3. 請求項に記載の文書情報検索装置において、
    前記第1検索手段は、前記検索要求から抽出された複数の単語と、前記文書情報の集合内の各文書情報から抽出された単語との一致度の総和が高い順に前記候補文書情報の集合を検索することを特徴とする文書情報検索装置。
  4. 請求項1から3のいずれか1に記載の文書情報検索装置において、
    前記第2検索手段は、前記検索要求から抽出された複数の自立語間の係り受け関係と、前記候補文書情報の各々から抽出された複数の自立語間の係り受け関係に基づいて、前記候補文書情報の集合から前記検索要求に関連する文書情報を検索することを特徴とする文書情報検索装置。
  5. 指定された検索要求を検索キーとして、文書情報の集合から、前記検索要求に関連する文書情報を検索する文書情報検索プログラムであって、
    前記検索要求から抽出された複数の単語と、前記文書情報の集合内の各文書情報から抽出された単語との関連に基づいて、前記文書情報の集合から少なくとも1つの前記文書情報を含む候補文書情報の集合を検索する第1検索工程と、
    前記検索要求から抽出された複数の単語間の関係と、前記候補文書情報の各々から抽出された複数の単語間の関係に基づいて、前記候補文書情報の集合から前記検索要求に関連する文書情報を検索する第2検索工程と、
    前記第2検索工程において前記検索された文書情報に含まれる単語及び当該単語間の関係に基づいて生成された要約を要約に含まれる文毎にユーザに呈示し、ユーザによる少なくとも1つの文の選択を受け付ける要約選択工程と、
    前記選択された文に含まれる単語間の関係から新たな検索要求を生成する検索要求生成工程と、
    を含み、
    前記新たな検索要求を用いて前記第1検索工程及び前記第2検索工程における検索処理をコンピュータに実行させることを特徴とする文書情報検索プログラム。
  6. 請求項5に記載の文書情報検索プログラムにおいて、
    前記第1検索工程は、前記検索要求から抽出された複数の自立語と、前記文書情報の集合内の各文書情報から抽出された自立語との関連に基づいて前記候補文書情報の集合を検索することを特徴とする文書情報検索プログラム。
  7. 請求項5に記載の文書情報検索プログラムにおいて、
    前記第1検索工程は、前記検索要求から抽出された複数の単語と、前記文書情報の集合内の各文書情報から抽出された単語との一致度の総和が高い順に前記候補文書情報の集合を検索することを特徴とする文書情報検索プログラム。
  8. 請求項5から7のいずれか1に記載の文書情報検索プログラムにおいて、
    前記第2検索工程は、前記検索要求から抽出された複数の自立語間の係り受け関係と、前記候補文書情報の各々から抽出された複数の自立語間の係り受け関係に基づいて、前記候補文書情報の集合から前記検索要求に関連する文書情報を検索することを特徴とする文書情報検索プログラム。
JP2002078295A 2002-03-20 2002-03-20 文書情報検索装置及び文書情報検索プログラム Expired - Fee Related JP4092933B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002078295A JP4092933B2 (ja) 2002-03-20 2002-03-20 文書情報検索装置及び文書情報検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002078295A JP4092933B2 (ja) 2002-03-20 2002-03-20 文書情報検索装置及び文書情報検索プログラム

Publications (2)

Publication Number Publication Date
JP2003281183A JP2003281183A (ja) 2003-10-03
JP4092933B2 true JP4092933B2 (ja) 2008-05-28

Family

ID=29228324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002078295A Expired - Fee Related JP4092933B2 (ja) 2002-03-20 2002-03-20 文書情報検索装置及び文書情報検索プログラム

Country Status (1)

Country Link
JP (1) JP4092933B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234635A (ja) * 2004-02-17 2005-09-02 Fuji Xerox Co Ltd 文書要約装置および方法
US7584175B2 (en) 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7580921B2 (en) 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
JP4857448B2 (ja) * 2006-03-10 2012-01-18 独立行政法人情報通信研究機構 多義語による情報検索装置及びプログラム
JP4791984B2 (ja) * 2007-02-27 2011-10-12 株式会社東芝 入力された音声を処理する装置、方法およびプログラム
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
JP4962967B2 (ja) * 2008-01-11 2012-06-27 ヤフー株式会社 Webページ検索サーバ及びクエリ推薦方法
JP5246932B2 (ja) * 2008-08-29 2013-07-24 西日本電信電話株式会社 検索装置及び方法、ならびに、コンピュータプログラム
JP5379627B2 (ja) * 2009-09-29 2013-12-25 エヌ・ティ・ティ・コミュニケーションズ株式会社 検索制御装置、検索制御方法、及びプログラム
JP5900419B2 (ja) 2013-06-11 2016-04-06 コニカミノルタ株式会社 関心事判別装置、関心事判別方法、およびコンピュータプログラム
US20200026767A1 (en) * 2018-07-17 2020-01-23 Fuji Xerox Co., Ltd. System and method for generating titles for summarizing conversational documents

Also Published As

Publication number Publication date
JP2003281183A (ja) 2003-10-03

Similar Documents

Publication Publication Date Title
Osiński An algorithm for clustering of web search results
US7668887B2 (en) Method, system and software product for locating documents of interest
JP4814238B2 (ja) 法律上の要点をサーチするシステム及び方法
JP4092933B2 (ja) 文書情報検索装置及び文書情報検索プログラム
US8402046B2 (en) Conceptual reverse query expander
JP2008234656A (ja) クロスランゲージ質問要求翻訳方法及びシステム並びにクロスランゲージ情報検索
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
JP2001084255A (ja) 文書検索装置および方法
Yeloglu et al. Multi-document summarization of scientific corpora
US8229970B2 (en) Efficient storage and retrieval of posting lists
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
RU2473119C1 (ru) Способ и система семантического поиска электронных документов
Chen et al. Adding new concepts on the domain ontology based on semantic similarity
JP4469817B2 (ja) 文書検索システム及びプログラム
Brook Wu et al. Finding nuggets in documents: A machine learning approach
Knoth et al. Towards a framework for comparing automatic term recognition methods
KR101037091B1 (ko) 자동 언어 번역을 통한 다국어의 전거 표목에 대한 온톨로지 기반 의미 검색 시스템 및 방법
JP4452527B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
Reddy et al. Cross lingual information retrieval using search engine and data mining
JP7428035B2 (ja) データ検索装置、データ検索方法およびプログラム
Bhaskar et al. Cross lingual query dependent snippet generation
Sengupta et al. Semantic thumbnails: a novel method for summarizing document collections
JPH1145255A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2009059290A (ja) 外国語文書作成支援装置、外国語文書作成支援方法および外国語文書作成支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040913

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080225

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110314

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120314

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130314

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130314

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140314

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees