JP2003281183A - 文書情報検索装置、文書情報検索方法及び文書情報検索プログラム - Google Patents

文書情報検索装置、文書情報検索方法及び文書情報検索プログラム

Info

Publication number
JP2003281183A
JP2003281183A JP2002078295A JP2002078295A JP2003281183A JP 2003281183 A JP2003281183 A JP 2003281183A JP 2002078295 A JP2002078295 A JP 2002078295A JP 2002078295 A JP2002078295 A JP 2002078295A JP 2003281183 A JP2003281183 A JP 2003281183A
Authority
JP
Japan
Prior art keywords
document information
search
search request
words
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002078295A
Other languages
English (en)
Other versions
JP4092933B2 (ja
Inventor
Tadanobu Miyauchi
忠信 宮内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2002078295A priority Critical patent/JP4092933B2/ja
Publication of JP2003281183A publication Critical patent/JP2003281183A/ja
Application granted granted Critical
Publication of JP4092933B2 publication Critical patent/JP4092933B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 検索意図に沿った文書情報を容易に検索でき
る文書情報検索方法を提供する。 【解決手段】 検索要求に含まれる単語と、文書情報の
集合内の各文書情報に含まれる単語との関連に基づい
て、文書情報の集合から少なくとも1つの文書情報を含
む候補文書情報の集合を検索する工程ST1〜7と、検
索要求における単語間の関係と、候補文書情報の各々に
おける単語間の関係に基づいて、候補文書情報の集合か
ら検索要求に関連する文書情報を検索する工程ST6〜
11とを含むことを特徴とする文書情報検索方法によっ
て上記課題を解決する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索の対象となる
文書情報の集合から検索要求に関連する文書情報を検索
するために用いられる文書情報検索装置、文書情報検索
方法及び文書情報検索プログラムに関する。
【0002】
【従来の技術】近年のインターネット等の情報伝達手段
の発達に伴って、電子情報化された大量の文書情報が流
通している。これらの大量の文書情報を利用するために
は、ユーザが必要とする情報を適切に検索できることが
必要とされる。そのため、ユーザが指定した自然文等を
含む文書情報(以下、検索要求という)の内容に関連す
る文書情報を、容易かつ簡便に見つけ出すための文書検
索技術が必要とされている。
【0003】計算機の高速化、大容量化に伴い、一般的
になりつつある文書検索技術として、tf*IDF(te
rm frequency*inverse document frequency)法等の統計
情報に基づく類似文書検索技術が挙げられる。tf*I
DF法を用いた類似文書検索技術では、まず入力文に対
して、既存の形態素解析等を用いることによって、その
集合に含まれる文書情報を形態素(単語)に切り出す。
その各単語が入力文中に出現する頻度を示すtf値と、
入力文内においてその単語が出現する文書情報数の逆数
を示すIDF値との積を、その単語の重要度と決定す
る。次に、検索対象となる各文書情報に、それらの単語
が出現するかを調査し、出現した単語の重要度の総和を
その文書情報の関連度とする。その関連度が相対的に高
い順に文書情報を抽出することによって、入力文に関連
(類似)する文書情報を検索することができる。
【0004】このような類似文書検索技術においては、
最初はあいまいな語句(又は、一般的な自然文)や検索
者の検索意図に近い内容を含むことが分かっている文書
情報を検索要求として入力し、その検索結果から検索者
の意図に近い文書情報を選択し、新たな検索要求として
検索をさらに続けることによって、結果的に検索者の検
索意図に近い文書情報を得ることができる。
【0005】これによって、熟練した検索者でなくて
も、思いついた文や文書から検索を開始し、簡易な検索
操作によって文書情報の検索を行なうことが可能とな
る。
【0006】このように、検索結果を検索要求にフィー
ドバックする方法では、検索を続けるうちに、検索者の
検索意図が徐々に明確になることが多い。従って、検索
者は容易に思いつくことができる簡単な文や文書から検
索を開始したい場合が考えられる。
【0007】しかしながら、最初に入力する検索要求が
簡単で曖昧であるほど、その検索要求との関連性が同程
度である文書情報が多くなり、検索結果として抽出され
る文書情報が膨大となる。その結果、膨大な検索結果か
ら検索意図に沿った文書情報を選択することが困難とな
る問題があった。
【0008】一方、特開平8−44771号公報に「情
報検索装置」に関する技術が開示されている。本技術で
は、文書情報に含まれる単語間の係り受け関係に着目
し、入力された検索要求に含まれる単語間の係り受け関
係と、各検索対象文書情報に含まれる単語間の係り受け
関係との一致度を調査し、その一致度が高い文書情報を
検索要求と関連するものとして抽出する。
【0009】
【発明が解決しようとする課題】しかしながら、単語間
の係り受け関係の評価基準を厳しくすると、検索される
文書情報が極端に少なくなり、検索者が必要とする文書
情報まで排除されてしまう問題を生じていた。これに対
して、単語間の係り受け関係の評価基準を甘くすると、
係り受け関係を考慮しない検索方法に近づき、検索され
る文書情報が膨大となり、評価基準の設定が困難となる
問題があった。
【0010】本発明は、上記従来技術の問題を鑑み、簡
単な検索要求から検索を開始した場合においても、検索
意図に沿った文書情報を容易に検索できる文書情報検索
装置、文書情報検索方法及び文書情報検索プログラムを
提供することを目的とする。
【0011】
【課題を解決するための手段】上記課題を解決するため
の本発明は、指定された検索要求を検索キーとして、文
書情報の集合から、前記検索要求に関連する文書情報を
検索する文書情報検索装置であって、前記検索要求に含
まれる単語と、前記文書情報の集合内の各文書情報に含
まれる単語との関連に基づいて、前記文書情報の集合か
ら少なくとも1つの前記文書情報を含む候補文書情報の
集合を検索する手段と、前記検索要求における単語間の
関係と、前記候補文書情報の各々における単語間の関係
に基づいて、前記候補文書情報の集合から前記検索要求
に関連する文書情報を検索する手段とを含むことを特徴
とする。
【0012】さらに、本発明は、前記検索された文書情
報に含まれる単語及び当該単語間の関係に基づいて、当
該文書情報の要約を生成する手段を有することが好適で
ある。
【0013】さらに、本発明は、前記文書情報の要約の
少なくとも1つを選択する手段と、前記選択された要約
に基づいて、新たな検索要求を生成する手段とを有する
ことが好適である。
【0014】さらに、本発明は、前記検索要求に含まれ
る単語間の関係に基づいて、前記検索された文書情報又
は前記要約を表示する手段を有することが好適である。
【0015】また、本発明は、指定された検索要求を検
索キーとして、文書情報の集合から、前記検索要求に関
連する文書情報を検索する文書情報検索方法であって、
前記検索要求に含まれる単語と、前記文書情報の集合内
の各文書情報に含まれる単語との関連に基づいて、前記
文書情報の集合から少なくとも1つの前記文書情報を含
む候補文書情報の集合を検索する工程と、前記検索要求
における単語間の関係と、前記候補文書情報の各々にお
ける単語間の関係に基づいて、前記候補文書情報の集合
から前記検索要求に関連する文書情報を検索する工程と
を含むことを特徴とする。
【0016】さらに、本発明は、前記検索された文書情
報に含まれる単語及び当該単語間の関係に基づいて、当
該文書情報の要約を生成する工程を有することが好適で
ある。
【0017】さらに、本発明は、前記文書情報の要約の
少なくとも1つを選択する工程と、前記選択された要約
に基づいて、新たな検索要求を生成する工程とを有する
ことが好適である。
【0018】さらに、本発明は、前記検索要求に含まれ
る単語間の関係に基づいて、前記検索された文書情報又
は前記要約を表示する工程を有することが好適である。
【0019】また、本発明は、指定された検索要求を検
索キーとして、文書情報の集合から、前記検索要求に関
連する文書情報を検索する文書情報検索プログラムであ
って、前記検索要求に含まれる単語と、前記文書情報の
集合内の各文書情報に含まれる単語との関連に基づい
て、前記文書情報の集合から少なくとも1つの前記文書
情報を含む候補文書情報の集合を検索する工程と、前記
検索要求における単語間の関係と、前記候補文書情報の
各々における単語間の関係に基づいて、前記候補文書情
報の集合から前記検索要求に関連する文書情報を検索す
る工程とをコンピュータに実行させることを特徴とす
る。
【0020】さらに、本発明は、前記検索された文書情
報に含まれる単語及び当該単語間の関係に基づいて、当
該文書情報の要約を生成する工程をコンピュータに実行
させることが好適である。
【0021】さらに、本発明は、前記文書情報の要約の
少なくとも1つを選択する工程と、前記選択された要約
に基づいて、新たな検索要求を生成する工程とをコンピ
ュータに実行させることが好適である。
【0022】さらに、本発明は、前記検索要求に含まれ
る単語間の関係に基づいて、前記検索された文書情報又
は前記要約を表示する工程をコンピュータに実行させる
ことが好適である。
【0023】
【発明の実施の形態】図1に、本発明の実施の形態にお
ける文書情報検索装置の構成を示す。文書情報検索装置
10は、制御部12、記憶部14、出力部16、入力部
18、内部データベース20及び外部インターフェース
22を含んで成る。各部は、バス24によって互いに情
報伝達可能に接続されている。また、文書情報検索装置
10は、外部インターフェース22によってネットワー
ク26に接続され、ネットワーク26を介して外部デー
タベース28(ネットワークに接続された他のコンピュ
ータ等)と文書情報の送受信を行なうことができる。
【0024】制御部12には、半導体素子である中央処
理装置(CPU)を用いることができる。記憶部14
は、例えば、半導体メモリである。内部データベース2
0及び外部データベース28は、例えば、半導体メモ
リ、ハードディスク装置、フレキシブルディスク又は光
磁気ディスク等である。出力部16は、文書情報等を出
力するものであり、例えば、ディスプレイ、プリンタ等
である。また、ハードディスク装置、フレキシブルディ
スク等としても良い。入力部18は、検索者が検索要求
を入力したり、要約を選択するために用いるものであ
り、例えば、キーボードやマウス等である。
【0025】制御部12は、記憶部14等に記憶されて
いるプログラムを実行することによって、記憶部14、
内部データベース20又は外部データベース28に記憶
されている文書情報の集合から検索を行なう。文書情報
の検索は、以下の文書検索方法に従って行なわれる。
【0026】図2に、本発明の第1の実施の形態におけ
る文書情報検索方法のフローチャートを示す。本実施形
態の文書情報検索方法は、上記の文書情報検索装置を用
いて実行することができる。図を参照して、以下に各工
程を詳細に説明する。
【0027】制御部12は、記憶部14、内部データベ
ース20又は外部データベース28を随時参照し、そこ
に記憶されている情報を利用して処理を行なう。
【0028】工程ST1では、検索を行なうキーとなる
検索要求の入力が行なわれる。検索者は、入力部18を
用いることによって、検索要求を文書情報検索装置10
に入力することができる。入力された検索要求は、記憶
部14に記憶される。
【0029】ここでは、単語、句表現、文、文書又は文
書群の情報が入力され、検索要求はこれらの情報の組み
合せとなる。ここでは、説明を簡単にするために、検索
要求として自然文「高速検索を実現する」が入力された
ものとする。
【0030】工程ST2では、一般的な形態素解析方法
を用いて、入力された検索要求を形態素(単語)に分解
する。
【0031】上記の検索要求の例では、句表現「高速検
索を実現する」が「高速」「検索」「を」「実現」「す
る」という単語に分解される。
【0032】工程ST3では、分解された検索要求の各
単語からキーワードの特定を行なう。本実施形態では、
各単語は自立語(単独で文節となることができる単語)
と、そうでない単語(助詞等)に分類される。これらの
結果は、記憶部14に記憶しておくことができる。
【0033】上記の例では、「高速」「検索」「を」
「実現」「する」に分解される単語のうち、「高速」
「検索」「実現」が自立語として特定され、「を」「す
る」が自立語でない単語として特定される。
【0034】工程ST4では、検索の対象となる検索対
象文書情報の各々について、形態素解析を用いて、その
文書情報を単語に分解する。検索対象文書情報は、文書
情報検索装置10の内部データベース20に蓄積された
ものを対象としてもよいし、ネットワーク26を介して
外部データベース28に蓄積されている文書情報を対象
としても良い。
【0035】例えば、検索対象文書情報に「実現したシ
ステムは、本手法適用により文書の高速検索を実現す
る。」といった文を含む場合、その文は「実現」「し
た」「システム」「は」「本手法」「適用」・・・・と
いうように単語に分解される。
【0036】工程ST5では、さらに、分解された各単
語からキーワードの特定を行なう。本実施形態では、上
記の検索要求と同様に、各単語は自立語と、そうでない
単語に分類される。これらの結果は、記憶部14等に記
憶しておくことができる。
【0037】上記の例では、「実現」「システム」「本
手法」「適用」「文書」「高速」「検索」が自立語とし
て特定される。
【0038】工程ST6では、上記の各自立語(キーワ
ード)の重要度を決定する。重要度の決定には、例え
ば、特許第3028811号の「テキスト検索装置」に
開示された語重要度計算処理を用いることができる。
【0039】工程ST7では、検索対象文書情報の各々
に含まれる単語と、検索要求に含まれる各単語と比較さ
れ、各検索対象文書情報ごとに検索要求との単語レベル
での関連性が調べられる。例えば、その検索対象文書情
報に出現する単語の重要度の総和を算出する。その総和
が、検索対象文書情報のそれぞれに対する仮関連度とし
て決定される。仮関連度は、検索対象文書集合と関連付
けて記憶部14等に記憶することができる。
【0040】さらに、仮関連度が相対的に高い順に検索
対象文書情報を選択し、候補文書情報の集合として抽出
する。抽出される候補文書情報の数は、適宜設定するこ
とができることが好適である。候補文書情報の集合も記
憶部14等に記憶しておくことができる。
【0041】ここまでの処理によって、莫大な文書情報
から抽出された候補文書情報は仮関連度によってランキ
ングされており、本実施の形態ではさらに単語間の関係
を用いて候補文書情報の再ランキングを行なう。
【0042】工程ST8では、検索要求の自立語間の係
り受け関係が調べられる。関係の評価には、特開平7−
319885号公報に開示されている「キーワード抽出
装置」等を用いることができる。自立語間の係り受け関
係は、記憶部14等に記憶することができる。
【0043】上記の検索要求の例に対して自立語間の係
り受け関係を調べた結果を示す。係り受け関係は、図3
に示す対照表を用いて調べられる。例えば、自立語「実
現」(サ変動詞)に格助詞「を」を介して自立語「高速
−検索」が係り受け関係にある。この係り受け関係は、
例えば、{[ヲ] 高速検索 実現}と表現される。
【0044】本実施の形態では、単語間の関係として、
自立語間の係り受け関係を用いたが、その他にも意味関
係、格関係等を用いても同様の作用又は効果を得ること
ができる。
【0045】工程ST9では、候補文書情報の集合に含
まれる文書情報の各々に含まれる自立語間の係り受け関
係を調査する。
【0046】例えば、上記の「実現したシステムは、本
手法適用により文書の高速検索を実現する。」といった
文を含む候補文書情報がある場合、図4に示すように、
その文についての係り受け関係は{[スル] システム
実現}、{[直結] 手法適用}、{[名詞接続]
文書 高速検索}及び{[ヲ] 高速検索 実現}とな
る。
【0047】工程ST10では、検索要求に含まれる自
立語間の係り受け関係と、候補文書情報の集合の中の各
文書情報に含まれる自立語間の係り受け関係とが、特開
平8−44771号の「情報検索装置」に開示された技
術等を用いて比較され、各文書情報ごとに出現した検索
要求の係り受け関係の一致度が求められる。その一致度
を仮関連度に乗算する等して、最終的な関連度が決定さ
れる。
【0048】例えば、上記の検索要求及び文書情報にお
いては、係り受け関係{[ヲ] 高速検索 実現}が一
致するものであるので、その係り受け関係の一致度がそ
の文書情報の仮関連度に乗算され、関連度として決定さ
れる。
【0049】工程ST11では、関連度が相対的に高い
順に候補文書情報の集合から文書情報に関する情報を出
力(表示)する。これによって、検索者は検索要求に関
連する文書情報を得ることができる。
【0050】図5に、本実施の形態における文書情報の
検索結果の表示例を示す。この検索結果は、上記の検索
要求の例を用いて検索を行なった結果である。本例で
は、検索の結果得られた文書情報のタイトル、先頭から
所定数の文字及びURLが併せて表示されている。
【0051】また、検索意図に沿った内容を含む文書情
報を、検索者が選択可能としておくことによって、その
選択された文書情報を検索要求として検索を進めること
も可能である。例えば、図5のように、各文書情報に選
択ボックスによるユーザインターフェース等を設けてお
くことによって、入力部18であるマウス等で必要な文
書情報を選択することを可能とすることができる。
【0052】工程ST12では、さらに検索を続けるか
の判断が行なわれる。新たな検索要求を入力しての検索
を行なう場合には、工程ST1に処理が戻される。検索
された文書情報の少なくとも1つを選択して再検索を行
なう場合には、工程ST13に処理を移す。
【0053】このとき、例えば、図5に示すように、
“検索結果から検索”ボタン等のユーザインターフェー
スを設けておくことによって、新たな検索を行なうか、
再検索を行なうかの確認をすることができる。
【0054】工程ST13では、選択された文書情報を
検索要求とする処理が行なわれ、工程ST2に処理が戻
される。
【0055】本実施形態では、検索時に検索対象文書情
報の形態素解析及び自立語の特定を行なったが、これら
の処理を各検索対象文書情報のデータベースへの登録時
に行なうことも好適である。このように、登録時に予備
的に処理を行なっておくことによって、検索処理の処理
時間を短縮する等の有利な効果を得ることができる。
【0056】以上のように、まず検索要求に含まれる単
語と、検索対象文書情報に含まれる単語との比較によっ
て検索対象を絞り込み、その後、単語間の関係を用いて
検索要求に関連する文書情報を検索することによって、
検索対象となる文書情報を適切にランキングすることが
可能となり、検索者の検索意図に沿った文書情報を適切
な数だけ得ることができる。
【0057】図6に、本発明の第2の実施の形態におけ
る文書情報検索方法のフローチャートを示す。上記の第
1の実施の形態と等しい処理を行なう工程には同一の符
号を付し、説明を省略する。
【0058】工程ST2−1では、検索の結果得られた
検索要求に関連する文書情報の単語間の関係を用いて、
その文書情報の要約が作成される。このとき、工程ST
9において、既に得られている単語間の関係を用いるこ
とによって処理を簡略化することができる。
【0059】要約の作成には、例えば、特開平11−2
82881号公報に開示された「文書要約装置および記
録媒体」、又は特開2001−84248号公報に開示
された「文書要約装置、文書要約方法及び記録媒体」等
の技術を用いることができる。これらの技術では、文書
情報に含まれる自立語間の係り受け関係に基づいて、文
書情報から短く的確な要約を作成することができる。
【0060】工程ST2−2では、検索の結果得られた
文書情報に関する情報と併せて、生成された要約が出力
(表示)される。この要約を確認することによって、検
索者は文書情報の内容を短時間で、容易に把握すること
が可能となる。
【0061】図7に、本実施の形態における文書情報の
表示例を示す。本例では、検索の結果得られた文書情報
のタイトルやURLと共に、その文書情報から生成され
た要約がそれぞれ表示されている。
【0062】このとき、例えば、検索要求の単語間の関
係(第1の実施の形態では、係り受け関係)を含む要約
が存在する場合、図7のように、その関係に該当する箇
所を強調表示することによって、その文書情報と検索要
求との関連を判断・確認し易くすることができる。ま
た、文書情報と共に関連度を表示することによって、検
索者がその文書情報と検索要求との関連性を数値によっ
て確認することも可能である。
【0063】また、出力された文書情報又は要約から、
検索者の検索意図に沿ったものを選択可能としておくこ
とによって、その選択された文書情報又は要約を用いて
さらに検索を進めることも可能である。例えば、図7の
ように、各文書情報のタイトル及び要約に選択ボックス
によるユーザインターフェース等を設けておくことによ
って、入力部18であるマウス等で必要な文書情報又は
要約を選択することを可能とすることができる。
【0064】工程ST2−3では、新たな検索要求を入
力しての検索、または選択された文書情報又は要約を用
いた再検索の判断がされる。新たな検索要求からの検索
を行なう際には、工程ST1に処理を戻す。文書情報又
は要約に基づいて再検索を行なう際には、工程ST2−
4に処理を移す。
【0065】このとき、例えば、図7に示すように、
“検索結果から検索”ボタン等のユーザインターフェー
スを設けておくことによって、新たな検索を行なうか、
再検索を行なうかの確認をすることができる。
【0066】工程ST2−4では、選択された文書情報
又は要約から新たな検索要求が作成される。検索要求を
作成する方法としては、最も簡単には、文書情報又は要
約の全部を検索要求とするものが挙げられる。また、文
書情報又は要約から重要語又は重要な単語間の関係を抽
出して、新たな検索要求とすることも好適である。単語
間の関係を用いる場合には、工程ST9において、既に
得られた単語間の関係を利用することが好適である。こ
れによって、処理を簡略化することができる。本工程後
は工程ST2に処理が戻される。
【0067】また、本実施の形態では、文書情報又は要
約から新たな検索要求を作成し、再検索を実行するもの
としたが、例えば、文書情報又は要約を用いて自然文検
索を実行するような実施の形態とすることも好適であ
る。
【0068】以上のように、本実施の形態によると、文
書情報の内容を的確な要約によって確認することができ
る。検索者は、それぞれの文書情報の本文にアクセスす
ることなく、その文書情報の内容を迅速かつ容易に把握
することが可能となる。
【0069】また、検索要求に含まれる単語間の関係に
基づいて、要約を強調表示することによって、より容易
に文書情報の内容を把握することが可能となる。さら
に、関連度を表示することによって、検索要求と文書情
報との関連性を具体的な数値として把握することができ
る。
【0070】さらに、要約を選択し、その要約を用いた
再検索を可能とすることによって、検索者の意図に沿っ
た検索キーを容易に作成し、再検索を行なうことができ
る。なぜなら、単語間の関係を用いた検索結果である文
書情報から生成された要約には、検索者の検索意図が反
映された情報が多数含まれる可能性が高いためである。
【0071】上記の実施の形態における文書情報検索方
法をプログラム化し、そのプログラムをコンピュータに
実行させることによっても同様の作用及び効果を得るこ
とができる。また、そのプログラムをコンピュータ読み
取り可能な記録媒体に記録し、その記録媒体からコンピ
ュータにプログラムを読み取らせることによっても同様
の作用及び効果を得ることができる。記録媒体として
は、例えば、フレキシブルディスク、光磁気ディクス等
が挙げられる。
【0072】
【発明の効果】本発明によって、簡単な検索要求から検
索を開始した場合においても、検索意図に沿った文書情
報を容易に検索できる文書情報検索装置、文書情報検索
方法及び文書情報検索プログラムを提供することができ
る。
【図面の簡単な説明】
【図1】 本発明の実施の形態における文書情報検索装
置の構成のブロック図である。
【図2】 本発明の第1の実施の形態における文書情報
検索方法のフローチャートを示す図である。
【図3】 本発明の実施の形態における係り受け関係の
対照表を示す図である。
【図4】 本発明の実施の形態における係り受け関係の
解析例を示す図である。
【図5】 本発明の第1の実施の形態における検索結果
の表示例を示す図である。
【図6】 本発明の第2の実施の形態における文書情報
検索方法のフローチャートを示す図である。
【図7】 本発明の第2の実施の形態における検索結果
の表示例を示す図である。
【符号の説明】
10 文書情報検索装置、12 制御部、14 記憶
部、16 出力部、18入力部、20 内部データベー
ス、22 外部インターフェース、24 バス、26
ネットワーク、28 外部データベース。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 指定された検索要求を検索キーとして、
    文書情報の集合から、前記検索要求に関連する文書情報
    を検索する文書情報検索装置であって、 前記検索要求に含まれる単語と、前記文書情報の集合内
    の各文書情報に含まれる単語との関連に基づいて、前記
    文書情報の集合から少なくとも1つの前記文書情報を含
    む候補文書情報の集合を検索する手段と、 前記検索要求における単語間の関係と、前記候補文書情
    報の各々における単語間の関係に基づいて、前記候補文
    書情報の集合から前記検索要求に関連する文書情報を検
    索する手段と、を含むことを特徴とする文書情報検索装
    置。
  2. 【請求項2】 請求項1に記載の文書情報検索装置にお
    いて、 前記検索された文書情報に含まれる単語及び当該単語間
    の関係に基づいて、当該文書情報の要約を生成する手段
    を有することを特徴とする文書情報検索装置。
  3. 【請求項3】 請求項2に記載の文書情報検索装置にお
    いて、 前記文書情報の要約の少なくとも1つを選択する手段
    と、 前記選択された要約に基づいて、新たな検索要求を生成
    する手段と、 を有することを特徴とする文書情報検索装置。
  4. 【請求項4】 請求項1から3のいずれか1に記載の文
    書情報検索装置において、 前記検索要求に含まれる単語間の関係に基づいて、前記
    検索された文書情報又は前記要約を表示する手段を有す
    ることを特徴とする文書情報検索装置。
  5. 【請求項5】 指定された検索要求を検索キーとして、
    文書情報の集合から、前記検索要求に関連する文書情報
    を検索する文書情報検索方法であって、 前記検索要求に含まれる単語と、前記文書情報の集合内
    の各文書情報に含まれる単語との関連に基づいて、前記
    文書情報の集合から少なくとも1つの前記文書情報を含
    む候補文書情報の集合を検索する工程と、 前記検索要求における単語間の関係と、前記候補文書情
    報の各々における単語間の関係に基づいて、前記候補文
    書情報の集合から前記検索要求に関連する文書情報を検
    索する工程と、を含むことを特徴とする文書情報検索方
    法。
  6. 【請求項6】 請求項5に記載の文書情報検索方法にお
    いて、 前記検索された文書情報に含まれる単語及び当該単語間
    の関係に基づいて、当該文書情報の要約を生成する工程
    を有することを特徴とする文書情報検索方法。
  7. 【請求項7】 請求項6に記載の文書情報検索方法にお
    いて、 前記文書情報の要約の少なくとも1つを選択する工程
    と、 前記選択された要約に基づいて、新たな検索要求を生成
    する工程と、 を有することを特徴とする文書情報検索方法。
  8. 【請求項8】 請求項5から7のいずれか1に記載の文
    書情報検索方法において、 前記検索要求に含まれる単語間の関係に基づいて、前記
    検索された文書情報又は前記要約を表示する工程を有す
    ることを特徴とする文書情報検索方法。
  9. 【請求項9】 指定された検索要求を検索キーとして、
    文書情報の集合から、前記検索要求に関連する文書情報
    を検索する文書情報検索プログラムであって、 前記検索要求に含まれる単語と、前記文書情報の集合内
    の各文書情報に含まれる単語との関連に基づいて、前記
    文書情報の集合から少なくとも1つの前記文書情報を含
    む候補文書情報の集合を検索する工程と、 前記検索要求における単語間の関係と、前記候補文書情
    報の各々における単語間の関係に基づいて、前記候補文
    書情報の集合から前記検索要求に関連する文書情報を検
    索する工程と、をコンピュータに実行させることを特徴
    とする文書情報検索プログラム。
  10. 【請求項10】 請求項9に記載の文書情報検索プログ
    ラムにおいて、 前記検索された文書情報に含まれる単語及び当該単語間
    の関係に基づいて、当該文書情報の要約を生成する工程
    をコンピュータに実行させることを特徴とする文書情報
    検索プログラム。
  11. 【請求項11】 請求項10に記載の文書情報検索プロ
    グラムにおいて、 前記文書情報の要約の少なくとも1つを選択する工程
    と、 前記選択された要約に基づいて、新たな検索要求を生成
    する工程と、をコンピュータに実行させることを特徴と
    する文書情報検索プログラム。
  12. 【請求項12】 請求項9から11のいずれか1に記載
    の文書情報検索プログラムにおいて、 前記検索要求に含まれる単語間の関係に基づいて、前記
    検索された文書情報又は前記要約を表示する工程をコン
    ピュータに実行させることを特徴とする文書情報検索プ
    ログラム。
JP2002078295A 2002-03-20 2002-03-20 文書情報検索装置及び文書情報検索プログラム Expired - Fee Related JP4092933B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002078295A JP4092933B2 (ja) 2002-03-20 2002-03-20 文書情報検索装置及び文書情報検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002078295A JP4092933B2 (ja) 2002-03-20 2002-03-20 文書情報検索装置及び文書情報検索プログラム

Publications (2)

Publication Number Publication Date
JP2003281183A true JP2003281183A (ja) 2003-10-03
JP4092933B2 JP4092933B2 (ja) 2008-05-28

Family

ID=29228324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002078295A Expired - Fee Related JP4092933B2 (ja) 2002-03-20 2002-03-20 文書情報検索装置及び文書情報検索プログラム

Country Status (1)

Country Link
JP (1) JP4092933B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234635A (ja) * 2004-02-17 2005-09-02 Fuji Xerox Co Ltd 文書要約装置および方法
JP2006048686A (ja) * 2004-07-26 2006-02-16 Google Inc フレーズに基づく文書説明の生成方法
JP2007241794A (ja) * 2006-03-10 2007-09-20 National Institute Of Information & Communication Technology 多義語による情報検索装置及びプログラム
JP2008209717A (ja) * 2007-02-27 2008-09-11 Toshiba Corp 入力された音声を処理する装置、方法およびプログラム
JP2009169541A (ja) * 2008-01-11 2009-07-30 Yahoo Japan Corp Webページ検索サーバ及びクエリ推薦方法
JP2010055518A (ja) * 2008-08-29 2010-03-11 Nippon Telegraph & Telephone West Corp 検索装置及び方法、ならびに、コンピュータプログラム
JP2011076264A (ja) * 2009-09-29 2011-04-14 Ntt Communications Kk 検索制御装置、検索制御方法、及びプログラム
US8078629B2 (en) 2004-07-26 2011-12-13 Google Inc. Detecting spam documents in a phrase based information retrieval system
US8108412B2 (en) 2004-07-26 2012-01-31 Google, Inc. Phrase-based detection of duplicate documents in an information retrieval system
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US8560550B2 (en) 2004-07-26 2013-10-15 Google, Inc. Multiple index based information retrieval system
US8612427B2 (en) 2005-01-25 2013-12-17 Google, Inc. Information retrieval system for archiving multiple document versions
US9607076B2 (en) 2013-06-11 2017-03-28 Konica Minolta, Inc. Device and method for determining interest, and computer-readable storage medium for computer program
JP2020013541A (ja) * 2018-07-17 2020-01-23 富士ゼロックス株式会社 会話型の文書を要約するために表題を生成するためのシステム及び方法、文書用に表題を生成する方法、プログラム、演算装置、及びコンピュータ機器

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005234635A (ja) * 2004-02-17 2005-09-02 Fuji Xerox Co Ltd 文書要約装置および方法
US9384224B2 (en) 2004-07-26 2016-07-05 Google Inc. Information retrieval system for archiving multiple document versions
US8108412B2 (en) 2004-07-26 2012-01-31 Google, Inc. Phrase-based detection of duplicate documents in an information retrieval system
US9037573B2 (en) 2004-07-26 2015-05-19 Google, Inc. Phase-based personalization of searches in an information retrieval system
US10671676B2 (en) 2004-07-26 2020-06-02 Google Llc Multiple index based information retrieval system
US9990421B2 (en) 2004-07-26 2018-06-05 Google Llc Phrase-based searching in an information retrieval system
US9817825B2 (en) 2004-07-26 2017-11-14 Google Llc Multiple index based information retrieval system
US8078629B2 (en) 2004-07-26 2011-12-13 Google Inc. Detecting spam documents in a phrase based information retrieval system
US9361331B2 (en) 2004-07-26 2016-06-07 Google Inc. Multiple index based information retrieval system
US9817886B2 (en) 2004-07-26 2017-11-14 Google Llc Information retrieval system for archiving multiple document versions
KR101176079B1 (ko) 2004-07-26 2012-08-23 구글 인코포레이티드 문서 설명의 문구 기반 생성
US8489628B2 (en) 2004-07-26 2013-07-16 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US8560550B2 (en) 2004-07-26 2013-10-15 Google, Inc. Multiple index based information retrieval system
US9569505B2 (en) 2004-07-26 2017-02-14 Google Inc. Phrase-based searching in an information retrieval system
JP2006048686A (ja) * 2004-07-26 2006-02-16 Google Inc フレーズに基づく文書説明の生成方法
US8612427B2 (en) 2005-01-25 2013-12-17 Google, Inc. Information retrieval system for archiving multiple document versions
JP2007241794A (ja) * 2006-03-10 2007-09-20 National Institute Of Information & Communication Technology 多義語による情報検索装置及びプログラム
JP2008209717A (ja) * 2007-02-27 2008-09-11 Toshiba Corp 入力された音声を処理する装置、方法およびプログラム
US8954333B2 (en) 2007-02-27 2015-02-10 Kabushiki Kaisha Toshiba Apparatus, method, and computer program product for processing input speech
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US8631027B2 (en) 2007-09-07 2014-01-14 Google Inc. Integrated external related phrase information into a phrase-based indexing information retrieval system
JP2009169541A (ja) * 2008-01-11 2009-07-30 Yahoo Japan Corp Webページ検索サーバ及びクエリ推薦方法
JP2010055518A (ja) * 2008-08-29 2010-03-11 Nippon Telegraph & Telephone West Corp 検索装置及び方法、ならびに、コンピュータプログラム
JP2011076264A (ja) * 2009-09-29 2011-04-14 Ntt Communications Kk 検索制御装置、検索制御方法、及びプログラム
US9607076B2 (en) 2013-06-11 2017-03-28 Konica Minolta, Inc. Device and method for determining interest, and computer-readable storage medium for computer program
JP7314538B2 (ja) 2018-07-17 2023-07-26 富士フイルムビジネスイノベーション株式会社 会話型の文書を要約するために表題を生成するためのシステム及び方法、文書用に表題を生成する方法、プログラム、演算装置、及びコンピュータ機器
JP2020013541A (ja) * 2018-07-17 2020-01-23 富士ゼロックス株式会社 会話型の文書を要約するために表題を生成するためのシステム及び方法、文書用に表題を生成する方法、プログラム、演算装置、及びコンピュータ機器

Also Published As

Publication number Publication date
JP4092933B2 (ja) 2008-05-28

Similar Documents

Publication Publication Date Title
US7805303B2 (en) Question answering system, data search method, and computer program
Baroni et al. Building general-and special-purpose corpora by Web crawling
US20020078090A1 (en) Ontological concept-based, user-centric text summarization
JP2007141090A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4092933B2 (ja) 文書情報検索装置及び文書情報検索プログラム
US9164981B2 (en) Information processing apparatus, information processing method, and program
JP2001084255A (ja) 文書検索装置および方法
Yeloglu et al. Multi-document summarization of scientific corpora
Schutz Keyphrase extraction from single documents in the open domain exploiting linguistic and statistical methods
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
Martínez-Fernández et al. Automatic keyword extraction for news finder
Brook Wu et al. Finding nuggets in documents: A machine learning approach
Li et al. Complex query recognition based on dynamic learning mechanism
KR101037091B1 (ko) 자동 언어 번역을 통한 다국어의 전거 표목에 대한 온톨로지 기반 의미 검색 시스템 및 방법
Pinto et al. Joining automatic query expansion based on thesaurus and word sense disambiguation using WordNet
JP2008026967A (ja) 文書検索システム及びプログラム
Hkiri et al. Semantic and contextual enrichment of Arabic query leveraging NLP resources and association rules model
He et al. Improving identification of latent user goals through search-result snippet classification
Baruah et al. Text summarization in Indian languages: a critical review
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
Saleh Cross-lingual information retrieval systems
Abdullah et al. Feature-based POS tagging and sentence relevance for news multi-document summarization in Bahasa Indonesia
Sengupta et al. Semantic thumbnails: a novel method for summarizing document collections
Hliaoutakis et al. Medical document indexing and retrieval: AMTEx vs. NLM MMTx
Prakash et al. Design and Implementation of Novel Techniques for Content-Based Ranking of Web Documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040913

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080225

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110314

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120314

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130314

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130314

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140314

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees