JP2001092831A - 文書検索装置及び文書検索方法 - Google Patents

文書検索装置及び文書検索方法

Info

Publication number
JP2001092831A
JP2001092831A JP26648199A JP26648199A JP2001092831A JP 2001092831 A JP2001092831 A JP 2001092831A JP 26648199 A JP26648199 A JP 26648199A JP 26648199 A JP26648199 A JP 26648199A JP 2001092831 A JP2001092831 A JP 2001092831A
Authority
JP
Japan
Prior art keywords
search
document
text
result
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP26648199A
Other languages
English (en)
Inventor
Eiji Nagamura
栄治 永村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP26648199A priority Critical patent/JP2001092831A/ja
Publication of JP2001092831A publication Critical patent/JP2001092831A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】本発明は、検索意図を反映し検索漏れの少ない
文書検索装置を提供することを目的とする。 【解決手段】登録された複数の文書から指定された文書
を検索する文書検索装置において、フルテキスト検索を
行い検索結果を出力するフルテキスト検索手段と、概念
検索を行い検索結果を出力する概念検索手段と、前記フ
ルテキスト検索手段から出力された検索結果と前記概念
検索手段から出力された検索結果とを合併して最終的な
検索結果を出力する検索結果合併手段とを設けたことを
特徴とする文書検索装置である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、登録された文書を
検索する文書検索装置の改良に関する。
【0002】
【従来の技術】近年電子ファイリングシステム等のアプ
リケーションにおいて、登録された文書を検索するため
のエンジンである文書検索装置としてフルテキスト検索
(全文検索)を行うフルテキスト検索装置、概念検索を
行う概念検索装置が実用化されている。
【0003】フルテキスト検索装置は、登録する文書に
含まれる文字列をインデックス化しておき、検索の際に
検索条件として指定されたテキスト(文字列)を含む文
書を検索するものである。一方、概念検索は、登録する
文書からキーワードや文脈を読み取り、これらに適宜重
み付けをしておき、検索時に指定された自然言語による
質問文を形態素解析して得られた文字列(キーワード)
に基づいて、文書を検索するものである。
【0004】
【発明が解決しようとする課題】フルテキスト検索で
は、指定されたテキストを含む文書を確実に検索するこ
とができるが、その反面、探したい文書と全く異なる文
書を検索してしまうという欠点があった。また、概念検
索装置では、検索対象である文書が検索されないという
検索漏れが発生してしまう可能性が高いという欠点があ
った。本発明は、これら従来の問題点を解決するために
なされたもので、検索意図を反映し検索漏れの少ない文
書検索装置を提供することを目的とする。
【0005】
【課題を解決するための手段】本発明は、登録された複
数の文書から指定された文書を検索する文書検索装置に
おいて、フルテキスト検索を行い検索結果を出力するフ
ルテキスト検索手段と、概念検索を行い検索結果を出力
する概念検索手段と、前記フルテキスト検索手段から出
力された検索結果と前記概念検索手段から出力された検
索結果とを合併して最終的な検索結果を出力する検索結
果合併手段とを設けたことを特徴とする。
【0006】このような構成によれば、検索意図を反映
し検索漏れの少ない文書検索が実現できる。また、本発
明は、指定されたテキストを含む検索式に基づいて検索
して文書IDとそのスコア値とを検索結果とし出力する
フルテキスト検索手段と、指定された質問文に基づいて
検索して文書IDとそのスコア値とを検索結果として出
力する概念検索手段と、フルテキスト検索手段の検索結
果と概念検索手段の検索結果とに基づいて、共通する文
書IDとこの共通する文書IDのスコア値の演算結果と
を最終的な検索結果として出力する検索結果合併手段と
を設けたことを特徴とする。
【0007】このような構成によれば、検索意図を反映
し検索漏れの少ない文書検索が実現できる。更に、本発
明は、指定されたテキストを含む検索式に基づいて検索
して文書IDとそのスコア値とを検索結果とし出力する
フルテキスト検索手段と、指定された質問文に基づいて
検索して文書IDとそのスコア値とを検索結果として出
力する概念検索手段と、前記概念検索手段から出力され
た検索結果の中から前記フルテキスト検索手段が出力し
た文書IDと一致する文書IDとそのスコア値とを最終
的な検索結果として出力する検索結果合併手段とを設け
たことを特徴とする。
【0008】このような構成によれば、フルテキスト検
索の検索結果の中から、概念検索により検索結果を絞り
込むことにより、指定されたテキストを含む検索対象か
ら質問文に近い文書を検索することができる。
【0009】更に、本発明は、指定されたテキストを含
む検索式に基づいて検索して文書IDとそのスコア値と
を検索結果とし出力するフルテキスト検索手段と、指定
された質問文に基づいて検索して文書IDとそのスコア
値とを検索結果として出力する概念検索手段と、フルテ
キスト検索手段から出力された検索結果の中から概念検
索手段が出力した文書IDと一致する文書IDとそのス
コア値とを最終的な検索結果として出力する検索結果合
併手段とを設けたことを特徴とする。
【0010】このような構成によれば、概念検索の検索
結果の中から、フルテキスト検索により検索結果を絞り
込むことにより、大まかに概念検索をして得られた検索
結果の中から指定されたテキストを含む文書を確実に検
索することができる。
【0011】
【発明の実施の形態】以下、図面を参照して本発明の第
1の実施形態について説明する。図1は、本発明の実施
形態の構成を示すシステムブロック図である。符号20
で示すのは、文書検索を行うエンジンとしての文書検索
装置である。この文書検索装置20は、コンピュータプ
ログラムにより実現されるもので、パーソナルコンピュ
ータ等にインストールして実行することにより動作する
ものである。符号10で示すものは、文書検索装置20
を使用して文書検索システムを実現するためのアプリケ
ーションプログラムである。このアプリケーションプロ
グラム10は、パーソナルコンピュータ等にインストー
ルして実行することにより動作するものである。アプリ
ケーションプログラム10は、ユーザーに対して文書検
索システムに検索対象である文書の登録するための文書
登録処理や、文書検索のための検索式又は検索文の設
定、検索結果の表示など、主に文書検索システムのユー
ザーインタフェースを実現するものである。
【0012】アプリケーションプログラム10による文
書登録処理は、登録対象の文書のイメージを図示してい
ないスキャナにより入力し、その文書イメージを文書検
索装置20で発番された文書識別番号(以下、文書ID
と呼ぶ)と関連づけて磁気ディスク装置などで構成され
るファイル装置11に記録保存するものである。アプリ
ケーションプログラム10は、文書IDに基づいて、対
応する文書イメージをファイル装置11から読み出し
て、図示していない表示装置に表示したり、図示してい
ない印刷装置によりハードコピーしたりする。
【0013】文書検索装置20は、登録処理部21、検
索処理部22、フルテキスト検索部23、概念検索部2
4とから構成されている。登録処理部21は、アプリケ
ーションプログラム10から文書登録の指示を受ける
と、その指示と共に受領する登録対象である文書の文書
イメージから文字イメージを切り出して文字認識しテキ
スト化すると共に、文書IDを発番する。この登録処理
部21で発番された文書IDは、アプリケーションプロ
グラム10に通知される。更に登録処理部21では、文
書IDと文字認識をして得た登録対象の文書のテキスト
をフルテキスト検索部23と概念検索部24とに転送す
る。
【0014】フルテキスト検索部23は、フルテキスト
検索の対象となる文書のインデックスを作成する機能と
指定されたテキストに基づいてインデックスを参照して
指定されたテキストを含む文書を検索し検索結果として
文書IDとスコア値を得る機能を持つ。符号25で示す
ものは、フルテキスト検索用のインデックス登録部であ
り、磁気ディスク装置等のファイル装置にインデックス
データと全登録文書の文書サイズ(文書の文字数)とを
記録し登録したものである。
【0015】概念検索部24は、概念検索の対象となる
文書のインデックスを作成する機能と指定された概念検
索の質問文に基づいて対象となる文書を検索し、検索結
果として文書IDとスコア値を得る機能を持つ。符号2
6で示すものは、概念検索用のインデックス登録部であ
り、磁気ディスク装置等のファイル装置にインデックス
データを記録し登録したものである。
【0016】図2はフルテキスト検索用のインデックス
登録部25に登録されたインデックスの構造を示す図で
ある。フルテキスト検索用のインデックスは、登録対象
の文書のテキストから抽出した文字列が、どの文書(文
書ID)のどの位置(文書の何文字目)に存在している
かを示すデータを登録したものである。
【0017】インデックスデータは、抽出した文字列毎
に作成される。各文字列毎に作成されたインデックスデ
ータは、文字列部200、ID部201と位置情報部2
02とから構成される複数の文書インデックス部203
とから構成されている。 文字列部200は、文字列を
登録する部分である。文書インデックス部203は、文
字列部200に登録された文字列が出現する文書IDを
登録するID部201と、文字列部200に登録された
文字列がID部201に登録された文書IDを持つ文書
の先頭から何文字目に出現するかを示す位置データを登
録する位置情報部202とから構成されている。図2で
は、文字列「ABC」が文書ID「5」の文書の10文
字目と、文書ID「5」の文書の418文字目と、‥‥
‥‥文書ID「8」の文書の58文字目に出現している
ことを登録している例が図示されている。
【0018】図3は概念検索用のインデックス登録部2
6に登録されたインデックスの構造を示す図である。概
念検索用のインデックスは、登録対象の文書のテキスト
を形態素解析して単語に切り分け、この切り分けた各単
語の文書での発生頻度をカウントして登録したものであ
る。
【0019】インデックスデータは、切り分けた単語毎
に作成される。各単語毎に作成されたインデックスデー
タは、文字列部300、ID部301と頻度情報部30
2とから構成される複数の文書インデックス部303と
から構成されている。文字列部300は、単語を登録す
る部分である。文書インデックス部303は、文字列部
300に登録された単語が出現する文書IDを登録する
ID部301と、文字列部300に登録された単語がI
D部301に登録された文書IDを持つ文書に何個出現
したかを示す頻度を示す頻度情報を登録する頻度情報部
302とから構成されている。
【0020】図3では、単語(文字列)「ABC」が文
書ID「7」の文書に23個、文書ID「10」の文書
に5個、‥‥‥‥文書ID「48」の文書に3個、それ
ぞれ出現していることを登録している例が図示されてい
る。
【0021】次にアプリケーションプログラム10から
の要求に基づいて文書検索装置20が新規に検索対象の
文書を登録する動作を図4のフローチャートを用いて説
明する。
【0022】まず、文書検索装置20の登録処理部21
は、アプリケーションプログラム10から新規に文書の
登録要求コマンドを受信する(ステップS40)。この
際、アプリケーションプログラム10からコマンドと共
にその登録する文書のイメージデータを登録処理部21
に転送する。登録処理部21は、受領した文書のイメー
ジから文字イメージを切り出して文字認識することによ
り登録文書をテキスト化する(ステップS41)。次に
登録処理部21は、登録対象文書に文書IDを発番する
(ステップS42)。
【0023】次に登録処理部21は、発番した文書ID
と共に登録文書のテキストをフルテキスト検索部23に
渡し、フルテキスト検索部23にフルテキスト検索用の
インデックスの作成を指示する。フルテキスト検索部2
3では、登録処理部21から受け取ったテキストから文
字列を抽出し、この抽出した文字列がその文書の先頭か
ら何文字目に位置するかを解析して、図2に示したイン
デックスデータを作成してフルテキスト検索用のインデ
ックス登録部25に登録する(ステップS43)。同様
に登録処理部21は、発番した文書IDと共に登録文書
のテキストを概念検索部24に渡し、概念検索部24に
概念検索用のインデックスの作成を指示する。概念検索
部24では、登録処理部21から受け取ったテキストを
形態素解析して単語に区切り、この区切った単語がその
文書に何個出現しているかをカウントして、図3に示し
たインデックスデータを作成して概念検索用のインデッ
クス登録部26に登録する(ステップS44)。最後に
登録処理部21は、発番した文書IDをアプリケーショ
ンプログラム10に通知する(ステップS45)。
【0024】続いて、アプリケーションプログラム10
からの要求に基づいた文書検索装置20の検索動作を図
5のフローチャートを用いて説明する。まずアプリケー
ションプログラム10がフルテキスト検索のための検索
式と概念検索のための検索質問文とを伴なって、文書検
索装置20の検索処理部22に文書検索の要求をする
(ステップS50)。この文書検索の要求は、フルテキ
スト検索を優先するものであるか、或いは概念検索を優
先するものであるかを指定しているものとする。以下の
説明では、税金の確定申告書の書き方が記載されている
文書を検索する場合を例に説明する。フルテキスト検索
のための検索式として、文字列「税金」と文字列「確定
申告」とを用いた論理積演算を指定されているものとす
る。同様に概念検索のための検索質問文は、「確定申告
書の記載方法」と指定されているものとする。
【0025】次に、検索処理部22は、検索要求がフル
テキスト検索を優先するものであるかどうかを判断する
(ステップS51)。検索要求がフルテキスト検索を優
先するとの指示である場合には、ステップS52へ進
む。
【0026】検索処理部22は、文書検索の要求に伴っ
てアプリケーションプログラム10から転送された検索
式をフルテキスト検索部23に転送してフルテキスト検
索を指示する(ステップS52)。この指示を受けたフ
ルテキスト検索部23は、検索処理部22から転送を受
けた検索式を解析してフルテキスト検索を実行する(ス
テップS52)。
【0027】フルテキスト検索部23では、検索式で指
定された文字列「税金」と文字列「確定申告」の双方が
出現する文書をインデックス登録部25に登録されてい
るインデックスデータを参照して検索し、該当する文書
IDとスコア値を求める。
【0028】検索方法の具体例としては、文字列部20
0に文字列「税金」が登録されているインデックスデー
タを探し出し、その文字列部200に関連付けられてい
る全ての文字インデックス部203を参照して、文字列
「税金」が出現する文書IDと出現頻度(個数)をカウ
ントする。同様に文字列「確定申告」が登録されている
インデックスデータを探し出し、その文字列部200に
関連付けられている全ての文字インデックス部203を
参照して、文字列「確定申告」が出現する文書IDと出
現頻度(個数)をカウントする。
【0029】次にこれら文字列「税金」が出現する文書
と文字列「確定申告」が出現する文書における各文書の
文書サイズをインデックス登録部25から読み出す。こ
の読み出した各文書の文書サイズと上述のようにカウン
トした各文字列毎の各文書における出現頻度とに基づい
て、文字列「税金」及び文字列「確定申告」のそれぞれ
が出現する各文書に対するスコア値を次の式に基づいて
計算する。即ち、「文字列毎のスコア値=出現頻度/文
書サイズ*文字列長*1000」である。
【0030】図6には文字列「税金」が出現する文書I
Dとその出現頻度及びスコア値とを図示した。スコア値
の一例として文字列「税金」の文書IDが118の文書
に対するスコア値は、出現頻度が「70」、文書サイズ
が「1500」、文字列「税金」の文字列長が「2」で
あることから、次のようにな演算式で求められる。即
ち、「70/1500*2*1000=93.3」であ
る。
【0031】また、同様に図7には文字列「確定申告」
が出現する文書IDとその出現頻度及びスコア値とを図
示した。スコア値の一例として文字列「確定申告」の文
書IDが253の文書に対するスコア値は、出現頻度が
「30」、文書サイズが「1500」、文字列「確定申
告」の文字列長が「4」であることから、次のようにな
計算式で求められる。即ち、「30/1500*4*1
000=80.0」である。
【0032】これら計算結果に基づいて、文字列「税
金」が出現する文書IDと文字列「確定申告」が出現す
る文書IDの中から、共通に出現する文書IDを抽出
し、そのスコア値の足し算をする。ここで、共通に出現
する文書IDを抽出するのは、上述の通りこのフルテキ
スト検索の検索式として、2つの文字列「税金」と「確
定申告」との論理積演算が指定されているからである。
この足し算の結果、スコア値の多い順に文書IDを図示
したものが図8である。この図8に図示した文書IDと
そのスコア値がフルテキスト検索の結果となる。
【0033】フルテキスト検索部23は、この検索結果
を検索処理部22に転送する。検索処理部22は、フル
テキスト検索部23から転送を受けた検索結果を自身の
内部に保存する(ステップS53)。続いて、検索処理
部22は、上述した検索質問文を伴って概念検索部24
に概念検索を指示する(ステップS54)。
【0034】概念検索部24では、指定された検索質問
文「確定申告書の記載方法」を形態素解析して、単語
「確定」、「申告書」、「記載」、「方法」を抽出す
る。概念検索部24はこの解析で得られた単語に基づい
てインデックス登録部26に登録されているインデック
スデータを参照して検索し、該当する文書IDとスコア
値を求める(ステップS54)。
【0035】検索方法の具体例としては、文字列部30
0に単語「確定」、「申告書」、「記載」、「方法」が
登録されているインデックスデータを探し出し、その文
字列部300に関連づけられている全ての文字インデッ
クス部303を参照して、ID部301から各単語「確
定」、「申告書」、「記載」、「方法」が出現する文書
の文書IDを抽出し、頻度情報部302から各単語「確
定」、「申告書」、「記載」、「方法」が出現する文書
における出現頻度を抽出する。
【0036】この抽出した各単語の各文書における出現
頻度と各単語の重みとに基づいて、各単語の各文書に対
するスコア値を次の演算式にて求める。即ち、「スコア
値=出現頻度*単語の重み」である。ここで、「単語の
重み」とは、インデックス登録部26に登録されている
文書の数とその単語が出現する文書の数とに基づいて、
次の演算式にて求められる。即ち、「単語の重み=lo
g(全文書数/その単語が出現する文書数)(ただし、
この対数演算の底は2)」である。例えば図9に示すよ
うに単語「確定」の単語の重みは、全文書数が1000
であるとすると、log(1000/3)(ただし底は
2)の演算式で求められる。以下同様に単語「確定」、
「申告書」、「記載」、「方法」の単語の重みを演算し
た結果を図9に図示した。
【0037】図10には、上述の演算式に基づいて求め
た各単語「確定」、「申告書」、「記載」、「方法」の
その単語が出現する各文書に対するスコア値を図示し
た。例えば、単語「確定」における文書ID「631」
の文書に対するスコア値は、出現頻度(単語頻度)が
「10」、単語の重みが「8.38」であるから、「1
0*8.38」の演算で求められ、その値は「83.
8」となる。
【0038】次に図10に図示した各文書IDに対する
各単語毎のスコア値の足し算を行う。例えば、文書ID
「253」に対する各単語毎のスコア値の足し算は、
「229.3+247.8=477.1」となる。同様
に文書ID「680」に対する各単語毎のスコア値の足
し算は、「109+99.4+40.1+179.4=
427.8」となる。この足し算の結果を図11に図示
した。概念検索部24は、この足し算により求めた文書
IDとそのスコア値を概念検索の結果として、検索処理
部22に転送する。
【0039】検索処理部22では、概念検索部24から
転送を受けた概念検索の結果とフルテキスト検索部23
から転送を受け保存したフルテキスト検索の結果とを合
併して最終的な検索結果を得る(ステップS55)。こ
の合併の方法として、2通りある。
【0040】第1の合併方法は、フルテキスト検索の結
果と概念検索の結果とに共通する文書IDを抽出し、こ
の文書IDに対するフルテキスト検索のスコア値と概念
検索のスコア値とに基づいて、次の演算式にて合算した
値が最終的なその文書IDに対するスコア値となる。即
ち、「合算したスコア値=フルテキスト検索のスコア値
*概念検索のスコア値/フルテキスト検索における最大
スコア値=合算したスコア値」である。
【0041】図12に、この第1の合併方法で得られた
最終的な検索結果である、フルテキスト検索の結果と概
念検索の結果とに共通する文書IDの文書に対する合算
したスコア値の結果を図示する。例えば、文書ID「6
31」に対する合算したスコア値は、フルテキスト検索
のスコア値「41」と概念検索の結果のスコア値「40
9」とフルテキスト検索結果における最大スコア値(こ
こでは、文書ID「118」に対するフルテキスト検索
結果のスコア値である「115」)とに基づいて求めら
れ、その値は「145.8」となる。
【0042】第2の合併方法は、アプリケーションプロ
グラム10からの検索要求の際にフルテキスト検索を優
先するとの指定がされていたことに基づいて、概念検索
の結果として得られた文書IDの中から、フルテキスト
検索の結果として得られた文書IDと一致する文書ID
とそのスコア値とを抽出し、これを最終的な検索結果と
する方法である。図13に、この第2の合併方法で得ら
れた最終的な検索結果である文書IDとそのスコア値と
を図示した。
【0043】最後に検索処理部22は、ステップS55
で得られた合併後の検索結果を最終的な検索結果として
アプリケーションプログラム10に返却する(ステップ
S56)。
【0044】ステップS51において、検索要求が概念
検索を優先するとの指示である場合には、ステップS5
7へ進む。ステップS57では、ステップS54と同様
に概念検索部24が検索処理部22から指定された検索
質問文「確定申告書の記載方法」に基づいて概念検索を
実行して、その結果を検索処理部22に転送する。検索
処理部22は、概念検索部24から転送を受けた検索結
果を自身の内部に保存する(ステップS58)。
【0045】続いて、ステップS59において、ステッ
プS52と同様にフルテキスト検索部23が検索処理部
22から指定を受けた検索式に基づいてフルテキスト検
索を実行して、その結果を検索処理部22に転送する
(ステップS59)。ステップS60では、検索処理部
22がフルテキスト検索部23から転送を受けたフルテ
キスト検索結果と概念検索部24から転送を受け保存し
た概念検索の結果とを合併して最終的な検索結果を得る
(ステップS60)。この合併の方法として、2通りあ
る。
【0046】第1の合併方法は、ステップS55で説明
した方法と同一であり、説明を省略する。また、第2の
合併方法は、アプリケーションプログラム10からの検
索要求の際に概念検索を優先するとの指定がされていた
ことに基づいて、フルテキスト検索の結果として得られ
た文書IDの中から、概念検索の結果として得られた文
書IDと一致する文書IDとそのスコア値とを抽出し、
これを最終的な検索結果とする方法である。図14に、
この第2の合併方法で得られた最終的な検索結果である
文書IDとそのスコア値とを図示した。
【0047】最後に検索処理部22は、ステップS55
で得られた合併後の検索結果を最終的な検索結果として
アプリケーションプログラム10に返却する(ステップ
S56)。
【0048】アプリケーションプログラム10は、検索
結果として検索処理部22から返却された検索結果をス
コア値に基づいて文書IDを並び替えて表示する。以上
の説明では、フルテキスト検索と概念検索のどちらを優
先して検索するかをアプリケーションプログラム10か
らの指示に基づいて選択させる場合の動作を説明した。
しかし、検索装置20はその組み込まれるアプリケーシ
ョンプログラム10の仕様などに応じてどちらか一方の
検索を優先して検索するものであってもよい。
【0049】
【発明の効果】以上説明した通り、本発明によれば、検
索意図を反映し検索漏れの少ない文書検索が実現でき
る。
【図面の簡単な説明】
【図1】本発明の実施形態に関わるシステムの概略構成
を示す図である。
【図2】フルテキスト検索用のインデックス登録部25
に登録されたインデックスの構造を示す図である。
【図3】概念検索用のインデックス登録部26に登録さ
れたインデックスの構造を示す図である。
【図4】文書検索装置20が新規に検索対象の文書を登
録する動作を説明するフローチャート図である。
【図5】文書検索装置20の検索動作を説明するための
フローチャート図である。
【図6】フルテキスト検索において、文字列「税金」が
出現する文書ID、この文書IDの文書サイズ、この文
書IDの文書における文字列「税金」の出現頻度、及び
文字列「税金」のこの文書IDの文書に対するスコア値
とを示す図である。
【図7】フルテキスト検索において、文字列「確定申
告」が出現する文書ID、この文書IDの文書サイズ、
この文書IDの文書における文字列「確定申告」の出現
頻度、及び文字列「確定申告」のこの文書IDの文書に
対するスコア値とを示す図である。
【図8】フルテキスト検索の結果を示す図である。
【図9】概念検索における単語「確定」、「申告書」、
「記載」及び「方法」の単語の重みを示す図である。
【図10】概念検索において、各単語「確定」、「申告
書」、「記載」及び「方法」に対して抽出した文書ID
とその文書IDに対する単語頻度及びスコア値とを示す
図である。
【図11】概念検索の結果、得られた文書IDとそのス
コア値とを示す図である。
【図12】図5のステップS55における第1の合併方
法で得られた最終的な検索結果である文書IDとそのス
コア値とを示す図である。
【図13】図5のステップS55における第2の合併方
法で得られた最終的な検索結果である文書IDとそのス
コア値とを示す図である。
【図14】図5のステップS60における第2の合併方
法で得られた最終的な検索結果である文書IDとそのス
コア値とを示す図である。
【符号の説明】
10‥‥アプリケーションプログラム 20‥‥文書検索装置 21‥‥登録処理部 22‥‥索処理部 23‥‥フルテキスト検索部 24‥‥概念検索部 25‥‥フルテキスト検索用のインデックス登録部 26‥‥概念検索用のインデックス登録部 200‥‥文字列部 201‥‥ID部 202‥‥位置情報部 203‥‥文書インデックス部 300‥‥文字列部 301‥‥ID部 302‥‥頻度情報部 303‥‥文書インデックス部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】登録された複数の文書から指定された文書
    を検索する文書検索装置において、 フルテキスト検索を行い検索結果を出力するフルテキス
    ト検索手段と、 概念検索を行い検索結果を出力する概念検索手段と、 前記フルテキスト検索手段から出力された検索結果と前
    記概念検索手段から出力された検索結果とを合併して最
    終的な検索結果を出力する検索結果合併手段とを具備し
    たことを特徴とする文書検索装置。
  2. 【請求項2】前記フルテキスト検索手段は指定されたテ
    キストを含む検索式に基づいて検索して文書IDとその
    スコア値とを検索結果とし出力し、 前記概念検索手段は指定された質問文に基づいて検索し
    て文書IDとそのスコア値とを検索結果として出力し、 前記検索結果合併手段は前記フルテキスト検索手段の検
    索結果と前記概念検索手段の検索結果とに基づいて、共
    通する文書IDとこの共通する文書IDのスコア値の演
    算結果とを最終的な検索結果として出力することを特徴
    とする請求項1記載の文書検索装置。
  3. 【請求項3】前記検索結果合併手段による演算が掛け算
    であることを特徴とする請求項2記載の文書検索装置。
  4. 【請求項4】前記フルテキスト検索手段は指定されたテ
    キストを含む検索式に基づいて検索して文書IDとその
    スコア値とを検索結果とし出力し、 前記概念検索手段は指定された質問文に基づいて検索し
    て文書IDとそのスコア値とを検索結果として出力し、 前記検索結果合併手段は前記概念検索手段から出力され
    た検索結果の中から前記フルテキスト検索手段が出力し
    た文書IDと一致する文書IDとそのスコア値とを最終
    的な検索結果として出力することを特徴とする請求項1
    記載の文書検索装置。
  5. 【請求項5】前記フルテキスト検索手段は指定されたテ
    キストを含む検索式に基づいて検索して文書IDとその
    スコア値とを検索結果とし出力し、 前記概念検索手段は指定された質問文に基づいて検索し
    て文書IDとそのスコア値とを検索結果として出力し、 前記検索結果合併手段は前記フルテキスト検索手段から
    出力された検索結果の中から前記概念検索手段が出力し
    た文書IDと一致する文書IDとそのスコア値とを最終
    的な検索結果として出力することを特徴とする請求項1
    記載の文書検索装置。
  6. 【請求項6】登録された複数の文書から指定された文書
    を検索する文書検索方法において、 フルテキスト検索を行い検索結果を出力するとともに、 概念検索を行い検索結果を出力し、 前記フルテキスト検索により出力された検索結果と前記
    概念検索により出力された検索結果とを合併して最終的
    な検索結果を出力することを特徴とする文書検索方法。
  7. 【請求項7】登録された複数の文書から指定された文書
    を検索する文書検索方法において、指定されたテキスト
    を含む検索式に基づいてフルテキスト検索をして文書I
    Dとそのスコア値とを検索結果とし出力し、指定された
    質問文に基づいて概念検索をして文書IDとそのスコア
    値とを検索結果として出力し、 前記フルテキスト検索の検索結果と前記概念検索の検索
    結果とに基づいて、共通する文書IDとこの共通する文
    書IDのスコア値の演算結果とを最終的な検索結果とし
    て出力することを特徴とする請求項6記載の文書検索方
    法。
  8. 【請求項8】前記演算がかけ算であることを特徴とする
    請求項7記載の文書検索方法。
  9. 【請求項9】登録された複数の文書から指定された文書
    を検索する文書検索方法において、 指定されたテキストを含む検索式に基づいてフルテキス
    ト検索をして文書IDとそのスコア値とを検索結果とし
    出力し、 指定された質問文に基づいて概念検索をして文書IDと
    そのスコア値とを検索結果として出力し、 前記概念検索の検索結果の中から前記フルテキスト検索
    の検索結果の文書IDと一致する文書IDとそのスコア
    値とを最終的な検索結果として出力することを特徴とす
    る請求項6記載の文書検索方法。
  10. 【請求項10】登録された複数の文書から指定された文
    書を検索する文書検索方法において、 指定されたテキストを含む検索式に基づいてフルテキス
    ト検索をして文書IDとそのスコア値とを検索結果とし
    出力し、 指定された質問文に基づいて概念検索をして文書IDと
    そのスコア値とを検索結果として出力し、 前記フルテキスト検索の検索結果の中から前記概念検索
    の検索結果の文書IDと一致する文書IDとそのスコア
    値とを最終的な検索結果として出力することを特徴とす
    る請求項6記載の文書検索方法。
JP26648199A 1999-09-21 1999-09-21 文書検索装置及び文書検索方法 Pending JP2001092831A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26648199A JP2001092831A (ja) 1999-09-21 1999-09-21 文書検索装置及び文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26648199A JP2001092831A (ja) 1999-09-21 1999-09-21 文書検索装置及び文書検索方法

Publications (1)

Publication Number Publication Date
JP2001092831A true JP2001092831A (ja) 2001-04-06

Family

ID=17431542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26648199A Pending JP2001092831A (ja) 1999-09-21 1999-09-21 文書検索装置及び文書検索方法

Country Status (1)

Country Link
JP (1) JP2001092831A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085203A (ja) * 2001-09-14 2003-03-20 Canon Inc 情報検索装置、及び情報検索方法、並びに記憶媒体
JP2009277154A (ja) * 2008-05-16 2009-11-26 Ntt Docomo Inc 情報検索装置及び情報検索方法
US8380714B2 (en) 2009-12-09 2013-02-19 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
WO2014036684A1 (zh) * 2012-09-04 2014-03-13 华为技术有限公司 一种进行数据存储和检索的方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003085203A (ja) * 2001-09-14 2003-03-20 Canon Inc 情報検索装置、及び情報検索方法、並びに記憶媒体
JP2009277154A (ja) * 2008-05-16 2009-11-26 Ntt Docomo Inc 情報検索装置及び情報検索方法
US8380714B2 (en) 2009-12-09 2013-02-19 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
KR101419623B1 (ko) 2009-12-09 2014-07-15 인터내셔널 비지네스 머신즈 코포레이션 검색 키워드로부터 문서 데이터를 검색하는 방법, 그 컴퓨터 시스템 및 컴퓨터 프로그램
US9122747B2 (en) 2009-12-09 2015-09-01 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
WO2014036684A1 (zh) * 2012-09-04 2014-03-13 华为技术有限公司 一种进行数据存储和检索的方法及装置

Similar Documents

Publication Publication Date Title
JP3691844B2 (ja) 文書処理方法
US8577882B2 (en) Method and system for searching multilingual documents
JPH03172966A (ja) 類似文書検索装置
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JPH0628403A (ja) 文書検索装置
JPH09198395A (ja) 文書検索装置
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JPH0773197A (ja) 異表記語辞書作成支援装置
JP2001092831A (ja) 文書検索装置及び文書検索方法
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JPH1145268A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP2002132789A (ja) 文書検索方法
JP2529418B2 (ja) 文書検索装置
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2000112990A (ja) テキスト検索装置、有効語頻度作成装置、テキスト検索方法、及び有効語頻度作成方法並びに記録媒体
JP4390039B2 (ja) 検索システムおよびその方法
JPH09212523A (ja) 全文検索方法
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050131

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050322

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080603

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081007