JP6857212B2

JP6857212B2 - 文書検索システム、文書検索装置及び方法

Info

Publication number: JP6857212B2
Application number: JP2019100771A
Authority: JP
Inventors: 岐勇飯島; 裕一郎鈴木; 大貴東
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2021-04-14
Anticipated expiration: 2039-05-29
Also published as: JP2020194460A

Description

本発明は文書検索システム、文書検索装置及び方法に関し、例えば、技術文書を検索する文書検索装置に適用して好適なものである。

従来、熟練技術者の退職に伴う減少のため、知識が少ない技術者が企業内の技術文書を有効に活用できるような環境の整備が求められている。また近年では、いわゆるビッグデータ的アプローチによりウェブ上の文書検索技術の精度が向上しつつあり、これに伴って業務効率の向上化のため、技術文書に対する検索技術の向上も望まれている。

なお下記特許文献１には、文書検索技術ではないが、文書の理解を支援する装置に、対象となる文書を、文書の内容を反映した段落構造である意味段落に分割する意味段落解析手段と、文書を分割した意味段階ごとに意味段落に含まれる各文章の重要度を算出して重要度の高い文章を抜粋文として抽出する抜粋文抽出手段とを設けることが開示されている。この装置によれば、文書の構文解析を必要とせず、抜粋文を得るための統計量が少ないことから、小さなシステム規模で、かつ、短い処理時間で文書解析を支援することができる。

特許第３６１４６４８号

ところで、一般的な文書ではトピックが１つであることが多いのに対して、技術文書では、「装置の機能の使い方」及び「エラー時の対策」などの複数のトピックが１つの文書内に複合的に含まれていることが多い。また、一般的に、技術文書は長文であることも多い。

このため既存の文書検索技術を技術文書に適用したとしても、適切な検索を行い難く、仮に適切な技術文書を抽出できたとしても、最終的にはユーザがその技術文書全体を読んで当該技術文書内の所望するトピックが記載された箇所を見つけ出さなければならない。このため技術文書から所望する箇所を検出するためには相応の時間及び労力を要するという問題があった。

本発明は以上の点を考慮してなされたもので、ユーザが対象とする文書から所望するトピックが記載された箇所を検出する作業を迅速化及び簡易化し得る文書検索システム、文書検索装置及び方法を提案しようとするものである。

かかる課題を解決するため本発明においては、複数の文書の中から指定された検索条件を満たす文書及び当該文書内の位置でなる文書内位置を検索する文書検索システムにおいて、前記検索条件を設定するためのクライアント端末と、複数の前記文書の中から、前記クライアント端末を用いて設定された前記検索条件を満たす前記文書及び前記文書内位置を検索する文書検索装置とを有し、前記文書検索装置は、前記文書ごとに、当該文書に含まれる表を抽出し、抽出した表に掲載されている各文字列に対して、当該表から取得した当該文字列の属性を注釈として対応付けた注釈辞書をそれぞれ作成する知識抽出部と、前記文書ごとに、対応する前記注釈辞書を利用して、当該文書内の前記注釈辞書に登録された各前記文字列に対してそれぞれ当該文字列に対応付けられた前記注釈を付与した注釈付文書を作成する注釈付与部と、前記注釈付文書を、各前記注釈の出現割合に応じた複数の区分にそれぞれ分割し、前記区分ごとに、当該区分に含まれる各前記注釈の出現割合に関する情報でなる区分情報をそれぞれ作成する区分判定部と、各前記文書の中から、前記検索条件として指定された検索文字列を含む前記区分を検索する検索部と、前記区分情報を参照して、前記注釈付与部により作成された前記注釈付文書、又は、前記検索部の検索により検出された前記区分に対応する前記注釈付文書のうち、前記検索条件として指定された各前記注釈の出現割合が許容範囲内で一致する前記注釈付文書に対応する前記区分でなる前記文書内位置を検出し、検出結果を前記クライアント端末に送信する結果作成部とを備えるようにした。

また本発明においては、複数の文書の中から指定された検索条件を満たす文書及び当該文書内の位置でなる文書内位置を検索する文書検索装置において、前記文書ごとに、当該文書に含まれる表を抽出し、抽出した表に掲載されている各文字列に対して、当該表から取得した当該文字列の属性を注釈として対応付けた注釈辞書をそれぞれ作成する知識抽出部と、前記文書ごとに、対応する前記注釈辞書を利用して、当該文書内の前記注釈辞書に登録された各前記文字列に対してそれぞれ当該文字列に対応付けられた前記注釈を付与した注釈付文書を作成する注釈付与部と、前記注釈付文書を、各前記注釈の出現割合に応じた複数の区分にそれぞれ分割し、前記区分ごとに、当該区分に含まれる各前記注釈の出現割合に関する情報でなる区分情報をそれぞれ作成する区分判定部と、各前記文書の中から、前記検索条件として指定された検索キーワードを含む前記区分を検索する検索部と、前記区分情報を参照して、前記注釈付与部により作成された前記注釈付文書、又は、前記検索部の検索により検出された前記区分に対応する前記注釈付文書のうち、前記検索条件として指定された各前記注釈の出現割合が許容範囲内で一致する前記注釈付文書に対応する前記区分でなる前記文書内位置を検出する文書内位置検出部とを設けるようにした。

さらに本発明においては、複数の文書の中から指定された検索条件を満たす文書及び当該文書内の位置でなる文書内位置を検索する文書検索システムにおいて実行される文書検索方法であって、前記文書検索システムは、前記検索条件を設定するためのクライアント端末と、複数の前記文書の中から、前記クライアント端末を用いて設定された前記検索条件を満たす前記文書及び前記文書内位置を検索する文書検索装置とを有し、前記文書検索装置が、前記文書ごとに、当該文書に含まれる表を抽出し、抽出した表に掲載されている各文字列に対して、当該表から取得した当該文字列の属性を注釈として対応付けた注釈辞書をそれぞれ作成する第１のステップと、前記文書検索装置が、前記文書ごとに、対応する前記注釈辞書を利用して、当該文書内の前記注釈辞書に登録された各前記文字列に対してそれぞれ当該文字列に対応付けられた前記注釈を付与した注釈付文書を作成する第２のステップと、前記文書検索装置が、複数の前記文書の中から、前記検索条件として指定された検索文字列を含む前記文書内位置を検索すると共に、当該検索により検出した前記文書内位置に対応する前記注釈付文書、又は、複数の前記文書にそれぞれ対応する前記注釈付文書を、各前記注釈の出現割合に応じた複数の区分にそれぞれ分割し、前記区分ごとに、当該区分に含まれる各前記注釈の出現割合に関する情報でなる区分情報をそれぞれ作成する第３のステップと、前記文書検索装置が、前記区分情報を参照して、作成した前記注釈付文書、又は、検出した前記区分に対応する前記注釈付文書のうち、前記検索条件として指定された各前記注釈の出現割合が許容範囲内で一致する前記注釈付文書に対応する前記区分でなる前記文書内位置を検出し、検出結果を前記クライアント端末に送信する第４のステップとを設けるようにした。

本発明の文書検索システム、文書検索装置及び方法によれば、ユーザが、検索キーワードに加えて、所望するトピックに関連する幾つかの注釈の出現割合を検索条件として指定することによって、単に検索キーワードを含むだけでなく、そこに記載されている内容がユーザの検索目的に合致した文書内位置を検出することができる。

本発明によれば、ユーザが所望するトピックが記載された文書内位置を検出する作業を迅速化及び簡易化し得る文書検索システム、文書検索装置及び方法を実現できる。

第１及び第２の実施の形態による文書検索システムの構成を示すブロック図である。第１の実施の形態による文書検索装置のプログラム構成の説明に供するブロック図である。技術文書内に存在する表の一例を示す図表である。単語注釈辞書の構成例を示す図表である。注釈付文書の説明に供する概念図である。区分の説明に供する概念図である。区分判定部の説明に供する概念図である。区分情報テーブルの構成例を示す図表である。ヒット情報テーブルの構成例を示す図表である。第１の実施の形態における文書検索処理の流れを示すフロー図である。検索画面の構成例を略線的に示す略線図である。検索画面の構成例を略線的に示す略線図である。割合指定プリセットテーブルの構成例を示す図表である。第１の実施の形態による検索結果画面の構成例を略線的に示す略線図である。知識抽出処理の処理手順を示すフローチャートである。注釈付与処理の処理手順を示すフローチャートである。区分判定処理の処理手順を示すフローチャートである。検索及び結果作成処理の処理手順を示すフローチャートである。第１の実施の形態による文書検索装置のプログラム構成の説明に供するブロック図である。第２の実施の形態における文書検索処理の流れを示すフロー図である。検索及び区分判定処理の処理手順を示すフローチャートである。検索及び区分判定処理の処理手順を示すフローチャートである。第２の実施の形態による検索結果画面の構成例を略線的に示す略線図である。第２の実施の形態による検索結果画面の構成例を略線的に示す略線図である。技術文書におけるトピックの説明に供する図である。技術文書におけるトピックの説明に供する図表である。

以下図面について、本発明の一実施の形態を詳述する。

（１）第１の実施の形態
（１−１）本実施の形態による文書検索システムの構成
図１において、１は全体として本実施の形態による文書検索システムを示す。この文書検索システムは、ファイルサーバ装置２及び文書検索装置３と、１又は複数のクライアント端末４とを備えて構成される。

ファイルサーバ装置２は、本文書検索システム１を導入した企業においてクライアント端末４などを用いて作成された各種文書の文書ファイル１０を蓄積しておくためのサーバ装置である。以下においては、ファイルサーバ装置２に蓄積された文書ファイル１０がすべて技術文書の文書ファイルである場合について説明するが、その一部が技術文書以外の文書の文書ファイルであってもよい。

このファイルサーバ装置２は、ＣＰＵ（Central Processing Unit）１１、メインメモリ１２、外部記憶装置１３、入出力部１４、ネットワークアダプタ１５を備えた汎用のサーバ装置から構成される。

ＣＰＵ１１は、ファイルサーバ装置２全体の動作制御を司るプロセッサである。またメインメモリ１２は、例えば、揮発性の半導体メモリから構成され、ＣＰＵ１１のワークメモリとして利用される。外部記憶装置１３は、ハードディスク装置やＳＳＤ（Solid State Drive）などの大容量の不揮発性の装置から構成され、各種プログラムや各種データなどのほか、蓄積対象の各文書の文書ファイル１０が格納される。外部記憶装置１３に格納されたプログラムがファイルサーバ装置２の起動時や必要時にメインメモリ１２に読み出され、このプログラムをＣＰＵ１１が実行することによりファイルサーバ装置２全体としての処理が実行される。

入出力部１４は、キーボードやマウスなどから構成される入力装置１６と、液晶ディスプレイや有機ＥＬ（Electro-Luminescence）ディスプレイなどから構成される出力装置１７との間の信号のやり取りを行うインタフェースである。またネットワークアダプタ１５は、例えば、ＮＩＣ（Network Interface Card）から構成され、文書検索装置３やクライアント端末４との間の通信時におけるプロトコル制御を行う。

クライアント端末４は、ユーザが使用するコンピュータ装置であり、ＣＰＵ２０、メインメモリ２１、入出力部２２及びネットワークアダプタ２３を備えて構成される。これらＣＰＵ２０、メインメモリ２１、入出力部２２及びネットワークアダプタ２３の機能及び構成は、ファイルサーバ装置２のＣＰＵ１１、メインメモリ１２、入出力部１４及びネットワークアダプタ１５と同様であるため、ここでの説明は省略する。クライアント端末４の入出力部２２には、ファイルサーバ装置２の入力装置１６及び出力装置１７とそれぞれ同様の機能及び構成を有する入力装置２４及び出力装置２５が接続される。

文書検索装置３は、ファイルサーバ装置２に蓄積された各文書ファイル１０に基づく文書の中からユーザにより指定された検索条件を満たす各文書及びこれら文書内の位置（以下、これを文書内位置と呼ぶ）を検索する機能を有する検索装置である。

この文書検索装置３は、ＣＰＵ３０、メインメモリ３１、外部記憶装置３２、入出力部３３及びネットワークアダプタ３４を備えて構成される。これらＣＰＵ３０、メインメモリ３１、外部記憶装置３２、入出力部３３及びネットワークアダプタ３４の機能及び構成も、ファイルサーバ装置２のＣＰＵ１１、メインメモリ１２、外部記憶装置１３、入出力部１４及びネットワークアダプタ１５とそれぞれ同様であるため、ここでの説明は省略する。なお文書検索装置３の入出力部３３にも、ファイルサーバ装置２の入力装置１６及び出力装置１７とそれぞれ同様の機能及び構成を有する入力装置３５及び出力装置３６が接続される。

（１−２）本実施の形態による文書検索機能
（１−２−１）文書検索装置のプログラム構成
次に、本実施の形態の文書検索装置３に搭載された文書検索機能について説明する。この文書検索機能は、ファイルサーバ装置２の外部記憶装置１３に蓄積された各文書ファイル１０に基づく文書の中から、ユーザにより検索キーワードとして指定された１又は複数の文字列（以下、これを検索文字列と呼ぶ）が出現する文書内位置を検出してその文書内位置のテキストをユーザに提示する機能である。

ただし、一般的な技術文書は、図２２に示すように、１つの文書中に複数のトピックが含まれていることが多い。例えば図２２の例の場合、図示した範囲内だけでも「概要」、「機能」及び「補足」といった３つのトピックが含まれている。従って、文書検索において、単にユーザにより指定された検索文字列だけを頼りに検索を行った場合、ユーザの検索目的に合致しないトピックが記載された文書内位置までもが検索により検出されてしてしまう場合がある。

例えば、図２２の例において、ユーザが「機能」について記載された文書内位置を検索したいにもかかわらず、「概要」や「補足」について記載された文書内位置までもが検索により検出される可能性がある。このような場合、ユーザは、かかる検索により検出された文書内位置のすべてのテキストを読み込んで、所望するトピック（この例では「機能」）が記載された文書内位置のみを絞り込む必要があり、その作業に時間や労力を要する問題がある。

よって、文書検索装置３が文書検索を行うに際しては、文書中のトピックの切り替わりを検知して、目的とするトピックが記載された文書内位置のみを選択的に抽出することができれば、文書検索に要する上述のような時間や労力の浪費を低減することができるものと考えられる。

ここで、図２２の例を見てみると、トピックごとに、そのトピックの説明箇所に現れる各属性の単語の出現割合が異なることが分かる。例えば図２３に示すように、トピックが「概要」の説明箇所では、「コマンド名」を表す単語（意味や内容が「コマンド名」という属性に振り分けられる単語。以下、同様。）が２個、「機能」を表す単語が４個、「表種別」を表す単語が４個出現しているのに対して、トピックが「機能」の説明箇所では、「コマンド名」を表す単語が３個、「機能」を表す単語が６個、「ファイル種別」を表す単語が２個出現し、トピックが「補足」の説明箇所では、「機能」を表す単語が４個、「データ形式」を表す単語が５個出現している。従って、出現する各単語の属性に基づいて、各属性の単語の出現割合を利用することによりトピックの切り替わりを検知し、必要なトピックの説明箇所のみを選択的に抽出することができるものと考えられる。

そこで本実施の形態の文書検索装置では、検索条件として、検索文字列に加えて、出現する各単語の属性の出現割合をも指定することができ、これにより検索文字列を含む文書内位置の中からさらにユーザが所望するトピックに関する説明が記載されているであろう文書内位置を絞り込んで検出することができるようになされている。

なお、上述のような出現する各単語の属性の出現割合の指定において、所望するトピックを検索する際の各属性や、これら属性の出現割合の指定はユーザの経験的な推測により行われることになる。ただし、後述のように本実施の形態においては、各属性及びこれら属性の単語の出現割合をプリセットとして予め幾つか登録できるようになっており、これにより上述のような検索作業を容易化し得るようになされている。

このような本実施の形態による文書検出機能を実現するための手段として、文書検索装置３の外部記憶装置３２には、図２に示すように、索引制御部４０、文書収集部４１、知識抽出部４２、注釈付与部４３、区分判定部４４、索引作成部４５、検索制御部４６、検索部４７及び結果作成部４８が格納されている。

索引制御部４０は、検索の実行指示を受信すると、文書収集部４１、知識抽出部４２、注釈付与部４３、区分判定部４４及び索引作成部４５を制御することにより、これら文書収集部４１、知識抽出部４２、注釈付与部４３、区分判定部４４及び索引作成部４５に必要なタイミングで必要な処理を実行させる機能を有するプログラムである。

また文書収集部４１は、ファイルサーバ装置２の外部記憶装置１３に格納された各文書ファイル１０をファイルサーバ装置２から読み出す機能を有するプログラムである。文書収集部４１は、読み出した各文書ファイル１０のファイルデータをそれぞれ文書情報５１として文書検索装置３の外部記憶装置３２に格納する。

知識抽出部４２は、外部記憶装置３２に文書情報５１が格納された各文書について、その文書から当該文書内に存在する各種表の表情報５２をすべて抽出し、抽出した表情報５２からその文書のテキスト内に存在する単語（文字列）の意味を抽出する機能を有するプログラムである。

実際上、技術文書には、例えば図３に示すようなその技術文書内で使用されている各用語の定義や、対応する機器において使用されるコードの解説などが記載された表６０が含まれていることが多い。そして、この表６０から、その表６０に掲載されている各文字列の内容や何を意味するものであるかといった、これら文字列の属性を推定することができる。例えば、図３の例の場合、「xxxxx-00yyww」、「xxxxx-00yyyy」及び「xxxxx-00yyzz」などの文字列が「メッセージコード」を表していることや、「Error」、「Warning」及び「Message」などの文字列がメッセージコードの「分類」を表していることが推定できる。また図３の例の場合、「xxxxx-00yyww」が「Error」、「xxxxx-00yyyy」が「Warning」、「xxxxx-00yyzz」が「Message」をそれぞれ表していることも推定できる。

そこで、知識抽出部４２は、外部記憶装置３２に格納された各文書情報５１にそれぞれ基づく文書ごとに、その文書情報５１からすべての表６０の表情報５２をそれぞれ抽出し、抽出した表情報５２を利用して例えば図４に示すような単語注釈辞書５３をそれぞれ作成する。この単語注釈辞書５３は、表６０に掲載されていた各文字列に対して、その表６０から抽出したその文字列の内容や意味などの属性を「注釈」として対応付けたものである。そして知識抽出部４２は、このようにして作成した単語注釈辞書５３を外部記憶装置３２に格納する。

注釈付与部４３は、外部記憶装置３２に文書情報５１が格納されている文書ごとに、対応する単語注釈辞書５３を参照して、その文書内の特定の単語に対して、適宜、注釈を付与する機能を有するプログラムである。

具体的に、注釈付与部４３は、文書内の各単語を単語注釈辞書５３に登録された各文字列（注釈が対応付けられた文字列であり、以下、これを登録文字列と呼ぶ）と順次照合し、文書内の各登録文字列に対して、図５に示すように、対応する単語注釈辞書５３に登録されている対応する注釈をそれぞれ付与する。そして注釈付与部４３は、このようにして注釈を付与した各文書（以下、これらを注釈付文書６１と呼ぶ）の文書情報を注釈付文書情報５４として外部記憶装置３２に格納する。

区分判定部４４は、外部記憶装置３２に格納されている注釈付文書情報５４に基づく各注釈付文書６１について、その注釈付文書６１を図６のように複数の区分６２に分割する機能を有するプログラムである。

具体的に、区分判定部４４は、まず、注釈付文書６１を所定方法により順次区切るようにして複数の詳細区分に分割する。注釈付文書６１を複数の詳細区分に分割する方法としては、例えば一定の文字数ごとに順次区切る方法や、一定数の注釈が出現するごとに区切る方法など、種々の方法を広く適用することができる。

また区分判定部４４は、図７に示すように、上述のようにして分割した詳細区分ごとに、その詳細区分に含まれる各注釈の出現割合を検出し（その詳細区分に含まれる各注釈の数をそれぞれカウントし）、ある詳細区分における各注釈の出現割合と、その次の詳細区分における各注釈の出現割合とが一致する場合には、これらを同じトピックの説明が記載されている文書内位置として１つの区分に統合する。

ただし、そのとき対象としている詳細区分と、その１つ前の詳細区分とにおける各注釈の出現割合が完全一致していない場合においても、一致度合いが予め設定された閾値（以下、これを索引閾値と呼ぶ）以内である場合には、これら２つの区分を１つの区分に統合するようにしてもよい。この場合には、かかる索引閾値を図２の索引設定５０として設定しておき、後述のように区分判定部４４がこの索引閾値に基づいて上述のような詳細区分の統合を実行するようにすればよい。

さらに区分判定部４４は、上述のように複数の詳細区分を統合して生成した区分や、他の詳細区分と統合しなかった各詳細区分をそれぞれ１つの区分６２（図６）として、これら区分６２ごとに図８に示すような区分情報５５Ｘをそれぞれ作成する。なお区分情報５５Ｘは、図８のテーブル（以下、これを区分情報テーブル５５と呼ぶ）における１つ１つの行の情報である。

この区分情報５５Ｘは、対応する区分６２の文書内位置と、その区分６２に対応する文書内位置に各注釈がそれぞれ幾つ存在するかを表す情報とから構成される。図８では、各区分情報の「区分」の欄５５Ａに詳細区分の識別子を表す数値が格納されているが、実際には対応する注釈付文書６１の先頭から何文字目から何文字目までといった範囲を示す情報が「区分」の欄５５Ａに格納される。そして区分判定部４４は、このようにして生成した各区分情報５５Ｘを外部記憶装置３２に格納された区分情報テーブル５５に登録して管理する。

索引作成部４５は、単語注釈辞書５３に登録されている各文字列（登録文字列）について、その文字列がどの文書内のどの位置（文書の先頭からの文字数）に存在するかを表した、逆引きインデックス又は転置インデックスと呼ばれる索引を生成する機能を有するプログラムである。索引作成部４５は、作成した索引の情報（以下、これを索引情報と呼ぶ）５７を外部記憶装置３２に格納する。

検索制御部４６は、ユーザにより指定された検索条件を満たす文書内位置を検索するよう、検索部４７及び結果作成部４８を制御する機能を有するプログラムである。本実施の形態の場合、ユーザは、かかる検索条件として、後述のように１又は複数の検索文字列と、文書内における各注釈の出現割合とをそれぞれ指定する。

また検索部４７は、索引作成部４５により作成された索引情報５７に基づき、ユーザにより指定されたすべての検索文字列（アンド検索の場合）又はこれら検索文字列の中の少なくとも１つの検索文字列（オア検索の場合）を含む各文書内位置を検索する機能を有するプログラムである。検索部４７は、かかる検索により検出した各文書内位置をそれぞれヒット情報５８Ｘとして外部記憶装置３２に格納されている図９に示すようなヒット情報テーブル５８に登録して管理する。

なお図９は、ヒット情報テーブル５８の一構成例であり、１つの行が１つのヒット情報５８Ｘに対応する。この図９のヒット情報テーブル５８の場合、すべての検索文字列（アンド検索の場合）又は少なくとも１つの検索文字列（オア検索の場合）が出現する文書の識別子（文書ＩＤ）が文書ＩＤ欄５８Ａに格納される。また開始欄５８Ｂには、その文書内の検索文字列が出現する範囲（１又は複数の区分６２からなる範囲）の先頭位置が格納され、終了欄５８Ｃには、かかる範囲の最後の位置が格納される。

さらに結果作成部４８は、かかるヒット情報テーブル５８に登録されている各ヒット情報５８Ｘと、区分情報テーブル５５に登録されている各区分情報５５Ｘとに基づいて、ユーザにより指定された検索文字列を含み、かつ予め定められた各注釈がユーザにより指定された出現割合で出現する文書内位置（対応する１又は複数の区分６２の文書内位置）を検出する機能を有するプログラムである。

ただし、各注釈の出現割合が、ユーザにより指定された出現割合と完全一致していない場合においても、一致度合いが予め設定された閾値（以下、これを検索閾値と呼ぶ）以内である場合には、その文書内位置を検索条件を満たす範囲として検出するようにしてもよい。この場合には、かかる検索閾値を図２の検索設定５６として設定しておき、結果作成部４８がこの検索閾値に基づいて上述のような検索条件を満たす文書内位置を検出するようにすればよい。

また結果作成部４８は、上述のようにして検出した検索条件を満たす各文書内位置のテキスト情報をその文書の文書情報５１からそれぞれ抽出し、抽出したこれらテキスト情報を対応するクライアント端末４に送信する。これにより、これらテキスト情報に基づくテキストが掲載された図１３について後述する検索結果画面９０がそのクライアント端末４の出力装置２５（図１）に表示される。

なお外部記憶装置３２には、この他、割合指定プリセットテーブル５９も格納されるが、この割合指定プリセットテーブル５９の詳細については後述する。

（１−２−２）文書検索機能に関する処理の流れ
図１０は、上述した文書検索機能に基づく一連の処理（以下、これを文書検索処理と呼ぶ）の流れを示す。この文書検索処理は、クライアント端末４からの検索実行指示を文書検索装置３が受信することにより開始される。

実際上、本文書検索システム１の場合、ユーザは、クライアント端末４を所定操作することにより図１１Ａ及び図１１Ｂについて後述する検索画面７０をその出力装置２５（図１）に表示させることができ、この検索画面７０を用いて１又は複数の検索文字列と、予め定められた複数の注釈それぞれの出現割合とを検索条件として指定することができる。そして、その検索条件に従った検索処理を実行すべき旨の指示をユーザがクライアント端末４に与えると、その検索条件が格納された検索実行指示が当該クライアント端末４から文書検索装置３に送信される。

文書検索装置３の索引制御部４０は、この検索実行指示を受領すると、まず、文書収集部４１を呼び出す（Ｓ１）。そして文書収集部４１は、索引制御部４０により呼び出されると、ファイルサーバ装置２にアクセスし（Ｓ２）、当該ファイルサーバ装置２の外部記憶装置１３（図１）に蓄積されている文書ファイル１０をすべて文書検索装置３のメインメモリ３１（図１）に読み出す（Ｓ３）。

また文書検索装置３は、読み出した各文書ファイル１０のデータをそれぞれ文書情報５１として文書検索装置３の外部記憶装置３２（図１）にそれぞれ格納する（Ｓ４）。そして、文書収集部４１は、このステップＳ４の処理が完了すると、その旨を索引制御部４０に通知する。

索引制御部４０は、かかる通知が文書収集部４１から与えられると、知識抽出部４２を呼び出す（Ｓ５）。そして知識抽出部４２は、索引制御部４０により呼び出されると、上述のように外部記憶装置３２に格納された各文書の文書情報５１をそれぞれメインメモリ３１に読み出す（Ｓ６）。また知識抽出部４２は、メインメモリ３１に読み出した各文書情報５１からそれぞれすべての表６０（図３）の表情報５２を抽出し、抽出した表情報５２を外部記憶装置３２に格納する（Ｓ７）。

さらに知識抽出部４２は、外部記憶装置３２に格納した各文書の表情報５２をメインメモリ３１にそれぞれ読み出し（Ｓ８）、読み出したこれらの表情報５２に基づいて単語注釈辞書５３を文書ごとにそれぞれ作成し、作成したこれらの単語注釈辞書５３を外部記憶装置３２に格納する（Ｓ９）。そして知識抽出部４２は、このステップＳ９の処理が完了すると、その旨を索引制御部４０に通知する。

索引制御部４０は、かかる通知が知識抽出部４２から与えられると、注釈付与部４３を呼び出す（Ｓ１０）。そして注釈付与部４３は、索引制御部４０により呼び出されると、かかる文書ごとの単語注釈辞書５３をメインメモリ３１にそれぞれ読み出すと共に（Ｓ１１）、外部記憶装置３２に格納されている各文書の文書情報５１をメインメモリ３１にそれぞれ読み出す（Ｓ１２）。

そして注釈付与部４３は、メインメモリ３１に読み出した各文書情報５１に基づく文書を、それぞれ上述の注釈付文書６１（図５）に変換し、これら注釈付文書６１の情報（注釈付文書情報５４）を外部記憶装置３２に格納する（Ｓ１３）。そして、注釈付与部４３は、このステップＳ１３の処理が完了すると、その旨を索引制御部４０に通知する。

索引制御部４０は、かかる通知が注釈付与部４３から与えられると、区分判定部４４を呼び出す（Ｓ１４）。そして区分判定部４４は、索引制御部４０により呼び出されると、外部記憶装置３２に格納された各注釈付文書６１の注釈付文書情報５４をそれぞれメインメモリ３１に読み出す（Ｓ１５）。

また区分判定部４４は、読み出した各注釈付文書情報５４に基づく注釈付文書６１について、その注釈付文書６１を複数の区分６２（図６）に分割し、これら区分６２の区分情報５５Ｘ（図８）を外部記憶装置３２に保持された区分情報テーブル５５（図８）に格納する（Ｓ１６）。そして区分判定部４４は、ステップＳ１６の処理が終了すると、その旨を索引制御部４０に通知する。

索引制御部４０は、かかる通知が区分判定部４４から与えられると、索引作成部４５を呼び出す（Ｓ１７）。そして索引作成部４５は、索引制御部４０により呼び出されると、外部記憶装置３２に格納されている各文書情報５１をメインメモリ３１に読み出す（Ｓ１８）。また索引作成部４５は、読み出したこれらの文書情報５１に基づく各文書に対する索引を既存の索引作成技術を用いてそれぞれ作成し、作成した文書ごとの索引の情報（索引情報５７）を外部記憶装置３２に格納する（Ｓ１９）。そして索引作成部４５は、ステップＳ１９の処理を完了すると、その旨を索引制御部４０に通知する。

索引制御部４０は、かかる通知が索引作成部４５から与えられると、検索制御部４６を呼び出す。また検索制御部４６は、索引制御部４０により呼び出されると、まず検索部４７を呼び出す（Ｓ２０）。

検索部４７は、検索制御部４６により呼び出されると、外部記憶装置３２に格納されている索引情報５７を読み出し（Ｓ２１）、これを参照して、各文書の中からユーザにより指定された検索文字列が出現する区分６２（図６）を検索する。また検索部４７は、かかる検索の結果に基づいてヒット情報５８Ｘ（図９）を生成し、生成したヒット情報５８Ｘを外部記憶装置３２内のヒット情報テーブル５８（図９）に格納する（Ｓ２２）。そして検索部４７は、ステップＳ２２の処理を完了すると、その旨を検索制御部４６に通知する。

検索制御部４６は、かかる通知が検索部４７から与えられると、結果作成部４８を呼び出す（Ｓ２３）。そして結果作成部４８は、検索制御部４６により呼び出されると、区分情報５５Ｘ及びヒット情報５８Ｘを外部記憶装置３２からメインメモリ３１に読み出し（Ｓ２４，Ｓ２５）、これら区分情報５５Ｘ及びヒット情報５８Ｘに基づいて、ヒット情報テーブル５８に格納された各ヒット情報５８Ｘにより特定される各区分６２のうち、検索条件において指定された各注釈が当該検索条件において指定された出現割合で出現する区分６２をすべて抽出する。

また検索制御部４６は、抽出した各区分６２のテキスト情報を外部記憶装置３２から読み出して検索実行指示の送信元のクライアント端末４に送信する（Ｓ２６）。これにより、これらのテキスト情報に基づいて、図１３について後述する検索結果画面９０がそのクライアント端末４の出力装置２５（図１）に表示される。

（１−２−３）検索画面及び検索結果画面の構成
図１１Ａは、所定操作によりクライアント端末４に表示される上述の検索画面７０の構成例を示す。この検索画面７０は、ユーザが文書検索を行うに際にその検索条件を設定するための画面であり、検索文字列入力欄７１、プリセット名欄７３、検索実行ボタン７２及び詳細設定ボタン７４を備えて構成される。

検索文字列入力欄７１は、ユーザが入力装置２４（図１）を用いて所望する検索文字列を入力するためのテキストボックスである。検索文字列は１つの文字列に限らない。複数の文字列を１コマ分のスペースを入れながら検索文字列入力欄７１にそれぞれ入力することにより、これらの文字列をすべて検索文字列として指定することができる。

またプリセット名欄７３の右横にはプルダウンボタン７５が設けられており、このプルダウンボタン７５をクリックすることによって、予め設定されて図１２に示す割合指定プリセットテーブル５９に登録されている各プリセット（複数の所定の注釈それぞれの出現割合のプリセット）のプリセット名がそれぞれ掲載された図示しないプルダウンメニューを表示させることができる。なお各注釈の出現割合のプリセットの設定方法については後述する。

そして検索画面７０では、このプルダウンメニューにプリセット名が表示されたプリセットの中から所望するプリセットをクリックするようにして１つ選択することにより、各注釈の出現割合をそれぞれ決定することができる。このとき選択されたプリセットのプリセット名がプリセット名欄７３に表示される。

また検索画面７０では、上述のようにして検索文字列及び各注釈の出現割合を指定した上で検索実行ボタン７２をクリックすることにより、検索処理を文書検索装置３に実行させることができる。このとき、この検索画面７０で指定された各検索文字列及び各注釈の出現割合が検索条件として格納された検索実行指示がそのクライアント端末４から文書検索装置３に送信され、これにより当該検索実行指示に応じた文書検索処理が文書検索装置３において実行される。

なお各注釈の出現割合に対するプリセットは、詳細設定ボタン７４をクリックすることにより図１１Ｂのように表示される詳細設定タブ７６を用いて作成及び変更することができる。

実際上、詳細設定タブ７６では、予め設定された幾つかの注釈にそれぞれ対応させて詳細設定スライダ８０が表示される。これら詳細設定スライダ８０では、初期時には、プリセット名欄７３にプリセット名が表示されたプリセットにおいて、対応する注釈に対して設定されている出現割合に応じた位置にレバー８１が表示される。

そして検索画面７０では、これらの詳細設定スライダ８０のレバー８１をドラッグして左右方向に移動させる（レバー８１をスライド操作する）ことによって、対応する注釈の出現割合を０〜100%の範囲で自由に設定することができる。この場合、１つの詳細設定スライダ８０のレバーを動かしたときに、各詳細設定スライダ８０のレバー８１がそれぞれ指し示す出現割合の合計が常に100％となるように、残りの詳細設定スライダ８０のレバー８１の位置が自動調整される。

そして検索画面７０では、上述のようにして既定の各注釈に対する出現割合をそれぞれ設定し、セーブボタン８３をクリックすることにより、その設定を既存のプリセットに上書き登録することができる。そして、このとき登録されたプリセットの内容に応じて、割合指定プリセットテーブル５９の内容が更新される。

また検索画面７０では、上述のようにして既定の各注釈に対する出現割合を設定し、詳細設定タブ７６の右下に表示されたプリセット名入力欄８２にその設定を新たなプリセットとして設定する場合における当該プリセットのプリセット名を入力した後、セーブアズボタン８４をクリックすることにより、その設定を新たなプリセットとして新規登録できる。そして、このとき登録されたプリセットの内容がそのプリセット名と対応付けて図１２のように割合指定プリセットテーブル５９に登録される。

一方、図１３は、上述のようにしてユーザにより指定された検索条件（各検索文字列及び各注釈の出現割合）に従って文書検索装置３において実行された文書検索処理の処理結果（検索結果）が表示される検索結果画面９０の構成例を示す。この図１３からも明らかなように、検索結果画面９０では、かかる文書検索処理により検出された検索条件を満たすテキストを有する各文書の名称が名称表示領域９１にそれぞれ表示される。また、これら文書内の検索条件を満たす区分６２のテキストが対応する名称表示領域９１と対応付けてそれぞれ表示される。

（１−２−４）文書検索機能に関する各プログラムの具体的な処理の流れ
（１−２−４−１）知識抽出処理
図１４は、かかる文書検索機能に関連して知識抽出部４２（図２）により実行される知識抽出処理の処理手順を示す。知識抽出部４２は、メインメモリ３１（図１）に格納された文書情報５１ごとにこの知識抽出処理をそれぞれ実行することにより、その文書情報５１から表情報５２をそれぞれ抽出し、抽出した表情報５２に基づいて、その文書情報５１に対する単語注釈辞書５３（図４）を作成する。

実際上、知識抽出部４２は、メインメモリ３１に読み出した文書情報５１のうち、単語注釈辞書５３が未作成の文書情報５１を１つ選択した後、この図１４に示す知識抽出処理を開始し、まず、その文書情報５１（以下、これを対象文書情報５１と呼ぶ）のデータ形式をＨＴＭＬ（Hyper Text Markup Language）形式に変換する（Ｓ３０）。

続いて、知識抽出部４２は、ＨＴＭＬ形式に変換した対象文書情報５１のデータからテーブルタグを目印として、その対象文書情報５１に含まれるすべての表６０の表情報５２を抜き出す（Ｓ３１）。また知識抽出部４２は、ステップＳ３１で表情報５２を抜き出した各表６０（図３）の中にステップＳ３３以降の処理が未処理の表があるか否かを判断する（Ｓ３２）。

そして知識抽出部４２は、ステップＳ３２の判断で肯定結果を得るとステップＳ３４以降が未処理の表６０を１つ選択し（Ｓ３３）、選択した表（以下、これを選択表と呼ぶ）６０の表情報５２から、その選択表６０の先頭の行の各列の値をそれぞれ取得する（Ｓ３４）。なお、通常の表６０では、図３のように各列の先頭の行にその列のデータの属性を表す列名が格納されているため、このステップＳ３４の処理により、選択表６０の各列の列名をそれぞれ取得することができる。

次いで、知識抽出部４２は、選択表６０におけるステップＳ３６以降が未処理の行を１つ選択し（Ｓ３５）、選択した行（以下、これを選択行と呼ぶ）の各列の値に対して、ステップＳ３４で取得した先頭の行の同じ列の値を注釈としてそれぞれ付与し、その対応関係を単語注釈辞書５３に登録する（Ｓ３６）。

例えば、選択表６０が図３のような内容の表であり、選択行が「＃１」の項番が付与された行である場合、知識抽出部４２は、「xxxxx-00yyww」という値が格納された列の当該値に対しては、その列の先頭の行の値である「メッセージコート」を注釈として付与し、「Error」という値が格納された列の当該値に対しては、その列の先頭の行の値である「分類」を注釈として付与し、図４の「＃１」や「＃２」の項番が付与された行のように、その対応関係を単語注釈辞書５３に登録する。

また知識抽出部４２は、選択行における項番列（図３において先頭行の値が「＃」の列）除く最初の列の値に、その選択行における項番列を除く残りの各列の値をそれぞれ注釈として付与し、その対応関係を単語注釈辞書５３に登録する（Ｓ３７）。

例えば、上述の例の場合、選択行における項番列を除く最初の列の値は「xxxxx-00yyww」であるため、知識抽出部４２は、この値に対してこれ以降の列の値である「Error」を注釈として付与し、図４の「＃３」の項番が付与された行のように、その対応関係を単語注釈辞書５３に登録する。

この後、知識抽出部４２は、すべての行に対してステップＳ３５〜ステップＳ３７の処理を実行し終えたか否かを判断する（Ｓ３８）。そして知識抽出部４２は、この判断で否定結果を得ると、ステップＳ３５に戻り、この後ステップＳ３５で選択する行をステップＳ３６以降が未処理の他の行に順次切り替えながらステップＳ３５〜ステップＳ３８の処理を繰り返す。

そして知識抽出部４２は、やがて選択表６０のすべての行に対するステップＳ３６〜ステップＳ３７の処理を実行し終えることによりステップＳ３８で肯定結果を得ると、ステップＳ３２に戻り、そのときの対象文書情報５１に基づく文書から抽出した表６０の中にステップＳ３４以降の処理が未処理の表６０があるか否かを判断する（Ｓ３２）。

そして知識抽出部４２は、この判断で否定結果を得ると、ステップＳ３３で選択する表６０をそのときの対象文書情報５１に基づく文書から抽出したステップＳ３４以降が未処理の他の表に順次切り替えながら、ステップＳ３２〜ステップＳ３８の処理を繰り返す。このような繰返し処理により対象文書情報５１に基づく文書内に存在する各表６０をそれぞれ利用して単語注釈辞書５３を作成することができる。

そして知識抽出部４２は、やがてそのときの対象文書情報５１に基づく文書から抽出した表６０に対するステップＳ３４以降の処理を実行し終えることによりステップＳ３２で否定結果を得ると、その対象文書情報５１に対するこの知識抽出処理を終了する。

（１−２−４−２）注釈付与処理
一方、図１５は、索引制御部４０（図２）により呼び出された注釈付与部４３（図２）により実行される注釈付与処理の処理手順を示す。注釈付与部４３は、メインメモリ３１（図１）に格納された文書情報５１ごとにこの注釈付与処理をそれぞれ実行することにより、その文書情報５１に基づく文書内に存在する単語注釈辞書５３（図４）に登録されている各文字列（登録文字列）に対して、対応する注釈をそれぞれ付与する。

実際上、注釈付与部４３は、索引制御部４０により呼び出されると、この図１５に示す注釈付与処理を開始し、まず、そのとき対象としている文書情報（対象文書情報）５１の単語注釈辞書５３を外部記憶装置３２（図１）から読み出す（Ｓ４０）。また注釈付与部４３は、一回に処理可能な一定量の対象文書情報５１のデータを外部記憶装置か３２ら読み出す（Ｓ４１）。

そして注釈付与部４３は、ステップＳ４０で読み出した単語注釈辞書５３に登録されている各文字列（登録文字列）と、ステップＳ４１で読み出した対象文書情報５１に基づく文書内の各文字列とを順次照合するようにしてその文書内で各登録文字列をそれぞれ探索し（Ｓ４２）、当該文書内で登録文字列と一致（又はほぼ一致）する文字列を検出できたか否かを判断する（Ｓ４３）。そして注釈付与部４３は、この判断で否定結果を得るとステップＳ４６に進む。

これに対して、注釈付与部４３は、ステップＳ４３の判断で肯定結果を得ると、いずれかの登録文字列と最長一致したかかる文書内の各文字列に対して、単語注釈辞書５３においてその登録文字列に対応付けられている注釈をそれぞれ付与し（Ｓ４４）、これら注釈をどの位置のどの文字列に付与したかを表す情報を、その文書の文書情報５１と共に注釈付文書情報５４（図２）として外部記憶装置３２に格納する（Ｓ４５）。

また注釈付与部４３は、ステップＳ４１において対象文書情報５１のすべての範囲のデータを読込み終えたか否かを判断する（Ｓ４６）。そして注釈付与部４３は、この判断で否定結果を得るとステップＳ４１に戻り、この後、ステップＳ４１でデータを読み込む対象文書情報５１の範囲をステップＳ４２以降が未処理の他の範囲に順次切り替えながら、ステップＳ４１〜ステップＳ４６の処理を繰り返す。

そして注釈付与部４３は、やがて対象文書情報５１のすべての範囲についてステップＳ４２以降の処理を実行し終えることによりステップＳ４６で肯定結果を得ると、対象文書情報５１に対するこの注釈付与処理を終了する。

（１−２−４−３）区分判定処理
図１６は、索引制御部４０（図２）により呼び出された区分判定部４４（図２）により実行される区分判定処理の処理手順を示す。区分判定部４４は、メインメモリ３１（図１）に読み出された注釈付文書６１（図６）ごとにこの図１６に示す区分判定処理をそれぞれ実行することにより、各注釈付文書６１をそれぞれ複数の区分６２（図６）に分割し、これら区分６２に関する情報を区分情報５５Ｘ（図８）として区分情報テーブル５５（図８）に登録する。

実際上、区分判定部４４は、索引制御部４０により呼び出されると、この図１６に示す区分判定処理を開始し、まず、そのとき設定されている索引設定５０（図２）を外部記憶装置３２から読み込む（Ｓ５０）。また区分判定部４４は、そのとき対象としている注釈付文書６１のデータのうち、一回に処理可能な一定量のデータを外部記憶装置３２から読み出し（Ｓ５１）、読み出した注釈付文書６１を複数の詳細区分に分割する（Ｓ５２）。

次いで、区分判定部４４は、ステップＳ５２の分割により得られた各詳細区分について、索引設定５０及びステップＳ５３のカウント結果に基づいて、その詳細区分に含まれる各注釈の出現割合が、隣接する詳細区分におけるこれら注釈の出現割合と索引設定５０で規定された索引閾値に基づく許容範囲内で一致するか否かをそれぞれ判断する（Ｓ５４）。

そして区分判定部４４は、すべての詳細区分についてステップＳ５４の判断で否定結果を得た場合にはステップＳ５６に進む。これに対して、区分判定部４４は、ステップＳ５４の判断でいずれかの詳細区分について肯定結果を得た場合には、該当する各詳細区分について、その詳細区分と、当該詳細区分に隣接する対応する詳細区分とを１つの区分に統合し、その区分の区分情報５５Ｘを区分情報テーブル５５に登録する（Ｓ５５）。

次いで、区分判定部４４は、他の詳細区分とは統合されない各詳細区分の区分情報を１つの区分の区分情報５５Ｘとして区分情報テーブル５５に登録し（Ｓ５６）、この後、そのとき対象としている注釈付文書６１のデータのうち、ステップＳ５２以降の処理が未処理のデータがもうないか否かを判断する（Ｓ５７）。

そして区分判定部４４は、この判断で否定結果を得るとステップＳ５１に戻り、この後、ステップＳ５１で読み出す注釈付文書６１のデータを、ステップＳ５２以降が未処理の他のデータに順次切り替えながら、ステップＳ５１〜ステップＳ５７の処理を繰り返す。この繰返し処理により、そのとき対象としている注釈付文書６１に対する区分情報テーブル５５が完成する。

そして区分判定部４４は、やがてそのとき対象としている注釈付文書６１のすべてのデータについてステップＳ５２〜ステップＳ５６の処理を実行し終えることによりステップＳ５７で肯定結果を得ると、そのとき対象としている注釈付文書６１に対する区分判定処理を終了する。

（１−２−４−４）文書検索処理
図１７は、検索制御部４６（図２）により呼び出された検索部４７（図２）及び結果作成部４８（図２）により実行される一連の処理（以下、これを検索及び結果作成処理と呼ぶ）の流れを示す。検索部４７及び結果作成部４８は、この図１７に示す処理手順に従って、ユーザにより指定された検索条件を満たす文書及びその文書内の位置（文書内位置）を検出する。

実際上、検索部４７は、検索制御部４６により呼び出されると、この図１７に示す検索及び結果作成処理を開始し、まず、そのとき設定されている検索設定５６（図２）を外部記憶装置３２から読み込む（Ｓ６０）。また検索部４７は、そのとき対象とする検索実行指示に含まれる検索条件（検索文字列及び各注釈の出現割合）を取得する（Ｓ６１）。

そして検索部４７は、ステップＳ６１で取得した検索条件で指定されているすべての検索文字列を含む文書内の位置（アンド検索の場合）、又は、検索条件で指定されている検索文字列のうちの少なくとも１つを含む文書内の位置（オア検索の場合）を検索する（Ｓ６２）。

具体的に、検索部４７は、検索条件で指定されている各検索文字列と、外部記憶装置３２に格納されている各文書情報５１に基づく文書内のすべての文字列とを索引情報５７を用いて順次照合するようにして対象となる文書及びその文書内の範囲を検索する。そして検索部４７は、この検索処理により検出した各文書内の検索文字列に一致する範囲（すなわち、検索文字列を含む文書の識別子（文書ＩＤ）を文書ＩＤ欄５８Ａ、検索文字列の開始地点を開始欄５８Ｂ、検索文字列の終了地点を終了欄５８Ｃとする範囲情報）をそれぞれヒット情報５８Ｘ（図９）としてヒット情報テーブル５８（図９）に登録する。

また検索部４７は、この検索処理を完了するとその旨を検索制御部４６（図２）に通知する。かくして、この通知を受信した検索制御部４６は、結果作成部４８（図２）を呼び出す。

結果作成部４８は、検索制御部４６により呼び出されると、ヒット情報テーブル５８をメインメモリ３１に読み出し、読み出したヒット情報テーブル５８に登録されているヒット情報５８Ｘの中からステップＳ６４以降が未処理のヒット情報５８Ｘを１つ選択して、そのヒット情報５８Ｘ（以下、これを選択ヒット情報と呼ぶ）をヒット情報テーブル５８から読み出す（Ｓ６３）。また結果作成部４８は、区分情報テーブル５５（図８）を参照して、その選択ヒット情報５８Ｘで示される範囲における各注釈の出現割合がユーザにより指定された各注釈の出現割合に関する条件を満たすか否かを判断する（Ｓ６４）。

具他的に、結果作成部４８は、選択ヒット情報５８Ｘが示す文書及びその文書内の範囲と一部又は全部が重複する区分６２（図６）を区分情報テーブル５５上で検索し、かかる区分情報５５Ｘを検出できた場合には、その区分情報５５Ｘにおける各注釈の出現割合が、ユーザが指定した各注釈の出現割合と、検索設定５０（図２）において指定された許容範囲内において一致するか否かを判断する。

そして結果作成部４８は、この判断で否定結果を得るとステップＳ６６に進む。これに対して、結果作成部４８は、ステップＳ６４の判断で肯定結果を得ると、区分情報５５Ｘで示された文書及びその文書内の範囲のテキストのテキスト情報を外部記憶装置３２から読み出し、読み出したテキスト情報と、そのテキスト情報に基づくテキストを含む文書の文書名（対応する文書ファイルのファイル名）とを検索実行指示の送信元のクライアント端末４に送信する（Ｓ６５）。

続いて、結果作成部４８は、ヒット情報テーブル５８にステップＳ６４以降の処理が未処理の他のヒット情報５８Ｘがあるか否かを判断する（Ｓ６６）。そして結果作成部４８は、この判断で結果を得るとステップＳ６３に戻り、この後、ステップＳ６３で選択するヒット情報５８Ｘを未処理の他のヒット情報５８Ｘに順次切り替えながらステップＳ６３〜ステップＳ６６の処理を繰り返す。

そして結果作成部４８は、やがてヒット情報テーブル５８に登録されているすべてのヒット情報５８ＸについてステップＳ６４以降の処理を実行し終えることによりステップＳ６６で否定結果を得ると、この文書検索処理を終了する。

（１−３）本実施の形態の効果
以上のように本実施の形態の文書検索装置３は、文書に含まれる表６０（図３）から単語注釈辞書５３（図４）を作成し、作成した単語注釈辞書５３に基づいて、その文書に含まれる登録文字列に対してそれぞれ注釈を付与し、注釈を付与した文書でなる注釈付文書６１を、出現する注釈の出現割合に応じて複数の区分６２（図６）に分割する。

また文書検索装置３は、文書内に表れる各単語（文字列）の索引を作成し、この索引を利用して検索条件として指定された検索文字列の出現位置をヒット情報５８Ｘ（図９）として検出すると共に、これら検出した検索文字列の出現位置の中から、検索条件として指定された各注釈の出現割合が、当該検索条件において指定された出現割合と許容範囲内において一致する区分情報５５Ｘを抽出し、その文書内位置のテキストをクライアント端末４に表示させる。

従って、本文書検索装置３によれば、ユーザが、所望するトピックに関する各注釈の出現割合を検索条件として指定することによって、単に検索文字列を含むだけでなく、そこに記載されている内容がユーザの検索目的に合致した文書内位置を検出することができるため、ユーザが対象とする文書から所望するトピックが記載された文書内位置を検出する作業を迅速化及び簡易化することができる。

（２）第２の実施の形態
（２−１）第２の実施の形態による文書検索システムの構成
図１において、符号１００は、第２の実施の形態による文書検索システムを示す。この文書検索システム１００は、文書検索装置１０１（図１）のプログラム構成が第１の実施の形態の文書検索装置３のプログラム構成と異なる点を除いて、第１の実施の形態と同様に構成されている。

また図２との対応部分に同一符号を付した図１８は、本実施の形態による文書検索装置１０１のプログラム構成を示す。この図１８に示すように、本実施の形態の文書検索装置１０１は、索引制御部１１０、検索制御部１１１、区分判定部１１２及び結果作成部１１３の機能が第１の実施の形態の索引制御部４０、検索制御部４６、区分判定部４４及び結果作成部４８と異なることを除いて第１の実施の形態と同様のプログラム構成を有する。

（２−２）本実施の形態による文書検索機能に関する各種処理の流れ
図１９は、本実施の形態の文書検索機能に関連して文書検索装置１０１において実行される一連の処理の流れを示す。この図１９の処理は、ユーザにより指定された１又は複数の検索文字列と、既定の各注釈の出現割合とを検索条件として含む検索実行指示がクライアント端末４から与えられたときに実行される。

この場合、ステップＳ７０〜ステップＳ８２の処理は、図１０のステップＳ１〜ステップＳ１３の処理と同様であるため、ここでの説明は省略する。注釈付与部４３は、このステップＳ８２の処理が完了すると、その旨を索引制御部１１０に通知する。

索引制御部１１０は、かかる通知が注釈付与部４３から与えられると、索引作成部４５を呼び出す（Ｓ８３）。そして索引作成部４５は、索引制御部１１０により呼び出されると、第１の実施の形態と同様にして外部記憶装置３２に格納されている各文書情報５１に基づく文書ごとの索引をそれぞれ作成し、作成した文書ごとの索引の情報（索引情報５７）を外部記憶装置３２に格納する（Ｓ８５，Ｓ８６）。そして索引作成部４５は、ステップＳ８６の処理を完了すると、その旨を索引制御部１１０に通知する。

索引制御部１１０は、かかる通知が索引作成部４５から与えられると、検索制御部１１１を呼び出す。また検索制御部１１１は、索引制御部１１０により呼び出されると、まず検索部４７を呼び出す（Ｓ８７）。

検索部４７は、検索制御部１１１により呼び出されると、第１の実施の形態と同様にしてヒット情報５８Ｘ（図９）を生成し、生成したヒット情報５８Ｘを外部記憶装置３２内のヒット情報テーブル５８（図９）に格納する（Ｓ８８，Ｓ８９）。そして検索部４７は、ステップＳ８９の処理を完了すると、その旨を検索制御部１１１に通知する。

検索制御部１１１は、かかる通知が検索部４７から与えられると、区分判定部１１２を呼び出す（Ｓ９０）。そして区分判定部１１２は、検索制御部１１１により呼び出されると、外部記憶装置３２内のヒット情報テーブル５８に格納されている各ヒット情報５８Ｘをそれぞれメインメモリ３１に読み出す（Ｓ９１）。また区分判定部１１２は、メインメモリ３１に読み出した各ヒット情報５８Ｘにそれぞれ対応する注釈付文書情報５４をメインメモリ３１に読み出す（Ｓ９２）。

そして区分判定部１１２は、読み出した各注釈付文書情報５４に基づく注釈付文書６１について、それぞれその注釈付文書６１を複数の区分６２（図６）に分割し、これら区分６２内の情報を表す区分情報５５Ｘ（図８）と同様の区分情報（以下、これをヒット情報対応区分情報と呼ぶ）１１４を生成して、生成したヒット情報対応区分情報１１４を外部記憶装置３２に保持された区分情報テーブル５５（図８）に格納する（Ｓ９３）。そして区分判定部１１２は、ステップＳ９３の処理が終了すると、その旨を検索制御部１１１に通知する。

検索制御部１１１は、かかる通知が区分判定部１１２から与えられると、結果作成部１１３を呼び出す（Ｓ９４）。そして結果作成部１１３は、検索制御部１１１により呼び出されると、ヒット情報対応区分情報１１４を外部記憶装置３２からメインメモリ３１に読み出し（Ｓ９５）、読み出したヒット情報対応区分情報１１４に基づいて、ユーザが指定した検索条件を満たす各文書内位置をすべて検出する。そして結果作成部１１３は、検出したこれら文書内位置のテキスト情報を外部記憶装置３２に格納されているその文書の文書情報５１から抽出し、そのテキスト情報と、当該文書の文書ファイル１０のファイル名等の情報を検索実行指示の送信元のクライアント端末４に送信する（Ｓ９６）。これにより、この検出結果に基づいて、図２１について上述した検索結果画面１２０がそのクライアント端末４の出力装置２５（図１）に表示される。

図２０Ａ及び図２０Ｂは、以上のような本実施の形態による文書検索機能に関連して検索部４７及び区分判定部１１２により実行される一連の処理（以下、これを検索及び区分判定処理と呼ぶ）の流れを示す。図２０Ａは、検索部４７により実行される処理であり、図２０Ｂは区分判定部１１２により実行される処理である。

この図２０Ａ及び図２０Ｂの検索及び区分判定処理は、検索制御部１１１が図１９のステップＳ８７で検索部４７を呼び出すことにより開始される。そして検索部４７は、検索制御部１１１に呼び出されると、ステップＳ１００〜ステップＳ１０２を、図１７のステップＳ６０〜ステップＳ６２と同様に処理する。そして検索部４７は、このステップＳ１０２の処理を完了するとその旨を検索制御部４６（図２）に通知する。かくして、この通知を受信した検索制御部４６は、区分判定部１１２を呼び出す。

区分判定部１１２は、検索制御部１１１により呼び出されると、ヒット情報テーブル５８をメインメモリ３１に読み出し、読み出したヒット情報テーブル５８に登録されているヒット情報５８Ｘの中からステップＳ１１１以降が未処理のヒット情報５８Ｘを１つ選択して、そのヒット情報（選択ヒット情報）５８Ｘをヒット情報テーブル５８から読み出す（Ｓ１０３）。

また区分判定部１１２は、その選択ヒット情報５８Ｘに対応する注釈付文書６１（図５）の注釈付文書情報５４（図１９）を外部記憶装置３２からメインメモリ３１に読み込み（Ｓ１０４）、読み込んだ注釈付文書情報５４に基づく注釈付文書６１を複数の詳細区分に分割する（Ｓ１０５）。また区分判定部１１２は、これらの詳細区分について、図７のようにその詳細区分に含まれる各注釈の数を注釈の種類ごとにそれぞれカウントする（Ｓ１０６）。

次いで、区分判定部１１２は、ステップＳ１０４で読み込んだ注釈付文書情報５４に基づく注釈付文書６１内の、選択ヒット情報５８Ｘに対応する詳細区分（以下、これを対象詳細区分と呼ぶ）の前後の各詳細区分の注釈情報を読み込む（Ｓ１０７）。なお、ここで言う「注釈情報」とは、詳細区分内の各注釈の数の情報を指す。これにより区分判定部１１２は、対象詳細区分の前後の各詳細区分における各注釈の数をそれぞれ取得する。

この後、区分判定部１１２は、対象詳細区分と、その手前の詳細区分とを統合可能であるか否かを判断する（Ｓ１０８）。この判断は、対象詳細区分における各注釈の出現割合と、ステップＳ１０７で取得した対象詳細区分の手前の詳細区分におけるこれらの注釈の出現割合との差異が、検索設定５６（図１９）で規定された検索閾値に基づく許容範囲内で一致するか否かを判断することにより行われる。

区分判定部１１２は、この判断で肯定結果を得ると、対象詳細区分と、この対象詳細区分の手前の詳細区分とを１つの区分に統合する（Ｓ１０９）。また区分判定部１１２は、この後、ステップＳ１０８で否定結果を得るまでステップＳ１０８−ステップＳ１０９−ステップＳ１０８のループを繰り返す。これにより、かかる対象詳細区分を含む区分と、その手前の詳細区分とが順次統合される。

そして区分判定部１１２は、やがて対象詳細区分を含む区分と、当該区分の手前の詳細区分とを統合できなくなることによりステップＳ１０８で否定結果を得ると、対象詳細区分を含む区分と、その次の詳細区分とを１つの区分に統合できるか否かを判断する（Ｓ１１０）。この判断は、対象詳細区分における各注釈の出現割合と、ステップＳ１０７で取得した対象詳細区分の次の詳細区分におけるこれらの注釈の出現割合との差異が、検索設定５６で規定された検索閾値に基づく許容範囲内で一致するか否かを判断することにより行われる。

区分判定部１１２は、この判断で肯定結果を得ると、対象詳細区分と、この対象詳細区分の次の詳細区分とを１つの区分に統合する（Ｓ１１１）。また区分判定部１１２は、この後、ステップＳ１１０で否定結果を得るまでステップＳ１１０−ステップＳ１１１−ステップＳ１１０のループを繰り返す。これにより、かかる対象詳細区分を含む区分と、当該区分の次の詳細区分とが順次統合される。

そして区分判定部１１２は、やがて対象詳細区分を含む区分と、当該区分の次の詳細区分とを統合できなくなることによりステップＳ１１０で否定結果を得ると、上述のようにして複数の詳細区分を統合することにより得られた区分と、他の詳細区分と統合されなかった詳細区分とをそれぞれ１つの区分とし、これら各区分における各注釈の数をヒット情報対応区分情報１１４として、選択ヒット情報５８Ｘに対応する注釈付文書６１の区分情報テーブル５５（図８）に登録する（Ｓ１１２）。

続いて、区分判定部１１２は、かかるヒット情報テーブル５８（図９）を参照して、ステップＳ１０４以降が未処理のヒット情報５８Ｘがあるか否かを判断する（Ｓ１１３）。そして区分判定部１１２は、この判断で肯定結果を得るとステップＳ１０４に戻り、この後、ステップＳ１０４で選択するヒット情報５８ＸをステップＳ１０４以降の処理が未処理の他のヒット情報５８Ｘに順次切り替えながら、ステップＳ１０４〜ステップＳ１１３の処理を繰り返す。

そして区分判定部１１２は、やがてヒット情報テーブル５８に登録されたすべてのヒット情報５８ＸについてステップＳ１０４以降の処理を実行し終えることによりステップＳ１１３で否定結果を得ると、この検索及び区分判定処理を終了する。

なお、この後、上述のようにして区分情報テーブル５５に登録された各ヒット情報対応区分情報１１４に基づいて、結果作成部１１３により図１７のステップＳ６３〜ステップＳ６６と同様の処理が行われ、これにより得られたテキスト情報等が検索実行指示の送信元のクライアント端末４に送信される。これにより、そのクライアント端末４の出力装置２５（図１）に、この検索結果情報に基づく図２１Ａについて上述した検索結果画面１２０が表示される。

（２−３）本実施の形態による検索結果画面の構成
図２１Ａは、本実施の形態による検索結果画面１２０の構成例を示す。この図２１Ａからも明らかなように、検索結果画面１２０では、かかる文書検索処理により検出された検索条件を満たすテキストを有する各文書の名称が名称表示領域９１にそれぞれ表示される。また、これら文書内の検索条件を満たす位置のテキストが対応する名称表示領域９１と対応付けてそれぞれ表示される。

さらに検索結果画面１２０には、スキルレベル調整スライダ１２１も表示される。そして検索結果画面１２０では、かかるスキルレベル調整スライダ１２１のレバー１２２をドラッグして左方向に移動させることによって検索設定５６（図１８）で規定されている上述の検索閾値の値を増加（つまり一致度合いの許容範囲を大きく）させることができ、またレバー１２２を右方向に移動させることによってかかる検索閾値の値を減少（つまり一致度合いの許容範囲を小さく）させることができる。

なおスキルレベル調整スライダ１２１のレバー１２２の移動に伴う検索閾値の増減は、無段階的なものでも、段階的なもの（例えば10％刻み）であってもよい。また検索閾値の調整可能な範囲としては、種々の範囲を広く適用することができる。本実施の形態においては、かかる範囲が０〜50％に設定される。

そして、かかるスキルレベル調整スライダ１２１のレバー１２２が左方向に移動された場合、そのレバー１２２の位置に応じた値に検索設定５６が変更された上で、図２０Ｂについて上述したステップＳ１０３〜ステップＳ１１３の処理が区分判定部１１２により実行されると共に、この処理結果に基づく結果作成処理が結果作成部１１３により実行される。

これにより、そのとき検索結果画面１２０にそれぞれ表示されている、ユーザにより指定された検索条件を満たす各文書内の範囲のテキストの長さが、そのときのスキルレベル調整スライダ１２１のレバー１２２の位置に応じた長さに順次増減される。

具体的には、スキルレベル調整スライダ１２１のレバー１２２を、低い熟練レベルに対応付けられた左方向に移動させればさせるほど、図２１Ｂに示すように、検索結果画面１２０にそれぞれ表示されている各テキストの長さがより長くなる。また、スキルレベル調整スライダ１２１のレバー１２２を、高い熟練レベルに対応付けられた右方向に移動させればさせるほど、検索結果画面１２０にそれぞれ表示されている各テキストの長さがより短くなる。

（２−４）本実施の形態の効果
以上のように本実施の形態の文書検索装置１０１によれば、検索結果画面１２０のスキルレベル調整スライダ１２１のレバー１２２を左右方向に移動させることによって当該検索結果画面１２０に表示される各テキストの長さを調整することができるため、検索条件として指定する各注釈の出現割合の設定の熟練度に応じた長さのテキストを検索結果画面１２０に表示させることができる。

従って、例えば、かかる熟練度が高いユーザは、スキルレベル調整スライダ１２１のレバー１２２を右方向に移動させて検索結果画面１２０に表示される各テキストの長さを短くすることによって、ユーザが読み込むべきテキスト量を少なくしてより迅速に所望するトピックが記載された文書内位置にアクセスすることができる。また、かかる熟練度が低いユーザは、スキルレベル調整スライダ１２１のレバー１２２を左方向に移動させて検索結果画面１２０に表示される各テキストの長さを長くすることによって、検索条件として指定する各注釈の出現割合が最適なものでなかった場合においても、ユーザが読み込むべきテキスト量が多少多くなるものの、そのユーザが所望するトピックが記載された文書内位置にアクセスすることができる。

よって、本文書検索装置１０１によれば、第１の実施の形態の文書検索装置３により得られる効果に加えて、ユーザのかかる熟練度に最適なテキスト長の検索結果を提示し得るという効果をも得られる文書検索装置を実現できる。

（３）他の実施の形態
なお上述の第１及び第２の実施の形態においては、文書検索装置１，１０１をファイルサーバ装置２とは別個に設けるようにした場合について述べたが、本発明はこれに限らず、例えば、文書検索装置１，１０１の機能をファイルサーバ装置２に搭載するようにしてもよい。

また上述の第１及び第２の実施の形態においては、文書ごとに、当該文書に含まれる表６０（図３）を抽出し、抽出した表６０に掲載されている各文字列に対して、当該表６０から取得した当該文字列の属性を注釈として対応付けた注釈辞書（単語注釈辞書５３）をそれぞれ作成する知識抽出部４２と、文書ごとに、対応する注釈辞書（単語注釈辞書５３）を利用して、当該文書内の注釈辞書（単語注釈辞書５３）に登録された各文字列に対してそれぞれ当該文字列に対応付けられた注釈を付与した注釈付文書６１（図５）を作成する注釈付与部４３と、注釈付文書６１を、各注釈の出現割合に応じた複数の区分６２（図６）にそれぞれ分割し、区分６２ごとに、当該区分６２に含まれる各注釈の出現割合に関する情報でなる区分情報５５Ｘ（図８）をそれぞれ作成する区分判定部４４，１１２と、複数の文書の中から、検索条件として指定された検索キーワードを含む書位置を検索する検索部４７と、区分情報５５Ｘを参照して、注釈付与部４３により作成された注釈付文書６１、又は、検索部４７の検索により検出された文書内位置に対応する注釈付文書６１のうち、検索条件として指定された各注釈の出現割合が許容範囲内で一致する注釈付文書６１に対応する文書内位置を検出する文書内位置検出部としての結果作成部４８，１１３とをそれぞれソフトウェア構成とするようにした場合について述べたが、本発明はこれに限らず、これら知識抽出部４２、注釈付与部４３、区分判定部４４，１１２、検索部４７及び結果作成部４８，１１３の全部又は一部をハードウェア構成とするようにしてもよい。

さらに上述の第１及び第２の実施の形態においては、区分判定部４４，１１２が、図６のように対応する区分６２内に存在する各注釈の数をそれぞれカウントして区分情報５５Ｘとして管理するようにした場合について述べたが、本発明はこれに限らず、各注釈の数ではなく、対応する区分６２内における各注釈の出現割合や、この他、各前記注釈の出現割合に関する情報を区分情報として管理するようにしてもよい。

本発明は、複数の文書の中から指定された検索条件を満たす文書内位置を検索する種々の構成の文書検索システム及び文書検索装置に広く適用することができる。

１，１００……文書検索システム、２……ファイルサーバ装置、３，１０１……文書検索装置、４……クライアント端末、２３……入力装置、２４……出力装置、３０……ＣＰＵ、３１……メインメモリ、３２……外部記憶装置、４０，１１０……索引制御部、４１……文書収集部、４２……知識抽出部、４３……注釈付与部、４４，１１２……区分判定部、４５……索引作成部、４６，１１１……検索制御部、４７……検索部、４８，１１３……結果作成部、５０……索引設定、５１……文書情報、５２……表情報、５３……単語抽出辞書、５４……注釈付文書情報、５５……区分情報テーブル、５５Ｘ……区分情報、５６……検索設定、５７……索引情報、５８……ヒット情報テーブル、５８Ｘ……ヒット情報、５９……割合指定プリセットテーブル、６０……表、６１……注釈付文書、６２……区分、７０……検索画面、９０，１２０……検索結果画面、１１４……ヒット情報対応区分情報、１２１……スキルレベル調整スライダ。

Claims

複数の文書の中から指定された検索条件を満たす文書及び当該文書内の位置でなる文書内位置を検索する文書検索システムにおいて、
前記検索条件を設定するためのクライアント端末と、
複数の前記文書の中から、前記クライアント端末を用いて設定された前記検索条件を満たす前記文書及び前記文書内位置を検索する文書検索装置と
を有し、
前記文書検索装置は、
前記文書ごとに、当該文書に含まれる表を抽出し、抽出した表に掲載されている各文字列に対して、当該表から取得した当該文字列の属性を注釈として対応付けた注釈辞書をそれぞれ作成する知識抽出部と、
前記文書ごとに、対応する前記注釈辞書を利用して、当該文書内の前記注釈辞書に登録された各前記文字列に対してそれぞれ当該文字列に対応付けられた前記注釈を付与した注釈付文書を作成する注釈付与部と、
前記注釈付文書を、各前記注釈の出現割合に応じた複数の区分にそれぞれ分割し、前記区分ごとに、当該区分に含まれる各前記注釈の出現割合に関する情報でなる区分情報をそれぞれ作成する区分判定部と、
各前記文書の中から、前記検索条件として指定された検索文字列を含む前記区分を検索する検索部と、
前記区分情報を参照して、前記注釈付与部により作成された前記注釈付文書、又は、前記検索部の検索により検出された前記区分に対応する前記注釈付文書のうち、前記検索条件として指定された各前記注釈の出現割合が許容範囲内で一致する前記注釈付文書に対応する前記区分でなる前記文書内位置を検出し、検出結果を前記クライアント端末に送信する結果作成部と
を備えることを特徴とする文書検索システム。
前記区分判定部は、
前記注釈付文書を所定単位で複数の詳細区分に分割し、各前記注釈の出現割合が許容範囲内にある隣接する前記詳細区分同士を１つの前記区分として順次統合するようにして、前記注釈付文書を複数の前記区分に分割する
ことを特徴とする請求項１に記載の文書検索システム。
前記クライアント端末は、
１又は複数の前記検索文字列を入力するための検索文字列入力欄と、
前記検索文字列入力欄に入力された各前記検索文字列にそれぞれ対応させて設けられた第１のスライダと
を有する検索画面を表示し、
前記検索画面では、
各前記第１のスライダにそれぞれ設けられたレバーをそれぞれスライド操作して対応する前記検索文字列の出現割合を指定することができ、いずれかの前記第１のスライダが操作された場合に、各前記第１のスライダの前記レバーが指し示す前記出現割合の合計が100％となるように、他の前記第１のスライダの前記レバーがそれぞれ指し示す前記出現割合が調整される
ことを特徴とする請求項１に記載の文書検索システム。
前記結果作成部は、
検出した各前記文書内位置のテキストのテキスト情報をそれぞれ前記クライアント端末に送信し、
前記クライアント端末は、
前記結果作成部から送信されてきた各前記テキスト情報に基づく前記テキストがそれぞれ掲載された検索結果画面を表示する
ことを特徴とする請求項１に記載の文書検索システム。
前記検索結果画面には、第２のスライダが表示され、
前記結果作成部は、
前記第２のスライダのレバー操作に応じて、前記検索結果画面に表示される各前記テキストの長さが増減するように、各前記テキストの前記テキスト情報を前記クライアント端末に送信する
ことを特徴とする請求項４に記載の文書検索システム。
複数の文書の中から指定された検索条件を満たす文書及び当該文書内の位置でなる文書内位置を検索する文書検索装置において、
前記文書ごとに、当該文書に含まれる表を抽出し、抽出した表に掲載されている各文字列に対して、当該表から取得した当該文字列の属性を注釈として対応付けた注釈辞書をそれぞれ作成する知識抽出部と、
前記文書ごとに、対応する前記注釈辞書を利用して、当該文書内の前記注釈辞書に登録された各前記文字列に対してそれぞれ当該文字列に対応付けられた前記注釈を付与した注釈付文書を作成する注釈付与部と、
前記注釈付文書を、各前記注釈の出現割合に応じた複数の区分にそれぞれ分割し、前記区分ごとに、当該区分に含まれる各前記注釈の出現割合に関する情報でなる区分情報をそれぞれ作成する区分判定部と、
各前記文書の中から、前記検索条件として指定された検索キーワードを含む前記区分を検索する検索部と、
前記区分情報を参照して、前記注釈付与部により作成された前記注釈付文書、又は、前記検索部の検索により検出された前記区分に対応する前記注釈付文書のうち、前記検索条件として指定された各前記注釈の出現割合が許容範囲内で一致する前記注釈付文書に対応する前記区分でなる前記文書内位置を検出する文書内位置検出部と
を備えることを特徴とする文書検索装置。
前記区分判定部は、
前記注釈付文書を所定単位で複数の詳細区分に分割し、各前記注釈の出現割合が許容範囲内にある隣接する前記詳細区分同士を１つの前記区分として順次統合するようにして、前記注釈付文書を複数の前記区分に分割する
ことを特徴とする請求項６に記載の文書検索装置。
複数の文書の中から指定された検索条件を満たす文書及び当該文書内の位置でなる文書内位置を検索する文書検索システムにおいて実行される文書検索方法であって、
前記文書検索システムは、
前記検索条件を設定するためのクライアント端末と、
複数の前記文書の中から、前記クライアント端末を用いて設定された前記検索条件を満たす前記文書及び前記文書内位置を検索する文書検索装置と
を有し、
前記文書検索装置が、前記文書ごとに、当該文書に含まれる表を抽出し、抽出した表に掲載されている各文字列に対して、当該表から取得した当該文字列の属性を注釈として対応付けた注釈辞書をそれぞれ作成する第１のステップと、
前記文書検索装置が、前記文書ごとに、対応する前記注釈辞書を利用して、当該文書内の前記注釈辞書に登録された各前記文字列に対してそれぞれ当該文字列に対応付けられた前記注釈を付与した注釈付文書を作成する第２のステップと、
前記文書検索装置が、複数の前記文書の中から、前記検索条件として指定された検索文字列を含む前記文書内位置を検索すると共に、当該検索により検出した前記文書内位置に対応する前記注釈付文書、又は、複数の前記文書にそれぞれ対応する前記注釈付文書を、各前記注釈の出現割合に応じた複数の区分にそれぞれ分割し、前記区分ごとに、当該区分に含まれる各前記注釈の出現割合に関する情報でなる区分情報をそれぞれ作成する第３のステップと、
前記文書検索装置が、前記区分情報を参照して、作成した前記注釈付文書、又は、検出した前記区分に対応する前記注釈付文書のうち、前記検索条件として指定された各前記注釈の出現割合が許容範囲内で一致する前記注釈付文書に対応する前記区分でなる前記文書内位置を検出し、検出結果を前記クライアント端末に送信する第４のステップと
を備えることを特徴とする文書検索方法。
前記第３のステップにおいて、前記文書検索装置は、
前記注釈付文書を所定単位で複数の詳細区分に分割し、各前記注釈の出現割合が許容範囲内にある隣接する前記詳細区分同士を１つの前記区分として順次統合するようにして、前記注釈付文書を複数の前記区分に分割する
ことを特徴とする請求項８に記載の文書検索方法。
前記クライアント端末は、
１又は複数の前記検索文字列を入力するための検索文字列入力欄と、
前記検索文字列入力欄に入力された各前記検索文字列にそれぞれ対応させて設けられた第１のスライダと
を有する検索画面を表示し、
前記検索画面では、
各前記第１のスライダにそれぞれ設けられたレバーをそれぞれスライド操作して対応する前記検索文字列の出現割合を指定することができ、いずれかの前記第１のスライダが操作された場合に、各前記第１のスライダの前記レバーが指し示す前記出現割合の合計が100％となるように、他の前記第１のスライダの前記レバーがそれぞれ指し示す前記出現割合が調整される
ことを特徴とする請求項８に記載の文書検索方法。
前記第４のステップにおいて、前記文書検索装置は、
検出した各前記文書内位置のテキストのテキスト情報をそれぞれ前記クライアント端末に送信し、
前記クライアント端末が、前記文書検索装置から送信されてきた各前記テキスト情報に基づく前記テキストがそれぞれ掲載された検索結果画面を表示する第５のステップを備える
ことを特徴とする請求項８に記載の文書検索方法。
前記検索結果画面には、第２のスライダが表示され、
前記第５のステップにおいて、前記文書検索装置は、
前記第２のスライダのレバー操作に応じて、前記検索結果画面に表示される各前記テキストの長さが増減するように、各前記テキストの前記テキスト情報を前記クライアント端末に送信する
ことを特徴とする請求項１１に記載の文書検索方法。