JP2007128224A

JP2007128224A - 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム

Info

Publication number: JP2007128224A
Application number: JP2005319454A
Authority: JP
Inventors: Noboru Sonehara; 曽根原　　登; Naohiko Kamae; 尚彦釜江; Hideho Numata; 秀穂沼田; Yoshiyo Ikeda; 佳代池田
Original assignee: EXCELLEAD TECHNOLOGY KK; Research Organization of Information and Systems
Current assignee: EXCELLEAD TECHNOLOGY KK; Research Organization of Information and Systems
Priority date: 2005-11-02
Filing date: 2005-11-02
Publication date: 2007-05-24

Abstract

【課題】大量の文書テキスト、殊に既存の日本語文書テキストに対してキーワードを簡易且つ自動的に抽出し、該文書テキストに対して付与し、利用者による文書テキスト検索を容易化する。
【解決手段】日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部（１３１）と、抽出された文字列の出現頻度をカウントする文字列出現頻度カウント部（１３２、１３４）と、日本語文書テキスト内の各文字列の総数に対して所定比率以上の出現頻度を有する文字列をキーワードとして得るキーワード生成部（１３３，１３５）とを具備する。
【選択図】図１

Description

本発明は、文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラムに関する。より詳しくは、文書テキストを管理する文書管理サーバと、該文書テキストを検索及び提示する文書検索装置に実装される、インターネットなどの通信回線を介したデジタル化された文書テキストの検索システムにおいて、大量の文書テキスト、殊に既存の日本語文書テキストに対してキーワードを簡易且つ自動的に抽出し、該文書テキストに対して付与し、もって利用者による文書テキスト検索を容易化するための技術に関する。

近年、企業から、及び個人からの、双方向の情報収集及び情報発信が容易化され、その結果、大量の文書データによる知識集積が進展している。これら大量の文書データは、例えば、インターネット上のＷｅｂページからのダウンロードにより、企業内イントラネット上のファイルサーバ中或いはパーソナルコンピュータのハードディスク上への蓄積により、又はメールソフトの受発信済みデータとして得られる。文書データを格納するためのファイル形式は、テキストファイル、アプリケーションが直接アクセスするネイティブファイル、或いは例えばＸＭＬ、ＨＴＭＬ等により構造化されたテキストファイルであってよく、或いはテキストデータを抽出可能なＰＤＦファイルであってもよい。

グループウェア等のソフトウエアが、ネットワークを構成するいずれかのコンピュータに導入され、該コンピュータがファイルサーバを構成すれば、このファイルサーバが保存する共有文書データを含む各種データは、ネットワークに接続される各コンピュータ、すなわちクライアント端末からアクセス可能となる。このグループウエアには、クライアント端末からの要求に応じて、ファイルサーバに蓄積された文書データから、所望の文書データを検索させる機能が備えられる。このグループウエア等が提供する検索機能を利用することにより、利用者は、クライアント端末を介して、ファイルサーバが管理する大量の文書データから、所望の文書データを検索する利用形態が一般的である。或いは、利用者は、自身が管理するパーソナルコンピュータ内やＷｅｂページから、これらが提供する検索ツールを用いて、所望の文書データを検索することができる。

ところで、従来における文書データの検索手法は、テキスト全文検索処理が未だ一般的であるが、このテキスト全文検索には、文書データの数や各文書データの容量に比例して、検索時間も長くなり、しばしば実用的検索時間によっては所望の文書データが検索されないという問題がある。

この検索時間を短縮するため、文書データをデータベースに登録する者が、登録すべき文書データに対するキーワード等のメタデータ付与を登録の際に行なう手法が利用されている。所与の文書データを形態素に区切り、その動詞、助詞、助動詞、名詞等の品詞種別を認識して形態素と品詞の対応付けを行なう形態素解析エンジンを介して文書データにインデキシングを行なう手法もまた、利用されている。これらの手法は、Ｗｅｂページ上で既知である多数のサーチエンジンにも同様に実装されている。

しかしながら、文書データをデータベースに登録する際に、こうしたインデキシングが行なわれておらず、従って検索しても見つけられない状態にある文書データが既に大量に存在する。こうした文書データをファイルサーバに保存しても、このファイルサーバがゴミ箱化していくだけで、保存された文書データを再利用することはできない。情報化社会における情報の再利用、再活用を促進するためには、文書データの保存時に、その文書内容に効率的に且つ自動的にインデキシングを施し、このインデキシングをコンピュータに把握させることが要請される。
特開２００３−２８１１８２は、文書検索装置がインデキシング部を備え、このインデキシング部が、データ収集部から受け取った本文データファイルに対して、形態素解析を実行した後に、インデキシング（目次化）を実行し、この実行結果を、インデックスファイルに登録する技術を開示する。

一方、
特開２００３−２３３６１３は、ユーザが修正した一般語リストに掲載されていない、ドキュメント中のサブジェクトライン内の候補語を識別する候補見出し語識別システムと、識別された候補見出し語についての語彙的文脈を生成する語彙的文脈システムと、ドキュメントのコレクションについての識別された候補見出し語のセットをランク付けして、これらの中からインデクスに含まれるものを選択するランキングシステムと、ランク付け及び選択の結果に基づいて、選択された候補見出し語を掲載するインデックス作成システムとを開示する。

しかしながら、特許文献１に開示された技術では、文書データに対するインデキシングを、形態素解析エンジンを用いて行なうものであり、この形態素解析エンジン用辞書に存在していないキーワードを認識することはできない。

また、特許文献２に開示された技術では、辞書作成にあたって上記語彙的文脈を用いるため、同様に辞書に依存してしまい、効率化及び精度両面での課題を残す。

もとより、テキストデータの全文検索は、非常に高負荷処理であって、実用的検索時間内には所望の文書データを検索することは著しく困難である。しかるに、この検索時間を短縮化するには、人手を介在させて、文書データ登録時にキーワードを抽出し、このキーワード群を検索時に参照される辞書として生成する、或いはＸＭＬ方式等によるメタデータ作成を行なうという登録時の処理を要し、こうした登録時の人手による処理は文書データのファイルサーバ等への自動登録を阻害するともに、既に蓄積されている膨大な文書データを再利用することを実質的に不可能とする。

本発明は、上記課題に鑑みてされたものであり、その目的は、所与の文書テキストデータに対して、簡易且つ自動的にインデキシングを行い、辞書或いは人的ノウハウのいずれにも依存することなく、キーワードメタデータを簡易且つ低コストで自動発生させ、利用者の文書テキストデータ検索を容易化することの可能な文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラムを提供することにある。

また、本発明の他の目的は、文書テキストデータ内の重要語を自動的に抽出することにより、文書のアウトライン（要約）を自動的に生成したり、或いは当該重要語を非開示として半開示文書データを自動的に生成し、文書テキストデータの再利用を大幅に促進することのできる文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラムを提供することにある。

本発明の原理は、文書テキストデータ、特に２バイト文字コード体系を有する例えば日本語文書テキストデータから、各文字に割り当てられた文字コードを用いて文書テキスト中の文字種別、例えば漢字及びカタカナを識別し、識別された文字種別ごとに区切られた文字列から、文書テキスト内における出現頻度の高い文字列を自動認識し、出現頻度の高い文字列をキーワードとして抽出することによって、文書テキストデータに自動的にインデキシングを行なうものである。

本発明によりインデキシング可能な文書テキストデータは、２バイトコードで記述される例えば日本語文書テキストデータが好適であるが、その入力ファイル形式は、テキストファイルの他、アプリケーションが直接アクセスするネイティブファイルや、例えばＸＭＬ、ＨＴＭＬ等により構造化されたテキストファイルであってよく、或いはテキストデータを抽出可能なＰＤＦファイルであってもよい。

また、識別されるべき文字種別は、漢字、カタカナに加えて、あるいはこれらに替えて、必要に応じ、ひらかな、アルファベット等であってよい。

本発明によれば、文章テキストデータの登録時に、予め登録者によるキーワード付与や辞書登録を要することがなく、またこの辞書を用いた意味認識、形態素解析等の高負荷の処理を要することがない。このため、文書テキストデータの登録時におけるインデキシングが完全に自動化され、登録された文書テキストデータの利用者による検索が容易化する。特に、すでに蓄積されている大量の文書テキストデータに自動的にインデキシングすることが可能となるので、既存文書データの再利用に資する。さらに、文書の意味認識を必要としないので、新たな語彙が生じた場合にあっても、本発明に係るインデキシングシステムをメンテナンスする必要は生じ得ない。

本発明のある特徴によれば、入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部と、抽出された前記漢字文字列及び前記カタカナ文字列のうち、２文字以上連続する文字列の出現頻度をカウントする文字列出現頻度カウント部と、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るキーワード生成部と、前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理部と、前記対応付けられたキーワード及び前記日本語文書テキストとを格納する文書格納部とを具備することを特徴とする文書インデキシングサーバ装置が提供される。

前記キーワード生成部は、前記第１又は第２の所定比率以上の出現頻度を有する文字列が、所定数得られない場合には、前記出現頻度の高い文字列を、前記キーワードとして得てよい。

前記文字コード識別部は、さらに、前記入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、ひらかな文字列を抽出し、前記文字列出現頻度カウント部は、さらに、抽出された前記ひらかな文字列のうち、２文字以上連続する文字列の出現頻度をカウントし、前記キーワード生成部は、さらに、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第３の所定比率或いは所定出現回数以上の出現頻度を有するひらかな文字列をキーワードとして得てよい。

前記文字コード識別部は、さらに、前記入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、アルファベット文字列を抽出し、前記文字列出現頻度カウント部は、さらに、抽出された前記アルファベット文字列のうち、２文字以上連続する文字列の出現頻度をカウントし、前記キーワード生成部は、さらに、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第４の所定比率或いは所定出現回数以上の出現頻度を有するアルファベット文字列をキーワードとして得てよい。

上記文書インデキシングサーバ装置は、さらに、入力されたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられたキーワードとを比較し、前記入力されたキーワードと一致するキーワードを最も多く含む日本語文書テキストを検索し、検索された日本語文書テキストを、クライアント装置に送出するキーワード管理部を具備してよい。

上記文書インデキシングサーバ装置は、さらに、前記入力された日本語文書テキストから、前記生成されたキーワードを２以上含む文章を文書アウトラインとして得るアウトライン生成部と、前記得られた文書アウトラインと前記日本語文書テキストとを対応付けるとともに、前記キーワード管理部において、検索された日本語文書テキストに対応付けられた文書アウトラインを、クライアント装置に送出するアウトライン管理部とを具備してよい。

前記アウトライン管理部は、前記キーワード管理部により検索された日本語文書テキストが２以上である場合に、前記アウトラインを前記クライアント装置に送出してよい。

上記文書インデキシングサーバ装置は、さらに、見出し用語及び該見出し用語の解説文からなる構造化日本語文書テキストを入力する文書入力部を具備し、
前記文字コード識別部は、入力された構造化日本語文書テキストの前記解説文から文字列を抽出し、前記キーワード管理部は、前記入力されたキーワードと一致するキーワードを最も多く含む構造化日本語文書テキストの解説文を検索し、検索された解説文及び該解説文の見出し用語を、クライアント装置に送出してよい。

前記キーワード管理部は、前記キーワード生成部により得られたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられたキーワードとを比較し、前記キーワード生成部により得られたキーワードと一致するキーワードを最も多く含む日本語文書テキストを検索し、検索された日本語文書テキストを、クライアント装置に送出してよい。

本発明の他の特徴によれば、日本語文書テキスト検索用のキーワードをサーバ装置から受信し、該キーワードを表示出力するキーワード表示部と、前記表示出力されたキーワードから１のキーワードの選択入力を促すキーワード選択入力部と、選択されたキーワードを前記サーバ装置に送信するキーワード送信部と、前記キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力する文書表示部とを具備し、前記受信されるキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなることを特徴とする文書インデキシングクライアント装置が提供される。

本発明の他の特徴によれば、自由キーワードを入力し、入力された自由キーワードをサーバ装置に送信する自由キーワード入力部と、入力された自由キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力する文書表示部とを具備し、前記受信される日本語文書テキストは、前記入力された自由キーワードと、前記サーバ装置上で格納された日本語文書テキストに対応付けられたキーワードとを比較し、前記入力されたキーワードと一致するキーワードを最も多く含む日本語文書テキストであり、前記日本語文書テキストに対応付けられたキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキストで第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなることを特徴とする文書インデキシングクライアント装置が提供される。

上記文書インデキシングクライアント装置は、さらに、前記入力された自由キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストの文書アウトラインを受信し、表示出力する文書アウトライン表示部と、前記表示出力された文書アウトラインから１の文書アウトラインの選択入力を促す文書アウトライン選択入力部と、選択された文書アウトラインを前記サーバ装置に送信する文書アウトライン送信部とを具備してよい。

本発明の他の特徴によれば、入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出するステップと、抽出された前記漢字文字列及び前記カタカナ文字列のうち、２文字以上連続する文字列の出現頻度をカウントするステップと、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るステップと、前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるステップと、前記対応付けられたキーワード及び前記日本語文書テキストとを格納するステップとを含むことを特徴とする文書インデキシング処理をコンピュータに実行させるための方法が提供される。

本発明の他の特徴によれば、日本語文書テキスト検索用のキーワードをサーバ装置から受信し、該キーワードを表示出力するステップと、前記表示出力されたキーワードから１のキーワードの選択入力を促すステップと、選択されたキーワードを前記サーバ装置に送信するステップと、前記キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力するステップとを含み、前記受信されるキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなることを特徴とする文書インデキシング処理をコンピュータに実行させるための方法が提供される。

本発明の他の特徴によれば、文書インデキシング処理をコンピュータに実行させるための文書インデキシングプログラムであって、該プログラムは、前記コンピュータに、入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別処理と、抽出された前記漢字文字列及び前記カタカナ文字列のうち、２文字以上連続する文字列の出現頻度をカウントする文字列出現頻度カウント処理と、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るキーワード生成処理と、前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理処理と、前記対応付けられたキーワード及び前記日本語文書テキストとを格納する文書格納処理とを含む処理を実行させるためのものであることを特徴とする文書インデキシングプログラムが提供される。

本発明の他の特徴によれば、文書インデキシング処理をコンピュータに実行させるための文書インデキシングプログラムであって、該プログラムは、前記コンピュータに、日本語文書テキスト検索用のキーワードをサーバ装置から受信し、該キーワードを表示出力するキーワード表示処理と、前記表示出力されたキーワードから１のキーワードの選択入力を促すキーワード選択入力処理と、選択されたキーワードを前記サーバ装置に送信するキーワード送信処理と、前記キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力する文書表示処理とを含む処理を実行させるためのものであり、前記受信されるキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなることを特徴とする文書インデキシングプログラムが提供される。

本発明によれば、文章テキストデータの登録時に、文書テキストデータから重要キーワードを文字コードのみに基づいて判別することにより自動的にインデキシングを実行する。このため、予め登録者によるキーワード付与や辞書登録を要することがなく、またこの辞書を用いた意味認識、形態素解析等の処理を要することがない。従って、文書テキストデータに簡易且つ自動的にインデキシングすることができ、登録された文書テキストデータの利用者による検索が容易化する。特に、すでに蓄積されている大量の文書テキストデータに自動的にインデキシングすることが可能となるので、既存文書データの再利用に資する。さらに、文書の意味認識を必要としないので、新たな語彙が生じた場合にあっても、本発明に係るインデキシングシステムをメンテナンスする必要は生じ得ないという利点が得られる。

また、例えば顧客の声や収集したヒアリング情報、演説内容や記事内容の分析、時系列変化を文書から分析するテキスト・マイニング等においても、従来は辞書を参照した文書の意味認識を必要としてきたところ、本発明によれば、文字コードからのみ重要語を判別することで、これらの処理を実行し、辞書登録を要することなく情報活用を実現することが可能となる。

さらに、文書内の重要語が自動抽出されるので、抽出された重要語を非開示として、販売促進用或いはサンプル用途の半開示文書データを自動的に生成することも可能となる。

従って、利用者による文書データ検索における利便性が向上するとともに、蓄積された大量の既存文書データの再利用が促進される。

以下、図面を参照して、本発明の実施の形態を説明する。

第１の実施形態
＜第１の実施形態の構成＞
図１は、本発明の第１の実施形態に係る文書管理サーバ１及びクライアントコンピュータ２を具備する文書インデキシングシステムの一構成例を示す。

文書管理サーバ１は、インデキシングされるべき検索対象の文書テキストデータを格納する外部記憶装置である文書データベース１１と、インデキシングされるべき検索対象の文書テキストデータを入力する文書入力部１２と、入力された文書テキストデータからキーワードを自動抽出するキーワード自動抽出部１３と、インデキシングされた文書テキストデータと抽出されたキーワードとの対応付け及び記憶保持を管理するキーワード管理部１４と、キーワードが付与された文書データを外部記憶装置であるキーワード付与文書データベース１６に格納すると共に、入力された管理キーワードと一致するキーワードが付与された文書テキストデータをキーワード付与文書データベース１６から検索する文書格納部１５と、クライアントコンピュータ２からの管理キーワード入力を受け付け、キーワード管理部１４に受け渡す管理キーワード入出力部１７と、検索された文書テキストデータをクライアントコンピュータ２に出力制御する文書送信管理部１８とを具備する。なお、本明細書において「管理キーワード」とは、キーワード自動抽出部１３により入力文書テキストデータから抽出され、キーワード付与文書データベース１６に該文書テキストデータと対応付けて記憶されるキーワードを意味する。また、当然ながら、本実施形態は、文書入力部１２に入力される入力手段を文書データベース１１に限定するものではない。この入力手段は、文書データベース１１の他、直接文書データの入力を受け付ける手段の他、例えばＣＤ−ＲＯＭ、ＤＶＤ、ＭＯ等任意の外部記録媒体に記録された文書データを読み込み、入力として受け付けてもよい。

キーワード自動抽出部１３は、より詳細には、入力文書テキストデータの各文字の文字コードを文字種別ごと分類するコード別文字分類部１３１と、漢字に分類された文字列から連続する漢字文字列の出現頻度をカウントする漢字ラン出願頻度カウンタ１３２と、連続する漢字文字列のそれぞれの出現頻度に基づいて漢字キーワードを抽出する漢字キーワード抽出部１３３と、カタカナに分類された文字列から連続するカタカナ文字列の出現頻度をカウントするカタカナラン出現頻度カウンタ１３４と、連続するカタカナ文字列のそれぞれの出現頻度に基づいてカタカナキーワードを抽出するカタカナキーワード抽出部１３５と、抽出された漢字キーワード及びカタカナキーワードを入力文書テキストデータに対応付けてキーワード管理部１４に出力する文書・キーワード群対応付け部１３６とを具備する。

文書管理サーバ１と、クライアントコンピュータ２とは、例えばインターネットやＬＡＮなどのネットワーク３を介して、相互に接続される。或いは代替的に、図１における文書管理サーバ１とクライアントコンピュータ２との機能を一体とし、１つのコンピュータに実装してもよい。

一方、クライアントコンピュータ２は、文書管理サーバ１において管理されるキーワード付与文書データベース１６に格納された文書テキストデータに付与されたキーワードをクライアントコンピュータ２に出力させるよう、管理キーワード入出力部１７に要求するキーワード提示要求部２１と、管理キーワード入出力部１７からの管理キーワードの一覧を受信し、クライアントコンピュータ２上に提示制御する管理キーワード一覧提示部２２と、一覧提示された管理キーワードからのキーワードの選択入力を受け付けるキーワード選択指示部２３と、選択されたキーワードを指示キーワードとして管理キーワード入出力部１７に送出する指示キーワード送付部２４と、文書送信管理部１８から受信される指示キーワードに対応付けられた文書テキストデータを受信する文書受信管理部２５と、受信された文書テキストデータを利用者に提示するディスプレイ部２６とを具備する。

なお、本実施形態は、利用者がキーワード提示要求部２１及びキーワード選択指示部２３を介して行なう入力方式及び手段を特に限定するものではない。これら入力手段は、利用者からの直接入力を受け付けてもよく、あるいは例えばＵＳＢメモリやＩＣカードなどに例示される外部記録媒体に記憶されたシーケンスを入力として受け付けてもよく、また任意のファイルとして予め格納されたデータを入力として受け付けてもよい。

さらに、図１においては、クライアントコンピュータ２において、管理キーワード提示要求並びにキーワード選択の入力を受け付け、文書管理サーバ１に送信し、検索された文書テキストデータを、同じクライアントコンピュータ２において受信及び再生する構成が図示されるが、これに替えて、管理キーワード提示要求並びにキーワード選択入力を受け付け、文書管理サーバ１に送信する要求入力端末と、文書管理サーバ１から送信される文書テキストデータを受信及び表示出力する文書提示端末とが異なるコンピュータ装置であってもよい。要求入力端末としては、例えば、携帯電話や携帯情報端末（ＰＤＡ）を用いて入力を受け付けてよく、あるいはネットワーク接続可能なＩＣカードリーダなどを用いてＩＣカードからのシーケンスを受け付け、他のクライアントコンピュータにおいて、文章テキストデータを受信して表示出力してもよい。

＜第１の実施形態における文書テキストデータ登録処理＞
図１を参照し、文書管理サーバ１により管理されるべき文書テキストデータは、まず文書管理サーバ１の文書入力部１２に入力され、キーワード自動抽出部１３に受け渡される。キーワード自動抽出部１３内において、まず入力文書中の漢字のみが、漢字の連続性を維持したまま抽出される。

第１の実施形態において、漢字、及び後述するカタカナは、いずれも文字コードのレベルで識別される。このため、文字種別の識別のために特別な処理を必要としない。文字には、それぞれ対応する文字コードが定義されており、例えば日本語を扱う上での文字コードの規格には、ＪＩＳやＵｎｉｃｏｄｅなど複数存在する。どの文字コード規格においても、漢字、カタカナ、ひらかな、アルファベットはそれぞれ特定のコード領域内にまとまった状態で収納されている。例えば、Ｕｎｉｃｏｄｅeの場合、漢字（ＣＪＫＵｎｉｆｉｅｄＩｄｅｏｇｒａｐｈｓ）はＵ＋４Ｅ００〜Ｕ＋９ＦＢＦ、カタカナはＵ＋３０Ａ０〜Ｕ＋３０ＦＦ、ひらかなはＵ＋３０４０〜Ｕ＋３０９Ｆ、アルファベット（Ｃ０ＣｏｎｔｒｏｌｓａｎｄＢａｓｉｃＬａｔｉｎ）はＵ＋００００〜Ｕ＋００７Ｆのコード領域で定義されるため、入力文字がこれらのコード領域のいずれに該当するかだけを識別すれば足りる。

各文字の文字コードを識別して、現在の文字種別が変化するごとに、文字列を区切って切り出すことにより、漢字の連続性を維持したまま抽出された文字列は、漢字ラン出現頻度カウンタ１３２に入力され、この漢字ラン出現頻度カウンタ１３２は、入力文書テキスト全体に対する連続する漢字の組み合わせ、すなわち連続する漢字文字列の出現頻度をカウントする。本明細書において、このような連続する漢字文字列を、「漢字ラン」と称する。例えば、「彼は病気勝ちだったにもかかわらず、前向きに生き、トランジスタ工学の大いなる発展と、トランジスタ産業の育成に大きな功績を上げた。」という文書がキーワード自動抽出部１３に入力されたと仮定すると、漢字ラン出現頻度カウンタ１３２は、「彼」、「病気勝」、「前向」、「生」、「工学」、「進展」、「産業」、「育成」、「大」、「功績」、「上」がそれぞれ漢字ランである。このようなランに属する文字数を、以下「ラン長」と称する。上記の例では、ラン「大」のみが出現頻度２であり、他のランはすべて出現頻度１である。漢字ラン出現頻度カウンタ１３２に入力される漢字が、１字で孤立したもの、すなわち文書テキスト中で前後には漢字以外の文字種別の字が配列されている漢字は、ラン長１のランとして、同種の文字種別に属する連続する文字はその最大長の組み合わせを１つのランとして取り出す。漢字ラン出現頻度カウンタ１３２は、これらのランの出現頻度をカウントする。より詳細には、漢字ラン出現頻度カウンタ１３２は、一時記憶領域においてテーブル等を備え、新たなランを取り出すと、このランがテーブルに存在するか否かを判定し、存在すれば当該ランのカウントを＋１とし、存在しなければ新たなランとしてテーブルに新たなエントリーを追加する。

次に、漢字キーワード抽出部１３３は、漢字ラン出現頻度カウンタ１３２が出力する漢字ランの中から、ラン長２以上の漢字ランのみを取り出して、その出現頻度を再カウントし、その出現頻度がラン長２以上の漢字ラン全数の例えば１．５％を超える漢字ランを漢字キーワードとして抽出する。或いは代替的に、この入力文書テキスト中の漢字ラン全数に対するあるランの出現頻度の閾値を可変に構成し、例えば１％から２％の範囲に設定してもよい。さらに代替的に、入力文書テキストの文書種別（例えば、小説、学術論文、口頭による演説・講演等）に応じて、出現頻度の閾値を再帰的に最適化し、１％未満或いは２％を超える範囲に設定可能としてもよい。

この出現頻度を、漢字キーワード抽出の閾値として利用する場合には、入力日本語文字テキスト中の漢字文字列の総数、日本語文字テキスト文書全体の文字数、または日本語テキスト全体の中の漢字の総数のいずれかを分母とし、これに対しての当該漢字文字列の出現比率を算出してよい。

カタカナラン出現頻度カウンタ１３４は、文書テキストデータ中のカタカナラン、すなわち連続するカタカナのみの文字列の、それぞれの出現頻度を、漢字ラン出現頻度カウンタ１３２と同様の手法でカウントする。上記の文書例では、「トランジスタ」のみがカタカタランであり、その出現頻度は２である。

カタカナキーワード抽出部１３５は、カタカナラン出現頻度カウンタ１３４が出力するカタカナランの中から、出現頻度が例えば５％を超えるカタカナランをカタカナキーワードとして抽出する。或いは代替的に、この入力文書テキスト中のカタカナラン全数に対するあるランの出現頻度の閾値を可変に構成し、例えば３％から７％の範囲に設定してもよい。さらに代替的に、入力文書テキストの文書種別（例えば、小説、学術論文、口頭による演説・講演等）に応じて、出現頻度の閾値を再帰的に最適化し、３％未満或いは７％を超える範囲に設定可能としてもよい。

この出現頻度を、カタカナキーワード抽出の閾値として利用する場合には、入力日本語文字テキスト中のカタカナ文字列の総数、日本語文字テキスト文書全体の文字数、または日本語テキスト全体の中のカタカナの総数のいずれかを分母とし、これに対しての当該カタカナ文字列の出現比率を算出してよい。後述するひらかな、アルファベットの場合も同様に出現比率を算出することができる。

なお、他の文字種別、例えばひらかな、アルファベットについても、上記と同様にキーワード抽出をすることができるが、その閾値はそれぞれ異なる数値となり得る。すなわち、キーワードとして抽出するか否かは、当該文字種別に属するランの総数に対する当該ランの出現数の比率（出現頻度）により決定され、例えば、好適には、漢字は１．５％以上、カタカナは５％以上、ひらかなは１０％以上、アルファベットは５％以上に、キーワード抽出の閾値が設定されてよい。この閾値を大きくすれば抽出されるキーワード数が減少し、逆に閾値を小さくすれば抽出されるキーワード数が増加する。例えば、漢字の場合、ラン長２であり、且つ出現数１の漢字ランが多いため、閾値を小さく設定することが好ましい。カタカナの場合、カタカナは１つの単語として抽出されやすく、一般的にはそのランの種類も少ないので、５％と漢字の場合より閾値を大きく設定することが好ましい。一般には、ひらかなキーワードの抽出が最も困難であり、本来の単語の前後に助詞、接続詞等が付加されて抽出される傾向を考慮して、２％と小さな閾値とすることが好ましいが、いずれにしてもひらかなランの利用は限定的とするのが好ましい。アルファベットの場合、カタカナと同様、雑音が少なく、１つの単語として抽出されやすいため、５％と設定することが好ましく、殊に例えば学術的文書の場合に有効である。しかしながら、これらの閾値は、キーワードの具体的用途や、文書テキストの種別等に応じて可変であり、キーワード抽出の閾値にいかなる具体的数値を設定するかは、本発明の要旨の画定には影響しない。

次に、文書・キーワード群対応付け部１３６は、入力された文書テキストデータと、漢字キーワード抽出部１３３及びカタカナキーワード抽出部１３５により抽出されたキーワード群とを対応付ける。

キーワード管理部１４は、入力された文書テキストデータに対応付けられたキーワード群を、文書格納部１５は、入力された文書テキストデータ自体を、それぞれキーワード付与文書データベース１６に格納する。或いは代替的に、キーワード管理部１４は、キーワード付与文書データベース１６以外の別の記憶媒体に、好適にはより高速なアクセス速度が保証される一時記憶媒体等の記憶媒体に、文書テキストデータに対応付けられたキーワード群を保持記憶してもよい。

図２Ａから図２Ｅは、例示的に、実際の文学書のそれぞれにおける漢字ランの出現頻度を示す。図２Ａにおいて、入力文書テキストが「母を訪ねて三千里」の場合、「自分」、「底本」、「母親」、「一人」、「主人」、「父親」、「親方」、「医者」などが漢字キーワードとして抽出される。図２Ｂにおいて、入力文書テキストが「走れメロス」の場合、「出来」のみが、第１の実施形態において抽出される漢字キーワードである。図２Ｅにおいて、入力文書テキストが「吾輩は猫である」の場合、「主人」と「吾輩」とが漢字キーワードとして抽出される。

図３Ａから図３Ｅは、例示的に、図２の文学書のそれぞれにおけるカタカナランの出現頻度を示す。図３Ａにおいて、入力文書テキストが「母を訪ねて三千里」の場合、「コルドバ（出現回数１７回、出現頻度１１．９%）」、「メキネズ（出現回数１５回、出現頻度１０．５5%）」、「ツークーマン（出現回数１１回、出現頻度７．７%）」、「ジェノア（出現回数１０回、出現頻度７%）」「アメリカ（出現回数８回、出現頻度５．６6%）」、「イタリイ」（出現回数８回、出現頻度５．６％）がカタカナキーワードとして抽出される。図３Ｂにおいて、入力文書テキストが「走れメロス」の場合、「ディオンス（出現回数３回、出現頻度６０%）」、「アレキス（出現回数１回、出現頻度２０%）」、「シルレル（出現回数１回、出現頻度２０%）」がカタカナキーワードとして抽出される。

図４Ａから図４Ｈは、例示的に、朝日新聞の社説における漢字ラン及びカタカナランの出現頻度を示す。図４Ａにおいて、０５０７０６＿１（２００５年７月６日の社説）の例では、「首相（出現回数７回、出現頻度４．７％）」、「反対（出現回数６回、出現頻度４．０％）」、「党内（出現回数５回、出現頻度３．３％）」、「法案（出現回数３回、出現頻度２．０％）」、「派閥（出現回数５回、出現頻度２．０％）」、「執行部（出現回数３回、出現頻度２．０％）」「自民党（出現回数３回、出現頻度２．０％）」、などが漢字キーワードとして抽出される。図４Ｄにおいて、０５０７０９＿２（２００５年７月９日の社説）の例では、漢字キーワードとして「組織（出現回数３回、出現頻度２．６％）」「世界（出現回数３回、出現頻度２．６％）」、「犯行（出現回数２回、出現頻度１．７％）」、「宗教（出現回数２回、出現頻度１．７％）」、「国際（出現回数２回、出現頻度１．７％）」、「攻撃（出現回数２回、出現頻度１．７％）」、「寛容（出現回数２回、出現頻度１．７％）」、が抽出され、一方「テロ（出現回数１７回、出現頻度３８．６％）」、「イスラム（出現回数６回、出現頻度１３．６％）」、「ロンドン（出現回数３回、出現頻度６．８％）」、「イラク（出現回数３回、出現頻度６．８％）」、「イラク（出現回数２回、出現頻度４．５％）」「アルカイダ（出現回数２回、出現頻度４．５％）」などのカタカナキーワードも多く抽出されることが理解される。

変形例として、キーワード抽出のための、出現頻度の閾値の初期値を、上記の値より大きく設定し、該当するランが存在するにもかかわらずキーワードとして抽出されない場合には、キーワードとして抽出されるまでこの閾値を小さくなるよう調整してもよい。さらに、小さく調整した後もキーワードが抽出されない場合には、出現回数の比率（出現頻度）に替えて、或いは出現頻度と共に、出現回数の上位から所定番目までのランをキーワードとして抽出するよう構成してもよい。例えば、図２Ｅにおいて、入力文書テキストが「吾輩は猫である」の場合、出現回数が１である漢字の熟語が数千個あり、このため大部分の漢字文字列（漢字ラン）の出現頻度が１％以下として検出される。この場合、上位から例えば１０番目までの漢字ランがキーワードとして抽出されるよう構成されてよい。

＜第１の実施形態における文書テキストデータ検索処理＞
図１を参照し、文書を検索しようとする利用者は、クライアントコンピュータ２のキーワード提示要求部２１に、キーワード付与文書データベース１６に格納された文書テキストデータに付与されたキーワードの一覧表示の要求を入力する。この要求入力は、例えばキーボード或いはマウス等のポインティングデバイスを使用して行なわれてよい。一覧表示要求を受け付けたキーワード提示要求部２１は、文書管理サーバ１の管理キーワード入出力部１７に、入力されたキーワード一覧表示要求を送信する。

文書管理サーバ１において、管理キーワード入出力部１７は、キーワード管理部１４が管理保持するキーワードの一覧を受け取り、この管理キーワード一覧を、クライアントコンピュータ２の管理キーワード一覧提示部２２に送出する。クライアントコンピュータ２において、管理キーワード一覧提示部２２は、ディスプレイ部２６を介して、受信した管理キーワード一覧を表示制御する。利用者は、一覧表示された管理キーワードの中から、所望する文書に関係が深そうなキーワードを１個或いは複数個選択し、キーワード選択指示部２３を介して入力する。この選択入力の手法は、ディスプレイ上に表示されるキーワードをマウス等のポインティングデバイスでクリック等してもよく、或いは代替的に、カーソルを上下左右にキーで移動させ、所望のキーワード上にカーソルを位置付けて、この位置で例えばスペースキー等によりキーワード選択を指示してもよい。指示されたキーワード（或いはキーワード群）は、指示キーワード送付部２４を介して文書管理サーバ１の管理キーワード入出力部１７に送出される。キーワード管理部１４は、管理キーワード入出力部１７に入力された指示キーワード（或いはキーワード群）を、キーワード付与文書データベース１６に格納されるそれぞれの文書テキストのキーワード群と比較し、例えば指示されたキーワードを最も多く含むキーワード群を有する１つ或いは複数の文書テキストデータを選択し、キーワード付与文書データベース１６から選択された文書テキストデータを読み出し、文書送信管理部１８を介して、クライアントコンピュータ２側の文書受信管理部２５に送出される。文書受信管理部２５により受信された文書テキストデータは、ディスプレイ部２６を介して、利用者に表示出力される。

なお、第１の実施形態では、一例として、まず漢字キーワードを抽出し、次いでカタカナキーワードを抽出するキーワード自動抽出処理を開示したが、代替的に、これらの処理を並列に同時実行してもよく、カタカナキーワード抽出処理を先行して実行してもよく、或いはこれらのうちいずれか１種類を必要に応じて実行してもよい。さらに、ひらかなキーワード抽出処理及び／又はアルファベットキーワード抽出処理を、漢字キーワード抽出処理及びカタカナキーワード抽出処理と共に実行してもよく、この場合いずれの文字種別のキーワード抽出から順次実行してもよく、或いはすべてのキーワード抽出処理を並列に同時実行してもよい。これらの変形例のいずれも本発明の開示に含まれることは言うまでもない。

＜本実施形態に係る文書インデキシングシステムのハードウエア構成＞
図１１は、第１の実施形態に係る文書管理サーバ１及び／又はクライアントコンピュータ２のハードウエア構成の一例を示すブロック図である。図１１に示されるコンピュータ装置１１０である文書管理サーバ１及び／又はクライアントコンピュータ２において、ＣＰＵ１１１は、ＲＯＭ１１４および／またはハードディスクドライブ１１６に格納されたプログラムに従い、ＲＡＭ１１５を一次記憶用ワークメモリとして利用して、システム全体を制御する。さらに、ＣＰＵ１１１は、マウス１１２ａまたはキーボード１１２を介して入力される利用者の指示に従い、ハードディスクドライブ１１６に格納されたプログラムに基づき、第１の実施形態に係る文書インデキシング処理を実行する。ディスプレイインタフェイス１１３には、ＣＲＴやＬＣＤなどのディスプレイが接続され、ＣＰＵ１１１が実行する文書インデキシング処理の入力待ち受け画面、処理経過や処理結果、検索結果である文章テキストデータなどが表示される。リムーバブルメディアドライブ１１７は、主に、リムーバブルメディアからハードディスクドライブ１１６へファイルを書き込んだり、ハードディスクドライブ１１６から読み出したファイルをリムーバブルメディアへ書き込む場合に利用される。リムーバブルメディアとしては、フロッピディスク(ＦＤ)、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ、ＤＶＤ−Ｒ／Ｗ、ＤＶＤ−ＲＡＭやＭＯ、あるいはメモリカード、ＣＦカード、スマートメディア、ＳＤカード、メモリスティックなどが利用可能である。

プリンタインタフェイス１１８には、レーザビームプリンタやインクジェットプリンタなどのプリンタが接続される。ネットワークインタフェイス１１９は、コンピュータ装置をネットワークへ接続するためのインターフェースである。

なお、第１の実施形態に係る文書管理サーバ１及び／又はクライアントコンピュータ２における入力手段は、マウス１１２ａあるいはキーボード１１２に限定されることなく、任意のポインティングデバイス、例えばトラックボール、トラックパッド、タブレットなどを適宜用いることができる。携帯情報端末を上記各実施形態に係るクライアントコンピュータ２として用いる場合には、入力部をボタンやモードダイヤル等で構成してもよい。

また、図１１に示した第１の実施形態に係る文書管理サーバ１及び／又はクライアントコンピュータ２のハードウエア構成は一例に過ぎず、その他の任意のハードウエア構成を用いることができることはいうまでもない。

殊に、第１の実施形態に係る文書インデキシング処理の全部又は一部は、上記コンピュータ端末装置１００あるいはＰＤＡ等の携帯情報端末装置等によって実現されてもよく、コンピュータ端末装置等とサーバー装置とをＢｌｕｅｔｏｏｔｈ（登録商標）等の無線、あるいはインターネット（ＴＣＰ／ＩＰ）、公共電話網（ＰＳＴＮ）、統合サービス・ディジタル網（ＩＳＤＮ）等の有線通信回線で相互接続した、インターネットあるいは任意の周知のローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）からなるネットワークシステムによってコンテンツ提示処理が実現されてもよい。例えば、ＰＤＡ等の携帯情報端末装置がキーワードの一覧提示要求及びキーワード指示要求を文書管理サーバ１に対して送信し、文書管理サーバ１は、所定の或いは要求された識別子のクライアントコンピュータ２に対して、文書テキストデータを配信してもよい。

以上のとおり、第１の実施形態によれば、文章テキストデータの登録時に、文書テキストデータから重要キーワードを文字コードのみに基づいて判別することにより自動的にインデキシングを実行する。このため、予め登録者によるキーワード付与や辞書登録を要することがなく、またこの辞書を用いた意味認識、形態素解析等の処理を要することがない。従って、文書テキストデータに簡易且つ自動的にインデキシングすることができ、登録された文書テキストデータの利用者による検索が容易化する。特に、すでに蓄積されている大量の文書テキストデータに自動的にインデキシングすることが可能となるので、既存文書データの再利用に資する。さらに、文書の意味認識を必要としないので、新たな語彙が生じた場合にあっても、本発明に係るインデキシングシステムをメンテナンスする必要は生じ得ないという利点が得られる。

第２の実施形態
図５を参照して、本発明の第２の実施形態を、第１の実施形態と相違する点についてのみ説明する。第２の実施形態は、文書テキストデータのアウトラインを自動生成し、利用者が入力した自由キーワード（フリーキーワード）と実質的に一致する管理キーワードを含む文書テキストデータのアウトラインを利用者に一覧提示し、利用者により選択されたアウトラインに対応する文書テキストデータを検索結果として、クライアントコンピュータ２に出力する。

＜第２の実施形態の構成＞
図５は、本発明の第２の実施形態に係る文書管理サーバ１及びクライアントコンピュータ２を具備する文書インデキシングシステムの一構成例を示す。

文書管理サーバ１は、第１の実施形態と同様、インデキシングされるべき検索対象の文書テキストデータを入力する文書入力部１２と、入力された文書テキストデータからキーワードを自動抽出するキーワード自動抽出部１３と、インデキシングされた文書テキストデータと抽出されたキーワードとの対応付け及び記憶保持を管理するキーワード管理部１４と、キーワードが付与された文書データを外部記憶装置であるアウトライン・キーワード付与文書データベース３８に格納すると共に、入力された管理キーワードと一致するキーワードが付与された文書テキストデータをアウトライン・キーワード付与文書データベース３８から検索する文書格納部１５と、検索された文書テキストデータをクライアントコンピュータ２に出力制御する文書送信管理部１８とを具備する。或いは代替的に、キーワード自動抽出部１３を、文書キーワード抽出装置である別体のコンピュータに実装し、この文書キーワード抽出装置により抽出されたキーワード群と、これらに対応付けられた文書テキストとの対が、文書管理サーバ１の文書入力部１２に入力されるよう構成されてもよい。

第２の実施形態において、文書管理サーバ１は、さらに、キーワード管理部１４から出力されるキーワード群に基づいて、文書のアウトラインを自動生成する文書アウトライン作成部３１と、生成されたアウトラインと、当該アウトラインの本文である文書テキストデータとを対応付ける文書・アウトライン対応付け部３２と、生成されたアウトラインと、アウトラインの生成源である文書テキストデータとの記憶保持を管理するアウトライン管理部３３と、クライアントコンピュータ２からの自由キーワード入力を受け付けるキーワード入出力部３５と、このキーワード入力部３５から入力される自由キーワードを受け付け、該自由キーワードとキーワード管理部１４が管理するキーワード群との一致度を判定するキーワードマッチング部３４と、一致するキーワード群に対応付けられた文書テキストデータのアウトラインを、検索候補アウトラインとして、クライアントコンピュータ２に送出する候補アウトライン送付部３６と、クライアントコンピュータ２から指示入力されるアウトラインを入力し、アウトライン管理部３３に受け渡すアウトライン指示部３７とを具備する。

第２の実施形態において、クライアントコンピュータ２は、利用者が、文書テキストデータ検索のための任意の自由キーワードを入力するキーワード入力部４１と、入力された自由キーワードを文書管理サーバ１のキーワード入力部３５に送出する入力キーワード送付部４２と、文書管理サーバ１の候補アウトライン送付部３６から入力される候補アウトラインを受信し、ディスプレイ部２６を介して利用者に提示制御するアウトライン受信部４３と、提示された候補アウトラインから利用者が指示入力により選択したアウトラインを入力するアウトライン指示入力部４４と、入力されたアウトラインを文書管理サーバ１のアウトライン指示部３７に送出する指示アウトライン送付部４５と、文書送信管理部１８から受信される指示アウトラインに対応付けられた文書テキストデータを受信する文書受信管理部２５と、受信された文書テキストデータを利用者に提示するディスプレイ部２６とを具備する。

＜第２の実施形態におけるアウトライン自動生成処理詳細＞
図５を参照し、キーワード管理部１４及び文書格納部１５は、第１の実施形態と同様、自動抽出されたキーワード群とこれに対応する文書テキストとを対応付けて、アウトライン・キーワード付与文書データベース３８に格納管理する。第２の実施形態において、文書入力部１２は、入力された文書テキストデータを、文書アウトライン作成部３１に受け渡す。文書アウトライン作成部３１は、キーワード管理部１４から受け渡された文書テキストデータに対応付けられたキーワード群を受け取り、受け渡された文書テキストデータ中のすべての文章から、受け取られたキーワード群のうち、少なくとも２以上のキーワードを含む文章のみをアウトラインとして抽出する。キーワードを２以上含む文章が存在しない場合は、出現頻度が最も大きいキーワードを含む文章のみでアウトラインを生成する。本明細書において、「文章」とは、句点「。」の直後から始まるか、或いは段落の最初から始まるもので、次の句点「。」で終わる文字列を意味する。

文書アウトライン作成部３１は、作成されたアウトラインを、文書・アウトライン対応付け部３２に受け渡す。文書・アウトライン対応付け部３２は、キーワード管理部１４で管理されるキーワード群と、このキーワード群に対応付けられた文書テキストデータとを、受け渡されたアウトラインにそれぞれ対応付けて、アウトライン管理部３３に出力する。アウトライン管理部３３は、文書テキストデータと、この文書テキストデータから抽出されたキーワード群と、及びこのキーワード群を含む文章として抽出されたアウトラインとを、対応付けて管理する。

＜第２の実施形態におけるアウトライン表示処理及び文書テキストデータ検索処理＞
第２の実施形態において、文書アウトライン作成部３１が上記の処理により作成したアウトラインは、利用者による自由なキーワード入力による文書テキスト検索に使用される。

図５において、利用者は、クライアントコンピュータ２のキーワード入力部４１に、例えばキーボード等の入力装置を介して自由なキーワード群を入力する。入力されるキーワード群は、代替的に、単一のキーワードであってもよい。入力されたキーワード群は、入力キーワード送付部４２に受け渡され、文書管理サーバ１のキーワード入力部３５に送出される。文書管理サーバ１において、キーワードマッチング部３４は、キーワード入力部３５に入力された自由キーワード群と、キーワード管理部１４により管理されるキーワード群との一致度を判定する。一例として、漢字キーワードとひらかなキーワードとが抽出されて文書テキストデータに対応付けられたとすると、管理キーワードが入力された自由キーワードを含む場合、及び両者のキーワードが完全に一致する場合に、キーワードの一致が判定される。ここで、カタカナキーワードの一致判定において、キーワードに含まれる「―」（長く引っ張る発音を示す文字）、「・」（なか点）や、複数のカタカナ文字列に挟まれたスペースは無視して、入力された自由キーワードと管理されているキーワードとが一致していれば、一致と見なす。さらに、カタカナキーワードの一致判定において、入力された自由キーワードに包含されているキーワードが、管理されているキーワードに含まれる場合も、一致と見なす。アルファベットキーワード（後述）の一致判定において、複数のアルファベット文字列に挟まれた「・」（なか点）、スペース、及び「．」（ピリオド）、及びアルファベット直後の「．」（ピリオド）は無視して、入力された自由キーワードと管理されているキーワードとが一致していれば、一致と見なす。こうしてキーワードの一致度を判定した結果、入力されたキーワードと一致するキーワードを最も多く含む管理されたキーワード群を判別して、キーワード管理部１４に受け渡す。キーワード管理部１４は、キーワードマッチング部３４から受け渡されたキーワード群が１つの文書テキストデータのみに対応付けられたキーワード群である場合は、文書格納部１５を介して、受け渡されたキーワード群に対応付けられた文書テキストデータを、アウトライン・キーワード付与文書データベース３８から読み出し、文書送信管理部１８を介して、クライアントコンピュータ２に送出制御する。

一方、キーワード管理部１４は、キーワードマッチング部３４から受け渡されたキーワード群が複数の文書テキストデータに対応付けられていた場合は、アウトライン管理部３３を介して、当該複数の文書テキストデータに対応するアウトラインのそれぞれを、アウトライン・キーワード付与文書データベース３８から読み出し、候補アウトライン送付部３６を介して、候補アウトラインとして、クライアントコンピュータ２に送出制御する。クライアントコンピュータ２において、受信された候補アウトラインは、ディスプレイ部２６を介して、利用者に提示出力される。

利用者は、提示出力された候補アウトラインの中から、マウス或いはキーボード等の入力装置を介して、所望のアウトラインを１つ或いは複数選択する。選択されたアウトラインは、アウトライン指示入力部４４に入力され、指示アウトライン送付部４５を介して、文書管理サーバ１のアウトライン指示部３７に送出される。文書管理サーバ１において、アウトライン指示部３７は、入力されたアウトラインを、アウトライン管理部３３に受け渡して、これに対応付けられた文書テキストデータの検索を要求する。アウトライン管理部３３は、文書格納部１５を介して、アウトライン・キーワード付与文書データベース３８から、入力されたアウトラインに対応付けられた文書テキストデータを検索し、検索された文書テキストデータを、文書送信管理部１８を介してクライアントコンピュータ２の文書受信管理部２５に送出する。クライアントコンピュータ２において、文書受信管理部２５は、ディスプレイ部２６を介して、受信された文書テキストデータを、一連の文書検索結果として表示出力する。

図６Ａから図６Ｄは、「第１５９回国会における小泉内閣総理大臣施政方針演説」を入力とした場合に、第２の実施形態に係るアウトライン作成部３１により作成されるアウトラインの一例を示す。図６Ａから図６Ｄは、いずれも２文字以上の漢字ランのうち、その出現頻度が上位３番目までである３つのキーワードが、「支援（２２回）」、「国民（１７回）」、「推進（１７回）」である文書テキストからアウトラインを作成した場合の例であり、図６Ａが「支援」を含む文章のみを、図６Ｂが「支援」と「国民」の両方を含む文章を、図６Ｃが「支援」と「推進」の両方を含む文章を、図６Ｄが「国民」と「推進」の両方を含む文章を、それぞれアウトラインとして抽出した例を示す。図６Ａから図６Ｄに示す例においては、キーワードを２つ以上含む文章のみで適当な長さのアウトラインが作成されることが理解される。

第２の実施形態によれば、第１の実施形態により得られる機能に加え、さらに、文書テキストデータのアウトラインを自動生成し、利用者が入力した自由キーワードと実質的に一致する管理キーワードを含む文書テキストデータのアウトラインを利用者に一覧提示し、利用者により選択されたアウトラインに対応する文書テキストデータを検索結果として利用者に提示出力する。従って、アウトラインの提示及び提示されたアウトラインからの選択指示処理を介して、利用者が任意に入力する自由キーワードによる自由度の高い文書テキストデータ検索が、文書管理サーバ１及びクライアントコンピュータ２のいずれにも高負荷を課すことなく実現される。

第３の実施形態
図７を参照して、本発明の第３の実施形態を、上記各実施形態と相違する点についてのみ説明する。第３の実施形態は、上記各実施形態の構成に加え、さらに、ひらかなのキーワードを抽出する。ひらかなが多用されている文書を多く処理する場合は、これらのひらかなもキーワードとして抽出すべき場合が少なくない。例えば、「さいたま」、「けいはんな」、「やくみつる」等、ひらかな表記の固有名詞や、ペンネーム・芸名等が多用されている場合に、ひらかなキーワード抽出の必要性が高い。ひらかなキーワード抽出は、第１の実施形態において説明した漢字キーワード及びカタカナキーワード抽出と同様、文字コードを識別し、その出現頻度の閾値を超えるひらかなランを抽出することにより実現されるので、上記各実施形態と比較して負荷は有意に増大しない。

図７において、キーワード自動抽出部１３ａは、図１に示されるキーワード自動抽出部１３と比較して、さらに、コード別文字分類部１３１により識別された、その連続性が維持されたひらかな文字列が入力され、各ひらかなランの出現頻度をカウントするひらかなラン出現頻度カウンタ１３７と、その出現頻度がカウントされたひらかなランが入力され、所定の出現頻度の閾値を超えるひらかなランを、ひらかなキーワードとして抽出し、文書・キーワード群対応付け部１３６に受け渡すひらかなキーワード抽出部１３８とを具備する。

ひらかなラン出現頻度カウンタ１３７は、ひらかなラン（連続するひらかな文字列）の出現頻度をカウントする。例えば、上記の「彼は病気勝ちだったにもかかわらず、前向きに生き、トランジスタ工学の大いなる進展と、トランジスタ産業の育成に大きな功績を上げた。」という上記の文書がキーワード自動抽出部１３に入力された場合、「は」、「ちだったにもかかわわらず」、「きに」、「き」、「の」、「いなる」、「と」、「に」、「きな」、「を」、「げた」がそれぞれひらかなランである。このひらかなランのうち、「の」のみが出現頻度２とカウントされ、他のひらかなランの出現頻度は１とカウントされる。ひらかなキーワード抽出部１３８は、例えば好適にはひらかなラン長が３以上のひらかなランのうち、ひらかなランの全数に対して出現頻度が１０％以上の出現頻度のひらかなランを、ひらかなキーワードとして抽出してよい。

第４の実施形態
図８を参照して、本発明の第４の実施形態を、上記各実施形態と相違する点についてのみ説明する。第４の実施形態は、上記各実施形態の構成に加え、さらに、アルファベットのキーワードを抽出する。例えば技術的な文書を多く処理する場合は、アルファベットを使用した略語が多用されるため、これらのアルファベットもキーワードとして抽出すべき場合が少なくない。アルファベットキーワード抽出は、第１の実施形態において説明した漢字キーワード及びカタカナキーワード抽出と同様、文字コードを識別し、その出現頻度の閾値を超えるアルファベットランを抽出することにより実現されるので、上記各実施形態と比較して負荷は有意に増大しない。

図８において、キーワード自動抽出部１３ｂは、図７に示されるキーワード自動抽出部１３ａと比較して、さらに、コード別文字分類部１３１により識別された、その連続性が維持されたアルファベット文字列が入力され、各アルファベットランの出現頻度をカウントするアルファベットラン出現頻度カウンタ１３９と、その出現頻度がカウントされたアルファベットランが入力され、所定の出現頻度の閾値を超えるアルファベットランを、アルファベットキーワードとして抽出し、文書・キーワード対応付け部１３６に受け渡すアルファベットキーワード抽出部１４０とを具備する。或いは、代替的に、図８において、ひらかなラン出現頻度カウンタ１３７及びひらかなキーワード抽出部１３８を省略して構成してもよい。

コード別文字分類部１３１は、漢字、カタカナ、ひらかなとともに、さらにアルファベットを、その文字コードに基づき、その連続性を維持したまま分離する。アルファベットラン出現頻度カウンタ１３９は、アルファベットラン（連続するアルファベットの組み合わせ文字列）の出現頻度をカウントする。このとき、アルファベットに挟まれた「．」（ピリオド）やスペース、「・」（なか点）、及び連続するアルファベット文字列の最後に位置するアルファベットの直後の「．」（ピリオド）は、アルファベットの一部と見なして、アルファベットランの出現頻度をカウントする。さらに、例えば「Ｕ．Ｓ．Ａ．」と「ＵＳＡ」とを同じアルファベットランと見なすことができるよう、「．」（ピリオド）は無視し、同様に「−」（ハイフン）やスペースもランとして無視する。アルファベットキーワード抽出部１４０は、例えば好適には、アルファベットランの全数に対して出現頻度が５％以上の出現頻度のアルファベットランを、アルファベットキーワードとして抽出してよい。

なお、上記ひらかなキーワード及びアルファベットキーワードの抽出でそれぞれ参照される１０％及び５％の値は、可変に設定可能とし、例えば第１の実施形態と同様、値が大き過ぎて有意なキーワードが抽出できない場合には、ひらかなランやアルファベットランが入力文書テキストデータに存在しない場合を除いて、キーワードが抽出されない場合にこれらのキーワードが抽出されるまで、出現頻度の閾値を徐々に小さく再設定し、出現頻度カウント処理を再実行してもよい。さらに、この閾値の再設定処理によってもキーワードが抽出されない場合には、出現回数が上位一定番目までのランを抽出するように構成してもよく、これらの変形例も、本発明の一部をなす。

第５の実施形態
図９を参照して、本発明の第５の実施形態を、上記各実施形態と相違する点についてのみ説明する。第５の実施形態は、１つの文書を作成した際に、この文書と類似する文書が、すでにキーワード付与文書データベース１６に存在するか否かを、キーワードを逆引きすることによって判定する。

＜第５の実施形態の構成＞
図９において、第５の実施形態に係る文書キーワード抽出装置４は、図１に示す第１の実施形態に係る文書管理サーバ１中のキーワード自動抽出部１３を、図８に示すキーワード自動抽出部１３ｂに替え、さらに、クライアントコンピュータ２の作成文書送付部７２から、新たに作成された文書テキストデータを入力する文書入力部５１と、文書・キーワード群対応付け部１３６が出力する指示キーワードを、文書管理サーバ１の管理キーワード入出力部１７に送出する指示キーワード送付部５２とを具備する。第５の実施形態に係る文書管理サーバ１は、図１に示す第１の実施形態に係る文書管理サーバ１中、キーワード自動抽出に係るキーワード抽出部１３を省略し、管理キーワード入出力部１７と、キーワード管理部１４と、文書格納部１５と、キーワード付与文書データベース１６と、文書送信管理部１８とを具備する。代替的に、図９における文書キーワード抽出装置４と文書管理サーバ１とを一体とし、或いはクライアントコンピュータ２と文書キーワード抽出装置４とを一体とし、それぞれ１つのコンピュータに実装してもよい。また、文書キーワード抽出装置４に備えられるキーワード自動抽出部１３ｂを、図１に示すキーワード自動抽出部１３に置き換えてもよい。

第５の実施形態に係るクライアントコンピュータ２は、図１に示す第１の実施形態に係るクライアントコンピュータ２中、文書受信管理部２５と、ディスプレイ部２６とを具備し、さらに、新たに作成された文書を作成及び管理する文書作成管理部７１と、作成された文書を、文書キーワード抽出装置４の文書入力部５１に送出する作成文書送付部７２とを具備する。

＜第５の実施形態におけるキーワード逆引き処理＞
図９を参照して、利用者は、クライアントコンピュータ２の文書作成管理部７１により、新規文書テキストを作成する。作成文書送付部７２は、作成された新規文書テキストを、文書キーワード抽出装置４の文書入力部５１に送出する。この文書入力部５１は、図１における文書入力部１２の機能を包含する。文書入力部５１に入力された新規文書テキストは、キーワード自動抽出部１３ｂに入力され、このキーワード自動抽出部１３ｂにおいて、図８に示す処理と同様の処理により、入力された新規文書から、漢字キーワード、カタカナキーワード、ひらかなキーワード、アルファベットキーワードがそれぞれ抽出され、これらのキーワード群が、文書キーワード群対応付け部１３６により入力された新規文書テキストに対応付けられる。抽出されたキーワード群は、指示キーワード送付部５２に受け渡され、この指示キーワード送付部５２は、受け渡されたキーワード群を、文書管理サーバ１の管理キーワード入出力部１７に送出する。ここで、指示キーワード送付部５２は、図１のクライアントコンピュータ２中の指示キーワード送付部２４と同等の機能を有する。文書管理サーバ１において、キーワード管理部１４は、管理キーワード入出力部１７から、新規文書に付与されたキーワード群の入力を受け、該入力キーワード群と一致するキーワードを最も多く有する１又は複数の文書テキストデータを、キーワード付与文書データベース１６から検索する。検索された文書テキストデータは、文書送信管理部１８を介して、クライアントコンピュータ２の文書受信管理部２５に送出され、ディスプレイ部２６を介して利用者に提示される。

第５の実施形態によれば、新規に作成した文書から、上記各実施形態に係るキーワード抽出処理と同様のキーワード抽出処理により、キーワード群を抽出し、このキーワード群と一致するキーワードを最も多く有する文書、すなわち新規に作成された文書に類似する既存の文書テキストデータを検索することができる。従って、キーワードの逆引きによって、文書による類似文書の検索が可能となり、新規文書作成の際に、既存の文書テキストデータの有効再利用が実現される。

第６の実施形態
図１０を参照して、本発明の第６の実施形態を、上記各実施形態と相違する点についてのみ説明する。第６の実施形態は、例えば第１の実施形態の構成を利用し、構造化された辞書データを入力として、辞書の見出し用語の意味内容から辞書の見出し用語を検索する、いわゆる逆引き辞書を、簡易且つ自動的に生成する。

図１０において、第６の実施形態に係る文書管理サーバ１は、図１に示す第１の実施形態に係る文書管理サーバ１の構成に加え、さらに、文書入力部１２に入力される構造化文書の構造を解析するパーサー６１と、構造が解析された入力構造化文書中の見出し用語を、その解説文から分離する見出し・解説文分離部６２とを具備する。第６の実施形態に係るクライアントコンピュータ２の構成は、図１に示す第１の実施形態と同様である。

＜第６の実施形態における辞書逆引き用データ登録処理＞
例えば国語辞典や百科事典のような、見出し用語とその意味の解説文とを別の構造とする例えばＸＭＬ等により構造化されたタグ付き文書や、カンマ或いはタブ等でフィールドに分割された構造化文書が、文書入力部１２に入力される。パーサー６１は、入力された構造化文書の構造を解析する。見出し・解説文分離部６２は、解析された構造化文書から、見出し用語とその解説文に分離し、例えばフィールドの左辺に見出し単語を、該フィールドの右辺にその解説文を配置する等の手法により、両者を対応付けて管理する。解説文フィールドに格納された解説文は、図１に示す第１の実施形態と同様に、キーワード自動抽出部１３のコード別文字分類部１３１により文字コードにより漢字、カタカナ等の文字種別ごとに分類される。漢字に分類された漢字文字列から、漢字ラン出現頻度カウンタ１３２及び漢字キーワード抽出部１３３により、漢字キーワードが抽出され、同様に、カタカナに分類されたカタカナ文字列から、カタカナラン出現頻度カウンタ１３４及びカタカナキーワード抽出部１３５により、カタカナキーワードが抽出される。文書・キーワード群対応付け部１３６は、見出し・解説文分離部６２により分離された見出し用語及びその解説文に対して、抽出されたキーワード群の対応付けを行なう。抽出されたキーワード群は、キーワード管理部１４により管理され、このキーワード群に対応付けられた見出し用語及び解説文からなる構造化文書は、文書格納部１５により管理され、キーワード付与された該構造化文書は、キーワード付与文書データベース１６に格納される。キーワード付与文書データベース１６中において、構造化文書の見出し用語フィールドと解説文フィールドとのそれぞれに、抽出されたキーワード群が記述され、或いは代替的に両フィールドのそれぞれから抽出されたキーワード群がポイントされる。

＜第６の実施形態における辞書逆引き処理＞
クライアントコンピュータ２において、利用者は、例えばキーボード或いはマウス等の入力装置を介して、キーワード提示要求部２１に、キーワード管理部１４が管理するキーワード群、すなわち辞書の解説文から抽出されたキーワード群の一覧の提示要求を入力する。キーワード提示要求部２１は、入力されたキーワード群の一覧提示要求を、文書管理サーバ１の管理キーワード入出力部１７に送出する。その後の処理は、図１に示す第１の実施形態と同様であり、一覧提示されたキーワード群から利用者により選択入力されたキーワードに対応付けられた見出し用語が、文書管理サーバ１においてキーワード管理部１４により、キーワード付与文書データベース１６から検索され、文書送信管理部１８を介して、クライアントコンピュータ２の文書受信管理部２５に送出される。文書受信管理部２５により受信された見出し用語は、ディスプレイ部２６を介して、辞書逆引き結果として表示出力される。

なお、第６の実施形態においても、第１の実施形態及び第２の実施形態と同様、文書管理サーバ１及びクライアントコンピュータ２の間で、ネットワークを介して各種要求等のコマンドやデータの送受信がされてもよく、或いは代替的に、両者の機能を一体として、１つのコンピュータに実装してもよい。辞書の見出し用語とその解説文とは、文書入力部１２に入力される際に、すでに関連付けが完了しているため、当然に、見出し用語から解説文を検索することは可能である。第６の実施形態においては、こうした通常の辞書機能に加えて、解説文からのキーワード抽出が自動的に実行されるため、検索すべき見出し用語が不明な場合であっても、解説文に使用されている重要語をキーワードとして指示入力し、このキーワードに対応付けられた見出し用語を検索すると共に、必要に応じ、同時に検索された見出し用語の解説文を表示させることができる。

第６の実施形態によれば、従って、予め辞書から逆引き辞書を作成することなく、逆引き辞書機能が実現される。

本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらすすべての実施形態をも含み、その要旨を逸脱しない範囲で多様な改良ないし変更が可能である。例えば、インターネットでの情報提供ビジネス、パーソナルコンピュータのハードディスク内情報管理及びその情報分析、辞書機能の高度化等、多用な技術への応用が、簡易かつ安価に実現され、これにより、利用者の利便性が大幅に向上する。より具体的には、インターネット等のネットワーク環境下で情報を配信する仕組みを構築するコンテンツプロバイダ、データベース管理システム構築、パーソナルコンピュータ用データ管理ソフトウエア等の供給システムの構築を行なうためのサーバ、情報処理装置又は方法、並びにコンピュータプログラムとしての提供も可能となる。さらに、本発明の範囲は、請求項１により画される発明の特徴の組み合わせに限定されるものではなく、すべての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。

本発明の第１の実施形態に係る文書インデキシングシステムの機能構成の一例を示すブロック図である。小説「母を尋ねて三千里」を入力文書とした場合の第１の実施形態における漢字ラン出願頻度を示す図である。小説「走れメロス」を入力文書とした場合の第１の実施形態における漢字ラン出願頻度を示す図である。小説「赤ずきんちゃん」を入力文書とした場合の第１の実施形態における漢字ラン出願頻度を示す図である。小説「赤いくつ」を入力文書とした場合の第１の実施形態における漢字ラン出願頻度を示す図である。小説「我輩は猫である」を入力文書とした場合の第１の実施形態における漢字ラン出願頻度を示す図である。小説「母を尋ねて三千里」を入力文書とした場合の第１の実施形態におけるカタカナラン出願頻度を示す図である。小説「走れメロス」を入力文書とした場合の第１の実施形態におけるカタカナラン出願頻度を示す図である。小説「赤ずきんちゃん」を入力文書とした場合の第１の実施形態におけるカタカナラン出願頻度を示す図である。小説「赤いくつ」を入力文書とした場合の第１の実施形態におけるカタカナラン出願頻度を示す図である。小説「我輩は猫である」を入力文書とした場合の第１の実施形態におけるカタカナラン出願頻度を示す図である。朝日新聞の社説２００５年７月６日を入力文書とした場合の第１の実施形態におけるラン出現頻度を示す図である。朝日新聞の社説２００５年７月８日（その１）を入力文書とした場合の第１の実施形態におけるラン出現頻度を示す図である。朝日新聞の社説２００５年７月８日（その２）を入力文書とした場合の第１の実施形態におけるラン出現頻度を示す図である。朝日新聞の社説２００５年７月９日を入力文書とした場合の第１の実施形態におけるラン出現頻度を示す図である。朝日新聞の社説２００５年７月１０日（その１）を入力文書とした場合の第１の実施形態におけるラン出現頻度を示す図である。朝日新聞の社説２００５年７月１０日（その２）を入力文書とした場合の第１の実施形態におけるラン出現頻度を示す図である。朝日新聞の社説２００５年７月１１日（その１）を入力文書とした場合の第１の実施形態におけるラン出現頻度を示す図である。朝日新聞の社説２００５年７月１０日（その２）を入力文書とした場合の第１の実施形態におけるラン出現頻度を示す図である。本発明の第２の実施形態に係る文書インデキシングシステムの機能構成の一例を示すブロック図である。「第１５９回国会における小泉内閣総理大臣施政方針演説」を入力文書とした場合の第２の実施形態における出力アウトラインの一例を示す図である。「第１５９回国会における小泉内閣総理大臣施政方針演説」を入力文書とした場合の第２の実施形態における出力アウトラインの一例を示す図である。「第１５９回国会における小泉内閣総理大臣施政方針演説」を入力文書とした場合の第２の実施形態における出力アウトラインの一例を示す図である。「第１５９回国会における小泉内閣総理大臣施政方針演説」を入力文書とした場合の第２の実施形態における出力アウトラインの一例を示す図である。本発明の第３の実施形態に係るキーワード自動抽出部の機能構成の一例を示すブロック図である。本発明の第４の実施形態に係るキーワード自動抽出部の機能構成の一例を示すブロック図である。本発明の第５の実施形態に係る文書インデキシングシステムの機能構成の一例を示すブロック図である。発明の第６の実施形態に係る文書インデキシングシステムの機能構成の一例を示すブロック図である。本発明の各実施形態に係る文書管理サーバ及び／又はクライアントコンピュータのハードウエア構成の一例を示す図である。

符号の説明

文書管理サーバ１
クライアントコンピュータ２
ネットワーク３
文書データベース１１
文書入力部１２
キーワード自動抽出部１３
キーワード管理部１４
文書格納部１５
キーワード付与文書データベース１６
管理キーワード入出力部１７
文書送信管理部１８
キーワード提示要求部２１
管理キーワード一覧提示部２２
キーワード選択指示部２３
指示キーワード送付部２４
文書受信管理部２５
ディスプレイ部２６

Claims

入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部と、
抽出された前記漢字文字列及び前記カタカナ文字列のうち、２文字以上連続する文字列の出現頻度をカウントする文字列出現頻度カウント部と、
前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るキーワード生成部と、
前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理部と、
前記対応付けられたキーワード及び前記日本語文書テキストとを格納する文書格納部とを具備する
ことを特徴とする文書インデキシングサーバ装置。
前記キーワード生成部は、前記第１又は第２の所定比率以上の出現頻度を有する文字列が、所定数得られない場合には、前記出現頻度の高い文字列を、前記キーワードとして得る
ことを特徴とする請求項１に記載の文書インデキシングサーバ装置。
前記文字コード識別部は、さらに、前記入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、ひらかな文字列を抽出し、
前記文字列出現頻度カウント部は、さらに、抽出された前記ひらかな文字列のうち、２文字以上連続する文字列の出現頻度をカウントし、
前記キーワード生成部は、さらに、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第３の所定比率或いは所定出現回数以上の出現頻度を有するひらかな文字列をキーワードとして得る
ことを特徴とする請求項１又は２に記載の文書インデキシングサーバ装置。
前記文字コード識別部は、さらに、前記入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、アルファベット文字列を抽出し、
前記文字列出現頻度カウント部は、さらに、抽出された前記アルファベット文字列のうち、２文字以上連続する文字列の出現頻度をカウントし、
前記キーワード生成部は、さらに、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第４の所定比率或いは所定出現回数以上の出現頻度を有するアルファベット文字列をキーワードとして得る
ことを特徴とする請求項１ないし３のいずれか記載の文書インデキシングサーバ装置。
上記文書インデキシングサーバ装置は、さらに、
入力されたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられたキーワードとを比較し、前記入力されたキーワードと一致するキーワードを最も多く含む日本語文書テキストを検索し、検索された日本語文書テキストを、クライアント装置に送出するキーワード管理部を具備する
ことを特徴とする請求項１ないし４のいずれか記載の文書インデキシングサーバ装置。
上記文書インデキシングサーバ装置は、さらに、
前記入力された日本語文書テキストから、前記生成されたキーワードを２以上含む文章を文書アウトラインとして得るアウトライン生成部と、
前記得られた文書アウトラインと前記日本語文書テキストとを対応付けるとともに、前記キーワード管理部において、検索された日本語文書テキストに対応付けられた文書アウトラインを、クライアント装置に送出するアウトライン管理部とを具備する
ことを特徴とする請求項１ないし５のいずれか記載の文書インデキシングサーバ装置。
前記アウトライン管理部は、前記キーワード管理部により検索された日本語文書テキストが２以上である場合に、前記アウトラインを前記クライアント装置に送出する
ことを特徴とする請求項６に記載の文書インデキシングサーバ装置。
上記文書インデキシングサーバ装置は、さらに、
見出し用語及び該見出し用語の解説文からなる構造化日本語文書テキストを入力する文書入力部を具備し、
前記文字コード識別部は、入力された構造化日本語文書テキストの前記解説文から文字列を抽出し、
前記キーワード管理部は、前記入力されたキーワードと一致するキーワードを最も多く含む構造化日本語文書テキストの解説文を検索し、検索された解説文及び該解説文の見出し用語を、クライアント装置に送出する
ことを特徴とする請求項５に記載の文書インデキシングサーバ装置。
前記キーワード管理部は、前記キーワード生成部により得られたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられたキーワードとを比較し、前記キーワード生成部により得られたキーワードと一致するキーワードを最も多く含む日本語文書テキストを検索し、検索された日本語文書テキストを、クライアント装置に送出する
ことを特徴とする請求項５に記載の文書インデキシングサーバ装置。
日本語文書テキスト検索用のキーワードをサーバ装置から受信し、該キーワードを表示出力するキーワード表示部と、
前記表示出力されたキーワードから１のキーワードの選択入力を促すキーワード選択入力部と、
選択されたキーワードを前記サーバ装置に送信するキーワード送信部と、
前記キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力する文書表示部とを具備し、
前記受信されるキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなる
ことを特徴とする文書インデキシングクライアント装置。
自由キーワードを入力し、入力された自由キーワードをサーバ装置に送信する自由キーワード入力部と、
入力された自由キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力する文書表示部とを具備し、
前記受信される日本語文書テキストは、前記入力された自由キーワードと、前記サーバ装置上で格納された日本語文書テキストに対応付けられたキーワードとを比較し、前記入力されたキーワードと一致するキーワードを最も多く含む日本語文書テキストであり、
前記日本語文書テキストに対応付けられたキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなる
ことを特徴とする文書インデキシングクライアント装置。
上記文書インデキシングクライアント装置は、さらに、
前記入力された自由キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストの文書アウトラインを受信し、表示出力する文書アウトライン表示部と、
前記表示出力された文書アウトラインから１の文書アウトラインの選択入力を促す文書アウトライン選択入力部と、
選択された文書アウトラインを前記サーバ装置に送信する文書アウトライン送信部とを具備する
ことを特徴とする請求項１１に記載の文書インデキシングクライアント装置。
入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出するステップと、
抽出された前記漢字文字列及び前記カタカナ文字列のうち、２文字以上連続する文字列の出現頻度をカウントするステップと、
前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るステップと、
前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるステップと、
前記対応付けられたキーワード及び前記日本語文書テキストとを格納するステップとを含む
ことを特徴とする文書インデキシング処理をコンピュータに実行させるための方法。
日本語文書テキスト検索用のキーワードをサーバ装置から受信し、該キーワードを表示出力するステップと、
前記表示出力されたキーワードから１のキーワードの選択入力を促すステップと、
選択されたキーワードを前記サーバ装置に送信するステップと、
前記キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力するステップとを含み、
前記受信されるキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなる
ことを特徴とする文書インデキシング処理をコンピュータに実行させるための方法。
文書インデキシング処理をコンピュータに実行させるための文書インデキシングプログラムであって、該プログラムは、前記コンピュータに、
入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別処理と、
抽出された前記漢字文字列及び前記カタカナ文字列のうち、２文字以上連続する文字列の出現頻度をカウントする文字列出現頻度カウント処理と、
前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るキーワード生成処理と、
前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理処理と、
前記対応付けられたキーワード及び前記日本語文書テキストとを格納する文書格納処理とを含む処理を実行させるためのものである
ことを特徴とする文書インデキシングプログラム。
文書インデキシング処理をコンピュータに実行させるための文書インデキシングプログラムであって、該プログラムは、前記コンピュータに、
日本語文書テキスト検索用のキーワードをサーバ装置から受信し、該キーワードを表示出力するキーワード表示処理と、
前記表示出力されたキーワードから１のキーワードの選択入力を促すキーワード選択入力処理と、
選択されたキーワードを前記サーバ装置に送信するキーワード送信処理と、
前記キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力する文書表示処理とを含む処理を実行させるためのものであり、
前記受信されるキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第１の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第２の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなる
ことを特徴とする文書インデキシングプログラム。