JP2007128224A - 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム - Google Patents
文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム Download PDFInfo
- Publication number
- JP2007128224A JP2007128224A JP2005319454A JP2005319454A JP2007128224A JP 2007128224 A JP2007128224 A JP 2007128224A JP 2005319454 A JP2005319454 A JP 2005319454A JP 2005319454 A JP2005319454 A JP 2005319454A JP 2007128224 A JP2007128224 A JP 2007128224A
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- text
- input
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 大量の文書テキスト、殊に既存の日本語文書テキストに対してキーワードを簡易且つ自動的に抽出し、該文書テキストに対して付与し、利用者による文書テキスト検索を容易化する。
【解決手段】 日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部(131)と、抽出された文字列の出現頻度をカウントする文字列出現頻度カウント部(132、134)と、日本語文書テキスト内の各文字列の総数に対して所定比率以上の出現頻度を有する文字列をキーワードとして得るキーワード生成部(133,135)とを具備する。
【選択図】 図1
【解決手段】 日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部(131)と、抽出された文字列の出現頻度をカウントする文字列出現頻度カウント部(132、134)と、日本語文書テキスト内の各文字列の総数に対して所定比率以上の出現頻度を有する文字列をキーワードとして得るキーワード生成部(133,135)とを具備する。
【選択図】 図1
Description
本発明は、文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラムに関する。より詳しくは、文書テキストを管理する文書管理サーバと、該文書テキストを検索及び提示する文書検索装置に実装される、インターネットなどの通信回線を介したデジタル化された文書テキストの検索システムにおいて、大量の文書テキスト、殊に既存の日本語文書テキストに対してキーワードを簡易且つ自動的に抽出し、該文書テキストに対して付与し、もって利用者による文書テキスト検索を容易化するための技術に関する。
近年、企業から、及び個人からの、双方向の情報収集及び情報発信が容易化され、その結果、大量の文書データによる知識集積が進展している。これら大量の文書データは、例えば、インターネット上のWebページからのダウンロードにより、企業内イントラネット上のファイルサーバ中或いはパーソナルコンピュータのハードディスク上への蓄積により、又はメールソフトの受発信済みデータとして得られる。文書データを格納するためのファイル形式は、テキストファイル、アプリケーションが直接アクセスするネイティブファイル、或いは例えばXML、HTML等により構造化されたテキストファイルであってよく、或いはテキストデータを抽出可能なPDFファイルであってもよい。
グループウェア等のソフトウエアが、ネットワークを構成するいずれかのコンピュータに導入され、該コンピュータがファイルサーバを構成すれば、このファイルサーバが保存する共有文書データを含む各種データは、ネットワークに接続される各コンピュータ、すなわちクライアント端末からアクセス可能となる。このグループウエアには、クライアント端末からの要求に応じて、ファイルサーバに蓄積された文書データから、所望の文書データを検索させる機能が備えられる。このグループウエア等が提供する検索機能を利用することにより、利用者は、クライアント端末を介して、ファイルサーバが管理する大量の文書データから、所望の文書データを検索する利用形態が一般的である。或いは、利用者は、自身が管理するパーソナルコンピュータ内やWebページから、これらが提供する検索ツールを用いて、所望の文書データを検索することができる。
ところで、従来における文書データの検索手法は、テキスト全文検索処理が未だ一般的であるが、このテキスト全文検索には、文書データの数や各文書データの容量に比例して、検索時間も長くなり、しばしば実用的検索時間によっては所望の文書データが検索されないという問題がある。
この検索時間を短縮するため、文書データをデータベースに登録する者が、登録すべき文書データに対するキーワード等のメタデータ付与を登録の際に行なう手法が利用されている。所与の文書データを形態素に区切り、その動詞、助詞、助動詞、名詞等の品詞種別を認識して形態素と品詞の対応付けを行なう形態素解析エンジンを介して文書データにインデキシングを行なう手法もまた、利用されている。これらの手法は、Webページ上で既知である多数のサーチエンジンにも同様に実装されている。
しかしながら、文書データをデータベースに登録する際に、こうしたインデキシングが行なわれておらず、従って検索しても見つけられない状態にある文書データが既に大量に存在する。こうした文書データをファイルサーバに保存しても、このファイルサーバがゴミ箱化していくだけで、保存された文書データを再利用することはできない。情報化社会における情報の再利用、再活用を促進するためには、文書データの保存時に、その文書内容に効率的に且つ自動的にインデキシングを施し、このインデキシングをコンピュータに把握させることが要請される。
特開2003−281182は、文書検索装置がインデキシング部を備え、このインデキシング部が、データ収集部から受け取った本文データファイルに対して、形態素解析を実行した後に、インデキシング(目次化)を実行し、この実行結果を、インデックスファイルに登録する技術を開示する。
一方、
特開2003−233613は、ユーザが修正した一般語リストに掲載されていない、ドキュメント中のサブジェクトライン内の候補語を識別する候補見出し語識別システムと、識別された候補見出し語についての語彙的文脈を生成する語彙的文脈システムと、ドキュメントのコレクションについての識別された候補見出し語のセットをランク付けして、これらの中からインデクスに含まれるものを選択するランキングシステムと、ランク付け及び選択の結果に基づいて、選択された候補見出し語を掲載するインデックス作成システムとを開示する。
しかしながら、特許文献1に開示された技術では、文書データに対するインデキシングを、形態素解析エンジンを用いて行なうものであり、この形態素解析エンジン用辞書に存在していないキーワードを認識することはできない。
また、特許文献2に開示された技術では、辞書作成にあたって上記語彙的文脈を用いるため、同様に辞書に依存してしまい、効率化及び精度両面での課題を残す。
もとより、テキストデータの全文検索は、非常に高負荷処理であって、実用的検索時間内には所望の文書データを検索することは著しく困難である。しかるに、この検索時間を短縮化するには、人手を介在させて、文書データ登録時にキーワードを抽出し、このキーワード群を検索時に参照される辞書として生成する、或いはXML方式等によるメタデータ作成を行なうという登録時の処理を要し、こうした登録時の人手による処理は文書データのファイルサーバ等への自動登録を阻害するともに、既に蓄積されている膨大な文書データを再利用することを実質的に不可能とする。
本発明は、上記課題に鑑みてされたものであり、その目的は、所与の文書テキストデータに対して、簡易且つ自動的にインデキシングを行い、辞書或いは人的ノウハウのいずれにも依存することなく、キーワードメタデータを簡易且つ低コストで自動発生させ、利用者の文書テキストデータ検索を容易化することの可能な文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラムを提供することにある。
また、本発明の他の目的は、文書テキストデータ内の重要語を自動的に抽出することにより、文書のアウトライン(要約)を自動的に生成したり、或いは当該重要語を非開示として半開示文書データを自動的に生成し、文書テキストデータの再利用を大幅に促進することのできる文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラムを提供することにある。
本発明の原理は、文書テキストデータ、特に2バイト文字コード体系を有する例えば日本語文書テキストデータから、各文字に割り当てられた文字コードを用いて文書テキスト中の文字種別、例えば漢字及びカタカナを識別し、識別された文字種別ごとに区切られた文字列から、文書テキスト内における出現頻度の高い文字列を自動認識し、出現頻度の高い文字列をキーワードとして抽出することによって、文書テキストデータに自動的にインデキシングを行なうものである。
本発明によりインデキシング可能な文書テキストデータは、2バイトコードで記述される例えば日本語文書テキストデータが好適であるが、その入力ファイル形式は、テキストファイルの他、アプリケーションが直接アクセスするネイティブファイルや、例えばXML、HTML等により構造化されたテキストファイルであってよく、或いはテキストデータを抽出可能なPDFファイルであってもよい。
また、識別されるべき文字種別は、漢字、カタカナに加えて、あるいはこれらに替えて、必要に応じ、ひらかな、アルファベット等であってよい。
本発明によれば、文章テキストデータの登録時に、予め登録者によるキーワード付与や辞書登録を要することがなく、またこの辞書を用いた意味認識、形態素解析等の高負荷の処理を要することがない。このため、文書テキストデータの登録時におけるインデキシングが完全に自動化され、登録された文書テキストデータの利用者による検索が容易化する。特に、すでに蓄積されている大量の文書テキストデータに自動的にインデキシングすることが可能となるので、既存文書データの再利用に資する。さらに、文書の意味認識を必要としないので、新たな語彙が生じた場合にあっても、本発明に係るインデキシングシステムをメンテナンスする必要は生じ得ない。
本発明のある特徴によれば、入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部と、抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現頻度をカウントする文字列出現頻度カウント部と、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るキーワード生成部と、前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理部と、前記対応付けられたキーワード及び前記日本語文書テキストとを格納する文書格納部とを具備することを特徴とする文書インデキシングサーバ装置が提供される。
前記キーワード生成部は、前記第1又は第2の所定比率以上の出現頻度を有する文字列が、所定数得られない場合には、前記出現頻度の高い文字列を、前記キーワードとして得てよい。
前記文字コード識別部は、さらに、前記入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、ひらかな文字列を抽出し、前記文字列出現頻度カウント部は、さらに、抽出された前記ひらかな文字列のうち、2文字以上連続する文字列の出現頻度をカウントし、前記キーワード生成部は、さらに、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第3の所定比率或いは所定出現回数以上の出現頻度を有するひらかな文字列をキーワードとして得てよい。
前記文字コード識別部は、さらに、前記入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、アルファベット文字列を抽出し、前記文字列出現頻度カウント部は、さらに、抽出された前記アルファベット文字列のうち、2文字以上連続する文字列の出現頻度をカウントし、前記キーワード生成部は、さらに、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第4の所定比率或いは所定出現回数以上の出現頻度を有するアルファベット文字列をキーワードとして得てよい。
上記文書インデキシングサーバ装置は、さらに、入力されたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられたキーワードとを比較し、前記入力されたキーワードと一致するキーワードを最も多く含む日本語文書テキストを検索し、検索された日本語文書テキストを、クライアント装置に送出するキーワード管理部を具備してよい。
上記文書インデキシングサーバ装置は、さらに、前記入力された日本語文書テキストから、前記生成されたキーワードを2以上含む文章を文書アウトラインとして得るアウトライン生成部と、前記得られた文書アウトラインと前記日本語文書テキストとを対応付けるとともに、前記キーワード管理部において、検索された日本語文書テキストに対応付けられた文書アウトラインを、クライアント装置に送出するアウトライン管理部とを具備してよい。
前記アウトライン管理部は、前記キーワード管理部により検索された日本語文書テキストが2以上である場合に、前記アウトラインを前記クライアント装置に送出してよい。
上記文書インデキシングサーバ装置は、さらに、見出し用語及び該見出し用語の解説文からなる構造化日本語文書テキストを入力する文書入力部を具備し、
前記文字コード識別部は、入力された構造化日本語文書テキストの前記解説文から文字列を抽出し、前記キーワード管理部は、前記入力されたキーワードと一致するキーワードを最も多く含む構造化日本語文書テキストの解説文を検索し、検索された解説文及び該解説文の見出し用語を、クライアント装置に送出してよい。
前記文字コード識別部は、入力された構造化日本語文書テキストの前記解説文から文字列を抽出し、前記キーワード管理部は、前記入力されたキーワードと一致するキーワードを最も多く含む構造化日本語文書テキストの解説文を検索し、検索された解説文及び該解説文の見出し用語を、クライアント装置に送出してよい。
前記キーワード管理部は、前記キーワード生成部により得られたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられたキーワードとを比較し、前記キーワード生成部により得られたキーワードと一致するキーワードを最も多く含む日本語文書テキストを検索し、検索された日本語文書テキストを、クライアント装置に送出してよい。
本発明の他の特徴によれば、日本語文書テキスト検索用のキーワードをサーバ装置から受信し、該キーワードを表示出力するキーワード表示部と、前記表示出力されたキーワードから1のキーワードの選択入力を促すキーワード選択入力部と、選択されたキーワードを前記サーバ装置に送信するキーワード送信部と、前記キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力する文書表示部とを具備し、前記受信されるキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなることを特徴とする文書インデキシングクライアント装置が提供される。
本発明の他の特徴によれば、自由キーワードを入力し、入力された自由キーワードをサーバ装置に送信する自由キーワード入力部と、入力された自由キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力する文書表示部とを具備し、前記受信される日本語文書テキストは、前記入力された自由キーワードと、前記サーバ装置上で格納された日本語文書テキストに対応付けられたキーワードとを比較し、前記入力されたキーワードと一致するキーワードを最も多く含む日本語文書テキストであり、前記日本語文書テキストに対応付けられたキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキストで第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなることを特徴とする文書インデキシングクライアント装置が提供される。
上記文書インデキシングクライアント装置は、さらに、前記入力された自由キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストの文書アウトラインを受信し、表示出力する文書アウトライン表示部と、前記表示出力された文書アウトラインから1の文書アウトラインの選択入力を促す文書アウトライン選択入力部と、選択された文書アウトラインを前記サーバ装置に送信する文書アウトライン送信部とを具備してよい。
本発明の他の特徴によれば、入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出するステップと、抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現頻度をカウントするステップと、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るステップと、前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるステップと、前記対応付けられたキーワード及び前記日本語文書テキストとを格納するステップとを含むことを特徴とする文書インデキシング処理をコンピュータに実行させるための方法が提供される。
本発明の他の特徴によれば、日本語文書テキスト検索用のキーワードをサーバ装置から受信し、該キーワードを表示出力するステップと、前記表示出力されたキーワードから1のキーワードの選択入力を促すステップと、選択されたキーワードを前記サーバ装置に送信するステップと、前記キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力するステップとを含み、前記受信されるキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなることを特徴とする文書インデキシング処理をコンピュータに実行させるための方法が提供される。
本発明の他の特徴によれば、文書インデキシング処理をコンピュータに実行させるための文書インデキシングプログラムであって、該プログラムは、前記コンピュータに、入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別処理と、抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現頻度をカウントする文字列出現頻度カウント処理と、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るキーワード生成処理と、前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理処理と、前記対応付けられたキーワード及び前記日本語文書テキストとを格納する文書格納処理とを含む処理を実行させるためのものであることを特徴とする文書インデキシングプログラムが提供される。
本発明の他の特徴によれば、文書インデキシング処理をコンピュータに実行させるための文書インデキシングプログラムであって、該プログラムは、前記コンピュータに、日本語文書テキスト検索用のキーワードをサーバ装置から受信し、該キーワードを表示出力するキーワード表示処理と、前記表示出力されたキーワードから1のキーワードの選択入力を促すキーワード選択入力処理と、 選択されたキーワードを前記サーバ装置に送信するキーワード送信処理と、前記キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力する文書表示処理とを含む処理を実行させるためのものであり、前記受信されるキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなることを特徴とする文書インデキシングプログラムが提供される。
本発明によれば、文章テキストデータの登録時に、文書テキストデータから重要キーワードを文字コードのみに基づいて判別することにより自動的にインデキシングを実行する。このため、予め登録者によるキーワード付与や辞書登録を要することがなく、またこの辞書を用いた意味認識、形態素解析等の処理を要することがない。従って、文書テキストデータに簡易且つ自動的にインデキシングすることができ、登録された文書テキストデータの利用者による検索が容易化する。特に、すでに蓄積されている大量の文書テキストデータに自動的にインデキシングすることが可能となるので、既存文書データの再利用に資する。さらに、文書の意味認識を必要としないので、新たな語彙が生じた場合にあっても、本発明に係るインデキシングシステムをメンテナンスする必要は生じ得ないという利点が得られる。
また、例えば顧客の声や収集したヒアリング情報、演説内容や記事内容の分析、時系列変化を文書から分析するテキスト・マイニング等においても、従来は辞書を参照した文書の意味認識を必要としてきたところ、本発明によれば、文字コードからのみ重要語を判別することで、これらの処理を実行し、辞書登録を要することなく情報活用を実現することが可能となる。
さらに、文書内の重要語が自動抽出されるので、抽出された重要語を非開示として、販売促進用或いはサンプル用途の半開示文書データを自動的に生成することも可能となる。
従って、利用者による文書データ検索における利便性が向上するとともに、蓄積された大量の既存文書データの再利用が促進される。
以下、図面を参照して、本発明の実施の形態を説明する。
第1の実施形態
<第1の実施形態の構成>
図1は、本発明の第1の実施形態に係る文書管理サーバ1及びクライアントコンピュータ2を具備する文書インデキシングシステムの一構成例を示す。
<第1の実施形態の構成>
図1は、本発明の第1の実施形態に係る文書管理サーバ1及びクライアントコンピュータ2を具備する文書インデキシングシステムの一構成例を示す。
文書管理サーバ1は、インデキシングされるべき検索対象の文書テキストデータを格納する外部記憶装置である文書データベース11と、インデキシングされるべき検索対象の文書テキストデータを入力する文書入力部12と、入力された文書テキストデータからキーワードを自動抽出するキーワード自動抽出部13と、インデキシングされた文書テキストデータと抽出されたキーワードとの対応付け及び記憶保持を管理するキーワード管理部14と、キーワードが付与された文書データを外部記憶装置であるキーワード付与文書データベース16に格納すると共に、入力された管理キーワードと一致するキーワードが付与された文書テキストデータをキーワード付与文書データベース16から検索する文書格納部15と、クライアントコンピュータ2からの管理キーワード入力を受け付け、キーワード管理部14に受け渡す管理キーワード入出力部17と、検索された文書テキストデータをクライアントコンピュータ2に出力制御する文書送信管理部18とを具備する。なお、本明細書において「管理キーワード」とは、キーワード自動抽出部13により入力文書テキストデータから抽出され、キーワード付与文書データベース16に該文書テキストデータと対応付けて記憶されるキーワードを意味する。また、当然ながら、本実施形態は、文書入力部12に入力される入力手段を文書データベース11に限定するものではない。この入力手段は、文書データベース11の他、直接文書データの入力を受け付ける手段の他、例えばCD−ROM、DVD、MO等任意の外部記録媒体に記録された文書データを読み込み、入力として受け付けてもよい。
キーワード自動抽出部13は、より詳細には、入力文書テキストデータの各文字の文字コードを文字種別ごと分類するコード別文字分類部131と、漢字に分類された文字列から連続する漢字文字列の出現頻度をカウントする漢字ラン出願頻度カウンタ132と、連続する漢字文字列のそれぞれの出現頻度に基づいて漢字キーワードを抽出する漢字キーワード抽出部133と、カタカナに分類された文字列から連続するカタカナ文字列の出現頻度をカウントするカタカナラン出現頻度カウンタ134と、連続するカタカナ文字列のそれぞれの出現頻度に基づいてカタカナキーワードを抽出するカタカナキーワード抽出部135と、抽出された漢字キーワード及びカタカナキーワードを入力文書テキストデータに対応付けてキーワード管理部14に出力する文書・キーワード群対応付け部136とを具備する。
文書管理サーバ1と、クライアントコンピュータ2とは、例えばインターネットやLANなどのネットワーク3を介して、相互に接続される。或いは代替的に、図1における文書管理サーバ1とクライアントコンピュータ2との機能を一体とし、1つのコンピュータに実装してもよい。
一方、クライアントコンピュータ2は、文書管理サーバ1において管理されるキーワード付与文書データベース16に格納された文書テキストデータに付与されたキーワードをクライアントコンピュータ2に出力させるよう、管理キーワード入出力部17に要求するキーワード提示要求部21と、管理キーワード入出力部17からの管理キーワードの一覧を受信し、クライアントコンピュータ2上に提示制御する管理キーワード一覧提示部22と、一覧提示された管理キーワードからのキーワードの選択入力を受け付けるキーワード選択指示部23と、選択されたキーワードを指示キーワードとして管理キーワード入出力部17に送出する指示キーワード送付部24と、文書送信管理部18から受信される指示キーワードに対応付けられた文書テキストデータを受信する文書受信管理部25と、受信された文書テキストデータを利用者に提示するディスプレイ部26とを具備する。
なお、本実施形態は、利用者がキーワード提示要求部21及びキーワード選択指示部23を介して行なう入力方式及び手段を特に限定するものではない。これら入力手段は、利用者からの直接入力を受け付けてもよく、あるいは例えばUSBメモリやICカードなどに例示される外部記録媒体に記憶されたシーケンスを入力として受け付けてもよく、また任意のファイルとして予め格納されたデータを入力として受け付けてもよい。
さらに、図1においては、クライアントコンピュータ2において、管理キーワード提示要求並びにキーワード選択の入力を受け付け、文書管理サーバ1に送信し、検索された文書テキストデータを、同じクライアントコンピュータ2において受信及び再生する構成が図示されるが、これに替えて、管理キーワード提示要求並びにキーワード選択入力を受け付け、文書管理サーバ1に送信する要求入力端末と、文書管理サーバ1から送信される文書テキストデータを受信及び表示出力する文書提示端末とが異なるコンピュータ装置であってもよい。要求入力端末としては、例えば、携帯電話や携帯情報端末(PDA)を用いて入力を受け付けてよく、あるいはネットワーク接続可能なICカードリーダなどを用いてICカードからのシーケンスを受け付け、他のクライアントコンピュータにおいて、文章テキストデータを受信して表示出力してもよい。
<第1の実施形態における文書テキストデータ登録処理>
図1を参照し、文書管理サーバ1により管理されるべき文書テキストデータは、まず文書管理サーバ1の文書入力部12に入力され、キーワード自動抽出部13に受け渡される。キーワード自動抽出部13内において、まず入力文書中の漢字のみが、漢字の連続性を維持したまま抽出される。
図1を参照し、文書管理サーバ1により管理されるべき文書テキストデータは、まず文書管理サーバ1の文書入力部12に入力され、キーワード自動抽出部13に受け渡される。キーワード自動抽出部13内において、まず入力文書中の漢字のみが、漢字の連続性を維持したまま抽出される。
第1の実施形態において、漢字、及び後述するカタカナは、いずれも文字コードのレベルで識別される。このため、文字種別の識別のために特別な処理を必要としない。文字には、それぞれ対応する文字コードが定義されており、例えば日本語を扱う上での文字コードの規格には、JISやUnicodeなど複数存在する。どの文字コード規格においても、漢字、カタカナ、ひらかな、アルファベットはそれぞれ特定のコード領域内にまとまった状態で収納されている。例えば、Unicodeeの場合、漢字(CJK Unified Ideographs)はU+4E00〜U+9FBF、カタカナはU+30A0〜U+30FF、ひらかなはU+3040〜U+309F、アルファベット(C0 Controls and Basic Latin)はU+0000〜U+007Fのコード領域で定義されるため、入力文字がこれらのコード領域のいずれに該当するかだけを識別すれば足りる。
各文字の文字コードを識別して、現在の文字種別が変化するごとに、文字列を区切って切り出すことにより、漢字の連続性を維持したまま抽出された文字列は、漢字ラン出現頻度カウンタ132に入力され、この漢字ラン出現頻度カウンタ132は、入力文書テキスト全体に対する連続する漢字の組み合わせ、すなわち連続する漢字文字列の出現頻度をカウントする。本明細書において、このような連続する漢字文字列を、「漢字ラン」と称する。例えば、「彼は病気勝ちだったにもかかわらず、前向きに生き、トランジスタ工学の大いなる発展と、トランジスタ産業の育成に大きな功績を上げた。」という文書がキーワード自動抽出部13に入力されたと仮定すると、漢字ラン出現頻度カウンタ132は、「彼」、「病気勝」、「前向」、「生」、「工学」、「進展」、「産業」、「育成」、「大」、「功績」、「上」がそれぞれ漢字ランである。このようなランに属する文字数を、以下「ラン長」と称する。上記の例では、ラン「大」のみが出現頻度2であり、他のランはすべて出現頻度1である。漢字ラン出現頻度カウンタ132に入力される漢字が、1字で孤立したもの、すなわち文書テキスト中で前後には漢字以外の文字種別の字が配列されている漢字は、ラン長1のランとして、同種の文字種別に属する連続する文字はその最大長の組み合わせを1つのランとして取り出す。漢字ラン出現頻度カウンタ132は、これらのランの出現頻度をカウントする。より詳細には、漢字ラン出現頻度カウンタ132は、一時記憶領域においてテーブル等を備え、新たなランを取り出すと、このランがテーブルに存在するか否かを判定し、存在すれば当該ランのカウントを+1とし、存在しなければ新たなランとしてテーブルに新たなエントリーを追加する。
次に、漢字キーワード抽出部133は、漢字ラン出現頻度カウンタ132が出力する漢字ランの中から、ラン長2以上の漢字ランのみを取り出して、その出現頻度を再カウントし、その出現頻度がラン長2以上の漢字ラン全数の例えば1.5%を超える漢字ランを漢字キーワードとして抽出する。或いは代替的に、この入力文書テキスト中の漢字ラン全数に対するあるランの出現頻度の閾値を可変に構成し、例えば1%から2%の範囲に設定してもよい。さらに代替的に、入力文書テキストの文書種別(例えば、小説、学術論文、口頭による演説・講演等)に応じて、出現頻度の閾値を再帰的に最適化し、1%未満或いは2%を超える範囲に設定可能としてもよい。
この出現頻度を、漢字キーワード抽出の閾値として利用する場合には、入力日本語文字テキスト中の漢字文字列の総数、日本語文字テキスト文書全体の文字数、または日本語テキスト全体の中の漢字の総数のいずれかを分母とし、これに対しての当該漢字文字列の出現比率を算出してよい。
カタカナラン出現頻度カウンタ134は、文書テキストデータ中のカタカナラン、すなわち連続するカタカナのみの文字列の、それぞれの出現頻度を、漢字ラン出現頻度カウンタ132と同様の手法でカウントする。上記の文書例では、「トランジスタ」のみがカタカタランであり、その出現頻度は2である。
カタカナキーワード抽出部135は、カタカナラン出現頻度カウンタ134が出力するカタカナランの中から、出現頻度が例えば5%を超えるカタカナランをカタカナキーワードとして抽出する。或いは代替的に、この入力文書テキスト中のカタカナラン全数に対するあるランの出現頻度の閾値を可変に構成し、例えば3%から7%の範囲に設定してもよい。さらに代替的に、入力文書テキストの文書種別(例えば、小説、学術論文、口頭による演説・講演等)に応じて、出現頻度の閾値を再帰的に最適化し、3%未満或いは7%を超える範囲に設定可能としてもよい。
この出現頻度を、カタカナキーワード抽出の閾値として利用する場合には、入力日本語文字テキスト中のカタカナ文字列の総数、日本語文字テキスト文書全体の文字数、または日本語テキスト全体の中のカタカナの総数のいずれかを分母とし、これに対しての当該カタカナ文字列の出現比率を算出してよい。後述するひらかな、アルファベットの場合も同様に出現比率を算出することができる。
なお、他の文字種別、例えばひらかな、アルファベットについても、上記と同様にキーワード抽出をすることができるが、その閾値はそれぞれ異なる数値となり得る。すなわち、キーワードとして抽出するか否かは、当該文字種別に属するランの総数に対する当該ランの出現数の比率(出現頻度)により決定され、例えば、好適には、漢字は1.5%以上、カタカナは5%以上、ひらかなは10%以上、アルファベットは5%以上に、キーワード抽出の閾値が設定されてよい。この閾値を大きくすれば抽出されるキーワード数が減少し、逆に閾値を小さくすれば抽出されるキーワード数が増加する。例えば、漢字の場合、ラン長2であり、且つ出現数1の漢字ランが多いため、閾値を小さく設定することが好ましい。カタカナの場合、カタカナは1つの単語として抽出されやすく、一般的にはそのランの種類も少ないので、5%と漢字の場合より閾値を大きく設定することが好ましい。一般には、ひらかなキーワードの抽出が最も困難であり、本来の単語の前後に助詞、接続詞等が付加されて抽出される傾向を考慮して、2%と小さな閾値とすることが好ましいが、いずれにしてもひらかなランの利用は限定的とするのが好ましい。アルファベットの場合、カタカナと同様、雑音が少なく、1つの単語として抽出されやすいため、5%と設定することが好ましく、殊に例えば学術的文書の場合に有効である。しかしながら、これらの閾値は、キーワードの具体的用途や、文書テキストの種別等に応じて可変であり、キーワード抽出の閾値にいかなる具体的数値を設定するかは、本発明の要旨の画定には影響しない。
次に、文書・キーワード群対応付け部136は、入力された文書テキストデータと、漢字キーワード抽出部133及びカタカナキーワード抽出部135により抽出されたキーワード群とを対応付ける。
キーワード管理部14は、入力された文書テキストデータに対応付けられたキーワード群を、文書格納部15は、入力された文書テキストデータ自体を、それぞれキーワード付与文書データベース16に格納する。或いは代替的に、キーワード管理部14は、キーワード付与文書データベース16以外の別の記憶媒体に、好適にはより高速なアクセス速度が保証される一時記憶媒体等の記憶媒体に、文書テキストデータに対応付けられたキーワード群を保持記憶してもよい。
図2Aから図2Eは、例示的に、実際の文学書のそれぞれにおける漢字ランの出現頻度を示す。図2Aにおいて、入力文書テキストが「母を訪ねて三千里」の場合、「自分」、「底本」、「母親」、「一人」、「主人」、「父親」、「親方」、「医者」などが漢字キーワードとして抽出される。図2Bにおいて、入力文書テキストが「走れメロス」の場合、「出来」のみが、第1の実施形態において抽出される漢字キーワードである。図2Eにおいて、入力文書テキストが「吾輩は猫である」の場合、「主人」と「吾輩」とが漢字キーワードとして抽出される。
図3Aから図3Eは、例示的に、図2の文学書のそれぞれにおけるカタカナランの出現頻度を示す。図3Aにおいて、入力文書テキストが「母を訪ねて三千里」の場合、「コルドバ(出現回数17回、出現頻度11.9%)」、「メキネズ(出現回数15回、出現頻度10.55%)」、「ツークーマン(出現回数11回、出現頻度7.7%)」、「ジェノア(出現回数10回、出現頻度7%)」「アメリカ(出現回数8回、出現頻度5.66%)」、「イタリイ」(出現回数8回、出現頻度5.6%)がカタカナキーワードとして抽出される。図3Bにおいて、入力文書テキストが「走れメロス」の場合、「ディオンス(出現回数3回、出現頻度60%)」、「アレキス(出現回数1回、出現頻度20%)」、「シルレル(出現回数1回、出現頻度20%)」がカタカナキーワードとして抽出される。
図4Aから図4Hは、例示的に、朝日新聞の社説における漢字ラン及びカタカナランの出現頻度を示す。図4Aにおいて、050706_1(2005年7月6日の社説)の例では、「首相(出現回数7回、出現頻度4.7%)」、「反対(出現回数6回、出現頻度4.0%)」、「党内(出現回数5回、出現頻度3.3%)」、「法案(出現回数3回、出現頻度2.0%)」、「派閥(出現回数5回、出現頻度2.0%)」、「執行部(出現回数3回、出現頻度2.0%)」「自民党(出現回数3回、出現頻度2.0%)」、などが漢字キーワードとして抽出される。図4Dにおいて、050709_2(2005年7月9日の社説)の例では、漢字キーワードとして「組織(出現回数3回、出現頻度2.6%)」「世界(出現回数3回、出現頻度2.6%)」、「犯行(出現回数2回、出現頻度1.7%)」、「宗教(出現回数2回、出現頻度1.7%)」、「国際(出現回数2回、出現頻度1.7%)」、「攻撃(出現回数2回、出現頻度1.7%)」、「寛容(出現回数2回、出現頻度1.7%)」、が抽出され、一方「テロ(出現回数17回、出現頻度38.6%)」、「イスラム(出現回数6回、出現頻度13.6%)」、「ロンドン(出現回数3回、出現頻度6.8%)」、「イラク(出現回数3回、出現頻度6.8%)」、「イラク(出現回数2回、出現頻度4.5%)」「アルカイダ(出現回数2回、出現頻度4.5%)」などのカタカナキーワードも多く抽出されることが理解される。
変形例として、キーワード抽出のための、出現頻度の閾値の初期値を、上記の値より大きく設定し、該当するランが存在するにもかかわらずキーワードとして抽出されない場合には、キーワードとして抽出されるまでこの閾値を小さくなるよう調整してもよい。さらに、小さく調整した後もキーワードが抽出されない場合には、出現回数の比率(出現頻度)に替えて、或いは出現頻度と共に、出現回数の上位から所定番目までのランをキーワードとして抽出するよう構成してもよい。例えば、図2Eにおいて、入力文書テキストが「吾輩は猫である」の場合、出現回数が1である漢字の熟語が数千個あり、このため大部分の漢字文字列(漢字ラン)の出現頻度が1%以下として検出される。この場合、上位から例えば10番目までの漢字ランがキーワードとして抽出されるよう構成されてよい。
<第1の実施形態における文書テキストデータ検索処理>
図1を参照し、文書を検索しようとする利用者は、クライアントコンピュータ2のキーワード提示要求部21に、キーワード付与文書データベース16に格納された文書テキストデータに付与されたキーワードの一覧表示の要求を入力する。この要求入力は、例えばキーボード或いはマウス等のポインティングデバイスを使用して行なわれてよい。一覧表示要求を受け付けたキーワード提示要求部21は、文書管理サーバ1の管理キーワード入出力部17に、入力されたキーワード一覧表示要求を送信する。
図1を参照し、文書を検索しようとする利用者は、クライアントコンピュータ2のキーワード提示要求部21に、キーワード付与文書データベース16に格納された文書テキストデータに付与されたキーワードの一覧表示の要求を入力する。この要求入力は、例えばキーボード或いはマウス等のポインティングデバイスを使用して行なわれてよい。一覧表示要求を受け付けたキーワード提示要求部21は、文書管理サーバ1の管理キーワード入出力部17に、入力されたキーワード一覧表示要求を送信する。
文書管理サーバ1において、管理キーワード入出力部17は、キーワード管理部14が管理保持するキーワードの一覧を受け取り、この管理キーワード一覧を、クライアントコンピュータ2の管理キーワード一覧提示部22に送出する。クライアントコンピュータ2において、管理キーワード一覧提示部22は、ディスプレイ部26を介して、受信した管理キーワード一覧を表示制御する。利用者は、一覧表示された管理キーワードの中から、所望する文書に関係が深そうなキーワードを1個或いは複数個選択し、キーワード選択指示部23を介して入力する。この選択入力の手法は、ディスプレイ上に表示されるキーワードをマウス等のポインティングデバイスでクリック等してもよく、或いは代替的に、カーソルを上下左右にキーで移動させ、所望のキーワード上にカーソルを位置付けて、この位置で例えばスペースキー等によりキーワード選択を指示してもよい。指示されたキーワード(或いはキーワード群)は、指示キーワード送付部24を介して文書管理サーバ1の管理キーワード入出力部17に送出される。キーワード管理部14は、管理キーワード入出力部17に入力された指示キーワード(或いはキーワード群)を、キーワード付与文書データベース16に格納されるそれぞれの文書テキストのキーワード群と比較し、例えば指示されたキーワードを最も多く含むキーワード群を有する1つ或いは複数の文書テキストデータを選択し、キーワード付与文書データベース16から選択された文書テキストデータを読み出し、文書送信管理部18を介して、クライアントコンピュータ2側の文書受信管理部25に送出される。文書受信管理部25により受信された文書テキストデータは、ディスプレイ部26を介して、利用者に表示出力される。
なお、第1の実施形態では、一例として、まず漢字キーワードを抽出し、次いでカタカナキーワードを抽出するキーワード自動抽出処理を開示したが、代替的に、これらの処理を並列に同時実行してもよく、カタカナキーワード抽出処理を先行して実行してもよく、或いはこれらのうちいずれか1種類を必要に応じて実行してもよい。さらに、ひらかなキーワード抽出処理及び/又はアルファベットキーワード抽出処理を、漢字キーワード抽出処理及びカタカナキーワード抽出処理と共に実行してもよく、この場合いずれの文字種別のキーワード抽出から順次実行してもよく、或いはすべてのキーワード抽出処理を並列に同時実行してもよい。これらの変形例のいずれも本発明の開示に含まれることは言うまでもない。
<本実施形態に係る文書インデキシングシステムのハードウエア構成>
図11は、第1の実施形態に係る文書管理サーバ1及び/又はクライアントコンピュータ2のハードウエア構成の一例を示すブロック図である。図11に示されるコンピュータ装置110である文書管理サーバ1及び/又はクライアントコンピュータ2において、CPU111は、ROM114および/またはハードディスクドライブ116に格納されたプログラムに従い、RAM115を一次記憶用ワークメモリとして利用して、システム全体を制御する。さらに、CPU111は、マウス112aまたはキーボード112を介して入力される利用者の指示に従い、ハードディスクドライブ116に格納されたプログラムに基づき、第1の実施形態に係る文書インデキシング処理を実行する。ディスプレイインタフェイス113には、CRTやLCDなどのディスプレイが接続され、CPU111が実行する文書インデキシング処理の入力待ち受け画面、処理経過や処理結果、検索結果である文章テキストデータなどが表示される。リムーバブルメディアドライブ117は、主に、リムーバブルメディアからハードディスクドライブ116へファイルを書き込んだり、ハードディスクドライブ116から読み出したファイルをリムーバブルメディアへ書き込む場合に利用される。リムーバブルメディアとしては、フロッピディスク(FD)、CD−ROM、CD−R、CD−R/W、DVD−ROM、DVD−R、DVD−R/W、DVD−RAMやMO、あるいはメモリカード、CFカード、スマートメディア、SDカード、メモリスティックなどが利用可能である。
図11は、第1の実施形態に係る文書管理サーバ1及び/又はクライアントコンピュータ2のハードウエア構成の一例を示すブロック図である。図11に示されるコンピュータ装置110である文書管理サーバ1及び/又はクライアントコンピュータ2において、CPU111は、ROM114および/またはハードディスクドライブ116に格納されたプログラムに従い、RAM115を一次記憶用ワークメモリとして利用して、システム全体を制御する。さらに、CPU111は、マウス112aまたはキーボード112を介して入力される利用者の指示に従い、ハードディスクドライブ116に格納されたプログラムに基づき、第1の実施形態に係る文書インデキシング処理を実行する。ディスプレイインタフェイス113には、CRTやLCDなどのディスプレイが接続され、CPU111が実行する文書インデキシング処理の入力待ち受け画面、処理経過や処理結果、検索結果である文章テキストデータなどが表示される。リムーバブルメディアドライブ117は、主に、リムーバブルメディアからハードディスクドライブ116へファイルを書き込んだり、ハードディスクドライブ116から読み出したファイルをリムーバブルメディアへ書き込む場合に利用される。リムーバブルメディアとしては、フロッピディスク(FD)、CD−ROM、CD−R、CD−R/W、DVD−ROM、DVD−R、DVD−R/W、DVD−RAMやMO、あるいはメモリカード、CFカード、スマートメディア、SDカード、メモリスティックなどが利用可能である。
プリンタインタフェイス118には、レーザビームプリンタやインクジェットプリンタなどのプリンタが接続される。ネットワークインタフェイス119は、コンピュータ装置をネットワークへ接続するためのインターフェースである。
なお、第1の実施形態に係る文書管理サーバ1及び/又はクライアントコンピュータ2における入力手段は、マウス112aあるいはキーボード112に限定されることなく、任意のポインティングデバイス、例えばトラックボール、トラックパッド、タブレットなどを適宜用いることができる。携帯情報端末を上記各実施形態に係るクライアントコンピュータ2として用いる場合には、入力部をボタンやモードダイヤル等で構成してもよい。
また、図11に示した第1の実施形態に係る文書管理サーバ1及び/又はクライアントコンピュータ2のハードウエア構成は一例に過ぎず、その他の任意のハードウエア構成を用いることができることはいうまでもない。
殊に、第1の実施形態に係る文書インデキシング処理の全部又は一部は、上記コンピュータ端末装置100あるいはPDA等の携帯情報端末装置等によって実現されてもよく、コンピュータ端末装置等とサーバー装置とをBluetooth(登録商標)等の無線、あるいはインターネット(TCP/IP)、公共電話網(PSTN)、統合サービス・ディジタル網(ISDN)等の有線通信回線で相互接続した、インターネットあるいは任意の周知のローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)からなるネットワークシステムによってコンテンツ提示処理が実現されてもよい。例えば、PDA等の携帯情報端末装置がキーワードの一覧提示要求及びキーワード指示要求を文書管理サーバ1に対して送信し、文書管理サーバ1は、所定の或いは要求された識別子のクライアントコンピュータ2に対して、文書テキストデータを配信してもよい。
以上のとおり、第1の実施形態によれば、文章テキストデータの登録時に、文書テキストデータから重要キーワードを文字コードのみに基づいて判別することにより自動的にインデキシングを実行する。このため、予め登録者によるキーワード付与や辞書登録を要することがなく、またこの辞書を用いた意味認識、形態素解析等の処理を要することがない。従って、文書テキストデータに簡易且つ自動的にインデキシングすることができ、登録された文書テキストデータの利用者による検索が容易化する。特に、すでに蓄積されている大量の文書テキストデータに自動的にインデキシングすることが可能となるので、既存文書データの再利用に資する。さらに、文書の意味認識を必要としないので、新たな語彙が生じた場合にあっても、本発明に係るインデキシングシステムをメンテナンスする必要は生じ得ないという利点が得られる。
第2の実施形態
図5を参照して、本発明の第2の実施形態を、第1の実施形態と相違する点についてのみ説明する。第2の実施形態は、文書テキストデータのアウトラインを自動生成し、利用者が入力した自由キーワード(フリーキーワード)と実質的に一致する管理キーワードを含む文書テキストデータのアウトラインを利用者に一覧提示し、利用者により選択されたアウトラインに対応する文書テキストデータを検索結果として、クライアントコンピュータ2に出力する。
図5を参照して、本発明の第2の実施形態を、第1の実施形態と相違する点についてのみ説明する。第2の実施形態は、文書テキストデータのアウトラインを自動生成し、利用者が入力した自由キーワード(フリーキーワード)と実質的に一致する管理キーワードを含む文書テキストデータのアウトラインを利用者に一覧提示し、利用者により選択されたアウトラインに対応する文書テキストデータを検索結果として、クライアントコンピュータ2に出力する。
<第2の実施形態の構成>
図5は、本発明の第2の実施形態に係る文書管理サーバ1及びクライアントコンピュータ2を具備する文書インデキシングシステムの一構成例を示す。
図5は、本発明の第2の実施形態に係る文書管理サーバ1及びクライアントコンピュータ2を具備する文書インデキシングシステムの一構成例を示す。
文書管理サーバ1は、第1の実施形態と同様、インデキシングされるべき検索対象の文書テキストデータを入力する文書入力部12と、入力された文書テキストデータからキーワードを自動抽出するキーワード自動抽出部13と、インデキシングされた文書テキストデータと抽出されたキーワードとの対応付け及び記憶保持を管理するキーワード管理部14と、キーワードが付与された文書データを外部記憶装置であるアウトライン・キーワード付与文書データベース38に格納すると共に、入力された管理キーワードと一致するキーワードが付与された文書テキストデータをアウトライン・キーワード付与文書データベース38から検索する文書格納部15と、検索された文書テキストデータをクライアントコンピュータ2に出力制御する文書送信管理部18とを具備する。或いは代替的に、キーワード自動抽出部13を、文書キーワード抽出装置である別体のコンピュータに実装し、この文書キーワード抽出装置により抽出されたキーワード群と、これらに対応付けられた文書テキストとの対が、文書管理サーバ1の文書入力部12に入力されるよう構成されてもよい。
第2の実施形態において、文書管理サーバ1は、さらに、キーワード管理部14から出力されるキーワード群に基づいて、文書のアウトラインを自動生成する文書アウトライン作成部31と、生成されたアウトラインと、当該アウトラインの本文である文書テキストデータとを対応付ける文書・アウトライン対応付け部32と、生成されたアウトラインと、アウトラインの生成源である文書テキストデータとの記憶保持を管理するアウトライン管理部33と、クライアントコンピュータ2からの自由キーワード入力を受け付けるキーワード入出力部35と、このキーワード入力部35から入力される自由キーワードを受け付け、該自由キーワードとキーワード管理部14が管理するキーワード群との一致度を判定するキーワードマッチング部34と、一致するキーワード群に対応付けられた文書テキストデータのアウトラインを、検索候補アウトラインとして、クライアントコンピュータ2に送出する候補アウトライン送付部36と、クライアントコンピュータ2から指示入力されるアウトラインを入力し、アウトライン管理部33に受け渡すアウトライン指示部37とを具備する。
第2の実施形態において、クライアントコンピュータ2は、利用者が、文書テキストデータ検索のための任意の自由キーワードを入力するキーワード入力部41と、入力された自由キーワードを文書管理サーバ1のキーワード入力部35に送出する入力キーワード送付部42と、文書管理サーバ1の候補アウトライン送付部36から入力される候補アウトラインを受信し、ディスプレイ部26を介して利用者に提示制御するアウトライン受信部43と、提示された候補アウトラインから利用者が指示入力により選択したアウトラインを入力するアウトライン指示入力部44と、入力されたアウトラインを文書管理サーバ1のアウトライン指示部37に送出する指示アウトライン送付部45と、文書送信管理部18から受信される指示アウトラインに対応付けられた文書テキストデータを受信する文書受信管理部25と、受信された文書テキストデータを利用者に提示するディスプレイ部26とを具備する。
<第2の実施形態におけるアウトライン自動生成処理詳細>
図5を参照し、キーワード管理部14及び文書格納部15は、第1の実施形態と同様、自動抽出されたキーワード群とこれに対応する文書テキストとを対応付けて、アウトライン・キーワード付与文書データベース38に格納管理する。第2の実施形態において、文書入力部12は、入力された文書テキストデータを、文書アウトライン作成部31に受け渡す。文書アウトライン作成部31は、キーワード管理部14から受け渡された文書テキストデータに対応付けられたキーワード群を受け取り、受け渡された文書テキストデータ中のすべての文章から、受け取られたキーワード群のうち、少なくとも2以上のキーワードを含む文章のみをアウトラインとして抽出する。キーワードを2以上含む文章が存在しない場合は、出現頻度が最も大きいキーワードを含む文章のみでアウトラインを生成する。本明細書において、「文章」とは、句点「。」の直後から始まるか、或いは段落の最初から始まるもので、次の句点「。」で終わる文字列を意味する。
図5を参照し、キーワード管理部14及び文書格納部15は、第1の実施形態と同様、自動抽出されたキーワード群とこれに対応する文書テキストとを対応付けて、アウトライン・キーワード付与文書データベース38に格納管理する。第2の実施形態において、文書入力部12は、入力された文書テキストデータを、文書アウトライン作成部31に受け渡す。文書アウトライン作成部31は、キーワード管理部14から受け渡された文書テキストデータに対応付けられたキーワード群を受け取り、受け渡された文書テキストデータ中のすべての文章から、受け取られたキーワード群のうち、少なくとも2以上のキーワードを含む文章のみをアウトラインとして抽出する。キーワードを2以上含む文章が存在しない場合は、出現頻度が最も大きいキーワードを含む文章のみでアウトラインを生成する。本明細書において、「文章」とは、句点「。」の直後から始まるか、或いは段落の最初から始まるもので、次の句点「。」で終わる文字列を意味する。
文書アウトライン作成部31は、作成されたアウトラインを、文書・アウトライン対応付け部32に受け渡す。文書・アウトライン対応付け部32は、キーワード管理部14で管理されるキーワード群と、このキーワード群に対応付けられた文書テキストデータとを、受け渡されたアウトラインにそれぞれ対応付けて、アウトライン管理部33に出力する。アウトライン管理部33は、文書テキストデータと、この文書テキストデータから抽出されたキーワード群と、及びこのキーワード群を含む文章として抽出されたアウトラインとを、対応付けて管理する。
<第2の実施形態におけるアウトライン表示処理及び文書テキストデータ検索処理>
第2の実施形態において、文書アウトライン作成部31が上記の処理により作成したアウトラインは、利用者による自由なキーワード入力による文書テキスト検索に使用される。
第2の実施形態において、文書アウトライン作成部31が上記の処理により作成したアウトラインは、利用者による自由なキーワード入力による文書テキスト検索に使用される。
図5において、利用者は、クライアントコンピュータ2のキーワード入力部41に、例えばキーボード等の入力装置を介して自由なキーワード群を入力する。入力されるキーワード群は、代替的に、単一のキーワードであってもよい。入力されたキーワード群は、入力キーワード送付部42に受け渡され、文書管理サーバ1のキーワード入力部35に送出される。文書管理サーバ1において、キーワードマッチング部34は、キーワード入力部35に入力された自由キーワード群と、キーワード管理部14により管理されるキーワード群との一致度を判定する。一例として、漢字キーワードとひらかなキーワードとが抽出されて文書テキストデータに対応付けられたとすると、管理キーワードが入力された自由キーワードを含む場合、及び両者のキーワードが完全に一致する場合に、キーワードの一致が判定される。ここで、カタカナキーワードの一致判定において、キーワードに含まれる「―」(長く引っ張る発音を示す文字)、「・」(なか点)や、複数のカタカナ文字列に挟まれたスペースは無視して、入力された自由キーワードと管理されているキーワードとが一致していれば、一致と見なす。さらに、カタカナキーワードの一致判定において、入力された自由キーワードに包含されているキーワードが、管理されているキーワードに含まれる場合も、一致と見なす。アルファベットキーワード(後述)の一致判定において、複数のアルファベット文字列に挟まれた「・」(なか点)、スペース、及び「.」(ピリオド)、及びアルファベット直後の「.」(ピリオド)は無視して、入力された自由キーワードと管理されているキーワードとが一致していれば、一致と見なす。こうしてキーワードの一致度を判定した結果、入力されたキーワードと一致するキーワードを最も多く含む管理されたキーワード群を判別して、キーワード管理部14に受け渡す。キーワード管理部14は、キーワードマッチング部34から受け渡されたキーワード群が1つの文書テキストデータのみに対応付けられたキーワード群である場合は、文書格納部15を介して、受け渡されたキーワード群に対応付けられた文書テキストデータを、アウトライン・キーワード付与文書データベース38から読み出し、文書送信管理部18を介して、クライアントコンピュータ2に送出制御する。
一方、キーワード管理部14は、キーワードマッチング部34から受け渡されたキーワード群が複数の文書テキストデータに対応付けられていた場合は、アウトライン管理部33を介して、当該複数の文書テキストデータに対応するアウトラインのそれぞれを、アウトライン・キーワード付与文書データベース38から読み出し、候補アウトライン送付部36を介して、候補アウトラインとして、クライアントコンピュータ2に送出制御する。クライアントコンピュータ2において、受信された候補アウトラインは、ディスプレイ部26を介して、利用者に提示出力される。
利用者は、提示出力された候補アウトラインの中から、マウス或いはキーボード等の入力装置を介して、所望のアウトラインを1つ或いは複数選択する。選択されたアウトラインは、アウトライン指示入力部44に入力され、指示アウトライン送付部45を介して、文書管理サーバ1のアウトライン指示部37に送出される。文書管理サーバ1において、アウトライン指示部37は、入力されたアウトラインを、アウトライン管理部33に受け渡して、これに対応付けられた文書テキストデータの検索を要求する。アウトライン管理部33は、文書格納部15を介して、アウトライン・キーワード付与文書データベース38から、入力されたアウトラインに対応付けられた文書テキストデータを検索し、検索された文書テキストデータを、文書送信管理部18を介してクライアントコンピュータ2の文書受信管理部25に送出する。クライアントコンピュータ2において、文書受信管理部25は、ディスプレイ部26を介して、受信された文書テキストデータを、一連の文書検索結果として表示出力する。
図6Aから図6Dは、「第159回国会における小泉内閣総理大臣施政方針演説」を入力とした場合に、第2の実施形態に係るアウトライン作成部31により作成されるアウトラインの一例を示す。図6Aから図6Dは、いずれも2文字以上の漢字ランのうち、その出現頻度が上位3番目までである3つのキーワードが、「支援(22回)」、「国民(17回)」、「推進(17回)」である文書テキストからアウトラインを作成した場合の例であり、図6Aが「支援」を含む文章のみを、図6Bが「支援」と「国民」の両方を含む文章を、図6Cが「支援」と「推進」の両方を含む文章を、図6Dが「国民」と「推進」の両方を含む文章を、それぞれアウトラインとして抽出した例を示す。図6Aから図6Dに示す例においては、キーワードを2つ以上含む文章のみで適当な長さのアウトラインが作成されることが理解される。
第2の実施形態によれば、第1の実施形態により得られる機能に加え、さらに、文書テキストデータのアウトラインを自動生成し、利用者が入力した自由キーワードと実質的に一致する管理キーワードを含む文書テキストデータのアウトラインを利用者に一覧提示し、利用者により選択されたアウトラインに対応する文書テキストデータを検索結果として利用者に提示出力する。従って、アウトラインの提示及び提示されたアウトラインからの選択指示処理を介して、利用者が任意に入力する自由キーワードによる自由度の高い文書テキストデータ検索が、文書管理サーバ1及びクライアントコンピュータ2のいずれにも高負荷を課すことなく実現される。
第3の実施形態
図7を参照して、本発明の第3の実施形態を、上記各実施形態と相違する点についてのみ説明する。第3の実施形態は、上記各実施形態の構成に加え、さらに、ひらかなのキーワードを抽出する。ひらかなが多用されている文書を多く処理する場合は、これらのひらかなもキーワードとして抽出すべき場合が少なくない。例えば、「さいたま」、「けいはんな」、「やくみつる」等、ひらかな表記の固有名詞や、ペンネーム・芸名等が多用されている場合に、ひらかなキーワード抽出の必要性が高い。ひらかなキーワード抽出は、第1の実施形態において説明した漢字キーワード及びカタカナキーワード抽出と同様、文字コードを識別し、その出現頻度の閾値を超えるひらかなランを抽出することにより実現されるので、上記各実施形態と比較して負荷は有意に増大しない。
図7を参照して、本発明の第3の実施形態を、上記各実施形態と相違する点についてのみ説明する。第3の実施形態は、上記各実施形態の構成に加え、さらに、ひらかなのキーワードを抽出する。ひらかなが多用されている文書を多く処理する場合は、これらのひらかなもキーワードとして抽出すべき場合が少なくない。例えば、「さいたま」、「けいはんな」、「やくみつる」等、ひらかな表記の固有名詞や、ペンネーム・芸名等が多用されている場合に、ひらかなキーワード抽出の必要性が高い。ひらかなキーワード抽出は、第1の実施形態において説明した漢字キーワード及びカタカナキーワード抽出と同様、文字コードを識別し、その出現頻度の閾値を超えるひらかなランを抽出することにより実現されるので、上記各実施形態と比較して負荷は有意に増大しない。
図7において、キーワード自動抽出部13aは、図1に示されるキーワード自動抽出部13と比較して、さらに、コード別文字分類部131により識別された、その連続性が維持されたひらかな文字列が入力され、各ひらかなランの出現頻度をカウントするひらかなラン出現頻度カウンタ137と、その出現頻度がカウントされたひらかなランが入力され、所定の出現頻度の閾値を超えるひらかなランを、ひらかなキーワードとして抽出し、文書・キーワード群対応付け部136に受け渡すひらかなキーワード抽出部138とを具備する。
ひらかなラン出現頻度カウンタ137は、ひらかなラン(連続するひらかな文字列)の出現頻度をカウントする。例えば、上記の「彼は病気勝ちだったにもかかわらず、前向きに生き、トランジスタ工学の大いなる進展と、トランジスタ産業の育成に大きな功績を上げた。」という上記の文書がキーワード自動抽出部13に入力された場合、「は」、「ちだったにもかかわわらず」、「きに」、「き」、「の」、「いなる」、「と」、「に」、「きな」、「を」、「げた」がそれぞれひらかなランである。このひらかなランのうち、「の」のみが出現頻度2とカウントされ、他のひらかなランの出現頻度は1とカウントされる。ひらかなキーワード抽出部138は、例えば好適にはひらかなラン長が3以上のひらかなランのうち、ひらかなランの全数に対して出現頻度が10%以上の出現頻度のひらかなランを、ひらかなキーワードとして抽出してよい。
第4の実施形態
図8を参照して、本発明の第4の実施形態を、上記各実施形態と相違する点についてのみ説明する。第4の実施形態は、上記各実施形態の構成に加え、さらに、アルファベットのキーワードを抽出する。例えば技術的な文書を多く処理する場合は、アルファベットを使用した略語が多用されるため、これらのアルファベットもキーワードとして抽出すべき場合が少なくない。アルファベットキーワード抽出は、第1の実施形態において説明した漢字キーワード及びカタカナキーワード抽出と同様、文字コードを識別し、その出現頻度の閾値を超えるアルファベットランを抽出することにより実現されるので、上記各実施形態と比較して負荷は有意に増大しない。
図8を参照して、本発明の第4の実施形態を、上記各実施形態と相違する点についてのみ説明する。第4の実施形態は、上記各実施形態の構成に加え、さらに、アルファベットのキーワードを抽出する。例えば技術的な文書を多く処理する場合は、アルファベットを使用した略語が多用されるため、これらのアルファベットもキーワードとして抽出すべき場合が少なくない。アルファベットキーワード抽出は、第1の実施形態において説明した漢字キーワード及びカタカナキーワード抽出と同様、文字コードを識別し、その出現頻度の閾値を超えるアルファベットランを抽出することにより実現されるので、上記各実施形態と比較して負荷は有意に増大しない。
図8において、キーワード自動抽出部13bは、図7に示されるキーワード自動抽出部13aと比較して、さらに、コード別文字分類部131により識別された、その連続性が維持されたアルファベット文字列が入力され、各アルファベットランの出現頻度をカウントするアルファベットラン出現頻度カウンタ139と、その出現頻度がカウントされたアルファベットランが入力され、所定の出現頻度の閾値を超えるアルファベットランを、アルファベットキーワードとして抽出し、文書・キーワード対応付け部136に受け渡すアルファベットキーワード抽出部140とを具備する。或いは、代替的に、図8において、ひらかなラン出現頻度カウンタ137及びひらかなキーワード抽出部138を省略して構成してもよい。
コード別文字分類部131は、漢字、カタカナ、ひらかなとともに、さらにアルファベットを、その文字コードに基づき、その連続性を維持したまま分離する。アルファベットラン出現頻度カウンタ139は、アルファベットラン(連続するアルファベットの組み合わせ文字列)の出現頻度をカウントする。このとき、アルファベットに挟まれた「.」(ピリオド)やスペース、「・」(なか点)、及び連続するアルファベット文字列の最後に位置するアルファベットの直後の「.」(ピリオド)は、アルファベットの一部と見なして、アルファベットランの出現頻度をカウントする。さらに、例えば「U.S.A.」と「USA」とを同じアルファベットランと見なすことができるよう、「.」(ピリオド)は無視し、同様に「−」(ハイフン)やスペースもランとして無視する。アルファベットキーワード抽出部140は、例えば好適には、アルファベットランの全数に対して出現頻度が5%以上の出現頻度のアルファベットランを、アルファベットキーワードとして抽出してよい。
なお、上記ひらかなキーワード及びアルファベットキーワードの抽出でそれぞれ参照される10%及び5%の値は、可変に設定可能とし、例えば第1の実施形態と同様、値が大き過ぎて有意なキーワードが抽出できない場合には、ひらかなランやアルファベットランが入力文書テキストデータに存在しない場合を除いて、キーワードが抽出されない場合にこれらのキーワードが抽出されるまで、出現頻度の閾値を徐々に小さく再設定し、出現頻度カウント処理を再実行してもよい。さらに、この閾値の再設定処理によってもキーワードが抽出されない場合には、出現回数が上位一定番目までのランを抽出するように構成してもよく、これらの変形例も、本発明の一部をなす。
第5の実施形態
図9を参照して、本発明の第5の実施形態を、上記各実施形態と相違する点についてのみ説明する。第5の実施形態は、1つの文書を作成した際に、この文書と類似する文書が、すでにキーワード付与文書データベース16に存在するか否かを、キーワードを逆引きすることによって判定する。
図9を参照して、本発明の第5の実施形態を、上記各実施形態と相違する点についてのみ説明する。第5の実施形態は、1つの文書を作成した際に、この文書と類似する文書が、すでにキーワード付与文書データベース16に存在するか否かを、キーワードを逆引きすることによって判定する。
<第5の実施形態の構成>
図9において、第5の実施形態に係る文書キーワード抽出装置4は、図1に示す第1の実施形態に係る文書管理サーバ1中のキーワード自動抽出部13を、図8に示すキーワード自動抽出部13bに替え、さらに、クライアントコンピュータ2の作成文書送付部72から、新たに作成された文書テキストデータを入力する文書入力部51と、文書・キーワード群対応付け部136が出力する指示キーワードを、文書管理サーバ1の管理キーワード入出力部17に送出する指示キーワード送付部52とを具備する。第5の実施形態に係る文書管理サーバ1は、図1に示す第1の実施形態に係る文書管理サーバ1中、キーワード自動抽出に係るキーワード抽出部13を省略し、管理キーワード入出力部17と、キーワード管理部14と、文書格納部15と、キーワード付与文書データベース16と、文書送信管理部18とを具備する。代替的に、図9における文書キーワード抽出装置4と文書管理サーバ1とを一体とし、或いはクライアントコンピュータ2と文書キーワード抽出装置4とを一体とし、それぞれ1つのコンピュータに実装してもよい。また、文書キーワード抽出装置4に備えられるキーワード自動抽出部13bを、図1に示すキーワード自動抽出部13に置き換えてもよい。
図9において、第5の実施形態に係る文書キーワード抽出装置4は、図1に示す第1の実施形態に係る文書管理サーバ1中のキーワード自動抽出部13を、図8に示すキーワード自動抽出部13bに替え、さらに、クライアントコンピュータ2の作成文書送付部72から、新たに作成された文書テキストデータを入力する文書入力部51と、文書・キーワード群対応付け部136が出力する指示キーワードを、文書管理サーバ1の管理キーワード入出力部17に送出する指示キーワード送付部52とを具備する。第5の実施形態に係る文書管理サーバ1は、図1に示す第1の実施形態に係る文書管理サーバ1中、キーワード自動抽出に係るキーワード抽出部13を省略し、管理キーワード入出力部17と、キーワード管理部14と、文書格納部15と、キーワード付与文書データベース16と、文書送信管理部18とを具備する。代替的に、図9における文書キーワード抽出装置4と文書管理サーバ1とを一体とし、或いはクライアントコンピュータ2と文書キーワード抽出装置4とを一体とし、それぞれ1つのコンピュータに実装してもよい。また、文書キーワード抽出装置4に備えられるキーワード自動抽出部13bを、図1に示すキーワード自動抽出部13に置き換えてもよい。
第5の実施形態に係るクライアントコンピュータ2は、図1に示す第1の実施形態に係るクライアントコンピュータ2中、文書受信管理部25と、ディスプレイ部26とを具備し、さらに、新たに作成された文書を作成及び管理する文書作成管理部71と、作成された文書を、文書キーワード抽出装置4の文書入力部51に送出する作成文書送付部72とを具備する。
<第5の実施形態におけるキーワード逆引き処理>
図9を参照して、利用者は、クライアントコンピュータ2の文書作成管理部71により、新規文書テキストを作成する。作成文書送付部72は、作成された新規文書テキストを、文書キーワード抽出装置4の文書入力部51に送出する。この文書入力部51は、図1における文書入力部12の機能を包含する。文書入力部51に入力された新規文書テキストは、キーワード自動抽出部13bに入力され、このキーワード自動抽出部13bにおいて、図8に示す処理と同様の処理により、入力された新規文書から、漢字キーワード、カタカナキーワード、ひらかなキーワード、アルファベットキーワードがそれぞれ抽出され、これらのキーワード群が、文書キーワード群対応付け部136により入力された新規文書テキストに対応付けられる。抽出されたキーワード群は、指示キーワード送付部52に受け渡され、この指示キーワード送付部52は、受け渡されたキーワード群を、文書管理サーバ1の管理キーワード入出力部17に送出する。ここで、指示キーワード送付部52は、図1のクライアントコンピュータ2中の指示キーワード送付部24と同等の機能を有する。文書管理サーバ1において、キーワード管理部14は、管理キーワード入出力部17から、新規文書に付与されたキーワード群の入力を受け、該入力キーワード群と一致するキーワードを最も多く有する1又は複数の文書テキストデータを、キーワード付与文書データベース16から検索する。検索された文書テキストデータは、文書送信管理部18を介して、クライアントコンピュータ2の文書受信管理部25に送出され、ディスプレイ部26を介して利用者に提示される。
図9を参照して、利用者は、クライアントコンピュータ2の文書作成管理部71により、新規文書テキストを作成する。作成文書送付部72は、作成された新規文書テキストを、文書キーワード抽出装置4の文書入力部51に送出する。この文書入力部51は、図1における文書入力部12の機能を包含する。文書入力部51に入力された新規文書テキストは、キーワード自動抽出部13bに入力され、このキーワード自動抽出部13bにおいて、図8に示す処理と同様の処理により、入力された新規文書から、漢字キーワード、カタカナキーワード、ひらかなキーワード、アルファベットキーワードがそれぞれ抽出され、これらのキーワード群が、文書キーワード群対応付け部136により入力された新規文書テキストに対応付けられる。抽出されたキーワード群は、指示キーワード送付部52に受け渡され、この指示キーワード送付部52は、受け渡されたキーワード群を、文書管理サーバ1の管理キーワード入出力部17に送出する。ここで、指示キーワード送付部52は、図1のクライアントコンピュータ2中の指示キーワード送付部24と同等の機能を有する。文書管理サーバ1において、キーワード管理部14は、管理キーワード入出力部17から、新規文書に付与されたキーワード群の入力を受け、該入力キーワード群と一致するキーワードを最も多く有する1又は複数の文書テキストデータを、キーワード付与文書データベース16から検索する。検索された文書テキストデータは、文書送信管理部18を介して、クライアントコンピュータ2の文書受信管理部25に送出され、ディスプレイ部26を介して利用者に提示される。
第5の実施形態によれば、新規に作成した文書から、上記各実施形態に係るキーワード抽出処理と同様のキーワード抽出処理により、キーワード群を抽出し、このキーワード群と一致するキーワードを最も多く有する文書、すなわち新規に作成された文書に類似する既存の文書テキストデータを検索することができる。従って、キーワードの逆引きによって、文書による類似文書の検索が可能となり、新規文書作成の際に、既存の文書テキストデータの有効再利用が実現される。
第6の実施形態
図10を参照して、本発明の第6の実施形態を、上記各実施形態と相違する点についてのみ説明する。第6の実施形態は、例えば第1の実施形態の構成を利用し、構造化された辞書データを入力として、辞書の見出し用語の意味内容から辞書の見出し用語を検索する、いわゆる逆引き辞書を、簡易且つ自動的に生成する。
図10を参照して、本発明の第6の実施形態を、上記各実施形態と相違する点についてのみ説明する。第6の実施形態は、例えば第1の実施形態の構成を利用し、構造化された辞書データを入力として、辞書の見出し用語の意味内容から辞書の見出し用語を検索する、いわゆる逆引き辞書を、簡易且つ自動的に生成する。
図10において、第6の実施形態に係る文書管理サーバ1は、図1に示す第1の実施形態に係る文書管理サーバ1の構成に加え、さらに、文書入力部12に入力される構造化文書の構造を解析するパーサー61と、構造が解析された入力構造化文書中の見出し用語を、その解説文から分離する見出し・解説文分離部62とを具備する。第6の実施形態に係るクライアントコンピュータ2の構成は、図1に示す第1の実施形態と同様である。
<第6の実施形態における辞書逆引き用データ登録処理>
例えば国語辞典や百科事典のような、見出し用語とその意味の解説文とを別の構造とする例えばXML等により構造化されたタグ付き文書や、カンマ或いはタブ等でフィールドに分割された構造化文書が、文書入力部12に入力される。パーサー61は、入力された構造化文書の構造を解析する。見出し・解説文分離部62は、解析された構造化文書から、見出し用語とその解説文に分離し、例えばフィールドの左辺に見出し単語を、該フィールドの右辺にその解説文を配置する等の手法により、両者を対応付けて管理する。解説文フィールドに格納された解説文は、図1に示す第1の実施形態と同様に、キーワード自動抽出部13のコード別文字分類部131により文字コードにより漢字、カタカナ等の文字種別ごとに分類される。漢字に分類された漢字文字列から、漢字ラン出現頻度カウンタ132及び漢字キーワード抽出部133により、漢字キーワードが抽出され、同様に、カタカナに分類されたカタカナ文字列から、カタカナラン出現頻度カウンタ134及びカタカナキーワード抽出部135により、カタカナキーワードが抽出される。文書・キーワード群対応付け部136は、見出し・解説文分離部62により分離された見出し用語及びその解説文に対して、抽出されたキーワード群の対応付けを行なう。抽出されたキーワード群は、キーワード管理部14により管理され、このキーワード群に対応付けられた見出し用語及び解説文からなる構造化文書は、文書格納部15により管理され、キーワード付与された該構造化文書は、キーワード付与文書データベース16に格納される。キーワード付与文書データベース16中において、構造化文書の見出し用語フィールドと解説文フィールドとのそれぞれに、抽出されたキーワード群が記述され、或いは代替的に両フィールドのそれぞれから抽出されたキーワード群がポイントされる。
例えば国語辞典や百科事典のような、見出し用語とその意味の解説文とを別の構造とする例えばXML等により構造化されたタグ付き文書や、カンマ或いはタブ等でフィールドに分割された構造化文書が、文書入力部12に入力される。パーサー61は、入力された構造化文書の構造を解析する。見出し・解説文分離部62は、解析された構造化文書から、見出し用語とその解説文に分離し、例えばフィールドの左辺に見出し単語を、該フィールドの右辺にその解説文を配置する等の手法により、両者を対応付けて管理する。解説文フィールドに格納された解説文は、図1に示す第1の実施形態と同様に、キーワード自動抽出部13のコード別文字分類部131により文字コードにより漢字、カタカナ等の文字種別ごとに分類される。漢字に分類された漢字文字列から、漢字ラン出現頻度カウンタ132及び漢字キーワード抽出部133により、漢字キーワードが抽出され、同様に、カタカナに分類されたカタカナ文字列から、カタカナラン出現頻度カウンタ134及びカタカナキーワード抽出部135により、カタカナキーワードが抽出される。文書・キーワード群対応付け部136は、見出し・解説文分離部62により分離された見出し用語及びその解説文に対して、抽出されたキーワード群の対応付けを行なう。抽出されたキーワード群は、キーワード管理部14により管理され、このキーワード群に対応付けられた見出し用語及び解説文からなる構造化文書は、文書格納部15により管理され、キーワード付与された該構造化文書は、キーワード付与文書データベース16に格納される。キーワード付与文書データベース16中において、構造化文書の見出し用語フィールドと解説文フィールドとのそれぞれに、抽出されたキーワード群が記述され、或いは代替的に両フィールドのそれぞれから抽出されたキーワード群がポイントされる。
<第6の実施形態における辞書逆引き処理>
クライアントコンピュータ2において、利用者は、例えばキーボード或いはマウス等の入力装置を介して、キーワード提示要求部21に、キーワード管理部14が管理するキーワード群、すなわち辞書の解説文から抽出されたキーワード群の一覧の提示要求を入力する。キーワード提示要求部21は、入力されたキーワード群の一覧提示要求を、文書管理サーバ1の管理キーワード入出力部17に送出する。その後の処理は、図1に示す第1の実施形態と同様であり、一覧提示されたキーワード群から利用者により選択入力されたキーワードに対応付けられた見出し用語が、文書管理サーバ1においてキーワード管理部14により、キーワード付与文書データベース16から検索され、文書送信管理部18を介して、クライアントコンピュータ2の文書受信管理部25に送出される。文書受信管理部25により受信された見出し用語は、ディスプレイ部26を介して、辞書逆引き結果として表示出力される。
クライアントコンピュータ2において、利用者は、例えばキーボード或いはマウス等の入力装置を介して、キーワード提示要求部21に、キーワード管理部14が管理するキーワード群、すなわち辞書の解説文から抽出されたキーワード群の一覧の提示要求を入力する。キーワード提示要求部21は、入力されたキーワード群の一覧提示要求を、文書管理サーバ1の管理キーワード入出力部17に送出する。その後の処理は、図1に示す第1の実施形態と同様であり、一覧提示されたキーワード群から利用者により選択入力されたキーワードに対応付けられた見出し用語が、文書管理サーバ1においてキーワード管理部14により、キーワード付与文書データベース16から検索され、文書送信管理部18を介して、クライアントコンピュータ2の文書受信管理部25に送出される。文書受信管理部25により受信された見出し用語は、ディスプレイ部26を介して、辞書逆引き結果として表示出力される。
なお、第6の実施形態においても、第1の実施形態及び第2の実施形態と同様、文書管理サーバ1及びクライアントコンピュータ2の間で、ネットワークを介して各種要求等のコマンドやデータの送受信がされてもよく、或いは代替的に、両者の機能を一体として、1つのコンピュータに実装してもよい。辞書の見出し用語とその解説文とは、文書入力部12に入力される際に、すでに関連付けが完了しているため、当然に、見出し用語から解説文を検索することは可能である。第6の実施形態においては、こうした通常の辞書機能に加えて、解説文からのキーワード抽出が自動的に実行されるため、検索すべき見出し用語が不明な場合であっても、解説文に使用されている重要語をキーワードとして指示入力し、このキーワードに対応付けられた見出し用語を検索すると共に、必要に応じ、同時に検索された見出し用語の解説文を表示させることができる。
第6の実施形態によれば、従って、予め辞書から逆引き辞書を作成することなく、逆引き辞書機能が実現される。
本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらすすべての実施形態をも含み、その要旨を逸脱しない範囲で多様な改良ないし変更が可能である。例えば、インターネットでの情報提供ビジネス、パーソナルコンピュータのハードディスク内情報管理及びその情報分析、辞書機能の高度化等、多用な技術への応用が、簡易かつ安価に実現され、これにより、利用者の利便性が大幅に向上する。より具体的には、インターネット等のネットワーク環境下で情報を配信する仕組みを構築するコンテンツプロバイダ、データベース管理システム構築、パーソナルコンピュータ用データ管理ソフトウエア等の供給システムの構築を行なうためのサーバ、情報処理装置又は方法、並びにコンピュータプログラムとしての提供も可能となる。さらに、本発明の範囲は、請求項1により画される発明の特徴の組み合わせに限定されるものではなく、すべての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。
文書管理サーバ 1
クライアントコンピュータ 2
ネットワーク 3
文書データベース 11
文書入力部 12
キーワード自動抽出部 13
キーワード管理部 14
文書格納部 15
キーワード付与文書データベース16
管理キーワード入出力部 17
文書送信管理部 18
キーワード提示要求部 21
管理キーワード一覧提示部 22
キーワード選択指示部 23
指示キーワード送付部 24
文書受信管理部 25
ディスプレイ部 26
クライアントコンピュータ 2
ネットワーク 3
文書データベース 11
文書入力部 12
キーワード自動抽出部 13
キーワード管理部 14
文書格納部 15
キーワード付与文書データベース16
管理キーワード入出力部 17
文書送信管理部 18
キーワード提示要求部 21
管理キーワード一覧提示部 22
キーワード選択指示部 23
指示キーワード送付部 24
文書受信管理部 25
ディスプレイ部 26
Claims (16)
- 入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部と、
抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現頻度をカウントする文字列出現頻度カウント部と、
前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るキーワード生成部と、
前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理部と、
前記対応付けられたキーワード及び前記日本語文書テキストとを格納する文書格納部とを具備する
ことを特徴とする文書インデキシングサーバ装置。 - 前記キーワード生成部は、前記第1又は第2の所定比率以上の出現頻度を有する文字列が、所定数得られない場合には、前記出現頻度の高い文字列を、前記キーワードとして得る
ことを特徴とする請求項1に記載の文書インデキシングサーバ装置。 - 前記文字コード識別部は、さらに、前記入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、ひらかな文字列を抽出し、
前記文字列出現頻度カウント部は、さらに、抽出された前記ひらかな文字列のうち、2文字以上連続する文字列の出現頻度をカウントし、
前記キーワード生成部は、さらに、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第3の所定比率或いは所定出現回数以上の出現頻度を有するひらかな文字列をキーワードとして得る
ことを特徴とする請求項1又は2に記載の文書インデキシングサーバ装置。 - 前記文字コード識別部は、さらに、前記入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、アルファベット文字列を抽出し、
前記文字列出現頻度カウント部は、さらに、抽出された前記アルファベット文字列のうち、2文字以上連続する文字列の出現頻度をカウントし、
前記キーワード生成部は、さらに、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第4の所定比率或いは所定出現回数以上の出現頻度を有するアルファベット文字列をキーワードとして得る
ことを特徴とする請求項1ないし3のいずれか記載の文書インデキシングサーバ装置。 - 上記文書インデキシングサーバ装置は、さらに、
入力されたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられたキーワードとを比較し、前記入力されたキーワードと一致するキーワードを最も多く含む日本語文書テキストを検索し、検索された日本語文書テキストを、クライアント装置に送出するキーワード管理部を具備する
ことを特徴とする請求項1ないし4のいずれか記載の文書インデキシングサーバ装置。 - 上記文書インデキシングサーバ装置は、さらに、
前記入力された日本語文書テキストから、前記生成されたキーワードを2以上含む文章を文書アウトラインとして得るアウトライン生成部と、
前記得られた文書アウトラインと前記日本語文書テキストとを対応付けるとともに、前記キーワード管理部において、検索された日本語文書テキストに対応付けられた文書アウトラインを、クライアント装置に送出するアウトライン管理部とを具備する
ことを特徴とする請求項1ないし5のいずれか記載の文書インデキシングサーバ装置。 - 前記アウトライン管理部は、前記キーワード管理部により検索された日本語文書テキストが2以上である場合に、前記アウトラインを前記クライアント装置に送出する
ことを特徴とする請求項6に記載の文書インデキシングサーバ装置。 - 上記文書インデキシングサーバ装置は、さらに、
見出し用語及び該見出し用語の解説文からなる構造化日本語文書テキストを入力する文書入力部を具備し、
前記文字コード識別部は、入力された構造化日本語文書テキストの前記解説文から文字列を抽出し、
前記キーワード管理部は、前記入力されたキーワードと一致するキーワードを最も多く含む構造化日本語文書テキストの解説文を検索し、検索された解説文及び該解説文の見出し用語を、クライアント装置に送出する
ことを特徴とする請求項5に記載の文書インデキシングサーバ装置。 - 前記キーワード管理部は、前記キーワード生成部により得られたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられたキーワードとを比較し、前記キーワード生成部により得られたキーワードと一致するキーワードを最も多く含む日本語文書テキストを検索し、検索された日本語文書テキストを、クライアント装置に送出する
ことを特徴とする請求項5に記載の文書インデキシングサーバ装置。 - 日本語文書テキスト検索用のキーワードをサーバ装置から受信し、該キーワードを表示出力するキーワード表示部と、
前記表示出力されたキーワードから1のキーワードの選択入力を促すキーワード選択入力部と、
選択されたキーワードを前記サーバ装置に送信するキーワード送信部と、
前記キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力する文書表示部とを具備し、
前記受信されるキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなる
ことを特徴とする文書インデキシングクライアント装置。 - 自由キーワードを入力し、入力された自由キーワードをサーバ装置に送信する自由キーワード入力部と、
入力された自由キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力する文書表示部とを具備し、
前記受信される日本語文書テキストは、前記入力された自由キーワードと、前記サーバ装置上で格納された日本語文書テキストに対応付けられたキーワードとを比較し、前記入力されたキーワードと一致するキーワードを最も多く含む日本語文書テキストであり、
前記日本語文書テキストに対応付けられたキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなる
ことを特徴とする文書インデキシングクライアント装置。 - 上記文書インデキシングクライアント装置は、さらに、
前記入力された自由キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストの文書アウトラインを受信し、表示出力する文書アウトライン表示部と、
前記表示出力された文書アウトラインから1の文書アウトラインの選択入力を促す文書アウトライン選択入力部と、
選択された文書アウトラインを前記サーバ装置に送信する文書アウトライン送信部とを具備する
ことを特徴とする請求項11に記載の文書インデキシングクライアント装置。 - 入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出するステップと、
抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現頻度をカウントするステップと、
前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るステップと、
前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるステップと、
前記対応付けられたキーワード及び前記日本語文書テキストとを格納するステップとを含む
ことを特徴とする文書インデキシング処理をコンピュータに実行させるための方法。 - 日本語文書テキスト検索用のキーワードをサーバ装置から受信し、該キーワードを表示出力するステップと、
前記表示出力されたキーワードから1のキーワードの選択入力を促すステップと、
選択されたキーワードを前記サーバ装置に送信するステップと、
前記キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力するステップとを含み、
前記受信されるキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなる
ことを特徴とする文書インデキシング処理をコンピュータに実行させるための方法。 - 文書インデキシング処理をコンピュータに実行させるための文書インデキシングプログラムであって、該プログラムは、前記コンピュータに、
入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別処理と、
抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現頻度をカウントする文字列出現頻度カウント処理と、
前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るキーワード生成処理と、
前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理処理と、
前記対応付けられたキーワード及び前記日本語文書テキストとを格納する文書格納処理とを含む処理を実行させるためのものである
ことを特徴とする文書インデキシングプログラム。 - 文書インデキシング処理をコンピュータに実行させるための文書インデキシングプログラムであって、該プログラムは、前記コンピュータに、
日本語文書テキスト検索用のキーワードをサーバ装置から受信し、該キーワードを表示出力するキーワード表示処理と、
前記表示出力されたキーワードから1のキーワードの選択入力を促すキーワード選択入力処理と、
選択されたキーワードを前記サーバ装置に送信するキーワード送信処理と、
前記キーワードの送信に応答して、前記サーバ装置から、日本語文書テキストを受信し、検索結果として表示出力する文書表示処理とを含む処理を実行させるためのものであり、
前記受信されるキーワードは、日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出し、抽出された文字列の出現頻度をカウントし、前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列と、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列とを抽出してなる
ことを特徴とする文書インデキシングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005319454A JP2007128224A (ja) | 2005-11-02 | 2005-11-02 | 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005319454A JP2007128224A (ja) | 2005-11-02 | 2005-11-02 | 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007128224A true JP2007128224A (ja) | 2007-05-24 |
Family
ID=38150841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005319454A Pending JP2007128224A (ja) | 2005-11-02 | 2005-11-02 | 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007128224A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014186429A (ja) * | 2013-03-22 | 2014-10-02 | Kddi Corp | 対象文章を象徴する漢字を推定する漢字推定プログラム、装置、サーバ及び方法 |
JP2015509625A (ja) * | 2012-02-28 | 2015-03-30 | シェンツェン シー ジ グァン ス インフォメーション テクノロジー カンパニー リミテッド | タッチ端末におけるテキスト検索のための方法及び装置 |
JP2016536659A (ja) * | 2013-09-30 | 2016-11-24 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 内容ベースの医療マクロのソート及び検索システムのためのシステム及び方法 |
CN109918638A (zh) * | 2018-12-05 | 2019-06-21 | 国网浙江桐乡市供电有限公司 | 一种网络数据监测方法 |
-
2005
- 2005-11-02 JP JP2005319454A patent/JP2007128224A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015509625A (ja) * | 2012-02-28 | 2015-03-30 | シェンツェン シー ジ グァン ス インフォメーション テクノロジー カンパニー リミテッド | タッチ端末におけるテキスト検索のための方法及び装置 |
JP2014186429A (ja) * | 2013-03-22 | 2014-10-02 | Kddi Corp | 対象文章を象徴する漢字を推定する漢字推定プログラム、装置、サーバ及び方法 |
JP2016536659A (ja) * | 2013-09-30 | 2016-11-24 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 内容ベースの医療マクロのソート及び検索システムのためのシステム及び方法 |
CN109918638A (zh) * | 2018-12-05 | 2019-06-21 | 国网浙江桐乡市供电有限公司 | 一种网络数据监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8996593B2 (en) | File management apparatus and file management method | |
JP2006004427A (ja) | 日本語などの複雑言語のコンテンツを検索するシステム及び方法 | |
US20030028503A1 (en) | Method and apparatus for automatically extracting metadata from electronic documents using spatial rules | |
Mustafa et al. | Kurdish stemmer pre-processing steps for improving information retrieval | |
JPWO2010150910A1 (ja) | 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体 | |
JPH0484271A (ja) | 文書内情報検索装置 | |
Xu et al. | Using SVM to extract acronyms from text | |
JP2007128224A (ja) | 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
JPWO2016067396A1 (ja) | 文の並び替え方法および計算機 | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
JP2003157271A (ja) | テキストマイニング装置および方法 | |
JP2009086903A (ja) | 検索サービス装置 | |
Jindal et al. | U-struct: A framework for conversion of unstructured text documents into structured form | |
JP2007011973A (ja) | 情報検索装置及び情報検索プログラム | |
Khalil et al. | Extracting Arabic composite names using genitive principles of Arabic grammar | |
JP4362492B2 (ja) | 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム | |
JP2021101375A (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
Taghva et al. | Farsi searching and display technologies | |
Lama | Clustering system based on text mining using the K-means algorithm: news headlines clustering | |
Pantelia | ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE | |
JP5187187B2 (ja) | 体験情報検索システム | |
KR20100091367A (ko) | 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템 | |
US20030237042A1 (en) | Document processing device and document processing method | |
JPS63175965A (ja) | 文書処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090403 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090707 |