JP3880116B2

JP3880116B2 - 電子ファイリングシステム、電子ファイリング方法及び記録媒体

Info

Publication number: JP3880116B2
Application number: JP35859196A
Authority: JP
Inventors: 健一数見; 貴義大館
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-12-27
Filing date: 1996-12-27
Publication date: 2007-02-14
Anticipated expiration: 2016-12-27
Also published as: JPH10187736A

Description

【０００１】
【発明の属する技術分野】
本発明は、登録した文書データから検索用キーワードを自動抽出する電子ファイリングシステム及び電子ファイリング方法、並びに電子ファイリングプログラムを記録した記録媒体に関するものである。
【０００２】
【従来の技術】
従来、電子ファイリングシステムにおいて文書データから検索用キーワードを自動抽出する方法として、あらかじめ検索用キーワードが登録されたキーワード辞書を参照し、この辞書に登録されている検索用キーワードを抽出する方式（辞書参照方式）及びカタカナ等の同一文字種の連続した文字列（同一文字種セット）を検索用キーワードとして抽出する方式（文字種セット方式）が知られている。
【０００３】
【発明が解決しようとする課題】
まず、キーワード辞書参照方式のキーワード自動抽出では、あらかじめ辞書に登録している検索用キーワードのみを抽出することになり、新語や造語に対しては、登録漏れがかなり高い確率で発生するという問題があった。この場合、特に新語の出現率の非常に高いカタカナキーワードで顕著に登録漏れが目立っている。
【０００４】
ここで、カタカナキーワードは、検索文字として入力される比率が高いため、登録漏れがあると、電子ファイリングシステム全体のキーワードヒット率への影響度も非常に大きなものがある。
【０００５】
そこで、文字種セット方式により、カタカナキーワードに対しての登録漏れをなくすことが試みられている。
【０００６】
しかし、文字種セット方式では、世の中に非常に多い「カタカナ＋漢字」で成り立つ語を検索文字として検索することができないという問題がある。検索文字としてこのような「カタカナ＋漢字」で成り立つ語が入力されれば、カタカナ部分だけを抽出し、検索データベース（以下、「検索ＤＢ」ともいう。）を検索してカタカナ部分に対応する文書をピックアップするという方法もあるが、この場合、検索ノイズが非常に多くなるという問題がある。
【０００７】
また、上記検索用キーワードの自動抽出の際に、検索用キーワードの属する分野も付加情報として抽出し、これらの抽出した情報を計算することで、最終的に文書の分野を決定し、文書の自動分類に利用する試みもなされている。このとき、分野の決定は、あらかじめキーワード辞書に検索用キーワードに対応する分野情報を登録しておいて、自動抽出する際に付加情報として取得する方式が一般的である。
【０００８】
しかし、文字種セット方式では、単純に同一の文字種を検索用キーワードとして抽出するという方式であるため、この付加情報を取得することができないという問題がある。
【０００９】
このため、辞書参照方式及び文字種セット方式の両方式で検索用キーワードの自動抽出を行うとともに、何らかの計算式で文書分野を決定する場合には、文字種セット方式側で付加情報を取得することができないため検索用キーワードに対する分野のバランスが崩れがちになるという問題があった。
【００１０】
例えば、ある文書に対して同一文字種セット方式で抽出した検索用キーワードに医療分野が多くあった場合には、この医療分野に対する付加情報を取得できない。その結果、その文書中で辞書参照方式で抽出した検索用キーワードの中に経済分野が１つ含まれていた場合には、この文書は経済分野に属することになる。つまり、医療分野であるべき文書が経済分野として登録されることになる。このように両方式を用いて検索用キーワードの自動抽出を行う場合には、文書の分野を決定するのに、文書データの分野のバランスを崩すという問題があった。
【００１１】
さらに、検索文字として「同一文字種セット＋漢字」を指定した場合に、この検索文字を「同一文字種セット」と「漢字」とに分解し、これらをインデックスとする文書ファイルを別々に取得し、ＡＮＤ演算することで、結果的に「同一文字種セット＋漢字」を含む文書を得るという方法もある。
【００１２】
しかし、この場合、「同一文字種セット」と「漢字」とを分解して検索しているので、取得した文書中に必ずしも「同一文字種セット」と「漢字」とが文字列として連続している語句があるとは限らない。すなわち、同一文字種セットの検索キーワードと漢字の検索キーワードが文書データには含まれているが、文字種セットと漢字との位置が離れている可能性もある。このように、上記従来の「同一文字種セット＋漢字」の指定方法では検索ノイズが大きくなるという問題があった。
【００１３】
そこで、本発明は上記事情に鑑みてなされたものであり、正確且つノイズの少ない検索用キーワードの抽出を行うとともに、検索文字の種類に関係なく確実に文書データの検索をすることが可能な電子ファイリングシステム及び電子ファイリング方法、並びに電子ファイリングプログラムを記録した記録媒体を提供することを目的とする。
【００１４】
【課題を解決するための手段】
上記課題を解決するために本発明に係る電子ファイリングシステムは、文書データから、カタカナの連続した文字列からなるカタカナキーワードを抽出する第１の抽出手段と、前記第１の抽出手段により抽出されたカタカナキーワードが漢字と隣接している場合に、前記カタカナキーワードと該隣接する漢字１文字とを、１つの検索用キーワードとして前記文書データから抽出する第２の抽出手段と、前記第２の抽出手段により抽出された検索用キーワードに含まれる漢字１文字に関連する分野情報を前記文書データの分野情報として取得する分野情報取得手段と、前記第２の抽出手段により抽出された検索用キーワードと前記分野情報取得手段で取得された分野情報とを前記文書データに関連付けて登録する登録手段とを備えたことを特徴とする。
【００１５】
また、本発明に係る電子ファイリング方法は、電子ファイリングシステムにおいて実行される電子ファイリング方法であって、前記電子ファイリングシステムが備える第１の抽出手段が、文書データから、カタカナの連続した文字列からなるカタカナキーワードを抽出する第１の抽出ステップと、前記電子ファイリングシステムが備える第２の抽出手段が、前記第１の抽出ステップで抽出されたカタカナキーワードが漢字と隣接している場合に、前記カタカナキーワードと該隣接する漢字１文字とを、１つの検索用キーワードとして前記文書データから抽出する第２の抽出ステップと、前記電子ファイリングシステムが備える分野情報取得手段が、前記第２の抽出ステップで抽出された検索用キーワードに含まれる漢字１文字に関連する分野情報を前記文書データの分野情報として取得する分野情報取得ステップと、前記電子ファイリングシステムが備える登録手段が、前記第２の抽出ステップで抽出された検索用キーワードと前記分野情報取得ステップで取得された前記文書データの分野情報とを前記文書データに関連付けて登録する登録ステップとを備えたことを特徴とする。
【００１６】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【００１７】
図１は、本発明の実施の一形態に係る電子ファイリングシステムの概略構成を示す構成ブロック図である。
【００１８】
本システムは、システム全体を制御するＣＰＵ１を有し，このＣＰＵ１にアドレスバスＡＢ，コントロールバスＣＢ及びデータバスＤＢを介して第１のＲＡＭ２，第２のＲＡＭ３，キーボードバッファ４，ビデオバッファ５，ＲＡＭＤＡＣ６，単漢字辞書７，かな漢字辞書８，ディスク（ＤＩＳＣ）９，カーソルレジスタ１０，キーボード１１及びＣＲＴ１２が接続されて構成されている。
【００１９】
ここで、上記ＣＰＵ１は、例えばマイクロプロセッサ等で構成され、電子ファイリング処理のための演算や論理判断を行うとともに、アドレスバスＡＢ，コントロールバスＣＢ及びデータバスＤＢを介して接続された各構成ブロックを制御するものである。尚、アドレスバスＡＢは、ＣＰＵ１が制御の対象とする構成ブロックのアドレス信号を転送するものであり、コントロールバスＣＢは、ＣＰＵ１が制御の対象とする構成ブロックのコントロール信号を転送して当該構成ブロックに印加するものであり、また、データバスＤＢは、各構成ブロック相互間のデータ転送を行うものである。
【００２０】
また、ＣＰＵ１は、第１のＲＡＭ２に記憶された制御プログラムに従って、後述する検索用キーワードの抽出、登録処理及び文書データの検索処理を実行する抽出手段、登録手段及び検索手段としての機能を有している。さらに、ＣＰＵ１は、後述の検索用キーワードに付加する分野等の付加情報の設定、集計処理等を行う付加情報設定手段及び付加情報集計手段としての機能をも有している。
【００２１】
また、第１のＲＡＭ２は、書き込み可能なランダムアクセスメモリである。この第１のＲＡＭ２は、キーボード１１の指示により、ＤＩＳＫ９から本発明の制御手順を記述した制御プログラムのファイルを読み込み記憶している。
【００２２】
第２のＲＡＭ３は、書き込み可能なランダムアクセスメモリである。この第２のＲＡＭ３は、図２に示す登録文書のデータ及びキーワード自動抽出の結果等を一時的に記憶するようになっている。
【００２３】
キーボードバッファ４は、キーボード１１と各バスＡＢ、ＣＢ及びＤＢとの間に接続されている。このキーボードバッファ４は、キーボード１１から送信されるスキャンコードを一時的に貯えるメモリとなっている。
【００２４】
ビデオバッファ５は、登録文書の指定画面及び検索文字を入力する画面をビット展開してＣＲＴ１２に表示する１画面分の画素のデータを貯えるメモリである。このビデオバッファ５の出力側には、ビデオバッファ５に貯えられたデジタル符号である画素データをＣＲＴ１２で制御できるアナログ信号に変換するコンバータであるＲＡＭＤＡＣ６の入力側が接続されている。
【００２５】
ＲＡＭＤＡＣ６の出力側にはＣＲＴ１２が接続されている。このＲＡＭＤＡＣ６に接続されたＣＲＴ１２は、ＲＡＭＤＡＣ６から出力された１画面分のアナログ画素データを表示するようになっている。
【００２６】
単漢字辞書７は、部首や画数入力、単漢字入力などによって漢字を検索するための辞書であり、また、かな漢字辞書８は、かな漢字変換を行うための辞書である。
【００２７】
ＤＩＳＣ９は、例えばハードディスクやＭＯ(Magneto Optical disk) 等で構成される外部記憶ディスク装置であり、自動抽出した検索用キーワードを登録した検索ＤＢと登録文書を保存するものである。また、ＤＩＳＣ９は、登録文書の文書名とＩＤ情報とを関連付けるテーブルもＤＢ化して保存するようになっている。尚、ＤＩＳＣ９に保存された各種のデータは、キーボード１１からのキーワード検索の指示で呼び出されるようになっている。
【００２８】
カーソルレジスタ１０は、ＣＲＴ１２の画面にカーソルを表示するためのレジスタである。このカーソルレジスタ１０の内容は、ＣＰＵ１により読み書きされ、その内容は、ビデオバッファ５に送信され、ここに貯えられたアドレスに対するＣＲＴ１２の所定の画面位置にカーソル表示がなされるようになっている。
【００２９】
以上のように構成された電子ファイリングシステムは、キーボード１１からの各種の入力に応じて動作し、キーボード１１から各種の入力が供給されると、まずインタラプト信号をＣＰＵ１に送信する。インタラプト信号を受信したＣＰＵ１は、第１のＲＡＭ２に記憶されている制御信号を読み出し、それらの信号に従って各種の制御を行う。
【００３０】
以下、図２〜図５を参照して本実施形態による電子ファイリングシステム、特にＣＰＵ１が実行する各種制御処理の動作を説明する。
【００３１】
まず、文書データから検索用キーワードを抽出し、ＤＩＳＣ９の検索データベースに登録する「登録」処理の手順を図２のフローチャートを基に図３をも参照して説明する。
【００３２】
図２は、本実施形態の電子ファイリングシステムのＣＰＵ１が実行する「登録」処理の手順を示すフローチャートである。
【００３３】
図２に示したように、まず、ＣＰＵ１は、抽出する検索用キーワードの文字種を判別する（Ｓ１０１）。ここでは、文字種として特にカタカナ文字であるか否かの判別を行うものとする。
【００３４】
ここで、カタカナ文字種を抽出するのであれば、カタカナが連続している文字列を検索用キーワードとして抽出する（Ｓ１０３）。また、カタカナ文字列の直後に漢字があれば、「カタカナ＋漢字１文字」も検索用キーワードとして抽出する。
【００３５】
次に、抽出された検索用キーワードのうち漢字１文字で検索用キーワードの分野を判定する（Ｓ１０５）。尚、判定基準として、あらかじめ「カタカナ＋漢字１文字」のキーワードサンプルを収集し、そのサンプルデータに基づき漢字の分野傾向を決定しておくという方法がある。
【００３６】
図３に、この検索用キーワードの抽出処理の具体例を示す。
【００３７】
図３に示した文書Ａからは、「カタカナ＋漢字１文字」の検索用キーワードとして、「メキシコ湾」、「ドミニカ島」、「スペイン語」が抽出され、このうち各漢字１文字によって、それぞれ「旅行」、「旅行」、「語学」の分野が決定している。従来のカタカナだけのキーワード抽出では、このような分野の決定は不可能である。
【００３８】
一方、前記ステップＳ１０１においてカタカナ文字種を抽出しない場合には、キーワード辞書を参照した検索用キーワードの自動抽出処理に入る（Ｓ１０７）。この場合、まず、文書データ中にキーワード辞書に登録されている検索用キーワードがあるか否かを判断し（Ｓ１０９）、キーワード辞書に登録されているのであれば、キーワード辞書からその検索用キーワードの分野を該文書データの分野情報として取得する（Ｓ１１１）。
【００３９】
上記のような各抽出処理を全て終了した場合には（Ｓ１１３）、次に、上記ステップＳ１０５及びＳ１１１の２つの抽出方法で得た分野情報を加算し、１つの文書の分野ベクトルを算出する（Ｓ１１５）。図３の例では、「旅行×２＋語学×１」という分野ベクトルが生成されている。
【００４０】
最後に算出された分野ベクトルを、抽出した検索用キーワードとともにＤＩＳＣ９の検索データベースに登録する（Ｓ１１７）。
【００４１】
尚、ここで登録された分野ベクトルは、文書検索の補助手段として有効に利用することができる。すなわち、検索文字と同時に検索すべき文書の分野ベクトルを指定すれば、検索すべき文書を容易に絞り込むことができる。
【００４２】
次に、検索文字が入力された場合にＤＩＳＣ９の検索データベースに基づいて文書データの検索を行う「検索」処理の手順を図４のフローチャートを基に図５をも参照して説明する。
【００４３】
図４は、本実施形態の電子ファイリングシステムのＣＰＵ１が実行する「検索」処理の手順を示すフローチャートである。
【００４４】
同図に示したように、「検索」処理を行う場合には、まず、キーボード１１により任意の検索文字が入力指定される（Ｓ２００）。そして、ここで指定された検索文字の分解処理がＣＰＵ１により行われる（Ｓ２０１）。そして、分解処理後に生成される検索文字をインデックスとして検索ＤＢに基づく検索が行われる（Ｓ２０３）。このとき、まず、分解された各検索文字に対応する文書ＩＤ番号が決定される（Ｓ２０５）。
【００４５】
ここまでの処理の具体例を図５を用いて説明する。
【００４６】
例えば図５に示したように検索文字として「スペイン領地」が入力されたとすれば、ステップＳ２０１において「スペイン領」と「領地」とに検索文字が分解される。
【００４７】
ここで、「スペイン領」は、「カタカナ＋漢字１文字」の方式で分解したものである。また、「領地」は、キーワード辞書参照方式の抽出法で得たものであり、ここではキーワード辞書に領地が登録されていたものとする。
【００４８】
そして、「スペイン領」及び「領地」に対応する文書ＩＤ番号が検索ＤＢのインデックスに基づき決定される。
【００４９】
再び図４のフローチャートの説明に戻ると、前記ステップＳ２０５の処理が行われた後は、このステップＳ２０５で取得された文書ＩＤに対してＡＮＤ演算処理が行われ、分解された双方の検索文字に共通する文書ＩＤの決定が行われる（Ｓ２０７）。図５の例では、「３、９、１８」の文書ＩＤが決定している。
【００５０】
最後に、ＡＮＤ演算処理により決定された文書ＩＤを具体的な文書名に変換し（文書データの登録時に、文書ＩＤと文書名とを関連付けるテーブルもＤＩＳＣ９にデータベース化されているので、文書ＩＤと文書名との変換を行うことができる。）、ＣＲＴ１２の検索画面に表示する（Ｓ２０９，Ｓ２１１）。
【００５１】
図５の例では、文書名として文書Ａ，文書Ｂ，文書Ｃが検索結果として取得されている。このように図５の例では、「領」が「スペイン」と「領地」の単語を接続する役割を果たしているので、文書中にスペインと領地が離れている可能性は、従来の「スペイン」及び「領地」という別々のインデックスで文書を絞り込む方式と比較して非常に小さくなる。
【００５２】
以上説明したように、実施形態によれば、新語、造語の発生頻度の非常に高いカタカナ文字種セットの検索用キーワードに対して、キーワード辞書にあらかじめ登録することなく対応できる。また、例えば「アミノ酸」，「トウモロコシ畑」のように「カタカナ＋漢字１文字」の検索文字にも完全一致で検索することが可能となる。
【００５３】
また、文書に対して、分野等の付加情報を登録したとしても、同一文字種セットの検索用キーワードによりバランスを崩すことなく、付加情報が決定される。
【００５４】
また、検索文字を「スペイン領地」等の「カタカナ＋複数文字の漢字」で指定しても、検索された文書中に、カタカナと漢字とが分断されて存在する可能性が低くなり、検索ノイズを小さくできる。
【００５５】
（他の実施形態）
尚、本発明は、上記実施形態に限定されず種々の変形形態が可能である。
【００５６】
例えば、上記実施形態では、漢字１文字に対して１つの分野情報を定義して説明したが、実際には漢字１文字に対して複数の分野にまたがる可能性の方が大きい。例えば「山」を例にとってみると、「エベレスト山」、「キリマンジャロ山」のように地名を示す場合がほとんどであるが、「シナイ山」のように地名と同時に宗教色の強い場合もある。
【００５７】
このような場合には、「山」という文字に対しては、地名（比重＝９），宗教（比重＝１）のように各分野に比重を持たせて、複数個定義するようにするとよい。すなわち、分野情報の取得段階で、これらの複数分野を取得して、集計時にポイントを加味して文書全体の分野を決定付けるようにするとよい。
【００５８】
また、上記実施形態では、「カタカナ＋漢字１文字」というパターンで本発明を説明してきたが、「漢字１文字＋カタカナ」で検索用キーワードとして成立するものも頻度は少ないが存在するため（例えば、「生ビール」，「青カビ」等）、このような場合にも上記実施形態の説明の、文字種セットの自動抽出処理に組み込むようにしてもよい。このようにすることで、さらに分野情報の正確な決定や、ピックアップする文書データの検索ノイズを少なく押さえることが可能である。
【００５９】
例えば、「青梅マラソン」を分解すると、「青梅」と「梅マラソン」と「マラソン」の検索用キーワードがＤＩＳＣ９の検索ＤＢに登録されるため、検索時には、「青梅」と「梅マラソン」をインデックスとして検索文書を絞り込むことができ、検索結果として「青梅」と「マラソン」が離れた位置にある文書を検索してしまうという可能性が少なくなる。
【００６０】
また、以上で説明した電子ファイリングシステムは、複数の機器から構成されるシステムに適用しても、一つの機器からなる装置に適用してもよい。さらにこの電子ファイリングシステムは、システム又は装置にその動作プログラムを供給することによって達成される場合にも適用できることはいうまでもない。この場合、例えば図２及び図４のフローチャートに示した本発明に係る登録、検索処理に必要な動作プログラム（電子ファイリングプログラム）を記録した、ＣＤ−ＲＯＭ、フラッシュメモリ、ＦＤ等の各種記録媒体から該プログラムをシステム又は装置に読み出すことによって、本発明の効果が享受可能となる。
【００６１】
本実施形態によれば、同一文字種の連続している検索用キーワードの自動抽出の際に、当該検索用キーワードの後に漢字が続く場合は、「同一文字種キーワード」と「同一文字種キーワード＋漢字１文字」の２つの検索用キーワードを抽出し、検索ＤＢに登録するので、例えば、検索文字が「カタカナ＋漢字１文字」からなる語であっても正確に文書データを検索することができる。
【００６２】
また、「同一文字種キーワード＋漢字１文字」を抽出する際に、漢字１文字に対応する付加情報を設定するので、同一文字種セット方式で抽出した検索用キーワードからも分野情報等を取得することができるので、文書データの分野バランスの崩れを極力押さえることができる。
【００６３】
さらに、検索文字に「同一文字種キーワード＋複数文字の漢字」が指定された場合には、この検索文字を「同一文字種キーワード＋漢字１文字」と「複数文字の漢字」とに分解し、これにより文書データの検索を行うので、「漢字１文字」が接続詞的役割を果たし、従来のように「同一文字種キーワード」と「複数文字の漢字」とが文書データ中で離れた位置にあるという可能性は低くなる。
【００６４】
【発明の効果】
以上により、検索ノイズの少ない検索用キーワードの抽出を正確に行うことが可能となる。
【図面の簡単な説明】
【図１】本発明の実施の一形態に係る電子ファイリングシステムの概略構成を示すブロック図である。
【図２】本発明の登録処理の手順を示すフローチャートである。
【図３】本発明の登録処理における自動抽出処理の具体例示す図である。
【図４】本発明の検索処理の手順を示すフローチャートである。
【図５】本発明の検索処理における検索処理の具体例示す図である。
【符号の説明】
１ＣＰＵ
９ＤＩＳＣ

Claims

文書データから、カタカナの連続した文字列からなるカタカナキーワードを抽出する第１の抽出手段と、
前記第１の抽出手段により抽出されたカタカナキーワードが漢字と隣接している場合に、前記カタカナキーワードと該隣接する漢字１文字とを、１つの検索用キーワードとして前記文書データから抽出する第２の抽出手段と、
前記第２の抽出手段により抽出された検索用キーワードに含まれる漢字１文字に関連する分野情報を前記文書データの分野情報として取得する分野情報取得手段と、
前記第２の抽出手段により抽出された検索用キーワードと前記分野情報取得手段で取得された前記文書データの分野情報とを前記文書データに関連付けて登録する登録手段とを備えたことを特徴とする電子ファイリングシステム。
前記第２の抽出手段は、前記第１の抽出手段により抽出されたカタカナキーワードの後に漢字が隣接している場合に、前記カタカナキーワードとその後に隣接する漢字１文字とを１つの検索用キーワードとして前記文書データから抽出することを特徴とする請求項１記載の電子ファイリングシステム。
前記分野情報取得手段により取得された分野情報を集計し、１つの文書データに含まれる分野情報の傾向を分野ベクトルとして算出する分野情報集計手段を更に備え、
前記登録手段は、前記分野情報集計手段で算出された分野ベクトルを前記文書データと関連付けて登録することを特徴とする請求項１又は２記載の電子ファイリングシステム。
検索文字を入力する入力手段と、
前記入力手段で入力された検索文字と、前記登録手段で登録された検索用キーワードに基づいて、複数の文書データの中から少なくとも前記文書データを検索する検索手段とを更に備えたことを特徴とする請求項１乃至３のいずれか１項に記載の電子ファイリングシステム。
前記検索手段は、前記入力手段で入力された検索文字が、カタカナとそれに隣接する複数文字の漢字とで構成されていた場合に、該検索文字から、カタカナ及びそれに隣接する漢字１文字で構成される第１の検索文字を取得すると共に、前記検索文字から複数文字の漢字で構成される第２の検索文字を取得し、該取得された第１及び第２の検索文字に対応する文書データを前記複数の文書データの中から検索することを特徴とする請求項４記載の電子ファイリングシステム。
電子ファイリングシステムにおいて実行される電子ファイリング方法であって、
前記電子ファイリングシステムが備える第１の抽出手段が、文書データから、カタカナの連続した文字列からなるカタカナキーワードを抽出する第１の抽出ステップと、
前記電子ファイリングシステムが備える第２の抽出手段が、前記第１の抽出ステップで抽出されたカタカナキーワードが漢字と隣接している場合に、前記カタカナキーワードと該隣接する漢字１文字とを、１つの検索用キーワードとして前記文書データから抽出する第２の抽出ステップと、
前記電子ファイリングシステムが備える分野情報取得手段が、前記第２の抽出ステップで抽出された検索用キーワードに含まれる漢字１文字に関連する分野情報を前記文書データの分野情報として取得する分野情報取得ステップと、
前記電子ファイリングシステムが備える登録手段が、前記第２の抽出ステップで抽出された検索用キーワードと前記分野情報取得ステップで取得された前記文書データの分野情報とを前記文書データに関連付けて登録する登録ステップとを備えたことを特徴とする電子ファイリング方法。
前記第２の抽出ステップでは、前記第１の抽出ステップで抽出されたカタカナキーワードの後に漢字が隣接している場合に、前記電子ファイリングシステムの第２の抽出手段が、前記カタカナキーワードとその後に隣接する漢字１文字とを１つの検索用キーワードとして前記文書データから抽出することを特徴とする請求項６記載の電子ファイリング方法。
前記電子ファイリングシステムが備える分野情報集計手段が、前記分野情報取得ステップで取得された分野情報を集計し、１つの文書データに含まれる分野情報の傾向を分野ベクトルとして算出する分野情報集計ステップを更に備え、
前記登録ステップでは、前記電子ファイリングシステムの登録手段が、前記分野情報集計ステップで算出された分野ベクトルを前記文書データと関連付けて登録することを特徴とする請求項６又は７記載の電子ファイリング方法。
前記電子ファイリングシステムが備える入力手段を介して入力された検索文字と、前記登録ステップで登録された検索用キーワードに基づいて、前記電子ファイリングシステムが備える検索手段が、複数の文書データの中から少なくとも前記文書データを検索する検索ステップを更に備えたことを特徴とする請求項６乃至８のいずれか１項に記載の電子ファイリング方法。
前記検索ステップでは、前記電子ファイリングシステムの入力手段を介して入力された検索文字が、カタカナとそれに隣接する複数文字の漢字とで構成されていた場合に、前記電子ファイリングシステムの検索手段が、該検索文字から、カタカナ及びそれに隣接する漢字１文字で構成される第１の検索文字を取得すると共に、前記検索文字から複数文字の漢字で構成される第２の検索文字を取得し、該取得された第１及び第２の検索文字に対応する文書データを前記複数の文書データの中から検索することを特徴とする請求項９記載の電子ファイリング方法。