JP3880116B2 - 電子ファイリングシステム、電子ファイリング方法及び記録媒体 - Google Patents

電子ファイリングシステム、電子ファイリング方法及び記録媒体 Download PDF

Info

Publication number
JP3880116B2
JP3880116B2 JP35859196A JP35859196A JP3880116B2 JP 3880116 B2 JP3880116 B2 JP 3880116B2 JP 35859196 A JP35859196 A JP 35859196A JP 35859196 A JP35859196 A JP 35859196A JP 3880116 B2 JP3880116 B2 JP 3880116B2
Authority
JP
Japan
Prior art keywords
search
electronic filing
document data
character
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP35859196A
Other languages
English (en)
Other versions
JPH10187736A (ja
Inventor
健一 数見
貴義 大館
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP35859196A priority Critical patent/JP3880116B2/ja
Publication of JPH10187736A publication Critical patent/JPH10187736A/ja
Application granted granted Critical
Publication of JP3880116B2 publication Critical patent/JP3880116B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、登録した文書データから検索用キーワードを自動抽出する電子ファイリングシステム及び電子ファイリング方法、並びに電子ファイリングプログラムを記録した記録媒体に関するものである。
【0002】
【従来の技術】
従来、電子ファイリングシステムにおいて文書データから検索用キーワードを自動抽出する方法として、あらかじめ検索用キーワードが登録されたキーワード辞書を参照し、この辞書に登録されている検索用キーワードを抽出する方式(辞書参照方式)及びカタカナ等の同一文字種の連続した文字列(同一文字種セット)を検索用キーワードとして抽出する方式(文字種セット方式)が知られている。
【0003】
【発明が解決しようとする課題】
まず、キーワード辞書参照方式のキーワード自動抽出では、あらかじめ辞書に登録している検索用キーワードのみを抽出することになり、新語や造語に対しては、登録漏れがかなり高い確率で発生するという問題があった。この場合、特に新語の出現率の非常に高いカタカナキーワードで顕著に登録漏れが目立っている。
【0004】
ここで、カタカナキーワードは、検索文字として入力される比率が高いため、登録漏れがあると、電子ファイリングシステム全体のキーワードヒット率への影響度も非常に大きなものがある。
【0005】
そこで、文字種セット方式により、カタカナキーワードに対しての登録漏れをなくすことが試みられている。
【0006】
しかし、文字種セット方式では、世の中に非常に多い「カタカナ+漢字」で成り立つ語を検索文字として検索することができないという問題がある。検索文字としてこのような「カタカナ+漢字」で成り立つ語が入力されれば、カタカナ部分だけを抽出し、検索データベース(以下、「検索DB」ともいう。)を検索してカタカナ部分に対応する文書をピックアップするという方法もあるが、この場合、検索ノイズが非常に多くなるという問題がある。
【0007】
また、上記検索用キーワードの自動抽出の際に、検索用キーワードの属する分野も付加情報として抽出し、これらの抽出した情報を計算することで、最終的に文書の分野を決定し、文書の自動分類に利用する試みもなされている。このとき、分野の決定は、あらかじめキーワード辞書に検索用キーワードに対応する分野情報を登録しておいて、自動抽出する際に付加情報として取得する方式が一般的である。
【0008】
しかし、文字種セット方式では、単純に同一の文字種を検索用キーワードとして抽出するという方式であるため、この付加情報を取得することができないという問題がある。
【0009】
このため、辞書参照方式及び文字種セット方式の両方式で検索用キーワードの自動抽出を行うとともに、何らかの計算式で文書分野を決定する場合には、文字種セット方式側で付加情報を取得することができないため検索用キーワードに対する分野のバランスが崩れがちになるという問題があった。
【0010】
例えば、ある文書に対して同一文字種セット方式で抽出した検索用キーワードに医療分野が多くあった場合には、この医療分野に対する付加情報を取得できない。その結果、その文書中で辞書参照方式で抽出した検索用キーワードの中に経済分野が1つ含まれていた場合には、この文書は経済分野に属することになる。つまり、医療分野であるべき文書が経済分野として登録されることになる。このように両方式を用いて検索用キーワードの自動抽出を行う場合には、文書の分野を決定するのに、文書データの分野のバランスを崩すという問題があった。
【0011】
さらに、検索文字として「同一文字種セット+漢字」を指定した場合に、この検索文字を「同一文字種セット」と「漢字」とに分解し、これらをインデックスとする文書ファイルを別々に取得し、AND演算することで、結果的に「同一文字種セット+漢字」を含む文書を得るという方法もある。
【0012】
しかし、この場合、「同一文字種セット」と「漢字」とを分解して検索しているので、取得した文書中に必ずしも「同一文字種セット」と「漢字」とが文字列として連続している語句があるとは限らない。すなわち、同一文字種セットの検索キーワードと漢字の検索キーワードが文書データには含まれているが、文字種セットと漢字との位置が離れている可能性もある。このように、上記従来の「同一文字種セット+漢字」の指定方法では検索ノイズが大きくなるという問題があった。
【0013】
そこで、本発明は上記事情に鑑みてなされたものであり、正確且つノイズの少ない検索用キーワードの抽出を行うとともに、検索文字の種類に関係なく確実に文書データの検索をすることが可能な電子ファイリングシステム及び電子ファイリング方法、並びに電子ファイリングプログラムを記録した記録媒体を提供することを目的とする。
【0014】
【課題を解決するための手段】
上記課題を解決するために本発明に係る電子ファイリングシステムは、文書データから、カタカナの連続した文字列からなるカタカナキーワードを抽出する第1の抽出手段と、前記第1の抽出手段により抽出されたカタカナキーワードが漢字と隣接している場合に、前記カタカナキーワードと該隣接する漢字1文字とを、1つの検索用キーワードとして前記文書データから抽出する第2の抽出手段と、前記第2の抽出手段により抽出された検索用キーワードに含まれる漢字1文字に関連する分野情報を前記文書データの分野情報として取得する分野情報取得手段と、前記第2の抽出手段により抽出された検索用キーワードと前記分野情報取得手段で取得された分野情報とを前記文書データ関連付けて登録する登録手段とを備えたことを特徴とする。
【0015】
また、本発明に係る電子ファイリング方法は、電子ファイリングシステムにおいて実行される電子ファイリング方法であって、前記電子ファイリングシステムが備える第1の抽出手段が、文書データから、カタカナの連続した文字列からなるカタカナキーワードを抽出する第1の抽出ステップと、前記電子ファイリングシステムが備える第2の抽出手段が、前記第1の抽出ステップで抽出されたカタカナキーワードが漢字と隣接している場合に、前記カタカナキーワードと該隣接する漢字1文字とを、1つの検索用キーワードとして前記文書データから抽出する第2の抽出ステップと、前記電子ファイリングシステムが備える分野情報取得手段が、前記第2の抽出ステップ抽出された検索用キーワードに含まれる漢字1文字に関連する分野情報を前記文書データの分野情報として取得する分野情報取得ステップと、前記電子ファイリングシステムが備える登録手段が、前記第2の抽出ステップ抽出された検索用キーワードと前記分野情報取得ステップで取得された前記文書データの分野情報とを前記文書データに関連付けて登録する登録ステップとを備えたことを特徴とする。
【0016】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0017】
図1は、本発明の実施の一形態に係る電子ファイリングシステムの概略構成を示す構成ブロック図である。
【0018】
本システムは、システム全体を制御するCPU1を有し,このCPU1にアドレスバスAB,コントロールバスCB及びデータバスDBを介して第1のRAM2,第2のRAM3,キーボードバッファ4,ビデオバッファ5,RAMDAC6,単漢字辞書7,かな漢字辞書8,ディスク(DISC)9,カーソルレジスタ10,キーボード11及びCRT12が接続されて構成されている。
【0019】
ここで、上記CPU1は、例えばマイクロプロセッサ等で構成され、電子ファイリング処理のための演算や論理判断を行うとともに、アドレスバスAB,コントロールバスCB及びデータバスDBを介して接続された各構成ブロックを制御するものである。尚、アドレスバスABは、CPU1が制御の対象とする構成ブロックのアドレス信号を転送するものであり、コントロールバスCBは、CPU1が制御の対象とする構成ブロックのコントロール信号を転送して当該構成ブロックに印加するものであり、また、データバスDBは、各構成ブロック相互間のデータ転送を行うものである。
【0020】
また、CPU1は、第1のRAM2に記憶された制御プログラムに従って、後述する検索用キーワードの抽出、登録処理及び文書データの検索処理を実行する抽出手段、登録手段及び検索手段としての機能を有している。さらに、CPU1は、後述の検索用キーワードに付加する分野等の付加情報の設定、集計処理等を行う付加情報設定手段及び付加情報集計手段としての機能をも有している。
【0021】
また、第1のRAM2は、書き込み可能なランダムアクセスメモリである。この第1のRAM2は、キーボード11の指示により、DISK9から本発明の制御手順を記述した制御プログラムのファイルを読み込み記憶している。
【0022】
第2のRAM3は、書き込み可能なランダムアクセスメモリである。この第2のRAM3は、図2に示す登録文書のデータ及びキーワード自動抽出の結果等を一時的に記憶するようになっている。
【0023】
キーボードバッファ4は、キーボード11と各バスAB、CB及びDBとの間に接続されている。このキーボードバッファ4は、キーボード11から送信されるスキャンコードを一時的に貯えるメモリとなっている。
【0024】
ビデオバッファ5は、登録文書の指定画面及び検索文字を入力する画面をビット展開してCRT12に表示する1画面分の画素のデータを貯えるメモリである。このビデオバッファ5の出力側には、ビデオバッファ5に貯えられたデジタル符号である画素データをCRT12で制御できるアナログ信号に変換するコンバータであるRAMDAC6の入力側が接続されている。
【0025】
RAMDAC6の出力側にはCRT12が接続されている。このRAMDAC6に接続されたCRT12は、RAMDAC6から出力された1画面分のアナログ画素データを表示するようになっている。
【0026】
単漢字辞書7は、部首や画数入力、単漢字入力などによって漢字を検索するための辞書であり、また、かな漢字辞書8は、かな漢字変換を行うための辞書である。
【0027】
DISC9は、例えばハードディスクやMO(Magneto Optical disk) 等で構成される外部記憶ディスク装置であり、自動抽出した検索用キーワードを登録した検索DBと登録文書を保存するものである。また、DISC9は、登録文書の文書名とID情報とを関連付けるテーブルもDB化して保存するようになっている。尚、DISC9に保存された各種のデータは、キーボード11からのキーワード検索の指示で呼び出されるようになっている。
【0028】
カーソルレジスタ10は、CRT12の画面にカーソルを表示するためのレジスタである。このカーソルレジスタ10の内容は、CPU1により読み書きされ、その内容は、ビデオバッファ5に送信され、ここに貯えられたアドレスに対するCRT12の所定の画面位置にカーソル表示がなされるようになっている。
【0029】
以上のように構成された電子ファイリングシステムは、キーボード11からの各種の入力に応じて動作し、キーボード11から各種の入力が供給されると、まずインタラプト信号をCPU1に送信する。インタラプト信号を受信したCPU1は、第1のRAM2に記憶されている制御信号を読み出し、それらの信号に従って各種の制御を行う。
【0030】
以下、図2〜図5を参照して本実施形態による電子ファイリングシステム、特にCPU1が実行する各種制御処理の動作を説明する。
【0031】
まず、文書データから検索用キーワードを抽出し、DISC9の検索データベースに登録する「登録」処理の手順を図2のフローチャートを基に図3をも参照して説明する。
【0032】
図2は、本実施形態の電子ファイリングシステムのCPU1が実行する「登録」処理の手順を示すフローチャートである。
【0033】
図2に示したように、まず、CPU1は、抽出する検索用キーワードの文字種を判別する(S101)。ここでは、文字種として特にカタカナ文字であるか否かの判別を行うものとする。
【0034】
ここで、カタカナ文字種を抽出するのであれば、カタカナが連続している文字列を検索用キーワードとして抽出する(S103)。また、カタカナ文字列の直後に漢字があれば、「カタカナ+漢字1文字」も検索用キーワードとして抽出する。
【0035】
次に、抽出された検索用キーワードのうち漢字1文字で検索用キーワードの分野を判定する(S105)。尚、判定基準として、あらかじめ「カタカナ+漢字1文字」のキーワードサンプルを収集し、そのサンプルデータに基づき漢字の分野傾向を決定しておくという方法がある。
【0036】
図3に、この検索用キーワードの抽出処理の具体例を示す。
【0037】
図3に示した文書Aからは、「カタカナ+漢字1文字」の検索用キーワードとして、「メキシコ湾」、「ドミニカ島」、「スペイン語」が抽出され、このうち各漢字1文字によって、それぞれ「旅行」、「旅行」、「語学」の分野が決定している。従来のカタカナだけのキーワード抽出では、このような分野の決定は不可能である。
【0038】
一方、前記ステップS101においてカタカナ文字種を抽出しない場合には、キーワード辞書を参照した検索用キーワードの自動抽出処理に入る(S107)。この場合、まず、文書データ中にキーワード辞書に登録されている検索用キーワードがあるか否かを判断し(S109)、キーワード辞書に登録されているのであれば、キーワード辞書からその検索用キーワードの分野を該文書データの分野情報として取得する(S11)。
【0039】
上記のような各抽出処理を全て終了した場合には(S113)、次に、上記ステップS105及びS111の2つの抽出方法で得た分野情報を加算し、1つの文書の分野ベクトルを算出する(S115)。図3の例では、「旅行×2+語学×1」という分野ベクトルが生成されている。
【0040】
最後に算出された分野ベクトルを、抽出した検索用キーワードとともにDISC9の検索データベースに登録する(S117)。
【0041】
尚、ここで登録された分野ベクトルは、文書検索の補助手段として有効に利用することができる。すなわち、検索文字と同時に検索すべき文書の分野ベクトルを指定すれば、検索すべき文書を容易に絞り込むことができる。
【0042】
次に、検索文字が入力された場合にDISC9の検索データベースに基づいて文書データの検索を行う「検索」処理の手順を図4のフローチャートを基に図5をも参照して説明する。
【0043】
図4は、本実施形態の電子ファイリングシステムのCPU1が実行する「検索」処理の手順を示すフローチャートである。
【0044】
同図に示したように、「検索」処理を行う場合には、まず、キーボード11により任意の検索文字が入力指定される(S200)。そして、ここで指定された検索文字の分解処理がCPU1により行われる(S201)。そして、分解処理後に生成される検索文字をインデックスとして検索DBに基づく検索が行われる(S203)。このとき、まず、分解された各検索文字に対応する文書ID番号が決定される(S205)。
【0045】
ここまでの処理の具体例を図5を用いて説明する。
【0046】
例えば図5に示したように検索文字として「スペイン領地」が入力されたとすれば、ステップS201において「スペイン領」と「領地」とに検索文字が分解される。
【0047】
ここで、「スペイン領」は、「カタカナ+漢字1文字」の方式で分解したものである。また、「領地」は、キーワード辞書参照方式の抽出法で得たものであり、ここではキーワード辞書に領地が登録されていたものとする。
【0048】
そして、「スペイン領」及び「領地」に対応する文書ID番号が検索DBのインデックスに基づき決定される。
【0049】
再び図4のフローチャートの説明に戻ると、前記ステップS205の処理が行われた後は、このステップS205で取得された文書IDに対してAND演算処理が行われ、分解された双方の検索文字に共通する文書IDの決定が行われる (S207)。図5の例では、「3、9、18」の文書IDが決定している。
【0050】
最後に、AND演算処理により決定された文書IDを具体的な文書名に変換し(文書データの登録時に、文書IDと文書名とを関連付けるテーブルもDISC9にデータベース化されているので、文書IDと文書名との変換を行うことができる。)、CRT12の検索画面に表示する(S209,S211)。
【0051】
図5の例では、文書名として文書A,文書B,文書Cが検索結果として取得されている。このように図5の例では、「領」が「スペイン」と「領地」の単語を接続する役割を果たしているので、文書中にスペインと領地が離れている可能性は、従来の「スペイン」及び「領地」という別々のインデックスで文書を絞り込む方式と比較して非常に小さくなる。
【0052】
以上説明したように、実施形態によれば、新語、造語の発生頻度の非常に高いカタカナ文字種セットの検索用キーワードに対して、キーワード辞書にあらかじめ登録することなく対応できる。また、例えば「アミノ酸」,「トウモロコシ畑」のように「カタカナ+漢字1文字」の検索文字にも完全一致で検索することが可能となる。
【0053】
また、文書に対して、分野等の付加情報を登録したとしても、同一文字種セットの検索用キーワードによりバランスを崩すことなく、付加情報が決定される。
【0054】
また、検索文字を「スペイン領地」等の「カタカナ+複数文字の漢字」で指定しても、検索された文書中に、カタカナと漢字とが分断されて存在する可能性が低くなり、検索ノイズを小さくできる。
【0055】
(他の実施形態)
尚、本発明は、上記実施形態に限定されず種々の変形形態が可能である。
【0056】
例えば、上記実施形態では、漢字1文字に対して1つの分野情報を定義して説明したが、実際には漢字1文字に対して複数の分野にまたがる可能性の方が大きい。例えば「山」を例にとってみると、「エベレスト山」、「キリマンジャロ山」のように地名を示す場合がほとんどであるが、「シナイ山」のように地名と同時に宗教色の強い場合もある。
【0057】
このような場合には、「山」という文字に対しては、地名(比重=9),宗教(比重=1)のように各分野に比重を持たせて、複数個定義するようにするとよい。すなわち、分野情報の取得段階で、これらの複数分野を取得して、集計時にポイントを加味して文書全体の分野を決定付けるようにするとよい。
【0058】
また、上記実施形態では、「カタカナ+漢字1文字」というパターンで本発明を説明してきたが、「漢字1文字+カタカナ」で検索用キーワードとして成立するものも頻度は少ないが存在するため(例えば、「生ビール」,「青カビ」等)、このような場合にも上記実施形態の説明の、文字種セットの自動抽出処理に組み込むようにしてもよい。このようにすることで、さらに分野情報の正確な決定や、ピックアップする文書データの検索ノイズを少なく押さえることが可能である。
【0059】
例えば、「青梅マラソン」を分解すると、「青梅」と「梅マラソン」と「マラソン」の検索用キーワードがDISC9の検索DBに登録されるため、検索時には、「青梅」と「梅マラソン」をインデックスとして検索文書を絞り込むことができ、検索結果として「青梅」と「マラソン」が離れた位置にある文書を検索してしまうという可能性が少なくなる。
【0060】
また、以上で説明した電子ファイリングシステムは、複数の機器から構成されるシステムに適用しても、一つの機器からなる装置に適用してもよい。さらにこの電子ファイリングシステムは、システム又は装置にその動作プログラムを供給することによって達成される場合にも適用できることはいうまでもない。この場合、例えば図2及び図4のフローチャートに示した本発明に係る登録、検索処理に必要な動作プログラム(電子ファイリングプログラム)を記録した、CD−ROM、フラッシュメモリ、FD等の各種記録媒体から該プログラムをシステム又は装置に読み出すことによって、本発明の効果が享受可能となる。
【0061】
本実施形態によれば、同一文字種の連続している検索用キーワードの自動抽出の際に、当該検索用キーワードの後に漢字が続く場合は、「同一文字種キーワード」と「同一文字種キーワード+漢字1文字」の2つの検索用キーワードを抽出し、検索DBに登録するので、例えば、検索文字が「カタカナ+漢字1文字」からなる語であっても正確に文書データを検索することができる。
【0062】
また、「同一文字種キーワード+漢字1文字」を抽出する際に、漢字1文字に対応する付加情報を設定するので、同一文字種セット方式で抽出した検索用キーワードからも分野情報等を取得することができるので、文書データの分野バランスの崩れを極力押さえることができる。
【0063】
さらに、検索文字に「同一文字種キーワード+複数文字の漢字」が指定された場合には、この検索文字を「同一文字種キーワード+漢字1文字」と「複数文字の漢字」とに分解し、これにより文書データの検索を行うので、「漢字1文字」が接続詞的役割を果たし、従来のように「同一文字種キーワード」と「複数文字の漢字」とが文書データ中で離れた位置にあるという可能性は低くなる。
【0064】
【発明の効果】
以上により、検索ノイズの少ない検索用キーワードの抽出を正確に行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の一形態に係る電子ファイリングシステムの概略構成を示すブロック図である。
【図2】本発明の登録処理の手順を示すフローチャートである。
【図3】本発明の登録処理における自動抽出処理の具体例示す図である。
【図4】本発明の検索処理の手順を示すフローチャートである。
【図5】本発明の検索処理における検索処理の具体例示す図である。
【符号の説明】
1 CPU
9 DISC

Claims (10)

  1. 文書データから、カタカナの連続した文字列からなるカタカナキーワードを抽出する第1の抽出手段と、
    前記第1の抽出手段により抽出されたカタカナキーワードが漢字と隣接している場合に、前記カタカナキーワードと該隣接する漢字1文字とを、1つの検索用キーワードとして前記文書データから抽出する第2の抽出手段と、
    前記第2の抽出手段により抽出された検索用キーワードに含まれる漢字1文字に関連する分野情報を前記文書データの分野情報として取得する分野情報取得手段と、
    前記第2の抽出手段により抽出された検索用キーワードと前記分野情報取得手段で取得された前記文書データの分野情報とを前記文書データ関連付けて登録する登録手段とを備えたことを特徴とする電子ファイリングシステム。
  2. 前記第2の抽出手段は、前記第1の抽出手段により抽出されたカタカナキーワードの後に漢字が隣接している場合に、前記カタカナキーワードとその後に隣接する漢字1文字とを1つの検索用キーワードとして前記文書データから抽出することを特徴とする請求項1記載の電子ファイリングシステム。
  3. 前記分野情報取得手段により取得された分野情報を集計し、1つの文書データに含まれる分野情報の傾向を分野ベクトルとして算出する分野情報集計手段を更に備え、
    前記登録手段は、前記分野情報集計手段で算出された分野ベクトルを前記文書データと関連付けて登録することを特徴とする請求項1又は2記載の電子ファイリングシステム。
  4. 検索文字を入力する入力手段と、
    前記入力手段で入力された検索文字と、前記登録手段で登録された検索用キーワードに基づいて、複数の文書データの中から少なくとも前記文書データを検索する検索手段とを更に備えたことを特徴とする請求項1乃至3のいずれか1項に記載の電子ファイリングシステム。
  5. 前記検索手段は、前記入力手段で入力された検索文字が、カタカナそれに隣接する複数文字の漢字とで構成されていた場合に、該検索文字から、カタカナ及びそれに隣接する漢字1文字で構成される第1の検索文字を取得すると共に、前記検索文字から複数文字の漢字で構成される第2の検索文字を取得し、該取得された第1及び第2の検索文字に対応する文書データを前記複数の文書データの中から検索することを特徴とする請求項記載の電子ファイリングシステム。
  6. 電子ファイリングシステムにおいて実行される電子ファイリング方法であって、
    前記電子ファイリングシステムが備える第1の抽出手段が、文書データから、カタカナの連続した文字列からなるカタカナキーワードを抽出する第1の抽出ステップと、
    前記電子ファイリングシステムが備える第2の抽出手段が、前記第1の抽出ステップで抽出されたカタカナキーワードが漢字と隣接している場合に、前記カタカナキーワードと該隣接する漢字1文字とを、1つの検索用キーワードとして前記文書データから抽出する第2の抽出ステップと、
    前記電子ファイリングシステムが備える分野情報取得手段が、前記第2の抽出ステップ抽出された検索用キーワードに含まれる漢字1文字に関連する分野情報を前記文書データの分野情報として取得する分野情報取得ステップと、
    前記電子ファイリングシステムが備える登録手段が、前記第2の抽出ステップ抽出された検索用キーワードと前記分野情報取得ステップで取得された前記文書データの分野情報とを前記文書データに関連付けて登録する登録ステップとを備えたことを特徴とする電子ファイリング方法。
  7. 前記第2の抽出ステップは、前記第1の抽出ステップ抽出されたカタカナキーワードの後に漢字が隣接している場合に、前記電子ファイリングシステムの第2の抽出手段が、前記カタカナキーワードとその後に隣接する漢字1文字とを1つの検索用キーワードとして前記文書データから抽出することを特徴とする請求項6記載の電子ファイリング方法。
  8. 前記電子ファイリングシステムが備える分野情報集計手段が、前記分野情報取得ステップ取得された分野情報を集計し、1つの文書データに含まれる分野情報の傾向を分野ベクトルとして算出する分野情報集計ステップを更に備え、
    前記登録ステップでは、前記電子ファイリングシステムの登録手段が、前記分野情報集計ステップで算出された分野ベクトルを前記文書データと関連付けて登録することを特徴とする請求項6又は7記載の電子ファイリング方法。
  9. 電子ファイリングシステムが備える入力手段を介して入力された検索文字と、前記登録ステップで登録された検索用キーワードに基づいて、前記電子ファイリングシステムが備える検索手段が、複数の文書データの中から少なくとも前記文書データを検索する検索ステップを更に備えたことを特徴とする請求項6乃至8のいずれか1項に記載の電子ファイリング方法。
  10. 前記検索ステップは、前記電子ファイリングシステムの入力手段を介して入力された検索文字が、カタカナとそれに隣接する複数文字の漢字とで構成されていた場合に、前記電子ファイリングシステムの検索手段が、該検索文字から、カタカナ及びそれに隣接する漢字1文字で構成される第1の検索文字を取得すると共に、前記検索文字から複数文字の漢字で構成される第2の検索文字を取得し、該取得された第1及び第2の検索文字に対応する文書データを前記複数の文書データの中から検索することを特徴とする請求項9記載の電子ファイリング方法。
JP35859196A 1996-12-27 1996-12-27 電子ファイリングシステム、電子ファイリング方法及び記録媒体 Expired - Fee Related JP3880116B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35859196A JP3880116B2 (ja) 1996-12-27 1996-12-27 電子ファイリングシステム、電子ファイリング方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35859196A JP3880116B2 (ja) 1996-12-27 1996-12-27 電子ファイリングシステム、電子ファイリング方法及び記録媒体

Publications (2)

Publication Number Publication Date
JPH10187736A JPH10187736A (ja) 1998-07-21
JP3880116B2 true JP3880116B2 (ja) 2007-02-14

Family

ID=18460109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35859196A Expired - Fee Related JP3880116B2 (ja) 1996-12-27 1996-12-27 電子ファイリングシステム、電子ファイリング方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP3880116B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4040382B2 (ja) * 2002-07-30 2008-01-30 ソニー株式会社 キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム

Also Published As

Publication number Publication date
JPH10187736A (ja) 1998-07-21

Similar Documents

Publication Publication Date Title
US6418403B2 (en) Translating apparatus, dictionary search apparatus, and translating method
US5133067A (en) Method and apparatus for system for selectively extracting display data within a specified proximity of a displayed character string using a range table
JP2005043977A (ja) 文書間の類似度算出方法および装置
JP4054428B2 (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JPH05324722A (ja) 文書検索方式
JP3880116B2 (ja) 電子ファイリングシステム、電子ファイリング方法及び記録媒体
JPH0652221A (ja) 固有名詞の自動抽出方式
JP2005107931A (ja) 画像検索装置
JPH11143902A (ja) n−gramを用いた類似文書検索方法
JPS6118074A (ja) プレ・エデイツト方式
JPS61248160A (ja) 文書情報登録方式
JP3743252B2 (ja) アルファベット表記法人名検索システムと方法およびその処理プログラムを記録した記録媒体
JP2002163291A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JPH09259149A (ja) 電子ファイリングシステムおよびその制御方法
JPH10334122A (ja) 類似名検索システムおよび記録媒体
JPH03134773A (ja) 日本語辞書データ管理方式
JP2601139B2 (ja) 文字列検索装置
JPH0347554B2 (ja)
JPH0612454A (ja) 文書検索方法及び装置
JPH10269231A (ja) 日英混在文書における文書検索方法
JPH04314172A (ja) イメージデータ登録方式
JPH0351958A (ja) 電子辞書
JP2003022276A (ja) 文書検索装置及び文書検索方法
JPH02158872A (ja) キーワード抽出方法
JPS63196973A (ja) 仮名漢字変換方式

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060905

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061107

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131117

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees