JPH08161344A - ファイル検索管理用のキーワードデータベースファイル作成方法および装置 - Google Patents
ファイル検索管理用のキーワードデータベースファイル作成方法および装置Info
- Publication number
- JPH08161344A JPH08161344A JP6321702A JP32170294A JPH08161344A JP H08161344 A JPH08161344 A JP H08161344A JP 6321702 A JP6321702 A JP 6321702A JP 32170294 A JP32170294 A JP 32170294A JP H08161344 A JPH08161344 A JP H08161344A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- file
- term
- character string
- key word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 特別な定義情報を全く入力することなく、フ
ァイル検索用のキーワード用語のデータベースファイル
を自動的に作成できるようにする。 【構成】 ステップ108にて記憶媒体に格納されてい
る各種の文書ファイルからファイル検索管理用のキーワ
ード用語の候補である文字列を所定の区切り文字コード
を使用して抽出するとともに、ステップ109にて上記
抽出した文字列毎の使用回数を計数し、ステップ111
にて該使用回数の多い順に一定語数の文字列を上記キー
ワード用語として選択し、ステップ112にて上記選択
した一定語数のキーワード用語と上記記憶媒体に格納さ
れている文書ファイルに関する情報とからキーワードデ
ータベースファイルを作成するようにすることにより、
キーワード用語抽出のための特別な定義情報をあらかじ
め入力しておかなくても、あらゆる形式の文書ファイル
から最適なキーワード用語を自動的に抽出してキーワー
ドデータベースファイルを作成することができるように
する。
ァイル検索用のキーワード用語のデータベースファイル
を自動的に作成できるようにする。 【構成】 ステップ108にて記憶媒体に格納されてい
る各種の文書ファイルからファイル検索管理用のキーワ
ード用語の候補である文字列を所定の区切り文字コード
を使用して抽出するとともに、ステップ109にて上記
抽出した文字列毎の使用回数を計数し、ステップ111
にて該使用回数の多い順に一定語数の文字列を上記キー
ワード用語として選択し、ステップ112にて上記選択
した一定語数のキーワード用語と上記記憶媒体に格納さ
れている文書ファイルに関する情報とからキーワードデ
ータベースファイルを作成するようにすることにより、
キーワード用語抽出のための特別な定義情報をあらかじ
め入力しておかなくても、あらゆる形式の文書ファイル
から最適なキーワード用語を自動的に抽出してキーワー
ドデータベースファイルを作成することができるように
する。
Description
【0001】
【産業上の利用分野】本発明は、ファイル管理システム
等に適用可能なファイル検索管理用のキーワードデータ
ベースファイル作成方法および装置に関するものであ
る。
等に適用可能なファイル検索管理用のキーワードデータ
ベースファイル作成方法および装置に関するものであ
る。
【0002】
【従来の技術】従来、紙片情報でなく、フロッピーディ
スクに代表される交換可能な記憶媒体やハードディスク
に代表される交換不可能な記憶媒体に格納された電子情
報ファイル(例えば文書ファイル)の在りかを検索する
ために、検索に必要なキーワードを上記文書ファイルか
ら抽出し、これをあらかじめ設定しておくことが一般に
行われている。すなわち、この従来技術によれば、設定
したキーワードを検索条件としてそのキーワードを含む
文書ファイルを検索することが可能である。
スクに代表される交換可能な記憶媒体やハードディスク
に代表される交換不可能な記憶媒体に格納された電子情
報ファイル(例えば文書ファイル)の在りかを検索する
ために、検索に必要なキーワードを上記文書ファイルか
ら抽出し、これをあらかじめ設定しておくことが一般に
行われている。すなわち、この従来技術によれば、設定
したキーワードを検索条件としてそのキーワードを含む
文書ファイルを検索することが可能である。
【0003】情報ファイル検索管理用のキーワード抽出
に関する従来技術には、例えば特開平2−244274
号公報に示された抽出方法がある。この抽出方法は、テ
キスト内の各単語について実際の使用頻度と予期してお
いた使用頻度とを比較し、実際の使用頻度が予期してお
いた使用頻度に対して予定の関係を持つ場合にその単語
をキーワードとして抽出することにより、ファイルから
キーワードを自動的に抽出することを可能にしたもので
ある。
に関する従来技術には、例えば特開平2−244274
号公報に示された抽出方法がある。この抽出方法は、テ
キスト内の各単語について実際の使用頻度と予期してお
いた使用頻度とを比較し、実際の使用頻度が予期してお
いた使用頻度に対して予定の関係を持つ場合にその単語
をキーワードとして抽出することにより、ファイルから
キーワードを自動的に抽出することを可能にしたもので
ある。
【0004】また、特開昭63−217418号公報に
示されているような方法もある。この方法は、日本語テ
キストデータをコード化するとき、漢字コードの範囲と
カタカナコードの範囲とをもとに、漢字およびカタカナ
の少なくとも一方を含む文字列をテキスト中から抽出す
る。そして、その抽出した文字列が一般にテキストを特
徴付けるのに不適切であるかどうかを非キーワードファ
イルの情報をもとに判断し、不適切と判断されなかった
文字列のうちの出現回数の多いものをそのテキストのキ
ーワードとする。これにより、人手を介することなく日
本語テキストデータのキーワードを抽出するものであ
る。
示されているような方法もある。この方法は、日本語テ
キストデータをコード化するとき、漢字コードの範囲と
カタカナコードの範囲とをもとに、漢字およびカタカナ
の少なくとも一方を含む文字列をテキスト中から抽出す
る。そして、その抽出した文字列が一般にテキストを特
徴付けるのに不適切であるかどうかを非キーワードファ
イルの情報をもとに判断し、不適切と判断されなかった
文字列のうちの出現回数の多いものをそのテキストのキ
ーワードとする。これにより、人手を介することなく日
本語テキストデータのキーワードを抽出するものであ
る。
【0005】さらに、情報の登録および検索に関する技
術として、特開平5−61912号公報に示されたよう
な装置もある。この装置は、情報の登録の際に、その情
報検索用のキーワードを自動的に設定できるようにし、
情報の登録および検索の簡略化を図ることが可能な情報
ファイリング装置を提供したものである。すなわち、登
録の際に読み取った情報の中から文字を選出するととも
に、選出した文字の中から名詞句を抽出してその出現頻
度を計数し、出現頻度の高い名詞句および出現頻度の低
い名詞句をキーワードとして設定するようにしたもので
ある。
術として、特開平5−61912号公報に示されたよう
な装置もある。この装置は、情報の登録の際に、その情
報検索用のキーワードを自動的に設定できるようにし、
情報の登録および検索の簡略化を図ることが可能な情報
ファイリング装置を提供したものである。すなわち、登
録の際に読み取った情報の中から文字を選出するととも
に、選出した文字の中から名詞句を抽出してその出現頻
度を計数し、出現頻度の高い名詞句および出現頻度の低
い名詞句をキーワードとして設定するようにしたもので
ある。
【0006】
【発明が解決しようとする課題】上記した公知例の他に
も世の中には各種の検索管理システムがあるが、一般に
キーワード用語の初期データの入力が必要であり、その
入力作業が大変である。上記公知例のようにキーワード
用語の入力が不要なシステムも出現してきているが、キ
ーワード用語の入力が不要であるだけで、その処理を行
うために別のデータを準備することが必要である。ま
た、そのようなシステムは一般に大規模なシステムであ
り、非常に高価なものが多い。
も世の中には各種の検索管理システムがあるが、一般に
キーワード用語の初期データの入力が必要であり、その
入力作業が大変である。上記公知例のようにキーワード
用語の入力が不要なシステムも出現してきているが、キ
ーワード用語の入力が不要であるだけで、その処理を行
うために別のデータを準備することが必要である。ま
た、そのようなシステムは一般に大規模なシステムであ
り、非常に高価なものが多い。
【0007】すなわち、特開平2−244274号公報
に示された方法では、テキスト内の各単語に関して予期
する使用頻度の情報をあらかじめ入力しておく必要があ
るため、その情報の入力作業に手間がかかってしまうと
いう問題があった。また、この予期する使用頻度の与え
方によってはキーワードの抽出結果が異なってくるた
め、一貫した抽出方法とは言い難く、重要なキーワード
が抽出されないことがあるという問題もあった。
に示された方法では、テキスト内の各単語に関して予期
する使用頻度の情報をあらかじめ入力しておく必要があ
るため、その情報の入力作業に手間がかかってしまうと
いう問題があった。また、この予期する使用頻度の与え
方によってはキーワードの抽出結果が異なってくるた
め、一貫した抽出方法とは言い難く、重要なキーワード
が抽出されないことがあるという問題もあった。
【0008】また、特開昭63−217418号公報に
示された方法は、日本語テキストデータだけを対象とし
た抽出方法であるため、この方法では、漢字またはカタ
カナの文字列しか抽出できず、英文または英単語まじり
の日本語などの場合にはキーワードの抽出が制限されて
しまうという問題があった。また、特開平2−2442
74号公報の方法と同様に、キーワード抽出のための特
別な情報(この場合は非キーワードファイルの情報)を
あらかじめ入力しておく必要があり、その入力作業に手
間がかかるという問題があった。
示された方法は、日本語テキストデータだけを対象とし
た抽出方法であるため、この方法では、漢字またはカタ
カナの文字列しか抽出できず、英文または英単語まじり
の日本語などの場合にはキーワードの抽出が制限されて
しまうという問題があった。また、特開平2−2442
74号公報の方法と同様に、キーワード抽出のための特
別な情報(この場合は非キーワードファイルの情報)を
あらかじめ入力しておく必要があり、その入力作業に手
間がかかるという問題があった。
【0009】また、特開平5−61912号公報の方法
では、選出した文字の中から名詞句を抽出してその出現
頻度を計数し、出現頻度の高い名詞句および出現頻度の
低い名詞句をキーワードとして設定するようにしている
が、名詞句だけに限定しているため、特開昭63−21
7418号公報の方法と同様に汎用的でないという問題
があった。
では、選出した文字の中から名詞句を抽出してその出現
頻度を計数し、出現頻度の高い名詞句および出現頻度の
低い名詞句をキーワードとして設定するようにしている
が、名詞句だけに限定しているため、特開昭63−21
7418号公報の方法と同様に汎用的でないという問題
があった。
【0010】本発明は、このような問題を解決するため
に成されたものであり、ファイル検索管理用のキーワー
ド用語を抽出するための特別な定義情報を全く準備する
ことなく、種々のファイルの内容に最適なキーワード用
語を自動的に抽出することができるようにし、個人レベ
ルで使用するパーソナルコンピュータ(パソコン)でも
容易にファイル検索管理用のキーワード用語のデータベ
ースファイルを自動的に作成できるようにすることを目
的とする。
に成されたものであり、ファイル検索管理用のキーワー
ド用語を抽出するための特別な定義情報を全く準備する
ことなく、種々のファイルの内容に最適なキーワード用
語を自動的に抽出することができるようにし、個人レベ
ルで使用するパーソナルコンピュータ(パソコン)でも
容易にファイル検索管理用のキーワード用語のデータベ
ースファイルを自動的に作成できるようにすることを目
的とする。
【0011】
【課題を解決するための手段】本発明のファイル検索管
理用のキーワードデータベースファイル作成方法は、記
憶媒体に格納された各種の文書ファイルからファイル検
索管理用のキーワード用語の候補である文字列を所定の
区切り文字コードを使用して抽出するとともに、上記抽
出した文字列毎の使用回数を計数し、該使用回数の多い
順に一定語数の文字列を上記キーワード用語として選択
し、こうして選択した一定語数のキーワード用語と上記
記憶媒体に格納されている文書ファイルに関する情報と
からキーワードデータベースファイルを自動的に作成す
るようにしている。
理用のキーワードデータベースファイル作成方法は、記
憶媒体に格納された各種の文書ファイルからファイル検
索管理用のキーワード用語の候補である文字列を所定の
区切り文字コードを使用して抽出するとともに、上記抽
出した文字列毎の使用回数を計数し、該使用回数の多い
順に一定語数の文字列を上記キーワード用語として選択
し、こうして選択した一定語数のキーワード用語と上記
記憶媒体に格納されている文書ファイルに関する情報と
からキーワードデータベースファイルを自動的に作成す
るようにしている。
【0012】また、上記所定の区切り文字コードは、あ
らかじめ指定したシフトJISコードおよびASCII
コードの区切り文字コードであることを特徴とする。
らかじめ指定したシフトJISコードおよびASCII
コードの区切り文字コードであることを特徴とする。
【0013】本発明のファイル検索管理用のキーワード
データベースファイル作成装置は、記憶媒体に格納され
た各種の文書ファイルからファイル検索管理用のキーワ
ード用語の候補である文字列を所定の区切り文字を使用
して抽出するキーワード用語候補抽出手段と、上記キー
ワード用語候補抽出手段により抽出された各文字列の上
記文書ファイル中における使用回数をそれぞれ計数する
計数手段と、上記計数手段により計数された使用回数の
多い順に一定語数の文字列を上記キーワード用語として
選択するキーワード用語選択手段と、上記キーワード用
語選択手段により選択された一定語数のキーワード用語
と上記記憶媒体に格納されている文書ファイルに関する
情報とからキーワードデータベースファイルを作成する
ファイル作成手段とを設けたものである。
データベースファイル作成装置は、記憶媒体に格納され
た各種の文書ファイルからファイル検索管理用のキーワ
ード用語の候補である文字列を所定の区切り文字を使用
して抽出するキーワード用語候補抽出手段と、上記キー
ワード用語候補抽出手段により抽出された各文字列の上
記文書ファイル中における使用回数をそれぞれ計数する
計数手段と、上記計数手段により計数された使用回数の
多い順に一定語数の文字列を上記キーワード用語として
選択するキーワード用語選択手段と、上記キーワード用
語選択手段により選択された一定語数のキーワード用語
と上記記憶媒体に格納されている文書ファイルに関する
情報とからキーワードデータベースファイルを作成する
ファイル作成手段とを設けたものである。
【0014】また、上記キーワード用語選択手段により
選択されるキーワード用語の語数を指定する語数指定手
段を設けたものである。
選択されるキーワード用語の語数を指定する語数指定手
段を設けたものである。
【0015】また、上記ファイル作成手段により作成さ
れたキーワードデータベースファイルの内容を編集する
ファイル編集手段を設けたものである。
れたキーワードデータベースファイルの内容を編集する
ファイル編集手段を設けたものである。
【0016】
【作用】上記のように構成した本発明のファイル検索管
理用のキーワードデータベースファイル作成方法および
装置によれば、一般的にキーワード用語として使用され
ることが少ない文字を区切り文字として、文書ファイル
中のある区切り文字から次の区切りまでの間の文字列が
キーワード用語の候補として全て抽出される。そして、
こうして抽出された各文字列の中から使用頻度の高い一
定語数の文字列がキーワード用語として選択され、この
選択されたキーワード用語を用いてキーワードデータベ
ースファイルが作成される。
理用のキーワードデータベースファイル作成方法および
装置によれば、一般的にキーワード用語として使用され
ることが少ない文字を区切り文字として、文書ファイル
中のある区切り文字から次の区切りまでの間の文字列が
キーワード用語の候補として全て抽出される。そして、
こうして抽出された各文字列の中から使用頻度の高い一
定語数の文字列がキーワード用語として選択され、この
選択されたキーワード用語を用いてキーワードデータベ
ースファイルが作成される。
【0017】
【実施例】本発明者は、前記の目的を達成するため種々
の検討を重ねた結果、以下のような知見を得た。一般的
に、ファイル検索用のキーワード用語として使用される
用語(文字列)は、言語によらず、該当文書ファイルの
中で使用頻度が高い用語である。また、漢字、カタカ
ナ、アルファベット(英文字)の用語をキーワード用語
として使用することがほとんどであり、平仮名、数字あ
るいは句読点や記号がキーワード用語として使用される
ことは少ない。
の検討を重ねた結果、以下のような知見を得た。一般的
に、ファイル検索用のキーワード用語として使用される
用語(文字列)は、言語によらず、該当文書ファイルの
中で使用頻度が高い用語である。また、漢字、カタカ
ナ、アルファベット(英文字)の用語をキーワード用語
として使用することがほとんどであり、平仮名、数字あ
るいは句読点や記号がキーワード用語として使用される
ことは少ない。
【0018】そこで、平仮名、数字、句読点および記号
文字を区切り文字とし、これらの文字以外の漢字、カタ
カナおよびアルファベットで構成された連続した文字列
を抽出すれば、ファイル検索管理用のキーワード用語と
して十分使用できることが分かった(表1参照)。
文字を区切り文字とし、これらの文字以外の漢字、カタ
カナおよびアルファベットで構成された連続した文字列
を抽出すれば、ファイル検索管理用のキーワード用語と
して十分使用できることが分かった(表1参照)。
【0019】
【表1】
【0020】次に示す表2は、ある文書ファイルに対し
て、表1に示した区切り文字コードの分類に従った文字
コードを使用して抽出したキーワード用語の候補の文字
列を使用頻度の高いものから順に一部示したものであ
る。
て、表1に示した区切り文字コードの分類に従った文字
コードを使用して抽出したキーワード用語の候補の文字
列を使用頻度の高いものから順に一部示したものであ
る。
【0021】
【表2】
【0022】ここで、これらの候補の中からキーワード
用語として抽出する語数を指定可能とし、キーワードデ
ータベースファイルの容量をシステム環境に合った最適
なサイズとすることが可能である。すなわち、指定する
語数を少なくすれば、検索のヒット率は当然低くなるも
のの、キーワードデータベースファイルのサイズ容量を
小さくできる。
用語として抽出する語数を指定可能とし、キーワードデ
ータベースファイルの容量をシステム環境に合った最適
なサイズとすることが可能である。すなわち、指定する
語数を少なくすれば、検索のヒット率は当然低くなるも
のの、キーワードデータベースファイルのサイズ容量を
小さくできる。
【0023】また、使用頻度は低いが、キーワード用語
として特に指定しておきたい用語については、任意に追
加入力を可能とするようにしておけば、融通性のあるキ
ーワードデータベースファイルを作成することができ
る。
として特に指定しておきたい用語については、任意に追
加入力を可能とするようにしておけば、融通性のあるキ
ーワードデータベースファイルを作成することができ
る。
【0024】以下、本実施例に係るファイル検索管理用
のキーワードデータベースファイル作成方法および装置
を、図1に示すフローチャートおよび図2に示すブロッ
ク図に基づいて説明する。
のキーワードデータベースファイル作成方法および装置
を、図1に示すフローチャートおよび図2に示すブロッ
ク図に基づいて説明する。
【0025】まず、図2に示すキーワードデータベース
ファイル作成装置において、1は種々の文書ファイルを
記憶する記憶媒体であり、例えば磁気テープ、磁気ディ
スク、磁気ドラム、フロッピーディスク、ハードディス
ク、電子ディスク、光磁気ディスクなどが用いられる。
ファイル作成装置において、1は種々の文書ファイルを
記憶する記憶媒体であり、例えば磁気テープ、磁気ディ
スク、磁気ドラム、フロッピーディスク、ハードディス
ク、電子ディスク、光磁気ディスクなどが用いられる。
【0026】上記記憶媒体1に記憶されている文書ファ
イルは、読み出し部2により読み出され、キーワード用
語候補抽出部3に与えられる。キーワード用語候補抽出
部3は、表1に示した区切り文字コードの分類に従っ
て、ある区切り文字コードから次の区切り文字コードが
現れるまでの文字列をキーワード用語の候補として順次
抽出する。このように、本実施例では、区切り文字と区
切り文字との間の文字列を単純にキーワード用語候補と
して抽出しているので、抽出される文字列は名詞句に限
られない。
イルは、読み出し部2により読み出され、キーワード用
語候補抽出部3に与えられる。キーワード用語候補抽出
部3は、表1に示した区切り文字コードの分類に従っ
て、ある区切り文字コードから次の区切り文字コードが
現れるまでの文字列をキーワード用語の候補として順次
抽出する。このように、本実施例では、区切り文字と区
切り文字との間の文字列を単純にキーワード用語候補と
して抽出しているので、抽出される文字列は名詞句に限
られない。
【0027】次に、使用回数計数部4により、上記キー
ワード用語候補抽出部3により抽出された各キーワード
用語候補について、該当する文書ファイル中での使用回
数を計数する。これにより、ある1つの文書ファイル中
で多く使用される文字列からあまり使用されない文字列
までを知ることができる。
ワード用語候補抽出部3により抽出された各キーワード
用語候補について、該当する文書ファイル中での使用回
数を計数する。これにより、ある1つの文書ファイル中
で多く使用される文字列からあまり使用されない文字列
までを知ることができる。
【0028】そして、キーワード用語選択部5により、
上記使用回数計数部4で計数した使用頻度の高い文字列
を、本装置にあらかじめ決められているデフォルト値の
数だけ文書ファイル検索用のキーワード用語として選択
する。そして、ファイル作成部6により、上記記憶媒体
1が持っている文書ファイルの初期情報と上記キーワー
ド用語選択部5で選択した指定語数のキーワード用語と
からキーワードデータベースファイルを作成し、これを
キーワードデータベースファイル記憶部(KWDBF)
7に格納する。
上記使用回数計数部4で計数した使用頻度の高い文字列
を、本装置にあらかじめ決められているデフォルト値の
数だけ文書ファイル検索用のキーワード用語として選択
する。そして、ファイル作成部6により、上記記憶媒体
1が持っている文書ファイルの初期情報と上記キーワー
ド用語選択部5で選択した指定語数のキーワード用語と
からキーワードデータベースファイルを作成し、これを
キーワードデータベースファイル記憶部(KWDBF)
7に格納する。
【0029】以上のように、本実施例によれば、特別な
定義情報を何ら入力することなく、ファイル検索用の適
切なキーワード用語を文書ファイルから自動的に抽出し
てキーワードデータベースファイルを作成することがで
きる。また、特別な定義情報を与えなくてもよいので、
同じ文書ファイルであれば、そこから抽出されるキーワ
ード用語がいつでも同じになり、キーワード用語の一貫
した抽出方法を提供することができる。
定義情報を何ら入力することなく、ファイル検索用の適
切なキーワード用語を文書ファイルから自動的に抽出し
てキーワードデータベースファイルを作成することがで
きる。また、特別な定義情報を与えなくてもよいので、
同じ文書ファイルであれば、そこから抽出されるキーワ
ード用語がいつでも同じになり、キーワード用語の一貫
した抽出方法を提供することができる。
【0030】上述のように本実施例では、特別な定義情
報を何ら入力しなくてもキーワード用語を自動的に抽出
することができるが、キーワード用語選択部5において
キーワード用語として抽出する文字列の語数は、語数指
定部8によりあらかじめ任意に指定しておくことが可能
である。この場合、キーワード用語選択部5は、上記使
用回数計数部4で計数した使用頻度の高い文字列から順
に、あらかじめ指定された語数の文字列をキーワード用
語として抽出する。このようにすることにより、キーワ
ードデータベースファイルの容量を調整することができ
る。
報を何ら入力しなくてもキーワード用語を自動的に抽出
することができるが、キーワード用語選択部5において
キーワード用語として抽出する文字列の語数は、語数指
定部8によりあらかじめ任意に指定しておくことが可能
である。この場合、キーワード用語選択部5は、上記使
用回数計数部4で計数した使用頻度の高い文字列から順
に、あらかじめ指定された語数の文字列をキーワード用
語として抽出する。このようにすることにより、キーワ
ードデータベースファイルの容量を調整することができ
る。
【0031】また、文書ファイル中での使用頻度は低い
が、キーワード用語として特に指定しておきたい文字列
については、ファイル編集部9を用いて、キーワードデ
ータベースファイル記憶部7に格納されたキーワードデ
ータベースファイルに追加して入力することができる。
また、ファイル編集部9を用いて上記キーワードデータ
ベースファイル中の不要なキーワード用語を削除するこ
ともできる。このようにすることにより、融通性のある
キーワードデータベースファイルを作成することができ
る。
が、キーワード用語として特に指定しておきたい文字列
については、ファイル編集部9を用いて、キーワードデ
ータベースファイル記憶部7に格納されたキーワードデ
ータベースファイルに追加して入力することができる。
また、ファイル編集部9を用いて上記キーワードデータ
ベースファイル中の不要なキーワード用語を削除するこ
ともできる。このようにすることにより、融通性のある
キーワードデータベースファイルを作成することができ
る。
【0032】なお、以上に示した読み出し部2、キーワ
ード用語候補抽出部3、使用回数計数部4、キーワード
用語選択部5、ファイル作成部6、語数指定部8および
ファイル編集部9は、実際にはCPU、ROMおよびR
AMなどからなるマイクロコンピュータにより構成され
ており、非常に簡単な構成で実現することができる。し
たがって、個人レベルで使用するパソコンによって本装
置を実現することもできる。
ード用語候補抽出部3、使用回数計数部4、キーワード
用語選択部5、ファイル作成部6、語数指定部8および
ファイル編集部9は、実際にはCPU、ROMおよびR
AMなどからなるマイクロコンピュータにより構成され
ており、非常に簡単な構成で実現することができる。し
たがって、個人レベルで使用するパソコンによって本装
置を実現することもできる。
【0033】次に、キーワードデータベースファイルを
作成する手順を、図1のフローチャートに基づいて説明
するが、ここでは、図2に示した装置がパソコンとして
実現されているものとして説明する。なお、文書ファイ
ルの記憶媒体1は、上述したようにフロッピーディスク
や光磁気ディスクのような交換可能な記憶媒体でもよい
し、ハードディスクやRAMディスクのような一般的に
交換不可能なドライブの記憶媒体でもよいが、ここで
は、文書ファイルの記憶媒体として最も一般的に使用さ
れているフロッピーディスクを例にとって処理内容を説
明する。
作成する手順を、図1のフローチャートに基づいて説明
するが、ここでは、図2に示した装置がパソコンとして
実現されているものとして説明する。なお、文書ファイ
ルの記憶媒体1は、上述したようにフロッピーディスク
や光磁気ディスクのような交換可能な記憶媒体でもよい
し、ハードディスクやRAMディスクのような一般的に
交換不可能なドライブの記憶媒体でもよいが、ここで
は、文書ファイルの記憶媒体として最も一般的に使用さ
れているフロッピーディスクを例にとって処理内容を説
明する。
【0034】まず、管理したい文書ファイルが格納され
ているフロッピーディスクをパソコンのフロッピーディ
スクドライブにセットする。次に、本実施例のソフトウ
ェアを起動する。図1のフローチャートは、このソフト
ウェアの処理概要を示している。
ているフロッピーディスクをパソコンのフロッピーディ
スクドライブにセットする。次に、本実施例のソフトウ
ェアを起動する。図1のフローチャートは、このソフト
ウェアの処理概要を示している。
【0035】すなわち、まず図1のステップ101にて
キーワード用語として抽出する語数の指定入力が有るか
否かをチェックする。キーワード用語の語数の指定入力
があれば、ステップ102にてその指定値をキーワード
用語の語数とする。また、キーワード用語の語数の指定
入力がなければ、ステップ103にてデフォルト値をキ
ーワード用語の語数とする。なお、本実施例では、デフ
ォルト値は30個としている。
キーワード用語として抽出する語数の指定入力が有るか
否かをチェックする。キーワード用語の語数の指定入力
があれば、ステップ102にてその指定値をキーワード
用語の語数とする。また、キーワード用語の語数の指定
入力がなければ、ステップ103にてデフォルト値をキ
ーワード用語の語数とする。なお、本実施例では、デフ
ォルト値は30個としている。
【0036】次に、ステップ104にてキーワード用語
を抽出する文書ファイルの読み込みドライブ、および作
成したキーワードデータベースファイルの格納場所であ
るドライブやディレクトリなどのパス指定を受け付け
る。そして、ステップ105にてフロッピーディスクか
ら文書ファイルの情報を読み込み、ステップ106にて
上記読み込んだ文書ファイルの情報が既にキーワードデ
ータベースファイルの中にあるかどうかをチェックす
る。
を抽出する文書ファイルの読み込みドライブ、および作
成したキーワードデータベースファイルの格納場所であ
るドライブやディレクトリなどのパス指定を受け付け
る。そして、ステップ105にてフロッピーディスクか
ら文書ファイルの情報を読み込み、ステップ106にて
上記読み込んだ文書ファイルの情報が既にキーワードデ
ータベースファイルの中にあるかどうかをチェックす
る。
【0037】ここで、上記読み込んだ文書ファイルの情
報がキーワードデータベースファイルの中に既に存在す
る場合は、ステップ107にてタイムスタンプ(日付お
よび時刻)をチェックする。そして、上記読み込んだ文
書ファイルの情報がキーワードデータベースファイルの
中にないか、またはタイムスタンプが新しければ、以下
に示すステップ108の処理を行う。また、タイムスタ
ンプが新しくなければステップ105に戻り、次の文書
ファイルに対して同様のチェックを行う。
報がキーワードデータベースファイルの中に既に存在す
る場合は、ステップ107にてタイムスタンプ(日付お
よび時刻)をチェックする。そして、上記読み込んだ文
書ファイルの情報がキーワードデータベースファイルの
中にないか、またはタイムスタンプが新しければ、以下
に示すステップ108の処理を行う。また、タイムスタ
ンプが新しくなければステップ105に戻り、次の文書
ファイルに対して同様のチェックを行う。
【0038】ステップ108では、文書ファイルの文字
コードを、表1に示した区切り文字コードの分類に従っ
て、あらかじめ指定したシフトJISコードおよびAS
CIIコードの区切り文字コードで最初から最後まで順
にチェックする。これにより、区切り文字コードでない
連続した文字列用語を、上記読み込んだ文書ファイルか
ら抽出する。すなわち、ある区切り文字コードから次の
区切り文字コードが現れるまでの文字列を1つの文字列
用語とし、これをキーワード用語の候補として抽出す
る。
コードを、表1に示した区切り文字コードの分類に従っ
て、あらかじめ指定したシフトJISコードおよびAS
CIIコードの区切り文字コードで最初から最後まで順
にチェックする。これにより、区切り文字コードでない
連続した文字列用語を、上記読み込んだ文書ファイルか
ら抽出する。すなわち、ある区切り文字コードから次の
区切り文字コードが現れるまでの文字列を1つの文字列
用語とし、これをキーワード用語の候補として抽出す
る。
【0039】キーワード用語の候補の抽出が終了した
ら、ステップ109にて上記抽出した全ての文字列用語
に対して同一の文字列かどうかをチェックし、同一文字
列毎の使用回数をカウントする。次のステップ110で
は、抽出した文字列用語をその使用回数の多い順にソー
トする。これにより、先に例示した表2のようなキーワ
ード用語の候補およびその使用回数を得る。
ら、ステップ109にて上記抽出した全ての文字列用語
に対して同一の文字列かどうかをチェックし、同一文字
列毎の使用回数をカウントする。次のステップ110で
は、抽出した文字列用語をその使用回数の多い順にソー
トする。これにより、先に例示した表2のようなキーワ
ード用語の候補およびその使用回数を得る。
【0040】次に、ステップ111にて使用頻度の高い
文字列用語から順に、あらかじめ指定された語数の文字
列用語を文書ファイル検索用のキーワード用語として抽
出する。そして、ステップ112にてフロッピーディス
クが持っている文書ファイルの初期情報と上記ステップ
111にて抽出した指定語数のキーワード用語とを一緒
にしてキーワードデータベースファイルとして格納す
る。
文字列用語から順に、あらかじめ指定された語数の文字
列用語を文書ファイル検索用のキーワード用語として抽
出する。そして、ステップ112にてフロッピーディス
クが持っている文書ファイルの初期情報と上記ステップ
111にて抽出した指定語数のキーワード用語とを一緒
にしてキーワードデータベースファイルとして格納す
る。
【0041】なお、キーワードデータベースファイルに
格納するデータの概要は下記の通りである。 ボリュームラベル/ドライブ/ディレクトリ/ ファイル名/ファイルサイズ/タイムスタンプ/ 指定語数のキーワード用語 ここで、キーワードデータベースファイルとして格納す
るデータは、上記のデータに限る必要はなく、必要に応
じて増減のカスタマイズをすればよい。
格納するデータの概要は下記の通りである。 ボリュームラベル/ドライブ/ディレクトリ/ ファイル名/ファイルサイズ/タイムスタンプ/ 指定語数のキーワード用語 ここで、キーワードデータベースファイルとして格納す
るデータは、上記のデータに限る必要はなく、必要に応
じて増減のカスタマイズをすればよい。
【0042】キーワード用語として抽出する語数を30
個に指定していたとすると、表2に例示した文書ファイ
ルから以上の処理の結果として得られるキーワードデー
タベースファイルは、次の表3に示すような内容とな
る。
個に指定していたとすると、表2に例示した文書ファイ
ルから以上の処理の結果として得られるキーワードデー
タベースファイルは、次の表3に示すような内容とな
る。
【0043】
【表3】
【0044】次に、ステップ113にてフロッピーディ
スク内の全ての文書ファイルに対して上述のような処理
を行ったかどうかをチェックし、未処理の文書ファイル
があればステップ105に戻る。このようにして、該当
フロッピーディスクに格納されている全文書ファイルに
対して上記のステップ105〜ステップ112の処理を
終了するまで繰り返す。
スク内の全ての文書ファイルに対して上述のような処理
を行ったかどうかをチェックし、未処理の文書ファイル
があればステップ105に戻る。このようにして、該当
フロッピーディスクに格納されている全文書ファイルに
対して上記のステップ105〜ステップ112の処理を
終了するまで繰り返す。
【0045】以上のようにして、キーワード用語のデー
タベースファイルが作成できれば、希望のキーワード用
語を含んだ文書ファイルを検索したい場合には、市販あ
るいはGNU等の検索ソフトを利用して、該当する文書
ファイルの格納されているフロッピーディスクやディレ
クトリ名および目的の文書ファイル名等を容易に検索す
ることができる。
タベースファイルが作成できれば、希望のキーワード用
語を含んだ文書ファイルを検索したい場合には、市販あ
るいはGNU等の検索ソフトを利用して、該当する文書
ファイルの格納されているフロッピーディスクやディレ
クトリ名および目的の文書ファイル名等を容易に検索す
ることができる。
【0046】上記した表2および表3から明らかなよう
に、本実施例によれば、単漢字で不適当なキーワード用
語が抽出されてしまうことがあるものの、重要なキーワ
ード用語は充分に抽出されている。本実施例では、キー
ワード用語抽出のための特別な定義情報を全く準備しな
くても、文書ファイル中の文字列部分の文字コードがソ
フトJISコードあるいはASCIIコードでさえあれ
ば、あらゆるファイル形式の文書ファイルから使用頻度
の高い順に一定語数の文字列を最適なキーワード用語と
して自動的に抽出し、ファイル検索管理用のキーワード
データベースファイルを作成することができる。このた
め、キーワード用語の選定および入力の手間が全く不要
となる。また、文書ファイル中の文字コードがソフトJ
ISコードあるいはASCIIコードでない文書ファイ
ルに対しては、事前にファイル変換を実施すれば、同様
に本実施例を適用することができる。
に、本実施例によれば、単漢字で不適当なキーワード用
語が抽出されてしまうことがあるものの、重要なキーワ
ード用語は充分に抽出されている。本実施例では、キー
ワード用語抽出のための特別な定義情報を全く準備しな
くても、文書ファイル中の文字列部分の文字コードがソ
フトJISコードあるいはASCIIコードでさえあれ
ば、あらゆるファイル形式の文書ファイルから使用頻度
の高い順に一定語数の文字列を最適なキーワード用語と
して自動的に抽出し、ファイル検索管理用のキーワード
データベースファイルを作成することができる。このた
め、キーワード用語の選定および入力の手間が全く不要
となる。また、文書ファイル中の文字コードがソフトJ
ISコードあるいはASCIIコードでない文書ファイ
ルに対しては、事前にファイル変換を実施すれば、同様
に本実施例を適用することができる。
【0047】なお、本実施例では、実際には、キーワー
ド用語をキーワードデータベースファイルに格納する際
に、漢字以外の文字列を全角文字から半角文字に変換し
て格納し、キーワードデータベースファイルのサイズ容
量を約40バイト削減することにより、キーワードデー
タベースファイルの小容量化を更に図っている。
ド用語をキーワードデータベースファイルに格納する際
に、漢字以外の文字列を全角文字から半角文字に変換し
て格納し、キーワードデータベースファイルのサイズ容
量を約40バイト削減することにより、キーワードデー
タベースファイルの小容量化を更に図っている。
【0048】また、本発明に基づき作成したキーワード
データベースファイルは、本実施例で例示したのと同様
な文書ファイルであれば、1000件の文書ファイルを
管理しても約250Kバイト程度とサイズが非常に小さ
いものである。このため、キーワードデータベースファ
イルをフロッピーディスクで保存、管理することも充分
可能である。
データベースファイルは、本実施例で例示したのと同様
な文書ファイルであれば、1000件の文書ファイルを
管理しても約250Kバイト程度とサイズが非常に小さ
いものである。このため、キーワードデータベースファ
イルをフロッピーディスクで保存、管理することも充分
可能である。
【0049】また、キーワードデータベースファイルの
格納場所をネットワークのサーバ内にすれば、部門ある
いは会社レベルにおける大量の文書ファイルのファイリ
ング管理システム用としても使用することができる。
格納場所をネットワークのサーバ内にすれば、部門ある
いは会社レベルにおける大量の文書ファイルのファイリ
ング管理システム用としても使用することができる。
【0050】
【発明の効果】本発明のファイル検索管理用のキーワー
ドデータベースファイル作成方法および装置は上述した
ように、記憶媒体に格納された各種の文書ファイルから
ファイル検索管理用のキーワード用語の候補である文字
列を所定の区切り文字コードを使用して抽出するととも
に、上記抽出した文字列毎の使用回数を計数し、該使用
回数の多い順に一定語数の文字列を上記キーワード用語
として選択してキーワードデータベースファイルを作成
するようにしたので、キーワード用語抽出のための特別
な定義情報を全く入力しなくても、あらゆる形式の文書
ファイルから最適なキーワード用語を自動的に抽出して
キーワードデータベースファイルを作成することができ
る。このため、キーワードデータベースファイルを作成
する際の手間を大幅に軽減することができる。しかも、
本装置は、簡単な構成で実現することができるので、例
えば個人レベルで使用するパソコンでも本発明を容易に
実現することができる。
ドデータベースファイル作成方法および装置は上述した
ように、記憶媒体に格納された各種の文書ファイルから
ファイル検索管理用のキーワード用語の候補である文字
列を所定の区切り文字コードを使用して抽出するととも
に、上記抽出した文字列毎の使用回数を計数し、該使用
回数の多い順に一定語数の文字列を上記キーワード用語
として選択してキーワードデータベースファイルを作成
するようにしたので、キーワード用語抽出のための特別
な定義情報を全く入力しなくても、あらゆる形式の文書
ファイルから最適なキーワード用語を自動的に抽出して
キーワードデータベースファイルを作成することができ
る。このため、キーワードデータベースファイルを作成
する際の手間を大幅に軽減することができる。しかも、
本装置は、簡単な構成で実現することができるので、例
えば個人レベルで使用するパソコンでも本発明を容易に
実現することができる。
【0051】また、ファイル検索管理用のキーワードデ
ータベースファイル作成装置において、文書ファイルか
ら抽出するキーワード用語の語数を指定する語数指定手
段を設けたので、指定する語数に応じてキーワードデー
タベースファイルの容量を調整することができ、ファイ
ルの小容量化を図ることができる。また、キーワードデ
ータベースファイルの内容を編集するファイル編集手段
を設けたので、自動的に作成されたキーワードデータベ
ースファイルの内容を任意に変えることができ、融通性
のあるキーワードデータベースファイルを作成すること
ができる。
ータベースファイル作成装置において、文書ファイルか
ら抽出するキーワード用語の語数を指定する語数指定手
段を設けたので、指定する語数に応じてキーワードデー
タベースファイルの容量を調整することができ、ファイ
ルの小容量化を図ることができる。また、キーワードデ
ータベースファイルの内容を編集するファイル編集手段
を設けたので、自動的に作成されたキーワードデータベ
ースファイルの内容を任意に変えることができ、融通性
のあるキーワードデータベースファイルを作成すること
ができる。
【図1】本発明の一実施例であるファイル検索管理用の
キーワードデータベースファイル作成方法を示すフロー
チャートである。
キーワードデータベースファイル作成方法を示すフロー
チャートである。
【図2】本発明の一実施例であるファイル検索管理用の
キーワードデータベースファイル作成装置を示す機能ブ
ロック図である。
キーワードデータベースファイル作成装置を示す機能ブ
ロック図である。
1 記憶媒体 2 読み出し部 3 キーワード用語候補抽出部 4 使用回数計数部 5 キーワード用語選択部 6 ファイル作成部 7 キーワードデータベースファイル記憶部 8 語数指定部 9 ファイル編集部
【手続補正書】
【提出日】平成7年7月12日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0021
【補正方法】変更
【補正内容】
【0021】
【表2】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0043
【補正方法】変更
【補正内容】
【0043】
【表3】
Claims (5)
- 【請求項1】 記憶媒体に格納された各種の文書ファイ
ルからファイル検索管理用のキーワード用語の候補であ
る文字列を所定の区切り文字コードを使用して抽出する
とともに、上記抽出した文字列毎の使用回数を計数し、
該使用回数の多い順に一定語数の文字列を上記キーワー
ド用語として選択し、こうして選択した一定語数のキー
ワード用語と上記記憶媒体に格納されている文書ファイ
ルに関する情報とからキーワードデータベースファイル
を自動的に作成するようにしたことを特徴とするファイ
ル検索管理用のキーワードデータベースファイル作成方
法。 - 【請求項2】 上記所定の区切り文字コードは、あらか
じめ指定したシフトJISコードおよびASCIIコー
ドの区切り文字コードであることを特徴とする請求項1
に記載のファイル検索管理用のキーワードデータベース
ファイル作成方法。 - 【請求項3】 記憶媒体に格納された各種の文書ファイ
ルからファイル検索管理用のキーワード用語の候補であ
る文字列を所定の区切り文字を使用して抽出するキーワ
ード用語候補抽出手段と、 上記キーワード用語候補抽出手段により抽出された各文
字列の上記文書ファイル中における使用回数をそれぞれ
計数する計数手段と、 上記計数手段により計数された使用回数の多い順に一定
語数の文字列を上記キーワード用語として選択するキー
ワード用語選択手段と、 上記キーワード用語選択手段により選択された一定語数
のキーワード用語と上記記憶媒体に格納されている文書
ファイルに関する情報とからキーワードデータベースフ
ァイルを作成するファイル作成手段とを設けたことを特
徴とするファイル検索管理用のキーワードデータベース
ファイル作成装置。 - 【請求項4】 上記キーワード用語選択手段により選択
されるキーワード用語の語数を指定する語数指定手段を
設けたことを特徴とする請求項3に記載のファイル検索
管理用のキーワードデータベースファイル作成装置。 - 【請求項5】 上記ファイル作成手段により作成された
キーワードデータベースファイルの内容を編集するファ
イル編集手段を設けたことを特徴とする請求項3または
4に記載のファイル検索管理用のキーワードデータベー
スファイル作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6321702A JPH08161344A (ja) | 1994-11-30 | 1994-11-30 | ファイル検索管理用のキーワードデータベースファイル作成方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6321702A JPH08161344A (ja) | 1994-11-30 | 1994-11-30 | ファイル検索管理用のキーワードデータベースファイル作成方法および装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08161344A true JPH08161344A (ja) | 1996-06-21 |
Family
ID=18135479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6321702A Withdrawn JPH08161344A (ja) | 1994-11-30 | 1994-11-30 | ファイル検索管理用のキーワードデータベースファイル作成方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH08161344A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11250097A (ja) * | 1998-03-05 | 1999-09-17 | Nippon Telegr & Teleph Corp <Ntt> | キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体 |
KR20020003701A (ko) * | 2000-06-27 | 2002-01-15 | 쳉 유엔시엔 | 디지털 문서의 키워드를 자동으로 추출하는 방법 |
JP2008117351A (ja) * | 2006-11-08 | 2008-05-22 | Nomura Research Institute Ltd | 検索システム |
-
1994
- 1994-11-30 JP JP6321702A patent/JPH08161344A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11250097A (ja) * | 1998-03-05 | 1999-09-17 | Nippon Telegr & Teleph Corp <Ntt> | キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体 |
KR20020003701A (ko) * | 2000-06-27 | 2002-01-15 | 쳉 유엔시엔 | 디지털 문서의 키워드를 자동으로 추출하는 방법 |
JP2008117351A (ja) * | 2006-11-08 | 2008-05-22 | Nomura Research Institute Ltd | 検索システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0293161B1 (en) | Character processing system with spelling check function | |
US5590317A (en) | Document information compression and retrieval system and document information registration and retrieval method | |
US6353840B2 (en) | User-defined search template for extracting information from documents | |
US5523945A (en) | Related information presentation method in document processing system | |
US20040225497A1 (en) | Compressed yet quickly searchable digital textual data format | |
JPH08161344A (ja) | ファイル検索管理用のキーワードデータベースファイル作成方法および装置 | |
CN113742291A (zh) | 一种文件保存方法、装置以及计算机存储介质 | |
WO2005048120A1 (en) | Text summarization | |
JP3398729B2 (ja) | キーワード自動抽出装置およびキーワード自動抽出方法 | |
US20020065794A1 (en) | Phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element | |
JPS61248160A (ja) | 文書情報登録方式 | |
JP3325677B2 (ja) | 文書検索装置 | |
JPH08190571A (ja) | 文書検索方法 | |
JPH0877179A (ja) | 文書索引生成装置 | |
JP2000076254A (ja) | キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体 | |
JPH0954781A (ja) | 文書検索システム | |
JPH0668159A (ja) | 検索装置 | |
JP3448922B2 (ja) | 電子文書記憶装置 | |
JPH11232149A (ja) | ファイル比較処理方法,装置およびファイルの比較処理プログラムを記憶した媒体 | |
JP3464518B2 (ja) | 文書索引作成システム | |
JP2001357029A (ja) | 文書作成装置 | |
JPH0232455A (ja) | 項目抽出方式 | |
CN114912470A (zh) | 机器翻译术语库及其构建方法 | |
JPH1115838A (ja) | 文献検索方法、及びそのシステム | |
JPH0981581A (ja) | データベースの作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20020205 |