JPH03125266A

JPH03125266A - 電子化文書ファイリングシステム

Info

Publication number: JPH03125266A
Application number: JP1264177A
Authority: JP
Inventors: Satoshi Haraguchi; 原口　聰
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1989-10-11
Filing date: 1989-10-11
Publication date: 1991-05-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は工業用技術文書等の電子化文書ファイリング
システムに関するものである。

〔従来の技術〕

第４図は例えば、従来の電子化文書ファイリング装置を
示すシステム構成図であり、図において１は中央処理装
置（以下、ＣＰＵ）、２は前記ＣＰＵ１が実行すべきプ
ログラムを記憶する電子化文書ファイル処理プログラム
メモリ、３は電子化（ディジタル化）された文書ファイ
ルを記憶する文書ファイル用ディスクメモリ、４は前記
文書ファイル用ディスクメモリ３に記憶した内容を出力
表示するＣＲＴ装置、５は電子化文書の内容他を入力す
るキーボード、６は別の装置で作成した電子化文書を本
装置に読込ませるためのフロッピーディスク装置、７は
上記各装置を接続するデータバス、３１はフロッピーデ
ィスク装置６のデータ構成例を示す◇ 次に動作について説明する。まず、ＣＰＵ１は電子化文
書ファイル処理プログラムメモリ２の内容を読出し該Ｃ
ＰＵ１からの指示に従って以下の各種装置を制御する。

例えば今、文書の内容が文字の形でキーボード５より入
力されるとこれを文書の形につないで文書ファイル用デ
ィスクメモリ３ヘフアイルとして登録記憶する。キーボ
ード５からの入力状況及び、登録記憶した文書ファイル
の内容はＣＲＴ装置４に表示することができる。

また、他の装置で作成された電子化文書はフロッピーデ
ィスク装置６を通じて本装置の文書ファイル用ディスク
メモリ３に読込まれる。

〔発明が解決しようとする課題〕

従来の電子化文書ファイリングシステムは以上のように
構成されているので、すでに登録、記憶した文書の内容
については登録時に一緒に入力した情報（著者名、タイ
トル、作成年月日、キーワード）などから検索すること
が出来るが、今まで紙に書かれた形で大量に保管されて
いる文書を電子化する時には、夫々キーワードを与える
ために文書内容の判る人でなげれば作業をすることがで
きず、文書を読み、短時間で内容を把握しファイリング
するのは大変面倒であるなどの課題があった。

この発明は上記のような課題を解消するためになされた
もので、キーワード辞書を格納するメモリを有し、この
キーワード辞書と入力された対象電子化文書ファイルの
内容とを比較１分析して含まれているキーワードの内容
とその発生頻度を抽出することができる電子化文書ファ
イリングシステムを得ることを目的とする。

〔課題を解決するための手段〕

この発明に係る電子化文書ファイリングシステムは従来
の文書ファイリングシステムにキーワード辞書を格納す
るキーワード辞書メモリを設け、このキーワード辞書メ
モリの内容と対象とする文書とを比較し、文書の中に含
まれているキーワード候補のキーワード群の中のキーワ
ードとの一致回数をカウントして、その一致回数が多い
ものをキーワードとするものである。

〔作　用〕

この発明における電子化文書ファイリングシステムは対
象となる文書ファイル用ディスクメモリに格納した文書
とキーワード辞書メモリに格納したキーワードとを比較
し、文書の中に含まれているキーワードとその使用回数
とを抽出する文書を特徴付けるキーワードとすることが
でき以後の文書検索を容易に行えるようにする。

〔発明の実施例〕

以下、この発明の一実施例を図について説明する。図中
、第４図と同一の部分は同一の符号をもって図示した第
１図において、８はキーワードを抽出するキーワード抽
出プログラムメモリ、９はキーワード群を記憶したキー
ワード辞書メモリ、１０はチエツク対象の２０文字を記
憶したキーワードチエツクメモリ、１０１はキーワード
チエツクメモリ１０のデータ構成、１１はキーワード辞
書メモリ９より抜き出した抽出キーワードを記憶する抽
出キーワードメモリ、１１１はこの抽出キーワードメモ
リ１１のデータ構成、１２は現在チエツクしている文字
を示す文字カウントを記憶する文字カウントメモリ、１
２１はこの文字カウントメモリ１２のデータ構成、１３
は現在チエツクしているキーワードの順を示すキーワー
ドカウントを記憶するキーワードカウントメモリ、１３
１はこのキーワードカウントメモリ１３のデータ構成、
１４は対象文書ファイルについて抽出したキーワード群
を記憶した抽出キーワードテーブル、１４１はこの抽出
キーワードテーブル１４のデータ構成、１５は文書ファ
イル用ディスクメモリ３から読出した文書ファイルを記
憶している文書ファイル用メモリである。

次に第１図に示すキーワード抽出機能付電子化文書ファ
イリング装置のシステム構成図、第２図のキーワード抽
出プログラムフローチャート及び第３図のキーワードチ
エツクサブルーチンフローチャートを参照して動作につ
いて説明する。

第２図、及び第３図のフローチャートに示すプログラム
はキーワード抽出プログラムメモリ８に収納されている
。まず、第２図のフローチャートにおいて、ステップ５
Ｔ３０１では文書ファイル用ディスクメモリ３から対象
の文書ファイルを文書ファイル用メモリ１５に読出す。

次にステップ３０２において文字カウントメモリ１２０
カウント値を１とする。次にステップ５Ｔ３０３におい
て、文字カウントメモリ１２０カウント値から計算した
場所にある文字を文書ファイル用メモリ１５の中よりピ
ックアップする。この文字に対しステップ５Ｔ３０４で
文の先頭か否か、またステップ５Ｔ３０５で句読点の次
にある文字か否か、更にステップ５Ｔ３０６でカタカナ
の綴り文字の最初か否か、続いてステップ５Ｔ３０７で
漢字の綴り文字の最初か否かをそれぞれ判断し、上記の
うちいずれかが”ＹＥＳ”であればステップＳ　Ｔ　３
１１へ進み、また“ＮＯ″であればステップＳ　Ｔ　３
０８に歩進する。ステップ５Ｔ３０８ではこの文字が文
書ファイル用メモリ１５内に記憶した文書の最後である
か否かを判断し“ＮＯ”であれば文字カウントメモリ１
２内の文字カウント値を１コ進め、ステップ５Ｔ３０３
へ歩進する。′″ＹＥＳ″の場合にはステップ５Ｔ３１
０へ歩進する。ステップ５Ｔ３１０では対象文書が含ん
でいるキーワード抽出が終了したと判断して文書ファイ
ル用メモリ１５の内容と抽出キーワードテーブル１４の
内容で抽出回数の多いものとを合せて文書ファイル用デ
ィスクメモリ３に記憶する。また、ステップ５Ｔ３１１
ではキーワードの可能性がある語句の先頭を見付けたと
判断し文字カウントメモリ１２の示す文書ファイル用メ
モリ１５内の文書データの位置から連続する２０文字を
抜き出しキーワードチエツクメモリ１０に格納し次いで
サブルーチンのステップ５Ｔ３１２へ歩進する。サブル
ーチンのステップ５Ｔ３１２は第３図に示したキーワー
ドチエツクサブルーチンのフローチャートを示すもので
、サブルーチンのステップ５Ｔ３１２に行くとまず、ス
テップ５Ｔ４０１によりキーワードカウントメモリ１３
の内容に１をセットする。

次にステップ５Ｔ４０２へ歩進しキーワードカウントメ
モリ１３の内容が示すキーワードをキーワード辞書メモ
リ９より読出し抽出キーワードメモリ１１に記憶する。

次にステップ５Ｔ４０３へ歩進しキーワードチエツクメ
モリ１０と抽出キーワードメモリ１１の内容を比較する
。この時、抽出キーワードメモリの内容が２０文字より
短い場合、余白には１６進数字でＦＦをセットしておき
、このコードの部分はチエツクの対象外とする。

次にステップ５Ｔ４０４で一致したか否かを調べる。一
致した場合にはキーワードが抽出されたと判断して元の
プログラムへもどる。また、一致しなかった場合にはス
テップ５Ｔ４０５へ歩進しキーワードカウントメモリ１
３の内容がキーワード辞書メモリ９に収納しているキー
ワードの個数と等しいか否かを調べ　等しかった場合に
は該当キーワードがなかったと判断してステップ５Ｔ４
０７へ歩進する。ステップ５Ｔ４０７では抽出キーワー
ドメモリ１１の内容をクリアして元のプログラムへもど
る。また、ステップ５Ｔ４０５でキーワードカウントメ
モリ１３の内容がキーワード辞書メモリ９に収納してい
るキーワードの個数より小さい場合にはチエツクは終了
していないと判断してステップ５Ｔ４０６へ歩進する。

ステップ５Ｔ４０６ではキーワードカウントメモリ１３
の内容を１コ進めステップ５Ｔ４０２の先頭へもどる。

第４図のキーワード抽出プログラムフローチャートにお
いて、サブルーチンステップ５Ｔ３１２から戻ったら判
断ステップ５Ｔ３１３に行き抽出キーワードメモリ１１
の内容を調べる。内容に、ＦＦ１６コードがセットされ
ていたら該当キーワードはなかったと判断しステップＳ
Ｔ３１４へ歩進する。ステップＳＴ３１４では文字カウ
ントメモリ１２の内容を１コ歩進する。

次に判断のステップ５Ｔ３１３において抽出キーワード
メモリ１１の内容にＦ’Ｆ１６以外の文字が入っている
場合にはキーワードが抽出されたと判断して判断のステ
ップＳＴ３１５へ歩進する。前記ステップＳＴ３１５で
は抽出キーワードテーブル１４に抽出キーワードメモリ
１１の内容が含まれるか否かを調べる。その場合に含ま
れていなければ新規抽出と判断してステップＳＴ３１７
へ歩進する。ステップＳＴ３１７では抽出キーワードテ
ーブル１４の記憶されているキーワードの次に抽出キー
ワードメモリ１１の内容を移し抽出回数を１とし、次に
ステップ５Ｔ３１８へ歩進する。

判断ステップ５Ｔ３１５で抽出キーワードテーブル１４
に抽出キーワードメモリ１１の内容が含まれていた場合
には登録済みと判断してステップ５Ｔ３１６へ歩進する
。該ステップ５Ｔ３１６では抽出キーワードテーブル１
４の該当キーワードの抽出回数を＋１し、次にステップ
ＳＴ３１８へ歩進する。ステップ５Ｔ３１８では文字カ
ウントメモリ１２の内容を、抽出キーワード文字数進め
、次にステップ５Ｔｊ０３の先頭に戻る。

なお、ここで説明していない部分の動作に関しては従来
の装置と同一である。

なお、上記実施例では文書ファイル用ディスクメモリに
磁気ディスクメモリを使用する例について説明したが、
他に光デイスクメモリ、ＲＡＭディスクメモリ等を用い
てもよく上記実施例と同様の効果を奏する。

また、文字コードは１文字２バイト構成とじたがこの構
成が３バイト／文字、４バイト／文字となっても適用で
きる。

また、キーワードは最長２０文字として説明しているが
対象分野により３０文字、４０文字としても適用できる
。さらに、余白のコードをＦＦＦＦ１６としたが使用す
る文字コードにより他の未使用コードに変更するように
してもよい。

〔発明の効果〕以上のように、この発明によれば電子化文書ファイリン
グシステムに対象となる電子化文書ファイルのキーワー
ドを抽出するキーワード抽出機能を付加したので、文書
の内容に精通した専門家でなくても機械的な操作でキー
ワードを発見して文書の登録が可能となり、よって文書
の電子化を迅速、かつ容易に進めることができる効果が
ある。

【図面の簡単な説明】

第１図はこの発明の一実施例によるキーワード抽出機能
付電子化文書ファイリングシステムの構成図、第２図は
この発明のキーワード抽出を説明するためのフローチャ
ート、第３図は第２図のキーワード抽出プログラムでキ
ーワードチエツクサブルーチンとしている部分を説明す
るフローチャート、第４図は従来の電子化文書ファイリ
ングシステムの構成図である。１はＣＰＵ、３は文書ファイル用ディスクメモリ、４は
ＣＲＴ装置、９はキーワード辞書メモリ、１３はキーワ
ードカウントメモリ、１４は抽出キーワードテーブル、
１５は文書ファイル用メモリである。なお、図中、同一符号は同一　又は相当部分を示す。１：ｃＰＬＩ（〒大連ｆｆ装夏）６；フロッピーケシ７
７竣ｆ。

Claims

【特許請求の範囲】

文書情報を中央処理装置によりディジタル化して文書フ
ァイル用ディスクメモリに格納し、該格納した内容を検
索してＣＲＴ装置に出力表示する電子化文書ファイリン
グシステムにおいて、前記中央処理装置を経て予め選定
した文書のキーワード群をキーワード辞書メモリに格納
し、前記文書ファイル用ディスクメモリに格納した対象
の文書からその中に含まれるキーワード候補を抽出し、
抽出されたキーワード候補と前記キーワード群とを比較
して、一致した回数を前記キーワード候補ごとにカウン
トし、前記一致したキーワード候補を前記一致した回数
とともに抽出キーワードテーブルに格納し、前記抽出キ
ーワードテーブルの記憶内容で一致した回数の多いもの
を合せて文書を特徴づけるキーワードとすることを特徴
とする電子化文書ファイリングシステム。