JPH03125266A - 電子化文書ファイリングシステム - Google Patents

電子化文書ファイリングシステム

Info

Publication number
JPH03125266A
JPH03125266A JP1264177A JP26417789A JPH03125266A JP H03125266 A JPH03125266 A JP H03125266A JP 1264177 A JP1264177 A JP 1264177A JP 26417789 A JP26417789 A JP 26417789A JP H03125266 A JPH03125266 A JP H03125266A
Authority
JP
Japan
Prior art keywords
keyword
memory
document
key word
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1264177A
Other languages
English (en)
Inventor
Satoshi Haraguchi
原口 聰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP1264177A priority Critical patent/JPH03125266A/ja
Publication of JPH03125266A publication Critical patent/JPH03125266A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は工業用技術文書等の電子化文書ファイリング
システムに関するものである。
〔従来の技術〕
第4図は例えば、従来の電子化文書ファイリング装置を
示すシステム構成図であり、図において1は中央処理装
置(以下、CPU)、2は前記CPU1が実行すべきプ
ログラムを記憶する電子化文書ファイル処理プログラム
メモリ、3は電子化(ディジタル化)された文書ファイ
ルを記憶する文書ファイル用ディスクメモリ、4は前記
文書ファイル用ディスクメモリ3に記憶した内容を出力
表示するCRT装置、5は電子化文書の内容他を入力す
るキーボード、6は別の装置で作成した電子化文書を本
装置に読込ませるためのフロッピーディスク装置、7は
上記各装置を接続するデータバス、31はフロッピーデ
ィスク装置6のデータ構成例を示す◇ 次に動作について説明する。まず、CPU1は電子化文
書ファイル処理プログラムメモリ2の内容を読出し該C
PU1からの指示に従って以下の各種装置を制御する。
例えば今、文書の内容が文字の形でキーボード5より入
力されるとこれを文書の形につないで文書ファイル用デ
ィスクメモリ3ヘフアイルとして登録記憶する。キーボ
ード5からの入力状況及び、登録記憶した文書ファイル
の内容はCRT装置4に表示することができる。
また、他の装置で作成された電子化文書はフロッピーデ
ィスク装置6を通じて本装置の文書ファイル用ディスク
メモリ3に読込まれる。
〔発明が解決しようとする課題〕
従来の電子化文書ファイリングシステムは以上のように
構成されているので、すでに登録、記憶した文書の内容
については登録時に一緒に入力した情報(著者名、タイ
トル、作成年月日、キーワード)などから検索すること
が出来るが、今まで紙に書かれた形で大量に保管されて
いる文書を電子化する時には、夫々キーワードを与える
ために文書内容の判る人でなげれば作業をすることがで
きず、文書を読み、短時間で内容を把握しファイリング
するのは大変面倒であるなどの課題があった。
この発明は上記のような課題を解消するためになされた
もので、キーワード辞書を格納するメモリを有し、この
キーワード辞書と入力された対象電子化文書ファイルの
内容とを比較1分析して含まれているキーワードの内容
とその発生頻度を抽出することができる電子化文書ファ
イリングシステムを得ることを目的とする。
〔課題を解決するための手段〕
この発明に係る電子化文書ファイリングシステムは従来
の文書ファイリングシステムにキーワード辞書を格納す
るキーワード辞書メモリを設け、このキーワード辞書メ
モリの内容と対象とする文書とを比較し、文書の中に含
まれているキーワード候補のキーワード群の中のキーワ
ードとの一致回数をカウントして、その一致回数が多い
ものをキーワードとするものである。
〔作 用〕
この発明における電子化文書ファイリングシステムは対
象となる文書ファイル用ディスクメモリに格納した文書
とキーワード辞書メモリに格納したキーワードとを比較
し、文書の中に含まれているキーワードとその使用回数
とを抽出する文書を特徴付けるキーワードとすることが
でき以後の文書検索を容易に行えるようにする。
〔発明の実施例〕
以下、この発明の一実施例を図について説明する。図中
、第4図と同一の部分は同一の符号をもって図示した第
1図において、8はキーワードを抽出するキーワード抽
出プログラムメモリ、9はキーワード群を記憶したキー
ワード辞書メモリ、10はチエツク対象の20文字を記
憶したキーワードチエツクメモリ、101はキーワード
チエツクメモリ10のデータ構成、11はキーワード辞
書メモリ9より抜き出した抽出キーワードを記憶する抽
出キーワードメモリ、111はこの抽出キーワードメモ
リ11のデータ構成、12は現在チエツクしている文字
を示す文字カウントを記憶する文字カウントメモリ、1
21はこの文字カウントメモリ12のデータ構成、13
は現在チエツクしているキーワードの順を示すキーワー
ドカウントを記憶するキーワードカウントメモリ、13
1はこのキーワードカウントメモリ13のデータ構成、
14は対象文書ファイルについて抽出したキーワード群
を記憶した抽出キーワードテーブル、141はこの抽出
キーワードテーブル14のデータ構成、15は文書ファ
イル用ディスクメモリ3から読出した文書ファイルを記
憶している文書ファイル用メモリである。
次に第1図に示すキーワード抽出機能付電子化文書ファ
イリング装置のシステム構成図、第2図のキーワード抽
出プログラムフローチャート及び第3図のキーワードチ
エツクサブルーチンフローチャートを参照して動作につ
いて説明する。
第2図、及び第3図のフローチャートに示すプログラム
はキーワード抽出プログラムメモリ8に収納されている
。まず、第2図のフローチャートにおいて、ステップ5
T301では文書ファイル用ディスクメモリ3から対象
の文書ファイルを文書ファイル用メモリ15に読出す。
次にステップ302において文字カウントメモリ120
カウント値を1とする。次にステップ5T303におい
て、文字カウントメモリ120カウント値から計算した
場所にある文字を文書ファイル用メモリ15の中よりピ
ックアップする。この文字に対しステップ5T304で
文の先頭か否か、またステップ5T305で句読点の次
にある文字か否か、更にステップ5T306でカタカナ
の綴り文字の最初か否か、続いてステップ5T307で
漢字の綴り文字の最初か否かをそれぞれ判断し、上記の
うちいずれかが”YES”であればステップS T 3
11へ進み、また“NO″であればステップS T 3
08に歩進する。ステップ5T308ではこの文字が文
書ファイル用メモリ15内に記憶した文書の最後である
か否かを判断し“NO”であれば文字カウントメモリ1
2内の文字カウント値を1コ進め、ステップ5T303
へ歩進する。′″YES″の場合にはステップ5T31
0へ歩進する。ステップ5T310では対象文書が含ん
でいるキーワード抽出が終了したと判断して文書ファイ
ル用メモリ15の内容と抽出キーワードテーブル14の
内容で抽出回数の多いものとを合せて文書ファイル用デ
ィスクメモリ3に記憶する。また、ステップ5T311
ではキーワードの可能性がある語句の先頭を見付けたと
判断し文字カウントメモリ12の示す文書ファイル用メ
モリ15内の文書データの位置から連続する20文字を
抜き出しキーワードチエツクメモリ10に格納し次いで
サブルーチンのステップ5T312へ歩進する。サブル
ーチンのステップ5T312は第3図に示したキーワー
ドチエツクサブルーチンのフローチャートを示すもので
、サブルーチンのステップ5T312に行くとまず、ス
テップ5T401によりキーワードカウントメモリ13
の内容に1をセットする。
次にステップ5T402へ歩進しキーワードカウントメ
モリ13の内容が示すキーワードをキーワード辞書メモ
リ9より読出し抽出キーワードメモリ11に記憶する。
次にステップ5T403へ歩進しキーワードチエツクメ
モリ10と抽出キーワードメモリ11の内容を比較する
。この時、抽出キーワードメモリの内容が20文字より
短い場合、余白には16進数字でFFをセットしておき
、このコードの部分はチエツクの対象外とする。
次にステップ5T404で一致したか否かを調べる。一
致した場合にはキーワードが抽出されたと判断して元の
プログラムへもどる。また、一致しなかった場合にはス
テップ5T405へ歩進しキーワードカウントメモリ1
3の内容がキーワード辞書メモリ9に収納しているキー
ワードの個数と等しいか否かを調べ 等しかった場合に
は該当キーワードがなかったと判断してステップ5T4
07へ歩進する。ステップ5T407では抽出キーワー
ドメモリ11の内容をクリアして元のプログラムへもど
る。また、ステップ5T405でキーワードカウントメ
モリ13の内容がキーワード辞書メモリ9に収納してい
るキーワードの個数より小さい場合にはチエツクは終了
していないと判断してステップ5T406へ歩進する。
ステップ5T406ではキーワードカウントメモリ13
の内容を1コ進めステップ5T402の先頭へもどる。
第4図のキーワード抽出プログラムフローチャートにお
いて、サブルーチンステップ5T312から戻ったら判
断ステップ5T313に行き抽出キーワードメモリ11
の内容を調べる。内容に、FF16コードがセットされ
ていたら該当キーワードはなかったと判断しステップS
T314へ歩進する。ステップST314では文字カウ
ントメモリ12の内容を1コ歩進する。
次に判断のステップ5T313において抽出キーワード
メモリ11の内容にF’F16以外の文字が入っている
場合にはキーワードが抽出されたと判断して判断のステ
ップST315へ歩進する。前記ステップST315で
は抽出キーワードテーブル14に抽出キーワードメモリ
11の内容が含まれるか否かを調べる。その場合に含ま
れていなければ新規抽出と判断してステップST317
へ歩進する。ステップST317では抽出キーワードテ
ーブル14の記憶されているキーワードの次に抽出キー
ワードメモリ11の内容を移し抽出回数を1とし、次に
ステップ5T318へ歩進する。
判断ステップ5T315で抽出キーワードテーブル14
に抽出キーワードメモリ11の内容が含まれていた場合
には登録済みと判断してステップ5T316へ歩進する
。該ステップ5T316では抽出キーワードテーブル1
4の該当キーワードの抽出回数を+1し、次にステップ
ST318へ歩進する。ステップ5T318では文字カ
ウントメモリ12の内容を、抽出キーワード文字数進め
、次にステップ5Tj03の先頭に戻る。
なお、ここで説明していない部分の動作に関しては従来
の装置と同一である。
なお、上記実施例では文書ファイル用ディスクメモリに
磁気ディスクメモリを使用する例について説明したが、
他に光デイスクメモリ、RAMディスクメモリ等を用い
てもよく上記実施例と同様の効果を奏する。
また、文字コードは1文字2バイト構成とじたがこの構
成が3バイト/文字、4バイト/文字となっても適用で
きる。
また、キーワードは最長20文字として説明しているが
対象分野により30文字、40文字としても適用できる
。さらに、余白のコードをFFFF16としたが使用す
る文字コードにより他の未使用コードに変更するように
してもよい。
〔発明の効果〕 以上のように、この発明によれば電子化文書ファイリン
グシステムに対象となる電子化文書ファイルのキーワー
ドを抽出するキーワード抽出機能を付加したので、文書
の内容に精通した専門家でなくても機械的な操作でキー
ワードを発見して文書の登録が可能となり、よって文書
の電子化を迅速、かつ容易に進めることができる効果が
ある。
【図面の簡単な説明】
第1図はこの発明の一実施例によるキーワード抽出機能
付電子化文書ファイリングシステムの構成図、第2図は
この発明のキーワード抽出を説明するためのフローチャ
ート、第3図は第2図のキーワード抽出プログラムでキ
ーワードチエツクサブルーチンとしている部分を説明す
るフローチャート、第4図は従来の電子化文書ファイリ
ングシステムの構成図である。 1はCPU、3は文書ファイル用ディスクメモリ、4は
CRT装置、9はキーワード辞書メモリ、13はキーワ
ードカウントメモリ、14は抽出キーワードテーブル、
15は文書ファイル用メモリである。 なお、図中、同一符号は同一 又は相当部分を示す。 1:cPLI(〒大連ff装夏)6;フロッピーケシ7
7竣f。

Claims (1)

    【特許請求の範囲】
  1. 文書情報を中央処理装置によりディジタル化して文書フ
    ァイル用ディスクメモリに格納し、該格納した内容を検
    索してCRT装置に出力表示する電子化文書ファイリン
    グシステムにおいて、前記中央処理装置を経て予め選定
    した文書のキーワード群をキーワード辞書メモリに格納
    し、前記文書ファイル用ディスクメモリに格納した対象
    の文書からその中に含まれるキーワード候補を抽出し、
    抽出されたキーワード候補と前記キーワード群とを比較
    して、一致した回数を前記キーワード候補ごとにカウン
    トし、前記一致したキーワード候補を前記一致した回数
    とともに抽出キーワードテーブルに格納し、前記抽出キ
    ーワードテーブルの記憶内容で一致した回数の多いもの
    を合せて文書を特徴づけるキーワードとすることを特徴
    とする電子化文書ファイリングシステム。
JP1264177A 1989-10-11 1989-10-11 電子化文書ファイリングシステム Pending JPH03125266A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1264177A JPH03125266A (ja) 1989-10-11 1989-10-11 電子化文書ファイリングシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1264177A JPH03125266A (ja) 1989-10-11 1989-10-11 電子化文書ファイリングシステム

Publications (1)

Publication Number Publication Date
JPH03125266A true JPH03125266A (ja) 1991-05-28

Family

ID=17399534

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1264177A Pending JPH03125266A (ja) 1989-10-11 1989-10-11 電子化文書ファイリングシステム

Country Status (1)

Country Link
JP (1) JPH03125266A (ja)

Similar Documents

Publication Publication Date Title
US5745745A (en) Text search method and apparatus for structured documents
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
JP3160201B2 (ja) 情報検索方法、情報検索装置
EP0394633A2 (en) Method for language-independent text tokenization using a character categorization
EP0645720A2 (en) Dictionary creation supporting system
JPH0628403A (ja) 文書検索装置
JPH05324722A (ja) 文書検索方式
JPH08147311A (ja) 構造化文書検索方法及び装置
JPH06290217A (ja) 文書検索方式
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JPS63244259A (ja) キ−ワ−ド抽出装置
JPH07319920A (ja) 文書検索方法及び装置
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JP3253657B2 (ja) 文書検索方法
JPH03125266A (ja) 電子化文書ファイリングシステム
JP3325677B2 (ja) 文書検索装置
JP2002132789A (ja) 文書検索方法
JPS61248160A (ja) 文書情報登録方式
US7539611B1 (en) Method of identifying and highlighting text
JPH03150668A (ja) 検索システムの入力文字列正規化方式
JP2560656B2 (ja) 文書ファイリングシステム
JPH08314950A (ja) テキストの検索方法及び装置
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JP3187671B2 (ja) 電子辞書表示装置
JP4183767B2 (ja) 文字列検索装置およびその検索方法