JPH06332949A - 電子ファイリング装置 - Google Patents

電子ファイリング装置

Info

Publication number
JPH06332949A
JPH06332949A JP5140211A JP14021193A JPH06332949A JP H06332949 A JPH06332949 A JP H06332949A JP 5140211 A JP5140211 A JP 5140211A JP 14021193 A JP14021193 A JP 14021193A JP H06332949 A JPH06332949 A JP H06332949A
Authority
JP
Japan
Prior art keywords
keyword
search
file
input
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5140211A
Other languages
English (en)
Inventor
Atsuyuki Goto
淳之 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP5140211A priority Critical patent/JPH06332949A/ja
Publication of JPH06332949A publication Critical patent/JPH06332949A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 不特定多数の人が大量の文書を登録した場合
にも、所望の文書を効率良く検索することができる電子
ファイリング装置を提供する。 【構成】 文書等の情報を読み込んで登録しておき、後
で必要な情報を検索して読み出す電子ファイリング装置
であって、登録する情報のファイルのタイトルとなるキ
ーワードが入力時に所定の内部形式に変換される様に構
成されている。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書等の情報を読み込
んで登録しておき、後で必要な情報を検索して読み出す
電子ファイリング装置に関し、特に、不特定多数の人が
大量の文書を登録した場合にも、所望の文書を効率良く
検索することができる電子ファイリング装置に関する。
【0002】
【従来の技術】一般に、文書等の情報を読み込んで登録
しておき、後で必要な情報を検索して読み出す電子ファ
イリング装置は多くの分野で使用され知られている。こ
こで、その電子ファイリング装置で大量の文書を登録し
た時、特に、不特定多数の人間が登録した時に効率良い
検索が難しく、検索もれなどの生じる心配があった。効
率の良い検索が難しい原因の1つとしては、探索キーワ
ードのつけ方が統一されてないため比較一致の確率が低
下していることがあげられる。例えば、「ファイル装置
における検索方法」という文書を検索しようとした場
合、以下の様な状況で検索が失敗する場合が考えられ
る。 1.キーワード「フアイル」で検索 → アが大文字の
ため検索に失敗 2.キーワード「ファイルそうち」で検索 → そうち
がひらがなのため検索に失敗 3.キーワード「検索の方法」で検索 → “の”とい
う文字が入っているため検索に失敗 4.キーワード「ファイル装置検索方法」で検索 →
“における”がないため検索に失敗 5.キーワード「ファイル」で検索 → 半角のため検索に
失敗 上記の1〜5の場合の様に、単純な文字列部分一致の比
較では検索に失敗してしまうものである。上記失敗の根
本的原因は、キーワード情報の持ち方が一通りなのに対
して、ファイルの検索者の指定するキーワードが幾通り
にも指定できることにある。加えて、日本語の書き方体
系が、漢字、カタカナ、ひらがなに分かれる上に情報処
理の世界では、半角、全角の区別が必要になってくるた
めである。上述の様に、従来では検索の失敗の繰り返し
により検索効率が低下してしまう問題があった。
【0003】上記キーワード検索の効率化を図るため、
特開平2−27479号公報には、情報を検索する手掛
かりとなるキーワードを一定の登録規制に基づいて格納
し、表示要求に応じて表示の制御を行うことにより、キ
ーワード集の内容を効果的に変更できる様にした技術
が、特開平2−96268号には、各文書のキーワード
・キーセンテンスを管理するキー管理手段を設けること
により、階層デイレクトリ管理手段の内容を変更して文
書データの複数の分類を可能とし、多面的なデータ検索
を容易にする技術が、特開平3−276260号には、
テキストイメージのデータから任意の検索用タイトルの
文字列を抽出し、文字コードによるタイトルの登録が行
えるようにして、ファイリング作業の簡略化を図る技術
が、特開平3−296168号には、検索用キーワード
についてあいまい連想検索を行い、文書内容の更新や追
加等の編集処理を行うことにより、記憶装置内の資源を
効率的に使用し、分類作成作業やキーワード付け作業の
高効率化を図る技術が開示されているが、前述した問題
の解決のためには不十分であった。
【0004】
【発明の目的】本発明は上述の如き従来の問題点を解決
するためになされたもので、その目的は、不特定多数の
人が大量の文書を登録した場合にも、所望の文書を効率
良く検索することができる電子ファイリング装置を提供
することである。
【0005】
【発明の構成】上記目的を達成するため、本発明の特徴
は、文書等の情報を読み込んで登録しておき、後で必要
な情報を検索して読み出す電子ファイリング装置におい
て、登録する情報のファイルのタイトルとなるキーワー
ドが入力時に所定の内部形式に変換されることである。
本発明の他の特徴は、文書等の情報を読み込んで登録し
ておき、後で必要な情報を検索して読み出す電子ファイ
リング装置において、登録した情報のキーワード検索時
において検索者の指定するキーワードが所定の内部形式
に変換され、半角、全角、漢字、カタカナ、およびひら
がなの区別をつけて検索されることである。本発明のさ
らに他の特徴は、文書等の情報を読み込んで登録してお
き、後で必要な情報を検索して読み出す電子ファイリン
グ装置において、上記登録された情報のキーワード検索
におけるローマ字読みにおいて生じる発音の微妙な相違
(発音ゆれ)を吸収することである。
【0006】以下、本発明の一実施例を図面に基づいて
説明する。図1は本発明を実施した電子ファイリング装
置の概略構成図である。図1に示す様に、この電子ファ
イリング装置は、記憶登録したい情報を入力するための
ファイル入力部1と、上記ファイル入力部1により入力
された情報をキーワード入力に基づいてファイル登録す
るためのファイル登録部3と、上記ファイル登録部3よ
りの登録情報をファイルとして光ディスク装置5に記憶
させるためのファイル管理部7と、上記光ディスク装置
5に記憶された情報から必要な情報を上記ファイル管理
部7を介して検索するためのファイル検索部9と、上記
光ディスク装置5に記憶された情報を上記ファイル管理
部7を介して編集するためのファイル編集部11と、上
記ファイルの登録、検索、あるいは編集等においてファ
イル内容を表示するためのファイル内容表示部13とを
有している。そして、図2に示す様に、上記ファイル登
録部3は、ファイル登録時に、そのキーワードを入力す
るためのキーワード入力部15と、登録ファイルのヘッ
ダーを作成するためのファイルヘッダー作成部17と、
上記ファイル入力部1によって入力された登録ファイル
をキーワードと共に上記光ディスク装置5へ供給するた
めのファイル書き込み部19とを有している。
【0007】ここで、本発明では、登録ファイルのタイ
トルになるキーワードを、その入力時に、後述する如く
のある所定の内部形式に変換する様にしている。そのた
めに、図3に示す様に、上記キーワード入力部15が、
入力されたキーワードを所定の内部形式に変換するため
のキーワード変換部21と、上記キーワードの入力およ
び変換を制御するためのキーワード入力制御部23とか
ら成っている。次に、上記入力キーワードの所定内部形
式への変換について詳しく説明する。上記所定の内部形
式とは、日本語の読みを特殊な制御コードを含むアルフ
ァベットとして表現したものである。
【0008】ここで、一般に、日本語を文書のキーワー
ドとして入力する時には、次の入力方式が考えられる。 a.ローマ字でひらがなを入力して、それから漢字に変
換。 b.ひらがな、カタカナを直接入力。 c.漢字の区点入力。 上記aの場合は、キーワードとして入力された日本語の
読みをローマ字というアルファベットで一旦表現し、そ
れからカタカナ、ひらがな、漢字へ変換する。従って、
この場合、キーワードとして入力された日本語は、ロー
マ字というアルファベット文字形式で表現できる。
【0009】上記bの場合も、ひらがな、カタカナをロ
ーマ字に対応づけることは可能なので、キーワードをア
ルファベットで表現できる。上記cの漢字の区点入力の
場合は、ローマ字に変換することはできないので、その
漢字の読み一覧を表示し、登録者に選択させる。そし
て、漢字の読み一覧に該当する読みがなかったら、その
漢字の読みをローマ字入力してもらうようにする。従っ
て、上記a〜cのいずれの場合も、日本語は、アルファ
ベット列に変換できることが分かる。この変換動作は、
図3に示すキーワード変換部21によって行われる。そ
して、さらに上記変換においては、単に日本語をアルフ
ァベットで表現してしまうとどこからどこまでの読み
が、カタカナ、漢字、ひらがな、あるいは、半角、全角
か判断できなくなるので、それを区別するため以下に示
す様な記号(制御コード)をつける。
【0010】すなわち、カタカナの範囲は、%1 ,
%1で囲み、ひらがなの範囲は、%2 , %2で囲
み、漢字の範囲は、%3 , %3で囲み、半角の範囲
は、%4 , %4で囲み、全角の範囲は、%5 ,
%5で囲む。以上の様な規則をもうければ、ファイル登
録時のキーワードは、すべて英数字記号のみで表現でき
る。図4に、上記規則に基づいて“明日は天気だ”とい
うキーワードを所定内部形式に変換した具体例を示す。
【0011】上記ひらがな、カタカナ、漢字、半角、全
角の区別をし、制御コードを付加する動作は図3のキー
ワード変換部21によって行われる。次に、図5のフロ
ーチャート図を参照して上記登録時における入力キーワ
ードの所定内部形式への変換動作の流れについて説明す
る。図5のステップ101において、日本語の文書がキ
ーワードとして入力されると、ステップ103におい
て、その入力されたキーワードの文字がローマ字入力か
否かが判定され、ローマ字入力である場合、ステップ1
05において、その入力ローマ字がかな漢字に変換さ
れ、文字が確定され、図6の番号25で示される格納領
域に格納される。そして、ステップ107において、上
記ステップ105において確定する元となったローマ字
(アルファベット)がそのまま所定内部形式のものとし
て図6の番号27で示される格納領域に格納される。上
記ステップ103において入力されたキーワードの文字
がローマ字入力でないと判定された場合、ステップ10
9において、そのキーワードの文字が漢字の区点入力で
あるか否かが判定される。そして、上記ステップ109
で漢字の区点入力と判定された場合、ステップ111に
おいて、漢字の確定後にその確定された漢字は上記格納
領域25(図6参照)に格納され、それと共に登録者に
選択させるために漢字のローマ字読み候補のリストが表
示される。そして、ステップ113において、登録者に
よって上記漢字のローマ字読み候補リストの中から該当
する読みが選択されるか選択された漢字の読みが修正さ
れ確定され、上記ステップ107に移行して、確定され
たローマ字(アルファベット)が所定形式のものとして
上記格納領域27(図6参照)に格納される。
【0012】上記ステップ109において入力されたキ
ーワードの文字が漢字の区点入力でないと判定された場
合、ステップ115において、ひらがな、カタカナ、英
数字が直接に入力され、ステップ117において、上記
入力されたひらがな、カタカナ、英数字等が前述した所
定内部形式に変換される。そして、上記ステップ117
において所定内部形式に変換された制御コードを有する
アルファベットが、上記ステップ107において上記格
納領域27に格納される。そして、最後に、ステップ1
19においてキーワードの文字入力が終了したか否かが
判定され、終了していない場合は上記ステップ101へ
戻り、終了している場合は動作終了となる。
【0013】上述した様に、登録時にファイル登録者が
指定した検索キーワードをファイリング装置独自の内部
形式に変換して保持することにより、検索時に単純なキ
ーワードの文字列比較による検索よりも確実性の高い検
索ができる。次に、本発明では、登録した情報のキーワ
ード検索時において、検索者の指定するキーワードを前
記所定内部形式に変換し、半角、全角、漢字、カタカ
ナ、ひらがなの区別をつけて検索する様にしている。そ
のため、図7に示す様に、前記ファイル検索部9(図1
参照)が、ファイル内容検索部29と、ファイルタイト
ル検索部31と、その他のキーワード検索部33とを有
している。そして、上記ファイルタイトル検索部31
が、図8に示す様に、キーワード入力制御部35と、キ
ーワード変換部37と、内部コード比較部39と、内部
コード操作部40とから成っている。
【0014】以下に、登録した情報のキーワード検索動
作について詳しく説明する。まず、ファイルをキーワー
ド検索する場合、ファイルの登録時と同様な入力方式が
とられ、登録者によって入力されたキーワードの日本語
の文字列が前述した所定内部形式である英数字記号列に
おきかえられる。それにより検索が英数字記号列の比較
によりできる。但し、この検索は以下の検索規則に基づ
いて行われる。 1.所定内部形式の英数字記号列における%1〜%1、
%2〜%2、 〜 、%5〜%5などの制御コードを無
視して検索する。 2.次に、上記1.の検索結果から漢字のみ一致してい
る場合を検索する。すなわち、%3〜%3の制御コード
を考慮した検索を行う。 3.次に、上記1.の検索結果からカタカナのみが一致
している場合を検索する。すなわち、%1〜%1の制御
コードを考慮した検索を行う。 4.次に、上記1.の検索結果からひらがなのみ一致し
ている場合を検索する。すなわち、%2〜%2の制御コ
ードを考慮した検索を行う。 5.次に、上記1.〜4.のいずれでもファイルのタイ
トルが見つからなかった場合には、漢字のみ一致してい
る場合の検索を行う。 例えば、「明日は天気だ」というタイトルを検索する場
合、asu ha tennkida で読み検索を行
う。ここで検索した結果、候補が無いならば、上記2.
〜4.の操作は、無意味となるので、 %3 asu %3 、 %3 tennki %3 でタイトルの検索を行う。 6.次に、上記1.〜4.のいずれの手段でもファイル
のタイトルが見つからなかった場合には、カタカナのみ
一致している場合の検索を行う。 7.次に、1.〜4.のいずれでもファイルのタイトル
が見つからなかった場合には、ひらがなのみ一致してい
る場合の検索を行う。 ここで、上記1.〜7.の文字列比較は、図8に示した
内部コード比較部39で行われる。 8.次に、上記5.〜7.のそれぞれで得られた候補集
合に対してAND演算、OR演算を施す。例えば、「明
日」で検索した場合、Aとして、「明日は、天気だ」
「明日は、雨だ」「明日は、くもりだ」「明日は、てん
きだ」という候補がリストアップされたとし、次に、
「てんき」で検索した場合、Bとして、「明日は、てん
きだ」「父親のてんきん」という候補がリストアップさ
れたとし、AとBのAND演算をすると「明日は、てん
きだ」というタイトルが検索できる。なお、上記OR演
算は、検索対象を広げる時に使用する。
【0015】上述したキーワード検索動作の一般的な動
作フローチャート図を図9に示す。図9のステップ20
1において検索キーワードが入力されると、次のステッ
プ203において前記所定内部形式に変換され、次のス
テップ205〜215において、半角、全角、漢字、カ
タカナ、ひらがなの区別をつけて検索が行われる様にな
っている。上述した様に、検索時に検索者の指定するキ
ーワードをファイル装置独自の内部形式に変換して検索
することにより、ファイル検索の確実性を高めることが
できると共に、半角、全角、漢字、カタカナ、ひらがな
の区別をつけて検索するのも可能になるので、検索の確
実性も高まる。また、一般に、日本語を読みだけを表す
ローマ字で表現する場合、人それぞれに発音にゆれ(発
音の微妙な相異)があり、特に、外来語などの場合には
顕著である。そうした発音の微妙な相異により、キーワ
ード検索に失敗するのを避けるために、本発明では、ロ
ーマ字読みの比較の時に、似たような読みならば検索で
きるように発音のゆれを吸収する発音ゆれ吸収テーブル
を用意している。
【0016】例えば、 きょうは → kiyouha きょうは → kyouha ファイル → fuairu ファイル → fairu は、図10に示す様な発音ゆれ吸収テーブルを用意する
ことにより同じ読みと解釈できる。上記発音ゆれ吸収テ
ーブルは、図8に示す内部コード操作部40内に設けら
れており、上記内部コード操作部40は、上記発音ゆれ
吸収テーブルを使用して、内部コードを操作し、それに
より発音ゆれを吸収する様にしている。
【0017】上記説明した発音ゆれの吸収検索動作の一
般的なフローチャート図を読み検索の場合およびカタカ
ナ検索の場合について示すと図11および図12に示す
様になる。図11のステップ301において、発音ゆれ
吸収モードか否かが判定され、発音ゆれ吸収モードであ
る場合、ステップ303において、上記発音ゆれ吸収テ
ーブルを使用した発音ゆれ吸収処理が行われ、ステップ
305において、制御コードを除いた英数字記号列の比
較が行われる。次に、ステップ307において、比較の
結果一致が得られたらその結果が検索結果リストに格納
され、ステップ309において、すべての登録キーワー
ドとの検索が終了したか否かの判定がなされ、終了して
いない場合次の候補の選択が行われ(ステップ31
1)、上記ステップ301へ戻り、終了した場合、全検
索処理を終了する。図12のカタカナ検索の場合も、ス
テップ305′においてカタカナの範囲の比較を行うこ
ととステップ313において読み文字列の最後になった
かの判定を行う以外は、図11の読み検索の場合と同様
である。
【0018】そして、以上説明した検索方法による検索
結果は、図13に示す形式でリスト化される。図13に
おいて、ポインタは、タイトル文字列へのポインタであ
り、ポインタフラグは、ポインタがメモリ上のエリアを
指しているのか、ディスク上のファイルの先頭からのオ
フセットを指しているのかを示すフラグである。そし
て、発音のゆれフラグは、発音のゆれを吸収して検索し
たかどうかを示すものであり、削除フラグは、不必要に
なったタイトル文字を削除する時に使用するものであ
る。
【0019】
【発明の効果】本発明によれば、電子ファイリング装置
において、登録者が入力する検索キーワードを所定内部
形式で保持するので、文書のタイトル検索が、より確実
に行なえる。また、文書のタイトル検索で、半角、全
角、漢字、カタカナ、ひらがなの区別をつけて検索でき
るので候補対象が広がる。そして、それぞれのモードで
選ばれた候補の集合を、AND演算やOR演算すること
により、候補を絞り込むことができる。また、発音ゆれ
をも吸収するので、似たような読みを持つタイトル文字
列が検索でき、検索もれが少なくなる。
【図面の簡単な説明】
【図1】本発明を実施した電子ファイリング装置の概略
構成図である。
【図2】図1に示したファイル登録部の構成図である。
【図3】図2に示したキーワード入力部の構成図であ
る。
【図4】キーワードを所定内部形式に変換した具体例を
示す図である。
【図5】登録時における入力キーワードの所定内部形式
への変換動作のフローチャート図である。
【図6】文字の格納領域を示す説明図である。
【図7】図1に示したファイル検索部の構成図である。
【図8】図7に示したファイルタイトル検索部の構成図
である。
【図9】キーワード検索動作の一般的な動作フローチャ
ート図である。
【図10】発音ゆれ吸収テーブルを示す図である。
【図11】発音ゆれ吸収検索動作の一般的な動作フロー
チャート図である。
【図12】発音ゆれ吸収検索動作の一般的な動作フロー
チャート図である。
【図13】リスト化された検索結果を示す図である。
【符号の説明】
1 ファイル入力部、 3 ファイ
ル登録部、5 光ディスク装置、
7 ファイル管理部、9 ファイル検索部、
11 ファイル編集部、13 ファイル内容
表示部、 15 キーワード入力部、17
ファイルヘッダー作成部、 19 ファイル
書き込み部、21 キーワード変換部、
23 キーワード入力制御部、25 タイトル文字列
の格納領域、 27 制御文字の格納領域、29
ファイル内容検索部、 31 ファイル
タイトル検索部、33 その他のキーワード検索部、
35 キーワード入力制御部、37 キーワード
変換部、 39 内部コード比較部、4
0 内部コード操作部、101〜119、201〜21
5、301〜313 各ステップ、

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文書等の情報を読み込んで登録してお
    き、後で必要な情報を検索して読み出す電子ファイリン
    グ装置であって、登録する情報のファイルのタイトルと
    なるキーワードが入力時に所定の内部形式に変換される
    ことを特徴とする電子ファイリング装置。
  2. 【請求項2】 登録した情報のキーワード検索時におい
    て検索者の指定するキーワードが前記所定の内部形式に
    変換され、半角、全角、漢字、カタカナ、およびひらが
    なの区別をつけて検索されることを特徴とする請求項1
    に記載の電子ファイリング装置。
  3. 【請求項3】 前記キーワードの所定の内部形式が、 カタカナの範囲は、%1 、 %1で囲み、 ひらがなの範囲は、%2 、 %2で囲み、 漢字の範囲は、%3 、 %3で囲み、 半角の範囲は、%4 、 %4で囲み、 全角の範囲は、%5 、 %5で囲む様にしたことを特
    徴とする請求項1又は2記載の電子ファイリング装置。
  4. 【請求項4】 文書等の情報を読み込んで登録してお
    き、後で必要な情報を検索して読み出す電子ファイリン
    グ装置であって、上記登録された情報のキーワード検索
    におけるローマ字読みにおいて生じる発音の微妙な相違
    (発音ゆれ)を吸収する様にしたことを特徴とする請求
    項2記載の電子ファイリング装置。
JP5140211A 1993-05-19 1993-05-19 電子ファイリング装置 Pending JPH06332949A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5140211A JPH06332949A (ja) 1993-05-19 1993-05-19 電子ファイリング装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5140211A JPH06332949A (ja) 1993-05-19 1993-05-19 電子ファイリング装置

Publications (1)

Publication Number Publication Date
JPH06332949A true JPH06332949A (ja) 1994-12-02

Family

ID=15263507

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5140211A Pending JPH06332949A (ja) 1993-05-19 1993-05-19 電子ファイリング装置

Country Status (1)

Country Link
JP (1) JPH06332949A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010266950A (ja) * 2009-05-12 2010-11-25 Ntt Data Corp 文字列入力装置、文字列入力方法、および、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010266950A (ja) * 2009-05-12 2010-11-25 Ntt Data Corp 文字列入力装置、文字列入力方法、および、プログラム

Similar Documents

Publication Publication Date Title
US4862408A (en) Paradigm-based morphological text analysis for natural languages
JP2726568B2 (ja) 文字認識方法及び装置
EP0423683B1 (en) Apparatus for automatically generating index
US5706365A (en) System and method for portable document indexing using n-gram word decomposition
US5303150A (en) Wild-card word replacement system using a word dictionary
EP1745396B1 (en) Document information mining tool
JPH0797373B2 (ja) 文書フアイリングシステム
JP3689954B2 (ja) 異種コード文字列転記装置および電子辞書
JPH06332949A (ja) 電子ファイリング装置
JPH0236019B2 (ja)
JP2560656B2 (ja) 文書ファイリングシステム
JPH08115330A (ja) 類似文書検索方法および装置
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JPH0954781A (ja) 文書検索システム
JP2570784B2 (ja) 文書リーダ後処理装置
JPH0746353B2 (ja) 日本語文章入力装置
JPH02136970A (ja) 英単語検索装置
JPH05324610A (ja) 住所表記漢字入力装置
JPH0869455A (ja) 文書検索方法,文書検索装置及び文書記憶装置
JPH02299060A (ja) 文字変換装置
JPH06342483A (ja) 文書ファイリングシステム
JPH0721212A (ja) 文書処理装置
JPH0266670A (ja) コード入力方式
JPS61156465A (ja) 文書作成方式
JPH05282290A (ja) 文章作成支援装置