JPH0752450B2 - 辞書デ−タ検索装置 - Google Patents

辞書デ−タ検索装置

Info

Publication number
JPH0752450B2
JPH0752450B2 JP61179946A JP17994686A JPH0752450B2 JP H0752450 B2 JPH0752450 B2 JP H0752450B2 JP 61179946 A JP61179946 A JP 61179946A JP 17994686 A JP17994686 A JP 17994686A JP H0752450 B2 JPH0752450 B2 JP H0752450B2
Authority
JP
Japan
Prior art keywords
index
index file
file
sub
dictionary data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61179946A
Other languages
English (en)
Other versions
JPS6337425A (ja
Inventor
保 伊藤
崇 竹内
敏裕 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP61179946A priority Critical patent/JPH0752450B2/ja
Publication of JPS6337425A publication Critical patent/JPS6337425A/ja
Publication of JPH0752450B2 publication Critical patent/JPH0752450B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、カナ漢字変換辞書,言語翻訳辞書などから与
えられたキーワードに応じた見出し語および対応するデ
ータを検索する辞書データ検索装置に係り、特に、キー
ワード中に不定の文字がある場合の大容量特許データを
検索するのに好適な辞書データ検索装置に関する。
〔従来の技術〕
従来から辞書データファイルを検索する装置としては、
例えば特開昭55-83962号,特開昭56-38661号に記載され
ている装置がある。これらの装置は、見出し語の1文字
目もしくは2文字目までを第1次検索対象として検索
し、得られたアドレス情報より3文字目以降が格納され
ている辞書本体を第2次検索する。
〔発明が解決しようとする問題点〕
しかしながら、上記従来技術は、大容量辞書データファ
イルを接続した場合の辞書データ検索について配慮がな
されておらず、見出し語の2文字目までが一致しても、
3文字目以降が異なる大量の辞書データを検索するため
に、検索時間の増大を招くという問題があった。またキ
ーワード中に不定の文字がある場合の辞書データの検索
に関しては、何ら配慮がなされていないという問題もあ
った。
本発明の目的は、不定の文字を含んだキーワードに対し
て、該当する見出し語および該当するデータを、大容量
辞書データファイルの中から高速に検索でき、しかも上
記事項を小形および小容量のバッファメモリで実現でき
る辞書データ検索装置を提供することにある。
〔問題点を解決するための手段〕
上記目的を達成するため、本発明は、大容量辞書データ
ファイルが格納されている記憶手段の物理的最少アクセ
ス単位であるセクタもしくは該セクタの整数倍を1ブロ
ックとし、辞書データファイルの各ブロックの先頭の見
出し語のみを集めた正順のサブインデックスファイル,
正順のサブインデックスファイルの各ブロックの先頭見
出し語のみを集めた1ブロックの正順のマスタインデッ
クスファイル,辞書データファイルの各見出し語文字列
の前後順を入れ換えた逆順見出し語とこの逆順見出し語
に対応する辞書データファイルのアドレスを示すポイン
タとが格納された逆順のポインタインデックスファイ
ル,逆順のポインタインデックスファイルの各ブロック
の先頭見出し語のみを集めた逆順のサブインデックスフ
ァイル,逆順のサブインデックスファイルの各ブロック
の先頭見出し語のみを集めた1ブロックの逆順のマスタ
インデックスファイル、をそれぞれ作成して、不定の文
字を含むキーワードに対する大容量辞書データファイル
を検索できるようにした。
その際、必要とするバッファメモリ(バッファ領域)の
大きさは、1ブロックである正順および逆順のマスタイ
ンデックスファイルを読み込む場合、1ブロック,その
正順および逆順のマスタインデックスファイルより、正
順および逆順のサブインデックスファイルの該当ブロッ
ク(1ブロック)を読み込む場合、1ブロック、さらに
その正順のサブインデックスファイルにより、大容量辞
書データファイルの該当する見出し語の格納されている
ブロックを読み込む場合、1ブロック,逆順のサブイン
デックスファイルにより逆順のポインタインデックスフ
ァイルの該当する見出し語の格納されているブロックを
読み込む場合、1ブロック,となり、1ブロックの大き
さのバッファメモリを用意するだけで、大容量辞書デー
タファイルを検索することができる。
〔作用〕
本発明の動作について、以下説明する。
不定の文字を含んだキーワードに対する辞書データ検索
は、キーワードの先頭文字から不定の文字直前の文字列
Aと不定の文字直後からキーワードの最後尾までの文字
列Bに分離する。文字列Aについては、正順のインデッ
クスファイルを利用して検索し、文字列Bについては逆
順のインデックスファイルを利用して検索する。
文字列Aの検索は、以下の通りである。正順のマスタイ
ンデックスファイルを読み出し、文字列Aが、正順のマ
スタインデックスファイルの見出し語列のn番目と一致
もしくは、n番目と(n+1)番目の間にあることを検
索(第1次)する。次に、正順のサブインデックスファ
イルのn番目のブロックを読み出す。文字列Aが、読み
出した正順のサブインデックスファイル(1ブロック)
の見出し語列のm番目と一致もしくは、m番目と(m+
1)番目の間にあることを検索(第2次)する。次に、
正順のサブインデックスファイルの各ブロックごとに設
定されている辞書データファイルに対するオフセット値
Pを用いて、辞書データファイルの(P+m)番目のブ
ロックを読み出す。読み出した辞書データファイルの見
出し語と文字列Aとを比較し、一致する見出し語を検索
(第3次)する。
文字列Bの検索は、以下の通りである。文字列Bの前後
順を入れ換えた文字列Bを作成する。この文字列Bにつ
いて、文字列Aを検索したのと同様な手法で逆順のマス
タインデックスファイル,逆順のサブインデックスファ
イルを用いて、逆順のポインタインデックスファイルの
該当ブロックを読み出し、このポインタインデックスの
見出し語と文字列B′とを比較し、一致する見出し語を
検索(第3次)する。
そして、逆順のポインタインデックスファイルの文字列
B′で始まるすべての見出し語と、辞書データファイル
の文字列Aで始まるすべての見出し語との論理積を取
る。これにより求める見出し語が得られる。
なお、上記以外の否定の文字を含んだキーワードに対す
る辞書データ検索としては、上述したようにして、逆順
のポインタインデックスファイルから文字列B′で始ま
るすべての見出し語を検索した後、これら見出し語列
を、文字列Aの前後順を入れ換えた文字列A′により再
検索したり、また、上述したようにして読み出した辞書
データファイルの中から、文字列Aと一致する見出し語
を検索した後、これら見出し語列を、文字列Bにより再
検索したりするようにしても上記と同様の結果が得られ
る。
また、不定の文字が、キーワードの先頭にある場合は、
逆順のマスタインデックスファイル,逆順のサブインデ
ックスファイルおよび逆順のポインタインデックスファ
イルを用い、不定の文字が、キーワードの最後尾にある
場合は、正順のマスタインデックスファイルおよび正順
のサブインデックスファイルを用いて求める見出し語を
得るようにする。
また、不定の文字を含まないキーワードに対する辞書デ
ータ検索に関しては、検索すべき文字列がどのようなも
のでも、正順のマスタインデックスファイル,正順のサ
ブインデックスファイル,辞書データファイルを用いて
目的とする見出し語を検索することができ、この結果、
高速に大容量辞書データファイルを検索することができ
る。
また、これらの検索の際に必要とするバッファメモリの
大きさは、マスタインデックスファイル(1ブロッ
ク),サブインデックスファイル(該当すべき1ブロッ
ク),辞書データファイル(該当すべき1ブロック)等
を読み出すのに各1ブロック分必要であるが、その都度
バッファメモリの内容を書き換えて共通に使用すること
により、1ブロック分のみでバッファメモリサイズで充
分である。
〔実施例〕
以下、本発明を図面を用いて説明する。第1図は本発明
の辞書データ検索装置一実施例を示すブロック図、第2
図は第1図の外部記憶装置14に格納された辞書の構造を
示す図である。
辞書データ検索装置(以下、単に装置という)10は、辞
書検索に用いるキーワードを入力し、辞書検索の結果得
たデータを出力する入出力装置19と、第2図に示す辞書
1及びその他のデータを記憶する外部記憶装置(第1の
記憶装置)14と、CPU(中央処理装置)11の発する指令
に従って外部記憶装置14を制御する制御回路1と、CPU1
1から直接読み書きされる内部メモリ(第2の記憶装
置)13と、内部メモリ13のプログラム領域15に格納され
たプログラムに従い入出力装置19および制御回路12を制
御し、内部メモリ13のバッファ領域17および作業領域16
を用いて辞書検索を遂行するCPU11とから構成される。
以下、装置10の動作を説明する。
入出力装置19から入力されたキーワードはCPU11にとり
こまれ、作業領域16に格納される。CPU11は該キーワー
ドをもとに制御回路12を介して辞書1の一部をバッファ
領域17に読み込み、比較.一致等の処理を行う辞書検索
を実行する。辞書検索の結果得た情報は、CPU11によっ
て入出力装置19に出力され、一連の動作を終了する。
ここで、本実施例の主要部分である辞書1について更に
説明を加える。辞書1は第2図に示されるように、正順
のマスタインデックス(正順のマスタインデックスファ
イル)100、逆順のマスタインデックス(逆順のマスタ
インデックスファイル)600、正順のサブインデックス
(正順のサブインデックスファイル)200、逆順のサブ
インデックス(逆順のサブインデックスファイル)70
0、正順のポインタインデックス(正順のポインタイン
デックスファイル)500、逆順のポインタインデックス
(逆順のポインタインデックスファイル)800および辞
書内容(辞書データファイル)300から構成されてい
る。
以上の辞書1の構成要素において、辞書内容300は辞書
検索の目的とする情報を集めたものであり、その他はキ
ーワードをもとに目的の情報を導くインデックスを集め
たものである。辞書内容300に含まれる情報としては文
字コード、画像情報、音声情報などの形態がある。各情
報に対して見出し語がわりあてられ、辞書検索はキーワ
ードと該見出し語の比較一致処理から行われる。以下に
英和辞書の検索を例にとり説明する。この場合、見出し
語は英単語であり、目的とする情報は単語の意味内容を
表わす文章、すなわち文字コードの集合である。
第3図は辞書内容300と正順のポインタインデックス500
及び逆順のポインタインデックス800の関係を示してい
る。辞書内容300は、特定の長さによって区切られるか
或いは特定の区切りコードによって区切られる文字コー
ドの集合301,302,303等から構成される。各文字コード
の集合301,302,303には見し語501,502,503が対応し、見
出し語501,502,503の語順を逆さにした逆順の見出し語8
01,802,803も文字コードの集合301,302,303に対応す
る。
各見出し語は、対応する文字コードの集合が記録されて
いる外部記憶装置14上のアドレス情報と共に各々特定の
語長で区切られるか或いは特定の区切りコードで区切ら
れてアルファベット順に並び、見出し語501,502,503等
から正順のポインタインデックス500、見出し語801,80
2,803等から逆順のポインタインデックス800が形成され
る。
ここにおいて、辞書内容300の外部記憶装置14上への配
置は任意である。即ち、正順のポインタインデックス50
0及び逆順のポインタインデックス800にそれぞれ含まれ
る見出し語には該見出し語に対応する文字コードの集合
が外部記憶装置14上のどこに配されているかを示すアド
レス情報が付加されているため、辞書内容300がどこに
配置されていても確実に検索することができる。従って
外部記憶装置14上に記録,再生ができない欠陥箇所があ
っても、その部分を避けて辞書内容300を配置すること
ができる。
第4図は正順のポインタインデックス500と正順のサブ
インデックス200の関係を表わしている。正順のポイン
タインデックス500をある特定の大きさのブロック、例
えば外部記憶装置14上及び制御回路12で取扱う最小単位
であるセクタサイズに分割する。このときポインタイン
デックス500に含まれる見出し語とアドレス情報の対が
異なるブロックにまたがることのないように、ブロック
の末尾には見出し語に使用されないコードを充填する。
正順のサブインデックス200は正順のポインタインデッ
クス500の各ブロック510,520等の先頭の見出し語501,52
1,…531等を集め、各々特定の長さで区切るか或いは特
定の区切りコードによって区切り、アルファベット順に
並べたものである。
従って、正順のサブインデックス200のn番目の見出し
語は正順のポインタインデックスのn番目のブロックの
先頭の見出し語であり、また、正順のポインタインデッ
クス500のn番目のブロックの最後の見出し語は正順の
サブインデックス200のn+1番目の見出し語よりもア
ルファベットの順が先行している。但し、正順のポイン
タインデックス500のn番目のブロックの最後の見出し
語の後順でありかつn+1番目のブロックの先頭の見出
し語すなわち正順のサブインデックス200のn+1番目
の見出し語の先順となる見出し語は存在しない。
ここにおいて、正順のポインタインデックス500の外部
記憶装置14上への配置は、正順のサブインデックス200
の見出し語の順番から一意に求まる位置に該見出し語に
対応するブロックを配置する。但し、正順のポインタイ
ンデックス500中のあるブロックが配置されるべき外部
記憶装置14上の一部分に欠陥箇所があった場合、該ブロ
ックに対応する正順のサブインデックス200中の見出し
語の前に特定の欠陥ブロックコードを挿入する。
すなわち、正順のサブインデックス200中のK番目の見
出し語に対応する正順のポインタインデックス500のK
番目のブロックを配置すべき外部記憶装置14上の位置に
欠陥があった場合、正順のサブインデックス200のK番
目の見出し語のかわりにある特定の欠陥ブロックコード
を置き、該K番目の見出し語はK+1番目の見出し語の
位置に置き、K+1番目の見出し語はK+2番目の見出
し語の位置におく。以下順次見出し語の順を送ること
で、対応する正順のポインタインデックス500の各ブロ
ックの外部記憶装置14上への配置される位置を変更す
る。変更の結果、再度他の欠陥箇所へ配置された場合
は、正順サブインデックス200のK+1番目の見出し語
のかわりに欠陥ブロックコードを置き同様の手順によっ
て正順のポインタインデックス500中の各ブロックが配
置される位置を変更する。外部記憶装置14上の欠陥箇所
を以上の手続きにより避けて正順のポインタインデック
ス500を配置する。
尚、逆順のサブインデックス700の生成方法及び逆順の
ポインタインデックス800の外部記憶装置14上への配置
方法並びに両者の関係は以上に述べた正順のサブインデ
ックス200の生成方法及び正順のポインタインデックス5
00の配置方法並びに両者の関係と同様であるので説明を
省略する。
第5図は、正順のマスタインデックス100と正順のサブ
インデックス200との関係を示している。正順のマスタ
インデックス100の生成方法及び正順のサブインデック
ス200の配置方法は、既に述べた正順のポインタインデ
ックス500及び正順のサブインデックス200の生成方法及
び配置方法と同様の手続をとる。すなわち、見出し語を
分断することなく正順のサブインデックス200をある特
定の大きさのブロックに分割し、分割された該ブロック
の各々先頭の見出し語を集めて正順のマスタインデック
ス100を生成する。但し、正順のサブインデックス200の
各ブロックには、該ブロックより先順の全てのブロック
の見出し語の数を合計したデータが含まれている。
正順のサブインデックス200の各ブロックの外部記憶装
置14上への配置は正順のポインタインデックス500のブ
ロック配置と同じ手順で外部記憶装置14上の欠陥箇所を
避けて配置され、従って正順のマスタインデックス100
は欠陥ブロックコードを含んだ形となる。
逆順のマスタインデックス600の生成と逆順のサブイン
デックス700の配置も、正順のマスタインデックス100の
生成、正順のサブインデックス200の配置と同一の手続
きで行われる。
以上の操作で生成された正順のマスタインデックス100
及び逆順のマスタインデックス600が大きなものであれ
ば更に上位のインデックスを正順のサブインデックス20
0から正順のマスタインデックス100を生成した場合と同
じ手順で求め、この作業をくり返すことによって最上位
のマスタインデックスを充分に小さなものとすることが
できる。本実施例においては、先に示したマスタインデ
ックスの段階までとする。正順のマスタインデックス10
0及び逆順のマスタインデックス600は、外部記憶装置14
上の欠陥のない任意の位置におけばよい。
ブロックサイズを2048バイト、見出し語の平均長を5バ
イトとすると、マスタインデックス1ブロックは410の
サブインデックスのブロックから成り、410のサブイン
デックスのブロックは410×410=168100のポインタイン
デックスのブロックからなり、168100のポインタインデ
ックスには見出し語の平均長5バイト、アドレス情報
(ポインタデータ)3バイトとすると合計168100×256
=43033600の見出し語が含まれることになる。
さて、以上の手続きによって構成された辞書1を、ある
キーワードWで検索し、その結果として文字コードの集
合Sを求める手順を以下に説明する。本発明において、
キーワードWは求める文字コードの集合Sの見出し語I
と完全に一致していなくてもよい。完全なキーワードW0
=見出し語Iが“bird"であった場合、不定の文字列を
表すコード“*”を用いてキーワードW1=“bir*”、
キーワードW2=“b*rd"、キーワードW3=“*ird"の
いずれでも検索が可能である。
まずCPU11は、入出力装置19より入力されたキーワード
を内部メモリ13の作業領域に格納する。CPU11はキーワ
ードを検査して不定の文字(列)を表わすコード“*”
の有無及び位置を確認する。“*”がない場合、すなわ
ち完全なキーワードW0の場合は以下の手順で目的の文字
コードの集合を得る。
(1) CPU11は、制御回路12を介して正順のマスタイ
ンデックス100を内部メモリ13内のバッファ領域17に読
み込む。
(2) CPU11は、キーワードW0とマスタインデックス1
00の見出し語を順次比較する処理をキーワードW0より後
順になる見出し語を発見するまで、見送った見出し語の
数をカウントしつつ繰り返す。該当する見出し語が発見
できなかった場合は、見送った見出し語数に1を減算し
て終了する。第5図に示された例であれば、まず第1の
見出し語101“abacus"と比較、キーワードW0“bird"の
先順であるため次なる見出し語102“kid"と比較、後順
であるので処理を終える。この間見送った見出し語の数
は1である。
(3) 見送った見出し語数をmとした場合に、CPU11
は外部記憶装置14より正順のサブインデックス200の第
m番目のブロックをバッファ領域17に読み込む。該第m
番目のブロックの外部記憶装置14上の位置は、前述のよ
うにmをもとに一意にもとめられる。本実施例ではm=
1であるため、正順のサブインデックス200の第1のブ
ロック210がバッファ領域17に読み込まれる。
(4) CPU11は、サブインデックス200の第1のブロッ
ク210の見出し語に対し、キーワードW0にもとづき前記
(2)と同様の検索を行う。このとき見送った見出し語
の数をlとする。本実施例では、見出し語211“abacus"
及び見出し語212“army"が見送られ、次の見出し語213
“bit"で検索を終える。従ってl=2である。
(5) CPU11は、正順のサブインデックス200の第m番
目のブロックに予め記されている第1番目のブロックか
ら第m−1番目のブロックまでに格納されている見出し
語の総数Pを読み込み、前記(4)で求めた見送った見
出し語数lと加算して外部記憶装置14から正順のポイン
タインデックス500の第P+l番目のブロックをバッフ
ァ領域17に読み込む。本実施例においては、m=1であ
るためP=0で、該当する正順のポインタインデックス
500のP+l=2番目のブロック520がバッファ領域17に
読み込まれる。
(6) CPU11は、読み込まれた正順のポインタインデ
ックス500の第P+l番目のブロックの見出し語とキー
ワードW0を逐次比較する処理を一致する見出し語を検出
するまで繰り返す。但し、第P+l番目のブロックに該
当する見出し語が存在しなければ、入出力装置19にエラ
ーの検出を表示するなどして、辞書検索処理を異常終了
する。本実施例では、第4図に示すように、P+l=2
番目のブロック520中に見出し語503“bird"を発見す
る。
(7) CPU11は正順のポインタインデックス500中に発
見したキーワードW0と一致する見出し語Iに付随するア
ドレス情報をもとに外部記憶装置14より辞書内容300の
中の文字コードの集合303を読み込む。
(8) CPU11は、前記(7)で読み込んだ文字コード
の集合303を入出力装置19に出力し、辞書検索処理を正
常に終了する。
次に、キーワードの末尾に不定の文字(列)を示すコー
ド“*”を持つキーワードW1を用いた検索の手順につい
て説明する。
(1) CPU11は、キーワードW1の不定の文字(列)の
手前の文字列をキーワードW′1とする。本実施例にお
いては、W′1=“bir"である。
(2) 前述のW0を用いた辞書検索と同様の手順で正順
のマスタインデックス100、正順のサブインデックス200
を検索し、正順のポインタインデックス500のある1ブ
ロックをバッファ領域17に読み込む。
(3) キーワードW′1をもとに正順のポインタイン
デックス500を検索する。この場合、比較するのはキー
ワードW′1に含まれている文字数のみである。見出し
語がW′1より長い場合は先頭からキーワードW′1の文
字数分のみ比較、一致を取る。本実施例ではW′1=“b
ir"であるから見出し語の語頭部3文字のみを比較の対
象とする。
(4) 一致する見出し語が検出されたら、入出力装置
19へ出力する。この場合、該当する見出し語Iが複数あ
った場合、全てを出力する。本実施例ではI=“bird"
の他に“birdy"、“birth"他が候補として出力される。
(5) 正順のポインタインデックス500内の該ブロッ
ク中に該当する見出し語が検出されなかった場合は、異
常終了する。又、該ブロックの最後の見出し語も該当し
た場合は続くブロックを読み込み、該当しない見出し語
が検出されるまでくり返す。
以上の手順により、不定の文字(列)を示すコードを語
尾に持つキーワードW1による検索を行う。
続いて、先頭に不定の文字(列)を含むキーワードW3
よる検索について説明する。
(1) CPU11はキーワードW3を語尾から検査し、文字
の順を逆順にしながら不定の文字(列)を示すコードの
手順までの文字列から成るキーワードW′3を生成す
る。本実施例においてはW3=“*ird"であるからW′3
=“dri"となる。
(2) CPU11は、逆順のマスタインデックス600及び逆
順のサブインデックス700を前述のキーワードW0による
検索と同様の手順で検索し、逆順のポインタインデック
ス800中のあるブロックをバッファ領域17に読み込む。
(3) 前述のキーワードW′1をもとに正順のポイン
タインデックス500を検索し、該W′1に対応する見出し
語を出力したと同様の手順によって、逆順のポインタイ
ンデックス800中の前記ブロックをキーワードW′3によ
って検索し、これに対応する見出し語を出力する。但
し、見出し語を出力する際は文字列の順を逆にして正順
に直した後出力する。なお、本実施例では“drib"→“b
ird"、“driht"→“third"等が検索されるので、それら
の見出し語に付加されたアドレス情報をもとに、文字コ
ードの集合を得ることができる。
更に、キーワードの文字列中に不定の文字(列)を示す
コードが含まれている、キーワードW2による検索につい
て説明する。本実施例においてはW2=“b*rd"であ
る。
(1) CPU11は、キーワードW2を語の先頭及び末尾か
ら検査してそれぞれ不定の文字(列)を示すコードの手
前までを切り出しW′2,W″2とする。但しW′2は正
順、W″2は逆順になっている。本実施例においては
W′2=“b",W″2=“dr"である。
(2) W″2により逆順のマスタインデックス600,逆
順のサブインデックス700,逆順のポインタインデックス
800をW1,W3と同様の手順で検索し、逆順のポインタイ
ンデックス800の該当する見出し語に付加されたアドレ
ス情報を作業領域16に記憶する。
(3) W′2により、正順のマスタインデックス100,
正順のサブインデックス200,正順のポインタインデック
ス500を検索する。ここで、正順のポインタインデック
ス500中の該当する見出し語に付加されたアドレス情報
と、上記(2)において作業領域16に記憶されたアドレ
ス情報を比較し、一致するものがあった場合のみ、入出
力装置19へ検索結果として出力する。すなわち、キーワ
ードW′2に該当するものとキーワードW″2に該当する
ものの論理積をとって検索の結果とする。
なお、このキーワードの文字列中に不定の文字(列)を
示すコードが含まれている、キーワードW2による検索に
ついては、上記の検索以外にも次のような検索が可能で
ある。すなわち、逆順のポインタインデックス800から
文字列W″2で始まるすべての見出し語を検索した後、
これら見出し語列を、文字列W′2の前後順を入れ換え
た文字列W2により再検索したり、また正順のポイン
タインデックスの中から文字列W′2と一致する見出し
語を検索した後、これら見出し語列を、文字列W″2
正順に直した文字列で再検索したりしても上記と同様の
検索結果を得ることができる。
以上の説明から明らかなように、本実施例によれば、キ
ーワードの不定の文字(列)を示すコードが含まれてい
る場合、含まれていない場合、また含まれている場合で
あればそれが語頭部、語中、語尾のいずれであっても検
索が可能となる。
また本実施例によれば、前記1ブロックサイズのバッフ
ァ領域で大容量の辞書を検索できるので、省メモリ化の
効果がある。
また本実施例によれば、マスタインデックス→サブイン
デックス→ポインタインデックス→辞書内容というよう
に検索を行なっているので、検索処理の高速化を実現で
きる効果がある。
さらに本実施例によれば、不定の文字(列)を示すコー
ドが使用できるので、語尾検索や語幹検索など辞書機能
拡張の効果がある。
加えて本実施例によれば、前述したように、1ブロック
の大きさを2048バイトとし、平均見出し語長を5バイト
とすると、1ブロックのマスタインデックスファイル
で、410ブロックのサブインデックスファイルを管理す
ることができ、さらに、サブインデックスファイルの各
ブロックがそれぞれポインタインデックスファイルの41
0ブロック分を管理することができる。すなわち、1ブ
ロックのマスタインデックスファイルで、168100ブロッ
ク(344×ガバイト)の大容量ポインタインデックスフ
ァイルを管理することができる。仮に2ブロック分のバ
ッファメモリを用意したとすると、同様な計算により67
1000ブロック(2、7ギガバイト)もの大容量ポインタ
インデックスファイルを管理することができるなどの効
果がある。
以上の実施例では、辞書内容300の各見出し語からなる
正順のポインタインデックスを作成し、これを用いて検
索を行なった場合であったが、辞書内容300を、一定の
順序(本実施例ではABC順)に並べられた見出し語と該
見出し語に対応するデータから構成するようにすれば、
前記正順のポインタインデックス500は不要となる。
また、以上の実施例では、正順のマスタインデックス10
0および逆順のマスタインデックス600を検索処理時にバ
ッファ領域17にロードして使用する場合であったが、本
発明では、検索処理時に使用頻度の高いこれらマスタイ
ンデックス100および600を、内部メモリ13内にマスタイ
ンデックス領域(図示せず)を設けて、該領域に常駐ま
たは電源オン時にあらかじめロードしておくようにして
もよい。
〔発明の効果〕
本発明によれば、ブロックサイズとして限られたメモリ
量で、大容量の辞書データファイルを検索できるので、
メモリ利用効率の向上に効果がある。
また、本発明によれば、辞書データファイルが大容量で
あっても検索に使用する内部メモリを小さくできるの
で、小メモリの小型電子計算機でも充分に高速な検索が
可能であり、したがって大容量の辞書データ検索装置の
価格低減に効果がある。
更に本発明によれば、多数の見出し語を集めてブロック
分離し、各々のブロックの先頭の見出し語を集めて上位
のサブインデックスファイルおよびマスタインデックス
ファイルを形成するため、上位のサブインデックスファ
イルもしくはマスタインデックスウファイルに並ぶ見出
し語は隣合った見出し語同志であっても文字の重なりが
少なくなり、したがって、検索の際に比較する文字数が
少なくてもよいので、検索時間を短縮できる効果があ
る。
加えて、順序関係もしくは大小関係の規定されたデータ
であれば、その見出し語を本発明の各インデックスファ
イルの見出し語として用いることができ、したがって、
本発明は、例えばカタカナ見出し語(アイウエオ順)、
英語見出し語(ABC順)、数字見出し語(123順)などを
用いた辞書データファイルの検索に利用することができ
る。
また、不定の文字もしくは不定の文字列が、キーワード
のどのような位置に存在しても、辞書データファイル中
の見出し語を検索することができる。
不定の文字を含まないキーワードに対する辞書データ検
索に関しては、検索すべき文字列がどのようなもので
も、正順のマスタインデックスファイル、正順のサブイ
ンデックスファイル、辞書データファイルを用いて目的
とする見出し語を検索でき、この結果、高速に大容量辞
書データファイルを検索することができる。
なお、不定の文字(列)を含むキーワードに応じた辞書
データ検索に関しては、逆順のポインタインデックスフ
ァイルをアクセスする必要のある場合がある。
【図面の簡単な説明】
第1図は本発明の辞書データ検索装置の一実施例を示す
ブロック図、第2図は第1図の外部記憶装置に格納され
た辞書の構造を示す図、第3図は辞書内容と正順のポイ
ンタインデックス及び逆順のポインタインデックスの関
係を示す図、第4図は正順のポインタインデックスと正
順のサブインデックスの関係を示す図、第5図は正順の
マスタインデックスと正順のサブインデックスの関係を
示す図である。 1……辞書、11……CPU、12……制御回路、13……内部
メモリ、14……外部記憶装置、15……プログラム領域、
16……作業領域、17……バッファ領域、19……入出力装
置、100……正順のマスタインデックス、200……正順の
サブインデックス、500……正順のポインタインデック
ス、600……逆順のマスタインデックス、700……逆順の
サブインデックス、800……逆順のポインタインデック
ス、300……辞書内容。
フロントページの続き (56)参考文献 特開 昭61−282964(JP,A) 特開 昭60−262263(JP,A) 特開 昭55−83962(JP,A) I.フローリズ著,久保寛彦訳「データ 管理」(1972−8−10)P.135−138 上條史彦著「データ・ベース・システ ム」(昭53−10−15)P.127−134

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】辞書データファイルを記録した第1の記憶
    手段と、見出し語を入力し、該見出し語に対する検索結
    果を表示するための入出力装置と、前記第1の記憶手段
    および前記入出力装置を制御する中央処理部と、前記中
    央処理部の動作を決定するプログラムや前記入出力装置
    および前記第1の記憶手段からのデータを一時格納する
    ための第2の記憶手段からなる辞書データ検索装置にお
    いて、 前記第1の記憶手段における物理的最小アクセス単位
    (セクタ)もしくはその整数倍の長さのブロック単位で
    前記辞書データファイルを構成し、 該辞書データファイルの前記各ブロックの先頭見出し語
    を集めた正順のサブインデックスファイルと、該正順の
    サブインデックスファイルの前記各ブロック毎の先頭見
    出し語を集めた正順のマスタインデックスファイルと、
    前記辞書データファイルの各見出し語文字列の前後順を
    入れ換えた逆順見出し語とこの逆順見出し語に対応する
    辞書データファイルのアドレスを示すポインタとが格納
    された逆順のポインタインデックスファイルと、該逆順
    のポインタインデックスファイルの前記各ブロック毎の
    先頭見出し語を集めた逆順のサブインデックスファイル
    と、該逆順のサブインデックスファイルの前記各ブロッ
    ク毎の先頭見出し語を集めた逆順のマスタインデックス
    ファイルとを有し、 前記正順のマスタインデックスファイル、正順のサブイ
    ンデックスファイル、あるいは、前記逆順のマスタイン
    デックスファイル、逆順のサブインデックスファイル、
    逆順のポインタインデックスファイルを前記第2の記憶
    手段に一時格納して、前記見出し語に対する前記第1の
    記憶手段の前記辞書データファイルを検索することを特
    徴とする辞書データ検索装置。
  2. 【請求項2】前記正順のマスタインデックスファイルお
    よび前記逆順のマスタインデックスファイルを前記第2
    の記憶手段に常駐したことを特徴とする特許請求の範囲
    第1項記載の辞書データ検索装置。
  3. 【請求項3】前記正順のサブインデックスファイルおよ
    び逆順のサブインデックスファイルは、正順のサブイン
    デックスファイルの各ブロックの先頭見出し語のみを集
    めた第2の正順のサブインデックスファイル、逆順のサ
    ブインデックスファイルの各ブロックの先頭見出し語の
    みを集めた第2の逆順のサブインデックスファイル、さ
    らに同様な手法で生成した複数個の正順のサブインデッ
    クスファイルおよび複数個の逆順のサブインデックスフ
    ァイルから構成されたことを特徴とする特許請求の範囲
    第1項記載の辞書データ検索装置。
  4. 【請求項4】前記各インデックスファイルを前記第1の
    記憶手段に記憶したことを特徴とする特許請求の範囲第
    1項記載の辞書データ検索装置。
  5. 【請求項5】前記辞書データファイルの各見出し語が格
    納された正順のポインタインデックスファイルを作成
    し、前記正順のポインタインデックスファイルの各ブロ
    ックの先頭見出し語を集めたものを前記正順のサブイン
    デックスファイルとしたことを特徴とする特許請求の範
    囲第1項記載の辞書データ検索装置。
JP61179946A 1986-08-01 1986-08-01 辞書デ−タ検索装置 Expired - Lifetime JPH0752450B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61179946A JPH0752450B2 (ja) 1986-08-01 1986-08-01 辞書デ−タ検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61179946A JPH0752450B2 (ja) 1986-08-01 1986-08-01 辞書デ−タ検索装置

Publications (2)

Publication Number Publication Date
JPS6337425A JPS6337425A (ja) 1988-02-18
JPH0752450B2 true JPH0752450B2 (ja) 1995-06-05

Family

ID=16074709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61179946A Expired - Lifetime JPH0752450B2 (ja) 1986-08-01 1986-08-01 辞書デ−タ検索装置

Country Status (1)

Country Link
JP (1) JPH0752450B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129600A (ja) * 1993-11-04 1995-05-19 Canon Inc データ処理装置と該装置で使用される辞書
US7885932B2 (en) 2006-11-01 2011-02-08 Ab Initio Technology Llc Managing storage of individually accessible data units
US8229902B2 (en) 2006-11-01 2012-07-24 Ab Initio Technology Llc Managing storage of individually accessible data units
US20130013605A1 (en) 2011-07-08 2013-01-10 Stanfill Craig W Managing Storage of Data for Range-Based Searching

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5583962A (en) * 1978-12-19 1980-06-24 Sharp Corp Data retrieving system
JPS60262263A (ja) * 1984-06-07 1985-12-25 Toshiba Corp 情報検索装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
I.フローリズ著,久保寛彦訳「データ管理」(1972−8−10)P.135−138
上條史彦著「データ・ベース・システム」(昭53−10−15)P.127−134

Also Published As

Publication number Publication date
JPS6337425A (ja) 1988-02-18

Similar Documents

Publication Publication Date Title
EP0293161B1 (en) Character processing system with spelling check function
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
US4053871A (en) Method and system for the iterative and simultaneous comparison of data with a group of reference data items
US4417321A (en) Qualifying and sorting file record data
CA2202696C (en) Method and apparatus for language translation
JP3672242B2 (ja) パターン検索方法、パターン検索装置、コンピュータプログラム及び記憶媒体
US4935876A (en) Knowledge base management method and system
JPH0128412B2 (ja)
US6470334B1 (en) Document retrieval apparatus
JPH0752450B2 (ja) 辞書デ−タ検索装置
JP2001243245A (ja) 類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体
JPH0561758A (ja) 情報リンク装置
JPH03131969A (ja) 記号列検索方法および検索装置
EP0065114B1 (en) Method of qualifying and sorting file record data in a text processing system
JPH09212523A (ja) 全文検索方法
JPH0721805B2 (ja) 辞書デ−タ検索方式
JP2695772B2 (ja) 仮名漢字変換装置
JPH04205561A (ja) 用語辞書による文書検索システム
JPH03127254A (ja) 単語検索装置
JPH0991304A (ja) 情報検索方法、情報検索システム及び情報検索用記憶媒体
JPH0113579B2 (ja)
JPH08278980A (ja) データ処理装置
JPS61134843A (ja) プログラム構造処理システム
JPS59167737A (ja) かな漢字変換装置
JPH0140371B2 (ja)