JPS60168234A - 情報検索方式 - Google Patents

情報検索方式

Info

Publication number
JPS60168234A
JPS60168234A JP59021771A JP2177184A JPS60168234A JP S60168234 A JPS60168234 A JP S60168234A JP 59021771 A JP59021771 A JP 59021771A JP 2177184 A JP2177184 A JP 2177184A JP S60168234 A JPS60168234 A JP S60168234A
Authority
JP
Japan
Prior art keywords
search
character string
information
string
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59021771A
Other languages
English (en)
Inventor
Shigemi Okumura
奥村 成実
Tetsuzo Uehara
上原 徹三
Toshio Hirozawa
広沢 敏夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59021771A priority Critical patent/JPS60168234A/ja
Publication of JPS60168234A publication Critical patent/JPS60168234A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、特に日本文を編集するシステムや文書管理シ
ステムの情報検索に好適な情報検索方式〔発明の背景] 文字列を検索する方法の1つに最長一致検索と呼ばれる
方法がある。この方法は与えられた文字列と被検索文字
列との間において、それぞれ先頭から対応する文字が一
致する文字列のうちで最長の文字列を探し出す方法であ
り、日本文編集システムにおけるカナ漢字変換や文書管
理システムにおけるキーワード検索等の処理に利用され
ている。
従来、この方法は汎用的なアクセス法を用いて第1図に
示す如く行なわれていた。図において与えられた文字列
2を A Tl= a t a 2””” a 1l−18n
と表現する。応用プログラム1では午えられた文字列A
、の検索をアクセス法マクロを用いて汎用アクセス法3
に依頼する。アクセス法3は外部記憶装置4にアクセス
し、依頼された文字列と一致する文字列が存在するかど
うかを検索する。応用プログラム1では検索の結果、A
Tlと一致した文字列が外部記憶装置4に存在する旨の
報告を受けた場合は、当該文字列の検索を終了する。一
方、八〇と一致する文字列が外部記憶装置4内に存在し
ない旨の報告を受けたならば1文字列A、の最後尾の文
字(a、)を除いた文字列A、−1を生成する処理5を
施し、 Ayl=ala2・・・・” a 1l−1で表現され
る新しい文字列で再度検索を行なう6以上の手続を文字
列が空になるまでくり返す(もちろん本手続きの途中で
A、と一致する文字列が存在したならば検索は終了する
)。ここでアクセス法3は応用プログラム1から検索を
依頼されるたびに外部接続記憶装[4にアクセスするこ
とになる。
この方法によると応用プログラム1からアクセス法3の
呼び出しや外部記憶装置4とのアクセスの頻度が多くな
る。
一般に磁気ディスクのような外部記憶装置のアクセス時
間は機算機の主記憶装置に比べ低速である。このような
環境の下で日本文編集システムで行なわれているカナ漢
字変換の例をとって検索時間を計算すると次のようにな
る。
まず送用プログラムからアクセス法が呼ばれる回数を平
均3回とする。また、アクセス法に制御が渡るまでの時
間を約0.5ms とする(マクロの処理ステップを約
4000とし、平均命令実行時間を125nsとすると
上記0.5ms が得られる)。
さらに外部記憶装置に格納されている被検索情報は階層
構造を持つ索引部とデータ部から構成されていることか
ら、これらの検索には最小でも3回のアクセスが必要で
ある(S側部の読み込みに最低2回、データ部の読み込
みに最低1回の削3回である)。その他に外部記憶装置
固有のものとして、 アクセス時間 33 、4 m s 情報の転送時間 4 、9 m s (情報の転送単位を4096Byteとし、転送速度が
毎秒806KB式eであるとすると上記4.9msが得
られる。)とすると、1回当りの外部記憶装置とのアク
セス所要時間は38.3ms となる。
したがって最長一致の検索に要する時間は、3 X (
0、5+ 3 X 38 、3 ) ” 346 、2
 m s・・・・・・(1) となる。
もつとも汎用のアクセス法のなかにはVSAMのように
索引部やデータ部をアクセス法の中に常駐化する機能を
持つものもあり、これによって外部記憶装置とのアクセ
ス回数を減少させ処理効率を上げることができる。この
常駐化機能を使った場合の検索所要時間は 3X0.5+3X38.3=116.4m5− (2)
となる。
したがって索引部やデータ部の常駐化機能を使えば3分
の1に短縮される訳であるが、常駐化機能を具備しない
アクセス法を使用する場合には式(1)と式(2)の差
229.8ms はカナ漢字変換のように大量の日本文
を処理するような場合には負荷が大きい。
この方法は、最長−教法と呼ばれる特徴ある検索法、言
い換えれば与えられた文字列の先頭からの部分列という
類似した文字列の検索であるにもかかわらず、アクセス
法がそれを知らないため全く独立した文字列(部分列)
として検索していることに欠点がある。
〔発明の目的〕
本発明は上記に示す従来方式の欠点を解決するためにな
されてもので、外部記憶装置に格納される被検索情報の
性質を利用することによって外部記憶装置とのアクセス
回数やアクセス法の呼び出し回数を減少させ、文字列の
検索を高速に行なうことを目的としている。
〔発明の概要〕
本発明は外部記憶装置に格納されている被検索情報の性
質を利用した検索方式である。日本文編集システムや文
書管理システムで行なわれている文字列の検索は、以下
の事項を前提としている。
(1)被検索情報は外部記憶装置の中では、引算機内で
表現されるデータの昇順または降順に配置されているた
め、文字列としてみた場合類似の文字列(文字列の部分
列)が隣接した格納されていると考えてよい。(2)一
般に外部記憶装置と入出力を行なう場合、まとまった単
位(これをブロックと言う)で情報の転送が行なわ九る
。(3)文字列の検索の方法は、指定した文字列につい
て1回だけの検索で終わる性質のものではなく、文字列
内の文字の個数を変えた最長一致の検索が用いられてい
る。
以上のような検索環境の性質から次のことが言える。指
定された文字列をキーとして検索した結果、該当する文
字列が存在しなかった場合、次に検索しようとする文字
列(ここでは最初に指定した文字列のうち最後尾の文字
を除いた文字列を言う)は、アクセス法が管理する入力
バッファ内に存在する可能性が大きい。したがって部分
列を検索する場合、再度外部記憶装置へアクセスして必
要な情報を取込む必要はなく、入力バッファの中を検索
すればよいことになる。また、指定された文字列の部分
列を該アクセス法内で生成すれば応用プログラムからア
クセス法を呼び出す回数も減少する。
このようにして検索を行なえば、外部記憶装置へのアク
セス回数および応用プログラムからのアクセス法の呼び
出し回数が減少し、検索の高速化および応用プログラム
での最長一致検索のためのプログラミング量の削減が計
られる。
〔発明の一実施例〕
以下、本発明を実施例によって詳細に説明する。
第2図は、情報処理装置において本発明の情報検索方式
が適用される部分を示したものである。情報検索方式は
以下の2つの部分で実現可能である。
(1)中央処理装置51の内部で情報検索プログラムと
して動作される。
(2)中央処理装置51ど外部記憶装置4との間に位置
する外部記憶制御装置内で動作させる。
第3図は、本発明の情報検索方式の構成と応用プログラ
ムからの呼び出し方法を示したものである。情報検索方
式10は応用プログラム1と外部記憶装置4との間に位
置し、応用プログラム1で指定された文字列と外部記憶
装置4に格納されている被検索情報との比較検査を行な
う。本検索方式10は検索の全体を制御する制御部11
、検索のための文字列を格納する文字列格納部12、外
部記憶装置4から索引情報をブロック単位で取り込むブ
ロック入力部14、取り込んだ索引情報を格納する入力
バッファ15、入力文字列と索引情報との一致検索を行
なう比較検査部13、および一致した文字列に対応する
情報を取り出すデータ取り出し部16から構成されてい
る。
文字列格納部12には与えら九た文字列のみが格納され
、検索すべき文字列の長さは制御部11が管理する。ブ
ロック入力部14は外部記憶装置4に格納されている被
検索情報の最高位の索引情報から順番に入力する。
入力バッファ15は索引情報や索引情報でポイントされ
るデータノロツクを格納する領域であり、複数のブロッ
クが収納できる構造になっている。
外部記憶装置4には被検索情報が格納されている。被検
索情報はキーによるアクセスが可能となるように索引部
とデータ部から構成される。索引部は論理的な木構造に
なって複数個の階層により構成される。個々の索引は定
められた順序(例えばキーの上昇順)にもとづいて格納
されている。
索引はまたデータ部の格納位置を示す情報を保持してい
る。以上、本検索方式10の構成について説明した。
次に本検索方式10の動作を説明する。応用プログラム
lでは検索の手続き21を以下のように記述する。
GET RPL=RPL1.MODE=SここでGET
は2本検索方式1oを呼び出すためのマクロ命令であり
、RPLとMODEはそのパラメータである。
RPLに設定されるパラメータRPLIは外部記憶装置
とのアクセスに必要な情報が格納されている領域の名称
であり、検索文字列や、検索結果もこの領域に格納され
る。MODEパラメータは検索モードを指定するための
ものでMODE=Sと指定すると最長一致検索モードに
なり、MODE =Nと指定すると従来方法の検索とな
る。該MODEパラメータは、該検索方式用に新たに設
けたバラメ−タである。
応用プログラム1からGETマクロ22が発行されると
計算機の制御プログラムOS (OperatingS
ystem)によりマクロの受け付は処理がなされた後
、該検索方式10に制御が渡される。制御部11はマク
ロ命令22のパラメータ23で与えられる検索文字列を
文字列格納部12に格納する。
その後ブロック入力部14により、パラメータ23で示
される外部記憶装置4に関する情報、例えば被検索情報
全体が格納されている。
アドレス等を用いて被検索情報の索引情報を入力バッフ
ァ15に取り込む。この場合の索引情報は、最高位の索
引部から読み込む。索引情報が読み込まれると制御部1
1は比較検索部13に対して検索する文字列の長さを与
え検索の実行を開始させる。比較検査部13では文字列
格納部12に格納されている文字列と入力バッファI5
に格納され序提る索引情報のキーとを制御部11がら与
えられた文字列の長さで比較検査し、その結果を制御部
11に通知する。もし比較の結果、入力文字列と被検索
文字が一致したならばデータ取り出し部16に制御を渡
す。データ取り出し部16は一致したキーに対応するデ
ータを入力バッファ15のデータブロック18から取り
出し、応用プログラム1のRPLパラメータ23で示さ
れる領域に格納する。もし比較の結果入力文字列と被検
索文字列が一致しなかった場合には、文字列格納部12
に格納されている入力文字列の最終尾の文字を1文字ず
つ除いた文字列を新しい検索文字列として同様な検索を
くり返す2以上の動作を本検索方式10内で制御してい
るのが制御部11である。
第4図は、第3図で示した情報検索方式10の構成要素
のうち制御部11の処理フローを示したものである。ま
ず検索文字列31と検索モード32をともなって本検索
方式に制御が渡されると、処理33により外部記憶装置
から検索情報を読み込む。この処理は第3図のブロック
入力$14が行なう。その後、処理34により入力文字
列31が該索引情報の中に存在するか否かを検査する。
この処理では、高位の索引情報の各エントリは下位の索
引情報またはデータブロックの最高キーを願持している
ため、入力文字列31が含まれる索引情報を探索するこ
とが主となっている。もし入力文字列31が該索引情報
内に含まれていなかった場合には、さらに下位の検索情
報を読み込む処理をくり返す。もし入力文字列31が処
理33で読み込んだ索引情報の中に含まれていたならば
処理36により該当する索引エントリに対応するデータ
ブロックを外部記憶装置より読み込む。
対応するデータブロックが読み込まれると、処理37に
よりデータブロック内の各エン下り(キー付きのレコー
ドと呼ぶ)と比較し、入力文字列A、と一致するキーを
持つレコードを探す。このとき、検索すべき文字数は入
力文字列の先頭からn個である。このnは一番最初に検
索するときは入力文字数に等しい。この検索の結果、一
致した場合は処理39により一致したキーを持つレコー
ドの情報を入力バッファより取り出し、応用プログラム
へ渡して検索を終了する。判定処理38の結果、一致し
なかった場合はMODEオペランド32の指定により以
下の2通りの動作を行なう。
一方はMODE=Nのときで、これは従来のアクセス法
と同じであり対応する情報がないとして処理を終了する
。他方はMODE=Sのときで、この場合は最長一致検
索のための処理を行なう。本モードが指定されていると
処理42により、検索すべき文字数nを1減じ、入力文
字列へ〇に対して最後尾の文字a6を除いた文字列Aゎ
−、Aa、 =a1 aI2°°゛1°’ a 、 −
工を生成する。この文字列へ〇−1を新しい検索文字列
へ〇として文字数nがゼロになるまで検索をくり返す操
作44を行なう。この検索のくり返しの途中で比較した
内容が一致すれば従来のアクセス法の処理と同様の方法
でキーに対応する情報の取り出し39を行なう。比較し
た内容が不一致でかつ最長一致検索モードでない場合や
、最長一致検索モードであっても検索文字数nがゼロに
なった場合は、対応する情報がない旨を応用プログラム
に知らせ処理を終了する。
以上述べたように入力文字列の部分列を本情報検索方式
で自動的に生成し、その部分列によって検索をくり返せ
ば、応用プログラムからのアクセス法の呼び出し回数お
よびアクセス法と外部記憶装置とのアクセス回数が減り
、最長一致検索を高速に行なうことが可能である。
入力文字列に対して新しい文字列(部分列)を自動的に
生成して検索を行なう方法は、日本文編集システムにお
けるカナ漢字変換や文書管理システムにおいてキーワー
ドによる文書を検索する場合に適用可能である。
【発明の効果〕
次にこの発明の具体的な効果について述べる。
まず与えられた文字列がそのままの形で被検索情報と一
致する場合は効果はない。またアクセス法が索引部やデ
ニタ部を常駐化する機能を使用している場合には、外部
記憶装置とのアクセス所要時間は改善されない。
第3図に示した方法を計算の対象として検索に要する時
間を算出する。
従来の方法で計算したときの前提条件は以下の如くであ
った。
アクセス法が呼ばれる平均の回数 3回1検索当りの外
部記憶装置とのアクセス回数3回 外部記憶装置とのアクセスの所要時間 38.3ms 本発明の方法では情報検索方式の呼び出しは1回で済む
。外部記憶装置とのアクセス回数は3回で変わらない。
以上から第3図で示した方法による検索の所要時間は以
下のようになる。
lX0.5+3X38.3=115.4ms・=(3)
これは従来方式での検索時間346 、2 m s に
比した時、3分の1への減少にあたる大幅な削減である
以上説明したように、本発明によれば、最長一致検索に
要する時間が従来の方法では346.2ms要するのに
対して115.4ins におさえる駒とができ、検索
が高速に行なえる。
また、応用プログラム側の最長一致検索の手続きが不要
になりプログラミング量を軽減させる効果がある。
【図面の簡単な説明】
第1図は従来の最長一致検索の処理方法、第2図は情報
検索方式が適用される部分、第3図は情報検索方式の構
成図、第4図は情報検索方式の一構成要素である制御部
の処理フローを示したものである。 10・・・情報検索方式、11・・・制御部、22・・
・マクロ命令、24・・・検索モード、41・・−検索
モードの判定処理、42・・・検索文字列の最後尾の1
文字を除く処理、43・・・検索のくり返し回数を制御
する処理。 代理人 弁理士 高橋明大゛

Claims (1)

  1. 【特許請求の範囲】 1、検索文字列の個数を保持する文字格納領域と、入力
    文字列の先頭から該文字数格納領域の内容が示す文字数
    で検索文字列を設定する手段と、該文字数を管理するこ
    とにより検索をくり返す制御手段と、検索モードを設定
    して最長一致検索の実行の可否を判断する手段を具備す
    ることを特徴とする情報検索方式。 2、前記検索のくり返しにおいて、該比較検査すべき検
    索文字列の文字数を保持する文字数格納領域の内容を1
    ずつ減じ、該文字数にて入力文字列の比較すべき文字列
    を設定し、該文字数がゼロになるまで自動的にくり返す
    制御手段を具備することを特徴とする特許請求の範囲第
    1項記載の情報検索方式。
JP59021771A 1984-02-10 1984-02-10 情報検索方式 Pending JPS60168234A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59021771A JPS60168234A (ja) 1984-02-10 1984-02-10 情報検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59021771A JPS60168234A (ja) 1984-02-10 1984-02-10 情報検索方式

Publications (1)

Publication Number Publication Date
JPS60168234A true JPS60168234A (ja) 1985-08-31

Family

ID=12064334

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59021771A Pending JPS60168234A (ja) 1984-02-10 1984-02-10 情報検索方式

Country Status (1)

Country Link
JP (1) JPS60168234A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63172368A (ja) * 1987-01-09 1988-07-16 Sanyo Electric Co Ltd 電子辞書における語句検索方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63172368A (ja) * 1987-01-09 1988-07-16 Sanyo Electric Co Ltd 電子辞書における語句検索方法

Similar Documents

Publication Publication Date Title
EP0127753B1 (en) Method for executing a distribution sort
US5488717A (en) MTree data structure for storage, indexing and retrieval of information
KR940005775B1 (ko) 디스크 파일 개방 방법
EP0250705B1 (en) Method and apparatus for retrieval of symbol strings from data
Crauser et al. A theoretical and experimental study on the construction of suffix arrays in external memory
JP3554459B2 (ja) テキストデータ登録検索方法
CN110532347B (zh) 一种日志数据处理方法、装置、设备和存储介质
US5566329A (en) System and method for mutation of selected assignment operations on large data objects
JPH10198587A (ja) ファイル・システムの間接アドレシング方法及び装置
JPH0225536B2 (ja)
JPH02271468A (ja) データ処理方法
US5960449A (en) Database system shared by multiple client apparatuses, data renewal method, and application to character processors
JPS6175957A (ja) 機械翻訳処理装置
JPS60168234A (ja) 情報検索方式
US6397216B1 (en) Ordering keys in a table using an ordering mask
JP2675958B2 (ja) 情報検索用計算機システム及びその記憶装置の動作方法
JP2000339332A (ja) 検索インデックスを記録した媒体、検索インデックス更新方法、その装置、そのプログラムを記録した媒体
Hollaar et al. A specialized architecture for textual information retrieval
Kannan et al. A microprogrammed keyword transformation unit for a database computer
US20050060314A1 (en) System and methods involving a data structure searchable with O(logN) performance
JPH0752450B2 (ja) 辞書デ−タ検索装置
JPH0831096B2 (ja) 単語辞書装置
JP3073889B2 (ja) データ転送方法
JPS60134931A (ja) 情報検索方式
JP2590866B2 (ja) データ検索装置