JPH07109603B2 - 情報検索処理方式および検索ファイル作成装置 - Google Patents

情報検索処理方式および検索ファイル作成装置

Info

Publication number
JPH07109603B2
JPH07109603B2 JP2417609A JP41760990A JPH07109603B2 JP H07109603 B2 JPH07109603 B2 JP H07109603B2 JP 2417609 A JP2417609 A JP 2417609A JP 41760990 A JP41760990 A JP 41760990A JP H07109603 B2 JPH07109603 B2 JP H07109603B2
Authority
JP
Japan
Prior art keywords
character
search
character set
position information
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2417609A
Other languages
English (en)
Other versions
JPH04215181A (ja
Inventor
菊池忠一
Original Assignee
株式会社テレマティーク国際研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社テレマティーク国際研究所 filed Critical 株式会社テレマティーク国際研究所
Priority to JP2417609A priority Critical patent/JPH07109603B2/ja
Priority to PCT/JP1991/000011 priority patent/WO1992009960A1/ja
Publication of JPH04215181A publication Critical patent/JPH04215181A/ja
Publication of JPH07109603B2 publication Critical patent/JPH07109603B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、情報検索を行う情報検
索処理方式に関する。本発明は、特に全文検索を行うこ
とに適し、入力された検索入力と全文との照合回数を大
幅に削減して高速に情報検索を行うことができる情報検
索処理方式に関する。本発明はデータベースシステムに
おいて全文検索処理を行う情報検索処理方式に適する。
【0002】
【従来の技術】従来から、全文の最初から最後まで、検
索入力文字列との文字列照合を行い、検索者が指定する
入力文字列と検索条件に合致する文書を選出する逐次検
索方式や全文からあらかじめキーワードを抽出して検索
ファイルを作成するインデックス方式が全文検索技術と
して一般的である。また全文に出現する文字や文字列を
表形式にして、検索入力文字列から分解して作成する文
字や文字列の出現文書を絞り込むプリサーチ方式があ
る。
【0003】
【発明が解決しようとする課題】逐次検索方式では、全
文の最初から最後まで、検索入力文字列との照合を行う
ため、多量の文字列を有する文書を検索する場合、多く
の時間を要する。このため、多量文書の検索では、高速
な文字列照合を行う専用のプロセッサやLSIが提案さ
れているが、これらの方式では、ハードウエアが限定さ
れるほか、検索処理を行う計算機と専用プロセッサやL
SIとの間での文字列転送に時間がかかり、システムと
して満足できる高速性の実現が課題となっている。
【0004】また、プリサーチ方式では、高速性を実現
するための並列処理機構や文字列照合に専用のハードウ
エアが必要であるほか、登録時に抽出する文字列の精度
向上が課題となっている。
【0005】本発明者は、全文中に同じ文字や同じ文字
列が出現する頻度が低い特徴がある点に着目し、検索対
象文字列を先頭文字から1文字ずつ、その文字と次に続
く合計q文字で文字セットを作成し、これらの文字セッ
ト種ごとにグループ化した文字セットグループで検索フ
ァイルを作成し、検索時には、検索ファイル中から文字
セットの連続性を照合することにより検索を高速化する
ことができることを見出した。
【0006】本発明は、上述の観点から大量文書を対象
とする全文検索の高速化をソフトウエアだけで実現で
き、しかも特定のハードウエアに限定されず、検索処理
を主記憶上で行うことにより専用プロセッサやLSIと
の文字列の転送が不要であり、文字セットと文字セット
位置に着目することにより任意の文字列検索が可能であ
る汎用性に富む情報検索処理方式を提供することを目的
とする。
【0007】
【課題を解決するための手段】本発明の第一の特徴は、
それぞれが文字列で構成され検索を行う単位である複数
の検索単位によって構成される一連の文字列であって、
この検索単位にはその論理区分にしたがって属性が定め
られている一連の文字列を検索対象として所定の検索入
力文字列に合致する文字列を抽出する情報検索方式の検
索ファイル作成装置において、上記検索単位が現れるご
とに検索単位ごとの昇順の符号を付与する検索単位識別
符号付与手段と、上記検索単位にその属性にしたがって
定められている属性符号を付与する属性符号付与手段
と、検索対象となる文字列から1文字ずつ取り出し、そ
の文字と次に続く合成q文字で文字セットを作成し、検
索単位における文字セットの先頭文字位置を示す文字セ
ット位置順序符号を付与する文字セット位置順序符号付
与手段と、上記検索単位識別符号と文字セット位置順序
符号と属性符号とからなる文字セット位置情報を作成し
て、この文字セット位置情報を文字セット種ごとの領域
に格納して検索ファイルを作成する手段とを備えたこと
を特徴とする。
【0008】なお、文字セット位置情報は、nを最大検
索単位文字数、aを最大属性数とするとき{(検索単位
識別符号×n)+文字セット位置順序符号}×a+属性
符号なる数字として与えられることが好ましい。
【0009】また本発明の第二の特徴は、第一の特徴で
作成された検索ファイルを備え、検索入力文字列の構成
文字を先頭文字からq文字単位の文字セットに分解して
検索入力文字セット列を作成し、この文字セットと同じ
文字セット種に格納されている文字セット位置情報を上
記検索ファイルから取り出す手段と、この取り出した各
文字セットの文字セット位置情報間で、検索単位識別符
号が共通で文字セット位置順序符号の差が検索入力文字
列の文字セットの先頭文字位置差に等しくかつその属性
符号が検索入力と等しい文字セット位置情報の組み合わ
せを抽出する手段と、この抽出された文字セット位置情
報に基づいて検索入力と等しい文字セット列が属する検
索単位および文字セット構成各文字の検索単位における
先頭文字からの位置を示す文字位置を検索結果として出
力する手段とを備えたことを特徴とする。
【0010】また、検索入力文字セット列と等しい文字
セット位置情報の抽出は、検索入力の出現頻度の小さい
文字セットから順に行うことが好ましい。
【0011】なお、検索対象文字列が記号を含む欧文字
列の場合は、少なくとも3文字単位の文字セットとし記
号を含む欧文字のみの文字セット種グループ検索ファイ
ルを用いることがよい。
【0012】
【作用】文書中に同じ文字列が出現する頻度は低い。例
えば広辞苑の見出し語の説明文は約900 万文字あるが、
その中で仮名文字の出現頻度を調べると平均約53200 回
と高い。しかし、仮名2文字の文字列の出現頻度を調べ
ると平均出現頻度472 回と低くなる。このため、仮名2
文字を文字セットとすると、検索入力がn文字の場合、
全文から抽出する照合対象は平均すれば(n/2)×47
2 個の文字セット位置情報となる。漢字は文字種が仮名
文字より多いので、漢字2文字の文字列の出現頻度は仮
名文字より低くなり、全文から抽出する照合対象も仮名
文字より少なくなる。一般的に検索入力は数十文字以下
であるため、出現頻度の高い文字列であっても、全部の
文字を逐次照合するものに比べるとその照合回数は極め
て少なくなる。
【0013】例えば、「通信」という2つの文字列を使
用する用語は多々あるとしても「通信・・」という文字
列は「通信回線」、「通信装置」のように「通信」の文
字以降で同一の文字が発生する頻度が低くなる。この結
果、「通信」に続く「回線」や「装置」の文字列を照合
すると、検索対象が急激に絞り込まれていく。このよう
にして、検索入力文字セット列の構成文字セットで全文
との照合を進めていくと、それまでに得られた検索対象
候補の文字セット列の中から、検索入力文字セット列と
異なる文字セット列が削除され、照合する構成文字セッ
トごとに検索対象が絞り込まれていく。特に、検索入力
の中の全文出現頻度の低い文字セットから順に照合を行
うと一層絞り込まれて照合一致を取る回数を低減でき
る。
【0014】したがって、検索対象となる文字列(全
文)を構成する各文字セットが文字列中のどの位置にあ
るかを示す文字セット位置情報を文字セット種ごとにグ
ループ化した検索ファイルを作成し、この検索ファイル
に対して検索入力文字セット列との照合一致を行うこと
により文字列検索における照合一致処理回数を大幅に低
減することができる。
【0015】この検索ファイルの作成は次のように行
う。
【0016】まず検索対象となる文字列を検索単位に分
ける。検索対象文字列が例えば書籍や論文の場合、目
次、序文、章または節等のタイトル、本文、図または表
等のタイトル、参考文献という順序で構成されており、
それぞれの構成部分が論理的に区分されているため、検
索単位として構成できる。そこで書籍または論文を論理
的に検索単位に分け、それぞれの検索単位ごとに出現順
序に従って昇順に識別符号を付与する。このとき本文に
ついては複数の検索単位に分割し、それぞれ他の検索単
位とともに一連の識別符号を付与することもできる。ま
た、この検索単位について、目次、序文、タイトル、本
文のようにその検索単位の論理的な種別が区分されるの
で、その論理的な種別を属性として、その属性を示す属
性符号を付与する。
【0017】そして、文字列を先頭文字から1文字ずつ
取り出し、その文字と次に続く合計q文字で文字セット
を作成し、各文字セットに検索単位識別符号と各文字セ
ットの先頭文字位置を示す文字セット位置順序符号と検
索単位の属性符号とからなる文字セット位置情報を生成
し、文字セット種ごとに構成された領域に格納し、検索
対象文字列を構成する各文字セット種別でグループ構成
される検索ファイルを作成する。
【0018】この検索ファイルは、文字セットの種別ご
とに文字セット位置情報が格納された形のファイル構造
となり、周知の記憶媒体に記憶される。
【0019】検索処理は、検索入力を先頭文字からq文
字単位の文字セットに分解して検索入力文字セット列を
構成し、分解した文字セットと同じ文字セットの文字セ
ット位置情報を検索ファイルから取り出して、検索単位
識別符号が共通しており文字セット位置順序符号の差が
検索入力文字列の文字セットの先頭文字位置差に等しく
かつ属性符号が同じ文字セット位置情報の組み合わせを
照合して取り出す。
【0020】この照合処理は、検索入力と検索ファイル
との文字セット列の連続性の一致と属性の一致とをみる
もので、検索ファイル中の文字セット位置情報から検索
単位識別符号が共通していて文字セット位置順序符号の
差が検索入力文字列の文字セットの先頭文字位置差に等
しくかつ属性符号が検索入力と同じ文字セットの組み合
わせを取り出すことにより行う。
【0021】これにより、全検索ファイルの照合が不要
になり、検索ファイルにある検索入力と同じ文字セット
の文字セット位置情報だけの照合一致を行えばよいの
で、照合回数は逐次照合に比べるときわめて低減するこ
とができる。また、一般的に同じ文字列の出現頻度が低
いので、q文字の文字セットを照合するたびに検索対象
が絞り込まれるので、照合回数は低減していく。
【0022】さらに、検索ファイルから取り出した文字
セット位置情報を照合するとき、検索入力の中の全文出
現頻度の低い文字セットから順に行うと検索対象が一層
絞り込まれ、照合一致をとる回数がさらに低減できる。
【0023】このようにして同一の文字列を見出したと
きはその検索単位識別符号から抽出すべき検索単位と文
字セット構成各文字の検索単位における先頭文字からの
位置を示す文字位置を抽出して、検索者に検索結果とし
て出力する。
【0024】
【実施例】以下図面を参照して本発明の実施例を説明す
る。
【0025】図1は本発明一実施例における情報検索処
理装置の構成を示すものである。
【0026】本実施例の情報検索処理装置は、各種演算
処理あるいは判断処理を行うCPU1と、検索処理、検
索ファイル作成等のプログラム、作成されたあるいは検
索処理を行うための検索ファイル、検索入力等を記憶す
るメモリ2、キーボード4、ディスプレイ5を接続する
入出力部3、各種情報が記憶される外部記憶装置7を接
続する外部記憶装置制御部6、CPU1、メモリ2、入
出力部3、外部記憶装置制御部6を接続する共通バス8
とを備える。
【0027】本実施例での情報検索処理は、検索処理に
供するための文字列について文字列の先頭文字から1文
字ずつ取り出し、その文字の次に続く文字の2文字で文
字セットを作成し、これらの文字セット種ごとにグルー
プ化した文字セットグループで作成される検索ファイル
を作成する検索ファイル作成処理と、検索ファイルとの
照合一致を行って検索入力に合致する文字列を抽出する
検索処理との二つに分けられる。
【0028】まず、検索ファイル作成処理について説明
する。
【0029】この検索ファイル作成処理は、大まかに分
けると、検索ファイル領域確保、各文字セットへの
文字セット位置情報の付与、文字セット種別ごとにグ
ループ化した文字セット位置情報の検索ファイルへの格
納の3つに分けることができる。この各処理についてそ
れぞれ説明する。
【0030】 検索ファイル領域確保 検索ファイルは、図2に示すように、JISコード表に
記載されている文字順に配列された文字セット群で構成
される。各文字セット群は図3に示すように、JISコ
ード表に記載されている文字順に、記載文字を先頭文字
とする2文字の文字列で構成される文字セットグループ
で構成される。そこで全文の先頭文字から1文字ずつ取
り出し、その文字と次に続く文字の2文字で文字セット
を作成し、これらの文字セット種ごとに出現頻度を計数
する。これにより、検索ファイルを構成する各文字セッ
ト種グループに登録される文字セット位置情報の数がわ
かるので、全文字セット種グループで構成される検索フ
ァイルの領域を確保できる。また同時に、各文字セット
種グループに登録される文字セット位置情報の数から、
検索ファイル内に連続して格納される文字セット種グル
ープの先頭番地もわかる。この文字セット種グループの
先頭番地を図3の文字セット群一覧の記載順に配列した
のが図4に示す文字セットグループアドレス表である。
【0031】 各文字セットへの文字セット位置情報
の付与 ここで述べる文字セット位置情報は、文字セットが属す
る検索単位が現れる順番を示す検索単位番号と、検索単
位におけるその文字セットの出現する位置をその文字セ
ットの先頭文字の位置で示す文字セット位置番号と、検
索単位の論理的な種別を示す属性番号で作成される。
【0032】まず検索単位とその属性について説明す
る。例えば一般的な書籍は、目次、序文、章または節の
タイトル、本文、図または表のタイトル、参考文献など
の部分で構成されており、ほぼこの順序に従って現れ
る。この書籍の内容を検索するとき、検索対象としてこ
の部分部分を検索単位に分け、その検索単位ごとに検索
して検索出力とすることが便利であるし、また検索目的
に合致することが多い。すなわち、検索目的によってタ
イトルのみや本文のみを検索対象として指定することが
実際の検索では多いからである。
【0033】したがって、一つの書籍を全文検索対象と
して検索する場合に、その書籍を構成する論理的な部分
に分けて検索結果を出力することが好ましい。この検索
単位は、検索対象の文字列の論理的な分類を示すもので
あるため、この検索単位に論理的区分に従って属性番号
を付与する。例えば、属性番号として、目次に「1」、
序文に「2」、章または節のタイトルに「3」、図また
は表のタイトルに「4」、本文に「5」、参考文献に
「6」を付与する。
【0034】そしてこの検索単位が書籍に出現する順序
に1から昇順に番号を付与する。これを検索単位番号と
する。なおこの際に本文が長文である場合には適当な区
分に分けて本文を複数の検索単位に分け、検索単位ごと
に出現する順位で検索単位番号を付与することもでき
る。
【0035】次に検索単位ごとに、検索単位の先頭から
1文字ずつ取り出し、その文字と次に続く文字の2文字
で文字セットを作成し、作成順に1、2、3・・・と昇
順に番号を付与して文字セット位置番号とする。検索単
位の構成文字が奇数個の場合には1文字が残るが、この
1文字には文末を示す特殊文字EM(エンドマーク)を
付加し、このEM文字と連結させて文字セットとして、
文字セット位置番号を付与する。なお、EM文字は、J
ISコード表の未使用領域を割り当てる。ここでは数字
9の直後にあるJISコードA3BAとした。
【0036】そして、このように与えられた検索単位番
号、文字セット位置番号、属性番号とから検索単位を構
成する文字セットを整数からなるコードに変換して文字
セット位置情報を作成する。
【0037】この文字セット位置情報は、最大検索単位
文字数をn、最大属性数をaとするとき、文字セット位
置情報コード={検索単位番号×n+文字セット位置番
号}×a+属性番号の式で与えられる数字コードであ
る。
【0038】例えば、検索単位の最大文字数n=10000
、最大属性数a=10とし、8番目の検索単位である本
文(属性番号=5)の先頭から第121 〜125 番目の文字
位置に「通信文書の」という文字列があった場合、この
文字列「通信文書の」は、「通信」、「信文」、「文
書」、「書の」の文字セットに分解され、それぞれ「80
1215」、「801225」、「801235」、「801245」の文字セ
ット位置情報が与えられる。
【0039】そしてこのように文字セット位置情報を4
バイトのコードで構成すれば、最大10000 文字数の検索
単位を264/(n×a)≒4万個取り扱うことが可能で
ある。
【0040】 文字セット位置情報の検索ファイルへ
の登録 次にこの各文字セットごとに付与された文字セット位置
情報を検索ファイルに登録する。
【0041】上述のように文字セット種別グループは、
図3に記載された順に検索ファイルに格納される。そし
て各文字セット種別グループに文字セット位置情報を登
録する。この文字セット位置情報の登録は、文字セット
種グループの末尾にそれぞれ文字セット位置情報を格納
することによって行われる。このため、検索単位順に登
録するとすれば文字セット種グループ内には文字セット
位置情報が数値順の昇順に登録されることになる。
【0042】上述の「通信文書の」の文字セット位置情
報を検索ファイルに登録した例を図5に示す。このと
き、各グループ内の文字セット位置情報は昇順に格納さ
れる。このファイル容量は、文字セット位置情報が4バ
イトであると、下記の数式1に示す容量になる。
【数1】
【0043】なお、文字セット位置情報の追加登録は、
追加文書の各文字セットに該当するグループの末尾に新
規文字セット位置情報を追加することで行う。また、削
除は削除文書の各文字セットに該当するグループ内の該
当文字セット位置情報を特殊記号に変更することによっ
て行う。これにより追加登録と削除を短時間に行うこと
ができる。
【0044】なお上述のようにこの検索ファイルの各文
字セット種グループごとに格納された文字セット位置情
報は、図4の文字セットグループアドレス表の各文字セ
ットグループ先頭番地をディレクトリとして取り出すこ
とができる。
【0045】以上の検索ファイルの作成処理の流れを図
6に示す。
【0046】すなわち、各文字セットの出現度数を計数
して文字セットグループアドレス表を作成し(S11、1
2)、検索ファイルの領域を確保する(S13)。次に検
索単位登録順位カウンタをk=1に初期設定して、検索
単位番号を「1」に、最大検索単位文字数を「n=1000
0 」に、最大属性数をa=10に設定する(S14)。そし
て最初の検索単位を取り出す(S15)。ここまでが登録
の前処理である。ここから検索単位ごとの登録処理とな
り、まず、文字セット位置番号をp=1に、登録する検
索単位の構成文字数m、登録する検索単位の属性番号a
i を設定する(S16)。次に、検索単位の先頭文字から
順に、文字セット位置番号pに該当する文字セット位置
情報をD=(k×10000 +p)×10+ai の式で作成す
る(S17)。文字セット位置番号pにある文字セットと
同じ文字セット種グループが格納されている検索ファイ
ルの文字セットグループの先頭番地を示す文字セットグ
ループ先頭番地を文字セットグループアドレス表から取
り出して(S18)、文字セットグループ先頭番地が示す
検索ファイルの文字セットグループの空領域の先頭行に
文字セット位置情報を格納する(S19)。そして、p=
p+1、m=m−1とし、検索単位内の全ての文字セッ
トを処理したところで、次の検索単位の処理に移る(S
23、24)。
【0047】次にこのようにして作成された検索ファイ
ルを用いる検索処理について説明する。
【0048】本実施例では、検索ファイルから取り出し
た文字セット位置情報をもとに検索入力文字セット列と
同じ文字セット列を文字列照合して全文検索を行う例で
説明する。まず、その検索処理は大まかに分けると以下
の構成からなっている。
【0049】 検索入力文字列の先頭文字から2文字
単位の文字セットに分解し、検索入力文字セット列を作
成する。 検索入力文字セット列の各文字セットに該当する文字
セットグループアドレス表内文字セットグループ先頭番
地を算出する。 検索入力文字セット列を出現頻度の少ない文字セット
から順に並べ変える。 並べ変えた文字セット列の先頭から順に該当する文字
セット種グループを検索ファイルから取り出してそこに
格納されている文字セット位置情報から検索入力文字セ
ット列を構成できる文字セット位置情報の組み合わせを
取り出す。 抽出した文字セット位置情報から検索入力と同じ属性
を有する文字セット位置情報を取り出し照合一致とす
る。 照合一致した文字セット位置情報から検索単位番号と
文字セット構成各文字の検索単位における先頭文字から
の位置を示す文字位置番号を検索結果として出力する。
【0050】次に具体的にそれぞれの処理を説明する。
【0051】 検索入力文字セット列の作成 検索ファイルに格納されている文字セットと照合可能な
ように、検索入力文字列を先頭文字から2文字単位の文
字セットに分解し、検索入力文字セット列とする。
【0052】 各検索入力文字セットに該当する文字
セットグループアドレス表内文字セットグループ先頭番
地の算出 検索ファイルの作成時と同様に、各検索入力文字セット
の図3の文字セット群一覧記載順位を算出し、これを文
字セットグループアドレス表における検索入力文字セッ
トのアドレスポインタとする。
【0053】 出現頻度順の並べ変え そして、検索ファイルの各文字セット種グループの先頭
番地を示す文字セットグループアドレス表の文字セット
グループ先頭番地を参照して、各検索入力文字セットの
出現頻度を調べ、検索入力文字セット列を全文出現頻度
の低いものから順に並べ変える。上述のように、文字セ
ットグループアドレス表内の先頭番地は、検索ファイル
に格納されている各文字セット種グループの先頭番地を
示しており、次に続く文字セットグループ先頭番地との
差をとれば、各文字セット種グループに格納されている
文字セット位置情報の数から、全文中に出現する文字セ
ット種別頻度がわかる。
【0054】これは出現頻度の低い文字セットから照合
一致を行うことにより、検索ファイルに格納された各文
字セットの文字セット位置情報との照合回数をきわめて
低減できるためである。すなわち文字セット位置情報を
照合して各文字セットの連続性を調べる場合に二つの文
字セット種グループ内の文字セット位置情報中の文字セ
ット位置番号を照合するため、その二つの文字セット種
グループ内に格納されている文字セット位置情報の数が
少なければそれだけ照合回数を少なくすることができ
る。したがって、文字セット位置情報の照合を行うとき
に、出現頻度の低い文字セットから照合を行って照合回
数を低減させる。特に検索入力文字が多くなるほど出現
頻度の低い文字セットが含まれるため低減効果は大き
い。
【0055】 文字セット列の照合 出現頻度の低い文字セットから文字セットグループアド
レス表を参照してそれぞれの文字セット種グループに格
納されている文字セット位置情報を取り出す。そして取
り出した文字セット位置情報をもとに、出現頻度の低い
文字セット種グループから、各文字セット種グループ間
で検索単位が等しくかつ文字セット位置番号の差が検索
入力文字列の文字セットの先頭文字位置差に等しい文字
セット位置情報の組み合わせを抽出する。この文字セッ
ト位置差の照合は、a=最大属性数とすると、{(検索
入力文字列i番目文字を先頭とする文字セット種グルー
プ内文字セット位置情報)−(検索入力文字列j番目文
字を先頭とする文字セット種グループ内文字セット位置
情報)}÷a=i−jの式で照合すればよい。
【0056】この文字セット種グループ間での文字セッ
ト位置差の照合処理は、出現頻度の低い文字セット種グ
ループの文字セット位置情報とそれより出現頻度の高い
文字セット種グループの文字セット位置情報との差を取
って文字セットの連続を照合する。
【0057】この文字セット位置番号差に該当するもの
を抽出するときに、二つの文字セット種グループをAB
とCD、AとCの文字位置差がLであるとし、グループ
ABの文字セット位置番号をAx 、グループCDの文字
セット位置番号をCy としたとき Ax +L>Cy ならCy を削除 Ax +L<Cy ならAx を削除 Ax +L=Cy ならAx 、Cy を合致として共に削除 というように照合対象から削除していくことによりその
照合回数を削減させる。
【0058】例えばグループABの文字セット位置番号
が 5、13、100 、200 、1000、1100 グループCDの文字セット位置番号が 3、18、101 、150 、180 であった場合、この二つのグループ間の照合回数は全体
で7回だけですみ、グループ内の全ての文字セット位置
情報を照合する必要はない。
【0059】 属性番号の照合 文字セット列照合から得られた文字セット位置情報の中
から、検索入力と同じ属性番号の文字セット位置情報を
取り出すことにより、検索入力で指定した属性に一致す
る文字セット位置情報を抽出できる。
【0060】 検索単位の抽出 取り出した文字セット位置情報から検索単位番号と文字
セット構成各文字の検索単位における先頭文字からの位
置を示す文字位置番号を検索結果として抽出する。
【0061】なお、検索入力が複数ある場合には、2番
目以降の検索入力に対しては、検索入力の最初の文字セ
ットに該当する文字セット種グループからそれまでに得
られた検索単位番号を有する文字セット位置情報を取り
出した後、検索入力の次の文字セット以降の処理を行う
ようにする。これは第1番目の検索入力で得られた検索
結果と同じ検索単位に含まれる文字セットを第2番目以
降の検索入力から抽出することを目的とする。
【0062】以上の〜の動作を具体例を挙げて説明
する。検索対象として本文が指定され、検索入力文字列
としては「通信文書」が指定されたとする。この場合本
文の属性番号は「5」とする。なお、図5の検索ファイ
ルを対象として説明する。
【0063】検索入力が「通信文書」であるから、検索
入力文字セットは「通信」と「文書」になる。全文出現
頻度が「通信」<「文書」の順であり、照合をこの順序
に行うとすると、まず検索ファイル中の「通信」の文字
セットグループ欄から取り出した文字セット位置情報と
「文書」の文字セットグループ欄から取り出した文字セ
ット位置情報との間で、検索入力「通信文書」における
「通」と「文」との文字位置が各々「1」と「3」であ
るから、これらの差に最大属性数=10を乗算した「−2
0」になる文字セット位置情報を抽出して、図5の検索
ファイルの「通信」内の文字セット位置情報の「80121
5」と「文書」内の「801235」とを連続性ある文字セッ
ト位置情報の組み合わせとして抽出することができる。
【0064】さらに、検索条件は「本文」であるから、
これまでの文字列照合で残った文字セット位置情報の中
から、属性番号が「5」の文字セット位置情報として、
「801215」と「801235」を抽出できる。
【0065】したがって、この文字列が属する検索単位
番号「8」の検索単位と文字位置番号「121 〜124 」を
検索結果として出力する。
【0066】この検索処理動作を図7にフローチャート
として示す。
【0067】すなわち、検索入力を取り出し、検索入力
文字列の先頭から2文字単位の文字セットに分割して検
索入力文字セット列を作成し、その文字セット数−1、
属性番号を設定し、各文字セットの出現頻度を文字セッ
トグループアドレス表を参照して調べ出現頻度の低いも
のから順に並び変える(S41〜S44)。そして並べ変え
た文字セットの中から先頭から2個の文字セットに該当
する文字セット種グループに格納されている文字セット
位置情報を検索ファイルから取り出す(S45)。そし
て、二つの文字セット種グループ間で、(出現頻度の低
い文字セット種グループの文字セット位置情報)−(出
現頻度の高い文字セット種グループの文字セット位置情
報)=(検索入力における二つの文字セットの先頭文字
位置差)×(最大属性数)である文字セット位置情報を
一致結果として取り出す(S46)。そして照合が終わっ
たか否かを判断した後(S47、48)、文字セット位置情
報の中から属性番号がai の文字セット位置情報を選別
し、検索入力に一致した検索単位と文字セット構成各文
字の検索単位における先頭文字からの位置を示す文字位
置番号を検索結果として出力する。(S49、50)。な
お、ステップS48で照合が連続した場合、これまでの一
致結果の文字セット位置情報と、検索入力を並べ変えた
文字セットの中の次の文字セットに該当する文字セット
種グループに格納されている文字セット位置情報とで照
合を行う(S46)。
【0068】上記実施例では日本語文書の検索処理の例
を説明したが、他の例として例えば英文字のように字種
の少ない言語の文書では、JISコード表の中から、仮
名文字と漢字文字を除いた字種だけで検索ファイルと文
字セット群一覧と文字セットグループアドレス表を作成
すると、日本語文書に比べ文字セットの少ない検索ファ
イルが構成でき、日本語文書に比してコンパクトに全文
検索が容易にできる。この場合、英文字(記号を含む)
についてはJISコードに変えて例えばISOコードを
用いた文字セットグループアドレス表を作成し、文字セ
ットは最低3文字で構成されたものとすることがよい。
【0069】なお、全文検索の高速性が求められる場
合、文字セットの構成文字数を増加するとますます文字
セットの出現頻度が低くなり、各文字セット種グループ
に格納される文字セット位置情報が少なくなるため、容
易に高速化を実現できる。
【0070】
【発明の効果】以上説明したように、本発明は検索対象
文字列の文字セット種ごとにその文字セットが属する検
索単位識別符号、文字セット位置順序符号、検索単位の
種別を示す属性番号からなる文字セット位置情報を格納
した検索ファイルを作成し、この検索ファイルを検索入
力の文字列を構成する文字セット種ごとにその文字セッ
ト位置情報を取り出して、検索入力に合致する文字列を
検索するようにした。このため、 (1) 検索処理のための文字列照合回数を低減することが
できるため、高速照合を行うことができる、 (2) 文字セットと文字位置に着目して検索処理を行うた
め任意の文字列検索を行うことができ、プリサーチ方式
のように登録時に文字列抽出を行う必要はない、 (3) 専用のハードウエアを用いることなくソフトウエア
だけで高速検索を実現できるため、汎用の情報処理装置
で全文検索を効率よく行うことができ汎用性に富む、 (4) 全文検索のデータベースシステムに利用したとき、
その検索ファイルの作成にキーワード抽出を行う必要が
なく、機械入力された論文などの文字列から自動的に検
索ファイルを作成することができるため、データベース
システムを経済的にかつ効率よく構築することが可能で
ある、 (5) 欧文字のように字種の少ない文字からなる文字列
も、その文字列を構成する文字セット種グループで文字
セット位置情報を格納した検索ファイルを作成して検索
することにより、同じ文字列の出現頻度は少ないため各
文字セットの出現頻度を低く抑えることができ、出現頻
度の少ない文字セットでの検索照合を可能とするので高
速検索を可能とする優れた効果がある。
【図面の簡単な説明】
【図1】本発明一実施例に使用する情報検索処理装置の
構成例。
【図2】実施例の検索ファイル例。
【図3】実施例文字セット群一覧。
【図4】実施例文字セットグループアドレス表。
【図5】実施例の検索ファイル例。
【図6】実施例の検索ファイル作成処理手順を説明する
フローチャート。
【図7】実施例の検索処理手順を説明するフローチャー
ト。
【符号の説明】
1 CPU 2 メモリ 3 入出力部 4 キーボード 5 ディスプレイ 6 外部記憶装置制御部 7 外部記憶装置 8 共通バス

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 それぞれが文字列で構成され検索を行う
    単位である複数の検索単位によって構成される一連の文
    字列であって、この検索単位にはその論理区分にしたが
    って属性が定められている一連の文字列を検索対象とし
    て所定の検索入力文字列に合致する文字列を抽出する情
    報検索方式の検索ファイル作成装置において、 上記検索単位が現れるごとに検索単位ごとの昇順の符号
    を付与する検索単位識別符号付与手段と、 上記検索単位にその属性にしたがって定められている属
    性符号を付与する属性符号付与手段と、 検索対象となる文字列を各文字ごとにその文字と次に続
    く合計q文字(ただしqは2以上の自然数)からなる文
    字セットとし、この文字セットの属する検索単位中での
    文字セットの先頭文字位置を示す文字セット位置順序符
    号を付与する文字セット位置順序符号付与手段と、 上記検索単位識別符号と文字セット位置順序符号と属性
    符号とからなる文字セット位置情報を作成して、この文
    字セット位置情報を文字セット種ごとの領域に格納して
    検索ファイルを作成する手段とを備えた検索ファイル作
    成装置。
  2. 【請求項2】 文字セット位置情報は、 {(検索単位識別符号×n)+文字セット位置順序符号}×a+属性符号 n:最大検索単位文字数 a:最大属性数 なる数字として与えられる請求項1記載の検索ファイル
    作成装置。
  3. 【請求項3】 それぞれが文字列で構成され検索を行う
    単位である複数の検索単位によって構成される一連の文
    字列であって、この検索単位にはその論理区分にしたが
    った属性が定められている一連の文字列を検索対象とし
    て所定の検索入力文字列に合致する文字列を抽出する情
    報検索方式において、 検索対象となる一連の文字列について、文字列を構成す
    る文字ごとに、文字セット列からなり検索を行う単位で
    ある検索単位に昇順に付された検索単位識別符号と、検
    索単位中でのその文字セットの先頭文字位置を示す文字
    セット位置順序符号と、検索単位の論理区分を示す属性
    符号とからなる文字セット位置情報を文字セット種別ご
    とに格納した検索ファイルを備え、 検索入力文字列の構成文字を先頭文字からq文字単位の
    文字セットに分解した検索入力文字セット列を構成し、
    分解した文字セットと同じ文字セットの文字セット位置
    情報を上記検索ファイルから取り出す手段と、 この取り出した各文字セットの文字セット位置情報間
    で、検索単位識別符号が共通で文字セット位置順序符号
    の差が検索入力文字列の文字セットの先頭文字位置差に
    等しくかつその属性符号が検索入力と等しい文字セット
    位置情報の組み合わせを抽出する手段と、 この抽出された文字セット位置情報に基づいて検索入力
    と等しい文字セット列が属する検索単位および文字セッ
    ト構成各文字の検索単位における先頭文字からの位置を
    示す文字位置を検索結果として出力する手段とを備えた
    情報検索処理方式。
  4. 【請求項4】 検索入力文字セット列と等しい文字セッ
    ト位置情報の抽出は、検索入力の出現頻度の小さい文字
    セットから順に行う請求項3記載の情報検索処理方式。
  5. 【請求項5】 検索対象文字列が記号を含む欧文字列の
    場合は、少なくとも3文字記号単位の文字セットで記号
    を含む欧文字の文字セット種のみの検索ファイルを用い
    る請求項1ないし4のいずれかに記載の情報検索処理方
    式。
JP2417609A 1990-11-30 1990-12-12 情報検索処理方式および検索ファイル作成装置 Expired - Fee Related JPH07109603B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2417609A JPH07109603B2 (ja) 1990-12-12 1990-12-12 情報検索処理方式および検索ファイル作成装置
PCT/JP1991/000011 WO1992009960A1 (en) 1990-11-30 1991-01-10 Data retrieving device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2417609A JPH07109603B2 (ja) 1990-12-12 1990-12-12 情報検索処理方式および検索ファイル作成装置

Publications (2)

Publication Number Publication Date
JPH04215181A JPH04215181A (ja) 1992-08-05
JPH07109603B2 true JPH07109603B2 (ja) 1995-11-22

Family

ID=18525692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2417609A Expired - Fee Related JPH07109603B2 (ja) 1990-11-30 1990-12-12 情報検索処理方式および検索ファイル作成装置

Country Status (1)

Country Link
JP (1) JPH07109603B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3328334B2 (ja) * 1992-11-06 2002-09-24 富士通株式会社 全文データベース検索装置
JP3325677B2 (ja) * 1993-11-29 2002-09-17 株式会社リコー 文書検索装置
JP2669601B2 (ja) * 1994-11-22 1997-10-29 インターナショナル・ビジネス・マシーンズ・コーポレイション 情報検索方法及びシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
情報処理学会第39回(平成元年後期)全国大会講演論文集P.1073−1074

Also Published As

Publication number Publication date
JPH04215181A (ja) 1992-08-05

Similar Documents

Publication Publication Date Title
JP3160201B2 (ja) 情報検索方法、情報検索装置
US5590317A (en) Document information compression and retrieval system and document information registration and retrieval method
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
JPH08249354A (ja) 単語索引および単語索引作成装置および文書検索装置
CN1871605A (zh) 问答式文献检索系统和方法
JP2833580B2 (ja) 全文インデックス作成装置および全文データベース検索装置
JP2669601B2 (ja) 情報検索方法及びシステム
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
JPH0740275B2 (ja) キーワード重要度自動評価装置
JPH0628403A (ja) 文書検索装置
JP2001175661A (ja) 全文検索装置及び全文検索方法
JPH08314947A (ja) キーワード自動抽出装置
JP2519130B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JPH07109603B2 (ja) 情報検索処理方式および検索ファイル作成装置
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JPH056398A (ja) 文書登録装置及び文書検索装置
JP2002183195A (ja) 概念検索方式
WO1992009960A1 (en) Data retrieving device
JP2003288366A (ja) 類似テキスト検索装置
JPH09212523A (ja) 全文検索方法
JPH10177582A (ja) 最長一致検索方法及び装置
RU2386167C1 (ru) Устройство обработки информации для информационного поиска
KR20020003701A (ko) 디지털 문서의 키워드를 자동으로 추출하는 방법
JP3187671B2 (ja) 電子辞書表示装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071122

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081122

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091122

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091122

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 15

LAPS Cancellation because of no payment of annual fees