JPH04326164A - データベース検索システム - Google Patents

データベース検索システム

Info

Publication number
JPH04326164A
JPH04326164A JP3122766A JP12276691A JPH04326164A JP H04326164 A JPH04326164 A JP H04326164A JP 3122766 A JP3122766 A JP 3122766A JP 12276691 A JP12276691 A JP 12276691A JP H04326164 A JPH04326164 A JP H04326164A
Authority
JP
Japan
Prior art keywords
data
property
search
information
search system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3122766A
Other languages
English (en)
Other versions
JP3151730B2 (ja
Inventor
Hiroshi Takada
寛 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Nippon Steel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Steel Corp filed Critical Nippon Steel Corp
Priority to JP12276691A priority Critical patent/JP3151730B2/ja
Priority to DE69229521T priority patent/DE69229521T2/de
Priority to EP92106939A priority patent/EP0510634B1/en
Priority to US07/873,130 priority patent/US5450580A/en
Publication of JPH04326164A publication Critical patent/JPH04326164A/ja
Priority to US08/471,459 priority patent/US5546578A/en
Application granted granted Critical
Publication of JP3151730B2 publication Critical patent/JP3151730B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データベースから必要
な情報を取り出すための検索システムに関する。
【0002】
【従来の技術】現状のデータベース検索における検索空
間圧縮の手法としては、キーワード付加方式によるもの
が一般的である。また対象物件数が比較的小数のケース
では、全物件検索方式が実用化されている。例えば効率
的な全物件検索手法として、ボイヤ―モア法が考案され
ている。
【0003】
【発明が解決しようとする課題】このキーワード検索方
式は、以下のような欠点を有する。 (1)、物件一つ一つにキーワードを付加しなくてはな
らない。 (2)、任意のキーワードを付加して行くと、その個数
は膨大になるため、例えばシソーラスによる管理などを
必要とし、その維持に多大なコストがかかる。 (3)、付加されるキーワードが必ずしも適切なものと
は限らない。すなはち現状のデータベース検索方式では
、特に物件数が膨大になった時に必要なコストに比して
パーフォーマンスが伸びない傾向が現れる。 一方、全物件検索方式では、上記のような問題は発生し
ない。しかし直接検索方式では、物件数が膨大になった
とき、検索時間は対話的な時間の域を大幅に超過し、実
用にならないのが現状である。また全物件検索方式では
、完全一致が条件であり、あいまい一致検索ができない
欠点も有る。また上述のボイヤ―モア法による全物件検
索では、文書以外のデータ、例えば物理的な時系列デー
タを扱うことができない問題がある。本発明は、この問
題に鑑がみ、全物件検索でありながら検索時間を飛躍的
に短縮することができ、またあいまい一致検索ができる
データベース検索方式を提供することを目的とする。
【0004】
【課題を解決するための手段】本発明のデータベース検
索システムは、検索対象の物件毎にその自己相関情報を
記憶した記憶手段と、検索キーの自己相関情報と検索対
象の上記自己相関情報との合致度を物件毎に求め、物件
番号を合致度の降順に出力する検索手段とを具備する。
【0005】
【作用】全物件直接検索を行なう際に検索時間を増大さ
せる要因であるデータの位相情報(検索キーが物件中の
どこに存在するかと言う場所情報)を自己相関演算によ
り捨象してある。検索時間は検索キー情報の長さのみに
依存する。従って、検索時間がデータ量に依存しない高
速な検索が可能となる。また物件毎の検索キーの合致度
(含有確率)として検索結果が求まるので、合致度の降
順参照により、あいまい検索が可能となる。検索対象と
しては、文書データ、物理計測データ、信号波形データ
、画像データ、音響データなどを扱うことができる。
【0006】
【実施例】図1は、本発明の一実施例を示す自己相関記
憶型パターン検索システムのデータフロー図である。こ
の検索システムでは、予め全対象物件から事象(情報)
の位相情報を全て捨象した自己相関データを作成し、そ
のデータ群に対して全物件検索を行なう。検索のアルゴ
リズムは、学習ステップと検索ステップとからなる。学
習ステップでは、物件毎に自己相関行列が位相情報とし
て作成される。検索ステップでは、検索キーと自己相関
行列とのマッチング演算が行なわれ、物件ごとにマッチ
ング度(類似度)を示す評価結果を得る。以下、各ステ
ップについて説明する。
【0007】(1)、学習ステップ 図1に於いて、検索対象10は、例えば日本語、英語、
ドイツ語、フランス語、ヘブライ語、ロシア語などの文
書データ、或いは量子化された波形数値データ、化学構
造式、遺伝子情報などである。このような検索対象に対
して、まず正規化手段S1により正規化の処理を行なう
。一般に検索対象は、情報の最小単位(文書であればア
ルファベットなどの文字、数値チャートであれば、ある
時刻における実数値など)の列で表現されている。それ
をなんらかの方法でn階調の整数列に変換する。これを
データの正規化と呼ぶ。
【0008】例えば、英文書データの場合、ASCII
コード表をそのまま用いることにより、次のような25
6階調の数値表現として実現される。             ……  This is a
 pen.  ……84|104 |105 |115
 |32|105 |115 |32|97|32|1
12 |101 |110 |46|正規化されたデー
タ20は、次に学習手段S2により自己相関行列30の
形式に畳込まれる。ここで自己相関をとる演算式は種々
考えられる。この演算式は検索の鋭さ(過検出の少なさ
)にも影響を与える。
【0009】式(1)は、自己相関式の一般形を示す。       (行, 列) =( f( c i ),
g( c i , c i+j ))   .....
............ (1) (ここでf(),
g() は任意の整数値関数。ただし、c iの変域と
、f(), g()の値域とは等しい)つまり物件内の
i番目の整数値をci とすると、式(1)の行列の要
素値を1とする計算をjについて繰返し、これを全ての
iについて行なう。これによって各物件の構造情報は図
2に示すようなn次の正方行列に畳み込まれる。この場
合、各行列要素は2値しか持たないので、現実にはn次
のビット行列で十分である。上述の256階調の数値表
現の英文書データの場合、自己相関行列は256X25
6 である。
【0010】次に上述の英文書データの例について、次
のような計算方法を例示する。式(1)において、f:
 x→x g: (x,y)→y j =1,2 とすると、例えばThisの第一文字T につてはT 
→ h,    T  → i の隣接(j=1)及び一つ置き(j=2) の相関を夫
々2値で畳み込み、 (行、列)=(84,104),(84,105)の要
素に対応するビットに1を立てる。この操作を各文字に
ついて行う。なお上記の例の物件の終了点では、1文字
近傍の情報だけを畳み込む(n →.)。この様にして
作成された自己相関行列に物件の識別番号を付加して構
造ファイル40として保存する。
【0011】(2)、検索ステップ まず検索キー50を入力する。例えば、”This i
s a pen.”を検索キーとする。この検索キー5
0に対して学習ステップと同一の正規化方法に基づく正
規化手段S3によりキー情報を整数列に正規化する。 84|104 |105 |115 |32|105 
|115 |32|97|32|112 |101 |
110 |46|
【0012】次に、検索手段S4にお
いて、学習ステップと同一の自己相関計算式f() 、
g() を用いて各物件に対応する自己相関行列に対し
次の式(2)により検索キーを作用させ、検索キー情報
の構造評価を行なう。       score =ΣΣp(f(c i ) 
,g(ci , c i+j ))   ......
........(2) (ここで評価関数p は、 p:(x,y) →1:行列の(x,y)が非零(=1
)0:      〃      零        
)即ち、検索キーの1文字(i=1) に着目した隣接
(j=1) 及び一つおき(j=2) の自己相関に対
応する各物件の行列要素が1であるとき、1を累算し、
これを検索キーのi個の文字について繰返す。この式(
2)は、AND,OR、加算などの論理演算で非常に高
速に実行できる。
【0013】次に、評価結果出力手段S5において、物
件毎に得られた構造評価値score (合致度)を完
全一致の場合の評価値(この場合は、検索キー情報の文
字数の2倍)で割って、検索キーの含有確率を求め、評
価結果のリスト70を得る。更にソート手段S6におい
て、このリスト70を含有確率の降順にソートしソート
済みリスト80を得る。
【0014】このソート済みリスト80が検索結果であ
り、その上位物件を参照することにより、検索キーが物
件中に含まれている確率が高い物件名を知ることができ
る。含有確率は、完全一致及び不完全一致の全てについ
て求まるから、あいまい一致検索を行なうことができる
【0015】またある物件中に検索キーが完全一致で存
在するならば、式2のp() は、すべてのi 、j 
について1になる。即ち、検索キーの全情報についての
全物件探索であるから、検索もれが発生する確率は、本
質的に零であると言う特徴がある。
【0016】また、1つの物件に対する検索キーの評価
時間は、キーの文字数のみに依存し、物件の大きさには
依存しない。従って、非常に高速に検索を行なうことが
できる。
【0017】また検索結果のリストどうしの論理演算を
行うことにより、検索条件に対するAND、ORなどの
検索演算処理も高速に実行できる。式(1)の自己相関
式は上述の例の他に種々考えることができる。例えば、
f: x→x g: (x,y)→x−y (または|x−y |)と
すれば、隣接文字及び一つ置きの文字の差分(または差
分の絶対値)を相関情報として自己相関行列を作ること
ができる。また幾つかの文字列の個々の文字整数値に対
し四則演算を施すことにより自己相関情報を取り出して
もよい。
【0018】自己相関情報は、各物件の全データを対象
とし取り出さなくてもよい。例えば、物件データ中の特
定の一つまたは一つ以上の整数値、特定の範囲の整数値
、或いはデータ列を構成する各バイト中の特定の1つま
たは一つ以上のビットを除外して自己相関情報を捨象し
てもよい。また日本語文書のように2バイト文字で構成
されている場合には、例えば上位バイトを除外して下位
バイトを対象として自己相関情報を取り出してもよい。
【0019】上述の例では、自己相関によって生成され
る行列は、256次のビット行列であり、これは8K 
バイトに相当する。従って、1物件のデータが1K バ
イト程度であるデータベースでは、効率のよいシステム
であるとは言えない。そこでデータ圧縮手段S7を設け
てデータ圧縮を行なって構造ファイル40の容量を減ら
すのがよい。
【0020】図3にデータ圧縮法の一例を示す。この例
では、256次の自己相関行列の各要素毎に要素値が1
である物件名40a(識別コード)を1バイト/件のデ
ータ列として蓄積する。従って、要素値が0である物件
名は不要データとして除外する。
【0021】物件数が255個以上ある場合には、物件
名40aは1バイトで表せないので、下位の1バイトの
みを蓄積する。例えば、物件数が1万件の場合、物件名
は2バイトで表されるが、そのうちの下位1バイトを使
用する。そして物件名コードが255を越える毎にデー
タ列にマーカ40bを挿入する。
【0022】検索時には、検索キーの自己相関情報の各
々に該当する構造ファイルのデータ列を取り出し、物件
名毎の出現度数テーブルを作成する。この際、マーカ4
0bを越える毎に物件名コードに255を加える。この
ようにして作成した出現度数テーブルに基づいて図1の
評価結果リスト70が得られる。
【0023】なお物件名コードのデータ列が例えば全物
件中の半分以上ある場合には、その自己相関行列要素は
各物件について共通であると見なして、その要素を削除
してもよい。
【0024】上述の実施例において,正規化手段S1、
学習手段S2、正規化手段S3、検索手段S4、評価結
果出力手段S5、ソート手段S6、データ圧縮手段S7
は、コンピュータプログラムによって構成することがで
きるが、論理回路素子を用いて専用のハードウエアを構
成してもよい。
【0025】
【発明の効果】本発明のデータベース検索システムは、
検索対象の物件毎にその自己相関情報を記憶し、検索キ
ーの自己相関情報と検索対象の上記自己相関情報との合
致度を物件毎に求め、物件番号を合致度の降順に出力す
る構成である。従って、本発明によると、全物件直接検
索を行なう際に検索時間を増大させる要因であるデータ
の位相情報(検索キーが物件中のどこに存在するかと言
う場所情報)を自己相関演算により捨象してあるから、
索時間は検索キー情報の長さのみに依存する。従って、
検索時間がデータ量に依存しない高速な検索が可能とな
る。また物件毎の検索キーの合致度(含有確率)として
検索結果が求まるので、合致度の降順参照により、あい
まい検索が可能となる。
【図面の簡単な説明】
【図1】本発明の一実施例のデータベース検索システム
のデータフロー図である。
【図2】自己相関行列の一例を示す図である。
【図3】圧縮された自己相関情報のデータ構成図である
【符号の説明】
10  検索対象 20  正規化データ 30  自己相関行列 40  構造ファイル 50  検索キー 60  正規化キー 70  評価結果リスト 80  ソート済みリスト S1  正規化手段 S2  学習手段 S3  正規化手段 S4  検索手段 S5  評価結果出力手段 S6  ソート手段 S7  データ圧縮手段

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】  検索対象の物件毎にその自己相関情報
    を記憶した記憶手段と、検索キーの自己相関情報と検索
    対象の上記自己相関情報との合致度を物件毎に求め、物
    件番号を合致度の降順に出力する検索手段とを具備する
    データベース検索システム。
  2. 【請求項2】  上記物件毎の合致度数を上記検索キー
    の自己相関情報の完全一致度数で割った値を、物件毎の
    検索キーの含有確率リストとして確率の降順に出力する
    上記検索手段を具備することを特徴とする請求項1のデ
    ータベース検索システム。
  3. 【請求項3】  上記自己相関情報が、検索対象のデー
    タ列に沿った畳み込み演算によって元情報から抽出され
    でいることを特徴とする請求項1のデータベース検索シ
    ステム。
  4. 【請求項4】上記検索対象の自己相関情報と、検索キー
    の自己相関情報との生成アルゴリズムが同一であること
    を特徴とする請求項1のデータベース検索システム。
  5. 【請求項5】  検索対象のデータ列のi番目ci と
    その近傍のデータci+j (j=1,2......
    .) について、整数関数値f(ci ),g(ci 
    ,c i+j )を与え、各関数値を行列の要素番号と
    して、2値(1、0)の一方の要素値(=1)をその要
    素番号に与え、全てのiについて生成したビット行列を
    上記自己相関情報とすることを特徴とする請求項1のデ
    ータベース検索システム。
  6. 【請求項6】  上記整数関数がf(x)=x,g(x
    ,y)=yであることを特徴とする請求項5のデータベ
    ース検索システム。
  7. 【請求項7】  上記検索キーのデータ列のi番目ci
     とその近傍のデータci+j (j=1,2....
    ...) について、上記の整数関数値f(ci ),
    g(ci ,c i+j )を与え、各関数値を行列の
    要素番号として、上記ビット行列の対応要素番号の要素
    値を調べ、要素値が1の場合に合致度数として+1を計
    数し、全てのiについての合致度数を物件毎に求めるこ
    とを特徴とする請求項5のデータベース検索システム。
  8. 【請求項8】  検索対象及び検索キーの各データ列を
    、個々のデータがn階調である整数データ列に変換する
    正規化手段を具備することを特徴とする請求項1のデー
    タベース検索システム。
  9. 【請求項9】  上記検索対象の自己相関情報を圧縮す
    るデータ圧縮手段を具備することを特徴とする請求項1
    のデータベース検索システム。
  10. 【請求項10】  上記検索対象の自己相関情報を圧縮
    するデータ圧縮手段を具備し、上記データ圧縮手段が、
    上記行列の要素番号毎に要素値が1の物件番号列を生成
    することを特徴とする請求項5のデータベース検索シス
    テム。
JP12276691A 1991-04-25 1991-04-25 データベース検索システム Expired - Lifetime JP3151730B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP12276691A JP3151730B2 (ja) 1991-04-25 1991-04-25 データベース検索システム
DE69229521T DE69229521T2 (de) 1991-04-25 1992-04-23 Datenbankauffindungssystem
EP92106939A EP0510634B1 (en) 1991-04-25 1992-04-23 Data base retrieval system
US07/873,130 US5450580A (en) 1991-04-25 1992-04-24 Data base retrieval system utilizing stored vicinity feature valves
US08/471,459 US5546578A (en) 1991-04-25 1995-06-06 Data base retrieval system utilizing stored vicinity feature values

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12276691A JP3151730B2 (ja) 1991-04-25 1991-04-25 データベース検索システム

Publications (2)

Publication Number Publication Date
JPH04326164A true JPH04326164A (ja) 1992-11-16
JP3151730B2 JP3151730B2 (ja) 2001-04-03

Family

ID=14844088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12276691A Expired - Lifetime JP3151730B2 (ja) 1991-04-25 1991-04-25 データベース検索システム

Country Status (1)

Country Link
JP (1) JP3151730B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274193A (ja) * 1993-03-17 1994-09-30 Nippon Steel Corp データベース検索システム
JPH06301725A (ja) * 1993-04-13 1994-10-28 Nippon Steel Corp 階層化文書の文字列検索装置
JPH07129622A (ja) * 1993-11-01 1995-05-19 Nippon Steel Corp 文書検索装置
JPH07146872A (ja) * 1993-11-22 1995-06-06 Nippon Steel Corp 文書検索装置
KR20020023737A (ko) * 2001-12-14 2002-03-29 최범기 퍼지 관계 방법을 이용한 검색 방법 및 장치
KR20030082110A (ko) * 2002-04-16 2003-10-22 (주)메타웨이브 앤드 연산자 및 문서 내 연관성을 이용한 색인어 검색 및정보 제공 시스템 및 방법
KR20030082109A (ko) * 2002-04-16 2003-10-22 (주)메타웨이브 앤드 연산자를 이용한 색인어 검색 및 정보 제공 시스템및 방법
KR100490442B1 (ko) * 2002-03-16 2005-05-17 삼성에스디에스 주식회사 벡터문서모델을 이용한 동일/유사제품 클러스트링 장치 및그 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06274193A (ja) * 1993-03-17 1994-09-30 Nippon Steel Corp データベース検索システム
JPH06301725A (ja) * 1993-04-13 1994-10-28 Nippon Steel Corp 階層化文書の文字列検索装置
JPH07129622A (ja) * 1993-11-01 1995-05-19 Nippon Steel Corp 文書検索装置
JPH07146872A (ja) * 1993-11-22 1995-06-06 Nippon Steel Corp 文書検索装置
KR20020023737A (ko) * 2001-12-14 2002-03-29 최범기 퍼지 관계 방법을 이용한 검색 방법 및 장치
KR100490442B1 (ko) * 2002-03-16 2005-05-17 삼성에스디에스 주식회사 벡터문서모델을 이용한 동일/유사제품 클러스트링 장치 및그 방법
KR20030082110A (ko) * 2002-04-16 2003-10-22 (주)메타웨이브 앤드 연산자 및 문서 내 연관성을 이용한 색인어 검색 및정보 제공 시스템 및 방법
KR20030082109A (ko) * 2002-04-16 2003-10-22 (주)메타웨이브 앤드 연산자를 이용한 색인어 검색 및 정보 제공 시스템및 방법

Also Published As

Publication number Publication date
JP3151730B2 (ja) 2001-04-03

Similar Documents

Publication Publication Date Title
EP0510634B1 (en) Data base retrieval system
CN102142038B (zh) 用于记号空间资料库的多级查询处理系统与方法
Robertson et al. Applications of n‐grams in textual information systems
JP2742115B2 (ja) 類似文書検索装置
US20080319987A1 (en) System, method and program for creating index for database
JP2833580B2 (ja) 全文インデックス作成装置および全文データベース検索装置
JP3258063B2 (ja) データベース検索システム及び方法
JPH08147320A (ja) 情報検索方法及びシステム
JP3151730B2 (ja) データベース検索システム
JP3545007B2 (ja) データベース検索システム
US20030126138A1 (en) Computer-implemented column mapping system and method
CN105426490A (zh) 一种基于树形结构的索引方法
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JP2519130B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JP3259781B2 (ja) データベース検索システムおよびデータベース検索方法
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JP2993540B2 (ja) 昇順整数列データの圧縮および復号システム
JP2993539B2 (ja) データベース検索システムおよびその方法
JP2001022766A (ja) 多次元データベースの高速処理方法および装置
JP3288063B2 (ja) 可変長データの格納および参照システム
JPH10177582A (ja) 最長一致検索方法及び装置
WO1992009960A1 (en) Data retrieving device
JP3344755B2 (ja) 昇順整数列データの圧縮および復号システム
JPH0748218B2 (ja) 情報処理装置
JPH0973464A (ja) 類似事例検索装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20001128

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080126

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090126

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090126

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100126

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110126

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120126

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120126

Year of fee payment: 11