JP3151730B2 - データベース検索システム - Google Patents

データベース検索システム

Info

Publication number
JP3151730B2
JP3151730B2 JP12276691A JP12276691A JP3151730B2 JP 3151730 B2 JP3151730 B2 JP 3151730B2 JP 12276691 A JP12276691 A JP 12276691A JP 12276691 A JP12276691 A JP 12276691A JP 3151730 B2 JP3151730 B2 JP 3151730B2
Authority
JP
Japan
Prior art keywords
search
data
information
property
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP12276691A
Other languages
English (en)
Other versions
JPH04326164A (ja
Inventor
寛 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Nippon Steel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Steel Corp filed Critical Nippon Steel Corp
Priority to JP12276691A priority Critical patent/JP3151730B2/ja
Priority to EP92106939A priority patent/EP0510634B1/en
Priority to DE69229521T priority patent/DE69229521T2/de
Priority to US07/873,130 priority patent/US5450580A/en
Publication of JPH04326164A publication Critical patent/JPH04326164A/ja
Priority to US08/471,459 priority patent/US5546578A/en
Application granted granted Critical
Publication of JP3151730B2 publication Critical patent/JP3151730B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データベースから必要
な情報を取り出すための検索システムに関する。
【0002】
【従来の技術】現状のデータベース検索における検索空
間圧縮の手法としては、キーワード付加方式によるもの
が一般的である。また対象物件数が比較的小数のケース
では、全物件検索方式が実用化されている。例えば効率
的な全物件検索手法として、ボイヤ―モア法が考案され
ている。
【0003】
【発明が解決しようとする課題】このキーワード検索方
式は、以下のような欠点を有する。 (1)、物件一つ一つにキーワードを付加しなくてはな
らない。 (2)、任意のキーワードを付加して行くと、その個数
は膨大になるため、例えばシソーラスによる管理などを
必要とし、その維持に多大なコストがかかる。 (3)、付加されるキーワードが必ずしも適切なものと
は限らない。すなはち現状のデータベース検索方式で
は、特に物件数が膨大になった時に必要なコストに比し
てパーフォーマンスが伸びない傾向が現れる。 一方、全物件検索方式では、上記のような問題は発生し
ない。しかし直接検索方式では、物件数が膨大になった
とき、検索時間は対話的な時間の域を大幅に超過し、実
用にならないのが現状である。また全物件検索方式で
は、完全一致が条件であり、あいまい一致検索ができな
い欠点も有る。また上述のボイヤ―モア法による全物件
検索では、文書以外のデータ、例えば物理的な時系列デ
ータを扱うことができない問題がある。本発明は、この
問題に鑑がみ、全物件検索でありながら検索時間を飛躍
的に短縮することができ、またあいまい一致検索ができ
るデータベース検索方式を提供することを目的とする。
【0004】
【課題を解決するための手段】本発明のデータベース検
索システムは、検索キーに応じて検索対象の複数の物件
から情報を検索するためのデータベース検索システムに
おいて、上記検索対象の複数の物件のi番目のデータC
iと、Ciからjだけ離れたデータCi+jとに基づいて複
数の整数値を算出する算出手段と、自己相関情報として
上記複数の整数値の組み合わせを記憶する記憶手段とを
有する。
【0005】
【作用】全物件直接検索を行なう際に検索時間を増大さ
せる要因であるデータの位相情報(検索キーが物件中の
どこに存在するかと言う場所情報)を自己相関演算によ
り捨象してある。検索時間は検索キー情報の長さのみに
依存する。従って、検索時間がデータ量に依存しない高
速な検索が可能となる。また物件毎の検索キーの合致度
(含有確率)として検索結果が求まるので、合致度の降
順参照により、あいまい検索が可能となる。検索対象と
しては、文書データ、物理計測データ、信号波形デー
タ、画像データ、音響データなどを扱うことができる。
【0006】
【実施例】図1は、本発明の一実施例を示す自己相関記
憶型パターン検索システムのデータフロー図である。こ
の検索システムでは、予め全対象物件から事象(情報)
の位相情報を全て捨象した自己相関データを作成し、そ
のデータ群に対して全物件検索を行う。検索のアルゴリ
ズムは、学習ステップと検索ステップとからなる。学習
ステップでは、物件毎或いは検索キー毎に自己相関行列
が位相情報として作成される。図1では、検索対象10
から自己相関行列30を作成し、物件の自己相関行列の
場合は構造ファイル40に保存するまでのステップに該
当する。検索ステップでは、検索キーと物件の自己相関
行列とのマッチング演算が行われ、物件ごとにマッチン
グ度(類似度)を示す評価結果を得る。図1では、検索
キー50を元に検索S4にて構造ファイル40から物件
データを検索し、評価結果リスト70或いはソート済み
リスト80のように結果を出力するまでのステップに該
当する。以下、各ステップについて説明する。
【0007】(1)、学習ステップ 図1に於いて、検索対象10は、例えば日本語、英語、
ドイツ語、フランス語、ヘブライ語、ロシア語などの文
書データ、或いは量子化された波形数値データ、化学構
造式、遺伝子情報などである。このような検索対象に対
して、まず正規化手段S1により正規化の処理を行な
う。一般に検索対象は、情報の最小単位(文書であれば
アルファベットなどの文字、数値チャートであれば、あ
る時刻における実数値など)の列で表現されている。そ
れをなんらかの方法でn階調の整数列に変換する。これ
をデータの正規化と呼ぶ。
【0008】例えば、英文書データの場合、ASCII
コード表をそのまま用いることにより、次のような25
6階調の数値表現として実現される。 …… This is a pen. …… 84|104 |105 |115 |32 |105 |115 |32 |97|32|112 |101 |110 |46| 次に、正規化されたデータ20から、学習手段S2によ
り近傍特徴量が算出され、以下に説明する手順で近傍特
徴量行列30の形式に畳み込まれる。ここで、近傍特徴
量を抽出する演算式は種々考えられる。この演算式は検
索の鋭さ(過検出の少なさ)にも影響を与える。
【0009】式(1)は、自己相関式の一般形を示す。 (行,列)=(f(Ci),g(Ci,Ci+j))………………(1) ここで、f(),g()は、任意の整数値を算出する関
数である。すなわち、物件内のi番目のデータ(文字で
あれば正規化手段S1で正規化された整数値)をCi
し、物件内のi番目のデータに対してj離れたデータC
i+jをそれぞれf(),g()にCiを代入することによ
り整数値が得られる。このとき、Ciの変域と、
f(),g()の値域とを等しくする。上記英文書デー
タASCIIコード表の例では、Ciは256階調の数
値であるので、f(),g()の算出結果も256階調
の数値となる。つまり、式(1)は256×256の自
己相関行列となる。
【0010】例えば、式(1)において、 f:x→x g:(x,y)→y j=1,2 のように、演算式f()は入力された値xをそのまま算
出結果とし、演算式g()は入力された2つの値x,y
のうち、値yをそのまま算出結果とすると、Thisの
第1文字”T”については、f()は84、g()はj
=1のときは隣接した文字”h”の104、j=2のと
きは1つ置きの文字”i”の105であるので、(8
4,104)と(84,105)が算出されるので、自
己相関行列の座標(84,104)と(84,105)
にビットに1を立てる。この操作を各文字について行
い、物件の構造情報として図2に示すようなn(25
6)次の正方行列に畳込まれる。このようにして作成さ
れた自己相関行列に物件の識別番号を付加して構造ファ
イル40として保存する。
【0011】(2)、検索ステップ まず検索キー50を入力する。例えば、"This is a pe
n."を検索キーとする。この検索キー50に対して学習
ステップと同一の正規化方法に基づく正規化手段S3に
よりキー情報を整数列に正規化する。 84|104 |105 |115 |32|105 |115 |32|97|32|112 |101 |110 |46|
【0012】次に、検索手段S4において、学習ステッ
プと同一の自己相関計算式f(),g()を用いて検索
キーの自己相関情報を算出し、次の式(2)により各物
件の自己相関行列に対する検索キー情報の構造評価を行
う。 Score=ΣΣp(f(Ci),g(Ci,Ci+j))………………(2) (ここで評価関数pは、 p:(x,y)→1:行列の(x,y)が非零(=1) 0: 〃 零 ) 即ち、検索キーの1文字(i=1)に着目した隣接(j=1)及び
一つおき(j=2)の自己相関に対応する各物件の行列要素
が1であるとき、1を累算し、これを検索キーのi個の
文字について繰返す。この式(2)は、AND,OR、
加算などの論理演算で非常に高速に実行できる。
【0013】次に、評価結果出力手段S5において、物
件毎に得られた構造評価値score (合致度)を完全一致
の場合の評価値(この場合は、検索キー情報の文字数の
2倍)で割って、検索キーの含有確率を求め、評価結果
のリスト70を得る。更にソート手段S6において、こ
のリスト70を含有確率の降順にソートしソート済みリ
スト80を得る。
【0014】このソート済みリスト80が検索結果であ
り、その上位物件を参照することにより、検索キーが物
件中に含まれている確率が高い物件名を知ることができ
る。含有確率は、完全一致及び不完全一致の全てについ
て求まるから、あいまい一致検索を行なうことができ
る。
【0015】またある物件中に検索キーが完全一致で存
在するならば、式2のp() は、すべてのi 、j について
1になる。即ち、検索キーの全情報についての全物件探
索であるから、検索もれが発生する確率は、本質的に零
であると言う特徴がある。
【0016】また、1つの物件に対する検索キーの評価
時間は、キーの文字数のみに依存し、物件の大きさには
依存しない。従って、非常に高速に検索を行なうことが
できる。
【0017】また、検索結果のリストどうしの論理演算
を行うことにより、検索条件に対するAND,ORなど
の検索演算処理も高速に実行できる。式(1)の自己相
関式は上述の例の他に種々考えることができる。例え
ば、 f:x→x g: (x,y)→x-y (または|x-y|) のように、演算式f()は入力された値をそのまま自己相
関情報とし、演算式g()は入力された2つの値の差、あ
るいは差の絶対値を自己相関情報とする例が考えられ
る。また、幾つかの文字列の個々の文字整数値に対し四
則演算を施すことにより自己相関情報を取り出してもよ
い。
【0018】自己相関情報は、各物件の全データを対象
とし取り出さなくてもよい。例えば、物件データ中の特
定の一つまたは一つ以上の整数値、特定の範囲の整数
値、或いはデータ列を構成する各バイト中の特定の1つ
または一つ以上のビットを除外して自己相関情報を捨象
してもよい。また日本語文書のように2バイト文字で構
成されている場合には、例えば上位バイトを除外して下
位バイトを対象として自己相関情報を取り出してもよ
い。
【0019】上述の例では、自己相関によって生成され
る行列は、256次のビット行列であり、これは8K バ
イトに相当する。従って、1物件のデータが1K バイト
程度であるデータベースでは、効率のよいシステムであ
るとは言えない。そこでデータ圧縮手段S7を設けてデ
ータ圧縮を行なって構造ファイル40の容量を減らすの
がよい。
【0020】図3にデータ圧縮法の一例を示す。この例
では、256次の自己相関行列の各要素毎に要素値が1
である物件名40a(識別コード)を1バイト/件のデ
ータ列として蓄積する。従って、要素値が0である物件
名は不要データとして除外する。
【0021】物件数が255個以上ある場合には、物件
名40aは1バイトで表せないので、下位の1バイトの
みを蓄積する。例えば、物件数が1万件の場合、物件名
は2バイトで表されるが、そのうちの下位1バイトを使
用する。そして物件名コードが255を越える毎にデー
タ列にマーカ40bを挿入する。
【0022】検索時には、検索キーの自己相関情報の各
々に該当する構造ファイルのデータ列を取り出し、物件
名毎の出現度数テーブルを作成する。この際、マーカ4
0bを越える毎に物件名コードに255を加える。この
ようにして作成した出現度数テーブルに基づいて図1の
評価結果リスト70が得られる。
【0023】なお物件名コードのデータ列が例えば全物
件中の半分以上ある場合には、その自己相関行列要素は
各物件について共通であると見なして、その要素を削除
してもよい。
【0024】上述の実施例において,正規化手段S1、
学習手段S2、正規化手段S3、検索手段S4、評価結
果出力手段S5、ソート手段S6、データ圧縮手段S7
は、コンピュータプログラムによって構成することがで
きるが、論理回路素子を用いて専用のハードウエアを構
成してもよい。
【0025】
【発明の効果】本発明のデータベース検索システムは、
検索対象の物件毎にその自己相関情報を記憶し、検索キ
ーの自己相関情報と検索対象の上記自己相関情報との合
致度を物件毎に求め、物件番号を合致度の降順に出力す
る構成である。従って、本発明によると、全物件直接検
索を行なう際に検索時間を増大させる要因であるデータ
の位相情報(検索キーが物件中のどこに存在するかと言
う場所情報)を自己相関演算により捨象してあるから、
索時間は検索キー情報の長さのみに依存する。従って、
検索時間がデータ量に依存しない高速な検索が可能とな
る。また物件毎の検索キーの合致度(含有確率)として
検索結果が求まるので、合致度の降順参照により、あい
まい検索が可能となる。
【図面の簡単な説明】
【図1】本発明の一実施例のデータベース検索システム
のデータフロー図である。
【図2】自己相関行列の一例を示す図である。
【図3】圧縮された自己相関情報のデータ構成図であ
る。
【符号の説明】
10 検索対象 20 正規化データ 30 自己相関行列 40 構造ファイル 50 検索キー 60 正規化キー 70 評価結果リスト 80 ソート済みリスト S1 正規化手段 S2 学習手段 S3 正規化手段 S4 検索手段 S5 評価結果出力手段 S6 ソート手段 S7 データ圧縮手段
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−64987(JP,A) 特開 平1−255925(JP,A) 特開 昭60−241173(JP,A) 特開 平2−101586(JP,A) 特開 平2−101591(JP,A) 特開 平5−181913(JP,A) 特開 平5−174067(JP,A) Roy E.Kimbrell,”S earching for Text? Send an N−Gram!”, BYTE 1988 MAY,pp.297− 312 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 350 G06F 17/30 210

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】 検索キーに応じて検索対象の複数の物件
    から情報を検索するためのデータベース検索システムに
    おいて、 上記検索対象の複数の物件のi番目のデータCiと、Ci
    からjだけ離れたデータCi+jとに基づいて複数の整数
    値を算出する算出手段と、 自己相関情報として上記複数の整数値の組み合わせを記
    憶する記憶手段とを有することを特徴とするデータベー
    ス検索システム。
  2. 【請求項2】 検索キーに応じて検索対象の複数の物件
    から情報を検索するためのデータベース検索システムに
    おいて、 上記検索対象の複数の物件のi番目のデータCiと、Ci
    からjだけ離れたデータCi+jとに基づいて複数の整数
    値組を算出する算出手段と、 各整数値組を自己相関行列の座標値とした座標に要素値
    を与えたものを自己相関情報として記憶する記憶手段と
    を有することを特徴とするデータベース検索システム。
  3. 【請求項3】 上記算出手段で上記検索キーについて複
    数の整数値を算出し、上記検索対象の上記自己相関情報
    との合致度を求める検索手段を有することを特徴とする
    請求項1又は2に記載のデータベース検索システム。
  4. 【請求項4】 上記物件毎の合致度を上記検索キーの上
    記自己相関情報の完全一致度数で割った値を上記物件毎
    の検索キーの含有値として算出する含有率算出手段を更
    に有することを特徴とする請求項3に記載のデータベー
    ス検索システム。
  5. 【請求項5】 上記検索手段は、上記検索キーに対する
    上記物件の合致度の降順に出力することを特徴とする請
    求項3に記載のデータベース検索システム。
  6. 【請求項6】 上記データCi、Ci+jがそれぞれ複数存
    在することを特徴とする請求項1〜3のいずれか1項に
    記載のデータベース検索システム。
  7. 【請求項7】 上記検索対象の上記自己相関情報を圧縮
    するデータ圧縮手段を具備することを特徴とする請求項
    1〜3のいずれか1項に記載のデータベース検索システ
    ム。
  8. 【請求項8】 上記自己相関情報は、各物件中のデータ
    の特定の一部のみを用いて生成された値であることを特
    徴とする請求項1〜7のいずれか1項に記載のデータベ
    ース検索システム。
  9. 【請求項9】 上記自己相関情報は、2バイト以上で構
    成されたデータのうち少なくとも1バイトを用いて生成
    された値であることを特徴とする請求項8に記載のデー
    タベース検索システム。
JP12276691A 1991-04-25 1991-04-25 データベース検索システム Expired - Lifetime JP3151730B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP12276691A JP3151730B2 (ja) 1991-04-25 1991-04-25 データベース検索システム
EP92106939A EP0510634B1 (en) 1991-04-25 1992-04-23 Data base retrieval system
DE69229521T DE69229521T2 (de) 1991-04-25 1992-04-23 Datenbankauffindungssystem
US07/873,130 US5450580A (en) 1991-04-25 1992-04-24 Data base retrieval system utilizing stored vicinity feature valves
US08/471,459 US5546578A (en) 1991-04-25 1995-06-06 Data base retrieval system utilizing stored vicinity feature values

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12276691A JP3151730B2 (ja) 1991-04-25 1991-04-25 データベース検索システム

Publications (2)

Publication Number Publication Date
JPH04326164A JPH04326164A (ja) 1992-11-16
JP3151730B2 true JP3151730B2 (ja) 2001-04-03

Family

ID=14844088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12276691A Expired - Lifetime JP3151730B2 (ja) 1991-04-25 1991-04-25 データベース検索システム

Country Status (1)

Country Link
JP (1) JP3151730B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3545007B2 (ja) * 1993-03-17 2004-07-21 新日鉄ソリューションズ株式会社 データベース検索システム
JP3315755B2 (ja) * 1993-04-13 2002-08-19 新日鉄ソリューションズ株式会社 階層化文書の文字列検索装置
JPH07129622A (ja) * 1993-11-01 1995-05-19 Nippon Steel Corp 文書検索装置
JPH07146872A (ja) * 1993-11-22 1995-06-06 Nippon Steel Corp 文書検索装置
KR20020023737A (ko) * 2001-12-14 2002-03-29 최범기 퍼지 관계 방법을 이용한 검색 방법 및 장치
KR100490442B1 (ko) * 2002-03-16 2005-05-17 삼성에스디에스 주식회사 벡터문서모델을 이용한 동일/유사제품 클러스트링 장치 및그 방법
KR20030082109A (ko) * 2002-04-16 2003-10-22 (주)메타웨이브 앤드 연산자를 이용한 색인어 검색 및 정보 제공 시스템및 방법
KR20030082110A (ko) * 2002-04-16 2003-10-22 (주)메타웨이브 앤드 연산자 및 문서 내 연관성을 이용한 색인어 검색 및정보 제공 시스템 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Roy E.Kimbrell,"Searching for Text? Send an N−Gram!",BYTE 1988 MAY,pp.297−312

Also Published As

Publication number Publication date
JPH04326164A (ja) 1992-11-16

Similar Documents

Publication Publication Date Title
EP0510634B1 (en) Data base retrieval system
CN102142038B (zh) 用于记号空间资料库的多级查询处理系统与方法
JP3041268B2 (ja) 中国語誤り検査(cec)システム
Robertson et al. Applications of n‐grams in textual information systems
US6377945B1 (en) Search system and method for retrieval of data, and the use thereof in a search engine
US6826567B2 (en) Registration method and search method for structured documents
JP3849279B2 (ja) インデクス作成方法および検索方法
US6523030B1 (en) Sort system for merging database entries
JP2742115B2 (ja) 類似文書検索装置
JP2833580B2 (ja) 全文インデックス作成装置および全文データベース検索装置
JP3258063B2 (ja) データベース検索システム及び方法
JP3151730B2 (ja) データベース検索システム
JP3545007B2 (ja) データベース検索システム
JP3259781B2 (ja) データベース検索システムおよびデータベース検索方法
JPH064584A (ja) 文章検索装置
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
JP3288063B2 (ja) 可変長データの格納および参照システム
JP2993539B2 (ja) データベース検索システムおよびその方法
JP2993540B2 (ja) 昇順整数列データの圧縮および復号システム
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JP2519130B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
EP1076305A1 (en) A phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element
JP3344755B2 (ja) 昇順整数列データの圧縮および復号システム
JP3019286B2 (ja) 文書検索装置
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20001128

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080126

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090126

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090126

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100126

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110126

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120126

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120126

Year of fee payment: 11