JPH05174067A - データベース検索システム - Google Patents
データベース検索システムInfo
- Publication number
- JPH05174067A JPH05174067A JP3356348A JP35634891A JPH05174067A JP H05174067 A JPH05174067 A JP H05174067A JP 3356348 A JP3356348 A JP 3356348A JP 35634891 A JP35634891 A JP 35634891A JP H05174067 A JPH05174067 A JP H05174067A
- Authority
- JP
- Japan
- Prior art keywords
- search
- property
- data
- retrieval
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
を可能とし、またあいまい検索を可能とする。 【構成】 データベース検索システムにおいて、検索対
象の物件毎にその自己相関情報を記憶した記憶手段40
と、検索キーの自己相関情報と検索対象の上記自己相関
情報との合致度を物件毎に求め、物件番号を合致度の降
順に出力する検索手段S4とを設ける。全物件直接検索
を行なう際に検索時間を増大させる要因であるデータの
位相情報(検索キーが物件中のどこに存在するかと言う
場所情報)を自己相関演算により捨象してあるから、検
索時間は検索キー情報の長さのみに依存し、検索時間が
データ量に依存しない高速な検索が可能となる。
Description
な情報を取り出すためのデータベース検索システムに関
する。
間圧縮の手法としては、キーワード付加方式によるもの
が一般的である。また対象物件数が比較的少数のケース
では、全物件検索方式が実用化されている。例えば効率
的な全物件検索手法として、ボイヤ―モア法が考案され
ている。さらに、検索対象からキーワードを自動抽出
し、索引を生成するインデックス方式もある。
方式は、以下のような欠点を有する。 (1)、物件一つ一つにキーワードを付加しなくてはな
らない。 (2)、任意のキーワードを付加して行くと、その個数
は膨大になるため、例えばシソーラスによる管理などを
必要とし、その維持に多大なコストがかかる。 (3)、付加されるキーワードが必ずしも適切なものと
は限らないため、検索もれが発生する。すなわち現状の
データベース検索方式では、特に物件数が膨大になった
時に必要なコストに比してパーフォーマンスが伸びない
傾向が現れる。
問題は発生しない。しかし直接検索方式では、物件数が
膨大になったとき、検索時間は対話的な時間の域を大幅
に超過し、実用にならないのが現状である。また全物件
検索方式では、完全一致が条件であり、あいまい一致検
索ができない欠点も有る。また上述のボイヤ―モア法に
よる全物件検索では、文書以外のデータ、例えば物理的
な時系列データを扱うことができない問題がある。
単位が単語であるため、英語文書のように単語が分割さ
れているものには適しているが、何らかの文法解析を要
する。また、日本語文書などのように単語が分割されて
書かれていないものには不向きである。さらに、単語の
表記上のバリエーションに対しては、考えられるすべて
の組を辞書化せざるを得ないため、システムの負荷が大
きい。
件検索でありながら検索時間を飛躍的に短縮することが
でき、またあいまい一致検索ができるデータベース検索
方式を提供することを目的とする。
索システムは、検索対象の物件毎にその近傍特徴量を記
憶した記憶手段と、検索キーの近傍特徴量と検索対象の
上記近傍特徴量との合致度を物件毎に求め、物件番号を
合致度の降順に出力する検索手段とを具備する。
せる要因であるデータの位相情報(検索キーが物件中の
どこに存在するかと言う場所情報)を近傍特徴量の抽出
により捨象してある。検索時間は検索キー情報の長さの
みに依存する。従って、検索時間がデータ量に依存しな
い高速な検索が可能となる。また物件毎の検索キーの合
致度(含有確率)として検索結果が求まるので、文法な
どに依存しない汎用な検索システムが実現可能である。
また、合致度の降順参照により、あいまい検索が可能と
なる。検索対象としては、文書データ、物理計測デー
タ、信号波形データ、画像データ、音響データなどを扱
うことができる。
によるパターン検索システムのデータフロー図である。
この検索システムでは、予め全対象物件から事象(情
報)の位相情報を全て捨象した自己相関データを作成
し、そのデータ群に対して全物件検索を行なう。検索の
アルゴリズムは、学習ステップと検索ステップとからな
る。学習ステップでは、物件毎に近傍特徴量行列が位相
情報として作成される。検索ステップでは、検索キーと
近傍特徴量行列とのマッチング演算が行なわれ、物件ご
とにマッチング度(類似度)を示す評価結果を得る。以
下、各ステップについて説明する。
ドイツ語、フランス語、ヘブライ語、ロシア語などの文
書データ、或いは量子化された波形数値データ、化学構
造式、遺伝子情報などである。このような検索対象に対
して、まず正規化手段S1により正規化の処理を行な
う。一般に検索対象は、情報の最小単位(文書であれば
アルファベットなどの文字、数値チャートであれば、あ
る時刻における実数値など)の列で表現されている。そ
れをなんらかの方法でn階調の整数列に変換する。これ
をデータの正規化と呼ぶ。
コード表をそのまま用いることにより、次のような25
6階調の数値表現として実現される。 …… This is a pen. …… 84|104 |105 |115 |32|105 |115 |32|97|32|112 |101 |110 |46|
4 ..と対応している。
S2により近傍特徴量行列30の形式に畳込まれる。こ
こで近傍特徴量を抽出する演算式は種々考えられる。こ
の演算式は検索の鋭さ(過検出の少なさ)にも影響を与
える。
タ(文字)をCi,j とし、Ci,j に関する量子化量xと
Ci,j の前方k近傍に関する量子化量yを次のようにし
て求める。ここでは、検索される対象物件(文書)がn
個あるとし、そのうちのi番目の物件の量子化について
説明する。i番目の物件において、図2に示すように正
規化された数値列135,64,37,71,101,...が並んでいると
すると、Ci,j に関する量子化量xは、 x=f(Ci,j ) Ci,j の前方k近傍に関する量子化量yは y=g(Ci,j , Ci,j+1,Ci,j+2,...., Ci,j+k ) で求められる。
階量子化関数である。すなわち、i番目の物件のj番目
のデータCi,j について所定の演算を行って得られる値
であり、1〜nのいずれかの整数で表される。したがっ
て、得られたxの値によって図3に示す行列(座標)に
おいてx軸方向の位置が1〜nの範囲で定まる。
Ci,j+k ) は、Ci,j の前方k近傍に関するm段階量子
化関数である。すなわち、i番目の物件のj番目のデー
タCi,j とそのデータの近傍の所定の数のデータについ
て所定の演算を行って得られる値であり、1〜mのいず
れかの整数で表される。たとえば図2に示すようにj番
目のデータCi,j が135であり、kが3の場合には、
Ci,j+1,Ci,j+2,Ci,j+3 としてデータ135に続くデ
ータ64、37、71を抽出し、これらのデータとデー
タ135との相関について所定の演算を行う。j番目の
データCi,j が次の64の場合には、Ci,j+1,Ci,j+2,
Ci,j+3 としてデータ64に続くデータ37、71、1
01を抽出し、これらのデータとデータ64との相関に
ついて所定の演算を行う。
図3に示す行列(座標)におけるy軸方向の位置が1〜
mの範囲で定まる。したがって、上記のようにx、yを
求めることによって図3に示す行列(座標)における位
置が定まる。
うにして求めたx、yに対して物件の通番iと重みw
(x,y,i)の組として記憶される。重みw(x,y,i)は、デ
ータx、y、iから所定の演算によって求められるが通
常は重みw(x,y,i)の値として1に固定してもよい。
ごとにx、yの値に基づき図3に棒によって示されるよ
うに、データを記憶する。すなわち、データCi,j の
x、yの値によって定められる座標の位置に、その物件
の通番iとその重みw(x,y,i)を組みとしたデータを記
憶する。同図ではこのようなデータが記憶されるごとに
棒の長さが延びるように表されている。もし重みw(x,
y,i)を1として場合には、物件の通番iのデータのみが
x、yの値によって定められる座標の位置に記憶されて
ゆく。
物件の識別番号を付加して構造ファイル40として保存
する。
n."を検索キーとする。この検索キー50に対して学習
ステップと同一の正規化方法に基づく正規化手段S3に
よりキー情報を整数列に正規化する。 84|104 |105 |115 |32|105 |115 |32|97|32|112 |101 |110 |46|
プと同一の近傍特徴量抽出計算式f() 、g() を用いて各
物件に対応する正規化された数値列の先頭からx、yの
組の系列を作成する。次に、このx、yの組の系列に基
づいて、物件kに対する検索キーの含有度数ωk とし
て、V(xj,yj,k)をj=1〜mについて合計するこ
とにより算出する。
ストが物件iについての重みを持つ場合、はその重みに
等しく、持たない場合には0と定める。
組に対応する図3のx、yの位置にデータがある場合
(棒がある場合)には、別に設けられた記憶手段のその
データに示される物件の通番iの格納箇所にその重みの
値を記憶させる。
件毎に得られた構造評価値score (合致度)を完全一致
の場合の評価値(この場合は、検索キー情報の文字数−
k)で割って、検索キーの含有確率を求め、評価結果の
リスト70を得る。更にソート手段S6において、この
リスト70を含有確率の降順にソートしソート済みリス
ト80を得る。
り、その上位物件を参照することにより、検索キーが物
件中に含まれている確率が高い物件名を知ることができ
る。含有確率は、完全一致及び不完全一致の全てについ
て求まるから、あいまい一致検索を行なうことができ
る。
探索であるから、検索もれが発生する確率は、本質的に
零であると言う特徴がある。
時間は、キーの文字数のみに依存し、各物件の大きさに
は依存しない。従って、非常に高速に検索を行なうこと
ができる。
行うことにより、検索条件に対するAND、ORなどの
検索演算処理も高速に実行できる。式(1)の近傍特徴
量抽出式は上述の例の他に種々考えることができる。例
えば、 f: x→x g: (x,y)→x-y (または|x-y |) とすれば、隣接文字及び一つ置きの文字の差分(または
差分の絶対値)を相関情報として近傍特徴量行列を作る
ことができる。また幾つかの文字列の個々の文字整数値
に対し四則演算を施すことにより近傍特徴量を取り出し
てもよい。
し取り出さなくてもよい。例えば、物件データ中の特定
の一つまたは一つ以上の整数値、特定の範囲の整数値、
或いはデータ列を構成する各バイト中の特定の1つまた
は一つ以上のビットを除外して近傍特徴量を生成しても
よい。また日本語文書のように2バイト文字で構成され
ている場合には、例えば上位バイトを除外して下位バイ
トを対象として近傍特徴量を取り出してもよい。
る行列は、256次のビット行列であり、これは8K バ
イトに相当する。従って、1物件のデータが1K バイト
程度であるデータベースでは、効率のよいシステムであ
るとは言えない。そこでデータ圧縮手段S7を設けてデ
ータ圧縮を行なって構造ファイル40の容量を減らすの
がよい。
では、256次の近傍特徴量行列の各要素毎に要素値が
1である物件名40a(識別コード)を1バイト/件の
データ列として蓄積する。従って、要素値が0である物
件名は不要データとして除外する。
名40aは1バイトで表せないので、下位の1バイトの
みを蓄積する。例えば、物件数が1万件の場合、物件名
は2バイトで表されるが、そのうちの下位1バイトを使
用する。そして物件名コードが255を越える毎にデー
タ列にマーカ40bを挿入する。
に該当する構造ファイルのデータ列を取り出し、物件名
毎の出現度数テーブルを作成する。この際、マーカ40
bを越える毎に物件名コードに255を加える。このよ
うにして作成した出現度数テーブルに基づいて図1の評
価結果リスト70が得られる。
件中の半分以上ある場合には、その近傍特徴量行列要素
は各物件について共通であると見なして、その要素を削
除してもよい。
学習手段S2、正規化手段S3、検索手段S4、評価結
果出力手段S5、ソート手段S6、データ圧縮手段S7
は、コンピュータプログラムによって構成することがで
きるが、論理回路素子を用いて専用のハードウエアを構
成してもよい。
検索対象の物件毎にその近傍特徴量を記憶し、検索キー
の近傍特徴量と検索対象の上記近傍特徴量との合致度を
物件毎に求め、物件番号を合致度の降順に出力する構成
である。
を行なう際に検索時間を増大させる要因であるデータの
位相情報(検索キーが物件中のどこに存在するかと言う
場所情報)を近傍特徴量の抽出により捨象してあるか
ら、検索時間は検索キー情報の長さのみに依存する。従
って、検索時間がデータ量に依存しない高速な検索が可
能となる。また物件毎の検索キーの合致度(含有確率)
として検索結果が求まるので、文法などに依存しない汎
用な検索システムが実現可能である。また、合致度の降
順参照により不完全一致検索を行えるため、あいまい検
索が可能となり、検索キー上のノイズにも強い。
のデータフロー図である。
Claims (9)
- 【請求項1】 検索対象の物件毎にその近傍特徴量を記
憶した記憶手段と、 検索キーの近傍特徴量と検索対象の上記近傍特徴量との
合致度を物件毎に求め、物件番号を合致度の降順に出力
する検索手段とを具備するデータベース検索システム。 - 【請求項2】 上記物件毎の合致度数を上記検索キーの
近傍特徴量の完全一致度数で割った値を、物件毎の検索
キーの含有確率リストとして確率の降順に出力する上記
検索手段を具備することを特徴とする請求項1のデータ
ベース検索システム。 - 【請求項3】 上記近傍特徴量が、検索対象のデータ列
に沿った畳み込み演算によって元情報から抽出されてい
ることを特徴とする請求項1のデータベース検索システ
ム。 - 【請求項4】上記検索対象の近傍特徴量と、検索キーの
近傍特徴量との生成アルゴリズムが同一であることを特
徴とする請求項1のデータベース検索システム。 - 【請求項5】 検索対象のi番目の物件のj番目のデー
タ列Ci,j に関する量子化量xとその近傍のk個のデー
タ列Ci,j+1,Ci,j+2,...., Ci,j+k に関する量子化量
yとを x=f(Ci,j ) y=g(Ci,j , Ci,j+1,Ci,j+2,...., Ci,j+k ) によって求め、得られたx、yの値に基づいて定められ
る記憶手段の位置にその物件の通番iおよび重みw(x,
y,i)を記憶することを特徴とする請求項1のデータベー
ス検索システム。 - 【請求項6】 上記重みw(x,y,i)が1であることを特
徴とする請求項5のデータベース検索システム。 - 【請求項7】 上記量子化量xがn段階であることを特
徴とする請求項5のデータベース検索システム。 - 【請求項8】 上記量子化量yがm段階であることを特
徴とする請求項5のデータベース検索システム。 - 【請求項9】 上記検索対象の近傍特徴量を圧縮するデ
ータ圧縮手段を具備することを特徴とする請求項1のデ
ータベース検索システム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3356348A JP2993539B2 (ja) | 1991-12-24 | 1991-12-24 | データベース検索システムおよびその方法 |
EP92106939A EP0510634B1 (en) | 1991-04-25 | 1992-04-23 | Data base retrieval system |
DE69229521T DE69229521T2 (de) | 1991-04-25 | 1992-04-23 | Datenbankauffindungssystem |
US07/873,130 US5450580A (en) | 1991-04-25 | 1992-04-24 | Data base retrieval system utilizing stored vicinity feature valves |
US08/471,459 US5546578A (en) | 1991-04-25 | 1995-06-06 | Data base retrieval system utilizing stored vicinity feature values |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3356348A JP2993539B2 (ja) | 1991-12-24 | 1991-12-24 | データベース検索システムおよびその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05174067A true JPH05174067A (ja) | 1993-07-13 |
JP2993539B2 JP2993539B2 (ja) | 1999-12-20 |
Family
ID=18448579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3356348A Expired - Lifetime JP2993539B2 (ja) | 1991-04-25 | 1991-12-24 | データベース検索システムおよびその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2993539B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06274193A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | データベース検索システム |
-
1991
- 1991-12-24 JP JP3356348A patent/JP2993539B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06274193A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | データベース検索システム |
Also Published As
Publication number | Publication date |
---|---|
JP2993539B2 (ja) | 1999-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0510634B1 (en) | Data base retrieval system | |
JP2742115B2 (ja) | 類似文書検索装置 | |
CN102142038B (zh) | 用于记号空间资料库的多级查询处理系统与方法 | |
US5745745A (en) | Text search method and apparatus for structured documents | |
US6496820B1 (en) | Method and search method for structured documents | |
JP3041268B2 (ja) | 中国語誤り検査(cec)システム | |
JP2833580B2 (ja) | 全文インデックス作成装置および全文データベース検索装置 | |
JP2669601B2 (ja) | 情報検索方法及びシステム | |
JP3258063B2 (ja) | データベース検索システム及び方法 | |
JP3151730B2 (ja) | データベース検索システム | |
JPH0782504B2 (ja) | 情報検索処理方式および検索ファイル作成装置 | |
JPH06274193A (ja) | データベース検索システム | |
JP3081093B2 (ja) | 索引作成方法およびその装置と文書検索装置 | |
JP3259781B2 (ja) | データベース検索システムおよびデータベース検索方法 | |
JP2519129B2 (ja) | マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置 | |
JP2519130B2 (ja) | マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置 | |
JP2993539B2 (ja) | データベース検索システムおよびその方法 | |
JP3288063B2 (ja) | 可変長データの格納および参照システム | |
JP2993540B2 (ja) | 昇順整数列データの圧縮および復号システム | |
EP1076305A1 (en) | A phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element | |
JPH06325091A (ja) | 類似度評価型データベース検索装置 | |
JP3019286B2 (ja) | 文書検索装置 | |
JPH07325837A (ja) | 抽象単語による通信文検索装置及び抽象単語による通信文検索方法 | |
JP3344755B2 (ja) | 昇順整数列データの圧縮および復号システム | |
JPH02148174A (ja) | Ocrによる住所データベース検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19990907 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R154 | Certificate of patent or utility model (reissue) |
Free format text: JAPANESE INTERMEDIATE CODE: R154 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071022 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081022 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091022 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091022 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101022 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111022 Year of fee payment: 12 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111022 Year of fee payment: 12 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111022 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121022 Year of fee payment: 13 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121022 Year of fee payment: 13 |