JPH05225238A - Data base retrieval system - Google Patents

Data base retrieval system

Info

Publication number
JPH05225238A
JPH05225238A JP4056965A JP5696592A JPH05225238A JP H05225238 A JPH05225238 A JP H05225238A JP 4056965 A JP4056965 A JP 4056965A JP 5696592 A JP5696592 A JP 5696592A JP H05225238 A JPH05225238 A JP H05225238A
Authority
JP
Japan
Prior art keywords
search
property
retrieval
data
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4056965A
Other languages
Japanese (ja)
Other versions
JP3258063B2 (en
Inventor
Hiroshi Takada
寛 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Steel Corp
Original Assignee
Nippon Steel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Steel Corp filed Critical Nippon Steel Corp
Priority to JP05696592A priority Critical patent/JP3258063B2/en
Priority to DE69229521T priority patent/DE69229521T2/en
Priority to EP92106939A priority patent/EP0510634B1/en
Priority to US07/873,130 priority patent/US5450580A/en
Publication of JPH05225238A publication Critical patent/JPH05225238A/en
Priority to US08/471,459 priority patent/US5546578A/en
Application granted granted Critical
Publication of JP3258063B2 publication Critical patent/JP3258063B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To increase the retrieval speed and to use the retrieval result again in the data base retrieval system using complicated conditional expressions. CONSTITUTION:Retrieval on prescribed conditions A, B, etc., is performed in a retrieval part 12, and retrieval results are stored in a retrieval result list storage part 14. In the case of retrieval on complicated conditions such as A or B, A and B, an object list condition retrieval part 16 uses the results of retrieval on conditions A and B, which are stored in the retrieval result list storage part 14, to perform the retrieval. Since the data base is not directly retrieved on complicated conditions, the retrieval time is shortened. Since results of retrieval on simpler conditions are used again, the retrieval efficiency is high.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、データベース検索シス
テムに関し、特に複数の条件によりデータベースから必
要な情報を取り出すためのデータベース検索システムに
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a database search system, and more particularly to a database search system for retrieving necessary information from a database according to a plurality of conditions.

【0002】[0002]

【従来の技術】全物件検索によるデータベース検索にお
いて条件検索を行う場合には、所定の検索キーが設定さ
れ、この検索キーを全物件に適用して検索を行う。たと
えば各物件が検索キーを含むか否かを調べ、検索キーを
含む物件が検索結果としてリストアップされる。
2. Description of the Related Art When a condition search is performed in a database search by searching all properties, a predetermined search key is set, and this search key is applied to all properties to perform the search. For example, it is checked whether or not each property includes the search key, and the property including the search key is listed as the search result.

【0003】このような検索において、複数の検索キー
からなる条件式(検索式)を用いて検索を行う場合に
は、複数の検索キーによって条件式を立式し、これを用
いて検索することが従来行われている。たとえばキー
A、B、C、Dによって、(A or B or C)and
Dのような条件式を作成し、この式を用いて全物件に対
する検索を行う。
When performing a search using a conditional expression (search expression) consisting of a plurality of search keys in such a search, formulate a conditional expression with a plurality of search keys and perform a search using this. Has been done conventionally. For example, by keys A, B, C, D, (A or B or C) and
A conditional expression such as D is created, and all properties are searched using this expression.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、このよ
うな検索は複数のキーから構成される条件式を用いてい
るため、検索時間が非常に長く、条件不成立時のコスト
パフォーマンスが低い。また、類似する条件式、たとえ
ば上記の条件式に類似する(A or B or C)and
Eのような条件式による検索を行う場合に、すでに行っ
た検索の部分的な論理条件(A or B or C)の再
利用ができないため、効率が低いという欠点がある。
However, since such a search uses a conditional expression composed of a plurality of keys, the search time is very long and the cost performance when the condition is not satisfied is low. Also, similar conditional expressions, for example, similar to the above conditional expressions (A or B or C) and
When performing a search using a conditional expression such as E, there is a drawback that the efficiency is low because the partial logical condition (A or B or C) of the search already performed cannot be reused.

【0005】本発明は、上記のような従来の欠点を解消
し、複数の条件による検索において、条件式の複雑さに
かかわらず、高速な条件検索が可能であり、検索結果の
再利用が可能なデータベース検索システムを提供するこ
とを目的とする。
The present invention solves the above-mentioned conventional drawbacks, and in the search by a plurality of conditions, a high-speed condition search can be performed regardless of the complexity of the conditional expression, and the search results can be reused. The purpose is to provide a simple database search system.

【0006】[0006]

【課題を解決するための手段】本発明のデータベース検
索システムは、所定の条件により全物件検索を行う検索
手段と、検索手段による検索結果を記憶する検索結果記
憶手段と、検索結果記憶手段に記憶された検索結果を用
いて条件検索を行う条件検索手段とを具備する。
A database search system according to the present invention stores a search means for searching all properties under a predetermined condition, a search result storage means for storing search results by the search means, and a search result storage means. And a condition retrieval means for conducting a condition retrieval using the retrieved retrieval result.

【0007】[0007]

【作用】本発明によれば、複数の条件によって全物件検
索を行う場合に、複数の条件のうちの所定の条件によっ
て検索手段が検索を行い、検索の結果は検索結果記憶手
段に記憶される。次にこの検索結果を用いて条件検索手
段が複雑な条件の検索を行う。したがって、所定の条件
による検索結果が記憶されており、これを用いてより複
雑な条件の検索を行うから、部分的な検索結果を再利用
することができ、高速の条件検索が可能となる。
According to the present invention, when all properties are searched by a plurality of conditions, the search means searches by a predetermined condition among the plurality of conditions, and the result of the search is stored in the search result storage means. .. Next, using this search result, the condition search means searches for a complicated condition. Therefore, a search result based on a predetermined condition is stored, and a search for a more complicated condition is performed using this, so that a partial search result can be reused and a high-speed condition search can be performed.

【0008】[0008]

【実施例】図1には、本発明によるシステムの一実施例
が示されている。同図に示すように、本システムは、検
索部12、検索結果リスト格納部14、物件リスト条件
検索部16を有する。検索部12は検索キー入力部18
から入力された所定の検索キーからなる条件式によって
データベースたる検索対象10について全物件検索を行
う検索部である。
1 shows an embodiment of the system according to the invention. As shown in the figure, this system includes a search unit 12, a search result list storage unit 14, and a property list condition search unit 16. The search unit 12 is a search key input unit 18
This is a search unit that searches all properties for a search target 10 that is a database according to a conditional expression including a predetermined search key input from.

【0009】たとえば検索キー入力部18から入力され
るキーが同図に示すようにA、Bである場合に、検索部
12は条件式A、Bによってそれぞれ検索を行い、その
結果が検索結果リスト格納部14に格納される。同図に
示す例では条件式Aによって検索された物件の番号リス
トが3、5、10、20であり、条件式Bによって検索
された物件の番号リストが5、10、30である。これ
らの物件番号リストが検索結果として検索結果リスト格
納部14に格納される。
For example, when the keys input from the search key input unit 18 are A and B as shown in the figure, the search unit 12 searches by the conditional expressions A and B, respectively, and the result is the search result list. It is stored in the storage unit 14. In the example shown in the figure, the property number lists searched by the conditional expression A are 3, 5, 10, 20 and the property number lists searched by the conditional expression B are 5, 10, 30. These property number lists are stored in the search result list storage unit 14 as search results.

【0010】物件リスト条件検索部16は、検索結果リ
スト格納部14に格納された結果を用いてさらに複雑な
条件式による検索を行う検索部である。たとえば条件式
A、Bによる前記の検索結果を用いて、条件式(A or
B)や(A and B)による検索を行う場合には、物
件リスト条件検索部16は検索結果リスト格納部14か
らから条件式Aおよび条件式Bによる検索結果を読み出
し、これらを用いて条件式(A or B)または(A
and B)による検索を行う。
The property list condition search unit 16 is a search unit that uses the results stored in the search result list storage unit 14 to perform a search using a more complicated conditional expression. For example, using the above-mentioned search results by the conditional expressions A and B, the conditional expression (A or
B) or (A and B), the property list condition search unit 16 reads the search results by the conditional expressions A and B from the search result list storage unit 14 and uses them to search for the conditional expressions. (A or B) or (A
and search according to B).

【0011】本実施例の場合には、検索結果リスト格納
部14に格納されている結果は前述のように、条件式A
によって検索された物件の番号リストが3、5、10、
20であり、条件式Bによって検索された物件の番号リ
ストが5、10、30であるから、条件式(A or
B)の検索の場合にはこれらの物件番号リストのORを
求めることにより、物件番号リスト3、5、10、2
0、30が得られる。同様に、、条件式(A and B)
の検索の場合にはこれらの物件番号リストのANDを求
めることにより、物件番号リスト5、10が得られる。
これらの得られた物件番号リストの結果は再び検索結果
リスト格納部14に送られ、格納される。
In the case of the present embodiment, the result stored in the search result list storage unit 14 is the conditional expression A as described above.
The number list of properties searched by is 3, 5, 10,
20 and the number list of properties searched by the conditional expression B is 5, 10, 30. Therefore, the conditional expression (A or
In the case of the search of B), by obtaining the OR of these property number lists, the property number lists 3, 5, 10, 2
0 and 30 are obtained. Similarly, conditional expression (A and B)
In the case of the search, the property number lists 5 and 10 are obtained by calculating the AND of these property number lists.
The results of the obtained property number list are sent again to the search result list storage unit 14 and stored therein.

【0012】したがって、これらのリストを用いて、物
件リスト条件検索部16はさらに(A or B or
C)や(A or B or C)and Eのような条件式を
用いた検索を同様に行うことができる。
Therefore, by using these lists, the property list condition search unit 16 further (A or B or
A search using a conditional expression such as C) or (A or B or C) and E can be similarly performed.

【0013】本実施例によれば、上記のように所定の検
索キーからなる条件式によって検索した結果を物件番号
リストとして検索結果リスト格納部14に格納してお
き、これらのキーを組み合わせた複雑な条件式による検
索を行う場合に、格納された物件番号リストを用いて条
件検索を行う。
According to this embodiment, the search result list storage unit 14 stores the result of the search by the conditional expression consisting of the predetermined search keys as described above, and the combination of these keys is complicated. When performing a search using a conditional expression, a conditional search is performed using the stored property number list.

【0014】したがって、複雑な条件式による検索の場
合に、全物件に対してそれぞれ複雑な条件による検索を
行う必要がないため、検索時間を短縮することができ
る。また、部分的な条件検索の結果を再利用して検索を
行うから検索効率がよい。
Therefore, in the case of a search by a complicated conditional expression, it is not necessary to search for all properties by a complicated condition, so that the search time can be shortened. Further, since the result of the partial condition search is reused to perform the search, the search efficiency is good.

【0015】本発明による検索システムは、各種のデー
タベースの検索に適用できる。たとえば次のようなデー
タ検索システムにおける条件式の検索に適用できる。
The retrieval system according to the present invention can be applied to retrieval of various databases. For example, it can be applied to the retrieval of conditional expressions in the following data retrieval system.

【0016】図2は、本発明が適用される一実施例を示
す近傍特徴量によるパターン検索システムのデータフロ
ー図である。この検索システムでは、予め全対象物件か
ら事象(情報)の位相情報を全て捨象した近傍特徴量を
作成し、そのデータ群に対して全物件検索を行なう。検
索のアルゴリズムは、学習ステップと検索ステップとか
らなる。学習ステップでは、物件毎に近傍特徴量行列が
作成される。検索ステップでは、検索キーと近傍特徴量
行列とのマッチング演算が行なわれ、物件ごとにマッチ
ング度(類似度)を示す評価結果を得る。以下、各ステ
ップについて説明する。
FIG. 2 is a data flow diagram of a pattern search system by the neighborhood feature quantity showing an embodiment to which the present invention is applied. In this search system, a neighborhood feature amount is created in which all phase information of events (information) is removed from all target properties in advance, and all properties are searched for the data group. The search algorithm includes a learning step and a search step. In the learning step, a neighborhood feature quantity matrix is created for each property. In the search step, a matching operation between the search key and the neighborhood feature amount matrix is performed to obtain an evaluation result indicating the matching degree (similarity) for each property. Each step will be described below.

【0017】(1)、学習ステップ 図2に於いて、検索対象10は、例えば日本語、英語、
ドイツ語、フランス語、ヘブライ語、ロシア語などの文
書データ、或いは量子化された波形数値データ、化学構
造式、遺伝子情報などである。このような検索対象に対
して、まず正規化手段S1により正規化の処理を行な
う。一般に検索対象は、情報の最小単位(文書であれば
アルファベットなどの文字、数値チャートであれば、あ
る時刻における実数値など)の列で表現されている。そ
れをなんらかの方法でn階調の整数列に変換する。これ
をデータの正規化と呼ぶ。
(1) Learning Step In FIG. 2, the search target 10 is, for example, Japanese, English,
Document data in German, French, Hebrew, Russian, etc., or quantized waveform numerical data, chemical structural formulas, genetic information, and the like. For such a search target, the normalization means S1 first performs a normalization process. In general, a search target is represented by a column of minimum units of information (characters such as alphabets in the case of documents, real numerical values at a certain time in the case of numerical charts). It is converted into an integer sequence of n gradations by some method. This is called data normalization.

【0018】例えば、英文書データの場合、ASCII
コード表をそのまま用いることにより、次のような25
6階調の数値表現として実現される。 …… This is a pen. …… 84|104 |105 |115 |32|105 |115 |32|97|32|112 |101 |110 |46|
For example, in the case of English document data, ASCII
By using the code table as it is, the following 25
It is realized as a numerical expression with 6 gradations. …… This is a pen. …… 84 | 104 | 105 | 115 | 32 | 105 | 115 | 32 | 97 | 32 | 112 | 101 | 110 | 46 |

【0019】上記のコードにおいては、Tが84、hが10
4 ..と対応している。
In the above code, T is 84 and h is 10
Four . . It corresponds to.

【0020】正規化されたデータ20は、次に学習手段
S2により近傍特徴量行列30の形式に畳込まれる。こ
こで近傍特徴量をとる演算式は種々考えられる。この演
算式は検索の鋭さ(過検出の少なさ)にも影響を与え
る。
The normalized data 20 is then convoluted into the form of the neighborhood feature quantity matrix 30 by the learning means S2. Here, various arithmetic expressions for obtaining the neighborhood feature amount are possible. This arithmetic expression also affects the sharpness of search (the degree of overdetection is small).

【0021】今、i番目の物件(文書)のj番目のデー
タ(文字)をCi,j とし、Ci,j に関する量子化量xと
i,j の前方k近傍に関する量子化量yを次のようにし
て求める。ここでは、検索される対象物件(文書)がn
個あるとし、そのうちのi番目の物件の量子化について
説明する。i番目の物件において、図3に示すように正
規化された数値列135,64,37,71,101,...が並んでいると
すると、Ci,j に関する量子化量xは、 x=f(Ci,j ) Ci,j の前方k近傍に関する量子化量yは y=g(Ci,j , Ci,j+1,i,j+2,...., i,j+k ) で求められる。
[0021] Now, j-th data (characters) to C i of the i-th property (document), and j, C i, the quantization amount x and C i relates j, quantization amount for Upcoming k near the j y Is calculated as follows. Here, the target property (document) to be searched is n
Given that there are individual pieces, the quantization of the i-th property will be described. Assuming that the normalized numerical value sequence 135,64,37,71,101, ... is arranged in the i-th property as shown in FIG. 3, the quantization amount x for C i, j is x = f (C i, j ) Quantization amount y for the front k neighborhood of C i, j is y = g (C i, j , C i, j + 1, C i, j + 2, ..., C i , j + k ).

【0022】ここで、f(Ci,j )はCi,j に関するn段
階量子化関数である。すなわち、i番目の物件のj番目
のデータCi,j について所定の演算を行って得られる値
であり、1〜nのいずれかの整数で表される。したがっ
て、得られたxの値によって図4に示す行列(座標)に
おいてx軸方向の位置が1〜nの範囲で定まる。
Here, f (C i, j ) is an n-step quantization function for C i, j . That is, it is a value obtained by performing a predetermined operation on the j-th data C i, j of the i-th property, and is represented by any integer of 1 to n. Therefore, the position in the x-axis direction in the matrix (coordinates) shown in FIG. 4 is determined within the range of 1 to n by the obtained value of x.

【0023】また、g(Ci,j , Ci,j+1,i,j+2,....,
i,j+k ) は、Ci,j の前方k近傍に関するm段階量子
化関数である。すなわち、i番目の物件のj番目のデー
タCi,j とそのデータの近傍の所定の数のデータについ
て所定の演算を行って得られる値であり、1〜mのいず
れかの整数で表される。たとえば図3に示すようにj番
目のデータCi,j が135であり、kが3の場合には、
i,j+1,i,j+2,i,j+3 としてデータ135に続くデ
ータ64、37、71を抽出し、これらのデータとデー
タ135との相関について所定の演算を行う。j番目の
データCi,j が次の64の場合には、Ci,j+1,i,j+2,
i,j+3 としてデータ64に続くデータ37、71、1
01を抽出し、これらのデータとデータ64との相関に
ついて所定の演算を行う。
Further, g (C i, j , C i, j + 1, C i, j + 2, ...,
C i, j + k ) is an m-step quantization function with respect to the front k neighborhood of C i, j . That is, it is a value obtained by performing a predetermined operation on the j-th data C i, j of the i-th property and a predetermined number of data in the vicinity of that data, and is represented by an integer of 1 to m. It For example, as shown in FIG. 3, when the j-th data C i, j is 135 and k is 3,
The data 64, 37, 71 following the data 135 are extracted as C i, j + 1, C i, j + 2, C i, j + 3 , and a predetermined calculation is performed on the correlation between these data and the data 135. . When the j-th data C i, j is the next 64, C i, j + 1, C i, j + 2,
Data 37, 71, 1 following data 64 as C i, j + 3
01 is extracted, and a predetermined calculation is performed on the correlation between these data and the data 64.

【0024】このようにして得られたyの値によって、
図4に示す行列(座標)におけるy軸方向の位置が1〜
mの範囲で定まる。したがって、上記のようにx、yを
求めることによって図4に示す行列(座標)における位
置が定まる。
According to the value of y thus obtained,
The position in the y-axis direction in the matrix (coordinates) shown in FIG.
Determined in the range of m. Therefore, by determining x and y as described above, the position in the matrix (coordinates) shown in FIG. 4 is determined.

【0025】本システムでは、各物件情報は、上記のよ
うにして求めたx、yに対して物件の通番iと重みw
(x,y,i)の組として記憶される。重みw(x,y,i)は、デ
ータx、y、iから所定の演算によって求められるが、
通常は重みw(x,y,i)の値は1に固定される。
In the present system, each piece of property information has a serial number i and a weight w of the property for x and y obtained as described above.
It is stored as a set of (x, y, i). The weight w (x, y, i) is obtained from the data x, y, i by a predetermined calculation,
Normally, the value of the weight w (x, y, i) is fixed to 1.

【0026】上記のようにして求められたデータCi,j
ごとにx、yの値に基づき図4に棒によって示されるよ
うに、データを記憶する。すなわち、データCi,j
x、yの値によって定められる座標の位置に、その物件
の通番iとその重みw(x,y,i)を組みとしたデータを記
憶する。同図ではこのようなデータが記憶されるごとに
棒の長さが延びるように表されている。通常は重みw
(x,y,i)は1とされるから、物件の通番iのデータのみ
がx、yの値によって定められる座標の位置に記憶され
てゆく。
The data C i, j obtained as described above
The data is stored for each one based on the x, y values, as indicated by the bars in FIG. That is, the data in which the serial number i of the property and its weight w (x, y, i) are combined is stored at the position of the coordinates determined by the values of x and y of the data C i, j . In the figure, the length of the bar is shown to be extended each time such data is stored. Usually weight w
Since (x, y, i) is set to 1, only the data of the serial number i of the property is stored at the position of the coordinates determined by the values of x and y.

【0027】この様にして作成された近傍特徴量行列に
物件の識別番号を付加して構造ファイル40として保存
する。
The identification number of the property is added to the neighborhood feature amount matrix created in this way, and the structure file 40 is saved.

【0028】(2)、検索ステップ まず検索キー50を入力する。例えば、"This is a pe
n."を検索キーとする。この検索キー50に対して学習
ステップと同一の正規化方法に基づく正規化手段S3に
よりキー情報を整数列に正規化する。 84|104 |105 |115 |32|105 |115 |32|97|32|112 |101 |110 |46|
(2) Search Step First, the search key 50 is input. For example, "This is a pe
n. "is used as the search key. The key information is normalized to an integer sequence by the normalization means S3 based on the same normalization method as the learning step for this search key 50. 84 | 104 | 105 | 115 | 32 | 105 | 115 | 32 | 97 | 32 | 112 | 101 | 110 | 46 |

【0029】次に、検索手段S4において、学習ステッ
プと同一の近傍特徴量抽出式f() 、g() を用いて各物件
に対応する正規化された数値列の先頭からx、yの組の
系列を作成する。次に、このx、yの組の系列に基づい
て、物件kに対する検索キーの含有度数ωk として、V
(xj,j,k)をj=1〜mについて合計することによ
り算出する。
Next, in the search means S4, a set of x and y from the head of the normalized numerical value sequence corresponding to each property using the same neighborhood feature extraction formulas f () and g () as in the learning step. Create a series of. Next, based on the series of the set of x and y, the search key content frequency ω k for the property k is V
It is calculated by summing (x j, y j, k) for j = 1 to m.

【0030】ただし、V(xj,j,k)は、物件情報リ
ストが物件iについての重みを持つ場合、はその重みに
等しく、持たない場合には0と定める。
However, V (x j, y j, k) is set to be equal to the weight when the property information list has the weight for the property i, and is set to 0 when the property information list does not have the weight.

【0031】したがって、検索すべき数値列のx、yの
組に対応する図4のx、yの位置にデータがある場合
(棒がある場合)には、別に設けられた記憶手段のその
データに示される物件の通番iの格納箇所にその重みの
値を記憶させる。
Therefore, when there is data at the x, y position in FIG. 4 (when there is a bar) corresponding to the x, y pair of the numerical sequence to be searched (when there is a bar), that data in the storage means provided separately. The value of the weight is stored in the storage location of the serial number i of the property shown in FIG.

【0032】次に、評価結果出力手段S5において、物
件毎に得られた構造評価値score (合致度)を完全一致
の場合の評価値(この場合は、検索キー情報の文字数−
k)で割って、検索キーの含有確率を求め、評価結果の
リスト70を得る。更にソート手段S6において、この
リスト70を含有確率の降順にソートしソート済みリス
ト80を得る。
Next, in the evaluation result output means S5, the structural evaluation value score (degree of coincidence) obtained for each property is an evaluation value in the case of perfect match (in this case, the number of characters in the search key information-
Divide by k) to obtain the search key content probability, and obtain a list 70 of evaluation results. Further, the sorting means S6 sorts the list 70 in descending order of content probability to obtain a sorted list 80.

【0033】このソート済みリスト80が検索結果であ
り、その上位物件を参照することにより、検索キーが物
件中に含まれている確率が高い物件名を知ることができ
る。含有確率は、完全一致及び不完全一致の全てについ
て求まるから、あいまい一致検索を行なうことができ
る。
This sorted list 80 is a search result, and by referring to the higher-ranked property, it is possible to know the property name with a high probability that the search key is included in the property. Since the content probability is obtained for all of the perfect match and the incomplete match, the fuzzy match search can be performed.

【0034】また、検索キーの全情報についての全物件
探索であるから、検索もれが発生する確率は、本質的に
零であると言う特徴がある。
Further, since the search is for all properties for all the information of the search key, the probability of missing the search is essentially zero.

【0035】また、1つの物件に対する検索キーの評価
時間は、キーの文字数のみに依存し、物件の大きさには
依存しない。従って、非常に高速に検索を行なうことが
できる。
Further, the evaluation time of the search key for one property depends only on the number of characters of the key and does not depend on the size of the property. Therefore, the search can be performed very quickly.

【0036】上記のようなデータ検索の結果、ソート済
みリスト80においてスコア(キーの含有確率)が所定
のしきい値よりも高い物件を抽出し、これを前述の条件
式AまたはBによる検索結果とする。これらの物件の番
号リストは図1の検索結果リスト格納部14に格納さ
れ、これを基にして前述のように物件リスト条件検索部
16において条件検索が行われる。
As a result of the data search as described above, the property whose score (key content probability) is higher than a predetermined threshold is extracted from the sorted list 80, and the extracted result is obtained by the conditional expression A or B. And The number list of these properties is stored in the search result list storage unit 14 of FIG. 1, and based on this, the property list condition search unit 16 performs the condition search as described above.

【0037】上記のようなデータ検索においては、検索
の結果がソート済みリスト80として得られるからこれ
を検索結果リスト格納部14に格納し、格納されたデー
タに基づいて条件検索を行うことにより、複雑な条件式
の場合にも高速で検索を行うことができる。
In the data search as described above, since the search result is obtained as the sorted list 80, this is stored in the search result list storage unit 14 and the conditional search is performed based on the stored data. Even in the case of complicated conditional expressions, the search can be performed at high speed.

【0038】式(1)の近傍特徴量抽出式は上述の例の
他に種々考えることができる。例えば、 f: x→x g: (x,y)→x-y (または|x-y |) とすれば、隣接文字及び一つ置きの文字の差分(または
差分の絶対値)を近傍特徴量として近傍特徴量行列を作
ることができる。また幾つかの文字列の個々の文字整数
値に対し四則演算を施すことにより近傍特徴量を取り出
してもよい。
The neighborhood feature extraction formula of the formula (1) can be variously considered in addition to the above example. For example, if f: x → xg: (x, y) → xy (or | xy |), the difference between adjacent characters and every other character (or the absolute value of the difference) is used as the neighborhood feature quantity. You can make a matrix. Alternatively, the neighborhood feature amount may be extracted by performing four arithmetic operations on individual character integer values of some character strings.

【0039】近傍特徴量は、各物件の全データを対象と
し取り出さなくてもよい。例えば、物件データ中の特定
の一つまたは一つ以上の整数値、特定の範囲の整数値、
或いはデータ列を構成する各バイト中の特定の1つまた
は一つ以上のビットを除外して近傍特徴量を作成(抽
出)してもよい。また日本語文書のように2バイト文字
で構成されている場合には、例えば上位バイトを除外し
て下位バイトを対象として近傍特徴量を取り出してもよ
い。
The neighborhood feature amount does not have to be extracted for all the data of each property. For example, a specific one or more integer values in property data, an integer value in a specific range,
Alternatively, the neighboring feature amount may be created (extracted) by excluding a specific one or one or more bits in each byte forming the data string. In the case of a double-byte character like a Japanese document, for example, the upper byte may be excluded and the lower-order byte may be taken as the target to extract the neighborhood feature amount.

【0040】上述の例では、近傍特徴量行列は、256
次のビット行列であり、これは8Kバイトに相当する。
従って、1物件のデータが1K バイト程度であるデータ
ベースでは、効率のよいシステムであるとは言えない。
そこでデータ圧縮手段S7を設けてデータ圧縮を行なっ
て構造ファイル40の容量を減らすのがよい。
In the above example, the neighborhood feature quantity matrix is 256
This is the next bit matrix, which corresponds to 8 Kbytes.
Therefore, it cannot be said that a database in which the data for one property is about 1 Kbyte is an efficient system.
Therefore, it is preferable to reduce the capacity of the structure file 40 by providing data compression means S7 to perform data compression.

【0041】図5にデータ圧縮法の一例を示す。この例
では、256次の近傍特徴量行列の各要素毎に要素値が
1である物件名40a(識別コード)を1バイト/件の
データ列として蓄積する。従って、要素値が0である物
件名は不要データとして除外する。
FIG. 5 shows an example of the data compression method. In this example, the property name 40a (identification code) whose element value is 1 is stored as a 1-byte / case data string for each element of the 256th-order neighborhood feature amount matrix. Therefore, the property name whose element value is 0 is excluded as unnecessary data.

【0042】物件数が255個以上ある場合には、物件
名40aは1バイトで表せないので、下位の1バイトの
みを蓄積する。例えば、物件数が1万件の場合、物件名
は2バイトで表されるが、そのうちの下位1バイトを使
用する。そして物件名コードが255を越える毎にデー
タ列にマーカ40bを挿入する。
When the number of properties is 255 or more, the property name 40a cannot be represented by 1 byte, so only the lower 1 byte is stored. For example, when the number of properties is 10,000, the property name is represented by 2 bytes, but the lower 1 byte is used. Then, every time the property name code exceeds 255, the marker 40b is inserted into the data string.

【0043】検索時には、検索キーの近傍特徴量の各々
に該当する構造ファイルのデータ列を取り出し、物件名
毎の出現度数テーブルを作成する。この際、マーカ40
bを越える毎に物件名コードに255を加える。このよ
うにして作成した出現度数テーブルに基づいて図2の評
価結果リスト70が得られる。
At the time of search, the data string of the structure file corresponding to each of the neighborhood feature amounts of the search key is taken out, and the appearance frequency table for each property name is created. At this time, the marker 40
Add 255 to the property name code every time it exceeds b. The evaluation result list 70 of FIG. 2 is obtained based on the appearance frequency table created in this way.

【0044】なお物件名コードのデータ列が例えば全物
件中の半分以上ある場合には、その近傍特徴量行列要素
は各物件について共通であると見なして、その要素を削
除してもよい。
If the data string of the property name code is, for example, more than half of all properties, the neighboring feature amount matrix element may be regarded as common for each property and the element may be deleted.

【0045】上述の実施例において,正規化手段S1、
学習手段S2、正規化手段S3、検索手段S4、評価結
果出力手段S5、ソート手段S6、データ圧縮手段S7
は、コンピュータプログラムによって構成することがで
きるが、論理回路素子を用いて専用のハードウエアを構
成してもよい。
In the above embodiment, the normalizing means S1,
Learning means S2, normalization means S3, search means S4, evaluation result output means S5, sorting means S6, data compression means S7.
Can be configured by a computer program, but dedicated hardware may be configured by using a logic circuit element.

【0046】[0046]

【発明の効果】本発明のシステムによれば、所定の条件
による検索の結果を記憶しておくので、複雑な条件によ
る検索を高速で行うことができる。また、部分的な検索
結果を再利用できるので無駄がなく、検索効率が高い。
According to the system of the present invention, since the result of the search under the predetermined condition is stored, the search under the complicated condition can be performed at high speed. Further, since partial search results can be reused, there is no waste and the search efficiency is high.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明によるデータベース検索システムの一実
施例のデータフロー図である。
FIG. 1 is a data flow diagram of an embodiment of a database search system according to the present invention.

【図2】本発明による検索システムを適用するデータベ
ース検索システムのデータフロー図である。
FIG. 2 is a data flow diagram of a database search system to which the search system according to the present invention is applied.

【図3】近傍情報の量子化を示す図である。FIG. 3 is a diagram showing quantization of neighborhood information.

【図4】記憶される情報構造を示す図である。FIG. 4 is a diagram showing a stored information structure.

【図5】圧縮された近傍特徴量のデータ構成図である。FIG. 5 is a data configuration diagram of a compressed neighborhood feature amount.

【符号の説明】[Explanation of symbols]

10 検索対象 12 検索部 14 検索結果リスト格納部 16 物件リスト条件検索部 18 検索キー入力部 20 正規化データ 30 近傍特徴量行列 40 構造ファイル 50 検索キー 60 正規化キー 70 評価結果リスト 80 ソート済みリスト S1 正規化手段 S2 学習手段 S3 正規化手段 S4 検索手段 S5 評価結果出力手段 S6 ソート手段 S7 データ圧縮手段 10 search target 12 search unit 14 search result list storage unit 16 property list condition search unit 18 search key input unit 20 normalized data 30 neighborhood feature amount matrix 40 structure file 50 search key 60 normalization key 70 evaluation result list 80 sorted list S1 normalization means S2 learning means S3 normalization means S4 search means S5 evaluation result output means S6 sorting means S7 data compression means

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 所定の条件により全物件検索を行う検索
手段と、 前記検索手段による検索結果を記憶する検索結果記憶手
段と、 前記検索結果記憶手段に記憶された検索結果を用いて条
件検索を行う条件検索手段とを具備し、 前記条件検索手段は、前記検索手段による検索において
用いられた前記条件を組み合わせた条件による検索を、
前記検索結果記憶手段に記憶された検索結果を基にして
行うことを特徴とするデータベース検索システム。
1. A search means for searching all properties according to predetermined conditions, a search result storage means for storing search results by the search means, and a condition search using the search results stored in the search result storage means. A condition search means for performing the search, wherein the condition search means performs a search based on a combination of the conditions used in the search by the search means,
A database search system, characterized in that the search is performed based on the search results stored in the search result storage means.
【請求項2】 前記システムはさらに、前記条件が入力
される入力手段を具備することを特徴とする請求項1の
データベース検索システム。
2. The database search system according to claim 1, wherein the system further comprises input means for inputting the condition.
【請求項3】 検索対象の物件毎にその近傍特徴量を記
憶した記憶手段と、 検索キーの近傍特徴量と検索対象の上記近傍特徴量との
合致度を物件毎に求め、物件番号を合致度の降順に出力
する検索手段とを具備するデータベース検索に用いられ
ることを特徴とする請求項1のデータベース検索システ
ム。
3. A storage unit that stores the neighborhood feature amount for each search target property, and the degree of matching between the search key neighborhood feature amount and the search target neighborhood feature amount is determined for each property, and the property number is matched. The database search system according to claim 1, wherein the database search system comprises a search means for outputting in descending order of degree.
【請求項4】 検索対象のi番目の物件のj番目のデー
タ列Ci,j に関する量子化量xとその近傍のk個のデー
タ列Ci,j+1,i,j+2,...., i,j+k に関する量子化量
yとを x=f(Ci,j ) y=g(Ci,j , Ci,j+1,i,j+2,...., i,j+k ) によって求め、得られたx、yの値に基づいて定められ
る記憶手段の位置にその物件の通番iを記憶するデータ
ベース検索に用いられることを特徴とする請求項3のデ
ータベース検索システム。
4. The quantization amount x for the j-th data string C i, j of the i-th property to be searched and k data strings C i, j + 1, C i, j + 2, in the vicinity thereof . .., C i, j + k quantized amount y and x = f (C i, j ) y = g (C i, j , C i, j + 1, C i, j + 2, .., C i, j + k ), and is used for a database search for storing the serial number i of the property at the position of the storage means determined based on the obtained x and y values. The database search system according to claim 3.
JP05696592A 1991-04-25 1992-02-07 Database search system and method Expired - Lifetime JP3258063B2 (en)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP05696592A JP3258063B2 (en) 1992-02-07 1992-02-07 Database search system and method
DE69229521T DE69229521T2 (en) 1991-04-25 1992-04-23 Database discovery system
EP92106939A EP0510634B1 (en) 1991-04-25 1992-04-23 Data base retrieval system
US07/873,130 US5450580A (en) 1991-04-25 1992-04-24 Data base retrieval system utilizing stored vicinity feature valves
US08/471,459 US5546578A (en) 1991-04-25 1995-06-06 Data base retrieval system utilizing stored vicinity feature values

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05696592A JP3258063B2 (en) 1992-02-07 1992-02-07 Database search system and method

Publications (2)

Publication Number Publication Date
JPH05225238A true JPH05225238A (en) 1993-09-03
JP3258063B2 JP3258063B2 (en) 2002-02-18

Family

ID=13042245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05696592A Expired - Lifetime JP3258063B2 (en) 1991-04-25 1992-02-07 Database search system and method

Country Status (1)

Country Link
JP (1) JP3258063B2 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844758A (en) * 1994-07-27 1996-02-16 Fuji Photo Film Co Ltd Method and device for data retrieval and information recording medium
JPH0877177A (en) * 1994-09-01 1996-03-22 Fujitsu Ltd List processing system and method therefor
JPH0895980A (en) * 1994-09-28 1996-04-12 Meidensha Corp Method for retrieving data and drawing in database system
JPH10187762A (en) * 1996-10-22 1998-07-21 Fujitsu Ltd Retrieval logic expression input device
JP2005216173A (en) * 2004-01-30 2005-08-11 Kyocera Corp Data retrieval apparatus and method
WO2007066414A1 (en) * 2005-12-09 2007-06-14 Fujitsu Limited Program, data extracting apparatus and method of extracting data
JP2008310602A (en) * 2007-06-14 2008-12-25 Fujitsu Ltd Retrieval program, retrieval method and retrieval device
JP2011008811A (en) * 2010-08-16 2011-01-13 Fujitsu Ltd Program, and data extraction method
JP4856627B2 (en) * 2004-04-22 2012-01-18 オラクル・インターナショナル・コーポレイション Partial query caching
JP2013145569A (en) * 2013-02-25 2013-07-25 Fujitsu Ltd Program, data extracting device and method
CN112785400A (en) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 Intelligent retrieval method and system for finance and tax removing data

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3545007B2 (en) * 1993-03-17 2004-07-21 新日鉄ソリューションズ株式会社 Database search system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02130673A (en) * 1988-11-10 1990-05-18 Chubu Nippon Denki Software Kk Data retrieving system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02130673A (en) * 1988-11-10 1990-05-18 Chubu Nippon Denki Software Kk Data retrieving system

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844758A (en) * 1994-07-27 1996-02-16 Fuji Photo Film Co Ltd Method and device for data retrieval and information recording medium
JPH0877177A (en) * 1994-09-01 1996-03-22 Fujitsu Ltd List processing system and method therefor
JPH0895980A (en) * 1994-09-28 1996-04-12 Meidensha Corp Method for retrieving data and drawing in database system
JPH10187762A (en) * 1996-10-22 1998-07-21 Fujitsu Ltd Retrieval logic expression input device
JP2005216173A (en) * 2004-01-30 2005-08-11 Kyocera Corp Data retrieval apparatus and method
JP4856627B2 (en) * 2004-04-22 2012-01-18 オラクル・インターナショナル・コーポレイション Partial query caching
JPWO2007066414A1 (en) * 2005-12-09 2009-05-14 富士通株式会社 Program and data extraction method
WO2007066414A1 (en) * 2005-12-09 2007-06-14 Fujitsu Limited Program, data extracting apparatus and method of extracting data
JP5238105B2 (en) * 2005-12-09 2013-07-17 富士通株式会社 Program and data extraction method
JP2008310602A (en) * 2007-06-14 2008-12-25 Fujitsu Ltd Retrieval program, retrieval method and retrieval device
JP2011008811A (en) * 2010-08-16 2011-01-13 Fujitsu Ltd Program, and data extraction method
JP2013145569A (en) * 2013-02-25 2013-07-25 Fujitsu Ltd Program, data extracting device and method
CN112785400A (en) * 2021-01-12 2021-05-11 四川天行健穗金科技有限公司 Intelligent retrieval method and system for finance and tax removing data

Also Published As

Publication number Publication date
JP3258063B2 (en) 2002-02-18

Similar Documents

Publication Publication Date Title
EP0510634B1 (en) Data base retrieval system
US6496820B1 (en) Method and search method for structured documents
CN102142038B (en) Multi-stage query processing system and method for use with tokenspace repository
JP2000163442A (en) Symbol dictionary generating method and symbol dictionary retrieving method
JP2833580B2 (en) Full-text index creation device and full-text database search device
JP3258063B2 (en) Database search system and method
JPH08147320A (en) Information retrieving method and system
JP3151730B2 (en) Database search system
JPH06274193A (en) Data base retrieval system
JPH0773197A (en) Supporting system for preparing different notation word dictionary
JP4208326B2 (en) Information indexing device
JPH064584A (en) Text retriever
JP3259781B2 (en) Database search system and database search method
JP2993540B2 (en) Ascending integer sequence data compression and decoding system
JP3288063B2 (en) Variable length data storage and reference system
JP2519129B2 (en) Multi-word information retrieval processing method and retrieval file creation device
JP2519130B2 (en) Multi-word information retrieval processing method and retrieval file creation device
JP2993539B2 (en) Database search system and method
JPH06325091A (en) Similarity evaluation type data base retrieval device
JPH0869474A (en) Similar character string retrieval device
JP3344755B2 (en) Ascending integer sequence data compression and decoding system
JPH02287876A (en) Text type data base device
JPH02148174A (en) Data retrieving device
JPH07160724A (en) Document retrieval device
JP3446866B2 (en) Database creation apparatus and method

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20010626

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20011030

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071207

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081207

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091207

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 10

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 10

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 11