JPH0587865B2 - - Google Patents

Info

Publication number
JPH0587865B2
JPH0587865B2 JP1263067A JP26306789A JPH0587865B2 JP H0587865 B2 JPH0587865 B2 JP H0587865B2 JP 1263067 A JP1263067 A JP 1263067A JP 26306789 A JP26306789 A JP 26306789A JP H0587865 B2 JPH0587865 B2 JP H0587865B2
Authority
JP
Japan
Prior art keywords
collocation
data
search
information
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1263067A
Other languages
Japanese (ja)
Other versions
JPH03125263A (en
Inventor
Mikizo Kasugai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tokai Television Broadcasting Co Ltd
Original Assignee
Tokai Television Broadcasting Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokai Television Broadcasting Co Ltd filed Critical Tokai Television Broadcasting Co Ltd
Priority to JP1263067A priority Critical patent/JPH03125263A/en
Publication of JPH03125263A publication Critical patent/JPH03125263A/en
Publication of JPH0587865B2 publication Critical patent/JPH0587865B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、日本語等による多量の文字情報から
成るデータベースの中から検索条件に適合するデ
ータを検索する情報検索システムに関する。
DETAILED DESCRIPTION OF THE INVENTION (Field of Industrial Application) The present invention relates to an information retrieval system for searching data matching search conditions from a database consisting of a large amount of character information in Japanese or the like.

(従来の技術) フリーワード方式の情報検索システムとして、
特願昭61−055683号の「日本語情報検索システ
ム」が提案されている。これは、一文字単位ごと
に、文字種と、その文字が含まれる実データのデ
ータ番号指定ビツトとで構成される文字索引のみ
を持ち、検索条件として指定された文字列内の、
すべての文字種について、その索引のデータ番号
を示すビツト列間の論理演算を行ない、その結果
によつて、指定された文字列のすべての文字種を
含む実データのデータ番号を知り、次にその実デ
ータを読み出して走査し、検索条件として指定さ
れた文字列に合致するか否かを判定して、目的と
する実データを検索するようにしている。
(Prior art) As a free word-based information retrieval system,
Japanese Patent Application No. 61-055683 proposes a ``Japanese information retrieval system''. This has only a character index for each character, consisting of the character type and the data number designation bit of the actual data that contains that character.
For all character types, perform a logical operation between the bit strings that indicate the data number of the index, and from the result, know the data number of the actual data that includes all the character types of the specified character string, and then is read out and scanned, and it is determined whether or not it matches a character string specified as a search condition, thereby searching for the target actual data.

上述の方式では、特に文字と文字の組み合わせ
についての索引は持つていない。したがつて例え
ば文字と文字の組み合わせとして、「情報検索」
という文字列を検索しようとする場合、「情」
「報」「検」「索」の4文字を含むデータを検索し
た後、更にそのデータの中の「情報検索」という
文字列を検索する必要がある。
The above-mentioned method does not have an index specifically for characters and character combinations. Therefore, for example, as a combination of characters, "information retrieval"
If you try to search for the string ``jo''
After searching for data containing the four characters ``information'', ``search'', and ``search'', it is necessary to search for the character string ``information search'' in the data.

(発明が解決しようとする課題) このような従来方式においては、文字索引によ
る論理演算によつて、少なくとも指定された文字
列内のすべての文字を含んでいるデータ、という
必要条件は満たすことができるが、文字と文字の
組み合わせについては考慮されていないので、必
ず実データを走査する必要があり、そのため候補
となる実データの数が多いときには、極めて長い
検索時間を要するという問題点がある。
(Problem to be Solved by the Invention) In such a conventional method, logical operations using a character index cannot satisfy the requirement that the data contain at least all the characters in a specified character string. However, since the combination of characters is not taken into account, it is necessary to scan the actual data, and therefore, when there is a large number of candidate actual data, there is a problem that it takes an extremely long search time.

(課題を解決するための手段及び作用) 本発明は、上述した課題を解決するための手段
として、 情報検索システムにおいて、 情報の登録時には、登録データにデータ番号を
付加し、該登録データ中に現れる文字と文字の組
み合わせによる連語を抽出し、 該連語の連語番号を、複数の座標軸から成る多
次元空間の固有の点として示す複数の座標値(キ
ー値)に変換し、 前記キー値と、該キー値に対応したデータ番号
指定ビツト列とを有する連語索引において、前記
複数のキー値とデータ番号の該当するビツトをオ
ンとすることによつて前記連語を登録し、 情報の検索時には、検索条件としての文字列に
含まれる文字と文字の組み合わせによる連語を抽
出し、 該連語の連語番号を、複数の座標軸から成る多
次元空間の固有の点として示す複数の座標値(キ
ー値)に変換し、 前記連語索引の前記検索すべき連語のキー値に
対応するビツト列の同一位置ビツト同士について
論理積を求め、 その結果得られるオンビツトの示すデータ番号
から、前記検索条件としての文字列の連語を含む
データを検索することを特徴とする、情報検索シ
ステムにおける連語索引を用いた検索法を提供す
るものである。
(Means and effects for solving the problem) The present invention, as a means for solving the above-mentioned problems, provides an information retrieval system that adds a data number to registered data when registering information, and adds a data number to the registered data. Extract collocations made up of characters and character combinations that appear, convert the collocation number of the collocation into a plurality of coordinate values (key values) that are represented as unique points in a multidimensional space consisting of a plurality of coordinate axes, and combine the key values and In a collocation index having a data number designation bit string corresponding to the key value, the collocation is registered by turning on the corresponding bits of the plurality of key values and the data number, and when searching for information, the collocation is registered. Extracts collocations based on combinations of characters included in the character string as a condition, and converts the collocation number of the collocations into multiple coordinate values (key values) that are represented as unique points in a multidimensional space consisting of multiple coordinate axes. Then, calculate the logical product of bits at the same position in the bit string corresponding to the key value of the collocation to be searched in the collocation index, and from the data number indicated by the resulting on-bit, determine the collocation of the character string as the search condition. The present invention provides a search method using a collocation index in an information retrieval system, which is characterized by searching for data containing .

また、前記連語に漢字コード表に従つた連語番
号を設定し、 前記連語番号から多次元空間の固有の点を示す
複数の座標軸のキー値を求める計算手法として、
前記連語番号を複数の素数により除算した余りを
求めるMOD演算を行ない、 該演算結果に種別マークを付加することによ
り、単漢字の文字番号に変換して、前記複数のキ
ー値とすることを特徴とする、情報検索システム
における連語索引を用いた検索法により、前記課
題を解決しようとするものである。
Further, as a calculation method, a collocation number is set in the collocation according to the kanji code table, and key values of multiple coordinate axes indicating unique points in a multidimensional space are obtained from the collocation number.
A MOD operation is performed to obtain a remainder when the compound word number is divided by a plurality of prime numbers, and a type mark is added to the result of the operation, thereby converting it into a single kanji character number and using it as the plurality of key values. The present invention attempts to solve the above problem by using a search method using a collocation index in an information retrieval system.

本発明の特徴は、文字と文字の組み合わせによ
る連語を、従来のように単独の索引で指し示すの
ではなく、該連語の連語番号を、複数の座標軸か
ら成る多次元空間の固有の点として示す複数の座
標値(キー値)に変換し、多次元空間に写像する
ことにある。
A feature of the present invention is that, instead of pointing to a compound word consisting of a combination of characters using a single index as in the past, the compound word number of the compound word is indicated as a unique point in a multidimensional space consisting of a plurality of coordinate axes. The goal is to convert it into coordinate values (key values) and map it to a multidimensional space.

前述の連語の連語番号を、複数の座標値(キー
値)に変換する方法としては、 もつとも一般的な除算法をはじめ、数字分析
法、中央2乗法、折り曲げ法、リンの方法などが
あるが、適当な範囲にできるだけ一様に分布する
ような関数ならばどれでもよい。
Methods for converting the collocation numbers mentioned above into multiple coordinate values (key values) include the most common division method, numerical analysis method, median square method, folding method, and Lin's method. , any function may be used as long as it is distributed as uniformly as possible within an appropriate range.

本発明の方式は、予め定めた文字と文字の組み
合わせを数個のキーの論理積で表現するものであ
り、日本語の文章で使われる数千字の文字の中の
例えば任意の2文字の順列組み合わせが、数千万
という大きな数になるにもかかわらず、キーの総
数を数千個に減らすことができ、文字と文字の組
み合わせに関する索引を、従来の文字索引の場合
とまつたく同様に扱うことを可能にしたものであ
る。
The method of the present invention expresses a predetermined combination of characters by the logical product of several keys. Although the number of permutation combinations is large, in the tens of millions, the total number of keys can be reduced to a few thousand, and indexes on characters and combinations of characters can be used just as well as traditional character indexes. It made it possible to handle it.

(実施例) 次に本発明の実施例について図面を参照しなが
ら説明する。
(Example) Next, an example of the present invention will be described with reference to the drawings.

第3図はJISコードで漢字がどのように定義さ
れているかを示したものである。漢字はその使用
頻度により第1水準と第2水準とに分かれ、漢字
1文字は2つのコード番号で表現されている。い
ま1つ目のコード番号を「扁」、2つ目のコード
番号を「旁」とすると、第1水準の漢字は16進数
表示で(30)から(4F)までの32個の扁を示す
コード番号を有し、第2水準の漢字は、同様に
(50)から(73)までの36個の扁を示すコード番
号を有する。これらの合わせて68個の扁のそれぞ
れが、(21)〜(7E)までの94個の旁を示すコー
ド番号と組み合わされ、漢字の総数はその積の
6392字(第1水準の最後の未定義文字43個を含
む)となる。
Figure 3 shows how kanji are defined in the JIS code. Kanji are divided into level 1 and level 2 depending on their frequency of use, and one kanji character is represented by two code numbers. Let's say that the first code number is ``bian'' and the second code number is ``旁'', then the first level kanji shows 32 kanji from (30) to (4F) in hexadecimal notation. The second-level Kanji characters similarly have code numbers indicating 36 flats from (50) to (73). Each of these 68 旁 is combined with the 94 旁 code numbers from (21) to (7E), and the total number of kanji is the product of these numbers.
This results in 6392 characters (including the last 43 undefined characters of the first level).

本発明の方式は、何文字の組み合わせについて
も適用できるものであるが、説明の繁雑化を避け
るために、漢字2字の組み合わせの連語の場合に
ついて、上述した第3図を参照しながら説明す
る。
The method of the present invention can be applied to any combination of characters, but in order to avoid complicating the explanation, we will explain the case of a combination of two kanji characters with reference to Figure 3 above. .

また、文字の組み合わせに番号をふる方法とし
ては、いろいろあるが、ここでは、連番方式を用
いる場合について説明する。
There are various methods of assigning numbers to combinations of characters, but here we will explain the case of using a serial numbering method.

さらに、上述の連語を数個の数値(キー)の論
理積で表現する場合のキーの定めかたにもいろい
ろな方式があるが、ここでは、数個の整数による
法(MOD)を用いる場合について説明する。
Furthermore, there are various ways to determine the key when expressing the above-mentioned collocation by the logical product of several numbers (keys), but here we will use the modulus (MOD) of several integers. I will explain about it.

まず、第3図の表に従つて、最初の文字である
「亜」は1番、次の「唖」は2番……というよう
に連番をふつていくと、最後の「龠」は6392番に
なる。また、これをもとにして漢字2文字の連語
の組み合わせにも順に番号をふると、「亜亜」は
1番、「亜唖」は2番、……「亜龠」は6392番、
「唖亜」は6393番……最後の「龠龠」は40857664
番とすることができる。
First, according to the table in Figure 3, the first character ``A'' is number 1, the next character ``唖'' is number 2, and so on, and so on, and the last character ``龠'' is It will be number 6392. Also, based on this, if we number the combinations of two kanji characters in order, ``aya'' is number 1, ``aya'' is number 2, ... ``aya'' is number 6392,
"Mua" is number 6393...The last "Koya" is 40857664
It can be the number.

これの一般式は、1字目の番号をP、2字目の
番号をSとすると、 連語番号N=(P−1)*6.392+S…(1) で表わされ、これから、予め定めた数個の整数に
よる法(MOD)により、キーを求め、それによ
つて連語を定義することができる。
The general formula for this is, if the first character number is P and the second character number is S, it is expressed as the conjunctive number N = (P-1) * 6.392 + S... (1), and from this, the predetermined number is The modulus of several integers (MOD) allows us to find keys and define collocations.

以上の更に詳細な説明を、次に本実施例の動作
の、データの格納時と検索時とを用いて説明す
る。
A more detailed explanation of the above will now be given using the operations of this embodiment when storing data and when retrieving data.

第1図は、例としてデータ「情報の蓄積と検
索」をとりあげて、本実施例におけるデータ格納
時の連語索引登録の動作を説明するためのもので
ある。
FIG. 1 is for explaining the operation of collocation index registration at the time of data storage in this embodiment, taking data "information storage and retrieval" as an example.

いま、データ「情報の蓄積と検索」が入力さ
れ、データ番号(本例では123とする)を付与さ
れて実データ部に格納されたとする(処理1)。
Assume now that data "information storage and retrieval" is input, assigned a data number (123 in this example), and stored in the actual data section (processing 1).

このときデータ「情報の蓄積と検索」に含まれ
ているすべての文字が抽出される(処理2……こ
こでは、ひらがなについては省略している。)。
At this time, all characters included in the data "Information storage and retrieval" are extracted (Process 2...Hiragana characters are omitted here).

次に、抽出されたおのおのの文字索引ビツト列
のデータ番号に対応するビツトが論理“1”にさ
れ(◎部)、文字索引へ登録される(処理3)。
Next, the bit corresponding to the data number of each extracted character index bit string is set to logic "1" (◎) and registered in the character index (processing 3).

ただし、図においては、文字索引の一部分のみ
が概略的に示されており、データ番号123に対応
する123番目のビツト周辺と、456番目のビツト周
辺のみ概略的に示されており、ビツト列として
は、必要なデータ番号分の連続したビツト列が用
意されている。
However, in the figure, only a part of the character index is schematically shown, and only the area around the 123rd bit corresponding to data number 123 and the area around the 456th bit are schematically shown, and the character index is shown schematically as a bit string. A continuous bit string for the required data numbers is prepared.

つづいて、データ「情報の蓄積と検索」に含ま
れているすべてのとなり同士の文字と文字の組み
合わせが連語として抽出される。すなわち、「情
報/報の/の蓄/蓄積/積と/と検/検索」の7
組であるが、第1図では漢字同士ではない組み合
わせは図示を省略してある(処理4)。
Next, all adjacent character and character combinations included in the data "information storage and retrieval" are extracted as collocations. In other words, 7 of "Storage/accumulation/product/examination/search of information/information"
However, in FIG. 1, combinations that are not kanji characters are not shown (processing 4).

次に、これら7組のそれぞれを数個のキー(数
値)の論理積で表現するようにキーの値を定める
のであるが、ここではそのうち「情報」をとりあ
げて説明する。
Next, key values are determined so that each of these seven sets is expressed by the logical product of several keys (numeric values), but here we will focus on "information" and explain it.

まず、「情」「報」の文字番号を第3図に示した
JISコードから求めると、「情」は1396番、「報」
は2527番であるので「情報」の連語番号Nは、前
述の(1)式より、 N=(1396−1)*6392+2527=8919367 となる。
First, the letter numbers for "information" and "information" are shown in Figure 3.
According to the JIS code, ``jo'' is number 1396, and ``information'' is number 1396.
is number 2527, so the collocation number N of "information" is N=(1396-1)*6392+2527=8919367 from equation (1) above.

次に、予め定めた数個の整数による法
(MOD)によつてキーを求める。キーの数およ
び整数の値はいろいろあり得るが、ここではキー
の数は4個、整数としては、例えば(751 743
739 733)という4つの素数をとることにすると、 MOD(751)=(8919367÷751)の余り=491 MOD(743)=(8919367÷743)の余り=395 MOD(739)=(8919367÷739)の余り=376 MOD(733)=(8919367÷733)の余り)=223 により(491 395 376 223)の4つの数値を得る
ことができる。
Next, the key is determined by a modulus (MOD) of several predetermined integers. The number of keys and the value of the integer can be various, but here the number of keys is 4, and the integer is, for example (751 743
739 733), MOD (751) = remainder of (8919367 ÷ 751) = 491 MOD (743) = remainder of (8919367 ÷ 743) = 395 MOD (739) = (8919367 ÷ 739 ) remainder = 376 MOD (733) = (8919367÷733) remainder) = 223, we can obtain the four numbers (491 395 376 223).

これをそのまま4つのキーとすると、他に種別
マーク(4つのキーを区別して扱うために必要と
なる)を必要とするので、種類毎に第1水準の漢
字3008字を752づつの4つの範囲に入るように、
以下の計算を行なう。
If we were to use these as 4 keys, we would also need a type mark (required to distinguish between the 4 keys), so we would need to divide the 3008 first-level kanji into 4 ranges of 752 for each type. to enter,
Perform the following calculations.

第1キーMOD(751)+752*0=491〓「亀」 第2キーMOD(743)+752*1=1147〓「軸」 第3キーMOD(739)+752*2=1880〓「寵」 第4キーMOD(733)+752*3=2479〓「弊」 これから得られた(491 1147 1880 2479)とい
うキー値を、更に文字番号とみなして、第3図の
JISコードによつて翻訳すると「亀/軸/寵/弊」
となる。
1st key MOD (751) + 752 * 0 = 491 = "turtle" 2nd key MOD (743) + 752 * 1 = 1147 = "axis" 3rd key MOD (739) + 752 * 2 = 1880 = "favor" 4th Key MOD (733) + 752 * 3 = 2479 = "Me" The key value (491 1147 1880 2479) obtained from this is further regarded as a character number, and the result shown in Figure 3 is
Translated according to JIS code: "Turtle/axis/kei/hei"
becomes.

この様に最後に漢字に変換したのは、従来の文
字索引と同じような扱いをするための工夫であつ
て、本質的な問題ではない。(例えば、1000の位
で種別を表して、(1491 2395 3376 4223)とする
のは最も簡明な方法である。) いずれにしろ、こうして「情報」という連語は
4個のキー(例えば4個の漢字の組み合わせ)で
表現することができる(処理4)。
This final conversion to kanji is a device to treat the index in the same way as a conventional character index, and is not an essential problem. (For example, the simplest way is to express the type in the 1000's as (1491 2395 3376 4223).) In any case, the collocation "information" can be expressed using four keys (for example, four keys). (a combination of kanji) (processing 4).

そこで上述した連語「情報」の4個のキー(漢
字)の連語索引のビツト列のデータ番号に対応す
るビツトを、それぞれ論理“1”にして連語索引
に登録し、同様に「蓄積」、「検索」についてもそ
れぞれ4個のキーを算出し、それぞれ連語索引に
登録する(処理5)。
Therefore, the bits corresponding to the data numbers of the bit strings of the collocation index of the four keys (kanji) of the collocation "information" mentioned above are set to logic "1" and registered in the collocation index, and similarly "storage", " 4 keys are also calculated for "Search" and registered in the collocation index (processing 5).

次に連語索引の検索について以下に述べる。 Next, the search of the collocation index will be described below.

第2図は、例として検索条件として文字列「情
報検索」をとりあげて本実施例における検索時の
動作を説明するものである。
FIG. 2 explains the operation during a search in this embodiment, taking the character string "information search" as an example of a search condition.

また、実データ部には、第1図、処理1の実デ
ータ部の様にデータ番号123「情報の蓄積と検索」
の他に、データ番号456「東海テレビ情報検索シス
テム」等、多くのデータが既に格納されているも
のとする。
Also, in the actual data section, data number 123 "Information storage and retrieval" is included, as shown in the actual data section of Process 1 in Figure 1.
In addition, it is assumed that much data has already been stored, such as data number 456 "Tokai Television Information Search System."

検索条件として文字列「情報検索」が入力され
ると(処理1)、まず「情」、「報」、「検」、「索」
という4つの文字索引のビツト列が同一ビツト位
置同士で論理積演算される。この演算によつて、
第123ビツトと第456ビツトだけが“1”になつた
ビツト列として得られたとすると、この結果か
ら、「情/報/検/索」の4文字を含んでいるデ
ータは123番と456番の2つしかないことが分か
り、この他のデータは「情報検索」という文字列
を含んでいるということはありえないため、検索
候補から外しても良いことになる(処理2)。
When the character string "information search" is input as a search condition (process 1), first "information", "information", "search", "search" are input.
The bit strings of the four character indexes are ANDed with the same bit positions. By this calculation,
Assuming that a bit string in which only the 123rd and 456th bits are “1” is obtained, from this result, the data containing the four characters “information/information/search/retrieval” are the 123rd and 456th bits. It turns out that there are only two such data, and since it is impossible for other data to contain the character string "information search", it can be excluded from the search candidates (processing 2).

次に、「情報検索」という文字列に含まれてい
る「情報」、「報検」、「検索」の3つの連語を抽出
し、それぞれ4個のキーを前述した登録時の計算
方式により算出する。その結果、「情報」のキー
は「亀/軸/寵/弊」となり、同様の計算によ
り、「報検」のキーは「翫/後/凍/麺」であり、
「検索」のキーは「窟/湘/瀞/彼」であること
が求められる(処理3)。
Next, we extract the three combinations of "information,""investigation," and "search" contained in the string "information search," and calculate the four keys for each using the calculation method used during registration as described above. do. As a result, the key for "information" is "kame/jiku/kei/hei", and by the same calculation, the key for "hoken" is "kan/ago/frozen/noodles".
The key for "search" is required to be "kutsu/sho/toro/he" (processing 3).

そこで、先に文字索引の論理演算の結果として
得たビツト列と、これら12個のキーの連語索引の
ビツト列の同一ビツト位置同士で論理積演算をす
る。この演算によつて、第456ビツトだけが“1”
になつたビツト列として得られたとすると、「情
報検索」という文字列を含む可能性のあるデータ
は456番だけとなる(処理4)。
Therefore, a logical AND operation is performed between the bit string obtained as a result of the logical operation of the character index and the same bit position of the bit string of the conjunctive index of these 12 keys. By this operation, only the 456th bit is “1”
If it is obtained as a corrupted bit string, the only data that may contain the character string "information search" is number 456 (processing 4).

そこで456番のデータを実データ部から読み出
して、実際に「情報検索」という文字列を含んで
いることを確認すれば、これが検索条件に適合す
るデータであることになる(処理5)。
Therefore, if data No. 456 is read from the actual data section and confirmed that it actually contains the character string "information search", this data is found to match the search condition (processing 5).

この様に、本発明では、連語索引を文字索引と
合わせて検索することにより、文字索引のみの検
索に較べて、候補となる実データの数を極めて少
なく絞ることができる。
In this way, in the present invention, by searching the collocation index together with the character index, the number of actual data candidates can be narrowed down to a much smaller number than when searching only with the character index.

次に数少ない連語索引によつて、極めて大きな
組み合わせの数を扱うことが、なぜ可能であるの
かについて説明する。第1水準と第2水準の漢字
2個から成る連語は、前述のように約4千万有り
得るが、例えば350の3乗は既に4千万を越える
ので、350程度のスケールの3個の座標軸の値
(キー)によつて、すべての連語をユニークな座
標に位置づけることが可能である。
Next, we will explain why it is possible to handle an extremely large number of combinations using a small number of collocation indexes. As mentioned above, there are about 40 million collocations consisting of two kanji of the first and second level, but for example, 350 to the power of 3 already exceeds 40 million, so there are three coordinate axes with a scale of about 350. By the value (key) of , it is possible to locate every collocation at a unique coordinate.

しかし、逆にある座標が“1”であれば対応す
る連語が存在するとは限らない。複数の連語が互
いに干渉しあつて、偶然その座標を示している可
能性もあるからである。これは検索ノイズとし
て、検索結果の精度を低下させる。この様な場合
は、スケールを約2倍にし、座標軸も1個増やし
て、約3千億の座標を持つことによつて、相当程
度、こうした検索ノイズの発生を防ぐことができ
る。
However, conversely, if a certain coordinate is "1", it does not necessarily mean that a corresponding collocation exists. This is because multiple collocations may interfere with each other and accidentally indicate the coordinates. This acts as search noise and reduces the accuracy of search results. In such a case, the occurrence of such search noise can be prevented to a considerable extent by doubling the scale and increasing the number of coordinate axes by one to have about 300 billion coordinates.

上例の123番のデータが、論理演算の結果排除
されたのは、123番のデータは「情報の蓄積と検
索」であつたから、「情報」と「検索」に対応す
る8個のキーの連語索引ビツト列の第123ビツト
は当然“1”になつているが、「報検」に対応す
る4個のキーの連語索引ビツト列の第123ビツト
が4個とも“1”になつている可能性は極めて小
さいからである。
Data number 123 in the above example was eliminated as a result of the logical operation because data number 123 was "information storage and retrieval", so the eight keys corresponding to "information" and "retrieval" were excluded. Naturally, the 123rd bit of the collocation index bit string is “1”, but all four 123rd bits of the collocation index bit string of the four keys corresponding to “Hoken” are “1”. This is because the possibility is extremely small.

なお、上例では検索条件が「情報検索」という
1個の文字列の場合について説明したが、それに
限らず「情報」および「検索」というように複数
の文字列をすべて含む場合とか、「情報」あるい
は「検索」というように複数の文字列のどれかを
含む場合とか、更にその混合型などの複雑な検索
条件に対応することも、文字索引および連語索引
のビツト列の同一ビツト位置同士の論理演算内容
を変更することによつて容易に実現できる。
In addition, in the above example, we explained the case where the search condition is a single character string "information search", but it is not limited to this, and may include multiple character strings such as "information" and "search", or when the search condition is "information search". It is also possible to handle complex search conditions such as ``'' or ``search,'' which include any of multiple character strings, or even mixed types of strings. This can be easily realized by changing the logical operation contents.

また、上例では、漢字同士の組み合わせの連語
について説明したが、漢字とひらがなの組み合わ
せ、カタカナ同士の組み合わせ等の漢字同士では
ない組み合わせについても、同様の方法による連
語索引を作成することが容易に実現できる。
In addition, in the above example, we explained collocations that are combinations of kanji, but it is also easy to create collocation indexes using the same method for combinations that are not kanji, such as combinations of kanji and hiragana, or combinations of katakana. realizable.

また、上例では、2文字の組み合わせについて
説明したが、3文字以上の組み合わせに適用する
ことも可能である。
Further, in the above example, a combination of two characters was described, but it is also possible to apply to a combination of three or more characters.

更に、上例では、漢字同士の連語索引の数は4
個の素数(751 743 739 733)の和である2966個
であり、文字に変換すれば第1水準の範囲に収ま
つている。すなわち、4千万強ある漢字同士の組
み合わせが、第1水準の文字の範囲で表現されて
いるのであるが、論理演算の精度は座標軸(キ
ー)の数と、取り得る範囲の値(キー値)によつ
て決まるので、必要に応じて、より精度を高める
ことも容易に実現できる。
Furthermore, in the above example, the number of collocation indexes between kanji is 4.
The number is 2966, which is the sum of the prime numbers (751 743 739 733), and when converted to characters, it falls within the first level range. In other words, over 40 million combinations of kanji are expressed within the range of characters at the first level, but the precision of logical operations depends on the number of coordinate axes (keys) and the range of possible values (key values). ), it is possible to easily increase the accuracy if necessary.

なお、以上の説明は日本語による情報検索につ
いて行つているが、本発明は、漢字構成を採る中
国語による情報検索の場合には、よりいつそう適
している。
Note that although the above explanation has been made regarding information retrieval in Japanese, the present invention is more suitable for information retrieval in Chinese, which has a kanji structure.

(発明の効果) 本発明によれば、従来方式におけるように、文
字索引のみで候補となる実データを絞ることに比
較して、文字索引と連語索引とを用いることによ
つて、候補となる実データをより少なく絞ること
ができる。そのため、実データの走査時間を短縮
することができ、検索速度が向上するという効果
が得られる。
(Effects of the Invention) According to the present invention, compared to narrowing down actual data to be candidates using only a character index as in the conventional method, by using a character index and a collocation index, it is possible to Actual data can be narrowed down to a smaller amount. Therefore, the time required to scan actual data can be shortened, and the search speed can be improved.

またこの論理演算の精度は極めて高いので、稀
に検索ノイズが入り込んで、余計なデータを候補
データに入れてしまうという可能性がありこそす
れ、検索条件に適合するデータが漏れることは絶
対にないという性質を利用して、実用的には、実
データの走査を省略することも可能である。その
場合には、論理演算だけで検索結果を呈示できる
ので、検索時間は著しく短縮されるという効果が
ある。
In addition, since the accuracy of this logical operation is extremely high, there is a possibility that search noise may occasionally enter and add unnecessary data to the candidate data, but data that matches the search conditions will never be missed. By utilizing this property, it is practically possible to omit scanning of the actual data. In that case, search results can be presented using only logical operations, which has the effect of significantly shortening the search time.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は、本発明の一実施例の文字索引と連語
索引の登録時の動作を説明するための図。第2図
は、本実施例の検索時の動作を説明するための
図。第3図は、本発明を説明する前提として、漢
字がJISコードでどのように定義されているかを
示す図。
FIG. 1 is a diagram for explaining the operation at the time of registering a character index and a compound word index according to an embodiment of the present invention. FIG. 2 is a diagram for explaining the operation at the time of search in this embodiment. FIG. 3 is a diagram showing how kanji are defined in the JIS code as a premise for explaining the present invention.

Claims (1)

【特許請求の範囲】 1 情報検索システムにおいて、 情報の登録時には、登録データにデータ番号を
付加し、該登録データ中に現れる文字と文字の組
み合わせによる連語を抽出し、 該連語の連語番号を、複数の座標軸から成る多
次元空間の固有の点として示す複数の座標値(キ
ー値)に変換し、 前記キー値と、該キー値に対応したデータ番号
指定ビツト列とを有する連語索引において、前記
複数のキー値とデータ番号の該当するビツトをオ
ンとすることによつて前記連語を登録し、 情報の検索時には、検索条件としての文字列に
含まれる文字と文字の組み合わせによる連語を抽
出し、 該連語の連語番号を、複数の座標軸から成る多
次元空間の固有の点として示す複数の座標値(キ
ー値)に変換し、 前記連語索引の前記検索すべき連語のキー値に
対応するビツト列の同一位置ビツト同士について
論理積を求め、 その結果得られるオンビツトの示すデータ番号
から、前記検索条件としての文字列の連語を含む
データを検索することを特徴とする、情報検索シ
ステムにおける連語索引を用いた検索法。 2 前記連語に漢字コード表に従つた連語番号を
設定し、 前記連語番号から多次元空間の固有の点を示す
複数の座標軸のキー値を求める計算手法として、
前記連語番号を複数の素数により除算した余りを
求めるMOD演算を行ない、 該演算結果に種別マークを付加することによ
り、単漢字の文字番号に変換して、前記複数のキ
ー値とすることを特徴とする、請求項1に記載の
情報検索システムにおける連語索引を用いた検索
法。
[Claims] 1. In the information retrieval system, when registering information, a data number is added to the registered data, a collocation consisting of a combination of characters appearing in the registered data is extracted, and the collocation number of the collocation is In a collocation index that is converted into a plurality of coordinate values (key values) indicated as unique points in a multidimensional space consisting of a plurality of coordinate axes, and has the key value and a data number designation bit string corresponding to the key value, The collocation is registered by turning on the corresponding bits of multiple key values and data numbers, and when searching for information, the collocation is extracted from the combination of characters included in the string as the search condition, Converting the collocation number of the collocation into a plurality of coordinate values (key values) indicated as unique points in a multidimensional space consisting of a plurality of coordinate axes, and converting the collocation number into a bit string corresponding to the key value of the collocation to be searched in the collocation index. A collocation index in an information retrieval system, characterized in that a logical product is calculated for bits in the same position, and data including a collocation of character strings as the search condition is searched from the data number indicated by the resulting on-bit. Search method used. 2. A calculation method that sets a compound word number according to a kanji code table for the compound word, and calculates key values of multiple coordinate axes indicating unique points in a multidimensional space from the compound word number.
A MOD operation is performed to obtain a remainder when the compound word number is divided by a plurality of prime numbers, and a type mark is added to the result of the operation, thereby converting it into a single kanji character number and using it as the plurality of key values. A search method using a collocation index in an information search system according to claim 1.
JP1263067A 1989-10-11 1989-10-11 Retrieving method using phrase index for information retrieving system Granted JPH03125263A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1263067A JPH03125263A (en) 1989-10-11 1989-10-11 Retrieving method using phrase index for information retrieving system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1263067A JPH03125263A (en) 1989-10-11 1989-10-11 Retrieving method using phrase index for information retrieving system

Publications (2)

Publication Number Publication Date
JPH03125263A JPH03125263A (en) 1991-05-28
JPH0587865B2 true JPH0587865B2 (en) 1993-12-20

Family

ID=17384386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1263067A Granted JPH03125263A (en) 1989-10-11 1989-10-11 Retrieving method using phrase index for information retrieving system

Country Status (1)

Country Link
JP (1) JPH03125263A (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5471610A (en) * 1989-06-14 1995-11-28 Hitachi, Ltd. Method for character string collation with filtering function and apparatus
US5454105A (en) * 1989-06-14 1995-09-26 Hitachi, Ltd. Document information search method and system
EP0437615B1 (en) * 1989-06-14 1998-10-21 Hitachi, Ltd. Hierarchical presearch-type document retrieval method, apparatus therefor, and magnetic disc device for this apparatus
US5748953A (en) * 1989-06-14 1998-05-05 Hitachi, Ltd. Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
US5469354A (en) * 1989-06-14 1995-11-21 Hitachi, Ltd. Document data processing method and apparatus for document retrieval
DE69229521T2 (en) * 1991-04-25 2000-03-30 Nippon Steel Corp Database discovery system
JP2758826B2 (en) * 1994-03-02 1998-05-28 株式会社リコー Document search device
JP4805868B2 (en) * 2007-03-30 2011-11-02 岡谷電機産業株式会社 Discharge tube electrode forming jig and discharge tube electrode forming method using the electrode forming jig

Also Published As

Publication number Publication date
JPH03125263A (en) 1991-05-28

Similar Documents

Publication Publication Date Title
US5787386A (en) Compact encoding of multi-lingual translation dictionaries
EP0834138B1 (en) System and method for reducing the search scope in a lexicon
US4625295A (en) Textual comparison system for locating desired character strings and delimiter characters
US5551049A (en) Thesaurus with compactly stored word groups
US7260570B2 (en) Retrieving matching documents by queries in any national language
CA1066422A (en) Digital reference matrix for word verification
US20060018545A1 (en) User interface and database structure for Chinese phrasal stroke and phonetic text input
JPH04137069A (en) Clarifying of name in register data base
US20020169763A1 (en) Method and system for expanding document retrieval information
US4941124A (en) Text comparator with counter shift register
JP2833580B2 (en) Full-text index creation device and full-text database search device
WO2014047214A1 (en) Hierarchical ordering of strings
JPH0587865B2 (en)
EP0310147A2 (en) Text comparator
US5551026A (en) Stored mapping data with information for skipping branches while keeping count of suffix endings
JP3258063B2 (en) Database search system and method
Ordóñez et al. Grammar compressed sequences with rank/select support
Grossi et al. Asymptotically optimal encodings of range data structures for selection and top-k queries
JP2693914B2 (en) Search system
Navarro et al. New space/time tradeoffs for top-k document retrieval on sequences
US5119327A (en) Text comparator with counters for indicating positions of correctly decoding text elements within an ordered sequence of text elements
CN102722527B (en) Full-text search method supporting search request containing missing symbols
Louza et al. Construction of Fundamental Data Structures for Strings
JPH05250416A (en) Registering and retrieving device for data base
JP3376996B2 (en) Full text search method

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees