JP2519129B2 - Multi-word information retrieval processing method and retrieval file creation device - Google Patents

Multi-word information retrieval processing method and retrieval file creation device

Info

Publication number
JP2519129B2
JP2519129B2 JP3013878A JP1387891A JP2519129B2 JP 2519129 B2 JP2519129 B2 JP 2519129B2 JP 3013878 A JP3013878 A JP 3013878A JP 1387891 A JP1387891 A JP 1387891A JP 2519129 B2 JP2519129 B2 JP 2519129B2
Authority
JP
Japan
Prior art keywords
character
keyword
search
character position
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP3013878A
Other languages
Japanese (ja)
Other versions
JPH04340164A (en
Inventor
忠一 菊池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TELEMATIC KOKUSAI KENKYUSHO
Original Assignee
TELEMATIC KOKUSAI KENKYUSHO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TELEMATIC KOKUSAI KENKYUSHO filed Critical TELEMATIC KOKUSAI KENKYUSHO
Priority to JP3013878A priority Critical patent/JP2519129B2/en
Publication of JPH04340164A publication Critical patent/JPH04340164A/en
Application granted granted Critical
Publication of JP2519129B2 publication Critical patent/JP2519129B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、情報検索を行う情報検
索処理方式に関する。本発明は、特に、マルチキーワー
ドを用いた部分一致検索を行うことに適し、入力された
マルチ検索入力文字列と登録キーワードとの文字列照合
回数を大幅に削減して、マルチ検索入力文字列に対する
部分一致(中間一致、前方一致、後方一致)や完全一致
の各検索処理を高速に行うことができる情報検索処理方
式に関する。本発明は、データベースシステムにおいて
マルチキーワード部分一致検索処理を行う情報検索処理
方式に適する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information search processing system for searching information. INDUSTRIAL APPLICABILITY The present invention is particularly suitable for performing a partial match search using a multi-keyword, and greatly reduces the number of times the input multi-search input character string and a registered keyword are matched to each other, and The present invention relates to an information search processing method capable of performing partial match (intermediate match, forward match, backward match) and perfect match search processes at high speed. INDUSTRIAL APPLICABILITY The present invention is suitable for an information search processing method for performing multi-keyword partial match search processing in a database system.

【0002】[0002]

【従来の技術】従来から、検索対象であるレコードが有
するキーワードの最初から最後まで、検索入力文字列と
の文字列照合を行い、検索者が指定する入力文字列と検
索条件に合致するキーワードからレコード番号をサーチ
する逐次検索方式や、キーワードから検索入力可能な文
字列を作成して索引形式に検索ファイルを格納し、検索
者が指定する入力文字列と検索条件に合致するキーワー
ドを検索ファイルのインデックス構造を利用してサーチ
するインデックス方式がマルチキーワードを用いた部分
一致検索技術として一般的である。
2. Description of the Related Art Conventionally, a character string matching with a search input character string is performed from the beginning to the end of a keyword included in a record to be searched, and an input character string designated by a searcher and a keyword matching a search condition are selected. Sequential search method that searches record numbers, or create a character string that can be searched and input from keywords and store the search file in the index format, and search the search file for keywords that match the input character string specified by the searcher and the search conditions. An index method of searching using an index structure is generally used as a partial match search technique using multiple keywords.

【0003】[0003]

【発明が解決しようとする課題】しかし逐次検索方式で
は、検索対象レコードの有するキーワードの最初から最
後まで、検索入力文字列との照合を行うため、多量のキ
ーワードを有する場合、その検索に多くの時間を要す
る。このため、大規模データベースの検索では、高速な
文字列照合を行う専用のプロセッサやLSIが提案され
ているが、これらの方式では、ハードウエアが限定され
るほか、検索処理を行う計算機と専用プロセッサやLS
Iとの間での文字列転送に時間がかかり、システムとし
て満足できる高速性の実現が課題となっている。
However, in the sequential search method, since the search input character string is matched from the beginning to the end of the keyword of the record to be searched, when a large number of keywords are included, many searches are required for the search. It takes time. For this reason, dedicated processors and LSIs that perform high-speed character string collation have been proposed for searching large-scale databases. However, in these methods, the hardware is limited, and the computer and the dedicated processor that perform the search process are also proposed. And LS
It takes a long time to transfer a character string to and from I, and the realization of high speed that is satisfactory as a system is an issue.

【0004】また、インデックス方式は、部分一致検索
の高速化が可能であるが、検索ファイルが巨大になると
いう欠点がある。このため完全一致、前方一致、後方一
致の検索が使用されているが、中間一致はサポートされ
ていないことが多い。これは、中間一致を行うために、
完全一致、前方一致、後方一致の検索インデックスとは
別に、中間一致用のインデックスが多量に必要になり、
検索ファイルの記憶容量が巨大となること、これに伴い
検索時間が増大すること、および検索ファイルの保守が
容易でないことが主な理由となっている。また、システ
ムによっては検索ファイルの規模の制約から、キーワー
ドの全ての前方一致や後方一致検索がサポートされない
こともある。しかし、検索者はキーワードの中の特徴あ
る文字や文字列を記憶することが多く、このため中間一
致を含む部分一致検索のサポートにより検索がスムーズ
に行なえるようになることが求められている。
The index method can speed up the partial match search, but has a drawback that the search file becomes huge. For this reason, exact match, prefix match, and suffix match searches are used, but intermediate matches are often not supported. This is to make an intermediate match
In addition to the exact match, forward match, and backward match search indexes, a large number of intermediate match indexes are required,
This is mainly because the storage capacity of the search file becomes huge, the search time increases accordingly, and the maintenance of the search file is not easy. Also, depending on the system, due to the limitation of the size of the search file, it may not be possible to support all prefix-matching and suffix-matching searches for keywords. However, searchers often memorize characteristic characters or character strings in keywords, and therefore, it is required that the search can be smoothly performed by supporting partial match search including intermediate matches.

【0005】本発明者は、日本語の場合には、キーワー
ドになりうる単語に同じ文字や同じ文字列が出現する頻
度が低い特徴がある点に着目し、キーワード構成文字を
文字種ごとに格納して検索ファイルを作成し、検索時に
は、検索入力された任意の文字列の構成文字と同じ文字
を検索ファイルから取り出し、検索ファイル中から任意
の文字列の連続性を照合することにより検索を高速化す
ることができることを見出した。
The present inventor has noticed that, in the case of Japanese, there is a characteristic that the same character or the same character string rarely appears in a word that can be a keyword, and the keyword constituent characters are stored for each character type. Create a search file by using the same character as the constituent characters of the search-input arbitrary character string from the search file, and speed up the search by matching the continuity of the arbitrary character string in the search file. I found that I can do it.

【0006】本発明は、上述の観点から巨大なデータベ
ースシステムを対象とするマルチキーワードを用いた部
分一致検索の高速化を実現することができ、しかも特定
のハードウエアに限定されず、検索処理を主記憶上で行
うことにより専用プロセッサやLSIとの文字列の転送
が不要であり、文字と文字位置に着目することにより任
意の文字列検索が可能である汎用性に富む情報検索処理
方式を提供することを目的とする。
From the above viewpoint, the present invention can realize the speedup of partial match search using a multi-keyword for a huge database system, and is not limited to a specific hardware, and the search processing can be performed. Provides a versatile information search processing method that does not require transfer of character strings with a dedicated processor or LSI by performing on main memory, and can search arbitrary character strings by focusing on characters and character positions The purpose is to do.

【0007】[0007]

【課題を解決するための手段】本発明の第一の特徴は、
複数のキーワードから構成されたレコードを検索単位と
し、各キーワードはそのキーワードの論理区分にしたが
って属性が定められ、このレコードを検索対象として所
定の入力文字持つに合致するキーワードのレコードを検
索するマルチキーワード情報検索処理方式の検索ファイ
ル作成装置において、検索対象となるレコードが現れる
ごとに昇順の符号を付与するレコード識別符号付与手段
と、このレコードが有する各キーワードにキーワードの
論理的な区分を示す属性符号を付与するキーワード属性
符号付与手段と、このキーワードを各文字ごとに分解
各文字にキーワード中での位置を示す文字位置順序
符号を付与する文字位置順序符号付与手段と、上記レコ
ードの有する全てのキーワードをキーワード属性ごとに
よって定められた文字位置を先頭位置とする固定長のキ
ーワード属性領域に配列して連結されたキーワード列を
生成するキーワード列生成手段と、上記生成されたキー
ワード列の各キーワードを構成する文字ごとに上記レコ
ード識別符号とキーワード属性符号と文字位置順序符号
とからなり文字位置順序符号を最下位情報とする文字位
置情報を作成して、この文字位置情報を文字種ごとの領
域に格納して検索ファイルを作成する手段とを備えたこ
とを特徴とする。
The first feature of the present invention is:
A record composed of multiple keywords is used as the search unit.
However, each keyword is a logical division of that keyword.
The attribute is defined as
The record of the keyword that matches with having a certain input character is searched.
Search for multi-keyword information retrieval processing method
In the device for creating a file, a record identification code assigning means for assigning an ascending code to each record to be searched, and an attribute code indicating a logical division of a keyword to each keyword of this record. a keyword attribute code providing means for, decomposing the keyword for each character, a character position order code providing means for providing a character position sequence code indicating the location of the keyword in each character, the record
All the keywords that the keyword has for each keyword attribute
Therefore, a fixed-length key whose starting position is the specified character position
Keyword strings that are arranged and concatenated in the keyword attribute area
Keyword sequence generation means to be generated, and the key generated above
Create a character position information shall be the Do Ri character position sequence codes the least significant information from the record identification code and keyword attribute code and character position order code and for each character constituting each keyword word sequence, the character position A means for storing information in an area for each character type to create a search file is provided.

【0008】なお、文字位置情報は、レコードが有する
各キーワードをキーワード属性符号に対応するキーワー
ド属性領域に配列して作成するキーワード列について、
各キーワードの全ての文字を、レコード識別符号とキー
ワード属性符号と文字位置順序符号とで整数からなるコ
ードに変換して作成するもので、 レコード識別符号×n+(Pa −1)+文字位置順序符
号 n:キーワード列文字数 Pa :キーワード属性符号aのキーワード属性領域のキ
ーワード列における先頭文字位置なる数字として与えら
れることが好ましい。
The character position information is obtained by arranging each keyword included in the record in the keyword attribute area corresponding to the keyword attribute code, and
It is created by converting all characters of each keyword into a code consisting of an integer with a record identification code, a keyword attribute code, and a character position order code. Record identification code × n + (P a −1) + character position order Code n: Number of characters in keyword string P a : It is preferable to be given as a number which is the first character position in the keyword string of the keyword attribute area of the keyword attribute code a.

【0009】また本発明の第二の特徴は、第一の特徴で
作成された検索ファイルを備え、検索入力文字列の構成
文字と同じ文字の文字位置情報を上記検索ファイルから
取り出す手段と、この取り出した各文字の文字位置情報
間で、レコード識別符号とキーワード属性符号が共通で
文字位置順序符号が検索入力の文字列と等しい順序であ
り、かつそのキーワード属性符号が検索入力と等しい文
字位置情報の組み合わせを抽出する手段と、この抽出さ
れた文字位置情報の組み合わせに基づいて検索入力文字
列に対応するレコード識別符号を検索結果として出力す
る手段とを備えたことを特徴とする。
A second feature of the present invention is to include a search file created in the first feature, and means for extracting character position information of the same character as a constituent character of a search input character string from the search file, Character position information in which the record identification code and the keyword attribute code are common between the extracted character position information, the character position order code is in the same order as the search input character string, and the keyword attribute code is the same as the search input And a means for outputting a record identification code corresponding to the search input character string as a search result based on the combination of the extracted character position information.

【0010】また、検索入力の文字列を構成できる文字
位置情報の組み合わせの抽出は、検索入力の全キーワー
ドにおける出現頻度の低い文字から順に行うことが好ま
しい。
Further, it is preferable to extract the combination of the character position information which can form the character string of the search input, in order from the character having the lowest appearance frequency in all the keywords of the search input.

【0011】また、検索入力の文字列を構成できる文字
位置情報の組み合わせの抽出は、検索入力文字列の全キ
ーワードにおける出現頻度の低い文字の文字位置順序符
号をi、出現頻度の高い文字の文字位置順序符号をjと
するとき、(文字位置順序符号iの文字の文字位置情
報)−(文字位置順序符号jの文字の文字位置情報)=
i−jの式により行うことが好ましい。
Further, the extraction of the combination of character position information that can form the character string of the search input is performed by extracting the character position sequence code of the character having a low appearance frequency in all the keywords of the search input character string as i, and the character of the character having a high appearance frequency. When the position sequence code is j, (character position information of character with character position sequence code i)-(character position information of character with character position sequence code j) =
It is preferable to use the formula i-j.

【0012】[0012]

【作用】日本語の文字列では、同一の文字が現れる頻度
は英語等に比べると低い。特に漢字については同一の漢
字が繰り返し現れる頻度は低い。例えば広辞苑(岩波書
店発行)の見出し語の説明文書は約900 万字あるが、そ
の中でJIS第1水準の漢字の出現頻度を調べると平均
出現頻度は1155回である。このため、JIS第1水準29
65種の漢字については、検索入力がn文字の場合、広辞
苑の見出し語の説明文書から抽出する照合対象は平均す
ればn×1155文字となる。一般的に検索入力は数十文字
以下であるため、出現頻度の高い文字を含む文字列であ
っても、全部の文字を逐次照合するものに比べるとその
照合回数は極めて少なくなる。
[Function] In a Japanese character string, the frequency of appearance of the same character is lower than that in English. Especially with regard to kanji, the frequency with which the same kanji appears repeatedly is low. For example, Kojien (published by Iwanami Shoten) has about 9 million explanatory texts for headwords. Of these, the JIS 1st level kanji appearance frequency is 1,155 average. Therefore, JIS first level 29
For 65 types of kanji, if the search input is n characters, the average of the collation targets extracted from the explanation document of the entry word of Kojien is n × 1155 characters. In general, since the search input is less than several tens of characters, even a character string including a character having a high frequency of appearance has a much smaller number of matching times than a character string in which all characters are sequentially matched.

【0013】さらに日本語の文字列、特に漢字の文字列
では同一の文字列が発生する頻度は極めて小さい。例え
ば、「通信」という2つの文字列を使用する用語は多々
あるとしても「通信・・」という文字列は「通信回
線」、「通信装置」のように4文字で同一の文字が発生
する頻度は非常に低くなる。このため、検索入力文字列
の構成文字で検索ファイルとの照合を進めていくと、そ
れまでに得られた検索対象候補のキーワードの中から、
検索入力文字列と異なるキーワードが削除され、照合す
る構成文字ごとに検索対象が絞り込まれていく。特に、
検索入力の中の全キーワードにおける出現頻度の低い文
字から順に照合を行うと一層絞り込まれて照合一致を取
る回数を低減できる。
Furthermore, the frequency of occurrence of the same character string is extremely low in Japanese character strings, especially in kanji character strings. For example, even though there are many terms that use two character strings "communication", the character string "communication ..." is the frequency of occurrence of the same four characters such as "communication line" and "communication device". Will be very low. For this reason, if you proceed with matching with the search file using the constituent characters of the search input character string, from among the search target candidate keywords that have been obtained so far,
Keywords that are different from the search input character string are deleted, and the search target is narrowed down by the constituent characters that are matched. Especially,
If the collation is performed in order from the character having the lowest appearance frequency in all the keywords in the search input, the number of collation matches can be further narrowed down and the number of collation matches can be reduced.

【0014】したがって、検索対象となるレコードが有
するキーワードを構成する各文字に対応して、レコード
を特定できるレコード識別符号と、キーワードの属性を
特定できるキーワード属性符号と、キーワード中の文字
位置を特定できる文字位置順序符号とから文字位置情報
を作成し、この文字位置情報を文字種ごとに格納して検
索ファイルを作成し、この検索ファイルに対して検索入
力文字列との照合一致を行うことにより文字列検索にお
ける照合一致処理回数を大幅に低減することができる。
Therefore, the record identification code that can specify the record, the keyword attribute code that can specify the attribute of the keyword, and the character position in the keyword are specified corresponding to each character that constitutes the keyword of the record to be searched. Character position information is created from the character position sequence codes that can be created, this character position information is stored for each character type, a search file is created, and this search file is collated and matched with the search input character string. It is possible to significantly reduce the number of collation matching processes in the column search.

【0015】この検索ファイルの作成は次のように行
う。
The search file is created as follows.

【0016】まず検索対象となる各レコードに登録順序
に従って昇順にレコード識別符号を付与する。次に、各
レコードが有するキーワードの論理的な種別を属性とし
て、その属性を示すキーワード属性符号を付与する。例
えば図書検索システムの場合、図書名、著者名、発行者
名、刊行年、抄録などの属性を示すキーワード属性符号
が付与される。さらに、キーワードを1文字ごとに分解
し、各文字にキーワードの先頭からの文字位置を示す文
字位置順序符号を付与する。これらのレコード識別符号
とキーワード属性符号と文字位置順序符号とから、キー
ワードの各文字の文字位置情報を生成する。このときキ
ーワード属性を文字位置で表せるように、キーワード属
性符号ごとにあらかじめ設定されたキーワードの先頭文
字位置が定数として文字位置情報に加算されるようにし
ている。この文字位置情報を文字種ごとにグループ化
し、これらの各グループを集合して検索ファイルを作成
する。したがってこの検索ファイルは、文字種ごとに文
字位置情報が格納された形のファイル構造となり、周知
の記録媒体に記憶される。
First, a record identification code is assigned to each record to be searched in ascending order according to the registration order. Next, the logical type of the keyword included in each record is used as an attribute, and a keyword attribute code indicating the attribute is assigned. For example, in the case of a book search system, a keyword attribute code indicating attributes such as a book name, an author name, a publisher name, a publication year, and an abstract is added. Furthermore, the keyword is decomposed character by character, and a character position sequence code indicating the character position from the beginning of the keyword is given to each character. Character position information of each character of the keyword is generated from these record identification code, keyword attribute code, and character position order code. At this time, the leading character position of the keyword preset for each keyword attribute code is added to the character position information as a constant so that the keyword attribute can be represented by the character position. This character position information is grouped for each character type, and these groups are collected to create a search file. Therefore, this search file has a file structure in which character position information is stored for each character type and is stored in a known recording medium.

【0017】検索処理では、検索入力文字列と検索入力
文字列属性との対が1個以上入力される。各検索入力文
字列について検索入力文字列を1文字ごとに分解し、検
索ファイル中から分解した文字と同じ文字の文字位置情
報を取り出して、レコード識別符号が共通で文字位置順
序符号が検索入力の文字列と等しい順序であり、かつそ
のキーワード属性符号が検索入力と等しい文字位置情報
の組み合わせを照合して取り出す。取り出した各検索入
力に対応する文字位置情報から検索入力文字列に対応す
るレコード識別符号を検索結果として取り出す。
In the search process, one or more pairs of a search input character string and a search input character string attribute are input. For each search input character string, the search input character string is decomposed character by character, character position information of the same character as the decomposed character is extracted from the search file, the record identification code is common, and the character position sequence code is the search input character string. A combination of character position information that is in the same order as the character string and whose keyword attribute code is the same as the search input is collated and extracted. A record identification code corresponding to the search input character string is extracted as a search result from the extracted character position information corresponding to each search input.

【0018】この照合処理は、検索入力と検索ファイル
との文字列の連続性の一致と属性の一致とをみるもの
で、検索ファイル中の文字位置情報からレコードの識別
符号が共通していて検索入力の文字位置順序とキーワー
ド属性符号が同じキーワードを取り出すことにより行
う。
This collation processing is to check the continuity of the character string between the search input and the search file and the matching of the attributes, and the record identification code is common from the character position information in the search file. This is done by extracting keywords with the same input character position order and keyword attribute code.

【0019】これにより、検索ファイル中の全キーワー
ドとの照合が不要になり、検索ファイルにある検索入力
の構成文字と同じ文字の文字位置情報だけの照合一致を
行えばよいので、照合回数は逐次照合に比べるときわめ
て低減することができる。また、日本語の単語では、同
じ文字列の出現頻度が低く、文字照合の都度、検索対象
が絞り込まれるので、照合回数は低減していく。
As a result, collation with all keywords in the search file becomes unnecessary, and only the character position information of the same characters as the constituent characters of the search input in the search file need to be collated and matched, so the number of collation is sequentially performed. This can be extremely reduced as compared with collation. Further, in Japanese words, the frequency of occurrence of the same character string is low, and the search target is narrowed down each time character matching is performed, so the number of times matching is reduced.

【0020】さらに、検索ファイルから取り出した文字
位置情報を照合するとき、検索入力の中の全キーワード
における出現頻度の低い文字から順に行うと検索対象が
一層絞り込まれ、照合一致をとる回数がさらに低減でき
る。
Further, when collating the character position information extracted from the retrieval file, if the letters appearing in low frequency in all keywords in the retrieval input are performed in order, the retrieval object is further narrowed down, and the number of collation matching is further reduced. it can.

【0021】このようにして検索入力に合致する文字位
置情報を見出したときは検索入力に対応するレコード識
別符号に該当するレコードを抽出して、検索者に検索結
果として出力する。
When the character position information matching the search input is found in this way, the record corresponding to the record identification code corresponding to the search input is extracted and output to the searcher as the search result.

【0022】[0022]

【実施例】以下図面を参照して本発明の実施例を説明す
る。
Embodiments of the present invention will be described below with reference to the drawings.

【0023】図1は本発明一実施例における情報検索処
理装置の構成を示すものである。
FIG. 1 shows the configuration of an information retrieval processing device according to an embodiment of the present invention.

【0024】本実施例の情報検索処理装置は、各種演算
処理あるいは判断処理を行うCPU1と、検索処理、検
索ファイル作成等のプログラム、作成されたあるいは検
索処理を行うための検索ファイル、検索入力等を記憶す
るメモリ2、キーボード4、ディスプレイ5を接続する
入出力部3、各種情報が記憶される外部記憶装置7を接
続する外部記憶装置制御部6、CPU1、メモリ2、入
出力部3、外部記憶装置制御部6を接続する共通バス8
とを備える。
The information retrieval processing apparatus of the present embodiment has a CPU 1 for performing various arithmetic processing or judgment processing, a program for retrieval processing, retrieval file creation, etc., a retrieval file created or for performing retrieval processing, retrieval input, etc. A memory 2, a keyboard 4, a display 5 for connecting an input / output unit 3, an external storage device 7 for storing various information, an external storage device control unit 6, a CPU 1, a memory 2, an input / output unit 3, an external unit Common bus 8 for connecting the storage device controller 6
With.

【0025】本実施例での情報検索処理は、検索処理に
供するための検索対象となるレコードが有するマルチキ
ーワードから作成するキーワード列について各キーワー
ドの構成文字を文字種ごとに格納して検索ファイルを作
成する検索ファイル作成処理と、検索ファイルとの照合
一致を行って検索入力に合致するキーワードのレコード
を抽出する検索処理との二つに分けられる。
In the information search process of this embodiment, a search string is created by storing the constituent characters of each keyword for each character type in a keyword string created from multiple keywords included in a record to be searched for use in the search process. The search file creation process is performed, and the search process is performed to perform matching and matching with the search file to extract a record of a keyword that matches the search input.

【0026】まず、検索ファイル作成処理について説明
する。
First, the search file creation process will be described.

【0027】この検索ファイル作成処理は、大まかに分
けると、検索ファイル領域確保、各キーワード構成
文字への文字位置情報の付与、文字種別ごとにグルー
プ化した文字位置情報のファイルへの格納の3つに分け
ることができる。この各処理についてそれぞれ説明す
る。
This search file creation processing is roughly divided into three areas: securing a search file area, adding character position information to each keyword constituent character, and storing character position information grouped by character type in a file. Can be divided into Each of these processes will be described.

【0028】 検索ファイル領域確保 登録するレコードの有するキーワードの構成文字をJI
Sコード表に準じて分類し、JISコード表に記載され
ている文字種別に出現頻度を計数する。これにより、検
索ファイルを構成する各文字種グループに登録される文
字位置情報の数がわかるので、全文字種グループで構成
される検索ファイルの領域を確保できる。また同時に、
各文字種グループに登録される文字位置情報数から、検
索ファイル内に連続して格納される文字種グループの先
頭番地もわかる。この文字種グループの先頭番地をJI
Sコード表の記載順に配列したのが図2に示す文字欄ア
ドレス表である。
Secure search file area JI
Classification is performed according to the S code table, and the appearance frequency is counted in the character type described in the JIS code table. As a result, the number of character position information registered in each character type group forming the search file can be known, so that the area of the search file composed of all character type groups can be secured. At the same time,
From the number of pieces of character position information registered in each character type group, the start address of the character type group continuously stored in the search file can be known. The first address of this character type group is JI
The character column address table shown in FIG. 2 is arranged in the order described in the S code table.

【0029】 各キーワード構成文字への文字位置情
報の付与 ここで述べる文字位置情報は、レコードが有する各キー
ワードをキーワード属性番号に対応するキーワード属性
領域に配列して作成するキーワード列において各キーワ
ードを構成するすべての文字が属するレコードの登録す
る順番を示すレコード番号と、キーワードにおけるその
文字の出現する位置を示す文字位置番号と、キーワード
の論理的な種別を示すキーワード属性番号とで作成され
る。
Addition of Character Position Information to Characters Constituting Each Keyword The character position information described here constitutes each keyword in a keyword string created by arranging each keyword included in a record in a keyword attribute area corresponding to a keyword attribute number. The record number indicating the registration order of the records to which all the characters belong, the character position number indicating the position where the character appears in the keyword, and the keyword attribute number indicating the logical type of the keyword.

【0030】まずレコード番号を説明する。例えば、一
般的な図書検索システムでは、図書名、著者名、発行者
名、刊行年、抄録のキーワードで図書を検索する。この
ときレコードは、図書名、著者名、発行者名、刊行年、
抄録のキーワードで構成される検索対象であって、この
レコードが登録される順序に1から昇順に番号を付与し
てレコード番号とする。
First, the record number will be described. For example, in a general book search system, books are searched for by keywords such as book name, author name, publisher name, publication year, and abstract. At this time, the record is the book name, author name, publisher name, publication year,
It is a search target composed of keywords of the abstract, and numbers are added in ascending order from 1 to the order in which this record is registered as the record number.

【0031】次にキーワード属性番号を説明する。一般
的に検索者は、検索する図書を特定しやすいキーワード
を検索入力としたり、あるいは記憶しているキーワード
を検索入力する。このため図書検索システムでは、例え
ば図書名、著者名、発行者名、刊行年、抄録の各キーワ
ードにキーワード属性を付加し、検索入力と図書検索シ
ステムのキーワード間に論理的な関連付けを行ってい
る。ここではキーワード属性番号として、図書名に
「1」、著者名に「2」、発行者名に「3」、刊行年に
「4」、抄録に「5」を付与する。
Next, the keyword attribute number will be described. Generally, a searcher uses a keyword that makes it easy to specify a book to be searched as a search input or inputs a stored keyword as a search input. Therefore, in the book search system, for example, a keyword attribute is added to each keyword of a book name, an author name, a publisher name, a publication year, and an abstract, and the search input and the keyword of the book search system are logically linked. . Here, as the keyword attribute number, "1" is assigned to the book name, "2" to the author name, "3" to the publisher name, "4" to the publication year, and "5" to the abstract.

【0032】次に文字位置番号を説明する。各キーワー
ドを構成する各文字に各キーワードの先頭文字から順
に、1、2、3・・・と昇順に番号を付与し、文字位置
番号とする。
Next, the character position number will be described. Each character constituting each keyword is numbered in ascending order from the first character of each keyword in the order of 1, 2, 3, ... As a character position number.

【0033】次にキーワード列を説明する。レコードの
有するキーワードに対する部分一致検索を検索入力文字
列との文字列照合により実現するために、レコードの有
するすべてのキーワードを連結して文字列を構成し、こ
れをキーワード列とする。すなわち、各キーワードをキ
ーワード属性番号に対応する固定長のキーワード属性領
域に配列しキーワード列を作成する。これによりキーワ
ード列における文字位置から、その文字が属するキーワ
ードの属性がわかる。なお、各キーワード属性領域に続
いてキーワード属性領域の区切りを示すEND記号がキ
ーワード列に格納される。このEND記号はJISコー
ド表の未使用コードを割り当て、ここではコードA3B
Bとする。
Next, the keyword string will be described. In order to realize a partial match search for a keyword included in a record by matching a character string with a search input character string, all keywords included in the record are combined to form a character string, which is used as a keyword string. That is, each keyword is arranged in the fixed-length keyword attribute area corresponding to the keyword attribute number to create a keyword string. Thus, the attribute of the keyword to which the character belongs can be known from the character position in the keyword string. Following each keyword attribute area, the END symbol indicating the delimiter of the keyword attribute area is stored in the keyword string. This END symbol assigns an unused code in the JIS code table, and here is code A3B.
Let B.

【0034】そしてこのキーワード列を対象として、レ
コード番号とキーワード属性番号と文字位置番号からキ
ーワードを構成するすべての文字を整数からなるコード
に変換して文字位置情報を作成する。この文字位置情報
は、次の式(1)で与えられる整数のコードである。 文字位置情報コード=レコード番号×n+(Pa −1)
+p …(1) n:キーワード列文字数 Pa :キーワード属性番号aのキーワード属性領域のキ
ーワード列における先頭文字位置 p:文字位置番号
Then, for this keyword string, all the characters that make up the keyword are converted from the record number, the keyword attribute number, and the character position number into a code consisting of integers to create character position information. This character position information is an integer code given by the following equation (1). Character position information code = record number × n + (P a -1)
+ P (1) n: Number of characters in keyword string P a : Position of first character in keyword string in keyword attribute area of keyword attribute number a p: Character position number

【0035】例えば、キーワード列のキーワード属性領
域サイズが、図書名=64バイト32文字、著者名=32バイ
ト16文字、発行者=64バイト32文字、刊行年=8バイト
4文字、抄録=400 バイト200 文字の図書検索システム
において、レコード番号が100 のレコードが、「図書名
=通信文書の構造」、「著者名=田中一郎」、「発行者
=太平洋出版」、「刊行年=1990」、「抄録=初めての
人にも〜ている」の場合、キーワード列は図3に示すよ
うになる。このときキーワード列は578 バイト(289 文
字)であるから各文字の文字位置情報は図4に示すよう
に構成される。
For example, the keyword attribute area size of the keyword string is as follows: book name = 64 bytes 32 characters, author name = 32 bytes 16 characters, publisher = 64 bytes 32 characters, publication year = 8 bytes 4 characters, abstract = 400 bytes In the 200-character book retrieval system, the record with the record number 100 is "Book name = Structure of correspondence", "Author name = Ichiro Tanaka", "Publisher = Taiheiyo Publishing", "Year of publication = 1990", " In case of "abstract = first person", the keyword string is as shown in FIG. At this time, since the keyword string is 578 bytes (289 characters), the character position information of each character is constructed as shown in FIG.

【0036】そして、このように文字位置情報をそれぞ
れ4バイトのコードで構成すれば、289 文字数のキーワ
ード列を232÷289 ≒1486万個取り扱うことが可能であ
る。
If the character position information is composed of 4-byte codes in this way, it is possible to handle 2 32 ÷ 289 ≈14.86 million keyword strings each having 289 characters.

【0037】 文字位置情報の検索ファイルへの登録 次にこの各文字ごとに付与された文字位置情報を検索フ
ァイルに登録する。上述のように文字種グループは、J
ISコード表に記載された順に検索ファイルに格納され
る。そして各文字の文字位置情報を各文字種グループに
登録する。この文字位置情報の登録は、文字種グループ
の未格納領域の先頭にそれぞれ文字位置情報を格納する
ことによって行われる。このため、登録順にレコード番
号を付与すれば文字種グループ内には文字位置情報が数
値順の昇順に登録されることになる。
Registration of Character Position Information in Search File Next, the character position information given for each character is registered in the search file. As mentioned above, the character type group is J
The search files are stored in the order listed in the IS code table. Then, the character position information of each character is registered in each character type group. The registration of the character position information is performed by storing the character position information at the beginning of the unstored area of the character type group. Therefore, if record numbers are given in the order of registration, the character position information will be registered in the character type group in ascending numerical order.

【0038】上述の図書名「通信文書の構造」の文字位
置情報を検索ファイルに登録した例を図5に示す。この
とき、各グループ内の文字位置情報は昇順に格納され
る。このファイル容量は、文字位置情報が4バイトであ
ると、
FIG. 5 shows an example in which the character position information of the book name "Structure of communication document" is registered in the search file. At this time, the character position information in each group is stored in ascending order. If the character position information is 4 bytes,

【数1】 になる。[Equation 1] become.

【0039】なお、文字位置情報の追加登録は、追加レ
コードが有する各キーワードの各文字に該当するグルー
プの未格納領域の先頭に新規コードを追加することで行
う。また、削除は削除レコードが有する各キーワードの
各文字に該当するグループ内の該当文字位置情報を特殊
記号に変更することによって行う。これにより追加登録
と削除を短時間に行うことができる。
The additional registration of the character position information is performed by adding a new code to the head of the unstored area of the group corresponding to each character of each keyword included in the additional record. The deletion is performed by changing the corresponding character position information in the group corresponding to each character of each keyword included in the deleted record to a special symbol. Thereby, additional registration and deletion can be performed in a short time.

【0040】なお上述のようにこの検索ファイルの各文
字種グループごとに格納された文字位置情報は、文字欄
アドレス表の文字欄先頭番地をディレクトリとして取り
出すことができる。
As described above, the character position information stored for each character type group of the search file can be taken out as a directory at the leading address of the character field of the character field address table.

【0041】以上の検索ファイルの作成処理の流れを図
6および図7に示す。
The flow of the above-mentioned search file creation processing is shown in FIGS. 6 and 7.

【0042】すなわち、文字種の出現度数を計数して文
字欄アドレス表を作成し(S11、12)、検索ファイルの
領域を確保する(S13)。次にレコード登録順位カウン
タをk=1に初期設定して、レコード番号を「1」に、
キーワード列文字数をn=289 に、キーワード属性領域
の先頭文字位置を図書名用としてP1 =1、著者名用と
してP2 =34、発行者名用としてP3 =51、刊行年用と
してP4 =84、抄録用としてP5 =89を設定する(S1
4)。そして最初のレコードを取り出す(S15)。ここ
までが登録の前処理である。ここからレコードごとの登
録処理となり、まず、キーワード属性番号をa=1にセ
ットし(S16)、レコードの中からキーワード属性番号
aのキーワードを取り出す(S17)。さらに、キーワー
ドの構成文字数をmに、文字位置番号をp=1に、キー
ワード属性番号aに該当するキーワード属性領域の先頭
文字位置をPa に設定する(S18)。次に、取り出した
キーワードの先頭文字から順に、文字位置番号pに相当
する文字位置情報を D=k×n+(Pa −1)+p …(2) の式(2)を用いて作成する(S19)。
That is, the frequency of occurrence of character types is counted to create a character column address table (S11, 12), and a search file area is secured (S13). Next, the record registration rank counter is initialized to k = 1, the record number is set to “1”,
The number of characters in the keyword string is n = 289, the first character position of the keyword attribute area is P 1 = 1 for the book name, P 2 = 34 for the author name, P 3 = 51 for the publisher name, P for the year of publication. Set 4 = 84 and P 5 = 89 for abstract (S1
Four). Then, the first record is taken out (S15). The processing up to this point is the pre-processing of registration. From this point, the registration process is performed for each record. First, the keyword attribute number is set to a = 1 (S16), and the keyword having the keyword attribute number a is extracted from the record (S17). Further, the number of constituent characters of the keyword is set to m, the character position number is set to p = 1, and the first character position of the keyword attribute area corresponding to the keyword attribute number a is set to Pa (S18). Next, character position information corresponding to the character position number p is created using the formula (2) of D = k × n + (P a −1) + p (2) in order from the first character of the extracted keyword ( S19).

【0043】そして、文字位置番号pにある文字の文字
種グループが格納されている検索ファイルの文字欄を示
す文字欄ディレクトリ(文字欄先頭番地)を文字欄アド
レス表から取り出して(S20)、文字欄ディレクトリが
示す検索ファイルの文字欄の未格納行の先頭に文字位置
情報を格納する(S21)。そして、p=p+1、m=m
−1とし、キーワード内のすべての文字を処理したとこ
ろで、a=a+1でキーワード属性番号を+1して次の
キーワード処理に移る(S24、S25)。また、レコード
が有するすべてのキーワードを処理すると、k=k+1
でレコード登録順位カウンタを+1して次のレコードの
処理に移る(S26、S27、S28)。全レコードの処理が
終了すると登録処理が終わる(S26)。
Then, the character field directory (character field start address) indicating the character field of the search file in which the character type group of the character at the character position number p is stored is taken out from the character field address table (S20), and the character field is retrieved. Character position information is stored at the beginning of an unstored line in the character field of the search file indicated by the directory (S21). Then, p = p + 1 and m = m
When all the characters in the keyword are processed, the keyword attribute number is incremented by 1 with a = a + 1, and the next keyword processing is performed (S24, S25). Moreover, if all the keywords that the record has are processed, k = k + 1
Then, the record registration rank counter is incremented by 1 and the process moves to the next record (S26, S27, S28). When the processing of all records ends, the registration processing ends (S26).

【0044】次にこのようにして作成された検索ファイ
ルを用いる検索処理について説明する。
Next, a search process using the search file thus created will be described.

【0045】本実施例では、検索ファイルから取り出し
た文字位置情報を対象として、検索入力文字列と同じ文
字列を含むキーワードを文字列照合し、かつ検索入力と
同じ属性であることを確認後、すべての検索入力文字列
に共通するレコードを検索する例で説明する。
In this embodiment, a keyword including the same character string as the search input character string is collated for the character position information extracted from the search file, and after confirming that the keyword has the same attribute as the search input, An example of searching a record common to all search input character strings will be described.

【0046】まず、その検索処理は大まかに分けると以
下の構成からなっている。 検索入力文字列の各文字に該当する文字欄アドレス表
内の文字欄先頭番地を算出する。 検索入力文字列を全キーワードにおける出現頻度の低
い文字から順に並べ変える。 並べ変えた文字列の先頭から順に該当する文字種グル
ープを検索ファイルから取り出してそこに格納されてい
る文字位置情報から検索入力の文字列の順序と一致する
文字位置情報の組み合わせを取り出す。 抽出した文字位置情報から検索入力と同じ属性を有す
る文字位置情報を取り出す。 〜を検索入力数分繰り返した後、すべての検索入
力文字列に共通するレコード番号を検索結果として出力
する。
First, the search processing is roughly divided into the following configurations. The start address of the character field in the character field address table corresponding to each character of the search input character string is calculated. The search input character string is rearranged in order from the character with the lowest appearance frequency in all keywords. A corresponding character type group is extracted from the search file in order from the beginning of the rearranged character string, and a combination of character position information that matches the order of the character string of the search input is extracted from the character position information stored therein. From the extracted character position information, character position information having the same attribute as the search input is extracted. After repeating ~ for the number of search inputs, the record number common to all search input strings is output as the search result.

【0047】次に具体的にそれぞれの処理を説明する。Next, each processing will be specifically described.

【0048】 検索入力文字列の各文字に該当する文
字欄アドレス表内の文字欄先頭番地の算出 検索ファイルの作成時と同様に、検索入力文字のJIS
コード表記載順位を算出し、これを文字欄アドレス表に
おける各検索入力文字のアドレスポインタとする。
Calculation of the starting address of the character field in the character field address table corresponding to each character of the search input character string As in the case of creating the search file, the JIS of the search input character
The code table entry order is calculated and used as the address pointer of each search input character in the character field address table.

【0049】 出現頻度順の並べ変え そして、検索ファイルの各文字種グループの先頭番地を
示す文字欄アドレス表の文字欄先頭番地を参照して、検
索入力文字の出現頻度を調べ、検索入力の文字列を全キ
ーワードにおける出現頻度の低いものから順に並べ変え
る。上述のように、文字欄アドレス表内の文字欄先頭番
地は、検索ファイルに格納されている各文字種グループ
の先頭番地を示しており、次に続く文字欄先頭番地との
差をとれば、各文字種グループに格納されている文字位
置情報の数から、全キーワードにおける文字種別出現頻
度がわかる。
Rearrangement in the order of appearance frequency Then, the appearance frequency of the search input character is checked by referring to the start address of the character field in the character field address table indicating the start address of each character type group of the search file, and the character string of the search input is searched. Are sorted in ascending order of appearance frequency in all keywords. As described above, the starting address of the character field in the character field address table indicates the starting address of each character type group stored in the search file, and if the difference from the succeeding character field starting address is taken, From the number of character position information stored in the character type group, the character type appearance frequency in all keywords can be known.

【0050】これは出現頻度の低い文字から照合一致を
行うことにより、検索ファイルに格納された各文字の文
字位置情報間の照合回数をきわめて低減できるためであ
る。すなわち文字位置情報を照合して文字の連続性を調
べる場合に二つの文字種グループ内の文字位置情報中の
レコード番号と文字位置番号とキーワード属性番号とを
照合するため、その二つの文字種グループ内に格納され
ている文字位置情報の数が少なければそれだけ照合回数
を少なくすることができる。したがって、文字位置情報
の照合を行うときに、出現頻度の低い文字から照合を行
うことが照合回数を低減させる。特に検索入力文字が多
くなるほど出現頻度の低い文字が含まれる割合が高まる
ため低減効果は大きい。
This is because the number of collations between the character position information of each character stored in the search file can be extremely reduced by performing the collation matching from the character having the low appearance frequency. That is, when collating character position information to check character continuity, the record number, character position number, and keyword attribute number in the character position information in the two character type groups are collated. If the number of stored character position information is small, the number of collations can be reduced accordingly. Therefore, when collating character position information, collating from a character having a low appearance frequency reduces the number of collations. In particular, the larger the number of search input characters is, the higher the ratio of characters having a low appearance frequency is included.

【0051】 文字列の照合 出現頻度の低い文字から文字欄アドレス表を参照してそ
れぞれの文字種グループに格納されている文字位置情報
を取り出す。そして取り出した文字位置情報をもとに、
出現頻度の低い文字種グループから順に、各文字種グル
ープ間でレコード番号が等しくかつ文字位置番号の差が
検索入力文字列の文字位置差に等しい文字位置情報の組
み合わせを抽出する。
Collation of Character Strings Character position information stored in each character type group is extracted from a character having a low appearance frequency by referring to the character field address table. And based on the extracted character position information,
A combination of character position information having the same record number and the same character position number difference between the character type groups and the character position difference of the search input character string is extracted in order from the character type group having the lowest appearance frequency.

【0052】この文字位置情報の照合は、検索入力文字
列の全キーワードにおける出現頻度の低い文字の文字位
置番号をi、出現頻度の高い文字の文字位置番号をjと
するとき、次の式(3)で (文字位置番号iの文字の文字種グループ内文字位置情
報)−(文字位置番号jの文字の文字種グループ内文字
位置情報)=i−j …(3) となる文字位置情報を抽出すればよい。
The matching of the character position information is performed by using the following expression (where i is the character position number of a character having a low appearance frequency in all keywords in the search input character string and j is a character position number of a character having a high appearance frequency). In (3), extract character position information such that (character position information in character type group of character of character position number i)-(character position information in character type group of character of character position number j) = ij (3) Good.

【0053】この文字種グループ間での文字位置情報の
照合処理では、出現頻度の低い文字種グループの文字位
置情報とそれより出現頻度の高い文字種グループの文字
位置情報との差を取って文字の連続を照合する。
In the collation processing of the character position information between the character type groups, the character continuity of the character type group having a low frequency of appearance and the character position information of the character type group having a higher frequency of occurrence are taken to determine the character continuity. Collate.

【0054】検索入力文字列における任意の構成文字を
AとBとすると、該当する文字位置情報を抽出するに
は、AとBとの文字位置番号差がLであるとし、グルー
プAの文字位置情報をAx 、グループBの文字位置情報
をBy としたとき Ax +L>By ならBy を削除 Ax +L<By ならAx を削除 Ax +L=By ならAx 、By を合致として共に削除 というように不連続な文字位置情報を照合対象から削除
していくことによりその照合回数を削減させる。
If arbitrary constituent characters in the search input character string are A and B, the character position number difference between A and B is L in order to extract the corresponding character position information. information a x, delete delete a x + L> B y if B y a x + L <B y if a x when the character position information of the group B was B y a x + L = B y if a x, B The number of collations is reduced by deleting the discontinuous character position information from the collation target such as deleting y as a match.

【0055】例えばグループAの文字位置情報が 571 、1140、10230 、11365 、11928 、13069 グループBの文字位置情報が 569 、1706、10231 、10235 、11362 文字位置番号差L=1であった場合、この二つのグルー
プ間の照合回数は全体で7回だけですみ、グループ内の
全ての文字位置情報を照合する必要はない。
For example, when the character position information of the group A is 571, 1140, 10230, 11365, 11928, 13069 and the character position information of the group B is 569, 1706, 10231, 10235, 11362, the character position number difference L = 1, The number of times of matching between these two groups is only 7 in total, and it is not necessary to match all the character position information within the group.

【0056】 キーワード属性番号の照合 文字列照合から得られた文字位置情報の文字位置番号に
ついてキーワード属性を照合する。すなわち、文字位置
番号が1〜32ならば文字位置情報のキーワード属性は図
書名であり、文字位置番号が34〜49ならば文字位置情報
のキーワード属性は著者名であり、文字位置番号が51〜
82ならば文字位置情報のキーワード属性は発行者名であ
り、文字位置番号が84〜87ならば文字位置情報のキーワ
ード属性は刊行年であり、文字位置番号が89〜288 なら
ば文字位置情報のキーワード属性は抄録であることがわ
かる。そこで、文字列照合で得られた文字位置情報の中
から検索入力時に指定された属性と同じ文字位置情報だ
けを取り出す。
Collation of keyword attribute number The keyword attribute is collated with the character position number of the character position information obtained from the character string collation. That is, if the character position number is 1 to 32, the keyword attribute of the character position information is the book name, and if the character position number is 34 to 49, the keyword attribute of the character position information is the author name, and the character position number is 51 to
If it is 82, the keyword attribute of the character position information is the issuer name, if the character position number is 84 to 87, the keyword attribute of the character position information is the year of publication, and if the character position number is 89 to 288, it is the character position information. It can be seen that the keyword attribute is abstract. Therefore, from the character position information obtained by the character string matching, only the character position information having the same attribute as that specified at the time of search input is extracted.

【0057】 レコード番号の抽出 検索入力の数だけ〜を繰り返し、得られた各検索入
力文字列に該当する文字位置情報間で、すべての検索入
力文字列に共通するレコード番号を取り出す。上記実施
例では、検索入力が1個以上の場合について説明した。
また検索入力が複数の場合には各検索入力間で論理積演
算を行う例として説明したが、論理積以外の論理演算を
伴う複数の検索入力の場合は、照合結果として残った文
字位置情報を各検索入力に対応付けて指定された論理演
算を行って検索入力の論理を満足するレコード番号を検
索結果として出力する。
Extracting Record Numbers By repeating (1) to (3) as many times as the number of search inputs, a record number common to all search input character strings is extracted from the obtained character position information corresponding to each search input character string. In the above embodiment, the case where the number of search inputs is one or more has been described.
In addition, when there are multiple search inputs, the explanation was given as an example of performing a logical product operation between each search input, but in the case of multiple search inputs involving logical operations other than logical product, the character position information that remains as the matching result is A designated logical operation is performed in association with each search input, and a record number satisfying the logic of the search input is output as a search result.

【0058】なお、1検索入力を複数の文字列で指定す
る場合、例えば抄録のような文字数が多い項目を対象と
する場合よくあることであるが、最初の文字列のキーワ
ード属性照合終了後、2番目以降の文字列に対しては、
その文字列の最初の照合文字の文字種グループから、そ
れまで得られたレコード番号とキーワード属性番号を有
する文字位置情報を取り出し、得られた文字位置情報を
文字列照合の先頭文字の文字種グループとして同じ文字
列内の他の文字について照合処理を行う。
When one search input is designated by a plurality of character strings, it is often the case that an item having a large number of characters such as an abstract is targeted, but after the keyword attribute matching of the first character string is completed, For the second and subsequent strings,
The character position information having the record number and keyword attribute number obtained up to that point is extracted from the character type group of the first matching character of the character string, and the obtained character position information is the same as the character type group of the first character of the character string matching. Perform collation processing for other characters in the character string.

【0059】以上の〜の動作を具体例を挙げて説明
する。
The above-mentioned operations (1) to (5) will be described with a specific example.

【0060】検索対象として図書名が指定され、検索入
力文字列としては「通信文書」が指定されたとする。こ
の場合図書名のキーワードの属性の属性番号は「1」と
する。
It is assumed that a book name is specified as the search target and "communication document" is specified as the search input character string. In this case, the attribute number of the keyword attribute of the book name is "1".

【0061】例えば各文字の全キーワードにおける出現
頻度が「書」<「文」<「信」<「通」の順であり、照
合をこの順序に行うとすると、まず検索ファイル中の
「書」の文字欄から取り出した文字位置情報と「文」の
文字欄から取り出した文字位置情報とを上述の式(3)
を使用してその差が「−1」になる文字位置情報を抽出
すると、検索ファイルの「書」内の文字位置情報の「28
904 」と「文」内の「28903 」とを連続性ある文字位置
情報として抽出することができる。
For example, the frequency of appearance of each character in all keywords is in the order of “writing” <“text” <“belt” <“communication”, and if collation is performed in this order, first, “writing” in the search file. The character position information extracted from the character column of “Sentence” and the character position information extracted from the character column of “Sentence” are expressed by the above formula (3).
When the character position information whose difference is "-1" is extracted using, the character position information "28"
"904" and "28903" in the "sentence" can be extracted as continuous character position information.

【0062】次に、「書」の中で照合結果として残った
文字位置情報と、「信」に該当する検索ファイルの文字
欄から取り出した文字位置情報を同様に式(3)を使用
して、その差が「−2」になる文字位置情報を抽出する
と、「書」内の文字位置情報の「28904 」と「信」内の
文字位置情報「28902 」とを連続性ある文字位置情報と
して抽出することができる。同様にして、「書」内の文
字位置情報の「28904」と「通」内の文字位置情報「289
01 」とを連続性ある文字位置情報として抽出すること
ができる。さらに、キーワード属性は「図書名」である
から、これまでの文字列照合で残った文字位置情報の中
から、文字位置番号が1 〜32の文字位置情報として、
「28901 」〜「28904 」を抽出できる。
Next, the character position information remaining as a collation result in the "writing" and the character position information extracted from the character column of the search file corresponding to "shin" are similarly calculated using the equation (3). , When the character position information with the difference of “−2” is extracted, the character position information “28904” in the “call” and the character position information “28902” in the “shin” are regarded as continuous character position information. Can be extracted. Similarly, the character position information "28904" in "sho" and the character position information "289" in "tsu"
01 ”can be extracted as continuous character position information. Furthermore, since the keyword attribute is "book name", from the character position information that remains in the character string collation so far, character position information with character position numbers 1-32,
"28901" to "28904" can be extracted.

【0063】キーワード列の文字数が「289 」であるか
ら、文字位置番号は28901 ÷289 =100 余り1から、1
〜4であることがわかる。またこの文字列が属するレコ
ード番号は100 であることもわかる。
Since the number of characters in the keyword string is "289", the character position number is 28901 ÷ 289 = 100.
It turns out that it is ~ 4. You can also see that the record number to which this string belongs is 100.

【0064】この検索処理動作を図8および図9にフロ
ーチャートとして示す。
This search processing operation is shown as a flowchart in FIGS. 8 and 9.

【0065】すなわち、キーワード列文字数をn=289
に、キーワード属性領域の文字位置範囲Pa を図書名は
1 =1 〜32、著者名はP2 =34〜49、発行者名はP3
=51〜82、刊行年はP4 =84〜87、抄録はP5 =89〜28
8 に、キーワード属性番号をa=1に設定し(S31)、
キーワード属性番号aの検索入力文字列がある場合には
それを取り出す(S32、S33)。ここからは検索入力文
字列の照合処理になる。そこで、(検索入力文字列の文
字数)−1を照合回数qとし(S34)、検索入力文字の
全キーワードにおける出現頻度の低い順に文字を並べ変
える(S35)。そして検索ファイルから並べ変えた各文
字に該当する文字種グループに格納されている文字位置
情報を取り出す(S36)。次に検索入力文字列の全キー
ワードにおける出現頻度の低い文字の文字位置番号を
i、出現頻度の高い文字の文字位置番号をjとすると
き、(文字位置番号iの文字の文字位置情報)−(文字
位置番号jの文字の文字位置情報)=i−jである文字
位置情報の組み合わせを取り出す(S37)。同様の処理
を検索入力文字列の残りの文字についても行い(S38、
S39)、残った文字位置情報の中から文字位置番号がキ
ーワード属性番号aの文字位置範囲Pa 内にあるレコー
ド番号だけを取り出す。文字位置情報から文字位置番号
を取り出すには、次の式(4)を用いる。 (文字位置情報)÷(キーワード列文字数)=レコード
番号余り文字位置番号…(4) ここまでの処理で、検索入力文字列を文字列として持
ち、さらに検索入力された属性と同じキーワードを有す
るレコード番号がわかる(S40)。抄録まで同様の処理
を行い、検索入力された属性と同じキーワードを有する
レコード番号を取り出す(S41、S42)。すべての検索
入力文字列の照合が終わると、残ったレコード番号を対
象として、すべての検索入力文字列に共通するレコード
番号を検索結果として出力する(S43)。
That is, the number of characters in the keyword string is n = 289.
In addition, the character position range P a of the keyword attribute area is P 1 = 1 to 32 for the book name, P 2 = 34 to 49 for the author name, and P 3 for the publisher name.
= 51-82, year of publication is P 4 = 84~87, abstracts P 5 = 89~28
8, the keyword attribute number is set to a = 1 (S31),
If there is a search input character string of the keyword attribute number a, it is taken out (S32, S33). From here, the search input character string collation processing starts. Therefore, (the number of characters in the search input character string) -1 is set as the number of times of collation q (S34), and the characters are rearranged in the order of low appearance frequency of the search input characters in all the keywords (S35). Then, the character position information stored in the character type group corresponding to each rearranged character is retrieved from the search file (S36). Next, when the character position number of a character having a low appearance frequency in all keywords of the search input character string is i and the character position number of a character having a high appearance frequency is j, (character position information of the character having the character position number i)- A combination of character position information (character position information of character with character position number j) = i-j is taken out (S37). The same process is performed for the remaining characters in the search input character string (S38,
S39), the character position number from the remaining character position information retrieve only record numbers within the character position range P a keyword attribute number a. The following equation (4) is used to extract the character position number from the character position information. (Character position information) ÷ (Number of characters in keyword string) = Record number surplus character position number (4) Records that have the search input character string as a character string and have the same keyword as the search input attribute in the processing up to this point Know the number (S40). The same process is performed up to the abstract, and the record number having the same keyword as the retrieved and input attribute is taken out (S41, S42). When all the search input character strings have been collated, the record numbers common to all the search input character strings are output as the search results for the remaining record numbers (S43).

【0066】[0066]

【発明の効果】以上説明したように、本発明は検索対象
となるレコードが有するキーワードの構成文字の文字種
ごとにその文字が属するレコード識別符号、文字位置順
序符号、キーワードの種別を示す属性番号からなる文字
位置情報を格納した検索ファイルを作成し、この検索フ
ァイルを検索入力の文字列を構成する文字種ごとにその
文字位置情報を取り出して、検索入力に合致する文字列
を検索するようにした。
As described above, according to the present invention, the record identification code, the character position sequence code, and the attribute number indicating the type of the keyword to which the character belongs for each character type of the constituent characters of the keyword included in the record to be searched. A search file that stores the character position information is created, and the character position information is extracted from this search file for each character type that constitutes the character string of the search input, and the character string that matches the search input is searched.

【0067】このため、 (1) 検索処理のための文字列照合回数を低減することが
できるため、高速検索を行うことができる、 (2) 文字と文字位置に着目して検索処理を行うため任意
の文字列による検索ができ、 (3) 専用のハードウエアを用いることなくソフトウエア
だけで高速検索を実現できるため、汎用の情報処理装置
でマルチキーワードを用いた部分一致検索を効率よく行
うことができ汎用性に富む、 (4) データベースシステムに利用したとき、その検索フ
ァイルの作成に使用可能な部分一致検索文字列の作成を
行う必要がなく、検索対象となるレコードが有するキー
ワードから自動的に検索ファイルを作成することができ
るため、データベースシステムを経済的にかつ効率よく
構築することが可能である 優れた効果がある。
Therefore, (1) it is possible to reduce the number of times the character string collation is performed for the search processing, and therefore high-speed search can be performed. (2) Because the search processing is performed by focusing on the characters and the character positions. Since it is possible to search by any character string and (3) high-speed search can be realized only by software without using dedicated hardware, it is possible to efficiently perform partial match search using multi-keywords on a general-purpose information processing device. (4) When used in a database system, it is not necessary to create a partial match search character string that can be used to create that search file, and it is automatically selected from the keywords of the record to be searched. Since it is possible to create a search file, it is possible to construct a database system economically and efficiently, which is an excellent effect.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明一実施例に使用する情報検索処理装置の
構成例。
FIG. 1 is a configuration example of an information search processing device used in an embodiment of the present invention.

【図2】実施例の文字欄アドレス表。FIG. 2 is a character field address table according to the embodiment.

【図3】実施例のキーワード列。FIG. 3 is a keyword string of an embodiment.

【図4】実施例の文字位置情報作成例。FIG. 4 is an example of creating character position information according to the embodiment.

【図5】実施例の検索ファイルの登録例。FIG. 5 is an example of registration of a search file according to the embodiment.

【図6】実施例の検索ファイル作成処理手順を説明する
フローチャート。
FIG. 6 is a flowchart illustrating a search file creation processing procedure according to the embodiment.

【図7】実施例の検索ファイル作成処理手順を説明する
フローチャート。
FIG. 7 is a flowchart illustrating a search file creation processing procedure according to the embodiment.

【図8】実施例の検索処理手順を説明するフローチャー
ト。
FIG. 8 is a flowchart illustrating a search processing procedure according to the embodiment.

【図9】実施例の検索処理手順を説明するフローチャー
ト。
FIG. 9 is a flowchart illustrating a search processing procedure according to the embodiment.

【符号の説明】[Explanation of symbols]

1…CPU 2…メモリ 3…入出力部 4…キーボード 5…ディスプレイ 6…外部記憶装置制御部 7…外部記憶装置 8…共通バス 1 ... CPU 2 ... Memory 3 ... Input / output unit 4 ... Keyboard 5 ... Display 6 ... External storage device control unit 7 ... External storage device 8 ... Common bus

Claims (5)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 複数のキーワードから構成されたレコー
ドを検索単位とし、各キーワードはそのキーワードの論
理区分にしたがって属性が定められ、このレコードを検
索対象として所定の入力文字列に合致するキーワードの
レコードを検索するマルチキーワード情報検索処理方式
の検索ファイル作成装置において、 検索対象となるレコードが現れるごとに昇順の符号を付
与するレコード識別符号付与手段と、 このレコードが有する各キーワードにキーワードの論理
的な区分を示す属性符号を付与するキーワード属性符号
付与手段と、 このキーワードを各文字ごとに分解し、各文字にキーワ
ード中での位置を示す文字位置順序符号を付与する文字
位置順序符号付与手段と、上記レコードの有する全てのキーワードをキーワード属
性ごとによって定められた文字位置を先頭位置とする固
定長のキーワード属性領域に配列して連結されたキーワ
ード列を生成するキーワード列生成手段と、 上記生成されたキーワード列の各キーワードを構成する
文字ごとに 上記レコード識別符号とキーワード属性符号
と文字位置順序符号とからなり文字位置順序符号を最下
位情報とする文字位置情報を作成して、この文字位置情
報を文字種ごとの領域に格納して検索ファイルを作成す
る手段とを備えた検索ファイル作成装置
1. A recorder composed of a plurality of keywords
The keyword is the search unit, and each keyword is the argument for that keyword.
Attributes are set according to the
Search for keywords that match the specified input character string as the search target.
Multi-keyword information retrieval processing method to retrieve records
In the search file creation device of the above, record identification code assigning means for assigning an ascending code each time a record to be searched appears , and a keyword for assigning an attribute code indicating a logical division of the keyword to each keyword of this record Attribute code assigning means, character position order code assigning means that assigns a character position order code that indicates the position in the keyword to each character by decomposing this keyword for each character, and all keywords that the above records have Genus
The start position is the character position determined by gender.
Keyers arranged and connected in a fixed-length keyword attribute area
And a keyword string generating means for generating a keyword string and each keyword of the generated keyword string
Above each character record identification code and keyword attribute code and character position order code Do from the Ri character position sequence codes lowermost
Position by creating a character position information shall be the information, the character position information searching file creating apparatus and means for creating a search file stored in the area for each character type a.
【請求項2】 文字位置情報は、レコードを構成する各
キーワードをキーワード属性符号に対応してキーワード
属性領域に配列したキーワード列の各キーワードを構成
するすべての文字について、 レコード識別符号×n+(Pa −1)+文字位置順序符
号 n:キーワード列文字数 Pa :キーワード属性符号aのキーワード属性領域のキ
ーワード列における先頭文字位置なる数字コードとして
与えられる請求項1記載の検索ファイル作成装置
2. The character position information is a record identification code × n + (P) for all characters forming each keyword of a keyword string in which each keyword forming a record is arranged in a keyword attribute area corresponding to the keyword attribute code. The search file creation apparatus according to claim 1, wherein a -1) + character position sequence code n: number of characters in keyword string P a : given as a numeric code which is the first character position in the keyword string of the keyword attribute area of the keyword attribute code a.
【請求項3】 複数のキーワードから構成されたレコー
ドを検索単位とし、各キーワードはそのキーワードの論
理区分にしたがって属性が定められ、このレコードを検
索対象として所定の入力文字列に合致するキーワードの
レコードを検索するマルチキーワード情報検索処理方式
において、 検索対象となるレコードの複数のキーワードがその論理
区分に従って固定の文字位置を先頭位置とするキーワー
ド属性領域に配列されたキーワード列について、各キー
ワードを構成する文字ごとに、レコードごとに昇順に付
与されたレコード識別符号と、このレコードが有するキ
ーワードの論理区分を示すキーワード属性符号とキーワ
ード中でのその文字の位置を示す文字位置順序符号とか
らなり文字位置順序符号を最下位情報とする文字位置情
報を文字種別ごとに格納した検索ファイルを備え、 検索入力文字列の構成文字と同じ文字の文字位置情報を
上記検索ファイルから取り出す手段と、 この取り出した各文字の文字位置情報間で、レコード識
別符号とキーワード属性符号が共通で文字位置順序符号
が検索入力の文字列と等しい順序であり、かつそのキー
ワード属性符号が検索入力と等しい文字位置情報の組み
合わせを抽出する手段と、 この抽出された文字位置情報の組み合わせに基づいて検
索入力に対応するレコード識別符号を検索結果として出
力する手段とを備えたマルチキーワード情報検索処理方
式。
3. A record composed of a plurality of keywords
The keyword is the search unit, and each keyword is the argument for that keyword.
Attributes are set according to the
Search for keywords that match the specified input character string as the search target.
Multi-keyword information retrieval processing method to retrieve records
, The multiple keywords of the record to be searched are
Keyword that has a fixed character position as the start position according to the classification
For the keyword string arranged in the attribute area, the record identification code assigned to each character in ascending order for each character that constitutes each keyword, the keyword attribute code indicating the logical division of the keyword of this record, and the keyword includes a search file that the Ri character position order code Do and a character position sequence code indicating the position of a character that contains the character position information shall be the lowest information for each character type, the same as that character in the search input character string Between the character position information of the character retrieved from the search file and the character position information of each of the retrieved characters, the record identification code and the keyword attribute code are common, and the character position sequence code is in the same order as the search input character string. Means for extracting a combination of character position information that has the same keyword attribute code as the search input, and this extraction Multi keyword information retrieval processing method and means for outputting the search result record identification code corresponding to the combination search input based on the character position information.
【請求項4】 検索入力の文字列を構成できる文字位置
情報の組み合わせの抽出は、検索入力の全キーワードに
おける出現頻度の低い文字から順に行う請求項3記載の
マルチキーワード情報検索処理方式。
4. The extraction of a combination of character position information that can form a character string of search input is performed in order from a character having a low appearance frequency in all keywords of search input.
Multi-keyword information retrieval processing method.
【請求項5】 検索入力の文字列を構成できる文字位置
情報の組み合わせの抽出は、検索入力文字列の全キーワ
ードにおける出現頻度の低い文字の文字位置順序符号を
i、出現頻度の高い文字の文字位置順序符号をjとする
とき、 (文字位置順序符号iの文字の文字位置情報)−(文字
位置順序符号jの文字の文字位置情報)=i−j に合致する文字位置情報を抽出する請求項3または請求
項4記載のマルチキーワード情報検索処理方式。
5. Extraction of a combination of character position information that can form a search input character string is performed by setting the character position sequence code of a character having a low appearance frequency in all keywords of the search input character string to i, and the character of a character having a high appearance frequency. When the position sequence code is j, character position information that matches (character position information of character of character position sequence code i)-(character position information of character of character position sequence code j) = i-j is extracted. The multi-keyword information search processing method according to claim 3 or 4.
JP3013878A 1991-01-10 1991-01-10 Multi-word information retrieval processing method and retrieval file creation device Expired - Fee Related JP2519129B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3013878A JP2519129B2 (en) 1991-01-10 1991-01-10 Multi-word information retrieval processing method and retrieval file creation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3013878A JP2519129B2 (en) 1991-01-10 1991-01-10 Multi-word information retrieval processing method and retrieval file creation device

Publications (2)

Publication Number Publication Date
JPH04340164A JPH04340164A (en) 1992-11-26
JP2519129B2 true JP2519129B2 (en) 1996-07-31

Family

ID=11845475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3013878A Expired - Fee Related JP2519129B2 (en) 1991-01-10 1991-01-10 Multi-word information retrieval processing method and retrieval file creation device

Country Status (1)

Country Link
JP (1) JP2519129B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3275816B2 (en) 1998-01-14 2002-04-22 日本電気株式会社 Symbol string search method, symbol string search device, and recording medium recording symbol string search program
JP2012212289A (en) * 2011-03-31 2012-11-01 Dainippon Printing Co Ltd Document information retrieval device, document information retrieval system, document information retrieval method, and program
JP6038427B1 (en) 2016-01-15 2016-12-07 三菱電機株式会社 ENCRYPTION DEVICE, ENCRYPTION METHOD, ENCRYPTION PROGRAM, AND STORAGE DEVICE
CN110546631A (en) 2017-04-25 2019-12-06 三菱电机株式会社 Search device, search system, search method, and search program
CN116361421B (en) * 2023-05-30 2023-08-15 互联时刻(北京)信息科技有限公司 Text retrieval method, device and storage medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
電子情報通信学会技術研究報告DE90−24(1990−12−14)P.1−7

Also Published As

Publication number Publication date
JPH04340164A (en) 1992-11-26

Similar Documents

Publication Publication Date Title
JP3160201B2 (en) Information retrieval method and information retrieval device
JP3143079B2 (en) Dictionary index creation device and document search device
Robertson et al. Applications of n‐grams in textual information systems
EP0590858B1 (en) Method for performing a search of a plurality of documents for similarity to a query
JP2832988B2 (en) Data retrieval system
JP2833580B2 (en) Full-text index creation device and full-text database search device
JP2669601B2 (en) Information retrieval method and system
JPH0782504B2 (en) Information retrieval processing method and retrieval file creation device
JP3258063B2 (en) Database search system and method
JP2519129B2 (en) Multi-word information retrieval processing method and retrieval file creation device
JP2519130B2 (en) Multi-word information retrieval processing method and retrieval file creation device
JP3151730B2 (en) Database search system
JP2000331012A (en) Electronic document retrieval method
JP3081093B2 (en) Index creation method and apparatus and document search apparatus
JPH0561910A (en) Full sentence index retrieving method
WO1992009960A1 (en) Data retrieving device
JPH07109603B2 (en) Information retrieval processing method and retrieval file creation device
JP2003288366A (en) Similar text retrieval device
KR20070033657A (en) Electronic dictionary search method and device
JPH0756945A (en) Whole sensitive data base system
JPH10177582A (en) Method and device for retrieving longest match
JPH10149367A (en) Text store and retrieval device
JPH0748218B2 (en) Information processing equipment
JPH05225248A (en) Data base retrieval system
JP2993539B2 (en) Database search system and method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080517

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090517

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100517

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees