JPH04340165A - Information retrieval processing system - Google Patents

Information retrieval processing system

Info

Publication number
JPH04340165A
JPH04340165A JP3013879A JP1387991A JPH04340165A JP H04340165 A JPH04340165 A JP H04340165A JP 3013879 A JP3013879 A JP 3013879A JP 1387991 A JP1387991 A JP 1387991A JP H04340165 A JPH04340165 A JP H04340165A
Authority
JP
Japan
Prior art keywords
character set
character
keyword
search
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3013879A
Other languages
Japanese (ja)
Other versions
JP2519130B2 (en
Inventor
Chuichi Kikuchi
菊池 忠一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TEREMATEIIKU KOKUSAI KENKYUSHO KK
Original Assignee
TEREMATEIIKU KOKUSAI KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TEREMATEIIKU KOKUSAI KENKYUSHO KK filed Critical TEREMATEIIKU KOKUSAI KENKYUSHO KK
Priority to JP3013879A priority Critical patent/JP2519130B2/en
Publication of JPH04340165A publication Critical patent/JPH04340165A/en
Application granted granted Critical
Publication of JP2519130B2 publication Critical patent/JP2519130B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To speed up data base retrieval processing using multi-keyword and to rapidly execute partial coincidence retrieval to be executed by inputting an optional character string. CONSTITUTION:A retrieval file is previously formed by constituting a character set of each character in a keyword string to be retrieved and plural (r) characters following to the character concerned, forming character set position information constituted of the record identification(ID) code of a keyword including the character set, a character set position order code indicating the character position in the keyword and a keyword attribute code indicating the logical section of the keyword and grouping the positional information in each character set sort. At the time of inputting a retrieval request, each retrieval input is broken down to a character set consisting of (r) characters to constitute a retrieval input character set string, the character position information of he analized character set string is extracted from the retrieval file and collated and a keyword string record having a common record ID, code, equal character order and the same keyword attribute code to/as the retrieval input is extracted from the retrieval file.

Description

【発明の詳細な説明】[Detailed description of the invention]

【0001】0001

【産業上の利用分野】本発明は、情報検索を行う情報検
索処理方式に関する。本発明は、特にマルチキーワード
を用いた部分一致検索を行うことに適し、入力されたマ
ルチ検索入力文字列と登録キーワードとの文字列照合回
数を大幅に削減して、マルチ検索入力文字列に対する部
分一致(中間一致、前方一致、後方一致)や完全一致の
各検索処理を、高速に行うことができる情報検索処理方
式に関する。本発明は、データベースシステムにおいて
マルチキーワード部分一致検索処理を行う情報検索処理
方式に適する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an information retrieval processing method for performing information retrieval. The present invention is particularly suitable for performing partial match searches using multi-keywords, and can significantly reduce the number of character string matches between input multi-search input strings and registered keywords. The present invention relates to an information search processing method that can perform each search process for a match (middle match, prefix match, suffix match) and complete match at high speed. The present invention is suitable for an information search processing method that performs multi-keyword partial match search processing in a database system.

【0002】0002

【従来の技術】従来から、検索対象であるレコードが有
するキーワードの最初から最後まで、検索入力文字列と
の文字列照合を行い、検索者が指定する入力文字列と検
索条件に合致するキーワードからレコード番号をサーチ
する逐次検索方式や、キーワードから検索入力可能な文
字列を作成して索引形式に検索ファイルを格納し、検索
者が指定する入力文字列と検索条件に合致するキーワー
ドを検索ファイルのインデックス構造を利用してサーチ
するインデックス方式がマルチキーワードを用いた部分
一致検索技術として一般的である。
[Prior Art] Conventionally, strings of keywords possessed by records to be searched are compared with search input strings from the beginning to the end, and keywords that match the input string specified by the searcher and the search conditions are searched. You can use the sequential search method to search for record numbers, or create a string that can be searched from keywords and store the search file in an index format. An index method that searches using an index structure is a common partial match search technique using multiple keywords.

【0003】0003

【発明が解決しようとする課題】しかし逐次検索方式で
は、検索対象レコードの有するキーワードの最初から最
後まで、検索入力文字列との照合を行うため、多量のキ
ーワードを有する場合、その検索に多くの時間を要する
。このため、大規模データベースの検索では、高速な文
字列照合を行う専用のプロセッサやLSIが提案されて
いるが、これらの方式では、ハードウエアが限定される
ほか、検索処理を行う計算機と専用プロセッサやLSI
との間での文字列転送に時間がかかり、システムとして
満足できる高速性の実現が課題となっている。
[Problem to be Solved by the Invention] However, in the sequential search method, the search input character string is checked from the beginning to the end of the keywords of the record to be searched, so when there are a large number of keywords, the search requires many It takes time. For this reason, dedicated processors and LSIs that perform high-speed character string matching have been proposed for large-scale database searches, but these methods are limited in hardware and require a computer to perform the search processing and a dedicated processor. and LSI
It takes a long time to transfer character strings between the two systems, and the challenge is to achieve a high speed that satisfies the system.

【0004】また、インデックス方式は、部分一致検索
の高速化が可能であるが、検索ファイルが巨大になると
いう欠点がある。このため完全一致、前方一致、後方一
致の検索が使用されているが、中間一致はサポートされ
ていないことが多い。これは、中間一致を行うために、
完全一致、前方一致、後方一致の検索インデックスとは
別に、中間一致用のインデックスが多量に必要になり、
検索ファイルの記憶容量が巨大となること、これに伴い
検索時間が増大すること、および検索ファイルの保守が
容易でないことが主な理由となっている。また、システ
ムによっては検索ファイルの規模の制約から、キーワー
ドの全ての前方一致や後方一致検索がサポートされない
こともある。しかし、検索者はキーワードの中の特徴あ
る文字や文字列を記憶することが多く、このため中間一
致を含む部分一致検索のサポートにより検索がスムーズ
に行なえるようになることが求められている。
[0004]Also, although the index method can speed up partial match searches, it has the disadvantage that the search file becomes huge. For this reason, exact, prefix, and suffix searches are used, but intermediate matches are often not supported. This is to do an intermediate match,
In addition to search indexes for exact matches, prefix matches, and postfix matches, a large number of indexes for intermediate matches are required.
The main reasons are that the storage capacity of the search file becomes huge, the search time increases accordingly, and the maintenance of the search file is not easy. Also, depending on the system, search for all prefixes and suffixes of keywords may not be supported due to limitations on the size of the search file. However, searchers often memorize characteristic characters or character strings in keywords, and therefore there is a need for support for partial match searches including intermediate matches to enable smooth searches.

【0005】本発明者は、日本語の場合には、キーワー
ドになりうる単語に同じ文字や同じ文字列が出現する頻
度が低い特徴がある点に着目し、キーワード構成文字を
先頭文字から1文字ずつ、その文字と次に続く合計r文
字で文字セットを作成し、これらを文字セット種ごとに
格納して検索ファイルを作成し、検索時には、検索入力
された任意の文字列の構成文字を先頭文字からr文字単
位の文字セットに分解し、分解した文字セットと同じ文
字セットを検索ファイルから取り出し、文字セットの連
続性を照合することにより検索を高速化することができ
ることを見出した。
[0005] The inventor of the present invention focused on the fact that the Japanese language has the characteristic that the same characters or the same character strings rarely appear in words that can be used as keywords. Create a character set with that character and the next r characters in total, store these for each character set type and create a search file, and when searching, start with the constituent characters of any character string entered for search. It has been found that searching can be speeded up by decomposing a character into a character set of r characters, extracting the same character set as the decomposed character set from a search file, and checking the continuity of the character set.

【0006】本発明は、上述の観点から巨大なデータベ
ースシステムを対象とするマルチキーワードを用いた部
分一致検索の高速化を実現することができ、しかも特定
のハードウエアに限定されず、検索処理を主記憶上で行
うことにより専用プロセッサやLSIとの文字列の転送
が不要であり、文字セットと文字セット位置に着目する
ことにより任意の文字列検索が可能である汎用性に富む
情報検索処理方式を提供することを目的とする。
[0006] From the above-mentioned viewpoint, the present invention can realize high-speed partial match searches using multi-keywords targeting a huge database system, and is not limited to specific hardware, and can perform search processing. A highly versatile information retrieval processing method that eliminates the need to transfer character strings to and from a dedicated processor or LSI because it is performed in main memory, and allows arbitrary character string searches by focusing on character sets and character set positions. The purpose is to provide

【0007】[0007]

【課題を解決するための手段】本発明の第一の特徴は、
検索対象となるレコードごとに昇順の符号を付与するレ
コード識別符号付与手段と、このレコードが有する各キ
ーワードにキーワードの論理的な区分を示す属性符号を
付与するキーワード属性符号付与手段と、このキーワー
ドから1文字ずつ取り出し、その文字と次に続く合計r
文字で文字セットを作成し、キーワードにおける文字セ
ットの先頭文字位置を示す文字セット位置順序符号を付
与する文字セット位置順序符号付与手段と、上記レコー
ド識別手段とキーワード属性符号と文字セット位置順序
符号とからなる文字セット位置情報を作成して、この文
字セット位置情報を文字セット種ごとの領域に格納して
検索ファイルを作成する手段とを備えたことを特徴とす
る。
[Means for Solving the Problems] The first feature of the present invention is that
record identification code assigning means for assigning a code in ascending order to each record to be searched; keyword attribute code assigning means for assigning an attribute code indicating a logical classification of the keyword to each keyword possessed by this record; Take out one character and add that character and the next sum r
Character set position order code adding means for creating a character set with characters and adding a character set position order code indicating the first character position of the character set in a keyword; the record identifying means; a keyword attribute code; and a character set position order code. The present invention is characterized by comprising means for creating character set position information consisting of the following characters, storing this character set position information in an area for each character set type, and creating a search file.

【0008】なお、文字セット位置情報は、レコードが
有する各キーワードをキーワード属性符号に対応するキ
ーワード属性領域に配列して作成するキーワード列につ
いて、各キーワードの全ての文字セットを、レコード識
別符号とキーワード属性符号と文字セット位置順序符号
とで整数からなるコードに変換して作成するもので、レ
コード識別符号×n+(Pa −1)+文字位置順序符
号 n:キーワード列文字数 Pa :キーワード属性符号aのキーワード属性領域の
キーワード列における先頭文字位置 なる数字として与えられることが好ましい。
[0008] Character set position information is about a keyword string created by arranging each keyword of a record in a keyword attribute area corresponding to a keyword attribute code, and all character sets of each keyword are arranged in a keyword attribute area corresponding to a record identification code and a keyword attribute code. It is created by converting the attribute code and character set position order code into a code consisting of integers. Record identification code x n + (Pa -1) + character position order code n: number of keyword string characters Pa: keyword attribute code a. It is preferable that the number is given as the first character position in the keyword string in the keyword attribute area.

【0009】また本発明の第二の特徴は、第一の特徴で
作成された検索ファイルを備え、検索入力文字列の構成
文字を先頭文字からr文字単位の文字セットに分解して
検索入力文字セット列を作成し、この文字セットと同じ
文字セットの文字セット位置情報を上記検索ファイルか
ら取り出す手段と、この取り出した各文字セットの文字
セット位置情報間で、レコード識別符号とキーワード属
性符号が共通で文字セット位置順序符号の差が検索入力
文字列の該当する文字セットの先頭文字位置差に等しく
、かつそのキーワード属性符号が検索入力と等しい文字
セット位置情報の組み合わせを抽出する手段と、この抽
出された文字セット位置情報の組み合わせに基づいて検
索入力文字列に対応するレコード識別符号を検索結果と
して出力する手段とを備えたことを特徴とする。
A second feature of the present invention is that the search file created according to the first feature is provided, and the characters constituting the search input string are broken down into a character set of r characters from the first character. A means of creating a set string and extracting character set position information of the same character set as this character set from the above search file, and a common record identification code and keyword attribute code between the character set position information of each character set extracted. a means for extracting a combination of character set position information in which the difference in character set position order codes is equal to the first character position difference of the corresponding character set of a search input character string and whose keyword attribute code is equal to the search input; The present invention is characterized by comprising means for outputting a record identification code corresponding to a search input character string as a search result based on the combination of character set position information obtained.

【0010】なお、検索入力文字列を先頭文字からr文
字単位の文字セットに分解したとき、最後の文字セット
が(r−1)以下になり、r文字単位の文字セットを作
成できないことがある。このときには、最後の文字セッ
トの直前の文字セットの後部から不足文字数分の文字を
取り出し、最後の文字セットの前部に連結してr文字単
位の文字セットを作成することが好ましい。
[0010] When a search input string is decomposed into a character set of r characters from the first character, the last character set may be less than or equal to (r-1), and it may not be possible to create a character set of r characters. . At this time, it is preferable to take out the missing number of characters from the rear of the character set immediately before the last character set and connect them to the front of the last character set to create a character set of r characters.

【0011】また、検索入力文字セット列と同じ文字セ
ット列を構成できる文字セット位置情報の組み合わせの
抽出は、検索入力の全キーワードにおける出現頻度の低
い文字セットから順に行うことが好ましい。
[0011] Furthermore, it is preferable to extract combinations of character set position information that can form the same character set string as the search input character set string in order of character sets that appear less frequently in all keywords of the search input.

【0012】また、検索入力文字セット列と同じ文字セ
ット列を構成できる文字セット位置情報の組み合わせの
抽出は、検索入力文字セット列の全キーワードにおける
出現頻度の低い文字セットの文字セット位置順序符号を
i、出現頻度の高い文字セットの文字セット位置順序符
号をjとするとき、(文字セット位置順序符号iの文字
セットの文字セット位置情報)−(文字セット位置順序
符号jの文字セットの文字セット位置情報)=i−jの
式により行うことが好ましい。
[0012] Furthermore, in order to extract combinations of character set position information that can constitute the same character set string as the search input character set string, character set position order codes of character sets that appear less frequently in all keywords of the search input character set string are extracted. i, character set positional order code of character set with high frequency of appearance is j, (character set positional information of character set of character set positional order code i) - (character set of character set of character set positional order code j) It is preferable to use the formula: position information)=ij.

【0013】なお、キーワードが記号を含む欧文文字列
の場合は、少なくとも3文字記号単位の文字セットとし
、記号を含む欧文字のみの文字セット種グループの検索
ファイルを用いることがよい。
[0013] If the keyword is a Roman character string that includes symbols, it is preferable to use a character set of at least three characters and symbols, and to use a search file for a character set type group containing only European characters that include symbols.

【0014】また、キーワードが漢字を含む場合は、漢
字については1文字単位の文字位置情報とし、仮名文字
については少なくとも2文字単位の文字セット位置情報
とする検索ファイルを用いることができる。
[0014] Furthermore, when the keyword includes a kanji character, a search file can be used that provides character position information in units of one character for kanji characters and character set position information in units of at least two characters for kana characters.

【0015】[0015]

【作用】文書中に同じ文字列が出現する頻度は低い。例
えば広辞苑の見出し語の説明文書は約900 万字ある
が、その中で仮名文字の出現頻度を調べると平均約53
200 回と高い。しかし、仮名2文字の文字列の出現
頻度を調べると平均出現頻度472 回と低くなる。こ
のため仮名2 文字を文字セットとすると、検索入力が
n文字の場合、抽出する照合対象は平均すれば(n/2
)×472 個の文字セット位置情報となる。漢字は文
字種が仮名文字より多いので、漢字2文字の文字列の出
現頻度は仮名文字より低くなり、抽出する照合対象も仮
名文字より少なくなる。一般的に検索入力は数十文字以
下であるため、出現頻度の高い文字を含む文字列であっ
ても、全部の文字を逐次照合するものに比べるとその照
合回数は極めて少なくなる。
[Operation] The frequency that the same character string appears in a document is low. For example, the Kojien dictionary has about 9 million characters in its explanatory text for headwords, but when you look at the frequency of kana characters, the average frequency of occurrence is about 53.
As high as 200 times. However, when we examine the appearance frequency of two-character kana character strings, the average appearance frequency is as low as 472 times. Therefore, if the character set is kana 2 characters, if the search input is n characters, the matching targets to be extracted will be (n/2) on average.
)×472 character set position information. Since kanji has more character types than kana characters, the frequency of appearance of a string of two kanji characters is lower than that of kana characters, and the number of matching targets to be extracted is also smaller than that of kana characters. Generally, a search input is a few dozen characters or less, so even if the string includes characters that appear frequently, the number of times it will be matched will be extremely small compared to a method that sequentially matches all characters.

【0016】例えば、「通信」という2つの文字列を使
用する用語は多々あるとしても「通信・・」という文字
列は「通信回線」、「通信装置」のように4文字で同一
の文字が発生する頻度は非常に低くなる。この結果、「
通信」に続く「回線」や「装置」の文字列を照合すると
、検索対象が急激に絞り込まれていく。このようにして
、検索入力文字セット列の構成文字セットで検索ファイ
ルとの照合を進めていくと、それまでに得られた検索対
象候補のキーワードの中から、検索入力文字セット列と
異なるキーワードが削除され、照合する構成文字セット
ごとに検索対象が絞り込まれていく。特に、検索入力の
中の全キーワードにおける出現頻度の低い文字セットか
ら順に照合を行うと一層絞り込まれて照合一致を取る回
数を低減できる。
For example, although there are many terms that use the two character strings ``communications'', the character string ``communications...'' has four characters with the same character, such as ``communication line'' and ``communication device.'' It occurs very infrequently. As a result,"
If you match the character strings ``line'' and ``device'' that follow ``communication'', your search will be narrowed down rapidly. In this way, as the character sets that make up the search input character set string are compared with the search file, keywords that differ from the search input character set string are found among the search target candidate keywords obtained so far. The search target is narrowed down for each constituent character set to be deleted. In particular, if the matching is performed in order of character sets that appear less frequently among all the keywords in the search input, the search will be further narrowed down and the number of matching matches can be reduced.

【0017】したがって、検索対象となるレコードが有
するキーワードを構成する各文字セットに対応して、レ
コードを特定できるレコード識別符号と、キーワードの
属性を特定できるキーワード属性符号と、キーワード中
の文字セット位置を特定できる文字セット位置順序符号
とから文字セット位置情報を作成し、この文字セット位
置情報を文字セット種ごとに格納して検索ファイルを作
成し、この検索ファイルに対して検索入力文字列との照
合一致を行うことにより文字列検索における照合一致処
理回数を大幅に低減することができる。
[0017] Therefore, corresponding to each character set constituting the keyword of the record to be searched, a record identification code that can identify the record, a keyword attribute code that can identify the attribute of the keyword, and a character set position in the keyword are determined. Create character set position information from a character set position order code that can identify the By performing verification and matching, it is possible to significantly reduce the number of times of verification and matching processing in character string searches.

【0018】この検索ファイルの作成は次のように行う
This search file is created as follows.

【0019】まず検索対象となる各レコードに登録順序
に従って昇順にレコード識別符号を付与する。次に、各
レコードが有するキーワードの論理的な種別を属性とし
て、その属性を示すキーワード属性符号を付与する。例
えば図書検索システムの場合、図書名、著者名、発行者
名、刊行年、抄録などの属性を示すキーワード属性符号
が付与される。さらに、キーワードの先頭文字から1文
字ずつ取り出し、その文字と次に続く合計r文字で文字
セットを作成し、各文字セットにキーワード中での文字
セットの先頭文字位置を示す文字セット位置順序符号を
付与する。これらのレコード識別符号とキーワード属性
符号と文字セット位置順序符号とから、キーワードの各
文字セットの文字セット位置情報を生成する。このとき
キーワード属性を文字位置で表せるように、キーワード
属性符号ごとにあらかじめ設定されたキーワードの先頭
文字位置が定数として文字セット位置情報に加算される
ようにしている。この文字セット位置情報を文字セット
種ごとにグループ化し、これらの各グループを集合して
検索ファイルを作成する。したがってこの検索ファイル
は、文字セット種ごとに文字セット位置情報が格納され
た形のファイル構造となる。
First, record identification codes are assigned to each record to be searched in ascending order according to the registration order. Next, the logical type of the keyword that each record has is set as an attribute, and a keyword attribute code indicating the attribute is assigned. For example, in the case of a book search system, a keyword attribute code indicating attributes such as book name, author name, publisher name, year of publication, and abstract is assigned. Furthermore, extract one character from the first character of the keyword, create a character set with that character and the next r characters in total, and assign a character set position order code to each character set that indicates the position of the first character of the character set in the keyword. Give. Character set position information for each character set of the keyword is generated from these record identification codes, keyword attribute codes, and character set position order codes. At this time, so that keyword attributes can be represented by character positions, the first character position of the keyword, which is set in advance for each keyword attribute code, is added to the character set position information as a constant. This character set position information is grouped by character set type, and each group is assembled to create a search file. Therefore, this search file has a file structure in which character set position information is stored for each character set type.

【0020】検索処理では、検索入力文字列と検索入力
文字列属性とが対で1個以上入力される。各検索入力文
字列について検索入力文字列を先頭文字からr文字単位
の文字セットに分解し、検索ファイル中から分解した文
字セットと同じ文字セットの文字セット位置情報を取り
出して、レコード識別符号が共通で文字セット位置順序
符号の差が該当する検索入力文字列の文字セットの先頭
文字位置差に等しく、かつそのキーワード属性符号が検
索入力と等しい文字位セット置情報の組み合わせを照合
して取り出す。取り出した各検索入力に対応する文字セ
ット位置情報の組み合わせから検索入力文字列に対応す
るレコード識別符号を検索結果として取り出す。
In the search process, one or more pairs of search input character strings and search input character string attributes are input. For each search input string, the search input string is decomposed into a character set of r characters from the first character, the character set position information of the same character set as the decomposed character set is extracted from the search file, and the record identification code is common. Then, a combination of character position set position information in which the difference in character set position order code is equal to the first character position difference of the character set of the corresponding search input character string and whose keyword attribute code is equal to the search input is collated and extracted. A record identification code corresponding to the search input character string is extracted as a search result from the combination of character set position information corresponding to each retrieved search input.

【0021】なお、検索入力文字列を先頭文字からr文
字単位の文字セットに分解したとき、最後の文字セット
が(r−1)以下になり、r文字単位の文字セットを作
成できないことがある。このときには、最後の文字セッ
トの直前の文字セットの後部から不足文字数分の文字を
取り出し、最後の文字セットの前部に連結してr文字単
位の文字セットを作成する。
[0021] When a search input string is decomposed into a character set of r characters from the first character, the last character set may be less than or equal to (r-1), and it may not be possible to create a character set of r characters. . At this time, characters corresponding to the number of missing characters are extracted from the rear of the character set immediately before the last character set, and are concatenated to the front of the last character set to create a character set of r characters.

【0022】この照合処理は、検索入力と検索ファイル
との文字セット列の連続性の一致と属性の一致とをみる
もので、検索ファイル中の文字セット位置情報からレコ
ードの識別符号が共通していて文字セット位置順序符号
の差が該当する検索入力文字列の文字セットの先頭文字
位置差に等しくかつキーワード属性符号が同じキーワー
ドを取り出すことにより行う。
[0022] This matching process checks whether the character set strings of the search input and the search file match in continuity and the attributes match, and it is determined whether the records have common identification codes based on the character set position information in the search file. This is done by extracting keywords for which the difference in character set position order code is equal to the difference in the first character position of the character set of the corresponding search input character string and the keyword attribute code is the same.

【0023】これにより、検索ファイル中の全キーワー
ドとの照合が不要になり、検索ファイルにある検索入力
と同じ文字セットの文字セット位置情報だけの照合一致
を行えばよいので、照合回数は逐次照合に比べるときわ
めて低減することができる。また、日本語の単語では、
同じ文字列の出現頻度が低いので、r文字単位の文字セ
ットを照合するたびに、検索対象が絞り込まれるので、
照合回数は低減していく。
[0023] This eliminates the need to match all the keywords in the search file, and it is only necessary to match the character set position information of the same character set as the search input in the search file, so the number of matches is reduced to sequential matching. can be significantly reduced compared to . Also, in Japanese words,
Since the frequency of occurrence of the same character string is low, the search target is narrowed down each time a character set of r characters is compared.
The number of verifications will continue to decrease.

【0024】さらに、検索ファイルから取り出した文字
セット位置情報を照合するとき、検索入力の中の全キー
ワードにおける出現頻度の低い文字セットから順に行う
と検索対象が一層絞り込まれ、照合一致をとる回数がさ
らに低減できる。
Furthermore, when comparing the character set position information extracted from the search file, if the character sets that appear in all the keywords in the search input are checked in order of frequency, the search target will be further narrowed down and the number of matching matches will be reduced. It can be further reduced.

【0025】このようにして検索入力に合致する文字セ
ット位置情報を見出したときは検索入力に対応するレコ
ード識別符号に該当するレコードを抽出して、検索者に
検索結果として出力する。
When character set position information matching the search input is found in this manner, the record corresponding to the record identification code corresponding to the search input is extracted and output to the searcher as a search result.

【0026】[0026]

【実施例】以下図面を参照して本発明の実施例を説明す
る。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Examples of the present invention will be described below with reference to the drawings.

【0027】図1は本発明一実施例における情報検索処
理装置の構成を示すものである。
FIG. 1 shows the configuration of an information retrieval processing device according to an embodiment of the present invention.

【0028】本実施例の情報検索処理装置は、各種演算
処理あるいは判断処理を行うCPU1と、検索処理、検
索ファイル作成等のプログラム、作成されたあるいは検
索処理を行うための検索ファイル、検索入力等を記憶す
るメモリ2、キーボード4、ディスプレイ5を接続する
入出力部3、各種情報が記憶される外部記憶装置7を接
続する外部記憶装置制御部6、CPU1、メモリ2、入
出力部3、外部記憶装置制御部6を接続する共通バス8
とを備える。
The information search processing device of this embodiment includes a CPU 1 that performs various arithmetic processing or judgment processing, programs for search processing, search file creation, etc., search files created or for performing search processing, search input, etc. a memory 2 for storing information, a keyboard 4, an input/output section 3 for connecting a display 5, an external storage device control section 6 for connecting an external storage device 7 for storing various information, a CPU 1, a memory 2, an input/output section 3, an external Common bus 8 connecting storage device control unit 6
Equipped with.

【0029】本実施例での情報検索処理は、検索処理に
供するための検索対象となるレコードが有するマルチキ
ーワードから作成するキーワード列について各キーワー
ドの構成文字をキーワード列の先頭文字から1文字ずつ
取り出し、その文字と次に続く文字の合計2文字で文字
セットを作成し、これらの文字セット種を文字セット種
ごとに格納して検索ファイルを作成する検索ファイル作
成処理と、検索ファイルとの照合一致を行って検索入力
に合致するキーワードのレコードを抽出する検索処理と
の二つに分けられる。
The information search process in this embodiment involves extracting constituent characters of each keyword one by one from the first character of the keyword string for a keyword string created from multi-keywords possessed by records to be searched for the search process. , a search file creation process that creates a character set with a total of two characters, that character and the next character, stores these character set types for each character set type, and creates a search file, and matching with the search file. The search process is divided into two: search processing, which extracts records with keywords that match the search input;

【0030】まず、検索ファイル作成処理について説明
する。
First, the search file creation process will be explained.

【0031】この検索ファイル作成処理は、大まかに分
けると、■検索ファイル領域確保、■各キーワード構成
文字セットへの文字セット位置情報の付与、■文字セッ
ト種別ごとにグループ化した文字セット位置情報のファ
イルへの格納の3つに分けることができる。この各処理
についてそれぞれ説明する。
[0031] This search file creation process can be roughly divided into: ■ Securing a search file area; ■ Adding character set position information to each keyword constituent character set; ■ Adding character set position information grouped by character set type. It can be divided into three types: storage in files. Each of these processes will be explained.

【0032】■  検索ファイル領域確保検索ファイル
は、図2に示すように、JISコード表に記載されてい
る文字順に配列された文字セット群で構成される。各文
字セット群は図3に示すように、JISコード表に記載
されている文字順に、記載文字を先頭文字とする2文字
の文字列で構成される文字セットグループで構成される
。そこで登録するレコードの有するキーワードの先頭文
字から1文字ずつ取り出し、その文字と次に続く合計2
文字で文字セットを作成し、これらの文字セット種ごと
に出現頻度を計数する。これにより、検索ファイルを構
成する各文字セット種グループに登録される文字セット
位置情報の数がわかるので、全文字セット種グループで
構成される検索ファイルの領域を確保できる。また同時
に、各文字セット種グループに登録される文字セット位
置情報の数から、検索ファイル内に連続して格納される
文字セット種グループの先頭番地もわかる。この文字セ
ット種グループの先頭番地を図3の文字セット群一覧の
記載順に配列したのが図4に示す文字セットグループア
ドレス表である。
① Securing search file area As shown in FIG. 2, the search file is composed of a character set group arranged in the order of characters listed in the JIS code table. As shown in FIG. 3, each character set group is composed of a character string of two characters in the order of characters listed in the JIS code table, with the listed characters being the first characters. Then, extract one character from the first character of the keyword of the record to be registered, and use that character and the next total of 2 characters.
Create character sets with characters and count the frequency of appearance for each type of character set. As a result, the number of character set position information registered in each character set type group constituting the search file can be known, so it is possible to secure an area for the search file composed of all character set type groups. At the same time, from the number of character set position information registered in each character set type group, the starting addresses of character set type groups that are successively stored in the search file can also be determined. The character set group address table shown in FIG. 4 is an arrangement of the leading addresses of the character set type groups in the order of description in the character set group list of FIG. 3.

【0033】■  各キーワード構成文字セットへの文
字セット位置情報の付与 ここで述べる文字セット位置情報は、レコードが有する
各キーワードをキーワード属性番号に対応するキーワー
ド属性領域に配列して作成するキーワード列において、
各キーワードを構成するすべての文字セットが属するレ
コードの登録する順番を示すレコード番号と、キーワー
ドにおけるその文字セットの出現する位置をその文字セ
ットの先頭文字の位置で示す文字セット位置番号と、キ
ーワードの論理的な種別を示すキーワード属性番号とで
作成される。
■ Adding character set position information to each keyword constituent character set The character set position information described here is added to the keyword string created by arranging each keyword of a record in the keyword attribute area corresponding to the keyword attribute number. ,
The record number that indicates the registration order of records to which all character sets that make up each keyword belong, the character set position number that indicates the position of the character set in the keyword as the position of the first character of the character set, and the character set position number that indicates the position of the first character of the character set in the keyword. It is created with a keyword attribute number indicating the logical type.

【0034】まずレコード番号を説明する。例えば、一
般的な図書検索システムでは、図書名、著者名、発行者
名、刊行年、抄録のキーワードで図書を検索する。この
ときレコードは、図書名、著者名、発行者名、刊行年、
抄録のキーワードで構成される検索対象であって、この
レコードが登録される順序に1から昇順に番号を付与し
てレコード番号とする。
First, record numbers will be explained. For example, in a general book search system, books are searched using keywords such as book title, author name, publisher name, year of publication, and abstract. At this time, the record includes the book name, author name, publisher name, publication year,
The search target consists of abstract keywords, and a record number is assigned by assigning a number in ascending order from 1 to the order in which this record is registered.

【0035】次にキーワード属性番号を説明する。一般
的に検索者は、検索する図書を特定しやすいキーワード
を検索入力としたり、あるいは記憶しているキーワード
を検索入力する。このため図書検索システムでは、例え
ば図書名、著者名、発行者名、刊行年、抄録の各キーワ
ードにキーワード属性を付加し、検索入力と図書検索シ
ステムのキーワード間に論理的な関連付けを行っている
。ここではキーワード属性番号として、図書名に「1」
、著者名に「2」、発行者名に「3」、刊行年に「4」
、抄録に「5」を付与する。
Next, keyword attribute numbers will be explained. Generally, a searcher inputs a keyword that is easy to identify the book to be searched, or inputs a stored keyword. For this reason, the book search system adds keyword attributes to each keyword, for example, book title, author name, publisher name, publication year, and abstract, and creates a logical association between the search input and the book search system's keywords. . Here, "1" is added to the book name as the keyword attribute number.
, "2" for the author name, "3" for the publisher name, "4" for the year of publication
, give the abstract a "5".

【0036】次に文字セット位置番号を説明する。キー
ワードごとに、キーワードの先頭から1文字ずつ取り出
し、その文字と次に続く文字の合計2文字で文字セット
を作成し、作成順に1、2、3・・・と昇順に番号を付
与して文字セット位置番号とする。キーワードの最後の
文字にはキーワードの最後を示す特殊記号EM(エンド
マーク)を付加し、このEM記号と連結させて文字セッ
トとし、文字セット位置番号を付与する。なおEM記号
にはJISコード表の未使用コードを割り当てる。ここ
では数字9の直後にあるJISコードA3BAを割り当
てる。
Next, character set position numbers will be explained. For each keyword, extract one character from the beginning of the keyword, create a character set with a total of two characters (that character and the next character), and assign numbers in ascending order of creation, such as 1, 2, 3, etc. Set position number. A special symbol EM (end mark) indicating the end of the keyword is added to the last character of the keyword, and the special symbol EM (end mark) is connected to the EM symbol to form a character set, and a character set position number is assigned. Note that an unused code from the JIS code table is assigned to the EM symbol. Here, the JIS code A3BA immediately after the number 9 is assigned.

【0037】次にキーワード列を説明する。レコードの
有するキーワードに対する部分一致検索を検索入力文字
セット列との文字セット列照合により実現するために、
レコードの有するすべてのキーワードを連結して文字列
を構成し、これをキーワード列とする。すなわち、各キ
ーワードをキーワード属性番号に対応する固定長のキー
ワード属性領域に配列しキーワード列を作成する。これ
によりキーワード列における文字位置から、その文字セ
ットが属するキーワードの属性がわかる。なお、各キー
ワード属性領域に続いてキーワード属性領域の区切りを
示すEND記号がキーワード列に配列される。このEN
D記号はJISコード表の未使用コードを割り当てる。 ここではEM記号の直後にあるJISコードA3BBを
割り当てる。
Next, the keyword string will be explained. In order to realize a partial match search for keywords possessed by a record by matching a character set string with a search input character set string,
All the keywords of the record are concatenated to form a character string, and this is used as a keyword string. That is, each keyword is arranged in a fixed-length keyword attribute area corresponding to a keyword attribute number to create a keyword string. As a result, the attribute of the keyword to which the character set belongs can be determined from the character position in the keyword string. Note that, following each keyword attribute area, END symbols indicating the division of keyword attribute areas are arranged in the keyword string. This EN
The D symbol is assigned an unused code in the JIS code table. Here, the JIS code A3BB immediately after the EM symbol is assigned.

【0038】そしてこのキーワード列を対象として、レ
コード番号とキーワード属性番号と文字セット位置番号
からキーワードを構成するすべての文字セットを整数か
らなるコードに変換して文字セット位置情報を作成する
。この文字セット位置情報は、次の式(1)で与えられ
る整数のコードである。 文字セット位置情報コード=レコード番号×n+(Pa
 −1)+p…(1) n:キーワード列文字数 Pa :キーワード属性番号aのキーワード属性領域の
キーワード列における先頭文字位置 p:文字セット位置番号
Then, for this keyword string, character set position information is created by converting all character sets constituting the keyword into codes consisting of integers from the record number, keyword attribute number, and character set position number. This character set position information is an integer code given by the following equation (1). Character set position information code = record number x n + (Pa
-1) +p...(1) n: Number of characters in the keyword string Pa: First character position in the keyword string in the keyword attribute area of keyword attribute number a p: Character set position number

【0039】例えば、キーワード列のキーワード属性領
域サイズが、図書名=64バイト32文字、著者名=3
2バイト16文字、発行者=64バイト32文字、刊行
年=8バイト4文字、抄録=400 バイト200 文
字の図書検索システムにおいて、レコード番号が100
 のレコードが、「図書名=通信文書の構造」、「著者
名=田中一郎」、「発行者=太平洋出版」、「刊行年=
1990」、「抄録=初めての人にも〜ている」の場合
、キーワード列は図5に示すようになる。このときキー
ワード列は578 バイト(289 文字)であるから
各文字セットの文字セット位置情報は図6に示すように
構成される。
For example, the size of the keyword attribute area of the keyword string is book name = 64 bytes 32 characters, author name = 3
2 bytes 16 characters, Publisher = 64 bytes 32 characters, Publication year = 8 bytes 4 characters, Abstract = 400 Bytes 200 In a book search system with 200 characters, the record number is 100.
The record is ``Book name = Structure of correspondence'', ``Author name = Ichiro Tanaka'', ``Publisher = Taiheiyo Publishing'', ``Year of publication =
1990'' and ``Abstract=Even for first-time users'', the keyword string is as shown in FIG. At this time, since the keyword string is 578 bytes (289 characters), the character set position information for each character set is configured as shown in FIG.

【0040】そして、このように文字セット位置情報を
それぞれ4バイトのコードで構成すれば、289 文字
数のキーワード列を232÷289 ≒1486万個取
り扱うことが可能である。
[0040] If character set position information is constituted by each 4-byte code in this way, it is possible to handle 232÷289≈14.86 million keyword strings each having 289 characters.

【0041】■  文字位置情報の検索ファイルへの登
録次にこの各文字セットごとに付与された文字セット位
置情報を検索ファイルに登録する。上述のように文字セ
ット種グループは、JISコード表に記載された順に検
索ファイルに格納される。そして各文字セットの文字セ
ット位置情報を各文字セット種グループに登録する。こ
の文字セット位置情報の登録は、文字セット種グループ
の未格納領域の先頭にそれぞれ文字セット位置情報を格
納することによって行われる。このため、登録順にレコ
ード番号を付与すれば文字セット種グループ内には文字
セット位置情報が数値順の昇順に登録されることになる
(1) Registration of character position information in the search file Next, the character set position information assigned to each character set is registered in the search file. As described above, character set type groups are stored in the search file in the order they are listed in the JIS code table. Then, character set position information for each character set is registered in each character set type group. Registration of this character set position information is performed by storing the character set position information at the beginning of each unstored area of the character set type group. Therefore, if record numbers are assigned in the order of registration, character set position information will be registered in ascending numerical order within the character set type group.

【0042】上述の図書名「通信文書の構造」の文字セ
ット位置情報を検索ファイルに登録した例を図7に示す
。このとき、各グループ内の文字セット位置情報は昇順
に格納される。このファイル容量は、文字セット位置情
報が4バイトであると、
FIG. 7 shows an example in which the character set position information for the book name "Structure of Correspondence" mentioned above is registered in the search file. At this time, the character set position information within each group is stored in ascending order. This file size is 4 bytes of character set position information.

【数1】 になる。[Math 1] become.

【0043】なお、文字セット位置情報の追加登録は、
追加レコードが有する各キーワードの各文字セットに該
当するグループの未格納領域の先頭に新規コードを追加
することで行う。また、削除は削除レコードが有する各
キーワードの各文字セットに該当するグループ内の該当
文字セット位置情報を特殊記号に変更することによって
行う。これにより追加登録と削除を短時間に行うことが
できる。
[0043]Additional registration of character set position information is as follows:
This is done by adding a new code to the beginning of the unstored area of the group corresponding to each character set of each keyword included in the additional record. Further, deletion is performed by changing the corresponding character set position information in the group corresponding to each character set of each keyword included in the deletion record to a special symbol. This allows additional registration and deletion to be performed in a short time.

【0044】なお上述のようにこの検索ファイルの各文
字セット種グループごとに格納された文字セット位置情
報は、図4の文字セットグループアドレス表の各文字セ
ットグループ先頭番地をディレクトリとして取り出すこ
とができる。
As mentioned above, the character set position information stored for each character set type group in this search file can be retrieved using the first address of each character set group in the character set group address table in FIG. 4 as a directory. .

【0045】以上の検索ファイルの作成処理の流れを図
8a、図8bに示す。
The flow of the above search file creation process is shown in FIGS. 8a and 8b.

【0046】すなわち、文字セット種の出現度数を計数
して文字セット欄アドレス表を作成し(S11、12)
、検索ファイルの領域を確保する(S13)。次にレコ
ード登録順位カウンタをk=1に初期設定して、レコー
ド番号を「1」に、キーワード列文字数をn=289 
に、キーワード属性領域の先頭文字位置を図書名用とし
てP1 =1、著者名用としてP2 =34、発行者名
用としてP3 =51、刊行年用としてP4 =84、
抄録用としてP5 =89を設定する(S14)。そし
て最初のレコードを取り出す(S15)。ここまでが登
録の前処理である。ここからレコードごとの登録処理と
なり、まず、キーワード属性番号をa=1にセットし(
S16)、レコードの中からキーワード属性番号aのキ
ーワードを取り出す(S17)。さらに、キーワードの
構成文字数をmに、文字セット位置番号をp=1に、キ
ーワード属性番号aに該当するキーワード属性領域の先
頭文字位置をPa に設定する(S18)。次に、取り
出したキーワードの先頭文字から順に、文字セット位置
番号pに相当する文字セット位置情報を D=k×n+(Pa −1)+p  …(2)の式(2
)を用いて作成する(S19)。
That is, a character set field address table is created by counting the frequency of appearance of character set types (S11, 12).
, secures an area for the search file (S13). Next, initialize the record registration rank counter to k = 1, set the record number to "1", and set the number of keyword string characters to n = 289.
The first character position of the keyword attribute area is P1 = 1 for the book name, P2 = 34 for the author name, P3 = 51 for the publisher name, P4 = 84 for the publication year,
P5=89 is set for the abstract (S14). Then, the first record is taken out (S15). This is the pre-processing for registration. From here, the registration process begins for each record. First, the keyword attribute number is set to a=1 (
S16), the keyword with keyword attribute number a is extracted from the record (S17). Furthermore, the number of constituent characters of the keyword is set to m, the character set position number is set to p=1, and the first character position of the keyword attribute area corresponding to keyword attribute number a is set to Pa (S18). Next, in order from the first character of the retrieved keyword, character set position information corresponding to character set position number p is calculated using the equation (2) of D=k×n+(Pa −1)+p.
) (S19).

【0047】そして、文字セット位置番号pにある文字
セットの文字セット種グループが格納されている検索フ
ァイルの文字セット欄を示す文字セット欄ディレクトリ
(文字セット欄先頭番地)を文字セット欄アドレス表か
ら取り出して(S20)、文字セット欄ディレクトリが
示す検索ファイルの文字セット欄の未格納行の先頭に文
字セット位置情報を格納する(S21)。そして、p=
p+1、m=m−1とし、キーワード内のすべての文字
セットを処理したところで、a=a+1でキーワード属
性番号を+1して次のキーワード処理に移る(S24、
S25)。また、レコードが有するすべてのキーワード
を処理すると、k=k+1でレコード登録順位カウンタ
を+1して次のレコードの処理に移る(S26、S27
、S28)。全レコードの処理が終了すると登録処理が
終わる(S26)。
Then, the character set field directory (character set field first address) indicating the character set field of the search file in which the character set type group of the character set at character set position number p is stored is retrieved from the character set field address table. The character set position information is retrieved (S20) and stored at the beginning of the unstored line in the character set column of the search file indicated by the character set column directory (S21). And p=
When p+1 and m=m-1 are set and all character sets in the keyword have been processed, the keyword attribute number is +1 with a=a+1 and the process moves to the next keyword (S24,
S25). Furthermore, when all the keywords included in the record are processed, the record registration ranking counter is incremented by 1 at k=k+1 and the process moves on to the next record (S26, S27).
, S28). When all records have been processed, the registration process ends (S26).

【0048】次にこのようにして作成された検索ファイ
ルを用いる検索処理について説明する。
Next, search processing using the search file created in this manner will be explained.

【0049】本実施例では、検索ファイルから取り出し
た文字セット位置情報を対象として、検索入力文字列と
同じ文字列を含むキーワードを文字列照合し、かつ検索
入力と同じ属性であることを確認後、すべての検索入力
文字列に共通するレコードを検索する例で説明する。
In this embodiment, character set position information extracted from a search file is used to match keywords containing the same character string as the search input string, and after confirming that it has the same attributes as the search input, , an example of searching for records common to all search input character strings will be explained.

【0050】まず、その検索処理は大まかに分けると以
下の構成からなっている。■検索入力文字列をその先頭
文字から2文字単位の文字セットに分解し、検索入力文
字セット列を作成する。■検索入力文字セット列の各文
字セットに該当する文字セットグループアドレス表内の
文字セットグループ先頭番地を算出する。■検索入力文
字セット列を出現頻度の少ない文字セットから順に並べ
変える。■並べ変えた文字セット列の先頭から順に該当
する文字セット種グループを検索ファイルから取り出し
てそこに格納されている文字セット位置情報から検索入
力文字セット列を構成できる文字セット位置情報の組み
合わせを取り出す。■抽出した文字セット位置情報から
検索入力と同じ属性を有する文字セット位置情報を取り
出し照合一致とする。■■〜■を検索入力数分繰り返し
た後、すべての検索入力文字列に共通するレコード番号
を検索結果として出力する。
First, the search process can be roughly divided into the following components. ■ Break down the search input character string into character sets of two characters starting from the first character, and create a search input character set string. ■Calculate the first address of a character set group in the character set group address table that corresponds to each character set in the search input character set string. ■Reorder the search input character set string in order of character sets that appear least frequently. - Extract the corresponding character set type group from the search file in order from the beginning of the rearranged character set string, and extract the combination of character set position information that can constitute the search input character set string from the character set position information stored there. . (2) Extract character set position information having the same attribute as the search input from the extracted character set position information and make it a match. After repeating ■■ to ■ for the number of search inputs, the record number common to all search input character strings is output as the search result.

【0051】次に具体的にそれぞれの処理を説明する。Next, each process will be specifically explained.

【0052】■  検索入力文字セット列の作成検索フ
ァイルに格納されている文字セットと照合可能なように
、検索入力文字列を先頭文字から2文字単位の文字セッ
トに分解し、検索入力文字セット列とする。なお、検索
入力文字列を先頭文字から2文字単位の文字セットに分
解したとき、最後に1文字が残り2文字単位の文字セッ
トを作成できないことがある。このときには、最後の1
文字の直前の文字セットから不足分の1文字を取り出し
、最後の1文字の前部に連結した2文字単位の文字セッ
トを作成する。
■ Creating a search input character set string In order to match the character set stored in the search file, the search input character string is broken down into a character set of two characters starting from the first character, and the search input character set string is created. shall be. Note that when a search input character string is decomposed into a character set of two characters from the first character, one character may remain at the end, making it impossible to create a character set of two characters. At this time, the last 1
A character set of two characters is created by extracting the missing character from the character set immediately before the character and concatenating it to the front of the last character.

【0053】■  各検索入力文字セットに該当する文
字セットグループアドレス表内の文字セットグループ先
頭番地の算出 検索ファイルの作成時と同様に、各検索入力文字セット
の図3における文字セット記載順位を算出し、これを文
字セットグループアドレス表における各検索入力文字セ
ットのアドレスポインタとする。
[0053] Calculation of the character set group start address in the character set group address table corresponding to each search input character set Similarly to the time of creating the search file, calculate the character set description rank in Figure 3 for each search input character set. This is then used as the address pointer for each search input character set in the character set group address table.

【0054】■  出現頻度順の並べ変えそして、検索
ファイルの各文字セット種グループの先頭番地を示す文
字セットグループアドレス表の文字セットグループ先頭
番地を参照して、各検索入力文字セットの出現頻度を調
べ、検索入力文字セット列を全キーワードにおける出現
頻度の低いものから順に並べ変える。上述のように、文
字セットグループアドレス表内の先頭番地は、検索ファ
イルに格納されている各文字セット種グループの先頭番
地を示しており、次に続く文字セットグループ先頭番地
との差をとれば、各文字セット種グループに格納されて
いる文字セット位置情報の数から、全キーワードにおけ
る文字セット種別出現頻度がわかる。
■ Rearranging the order of appearance frequency Then, by referring to the character set group start address in the character set group address table that indicates the start address of each character set type group in the search file, the appearance frequency of each search input character set is determined. Search and rearrange the search input character set strings in descending order of appearance frequency among all keywords. As mentioned above, the first address in the character set group address table indicates the first address of each character set type group stored in the search file, and if you take the difference from the first address of the next character set group, , from the number of character set position information stored in each character set type group, the appearance frequency of the character set type in all keywords can be determined.

【0055】これは出現頻度の低い文字セットから照合
一致を行うことにより、検索ファイルに格納された各文
字セットの文字セット位置情報間の照合回数をきわめて
低減できるためである。すなわち文字セット位置情報を
照合して各文字セットの連続性を調べる場合に二つの文
字セット種グループ内の文字セット位置情報中のレコー
ド番号と文字セット位置番号とキーワード属性番号とを
照合するため、その二つの文字セット種グループ内に格
納されている文字セット位置情報の数が少なければそれ
だけ照合回数を少なくすることができる。したがって、
文字セット位置情報の照合を行うときに、出現頻度の低
い文字セットから照合を行うことが照合回数を低減させ
る。特に検索入力文字が多くなるほど出現頻度の低い文
字セットが含まれる割合が高まるため低減効果は大きい
[0055] This is because the number of times of matching between the character set position information of each character set stored in the search file can be extremely reduced by performing matching from character sets that appear less frequently. In other words, when checking the continuity of each character set by comparing character set position information, in order to check the record number, character set position number, and keyword attribute number in the character set position information in two character set type groups, The smaller the number of character set position information stored in the two character set type groups, the fewer times the matching can be performed. therefore,
When performing character set position information verification, performing verification from character sets that appear less frequently reduces the number of times of verification. In particular, as the number of search input characters increases, the rate of inclusion of character sets with low frequency of appearance increases, so the reduction effect is large.

【0056】■  文字列の照合 出現頻度の低い文字セットから文字セットグループアド
レス表を参照してそれぞれの文字セット種グループに格
納されている文字セット位置情報を取り出す。そして取
り出した文字セット位置情報をもとに、出現頻度の低い
文字セット種グループから順に、各文字セット種グルー
プ間でレコード番号が等しくかつ文字セット位置番号の
差が検索入力文字列の該当する文字セットの先頭文字位
置差に等しい文字セット位置情報の組み合わせを抽出す
る。
① Character string comparison The character set position information stored in each character set type group is extracted by referring to the character set group address table from the character set with a low appearance frequency. Then, based on the retrieved character set position information, the characters in the search input string that have the same record number and the difference in character set position number between each character set type group are searched in descending order of the character set type groups with the lowest appearance frequency. Extracts a combination of character set position information that is equal to the first character position difference of the set.

【0057】この文字セット位置情報の照合は、検索入
力文字セット列の全キーワードにおける出現頻度の低い
文字セットの文字セット位置番号をi、出現頻度の高い
文字セットの文字セット位置番号をjとするとき、次の
式(3)で (文字セット位置番号iの文字セットの文字セット位置
情報)−(文字セット位置番号jの文字セットの文字セ
ット位置情報)=i−j    …  (3)となる文
字セット位置情報の組み合わせを抽出すればよい。
[0057] This character set position information is collated by setting i to the character set position number of a character set that appears less frequently in all keywords in the search input character set string, and j to the character set position number of a character set that appears frequently. Then, in the following equation (3), (character set position information of the character set with character set position number i) - (character set position information of the character set with character set position number j) = i - j ... (3) It is sufficient to extract combinations of character set position information.

【0058】この文字セット種グループ間での文字セッ
ト位置情報の照合処理では、出現頻度の低い文字セット
種グループの文字セット位置情報とそれより出現頻度の
高い文字セット種グループの文字セット位置情報との差
を取って文字の連続を照合する。
In this process of collating character set position information between character set type groups, the character set position information of the character set type group that appears less frequently is compared with the character set position information of the character set type group that appears more frequently. Match consecutive characters by taking the difference between them.

【0059】検索入力文字列における任意の文字セット
をABとCDとすると、該当する文字セット位置情報を
抽出するには、ABとCDとの文字セット位置番号差が
Lであるとし、グループABの文字セット位置情報をA
x 、グループCDの文字セット位置情報をCy とし
たとき Ax +L>Cy ならCy を削除 Ax +L<Cy ならCx を削除 Ax +L=Cy ならAx 、Cy を合致として共
に削除というように不連続な文字セット位置情報を照合
対象から削除していくことによりその照合回数を削減さ
せる。
Assuming that the arbitrary character sets in the search input character string are AB and CD, in order to extract the corresponding character set position information, assume that the character set position number difference between AB and CD is L, and extract the character set position information of group AB. Character set position information A
x, the character set position information of group CD is Cy.If Ax +L>Cy, delete Cy.If Ax +L<Cy, delete Cx.If Ax +L=Cy, delete both Ax and Cy as a match.Discontinuous characters The number of times of matching is reduced by deleting the set position information from the matching target.

【0060】例えばグループABの文字セット位置情報
が 571 、1140、10230 、11365 、1
1928 、13069グループCDの文字セット位置
情報が 569 、1706、10231 、10235 、1
1362文字セット位置番号差L=2 であった場合、この二つのグループ間の照合回数は全体
で7回だけですみ、グループ内の全ての文字セット位置
情報を照合する必要はない。
For example, the character set position information of group AB is 571, 1140, 10230, 11365, 1
The character set position information of 1928, 13069 group CD is 569, 1706, 10231, 10235, 1
When the 1362 character set position number difference L=2, the number of times the two groups are compared is only seven times in total, and there is no need to compare all the character set position information within the group.

【0061】■  キーワード属性番号の照合文字列照
合から得られた文字セット位置情報の文字セット位置番
号についてキーワード属性を照合する。すなわち、文字
セット位置番号が1〜32ならば文字セット位置情報の
キーワード属性は図書名であり、文字セット位置番号が
34〜49ならば文字セット位置情報のキーワード属性
は著者名であり、文字セット位置番号が51〜82なら
ば文字セット位置情報のキーワード属性は発行者名であ
り、文字セット位置番号が84〜87ならば文字セット
位置情報のキーワード属性は刊行年であり、文字セット
位置番号が89〜288 ならば文字セット位置情報の
キーワード属性は抄録であることがわかる。そこで、文
字セット列照合で得られた文字セット位置情報の中から
検索入力時に指定された属性と同じ文字セット位置情報
だけを取り出す。
③ Matching of Keyword Attribute Number The keyword attribute is matched with respect to the character set position number of the character set position information obtained from the character string matching. That is, if the character set position number is 1 to 32, the keyword attribute of the character set position information is the book name, and if the character set position number is 34 to 49, the keyword attribute of the character set position information is the author name, and the character set position information is the author name. If the position number is 51 to 82, the keyword attribute of the character set position information is the publisher name, and if the character set position number is 84 to 87, the keyword attribute of the character set position information is publication year, and the character set position number is the publisher name. 89 to 288, it can be seen that the keyword attribute of the character set position information is abstract. Therefore, only the character set position information that is the same as the attribute specified at the time of search input is extracted from the character set position information obtained by character set string matching.

【0062】■  レコード番号の抽出検索入力の数だ
け■〜■を繰り返し、得られた各検索入力文字列に該当
する文字セット位置情報間で、すべての検索入力文字列
に共通するレコード番号を取り出す。なお、この実施例
では検索入力が1個以上の場合について説明した。また
、検索入力が複数の場合には、各検索入力間で論理積演
算を行う例として説明したが、論理積演算以外の論理演
算を伴う複数の検索入力の場合は、照合結果として残っ
たレコード番号を各検索入力に対応付けて指定された論
理演算を行って検索入力の論理を満足するレコード番号
を検索結果として出力する。
[0062] ■ Extracting record numbers Repeat ■ to ■ for the number of search inputs, and extract the record number common to all search input strings among the character set position information corresponding to each search input string obtained. . Note that in this embodiment, the case where there is one or more search inputs has been described. In addition, when there are multiple search inputs, we explained as an example of performing a logical AND operation between each search input, but in the case of multiple search inputs that involve logical operations other than a logical AND operation, the records that remain as a matching result A specified logical operation is performed by associating the number with each search input, and a record number that satisfies the logic of the search input is output as a search result.

【0063】なお、1検索入力を複数の文字列で指定す
る場合、例えば抄録のような文字数が多い項目を対象と
する場合よくあることであるが、最初の文字列のキーワ
ード属性照合終了後、2番目以降の文字列に対しては、
その文字列の最初の照合文字セットの文字セット種グル
ープから、それまで得られたレコード番号とキーワード
属性番号を有する文字セット位置情報を取り出し、得ら
れた文字セット位置情報を文字セット列照合の先頭文字
の文字セット種グループとして同じ文字列内の他の文字
セットについて照合処理を行う。
[0063] When specifying one search input with multiple character strings, which is often the case when targeting items with a large number of characters such as abstracts, after completing the keyword attribute matching of the first character string, For the second and subsequent strings,
The character set position information with the record number and keyword attribute number obtained so far is extracted from the character set type group of the first collation character set of that character string, and the obtained character set position information is used at the beginning of character set string collation. Performs matching processing on other character sets within the same character string as a character set type group of characters.

【0064】以上の■〜■の動作を具体例を挙げて説明
する。
The above operations ① to ② will be explained using specific examples.

【0065】検索対象として図書名が指定され、検索入
力文字列としては「通信文書の」が指定されたとする。 この場合図書名のキーワードの属性の属性番号は「1」
とする。
Assume that a book name is specified as a search target, and ``correspondence'' is specified as a search input character string. In this case, the attribute number of the keyword attribute of the book name is "1"
shall be.

【0066】検索入力が「通信文書の」であるから、検
索入力文字セットは「通信」と「文書」と「書の」にな
る。全キーワードにおける出現頻度が「通信」<「文書
」<「書の」の順であり、照合をこの順序に行うとする
と、まず検索ファイル中の「通信」の文字セットグルー
プ欄から取り出した文字セット位置情報と「文書」の文
字セットグループ欄から取り出した文字セット位置情報
との間で、検索入力「通信文書の」における「通」と「
文」との文字位置が各々「1」と「3」であるから、文
字セット位置差が「−2」になる文字セット位置情報を
抽出すると、図7の検索ファイルの「通信」内の文字セ
ット位置情報の「28901 」と「文書」内の「28
903 」とを連続性ある文字セット位置情報の組み合
わせとして抽出することができる。次に「通信」の中で
照合結果として残った文字セット位置情報と、検索ファ
イル中の「書の」の文字セットグループ欄から取り出し
た文字セット位置情報との間で、文字セット位置差が「
−3」になる文字セット位置情報を抽出すると、図7の
検索ファイルの「通信」内の文字セット位置情報の「2
8901 」と「書の」内の文字セット位置情報の「2
8904 」とを連続性ある文字セット位置情報の組み
合わせとして抽出することができる。さらに、キーワー
ド属性は「図書名」であるから、これまでの文字セット
列照合で残った文字セット位置情報の中から、文字セッ
ト位置番号が1〜32の文字位置情報として、「289
01 」と「28903 」と「28904 」とを抽
出できる。
Since the search input is "correspondence," the search input character set is "correspondence,""document," and "calligraphy." Assuming that the frequency of occurrence of all keywords is in the order of "communication"<"document"<"calligraphy" and matching is performed in this order, first, the character set extracted from the character set group field of "communication" in the search file. Between the location information and the character set location information extracted from the character set group field of "Document", "Tsu" and "Tsu" in the search input "Correspondence" are
Since the character positions with "Sentence" are "1" and "3" respectively, if character set position information with a character set position difference of "-2" is extracted, the characters in "Communication" in the search file in Figure 7 will be extracted. "28901" in the set position information and "28" in "Document"
903'' can be extracted as a combination of continuous character set position information. Next, the character set position difference between the character set position information that remained as a matching result in "Communication" and the character set position information extracted from the character set group field of "Sho" in the search file is "
-3'' character set position information, the character set position information in ``Communication'' of the search file in Figure 7 is ``2''.
8901” and the character set position information in “Sho no” “2”
8904'' can be extracted as a combination of continuous character set position information. Furthermore, since the keyword attribute is "book name", "289
01'', ``28903'', and ``28904'' can be extracted.

【0067】キーワード列の文字数が「289 」であ
るから、文字セット位置番号は、28901÷289 
=100 余り1から、1であることがわかる。またこ
の文字列が属するレコード番号は100 であることも
わかる。
Since the number of characters in the keyword string is "289", the character set position number is 28901÷289.
=100 From the remainder 1, we know that it is 1. It can also be seen that the record number to which this character string belongs is 100.

【0068】この検索処理動作を図9a、図9bにフロ
ーチャートとして示す。
This search processing operation is shown in flowcharts in FIGS. 9a and 9b.

【0069】すなわち、キーワード列文字数をn=28
9 に、キーワード属性領域の文字位置範囲Pa を図
書名はP1 =1 〜32、著者名はP2 =34〜4
9、発行者名はP3=51〜82、刊行年はP4 =8
4〜87、抄録はP5 =89〜288 に、キーワー
ド属性番号をa=1に設定し(S31)、キーワード属
性番号aの検索入力文字列がある場合にはそれを取り出
す(S32、S33)。ここからは検索入力文字列の照
合処理になる。そこで、検索入力を取り出し、検索入力
文字列の先頭から2文字単位の文字セットに分割して検
索入力文字セット列を作成し、その文字セット数−1を
照合回数qとし(S34、S35)、検索入力文字セッ
ト列を全キーワードにおける出現頻度の低いものから順
に並べ変える(S36)。そして検索ファイルから、並
べ変えた各文字セットに該当する文字セット種グループ
に格納されている文字セット位置情報を取り出す(S3
7)。次に検索入力文字セット列の全キーワードにおけ
る出現頻度の低い文字セットの文字セット位置番号をi
、出現頻度の低い文字セットの文字セット位置番号をj
とするとき、二つの文字セット種グループ間で、(文字
セット位置番号iの文字セットの文字セット位置情報)
−(文字セット位置番号jの文字セットの文字セット位
置情報)=i−jである文字セット位置情報の組み合わ
せを取り出す(S38)。同様の処理を検索入力文字セ
ット列の残りの文字セットについても行い(S39、S
40)、残った文字セット位置情報の中から文字セット
位置番号がキーワード属性番号aの文字位置範囲Pa 
内にあるレコード番号だけを取り出す。文字セット位置
情報から文字セット位置番号を取り出すには、次の式(
4)を用いる。 (文字セット位置情報)÷(キーワード列文字数)=レ
コード番号余り文字セット位置番号…(4)ここまでの
処理で、検索入力文字列を文字列として持ち、さらに検
索入力された属性と同じキーワードを有するレコード番
号がわかる(S41)。抄録まで同様の処理を行い、検
索入力された属性と同じキーワードを有するレコード番
号を取り出す(S42、S43)。すべての検索入力文
字列の照合が終わると、残ったレコード番号を対象とし
て、すべての検索入力文字列に共通するレコード番号を
検索結果として出力する(S44)。
In other words, the number of characters in the keyword string is n=28.
9, the character position range Pa of the keyword attribute area is P1 = 1 to 32 for the book name, and P2 = 34 to 4 for the author name.
9, Publisher name is P3 = 51-82, Publication year is P4 = 8
4 to 87, the abstract is set to P5 = 89 to 288, the keyword attribute number is set to a = 1 (S31), and if there is a search input character string with keyword attribute number a, it is extracted (S32, S33). From here on, the search input string will be matched. Therefore, a search input character set string is created by taking the search input and dividing it into character sets of two characters from the beginning of the search input character string, and setting the number of character sets minus 1 as the number of matching times q (S34, S35). The search input character set string is rearranged in descending order of appearance frequency among all keywords (S36). Then, extract the character set position information stored in the character set type group corresponding to each rearranged character set from the search file (S3
7). Next, the character set position number of the character set that appears less frequently in all keywords in the search input character set string is i
, set the character set position number of the character set that occurs infrequently to j
When, between two character set type groups, (character set position information of character set with character set position number i)
-(Character set position information of the character set with character set position number j)=i−j is extracted (S38). Similar processing is performed for the remaining character sets in the search input character set string (S39, S
40), character position range Pa whose character set position number is keyword attribute number a from the remaining character set position information
Extract only the record number within. To extract the character set position number from the character set position information, use the following formula (
4) is used. (Character set position information) ÷ (Number of keyword string characters) = Record number Remaining character set position number... (4) In the processing up to this point, you have the search input string as a character string, and you also have the same keyword as the attribute entered in the search. The record number that the user has is known (S41). The same process is performed up to the abstract, and a record number having the same keyword as the attribute entered in the search is extracted (S42, S43). When all the search input strings are compared, the record numbers common to all the search input strings are output as search results for the remaining record numbers (S44).

【0070】上記実施例では日本語文書の検索処理の例
を説明したが、他の例として例えば英文字のように字種
の少ない言語の文書では、JISコード表の中から、仮
名文字と漢字を除いた字種だけで検索ファイルと文字セ
ット群一覧と文字セットグループアドレス表を作成する
と、日本語文書に比べ文字セットの少ない検索ファイル
が構成でき、日本語文書に比較してコンパクトなマルチ
キーワード検索用検索ファイルが構成でき、またその検
索も容易にできる。この場合、英文字(記号を含む)に
ついてはJISコードに変えて、例えばISOコード、
ASCIIコードを用いた文字セットグループアドレス
表を作成し、文字セットは最低3文字で構成されたもの
とすることがよい。
[0070] In the above embodiment, an example of search processing for a Japanese document was explained, but as another example, for a document in a language with few character types, such as English characters, kana characters and kanji characters are searched from the JIS code table. By creating a search file, character set group list, and character set group address table using only character types excluding A search file for searching can be constructed, and the search can be easily performed. In this case, for English characters (including symbols), instead of using JIS codes, for example, ISO codes,
It is preferable to create a character set group address table using ASCII codes, and to make the character set consist of at least three characters.

【0071】なお、マルチキーワード検索の高速性が求
められる場合、文字セットの構成文字数を増加するとま
すます文字セットの出現頻度が低くなり、各文字セット
種グループに格納される文字セット位置情報が少なくな
るため、容易に高速化を実現できる。
[0071] When high-speed multi-keyword search is required, increasing the number of characters constituting a character set will cause the character set to appear less frequently, and the character set position information stored in each character set type group will decrease. Therefore, speeding up can be easily achieved.

【0072】また、日本語文書の場合に、連続する片仮
名文字または平仮名文字のみを文字セットとし、漢字に
ついては1文字単位とする検索ファイルを作成してもよ
い。漢字はその字種が多く、その出現頻度も低いため、
1文字単位の文字種グループとしても検索の高速化を図
ることができる。
Further, in the case of a Japanese document, a search file may be created in which only consecutive katakana or hiragana characters are set as a character set, and kanji are set in units of characters. Kanji has many character types and their appearance frequency is low, so
It is also possible to speed up the search by using a character type group for each character.

【0073】[0073]

【発明の効果】以上説明したように、本発明は検索対象
となるレコードが有するキーワードの構成文字の文字セ
ット種ごとにその文字セットが属するレコード識別符号
、文字セット位置順序符号、キーワードの種別を示すキ
ーワード属性番号からなる文字セット位置情報を格納し
た検索ファイルを作成し、この検索ファイルを検索入力
の文字列を構成する文字セット種ごとにその文字セット
位置情報を取り出して、検索入力を含む文字列を検索す
るようにした。
As explained above, the present invention allows the record identification code, character set position order code, and keyword type to which the character set belongs to be determined for each character set type of the constituent characters of the keyword included in the record to be searched. Create a search file that stores character set position information consisting of the keyword attribute number shown, extract the character set position information for each character set type that makes up the search input character string, and use this search file to search for characters that include the search input. Added column search.

【0074】このため、(1) 検索処理のための文字
列照合回数を低減することができるため、高速検索を行
うことができる、(2) 文字セットと文字位置に着目
して検索処理を行うため任意の文字列による検索ができ
、(3) 専用のハードウエアを用いることなくソフト
ウエアだけで高速検索を実現できるため、汎用の情報処
理装置でマルチキーワードを用いた部分一致検索を効率
よく行うことができ汎用性に富む、(4) データベー
スシステムに利用したとき、その検索ファイルの作成に
使用可能な部分一致検索文字列の作成を行う必要がなく
、検索対象となるレコードが有するキーワードから自動
的に検索ファイルを作成することができるため、データ
ベースシステムを経済的にかつ効率よく構築することが
可能である、(5) 欧文字のように字種の少ない文字
からなる文字列も、同じ文字列の出現頻度は低いため各
文字セットの出現頻度は低くなり、その文字列を構成す
る文字セット種グループで文字セット位置情報を格納し
た検索ファイルを作成して検索することにより、高速検
索を可能にする優れた効果がある。
[0074] Therefore, (1) the number of character string comparisons for search processing can be reduced, making it possible to perform a high-speed search; (2) search processing can be performed by focusing on the character set and character position. (3) High-speed searches can be achieved using only software without the need for specialized hardware, so partial match searches using multiple keywords can be performed efficiently with general-purpose information processing equipment. (4) When used in a database system, there is no need to create a partial match search string that can be used to create a search file, and automatic search is performed from the keywords of the records to be searched. Because search files can be created automatically, it is possible to construct a database system economically and efficiently. Since the frequency of occurrence of each character set is low because the frequency of occurrence of the column is low, high-speed search is possible by creating a search file that stores character set position information in the character set type group that makes up the character string. It has an excellent effect.

【図面の簡単な説明】[Brief explanation of drawings]

【図1】  本発明一実施例に使用する情報検索処理装
置の構成例。
FIG. 1 shows a configuration example of an information search processing device used in an embodiment of the present invention.

【図2】  実施例の検索ファイル例表。FIG. 2: Example table of search files in the embodiment.

【図3】  実施例の文字セット群一覧。[Figure 3] List of character set groups in the example.

【図4】  実施例の文字セットグループアドレス表。FIG. 4: Character set group address table of the embodiment.

【図5】  実施例のキーワード例。[Figure 5] Examples of keywords in the example.

【図6】  実施例の文字セット位置情報作成例。FIG. 6 is an example of creating character set position information according to the embodiment.

【図7】  実施例の検索ファイル例。[Fig. 7] Example of search file of the embodiment.

【図8a,b】  実施例の検索ファイル作成処理手順
を説明するフローチャート。
FIGS. 8a and 8b are flowcharts illustrating search file creation processing procedures in the embodiment.

【図9a,b】  実施例の検索処理手順を説明するフ
ローチャート。
FIGS. 9a and 9b are flowcharts illustrating the search processing procedure of the embodiment.

【符号の説明】[Explanation of symbols]

1…CPU 2…メモリ 3…入出力部 4…キーボード 5…ディスプレイ 6…外部記憶装置制御部 7…外部記憶装置 8…共通バス 1...CPU 2...Memory 3...Input/output section 4...Keyboard 5...Display 6...External storage device control unit 7...External storage device 8...Common bus

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】  検索対象となるレコードごとに昇順の
符号を付与するレコード識別符号付与手段と、このレコ
ードが有する各キーワードにキーワードの論理的な区分
を示す属性符号を付与するキーワード属性符号付与手段
と、このキーワードを各文字ごとに分解してその文字と
次に続く合計r文字(但しrは2以上の自然数)からな
る文字セットを作成し、この文字セットにキーワード中
での文字セットの先頭文字位置を示す文字セット位置順
序符号を付与する文字セット位置順序符号付与手段と、
上記レコード識別符号とキーワード属性符号と文字セッ
ト位置順序符号とからなる文字セット位置情報を作成し
て、この文字セット位置情報を文字セット種ごとの領域
に格納して検索ファイルを作成する手段とを備えた情報
検索処理方式。
1. Record identification code assigning means for assigning an ascending code to each record to be searched, and keyword attribute code assigning means for assigning an attribute code indicating a logical classification of the keyword to each keyword included in the record. Then, this keyword is broken down into individual characters to create a character set consisting of that character and the next r characters in total (where r is a natural number greater than or equal to 2), and in this character set, the first character set in the keyword is added to the character set. Character set position order code adding means for adding a character set position order code indicating character position;
Means for creating character set position information consisting of the record identification code, keyword attribute code and character set position order code, and storing this character set position information in an area for each character set type to create a search file. Equipped with an information search processing method.
【請求項2】  文字セット位置情報は、レコードを構
成する各キーワードをキーワード属性符号に対応してキ
ーワード属性領域に配列したキーワード列の各キーワー
ドを構成するすべての文字セットについて、レコード識
別符号×n+(Pa −1)+文字セット位置順序符号 n:キーワード列文字数 Pa :キーワード属性符号aのキーワード属性領域の
キーワード列における先頭文字位置 なる数字コードとして与えられる請求項1記載の情報検
索処理方式。
2. The character set position information includes record identification code x n + 2. The information search processing method according to claim 1, wherein (Pa -1)+character set position order code n: number of characters in keyword string Pa: given as a numerical code representing the first character position in the keyword string in the keyword attribute area of keyword attribute code a.
【請求項3】  検索対象となるレコードのキーワード
列について、各キーワードを構成する文字ごとに、レコ
ードごとに昇順に付与されたレコード識別符号と、この
レコードが有するキーワードの論理区分を示すキーワー
ド属性符号とキーワード中でのその文字セットの先頭文
字位置を示す文字セット位置順序符号とからなる文字セ
ット位置情報を文字セット種別ごとに格納した検索ファ
イルを備え、検索入力文字列の構成文字を先頭文字から
r文字単位の文字セットに分解した検索入力文字セット
列を構成し、分解した文字セットと同じ文字セットの文
字セット位置情報を上記検索ファイルから取り出す手段
と、この取り出した各文字セットの文字セット位置情報
間で、レコード識別符号とキーワード属性符号が共通で
文字セット位置順序符号が検索入力文字列の該当する文
字セットの先頭文字位置差に等しく、かつそのキーワー
ド属性符号が検索入力と等しい文字セット位置情報の組
み合わせを抽出する手段と、この抽出された文字セット
位置情報の組み合わせに基づいて検索入力に対応するレ
コード識別符号を検索結果として出力する手段とを備え
た情報検索処理方式。
[Claim 3] Regarding the keyword string of the record to be searched, record identification codes assigned to each record in ascending order for each character constituting each keyword, and keyword attribute codes indicating the logical classification of the keywords included in this record. and a character set position order code indicating the first character position of that character set in the keyword. A means for configuring a search input character set string decomposed into character sets of r characters, and extracting character set position information of the same character set as the decomposed character set from the search file, and a character set position of each extracted character set. A character set position where the record identification code and keyword attribute code are common among the information, the character set position order code is equal to the first character position difference of the corresponding character set of the search input string, and the keyword attribute code is equal to the search input. An information search processing method comprising means for extracting a combination of information, and means for outputting a record identification code corresponding to a search input as a search result based on the extracted combination of character set position information.
【請求項4】  検索入力文字セット列と同じ文字セッ
ト列を構成できる文字セット位置情報の組み合わせの抽
出は、検索入力文字セット列の全キーワードにおける出
現頻度の低い文字セットから順に行う請求項3記載の情
報検索処理方式。
4. The extraction of combinations of character set position information that can form the same character set string as the search input character set string is performed in descending order of the frequency of appearance in all keywords of the search input character set string. information retrieval processing method.
【請求項5】  検索入力文字セット列と同じ文字セッ
ト列を構成できる文字セット位置情報の組み合わせ抽出
は、検索入力文字セット列の全キーワードにおける出現
頻度の低い文字セットの文字セット位置順序符号をi、
出現頻度の高い文字セットの文字セット位置順序符号を
jとするとき、 (文字セット位置順序符号iの文字セットの文字セット
位置情報)−(文字セット位置順序符号jの文字セット
の文字セット位置情報)=i−j に合致する文字位置情報の組み合わせを抽出する請求項
3または請求項4記載の情報検索処理方式。
5. Extraction of combinations of character set position information that can constitute the same character set string as the search input character set string is performed by extracting character set position order codes of character sets that appear less frequently in all keywords of the search input character set string by i. ,
When the character set positional order code of a frequently occurring character set is j, (character set positional information of the character set with character set positional order code i) - (character set positional information of the character set with character set positional order code j) )=i−j The information search processing method according to claim 3 or 4, wherein a combination of character position information matching the following is extracted.
【請求項6】  キーワードが記号を含む欧文字列の場
合は、少なくとも3文字記号単位の文字セットで記号を
含む欧文字の文字セット種のみの検索ファイルを用いる
請求項1ないし請求項5のいずれか記載の情報検索処理
方式。
[Claim 6] When the keyword is a European character string that includes a symbol, a search file for only character set types of European characters that include symbols is used in a character set of at least three characters and symbols. The information retrieval processing method described in
【請求項7】  キーワードが漢字を含む場合は、仮名
文字について少なくとも2文字単位の文字セット種で構
成された検索ファイルを用いる請求項1ないし請求項5
のいずれか記載の情報検索処理方式。
[Claim 7] When the keyword includes a kanji character, a search file consisting of a character set type of at least two characters for kana characters is used.
The information retrieval processing method described in any of the above.
JP3013879A 1991-01-10 1991-01-10 Multi-word information retrieval processing method and retrieval file creation device Expired - Fee Related JP2519130B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3013879A JP2519130B2 (en) 1991-01-10 1991-01-10 Multi-word information retrieval processing method and retrieval file creation device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3013879A JP2519130B2 (en) 1991-01-10 1991-01-10 Multi-word information retrieval processing method and retrieval file creation device

Publications (2)

Publication Number Publication Date
JPH04340165A true JPH04340165A (en) 1992-11-26
JP2519130B2 JP2519130B2 (en) 1996-07-31

Family

ID=11845499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3013879A Expired - Fee Related JP2519130B2 (en) 1991-01-10 1991-01-10 Multi-word information retrieval processing method and retrieval file creation device

Country Status (1)

Country Link
JP (1) JP2519130B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916616A (en) * 1995-06-30 1997-01-17 Toyo Joho Syst:Kk Device for generating/retrieving index data
US6338061B1 (en) 1998-01-14 2002-01-08 Nec Corporation Search method search apparatus, and recording medium recording program
WO2018198192A1 (en) 2017-04-25 2018-11-01 三菱電機株式会社 Search device, search system, search method, and search program
CN109087368A (en) * 2018-06-14 2018-12-25 阿里巴巴集团控股有限公司 A kind of character string graphic method and device
US11005645B2 (en) 2016-01-15 2021-05-11 Mitsubishi Electric Corporation Encryption device, encryption method, computer readable medium, and storage device

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916616A (en) * 1995-06-30 1997-01-17 Toyo Joho Syst:Kk Device for generating/retrieving index data
US6338061B1 (en) 1998-01-14 2002-01-08 Nec Corporation Search method search apparatus, and recording medium recording program
US11005645B2 (en) 2016-01-15 2021-05-11 Mitsubishi Electric Corporation Encryption device, encryption method, computer readable medium, and storage device
WO2018198192A1 (en) 2017-04-25 2018-11-01 三菱電機株式会社 Search device, search system, search method, and search program
US11106740B2 (en) 2017-04-25 2021-08-31 Mitsubishi Electric Corporation Search device, search system, search method, and computer readable medium
CN109087368A (en) * 2018-06-14 2018-12-25 阿里巴巴集团控股有限公司 A kind of character string graphic method and device

Also Published As

Publication number Publication date
JP2519130B2 (en) 1996-07-31

Similar Documents

Publication Publication Date Title
JP3160201B2 (en) Information retrieval method and information retrieval device
Robertson et al. Applications of n‐grams in textual information systems
CN102142038B (en) Multi-stage query processing system and method for use with tokenspace repository
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
JPH08249354A (en) Word index and word index generating device and document retrieval device
JP2001034623A (en) Information retrievel method and information reteraval device
JP2669601B2 (en) Information retrieval method and system
JPH09288676A (en) Full sentence index prepration device and full sentence data base retrieval device
JPH0740275B2 (en) Keyword automatic evaluation system
JPH04205560A (en) Information retrieval processing system
JPH04274557A (en) Method and device for searching full text
US7797152B1 (en) Method of database searching
JPH05225238A (en) Data base retrieval system
JPH04340165A (en) Information retrieval processing system
JP2519129B2 (en) Multi-word information retrieval processing method and retrieval file creation device
Robertson et al. A comparison of spelling-correction methods for the identification of word forms in historical text databases
JP3081093B2 (en) Index creation method and apparatus and document search apparatus
JPH04326164A (en) Data base retrieval system
JPH06348757A (en) Device and method for retrieving document
JPH04215181A (en) Information retrieval processing system
WO1992009960A1 (en) Data retrieving device
JP3376996B2 (en) Full text search method
JPH03150668A (en) Input character string normalization system for retrieval system
JPH10177582A (en) Method and device for retrieving longest match
RU2386167C1 (en) Device of information processing for information searching

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080517

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090517

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100517

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees