JPH0231273A - Word dictionary retrieving device - Google Patents

Word dictionary retrieving device

Info

Publication number
JPH0231273A
JPH0231273A JP63182071A JP18207188A JPH0231273A JP H0231273 A JPH0231273 A JP H0231273A JP 63182071 A JP63182071 A JP 63182071A JP 18207188 A JP18207188 A JP 18207188A JP H0231273 A JPH0231273 A JP H0231273A
Authority
JP
Japan
Prior art keywords
character string
word
word dictionary
search
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63182071A
Other languages
Japanese (ja)
Inventor
Shunichi Fukushima
俊一 福島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63182071A priority Critical patent/JPH0231273A/en
Publication of JPH0231273A publication Critical patent/JPH0231273A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

PURPOSE:To retrieve all words coincident with partial character strings of sentences out of a word dictionary by extracting successively the unit character strings of the prescribed length out of the sentences and collating to the partial word dictionaries divided into plural parts. CONSTITUTION:A unit character string extracting means 3 extracts a unit character string of the same length as the maximum expression length of a work dictionary 1 out of the sentence received from a sentence input means 2. The dictionary 1 is divided into plural partial word dictionaries for each word having the same head character. Then the unit character string extracted out of the sentence is stored into a character string retrieving means 4 which stores plural character strings and can detect all partial character strings coincident with plural stored character strings out of those character strings to be inputted. Then each of those words stored in the partial word dictionaries is inputted. Thus it is possible to extract all partial character strings coincident with each word of the word dictionaries out of the sentences.

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、ワードプロセッサ等の文章処理装置に用いら
れ、単語辞書から文章の部分文字列に一致する全ての単
語を検索する単語辞書検索装置に関する。
DETAILED DESCRIPTION OF THE INVENTION (Industrial Application Field) The present invention relates to a word dictionary search device that is used in a text processing device such as a word processor and searches a word dictionary for all words that match a partial character string of a sentence. .

(従来の技術) 近年、ワードプロセッサをはじめとする文章処理装置の
普及は著しい。このような文章処理装置において、最も
高頻度に行われる処理のひとつは、文字列検索処理であ
る0例えば1文章の所望の位置を捜すためにある文字列
を検索したり1文章中のある文字列を全て別の文字列に
置き換えたりする場合などに、文字列検索処理が行われ
る(これを第1種の文字列検索処理とする)。さらには
、文章の検査(文章中の誤すや不適切な部分の検出)。
(Prior Art) In recent years, text processing devices such as word processors have become rapidly popular. One of the most frequently performed processes in such text processing devices is character string search processing.For example, searching for a certain character string to find a desired position in a sentence, or searching for a certain character in a sentence. String search processing is performed when replacing all strings with other strings (this is referred to as the first type of string search processing). Furthermore, it also inspects sentences (detecting mistakes and inappropriate parts in sentences).

キーワードの自動抽出、文章の音声への変換、他国語へ
の自動翻訳といつたより高度な文章処理を行うための第
1ステツプとして、単語辞書と文章とを照合し、単語辞
書から文章の部分文字列に一致する全ての単語を検索す
る場合にも1文字列検索処理が行われる(これを第2種
の文字列検索処理とする)。単語辞書と文章の照合は、
単語辞書に登録されている複数の単語の表記の文字列と
、文章の文字列との照合であり、やはり文字列検索処理
である。第1種の文字列検索と第2種の文字列検索処理
とは1文章から被検索文字列を捜し出す点では変わりが
ないが、第1′!1/iの文字列検索の被検索文字列は
、通常1個、多くとも数個程度であり、第21S1の文
字列検索処理の被検索文字列は。
As the first step in performing more advanced text processing such as automatic extraction of keywords, conversion of text into audio, and automatic translation into other languages, the text is compared with a word dictionary, and partial characters of the text are extracted from the word dictionary. Single character string search processing is also performed when searching for all words that match a string (this is referred to as the second type of character string search processing). Comparing sentences with a word dictionary is
This is a character string search process in which the character strings of multiple words registered in the word dictionary are compared with the character strings of the text. The first type of character string search and the second type of character string search processing are the same in that they search for a searched character string from one sentence, but the 1st type! The number of character strings to be searched in the 1/i character string search is usually one, or at most several, and the number of character strings to be searched in the 21st S1 character string search process is as follows.

通常、数万側から数十刃側(=単語辞書に収められてい
る単語数)という膨大な数である点が、大きな相違点で
ある。
The major difference is that the number is usually huge, ranging from tens of thousands to tens of words (=number of words stored in a word dictionary).

そこで、従来、文字列検索処理専用に、登録上−ドと検
索モードとを有し%登録モードにおいては、入力される
複数の文字列を内部に記憶し、検索モードにおいては、
入力される文字列(ワイルドカード文字を含むことを許
す)から、登録モードで記憶された複数の文字列と一致
する全ての部分文字列を検出する文字列検索手段が実現
されている。このような文字列検索手段は、次の文献(
1)に示されているようにLSI化されている。なお、
ワイルドカード文字とは、任意の文字と一致するように
予め定められた特殊文字である。
Therefore, conventionally, a registration mode and a search mode are provided exclusively for character string search processing, and in the registration mode, multiple input character strings are stored internally, and in the search mode,
A character string search means is realized that detects all partial character strings that match a plurality of character strings stored in registration mode from an input character string (which allows wildcard characters to be included). Such a string search method is described in the following document (
As shown in 1), it is implemented as an LSI. In addition,
A wildcard character is a special character predetermined to match any character.

r文字列検索LSIJ (山田・平田・水弁・高橋、 電子情報通信学会技術研究報告CAS87−25198
7年5月29日)  ・・・・・・・・・文献(1)上
記のような文字列検索手段は、@1種の文字列検索処理
には容易に適用できる。すなわち、まず、登録モードで
被検索文字列を文字列検索手段に登録し、久に、検索モ
ードで文章を文字列検索手段に入力すれは1文章から所
望の文字列を検索することができる。
r String Search LSIJ (Yamada, Hirata, Mizuben, Takahashi, Institute of Electronics, Information and Communication Engineers Technical Research Report CAS87-25198
(May 29, 2007) Literature (1) The above-mentioned character string search means can be easily applied to @1 type of character string search processing. That is, by first registering a character string to be searched in the character string search means in the registration mode and then inputting a sentence into the character string search means in the search mode, it is possible to search for a desired character string from a single sentence.

(発明が解決しようとする練題) しかし、上記の文字列検素手段を、第2糧の文字列検索
処理に適用するには問題がある。前に記したように被検
索文字列の数が、通常、数刃側から数十刃側という膨大
な数であるからである。したがって、第1鴇の文字列検
索処理と同様の形態で第2種の文字列検索処理を実現し
ようとすると(登録モードで単語辞書の6単mを登録し
て、検索モードで文章を入力する方法をとると)、文字
列検索手段が非常に多くの文字列を登録可能であるか、
あるいは1文字列検索手段が多数用意されることが必要
になる。例えば、前記の文献(11でLSIとして実現
されている文字列検索手段は。
(Practice to be Solved by the Invention) However, there is a problem in applying the above-described character string detection means to the second method of character string search processing. This is because, as described above, the number of character strings to be searched is usually a huge number ranging from several blades to several tens of blades. Therefore, if you try to realize the second type of character string search process in the same manner as the first character string search process (register 6 units of word dictionary in registration mode and input sentences in search mode) method), the string search method can register a large number of strings, or
Alternatively, it is necessary to prepare a large number of single character string search means. For example, the character string search means realized as an LSI in the above-mentioned document (11).

登録可能な文字列の数が64個であり、6万4千語の単
語辞書を登録するのに、1千個必要である。
The number of character strings that can be registered is 64, and 1,000 character strings are required to register a word dictionary of 64,000 words.

そこで、文字列検索手段に、単語辞書ではなく、文章を
登録する方法が考えられる。すなわち、まず、登録モー
ドで文章を文字列検索手段に登録し。
Therefore, a method may be considered in which sentences are registered in the character string search means instead of a word dictionary. That is, first, register a sentence in the character string search means in registration mode.

検索モードで単語辞書を入力するという方法である。文
章の基本的な単位である文の長さは、一般に、数十文字
であるから、?:、の方法の方が、単語辞書を登録する
方式に比べて、文字列検索手段の個1.が少なくて済む
。しかし、文章に対して、先頭文字位置と文字列長を変
えて形成した可能な全てのパターンを、文字列検索手段
に登録する必要がある。例えば、「日本語を学習する」
という8文字の文に対しては、次のようなバリエーショ
ン(36通り)を登録する必要がある。8文字程度の文
で36通りであるから、数十文字の文に対しては数百通
りから数千通りともなり、やはり、文字列検索手段が多
数必要になってくる。
This method involves entering a word dictionary in search mode. The length of a sentence, which is the basic unit of writing, is generally several dozen characters, so... Compared to the method of registering a word dictionary, the method of 1.: requires fewer character string search means. less. However, it is necessary to register in the character string search means all possible patterns formed by changing the starting character position and character string length for a sentence. For example, "Learn Japanese"
For the 8-character sentence, it is necessary to register the following variations (36 variations). Since there are 36 ways to search for a sentence of about 8 characters, there are hundreds to thousands of ways to search for a sentence of several tens of characters, which again requires a large number of character string search means.

日本語を学習する 日本語を学習す 日本語を学習 日本語を学 日本語を 日本語 日本 日 単語を学習する 単語を学習す 単語を学習 本IF#を学 語を学習する 語を学習す また。ここで述べたような文字列検索手段を用いずに第
2種の文字列検索処理を実現する方法もあるが、第2種
の文字列検索処理についても文字列検索手段を用いた方
が、第1種の文字列検索処理と第2種の文字列検索処理
とで、1つの文字列検索手段を共用できる点で、文章処
理装置としては望ましい(文章処理装置として、効率の
良い構成がとれる)。
Learn JapaneseLearn JapaneseLearn JapaneseLearn JapaneseLearn JapaneseJapaneseJapaneseLearn VocabularyLearn VocabularyLearn VocabularyBookIF#Learn LanguageLearn VocabularyAlso . Although there is a method to implement the second type of string search processing without using the string search means described here, it is better to use the string search means for the second type of string search processing as well. This is desirable as a text processing device in that the first type of string search processing and the second type of string search processing can share a single string search means (as a text processing device, an efficient configuration can be achieved). ).

本発明の目的は1以上に述べたような文字列検索手段を
用いた単語辞書検索装置であって、かつ。
An object of the present invention is to provide a word dictionary search device using the character string search means as described above.

従来よりも少ない個数の文字列検索手段で構成できる単
語辞書検索装置を提供することである。
It is an object of the present invention to provide a word dictionary search device that can be configured with a smaller number of character string search means than conventional ones.

(課題を解決するための手段) 本発明は、単語辞書から文章の部分文字列に一致する全
ての単語を検索する単語辞書検索装置であって、前記単
語辞書を複数の部分単語辞書に分割し、該部分単語′W
書は単語の表記をデ+J ミタをはさんでベタ詰めした
形態をとり、前記文章の全文字位置から前記単語辞書に
おける最大表記長と同一長の単位文字列を抽出する単位
文字列抽出手段と、登録モードと検索モードとを有し該
登録モードにおいては入力される複数の文字列を内部に
記憶し該検索モードにおいては入力されるワイルドカー
ド文字を含む文字列から前記登録モードで記憶された複
数の文字列と一致する全ての部分文字列を検出する文字
列検索手段と、前記文字列検索手段に対して登録モード
を設定し前記単位文字列抽出手段によって抽出された複
数の単位文字列を前記文字列検索手段に入力する単位文
字列登録手段と、前記単位文字列抽出手段によって抽出
された単位文字列をもとに前記複数の部分単語辞書のな
かから検索対象とする部分単語辞書を選択する辞書選択
手段と、与えられた文字列の末尾に前記単位文字列と同
一の長さKなるまでワイルドカード文字を付加するワイ
ルドカード付加手段と。
(Means for Solving the Problems) The present invention is a word dictionary search device that searches a word dictionary for all words that match a partial character string of a sentence, and which divides the word dictionary into a plurality of partial word dictionaries. , the partial word ′W
The calligraphy has a form in which words are notated in a solid manner with de + J mita in between, and a unit character string extraction means for extracting a unit character string of the same length as the maximum notation length in the word dictionary from all character positions of the sentence. , has a registration mode and a search mode, and in the registration mode stores a plurality of input character strings internally, and in the search mode, the input character strings including wildcard characters are selected from the input character strings stored in the registration mode. a character string search means for detecting all partial character strings that match a plurality of character strings; and a registration mode set for the character string search means to retrieve the plurality of unit character strings extracted by the unit character string extraction means. Selecting a partial word dictionary to be searched from among the plurality of partial word dictionaries based on the unit character string registration means input to the character string search means and the unit character string extracted by the unit character string extraction means. and a wild card adding means that adds wild card characters to the end of a given character string until it has the same length K as the unit character string.

前記文字列検索手段に対して検索モードを設定し前記ワ
イルドカード付加手段により前記辞書選択手段によって
選択された部分単語辞書の各単語の表記をワイルドカー
ド文字を付加して前記文字列検索手段に入力する単語辞
書入力手段とを備えることを特徴とする。
A search mode is set for the character string search means, and the wild card adding means inputs the notation of each word in the partial word dictionary selected by the dictionary selection means to the character string search means with a wild card character added thereto. The invention is characterized by comprising a word dictionary input means.

(作用) 本発明の詳細な説明する。(effect) The present invention will be described in detail.

本発明における単位文字列抽出手段は、長さがn文字の
文章から、n通りの単位文字列を抽出する。このときの
単位文字列の長さUは、単語辞書における最大表記長と
同一とする(単語辞書中の最大炎の表記よりも長い文章
の部分文字列と照合を行っても無駄である)。発明が解
決しようとする問題点の項で示したような文章を文字列
検索手段に登録する従来の方法では、長さがnの文章か
ら抽出した先頭位置の異なるn通りの単位文字列を、さ
らに、長さの異なる部分文字列に辰開するわけであるか
ら1部分文字列の総数(文字列検索手段に登録する文字
列の数)は1次のようになる。
The unit character string extraction means in the present invention extracts n types of unit character strings from a sentence with a length of n characters. The length U of the unit character string at this time is the same as the maximum notation length in the word dictionary (there is no point in matching with a partial character string of a sentence that is longer than the maximum notation in the word dictionary). In the conventional method of registering a sentence such as the one shown in the section of the problem to be solved by the invention in a character string search means, n unit character strings with different starting positions extracted from a sentence of length n are Furthermore, since the number of partial character strings is expanded to different lengths, the total number of one partial character string (the number of character strings registered in the character string search means) is linear.

n≦Uのとき   n(n+1) n)uのとき  (n−u)u+↓u(u+1)= ”
 u (2n−u+1 ) 例えば、u=8とすると上記の式の値は、n=8のとき
36.n=16のとき100、 n=32のとき228
である。本発明で文字列検索手段に登録する単位文字列
の数は、n=8のとき8.n=16のとき16.n=3
2のとき32であるから、従来の方法に比べて、はるか
に少なくて済む(したがって、文字列検索手段の数も少
なくて済む)。
When n≦U n(n+1) When n)u (nu-u)u+↓u(u+1)=”
u (2n-u+1) For example, if u=8, the value of the above equation is 36. 100 when n=16, 228 when n=32
It is. In the present invention, the number of unit character strings registered in the character string search means is 8 when n=8. 16 when n=16. n=3
2, the number is 32, so compared to the conventional method, the number of string search means is much smaller (therefore, the number of string search means is also smaller).

そして1本発明では、単位文字列を長さの異なる部分X
字列に肘開する代わりに、ワイルドカード付加手段によ
り単語辞書中の単語にワイルドカード文字を付加し、文
字列検索手段のワイルドカード文字を照合する機能を利
用することによって。
1. In the present invention, the unit character string is divided into parts of different lengths
Instead of adding text to a character string, a wildcard addition means adds a wildcard character to a word in a word dictionary, and the character string search means uses a function to match the wildcard characters.

羊位文子列から長さの異なる複数の単語を検出するよう
にしている。第2図は単語辞書1の内容の例である。第
2図において、各単語はデリミタr/J*+−,zさん
でベタ詰めされている。例えば、「日本語全学習する」
という文章の先頭から「日本語」「日本」「日」と(1
5単語群を抽出する場合、従来の方法ならば、次のよう
な8通りの部分文字列と、槙2図のような単語辞41と
を照合することになる。
We are trying to detect multiple words of different lengths from a Hijii Bunko string. FIG. 2 shows an example of the contents of the word dictionary 1. In FIG. 2, each word is filled with delimiters r/J*+-,z. For example, "Learn all Japanese"
From the beginning of the sentence, "Japanese", "Japan", "Japan" and (1
In the case of extracting five word groups, the conventional method would involve comparing the following eight partial character strings with the word dictionary 41 as shown in Figure 2 of Maki.

日本語を学習する 日本語を学習す 日本rf!4管学愉 日本語を学 日本語を 日本語 日本 日 しかし2本発明では、単語辞書の各表記に、長さUまで
ワイルドカード文字を付加してから照合を行う。第3図
は、第2図の単語辞書1の各表記にワイルドカード文字
を付加した形を示した図である(n=8の場合、ワイル
ドカード文字は「$」で表している)。したがって、本
発明では、「日本語を学習する」という1通りの単位文
字列と、第3図のような文字列とを照合すればよいこと
になる。
Learn JapaneseLearn JapaneseJapan rf! However, in the present invention, a wildcard character up to a length U is added to each expression in the word dictionary, and then matching is performed. FIG. 3 is a diagram showing a form in which a wild card character is added to each notation in the word dictionary 1 of FIG. 2 (in the case of n=8, the wild card character is represented by "$"). Therefore, in the present invention, it is sufficient to match one unit character string "Learn Japanese" with the character string shown in FIG.

また、検索モードで単語辞書を文字列検索手段に入力す
る際に、単語辞書の容量が大きいことが問題となる。そ
こで2本発明では、辞書選択手段を設け、常に、単語辞
書のすべてを入力するのではなく、辞書選択手段によっ
て選択した部分のみを入力するようにする。これによっ
て、単語辞書のすべてを入力する場合に比べて、検索に
要する時間が大幅に短縮できる。
Furthermore, when inputting a word dictionary into the character string search means in the search mode, the large capacity of the word dictionary poses a problem. Therefore, in the present invention, a dictionary selection means is provided so that instead of always inputting the entire word dictionary, only the part selected by the dictionary selection means is inputted. As a result, the time required for searching can be significantly reduced compared to inputting the entire word dictionary.

その際、検索の対象とする単語辞書の部分は、文字列検
索手段に登録する単位文字列をもとに選択する。例えば
、単語辞書を、単語の先頭文字ごとに分けて部分単語辞
書としておくならば、文字列検索手段に登録する各単位
文字列の先頭文字に対応する部分単語辞書のみを、検索
対象として選択すればよい。文字列検索手段に「日本文
学を学習す」「本文学を学習する」「文学を学習する」
「学を学習する」「を学習する」「学習する」「習する
」「する」「る」が登録されているならば、文字列検索
手段に単語辞書をすべて入力するのではなく1次のよう
な部分単語辞書のみを入力する。
At this time, the portion of the word dictionary to be searched is selected based on the unit character string registered in the character string search means. For example, if a word dictionary is divided into partial word dictionaries by the first character of each word, only the partial word dictionary corresponding to the first character of each unit string registered in the string search method should be selected as the search target. Bye. String search methods include "Learn Japanese Literature,""Learn Japanese Literature," and "Learn Literature."
If "Learn about", "Learn", "Learn", "Study", "Suru", and "Ru" are registered, instead of inputting all the words in the dictionary to the string search method, Input only partial word dictionaries such as

「日」を先頭文字とする単語を収めた部分単語辞書「本
」を先頭文字とする単語を収めた部分単語辞書「文」を
先頭文字とする単語を収めた部分単語辞書「学」を先頭
文字とする単語を収めた部分単語辞書「を」を先頭文字
とする単語を収めた部分単語辞書「習」を先頭文字とす
る単語を収めた部分単語辞書「す」を先頭文字とする単
語を収めた部分単語辞書「る」を先頭文字とする単語を
収めた部分単語辞書(実施例) 図面を参照して、本発明を一層詳しく説明する。
A partial word dictionary containing words whose first letter is ``日'' ``A partial word dictionary containing words whose first letter is ``hon'' ``A partial word dictionary containing words whose first letter is ``bun''``Gaku'' as the first letter A partial word dictionary that contains words whose first character is ``wo'' A partial word dictionary that contains words whose first character is ``shu'' A partial word dictionary that contains words whose first character is ``su'' DESCRIPTION OF THE PREFERRED EMBODIMENTS Partial Word Dictionary (Example) Partial Word Dictionary Containing Words Starting with "ru" (Example) The present invention will be described in more detail with reference to the drawings.

第1図は本発明の単語辞書検索装置の一層・雄側の構成
を示すブロック図である。
FIG. 1 is a block diagram showing the structure of the male side of the word dictionary search device of the present invention.

第1図において、単語辞書1は、単語を登録した辞書で
ある。磁気ディスク装置、磁気テープ装置、ICメモ1
ハ光デイスク装置などで実現することができる。そして
、単語辞書1は、複数の部分単語辞書から構成される。
In FIG. 1, a word dictionary 1 is a dictionary in which words are registered. Magnetic disk device, magnetic tape device, IC memo 1
This can be realized using an optical disk device or the like. The word dictionary 1 is composed of a plurality of partial word dictionaries.

単語辞書lを部分単語辞書に分ける方法としては、例え
ば、単語の先頭文字ごとに分ける方法がある。第6図は
、単語辞書1を、単語の先頭文字ごとN個の部分単語辞
書1−1.1−2.・・・・・・・・・ 1−Nに分け
た構成を示す図でるる(第6図において、L、M、Nは
整数で、1<L<M<Nとする)。さらに、本発明にお
ける単語辞書1は、各単語の表記をデリミタをはさんで
ベタ詰めした形態をとる。第2図は、単語辞書1の内容
の例を1部分率語辞書1−Mについて示した図である。
As a method of dividing the word dictionary l into partial word dictionaries, for example, there is a method of dividing the word dictionary by the first character of each word. FIG. 6 shows the word dictionary 1 divided into N partial word dictionaries 1-1.1-2. for each first character of a word. This is a diagram showing a configuration divided into 1-N (in FIG. 6, L, M, and N are integers, and 1<L<M<N). Furthermore, the word dictionary 1 according to the present invention has a form in which the notation of each word is filled in with delimiters in between. FIG. 2 is a diagram showing an example of the contents of the word dictionary 1 for the 1-part ratio word dictionary 1-M.

第2図では、デリミタを「/」で表している。In FIG. 2, the delimiter is represented by "/".

文章入力手段2は、文章を入力する手段である。The text input means 2 is a means for inputting text.

その場で作成されながら文章が入力される形態をとって
も良いし、予め他の装置で作成された文章をまとめて読
み込む形態tとっても良い。文章入力手段2は、キーボ
ード、文字認識装置、音声認識装置、かな漢字変換装置
、磁気ディスク読み取り装置、磁気テープ読み取り装置
などで実現することができる。文章入力手段2より入力
された文章は、単位文字列抽出手段3へ送られる。
It may take a form in which sentences are input while being created on the spot, or it may take a form in which sentences created in advance on another device are read all at once. The text input means 2 can be realized by a keyboard, a character recognition device, a voice recognition device, a kana-kanji conversion device, a magnetic disk reading device, a magnetic tape reading device, etc. The text inputted from the text input means 2 is sent to the unit character string extraction means 3.

単位文字列抽出手段3は1文章入力手段2より入力され
た文章の全文字位置から、単語辞書1における最大表記
長Uと同一長の単位文字列を抽出する手段である0例え
は、u = 8の場合(以下。
The unit character string extraction means 3 is a means for extracting a unit character string having the same length as the maximum notation length U in the word dictionary 1 from all character positions of a sentence inputted from the sentence input means 2. For example, u = In the case of 8 (below).

動作例では、同様にu = 8として説明を行う)、「
第1図は本発明の単語辞書検索装置の一実施例の構成を
示すブロック図である。」という文章からは、次のよう
な単位文字列を抽出する。単位文字列抽出手段3は、抽
出した単位文字列を、単位文字列登録手段5と辞書選択
手段9とへ送る。
In the operation example, the explanation will be made assuming u = 8), "
FIG. 1 is a block diagram showing the configuration of an embodiment of the word dictionary search device of the present invention. ”, the following unit character strings are extracted. The unit character string extraction means 3 sends the extracted unit character strings to the unit character string registration means 5 and the dictionary selection means 9.

第1図は本発明の 1図は本発明の単 図は本発明の単語 は本発明の単語辞 本発明の単給辞書 すブロック図であ ブロック図である ロック図である。Figure 1 shows the present invention. Figure 1 shows the unit of the present invention. The figure is the word of the invention is the vocabulary of the invention Unit salary dictionary of the present invention This is a block diagram. is a block diagram It is a lock diagram.

ツク図である。This is a diagram.

り図である。This is a diagram.

図である。It is a diagram.

である。It is.

ある。be.

る。Ru.

文字列検索手段4は、登録モードと検索モードとを有し
、登録モードにおいては、入力される複数の文字列を内
部に記憶し、検索モードにおいては、入力される文字列
(ワイルドカード文字を含むことを許す)から、登録モ
ードで記憶された複数の文字列と一致する全ての部分文
字列を検出する手段である。文字列検索手段4は、公知
の手段であり、例えば、前記の文献(1)のようにして
実現できる。文献(1)のよりにして文字列検索手段4
を実現した場合、登録モードと検索モードの切り替えは
、外部からの信号を受は取ることによって行われる。登
録モードにおいては、まず、登録アドレス(文字列検索
手段4の内部に記憶する位置)が外部から設定され、続
いて、登録する文字列とが外部から入力されたならば1
文字列検索手段4は、文字列を1つ内部に記憶する。こ
れが繰り返されると、複数の文字列が文字列検索手段4
の内部に記憶されることになる。検索モードにおいては
、登録モードで記憶された文字列と一致する文字列が入
力されるごとに1文字列検索手段4は。
The character string search means 4 has a registration mode and a search mode. In the registration mode, it internally stores a plurality of input character strings, and in the search mode, it stores input character strings (including wildcard characters). This means detects all substrings that match a plurality of strings stored in registration mode. The character string search means 4 is a known means, and can be realized, for example, as described in the above-mentioned document (1). String search means 4 based on document (1)
When this is realized, switching between registration mode and search mode is performed by receiving and receiving signals from the outside. In the registration mode, first, the registration address (the location stored inside the character string search means 4) is set from the outside, and then, if the character string to be registered is input from the outside, 1
The character string search means 4 internally stores one character string. When this is repeated, multiple character strings are searched by the character string search means 4.
will be stored internally. In the search mode, the character string search means 4 searches one character string each time a character string that matches a character string stored in the registration mode is input.

一致した文字列の登録アドレスを出力する。また。Outputs the registered address of the matched string. Also.

その際、入力される文字列における一致位置(−致アド
レス)は、登録アドレスが出力されたときに1文字列検
索手段4に文字列がどこまで入力されたかをカウントし
ておくことによって得られ。
At this time, the matching position (-matching address) in the input character string is obtained by counting how far the character string has been input into the single character string search means 4 when the registered address is output.

登録アドレスが出力されるのと同時に1文字列検索手段
4から出力される。
At the same time as the registered address is output, the single character string search means 4 outputs it.

単位文字列登録手段5は1文字列検索手段4に対して登
録モードを設定し、単位文字列抽出手段3から送られて
きた複数の単位文字列を、文字列検索手段4へ入力する
手段である。第4図は、文献(1)のようにして文字列
検索手段4を実現した場合の、単位文字列登録手段5の
処理手順を示すフローチャートである。単位文字列登録
手段5は、まず、文字列検索手段4へ登録モードを設定
する信号を送る(その信号により文字列検索手段4は登
録モードになる)。そして、単位文字列登録手段5は、
単位文字列抽出手段3から単位文字列を1つずつ受は取
り、受は取った単位文字列を文字列検索手段4へ登録す
ることを繰り返す。単位文字列の文字列検索手段4への
登録は、登録アドレスを設定した後、登録する単位文字
列を文字列検索手段4へ入力するという処理である。単
位文字列抽出手段3から送られてくる単位文字列がなく
なったならば、単位文字列登録手段5は文字列検索手段
4へ登録モードを解除する信号を送り、処j!lを終了
する(ただし、登録モードを解除する信号は、単語辞書
入力手段6の発する検索モード設定信号で代用して省略
する形もとれる)。
The unit character string registration means 5 is means for setting a registration mode for the single character string search means 4 and inputting a plurality of unit character strings sent from the unit character string extraction means 3 to the character string search means 4. be. FIG. 4 is a flowchart showing the processing procedure of the unit character string registration means 5 when the character string search means 4 is implemented as in document (1). The unit character string registration means 5 first sends a signal to set the registration mode to the character string search means 4 (the signal causes the character string search means 4 to enter the registration mode). Then, the unit character string registration means 5
The unit character strings are retrieved one by one from the unit character string extraction means 3 and the retrieved unit character strings are registered in the character string search means 4, and this process is repeated. The registration of a unit character string in the character string search means 4 is a process of setting a registration address and then inputting the unit character string to be registered into the character string search means 4. When there are no more unit character strings sent from the unit character string extraction means 3, the unit character string registration means 5 sends a signal to the character string search means 4 to cancel the registration mode, and the process j! (However, the signal for canceling the registration mode may be omitted and replaced by the search mode setting signal issued by the word dictionary input means 6).

辞書選択手段9は、単位文字列抽出手段3によって抽出
された単位文字列をもとに、複数の部分単語辞書のなか
から、検索対象とする部分単語辞書を選択する手段であ
る。部分単語辞書の選択方法は、単語辞書lを部分単語
辞書に分割する方法によるが、第6図のように、単語の
先頭文字ごとに部分単語辞書に分割する方法をとりた場
合には。
The dictionary selection means 9 is means for selecting a partial word dictionary to be searched from among a plurality of partial word dictionaries based on the unit character string extracted by the unit character string extraction means 3. The method for selecting a partial word dictionary depends on the method of dividing the word dictionary l into partial word dictionaries, but in the case where the method of dividing the word dictionary l into partial word dictionaries for each first character of a word is adopted, as shown in FIG.

単位文字列抽出手段3によって抽出された各単位文字列
の先頭文字に対応する部分単語辞書を選択すればよい。
The partial word dictionary corresponding to the first character of each unit character string extracted by the unit character string extraction means 3 may be selected.

すなわち、第7図のような先頭文字と部分単語辞書の辞
書番号を対応付けた辞書選択表90を用意し、単位文字
列の先頭文字をキーとして、辞書選択表を引いて検索対
象とする部分単語辞書の辞書番号を得ればよい。辞書選
択手段9は、検索対象とする部分単語辞書の辞書番号を
、単語辞書入力手段6へ送る。
That is, a dictionary selection table 90 as shown in FIG. 7 that associates the first character with the dictionary number of the partial word dictionary is prepared, and the part to be searched is retrieved by using the first character of the unit character string as a key. All you need to do is get the dictionary number of the word dictionary. The dictionary selection means 9 sends the dictionary number of the partial word dictionary to be searched to the word dictionary input means 6.

ワイルドカード付加手段lOは、与えられた文字列の末
尾に、単位文字列と同一の長さ(単語辞書lにおける最
大表記長と同一の長さ)Uになるまで、ワイルドカード
文字を付加する手段である。
The wild card addition means lO is means for adding wild card characters to the end of a given character string until the length U is the same as the unit character string (the same length as the maximum notation length in the word dictionary l). It is.

単語辞書入力手段6から単語の表記(可変長)を受は取
り、単語辞書入力手段6ヘワイルド力−ド文字を付加し
た結果を返す形態で動作する0例えば、単語辞書入力手
段6から「日本」という表記を受は取ったならば、単語
辞書入力手段6へ「日本$$$$$$Jを返し、「日本
語」という表記を受は取ったならは[日本語$$$$$
Jを返す。
The system operates in such a manner that it receives the notation (variable length) of a word from the word dictionary input means 6 and returns the result of adding a wild character to the word dictionary input means 6. For example, the word dictionary input means 6 reads "Japan". If the notation ``Japanese'' is removed, Uke returns ``Japanese $$$$$$$J'' to the word dictionary input means 6;
Return J.

ワイルドカード文字を長さUまで付加した文字列を形成
する方法は、例えば、予めワイルドカード文字をU個収
めたバッファを用意しておき、単語辞書入力手段6から
受は取゛りた表記を、その文字列長弁だけ、先頭からバ
ッファにセットしくオーバーライドして書き込み)、そ
の結果のバッツァ内のX字列を取り出せば良い。
A method of forming a character string in which wildcard characters are added up to a length U is, for example, to prepare a buffer in which U wildcard characters are stored in advance, and to input the received notation from the word dictionary input means 6. , only the character string length valve can be set in the buffer from the beginning and overridden and written), and the resulting X character string in Batza can be extracted.

単語辞書入力手段6は、文字列検索手段4に対して検索
モードを設定し、ワイルドカード付加手段10により、
辞書選択手段9によって選択された部分単語辞書の各単
語の表記に、ワイルドカード文字を付加して、文字列検
索手段4へ入力する手段である。処理手順は、単位文字
列登録手段5とほぼ同様で、まず1文字列検索手段4に
検索モードを設定する信号を送り、次に、単語辞!F1
を文字列検索手段4へ入力しく辞書選択手段9から指示
された辞書番号の部分単語辞書を順次入力する)、その
入力が完了したら、文字列検索手段4へ検索モードを解
除する信号を送る。ただし、部分単語辞書を文字列検索
手段4へ入力する際には。
The word dictionary input means 6 sets a search mode for the character string search means 4, and the wild card addition means 10 sets the search mode to the character string search means 4.
This means adds a wild card character to the notation of each word in the partial word dictionary selected by the dictionary selection means 9 and inputs it to the character string search means 4. The processing procedure is almost the same as that of the unit character string registration means 5. First, a signal is sent to the single character string search means 4 to set the search mode, and then the word dictionary! F1
are input into the character string search means 4, and the partial word dictionaries of the dictionary numbers instructed by the dictionary selection means 9 are sequentially input), and when the input is completed, a signal is sent to the character string search means 4 to cancel the search mode. However, when inputting the partial word dictionary to the character string search means 4.

部分単語辞書の各単語をワイルドカード付加手段10へ
渡し、それに対してワイルドカード付加手段lOより返
される文字列を、文字列検索手段4へ入力するようにす
る。したがって、単語辞書入力手段6は1例えば、第2
図のような部分単語辞書1−Mに対しては、それを読み
込んで、ワイルドカード付加手段1oにより第3図のよ
うなワイルドカード文字付きの文字列に変えて、文字列
検索手段4へ入力する。なお、単語辞書入力手段6は、
単位文字列登録手段5による単位文字列の文字列検索手
段4への登録処理が完了してから、起動される必要があ
る。
Each word in the partial word dictionary is passed to the wild card adding means 10, and the character string returned from the wild card adding means 10 is input to the character string searching means 4. Therefore, the word dictionary input means 6 has one, for example, a second
For the partial word dictionary 1-M as shown in the figure, read it, change it to a character string with wild card characters as shown in Figure 3 using the wild card addition means 1o, and input it to the character string search means 4. do. Note that the word dictionary input means 6 is
It needs to be activated after the unit character string registration means 5 completes the registration process of the unit character string to the character string search means 4.

検索結果記憶手段7は5文字列検索手段4による検索結
果を記憶する手段である。磁気ディスク装置、磁気テー
プ装置、ICメモリなどで実現することができる。検索
結果とは1文章中のどの部分に、どのような単語が出現
したか(単語辞書中の単語と文章がどこで一致したか)
という情報である。文章中のどの部分かという情報は、
文字列検索手段4において一致が発生したときに2文字
列検索手段4から出力される(一致した単位文字列の)
登録アドレスと対応する。どのような単語かという情報
は1文字列検索手段4において一致が発生したときに1
文字列検索手段4から出力される、^t@辞書1の一致
アドレスと対応する。そこで、検索結果記憶手段7は、
一致が発生したときの、単位文字列の登録アドレスと単
語辞4!lの一致アドレスの船を記憶する。この2つの
アドレスは、一致が発生したときに文字列検索手段4か
ら出力される情報であるから、それをそのまま記憶すれ
ばよい。
The search result storage means 7 is a means for storing the search results by the five character string search means 4. It can be realized by a magnetic disk device, a magnetic tape device, an IC memory, etc. Search results are what kind of words appear in which part of a sentence (where the word in the word dictionary matches the sentence)
This is the information. Information about which part of the text is
When a match occurs in the character string search means 4, the two character string search means 4 output (of the matched unit character string)
Corresponds to the registered address. Information about what kind of word it is is 1 when a match occurs in the character string search means 4.
This corresponds to the matching address of the ^t@ dictionary 1 output from the character string search means 4. Therefore, the search result storage means 7
Registered address and word dictionary of unit string when a match occurs 4! Store the ships with matching addresses of l. Since these two addresses are information output from the character string search means 4 when a match occurs, they can be stored as they are.

制御手段8は、文章入力手段2.単位文字列抽出手段3
1文字列検索手段4.単位文字列登録手段5、辞書選択
手段9.単語辞書入力手段6の動作を制御し、第5図の
ような処理を行わせる手段でアル、コンピュータのCP
 Uなどが用いられる。
The control means 8 includes the text input means 2. Unit character string extraction means 3
1 Character string search means 4. Unit character string registration means 5, dictionary selection means 9. A means for controlling the operation of the word dictionary input means 6 and causing the processing as shown in FIG.
U etc. are used.

制御手段8は、まず、文章入力手段2を起動して文章を
入力する(STEPI )、次に、制御手段8は、単位
文字列抽出手段3を起動して1文章から単位文字列を抽
出する(STEP2)。続いて。
The control means 8 first activates the text input means 2 to input a sentence (STEPI), and then the control means 8 activates the unit character string extraction means 3 to extract a unit character string from one sentence. (STEP 2). continue.

制御手段8は、単位文字列登録手段5を起動し。The control means 8 activates the unit character string registration means 5.

単位文字列を文字列検索手段4に登録する(STEP3
)。 この際1文字列検索手段4は登録モードに設定さ
れ、単位文字列登録手段5より入力される単位文字列を
、内部に記憶する。また、制御手段8は、辞41!を選
択手段9を起動して、検索対象とする部分単語辞書を選
択する(STEP4)。続いて、制御手段8は、単語辞
書入力手段6を起動し、単語辞41にワイルドカード文
字を付加して文字列検索手段4へ入力する(STEP5
)。この際、文字列検索手段4は検索モードに設定され
Register the unit character string in the character string search means 4 (STEP 3)
). At this time, the single character string search means 4 is set to the registration mode, and stores the unit character string input from the unit character string registration means 5 internally. Further, the control means 8 controls the command 41! The selection means 9 is activated to select a partial word dictionary to be searched (STEP 4). Subsequently, the control means 8 activates the word dictionary input means 6, adds a wildcard character to the word dictionary 41, and inputs it to the character string search means 4 (STEP 5).
). At this time, the character string search means 4 is set to search mode.

内部に記憶された単位文字列に対して、ワイルドカード
文字を含んだ単語辞書1の文字列を検索した結果を、検
索結果記憶手段7へ出力する。本実施例では、ワイルド
カード付加手段10は、単語辞書入力手段6から直接制
御されるようになっている(制御手段8がワイルドカー
ド付加手段10を制御するような形態も可能である)。
The result of searching the word dictionary 1 for character strings containing wildcard characters against the internally stored unit character strings is output to the search result storage means 7. In this embodiment, the wild card addition means 10 is directly controlled by the word dictionary input means 6 (a configuration in which the control means 8 controls the wild card addition means 10 is also possible).

以上の実施例では、単語辞書1を部分単語辞書に分割す
る方法として、単語の先頭文字ごとに分割する方法を示
したが1本発明では1分割方法をこれに限定するもので
はない。単語の先頭文字に対して、1文字当り1個の部
分単語゛辞書とせず、複数の先頭文字をまとめて1個の
部分単語辞書としてもよい。また、より荒い分割方法と
しては、漢字であるか、仮名であるかによって分割する
だけでもよい。そして、前記の通り、辞書選択手段9に
おける検索対象の部分単語辞書の選択方法は、単語辞書
1の部分単語辞書への分割方法に応じた方法をとる。
In the embodiments described above, a method of dividing the word dictionary 1 into partial word dictionaries is shown by dividing each word by the first character, but the present invention does not limit the method of division to this. For the first character of a word, instead of forming one partial word dictionary for each character, a plurality of first letters may be combined into one partial word dictionary. Moreover, as a rougher division method, it is sufficient to simply divide the characters depending on whether they are kanji or kana. As described above, the method of selecting a partial word dictionary to be searched by the dictionary selection means 9 is based on the method of dividing the word dictionary 1 into partial word dictionaries.

また、1個の文字列検索手段4では文字列が登録しきれ
ない場合には、登録できる数ずつ登録・検索を繰り返す
方法か、または、複数個の文字列検索手段4を用いる方
法をとればよい。複数個の文字列検索手段4を用いる場
合には、登録モードでは、制御手段8が文字列検索手段
4に登録された文字列の数を監視し、1つの文字列検索
手段4の登録可能数に達したならば、単位文字列登録手
段5へ登録する文字列検索手段4を切り替える指令を送
るようにする。検索モードでは、単語辞書入力手段6は
、複数の文字列検索手段4へ並列に単語辞書1を入力し
1文字列検索手段4から出力される検索結果は、全て検
索結果記憶手段7へ書き込むようにする。
In addition, if one character string search means 4 cannot register all the character strings, you can repeat the registration and search for the number of characters that can be registered, or you can use multiple character string search means 4. good. When using a plurality of character string search means 4, in the registration mode, the control means 8 monitors the number of character strings registered in the character string search means 4, and determines the number of character strings that can be registered in one character string search means 4. When this is reached, a command is sent to the unit character string registration means 5 to switch the character string search means 4 to be registered. In the search mode, the word dictionary input means 6 inputs the word dictionary 1 into the plurality of character string search means 4 in parallel, and writes all the search results output from the one character string search means 4 to the search result storage means 7. Make it.

従来技術の項で示した第1種の文字列検索処理の実施形
態では、検索モードにおいて、文章を文字列検索手段に
入力する。この際2文章の任意の文字位置から照合が行
われる形がとられる。しかし、本発明のように、検索モ
ードにおいて、単語辞書を文字列検索手段に入力する場
合には、単語辞書の文字列の任意の位置から照合を行う
必要はない。各単語の表記の先頭位置から照合を開始す
ればよい。そのような照合開始位置の制限を行うために
は1次のような2つの方法がある。単語辞書内の表記は
単語ごとにデ’Jミタで区切られているので、第一の方
法は、文字列検索手段の照合がデリミタの直後から行わ
れるように制御することである(これは、一般に1アン
カーマツチと呼ばれる照合方法である)。文献(1)に
示されている文字列検索手段では、そのようなアンカー
マツチを実現できるようKなっている。第二の方法は、
アンカーマツチ金柑いずに、登録する単位文字列の先頭
にデIJ iりを登録しておくものである。これによっ
て、文字列検索手段がアンカーマツチ機能を持たなくと
も、単語辞書内のデリミタ位置から照合が行える。
In the embodiment of the first type of character string search processing described in the prior art section, a sentence is input into a character string search means in a search mode. At this time, the comparison is performed from arbitrary character positions in the two sentences. However, when inputting a word dictionary to the character string search means in the search mode as in the present invention, it is not necessary to perform matching from any position of the character string in the word dictionary. It is sufficient to start matching from the first position of the notation of each word. There are two methods to limit such matching start positions: Since the expressions in the word dictionary are separated by de'J mitter, the first method is to control the string search means to perform matching immediately after the delimiter (this is done by This is a matching method generally called one-anchor matching). In the character string search means shown in document (1), K is set so that such an anchor match can be realized. The second method is
In the anchor match kumquat, deIJi is registered at the beginning of the unit character string to be registered. As a result, even if the character string search means does not have an anchor matching function, matching can be performed from the delimiter position in the word dictionary.

また、第181の文字列検索処理を、これまでに述べて
いる文字列検索手段で行っているような文章作成装置に
、本発明の単語辞書検索装置を組み込むならば、文字列
検索手段を、filE1檀の文字列検索処理と第2種の
文字列検索処理とで共用することができる。
Furthermore, if the word dictionary search device of the present invention is incorporated into a text creation device that performs the 181st string search process using the string search means described above, the word dictionary search device of the present invention may be It can be shared by the filE1-dan character string search process and the second type of character string search process.

(発明の効果) 以上に説明したように5本発明によれば、文字列検索手
段を用いた単語辞書検索装置であって。
(Effects of the Invention) As explained above, according to the present invention, there is provided a word dictionary search device using a character string search means.

かつ、従来よりも少ない個数の文字列検索手段で構成で
きる単語辞書検索装置が得られる。
Moreover, a word dictionary search device can be obtained that can be configured with a smaller number of character string search means than conventional ones.

そして1文字列検索手段を用いた単語辞書検索装置であ
るので、第1種の文字列検索処理を1文字列検索手段で
行う文章作成装置と組み合わせることによって2文字列
検索手段を、第1種の文字列検索処理と第2Wiの文字
列検索処理とで共用する、効率の良い構成の文章作成装
置が実現できる。
Since this is a word dictionary search device using one character string search means, by combining it with a sentence creation device that performs the first type character string search process using one character string search means, two character string search means can be used as the first type. It is possible to realize a text creation device with an efficient configuration that is shared by the character string search process of 1 and the character string search process of the 2nd Wi.

そして、単語辞書検索装置を組み込むことによって、文
章作成装置は、文章について単なる文字列の情報だけで
なく、単語の情報を利用することができるようになり、
文章の検査や文章の音声変換をはじめとする、より高度
な文章処理を行えるようになる。
By incorporating the word dictionary search device, the text creation device can use not only character string information but also word information for sentences.
It will be possible to perform more advanced text processing, including text inspection and text-to-speech conversion.

また2文章から抽出された単位文字列に応じて、部分単
語辞書を選択するようにしたので、検索モードにおいて
、文字列検索手段に入力する単語辞書の範囲を限定する
ことができる。そのため、単語辞書をすべて入力するの
に比べて高速な検索が行える。
Furthermore, since the partial word dictionary is selected according to the unit character strings extracted from the two sentences, it is possible to limit the range of word dictionaries input to the character string search means in the search mode. Therefore, faster searches can be performed compared to inputting all the words in a dictionary.

なお、本発明の単語辞書検案装置では、各部分単語辞書
に登録されている単語は、必ずしも表記の文字コード順
に並べられている必要はない。従来、単語辞書について
は、そのなかに登録されている単語の並ひを管理するこ
とが煩わしく、単語の追加・削除作業に大きな負荷を加
えていた。本発明で用いている単語辞書は、部分単語辞
書に分けることは必要であるが1部分単語辞書内では単
語の並びを管理する煩わしさをなくすことができる。
In the word dictionary examination device of the present invention, the words registered in each partial word dictionary do not necessarily have to be arranged in the order of their written character codes. Conventionally, with regard to word dictionaries, it has been troublesome to manage the order of words registered in the dictionary, adding a large burden to the work of adding and deleting words. Although it is necessary to divide the word dictionary used in the present invention into partial word dictionaries, it is possible to eliminate the trouble of managing the arrangement of words within a single partial word dictionary.

さらに、単語辞書は1表記をペタ詰めした形態がとれる
ので、表記領域を固定長セした場合に比べて、容量が小
さく抑えられる。
Furthermore, since the word dictionary can be packed with one notation, its capacity can be kept small compared to a case where the notation area is set to a fixed length.

内容の例を示す図である。It is a figure showing an example of contents.

l・・・・・・単語辞書、2・・・・・・文章入力手段
、3・・・・・・単位文字列抽出手段、4・・・・・・
文字列検索手段、5・・・・・・単位文字列登録手段、
6・・・・・・単飴辞書入カ手段、7・・・・・・検索
結果記憶手段、8・・・・・・制御手段。
l...Word dictionary, 2...Sentence input means, 3...Unit character string extraction means, 4...
Character string search means, 5...Unit character string registration means,
6... Single candy dictionary input means, 7... Search result storage means, 8... Control means.

9・・・・・・辞書選択手段blO・・川・ワイルドカ
ード付加手段、9o・川・・辞書選択表。
9...Dictionary selection means blO...River/Wild card addition means, 9o/River...Dictionary selection table.

代理人 弁理士  本 庄 伸 介Agent Patent Attorney Shinsuke Honsho

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例の構成を示すブロック図、第
2図は単語辞ja1の内容の例を示す図。 第3図は単語辞書1内の各単語の表記にワイルドカード
文字を付加した結果を示す図、第4図は単位文字列登録
手段5の処理手順を示す70−チャート、第5図は実施
例の処理手順を示すフローチャート、第6図は単語辞書
の部分単語辞書への分割方法の例を示す図、第7図は辞
書選択表90の第1図 第4図 a$$$$$$$ E3gzssssss e叫 $$$$$$ a没 $$$$$$ a本 $$$$$$ a$−誘 $$$$$ a参人$$$$$ 日曜$$$$$$ a曜日$$$$$ 第3図 第5図 (a) 第5図 (b) 第 図
FIG. 1 is a block diagram showing the configuration of an embodiment of the present invention, and FIG. 2 is a diagram showing an example of the contents of a word dictionary ja1. FIG. 3 is a diagram showing the result of adding wildcard characters to the notation of each word in the word dictionary 1, FIG. 4 is a 70-chart showing the processing procedure of the unit character string registration means 5, and FIG. 5 is an example. FIG. 6 is a diagram showing an example of a method of dividing a word dictionary into partial word dictionaries. FIG. 7 is a flowchart showing the processing procedure of the dictionary selection table 90. E3gzssssss e shout $$$$$$$ a death $$$$$$$ a book $$$$$$$ a$-invitation $$$$$$ a-nin $$$$$$ Sunday $$$$$$ a Day of the week $$$$$ Figure 3 Figure 5 (a) Figure 5 (b) Figure

Claims (1)

【特許請求の範囲】[Claims] 単語辞書から文章の部分文字列に一致する全ての単語を
検索する単語辞書検索装置において、前記単語辞書を複
数の部分単語辞書に分割し、該部分単語辞書は単語の表
記をデリミタをはさんでベタ詰めした形態をとり、前記
文章の全文字位置から前記単語辞書における最大表記長
と同一長の単位文字列を抽出する単位文字列抽出手段と
、登録モードと検索モードとを有し該登録モードにおい
ては入力される複数の文字列を内部に記憶し該検索モー
ドにおいては入力されるワイルドカード文字を含む文字
列から前記登録モードで記憶された複数の文字列と一致
する全ての部分文字列を検出する文字列検索手段と、前
記文字列検索手段に対して登録モードを設定し前記単位
文字列抽出手段によって抽出された複数の単位文字列を
前記文字列検索手段に入力する単位文字列登録手段と、
前記単位文字列抽出手段によって抽出された単位文字列
をもとに前記複数の部分単語辞書のなかから検索対象と
する部分単語辞書を選択する辞書選択手段と、与えられ
た文字列の末尾に前記単位文字列と同一の長さになるま
でワイルドカード文字を付加するワイルドカード付加手
段と、前記文字列検索手段に対して検索モードを設定し
前記ワイルドカード付加手段により前記辞書選択手段に
よって選択された部分単語辞書の各単語の表記をワイル
ドカード文字を付加して前記文字列検索手段に入力する
単語辞書入力手段とを備えることを特徴とする単語辞書
検索装置。
In a word dictionary search device that searches a word dictionary for all words that match a partial character string of a sentence, the word dictionary is divided into a plurality of partial word dictionaries, and the partial word dictionaries are divided into a plurality of partial word dictionaries in which word representations are separated by delimiters. unit character string extracting means for extracting a unit character string in a solid form and having the same length as the maximum notation length in the word dictionary from all character positions of the sentence; and a registration mode and a search mode. stores the input strings internally, and in the search mode searches all substrings that match the strings stored in the registration mode from the input strings containing wildcard characters. a character string search means for detecting; and a unit character string registration means for setting a registration mode for the character string search means and inputting a plurality of unit character strings extracted by the unit character string extraction means to the character string search means. and,
dictionary selection means for selecting a partial word dictionary to be searched from among the plurality of partial word dictionaries based on the unit character string extracted by the unit character string extraction means; a wildcard addition means for adding wildcard characters until the length is the same as the unit string; and a search mode is set for the character string search means, and the wildcard addition means sets a search mode for the character string selected by the dictionary selection means. A word dictionary search device comprising: word dictionary input means for inputting the notation of each word in a partial word dictionary to the character string search means by adding a wild card character.
JP63182071A 1988-07-21 1988-07-21 Word dictionary retrieving device Pending JPH0231273A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63182071A JPH0231273A (en) 1988-07-21 1988-07-21 Word dictionary retrieving device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63182071A JPH0231273A (en) 1988-07-21 1988-07-21 Word dictionary retrieving device

Publications (1)

Publication Number Publication Date
JPH0231273A true JPH0231273A (en) 1990-02-01

Family

ID=16111842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63182071A Pending JPH0231273A (en) 1988-07-21 1988-07-21 Word dictionary retrieving device

Country Status (1)

Country Link
JP (1) JPH0231273A (en)

Similar Documents

Publication Publication Date Title
JPH0869476A (en) Retrieval system
JPH0231273A (en) Word dictionary retrieving device
JP2595934B2 (en) Kana-Kanji conversion processor
JP2792147B2 (en) Character processing method and device
JPH0231274A (en) Word dictionary retrieving device
JPS60225273A (en) Word retrieving system
JPH0267684A (en) Calibration supporting system and dictionary retrieving system
JPH01205226A (en) Word dictionary retrieving device
JPH0452500B2 (en)
JPH03118661A (en) Word retrieving device
JPH02148174A (en) Data retrieving device
JP2839515B2 (en) Character reading system
JP2580566B2 (en) Speech synthesizer
JPH01114976A (en) Dictionary structure for document processor
JPH01205267A (en) Word dictionary retrieving device
JPH01205266A (en) Word dictionary retrieving device
JPS5978400A (en) Preparation system of candidate train
JPS62256075A (en) Dictionary retrieving system
JPH0630100B2 (en) Kana-Kanji conversion method
JPH0268663A (en) Character string retrieving device
JPH07319892A (en) Character string collation device
JPS60193068A (en) Sentence analysis system
JPH0337764A (en) Word dictionary retrieving device
JPS6198475A (en) Japanese sentence input device
JPH0385670A (en) Two-step display system document processor