JPH0567152A - Document retrieving device - Google Patents

Document retrieving device

Info

Publication number
JPH0567152A
JPH0567152A JP3230379A JP23037991A JPH0567152A JP H0567152 A JPH0567152 A JP H0567152A JP 3230379 A JP3230379 A JP 3230379A JP 23037991 A JP23037991 A JP 23037991A JP H0567152 A JPH0567152 A JP H0567152A
Authority
JP
Japan
Prior art keywords
word
dictionary
sentence
words
data base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3230379A
Other languages
Japanese (ja)
Inventor
Akira Hamada
明 濱田
Hitoshi Suzuki
等 鈴木
Hirokatsu Akiyama
広勝 秋山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP3230379A priority Critical patent/JPH0567152A/en
Publication of JPH0567152A publication Critical patent/JPH0567152A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To easily retrieve a sentence including synonyms by converting an inputted word into a word number in accordance With a dictionary and retrieving a document data base by the word number. CONSTITUTION:This device consists of a dictionary 101 where words as the object of retrieval are collected, a dictionary retrieval part 103 which retrieves a document data base 102 where words are substituted with word numbers to convert words into word numbers, and a document data base retrieval part 104 which extracts a sentence including converted word numbers from the document data base 102. An inputted word is matched with words of the dictionary 101 in consideration of the ambiguity, and the word is substituted with the word number in the document data base 102, and the document including this word number is extracted from the document data base 102. Consequently, the difference and the fluctuation of expression between the inputted word and words used in the document data base 102 are absorbed in the stage where the dictionary 101 is used to convert the inputted word into the word number, and the sentence including synonyms is easily retrieved.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】この発明は、電子化辞書などの文
章データベースから特定の単語を含む文または文章を抽
出する文章検索装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a sentence search apparatus for extracting a sentence or sentence containing a specific word from a sentence database such as an electronic dictionary.

【0002】[0002]

【従来の技術】従来の文章検索装置においては、すで
に、特定の文字列を含む用例のような文(文章)を文章
データベースから抽出するシステムは作成されている。
2. Description of the Related Art In a conventional text search apparatus, a system for extracting a text (text) such as an example including a specific character string from a text database has already been created.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、外来語
などカタカナ表記の語には、「ウンディーネ」と「オン
ディーヌ」、「ノーム」と「グノメ」など、同じ意味で
も表記が異なる語(以後、これを同義異表記語という)
がある。このため、使用者は検索したい概念を文章デー
タベース中で使用されている表記で入力する必要があっ
た。また、検索システムとしても、さまざまな表記ゆら
ぎを想定しながら、入力された語と文章データベースと
のマッチングを取ることは困難であった。
However, in terms of katakana notation, such as a foreign word, words such as "undine" and "ondine" or "gnome" and "gnome" have the same meaning but different notations (hereinafter Called synonymous different notation)
There is. Therefore, the user has to input the concept to be searched by the notation used in the text database. Also, it is difficult for the search system to match the input word with the sentence database while assuming various notational fluctuations.

【0004】この発明は、このような事情を考慮してな
されたもので、文章データベース中の検索対象となる単
語を集めた辞書を持ち、文章データベース中の語をこの
辞書の単語番号で置き換えておき、入力された単語をそ
の辞書により単語番号に変換して、その単語番号で文章
データベースを検索するようにして、同義異表記語を含
む文章の検索を容易にした文章検索装置を提供するもの
である。
The present invention has been made in consideration of such circumstances, and has a dictionary that collects words to be searched in a text database, and replaces the words in the text database with the word numbers of this dictionary. Every time, the input word is converted into a word number by the dictionary, and the sentence database is searched by the word number, thereby providing a sentence search device that facilitates the search of sentences including synonymous notation words. Is.

【0005】[0005]

【課題を解決するための手段】本発明の構成を図1を用
いて説明すると、本発明は、検索の対象となる単語を集
めた辞書101 と、その辞書101の単語番号によって表記
を置き換えた文章データベース102 と、入力された単語
を前記辞書101 から検索することにより単語番号に変換
する辞書検索部103 と、辞書検索部103 によって変換さ
れた単語番号を含む文章を文章データベース102 から抽
出する文章データベース検索部104 と、から構成され
る。
The structure of the present invention will be described with reference to FIG. 1. In the present invention, the notation is replaced by the dictionary 101 in which the words to be searched are collected and the word number of the dictionary 101. A sentence database 102, a dictionary search unit 103 that converts the input word into a word number by searching the dictionary 101, and a sentence that extracts a sentence including the word number converted by the dictionary search unit 103 from the sentence database 102 The database search unit 104 and.

【0006】[0006]

【作用】この発明によれば、入力された単語と辞書101
の単語との間で曖昧性を考慮したマッチングを行い、入
力された単語が辞書101 に含まれる単語とマッチした場
合は、文章データベース102 中で使用されている語の単
語番号に置き換えてその単語番号を含む文章を文章デー
タベース102 から抽出する。したがって、入力された単
語を辞書101 を用いて単語番号に変換する段階で、文書
データベース102で使用されている語との表記の異なり
・ゆらぎを吸収できる。
According to the present invention, the input word and the dictionary 101
If the input word matches a word included in the dictionary 101, it is replaced with the word number of the word used in the sentence database 102, and the word is used. A sentence including a number is extracted from the sentence database 102. Therefore, at the stage of converting the input word into a word number using the dictionary 101, it is possible to absorb the difference and fluctuation of the notation with the word used in the document database 102.

【0007】[0007]

【実施例】以下、図面に示す実施例に基づいてこの発明
を詳述する。なお、これによってこの発明が限定される
ものではない。
DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described in detail below based on the embodiments shown in the drawings. The present invention is not limited to this.

【0008】図2はこの発明の一実施例の構成を示すブ
ロック図である。この図において、1は制御部であり、
単語入力に必要となる仮名漢字変換用の辞書テーブルな
どを含んでいる。2は抽出した文章の表示などに用いる
CRTやLCDなどからなる表示部である。3は検索す
る単語を入力するためのキーボードなどからなる入力部
である。4は単語を単語番号に変換するための辞書検索
部である。5は抽出された文章中の単語番号を単語に置
き換える文章復元部である。6は単語番号によって文章
データベースを検索する文章DB検索部である。7は入
力された語の子音により辞書の検索範囲を絞り込むイン
デックスである。8は単語と単語番号の対応を取る単語
辞書(以下、単に辞書という)である。9は検索対象の
語を単語番号で置き換えた文からなる文章データベース
である。
FIG. 2 is a block diagram showing the configuration of an embodiment of the present invention. In this figure, 1 is a control unit,
It contains a dictionary table for kana-kanji conversion, which is necessary for inputting words. Reference numeral 2 denotes a display unit including a CRT or LCD used for displaying the extracted text. An input unit 3 includes a keyboard for inputting a word to be searched. Reference numeral 4 is a dictionary search unit for converting a word into a word number. Reference numeral 5 is a sentence restoration unit that replaces the word number in the extracted sentence with a word. Reference numeral 6 is a sentence DB search unit that searches the sentence database by word number. Reference numeral 7 is an index for narrowing the search range of the dictionary by the consonants of the input word. Reference numeral 8 is a word dictionary (hereinafter simply referred to as a dictionary) that associates words with word numbers. Reference numeral 9 is a sentence database including sentences in which words to be searched are replaced with word numbers.

【0009】図3はインデックス7の構造を示す説明図
である。図に示すように、インデックス7は、辞書8に
含まれるカタカナ語の子音の組み合わせの異なりのテー
ブル71と、それに対応する辞書8の単語番号のテーブル
72からなっている。テーブル71の“1”の箇所は上に示
した子音を持つことを示している。テーブル71の上側の
行の例はカタカナ語の子音として“d”と“n”のみを
持つことを示しており、これに対応するテーブル72の内
容は辞書8で子音“d”と“n”のみを含むカタカナ語
の単語番号になっている。
FIG. 3 is an explanatory view showing the structure of the index 7. As shown in the figure, the index 7 is a table 71 of different combinations of consonant Katakana words included in the dictionary 8 and a table of word numbers of the dictionary 8 corresponding thereto.
It consists of 72. The "1" part of the table 71 indicates that it has the consonant shown above. The example in the upper row of the table 71 indicates that the only consonants of Katakana are “d” and “n”, and the corresponding contents of the table 72 are the consonants “d” and “n” in the dictionary 8. It is a Katakana word number that includes only.

【0010】図4は辞書8の構造を示す説明図である。
図に示すように、辞書8は、表記部81と代表単語番号82
からなる。表記部81には、文書データベース9の検索対
象になる語と、その語と意味が同じで表記が異なる語
(以下、同義異表記語という)の表記が文字コードの昇
順に並べられている。辞書8に含まれるそれぞれの語の
単語番号としては、辞書8中での並び順を用いている。
例えば「ウンディーネ」は31番目の単語であるので、
「ウンディーネ」の単語番号は00031 となる。同義異表
記語については、対応する代表単語番号82の欄に文章デ
ータベース9で用いられている表記(以下代表表記と呼
ぶ)の単語番号が入っている。図の例では、単語番号00
082 の「グノメ」については、単語番号00254 の「ノー
ム」が代表表記であり、「グノメ」は「ノーム」の同義
異表記語ということになる。
FIG. 4 is an explanatory view showing the structure of the dictionary 8.
As shown in the figure, the dictionary 8 includes a writing section 81 and a representative word number 82.
Consists of. In the notation unit 81, the words to be searched for in the document database 9 and the words having the same meaning as the word but different in notation (hereinafter referred to as synonymous notation words) are arranged in ascending order of the character codes. As the word number of each word included in the dictionary 8, the arrangement order in the dictionary 8 is used.
For example, "undine" is the 31st word, so
The word number for "undine" is 00003. Regarding the synonymous different notation word, the word number of the notation used in the sentence database 9 (hereinafter referred to as the representative notation) is entered in the corresponding representative word number 82 column. In the example shown, word number 00
Regarding "Gnome" in 082, "Nome" of word number 00254 is a representative notation, and "Gnome" is a synonymous different term of "Nome".

【0011】図5は文章データベース9中の文章データ
の例を示す説明図である。図の(a)のような文は、文章
データベース9の中では検索対象となる語がコード化さ
れた単語番号で置き換えられて(b) のような形で蓄えら
れている。図中の[…]はコード化された単語番号を表
している。
FIG. 5 is an explanatory view showing an example of sentence data in the sentence database 9. In the sentence database 9, a sentence like (a) in the figure is stored in the form shown in (b) by replacing a word to be searched with a coded word number. [...] in the figure represents the coded word number.

【0012】以下「オンディーヌ」と「グノメ」を検索
単語の例として、図6に沿ってこの実施例の動作を説明
する。
The operation of this embodiment will be described below with reference to FIG. 6 using "ondine" and "gnome" as examples of search words.

【0013】「オンディーヌ」の場合、まず、単語入力
の後(ステップ21)、辞書8の表記81と単純にマッチを
取ってみる(辞書検索1:ステップ22)。ここでは、マ
ッチする単語がないので(ステップ23)、「オンディー
ヌ」に含まれる子音“d”と“n”からインデックス7
を用いて単語番号“00010 ”と“00031 ”…を得る。こ
の単語番号に対応する辞書8の単語「アンデッド」と
「ウンディーネ」…を遂次調べ、子音の並び順などから
類似単語「ウンディーネ」を得る(辞書検索2:ステッ
プ24,25)。「ウンディーネ」は代表単語番号82が空で
あることから代表表記であることが分かるので(ステッ
プ26)、その単語番号00031 で文章データベースを検索
する(文章DB検索:ステップ27)、図5で示した文は
単語番号00031 を持っているので抽出され、文章復元部
5により単語番号を対応する表記に置換して出力する
(結果表示:ステップ28)。
In the case of "Ondine", first, after inputting a word (step 21), a simple match with the notation 81 of the dictionary 8 is made (dictionary search 1: step 22). Here, since there is no matching word (step 23), the consonants “d” and “n” included in “Ondine” are used to index 7.
To obtain word numbers "00010" and "00031" .... The words "Undead" and "Undine" in the dictionary 8 corresponding to this word number are sequentially searched, and a similar word "Undine" is obtained from the order of consonants (dictionary search 2: steps 24 and 25). Since "Undine" is a representative notation because the representative word number 82 is empty (step 26), the sentence database is searched with the word number 00003 (sentence DB search: step 27), as shown in FIG. Since the sentence having the word number 00003 is extracted, the sentence restoring unit 5 replaces the word number with the corresponding notation and outputs it (result display: step 28).

【0014】「グノメ」の場合、まず、辞書8の表記81
と単純にマッチを取ってみる(辞書検索1:ステップ2
2)。辞書8の単語番号00082「グノメ」とマッチする
(ステップ23)。この語の代表単語番号82が空でないの
で「グノメ」が代表表記でないことが分かる(ステップ
26)。代表単語番号82の内容に従って代表表記「ノー
ム」の単語番号00254 と置き換える(単語番号置換:ス
テップ29)。後は「オンディーヌ」の場合と同様に、文
章DB検索と(ステップ27)、結果表示を行う(ステッ
プ28)。
In the case of "Gnome", first, the notation 81 in the dictionary 8
And simply try to find a match (Dictionary Search 1: Step 2
2). It matches the word number 00082 "Gnome" in the dictionary 8 (step 23). Since the representative word number 82 of this word is not empty, it is understood that "Gnome" is not a representative notation (step
26). According to the content of the representative word number 82, it is replaced with the word number 00254 of the representative notation "Nome" (word number replacement: step 29). Then, similar to the case of "Ondine", the sentence DB is searched (step 27) and the result is displayed (step 28).

【0015】このように、文章データベース本来の表記
以外の語によっても検索を行うことが可能になる。な
お、上記の例において、類似単語があった場合や代表表
記の単語番号へ置き換える場合には、その旨を使用者に
問い合わせるようにしてもよい。
In this way, it is possible to perform a search using a word other than the original notation of the text database. In the above example, when there is a similar word or when the word is represented by a representative word, the user may be informed of the fact.

【0016】[0016]

【発明の効果】この発明によれば、使用者が文章データ
ベース中で使用されている単語の表記を知らない場合で
も、自分の知っている表記で文章を検索できる。また、
文章データベースに対しては単語番号による単純なマッ
チングを行うため、高速な検索を行うことができる。
According to the present invention, even if the user does not know the notation of the word used in the sentence database, the sentence can be searched with the notation that he or she knows. Also,
Since the text database is simply matched by word number, high-speed search can be performed.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の構成を示すブロック図。FIG. 1 is a block diagram showing a configuration of the present invention.

【図2】本発明の一実施例の構成を示すブロック図。FIG. 2 is a block diagram showing the configuration of an embodiment of the present invention.

【図3】インデックスの構造を示す説明図。FIG. 3 is an explanatory diagram showing a structure of an index.

【図4】単語辞書の構造を示す説明図。FIG. 4 is an explanatory diagram showing the structure of a word dictionary.

【図5】文章データベース中の文章データの例を示す説
明図。
FIG. 5 is an explanatory diagram showing an example of sentence data in a sentence database.

【図6】実施例の動作を示すフローチャート。FIG. 6 is a flowchart showing the operation of the embodiment.

【符号の説明】[Explanation of symbols]

1 制御部 2 表示部 3 入力部 4 辞書検索部 5 文章復元部 6 文章DB検索部 7 インデックス 8 単語辞書 9 文章データベース 1 Control Section 2 Display Section 3 Input Section 4 Dictionary Search Section 5 Text Restoration Section 6 Text DB Search Section 7 Index 8 Word Dictionary 9 Text Database

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 検索の対象となる単語を集めた辞書と、 その辞書の単語番号によって表記を置き換えた文章デー
タベースと、 入力された単語を前記辞書から検索することにより単語
番号に変換する辞書検索部と、 辞書検索部によって変換された単語番号を含む文章を文
章データベースから抽出する文章データベース検索部
と、を備えてなる文章検索装置。
1. A dictionary in which words to be searched are collected, a sentence database in which notations are replaced by word numbers in the dictionary, and a dictionary search for converting input words into word numbers by searching the dictionary. And a sentence database search unit that extracts a sentence including a word number converted by the dictionary search unit from a sentence database.
【請求項2】 入力された単語に含まれる子音によって
前記辞書の検索対象を絞り込むインデックスをさらに備
えてなる請求項1の文章検索装置。
2. The sentence search device according to claim 1, further comprising an index for narrowing down a search target of the dictionary according to a consonant contained in an input word.
【請求項3】 文章データベース中に出現する語とその
同義異表記語とを前記辞書に格納し、前記辞書中の同義
異表記語に、文章データベース中に出現する語の単語番
号情報を付加したことを特徴とする請求項1の文章検索
装置。
3. A word appearing in a sentence database and its synonymous different notation are stored in the dictionary, and word number information of a word appearing in the sentence database is added to the synonymous different notation in the dictionary. The sentence search device according to claim 1, wherein:
JP3230379A 1991-09-10 1991-09-10 Document retrieving device Pending JPH0567152A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3230379A JPH0567152A (en) 1991-09-10 1991-09-10 Document retrieving device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3230379A JPH0567152A (en) 1991-09-10 1991-09-10 Document retrieving device

Publications (1)

Publication Number Publication Date
JPH0567152A true JPH0567152A (en) 1993-03-19

Family

ID=16906946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3230379A Pending JPH0567152A (en) 1991-09-10 1991-09-10 Document retrieving device

Country Status (1)

Country Link
JP (1) JPH0567152A (en)

Similar Documents

Publication Publication Date Title
JPS58192173A (en) System for selecting word used in translation in machine translation
JPH08339376A (en) Foreign language retrieving device and information retrieving system
JPS60176169A (en) Sentence processor
JPH0567152A (en) Document retrieving device
JP3285149B2 (en) Foreign language electronic dictionary search method and apparatus
JPS6175952A (en) Document input processing system
JPH0944521A (en) Index generating device and document retrieval device
JPS6246029B2 (en)
JPS62144269A (en) Information retrieving device
JPH09245051A (en) Device and method for retrieving natural language instance
JPS60195664A (en) Kana-to-kanji-converting system
JPH0350668A (en) Character processor
JP5338482B2 (en) Chinese sentence example search device and program
JP2634596B2 (en) Kana-Kanji conversion device
JPH05120331A (en) Homonym recognizing device
JPS62177656A (en) Document producer
JPH05282290A (en) Sentence preparation supporting device
JPS6198475A (en) Japanese sentence input device
JPH05174018A (en) Kana/kanji converter
JPH03161865A (en) Method for retrieving document
JPH06325017A (en) Kana/kanji converting system
JPH03160555A (en) Japanese word input device
JPH06282567A (en) Translation supporting device
JPH0385669A (en) Retrieval replacing device with function for analyzing declensional kana ending
JPH0567146A (en) Data editor