JPS58219670A - Dictionary for translation and dictionary retrieval system using it - Google Patents
Dictionary for translation and dictionary retrieval system using itInfo
- Publication number
- JPS58219670A JPS58219670A JP57102070A JP10207082A JPS58219670A JP S58219670 A JPS58219670 A JP S58219670A JP 57102070 A JP57102070 A JP 57102070A JP 10207082 A JP10207082 A JP 10207082A JP S58219670 A JPS58219670 A JP S58219670A
- Authority
- JP
- Japan
- Prior art keywords
- language
- dictionary
- words
- ideographic
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
Description
【発明の詳細な説明】
本発明は、ある言語から他の言語に翻訳する装置に用い
られる電子辞書及び辞書検索方式に係り、特に、多言語
間翻訳に好適で、かつ、記憶容量の減少が図れるような
辞書構成に関するものである。DETAILED DESCRIPTION OF THE INVENTION The present invention relates to an electronic dictionary and dictionary search method used in a device for translating from one language to another, and is particularly suitable for multilingual translation and reduces storage capacity. This is related to a dictionary structure that can be used in a variety of ways.
近年、入力した第1言@C入力言@)の単語、イディオ
ムあるいは文章を第2言語(出力言語)に翻訳する、所
謂電子辞書、翻訳機の開発が進められているが、斯る装
置においては、第1言語(入力言語)の単語あるいはイ
ディオムの意味として、それに対応する第2言語(出力
言語)の単語あるいはイディオムが格納されている辞書
が使用されている。In recent years, so-called electronic dictionaries and translators have been developed that translate the first input word, idiom, or sentence into a second language (output language). uses a dictionary in which words or idioms in the second language (output language) corresponding to the meanings of words or idioms in the first language (input language) are stored.
しかしながら、このような辞書は、意味の記述に第2言
語が使用されているた、めに、第2言語から第1言語、
あるいは第1言語から第3言語へ単語イディオムあるい
は文章を翻訳する装置に使用できない。それ故、n(n
は2以上の自然数]ケの言語間の翻訳を行なうためには
、2XnC! ケ(すなわち両方向X言語の組合せの数
)の辞書を用意せねばならず、nヶの言語間の翻訳のた
めの11111□ −
辞書作成に多大な労力を必要とすると共に、辞書の容量
が大きくなるという欠点があった。However, since the second language is used to describe the meaning, such dictionaries do not allow the translation from the second language to the first language.
Or, it cannot be used as a device for translating word idioms or sentences from a first language to a third language. Therefore, n(n
is a natural number greater than or equal to 2] To perform translation between languages, 2XnC! (i.e., the number of bidirectional X language combinations) dictionaries must be prepared, and 11111□ for translation between n languages - It requires a lot of effort to create a dictionary, and the capacity of the dictionary is large. There was a drawback.
本発明は、上記の欠点を克服し、多言語間の翻訳に好適
で、しかも、記憶容量の小さい翻訳用辞書及びこれを用
いた検索方式を提供することを目的とする。本発明は特
に単語やイディオムの概念が言語間でずれることが少い
、たとえば、物の名前等に対しては多大な効果を発揮す
るものである。SUMMARY OF THE INVENTION It is an object of the present invention to overcome the above-mentioned drawbacks, to provide a translation dictionary that is suitable for multilingual translation, and has a small storage capacity, and a search method using the same. The present invention is particularly effective for cases in which the concepts of words and idioms are less likely to deviate between languages, such as the names of things.
上記の目的を達成するために、本発明においては、翻訳
用辞書における単語−熟語の意味記述を他言語によって
行なわず、意味概念を表わすコード例えば2進bit列
c以下、簡単の為、このコードを2進bitを例にして
述べ、かつこのコードを表意コードと呼ぶ)によって記
述することを特徴とするものである。本発明によれば第
1商語(入力醒語)から第2首語C出力言語)に翻訳す
る際には、表意コードで意味が記述された第1言語(入
力言語)の辞書と第2商語(出力計1の辞書を使用する
ことによシ、nヶの言語間の翻訳を行なうために必要な
辞書の数t−2Xnc! ケからnヶに減らすことが可
能となる。さらに、表意コードを文字等の手段でなくビ
ット列そのもので表現することにより、意味記述に必要
な記憶容Mkt減少させることかで牲、また、これに逆
引き辞書を備えさせることによシ、検索の高速化も可能
となる。In order to achieve the above object, in the present invention, the meanings of words and phrases in translation dictionaries are not described in other languages, but the code representing the meaning concept, for example, a binary bit string c or less, is written as a code for simplicity. is described using binary bits as an example, and this code is called an ideographic code). According to the present invention, when translating from a first business word (input word) to a second head word (output language), a dictionary of the first language (input language) whose meaning is described in ideographic codes and a second language By using a dictionary with a total output of 1, the number of dictionaries required for translation between n languages can be reduced from t-2Xnc! to n.Furthermore, By representing the ideographic code as a bit string itself rather than as characters, it is possible to reduce the memory capacity Mkt required for semantic description, and by providing it with a reverse lookup dictionary, it is possible to speed up retrieval. It is also possible to
以下、本発明を実施例を参照して詳細に説明する。第1
図は、本発明の一実施例の電子辞書である。第1図にお
ける1はプロセッサ、2はディスプレイ装置、3はキー
・ボード等の入力装置、4は英語辞書メモリ、5は日本
語辞書メモリ、6はドイツ語辞書メモリ、7はフランス
語辞書メモリ、8はワーク・エリア、9はプログラム格
納メモリを表わしてhる。各言語の辞書メモリには、第
2図に示す様な形式の辞書が格納されている。つまシ、
見出しatキーとして、品詞名数、品詞基、不規則変化
形、佳(ドイツ語及びフランス語における名詞の場合)
、表意コード(表意コードについては後述する)、イデ
ィオム数、イディオム・パターンが格納されている。品
詞名数は、最初のG)の記号の後に記述される。これは
同じ見出し語で複数個の見出し@を持つものも記述でき
るように設けられたもので、最小値はiである。品詞基
は、m2番目以降のQ)の記号の陵に、表1で示されて
bる品詞コードに基づいて記述される。Hereinafter, the present invention will be explained in detail with reference to Examples. 1st
The figure shows an electronic dictionary according to an embodiment of the present invention. In FIG. 1, 1 is a processor, 2 is a display device, 3 is an input device such as a keyboard, 4 is an English dictionary memory, 5 is a Japanese dictionary memory, 6 is a German dictionary memory, 7 is a French dictionary memory, 8 9 represents a work area and h represents a program storage memory. The dictionary memory for each language stores a dictionary in the format shown in FIG. Tsumashi,
Heading at key: part-of-speech name, part-of-speech base, irregular declension, ka (for nouns in German and French)
, an ideographic code (the ideographic code will be described later), the number of idioms, and an idiom pattern are stored. The part-of-speech name is written after the first G) symbol. This is provided so that it is possible to describe the same entry word with multiple headings @, and the minimum value is i. The part-of-speech base is written in the column of the symbol Q) from the m2th onward based on the part-of-speech code b shown in Table 1.
品詞基が動詞である時、その見出し語が、過去形、過去
分詞形において不規則変化する場合には、Q)の記号を
置き、過去形、過去分詞形をこの順に間ヲ′、/で区切
り記述する。また、品詞基が名詞で、複数形において不
規則変化する場合には、Q)の記号を置き、その後に複
数形を記入する。When the part of speech base is a verb, if the headword changes irregularly in the past tense and past participle form, place the symbol Q) and change the past tense and past participle form in this order with spaces wo' and /. Write in sections. If the part of speech base is a noun and the plural form changes irregularly, place the symbol Q) and write the plural form after it.
不規則変化しない場合は、(Dの記号は省略し、過去形
、過去完了形または複数形は記述しない。If it does not change irregularly, the symbol (D) is omitted and the past tense, past perfect tense, or plural form is not written.
ドイツ語、7ランス語の名詞には、男性、中性、女性と
いうような性別があるため、ドイツ語辞書メモリ6及び
フランス語辞書メモリ7内の辞書において品詞基が名詞
の場合には、0)の記号t−iき、その後に表2に示さ
れている性別コードを記入する。性の区別が無い場合に
は、■)の記号は省略する。品詞基に対応した意味は、
表3に示したような表意コードを用いて行なわれ、θ)
の記号の後に記述される。複数個の意味がある場合には
、0+ の記号の後に一つの表意コードを書くと表
1
表 2
いう記述パターンを繰シ返す。品詞の数が複数圓ある多
品詞語の場合には、■品詞名の部分から次に、□イディ
オムの記述に関して説明する。イデブオムは、そのイデ
ィオムを構成している単語の内のどれか一つを見出し語
とし、その内部に、登録される。イディオム数は、最初
の■)の記号の後に書かれる。登録するイディオムが無
い場合は、イディオム数は0とする。故に、イディオム
数の最小値は0となる。イディオム・パターン(イディ
オムの形]は、二番目以降のGφの記号の後に記述する
。ただし、イディオム・パターンは、アルファベット、
もしくは、カタカナで記述し・、語と語の間は1ケの空
白で区切シ、さらに、イディオム・パターン内の見出し
語に相当する部分は、見出し語をすべて記述する代わシ
にゝ水′を記入する。イディオム・パターンに対応する
意味は、G)の記号を置き、その後に表意コードを用い
て記述される。一つのイディオム・パターンに対して複
alの意味がある場合には、qφの記号の後に表意コー
ドを一つ書くという記述パターンを繰シ返す。登録イデ
ィオムが複数岡ある場合は、上述の(9イデイオム・パ
ターン以降の部分を繰シ返して記述する。そして、最後
に、終了を示す記号■を置く。German and 7 Reims nouns have genders such as masculine, neuter, and feminine, so if the part of speech base is noun in the dictionaries in German dictionary memory 6 and French dictionary memory 7, 0) Enter the symbol ti followed by the gender code shown in Table 2. If there is no gender distinction, omit the symbol ■). The meaning corresponding to the part of speech base is
This is done using ideographic codes as shown in Table 3, and θ)
It is written after the symbol. If there are multiple meanings, write one ideographic code after the 0+ symbol to express it.
1 Repeat the description pattern shown in Table 2. In the case of a multi-part-of-speech word with multiple parts of speech, we will explain the part-of-speech name part, then the □ idiom description. An idiom is registered with one of the words making up the idiom as a headword. The idiom number is written after the first ■) symbol. If there is no idiom to be registered, the number of idioms is set to 0. Therefore, the minimum value of the number of idioms is 0. The idiom pattern (form of the idiom) is written after the second and subsequent Gφ symbols.However, the idiom pattern must be written in the alphabet,
Alternatively, write in katakana, separate each word with a space, and for the part of the idiom pattern that corresponds to a headword, write ``water'' instead of writing the entire headword. Fill out. The meaning corresponding to an idiom pattern is written using the symbol G) followed by an ideographic code. If an idiom pattern has multiple meanings, the description pattern of writing one ideographic code after the symbol qφ is repeated. If there are multiple registered idioms, repeat the above (9 idiom pattern and subsequent parts). Then, at the end, put a symbol ■ to indicate the end.
次に、表3に示す表意コードについて詳述する。Next, the ideographic codes shown in Table 3 will be explained in detail.
表意コードとは各言語に共通な意味概念を表わすための
2進bit列であシ、表3の場合、16bitの長さを
有している。従って、この表意コードで2111 fr
IA(約6万4千個)の意味概念を表わすことができる
。従来の方式では、意味の記述を直接第2言語の文字(
JIs、ASCII、EBCDICコード等)で行なっ
ていたため、意味を記述している文、熟飴、または単語
の内の1文字を記入するだけでも7〜16bitを費や
し、非常にメモリ効率が悪かった。しかし、本方式によ
れば、16bitだけで・ も約6万4千個の意味概念
を記述することができ、メモリ効率を改善できる。また
、各言語に共通な意味概念をコード化することによって
、一つの言語の辞書を色々な言語の翻訳に用いることを
可能にしている。つまシ、従来の方式による第1言語か
ら第2言語に翻訳するための辞書は、第2言語表
3
から第1言語の翻訳には使用しにくいし、またさらに、
第1d語をその他の言語に翻訳する際には、その辞書は
全く使用できない。従って、従来の方式によるとnl[
1il(nは2以上の自然数)の言語間の翻訳には%
2XflCt 個の辞書が必要となるが、本方式による
とn個の辞書しか必要としない。従って、辞書作成の手
間が省けるといった利点が生じる。さて、表3において
、’ 1010000000000011 ’という表
意コードの意味概念は、1球)となっているが、(球)
という意味はこの表意コードの指す意味概念を日本語で
記述するとゝ球′になるということであシ、日本語の単
語によって決まる文字情報をコード化しているのではな
い。との表意コードは、あくまでも、言語例依存しない
共通な意味概念を表わすものであシ、物そのものの持つ
意味概念構造によって決定されるものである。An ideographic code is a binary bit string for expressing a semantic concept common to each language, and in the case of Table 3, it has a length of 16 bits. Therefore, with this ideographic code, 2111 fr
It can represent IA (approximately 64,000 semantic concepts). In the conventional method, the meaning is directly written in the characters of the second language (
JIs, ASCII, EBCDIC code, etc.), it took 7 to 16 bits to write just one character of a sentence, candy, or word that describes the meaning, resulting in very poor memory efficiency. However, according to this method, approximately 64,000 semantic concepts can be described using only 16 bits, and memory efficiency can be improved. Furthermore, by encoding the semantic concepts common to each language, it is possible to use a dictionary for one language for translation into various languages. Tsumashi, a dictionary for translating from a first language to a second language using the conventional method is a second language table.
It is difficult to use for translation from 3 to the first language, and furthermore,
The dictionary cannot be used at all when translating the 1d word into other languages. Therefore, according to the conventional method, nl [
% for translation between languages of 1il (n is a natural number greater than or equal to 2)
2XflCt dictionaries are required, but according to this method, only n dictionaries are required. Therefore, there is an advantage that the effort of creating a dictionary can be saved. Now, in Table 3, the semantic concept of the ideographic code '1010000000000011' is 1 sphere), but (sphere)
What this means is that the meaning concept pointed to by this ideographic code is written in Japanese as 'ball', and it does not encode character information determined by Japanese words. The ideographic code represents a common semantic concept independent of language examples, and is determined by the semantic conceptual structure of the thing itself.
また、表意コードにおけるコード化について、表4に示
すように同類の意味概念を表わす表意コードを近い場所
C符号間距離の小さいことをこむでは近いと表現する)
に配置するという方法も考えられる。このように配置す
ると、類語の検索が容易になる。In addition, regarding coding in ideographic codes, as shown in Table 4, ideographic codes expressing similar semantic concepts are expressed as "close" if the distance between the codes is small.
Another possible method is to place it in This arrangement makes it easier to search for synonyms.
第3図は、英語辞書メモリ4内の辞書の見出し語ゝpl
ace/ の内容を示したものである。Figure 3 shows the entry words of the dictionary in the English dictionary memory 4.
This shows the contents of ace/.
ゝplace / の場合、品詞名として名詞と動詞の
表 4
2つがあるので、品詞基数は2となシ、■21r。In the case of ゝplace /, there are two part-of-speech names, a noun and a verb, so the part-of-speech base is 2, ■21r.
最初に記述する。次の[F]の後に名詞を示すコードゝ
oooo ’が書かれる。この場合、不規則変化はしな
いし、英語であるため、性別も存在しないので、■、q
)の記号は省略されている。次の■弛10100000
00000010は意味概念の(場所)を意味しておシ
、その次のe
1010000000000100は、二つ目の意味が
(地位)であることを示している。ここで名詞の部分の
記述は終了し、次に動詞の部分の記述が始まる。■す0
010は、品詞名が動詞であることを意味する。ここに
おいても、不規則変化はしないし、動詞であるたω、■
参の記号は省略されている。次の■す10100000
00000110は、動詞の意味が(置く)という意味
であることを示している。(m以降は、イディオム記述
の部分である。この場合、イディオムがtake pl
aceとin place of )2ツであるため、
最初に6〕2と書かれる。次の(81ake *は、イ
ディオムの形を示すイディオム、パターン’ take
place /を記述したものである。Xplace
’の部分は、’Place/が見出し語であるため、
′*′で置き換えられている。次の■toiooooo
oooooi1iは(起こる)という意味があることを
示している。Describe it first. After the next [F], a code 'oooo' indicating a noun is written. In this case, there are no irregular changes, and since it is English, there is no gender, so ■, q
) symbols are omitted. Next ■ Relaxation 10100000
00000010 means (location) of the semantic concept, and the next e 1010000000000100 indicates that the second meaning is (position). At this point, the description of the noun part ends, and next the description of the verb part begins. ■su0
010 means that the part of speech name is a verb. Here too, there is no irregular change, and the verb is taω, ■
Reference symbols are omitted. Next 10100000
00000110 indicates that the meaning of the verb is (to put). (The part after m is the idiom description part. In this case, the idiom is take pl
ace and in place of), so
First it is written as 6]2. Next (81ake * is an idiom, pattern that indicates the shape of an idiom.
This is a description of place /. Xplace
' part is 'Place/ is a headword, so
It has been replaced with ``*''. Next ■toioooo
oooooi1i indicates that it has the meaning of (happening).
次の■in * ofは、イディオム・パターンが’
in plBce of tであるということを意味し
ている。次のGす1101111111111111は
そのイディオムの意味が(代わシに)という意味である
ことを示している。最後の6)は終了を意味する。The following ■in * of is an idiom pattern '
This means that it is in plBce of t. The following G 1101111111111111 shows that the meaning of the idiom is (instead of). The last 6) means the end.
以上のようにしてゝpHce ’ という単語に関する
辞書登録は行なわれている。他の言語の辞書も同様にし
て構成されている。なお、日本語辞書のイディオム部分
には、複合語、連Mなどが書かれる。As described above, the dictionary registration of the word pHce' is performed. Dictionaries for other languages are constructed in a similar manner. Note that compound words, ren M, etc. are written in the idiom section of the Japanese dictionary.
第3図に示した英語辞書は、英語辞書メモリ4内ではゝ
p13ce ’を見出し語とし、可変長データとして格
納されている。従って、ここでは、(Eり。The English dictionary shown in FIG. 3 is stored as variable length data in the English dictionary memory 4 with p13ce' as the headword. Therefore, here, (Eri.
j)、・・・・・・、GI?)の記号は、区切り記号と
して働き、各種データの識別を可能にしている。j),...,GI? ) symbols act as delimiters and make it possible to identify various types of data.
さて、次に、第1図に示す電子辞書の動作を第5図の7
0−・チャートを参照しながら説明する。Now, next, let us explain the operation of the electronic dictionary shown in Fig. 1 at 7 in Fig. 5.
0-・Explain while referring to the chart.
まず、ディスプレイ装置2の画面上に第6図に示される
初期画面が表示される。そこで、翻訳しようとする言語
の番号を5OUR,CFの欄にキー・インし、何語に翻
訳したいかを番号で選び、TAB、GETの欄にキー・
インする。その情報をもとにどの辞書が使われるかが決
定される。翻訳したい単語またはイディオムをキー・イ
ンしてリターン・キーを押下すると、その単語を5OU
R,CBの欄で指定した言語の辞書から検索し、その見
出語あるいはイディオム・パターンのところに格納され
ている情報をすべて、ワーク・エリア9に転写する。次
に、その中から表意コードを読み出し、第5図100に
おいて指定した言語、つまシ、TABGET欄にキー・
インした言語の辞書メモリを検索し、その表意コードを
持つ見出し語及びイディオム・パターンを見つけ出し、
これを訳語として、ワーク・エリア9に転写する。再び
、キー・ボードによシ駅語の言語を指定することによっ
て、ワーク・エリアから指定通、シの訳語及び102で
得られた情報がディスプレイ族#9の画面上に表示され
る。First, an initial screen shown in FIG. 6 is displayed on the screen of the display device 2. Then, key in the number of the language you want to translate into the 5OUR, CF fields, select the language you want to translate into by number, and key in the TAB, GET fields.
In. Based on that information, it is determined which dictionary will be used. Key in the word or idiom you want to translate and press the return key to translate that word into 5OUs.
A search is made from the dictionary of the language specified in the R and CB columns, and all information stored in the headword or idiom pattern is transferred to the work area 9. Next, read out the ideographic code from it and enter the key in the language, tab, and TABGET fields specified in 100 of FIG.
Search the dictionary memory of the loaded language, find the headword and idiom pattern with the ideographic code,
This is transferred to work area 9 as a translated word. By again specifying the language of shi station language on the keyboard, the specified language, the translation of shi, and the information obtained in step 102 are displayed on the screen of display group #9 from the work area.
次に、第5図101の辞書検索の部分について詳述する
。検索入力として、単語とイディオムの2樵類あるが、
最初に、単語が入力さ稟た場合について第7図の70−
・チャートを参照しながら説明する。まず、入力された
単語が辞書にあるか否かを検索しく201) 、辞書に
見出し語として格納されていない場合は、エラーである
ので、エラー処理へ進む(208)。見出し語として格
納されている場合は、その見出し胎内の情報をすべてワ
ーク・エリア8中のバッファに読み込む(202)。Next, the dictionary search portion of FIG. 5 101 will be described in detail. There are two types of search input: words and idioms.
First, let's consider the case where a word is entered at 70-
・Explain while referring to the chart. First, it is searched to see if the input word is in the dictionary (201). If it is not stored as a headword in the dictionary, it is an error and the process proceeds to error processing (208). If it is stored as a headword, all information within the headword is read into a buffer in the work area 8 (202).
次にバッファの先頭からデータを順に読んで行く。Next, data is read sequentially from the beginning of the buffer.
バッファの先頭にQりの記号が無ければ(203)、そ
れはエラーであるため、エラー処理へ進む(209)。If there is no Q sign at the beginning of the buffer (203), this is an error, and the process proceeds to error processing (209).
(3の記号が先頭にある場合は、バッファ内の次の数字
が品詞名数であるので、品詞名数として読み込み(20
9) 、品詞名数カウンターC1に代入する(205)
。C1が0の場合は、イディオム部分の読み込みプロセ
ス■のところヘジャンプする。C1が0でない場合は、
バッファ内の次の区切シ記号を読み込み(206)、そ
れが■でなければ、エラーであるから、エラー処理へ進
む(210)。区切シ記号d−eである時は、バッファ
内の次のb目動が品詞コードであるため、それを読み込
み、品詞名に変えて、ワーク・エリアに書き込む(20
7)。バッファ内の次の区切シ記号が■である場合は(
211) 、まず、品詞名が名詞であるか否かを判断し
く212) 、名詞ならば、この■の記号と次の区切シ
記号とにはさまれたバッファ内の文字列を複数形として
読み込み、ワーク・エリアに書き込む(213)。もし
、品詞名が動詞ならば(214)、との■の記号と次の
区切シ記号ではさまれたバッファ内の文字列を過去形、
過去分詞形として読み込み、ワーク・エリアに書き込む
(215)。ただし、過去形と過去完了形はゝ、′によ
って区切られておシ、前半が過去形、後半が過去分詞形
である。この不規則変化形の読み込みが終了した後は、
バッファ内の次の区切り記号を読み込みJj)であるか
否かを判断する(216)。ただし%(Dの記号が存在
していない場合は、不規則変化形の読み込みの部分はス
キップし、直接、今ωの判断のところに進む。(If the symbol 3 is at the beginning, the next number in the buffer is the number of part-of-speech names, so it is read as the number of part-of-speech names (20
9) Assign to part-of-speech name counter C1 (205)
. If C1 is 0, jump to the idiom part reading process (2). If C1 is not 0,
The next delimiter symbol in the buffer is read (206), and if it is not ■, it is an error and the process proceeds to error processing (210). When the delimiter symbol is d-e, the next b movement in the buffer is a part-of-speech code, so read it, change it to a part-of-speech name, and write it to the work area (20
7). If the next delimiter in the buffer is ■, then (
211) First, determine whether the part of speech name is a noun or not.212) If it is a noun, read the string in the buffer between this ■ symbol and the next delimiter symbol as a plural. , is written to the work area (213). If the part-of-speech name is a verb (214), the character string in the buffer sandwiched between the ■ symbol and the next delimiter symbol is past tense,
It is read as a past participle form and written to the work area (215). However, the past tense and past perfect tense are separated by ゝ, ', and the first half is the past tense and the second half is the past participle. After loading this irregular form,
The next delimiter in the buffer is read and it is determined whether it is Jj) (216). However, if the symbol %(D) does not exist, skip the part of reading the irregular inflection and proceed directly to the judgment of ω.
区切シ記号が(すである時は、性別コードを読み込み、
文字列になおし、ワーク・エリアに書き込む(217)
。区切り記号が(ゆでない時は、次のステップに進む。When the delimiter is (, read the gender code,
Convert to character string and write to work area (217)
. If the delimiter is (not boiled), proceed to the next step.
次のステップでは、バッファ内の次の区切り記号が■で
あるか否かを判断する(218)。区切シ記号が(すで
ない場合は、エラーであり、エラー処理に進む(219
)。区切り記号がけりである時は、次の2進bit列が
表意コードであるため、それを読み込み、ワーク中エリ
アに書き込む。バッファ内の次の区切シ記号が(EDで
ある場合ケ、バッファ内の次の2進bit列も表意コー
ドであるため、表意コードとして読み込み、ワーク・エ
リアに書き込む(220)。区切り記号が10である間
は、表意コードとして読み込み、ワーク・エリアVcm
!!:き込むというプロセスを繰シ返す。バッファ内の
次の区切シ記号が(Dでなくなると(221) 、ルー
プから抜は出し、カウンターCIの1直を一つ減らしく
222)、第7図囚の■のところに戻る。そして、上述
した単語情報取得のプロセスをC1がOKなるまで繰シ
返す。C1が0になったら、イディオム読み込みのプロ
セス■のところへ進む。The next step is to determine whether the next delimiter in the buffer is a ■ (218). If the delimiter is not (, it is an error and the process proceeds to error processing (219).
). When the delimiter is ``k'', the next binary bit string is an ideographic code, so it is read and written to the area under work. If the next delimiter in the buffer is (ED), the next binary bit string in the buffer is also an ideographic code, so it is read as an ideographic code and written to the work area (220). , it is read as an ideographic code and the work area Vcm
! ! : Repeat the process of loading. When the next delimiter symbol in the buffer is no longer D (221), the loop is exited and the counter CI is decremented by one (222), and the process returns to ◯ in Figure 7. Then, the above-described word information acquisition process is repeated until C1 is OK. When C1 becomes 0, proceed to the idiom reading process (■).
さて、次のステップ■よシ、イディオム読み込みのプロ
セスにはいる。まず、バッファ内の次の区切り記号を読
み込み(230)、それが燻すでない時は、エラーであ
るため、エラー処理に進み(234) 、区切シ記号が
優すの時は、バッファ内の次の数値がイディオム数であ
るので、イディオム数として読み込みr231)、イデ
ィオム数カウンターC2に代入する(232)。C2が
0でなければ(233) 、バッファ内の次の区切シ記
号を読み込み、区切シ記号が0であるか否かを判断する
(235 )。C2=0ならば、■に進み、単語の場合
の辞書検索は終了する。読み込んだ区切り記号が■でな
い時は、エラーでおシ、エラー処理へ進む(243)。Now, let's move on to the next step, the process of loading the idiom. First, the next delimiter in the buffer is read (230), and if it is not cleared, it is an error, so proceed to error processing (234), and when the delimiter is good, read the next delimiter in the buffer. Since the numerical value is the number of idioms, it is read as the number of idioms (r231) and assigned to the number of idioms counter C2 (232). If C2 is not 0 (233), the next delimiter in the buffer is read and it is determined whether the delimiter is 0 (235). If C2=0, the process proceeds to ■, and the dictionary search in the case of a word ends. If the read delimiter is not ■, an error occurs and the process proceeds to error processing (243).
区切p記号が■である時は、との区切シ記号■と次の区
切り記号にはさまれた文字列が、イディオム・パターン
であるため、イディオム・パターンとして読み込み(2
36)、そのパターン中の記号*の部分を見出し語で置
き換え(237) 、さらに、それをワーク・エリアに
書き込む(238)。バッファ内の次の区切シ記号が■
でない場合(239) 、エラーであるため、エラー処
理へ進む(244)。区切シ記号が61である場合は、
次の2進bit列が表意コードであるため、それを表意
コードとして読み込み、ワーク・エリアに書き込む(2
40)。バッファ内の次の区切シ記号が(少である場合
は(241)、バッファ内の次の2進bit列も表意コ
ードであるため、それを表意コードとして読み込み、ワ
ーク・エリアに誓き込む。バッファ内から読み出して来
る区切シ記号がGαである間は、この表意コードとして
読み込み、ワーク4・エリアに書き込むというプロセス
を繰シ返し、読み出して来る区切り記号が唖すてなくな
ったならば、ループから抜は出し、イディオム数カウン
ターC2の値を一つ減らす(242)。そして、第7図
■における■に進み、C2の値が0になるまで、上述の
イディオム読み込みのプロセスを続ける。C2の値が0
になったならば、単語の場合の辞書検索の作業を終了す
る。When the delimiter p symbol is ■, the character string sandwiched between the delimiter ■ and the next delimiter is an idiom pattern, so it is read as an idiom pattern (2
36), replaces the symbol * part in the pattern with a headword (237), and writes it in the work area (238). The next delimiter in the buffer is ■
If not (239), it is an error and the process proceeds to error processing (244). If the delimiter is 61,
Since the next binary bit string is an ideographic code, it is read as an ideographic code and written to the work area (2
40). If the next delimiter in the buffer is less than (241), the next binary bit string in the buffer is also an ideographic code, so it is read as an ideographic code and inserted into the work area. While the delimiter read from the buffer is Gα, the process of reading it as this ideographic code and writing it to the work 4 area is repeated, and when the delimiter read out is no longer used, the loop starts. , and decrement the value of the idiom number counter C2 by one (242).Then, proceed to ■ in Figure 7 and continue the process of reading the idioms described above until the value of C2 becomes 0. value is 0
When the word is reached, the dictionary search for the word is completed.
検索入力としてイディオムが入力された場合の検索方法
を第8図の70−・チャートを参照しながら説明する。A search method when an idiom is input as a search input will be explained with reference to chart 70-- in FIG.
まず、入力されたイディオムを空白を区切り記号として
単語ごとに分解し、配列WI(りに格納する(301)
。次に、入力されたイディオムの語数?N1に代入する
(302)。入力イディオムの単語用カウンター五に1
を1代入しく303)、1が入力されたイディオムの語
数N1よシ大きいか否かを判断する(304)。大きい
場合は、辞書内に入力されたイディオムに相当するイデ
ィオムが存在していないということであり、エラー処理
に進む(309)。■がN1よυ大きくない場合は、入
力イディオム中五番目の単語、すなわち、WI(わが見
出し語として辞書内に格納されているか否かを検索する
(305)。辞書内に見出し語として存在しない場合は
。(306)、■に進み、五の値を一つ増加させて■へ
戻る。辞書内に見出し語としてWI(1)が登録されて
いる場合は、その見出し語の内容をすべてワーク・エリ
ア8内のバッファに読み込む(307)。そして、バッ
ファ内から区切シ記号を読み(308)、区切シ記号が
(すになるまで、バッファ内の区切シ記号を読み続ける
。唖すの区切シ記号を見つけたならば(310)、バッ
ファ内のその次にはいっている数値が、イディオム数で
あるので、イディオム数として読み込み(311)、イ
ディオム数カウンターCに代入する(312)。次に、
イディオム数カウンターCが0であるか否かを判断しく
313) 、0であるならば、■に進み、その値を一つ
増加させて、■へ戻る。イディオム数カウンターCがO
でないならば、バッファ内の次の区切り記号を読み込み
、それが■でなければ(314)、エラーであるため、
エラー処理へ進む(319)。区切シ記号が■であるな
らば、バッファ内のこの燻すの記号と次の区切シ記号で
はさまれた文字列がイディオム・パターンであるため、
それをイディオム・パターンとして読み込み(315)
、単語ごとに分割して、配列WU)に格納する(316
)。そして、さらに、その単語数tN2に代入する(3
17)。First, the input idiom is broken down into words using spaces as delimiters, and stored in the array WI (301).
. Next, the number of words in the idiom entered? Substitute it into N1 (302). Input idiom word counter 1 in 5
is substituted with 1 (303), and it is determined whether 1 is greater than the number of words N1 of the input idiom (304). If it is larger, it means that there is no idiom corresponding to the input idiom in the dictionary, and the process proceeds to error processing (309). If ■ is not υ larger than N1, search for the fifth word in the input idiom, that is, WI (it is stored in the dictionary as a headword (305).It does not exist as a headword in the dictionary. If (306), proceed to ■, increase the value of 5 by one, and return to ■.If WI (1) is registered as a headword in the dictionary, all contents of that headword are processed.・Read into the buffer in area 8 (307).Then, read the delimiter symbol from within the buffer (308), and continue reading the delimiter symbol in the buffer until the delimiter symbol becomes (. If the ``S'' symbol is found (310), the next number in the buffer is the idiom number, so it is read as the idiom number (311) and assigned to the idiom number counter C (312).Next, ,
It is determined whether the idiom number counter C is 0 or not (313). If it is 0, the process proceeds to ■, increments the value by one, and returns to ■. Idiom number counter C is O
If not, read the next delimiter in the buffer, and if it is not ■ (314), it is an error, so
Proceed to error processing (319). If the delimiter is ■, the string between this symbol and the next delimiter in the buffer is an idiom pattern, so
Load it as an idiom pattern (315)
, and store it in the array WU) (316
). Then, further substitute the number of words tN2 (3
17).
次に、入力イディオムの語数N1と今、着目しているイ
ディオム・パターンの語数N2=を比較しく318)、
等しくなければ、■に進み、Cの値を一つ減らして(3
26)■へ戻り、新しいイディオム・パターンとの比較
を始める。N1とN2が等しければ■(第8図■)に進
み、単語用カウンターjに1を代入する(320)。次
に、W(j)に格納されている単語が記号ゝ*′に等し
いか否かを判断しく321) 、もし等しければ、W(
j)に見出し語、つまり、WI(りを代入しなおす(3
22)’。そして、WIO)に格納されている単語とW
O)に格納されている単語が等しいか否かを判断しく3
23) 、等しくなければ、イディオムの形が違うとい
うことであるから、■に進み、イディオム数カランチ−
〇の値を一つ減らして、■に戻シ、次のイディオム・パ
ターンを読み込み、比較を始める。もし、wi(jtと
w<j>が等しければ、jがNlより大きいか否かを判
断しく324) 、J力5N1よシ小さければ、jの値
を一つ増加させ(325) 、w<j>と記号ゝ*lと
の比較のステップのところまで戻シ、上述の単語単位で
のマツチングのプロセスを繰シ返す。j≧N1になった
ならば、それは、入力イディオムの形と今、着目してい
るイディオムの形が一致したことを意味しておシ、従っ
て、■へ進み、意味コード読み込みのプロセスにはいる
。■では、まず、バッファ内の次の区切シ記号全読み込
み、それが、(すであるか否かを判断しく327)、(
すでない場合はエラーであるため、エラー処理に進む(
328)。区切シ記号が(すである場合は、次の2進b
it列が表意コードであるので、それを読み込み、ワー
ク・エリアに書き込む(329)。Next, compare the number of words N1 of the input idiom with the number of words N2 of the idiom pattern you are currently focusing on.318)
If they are not equal, proceed to ■ and reduce the value of C by one (3
26) Return to ■ and start comparing with the new idiom pattern. If N1 and N2 are equal, the process proceeds to (■) (Fig. 8), and 1 is assigned to the word counter j (320). Next, it is determined whether the word stored in W(j) is equal to the symbol ゝ*'321), and if they are equal, W(
Resubstitute the headword, that is, WI(ri) for j) (3
22)'. Then, the words stored in WIO) and W
I want to determine whether the words stored in O) are equal or not.3
23) If they are not equal, the shapes of the idioms are different, so proceed to ■ and do the idiom number crunch.
Decrease the value of 〇 by one, return it to ■, load the next idiom pattern, and start comparing. If wi (if jt and w<j> are equal, determine whether j is greater than Nl 324), and if J force is smaller than 5N1, increase the value of j by one (325), and w< Return to the step of comparing j> with the symbol *l, and repeat the word-by-word matching process described above. If j≧N1, it means that the shape of the input idiom and the shape of the idiom we are currently focusing on match, so we proceed to ■ and enter the process of reading the semantic code. . In ■, first read all of the next delimiter symbol in the buffer and judge whether it is (327), (
If not, it is an error and proceed to error handling (
328). If the delimiter is (, then the next binary b
Since the it column is an ideographic code, it is read and written to the work area (329).
さらに、バッファ内の次の区切シ記号を読み込み、それ
が(すならば(330)、バッファ内の次の2進bit
列も表意コードであシ、それを読み込んでワーク・エリ
アに書き込む。バッファ内から読み出して来る区切シ記
号が徳すである間は、この表意コードを読み、ワーク・
エリアに磐き込むというプロセスを繰シ返し、読み出し
て来る区切シ記号が■でなくなったならば、このループ
から抜は出し、イディオムの場合の辞書検索の作業を終
了する。Additionally, reads the next delimiter in the buffer, and if it is (330), then the next binary bit in the buffer
The columns are also ideographic codes, read them and write them to the work area. While the delimiter read from the buffer is valid, this ideographic code is read and the work
The process of filling the area is repeated, and when the delimiter symbol read out is no longer a ■, the loop is exited and the dictionary search for idioms is completed.
次に、第5図102の表意コードから訳語を検索する部
分につき第9図の70−・チャー[i−参照しながら詳
述する。ここでは、指定言語(出力言語)の辞書に格納
されている表意コードすべてについて求める表意コード
であるか比較するという方法をとる。まず、調べようと
する表意コードを変数COIに代入する(401)。そ
の次に、1を見出し語カウンタ−iに代入する(402
)。そして、iが辞書に登録されている見出し語の総数
より大きいか否かを判断しく403) 、大きかったら
■に進み検索を終了する。もし、iが見出し語線数より
小さければ、辞書のi番目の見出し語の内容をすべてバ
ッファに読み込む(404)。次に、バッファから区切
シ記号を読み込み、読んだ区切シ記号が(gであるなら
ば(405)■に進み、イディオム部の検索のプロセス
にはいる。区切シ記号が■でなければ、”その区切シ記
号が(Bであるか否かを判断しく406)eでなければ
再び、区切シ記号読み込みのところに戻シ、区切シ記号
と燻り、(Dの比較を繰り返す。もし、読み込んだ区切
シ記号か3)であるならば、バッファ内の次の2進bi
t列が表意コードである故、それfr:読み込み変数C
O2に代入する(4073゜次に、検索対象の表意コー
ドのはいっているCOIと今、着目している表意コード
のはいっているCO2の比較を行ない、等しくない場合
は、再び、区切シ記号読み込みのところに戻シ、上述の
表意コード比較のプロセスをCOIとCO2か等しくな
るまで繰シ返す。COlとCO2が等しくなった時は、
その見出し語が求める表意コードを持っているというこ
とを意味しておシ、従って、見出し語を訳語としてワー
ク・エリアに書き込む(4093゜その次のイディオム
部の検索のステップに進むために、区切シ記号が1りに
なるまでバッファ内の区切シ記号を読み進めて行く。区
切シ記号が■になったならば(410) 、バッファ内
の次の区切り記号を読み込み、それが0であるか否かを
判断する(411)。その区切シ記号が0である時は、
その見出し語の内容は、すべてチェックしたという意味
であるから、iの値を一つ増加させて(419)■に戻
シ、新しい見出し語の内容について検索を開始する。区
切り記号が■でない場合は、その区切シ記号が()であ
るか否か全判断し、■である時は、バッファ内のこの(
Dと次の区切シ記号ではさまれた文字列がイディオム・
パターンであるから、それ?読み込み、変数IDに代入
する(413)。次のステップでは、区切シ記号がぼり
であるか否かを判断しく414)、区切シ記号力0)で
ない時は、■に戻シ、バッファ内の次の区切り記号全貌
み始める。区切り記号が(すである時は、バッファ内の
次の2進bit列が表意コードであるので、それ全読み
込み、変数CO2に代入する(415)。coiとCO
2を比較しく416) 、等しくない場合は■に戻り、
バッファ内の次の区切シ記号を読み始める。COIとC
O2が等しい場合は、今、IDに格納されているイディ
オム・パターン力へ求める表意コードを持っているとい
うこと全意味するので、ID内の記号ゝ* ′を見出し
語に置き換え(417)訳語としてワーク・エリアに書
色込む(41B)。その後、■ム部を検索し続ける。読
み込んだ区切シ記号が(Dとなυ、しかも、lの直を1
だけ増加させた結果、i〉見出し語総数となれば、表意
コードから訳語を検索するプロセスは終了する。Next, the part of searching for a translated word from the ideographic code 102 in FIG. 5 will be described in detail with reference to 70- and char[i- in FIG. 9. Here, a method is used in which all ideographic codes stored in the dictionary of the specified language (output language) are compared to see if they are the desired ideographic code. First, the ideographic code to be examined is assigned to the variable COI (401). Next, 1 is assigned to headword counter-i (402
). Then, it is determined whether or not i is greater than the total number of headwords registered in the dictionary (403), and if it is, the process proceeds to ■ and ends the search. If i is smaller than the number of headword lines, all contents of the i-th headword in the dictionary are read into the buffer (404). Next, read the separator symbol from the buffer, and if the read separator symbol is (g), proceed to (405)■ and enter the process of searching for the idiom part.If the separator symbol is not ■, then " Determine whether the delimiter is (B) or not (406) If it is not e, go back to reading the delimiter, read the delimiter, and repeat the comparison with (D). If the delimiter symbol or 3), then the next binary bi in the buffer
Since the t column is an ideographic code, it fr: read variable C
Assign to O2 (4073゜Next, compare the COI containing the ideographic code to be searched with the CO2 containing the ideographic code you are currently focusing on, and if they are not equal, read the delimiter symbol again. Go back to step 1 and repeat the process of ideographic code comparison described above until COI and CO2 are equal. When CO1 and CO2 are equal,
This means that the headword has the desired ideographic code, so the headword is written as a translation into the work area (4093°). Read the delimiters in the buffer until the delimiter becomes 1. When the delimiter becomes ■ (410), read the next delimiter in the buffer and check if it is 0. Determine whether or not (411).If the delimiter is 0,
This means that all the contents of the headword have been checked, so the value of i is increased by one and the process returns to (419) (419), and a search is started for the contents of the new headword. If the delimiter is not ■, it is fully determined whether the delimiter is (), and if it is, this () in the buffer is
The string between D and the next delimiter is an idiom.
Is that because it's a pattern? Read and assign to variable ID (413). In the next step, it is determined whether or not the delimiter is a stream (414), and if the delimiter is not 0), the process returns to ① and starts reading the entire next delimiter in the buffer. When the delimiter is (, the next binary bit string in the buffer is an ideographic code, so read it all and assign it to variable CO2 (415). coi and CO
Compare 2 (416), and if they are not equal, return to ■,
Begin reading the next delimiter in the buffer. COI and C
If O2 is equal, it means that you have the ideographic code required for the idiom/pattern force currently stored in the ID, so replace the symbol ゜*' in the ID with a headword (417) as a translated word. Color the work area (41B). After that, continue searching for the ■mu section. The read delimiter is (D), υ, and the literal of l is 1.
If the total number of entry words becomes i>, the process of searching for translated words from the ideographic code ends.
次に、第1図に示した電子辞書の検索動作の具体列につ
き、第10図を参照しながら説明する。Next, a specific sequence of search operations for the electronic dictionary shown in FIG. 1 will be explained with reference to FIG. 10.
第10図は、第1図の各言語用の辞書メモリ4゜5.6
.7内の辞書の内容の一部分を示したものであシ、10
は英語辞書、11は日本語辞書、12はドイツ語辞書、
13はフランス語辞書を表わしている。各辞書内の口で
囲まれた文字列は見出し語であり、各区切り記号及びコ
ードの意味は、第2図及び表1.2.3に示されるとお
シである。Figure 10 shows the dictionary memory 4゜5.6 for each language in Figure 1.
.. It shows a part of the contents of the dictionary in 7, 10
is an English dictionary, 11 is a Japanese dictionary, 12 is a German dictionary,
13 represents a French dictionary. The character strings surrounded by squares in each dictionary are headwords, and the meanings of each delimiter and code are shown in FIG. 2 and Table 1.2.3.
今、英語を入力言語とし、日本語、ドイツ語、フランス
語を出力言語に指定し、入力単語として’ ball
/という英単語全入力したとする。すると、上述したプ
ロセス(第7図のフロー・チャート参照]によシ、見出
し語ゝ1)all/の内容がワーク・エリアに取り込ま
れる。つまり tb、ll/の名詞形における表意コー
ドはゝ1010000000000011 ’。Now, specify English as the input language, Japanese, German, and French as the output languages, and use 'ball' as the input word.
Assume that you input the entire English word /. Then, according to the process described above (see the flow chart in FIG. 7), the contents of the headword "1" all/ are imported into the work area. In other words, the ideographic code for the noun form of tb, ll/ is も1010000000000011'.
入1010000000000101 ’・・・である
という情報がワーク・エリアに取り込まれる。次に、ワ
ーク・エリアに取シ込まれた第1番目の表意コードゝ1
010000000000011 ’について各言語の
辞書を上述したプロセス(第9図のフロー・チャート参
照)によシ検索する。すると、日本語辞書では、見出し
語ゝボール′が同じ表、意コードを持っているため、日
本語における訳語の一つとしてゝボール′が選び出され
、同様にして、ドイツ語における訳語の一つとして′B
a l l / 、7ランス語における訳語の一つとし
てゝboule ’が選び出される。第1番目の表意コ
ードについて訳語をすべて検索した後、さらに、第2番
目の表意コードについても訳語をすべて検索し、これに
続き得られた表意コードすべてについて訳語を見つける
。The information that input 1010000000000101'... is taken into the work area. Next, the first ideographic code imported into the work area
The dictionary of each language is searched for 010000000000011' according to the process described above (see the flow chart in FIG. 9). Then, in the Japanese dictionary, since the headword 'ball' has the same table and meaning code, 'ball' is selected as one of the translated words in Japanese, and similarly, one of the translated words in German is selected. As one'B
a l l /, 7 'boule' is selected as one of the translated words in Lance. After searching for all translated words for the first ideographic code, all translated words are also searched for the second ideographic code, and subsequently translated words are found for all the obtained ideographic codes.
この様にして、1対多の翻訳(一つの入力言語に対して
複数の言語に翻訳すること)が可能となっている。In this way, one-to-many translation (translation of one input language into multiple languages) is possible.
ところで、文の翻訳は、第11図に示した70−・チャ
ートに基づいて行なわれる。つまり、入力言語テキスト
vi−まず入力し、それを単語に分割し、それぞれの単
語について辞書検索を行なう。Incidentally, the sentence translation is performed based on the 70- chart shown in FIG. That is, an input language text vi is first input, divided into words, and a dictionary search is performed for each word.
辞書検索の結果得られた情報をもとにして、構文解析を
行ない、その後、出力言語のテキストを生成する。この
処理において、使用される辞書に本発明の表意コードで
意味記述をした辞書を用いることができる。Based on the information obtained as a result of the dictionary search, syntax analysis is performed, and then text in the output language is generated. In this process, a dictionary in which the meaning is described using the ideographic code of the present invention can be used.
さて以上の実施例では表意コードから訳語を検索する時
は、辞書に格納されている表意コードすべてについて検
索作業をしなければならないが、利手法として、逆引き
辞書を用意し、検索手間を省く方法が考えられる。第1
2図に示すのが、その逆引き辞書の基本構成である。表
意コードが見出し語として格納されており、(EDの区
切り記号の後に一つの単語またはイディオムが書かれる
。Now, in the above example, when searching for a translated word from an ideographic code, it is necessary to search for all the ideographic codes stored in the dictionary, but as an advantageous method, a reverse lookup dictionary is prepared to save the search effort. There are possible ways. 1st
Figure 2 shows the basic configuration of the reverse lookup dictionary. The ideographic code is stored as a headword, and a word or idiom is written after the ED delimiter.
一つの表意コードに対して複数の単語または、イディオ
ムが存在する場合は、■の記号の後に一つの単語(また
はイディオム)を書くという記述パターンを繰シ返す。If multiple words or idioms exist for one ideographic code, repeat the writing pattern of writing one word (or idiom) after the ■ symbol.
そして、最後に、(Dの区切シ記号装置く。第13図は
、この形式の逆引き辞書を備えた英語及び日本語辞書の
実例である。And finally, (D's delimiter symbol device.) Figure 13 shows an example of an English and Japanese dictionary equipped with this type of reverse dictionary.
14が英語辞書、15が日本語辞書を表わしている。各
言語の辞書14.15中における一点鎖線の上の部分が
、第2図に示されている形式の辞書であシ、一点鎖線の
下の部分が第12図に示す形式の辞書である。14 represents an English dictionary, and 15 represents a Japanese dictionary. In the dictionaries 14 and 15 for each language, the part above the dashed-dotted line is the dictionary in the format shown in FIG. 2, and the part below the dashed-dotted line is the dictionary in the format shown in FIG. 12.
次に、第13図?参照しながら、逆引き辞書を使用した
辞書検索作業につき説明する。英語単語の入力Xbal
l /全日本語に翻訳する場合を考える。Next, Figure 13? A dictionary search operation using a reverse dictionary will be explained with reference to the following. English word input Xbal
l / Consider the case of translating into all Japanese.
ゝball′を入力すると、上述のプロセス(第7図の
フロー・チャート参照〕によシ、表意コードがゝ101
0000000000011 ’ 等であるという情報
が得られ、次に、その表意コード
’ 1010000000000011 ’ につい
て日本語辞!15中における逆引き辞書を検索する。そ
して、見出し語’ 1010000000000011
/ の中味を読み出し、■全区切シ記号としてみなす
ことによシ訳語として1ボール′等が得られる。この様
にして、逆引き辞書を設けることによシ、表意コードか
ら訳語を検索する作業が高速に、しかも、容易に行なえ
るようになる。この場合、n言語間翻訳を行なう場合は
、各言語につき、表意コードへの(又は、訳部分を表意
コードで記述した)辞書と、表意コードから訳語となる
文字列を見つける逆引き辞書の2つが必要となり、合計
21[Iの辞書が必要となる。一方従来の方法で2Xn
C!なので4ケ国語以上の場合には本方式の方が有利で
ある。When you input 'ball', the ideographic code becomes '101' according to the process described above (see flow chart in Figure 7).
0000000000011 ' etc. is obtained, and then the Japanese dictionary for the ideographic code ' 1010000000000011 ' is obtained! Search for reverse lookup dictionaries in 15. And headword' 1010000000000011
By reading out the contents of / and treating it as a whole delimiter symbol, we can obtain a translated word such as 1 ball'. In this way, by providing a reverse lookup dictionary, the task of searching for a translated word from an ideographic code can be performed quickly and easily. In this case, when performing translation between n languages, there are two dictionaries for each language: a dictionary for ideographic codes (or a translation part written in ideographic codes), and a reverse lookup dictionary for finding strings to be translated words from ideographic codes. A total of 21 [I dictionaries are required. On the other hand, in the conventional method, 2Xn
C! Therefore, this method is more advantageous when there are four or more languages.
本方式における表意コードは、″′n言語間の訳となシ
得る単語の数”だけ用意すれば良い。たとえば雨に対す
る訳語が多い日本語から英語への翻訳を行なう際、“春
雨”を翻訳するには、従来の方式では’Spring
Shower″tあてるが、本方式では、′春雨”とい
う表意コードを設けておく。In this method, it is sufficient to prepare as many ideographic codes as ``the number of words that can be translated between n languages''. For example, when translating from Japanese, which has many translations for rain, to English, the conventional method for translating ``vermicelli'' is 'Spring.
In this method, an ideographic code of 'Vermicelli' is provided.
そして、表意コードから各国語(この場合は英語)への
逆引き辞書に@Spring Shower″を登録し
て ′おく。上記の場合、表意語を減らす為に1春
雨”に1春”と−1のコードを入れておく方法は、出力
言語の表現方法が各言語によって異なるので操作を不可
能にしかねない。つまり、汎表現とも言うべき表意コー
ドは、使用の際必要な全言語の概念を各々識別できるだ
け用意するのが望ましい。Then, register @Spring Shower'' in the reverse lookup dictionary from the ideographic code to each language (English in this case). The method of storing the code in the output language may make the operation impossible because the expression method of the output language differs depending on each language.In other words, the ideographic code, which can be called a general expression, is used to express the concepts of all the languages necessary for use. It is preferable to prepare it so that it can be easily identified.
その場合でも、たとえば、コンピュータにおけるメモリ
では、nビットあれば、2r#lJ(たとえば、32ビ
ツトなら4百万個〕の概念が表わされることを考えれば
、操作の簡便な本方式が有利である。Even in that case, for example, considering that n bits in computer memory represent 2r#lJ (for example, 4 million for 32 bits), this method is advantageous because it is easy to operate. .
上記のように1つの単語・イディオムが、複数蘭の単語
や句といったもので表現されることの他に、翻訳におい
ては、1つの単語が多義を持つことが大きな問題である
。つまシ、入力側の単語に対応する表意コードが複数個
あシ得る場合である。In addition to the fact that a single word or idiom can be expressed as multiple words or phrases as described above, a major problem in translation is that a single word has multiple meanings. This is a case where there are multiple ideographic codes corresponding to the word on the input side.
この場合は、これらの多義性を解消する方式が、第11
図の構文解析の7エイズで、構文情報(例えば、ある種
の前置詞はある種の名詞を修飾しないといった各言語に
依存した規則)や、意味的制約(列えば、意志を持てる
ものでなければ行為者にはなれないといった各言語には
依存しない規則]等により、記述・実行される。その場
合、従来の方式では、意味的制約の規則は、何らかの言
語に依存したコード(簡単な場合は、単語そのもの)に
よシ記述されていた。しかし本発明に述べる方式では、
各言語に依存しない部分は、共通に表意コード間の制約
として記述できることになシ、この部分はnヶの言語間
翻訳においてもたった1ケですむことになる。In this case, the method for resolving these ambiguity is the 11th
The 7 aids of syntactic analysis in the diagram include syntactic information (for example, rules that depend on each language, such as certain prepositions not modifying certain nouns), and semantic constraints (in other words, unless something has a will), In this case, in the conventional method, the semantic constraint rules are written and executed using some language-dependent code (in simple cases, However, in the method described in this invention,
The part that does not depend on each language can be commonly described as a constraint between ideographic codes, and even in the case of translation between n languages, only one part is required.
以上、本発明の実施例について説明したが、この方式に
よれば、次のような効果が得られる。The embodiments of the present invention have been described above, and according to this method, the following effects can be obtained.
(1) 辞書の意味記述を出力言語で行なわず、純粋
な意味概念によって記述しているため、多言語間の翻訳
に適する。つまシ、従来の辞書形式を適用すると、n(
nは2以上の自然数)個の言語を翻訳するには% 2X
nC* 飼の辞書を必要とするが、本発明の形式の辞書
を使用すれば、n個の辞書を用意するだけで良い。従っ
て、辞書作成の手間も省けるし、全体の辞書の容量も削
減できる。(1) The meaning of the dictionary is not described in the output language, but is described using pure semantic concepts, so it is suitable for translation between multiple languages. Tsumashi, if we apply the conventional dictionary format, n(
n is a natural number greater than or equal to 2) To translate languages: % 2X
nC* dictionaries are required, but if the dictionary of the form of the present invention is used, only n dictionaries need to be prepared. Therefore, the effort of creating a dictionary can be saved, and the capacity of the entire dictionary can also be reduced.
(2)辞書の意味記述を表意コードC2進す日刊)で行
なうため、n(nは1以上の自然数) bitの意味情
報で、2nWAの意味概念を記述できるようになシ、辞
書容量の削減につながる。(2) Since the meaning description of the dictionary is performed using the ideographic code C2 (daily), it is possible to describe 2nWA semantic concepts with n (n is a natural number of 1 or more) bits of semantic information, reducing the dictionary capacity. Leads to.
(3) また、表意コードは、2進bit列であるた
め、情報圧縮の手法の適用が容易となっている。(3) Furthermore, since the ideographic code is a binary bit string, it is easy to apply information compression techniques.
(4) 同類の意味概念を表わす表意コードを近い場
所C符号間距離の小さいという意味〕に設定するという
コード化方法によシ、同類語の検索を容易に行なえる。(4) Similar words can be easily searched using a coding method in which ideographic codes representing similar meaning concepts are set to "close location" (meaning "small distance between codes").
(5)さらに、逆引色辞書を備えることにより、辞書検
索を高速化できる。(5) Furthermore, by providing a reverse color dictionary, dictionary searches can be speeded up.
(6)意味的な制約で決る訳の多義性解消といった規則
を、各言語とは独立に汎用的に記述することができ、こ
の部分を各言語に依存している辞書と独立にすることが
可能となると共に、n言語間翻訳に対し、かかる規則の
記述をただ1ケで済ますことができる。(6) Rules such as disambiguation of translations determined by semantic constraints can be written universally, independent of each language, and this part can be made independent of dictionaries that depend on each language. In addition, it is possible to write only one rule for translation between n languages.
第1図は本°発明実施例の、、、′!I!L子辞書の構
成図、第2図は本発明辞書の基本形式を示す図、第3図
は本発明辞書の具体列を示す図、第4図は、辞書データ
のメモリ内での格納のされ方を示す図、第5図は第1図
の電子辞書の動作の流れを示す図、第6図は、第1図の
電子辞書におけるディスプレイ装置上の初期画面を示す
図、第7図(イ)、第7図■は辞書検索を行ない、単語
から表意コードを得る処理の流れを示す図、第8図(4
)、第8図面は辞書検索を行ない、イディオムから表意
コードを得る処理の流れを示す図、第9図(4)、第9
図■は辞書検索を行ない、表意コードから単語並びにイ
ディオムを得る処理の流れを示す図、第10図は1対多
の翻訳の実施を示す図、第11図は文の翻訳の処理の流
れを示す図、第12図は逆引き辞書の基本形式を示す図
、第13図は逆引き辞書を備えた第 2゛口
第 5 口
Y7 6 図
第 7 図(A)
第 8 図 (/4ン
第 7 図(B)
$ 8 図 CB)
Yyq 図(A)
第 9 図(B)Figure 1 shows the embodiment of the present invention. I! 2 is a diagram showing the basic format of the dictionary of the present invention, FIG. 3 is a diagram showing specific columns of the dictionary of the present invention, and FIG. 4 is a diagram showing how dictionary data is stored in memory. FIG. 5 is a diagram showing the operation flow of the electronic dictionary in FIG. 1, FIG. 6 is a diagram showing the initial screen on the display device of the electronic dictionary in FIG. ), Figure 7 (■) is a diagram showing the flow of processing to perform a dictionary search and obtain an ideographic code from a word, and Figure 8 (4)
), Figure 8 is a diagram showing the flow of processing to perform a dictionary search and obtain an ideographic code from an idiom, Figure 9 (4), Figure 9
Figure ■ shows the flow of processing to perform a dictionary search and obtain words and idioms from ideographic codes, Figure 10 shows the implementation of one-to-many translation, and Figure 11 shows the flow of processing for sentence translation. Figure 12 is a diagram showing the basic format of a reverse lookup dictionary, and Figure 13 is a diagram showing the basic format of a reverse lookup dictionary. Figure 7 (B) $ 8 Figure CB) Yyq Figure (A) Figure 9 (B)
Claims (1)
f以下単語という)を第2の言語の単語、イディオム又
は文章C以下単語という)に翻訳するための装置であっ
て、翻訳すべき第1言語の単語を入力する入力装置と、
第1言語の単語と第2言語の単語との対応関係を所定の
方法で記”述した辞書メモリと、入力単語に相当する第
2言語を探索する処理を行う処理部と、探索の結果得ら
れた第2言語の単語を表示する装置とを有する電子辞書
装置において、上記辞書メモリは、第1言語によシ記述
される単語を形成する各文字全コード化したものと、上
記単語の意味概念を表わす表意コードとのダJ応関係を
記述した第1の区分領域と、第2言語により記述される
単語を形成する各文字をコード化したものと上記表意コ
ードとの対応関係を記述した第2の区分領域とを有する
ことft%徴とする翻訳用辞書。 2、第1の言語により記述される単語を形成する各文字
をコード化したものと、上記単語の意味概念を表わす表
意コードとの対応関係を記述した第1の区分領域と、第
2言語により記述される単語を形成する各文字をコード
化したものとその単語の意味概念を表わす表意コードと
の対応関係を記述した第2の区分領域とを有する辞書メ
モリの検索方式において、入力した単語と第1言語の単
語とを比較し、一致した単語に対応する表意コードを検
索する第1ステツプと、上記表意コードと、第2区分領
域の表意コードとを比較し、一致したものに対応する第
2言語の単語を検索する第2ステツプとを具備すること
を特徴とする翻訳用辞書の検索方式。[Scope of Claims] 1. A device for translating words, idioms, or sentences written in a first language (hereinafter referred to as "words") into words, idioms, or sentences (hereinafter referred to as "words" below) in a second language; an input device for inputting words in the first language to be translated;
A dictionary memory that describes the correspondence between words in a first language and words in a second language in a predetermined manner, a processing unit that performs processing to search for a second language corresponding to an input word, and In the electronic dictionary device, the dictionary memory includes a device for displaying words in a second language written in the first language, and a device for displaying words in a second language written in the first language. The first segmented area describes the correspondence between the ideographic code representing the concept, and the correspondence between the coded characters forming the words written in the second language and the above ideographic code. A translation dictionary characterized by having a second segmented area. 2. A code for each character forming a word written in the first language, and an ideographic code representing the meaning concept of the word. The first segmented area describes the correspondence relationship between the coded characters forming the word written in the second language and the ideographic code representing the semantic concept of the word. In a search method for a dictionary memory having two divided areas, a first step compares an input word with a word in the first language and searches for an ideographic code corresponding to the matched word; A search method for a translation dictionary, comprising a second step of comparing the ideographic codes of the two divided areas and searching for a word in a second language corresponding to a match.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57102070A JPS58219670A (en) | 1982-06-16 | 1982-06-16 | Dictionary for translation and dictionary retrieval system using it |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57102070A JPS58219670A (en) | 1982-06-16 | 1982-06-16 | Dictionary for translation and dictionary retrieval system using it |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS58219670A true JPS58219670A (en) | 1983-12-21 |
Family
ID=14317500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57102070A Pending JPS58219670A (en) | 1982-06-16 | 1982-06-16 | Dictionary for translation and dictionary retrieval system using it |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS58219670A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6162975A (en) * | 1984-09-05 | 1986-03-31 | Fujitsu Ltd | Dictionary index processor |
JPS61112241A (en) * | 1984-11-06 | 1986-05-30 | Hitachi Ltd | Program interpreting method |
JPS61267176A (en) * | 1985-05-22 | 1986-11-26 | Agency Of Ind Science & Technol | Language information element maintaining system |
JP2015146169A (en) * | 2014-02-04 | 2015-08-13 | 有限会社ティ辞書企画 | search apparatus, search method, and program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS55116164A (en) * | 1979-02-28 | 1980-09-06 | Sharp Corp | Information retrieval unit |
JPS5727367A (en) * | 1980-07-23 | 1982-02-13 | Sharp Corp | Electronic translator |
-
1982
- 1982-06-16 JP JP57102070A patent/JPS58219670A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS55116164A (en) * | 1979-02-28 | 1980-09-06 | Sharp Corp | Information retrieval unit |
JPS5727367A (en) * | 1980-07-23 | 1982-02-13 | Sharp Corp | Electronic translator |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6162975A (en) * | 1984-09-05 | 1986-03-31 | Fujitsu Ltd | Dictionary index processor |
JPS61112241A (en) * | 1984-11-06 | 1986-05-30 | Hitachi Ltd | Program interpreting method |
JPH0516612B2 (en) * | 1984-11-06 | 1993-03-04 | Hitachi Ltd | |
JPS61267176A (en) * | 1985-05-22 | 1986-11-26 | Agency Of Ind Science & Technol | Language information element maintaining system |
JPH0344344B2 (en) * | 1985-05-22 | 1991-07-05 | Kogyo Gijutsuin | |
JP2015146169A (en) * | 2014-02-04 | 2015-08-13 | 有限会社ティ辞書企画 | search apparatus, search method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5895446A (en) | Pattern-based translation method and system | |
US5214583A (en) | Machine language translation system which produces consistent translated words | |
US5229936A (en) | Device and method for the storage and retrieval of inflection information for electronic reference products | |
JPS63231674A (en) | Word processing system | |
Alkhatib et al. | Deep learning for Arabic error detection and correction | |
CN106372065B (en) | Multi-language website development method and system | |
JPH05314166A (en) | Electronic dictionary and dictionary retrieval device | |
US20050010391A1 (en) | Chinese character / Pin Yin / English translator | |
US5560037A (en) | Compact hyphenation point data | |
US20050010392A1 (en) | Traditional Chinese / simplified Chinese character translator | |
Aswani et al. | A hybrid approach to align sentences and words in English-Hindi parallel corpora | |
JP7247460B2 (en) | Correspondence Generating Program, Correspondence Generating Device, Correspondence Generating Method, and Translation Program | |
JPS58219670A (en) | Dictionary for translation and dictionary retrieval system using it | |
KR20000039018A (en) | Method for coding borrowed words and search method using coded words | |
Salam et al. | Developing the bangladeshi national corpus-a balanced and representative bangla corpus | |
JP4843596B2 (en) | Machine translation apparatus and machine translation program | |
JP2003178087A (en) | Retrieval device and method for electronic foreign language dictionary | |
JP3285149B2 (en) | Foreign language electronic dictionary search method and apparatus | |
JPS6246029B2 (en) | ||
JPH0140372B2 (en) | ||
KR20010067827A (en) | multi-languages Chinese characters database structure | |
JPS646499B2 (en) | ||
JP3949874B2 (en) | Translation translation learning method, translation translation learning device, storage medium, and translation system | |
Tedla | amLite: Amharic Transliteration Using Key Map Dictionary | |
JPH0635954A (en) | Machine translation apparatus |