JPS5892064A - 電子辞書の構成方式 - Google Patents

電子辞書の構成方式

Info

Publication number
JPS5892064A
JPS5892064A JP56189327A JP18932781A JPS5892064A JP S5892064 A JPS5892064 A JP S5892064A JP 56189327 A JP56189327 A JP 56189327A JP 18932781 A JP18932781 A JP 18932781A JP S5892064 A JPS5892064 A JP S5892064A
Authority
JP
Japan
Prior art keywords
information
word
idiom
speech
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56189327A
Other languages
English (en)
Inventor
Fumiyuki Yamano
山野 文行
Yoshihiko Nitta
義彦 新田
Atsushi Okajima
岡島 惇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP56189327A priority Critical patent/JPS5892064A/ja
Publication of JPS5892064A publication Critical patent/JPS5892064A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (1]  発明の利用分野 本発明は、第1言語から第2言語への翻訳において必要
となる単語辞書を、効率よく検索可能となるように構成
し、さらに必要最小限の辞書情報のみを抽出し得るよう
にした単語辞書の構成方式%式% 従来から言語間の単語の変換に当っては辞書が用いられ
ている。このような辞書は、変換の精度の向上に伴い、
登録しである単語数、さらにそれらの単語に関する品詞
、訳語等の各種f換用データが豊富になっているため、
検索した単語情報を蓄積しておくためのメモリ容量が増
えると共にその処理が複雑になるという問題がろる。
(3)発明の目的 本発明は、上記の点を鑑み、辞書の構成を、各単語に共
通する情報からなる固定長の固定部と、各単語対応に異
なる各種変換用データを詳細に記述している可変長の可
変部の2つの部分に大別することにより、固定部の情報
による処理を済ませた後、必要とされる可変部の詳細情
報のみを抽出する方法によって、所要メモリ容量を低減
することを目的としている。
(4)  実施例 以下、本発明を実施例を参照して詳細に説明する。第1
図において、1はプロセッサ、2は英和辞書メモリ、3
は固定部テーブルメモリー 4#′i可変部テーブルメ
モリ、4′はイディオムテーブルメモ1ハ 5はキーボ
ード等の入力装置、6はディスプレイ装置を宍わしてい
る。
英和辞書メモリ2内には、英語の単語をキーとしてその
単語に対応するイディオム情報、品詞情報、属性情報、
日本語の訳語等が格納されている。
具体的に、trainという単語を例にとって説明する
。英和辞書メモリ2内でtrainをキー7とする格納
情報は、第2図に示されるように構成される。
trainFidown  train (下り列車)
、uptrain (上り列車)というイディオムの構
成要素英和辞書メモリ2内では、第2図のごとく、ナ記
号と数字1文字からなるφ1 、 す2 、・・・・・
・φ6 で示される区切り記号により各種格納データを
識別可能とし、第3図に示されるような可変長の文字列
として登録される。このような区切り記号を用いること
により、可変長データとして登録された各種データが識
別可能となる。
次に、第2図を用いて辞書の構成方法を説明する。単語
はtrainのような単語そのものをキーとして登録さ
れており、登録内容は、登録する内容が各単語に共通し
て形成化されている固定部8と、単語対応に登録内容が
異なる可変長の可に部9に大別される。固定部8につい
ては、イディオムの構g要素となりつるか否かを示すフ
ラグ情報(0であれば構成要素となりえない;1であれ
ば構成要素となりうろことを意味する)、引き続いて、
最大5個までの品詞を記述することができる8閥情報記
述部から構成される。zrainの場合、down  
train、 up train 17)イディオムノ
構xi素になること、さらに品詞として名詞と動詞をと
りうる*め6))1 (1しN  < 名Y )(1)
v(動詞)6へ×玉す■1)が固定部に登録される内容
となる。(この場合、最後の3つの0)は省略して■x
(JaN■Vとしても構わない。)このように、固定部
はnt区切り記号として記述されており、すべての単語
は必ず固定部8の情報を有する。
可変部9については、当該単語がイディオムの構成要素
となりうる(つまり、固定部での最初の(iの次のフラ
グ情報が1である)場合に記述されるイディオム記述部
10と、さらに、当該単語のとりうる品詞について細分
類、属性、訳語等の情報が記述される品閥別詳細情報記
述部11とから構成される。以下、trainの場合を
具体例として、イディオム記述部と8訓詳細情報記述部
について説明する。まず、イディオム記述部9では、z
rainがdown  train とup  tra
inの両イディオムの構成要素となりうろことから、2
つのイディオムについての記述がなされる。イディオム
の記述においては、イディオムを当該単語の活用変化レ
ベルに対応して2つに大別して記述しており、イディオ
ム構成要素中の当該単語の表記法もこの変化レベルに対
応させる。つまり、イディオム構成要素中の当該単語が
活用変化可能な場合は1+”で表記し、活用変化不可能
な場合は1傘”で表記する。従って、down  tr
ainはdown 傘、 uptrainはup傘のよ
うにそれぞ扛記述することができる。down+と記述
すれば、down  train。
down   trains   down   tr
ained   downtrainingの4つのイ
ディオムを表すことになる。
このようにして、イディオムのパターンを表記し、nの
区切り記号の次に記述する。イディオムのパターンに続
いて、σシ、■、@の 各区切り記号の次に、当骸イデイ・オムの品詞、属性、
訳語をそれぞれ記述する。つます、@の区切り記号以下
に1つのイディオムに関する各種データが登録されるこ
とになり、イディオムが複数個存在する場合は、6で始
まる文字列が複数回繰り返されることになる。この繰り
返し回数を、イディオムのパターン中に@*”が存在す
る場合と、′+”が存在する場合について、それぞれの
最初の()の区切り記号の前に0の区切り記号に続いて
記述しておく。train の場合、囃傘”を用いて表
記されるイディオムのパターンは、down  tra
inとup  trainの2つな−ので、まず00次
If−2が記述され、続いて0以下にそれぞれのイディ
オムに関する各種データが記述される。さらに1+#を
用いて記述されるイディオムのパターンはないので0の
次に0が記述される。
次に、品制別詳細情報記述部11では、固定部8に登録
されている品詞について、さらに詳しく、細分類、属性
、訳語等の情報が記述される。まず、q)の区切り記号
の次に品詞情報が記述され、引V!続いて、その品詞の
細分類が6)の区切り記号の次に記述される。さらに、
各品詞対応に属性が(〕の区切り記号の次に記述される
。属性は、品詞によって記述される場合とされない場合
があり、記述されない場合は、@は記述する必要はない
。最後に■の区切り記号の次に訳語が記述される。tr
ainの場合、名詞と動詞を有するので、第2図11に
示されるように、名詞について0から■の区切り記号を
用いて記述し九部分と動詞についても同様に記述した部
分を並列して登録すればよい。
以上のようにして、  trainという単語に関する
辞書登録は行なわれ、単語をキーとして、固定部□8、
イディオム記述部101品制別詳細情報記述部11の順
に■〜eの区切り記号を介 した形式で、第3図に示すごとく、一連の可変長文字列
レコードとして登録される。他の単語についても、同様
にして第1図の英和辞書メモリ2内に登録される。
このようにして構成された辞書を検索する処理について
、次に述べる。ここでは、具体例として英語から日本語
への翻訳処理過程で必要となる単語辞書検索の揚合金列
にとって説明する。
翻訳処理は、第4図に示されるフローに従ってなされる
。まず、英文テキストの文字列が入力され(Zoo)、
文字列がら単語を抽出した後、単語辞書検索が行なわれ
(101)、検索結果得られたデータをもとに、構文解
析がなされ(102)、構文が認識された後、対応する
和文の構文に変換され(103)、各単語に該当する訳
語が付与されて訳文が出来上がる。
各処理100〜103の具体的な方法については本発明
者等が先に発明した特願昭56−(自然語間の自動前駅
方式)に詳述されている。
ところで、英語の単語は必ずしも一語一品試の対応では
なく、例えば、先程のtrain のように名詞と動詞
をとりうることがあり、単語辞書検索処理後から構文解
析処理に至るまでの過程で、−語一品詞に決定される必
要がある。つまり、多品前が解消される必要があるが、
例えば、特願56−    号に述べられているような
処理方式を採用することにより、品詞列の前後の並び具
合のみから多品前の解消が行なえるため、各単語の名詞
が決定さnる過程までは、各単語の品飼情報とイディオ
ムの構riy、要素とガりうるか否かが認識できればよ
く、訳語等の品詞側詳細情報は不要となる。そして、品
詞が決定された後、品詞レベル以下の細分類、属性、さ
らに訳語データが必要となってくる。
このように、翻訳処理過程において利用される単語辞書
データは、処理過程のフェーズによって太キ<、品詞情
報と品詞側詳細情報に分嶋して考えることが可能であり
、辞書を1つの単語について2度検索することにより、
1回目は、固定部とイディオム記述部のみ、つまり、品
詞情報とイディオムの構成要素となりうるか否かが認識
可能となる情報のみを取り込み、2回目は、多品前解消
の結果、必要とされる品閥別詳細情報記述部のみを取り
込むこととすれば、翻訳処理過程で必要とされるテーブ
ルの記憶容量が軽減されることになる。
一実施例としては、第1図のような場合が考えられる。
以下、第5図の処理フローに沿って説明する。まず、入
力装@5より入力された英文は、英和辞書メモリ2で単
語検索(200)が行なわれ、第2図に示される固定部
8とイディオム記述部lOがプロセッサ1を介して取り
込まれ、固定テーブル3とイディオムテーブル4′にそ
れぞれセットされる(201,202)。引+!!続い
て、イディオムテーブル4′の情報をもとに、イディ□
オムの抽出(203)が行なわれ、さらに、固定テーブ
ル3の情報をもとに、多品前の解消処理(204)が行
なわれ、入力英文の単物列に対応する品詞列が生成され
る。次に、プロセッサ1は、再度、英和辞書メモリ2で
単語検索(205)を行なうことにより、多品前の解消
処理により決定された品詞に対応する品制別詳細情報記
述部11を可変テーブル4に取り込む。例えば、■tr
ain  very  hard、  ノよ’5e英文
ノ場合、train  は多品目解消処理により前後の
品詞の並びから動閥と認識されるので、可変テーブル4
には動ihi’tに関する詳細情報のみが取り込まれる
ことになる。つまり、可変テーブル4には、英和辞書メ
モリ2の中に登録されている品詞側詳細情報のうち、必
要とされる品詞の詳細情報のみセットされている。最後
に、プロセッサlにおいて可変テーブルの情報をもとに
構文解析処理、さらに訳文の付与が行なわれ、表示装置
6に訳文が表示されることになる。
以上説明したごとく本発明によれば、必要とされる8閥
対応の詳細情報のみを抽出することが可能となり、使用
するテーブルのメモリ容量全軽減することができる。
【図面の簡単な説明】
w、1図は、本発明の一実施例の構成全示すブロック図
、第2図および第3図は、第1図中の英和辞書メモリに
おけるデータ格納態様を説明する説明図、第4図は、翻
訳処理過程を説明するためのフローチャート図、第5図
は、本発明の一実tI@例の動作を説明するためのフロ
ーチャート図を示す。 図中、1はプロセッサ、2は英和辞書メモリ、3は固定
部テーブルメモリ、4は可変部テーブルメモ1ハ 4′
はイディオムテーブルメモリ、5はキーボード入力装置
、6ijデイスプレイ装置、7は単語キー、8は固定部
、9は可変部、10はイディオム記述部、11は品制別
詳細情報記述部を第 1 図 第 2C21 第 3 図 )N(iEl@)Tす々11車OUP * [相]j)
N(ξ)5(つ)Lリダ′1y 4 図 )FJ 5 口

Claims (1)

    【特許請求の範囲】
  1. 1、第1言語から第2’!語への変換用辞書をメモリに
    格納し、入力された第1言語の文章にもとづいてプロセ
    ッサが上記メモリをアクセスして対応する第2言語を検
    索し、第2言語の文章に変換する翻訳装置において、上
    記変換用辞書の格納データは、品詞情報とイディオムの
    構成要素となりうるか否かを示す情報からなる固定部と
    、品詞別の詳細な変換情報とイディオム情報からなる可
    変部に区分して登録されていることを特徴とする電子辞
    書の構成方式。
JP56189327A 1981-11-27 1981-11-27 電子辞書の構成方式 Pending JPS5892064A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56189327A JPS5892064A (ja) 1981-11-27 1981-11-27 電子辞書の構成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56189327A JPS5892064A (ja) 1981-11-27 1981-11-27 電子辞書の構成方式

Publications (1)

Publication Number Publication Date
JPS5892064A true JPS5892064A (ja) 1983-06-01

Family

ID=16239490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56189327A Pending JPS5892064A (ja) 1981-11-27 1981-11-27 電子辞書の構成方式

Country Status (1)

Country Link
JP (1) JPS5892064A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5541838A (en) * 1992-10-26 1996-07-30 Sharp Kabushiki Kaisha Translation machine having capability of registering idioms

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5541838A (en) * 1992-10-26 1996-07-30 Sharp Kabushiki Kaisha Translation machine having capability of registering idioms

Similar Documents

Publication Publication Date Title
JP5788015B2 (ja) 複数の粒度でのテキスト分割
JPH03278174A (ja) 異言語交信用翻訳方法およびシステム
JPH03172966A (ja) 類似文書検索装置
JP2007323475A (ja) 自然言語における多義解消装置及びコンピュータプログラム
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
Mohri Compact representations by finite-state transducers
JP2001084250A (ja) 膨大な文書データからの知識抽出方法、その装置及び媒体
Ezhilarasi et al. Designing the neural model for POS tag classification and prediction of words from ancient stone inscription script
JPS5892064A (ja) 電子辞書の構成方式
JPH10171806A (ja) 語義曖昧性解消装置及び方法
JPS5892063A (ja) イデイオム処理方式
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JPH07114565A (ja) 電子辞書
KR950013129B1 (ko) 기계번역장치 및 방법
Alkhazi et al. BAAC: Bangor Arabic Annotated Corpus
Karimi et al. Natural language query and control interface for database using afghan language
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Sugandhika et al. Heuristics-based SQL query generation engine
JPS6389976A (ja) 言語解析装置
Tangsali et al. Evaluating Performances of Attention-Based Merge Architecture Models for Image Captioning in Indian Languages
JP2006178865A (ja) 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体
JPS63221475A (ja) 構文解析方法
Gerbremedhin Design and Development of Part of Speech Tagger for Ge’ ez Language Using Hybrid Approach
Mazitov et al. Named entity recognition in Russian using multi-task LSTM-CRF
Haroon et al. A Deep Learning based Interlingua Representation for Malayalam Documents