JP2655922B2 - 機械翻訳装置 - Google Patents

機械翻訳装置

Info

Publication number
JP2655922B2
JP2655922B2 JP2012147A JP1214790A JP2655922B2 JP 2655922 B2 JP2655922 B2 JP 2655922B2 JP 2012147 A JP2012147 A JP 2012147A JP 1214790 A JP1214790 A JP 1214790A JP 2655922 B2 JP2655922 B2 JP 2655922B2
Authority
JP
Japan
Prior art keywords
dictionary
mode
sentence
dictionary lookup
letter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2012147A
Other languages
English (en)
Other versions
JPH03216760A (ja
Inventor
いち子 中村
等 鈴木
陽士 福持
秀造 釘宮
徳行 平井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consejo Superior de Investigaciones Cientificas CSIC
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Priority to JP2012147A priority Critical patent/JP2655922B2/ja
Priority to US07/641,738 priority patent/US5289375A/en
Priority to GB9101360A priority patent/GB2240644A/en
Publication of JPH03216760A publication Critical patent/JPH03216760A/ja
Application granted granted Critical
Publication of JP2655922B2 publication Critical patent/JP2655922B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】 〈産業上の利用分野〉 この発明は、自然な翻訳文を生成できる機械翻訳装置
に関する。
〈従来の技術〉 従来、機械翻訳装置としては次のようなものがある。
この機械翻訳装置は、キーボードから入力されたソース
言語を、メインCPUの制御により翻訳モジュールに入力
し、この入力されたソース言語を、メモリに記憶されて
いる辞書,文法規則および木構造変換規則を利用して翻
訳モジュールによってターゲット言語に翻訳するもので
ある。
上述のような機械翻訳装置における上記翻訳モジュー
ルにおいて、例えば英語を日本語へ翻訳する場合には、
まず入力された英文がスペース等の予め定められた記号
を区切りの指標として単語に分割される。そして次に、
各単語に対する訳語および訳語の品詞などの文法情報等
が得られる。この処理はメモリに記憶された辞書を引く
ことによって行われる。
上記辞書には、英単語の見出し,英単語の品詞,英単
語の文法情報,英単語の訳語,訳語の品詞および訳語の
文法情報等が登録されている。その際に、英単語の見出
しは通常総て小文字によって登録される。ところが、文
頭に位置する文頭単語は、通常その先頭文字は大文字で
記述される。そのため、そのまま辞書引きを行ったので
は文頭単語は辞書に登録されていないと判断されてしま
う。そこで、文頭単語に関して辞書を引く際には、先頭
文字が大文字の場合には小文字に変換した後に辞書を引
くようにしている。以下、このような辞書引きのモード
を標準モードと言う。
一方、テレックス文のように大文字ばかりで印字され
た特殊文の場合には先頭単語以外の単語にも大文字が存
在するので上述のような標準モードでは対処できない。
そこで、テレックス文のように先頭単語以外の大文字を
含む単語を有する文章の場合には、総ての大文字を小文
字に変換した後に辞書を引くようにしている。以下、こ
のような辞書引きモードを大文字モードという。
そこで、従来の機械翻訳機においては、オペレータ
が、翻訳しようとする文章における文字列の形態からい
ずれの辞書引きモードを翻訳処理を行うかを判断して、
辞書引きモードを標準モードあるいは大文字モードに設
定するようにしている。
第4図は従来の機械翻訳機における辞書引きの際のモ
ード設定処理動作のフローチャートである。
キーボードのキー操作等による辞書引きモード設定動
作が実行されていない場合には、自動的に辞書引きモー
ドが標準モードに設定される(ステップS11、ステップS
14)。また、上述のようなモード設定動作が実行されて
標準モードが選択された場合には、辞書引きモードが標
準モードに設定される(ステップS11,ステップS12,ステ
ップS14)。一方、大文字モードが選択された場合に
は、辞書引きモードが大文字モードに設定される(ステ
ップS12,ステップS13)。
こうして、辞書引きモードを設定することによって通
常文や特殊文に対応して辞書引きを実施できるのであ
る。
〈発明が解決しようとする課題〉 通常目にする文章は、大文字と小文字とが混在してい
る。すなわち、例えば固有名詞扱いされる普通名詞等は
大文字を用いて記載することが多い。そこで、通常辞書
引きモードを大文字モードに設定しておかない場合(す
なわち、標準モードに設定されている場合)には、文頭
単語の先頭文字以外に出現した大文字は小文字に変換さ
れないので、文頭以外に現れた大文字を含む単語は辞書
に未登録の単語であると見なされてアルファベットのま
ま翻訳文中に記述されてしまう。つまり、実際には、辞
書引きモードを大文字モードに設定しておかないと辞書
に登録されている内容が有効に利用されないという問題
がある。
ところが、辞書引きモードを常に大文字モードに設定
しておくと、人名や固有名詞における先頭大文字が小文
字に変換されてしまう。そして、先頭大文字が小文字に
変換された人名や固有名詞に相当する単語がたまたま辞
書に登録されている場合には、次ぎに例示するように誤
った日本に翻訳されてしまうという問題がある。
入力単語 Mr. Brown 翻訳結果 標準モード…Brown氏 大文字モード…茶色氏 上述のいずれの問題も、入力文章中における大文字を
有する単語の割合とは関係なく、一律に辞書引きのモー
ドを大文字モードあるいは標準モードに設定してしまう
ために発生するのである。
そこで、この発明の目的は、入力テキストの文字列構
成に応じて自動的に辞書引きモードを最適に設定できる
機械翻訳装置を提供することにある。
〈課題を解決するための手段〉 上記目的を達成するため、この発明は、入力された文
章を形態素に分割すると共に辞書を引いてその形態素の
訳語および品詞等を得る形態素解析部と、上記形態素解
析部によって分割された形態素列の構文を辞書と文法規
則を用いて解析する構文解析部と、上記構文解析部で得
られた構文の構造を目標言語における構文の構造に変換
する変換部と、上記変換部によって得られた目標言語の
構文構造に従って翻訳文を生成する翻訳文生成部を有す
る機械翻訳装置であって、上記形態素解析部は、上記辞
書引きに先立って上記分割された総ての形態素における
文字列中に大文字があるか否かを判定する文字判定手段
と、上記文字判定手段による判定結果が否である場合に
は大文字が存在する形態素の割合を算出する割合算出手
段と、上記文字判定手段による判定結果および上記割合
算出手段によって算出された上記割合の値に応じて自動
的に辞書引きモードを標準モードと大文字モードとに切
り替え設定する辞書引きモード設定手段を有することを
特徴としている。
〈作用〉 形態素解析部に文章が入力されると、この入力された
文章は、スペース等の予め定められた記号を区切りの指
標として上記形態素解析部によって形態素列に分解され
る。そうすると、この分割された総ての形態素における
文字列中に大文字があるか否かが文字判定手段によって
判定される。そして、その判定結果が否である場合(例
えば、小文字のみの形態素と大文字を含む形態素とが混
在していると判定された場合)には文字列中に大文字が
ある形態素の割合が割合算出手段によって算出される。
そして、上記文字判定手段による判定結果および上記割
合算出手段によって算出された上記割合の値に応じて自
動的に辞書引きモードが標準モードと大文字モードとに
切り替え設定される。その後、こうして設定された辞書
引きモードによって辞書引きが実施されて、上記形態素
の訳語および品詞等が得られるのである。
次に、上記形態素解析部によって分割された形態素列
の構文が構文解析部によって解析される。そして、上記
構文解析部によって得られた構文の構造が変換部によっ
て目標言語の構文構造に変換され、得られた目標言語の
構文構造に従って翻訳文生成部によって翻訳文が生成さ
れる。
その際に、上記形態素解析部による辞書引きは、入力
文章を構成する文字列の形態に応じて最適に設定された
辞書引きモードによって実施されるので、大文字を含む
形態素と小文字のみの形態素とが混在する入力文章の場
合には、上記割合の値が所定値以上の場合に自動的に辞
書引きモードを大文字モードに設定して辞書引きを行う
ようにすることができる。
〈実施例〉 以下、この発明を図示の実施例により詳細に説明す
る。
第1図はこの発明の機械翻訳装置における一実施例の
ブロック図である。1はメインCPU(中央処理装置)、
2はメインメモリ、3はCRT(カソード・レイ・チュー
ブ)、4はキーボード、5は翻訳モジュール、6は翻訳
用の辞書,文法規則および木構造変換規則等を格納して
いるメモリ、7は確定された翻訳結果を用紙に印字する
プリンタである。
上記翻訳モジュール5は、ソース言語による文章が入
力されると、それを翻訳してターゲット言語の文章を出
力するものである。すなわち、キーボード4から入力さ
れたソース言語による文章はメインCPU1の制御により翻
訳モジュール5に送られる。翻訳モジュール5はメモリ
6に記憶されている辞書,文法規則および木構造変換規
則等を用いて、入力されたソース言語を後に詳述するよ
うにしてターゲット言語に翻訳する。その結果は、メイ
ンメモリ2に一旦記憶されると共に、CRT3に表示され
る。そして、CRT3に表示された翻訳結果が正しいと確定
されると、確定された翻訳結果がプリンタ7によって印
字されるのである。
第2図は上記翻訳モジュール5の具体的なブロック図
である。この翻訳モジュール5は辞書引き形態素解析部
11,構文解析部12,変換部13および翻訳文生成部14から構
成される。
以下、第1図および第2図によって上記翻訳モジュー
ル5による翻訳処理について詳細に説明する。
まず、読み込まれてバッファに格納された入力文章
は、形態素解析部11によって各形態素列(単語列)に分
割され、各単語に対する品詞などの文法情報および訳語
がメモリ6の辞書を用いて得られる。さらに、各単語に
対する時制・人称・数などが解析される。以下、このよ
うな処理を形態素解析と言う。次に、構文解析部12によ
って、メモリ6の辞書と文法規則に従って、各単語間の
係り受け関係を示す構造解析木が決定される。以下、こ
のような処理を構文解析と言う。次に、変換部13によっ
て、上述の構文解析の場合と同様にメモリ6の木構造変
換規則を用いて、入力された原文に対する構文解析木の
構造がターゲット言語に対する構造に変換される。そし
て、翻訳文生成部14によってターゲット言語による翻訳
文として適切な助詞や助動詞が付けられて翻訳文が得ら
れる。こうして得られた翻訳文は翻訳モジュール5から
出力され、プリンタ7によって用紙に印字されるのであ
る。
この発明の機械翻訳装置は、上述のような翻訳処理に
おける辞書引きの際に、入力テキスト中における先頭文
字が大文字である単語の割合に応じて辞書引きモードを
最適に設定して、先頭文字が大文字である単語と小文字
のみの単語とが混在する文章を精度よく翻訳するもので
ある。
第3図は上記形態素解析部11による形態素解析時に上
記辞書引きに先立って実行される辞書引きモード設定処
理動作のフローチャートである。以下、第3図に従って
辞書引きモード設定処理動作について説明する。
ステップS1で、上述のようにバッファに格納されてい
る入力テキスト中の各単語の先頭文字がチェックされ
る。
ステップS2で、上記ステップS1におけるチェックの結
果、総ての単語の先頭文字が大文字であるか否かが判別
される。その結果大文字であればステップS6にスキップ
し、そうでなければスキップ3に進む。
ステップS3で、上記テキストにおける1番目の単語
(文頭単語)の先頭文字が大文字または数字または記号
のいずれであるか否かが判別される。その結果大文字ま
たは数字または記号のいばれかである場合にはステップ
S4に進み、そうでなければステップS7に進む。
ステップS4で、上記テキストにおける2番目以降の各
単語の先頭文字が大文字である割合が算出される。
ステップS5で、上記ステップS4において算出された2
番目以降の各単語の先頭文字が大文字である割合が50%
以上であるか否かが判別される。その結果50%以上であ
る場合にはステップS6に進み、そうでなければステップ
S7に進む。
ステップS6で、上記テキストにおける全単語の先頭文
字が大文字である場合、あるいは、1番目の単語の先頭
文字が大文字または数字または記号であって2番目以降
の各単語の先頭文字の50%以上が大文字の場合には、過
半数の単語の先頭文字が大文字であるので辞書引きモー
ドが大文字モードに自動的に設定される。
その結果、各単語中の大文字は総て小文字に変換され
た後に辞書引きが行われる。したがって、過半数を占め
る大文字を含む単語に対しても正しく辞書引きが行わ
れ、この単語が辞書に登録されている単語であれば形態
素解析が行われるのである。
ステップS7で、1番目の単語の先頭文字が大文字ある
いは数字または記号でない(すなわち、小文字である)
場合、あるいは、1番目の単語の先頭文字が大文字また
は数字または記号であって2番目以降の各単語の先頭文
字の50%以上が小文字の場合には、過半数の単語の先頭
文字が小文字であるので辞書引きモードが標準モードに
自動的に設定される。
その結果、1番目の単語中の先頭文字のみが小文字に
変換された後に辞書引きが行われる。したがって、文中
極めて希に現れる固有名詞等の先頭大文字が小文字に変
換されて辞書引きが行われて誤った訳語に翻訳されるこ
とがないのである。
ここで、上記ステップS5において、2番目以降の単語
の先頭文字が大文字である割合に応じて辞書引きモード
を設定するのは次の理由による。すなわち、入力テキス
トの文頭は標題であることが多く、そのため1番目の単
語の先頭文字は数字(例えば番号を示す“1"等)や記号
(例えば“§”等)が来ることが多いからである。
このように、本実施例においては、形態素解析部11に
よって辞書引きを実施するに先立って、入力テキストを
スペース等を利用して分割して得られた各単語の先頭文
字の内容をチェックし、かつ、入力テキストにおける2
番目以降の各単語の先頭文字が大文字である場合の割合
を算出する。そして、上記テキストにおける全単語の先
頭文字が大文字である場合、あるいは、1番目の単語の
先頭文字が大文字または数字または記号であって2番目
以降の各単語の先頭文字の50%以上が大文字の場合に
は、辞書引きモードを大文字モードに自動的に設定す
る。また、上記テキストにおける1番目の単語の先頭文
字が小文字である場合、あるいは、1番目の単語の先頭
文字が大文字または数字または記号であって2番目以降
の各単語の先頭文字の50%以上が小文字の場合には、辞
書引きモードを標準モードに自動的に設定する。
つまり、入力テキストの過半数の単語の先頭文字が大
文字である場合には大文字モードで辞書引きが行われ
る。したがって、文頭以外の箇所に現れる大文字を有す
る単語であっても辞書に登録されていれば形態素解析が
行われる。一方、入力テキストの過半数の単語の先頭文
字が小文字である場合には標準モードで辞書引きが行わ
れる。したがって、文中の極めて一部に現れる人名や固
有名詞が誤って翻訳されることなくソース言語のまま出
力される。
こうして、入力テキストの文字列構成に応じて自動的
に辞書引きのモーどを最適に設定することによって精度
よく翻訳処理を実施できるのである。
上記実施例においては、各単語の先頭文字が大文字で
あるか小文字であるかによって各種動作を実行するよう
にしているが、この発明は先頭文字以外の文字によって
も構わない。
この発明における辞書引きモード設定処理のアルゴリ
ズムは上記実施例に限定されるものではない。
この発明におけるソース言語およびターゲット言語は
特に限定されるものではない。
〈発明の効果〉 以上より明らかなように、この発明の機械翻訳装置
は、文字判定手段,割合算出手段および辞書引きモード
設定手段を備えて、入力された文章を分割して得られる
総ての形態素における文字列中に大文字があるか否かを
判定する上記文字列判定手段の判定結果が否である場合
に、文字列中に大文字がある形態素の割合を割合算出手
段によって算出し、上記文字列判定手段による判定結果
および上記割合算出手段による上記割合の値に応じて、
上記辞書引きモード設定手段によって自動的に辞書引き
モードを切り替え設定するようにしたので、入力文章の
文字列構成に応じて自動的に辞書引きモードを最適に設
定できる。
したがって、この発明によれば、例えば入力文章の過
半数の形態素が大文字を有する場合には、文頭以外の箇
所に現れる大文字を有する形態素であっても辞書に登録
されていれば形態素解析が行われるようにできる。一
方、入力文章の過半数の形態素が大文字を有しない場合
には、文中の極めて一部に現れる人名や固有名詞が誤っ
て翻訳されることなくソース言語のまま出力されるよう
にできる。
【図面の簡単な説明】
第1図はこの発明の機械翻訳装置の一実施例のブロック
図、第2図は第1図における翻訳モジュールのブロック
図、第3図は辞書引きモード設定処理動作のフローチャ
ート、第4図は従来の機械翻訳装置による辞書引きモー
ド設定処理動作のフローチャートである。 1……メインCPU、2……メインメモリ、3……CRT、4
……キーボード、5……翻訳モジュール、6……メモ
リ、11……形態素解析部、12……構文解析部、13……変
換部、14……翻訳文生成部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 釘宮 秀造 大阪府大阪市阿倍野区長池町22番22号 シヤープ株式会社内 (72)発明者 平井 徳行 大阪府大阪市阿倍野区長池町22番22号 シヤープ株式会社内 (56)参考文献 特開 平1−279323(JP,A) 特開 昭62−82466(JP,A) 特開 昭61−70662(JP,A)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された文章を形態素に分割すると共
    に、辞書を引いてその形態素の訳語および品詞等を得る
    形態素解析部と、上記形態素解析部によって分割された
    形態素列の構文を辞書と文法規則を用いて解析する構文
    解析部と、上記構文解析部で得られた構文の構造を目標
    言語における構文の構造に変換する変換部と、上記変換
    部によって得られた目標言語の構文構造に従って翻訳文
    を生成する翻訳文生成部を有する機械翻訳装置であっ
    て、 上記形態素解析部は、 上記辞書引きに先立って、上記分割された総ての形態素
    における文字列中に大文字があるか否かを判定する文字
    判定手段と、 上記文字判定手段による判定結果が否である場合には、
    大文字が存在する形態素の割合を算出する割合算出手段
    と、 上記文字判定手段による判定結果および上記割合算出手
    段によって算出された上記割合の値に応じて自動的に辞
    書引きモードを標準モードと大文字モードとに切り替え
    設定する辞書引きモード設定手段を有することを特徴と
    する機械翻訳装置。
JP2012147A 1990-01-22 1990-01-22 機械翻訳装置 Expired - Lifetime JP2655922B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012147A JP2655922B2 (ja) 1990-01-22 1990-01-22 機械翻訳装置
US07/641,738 US5289375A (en) 1990-01-22 1991-01-15 Translation machine
GB9101360A GB2240644A (en) 1990-01-22 1991-01-22 Translation machine resolving automatically interpretative indeterminacy

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012147A JP2655922B2 (ja) 1990-01-22 1990-01-22 機械翻訳装置

Publications (2)

Publication Number Publication Date
JPH03216760A JPH03216760A (ja) 1991-09-24
JP2655922B2 true JP2655922B2 (ja) 1997-09-24

Family

ID=11797379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012147A Expired - Lifetime JP2655922B2 (ja) 1990-01-22 1990-01-22 機械翻訳装置

Country Status (1)

Country Link
JP (1) JP2655922B2 (ja)

Also Published As

Publication number Publication date
JPH03216760A (ja) 1991-09-24

Similar Documents

Publication Publication Date Title
JPH077419B2 (ja) 機械翻訳装置における略称付き固有名詞処理方法
JP2815714B2 (ja) 翻訳装置
US5075851A (en) System for translating a source language word with a prefix into a target language word with multiple forms
JPH03222065A (ja) 機械翻訳装置
JP2655922B2 (ja) 機械翻訳装置
JPH0332106B2 (ja)
JP2766738B2 (ja) 機械翻訳装置
JP3174664B2 (ja) 機械翻訳装置
JP4061001B2 (ja) 機械翻訳装置
JP2719453B2 (ja) 機械翻訳装置
JP3197110B2 (ja) 自然言語解析装置および機械翻訳装置
JPH1166068A (ja) 機械翻訳装置および機械翻訳方法ならびに機械翻訳プログラムを記録した記録媒体
JPH0332105B2 (ja)
JP3353873B2 (ja) 機械翻訳装置
JPH10269221A (ja) 未登録語処理方式
JP2000137713A (ja) 機械翻訳装置及び記録媒体
JP2752025B2 (ja) 機械翻訳装置
JPH07121542A (ja) 機械翻訳装置
JPH01166258A (ja) 機械翻訳装置
JPH03222066A (ja) 機械翻訳装置
JPH06203068A (ja) 機械翻訳装置
JPH03265972A (ja) 機械翻訳機
JPH03217971A (ja) 機械翻訳装置
JPH01112368A (ja) 機械翻訳装置
JPH0719260B2 (ja) 機械翻訳装置におけるハイフン合成語処理方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080530

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090530

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100530

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100530

Year of fee payment: 13