JPH10171804A - 機械翻訳装置 - Google Patents

機械翻訳装置

Info

Publication number
JPH10171804A
JPH10171804A JP8329559A JP32955996A JPH10171804A JP H10171804 A JPH10171804 A JP H10171804A JP 8329559 A JP8329559 A JP 8329559A JP 32955996 A JP32955996 A JP 32955996A JP H10171804 A JPH10171804 A JP H10171804A
Authority
JP
Japan
Prior art keywords
morphological analysis
headword
language
dictionary
kana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8329559A
Other languages
English (en)
Inventor
Akiko Niimi
晶子 新美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP8329559A priority Critical patent/JPH10171804A/ja
Publication of JPH10171804A publication Critical patent/JPH10171804A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 構文解析中に不適切な形態素解析結果を検出
し、再度かな漢字変換処理を行うことにより、正確な翻
訳結果文を得ることが可能な機械翻訳装置を提供するこ
と。 【解決手段】 形態素解析結果検出処理においては、先
に行われる形態素解析による形態素解析結果に基づい
て、見出し語の検索が強制的になされたか否か(S41
0)、見出し語が検出されなかった箇所があるか否か
(S470)、見出し語が検出されたが、その見出し語
の長さが1文字または2文字であるような特定の品詞ま
たは文字種が連続している箇所があるか否か(SS48
0)、をそれぞれ検出し、該当する箇所については、そ
の箇所の文字列を切り出し(S420)、かな漢字変換
処理(S430)を行い、漢字かな混じり文字列として
から解析処理を続行し、翻訳文を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、第一言語である日
本語から成る原文を第二言語に翻訳する機械翻訳装置に
関するものである。
【0002】
【従来の技術】従来、例えば日本語(第1言語)から英
語(第2言語)に翻訳する場合には、べた書きの日本語
を単語(形態素)に分割するための形態素解析を行う必
要がある。機械翻訳を行う時は、ほとんどの場合入力文
が既にかなと漢字の混じり文字列(以下、漢字かな混じ
り文字列と記す)である。機械翻訳装置として、かな漢
字変換用の辞書と翻訳用の辞書を重複して持つことは大
容量を必要とするので非効率であり、かつ日本語の表記
の揺れがあるため、これら2つの辞書を一体にするため
の研究も盛んである。そして、出来上がった形態素解析
結果を用いて構文解析を行うが、この技術は、機械翻訳
だけが利用するのではなく、音声認識や合成、日本語文
章推敲支援、情報検索や大規模データベースの開発な
ど、日本語を処理する上で必須の技術である。
【0003】
【発明が解決しようとする課題】しかしながら、日本語
の表記は、ひらがな、カタカナ、漢字及びローマ字等、
文字種が多く、清書法も特にないため、揺れが大きい。
カタカナの場合なら、長音の有無、曖昧母音や撥音、拗
音などの表記の揺れ等がある。また、和語はひらがな、
漢語は漢字、自立語は漢字、付属語・助詞・助動詞はひ
らがな、といった漠然としたルールがあるが、これらも
確実なものではない。かな漢字変換の結果の漢字かな混
じり文字列を翻訳の見出し語とすることで、表記の揺れ
を吸収するという技術も開発されている。また、翻訳用
のテキストを作成する際に行うかな漢字変換で、その対
象になった読みと漢字とをテーブルに格納して、漢字か
ら読みへの逆変換を可能にする日本語処理装置が特開昭
61−260353号公報に示されており、この技術の
応用も考えられる。しかし、現在の機械翻訳システム
は、必ずしもテキストの作成の直後に翻訳を行うより
も、すでに存在しているオンラインのテキストをそのま
ま入力文として機械翻訳システムに取り込む形の利用が
多いため、有効でないことが多い。
【0004】一方で、機械翻訳では、形態素解析時にノ
イズになるようなひらがな、カタカナの辞書見出しを避
けることもあり、必要以上にかな表記が多い等の慣用的
でない表記があると、形態素解析で正しい結果が得られ
なくなることがある。入力文の文字列がひらがなである
ことが原因で形態素解析がうまく行かない場合、その部
分を切り出してかな漢字変換を行い、形態素解析の失敗
を回避する構文解析方法及び装置が特開平7−8505
7号公報に示されている。
【0005】形態素解析の失敗については、ひらがなで
書かれた入力文が原因で発生することが極めて多いが、
かな漢字変換すべき箇所を入力文から正しく切り出して
かな漢字変換を行う方法は、これまで明示されていなか
った。また、たまたま別の見出し語が検索されてしまっ
たために、失敗と認識できず、結果的に正しくない翻訳
結果を生成することも多い。これは、形態素解析で失敗
すると、そのまま構文解析でも失敗してしまうので、結
果として正しい翻訳結果を得ることができなくなるとい
うものである。
【0006】本発明は、上述した問題点を解決するため
になされたものであり、構文解析中に不適切な形態素解
析結果を検出し、再度かな漢字変換処理を行うことによ
り、正確な翻訳結果文を得ることが可能な機械翻訳装置
を提供することを目的としている。
【0007】
【課題を解決するための手段】この目的を達成するため
に、本発明の請求項1記載の機械翻訳装置は、少なくと
も第一言語を日本語とする見出し語と、読みと、その見
出し語に対応する第二言語の訳語と、形態素解析処理に
必要な接続情報とを含み、翻訳処理において参照される
各種辞書登録情報を格納している辞書を有し、その辞書
を用いて、前記第一言語から成る原文を第二言語に翻訳
する機械翻訳装置において、前記辞書を用いて、与えら
れた第一言語の原文について前記見出し語を検索するこ
とにより形態素解析を行う形態素解析手段と、前記辞書
を用いて、前記形態素解析手段により与えられた第一言
語の形態素解析結果に対して構文解析を行う解析手段
と、前記辞書を用いて、第一言語から成る文字列をかな
漢字変換するかな漢字変換手段とを備え、前記形態素解
析手段は、与えられた第一言語の原文の形態素解析が行
われた結果に対して、見出し語の検索状況が適切か否か
を判断する判断手段を有し、前記解析手段は、構文解析
を行う際に、前記判断手段により判断された結果に基づ
いて、見出し語の検索状況が不適切であると判断された
箇所を検出すると共に、その箇所の文字列を抽出して、
前記かな漢字変換手段によってかな漢字変換させる形態
素解析結果検出手段を有している。
【0008】この構成によれば、与えられた第1言語の
原文に対して、まず、形態素解析手段が前記辞書を用い
て見出し語を検索することにより形態素解析を行い、そ
の形態素解析手段による形態素解析結果に対して、解析
手段が構文解析を行う。そして、形態素解析手段に設け
られた判断手段が、形態素解析が行われた結果に対し
て、見出し語の検索状況が適切か否かを判断し、解析手
段に設けられた形態素解析結果検出手段が、前記判断手
段により判断された結果に基づいて、見出し語の検索状
況が不適切であると判断された箇所を検出すると共に、
その箇所の文字列を抽出して、かな漢字変換手段により
かな漢字変換させる。
【0009】従って、見出し語の検出が不適切な可能性
のある箇所については、その文字列を抽出してかな漢字
変換手段によるかな漢字変換を行ってから、解析手段に
よる構文解析が続行され、最終的に第2言語に翻訳され
る。
【0010】また、請求項2記載の機械翻訳装置は、前
記判断手段は、与えられた第一言語の原文に対する見出
し語が前記辞書の見出し語の中から強制的に検索された
ものであるか否かを判断し、その判断結果に基づいて前
記形態素解析結果検出手段は、強制的に検索された箇所
を検出するように構成されている。
【0011】この構成によれば、形態素解析手段による
形態素解析時に、見出し語の検索が強制的になされたか
否かを判断手段が判断し、強制的になされた部分に対し
て何らかのマーキングをすることにより、形態素解析結
果検出手段が前記マーキングに基づいて強制的になされ
た箇所を検出することができる。そして、形態素解析結
果検出手段が、検出した箇所についてその文字列を抽出
してかな漢字変換手段によるかな漢字変換を行ってか
ら、解析手段による構文解析が続行され、最終的に第2
言語に翻訳される。
【0012】また、請求項3記載の機械翻訳装置は、前
記判断手段は、与えられた第一言語の原文に対する見出
し語が前記辞書の見出し語の中から検索されたか否かを
判断し、その判断結果に基づいて前記形態素解析結果検
出手段は、検索されなかった箇所を検出するように構成
されている。
【0013】この構成によれば、形態素解析手段による
形態素解析時に、見出し語が検出されたか否かを判断手
段が判断し、例えば、検索されなかった箇所に対して何
らかのマーキングをすることにより、形態素解析結果検
出手段が前記マーキングに基づいて見出し語が検索され
なかった箇所を検出することができる。そして、形態素
解析結果検出手段が、検出した箇所についてその文字列
を抽出してかな漢字変換手段によるかな漢字変換を行っ
てから、解析手段による構文解析が続行され、最終的に
第2言語に翻訳される。
【0014】また、請求項4記載の機械翻訳装置は、前
記判断手段は、与えられた第一言語の原文に対する見出
し語が前記辞書の見出し語の中から正しく検索されたか
否かを判断し、その判断結果に基づいて前記形態素解析
結果検出手段は、正しく検索された箇所について、さら
に、その見出し語の長さが、1文字または2文字である
ような特定の品詞または文字種が連続している部分を検
出するように構成されている。
【0015】この構成によれば、形態素解析手段による
形態素解析時に、見出し語が正しく検出されたか否かを
判断手段が判断し、例えば、正しく検出された箇所に対
して何らかのマーキングをすることにより、形態素解析
結果検出手段が前記マーキングに基づいて見出し語が正
しく検出された箇所を検出する。さらに、形態素解析結
果検出手段が、その検出された箇所について、見出し語
の長さが1文字または2文字であるような特定の品詞ま
たは文字種が連続している部分があるか否かを検出し、
そのような部分がある場合には、検出した箇所をについ
てその文字列を抽出してかな漢字変換手段によるかな漢
字変換を行ってから、解析手段による構文解析が続行さ
れ、最終的に第2言語に翻訳される。
【0016】
【発明の実施の形態】以下、本発明の機械翻訳装置を具
体化した実施の形態について図面を参照して説明する。
尚、本実施の形態では、日本語(第1言語)から英語
(第2言語)に翻訳する場合を例として説明する。
【0017】まず、本実施形態の機械翻訳装置の概略構
成を示すブロック図を図1に示す。
【0018】図1に示すように、本実施形態の機械翻訳
装置は、翻訳対象となる日本語の原文や各種操作指示等
を入力するためのキーボード等から成る入力部2と、翻
訳処理に利用される各種辞書が格納され、ハードディス
クや光ディスク等から成る外部記憶装置4と、入力され
た日本語の原文や翻訳結果である英語の訳文等を表示す
るためのCRT等から成る表示部6と、その表示部6に
表示するデータを制御する表示制御部7と、翻訳結果で
ある英語の訳文等を印刷して出力するためのレーザープ
リンタ等から成る印刷部8と、前記入力部2や外部翻訳
装置4から入力されるデータに基づいて翻訳処理を行
い、その翻訳結果を表示部6に表示したり、印刷部8か
ら出力する等の制御を行う制御部10とから構成されて
いる。
【0019】前記入力部2には、文字を入力するための
文字キー、各種処理を起動するための入力文編集キー、
翻訳実行キー、出力文編集キー、終了キー、及びユーザ
辞書編集キー、印字実行キーといった各種機能キー、入
力文や出力文の編集、表示部6に表示されている画面操
作等に使用するカーソルキー、挿入キー、削除キー、確
定キー、及び次候補選択キー等が設けられている。
【0020】また、前記外部記憶装置4には、翻訳処理
に利用される辞書12が格納されている。この辞書12
が、本発明の辞書を構成している。
【0021】機械翻訳装置が利用する辞書としては、機
械翻訳装置が予め保有している基本辞書、専門分野毎に
編集された専門辞書、及びユーザが独自に構築するユー
ザ辞書がある。専門辞書、ユーザ辞書は利用しても、利
用しなくてもよい。また、専門辞書は、各種専門分野毎
に、ユーザ辞書は、例えば、ユーザ毎や利用分野毎にそ
れぞれ複数個の辞書が同時に存在可能に構成されていて
もよい。本実施形態では、これらの利用については特に
明言しない。
【0022】図2に、上記した辞書のデータ構成の一例
を示す。個々の辞書登録情報は、それぞれ見出し語30
と、各見出し語の品詞32と、各見出し語の読み34
と、各見出し語に対する訳語36と、前後の接続情報や
意味情報等を含む様々な辞書情報38とから構成されて
いる。
【0023】次に、前記制御部10は、CPU18、R
OM20、RAM22、入出力ポート24、及びこれら
各部を結ぶパスライン26を備えた周知のマイクロコン
ピュータにより構成されている。そして、制御部10に
おいては、ROM20に格納されたプログラムによって
各種処理が実行される。例えば、前記入力部2から入力
された日本語の原文を英語に翻訳すると共に、原文や翻
訳文の編集等を行う翻訳・編集処理、また、翻訳時に利
用するユーザ辞書を構築するための辞書編集処理等が実
行される。
【0024】また、前記ROM20には、後述する翻訳
処理において使用される各種情報が格納されている。こ
のROM20が、本発明の形態素解析手段、解析手段、
かな漢字変換手段、形態素解析結果検出手段及び判断手
段をそれぞれ構成している。
【0025】前記RAM22には、入力部から入力され
る日本語の原文、及び翻訳・編集処理により翻訳、編集
された英語の訳文が格納される。
【0026】続いて、制御部10が実行する翻訳・編集
処理について図3〜図4に示すフローチャートに従って
説明する。
【0027】図3に示すように、翻訳・編集処理が実行
されると、まず、ステップ110(以下、S110と略
称する。他のステップも同様)において、ユーザにより
入力部2の文字キー等が操作され、翻訳対象となる日本
語の原文が入力されるのを待つ。ここで、原文の入力
は、既に作成されている原文のファイルを読み込むよう
に構成してもよい。そして、日本語の原文(以下、入力
文)が入力されると、S120に進み、この入力文を、
表示部6の所定のエリアに表示する。
【0028】次に、S130では、入力部2に設けられ
た入力文編集キーが操作されたか否かを判断し、操作さ
れていなければ(S130:N)、S150に移行す
る。また、入力文編集キーが操作されていれば(S13
0:Y)、S140に移行し、入力文編集処理を実行す
る。尚、入力文編集処理が実行されると、ユーザは表示
部6の所定のエリアに表示された入力文を、入力部2に
設けられたカーソルキー、削除キー、挿入キー及び文字
キー等を使用して直接修正することが可能となる。S1
50では、入力部2に設けられた翻訳実行キーが操作さ
れたか否かを判断し、操作されていなければ(S15
0:N)、S190に移行し、また、翻訳実行キーが操
作されていれば(S150:Y)、S160に移行し、
日本語の入力文を英語の訳文(以下、出力文とする)に
翻訳する翻訳処理を実行し、続くS170において、翻
訳処理により得られた出力文を入力文と対にしてRAM
22に格納すると共に、S180において、表示部6に
設けられた所定のエリアにそれぞれ入力文と出力文とを
表示する。
【0029】尚、翻訳処理は、入力文全部を一括して実
行しても良いし、文章単位で範囲を指定し、指定された
範囲の文章のみについて実行するようにしてもよい。
【0030】S190では、入力部2に設けられた出力
文編集キーが操作されたか否かを判断し、操作されてい
なければ(S190:N)、S210に移行する。ま
た、出力文編集キーが操作されていれば(S190:
Y)、S200に移行し、出力文編集処理を実行する。
尚、出力文編集処理が実行されると、ユーザは先のS1
60において翻訳処理が実行されることにより表示部6
の所定のエリアに表示される出力文(英語の訳文)を、
S140の入力文編集処理と同様に、入力部2に設けら
れたカーソルキー、削除キー、挿入キー及び文字キー等
を使用して、直接修正することが可能となる。
【0031】S210では、入力部2に設けられた終了
キーが操作されたか否かを判断し、操作されていなけれ
ば(S220:N)、S220に移行し、例えば、ユー
ザ辞書登録をするためのユーザ辞書編集キー、翻訳され
た出力文を印刷部8に出力し印刷させる印刷実行キー
等、その他のキー操作を検出すると共に、操作されたキ
ーに応じた処理を実行する。
【0032】そして、先のS140、S180、S20
0、S220が処理された後は、S130に戻り、同様
の処理を繰り返し実行する。
【0033】また、S210にて、終了キーが操作され
たと判断されると(S210:Y)、本処理を終了す
る。
【0034】このように翻訳・編集処理においては、日
本語の原文が入力された後、入力部2に設けられた各種
キーの操作に従って、入力文の編集処理、翻訳処理、辞
書編集処理、及び出力文編集処理といった各種処理が実
行される。そして、もし、翻訳実行キーを操作し翻訳処
理を実行したが、得られた出力文(英語の訳文)が不正
確であったり不自然であったりする場合には、入力文編
集キーを操作して入力文編集処理を実行し、入力文であ
る日本語の原文を再編集した後、またはユーザ辞書編集
キーを操作してユーザ辞書を編集した後、再度、翻訳実
行キーを操作して再翻訳させるか、あるいは出力文編集
キーを操作して出力文編集処理を実行し、出力文である
英語の訳文を直接編集する。
【0035】このような処理を繰り返すことにより、ユ
ーザが求める翻訳結果を得ることができれば、印刷キー
を操作して、翻訳結果を印刷部8から出力したり、テキ
ストデータとしてRAM22や外部記憶装置4に保存
し、その後、終了キーを操作して、処理を終了する。
【0036】次に、図3に示すフローチャート中のS1
60において実行され、入力文(日本語の原文)から出
力文(英語の訳文)に翻訳する翻訳処理について、図4
に示すフローチャートに従って説明する。
【0037】まず、S250では、形態素解析処理内の
予め定められた判断規則と辞書内の接続情報を用いて、
入力文を構成する単語について辞書12を検索し、見出
し語が検索できたものに対して、訳語、品詞、接続フラ
グ等を形態素解析結果に付与する形態素解析処理を実行
する。
【0038】ここでは、もし、ユーザ辞書や専門辞書が
利用されていれば、同じ文字列に対して、ユーザ辞書が
最も優先される。ついで専門辞書、システム内部の基本
辞書の順に辞書が利用される。この時、S390の接続
判断処理に移行し、形態素解析処理において検索された
見出し語について、正しく接続されているか、見出し語
は検索できたが接続が不可であるか(これを以下、強制
接続という)、あるいは、見出し語に候補が見つからな
い部分か(これを以下、未知語という)を判断して接続
フラグにその値を格納する。このS390の処理が、本
発明の判断手段として機能している。そして、入力文の
文末まで処理した後、S260へ移行する。
【0039】S260では、S250における形態素解
析処理の結果を受け取り、ROM20に格納されている
予め定められた解析文法を用いて、日本語の構造を解析
する解析処理を実行する。この時、S400の形態素解
析結果検出処理に移行し、上記接続判断処理(S39
0)で「強制接続」、「未知語」であると判断され、そ
れを示す接続フラグが付与されている箇所を修正しなが
ら、日本語の解析処理を実行する。このS400の処理
が、本発明の形態素解析結果検出手段として機能してい
る。
【0040】続くS270では、ROM20に格納され
ている予め定められた変換文法を用いて、解析処理によ
り解析された日本語の構造を英語の構造に変換すると共
に、個々の単語を英語に置き換える変換処理を実行す
る。続くS280では、ROM20に格納されている予
め定められた生成文法を用いて、変換処理により変換さ
れた英語の構造から英語の語順を決定したり、英語に特
有の冠詞を生成したり、入力文に存在しなくても出力文
には必須の主語を補充したり、テンス、アスペクト、人
称及び数素性等を処理し、英語の単語列から成る出力文
を生成する生成処理を実行する。そして、S290で
は、ROM20に格納されている予め定められた形態素
生成規則を用いて、S280の生成処理により生成され
た英語の単語列に対して、名詞の複数形、動詞の過去、
過去分詞等の活用形を生成して、出力文を得る形態素生
成処理を実行して翻訳処理を終了する。
【0041】次に、図4中のS400において実行され
る形態素解析結果検出処理について、図5に示すフロー
チャートに従って説明する。
【0042】まず、形態素解析結果検出処理は、S41
0において、入力文中に接続フラグの値が「強制接続」
である箇所が存在するか否かを検出する。存在していれ
ば(S410:Y)、S420へ移行する。S420で
は、強制接続の直前の見出し語の品詞が助詞の時は、2
つ前から、それ以外は直前の見出し語から後ろの文字列
を切り出して、S430へ移行する。助詞の時に2つ前
から切り出すのは、かな漢字変換処理で共起情報を利用
し易くするためである。
【0043】S430では、送られてきた文字列がひら
がなであればそのまま、それ以外の字種であれば辞書1
2の読み34を利用してかな漢字変換処理を行い、S4
40へ移行する。S440では、かな漢字変換処理が成
功して、文字列が漢字かな混じり文字列に書き換えられ
たか否かを検出する。成功して書き換えられた場合には
(S440:Y)、S450へ移行し、戻された漢字か
な混じり文字列の見出し語について辞書12を検索し、
解析処理に必要な品詞32と、訳語36と、辞書情報3
8をつけ直して、S460へ移行する。S460では、
新しく出来上がった漢字かな混じり文字列を元の入力文
に戻して、S410へ移行する。即ち、S420におい
て切り出された文字列の部分へ、新しく出来上がった漢
字かな混じり文字列が戻されることになる。尚、上記S
430の処理が、本発明のかな漢字変換手段として機能
している。
【0044】また、上記S440において、かな漢字変
換処理が成功しなかった場合(S440:N)、S49
0へ移行し、かな漢字変換処理に利用した文字列をS4
20で切り出してきた元の文字列に戻して、接続フラグ
の値を修正失敗に変更し、さらに後方の文字列の検出の
ためにS410へ移行する。
【0045】接続フラグの値が「強制接続」の箇所が検
出されなかった場合は(S410:NO)、S470へ
移行する。S470では、接続フラグの値が「未知語」
である箇所が存在するか否かを検出する。存在していれ
ば(S470:Y)、S420へ移行し、強制接続の時
と同様の処理を行う。
【0046】また、接続フラグの値が「未知語」の箇所
が検出されなかった場合は(S470:N)、S480
へ移行する。このS480における処理は、見出し語の
検出が正しくなされたとみなされる箇所に対して行わ
れ、見出し語の文字数が1文字または2文字で、かつ文
字種がひらがなか、カタカナのいずれかである名詞が連
続して接続している箇所があるか否かを検出する。これ
は、ひらがなや、カタカナの短い見出し語が連続して検
索されている場合は正しくないという経験則があるから
である(この後に具体的な例を挙げる)。
【0047】そのような箇所が存在していれば(S48
0:Y)、S420へ移行し、強制接続の時と同様の処
理を行う。そして、上記S480において何も検出され
なかった時は(S480:N)、形態素解析結果検出処
理を終了し、S260の解析処理に戻る。
【0048】ここで、上述した形態素解析結果検出処理
においてなされる処理について、例文を挙げて説明す
る。
【0049】例えば、入力文が「最初にご飯をたこ
う。」である場合を例に挙げる。この場合、辞書の見出
し語の検索状況によっていろいろな失敗が起こる。例え
ば、「たこう」がひらがなのために形態素解析結果は、
名詞の「たこ」と意志を表わす助動詞「う」が見出し語
として検索される可能性がある。しかし、この2語の判
断の結果は、日本語の助動詞は名詞に続かないという特
性のため、接続フラグの値が「強制接続」になり、図5
のフローチャート中のS410で「YES」と判断され
る。そして、「たこ」の直前が格助詞の「を」なので、
S420において、文字列「飯をたこう。」が切り出さ
れてかな漢字変換処理(S430)に渡され、「飯を炊
こう。」に変換される。この漢字かな混じり文字列が入
力文中に戻されて、形態素解析処理による正しい構文解
析が続行された結果、出力文 "Let'scook rice." を得
ることができる。
【0050】次に、入力文が「ちりとりを持ってきてく
ださい。」である場合を示す。「ちりとり」が「塵」と
格助詞「と」とが検索されるが、「り」は該当する見出
し語が辞書内に存在しないため、未知語「り」となる。
この時、図5のフローチャート中のS470で「YE
S」と判断される。そして、「り」の直前は助詞なの
で、S420において、文字列「ちりとりを持ってきて
ください。」が切り出されてかな漢字変換処理(S43
0)に渡され、「塵取りを持ってきてください。」に変
換される。この漢字かな混じり文字列が入力文中に戻さ
れて、形態素解析処理による正しい構文解析が続行され
た結果、 "Bring a dust and り." ではなく、出力文 "
Bring a dustpan." を得ることができる。
【0051】また、入力文が「チリトリを持ってきてく
ださい。」である場合を示す。カタカナの「チリトリ」
については、「塵」と「鳥」が見出し語として検索され
る可能性がある。この時、図5のフローチャート中のS
480で「YES」と判断される。そして、「チリ」の
直前は文頭であり助詞ではないので、S420におい
て、文字列「チリトリを持ってきてください。」が切り
出されてかな漢字変換処理に渡され、「塵取りを持って
きて下さい。」に変換される。この漢字かな混じり文字
列が入力文中に戻されて、形態素解析処理による正しい
構文解析が続行された結果、出力文 "Bring a dustpa
n." を得ることができる。
【0052】尚、本発明は上記した実施形態に限定され
るものではなく、種々の変更を加えることができる。例
えば、今回は見出し語の読みの情報を、辞書の情報から
持ってきて、かな漢字変換処理を行ったが、特開昭61
−260353号公報に示されている技術と併せてかな
文字列に戻すことができれば、より精度の高いかな漢字
変換結果を得ることができる。また、かな漢字変換処理
に渡す日本語の文字列も、文頭、句読点、括弧の直後
等、もっと広めに切り出してくるように構成することも
可能である。
【0053】さらに、このように強制的にかな漢字変換
を行った漢字かな混じり文字列を、ユーザにわかるよう
に、出力文中で強調表示したりすれば、間違ったかな漢
字変換をした場合や、入力文が間違っていたためにかな
漢字変換処理に失敗した場合などでも、速やかに入力文
を編集することができるので、より精度の高い翻訳結果
を得ることができる。
【0054】
【発明の効果】以上説明したことから明かなように、本
発明の請求項1記載の機械翻訳装置によれば、形態素解
析手段に設けられた判断手段が、形態素解析手段による
形態素解析が行われた結果に対して、見出し語の検索状
況が適切か否かを判断し、解析手段に設けられた形態素
解析結果検出手段が、前記判断手段により判断された結
果に基づいて、見出し語の検索状況が不適切であると判
断された箇所を検出すると共に、その箇所の文字列を抽
出して、かな漢字変換手段によりかな漢字変換させるの
で、見出し語の検出が不適切な可能性のある箇所につい
ては、その文字列を抽出してかな漢字変換手段によるか
な漢字変換を行ってから、解析手段による構文解析が続
行されることになり、より正確な構文解析結果を得るこ
とができ、さらに、それを用いることで最終的に精度の
高い翻訳結果を得ることができる。
【0055】また、請求項2に記載の機械翻訳装置によ
れば、形態素解析手段による形態素解析時に、見出し語
の検索が強制的になされたか否かを判断手段が判断し、
強制的になされた部分に対して何らかのマーキングをす
ることにより、形態素解析結果検出手段が前記マーキン
グに基づいて強制的になされた箇所を検出することがで
きるので、その検出した箇所について文字列を抽出して
かな漢字変換手段によるかな漢字変換を行ってから、解
析手段による構文解析が続行されることになり、より正
確な構文解析結果を得ることができ、さらに、それを用
いることで最終的に精度の高い翻訳結果を得ることがで
きる。
【0056】例えば、入力文がひらがなであったため
に、見出し語が強制的に検出される可能性があるが、こ
の場合、その箇所は、判断手段により、強制的に検出さ
れたと判断され、形態素解析結果検出手段が、その箇所
の文字列を抽出してかな漢字変換手段によりかな漢字変
換を行ってから、再度解析手段による構文解析を行うの
で、最終的に正確な翻訳結果を得ることができる。
【0057】また、請求項3記載の機械翻訳装置によれ
ば、形態素解析手段による形態素解析時に、見出し語が
検出されたか否かを判断手段が判断し、例えば、検索さ
れなかった箇所に対して何らかのマーキングをすること
により、形態素解析結果検出手段が前記マーキングに基
づいて見出し語が検索されなかった箇所を検出すること
ができる。そして、形態素解析結果検出手段が、検出し
た箇所についてその文字列を抽出してかな漢字変換手段
によるかな漢字変換を行ってから、解析手段による構文
解析が続行されることになり、より正確な構文解析結果
を得ることができ、さらに、それを用いることで最終的
に精度の高い翻訳結果を得ることができる。
【0058】例えば、入力文がひらがなであったため
に、見出し語が検出されない箇所が存在する可能性があ
るが、この場合、その箇所は、判断手段により見出し語
が検出されていないと判断され、形態素解析結果検出手
段が、その箇所の文字列を抽出してかな漢字変換手段に
よりかな漢字変換を行ってから、再度解析手段による構
文解析を行うので、最終的に正確な翻訳結果を得ること
ができる。
【0059】また、請求項4記載の機械翻訳装置によれ
ば、形態素解析手段による形態素解析時に、見出し語が
正しく検出されたか否かを判断手段が判断し、例えば、
正しく検出された箇所に対して何らかのマーキングをす
ることにより、形態素解析結果検出手段が前記マーキン
グに基づいて見出し語が正しく検出された箇所を検出す
る。さらに、形態素解析結果検出手段が、その検出され
た箇所について、見出し語の長さが1文字または2文字
であるような特定の品詞または文字種が連続している部
分があるか否かを検出し、そのような部分がある場合に
は、検出した箇所をについてその文字列を抽出してかな
漢字変換手段によるかな漢字変換を行ってから、解析手
段による構文解析が続行されることになり、より正確な
構文解析結果を得ることができ、さらに、それを用いる
ことで最終的に精度の高い翻訳結果を得ることができ
る。
【0060】例えば、見出し語が検出されたとしても、
その見出し語の長さが1文字または2文字であるような
特定の品詞または文字種が連続している部分は、間違っ
て検出された可能性が高いが、この場合、その箇所は、
形態素解析結果検出手段により検出され、かつその箇所
の文字列を抽出してかな漢字変換手段によりかな漢字変
換を行ってから、再度解析手段による構文解析を行うの
で、最終的に正確な翻訳結果を得ることができる。
【図面の簡単な説明】
【図1】本実施形態の機械翻訳装置の全体構成を示すブ
ロック図である。
【図2】本実施形態の辞書のデータの構成の説明図であ
る。
【図3】本実施形態の機械翻訳装置の動作を表わすフロ
ーチャートである。
【図4】本実施形態の機械翻訳装置の翻訳処理の流れを
表わすフローチャートである。
【図5】本実施形態の機械翻訳装置の形態素解析結果検
出処理の流れを表わすフローチャートである。
【符号の説明】
4 外部記憶装置 10 制御部 18 CPU 20 ROM 22 RAM

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも第一言語を日本語とする見出
    し語と、読みと、その見出し語に対応する第二言語の訳
    語と、形態素解析処理に必要な接続情報とを含み、翻訳
    処理において参照される各種辞書登録情報を格納してい
    る辞書を有し、その辞書を用いて、前記第一言語から成
    る原文を第二言語に翻訳する機械翻訳装置において、 前記辞書を用いて、与えられた第一言語の原文について
    前記見出し語を検索することにより形態素解析を行う形
    態素解析手段と、 前記辞書を用いて、前記形態素解析手段により与えられ
    た第一言語の形態素解析結果に対して構文解析を行う解
    析手段と、 前記辞書を用いて、第一言語から成る文字列をかな漢字
    変換するかな漢字変換手段と、 を備え、 前記形態素解析手段は、与えられた第一言語の原文の形
    態素解析が行われた結果に対して、見出し語の検索状況
    が適切か否かを判断する判断手段を有し、 前記解析手段は、構文解析を行う際に、前記判断手段に
    より判断された結果に基づいて、見出し語の検索状況が
    不適切であると判断された箇所を検出すると共に、その
    箇所の文字列を抽出して、前記かな漢字変換手段によっ
    てかな漢字変換させる形態素解析結果検出手段を有する
    ことを特徴とする機械翻訳装置。
  2. 【請求項2】 前記判断手段は、与えられた第一言語の
    原文に対する見出し語が前記辞書の見出し語の中から強
    制的に検索されたものであるか否かを判断し、その判断
    結果に基づいて前記形態素解析結果検出手段は、強制的
    に検索された箇所を検出するように構成されていること
    を特徴とする請求項1に記載の機械翻訳装置。
  3. 【請求項3】 前記判断手段は、与えられた第一言語の
    原文に対する見出し語が前記辞書の見出し語の中から検
    索されたか否かを判断し、その判断結果に基づいて前記
    形態素解析結果検出手段は、検索されなかった箇所を検
    出するように構成されていることを特徴とする請求項1
    に記載の機械翻訳装置。
  4. 【請求項4】 前記判断手段は、与えられた第一言語の
    原文に対する見出し語が前記辞書の見出し語の中から正
    しく検索されたか否かを判断し、その判断結果に基づい
    て前記形態素解析結果検出手段は、正しく検索された箇
    所について、さらに、その見出し語の長さが、1文字ま
    たは2文字であるような特定の品詞または文字種が連続
    している部分を検出するように構成されていることを特
    徴とする請求項1に記載の機械翻訳装置。
JP8329559A 1996-12-10 1996-12-10 機械翻訳装置 Pending JPH10171804A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8329559A JPH10171804A (ja) 1996-12-10 1996-12-10 機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8329559A JPH10171804A (ja) 1996-12-10 1996-12-10 機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH10171804A true JPH10171804A (ja) 1998-06-26

Family

ID=18222718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8329559A Pending JPH10171804A (ja) 1996-12-10 1996-12-10 機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH10171804A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176392A (ja) * 2007-01-16 2008-07-31 Nec Corp 新語収集装置、方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176392A (ja) * 2007-01-16 2008-07-31 Nec Corp 新語収集装置、方法およびプログラム

Similar Documents

Publication Publication Date Title
KR900008375B1 (ko) 기계번역시스템
KR900008769B1 (ko) 기계번역시스템
EP0370774B1 (en) Machine translation system
KR900009120B1 (ko) 기계번역장치
EP0310049B1 (en) Document generator and correction support device
JPH10171804A (ja) 機械翻訳装置
JP3244286B2 (ja) 翻訳処理装置
JPS62271057A (ja) 翻訳装置における辞書登録方式
JPH10320391A (ja) 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3692711B2 (ja) 機械翻訳装置
JPS62203266A (ja) 機械翻訳システム
JP2938897B2 (ja) 文書作成処理装置
JPH07200605A (ja) 翻訳装置
JPH0531186B2 (ja)
JPH09146937A (ja) 文字列変換装置および文字列変換方法
JPS60207948A (ja) カナ漢字変換処理装置
JPH07200592A (ja) 文章処理装置
Bol'shakov Automatic error correction in inflected languages
JPH08241315A (ja) 文書処理装置の単語登録機構
JPH05233619A (ja) 日本語文章誤り訂正方法およびその装置
JPH0546612A (ja) 文章誤り検出装置
JPH02110771A (ja) 電訳機
JPH0610804B2 (ja) かな漢字変換装置
JPH0212458A (ja) 機械翻訳システム
JPS6320570A (ja) 機械翻訳システム