JPH10171804A

JPH10171804A - 機械翻訳装置

Info

Publication number: JPH10171804A
Application number: JP8329559A
Authority: JP
Inventors: Akiko Niimi; 晶子新美
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 1996-12-10
Filing date: 1996-12-10
Publication date: 1998-06-26

Abstract

(57)【要約】【課題】構文解析中に不適切な形態素解析結果を検出
し、再度かな漢字変換処理を行うことにより、正確な翻
訳結果文を得ることが可能な機械翻訳装置を提供するこ
と。【解決手段】形態素解析結果検出処理においては、先
に行われる形態素解析による形態素解析結果に基づい
て、見出し語の検索が強制的になされたか否か（Ｓ４１
０）、見出し語が検出されなかった箇所があるか否か
（Ｓ４７０）、見出し語が検出されたが、その見出し語
の長さが１文字または２文字であるような特定の品詞ま
たは文字種が連続している箇所があるか否か（ＳＳ４８
０）、をそれぞれ検出し、該当する箇所については、そ
の箇所の文字列を切り出し（Ｓ４２０）、かな漢字変換
処理（Ｓ４３０）を行い、漢字かな混じり文字列として
から解析処理を続行し、翻訳文を生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、第一言語である日
本語から成る原文を第二言語に翻訳する機械翻訳装置に
関するものである。

【０００２】

【従来の技術】従来、例えば日本語（第１言語）から英
語（第２言語）に翻訳する場合には、べた書きの日本語
を単語（形態素）に分割するための形態素解析を行う必
要がある。機械翻訳を行う時は、ほとんどの場合入力文
が既にかなと漢字の混じり文字列（以下、漢字かな混じ
り文字列と記す）である。機械翻訳装置として、かな漢
字変換用の辞書と翻訳用の辞書を重複して持つことは大
容量を必要とするので非効率であり、かつ日本語の表記
の揺れがあるため、これら２つの辞書を一体にするため
の研究も盛んである。そして、出来上がった形態素解析
結果を用いて構文解析を行うが、この技術は、機械翻訳
だけが利用するのではなく、音声認識や合成、日本語文
章推敲支援、情報検索や大規模データベースの開発な
ど、日本語を処理する上で必須の技術である。

【０００３】

【発明が解決しようとする課題】しかしながら、日本語
の表記は、ひらがな、カタカナ、漢字及びローマ字等、
文字種が多く、清書法も特にないため、揺れが大きい。
カタカナの場合なら、長音の有無、曖昧母音や撥音、拗
音などの表記の揺れ等がある。また、和語はひらがな、
漢語は漢字、自立語は漢字、付属語・助詞・助動詞はひ
らがな、といった漠然としたルールがあるが、これらも
確実なものではない。かな漢字変換の結果の漢字かな混
じり文字列を翻訳の見出し語とすることで、表記の揺れ
を吸収するという技術も開発されている。また、翻訳用
のテキストを作成する際に行うかな漢字変換で、その対
象になった読みと漢字とをテーブルに格納して、漢字か
ら読みへの逆変換を可能にする日本語処理装置が特開昭
６１−２６０３５３号公報に示されており、この技術の
応用も考えられる。しかし、現在の機械翻訳システム
は、必ずしもテキストの作成の直後に翻訳を行うより
も、すでに存在しているオンラインのテキストをそのま
ま入力文として機械翻訳システムに取り込む形の利用が
多いため、有効でないことが多い。

【０００４】一方で、機械翻訳では、形態素解析時にノ
イズになるようなひらがな、カタカナの辞書見出しを避
けることもあり、必要以上にかな表記が多い等の慣用的
でない表記があると、形態素解析で正しい結果が得られ
なくなることがある。入力文の文字列がひらがなである
ことが原因で形態素解析がうまく行かない場合、その部
分を切り出してかな漢字変換を行い、形態素解析の失敗
を回避する構文解析方法及び装置が特開平７−８５０５
７号公報に示されている。

【０００５】形態素解析の失敗については、ひらがなで
書かれた入力文が原因で発生することが極めて多いが、
かな漢字変換すべき箇所を入力文から正しく切り出して
かな漢字変換を行う方法は、これまで明示されていなか
った。また、たまたま別の見出し語が検索されてしまっ
たために、失敗と認識できず、結果的に正しくない翻訳
結果を生成することも多い。これは、形態素解析で失敗
すると、そのまま構文解析でも失敗してしまうので、結
果として正しい翻訳結果を得ることができなくなるとい
うものである。

【０００６】本発明は、上述した問題点を解決するため
になされたものであり、構文解析中に不適切な形態素解
析結果を検出し、再度かな漢字変換処理を行うことによ
り、正確な翻訳結果文を得ることが可能な機械翻訳装置
を提供することを目的としている。

【０００７】

【課題を解決するための手段】この目的を達成するため
に、本発明の請求項１記載の機械翻訳装置は、少なくと
も第一言語を日本語とする見出し語と、読みと、その見
出し語に対応する第二言語の訳語と、形態素解析処理に
必要な接続情報とを含み、翻訳処理において参照される
各種辞書登録情報を格納している辞書を有し、その辞書
を用いて、前記第一言語から成る原文を第二言語に翻訳
する機械翻訳装置において、前記辞書を用いて、与えら
れた第一言語の原文について前記見出し語を検索するこ
とにより形態素解析を行う形態素解析手段と、前記辞書
を用いて、前記形態素解析手段により与えられた第一言
語の形態素解析結果に対して構文解析を行う解析手段
と、前記辞書を用いて、第一言語から成る文字列をかな
漢字変換するかな漢字変換手段とを備え、前記形態素解
析手段は、与えられた第一言語の原文の形態素解析が行
われた結果に対して、見出し語の検索状況が適切か否か
を判断する判断手段を有し、前記解析手段は、構文解析
を行う際に、前記判断手段により判断された結果に基づ
いて、見出し語の検索状況が不適切であると判断された
箇所を検出すると共に、その箇所の文字列を抽出して、
前記かな漢字変換手段によってかな漢字変換させる形態
素解析結果検出手段を有している。

【０００８】この構成によれば、与えられた第１言語の
原文に対して、まず、形態素解析手段が前記辞書を用い
て見出し語を検索することにより形態素解析を行い、そ
の形態素解析手段による形態素解析結果に対して、解析
手段が構文解析を行う。そして、形態素解析手段に設け
られた判断手段が、形態素解析が行われた結果に対し
て、見出し語の検索状況が適切か否かを判断し、解析手
段に設けられた形態素解析結果検出手段が、前記判断手
段により判断された結果に基づいて、見出し語の検索状
況が不適切であると判断された箇所を検出すると共に、
その箇所の文字列を抽出して、かな漢字変換手段により
かな漢字変換させる。

【０００９】従って、見出し語の検出が不適切な可能性
のある箇所については、その文字列を抽出してかな漢字
変換手段によるかな漢字変換を行ってから、解析手段に
よる構文解析が続行され、最終的に第２言語に翻訳され
る。

【００１０】また、請求項２記載の機械翻訳装置は、前
記判断手段は、与えられた第一言語の原文に対する見出
し語が前記辞書の見出し語の中から強制的に検索された
ものであるか否かを判断し、その判断結果に基づいて前
記形態素解析結果検出手段は、強制的に検索された箇所
を検出するように構成されている。

【００１１】この構成によれば、形態素解析手段による
形態素解析時に、見出し語の検索が強制的になされたか
否かを判断手段が判断し、強制的になされた部分に対し
て何らかのマーキングをすることにより、形態素解析結
果検出手段が前記マーキングに基づいて強制的になされ
た箇所を検出することができる。そして、形態素解析結
果検出手段が、検出した箇所についてその文字列を抽出
してかな漢字変換手段によるかな漢字変換を行ってか
ら、解析手段による構文解析が続行され、最終的に第２
言語に翻訳される。

【００１２】また、請求項３記載の機械翻訳装置は、前
記判断手段は、与えられた第一言語の原文に対する見出
し語が前記辞書の見出し語の中から検索されたか否かを
判断し、その判断結果に基づいて前記形態素解析結果検
出手段は、検索されなかった箇所を検出するように構成
されている。

【００１３】この構成によれば、形態素解析手段による
形態素解析時に、見出し語が検出されたか否かを判断手
段が判断し、例えば、検索されなかった箇所に対して何
らかのマーキングをすることにより、形態素解析結果検
出手段が前記マーキングに基づいて見出し語が検索され
なかった箇所を検出することができる。そして、形態素
解析結果検出手段が、検出した箇所についてその文字列
を抽出してかな漢字変換手段によるかな漢字変換を行っ
てから、解析手段による構文解析が続行され、最終的に
第２言語に翻訳される。

【００１４】また、請求項４記載の機械翻訳装置は、前
記判断手段は、与えられた第一言語の原文に対する見出
し語が前記辞書の見出し語の中から正しく検索されたか
否かを判断し、その判断結果に基づいて前記形態素解析
結果検出手段は、正しく検索された箇所について、さら
に、その見出し語の長さが、１文字または２文字である
ような特定の品詞または文字種が連続している部分を検
出するように構成されている。

【００１５】この構成によれば、形態素解析手段による
形態素解析時に、見出し語が正しく検出されたか否かを
判断手段が判断し、例えば、正しく検出された箇所に対
して何らかのマーキングをすることにより、形態素解析
結果検出手段が前記マーキングに基づいて見出し語が正
しく検出された箇所を検出する。さらに、形態素解析結
果検出手段が、その検出された箇所について、見出し語
の長さが１文字または２文字であるような特定の品詞ま
たは文字種が連続している部分があるか否かを検出し、
そのような部分がある場合には、検出した箇所をについ
てその文字列を抽出してかな漢字変換手段によるかな漢
字変換を行ってから、解析手段による構文解析が続行さ
れ、最終的に第２言語に翻訳される。

【００１６】

【発明の実施の形態】以下、本発明の機械翻訳装置を具
体化した実施の形態について図面を参照して説明する。
尚、本実施の形態では、日本語（第１言語）から英語
（第２言語）に翻訳する場合を例として説明する。

【００１７】まず、本実施形態の機械翻訳装置の概略構
成を示すブロック図を図１に示す。

【００１８】図１に示すように、本実施形態の機械翻訳
装置は、翻訳対象となる日本語の原文や各種操作指示等
を入力するためのキーボード等から成る入力部２と、翻
訳処理に利用される各種辞書が格納され、ハードディス
クや光ディスク等から成る外部記憶装置４と、入力され
た日本語の原文や翻訳結果である英語の訳文等を表示す
るためのＣＲＴ等から成る表示部６と、その表示部６に
表示するデータを制御する表示制御部７と、翻訳結果で
ある英語の訳文等を印刷して出力するためのレーザープ
リンタ等から成る印刷部８と、前記入力部２や外部翻訳
装置４から入力されるデータに基づいて翻訳処理を行
い、その翻訳結果を表示部６に表示したり、印刷部８か
ら出力する等の制御を行う制御部１０とから構成されて
いる。

【００１９】前記入力部２には、文字を入力するための
文字キー、各種処理を起動するための入力文編集キー、
翻訳実行キー、出力文編集キー、終了キー、及びユーザ
辞書編集キー、印字実行キーといった各種機能キー、入
力文や出力文の編集、表示部６に表示されている画面操
作等に使用するカーソルキー、挿入キー、削除キー、確
定キー、及び次候補選択キー等が設けられている。

【００２０】また、前記外部記憶装置４には、翻訳処理
に利用される辞書１２が格納されている。この辞書１２
が、本発明の辞書を構成している。

【００２１】機械翻訳装置が利用する辞書としては、機
械翻訳装置が予め保有している基本辞書、専門分野毎に
編集された専門辞書、及びユーザが独自に構築するユー
ザ辞書がある。専門辞書、ユーザ辞書は利用しても、利
用しなくてもよい。また、専門辞書は、各種専門分野毎
に、ユーザ辞書は、例えば、ユーザ毎や利用分野毎にそ
れぞれ複数個の辞書が同時に存在可能に構成されていて
もよい。本実施形態では、これらの利用については特に
明言しない。

【００２２】図２に、上記した辞書のデータ構成の一例
を示す。個々の辞書登録情報は、それぞれ見出し語３０
と、各見出し語の品詞３２と、各見出し語の読み３４
と、各見出し語に対する訳語３６と、前後の接続情報や
意味情報等を含む様々な辞書情報３８とから構成されて
いる。

【００２３】次に、前記制御部１０は、ＣＰＵ１８、Ｒ
ＯＭ２０、ＲＡＭ２２、入出力ポート２４、及びこれら
各部を結ぶパスライン２６を備えた周知のマイクロコン
ピュータにより構成されている。そして、制御部１０に
おいては、ＲＯＭ２０に格納されたプログラムによって
各種処理が実行される。例えば、前記入力部２から入力
された日本語の原文を英語に翻訳すると共に、原文や翻
訳文の編集等を行う翻訳・編集処理、また、翻訳時に利
用するユーザ辞書を構築するための辞書編集処理等が実
行される。

【００２４】また、前記ＲＯＭ２０には、後述する翻訳
処理において使用される各種情報が格納されている。こ
のＲＯＭ２０が、本発明の形態素解析手段、解析手段、
かな漢字変換手段、形態素解析結果検出手段及び判断手
段をそれぞれ構成している。

【００２５】前記ＲＡＭ２２には、入力部から入力され
る日本語の原文、及び翻訳・編集処理により翻訳、編集
された英語の訳文が格納される。

【００２６】続いて、制御部１０が実行する翻訳・編集
処理について図３〜図４に示すフローチャートに従って
説明する。

【００２７】図３に示すように、翻訳・編集処理が実行
されると、まず、ステップ１１０（以下、Ｓ１１０と略
称する。他のステップも同様）において、ユーザにより
入力部２の文字キー等が操作され、翻訳対象となる日本
語の原文が入力されるのを待つ。ここで、原文の入力
は、既に作成されている原文のファイルを読み込むよう
に構成してもよい。そして、日本語の原文（以下、入力
文）が入力されると、Ｓ１２０に進み、この入力文を、
表示部６の所定のエリアに表示する。

【００２８】次に、Ｓ１３０では、入力部２に設けられ
た入力文編集キーが操作されたか否かを判断し、操作さ
れていなければ（Ｓ１３０：Ｎ）、Ｓ１５０に移行す
る。また、入力文編集キーが操作されていれば（Ｓ１３
０：Ｙ）、Ｓ１４０に移行し、入力文編集処理を実行す
る。尚、入力文編集処理が実行されると、ユーザは表示
部６の所定のエリアに表示された入力文を、入力部２に
設けられたカーソルキー、削除キー、挿入キー及び文字
キー等を使用して直接修正することが可能となる。Ｓ１
５０では、入力部２に設けられた翻訳実行キーが操作さ
れたか否かを判断し、操作されていなければ（Ｓ１５
０：Ｎ）、Ｓ１９０に移行し、また、翻訳実行キーが操
作されていれば（Ｓ１５０：Ｙ）、Ｓ１６０に移行し、
日本語の入力文を英語の訳文（以下、出力文とする）に
翻訳する翻訳処理を実行し、続くＳ１７０において、翻
訳処理により得られた出力文を入力文と対にしてＲＡＭ
２２に格納すると共に、Ｓ１８０において、表示部６に
設けられた所定のエリアにそれぞれ入力文と出力文とを
表示する。

【００２９】尚、翻訳処理は、入力文全部を一括して実
行しても良いし、文章単位で範囲を指定し、指定された
範囲の文章のみについて実行するようにしてもよい。

【００３０】Ｓ１９０では、入力部２に設けられた出力
文編集キーが操作されたか否かを判断し、操作されてい
なければ（Ｓ１９０：Ｎ）、Ｓ２１０に移行する。ま
た、出力文編集キーが操作されていれば（Ｓ１９０：
Ｙ）、Ｓ２００に移行し、出力文編集処理を実行する。
尚、出力文編集処理が実行されると、ユーザは先のＳ１
６０において翻訳処理が実行されることにより表示部６
の所定のエリアに表示される出力文（英語の訳文）を、
Ｓ１４０の入力文編集処理と同様に、入力部２に設けら
れたカーソルキー、削除キー、挿入キー及び文字キー等
を使用して、直接修正することが可能となる。

【００３１】Ｓ２１０では、入力部２に設けられた終了
キーが操作されたか否かを判断し、操作されていなけれ
ば（Ｓ２２０：Ｎ）、Ｓ２２０に移行し、例えば、ユー
ザ辞書登録をするためのユーザ辞書編集キー、翻訳され
た出力文を印刷部８に出力し印刷させる印刷実行キー
等、その他のキー操作を検出すると共に、操作されたキ
ーに応じた処理を実行する。

【００３２】そして、先のＳ１４０、Ｓ１８０、Ｓ２０
０、Ｓ２２０が処理された後は、Ｓ１３０に戻り、同様
の処理を繰り返し実行する。

【００３３】また、Ｓ２１０にて、終了キーが操作され
たと判断されると（Ｓ２１０：Ｙ）、本処理を終了す
る。

【００３４】このように翻訳・編集処理においては、日
本語の原文が入力された後、入力部２に設けられた各種
キーの操作に従って、入力文の編集処理、翻訳処理、辞
書編集処理、及び出力文編集処理といった各種処理が実
行される。そして、もし、翻訳実行キーを操作し翻訳処
理を実行したが、得られた出力文（英語の訳文）が不正
確であったり不自然であったりする場合には、入力文編
集キーを操作して入力文編集処理を実行し、入力文であ
る日本語の原文を再編集した後、またはユーザ辞書編集
キーを操作してユーザ辞書を編集した後、再度、翻訳実
行キーを操作して再翻訳させるか、あるいは出力文編集
キーを操作して出力文編集処理を実行し、出力文である
英語の訳文を直接編集する。

【００３５】このような処理を繰り返すことにより、ユ
ーザが求める翻訳結果を得ることができれば、印刷キー
を操作して、翻訳結果を印刷部８から出力したり、テキ
ストデータとしてＲＡＭ２２や外部記憶装置４に保存
し、その後、終了キーを操作して、処理を終了する。

【００３６】次に、図３に示すフローチャート中のＳ１
６０において実行され、入力文（日本語の原文）から出
力文（英語の訳文）に翻訳する翻訳処理について、図４
に示すフローチャートに従って説明する。

【００３７】まず、Ｓ２５０では、形態素解析処理内の
予め定められた判断規則と辞書内の接続情報を用いて、
入力文を構成する単語について辞書１２を検索し、見出
し語が検索できたものに対して、訳語、品詞、接続フラ
グ等を形態素解析結果に付与する形態素解析処理を実行
する。

【００３８】ここでは、もし、ユーザ辞書や専門辞書が
利用されていれば、同じ文字列に対して、ユーザ辞書が
最も優先される。ついで専門辞書、システム内部の基本
辞書の順に辞書が利用される。この時、Ｓ３９０の接続
判断処理に移行し、形態素解析処理において検索された
見出し語について、正しく接続されているか、見出し語
は検索できたが接続が不可であるか（これを以下、強制
接続という）、あるいは、見出し語に候補が見つからな
い部分か（これを以下、未知語という）を判断して接続
フラグにその値を格納する。このＳ３９０の処理が、本
発明の判断手段として機能している。そして、入力文の
文末まで処理した後、Ｓ２６０へ移行する。

【００３９】Ｓ２６０では、Ｓ２５０における形態素解
析処理の結果を受け取り、ＲＯＭ２０に格納されている
予め定められた解析文法を用いて、日本語の構造を解析
する解析処理を実行する。この時、Ｓ４００の形態素解
析結果検出処理に移行し、上記接続判断処理（Ｓ３９
０）で「強制接続」、「未知語」であると判断され、そ
れを示す接続フラグが付与されている箇所を修正しなが
ら、日本語の解析処理を実行する。このＳ４００の処理
が、本発明の形態素解析結果検出手段として機能してい
る。

【００４０】続くＳ２７０では、ＲＯＭ２０に格納され
ている予め定められた変換文法を用いて、解析処理によ
り解析された日本語の構造を英語の構造に変換すると共
に、個々の単語を英語に置き換える変換処理を実行す
る。続くＳ２８０では、ＲＯＭ２０に格納されている予
め定められた生成文法を用いて、変換処理により変換さ
れた英語の構造から英語の語順を決定したり、英語に特
有の冠詞を生成したり、入力文に存在しなくても出力文
には必須の主語を補充したり、テンス、アスペクト、人
称及び数素性等を処理し、英語の単語列から成る出力文
を生成する生成処理を実行する。そして、Ｓ２９０で
は、ＲＯＭ２０に格納されている予め定められた形態素
生成規則を用いて、Ｓ２８０の生成処理により生成され
た英語の単語列に対して、名詞の複数形、動詞の過去、
過去分詞等の活用形を生成して、出力文を得る形態素生
成処理を実行して翻訳処理を終了する。

【００４１】次に、図４中のＳ４００において実行され
る形態素解析結果検出処理について、図５に示すフロー
チャートに従って説明する。

【００４２】まず、形態素解析結果検出処理は、Ｓ４１
０において、入力文中に接続フラグの値が「強制接続」
である箇所が存在するか否かを検出する。存在していれ
ば（Ｓ４１０：Ｙ）、Ｓ４２０へ移行する。Ｓ４２０で
は、強制接続の直前の見出し語の品詞が助詞の時は、２
つ前から、それ以外は直前の見出し語から後ろの文字列
を切り出して、Ｓ４３０へ移行する。助詞の時に２つ前
から切り出すのは、かな漢字変換処理で共起情報を利用
し易くするためである。

【００４３】Ｓ４３０では、送られてきた文字列がひら
がなであればそのまま、それ以外の字種であれば辞書１
２の読み３４を利用してかな漢字変換処理を行い、Ｓ４
４０へ移行する。Ｓ４４０では、かな漢字変換処理が成
功して、文字列が漢字かな混じり文字列に書き換えられ
たか否かを検出する。成功して書き換えられた場合には
（Ｓ４４０：Ｙ）、Ｓ４５０へ移行し、戻された漢字か
な混じり文字列の見出し語について辞書１２を検索し、
解析処理に必要な品詞３２と、訳語３６と、辞書情報３
８をつけ直して、Ｓ４６０へ移行する。Ｓ４６０では、
新しく出来上がった漢字かな混じり文字列を元の入力文
に戻して、Ｓ４１０へ移行する。即ち、Ｓ４２０におい
て切り出された文字列の部分へ、新しく出来上がった漢
字かな混じり文字列が戻されることになる。尚、上記Ｓ
４３０の処理が、本発明のかな漢字変換手段として機能
している。

【００４４】また、上記Ｓ４４０において、かな漢字変
換処理が成功しなかった場合（Ｓ４４０：Ｎ）、Ｓ４９
０へ移行し、かな漢字変換処理に利用した文字列をＳ４
２０で切り出してきた元の文字列に戻して、接続フラグ
の値を修正失敗に変更し、さらに後方の文字列の検出の
ためにＳ４１０へ移行する。

【００４５】接続フラグの値が「強制接続」の箇所が検
出されなかった場合は（Ｓ４１０：ＮＯ）、Ｓ４７０へ
移行する。Ｓ４７０では、接続フラグの値が「未知語」
である箇所が存在するか否かを検出する。存在していれ
ば（Ｓ４７０：Ｙ）、Ｓ４２０へ移行し、強制接続の時
と同様の処理を行う。

【００４６】また、接続フラグの値が「未知語」の箇所
が検出されなかった場合は（Ｓ４７０：Ｎ）、Ｓ４８０
へ移行する。このＳ４８０における処理は、見出し語の
検出が正しくなされたとみなされる箇所に対して行わ
れ、見出し語の文字数が１文字または２文字で、かつ文
字種がひらがなか、カタカナのいずれかである名詞が連
続して接続している箇所があるか否かを検出する。これ
は、ひらがなや、カタカナの短い見出し語が連続して検
索されている場合は正しくないという経験則があるから
である（この後に具体的な例を挙げる）。

【００４７】そのような箇所が存在していれば（Ｓ４８
０：Ｙ）、Ｓ４２０へ移行し、強制接続の時と同様の処
理を行う。そして、上記Ｓ４８０において何も検出され
なかった時は（Ｓ４８０：Ｎ）、形態素解析結果検出処
理を終了し、Ｓ２６０の解析処理に戻る。

【００４８】ここで、上述した形態素解析結果検出処理
においてなされる処理について、例文を挙げて説明す
る。

【００４９】例えば、入力文が「最初にご飯をたこ
う。」である場合を例に挙げる。この場合、辞書の見出
し語の検索状況によっていろいろな失敗が起こる。例え
ば、「たこう」がひらがなのために形態素解析結果は、
名詞の「たこ」と意志を表わす助動詞「う」が見出し語
として検索される可能性がある。しかし、この２語の判
断の結果は、日本語の助動詞は名詞に続かないという特
性のため、接続フラグの値が「強制接続」になり、図５
のフローチャート中のＳ４１０で「ＹＥＳ」と判断され
る。そして、「たこ」の直前が格助詞の「を」なので、
Ｓ４２０において、文字列「飯をたこう。」が切り出さ
れてかな漢字変換処理（Ｓ４３０）に渡され、「飯を炊
こう。」に変換される。この漢字かな混じり文字列が入
力文中に戻されて、形態素解析処理による正しい構文解
析が続行された結果、出力文 "Let'scook rice." を得
ることができる。

【００５０】次に、入力文が「ちりとりを持ってきてく
ださい。」である場合を示す。「ちりとり」が「塵」と
格助詞「と」とが検索されるが、「り」は該当する見出
し語が辞書内に存在しないため、未知語「り」となる。
この時、図５のフローチャート中のＳ４７０で「ＹＥ
Ｓ」と判断される。そして、「り」の直前は助詞なの
で、Ｓ４２０において、文字列「ちりとりを持ってきて
ください。」が切り出されてかな漢字変換処理（Ｓ４３
０）に渡され、「塵取りを持ってきてください。」に変
換される。この漢字かな混じり文字列が入力文中に戻さ
れて、形態素解析処理による正しい構文解析が続行され
た結果、 "Bring a dust and り." ではなく、出力文 "
Bring a dustpan." を得ることができる。

【００５１】また、入力文が「チリトリを持ってきてく
ださい。」である場合を示す。カタカナの「チリトリ」
については、「塵」と「鳥」が見出し語として検索され
る可能性がある。この時、図５のフローチャート中のＳ
４８０で「ＹＥＳ」と判断される。そして、「チリ」の
直前は文頭であり助詞ではないので、Ｓ４２０におい
て、文字列「チリトリを持ってきてください。」が切り
出されてかな漢字変換処理に渡され、「塵取りを持って
きて下さい。」に変換される。この漢字かな混じり文字
列が入力文中に戻されて、形態素解析処理による正しい
構文解析が続行された結果、出力文 "Bring a dustpa
n." を得ることができる。

【００５２】尚、本発明は上記した実施形態に限定され
るものではなく、種々の変更を加えることができる。例
えば、今回は見出し語の読みの情報を、辞書の情報から
持ってきて、かな漢字変換処理を行ったが、特開昭６１
−２６０３５３号公報に示されている技術と併せてかな
文字列に戻すことができれば、より精度の高いかな漢字
変換結果を得ることができる。また、かな漢字変換処理
に渡す日本語の文字列も、文頭、句読点、括弧の直後
等、もっと広めに切り出してくるように構成することも
可能である。

【００５３】さらに、このように強制的にかな漢字変換
を行った漢字かな混じり文字列を、ユーザにわかるよう
に、出力文中で強調表示したりすれば、間違ったかな漢
字変換をした場合や、入力文が間違っていたためにかな
漢字変換処理に失敗した場合などでも、速やかに入力文
を編集することができるので、より精度の高い翻訳結果
を得ることができる。

【００５４】

【発明の効果】以上説明したことから明かなように、本
発明の請求項１記載の機械翻訳装置によれば、形態素解
析手段に設けられた判断手段が、形態素解析手段による
形態素解析が行われた結果に対して、見出し語の検索状
況が適切か否かを判断し、解析手段に設けられた形態素
解析結果検出手段が、前記判断手段により判断された結
果に基づいて、見出し語の検索状況が不適切であると判
断された箇所を検出すると共に、その箇所の文字列を抽
出して、かな漢字変換手段によりかな漢字変換させるの
で、見出し語の検出が不適切な可能性のある箇所につい
ては、その文字列を抽出してかな漢字変換手段によるか
な漢字変換を行ってから、解析手段による構文解析が続
行されることになり、より正確な構文解析結果を得るこ
とができ、さらに、それを用いることで最終的に精度の
高い翻訳結果を得ることができる。

【００５５】また、請求項２に記載の機械翻訳装置によ
れば、形態素解析手段による形態素解析時に、見出し語
の検索が強制的になされたか否かを判断手段が判断し、
強制的になされた部分に対して何らかのマーキングをす
ることにより、形態素解析結果検出手段が前記マーキン
グに基づいて強制的になされた箇所を検出することがで
きるので、その検出した箇所について文字列を抽出して
かな漢字変換手段によるかな漢字変換を行ってから、解
析手段による構文解析が続行されることになり、より正
確な構文解析結果を得ることができ、さらに、それを用
いることで最終的に精度の高い翻訳結果を得ることがで
きる。

【００５６】例えば、入力文がひらがなであったため
に、見出し語が強制的に検出される可能性があるが、こ
の場合、その箇所は、判断手段により、強制的に検出さ
れたと判断され、形態素解析結果検出手段が、その箇所
の文字列を抽出してかな漢字変換手段によりかな漢字変
換を行ってから、再度解析手段による構文解析を行うの
で、最終的に正確な翻訳結果を得ることができる。

【００５７】また、請求項３記載の機械翻訳装置によれ
ば、形態素解析手段による形態素解析時に、見出し語が
検出されたか否かを判断手段が判断し、例えば、検索さ
れなかった箇所に対して何らかのマーキングをすること
により、形態素解析結果検出手段が前記マーキングに基
づいて見出し語が検索されなかった箇所を検出すること
ができる。そして、形態素解析結果検出手段が、検出し
た箇所についてその文字列を抽出してかな漢字変換手段
によるかな漢字変換を行ってから、解析手段による構文
解析が続行されることになり、より正確な構文解析結果
を得ることができ、さらに、それを用いることで最終的
に精度の高い翻訳結果を得ることができる。

【００５８】例えば、入力文がひらがなであったため
に、見出し語が検出されない箇所が存在する可能性があ
るが、この場合、その箇所は、判断手段により見出し語
が検出されていないと判断され、形態素解析結果検出手
段が、その箇所の文字列を抽出してかな漢字変換手段に
よりかな漢字変換を行ってから、再度解析手段による構
文解析を行うので、最終的に正確な翻訳結果を得ること
ができる。

【００５９】また、請求項４記載の機械翻訳装置によれ
ば、形態素解析手段による形態素解析時に、見出し語が
正しく検出されたか否かを判断手段が判断し、例えば、
正しく検出された箇所に対して何らかのマーキングをす
ることにより、形態素解析結果検出手段が前記マーキン
グに基づいて見出し語が正しく検出された箇所を検出す
る。さらに、形態素解析結果検出手段が、その検出され
た箇所について、見出し語の長さが１文字または２文字
であるような特定の品詞または文字種が連続している部
分があるか否かを検出し、そのような部分がある場合に
は、検出した箇所をについてその文字列を抽出してかな
漢字変換手段によるかな漢字変換を行ってから、解析手
段による構文解析が続行されることになり、より正確な
構文解析結果を得ることができ、さらに、それを用いる
ことで最終的に精度の高い翻訳結果を得ることができ
る。

【００６０】例えば、見出し語が検出されたとしても、
その見出し語の長さが１文字または２文字であるような
特定の品詞または文字種が連続している部分は、間違っ
て検出された可能性が高いが、この場合、その箇所は、
形態素解析結果検出手段により検出され、かつその箇所
の文字列を抽出してかな漢字変換手段によりかな漢字変
換を行ってから、再度解析手段による構文解析を行うの
で、最終的に正確な翻訳結果を得ることができる。

【図面の簡単な説明】

【図１】本実施形態の機械翻訳装置の全体構成を示すブ
ロック図である。

【図２】本実施形態の辞書のデータの構成の説明図であ
る。

【図３】本実施形態の機械翻訳装置の動作を表わすフロ
ーチャートである。

【図４】本実施形態の機械翻訳装置の翻訳処理の流れを
表わすフローチャートである。

【図５】本実施形態の機械翻訳装置の形態素解析結果検
出処理の流れを表わすフローチャートである。

【符号の説明】

４外部記憶装置１０制御部１８ＣＰＵ２０ＲＯＭ２２ＲＡＭ

Claims

【特許請求の範囲】

【請求項１】少なくとも第一言語を日本語とする見出
し語と、読みと、その見出し語に対応する第二言語の訳
語と、形態素解析処理に必要な接続情報とを含み、翻訳
処理において参照される各種辞書登録情報を格納してい
る辞書を有し、その辞書を用いて、前記第一言語から成
る原文を第二言語に翻訳する機械翻訳装置において、前記辞書を用いて、与えられた第一言語の原文について
前記見出し語を検索することにより形態素解析を行う形
態素解析手段と、前記辞書を用いて、前記形態素解析手段により与えられ
た第一言語の形態素解析結果に対して構文解析を行う解
析手段と、前記辞書を用いて、第一言語から成る文字列をかな漢字
変換するかな漢字変換手段と、を備え、前記形態素解析手段は、与えられた第一言語の原文の形
態素解析が行われた結果に対して、見出し語の検索状況
が適切か否かを判断する判断手段を有し、前記解析手段は、構文解析を行う際に、前記判断手段に
より判断された結果に基づいて、見出し語の検索状況が
不適切であると判断された箇所を検出すると共に、その
箇所の文字列を抽出して、前記かな漢字変換手段によっ
てかな漢字変換させる形態素解析結果検出手段を有する
ことを特徴とする機械翻訳装置。
【請求項２】前記判断手段は、与えられた第一言語の
原文に対する見出し語が前記辞書の見出し語の中から強
制的に検索されたものであるか否かを判断し、その判断
結果に基づいて前記形態素解析結果検出手段は、強制的
に検索された箇所を検出するように構成されていること
を特徴とする請求項１に記載の機械翻訳装置。
【請求項３】前記判断手段は、与えられた第一言語の
原文に対する見出し語が前記辞書の見出し語の中から検
索されたか否かを判断し、その判断結果に基づいて前記
形態素解析結果検出手段は、検索されなかった箇所を検
出するように構成されていることを特徴とする請求項１
に記載の機械翻訳装置。
【請求項４】前記判断手段は、与えられた第一言語の
原文に対する見出し語が前記辞書の見出し語の中から正
しく検索されたか否かを判断し、その判断結果に基づい
て前記形態素解析結果検出手段は、正しく検索された箇
所について、さらに、その見出し語の長さが、１文字ま
たは２文字であるような特定の品詞または文字種が連続
している部分を検出するように構成されていることを特
徴とする請求項１に記載の機械翻訳装置。