JP2007157175A - 機械翻訳装置とその翻訳方法、及びその機械翻訳プログラムを記録した記憶媒体 - Google Patents

機械翻訳装置とその翻訳方法、及びその機械翻訳プログラムを記録した記憶媒体 Download PDF

Info

Publication number
JP2007157175A
JP2007157175A JP2007035937A JP2007035937A JP2007157175A JP 2007157175 A JP2007157175 A JP 2007157175A JP 2007035937 A JP2007035937 A JP 2007035937A JP 2007035937 A JP2007035937 A JP 2007035937A JP 2007157175 A JP2007157175 A JP 2007157175A
Authority
JP
Japan
Prior art keywords
sentence
function word
language
word
target language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007035937A
Other languages
English (en)
Other versions
JP4488010B2 (ja
Inventor
Shinichi Ando
真一 安藤
Kiyoshi Yamahata
潔 山端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007035937A priority Critical patent/JP4488010B2/ja
Publication of JP2007157175A publication Critical patent/JP2007157175A/ja
Application granted granted Critical
Publication of JP4488010B2 publication Critical patent/JP4488010B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 用例データを参照することで連接機能語を適切に出力し文章中の各句を適切に翻訳し、一方使用する用例データを容易に編集し生成する。
【解決手段】 翻訳対象の文章である原言語文を解析する原言語解析手段20と、原言語文の各単語と文章構造を、目的言語の単語と文章構造に変換したデータである変換データを生成する言語変換手段30と、目的言語の指定された種類の文章句の単語データと各文章句内における指定された連結機能語の適否に関する情報とを示す用例データベース41と、変換データ中における連結機能語の使用の適否を用例データベースを参照して判断し、変換データ中の適切な位置に連結機能語を設定し、翻訳結果の文章である目的言語文を生成する目的言語生成手段40、目的言語の文章データを基に、用例データベース41に記録する用例データを自動的に編集し登録する用例データベース作成手段60aを備える。
【選択図】図13

Description

本発明は、文章を自動的に翻訳する機械翻訳に関し、特に用例を用いて翻訳する機械翻訳装置とその翻訳方法、及びその機械翻訳プログラムを記録した記憶媒体に関する。
一般に機械翻訳装置による自然言語の翻訳処理は、まず入力された原言語の文章の解析処理を行い、次にこの解析結果を翻訳先の言語である目的言語への変換処理を行い、最後に目的言語の文章を正しく生成する生成処理を行うことで翻訳実行している。
また、機械翻訳装置による翻訳処理は、単語情報や文法規則、言語変換規則等の様々な複雑で大規模な言語知識や翻訳知識を利用することが必要であるため、翻訳システムの構築作業には多大なコストが必要である。
特に、慣用的な要因が強い言語現象は、一般化が困難であり、翻訳システムの構築のコストのより多くの部分を占めていた。
こうした慣用的な要因が強い言語現象の一例として、名詞句の翻訳がある。これを英日翻訳を例に説明する。
英語の名詞連続部分の日本語訳は、同様に名詞の連続として訳した方がよい場合と、名詞間を連結する機能語を挿入して訳した方がよい場合とがある。
例えば英文“a baseball game”の日本語訳は、各単語“baseball”と“game”を日本語に訳した名詞を英文と同様に連続して並べて「野球試合」としては不適切である。「野球」と「試合」の両名詞の間に、連結機能語として格助詞「の」を名詞間に挿入して「野球の試合」と翻訳されることが求められる。
逆に英文“a baseball player”の日本語訳は、「野球の選手」とも言えなくはないが「野球選手」と訳す方が自然である。
また、英文“Tokyo Station”の日本語訳は、「東京の駅」としては不適切であり、格助詞「の」を名詞間に挿入することなく「東京駅」と翻訳されることが求められる。
これらをいずれの形で訳せば良いかは、各単語の組み合わせに対する慣用的な要因が大きく、自動的に十分に訳し分けができるだけの翻訳知識を構築することはコスト的に非常に困難であった。
このような翻訳知識の構築コストを低減することを目的として、従来から大量に集めた用例を翻訳知識として利用する手法が提案されている。
例えば特許文献1(特開平03−276367号公報)に開示された機械翻訳方法では、対訳用例を用いて原言語の解析結果を目的言語の構造に変換する手法が提案されている(以下、第1の従来例という)。
この手法では通常の翻訳処理と同様に、まず入力文を解析して依存構造を導出する。そして得られた依存構造と用例とを比較し、原言語の構造が似ている用例を抽出する。さらにここで得られた用例の対訳関係に従って入力文の依存構造を目的言語の依存構造に変換し翻訳処理を進める。
このように構築がより容易な用例を変換知識の代わりに利用することで、低コストで高品質な翻訳装置を実現することを目指している。
また特許文献2(特開平11−259482号公報)に開示された機械翻訳方式では、対訳用例を用いて原言語の形態素列を直接、目的言語の形態素列に変換する手法を提案している(以下、第2の従来例という)。
ここでは翻訳対象を複合名詞に限り、形態素列の対応関係を保持した用例を用いる。第1の従来例では用例を適用するために入力文の依存構造解析が必要であるのに対して、この手法では依存構造解析を行わなくても用例が適用でき、翻訳処理が行えることを特徴としている。
これにより、より低コストで高品質な翻訳装置を実現することを目指している。
しかし、第1の従来例においても第2の従来例においても、知識として利用する用例には、その内部構造として要素間の対訳関係が与えられている必要がある。
すなわち、第1の従来例で用いる用例には、対訳関係にある2つの言語の依存関係に対してノード毎の対応関係を付与する必要があり、また第2の従来例で用いる用例には、対訳関係にある2つの言語の形態素列に対して形態素毎の対応関係を付与する必要がある。
このように用例の作成にはこれら要素の間の対応付け作業を伴うため、用例の作成には依然として高いコストが必要であった。
このため、高品質な翻訳結果を出力するために非常に大きなコストが必要となり、現実には高品質な翻訳結果を得ることは難しかった。
特開平03−276367号公報 特開平11−259482号公報
第1の従来例や第2の従来例では翻訳処理に利用する用例は対訳用例であり、その内部の要素間の対応付けを行わなければならないため、高品質な翻訳処理が行えるだけの大量の対訳の用例を集めるには依然として多くのコストが必要で、現実に十分な用例を収集することは困難であった。
この問題は、名詞句等の句の部分において、特定の連結機能語を挿入すべきか否かの判定を伴う翻訳処理等においても同様であり、適切な判定のために必要とする用例データを蓄積するには、手作業による膨大なコストを必要とした。
このため、対訳関係の設定処理を必要としない翻訳先の言語のみの用例データを参照して適切な翻訳を実行する翻訳装置、またこの用例データを翻訳先の言語の文章データを基に自動的に編集し生成する翻訳装置が求められていた。
本発明の第1の目的は、連結機能語の用例データを参照し文章中の各句を適切に翻訳することで、自然な翻訳結果を出力する機械翻訳装置を提供することである。
本発明の第2の目的は、原言語から目的言語への対訳用例を用いるのではなく、目的言語のみの用例データを参照する方式の械翻訳装置を提供することである。
本発明の第3の目的は、単に目的言語の文章データを入力するのみで、こうした用例データを自動的に編集生成する機械翻訳装置を提供することである。
本発明の第4の目的は、入力された目的言語の文章データから、文章句に連接機能語を含む用例と含まない用例の双方の情報を検出し、連接機能語の使用の適否を適切に判定した用例データを自動的に編集生成し、かつこの適切な判定による用例データに基づく翻訳を実行する機械翻訳装置を提供することである。
上記目的を達成するため本発明の機械翻訳装置は、翻訳元の言語である原言語の文章を、翻訳先の言語である目的言語に翻訳する機械翻訳装置において、目的言語の指定された種類の文章句の単語データと、各前記文章句内における指定された連結機能語の適否に関する情報とを示す用例データを記録した用例データベースと、目的言語の文章中における連結機能語の使用の適否を、前記用例データベースを参照して判断し、前記文章中の適切な位置に連結機能語を設定し、連結機能語の使用を適切に修正した文章を生成する目的言語生成手段を備えることを特徴とする。
本発明の機械翻訳装置は、翻訳元の言語である原言語の文章を、翻訳先の言語である目的言語に翻訳する機械翻訳装置において、入力された翻訳対象の文章である原言語文を解析する原言語解析手段と、前記原言語解析手段の解析に基づき、前記原言語文の各単語と文章構造を、翻訳先の言語である目的言語の単語と文章構造に変換したデータである変換データを生成する言語変換手段と、目的言語の指定された種類の文章句の単語データと、各前記文章句内における指定された連結機能語の適否に関する情報とを示す用例データを記録し参照する用例データベースと、前記変換データ中における連結機能語の使用の適否を、前記用例データベースを参照して判断し、前記変換データ中の適切な位置に連結機能語を設定し、翻訳結果の文章である目的言語文を生成する目的言語生成手段を備えることを特徴とする。
本発明の機械翻訳装置は、前記目的言語生成手段は、目的言語の文章の構造を解析して、文章中の前記指定された種類の文章句の部分を処理対象の句として検出する対象句同定手段と、前記用例データベースに記録された前記用例データを参照し、前記処理対象の句に対し、適切な場合に適切な個所に適切な連結機能語を挿入する連結機能語挿入手段と、前記連結機能語挿入手段の挿入処理と、前記対象句同定手段の解析結果に従い、目的言語の文章を生成する目的言語文生成手段を備えることを特徴とする。
本発明の機械翻訳装置は、入力された目的言語の文章データを基に、前記用例データベースに記録する用例データを自動的に編集し登録する用例データベース作成手段を備えることを特徴とする。
本発明の機械翻訳装置は、前記用例データベース作成手段は、前記入力された目的言語の文章データを解析し、解析データを形態素列として出力する形態素解析手段と、前記形態素列から、前記指定された種類の文章句のデータを構成要素列として抽出する対象句構成要素抽出手段と、前記構成要素列から、前記指定された連結機能語を含む用例である正用例を検出する正用例抽出手段と、前記正用例抽出手段が検出する前記正用例に係る前記用例データを生成し前記用例データベースに登録する用例登録手段を備えることを特徴とする。
本発明の機械翻訳装置は、前記用例データベース作成手段は、前記構成要素列から、前記指定された連結機能語を含まない用例である負用例を検出する負用例抽出手段を備え、前記用例登録手段は、前記負用例抽出手段が検出する前記負用例に係る前記用例データを生成し前記用例データベースに登録を行い、前記用例データベース作成手段は、登録された前記用例データにおける前記正用例と前記負用例の情報を基に、当該文章句内における前記指定された連結機能語の使用の適否を判定し、この適否の判定結果を前記用例データベースに登録する用例調整手段を備えることを特徴とする。
本発明の機械翻訳装置は、前記用例データベースにおける各前記用例データは、前記文章句の前方の語句のデータと、後方の語句のデータと、前記前方の語句と前記後方の語句の間に前記指定された連結機能語を挿入することの適否を示すデータから成ることを特徴とする。
本発明の機械翻訳装置は、前記用例データベースにおける各前記用例データは、前記文章句の前方の語句のデータと、後方の語句のデータと、前記前方の語句と前記後方の語句の間に前記指定された連結機能語を備える正用例を前記正用例抽出手段が検出した回数を示すデータと、前記指定された連結機能語を備えない負用例を前記負用例抽出手段が検出した回数を示すデータと、前記前方の語句と前記後方の語句の間に前記指定された連結機能語を挿入することの適否を示すデータから成ることを特徴とする。
本発明の機械翻訳装置は、前記用例調整手段は、正用例を前記正用例抽出手段が検出した回数が、負用例を前記負用例抽出手段が検出した回数よりも多い場合には、当該用例データの前記前方の語句と前記後方の語句の間に前記指定された連結機能語を挿入するものと判定し、そうでない場合には、当該用例データの前記前方の語句と前記後方の語句の間に前記指定された連結機能語を挿入しないものと判定することを特徴とする。
本発明の機械翻訳装置は、前記形態素解析手段は、前記入力された目的言語の文章データから、前記文章データを構成する単語を識別し、各前記単語の品詞を判定し、この単語とその品詞の情報を形態素列として出力する手段を備えることを特徴とする。
本発明の機械翻訳装置は、前記指定された種類の文章句の一つを名詞句とし、前記対象句構成要素抽出手段は、前記形態素列中の名詞である単語の連続する個所を名詞句と認識し、これを構成要素列として抽出する手段を備えることを特徴とする。
本発明の機械翻訳装置は、前記目的言語を日本語とし、前記指定された連結機能語の一つを、格助詞の「の」とすることを特徴とする。
本発明の機械翻訳方法は、翻訳元の言語である原言語の文章を、翻訳先の言語である目的言語に翻訳する機械翻訳方法において、目的言語の指定された種類の文章句の単語データと、各前記文章句内における指定された連結機能語の適否に関する情報とを示す用例データをデータベースに記録し参照する用例参照ステップと、目的言語の文章中における連結機能語の使用の適否を、前記用例参照ステップが参照する前記用例データを基に判断し、前記文章中の適切な位置に連結機能語を設定し、連結機能語の使用を適切に修正した文章を生成する目的言語生成ステップを備えることを特徴とする。
本発明の機械翻訳方法は、翻訳元の言語である原言語の文章を、翻訳先の言語である目的言語に翻訳する機械翻訳方法において、入力された翻訳対象の文章である原言語文を解析する原言語解析ステップと、前記原言語解析ステップによる解析に基づき、前記原言語文の各単語と文章構造を、翻訳先の言語である目的言語の単語と文章構造に変換したデータである変換データを生成する言語変換ステップと、目的言語の指定された種類の文章句の単語データと、各前記文章句内における指定された連結機能語の適否に関する情報とを示す用例データをデータベースに記録し参照する用例参照ステップと、前記変換データ中における連結機能語の使用の適否を、前記用例参照ステップが参照する前記用例データを基に判断し、前記変換データ中の適切な位置に連結機能語を設定し、翻訳結果の文章である目的言語文を生成する目的言語生成ステップを備えることを特徴とする。
本発明の機械翻訳方法は、前記目的言語生成ステップは、目的言語の文章の構造を解析して、文章中の前記指定された種類の文章句の部分を処理対象の句として検出する対象句同定ステップと、前記用例参照ステップが参照する前記用例データを基に、前記処理対象の句に対し、適切な場合に適切な個所に適切な連結機能語を挿入する連結機能語挿入ステップと、前記連結機能語挿入ステップによる挿入処理と、前記対象句同定ステップによる解析結果に従い、目的言語の文章を生成する目的言語文生成ステップを備えることを特徴とする。
本発明の機械翻訳方法は、入力された目的言語の文章データを基に、前記用例参照ステップが参照する前記データベースに対し、自動的に新たな用例データを編集し登録し更新する用例データベース作成ステップを備えることを特徴とする。
本発明の機械翻訳方法は、前記用例データベース作成ステップは、前記入力された目的言語の文章データを解析し、解析データを形態素列として出力する形態素解析ステップと、前記形態素列から、前記指定された種類の文章句のデータを構成要素列として抽出する対象句構成要素抽出ステップと、前記構成要素列から、前記指定された連結機能語を含む用例である正用例を検出する正用例抽出ステップと、前記正用例抽出ステップが検出する前記正用例に係る前記用例データを生成し、前記用例参照ステップが参照する前記データベースに登録する用例登録ステップを備えることを特徴とする。
本発明の機械翻訳方法は、前記用例データベース作成ステップは、前記構成要素列から、前記指定された連結機能語を含まない用例である負用例を検出する負用例抽出ステップを備え、前記用例登録ステップは、前記負用例抽出ステップが検出する前記負用例に係る前記用例データを生成し、前記用例参照ステップが参照する前記データベースに登録を行い、前記用例データベース作成ステップは、登録された前記用例データにおける前記正用例と前記負用例の情報を基に、当該文章句内における前記指定された連結機能語の使用の適否を判定し、この適否の判定結果を前記用例参照ステップが参照する前記データベースに登録する用例調整ステップを備えることを特徴とする。
本発明の機械翻訳プログラムを記録した記憶媒体は、翻訳元の言語である原言語の文章を、翻訳先の言語である目的言語に翻訳する機械翻訳プログラムを記録した記憶媒体において、目的言語の指定された種類の文章句の単語データと、各前記文章句内における指定された連結機能語の適否に関する情報とを示す用例データをデータベースに記録し参照する用例参照ステップと、目的言語の文章中における連結機能語の使用の適否を、前記用例参照ステップが参照する前記用例データを基に判断し、前記文章中の適切な位置に連結機能語を設定し、連結機能語の使用を適切に修正した文章を生成する目的言語生成ステップを備えることを特徴とする。
本発明の機械翻訳プログラムを記録した記憶媒体は、翻訳元の言語である原言語の文章を、翻訳先の言語である目的言語に翻訳する機械翻訳プログラムを記録した記憶媒体において、入力された翻訳対象の文章である原言語文を解析する原言語解析ステップと、前記原言語解析ステップによる解析に基づき、前記原言語文の各単語と文章構造を、翻訳先の言語である目的言語の単語と文章構造に変換したデータである変換データを生成する言語変換ステップと、目的言語の指定された種類の文章句の単語データと、各前記文章句内における指定された連結機能語の適否に関する情報とを示す用例データをデータベースに記録し参照する用例参照ステップと、前記変換データ中における連結機能語の使用の適否を、前記用例参照ステップが参照する前記用例データを基に判断し、前記変換データ中の適切な位置に連結機能語を設定し、翻訳結果の文章である目的言語文を生成する目的言語生成ステップを備えることを特徴とする。
本発明の機械翻訳プログラムを記録した記憶媒体は、前記目的言語生成ステップは、目的言語の文章の構造を解析して、文章中の前記指定された種類の文章句の部分を処理対象の句として検出する対象句同定ステップと、前記用例参照ステップが参照する前記用例データを基に、前記処理対象の句に対し、適切な場合に適切な個所に適切な連結機能語を挿入する連結機能語挿入ステップと、前記連結機能語挿入ステップによる挿入処理と、前記対象句同定ステップによる解析結果に従い、目的言語の文章を生成する目的言語文生成ステップを備えることを特徴とする。
本発明の機械翻訳プログラムを記録した記憶媒体は、入力された目的言語の文章データを基に、前記用例参照ステップが参照する前記データベースに対し、自動的に新たな用例データを編集し登録し更新する用例データベース作成ステップを備えることを特徴とする。
本発明の機械翻訳プログラムを記録した記憶媒体は、前記用例データベース作成ステップは、前記入力された目的言語の文章データを解析し、解析データを形態素列として出力する形態素解析ステップと、前記形態素列から、前記指定された種類の文章句のデータを構成要素列として抽出する対象句構成要素抽出ステップと、前記構成要素列から、前記指定された連結機能語を含む用例である正用例を検出する正用例抽出ステップと、前記正用例抽出ステップが検出する前記正用例に係る前記用例データを生成し、前記用例参照ステップが参照する前記データベースに登録する用例登録ステップを備えることを特徴とする。
本発明の機械翻訳プログラムを記録した記憶媒体は、前記用例データベース作成ステップは、前記構成要素列から、前記指定された連結機能語を含まない用例である負用例を検出する負用例抽出ステップを備え、前記用例登録ステップは、前記負用例抽出ステップが検出する前記負用例に係る前記用例データを生成し、前記用例参照ステップが参照する前記データベースに登録を行い、前記用例データベース作成ステップは、登録された前記用例データにおける前記正用例と前記負用例の情報を基に、当該文章句内における前記指定された連結機能語の使用の適否を判定し、この適否の判定結果を前記用例参照ステップが参照する前記データベースに登録する用例調整ステップを備えることを特徴とする。
以上説明したように本発明によれば、以下のような効果が得られる。
第1に、連結機能語の使用の適否を示す用例データを用いるため、連接機能語を適切に出力して文章中の各句を適切に翻訳し、自然な翻訳結果を出力することができる。
第2に、原言語から目的言語への対訳用例を用いるのではなく、目的言語のみの用例データを参照するため、翻訳処理中に目的言語に変換した文章に対し、適切な文章への修正処理を実行することができる。
更に、このため従来では人手による膨大なコストを必要とした用例の対訳関係の設定処理を必要とせずに、単に目的言語の文章データを入力するのみで、こうした用例データを自動的に編集生成することが実現できる。
第4に、入力された目的言語の文章データから、文章句に連接機能語を含む用例と含まない用例の双方の情報を検出することにより、連接機能語の使用の適否の適切な判定ができ、またこの適切な判定による用例データ自動的に編集生成し、かつこの適切な判定に基づく翻訳を実行することができる。
以下、本発明の実施の形態について図面を参照して詳細に説明する。
本発明の機械翻訳装置は、自然言語の翻訳処理等において、連結機能語の用例のデータを参照することで、文章中の各種の句の翻訳において自然な翻訳結果を出力することを特徴とする。
なお、以下翻訳元の言語を原言語と言い、翻訳先の言語を目的言語と言う。例えば英日翻訳においては英語が原言語であり日本語が目的言語である。
また翻訳する翻訳元の文章データ(文章又は文字列、単語等)を原言語文字列と言い、翻訳結果として生成する文章データを目的言語文と言う。
図1は、本発明の第1の実施の形態の機械翻訳装置の構成を示すブロック図である。
図1を参照すると、本実施例の機械翻訳装置は、翻訳元の文章データである原言語文字列の入力を受け付ける入力手段10と、入力手段10に入力された原言語文字列を解析する原言語解析手段20と、原言語解析手段20が出力する解析結果を目的言語の構造に変換する言語変換手段30と、言語変換手段30が変換した目的言語の構造から目的言語文を生成する目的言語生成手段40と、目的言語生成手段40が生成した目的言語文を出力する出力手段50を備える。
特に目的言語生成手段40は、目的言語における所定の連結機能語に関する句の用例を格納する連結機能語用例データベース41と、言語変換手段30が変換した目的言語の構造を解析して処理対象とすべき句に相当する部分構造を同定する対象句同定手段42と、連結機能語用例データベース41に格納された用例に従って対象句同定手段42で同定された句の適切な個所に連結機能語を挿入する連結機能語挿入手段43と、連結機能語挿入手段43の連結機能語の挿入処理等に従い目的言語の構造から目的言語文を生成する目的言語文生成手段44を備える。
次に、本実施の形態の機械翻訳装置の動作を説明する。
図2は、本実施の形態の機械翻訳装置の翻訳処理を説明するためのフローチャートである。
ここでは、本実施の形態の機械翻訳装置の用例を用いる翻訳処理を、特に2つの単語の間に所定の連結機能語を挿入するかどうかの判断処理を行う一具体例を用いて説明する。
図2を参照すると、まず入力手段10は、翻訳対象となる原言語文字列の入力を受け付ける(ステップ201)。
この翻訳する文章データの入力処理は、例えばキーボードやOCR、音声認識による入力方法によるものや、また外部記憶装置等の記憶媒体に電子データとして記録された文章データを直接読み込むこと等により実現できる。
次に、原言語解析手段20は、入力手段10から読み込んだ原言語文字列を解析して文章の構造を計算する(ステップ202)。
言語変換手段30は、翻訳知識のデータを参照して、原言語解析手段20が出力した翻訳対象の文章構造を、目的言語の文章構造に変換する(ステップ203)。
次に、目的言語生成手段40は、言語変換手段30が出力した目的言語の構造から目的言語文を生成する。
これは、まず対象句同定手段42は、ステップ203で言語変換手段30が目的言語の文章構造に変換したデータの中から、連結機能語挿入処理の対象となる句の部分を同定する(ステップ204)。
具体的には、入力された文章データの句構造を構成する各単語を検査し、検査対象の句の構成要素である2単語が直接の係り受け関係にある場合に、この部分を連結機能語挿入処理の対象の句として抽出する。
連結機能語挿入手段43は、連結機能語用例データベース41に格納された用例を参照し、適切な場合においては所定の格助詞を、対象句同定手段42が処理対象として同定した句に挿入する。
連結機能語用例データベース41は、所定の連結機能語に関する句の用例を格納している。
ここで、連結機能語用例データベース41に用例を格納する方式の一具体例としては、句を構成する2つの単語の組と、その2つの単語の間に所定の連結機能語を挿入(表出)すべきかどうかを示す連結機能語表出フラグとの対応を記録するテーブルを用いて構成することができる。
具体的には、まず対象句同定手段42が同定した処理対象の句構造を一つ取り出す(ステップ205)。これは、挿入処理を行うかどうかの判定がまだ未処理の句が残っているかどうかをチェックし(ステップ206)、未処理の句が残っていたらこれを取り出すのである。そして、取り出した処理対象の句を構成する2つの単語を連結機能語用例データベース41で検索する(ステップ207)。
次に、得られた検索結果をチェックし(ステップ208)、もし検索結果として用例が得られ、かつその用例の連結機能語表出フラグが連結機能語を挿入すべきである旨を示していれば、処理対象の句に所定の連結機能語を挿入する(ステップ209)。
以上の挿入処理を行うかどうかの判定処理を、対象句同定手段42が同定した処理対象の句構造に対し実行し、挿入処理を実行する(ステップ206)。
全ての処理対象の句構造に対する処理の終了後、目的言語文生成手段44は、連結機能語挿入手段43が連結機能語処理を施した目的言語の構造に含まれる単語を並べて活用変形等の処理を行い、目的言語の文を生成する(ステップ210)。
そして出力手段50は、目的言語生成手段40が生成した目的言語文を出力する(ステップ211)。
この翻訳結果の出力方式としては、例えばディスプレイ等の表示装置や、音声合成装置によるスピーカからの出力や、また外部記憶装置等の記憶媒体に電子データとして直接出力する等の方式により実現できる。
次に、本実施の形態の機械翻訳装置の具体的な翻訳動作の一例を、図3から図6を用いて具体的に説明する。
以下の具体例では、翻訳元の言語である原言語を英語とし、翻訳先の言語である目的言語を日本語とする英日翻訳の例により説明するが、本実施の形態の機械翻訳装置の翻訳処理はこれに限られるものではなく、仏日翻訳、独日翻訳、露日翻訳や日英翻訳等任意の言語間の翻訳に適用可能である。
また以下では処理対象の句として名詞句を考え、また所定の連結機能語として格助詞の「の」を考えるが、本発明の範囲はこれに限られるものではなく、形容詞句や動詞句等の任意の句構造、及び「な」「から」「より」「に」「へ」「は」「が」等の任意の連結機能語に対して適用可能である。
ここで翻訳対象の英文として“I went to the baseball game.”が入力手段10に入力された場合を考える。
ここで入力された英文は、原言語解析手段20により構文構造に解析され、さらに言語変換手段30により目的言語の構文構造に変換される。
図3は、本実施の形態の原言語解析手段による翻訳対象の英文の構文構造の解析一例を示す図である。図3では、各リーフノードに入力文中の各単語が割り当て、その単語間の依存関係をツリー構造で示している。
例えば、図3に見られる「baseball game」に対する構造を参照すると、この2単語の間には直接の依存関係があり、2つがまとまって名詞句(NP)を作っていることが分かる。
さらに、この図では各ノードに対して、その下位の構造の代表語となるヘッドワードを付与しており、またその関係を太線で表わしている。
つまり「baseball game」という名詞句の構造では「game」がヘッドワードであり、その一つ上の構造は「the」と「game」の間の関係として捉えることができる。
図4は、本発明の第1の実施の形態の言語変換手段による変換結果の日本文の構文構造の一例を示す図である。図4では、入力英文中の各単語に対する日本語訳を、日本語の語順で各リーフノードに割り当てている。
また、図3と同様に、その単語間の依存関係をツリー構造で示しているが、図4ではさらに各々の単語の依存関係を示す連結語も付与されている。
例えば「私」と「行く」の間には、「が」で結ばれる主語−述語の関係があることが示されている。
図5は、本発明の第1の実施の形態の連結機能語用例データベース41に格納された用例データの一例を示す図である。
図5では、格助詞の「の」の係り元と係り先に出現しうる名詞の組が単語1と単語2のカラムに格納されている。
さらに、それぞれの単語の組にはその間に格助詞の「の」を表出すべきかどうかを表わす連結機能語表出フラグが格納されている。ここで、連結機能語表出フラグは“1”で表出すべき、“0”で表出すべきでないということを示すものとする。
言語変換手段30で変換された目的言語の構文構造は、対象句同定手段42に送られる。
対象句同定手段42は、受け取った構文構造中の各単語を検査して名詞やそれに類する単語を探し、その係り先が名詞かそれに類する単語であった場合、これを処理対象の名詞句として抽出する。
図4を参照すると、ここではまず「私」という単語を検査する。
「私」は代名詞であり名詞に類する単語として認定できるが、その係り先が「行く」という動詞であるため、これは処理対象外であると認定する。
次に「野球」という単語を検査し、これが名詞であり、かつ「試合」という名詞に係るため、「野球/試合」に対する構文構造を処理対象の名詞句として同定する。
同様に全ての単語をチェックして全ての処理対象を同定する。
ここで同定された処理対象の名詞句は一つずつ連結機能語挿入手段43に送られる。
連結機能語挿入手段43は、対象句同定手段42で同定された処理対象の名詞句に含まれる2つの名詞、あるいはそれに類する単語を用いて連結機能語用例データベース41を検索する。
ここでは係り元となる単語1が「野球」であり、係り先となる単語2が「試合」であるような用例を検索する。
ここで得られた検索結果の連結機能語表出フラグをチェックするとこれが“1”であり、この間には格助詞「の」を挿入すべきである旨が分かる。
連結機能語挿入手段43は、ここで得られた結果に従って「野球」が「試合」にかかる部分の関係として「の」を挿入する。
図6は、本実施の形態の連結機能語挿入処理の処理結果の一例を示す図である。
ここで得られた構文構造は目的言語文生成手段44に送られ、日本語文として生成される。
ここでは単語間の関係を表わす「が」「の」「に」や過去の「た」などが助詞として表出すると共に活用変形などを行うことで、「私は野球の試合に行った」という日本語文が生成される。
ここで生成された日本語文は、出力手段50に送られ、出力される。
図7は、本発明の第1の実施の形態の機械翻訳装置の一実施例の構成を示すブロック図である。
図7を参照すると、本実施例は入出力機能及び情報処理機能等を備えるコンピュータ処理装置90において、本実施の形態の目的言語生成手段40等の各機能を備える機械翻訳プログラムをメモリにロードすることで実現することができる。この機械翻訳プログラムは、磁気ディスク、磁気テープ、光ディスク、半導体メモリ又はその他のコンピュータ等によって読み取りが可能な記憶媒体100に格納される。そして、その記憶媒体100からコンピュータ処理装置90にロードされ、コンピュータ処理装置90の動作を制御することにより、上述した各機能を実現する。
つまり、この記憶媒体100に格納された機械翻訳プログラムは、記憶媒体100からコンピュータ処理装置90のメモリに読み込まれ、コンピュータ処理装置90の動作を制御することにより、コンピュータ処理装置90上に連結機能語用例記憶部941といった記憶部を実現すると共に、入力部91、原言語解析部92、言語変換部93、対象句同定部942、連結機能語挿入部943、目的言語文生成部944、出力部95といった各機能を実現するのである。
ここで、図1の第1の実施の形態との関係では、入力部91が入力手段10に、原言語解析部92が原言語解析手段20に、言語変換部93が言語変換手段30に、目的言語生成部94内の各部が目的言語生成手段40内の各手段に、出力部95が出力手段50に、それぞれ対応する。
本実施例は、コンピュータ処理装置90が機械翻訳プログラムの制御により動作する点に特徴があり、基本的な機能は図1や図2と同じである。
つまり、コンピュータ処理装置90は、機械翻訳プログラムの制御により以下の処理を実行する。
入力部91への翻訳対象のデータの入力によって、入力部91は翻訳対象となる原言語文字列の入力を受け取り、原言語解析部92を起動する。
原言語解析部92は、入力部91から入力された原言語文字列を解析し、言語変換部93を起動する。
言語変換部93は、言語解析部92が出力した翻訳対象に対する解析結果の構造を目的言語の構造に変換した後、対象句同定部942を起動する。
対象句同定部942は、言語変換部93が出力した目的言語の構造の中から連結機能語挿入処理の対象となる句の部分構造を同定し、各々に対して連結機能語挿入部943を起動する。
連結機能語挿入部943は、連結機能語用例記憶部941に格納された用例を参照して適切な場合には、対象句同定部942で同定された句の部分構造に所定の格助詞を挿入する。
ここでは、対象句同定部942が同定した部分構造の全てに対して連結機能語挿入処理を行った後、目的言語文生成部944を起動する。
目的言語文生成部944は、連結機能語挿入部943が連結機能語処理を施した目的言語の構造に含まれる単語を並べて活用変形等の処理を行い、目的言語の文を生成する。
出力部95は、目的言語生成部94で生成された目的言語文を出力する。
以上説明した本実施の形態の機械翻訳装置により、連結機能語の使用の適否を示す用例データを用いるため、連接機能語を適切に出力して文章中の各句を適切に翻訳し、自然な翻訳結果を出力することができる。
また、原言語から目的言語への対訳用例を用いるのではなく、目的言語のみの用例データを参照するため、翻訳処理中に目的言語に変換した文章に対し、適切な文章への修正処理を実行することができる。
図8は、本発明の第2の実施の形態の機械翻訳装置の構造を示すブロック図である。
本実施の形態の機械翻訳装置は、自動的に収集した連結機能語用例を用いることで、低コストで自然な翻訳結果を出力するものである。
本実施の形態の機械翻訳装置が、図1の第1の実施の形態の機械翻訳装置と相違する点は、連結機能語用例データベース41を自動的に作成する用例データベース作成手段60を備える点にある。
本実施例における用例データベース作成手段60は、目的言語文字列の入力を受け付ける用例入力手段61と、用例入力手段61から入力された文字列を解析して形態素列を出力する形態素解析手段62と、目的言語の形態素列から対象となる句の構成要素列を抽出する対象句構成要素抽出手段63と、形態素解析手段62で解析された形態素列から対象句構成要素抽出手段63で抽出された構成要素列を参照して所定の連結機能語を含む連結機能語正用例を抽出する正用例抽出手段64と、正用例抽出手段64で抽出された正用例を連結機能語用例データベース41に登録する用例登録手段65とから構成される。
ここで、正用例とは、用例データベース41に登録される用例において単語間に連結機能語を含む用例のことである。
次に、本実施の形態の機械翻訳装置の動作を説明する。
本実施の形態の機械翻訳装置の動作の、第1の実施の形態の機械翻訳装置の動作と相違する点は、用例データベース作成手段60による連結機能語用例データベース41を自動的に作成するステップを備えることであり、他の入力手段10、原言語解析手段20、言語変換手段30、目的言語生成手段40、出力手段50の動作は、第1の発明の実施例の動作で説明したものと同じである。以下、本実施の形態の特徴である用例データベース作成手段60の動作について説明する。
図9は、本実施の形態の用例データベース作成手段60の動作を説明するためのフローチャートである。図2のフローチャートにおいては翻訳の実行のための翻訳元の言語の原言語文字列の入力・解析を行ったのに対し、ここでは用例データの登録のための翻訳先の言語の目的言語文字列の入力・解析を実行する。
用例入力手段61は、用例抽出の対象となる目的言語文字列の入力を受け付ける(ステップ901)。
これは例えばキーボードやOCR、音声認識装置等を用いる入力方式や、また外部記憶装置等に記憶された原言語文字列の電子データを直接読み込む方式等により実現できる。
形態素解析手段62は、用例入力手段61から入力された目的言語文字列を形態素解析し、形態素列に分解する(ステップ902)。ここで形態素列は、図10の例に示されるように目的言語文字列の各単語と、その各単語が成す品詞等を示す情報である。
正用例抽出手段64は、形態素解析手段62が解析結果として出力した形態素列の中から連結機能語用例データベース41に登録すべき用例を抽出する。
具体的には、まず形態素解析手段62が解析結果として出力した形態素列の中から所定の連結機能語(「の」等)を検索する(ステップ903)。
ここで得られた検索結果をチェックし(ステップ904)、形態素列中に所定の連結機能語がある場合には、その全てに対して次の処理を実行する。
まず処理対象となる連結機能語の直前の形態素aが登録の対象となる句の構成要素であるかどうかをチェックする(ステップ905)。これは、形態素aの品詞が名詞や形容詞等であるか、また当該連結機能語を挟む句を構成するか等をチェックする。
この形態素aが、対象となる句の構成要素である場合、その連結機能語の後ろにある形態素列(又は形態素)を対象句構成要素抽出手段63に渡し、その連結機能語の直後の構成要素列を抽出する(ステップ906)。
対象句構成要素抽出手段63が構成要素列が抽出できたかどうかをチェックし(ステップ907)、正常に抽出でき場合には、例えば図5の例等に示される記録形態に合わせて記録するため、形態素aとその構成要素列の最後の形態素bの組を用例として抽出し、用例登録手段65に渡す(ステップ908)。
用例登録手段65は、正用例抽出手段64が用例として抽出した形態素aと形態素bの組を連結機能語用例データベース41に登録する(ステップ909)。
ここで、連結機能語用例データベース41に格納する用例としては、図5の例に示されるように2つの単語の組と、その2つの単語の間に所定の連結機能語を表出すべきかどうかを表わす連結機能語表出フラグとで構成することができる。
用例登録手段65による連結機能語用例データベース41への登録方式として、既に登録済みの用例に対しては、連結機能語表出フラグと共に、あるいはその代わりとして、ステップ909において連結機能語用例データベース41に登録が指示された回数の情報を図11に示すように格納する形態も可能である。
さらにまた、各々の単語の組に対して、連結機能語表出フラグにより連結機能語を用いるか用いないかの二者択一の形式で登録するのではなく、単語間に所定の連結機能語が出現する確率の情報により(又、出現回数と出現しない回数の情報により)登録する形態も可能である。
本実施の形態の翻訳処理においては、用例データベース作成手段60で作成された連結機能語用例データベース41を用いて、第1の実施の形態の動作で説明した処理を実行する。
次に、第2の実施の形態の機械翻訳装置の具体的な動作について、図面を参照して詳細に説明する。
以下では、翻訳元の言語である原言語を英語とし、翻訳先の言語である目的言語を日本語とする例により説明するが、本実施の形態の機械翻訳装置が翻訳を行う言語はこれに限られるものではなく、任意の言語間の翻訳に対しても同様に適用可能である。
また、以下では名詞句を処理対象の句とし、格助詞の「の」を所定の連結機能語とする例により説明するが、本実施の形態の機械翻訳装置が処理する処理対象の句及び連結機能語はこれに限られるものではなく、任意の句構造、連結機能語に対しても同様に適用可能である。
本実施の形態の機械翻訳装置が、第1の実施の形態と相違する点は、用例データベース作成手段60により連結機能語用例データベース41を自動的に作成する処理であり、他の入力手段10、原言語解析手段20、言語変換手段30、目的言語生成手段40、出力手段50の各部の動作は第1の実施の形態の動作で説明したものと同じである。このため、以下では本実施の形態の特徴である用例データベース作成手段60の動作について具体的に説明する。
「私は野球の試合に行くのが好きだ」という日本語文を、用例抽出の処理対象として説明する。
まず、この処理対象の日本語文を、用例入力手段61に入力する。すると、形態素解析手段62は、入力された日本語文を形態素解析し形態素列に変換する。
図10は、本実施の形態の形態素解析手段による形態素解析の結果として得られた形態素列の一例を示す図である。
図10の例では、各行に一つの形態素が示されており、各々には形態素の文字列(単語)とその品詞が示されている。
形態素解析手段62で得られたこの形態素解析結果は、正用例抽出手段64に送られ、そこに含まれる用例を抽出する。
まず正用例抽出手段64は、得られた形態素解析結果から所定の連結機能語を検索する。
ここでは格助詞の「の」を検索すると、4番目の形態素が格助詞の「の」であり、この位置が検索結果として得られる。
次に正用例抽出手段64は、得られた検索結果の直前の形態素(単語)である「野球」の品詞を調べる。品詞が名詞等の場合には用例の抽出すべき候補であり、助詞等の場合には用例の抽出すべき候補ではないものと判断する。
ここで「野球」の品詞は名詞であり、用例の抽出すべき候補である。このため、正用例抽出手段64は、4番目の形態素である処理対象の格助詞「の」の、次から始まる形態素列を対象句構成要素抽出手段63に送る。そして、対象句構成要素抽出手段63は、正用例抽出手段64から送られた形態素列から、処理対象とする名詞句の構成要素列として名詞連続部分を抽出する。
正用例抽出手段64が抽出する名詞句の長さは、予め定めた所定の単語数を抽出する方式や、格助詞「の」以後の各単語の品詞を順次チェックし名詞等の名詞句を構成する品詞が続く範囲の単語を抽出する方式や、格助詞「の」以後に最初に句読点が表れるまでの単語を抽出する方式等が可能である。
ここでは、正用例抽出手段64から、例えば「試合/に/行く/の/が/好き/だ」という形態素列が対象句構成要素抽出手段63に送られたものとして説明する。
まず、対象句構成要素抽出手段63は、格助詞「の」以後の1番目の形態素「試合」の品詞を調べると名詞であるため、この形態素は名詞連続の一部(名詞句の一部)であると判断する。
次に2番目の形態素「に」の品詞を調べるとその品詞は格助詞であるため、この形態素は名詞連続に属さないと判断し、直前の形態素「試合」までの形態素列を名詞連続部分として抽出する。
以上の処理により「試合」が名詞連続部分として抽出され、正用例抽出手段64に送られる。
正用例抽出手段64は、対象句構成要素抽出手段63で抽出された名詞連続部分の最後の形態素を、現在処理対象としている連結機能語の係り先の形態素として抽出する。
ここでは「試合」が抽出され、用例としては「野球」「試合」の形態素の組が得られるため、これを用例登録手段65に送る。
用例登録手段65は、正用例抽出手段64が用例として抽出した形態素の組を連結機能語データベース41に登録する。
ここでは「野球」「試合」の形態素の組を登録するが、対象となる連結機能語データベース41として図11に示したものを考える。図11は、本発明の第2の実施の形態の連結機能語用例データベースに格納された用例データの一例を示す図である。
図11を参照すると、ここには格助詞の「の」の係り元と係り先に出現しうる名詞の組が単語1と単語2のカラムに格納されている。
さらにそれぞれの単語の組にはその間に格助詞の「の」を表出すべきかどうかを表わす連結機能語表出フラグが格納されている。
ここで連結機能語表出フラグは“1”で表出すべき、“0”で表出すべきでないということを表わしているものとする。
さらに各々の単語の組には、それらの単語の間に所定の連結機能語が出現した用例に関して、連結機能語用例データベース41に登録された用例の数が格納されている。
例えば「野球」「試合」の組み合わせを参照すると、「野球の試合」と格助詞「の」を伴って出現した用例が54回登録されていることが分かる。
この連結機能語データベース41に対する「野球」「試合」の形態素の組の登録では、まず単語1が「野球」で単語2が「試合」である用例の正用例数を1つ増やして55にする。
さらに、正用例数の増加に従って連結機能語表出フラグも更新する。例えば、この用例の登録処理によって正用例数が所定の閾値を超えた場合に連結機能語表出フラグを1にするのである。
また第2の実施の形態における翻訳処理は、ここで作成した連結機能語用例データベース41を用いて、第1の発明の実施例の動作で説明した処理を実行するものである。
図12は、本発明の第2の実施の形態の機械翻訳装置の一実施例の構成を示すブロック図である。
図12を参照すると、本実施例は入出力機能及び情報処理機能等を備えるコンピュータ処理装置90において、本実施の形態の目的言語生成手段40、用例データベース作成手段60等の各機能を備える機械翻訳プログラムをメモリにロードすることで実現することができる。この機械翻訳プログラムは、磁気ディスク、磁気テープ、光ディスク、半導体メモリ又はその他のコンピュータ等によって読み取りが可能な記憶媒体100に格納される。そして、その記憶媒体100からコンピュータ処理装置90にロードされ、コンピュータ処理装置90の動作を制御することにより、上述した各機能を実現する。
つまり、この記憶媒体100に格納された機械翻訳プログラムは、記憶媒体100からコンピュータ処理装置90のメモリに読み込まれ、コンピュータ処理装置90の動作を制御することにより、コンピュータ処理装置90上に連結機能語用例記憶部941といった記憶部を実現すると共に、入力部91、原言語解析部92、言語変換部93、対象句同定部942、連結機能語挿入部943、目的言語文生成部944、用例入力部961、形態素解析部962、対象句構成要素抽出部963、正用例抽出部964、用例登録部965、出力部95といった各機能を実現するのである。
ここで、図8の実施例との関係では、入力部91が入力手段10に、原言語解析部92が原言語解析手段20に、言語変換部93が言語変換手段30に、目的言語生成部94内の各部が目的言語生成手段40内の各手段に、出力部95が出力手段50に、用例生成部96内の各部が用例データベース作成手段60内の各種段に、それぞれ対応する。
本実施例は、コンピュータ処理装置90が機械翻訳プログラムの制御により動作する点に特徴があり、基本的な機能は図8や図9と同じである。
つまり、コンピュータ処理装置90は、機械翻訳プログラムの制御により以下の処理を実行する。
用例登録処理においては、まず入力部91への用例の入力によって、用例入力部961は、用例抽出の対象となる目的言語文字列の入力を受け付け、形態素解析部962を起動する。
形態素解析部962は、用例入力部961から入力された目的言語文字列を形態素解析し、形態素列に分解した後、正用例抽出部964を起動する。
正用例抽出部964は、形態素解析部962が解析結果として出力した形態素列の中から連結機能語用例記憶部941に登録すべき用例を抽出し、用例登録部965を起動する。
用例を抽出する際には、形態素解析部962が解析結果として出力した形態素列の中から所定の連結機能語を検索し、得られた連結機能語の直前の形態素と、直後の形態素列から対象句構成要素抽出部963によって抽出された対象となる句の構成要素列とを用いる。
用例登録部965は、正用例抽出部964が用例として抽出した2つの形態素の組を、連結機能語用例記憶部941に登録する。
さらに翻訳処理においては、用例作成部96で作成された連結機能語用例記憶部941を用いて、第1実施の形態の動作で説明した処理を行う。
以上説明した本実施の形態の機械翻訳装置により、単に目的言語の文章データを入力するのみで、翻訳に使用する用例データを自動的に編集し生成できる。
図13は、本発明の第3の実施の形態の機械翻訳装置の構成を示すブロック図である。
本実施の形態の機械翻訳装置は、自動的に収集した連結機能語用例を用いることで、低コストで自然な翻訳結果を出力することを特徴とする。
本実施の形態の機械翻訳装置の、図8の第2の実施の形態の機械翻訳装置と相違する点は、用例データベース作成手段60aの内部構成にあり、負用例抽出手段66と、用例調整手段67を新たに備えた点である。
ここで、負用例とは、正用例と逆に用例データベース41に登録される用例において単語間に連結機能語を含まない用例のことである。
つまり、本実施の形態の用例データベース作成手段60aは、目的言語文字列の入力を受け付ける用例入力手段61と、用例入力手段61から入力された文字列を解析して形態素列を出力する形態素解析手段62と、目的言語の形態素列から対象となる句の構成要素列を抽出する対象句構成要素抽出手段63と、形態素解析手段62で解析された形態素列から対象句構成要素抽出手段63で抽出された構成要素列を参照して所定の連結機能語を含む連結機能語正用例を抽出する正用例抽出手段64と、正用例抽出手段64で抽出された正用例を連結機能語用例データベース41に登録する用例登録手段65と、形態素解析手段62で解析された形態素列から対象句構成要素抽出手段63で抽出された構成要素列を参照して所定の連結機能語を含まない連結機能語負用例を抽出する負用例抽出手段66と、負用例抽出手段66で抽出された負用例を用いて連結機能語用例データベース41の内容を調整する用例調整手段67を備える。
次に、本実施の形態の機械翻訳装置の動作を説明する。
図14は、本発明の第3の実施の形態の機械翻訳装置の翻訳処理を説明するためのフローチャートである。
本実施の形態の機械翻訳装置の動作の、第2の実施の形態の機械翻訳装置と相違する点は、用例データベース作成手段60aによる連結機能語用例データベース41を自動的に作成する処理であり、他の入力手段10、原言語解析手段20、言語変換手段30、目的言語生成手段40、出力手段50の動作は、第2の実施の形態の及び第1の実施の形態の動作で説明したものと同じである。このため、以下では本実施の形態の特徴である用例データベース作成手段60の動作について説明する。
まず、用例入力手段61は、用例抽出の対象となる目的言語文字列の入力を受け付ける(ステップ1401)。
この翻訳する文章データの入力処理は、例えばキーボードやOCR、音声認識による入力方法によるものや、また外部記憶装置等の記憶媒体に電子データとして記録された文章データを直接読み込むこと等により実現できる。
形態素解析手段62は、用例入力手段61から入力された目的言語文字列を形態素解析し、形態素列に分解する(ステップ1402)。ここで解析結果の各形態素には、各単語の品詞の情報も付与する。
正用例抽出手段64は、形態素解析手段62が解析結果として出力した形態素列の中から連結機能語用例データベース41に登録すべき正用例を抽出する。
具体的には、まず形態素解析手段62が解析結果として出力した形態素列の中から所定の連結機能語を検索する(ステップ1403)。
そして、得られた検索結果をチェックし(ステップ1404)、形態素列中に所定の連結機能語があれば、その全てに対して次の処理を実行する。
まず処理対象となる連結機能語の直前の形態素aが対象となる句の構成要素であるかどうかをチェックする(ステップ1405)。
形態素aが対象となる句の構成要素である場合、その連結機能語の後ろにある形態素列を対象句構成要素抽出手段63に渡し、その連結機能語の直後の構成要素列を抽出する(ステップ1406)。
対象句構成要素抽出手段63で構成要素列が抽出できたかどうかをチェックし(ステップ1407)、抽出できたら、例えば形態素aとその構成要素列の最後の形態素bの組を用例として抽出し、用例登録手段65に渡す(ステップ1408)。
用例登録手段65は、正用例抽出手段64が正用例として抽出した形態素aと形態素bの組を連結機能語用例データベース41に登録する(ステップ1409)。
ここで連結機能語用例データベース41に格納する用例としては、例えば2つの単語の組と、その2つの単語の間に所定の連結機能語を表出すべきかどうかを表わす連結機能語表出フラグとで構成することができる。
また連結機能語表出フラグと共に、あるいはその代わりとして、それらの単語の間に所定の連結機能語が出現した正用例や、それらの単語が所定の連結機能語を介さずに連続して出現した負用例について、連結機能語用例データベース41に登録された用例の数を格納してもよい。
さらに各々の単語の組に対して、その間に所定の連結機能語が出現する確率を格納してもよい。
負用例抽出手段66は、形態素解析手段62が解析結果として出力した形態素列の中から連結機能語用例データベース41に登録すべき負用例を抽出する。
具体的には、まず形態素解析手段62が解析結果として出力した形態素列の中から、対象句構成要素抽出手段63を用いて対象となる句の構成要素を抽出する(ステップ1410)。
ここで2形態素以上の構成要素列が得られれば、その全てに対し次の処理を実行する。
まず、構成要素列の形態素の組み合わせを一つ取り出す(ステップ1411)。
2形態素の組み合わせが取り出せたら(ステップ1412)、その構成要素列の中で前方に出現した形態素cと後方に出現した形態素dを負用例として抽出し(ステップ1413)、用例調整手段67に渡す。
用例調整手段67は、負用例抽出手段66が負用例として抽出した形態素cと形態素dの組を連結機能語用例データベース41に登録し、既に登録済みである場合にはその用例の連結機能語表出フラグなどを調整する(ステップ1414)。
次に、本実施の形態の動作について、図面を参照して具体的に説明する。
以下では、翻訳元の言語である原言語を英語とし、翻訳先の言語である目的言語を日本語とする例により説明するが、本実施の形態の機械翻訳装置が翻訳を行う言語はこれに限られるものではなく、任意の言語間の翻訳に対しても同様に適用可能である。
また、以下では名詞句を処理対象の句とし、格助詞の「の」を所定の連結機能語とする例により説明するが、本実施の形態の機械翻訳装置が処理する処理対象の句及び連結機能語はこれに限られるものではなく、任意の句構造、連結機能語に対しても同様に適用可能である。
本実施の形態の機械翻訳装置の、第2の実施の形態の機械翻訳装置と相違する点は、例データベース作成手段60aによる連結機能語用例データベース41を自動的に作成する処理であり、他の入力手段10、原言語解析手段20、言語変換手段30、目的言語生成手段40、出力手段50の動作は第2の実施の形態及び第1の実施の形態の動作で説明したものと同じである。このため、以下では用例データベース作成手段60aの動作について具体的に説明する。
「野球選手を見た」という日本語文を、用例抽出の処理対象として説明する。
まず、この処理対象の日本語文を、用例入力手段61に入力する。すると、形態素解析手段62は、入力された日本語文を形態素解析し形態素列に変換する。
図15は、本実施の形態の形態素解析手段による形態素解析の結果として得られた形態素列の一例を示す図である。
図15の例では、各行に一つの形態素が示されており、各々には形態素の文字列(単語)とその品詞が示されている。
形態素解析手段62で得られた形態素解析結果は、正用例抽出手段64に送られ、そこに含まれる正用例が抽出される。
まず、第2の実施の形態と同様に、得られた形態素解析結果から所定の連結機能語を検索する。
しかし、ここでの「野球選手を見た」という日本文においては、格助詞の「の」を検索しても得られないため正用例は抽出されないが、検索結果が存在する場合においては第2の実施の形態の動作で説明したものと同様に正用例の抽出、登録の処理を行う。
次に、形態素解析手段62で得られた形態素解析結果は、負用例抽出手段66に送られ、そこに含まれる負用例を抽出する。
これはまず、対象句構成要素抽出手段63を起動して対象となる句の構成要素列を抽出する。対象句構成要素抽出手段63は、入力された形態素列から対象となる句の構成要素列を抽出するが、ここでは「野球/選手/を/見/た」という形態素列が入力されたと考える。
まず1番目の形態素「野球」の品詞を調べると、名詞であるため、この形態素は名詞句の構成要素であると判断する。
次に2番目の形態素「選手」の品詞を調べると、その品詞もやはり名詞であるため、この形態素も名詞句の構成要素であると判断する。
さらに3番目の形態素「を」の品詞を調べると、格助詞であるため、この形態素は名詞句の構成要素に属さないと判断し直前の形態素までの形態素列を名詞句の構成要素列として抽出する。
以上により「野球/選手」が構成要素列として抽出され、負用例抽出手段66に送られる。
負用例抽出手段66は、対象句構成要素抽出手段63で抽出された構成要素列に2つ以上の形態素が含まれているかどうかをチェックし、その内部の形態素の組み合わせを負用例として抽出する。
ここでは「野球」「選手」という2つの形態素の組み合わせが負用例として抽出でき、これらを用例調整手段67に送る。
用例調整手段67は、負用例抽出手段66が負用例として抽出した形態素の組を用いて、連結機能語データベース41内のデータを調整する。
これはまず「野球」「選手」の形態素の組を登録するが、対象となる連結機能語データベース41として図16の例に示したものを考える。
図16は、本実施の形態の連結機能語用例データベースに格納された用例データの一例を示す図である。
図16を参照すると、ここには格助詞の「の」の係り元と係り先に出現しうる名詞の組が単語1と単語2のカラムに格納されている。
さらに、各単語の組には、その間に格助詞の「の」を表出すべきかどうかを示す連結機能語表出フラグを格納している。
連結機能語表出フラグは、“1”で表出すべき、“0”で表出すべきでないということを表わしているものとする。
各々の単語の組には、それらの単語の間に所定の連結機能語を含む正用例の出現回数に関して、連結機能語用例データベース41に登録された正用例の出現回数を格納している。
例えば「野球」「選手」の組み合わせを参照すると、正用例である「野球の選手」として格助詞「の」を伴って出現した用例が8回登録されていることが分かる。
またさらに各々の単語の組には、それらの単語の間が所定の連結機能語を介さずに名詞連続内に出現した負用例の出現回数に関しても同様に、連結機能語用例データベース41に登録された負用例の出現回数を格納している。
例えば「野球」「選手」の組み合わせを参照すると、負用例である「野球選手」として格助詞「の」を伴わずに名詞連続内に出現した用例が40回登録されていることが分かる。
また、ここで説明中の連結機能語データベース41に対する「野球」「選手」の形態素の組の登録処理においては、まず単語1が「野球」で単語2が「選手」である用例の負用例数を1つ増やして41にする処理を実行する。
さらに負用例数の増加に従って連結機能語表出フラグを更新する。この連結機能語表出フラグの更新処理は、例えばこの用例の登録処理によって“正用例数−負用例数”の値が所定の閾値(例えば“0回”)を下回った場合に連結機能語表出フラグを0にする等の処理を行う。
また、本実施の形態の翻訳処理に関しては、ここで作成した連結機能語用例データベース41を用いて、第2の実施の形態及び第1の実施の形態の動作で説明したものと同じように行う。
図17は、本発明の第3の実施の形態の機械翻訳装置の一実施例の構成を示すブロック図である。
図17を参照すると、本実施例は入出力機能及び情報処理機能等を備えるコンピュータ処理装置90において、本実施の形態の目的言語生成手段40や用例データベース作成手段60a等の各機能を備える機械翻訳プログラムを、メモリにロードすることで実現することができる。この機械翻訳プログラムは、磁気ディスク、磁気テープ、光ディスク、半導体メモリ又はその他のコンピュータ等によって読み取りが可能な記憶媒体100に格納される。そして、その記憶媒体100からコンピュータ処理装置90にロードされ、コンピュータ処理装置90の動作を制御することにより、上述した各機能を実現する。
つまり、この記憶媒体100に格納された機械翻訳プログラムは、記憶媒体100からコンピュータ処理装置90のメモリに読み込まれ、コンピュータ処理装置90の動作を制御することにより、コンピュータ処理装置90上に連結機能語用例記憶部941といった記憶部を実現すると共に、入力部91、原言語解析部92、言語変換部93、対象句同定部942、連結機能語挿入部943、目的言語文生成部944、用例入力部961、形態素解析部962、対象句構成要素抽出部963、正用例抽出部964、用例登録部965、負用例抽出部966、用例調整部967、出力部95といった各機能を実現するのである。
ここで、図13の実施例との関係では、入力部91が入力手段10に、原言語解析部92が原言語解析手段20に、言語変換部93が言語変換手段30に、目的言語生成部94内の各部が目的言語生成手段40内の各手段に、出力部95が出力手段50に、用例生成部96a内の各部が用例データベース作成手段60a内の各種段にそれぞれ対応する。
本実施例は、コンピュータ処理装置90が機械翻訳プログラムの制御により動作する点に特徴があり、基本的な機能は図13や図14と同じである。
つまり、コンピュータ処理装置90は、機械翻訳プログラムの制御により以下の処理を実行する。
用例登録処理においては、まず入力部91への用例の入力によって、用例入力部961は、用例抽出の対象となる目的言語文字列の入力を受け付け、形態素解析部962を起動する。
形態素解析部962は、用例入力部961から入力された目的言語文字列を形態素解析し、形態素列に分解した後、正用例抽出部964を起動する。
正用例抽出部964は、形態素解析部962が解析結果として出力した形態素列の中から連結機能語用例記憶部941に登録すべき正用例を抽出し、用例登録部965を起動する。
正用例を抽出する際には、形態素解析部962が解析結果として出力した形態素列の中から所定の連結機能語を検索し、得られた連結機能語の直前の形態素と、直後の形態素列から対象句構成要素抽出部963によって抽出された対象となる句の構成要素列とを用いる。
用例登録部965は、正用例抽出部964が用例として抽出した2つの形態素の組を連結機能語用例記憶部941に登録する。
負用例抽出部966は、形態素解析部962が解析結果として出力した形態素列の中から連結機能語用例記憶部941に登録すべき負用例を抽出し、用例調整部967を起動する。
負用例の抽出は、まず形態素解析部962が解析結果として出力した形態素列の中から対象句構成要素抽出部963によって構成要素列を抽出し、得られた構成要素列の中で形態素の組み合わせを取ることで行う。
用例調整部967は、負用例抽出部966が用例として抽出した2つの形態素の組を連結機能語用例記憶部941に登録し、その用例の連結機能語フラグを調整する。
さらに翻訳処理においては、用例作成部96で作成された連結機能語用例記憶部941を用いて、第1第2の実施の形態の実施例の動作で説明した処理を実行する。
以上説明した本実施の形態の機械翻訳装置により、入力された目的言語の文章データから、文章句に連接機能語を含む正用例と含まない負用例の双方の検出回数等の情報を検出することにより、連接機能語の使用の適否の適切な判定ができ、またこの適切な判定による用例データ自動的に編集生成し、かつこの適切な判定に基づく翻訳を実行することができる。
以上説明した各実施の形態においては、処理対象の句を名詞句とし、処理対象の連結機能語を格助詞「の」とした例により説明したが、これに限定されるものではなく、また処理対象の句の種類や処理対象の連結機能語の個数も一つに限定されるものではない。処理対象の句の種類や処理対象の連結機能語の個数を複数とする場合には、連結機能語用例データベース41に用例データを記録するテーブルを複数備え、それぞれに各種の句や連結機能語による用例データを記録する方式や、又連結機能語用例データベース41において用例データにこの句や連結機能語の種別の情報を合わせて記録する方式を用いることで、上述の各実施の形態において説明された1種類での場合と同様にして実施が可能である。
以上説明した各実施の形態においては、用例データベースにおける用例データの記録方式として、文章句を連結機能語を挿入する位置から前部と後部に分けて記録する方式により説明しているがこれに限定されるものではない。他に、文章句全体のデータと連結機能語を挿入する位置のデータ(文章句の先頭から何文字目であるか等)により記録する方式も上記の各実施の形態と同様に実施できる。また、特に連結機能語の前方と後方の単語数を“1つ”とする例により説明しているが、前方と後方のいずれの単語数も“1つ”に限定されるものではなく、上記の各実施の形態において説明された方法により、任意の複数個の単語による文章句の用例データを用いる翻訳や用例データの自動登録を扱うことができる。
さらに、本発明の他の実施の形態として、以上説明してきた連結機能語を、翻訳元の文章中において直接該当する単語がない又は記載されない場合のある、補助的な意味や役割を示す単語の全般に適応し、前後の語句の間に挿入する単語に限定せず、英語の冠詞等の様に文章句の先頭に使用する単語や、また末尾に使用する単語をも対象とする形態が考えられる。つまり、用例データ中の連結機能語の前方の文又は後方の文のいずれか一方に単語を記録しない(単語数を“0個”とする)場合の用例データをも対象とする形態である。
第2、第3の実施の形態の用例データの自動登録処理においては、連結機能語の前後双方の(連結機能語の直前と直後の)単語をチェックしているが、これは例えば連結機能語の品詞が冠詞等の文章句の先頭に使用する単語である場合には、前方の単語をチェックする処理を省略する(ステップ905やステップ1405等を省略する)ことにより、第2、第3の実施の形態において説明された方法と同様にして用例データの自動登録処理が可能である。また、こうした連結機能語の前方又は後方の単語のない用例データによる翻訳処理についても、第1の実施の形態において説明された方法により翻訳できる。これにより名詞句の日英翻訳における冠詞の使用・不使用や“the”と“a”の選択等の処理を用例データを参照して実行することができる。
以上好ましい実施の形態及び実施例をあげて本発明を説明したが、本発明は必ずしも上記実施の形態及び実施例に限定されるものではなく、その技術的思想の範囲内において様々に変形して実施することができる。
本発明の第1の実施の形態の機械翻訳装置の構成を示すブロック図である。 本発明の第1の実施の形態の機械翻訳装置の翻訳処理を説明するためのフローチャートである。 本発明の第1の実施の形態の原言語解析手段による翻訳対象の英文の構文構造の解析結果の一例を示す図である。 本発明の第1の実施の形態の言語変換手段による変換結果の日本文の構文構造の一例を示す図である。 本発明の第1の実施の形態の連結機能語用例データベースに格納された用例データの一例を示す図である。 本発明の第1の実施の形態の連結機能語挿入処理の処理結果の一例を示す図である。 本発明の第1の実施の形態の機械翻訳装置の一実施例の構成を示すブロック図である。 本発明の第2の実施の形態の機械翻訳装置の構造を示すブロック図である。 本発明の第2の実施の形態の用例データベース作成手段の動作を説明するためのフローチャートである。 本発明の第2の実施の形態の形態素解析手段による形態素解析の結果として得られた形態素列の一例を示す図である。 本発明の第2の実施の形態の連結機能語用例データベースに格納された用例データの一例を示す図である。 本発明の第2の実施の形態の機械翻訳装置の一実施例の構成を示すブロック図である。 本発明の第3の実施の形態の機械翻訳装置の構成を示すブロック図である。 本発明の第3の実施の形態の機械翻訳装置の翻訳処理を説明するためのフローチャートである。 本発明の第3の実施の形態の形態素解析手段による形態素解析の結果として得られた形態素列の一例を示す図である。 本発明の第3の実施の形態の連結機能語用例データベースに格納された用例データの一例を示す図である。 本発明の第3の実施の形態の機械翻訳装置の一実施例の構成を示すブロック図である。
符号の説明
10 入力手段
20 原言語解析手段
30 言語変換手段
40 目的言語生成手段
41 連結機能語用例データベース
42 対象句同定手段
43 連結機能語挿入手段
44 目的言語文生成手段
50 出力手段
60、60a 用例データベース作成手段
61 用例入力手段
62 形態素解析手段
63 対象句構成要素抽出手段
64 正用例抽出手段
65 用例登録手段
66 負用例抽出手段
67 用例調整手段
90 コンピュータ処理装置
91 入力部
92 原言語解析部
93 言語変換部
94 目的言語生成部
941 連結機能語用例記憶部
942 対象句同定部
943 連結機能語挿入部
944 目的言語文生成
95 出力部
96、96a 用例作成部
961 用例入力部
962 形態素解析部
963 対象句構成要素抽出部
964 正用例抽出部
965 用例登録部
966 負用例抽出部
967 用例調整部
100 記憶媒体

Claims (18)

  1. 翻訳元の言語である原言語の文章を、翻訳先の言語である目的言語に翻訳する機械翻訳装置において、
    目的言語の2単語が直接の係り受けの関係にある文章句の前記2単語と、
    前記2単語の間に所定の連結機能語を含む用例である正用例の情報に基づいて判定された、前記2単語の間に前記所定の連結機能語を挿入することの適否に関する情報と、
    を示す用例データを保持する用例データベースと、
    目的言語の文章中における連結機能語の使用の適否を、前記用例データベースを参照して判断し、その結果として連結機能語を使用する際には、適用した用例を参照して前記文章中の対応する部分に連結機能語を設定し、連結機能語の使用について修正を施した文章を生成する目的言語生成手段と、
    を備えることを特徴とする機械翻訳装置。
  2. 翻訳元の言語である原言語の文章を、翻訳先の言語である目的言語に翻訳する機械翻訳装置において、
    入力された翻訳対象の文章である原言語文を解析する原言語解析手段と、
    前記原言語解析手段の解析に基づき、前記原言語文の各単語と文章構造を、翻訳先の言語である目的言語の単語と文章構造に変換したデータである変換データを生成する言語変換手段と、
    目的言語の2単語が直接の係り受けの関係にある文章句の前記2単語と、
    前記2単語の間に所定の連結機能語を含む用例である正用例の情報に基づいて判定された、前記2単語の間に所定の連結機能語を挿入することの適否に関する情報と、
    を示す用例データを保持する用例データベースと、
    前記変換データ中における連結機能語の使用の適否を、前記用例データベースを参照して判断し、その結果として連結機能語を使用する際には、適用した用例を参照して前記変換データ中の対応する部分に連結機能語を設定し、連結機能語の使用について修正を施して翻訳結果の文章である目的言語文を生成する目的言語生成手段と、
    を備えることを特徴とする機械翻訳装置。
  3. 前記目的言語生成手段は、
    目的言語の文章の構造を解析して、文章中の前記文章句の部分を処理対象の句として検出する対象句同定手段と、
    前記用例データベースに記録された前記用例データを参照し、前記処理対象の句に対し、前記連結機能語を挿入する連結機能語挿入手段と、
    前記連結機能語挿入手段の挿入処理と、前記対象句同定手段の解析結果に従い、目的言語の文章を生成する目的言語文生成手段と、
    を備えることを特徴とする請求項1又は2のいずれか一つに記載の機械翻訳装置。
  4. 前記所定の連結機能語を挿入することの適否に関する情報が、
    さらに、前記所定の連結機能語を含まない用例である負用例の情報とに基づいて適否を判定した情報であること
    を特徴とする請求項1乃至3のいずれか一つに記載の機械翻訳装置。
  5. 入力された目的言語の文章データを基に、前記用例データベースに記録する用例データを自動的に編集し登録する用例データベース作成手段
    を備えることを特徴とする請求項1乃至4のいずれか一つに記載の機械翻訳装置。
  6. 前記文章句の一つが名詞句であること
    を特徴とする請求項1乃至5のいずれか一つに記載の機械翻訳装置。
  7. 前記目的言語を日本語とし、
    前記所定の連結機能語の一つが、格助詞の「の」であること
    を特徴とする請求項1乃至6のいずれか一つに記載の機械翻訳装置。
  8. 翻訳元の言語である原言語の文章を、翻訳先の言語である目的言語に翻訳する機械翻訳装置において、
    直接の係り受け関係にある2単語の間に所定の連結機能語を含む用例である正用例を抽出する正用例抽出手段と、
    目的言語の2単語が直接の係り受けの関係にある文章句の前記2単語と、
    前記正用例抽出手段によって抽出された正用例の情報に基づいて判定された、前記2単語の間に所定の連結機能語を挿入することの適否に関する情報と、
    を示す用例データを保持する用例データベースと、
    目的言語の文章中における連結機能語の使用の適否を、前記用例データベースを参照して判断し、その結果として連結機能語を使用する際には、適用した用例を参照して前記文章中の対応する部分に連結機能語を設定し、連結機能語の使用について修正を施した文章を生成する目的言語生成手段と、
    を備えることを特徴とする機械翻訳装置。

  9. 翻訳元の言語である原言語の文章を、翻訳先の言語である目的言語に翻訳する機械翻訳方法において、
    目的言語の2単語が直接の係り受けの関係にある文章句の前記2単語と、
    前記2単語の間に所定の連結機能語を含む用例である正用例の情報に基づいて判定された、前記2単語の間に前記所定の連結機能語を挿入することの適否に関する情報と、
    を示す用例データを保持した用例データベースを参照する用例データベース参照ステップと、
    目的言語の文章中における連結機能語の使用の適否を、前記用例データベースを参照して判断し、その結果として連結機能語を使用する際には、適用した用例を参照して前記文章中の対応する部分に連結機能語を設定し、連結機能語の使用について修正を施した文章を生成する目的言語生成ステップと、
    を含むことを特徴とする機械翻訳方法。
  10. 翻訳元の言語である原言語の文章を、翻訳先の言語である目的言語に翻訳する機械翻訳方法において、
    入力された翻訳対象の文章である原言語文を解析する原言語解析ステップと、
    前記原言語解析手段の解析に基づき、前記原言語文の各単語と文章構造を、翻訳先の言語である目的言語の単語と文章構造に変換したデータである変換データを生成する言語変換ステップと、
    目的言語の2単語が直接の係り受けの関係にある文章句の前記2単語と、
    前記2単語の間に所定の連結機能語を含む用例である正用例の情報に基づいて判定された、前記2単語の間に所定の連結機能語を挿入することの適否に関する情報と、
    を示す用例データを保持する用例データベースを参照する用例データベース参照ステップと、
    前記変換データ中における連結機能語の使用の適否を、前記用例データベースを参照して判断し、その結果として連結機能語を使用する際には、適用した用例を参照して前記変換データ中の対応する部分に連結機能語を設定し、連結機能語の使用について修正を施して翻訳結果の文章である目的言語文を生成する目的言語生成ステップと、
    を含むことを特徴とする機械翻訳方法。
  11. 前記目的言語生成ステップは、
    目的言語の文章の構造を解析して、文章中の前記文章句の部分を処理対象の句として検出する対象句同定ステップと、
    前記用例データベースに記録された前記用例データを参照し、前記処理対象の句に対し、前記連結機能語を挿入する連結機能語挿入ステップと、
    前記連結機能語挿入手段の挿入処理と、前記対象句同定手段の解析結果に従い、目的言語の文章を生成する目的言語文生成ステップと、
    を含むことを特徴とする請求項9又は10のいずれか一つに記載の機械翻訳方法。
  12. 前記所定の連結機能語を挿入することの適否に関する情報が、
    さらに、前記所定の連結機能語を含まない用例である負用例の情報とに基づいて適否を判定した情報であること
    を特徴とする請求項9乃至11のいずれか一つに記載の機械翻訳方法。
  13. 入力された目的言語の文章データを基に、前記用例データベースに記録する用例データを自動的に編集し登録する用例データベース作成ステップ
    を含むことを特徴とする請求項9乃至12のいずれか一つに記載の機械翻訳方法。
  14. 翻訳元の言語である原言語の文章を、翻訳先の言語である目的言語に翻訳する機械翻訳プログラムを記録した記憶媒体において、
    目的言語の2単語が直接の係り受けの関係にある文章句の前記2単語と、
    前記2単語の間に所定の連結機能語を含む用例である正用例の情報に基づいて判定された、前記2単語の間に前記所定の連結機能語を挿入することの適否に関する情報と、
    を示す用例データを保持した用例データベースを参照する用例データベース参照ステップと、
    目的言語の文章中における連結機能語の使用の適否を、前記用例データベースを参照して判断し、その結果として連結機能語を使用する際には、適用した用例を参照して前記文章中の対応する部分に連結機能語を設定し、連結機能語の使用について修正を施した文章を生成する目的言語生成ステップと、
    を含むことを特徴とする機械翻訳プログラムを記録した記憶媒体。
  15. 翻訳元の言語である原言語の文章を、翻訳先の言語である目的言語に翻訳する機械翻訳プログラムを記録した記憶媒体において、
    入力された翻訳対象の文章である原言語文を解析する原言語解析ステップと、
    前記原言語解析手段の解析に基づき、前記原言語文の各単語と文章構造を、翻訳先の言語である目的言語の単語と文章構造に変換したデータである変換データを生成する言語変換ステップと、
    目的言語の2単語が直接の係り受けの関係にある文章句の前記2単語と、
    前記2単語の間に所定の連結機能語を含む用例である正用例の情報に基づいて判定された、前記2単語の間に所定の連結機能語を挿入することの適否に関する情報と、
    を示す用例データを保持する用例データベースを参照する用例データベース参照ステップと、
    前記変換データ中における連結機能語の使用の適否を、前記用例データベースを参照して判断し、その結果として連結機能語を使用する際には、適用した用例を参照して前記変換データ中の対応する部分に連結機能語を設定し、連結機能語の使用について修正を施して翻訳結果の文章である目的言語文を生成する目的言語生成ステップと、
    を含むことを特徴とする機械翻訳プログラムを記録した記憶媒体。
  16. 前記目的言語生成ステップは、
    目的言語の文章の構造を解析して、文章中の前記文章句の部分を処理対象の句として検出する対象句同定ステップと、
    前記用例データベースに記録された前記用例データを参照し、前記処理対象の句に対し、前記連結機能語を挿入する連結機能語挿入ステップと、
    前記連結機能語挿入手段の挿入処理と、前記対象句同定手段の解析結果に従い、目的言語の文章を生成する目的言語文生成ステップと、
    を含むことを特徴とする機械翻訳プログラムを記録した請求項14又は15のいずれか一つに記載の記憶媒体。
  17. 前記所定の連結機能語を挿入することの適否に関する情報が、
    さらに、前記所定の連結機能語を含まない用例である負用例の情報とに基づいて適否を判定した情報であること
    を特徴とする機械翻訳プログラムを記録した請求項14乃至16のいずれか一つに記載の記憶媒体。
  18. 入力された目的言語の文章データを基に、前記用例データベースに記録する用例データを自動的に編集し登録する用例データベース作成ステップ
    を含むことを特徴とする機械翻訳プログラムを記録した請求項14乃至17のいずれか一つに記載の記憶媒体。
JP2007035937A 2007-02-16 2007-02-16 機械翻訳装置とその翻訳方法、及びその機械翻訳プログラムを記録した記憶媒体 Expired - Fee Related JP4488010B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007035937A JP4488010B2 (ja) 2007-02-16 2007-02-16 機械翻訳装置とその翻訳方法、及びその機械翻訳プログラムを記録した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007035937A JP4488010B2 (ja) 2007-02-16 2007-02-16 機械翻訳装置とその翻訳方法、及びその機械翻訳プログラムを記録した記憶媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2000009310A Division JP3947859B2 (ja) 2000-01-18 2000-01-18 機械翻訳装置とその翻訳方法、及びその機械翻訳プログラムを記録した記憶媒体

Publications (2)

Publication Number Publication Date
JP2007157175A true JP2007157175A (ja) 2007-06-21
JP4488010B2 JP4488010B2 (ja) 2010-06-23

Family

ID=38241365

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007035937A Expired - Fee Related JP4488010B2 (ja) 2007-02-16 2007-02-16 機械翻訳装置とその翻訳方法、及びその機械翻訳プログラムを記録した記憶媒体

Country Status (1)

Country Link
JP (1) JP4488010B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160012965A (ko) * 2014-07-25 2016-02-03 삼성전자주식회사 텍스트를 편집하는 방법 및 이를 지원하는 전자장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160012965A (ko) * 2014-07-25 2016-02-03 삼성전자주식회사 텍스트를 편집하는 방법 및 이를 지원하는 전자장치
KR102581452B1 (ko) * 2014-07-25 2023-09-21 삼성전자주식회사 텍스트를 편집하는 방법 및 이를 지원하는 전자장치
US11790156B2 (en) 2014-07-25 2023-10-17 Samsung Electronics Co., Ltd. Text editing method and electronic device supporting same

Also Published As

Publication number Publication date
JP4488010B2 (ja) 2010-06-23

Similar Documents

Publication Publication Date Title
JP3220560B2 (ja) 機械翻訳装置
JP3973549B2 (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
JPH02308370A (ja) 機械翻訳システム
JP2006252428A (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
US20110040553A1 (en) Natural language processing
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
JP2009151777A (ja) 音声言語パラレルコーパスのアライメント方法及び装置
KR20090061158A (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치
US6385569B1 (en) Translator, translating method and recording medium having translating program recorded thereon
Stepanov et al. Language style and domain adaptation for cross-language SLU porting
JP4488010B2 (ja) 機械翻訳装置とその翻訳方法、及びその機械翻訳プログラムを記録した記憶媒体
JP3947859B2 (ja) 機械翻訳装置とその翻訳方法、及びその機械翻訳プログラムを記録した記憶媒体
Steele et al. Predicting and using implicit discourse elements in Chinese-English translation
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JPH0969106A (ja) 機械翻訳装置及び翻訳処理方法
JP3236027B2 (ja) 機械翻訳装置
JP4313967B2 (ja) 自然言語変換システム
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
Chen et al. Chinese Spelling Check based on Neural Machine Translation
JP3924260B2 (ja) 節境界検出装置、機械翻訳装置及びコンピュータプログラム
Armstrong Using EMBT to produce foreign language subtitles
Branco et al. EtiFac: A facilitating tool for manual tagging

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080401

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081028

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081226

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090511

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090929

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091217

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100309

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100322

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140409

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees