以下、各実施形態について図面を用いて説明する。なお、以下の機械翻訳装置は、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体からコンピュータにインストールされ、当該コンピュータのプロセッサに実行されて機械翻訳装置の各機能を実現させるための機械翻訳プログラムが用いられる。
<第1の実施形態>
図1は第1の実施形態に係る機械翻訳装置の構成を示す模式図であり、図2は機械翻訳装置のハードウェア構成を示すブロック図である。機械翻訳装置は、図1に示すように、入力装置10、演算制御装置20、表示装置30及び記憶装置40を備えている。このような機械翻訳装置は、図2に示すように、例えば、入力装置10、演算制御装置20、表示装置30及びハードディスクドライブ(HDD)45を備えて実現してもよい。
入力装置10は演算制御装置20に情報を入力するものであり、例えば、マウス11、キーボード12及びディスクドライブ13から構成される。例えば、マウス11及びキーボード12は、ユーザの入力操作に基づく(対訳)文書、質問文、その回答などを入力する。キーボード12及びディスクドライブ13は、機械翻訳・校正支援対象の文書(の電子ファイル)を入力する。また、入力装置10としては、OCR(光学式文字読み取り装置)や、磁気テープ、磁気ディスク、光ディスク等、コンピュータ読み取り可能な記憶媒体からの読み込み装置が使用可能である。
入力装置10から入力される文書は、翻訳対象となる第一言語文書とそれに関する第一言語あるいは第二言語の質問文、この質問文に対する第一言語あるいは第二言語の回答である。この質問は対応する回答と対になっている。
演算制御装置20は、機械翻訳プログラムを演算実行するものであり、例えば、プロセッサ25及びメモリ26を有している。メモリ26には機械翻訳プログラム26aが記憶され、プロセッサ25により機械翻訳プログラム26aが実行される際には作業エリア26bが用いられる。演算制御装置20の演算結果等は出力装置である表示装置30に表示・出力される。さらに、演算制御装置20は、演算結果や機械翻訳・校正支援に必要な知識・規則を蓄積した翻訳辞書等を記憶するHDD45が設けられている。
図1に示す演算制御装置20内の各機能ブロックは、上述の機械翻訳プログラム26aを構成する各プログラムに対応する。すなわち、プロセッサ25が機械翻訳プログラム26aを構成する各プログラムを実行することで、演算制御装置20内の各機能ブロックが機能する。また、記憶装置40の各ブロックは、演算制御装置20内のメモリ26及びHDD45の記憶領域に対応する。記憶装置40は、メモリ等のハードウェア資源であり、演算制御装置20の内部に設けてもよく、演算制御装置20の外部に設けてもよく、一部のみを演算制御装置20の内部に設けてもよい。
入力処理部は、入力装置10によって入力された翻訳対象となる第一言語文書、それに関する質問文と回答の入力を受け付けると、当該第一言語文書、質問文又は回答を制御部22を介して記憶装置40の文書記憶部41に書込む。
また、入力処理部21は、入力装置10から入力された各種コマンドを制御部22に送出する。
制御部22は、入力処理部21、出力処理部24、文書解析翻訳手段231、曖昧箇所検出手段232、質問文作成手段233、回答解析手段234、質問文付与手段235、回答付与手段236、知識書込手段237及びユーザ判断完了判定手段238を制御するとともに、記憶装置40とのデータの授受の制御も行う。
文書解析翻訳手段231は、翻訳対象となる第一言語文書を解析して得られた解析情報に基づいて第二言語の訳文を作成する機能をもっている。なお、文書解析翻訳手段231は、解析により得られた解析情報を解析情報記憶部42に書込んでもよく、訳文作成時には解析情報記憶部42から解析情報を読み出してもよい。
曖昧箇所検出手段232は、解析により得られた解析情報及び第一言語曖昧箇所文法辞書44gに基づいて、第一言語文書から、訳文の作成に必要となる情報が欠落している曖昧箇所を検出する機能をもっている。
また、曖昧箇所検出手段232は、知識書込手段237により記憶装置40に書込まれた知識情報に基づいて回答済みの曖昧箇所と同一タイプの箇所を検出し、同一タイプの箇所を除外するように当該曖昧箇所の検出を再実行する手段を含んでいる。
ここで、回答済みの曖昧箇所と同一タイプの箇所は、当該回答済みの曖昧箇所を示す単語と同一の単語により示される箇所であるか、又は当該回答済みの曖昧箇所を示す文構造と同一の文構造により示される箇所である。
質問文作成手段233は、当該曖昧箇所ごとに当該必要となる情報を得るためのユーザへの質問文を作成する機能をもっている。
質問文付与手段235は、当該質問文を第一言語文書の該当曖昧箇所に付与して表示装置30に表示する機能をもっている。
回答付与手段236は、表示装置30に表示された質問文に対して回答することをユーザに促した後にユーザに回答を入力可能にする。
回答解析手段234は、質問文に対するユーザからの回答を入力装置10から入力したときは当該回答に基づいて当該必要となる情報を獲得し、当該必要となる情報を訳文の作成に反映させる機能をもっている。回答解析手段234は、例えば、当該必要となる情報を対応する第一言語文の各種情報(形態素解析結果、係り受け解析結果など)に補充してもよい。また、回答解析手段234は、同一タイプの箇所に対し、知識情報に含まれる回答に基づいて当該必要となる情報を獲得し、当該必要となる情報を当該訳文の作成に反映させる手段を含んでいる。
知識書込手段237は、当該回答に基づいて必要となる情報が獲得された回答済みの曖昧箇所に対しては、当該回答済みの曖昧箇所を示す単語又は文構造と、当該回答とを含む知識情報を記憶装置40に書込む書込機能をもっている。
ユーザ判断完了判定手段238は、ユーザが質問文を読み、判断を下したが、回答を書き込まなかったことを判定する。なお、ユーザ判断完了判定手段238は、ユーザが質問文を読み、回答を書き込み、別の質問文に移動したときも、ユーザの判断が完了していることを判定する。なお、ユーザ判断完了判定手段238については、第4の実施形態で詳細に説明する。
出力処理部24は、制御部22を介して供給された(対訳)文書、解析結果、曖昧箇所検出箇所、質問文、回答、回答を反映した新たな翻訳結果を表示装置30に出力処理する。これにより、表示装置30の表示画面上に翻訳・校正情報が表示される。また、出力処理部24は制御部22への各種コマンドに対する制御部22からの応答を表示する。
なお、出力処理部24の出力先としては、表示装置30に限らず、印字機等の印刷装置、磁気テープ、磁気ディスク、光ディスク等のコンピュータ読み取り可能な記憶媒体や、他のメディアに文書を送信する送信装置等が適宜、使用可能となっている。
翻訳辞書部44は、文書解析翻訳手段231が翻訳対象となる第一言語文書を解析する際、質問文作成手段233が質問文を作成する際、及び、回答解析手段234が回答を翻訳し、大元の第一言語の文書の翻訳結果にその結果を反映する際に用いる各種辞書データを格納している。
翻訳辞書部44は、第一言語から第二言語への翻訳を行うための辞書、及び第二言語から第一言語への翻訳を行うための辞書を格納している。
第一言語から第二言語への翻訳を行うための辞書としては、第一言語活用変化辞書44a、第一言語解析文法辞書44b、第一言語単語・熟語辞書44c、第一言語変換文法辞書44d、第二言語生成文法辞書44e、第二言語形態素生成文法辞書44f及び第一言語曖昧箇所文法辞書44gを備えている。
第一言語活用変化辞書44aは、語尾等に変化のある単語・熟語をその原形に変換するための辞書である。
第一言語解析文法辞書44bは、第一言語を解析するための文法が記憶された辞書である。
第一言語単語・熟語辞書44cは、第一言語の単語・熟語に対応する第二言語の訳語が、その品詞情報と共に記憶される辞書である。
第一言語変換文法辞書44dは、第一言語から第二言語への変換情報が記憶された辞書である。
第二言語生成文法辞書44eは、第二言語の文の構造を決定する辞書である。
第二言語形態素生成文法辞書44fは、さらに語尾等の語形を変化させて翻訳文を完成させる辞書である。
第一言語曖昧箇所文法辞書44gは、第一言語では曖昧とならないが第二言語の訳文を作成する場合には曖昧となる単語又は文構造を示す辞書である。言い換えると、第一言語曖昧箇所文法辞書44gは、第一言語では問題とならない弁別素性(distinctive
features)が第二言語の訳出には必要となる単語及びそのような文構造を集めた文法知識である辞書である。
また、第二言語から第一言語への翻訳を行うための辞書としては、第二言語活用変化辞書44h、第二言語解析文法辞書44i、第二言語単語・熟語辞書44j、第二言語変換文法辞書44k、第一言語生成文法辞書44l及び第一言語形態素生成文法辞書44mを備えている。
第二言語解析文法辞書44iは、第二言語を解析するための文法が記憶された辞書である。
第二言語単語・熟語辞書44jは、第二言語の単語・熟語に対応する第一言語の訳語が、その品詞情報と共に記憶される辞書である。
第二言語変換文法辞書44kは、第二言語から第一言語への変換情報が記憶された辞書である。
第一言語生成文法辞書44lは、第一言語の文の構造を決定する辞書である。
第一言語形態素生成文法辞書44mは、さらに語尾等の語形を変化させて翻訳文を完成させる辞書である。
なお、翻訳辞書部44内の各辞書44a〜44mは、必ずしも全てが使用される訳ではない。
次に、以上のように構成された機械翻訳装置の動作について図3のフローチャートを用いて説明する。以下の説明は、主に、日本語を第一言語とし英語を第二言語とした場合を例に挙げて述べる。
始めに、制御部22は、入力装置10から入力処理部21を介して入力された第一言語の文書を文書記憶部41に記憶させる(S1)。
図4は翻訳対象の第一言語文書の一例を示す模式図である。文番号1〜5は同一文書内の文を示している。
次に、制御部22は文書解析翻訳手段231を起動する。文書解析翻訳手段231は、文書記憶部41から第一言語の文書を読み出し、第一言語の文書の各文をそれぞれ形態素、品詞などの属性情報を得る(S2)。これは、翻訳対象となる第一言語の文書の各文の統語的特徴を得るためである。
ステップS2においては、翻訳辞書部44の第一言語から第二言語への翻訳を行うための辞書、具体的には第一言語活用変化辞書44aと第一言語解析文法辞書44bの照合により、各単語に対して品詞、原形、属性を付与し、また、各形態素がどのような関係を有するかを示す文構造(係り受け関係)を得る。
次に、文書解析翻訳手段231は、第一言語単語・熟語辞書44cを用いて、それぞれの形態素に対して、翻訳辞書部44内に定義している訳語情報を得る(S3)。さらに、文書解析翻訳手段231は、第一言語変換文法辞書44d、第二言語生成文法辞書44e、第二言語形態素生成文法辞書44fを用いて第二言語の構造に変換し、訳語の形態素生成を行い、最終的な訳文を得る(S4)。
図5乃至図8は文番号1の文に対してステップS2〜S3の操作を行った後の形態素解析情報、訳語情報、格情報及び係り受け情報の一例を示す模式図である。本実施形態では、第一言語内に曖昧性がある場合、デフォルト値を出力するか、デフォルト値がない場合は、非文を生成するかどちらかの形をとることとしている。こうして得られた形態素解析情報、訳語情報、係り受け情報、翻訳結果、格情報は、制御部22により解析情報記憶部42に記憶される。
次に、制御部22は曖昧箇所検出手段232を起動する。曖昧箇所検出手段232は、解析情報記憶部42から形態素解析情報、訳語情報、翻訳結果を読み込み、これらと第一言語曖昧箇所文法辞書44gを照合して、各文に曖昧性があるか否かの判定を行う(S5)。
すなわち、曖昧箇所検出手段232は、図9及び図10に示す如き、第一言語曖昧箇所文法辞書44g内の曖昧用語辞書44g1又は曖昧構造規則44g2に適合するものがあるかどうかを判定する。
曖昧用語辞書44g1は、第一言語では弁別しないが、第二言語では同じ意味レベルの語がなく、語の指定に弁別要素が必要となる語を集めたものである。
曖昧構造規則44g2は、曖昧となりうる構造を品詞や活用形、表層の語などの指定により構造式の形で列挙したものである。下線部はこの構造中で最も注目すべき要素で、ユーザにはハイライトして表示させる要素である。ここでは、連体修飾と述語省略を例として示している。曖昧性を有する文構造は言語学で研究が蓄積されている。本実施形態では、その蓄積された文構造の知見を構造式の形にして曖昧構造規則44g2として有している。連体修飾句以外にも、主語の省略や無規定的な接続助詞「が」が知られている。
さて、形態素文字列や品詞や活用形は、読み込まれた形態素解析情報の中に含まれているので、曖昧箇所検出手段232は、形態素解析情報内の形態素文字列や品詞や活用形に対して、構造式に該当するものがあるか否かを照合する。ここで、文番号1の文は、ステップS2において、図5及び図6の<形態素解析情報>に示すように解析されているので、「記憶された[印章データ作成処理]の[プログラム]」の部分に曖昧構造規則44g2内の規則1が適用され、曖昧性があることになる。曖昧構造規則44g2には、規則1に関連付けて曖昧性の種類及び曖昧さの内容が記してあるので、曖昧箇所検出手段232は、文中のどの箇所に曖昧性があるかを特定できる。曖昧構造規則44g2の規則1によれば、文番号1の文の場合、曖昧性の種類は連体修飾句であり、動詞連体形の係り先が名詞句1なのか名詞句2なのかが不明であることになる。図5及び図6の<係り受け情報>に示すように2つの係り受けの関係が可能である。曖昧構造規則44g2によれば「動詞連体形」(記憶された)の係り先が曖昧である。例えば、図8の係り受け情報では、「記憶された」が「プログラム」にアークで結ばれている候補2と、「記憶された」が「印章データ作成処理」にアークで結ばれている候補1とが提示されている。同様の要領で、図4の文番号2−5の文についても、曖昧構造規則44g2の規則1が適用され、曖昧性があると判定される。一方、文番号6−8の文については、曖昧構造規則44g2の規則2が適用され、曖昧性があると判定される。
すなわち、図4に示した第一言語の文はすべて同種の曖昧性を有すると判定される。
次に、質問文作成手段233は、検出された曖昧箇所に対して、翻訳上の曖昧性を解消するための質問文を作成する(S6)。一方、曖昧箇所検出手段232により、曖昧性を有しないと判定されると、その訳文は確定する(S12)。
曖昧用語辞書44g1は、曖昧箇所を示す単語と、質問形式の意味特徴(弁別素性)とが関連付けられている。このため、質問文作成手段233は、曖昧用語辞書44g1により検出された曖昧箇所に対しては、曖昧用語辞書44g1内の意味特徴(弁別素性)をそのまま質問文として使うことができる。
一方、意味構造規則により検出された曖昧箇所に対しては、質問文作成手段233は、例えば次の仕組みにより、質問文を作成する。ここで、曖昧構造規則44g2には、[1]可能な候補を列挙できるタイプと、[2]そうでないタイプがありうる。前者については、選択疑問文又はYes−No疑問文を作成することができる。いずれにしても、曖昧構造規則44g2は、規則ごとに対応する質問文を「質問形式」の列に記述しているので、文法範疇を曖昧箇所にあてはめて、必要な変形を行えば質問文を作成できるような仕組みになっている。本実施形態の意味構造規則は、[1]のタイプである。[2]のタイプの質問の作成については、特許文献5に詳しい。
以上のようにして、全ての曖昧箇所に対する質問文が完成すると、各質問文は、質問文付与手段235により、該当する文の曖昧箇所に付与される(S7)。
ユーザへの実際の提示の表示画面の例としては、文番号1の文と文番号3の文の場合を示した図11のようなものが考えられる。ここでは、Microsoft社のWordのコメント付与機能を使用することを想定している。他には例えばAdobe Acrobatの注釈機能も利用可能である。画面において、曖昧箇所である文字列をハイライトし、目立つようにする。また、質問文は原文の近傍に出力し、原文を参照しながら質問文に回答できるよう工夫されている。原文は、そのままの状態を保つことが好ましい。Wordにおいては、コメントに対するコメントという形で入力できないため、回答を質問文と同じフィールドに記入することになる。この場合、質問文と回答の境界を明確にするために、質問文付与手段235は、質問文の末尾に[回答欄]という文字列を挿入するようにする。
このように質問文が付与されると、質問文に対する回答がユーザに促される。
入力装置10は、ユーザの操作により、質問文のウィンドウの近傍に示される回答用のウィンドウに回答を埋めていく。回答付与手段236は、ユーザによる入力装置10の操作により、ウィンドウ内の回答の入力を受け付ける(S8)。
次に回答解析手段234により、第一言語曖昧箇所文法辞書44g、解析情報記憶部42から読み出した各種情報と得られた回答をもとに、正しい解釈を得る(S9〜S10)。さて、質問形式には選択型及び記述型がある。質問形式が文番号1,2,6の質問のように前者でかつ、与えられた選択肢に回答がある場合(S9)、回答解析手段234は、回答から必要な情報を直接獲得でき、第一言語曖昧箇所文法辞書44g、解析情報記憶部42に保存されている各種情報、及び得られた回答をもとに、正しい解釈を得る(S10)。
続いて、回答解析手段234は、ステップS10で得た解釈と、ステップS4で得た解析結果とを比較する(S11)。比較結果が異なる場合、回答解析手段234は、デフォルトの解釈を修正することにより、訳文を修正する(S12)。例えば、文番号1の文に対する質問文に対して、ユーザが「プログラム」と回答すると、この回答内容と曖昧構造規則44g2の「デフォルト値」の項とが異なるため、デフォルト値が修正される。
再びステップS9に戻り、今度は質問形式が選択型だが、ユーザが選択肢にはない回答を行った場合を説明する。例えば、文番号6の文に対する質問文に対し、ユーザがその他を選択し、自由記述欄に「セットし」と回答したとする。自由記述欄の回答は自然言語の文や句を表す文字列になる。そのため、文書解析翻訳手段231は、自由記述欄の回答の文字列を形態素に分割し、品詞等の属性情報を得る(S14)。その処理内容はステップS2と同様であるので、詳しい説明を省略する。
次に、文書解析翻訳手段231は、第一言語曖昧箇所文法辞書44gと、解析情報記憶部42から読み出した各種情報と、ステップS14で得られた回答とその属性情報より、正しい解釈を得る(S15)。
例えば、文番号1の文に対する質問は、図8の<係り受け情報>に示した木構造の中の動詞「記憶する」から分かれている「を」格(目的格)のノードにある要素を求めるものである。候補1では、「印章データ作成処理」と解釈しているが、候補2では「プログラム」と解釈している。ユーザが「プログラム」と回答すれば、候補2が正しいことになり、<係り受け情報>の候補1は棄却される。また、<形態素解析情報>には、ステップS14で行った回答の文字列の辞書引き結果が追加される。
文番号6の質問文の回答からは、図12の上段に示すように、木構造のトップノードの空(φ)となっている部分に入るべき要素が得られる。そこで、回答が「セットし」であれば、図12に示すように、ノードの空(φ)の部分に回答“セットし”を設定するように、木構造が修正される。
以上のように回答から導かれる情報がステップS4での各種解析結果に反映されると、知識書込手段237は、ステップS8で得られた回答を他の箇所での曖昧性の判定に利用するために知識化する(S13)。すなわち、知識書込手段237は、得られた回答と適用された曖昧用語辞書44g1内の単語又は曖昧構造規則44g2内の文構造(曖昧構造)とを含む知識情報を、意味知識又は構造知識として質問文・回答記憶部43に書込む。例えば、文番号1の質問文に対する回答から、図13に示す如き、回答済みの曖昧箇所を示す文構造(曖昧構造)と、当該回答(名詞句2)とを含む知識情報としての曖昧構造規則44g2’を質問文・回答記憶部43に書込む。この曖昧構造規則44g2’のデフォルト値は、曖昧構造規則44g2のデフォルト値とは異なり、回答の「名詞句2」を含んでいる。
また、「[記憶した]+[*処理]+[格助詞「の」]+[*プログラム]」という並びがあれば、「記憶した」の係り先がほぼ確実に「*プログラム」であるという知識、あるいは「記憶する」の目的語が「プログラム」をとる確率が高いという知識を、曖昧構造規則44g2ではなく、第一言語解析文法辞書44bに追加することができる。このような定式化には、様々な方法が使用可能である。
例えば、文番号1の文は、構文ベースで知識化してもよい。つまり、文番号1の文の具体的な名詞句を抽象的な名詞句に置き換えると、図14に示すように、条件文及び係り先情報として汎化した知識情報を作成できる。この知識情報は、回答済みの曖昧箇所を示す文構造に相当する条件文と、当該回答に相当する係り先情報とを含んでいる。
また、文番号5の文に対する質問から得られた回答からは、文番号5「変数Nに文書件数を、文書数をカウントする変数iに初期値としての「1」をセットし、ステップS303に進む。」の文の名詞句を抽象的な名詞句に置き換えると、図15に示すように、「条件文」及び「省略された述語を示す情報」として定式化した知識情報を作成できる。この知識情報は、回答済みの曖昧箇所を示す文構造に相当する「条件文」と、当該回答に相当する「省略された述語を示す情報」とを含んでいる。
よってこの知識を第一言語解析文法辞書44bに追加することができる。あるいは、曖昧構造規則44g2として条件文を満たす場合、名詞句Bの述語のデフォルト値は「セットし」であるという曖昧構造規則44g2’を追加することができる。
他にも次のように、係り受けの知識を利用することが可能である。再び、文番号1の文を使って説明する。
図16は係り受け関係の優先度の一例を示す模式図である。同図においては、文番号1の文の構文解析木に基づき、「記憶する(された)」のノードと、その係り受け候補の3つのノードとがそれぞれ点線で示すアークで結ばれている。3つのノードは、それぞれ係り受け候補「作成処理」「プログラム」「印章データ」を示している。
各々のノードは、係り先、係り元、解析構文木の情報をもとに、アークの優先度を算出する規則をそれぞれもっている。この例では、係り元の情報として、「記憶する」が必須格として「が」格又は「を」格をもつという条件と、「が」格及び「を」格の各々になりやすい語を示す条件とを含む情報が第一言語単語・熟語辞書44cに格納されている。文番号1の文の「記憶された」が受動態であるので、「が」格は可能性から排除される。そこで、必須格として残った「を」格の格関係として考えられる、(1)「印章データ」と「記憶する(された)」、(2)「作成処理」と「記憶する(された)」、(3)「プログラム」と「記憶する(された)」の3つの格関係について係り受けの優先度を計算する。これにより、例えば、(1)の格関係に7点、(2)の格関係に28点、(3)の格関係に27点の優先度が計算されたとすると、最高の優先度をもつ(2)の格関係が採用され、これにより、機械翻訳装置は「記憶する(された)」と「作成処理」の格関係に係り受けの解釈をとる。
なお、優先度の算出方法としては、例えば、係り受け確率の計算法の代表例であるSVM(support vector machine)
(http: //chasen.org/~taku/publications/nl138-slide.ppt)、
又は最大エントロピー(ME)法“内元他(1998)「MEによる日本語化係り受け解析」”(http://ci.nii.ac.jp/els/110002934785.pdf?id=ART0003285753&type=pdf&lang=jp&host=cinii&order_no=&ppv_type=0&lang_sw=&no=1360293915&cp=)などが適宜、使用可能となっている。
次に、ステップS11でNoを選択した場合のことを考える。ステップS4の段階では、これらの追加された曖昧構造規則44g2’あるいは構文・係り受け知識がない状態で曖昧性を判定していた。しかし、これらの追加された曖昧構造規則44g2’あるいは知識を使えば、曖昧性の判定結果が異なる箇所がありえる。従って、同一文内の他の箇所について曖昧性の判定をやり直す。つまり、ステップS4に戻って再評価を行う。ここで、文番号1の文に対する質問の回答を曖昧構造規則44g2’として記憶した場合、文番号2−4の文に対する質問文の第一の選択肢は、初期段階とは違い(初期段階では、それぞれ、「書類データ作成及び編集処理」、「書類データ承認処理」、「書類データ再現処理」)、いずれも「プログラム」に変化する。係り受け・構造知識として記憶した場合、ステップS5で曖昧性がないと判定され、文番号2−4の文は質問付与対象から除外される。画面でいえば、図11の文番号2の文に対するコメント表示が消去される。同様に文番号5の文に対する質問文への回答を曖昧構造規則44g2’として追加した場合は、文番号6−7の質問の第一の選択肢は、「カウントし」ではなく、「セットし」に変化する。係り受け・構造知識として記憶した場合は、ステップS5で曖昧性がないと判定され、文番号6−7の文は質問付与対象から除外される(請求項1の説明)。
曖昧性がなくなるまでこのように動的に質問文を見直すステップを繰り返し、曖昧性が解消した場合はその解釈を確定する(S15)。
以上より、質問の回答を曖昧構造規則44g2’として追加した場合は、ユーザに問う質問の数の削減に寄与し、係り受け・構造知識として追加した場合は、質問内容の質の向上に寄与する。前者は、明らかにユーザの労力の削減になる。後者については、回答が選択肢の一番目に上がる可能性が高くなるため、ユーザが回答のために判断する時間が削減される。
上述したように本実施形態によれば、検出した曖昧箇所ごとに質問文を作成し、回答済みの曖昧箇所に関する知識情報を記憶装置25に書込む。その後、知識情報に基づいて回答済みの曖昧箇所と同一タイプの箇所を除外するように曖昧箇所の検出を再実行する。これにより、回答済みの曖昧箇所と同一タイプの箇所に対する質問文の作成が省略される。
従って、曖昧性を解消する質問を減らさずに、質問回数を減らすことにより、ユーザの回答に伴う負担を軽減させ、効率的な校正を支援することができる。
補足すると、ユーザの回答をもとに、曖昧箇所に特徴的な関係を学習し、同種の曖昧箇所に対する同種の質問文の作成を省略することにより、質問文の数を最小限にとどめ、また提示する質問文の精度を高めている。
また、第二言語に機械翻訳しやすくするために原文をときに自然さを犠牲にして、制限言語に書き換えるといった負荷の大きい作業を軽減する。また、質問文に回答するたびに質問文の精度が高まり、文法知識が蓄積される。
さらに、原文を書き換えることはしないため、原文のオリジナリティを保持することができる。解釈に変更があっても、原文は影響を受けない。
また、モノリンガル(monolingual)なユーザが機械翻訳を外国語での情報発信に使う場合、その外国語の知識がなくても、あるいは、第一言語と第二言語の特徴的な差異についての知識がなくても、機械翻訳装置が提示する質問文に回答するだけで機械翻訳の精度を上げることができる。
なお、本実施形態及び以下の各実施形態は、次のように変更して実施することもできる。すなわち、本実施形態は、質問文を作成前に、ひと通りの翻訳が終了している場合を述べたが、これに限らず、曖昧性の有無の判定に必要な段階までの解析処理(生成処理の手前)までにとどめ、質問文に対する回答が得られた後に、最終段階の訳文まで出力するようにすることもできる。
また、本実施形態では、ユーザが回答を付与するための回答付与手段236を構成要素として含めていたが、回答付与手段236を省略した構成としてもよい。
この場合、Wordなどの文書作成ソフトウェアにより質問文を付与した文書をユーザに提示し、この質問文に対する回答を入力した文書を機械翻訳装置に入力すればよい。これにより、回答付与手段236を省略することが可能となる。
<第2の実施形態>
次に、第2の実施形態に係る機械翻訳装置について図1を参照しながら説明する。
第2の実施形態は、第1の実施形態の変形例であり、回答済の曖昧箇所と同一タイプの箇所を検出対象から除外するか否かを設定可能な構成となっている。
具体的には、曖昧箇所検出手段232は、同一タイプの箇所が検出された場合に対し、当該同一タイプの箇所を曖昧箇所の検出対象から除外するか否かを設定する設定手段と、設定手段の設定内容に基づいて曖昧箇所の検出を再実行する手段とを含んでいる。
質問文付与手段235は、当該設定手段により否と設定された場合、回答済みの曖昧箇所に対する回答内容を確認する質問文を当該同一タイプの箇所に付与して表示を行う手段を含んでいる。
回答解析手段234は、同一タイプの箇所に対し、知識情報に含まれる回答に基づいて必要となる情報を獲得し、当該必要となる情報を訳文の作成に反映させる手段を含んでいてもよい。
以上のような構成によれば、例えば、ユーザによる入力装置10の操作により、曖昧箇所検出手段232は、同一タイプの箇所が検出された場合に対し、当該同一タイプの箇所を曖昧箇所の検出対象から除外するか否かを設定する。また、曖昧箇所検出手段232は、この設定手段の設定内容に基づいて曖昧箇所の検出を再実行する。
質問文付与手段235は、当該設定手段により否と設定された場合、例えば図17のステップS5(No)及びステップS17(No)に示すように、回答済みの曖昧箇所に対する回答内容を確認する質問文を当該同一タイプの箇所に付与して表示を行う。
また、回答解析手段234は、同一タイプの箇所に対し、知識情報に含まれる回答に基づいて必要となる情報を獲得し、当該必要となる情報を訳文の作成に反映させる(S12)。
補足すると、第2の実施形態は、初期段階で質問の対象となっていた箇所で、その後のユーザの回答により、曖昧性が無いと機械翻訳装置が判定した場合でも、機械翻訳装置の修正された解釈が実際に正しいのかを確認するために、依然として質問対象とするように設定可能としている(請求項3の説明)。
この設定は、機械翻訳装置の過剰学習(overlearning)の可能性、ユーザの誤答の可能性、及びユーザの解釈が変化する可能性を考慮している。このような設定は、文書の曖昧性判定の実行前に、例えば図18に示す如き、曖昧性判断設定画面G1により実行可能としている。
曖昧性判断設定画面G1の表示中、入力装置10の操作により、「診断に用い、再診断し、曖昧性が解消される場合にも、確認を求める。」をチェックしておけば、機械翻訳装置は、文番号2−5の文の修正解釈に対して、ユーザに問い合わせることになる。
確認の表示の仕方は種々の方式が適用可能である。例えば、文番号2−4の各々の文の定位置(例、右わき)に確認の質問文を付与する方式としてもよい。又は、文番号1の文に対する質問文への回答より得た知識を用いてデフォルトの解釈を変更した後に、引き続いて、図19に示すように、文番号2−4の各々に対する確認の質問文をまとめて示す確認画面G2を表示する方式としてもよい。確認画面G2を表示する場合、ユーザは、同様の曖昧性が同一文内に存在する度合いを把握できる。また、同様の曖昧性が多い場合、ユーザに辞書登録を促すことが可能である。
なお、機械翻訳装置の予想とは異なる回答をユーザが行った場合、例えば、文番号2−5に対し、「記憶された(する)」の目的語は「プログラム」ではない旨の少なくとも1つの回答が得られた場合、知識・規則の導出元の文番号1の質問文に対する回答がユーザの意図通りであったかを再確認するように設定することも可能である(請求項4の説明)。すなわち、前述した曖昧性判断設定画面G1において、「確認を求めた結果、機械翻訳装置の解釈と異なる回答が得られた場合、もとの文についても再確認を行う。」のような設定項目を設け、この設定項目にチェックが入っている場合に、再確認するようにしてもよい。この場合、知識情報は、元の文の文番号1を更に含む。
また、文書全体の設定だけでなく、文ごとについても診断の方法を変更できることが好ましい。理由は、特定の文に対する回答のみ、以降の同様のケースの診断に用いたい状況や、特定の文に対してのみ、以前の回答を解除したい状況があり得るからである。
いずれの状況についても、例えば、使用しているエディタの選択ボタンを設けることにより対応可能である。図20はこの種の選択ボタンB1,B2の例を示している。全体の設定では、「曖昧性の診断に対する回答を以降の同様のケースの診断に用いる」にチェックしていても、ユーザが文番号6の文に対する質問文に回答した後、文番号6を選択して「他の文への適用解除」のボタンB1を押すと、文番号7−8の文に対する質問文を初期状態の質問文に戻すように処理すればよい。
再度、他の文に適用したくなった場合は、「再診断」ボタンB2を押すと、文番号6の文に対する質問文への回答から得られた規則・知識を反映した質問文に変化する。
このようにユーザの設定に応じて、質問文の表示・非表示を自由に切り替えることができる。このように設定を随時、オン・オフ可能とし、校正作業の柔軟性を高めることができる。また、曖昧性の判定は、辞書に応じて異なり得るので、質問文をオン・オフできる機能があることが好ましい。
さらに、同種(同じタイプ)の曖昧箇所の場合、図21に示すように、最初の曖昧箇所だけに質問文を作成するか、全ての曖昧箇所に質問文を作成するかを示す設定項目を含む曖昧性指摘設定画面G3を設けてもよい。
曖昧性指摘設定画面G3の表示中、入力装置10の操作により、最初のチェックボックスにチェックを入れた場合、例えば、「記憶する(された)」の係り先に関する同種の曖昧性をもつ文番号1−5の文のうち、文番号1の文のみ、曖昧性が指摘される。これに対し、2番目のチェックボックスにチェックを入れた場合、文番号1−5の文における全ての同種の曖昧性が指摘される。
前者の場合、各文の曖昧箇所を示す知識(例えば、曖昧用語辞書44g1、曖昧構造規則44g2、その他)が質問文・回答記憶部43に保存されているので、同じ知識が用いられたことをもって同種の曖昧箇所と判定できる。また、機械翻訳装置は、ユーザに複数回、質問文に対する回答を要求可能であるが、この回答については曖昧箇所ごとに履歴をとるようにする。この履歴により、ユーザが過去に回答済みの同種の曖昧箇所を検出対象から除外するように、ユーザが設定できる。
以上の説明は、回答から得られる知識又は規則を質問文の対象とした文(例、文番号1の文、又は文番号5の文)と類似した文に対して、初期段階で同種の指摘を行っていた場合(この場合、文番号2−4の文、又は文番号6−7の文)に適用した例に関する。
上述したように本実施形態によれば、回答済の曖昧箇所と同一タイプの箇所を検出対象から除外するか否かを設定する構成により、第1の実施形態の効果に加え、機械翻訳装置の過剰学習、ユーザの誤答、及びユーザの解釈の変化に伴う誤訳の可能性を減らすことができる。
<第3の実施形態>
次に、第3の実施形態に係る機械翻訳装置について図1を参照しながら説明する。
第3の実施形態は、第2の実施形態の他の具体例であり、第2の実施形態の機械翻訳装置を英日翻訳に適用した場合を示す具体例である。
補足すると、第2の実施形態は、回答から得られる知識又は規則を質問文の対象とした文と類似した文に対して、初期段階で同種の指摘を行っていた場合に適用している。
これに対し、第3の実施形態は、ユーザの回答から得られる知識又は規則が、異なる構造の文に対する質問文にも影響を与える場合に適用している。第3の実施形態については、英日翻訳の場合を例に挙げて述べる。
図22は翻訳対象の同一文書内の英文を示す模式図である。
いま、文番号11の文中の ”Another class of tree-based structures” については、図23に示す語彙辞書に示す品詞(二段ある場合は上段の品詞)が高い確率で選ばれ、全体として名詞句として解析されたとする。また、include(←includes)は、多品詞の語ではなく、他動詞として一意に決定できることから、目的語を必要とする。
ここで、文番号11の文と、文番号12の文は、
いずれも”floating …structures”という単語列を含んでいる。
文番号11の文の”floating tree-based structures”は、”includes”の目的語であるため、単複両方の名詞が生起しうる。
文番号12の”floating structures”は、”can represent”の主語であるものの、助動詞の場合は主語の単複によらず同一形態である。
従って、図24に曖昧構造規則44g3を示し、図25に2通りの解釈を示すように、”floating tree-based structures”や”floating structures”の
floatingが動名詞であるのか、現在分詞を形容詞的に用いた名詞句であるのか、曖昧となる。前者の解釈では、floatingがhead、後者の解釈では、structuresがheadであることになる。
そこで、文番号11の文に対しては、例えば「includesの目的語は、floating(動名詞) tree-based structuresという動詞句(〜すること)か、又は、
floating (形容詞) tree-based structureという名詞句(複数形)か」、という質問を付与する。
文番号12の文に対しては、例えば、「can representの主語は、
floating structuresという動名詞(〜すること)か、又は、
floating (形容詞) structureという名詞句(複数形)なのか」、という質問を付与する。
ここで、機械翻訳装置のデフォルトの解釈は、いずれも動名詞の解釈であり、文番号11の質問文に対しては、ユーザがデフォルト値とは異なる名詞句(複数形)を選択したとする。
これにより、機械翻訳装置は、structures(名詞複数形)に前置するfloatingについては現在分詞の形容詞用法の確率が高いという知識を得る。この知識を後続の文番号12の文に適用すると、デフォルト値が変更され、「can representの主語は、
floating (形容詞) structureという名詞句(複数形)なのか、
floating structuresという動名詞(〜すること)か」のように選択肢が逆転する。
文番号11の文と文番号12の文とは文の構造が互いに異なるが、文番号11の文に対する質問文への回答が、文番号12の文の解釈に影響を与えたことが分かる。
曖昧性の再判定の対象は、初期段階で質問文が付与されていた文に限定することも、あまた文書全体に適用することも可能である。後者の場合は特に、質問文の内容が変わったり、質問文の数が減るだけでなく、新たに追加されることが考えられる(請求項3の説明)。このことを同じく英日翻訳の場合を例に考える。
文番号13の文にある動詞・名詞同形(動詞原形又は名詞単数)の
単語”transfer”は、動詞の可能性が高いと機械翻訳装置が判定して、文を解析したと仮定する。その場合、”transfer”の主語は、”these”、目的語は名詞”rules”(同じく動詞・名詞同形の単語(三人称現在形の動詞又は名詞複数形)と解釈されている。
しかし、この解釈をとると、曖昧箇所検出手段232で”are”に対する主語がないものと判定される(S5)。主語がないために、適格(well-formed)な構文木を生成できず、部分訳になる。
そこで、質問文作成手段233は、例えば「areに対する主語は何か」という質問文を作成する(S6)。
この質問文に対し、ユーザが”transfer rules”と回答すると、機械翻訳装置は、
”transfer rules”を名詞句として文全体の解析を再度試み、文番号13の文の解析が成功する。ここで蓄えられる知識は、”transfer rules”という並びがあった場合、
”transfer”は名詞の可能性が高いという品詞優先度の知識である。
一方、同一文書内に同じく”transfer rules”を含む文番号14の文があるとする。機械翻訳装置は、初期段階で文番号14の文の”transfer”を動詞として解釈しており、構文解析にも成功していたとする。
このとき、文番号14の文の”transfer”は、曖昧箇所の指摘対象から除外される。これは、文番号14の文の”Note”と”transfer”の双方ともに動詞命令形と解釈しても、構文としては適格(well-formed)であるためである。
これに伴い、文番号14の文の訳文は、例えば「図5Bおよび6A−6Fの中で説明されたデコーダ140が入力列の網羅的列挙に本質的に依存するアルゴリズムを使用することに注意して、目標依存木の森を生成する規則を転送してください。」となる。
しかしながら、文番号13の文に対する質問の回答から得られる品詞優先度の知識を使うと、文番号14の文の”transfer”は名詞である可能性が高まる。すなわち、文番号14の文は、”transfer”の品詞が動詞である確率と名詞である確率との差が縮まる。このため、曖昧箇所検出手段232は、文番号14の文の”transfer”の品詞を曖昧と判定する(S5)。
質問文付与手段235は、質問付与対象ではなかった文番号14の文に対して、新規に「”transfer”は名詞か、動詞か。」という旨の質問文を付与する(S6)。
ユーザがこの質問文に対し、名詞と回答すると、文番号14の文の[[exhaustive
enumeration] [[of] [[input sequences] [and] [transfer rules]]]]全体が名詞句を構成することになり、文の解釈も初期段階とは大幅に変更される。
変更後の解釈の下では、文番号14の文の訳文は、例えば「目標依存木の森を生成するために、図5Bおよび6A−6Fの中で説明されたデコーダ140が入力列およびトランスファー規則の網羅的列挙に本質的に依存するアルゴリズムを使用することに注意してください。」となる。
上述したように本実施形態によれば、第2の実施形態の構成を英日翻訳に適用した場合であっても、第2の実施形態と同様の効果を得ることができる。
また、文書のチェックの方法として、用途(校正の緊急度、時間、チェック密度)に応じてさまざまな設定が可能であり、ユーザの目的にあった校正作業を行うことができる。
<第4の実施形態>
次に、第4の実施形態に係る機械翻訳装置について図1を参照しながら説明する。
第4の実施形態は、第1乃至第3の各実施形態の具体例であり、場合によってはユーザの回答を省略可能な構成となっている。すなわち、第4の実施形態は、前述したユーザ判断完了判定手段238の具体例である。
ここで、ユーザ判断完了判定手段238は、質問文のうちのある質問文が回答のデフォルト選択肢を含む場合、当該ある質問文に対する回答がなく、当該ある質問文よりも後段の質問文に対する回答があったときには、当該ある質問文についてはデフォルト選択肢が回答されたことを認識する手段を含んでいる。
これに伴い、回答解析手段234は、当該認識された回答に基づいて必要となる情報を獲得し、当該必要となる情報を訳文の作成に反映させる手段を含んでいる。
例えば、第4の実施形態では、回答が最初の選択肢にある場合には、回答を書き込まなくてもよい使い方を想定しており、ユーザの労力の削減を図っている。なお、想定した使い方を明示するために、「回答が最初の選択肢と同じ場合は、記入は必要ありません。」といったメッセージを質問文に添えることも可能である。
次に、ユーザが質問文を読み、判断を下したが、回答を書き込まなかったことを判定する手段であるユーザ判断完了判定手段238について図26のフローチャートを用いて説明する(請求項2の説明)。図26のフローチャートに示す処理は、図3又は図17のフローチャートにおけるステップS8の「質問文に対する回答を得る」処理と並列に実行されている。
始めに、複数の質問文が表示されており、これらの質問文のうちのある質問文(例、N番目の質問文[N])が回答のデフォルト値を示すデフォルト選択肢と回答の候補値を示す1つ以上の候補選択肢とを含んでいるとする。また、ユーザは、これらの質問文を先頭から順に判断していくとする。
このとき、ユーザ判断完了判定手段238は、N番目の質問文[N]が付与された原文をカーソルが通過したか否かを判定し(S8’−1)、否の場合には、質問文[N]に対する処理を終了する。
また、ステップS8’−1の判定の結果、カーソルがある質問文[N]を通過した場合には、ユーザ判断完了判定手段238は、質問文[N]が選択型か否かを判定し(S8’−2)、否の場合には、質問文[N]に対する処理を終了する。
ステップS8’−2の判定の結果、質問文[N]が選択型の場合には、その後段の質問文[N+1]への回答が書き込まれているか否かを判定し(S8’−3)、否の場合には、質問文[N]に対する処理を終了する。
ステップS8’−3の判定の結果、後段の質問文[N+1]への回答が書き込まれている場合には、質問文[N]に対する(デフォルト選択肢を回答する旨の)ユーザの判断が完了していると判定し(S8’−4)、質問文[N]に対する処理を終了する。
なお、ステップST8’−4の判定が可能な理由は、複数の質問文を先頭から順に判断していく場合、前段の質問文[N]を判断し、後段の質問文[N+1]を判断し、後段の質問文[N+1]への回答が書き込まれるという手順になるからである。
補足すると、後段の質問文[N+1]への回答が書き込まれていない場合(ST8’−3;No)には、ユーザが質問文[N]を判断する前に作業を中止した可能性があるので、ステップST8’−4には進まず、質問文[N]に対する処理を終了している。
上述したように本実施形態によれば、ある質問文に対する回答がなく、当該ある質問文よりも後段の質問文に対する回答があったときには、当該ある質問文についてはデフォルト選択肢が回答されたことを認識する構成により、第1乃至第3の各実施形態の効果に加え、質問文に対する回答の労力を軽減することができる。
なお、本実施形態と同様に質問を省略可能な参考例としては、他の文書作成ソフトウェアを用いた参考例(a)、又は専用エディタを用いた参考例(b)が考えられる。
(a)Word等の文書作成ソフトウェアにおけるコメントを削除する機能を利用した参考例である。この参考例によれば、コメントを削除する機能により、ユーザがコメントを削除することをもって、質問文に対するユーザの判断が完了した旨を判定できる。図27はその画面の一例である。
(b)機械翻訳装置の専用エディタを使用した参考例である。この参考例によれば、文書校正用のウィンドウに選択型質問文を表示させた状態で、回答記入部分に何も記入せずに次の質問文に移動する指令を出したことをもって、その選択型質問文に対するユーザの判断が選択肢1と同一であると判定し、判断が完了した旨を判定できる。
以上説明した少なくとも一つの実施形態によれば、検出した曖昧箇所ごとに質問文を作成し、回答済みの曖昧箇所に関する知識情報を記憶装置25に書込む。その後、知識情報に基づいて回答済みの曖昧箇所と同一タイプの箇所を除外するように曖昧箇所の検出を再実行する。これにより、回答済みの曖昧箇所と同一タイプの箇所に対する質問文の作成が省略される。
従って、曖昧性を解消する質問を減らさずに、質問回数を減らすことにより、ユーザの回答に伴う負担を軽減させ、効率的な校正を支援することができる。
なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶又は一時記憶した記憶媒体も含まれる。
また、記憶媒体は1つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。