JP2009059300A

JP2009059300A - 訳語学習のためのデータを作成する装置、方法、およびプログラム

Info

Publication number: JP2009059300A
Application number: JP2007228051A
Authority: JP
Inventors: Tatsuya Dewa; 達也出羽
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-09-03
Filing date: 2007-09-03
Publication date: 2009-03-19
Anticipated expiration: 2027-09-03
Also published as: CN101382933A; US20090063127A1; US8135573B2; JP5342760B2

Abstract

【課題】訳語学習のためのデータの作成負担を軽減する装置を提供すること。
【解決手段】原言語の入力文章を受付ける入力部１０１と、入力文章に含まれる語句に対する目的言語の訳語と、目的言語の訳語の尤度とを生成する訳語生成部１１０と、語句と訳語とを対応づけた対応情報を作成する対応情報作成部１０２と、対応情報に含まれる目的言語の訳語に対して生成された尤度が所定の閾値より大きいか否かを判定する判定部１０３と、尤度が閾値より大きい目的言語の訳語を含む対応情報に、入力文章に含まれる語句を対応づけた学習データを作成する学習データ作成部１０４と、を備えた。
【選択図】図１

Description

この発明は、文脈に応じた訳語を学習するための学習データを作成する装置、方法、およびプログラムに関するものである。

入力された原言語のテキスト（原文）を、原言語と異なる目的言語のテキスト（訳文）に翻訳する機械翻訳装置では、原言語の語句と目的言語の訳語との組み合わせを多数記憶した対訳辞書を備え、原文の一部または全部をキーとしてこの対訳辞書を検索し、検索された訳語に基づいて出力すべき訳文を作成するということが一般的に行われている。

原言語の同じ語句であっても出現文脈によって適切な訳語が異なるということがしばしば起こるため、このような対訳辞書には、原言語の１つの語句に対して目的言語の訳語が複数登録されていることが多い。このような複数の訳語の中から、出現文脈に応じた適切な訳語を選択することが、機械翻訳装置による翻訳精度の向上のために大きな課題となっている。

このような課題に対する対策の１つとして、出現文脈ごとに適切な訳語を学習し、学習結果を参照して翻訳時の訳語を選択するという方法が採用されている。例えば、特許文献１では、原文と機械翻訳装置が出力した訳文とを参照しながら、不適切な訳語が出力された原文中の語句に対し、ユーザが適切な訳語を指定する訳語学習方式に関する技術が提案されている。

特開２００２−７３６０２号公報

しかしながら、特許文献１のような訳語学習方式では、ユーザがシステムに対して一語一語適切な訳語を指示する必要があるため、多大な労力が必要とされた。すなわち、従来の方法では、出現文脈ごとの訳語を学習するための訳語学習データは、通常、人手で作成されるため、学習データ作成のための処理負担が過大となるという問題があった。

本発明は、上記に鑑みてなされたものであって、訳語学習のためのデータの作成負担を軽減することができる装置、方法、およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、原言語の一つの語句と目的言語の複数の訳語候補の使い分けを学習するための学習データを作成するデータ作成装置であって、原言語の文章を入力する入力部と、前記文章の一つの語句を目的言語に翻訳し、前記語句に対する目的言語の複数の訳語候補と、前記訳語候補の確からしさを表す尤度とを生成する訳語生成部と、前記語句と、前記語句に対する複数の前記訳語候補と、をそれぞれ対応づけた複数の対応情報を作成する対応情報作成部と、前記対応情報に含まれる前記訳語候補の前記尤度が予め定められた閾値より大きいか否かを判定する判定部と、前記尤度が前記閾値より大きい前記訳語候補の前記対応情報に、前記文章の他の語句を付加する前記学習データを作成する学習データ作成部と、を備えたことを特徴とする。

また、本発明は、上記装置を実行することができる方法およびプログラムである。

本発明によれば、訳語学習のためのデータの作成負担を軽減することができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる訳語学習のためのデータを作成する装置、方法、およびプログラムの最良な実施の形態を詳細に説明する。以下では、訳語学習のための学習データを作成するとともに、作成した学習データによって訳語を学習して学習結果を出力する訳語学習装置として本発明を実現した例について説明する。なお、適用可能な装置はこのような訳語学習装置に限られるものではなく、訳語を学習するための訳語学習データを作成するものであればどのような装置であってもよい。

本実施の形態にかかる訳語学習装置は、入力された原言語の文章（以下、入力テキストという）を機械翻訳し、翻訳時に訳し分け規則が適用された訳語と入力テキストとを含む訳語学習データを作成するものである。これにより、入力テキストに含まれる語句が出現する文脈では、訳し分け規則を適用して得られた訳語を採用することを学習することができる。

図１は、本実施の形態にかかる訳語学習装置１００の構成を示すブロック図である。図１に示すように、訳語学習装置１００は、対訳辞書記憶部１２１と、規則記憶部１２２と、学習結果記憶部１２３と、入力部１０１と、訳語生成部１１０と、対応情報作成部１０２と、判定部１０３と、学習データ作成部１０４と、学習部１０５と、出力制御部１０６とを備えている。

対訳辞書記憶部１２１は、原言語の語句に対応する少なくとも１つの訳語を対応づけた対訳辞書を格納するものである。図２は、対訳辞書のデータ構造の一例を示す説明図である。図２に示すように、対訳辞書は、語句の表記と、原形となる語句の表記と、品詞と、訳語リストとを含んでいる。１つの語句に複数の訳語候補がある場合には、複数の訳語が訳語リスト欄には、記号「;」で区切られた複数の訳語が記される。

図１に戻り、規則記憶部１２２は、翻訳時に利用する訳し分け規則を記憶するものである。図３は、訳し分け規則の一例を示す説明図である。図３に示すように、訳し分け規則は、訳し分け規則内の語句を識別する語句ＩＤと、語句の表記と、原形となる語句の表記と、品詞と、係り受け関係にある語句のＩＤを表す係り先ＩＤと、訳語とを含んでいる。訳し分け規則は、後述する訳し分け部１１４が、複数の訳語候補の中から係り受け解析結果（構文解析結果）に応じた適切な訳語を選択するときに参照される。

なお、図３の訳し分け規則は、原形が「interest」であり、品詞が名詞である語句が、原形が「pay」であり、品詞が動詞である語句に係っているとき、「interest」の日本語の訳語を単語３０１（利息）とすることを意味している。また、「表記」、「原形」または「品詞」が空欄のときは、空欄以外の項目が解析結果と照合される。また、「訳語」が空欄のときは、訳語は選択されない。

図１に戻り、学習結果記憶部１２３は、学習部１０５による学習結果を格納するものである。図４は、学習結果のデータ構造の一例を示す説明図である。図４に示すように、本実施の形態では、学習対象となる語句の前後に出現する語句の頻度をベクトル化した形式で学習結果を表現する。以下では、このようなベクトル形式の学習結果を学習ベクトルという。なお、学習ベクトルのベクトル化の方法は上記に限られるものではなく、着目している語句からの距離等で値に重みをつける方法など、従来から用いられているあらゆる方法を適用できる。

なお、図４は、「interest」の日本語の訳語候補である単語４０１（興味）と、単語４０２（権利）と、単語４０３（利息）とに対する学習結果を例示している。訳語学習データで「interest」の周辺に出現した各語句が学習ベクトルの各次元に対応する。そして、各次元の値は対応する語句の出現頻度を表している。初期状態では、学習ベクトルの各次元の値はすべて０である。

なお、対訳辞書記憶部１２１、規則記憶部１２２、および学習結果記憶部１２３は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

図１に戻り、入力部１０１は、キーボード等の入力装置（図示せず）やハードディスク等の記憶媒体（図示せず）から原言語のテキスト（入力テキスト）を入力するものである。

訳語生成部１１０は、入力テキストに含まれる各語句に対して、目的言語の訳語と訳語の確からしさを表す尤度とを生成するものである。本実施の形態では、訳語生成部１１０は、従来から用いられているトランスファー方式の機械翻訳と同様の方法により、入力テキストを目的言語に翻訳する。訳語生成部１１０は、形態素解析部１１１と、訳語取得部１１２と、係り受け解析部１１３と、訳し分け部１１４とを備えている。

形態素解析部１１１は、入力テキストを形態素解析して語句単位に分割するものである。訳語取得部１１２は、分割した各語句に対応する目的言語の訳語を対訳辞書記憶部１２１から取得するものである。係り受け解析部１１３は、分割した語句間の係り受け関係を解析するものである。

訳し分け部１１４は、係り受け解析結果に訳し分け規則を適用することにより、係り受け関係に応じた適切な訳語を取得するものである。具体的には、訳し分け部１１４は、分割した語句に対する訳語として、複数の訳語が対訳辞書記憶部１２１から取得された場合に、解析された係り受け関係と、規則記憶部１２２の訳し分け規則とを参照して、係り先となる語句に応じた訳語を取得する。

例えば、係り受け解析部１１３が解析した係り受け解析結果の一部が、図３のような訳し分け規則の「語句ＩＤ」、「表記」、「原形」、「品詞」、および「係り先ＩＤ」で指定される構文パターンと一致した場合、訳し分け規則の「訳語」欄に指定された訳語が取得される。

訳語生成部１１０は、このような訳し分け規則を適用して得られた訳語には尤度＝１を設定し、訳し分け規則を適用しないで得られた訳語には尤度＝０を設定する。なお、訳語生成部１１０による翻訳処理、および尤度の設定方法は上記のような方法に限られるものではなく、入力テキストに含まれる各語句の訳語を生成するとともに、各訳語の確からしさを表す尤度を生成するものであれば従来から用いられているあらゆる機械翻訳技術を適用できる。

対応情報作成部１０２は、入力テキスト内の語句と、当該語句に対して訳語生成部１１０が生成した訳語とを組み合わせた対応情報を作成するものである。

判定部１０３は、作成された対応情報のそれぞれについて、訳語の尤度が予め定められた閾値より大きいか否かを判定することによって、対応情報を訳語学習データとして採用するか否かを判定するものである。本実施の形態では、尤度は０または１のいずれかの値を取るため、例えば閾値として０を用いることができる。そして、判定部１０３は、尤度が１の訳語を含む対応情報、すなわち、訳し分け規則を適用して得られた訳語を含む対応情報を、訳語学習データとして採用すると判定する。

学習データ作成部１０４は、訳語学習データとして採用された対応情報に、入力テキストに含まれる各語句を対応づけた訳語学習データを作成するものである。訳語学習データのデータ構造の詳細については後述する。

学習部１０５は、作成された訳語学習データを用いて訳語学習を行うものである。具体的には、学習部１０５は、学習結果記憶部１２３に記憶された学習ベクトルを用いて訳語を学習する。なお、学習部１０５による訳語の学習方法はこのような学習ベクトルを用いたものに限られず、ＳＶＭ（Support Vector Machine）に代表される機械学習器を用いて訳語を学習する方法などの従来から用いられているあらゆる方法を適用できる。

出力制御部１０６は、学習データ作成部１０４が作成した訳語学習データ、または学習部１０５による学習結果を出力する処理などを制御するものである。例えば、出力制御部１０６は、学習結果を学習結果記憶部１２３に出力する。なお、出力制御部１０６が、学習結果をディスプレイ装置やプリンタ装置などの出力装置（図示せず）に出力するように構成してもよい。

次に、このように構成された本実施の形態にかかる訳語学習装置１００による学習データ作成・学習処理について図５を用いて説明する。学習データ作成・学習処理とは、入力テキストから学習データを作成するとともに、作成した学習データで訳語を学習する処理をいう。図５は、本実施の形態における学習データ作成・学習処理の全体の流れを示すフローチャートである。

まず、入力部１０１が入力テキストの入力を受付ける（ステップＳ５０１）。次に、訳語生成部１１０が、入力テキストの各語句に対する訳語を生成する訳語生成処理を実行する（ステップＳ５０２）。訳語生成処理の詳細については後述する。

訳語生成処理の後、対応情報作成部１０２が、入力テキスト内の各語句に、対応する訳語を組合せた対応情報を作成する（ステップＳ５０３）。次に、判定部１０３が、作成された対応情報のうち、訳語学習データとして採用するか否かを判定していない対応情報を取得する（ステップＳ５０４）。

次に、判定部１０３は、取得した対応情報に含まれる訳語の尤度が閾値より大きいか否かを判断する（ステップＳ５０５）。上述のように、尤度は０または１のいずれかの値を取り、尤度＝１は訳し分け規則が適用された訳語に対して設定される。従って、本ステップでは、判定部１０３は、訳し分け規則を適用して得られた訳語であるか否かを判断することに相当する。

尤度が閾値より大きくない場合、すなわち訳し分け規則が適用された訳語でない場合は（ステップＳ５０５：ＮＯ）、判定部１０３は、現在の対応情報を訳語学習データとして採用しないと判定する（ステップＳ５０６）。

尤度が閾値より大きい場合、すなわち訳し分け規則が適用された訳語である場合は（ステップＳ５０５：ＹＥＳ）、判定部１０３は、現在の対応情報を訳語学習データとして採用すると判定する（ステップＳ５０７）。この場合、学習データ作成部１０４は、採用した対応情報に入力テキストを対応づけた訳語学習データを作成する（ステップＳ５０８）。

次に、判定部１０３は、すべての対応情報を処理したか否かを判断し（ステップＳ５０９）、処理していない場合は（ステップＳ５０９：ＮＯ）、次の対応情報を取得して処理を繰り返す（ステップＳ５０４）。すべての対応情報を処理した場合は（ステップＳ５０９：ＹＥＳ）、学習部１０５が、作成された訳語学習データによる訳語学習処理を実行する（ステップＳ５１０）。訳語学習処理の詳細については後述する。

訳語学習処理の後、出力制御部１０６は、訳語学習処理の結果を学習結果記憶部１２３に出力し（ステップＳ５１１）、学習データ作成・学習処理を終了する。

次に、ステップＳ５０２の訳語生成処理の詳細について図６を用いて説明する。図６は、本実施の形態における訳語生成処理の全体の流れを示すフローチャートである。

まず、形態素解析部１１１が、入力テキストを形態素解析して語句に分割する（ステップＳ６０１）。次に、訳語取得部１１２が、分割した語句それぞれに対応する訳語を対訳辞書記憶部１２１の対訳辞書から取得する（ステップＳ６０２）。

図７は、形態素解析および訳語取得の処理結果の一例を示す説明図である。図７は、原言語および目的言語がそれぞれ英語および日本語であり、「pay deposit interest」という英語の入力テキストが与えられた場合の処理結果を表している。

同図に示すように、処理結果は、入力テキスト内で語句を識別する語句ＩＤと、入力テキスト内での語句の表記と、語句の原形と、品詞と、係り先と、訳語リストと、規則適用の有無を示すフラグとを含んでいる。原形、品詞、および訳語リストは、対訳辞書から取得した情報を設定する。

「係り先」欄には、語句と係り受け関係にある語句の語句ＩＤが設定される。係り先は、形態素解析の次に行われる構文解析で設定されるため、この時点では空欄となっている。「規則適用」欄には、訳し分け規則が適用された場合に１が、適用されない場合に０が設定される。すなわち、「規則適用」欄には、訳語それぞれに対する尤度に相当する値が設定される。なお、「規則適用」欄は、構文解析の次に行われる訳し分け規則の適用処理で設定されるため、この時点では、デフォルト値である「０」が設定される。

図６に戻り、次に、係り受け解析部１１３が、分割した語句を対象として係り受け解析（構文解析）を実行する（ステップＳ６０３）。これによって、語句の間の係り受け関係が明らかにされる。

図８は、係り受け解析の処理結果の一例を示す説明図である。図８に示すように、係り受け解析により、各語句の係り先の語句ＩＤが「係り先」の列に設定される。なお、係り先が存在しない場合には、「係り先」の列には「−１」を設定する。

図９は、図８の係り受け関係を視覚的に表現した説明図である。図９は、楕円で示されたノード内の語句が、上方のノードの語句に係ることを表している。

次に、訳し分け部１１４が、訳し分け規則を適用して、複数の訳語が訳語リストに含まれる語句に対する訳語を決定する（ステップＳ６０４）。

図１０は、図８のような係り受け解析結果に対して図３に示すような訳し分け規則を適用した場合の処理結果を表す説明図である。図３の訳し分け規則は、図８の係り受け解析結果の中で「interest」が「pay」に係る部分が適合する。これにより、「interest」の訳語が図３の単語３０１（利息）に決定され、図８では３つの訳語を含む「interest」の訳語リストの値が、訳語１００１（利息）に変更される。また、「interest」の規則適用の列の値は「０」から「１」に変更される。

なお、対応情報作成部１０２は、図１０のような処理結果の行ごとに表記と訳語リスト内の訳語とを対応づけた対応情報を作成する。

次に、訳語学習データのデータ構造の詳細について説明する。ここでは、原言語および目的言語がそれぞれ英語および日本語であり、「pay deposit interest」という英語の入力テキストが与えられた場合を例として、作成される訳語学習データのデータ構造を説明する。

なお、この入力テキストに対しては、訳語生成処理により図１０に示すような処理結果が得られる。そして、この後、判定部１０３によって対応情報を訳語学習データとして採用するか否かが判定される。

図１０の例では、表の各行が各対応情報に対応しているため、判定部１０３は、各行について判定を行う。上述のように、判定部１０３は、訳語学習データとして採用するか否かを、訳し分け規則が適用された訳語を含むか否かによって判定する。すなわち、判定部１０３は、「規則適用」の列の値が「１」である行に対応する対応情報を訳語学習データとして採用する。同図の例では、語句「interest」と日本語の訳語１００１（利息）とを組み合わせた対応情報のみが訳語学習データとして採用される。

図１１は、判定部１０３による判定結果の一例を示す説明図である。図１１では、判定結果を表形式で表した例が示されている。同図に示すように、判定結果は、語句ＩＤと、表記と、原形と、品詞と、訳語と、訳語学習データとして採用されたか否かを表す学習フラグとを含んでいる。語句ＩＤ、表記、原形、および品詞には、図１０に示すような訳語生成処理の処理結果の値をそのまま設定する。

訳語には、図１０の訳語リスト欄の先頭の訳語を設定する。なお、図１０の例では、訳語リストに複数の訳語が残っている語句が存在しない。このため、結果として、図１０の訳語リストの値がそのまま図１１の訳語欄に設定されている。学習フラグには、図１０の規則適用の値がそのまま設定される。

学習データ作成部１０４は、図１１のような判定結果を参照して訳語学習データを作成する。図１２は、作成される訳語学習データのデータ構造の一例を示す説明図である。図１２に示すように、学習データ作成部１０４は、採用された対応情報の訳語を、入力テキストの中に「<learn>」タグの「tw」属性の値として埋め込んだ訳語学習データを作成する。

なお、訳語学習データのデータ構造は図１２のような形式に限られるものではなく、語句と訳語との組合せに、当該語句以外の入力テキスト内の少なくとも１つの語句を対応づけたデータであればどのような形式であってもよい。例えば、図１１のような表形式の判定結果全体を訳語学習データとして用いることもできる。このような訳語学習データを用いることにより、対応づけた語句によって表される文脈では、特定の訳語を選択することを学習することが可能となる。

図１２の訳語学習データは、「pay deposit interest」というテキストに対しては、すなわち、「pay」および「deposit」が出現する文脈では、「interest」を日本語の単語１２０１（利息）に翻訳するということを示している。

従来は、このような訳語学習データを人手で作成していたのに対し、本実施の形態では、上述のような処理によりユーザが原言語によるテキストを入力するだけで訳語学習データを得ることが可能となる。これにより、訳語学習データ作成の手間が大幅に軽減される。

次に、ステップＳ５１０の訳語学習処理の詳細について図１３を用いて説明する。図１３は、本実施の形態における訳語学習処理の全体の流れを示すフローチャートである。なお、以下では図１１に示すような表形式の訳語学習データを用いて学習する場合を例に説明する。

まず、学習部１０５は、作成された訳語学習データから、未処理の語句ＩＤ（以下、ＩＤａという）を取得する（ステップＳ１３０１）。次に、学習部１０５は、取得したＩＤａに対応する学習フラグが「１」であるか否かを判断する（ステップＳ１３０２）。学習フラグが「１」の場合は（ステップＳ１３０２：ＹＥＳ）、学習部１０５は、ＩＤａの語句に対応する訳語を変数ｔｗに設定する（ステップＳ１３０３）。

次に、学習部１０５は、作成された訳語学習データのうち、ＩＤａ以外の語句ＩＤ（以下、ＩＤｂという）を取得する（ステップＳ１３０４）。そして、学習部１０５は、変数ｔｗに設定された訳語についての学習ベクトルに対し、語句ＩＤがＩＤｂである語句に対応する次元の値に１を加算する（ステップＳ１３０５）。

次に、学習部１０５は、ＩＤａ以外の語句ＩＤのうち、未処理の語句ＩＤが存在するか否かを判断し（ステップＳ１３０６）、存在する場合は（ステップＳ１３０６：ＹＥＳ）、次の語句ＩＤをＩＤｂとして取得して処理を繰り返す（ステップＳ１３０４）。

ＩＤａ以外の語句ＩＤのうち未処理の語句ＩＤが存在しない場合は（ステップＳ１３０６：ＮＯ）、学習部１０５は、すべての語句ＩＤに対して上記処理を実行したか否かを判断する（ステップＳ１３０７）。

すべての語句ＩＤを処理していない場合は（ステップＳ１３０７：ＮＯ）、次の未処理の語句ＩＤをＩＤａとして取得して処理を繰り返す（ステップＳ１３０１）。すべての語句ＩＤを処理した場合は（ステップＳ１３０７：ＹＥＳ）、訳語学習処理を終了する。

次に、訳語学習処理の具体例について説明する。以下では、学習結果が図４のような初期状態であるときに、図１１に示すような訳語学習データを用いて訳語を学習する場合を例に説明する。

まず、語句ＩＤ＝０の語句「pay」および語句ＩＤ＝１の語句「deposit」は、学習フラグが「０」であるため（ステップＳ１３０２：ＮＯ）、訳語の学習は行わない。語句ＩＤ＝２の語句「interest」は、学習フラグが「１」であるため（ステップＳ１３０２：ＹＥＳ）、対応する訳語１１０１（利息）の学習ベクトルを更新する。

すなわち、図４の例では、学習部１０５は、最も右に位置する訳語である単語４０３に対応する学習ベクトルを更新する。まず、語句ＩＤ＝０の語句「pay（動詞）」に対応する次元の値を１増やす。続いて、語句ＩＤ＝１の語句「deposit（名詞）」に対応する次元の値も１増やす。図１４は、このようにして更新された学習ベクトルの一例を示す説明図である。図１４に示すように、単語４０３の学習ベクトルの該当する次元の値が１に更新されている。

なお、出力制御部１０６が、このような学習ベクトルを外部装置などで利用可能とするためのデータ形式に変換して出力するように構成してもよい。図１５は、学習結果の別のデータ形式の一例を示す説明図である。図１５では、学習ベクトルの各次元に対応する語句の原形と品詞とを明示した形式に変換された学習結果の例を示している。

なお、図１５の学習結果は、「interest（名詞）」を、日本語の単語１５０１（興味）または単語１５０２（権利）に訳した学習データは存在しないが、「interest（名詞）」を日本語の単語１５０３（利息）に訳した学習データが存在すること、および、その学習データは、「interest」の前後に「pay（動詞）」および「deposit（名詞）」がそれぞれ１回出現したこと表すことを意味している。

ところで、図１５のような学習結果は、次のように利用することにより、機械翻訳の品質向上に役立てることができる。以下では、英語の入力テキスト「The bank owes me 10 years of deposit interest.」を日本語に翻訳する場合を例に説明する。

上記入力テキストを、図２のような対訳辞書と図３のような訳し分け規則とを用いて翻訳すると、図１６に示すような処理結果が得られる。図１６は、処理結果の一例を示す説明図である。語句ＩＤ＝８の「interest」に対応する訳語リストに着目すると、この入力テキストに対しては訳し分け規則が適用されないため、３つの訳語候補（興味、権利、利息）が残ったままとなる。

複数の訳語候補が残っているときには先頭の訳語を出力することにすると、この例では「interest」に対して不適切な訳語（興味）が出力されることになる。このような場合、図１５に示すような学習結果を利用すると適切な訳語（利息）を選ぶことができる。

ここでは、図１４のような学習ベクトルが得られていること、または、図１５のような学習結果が得られた場合には図１４のような学習ベクトルに変換しておくことを前提とする。

まず、入力テキスト「The bank owes me 10 years of deposit interest.」の「interest」について、学習ベクトルと同様の方法により、前後の語句の出現頻度をベクトル化する。なお、冠詞、代名詞、前置詞、数詞、および記号にはベクトルの次元を割り当てない。図１７は、このようにして変換したベクトル表現の一例を示す説明図である。

次に、図１４の３つの学習ベクトルのうち、図１７のベクトルとのコサイン類似度が最も大きい学習ベクトルに対応する訳語を選択する。これにより、前後の語句が共通する訳語を選択することができるため、より適切な訳語を得ることができる。

例えば、図１４の３つの学習ベクトルのうち、単語４０１（興味）および単語４０２（権利）の学習ベクトルは成分がすべて０であるから、コサイン類似度も０になる。一方、単語４０３（利息）の学習ベクトルは、「deposit（名詞）」に対応する次元の値が１であり、図１７のベクトルも「deposit（名詞）」に対応する次元の値が１である。このため、コサイン類似度は０より大きい値になる。したがって、図１７のベクトルとのコサイン類似度が最も大きい学習ベクトルは、単語４０３（利息）に対応する学習ベクトルとなる。すなわち、入力テキスト「The bank owes me 10 years of deposit interest.」の単語「interest」については、単語４０３（利息）を訳語として選択すればよい。

このように、本実施の形態にかかる訳語学習装置１００では、入力テキストを機械翻訳した時に訳し分け規則が適用された訳語と入力テキストとを含む訳語学習データを作成することができる。これにより、従来手作業で行っていた訳語学習データの作成負担を軽減することができる。また、このようにして作成された訳語学習データによって訳語学習を実行できるため、訳語学習処理を効率化することができる。

次に、本実施の形態にかかる訳語学習装置１００のハードウェア構成について図１８を用いて説明する。図１８は、本実施の形態にかかる訳語学習装置１００のハードウェア構成を示す説明図である。

本実施の形態にかかる訳語学習装置１００は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、ＨＤＤ（Hard Disk Drive）、ＣＤ（Compact Disc）ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス６１を備えており、通常のコンピュータを利用したハードウェア構成となっている。

本実施の形態にかかる訳語学習装置１００で実行されるデータ作成プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、本実施の形態にかかる訳語学習装置１００で実行されるデータ作成プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる訳語学習装置１００で実行されるデータ作成プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

また、本実施の形態のデータ作成プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

本実施の形態にかかる訳語学習装置１００で実行されるデータ作成プログラムは、上述した各部（入力部、訳語生成部、対応情報作成部、判定部と、学習データ作成部、学習部、出力制御部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１（プロセッサ）が上記記憶媒体からデータ作成プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。

以上のように、本発明にかかる訳語学習のためのデータを作成する装置、方法、およびプログラムは、機械翻訳のための訳語学習データを作成する装置、方法、プログラムおよび機械翻訳のための訳語学習データにより訳語を学習する装置に適している。

本実施の形態にかかる訳語学習装置の構成を示すブロック図である。対訳辞書のデータ構造の一例を示す説明図である。訳し分け規則の一例を示す説明図である。学習結果のデータ構造の一例を示す説明図である。本実施の形態における学習データ作成・学習処理の全体の流れを示すフローチャートである。本実施の形態における訳語生成処理の全体の流れを示すフローチャートである。形態素解析および訳語取得の処理結果の一例を示す説明図である。係り受け解析の処理結果の一例を示す説明図である。係り受け関係を視覚的に表現した説明図である。訳し分け規則を適用した場合の処理結果を表す説明図である。判定結果の一例を示す説明図である。作成される訳語学習データのデータ構造の一例を示す説明図である。本実施の形態における訳語学習処理の全体の流れを示すフローチャートである。学習ベクトルの一例を示す説明図である。学習結果の別のデータ形式の一例を示す説明図である。処理結果の一例を示す説明図である。ベクトル表現の一例を示す説明図である。本実施の形態にかかる訳語学習装置のハードウェア構成を示す説明図である。

符号の説明

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００訳語学習装置
１０１入力部
１０２対応情報作成部
１０３判定部
１０４学習データ作成部
１０５学習部
１０６出力制御部
１１０訳語生成部
１１１形態素解析部
１１２訳語取得部
１１３係り受け解析部
１１４訳し分け部
１２１対訳辞書記憶部
１２２規則記憶部
１２３学習結果記憶部
３０１単語
４０１〜４０３単語
１００１訳語
１１０１訳語
１２０１単語
１５０１〜１５０３単語

Claims

原言語の一つの語句と目的言語の複数の訳語候補の使い分けを学習するための学習データを作成するデータ作成装置であって、
原言語の文章を入力する入力部と、
前記文章の一つの語句を目的言語に翻訳し、前記語句に対する目的言語の複数の訳語候補と、前記訳語候補の確からしさを表す尤度とを生成する訳語生成部と、
前記語句と、前記語句に対する複数の前記訳語候補と、をそれぞれ対応づけた複数の対応情報を作成する対応情報作成部と、
前記対応情報に含まれる前記訳語候補の前記尤度が予め定められた閾値より大きいか否かを判定する判定部と、
前記尤度が前記閾値より大きい前記訳語候補の前記対応情報に、前記文章の他の語句を付加する前記学習データを作成する学習データ作成部と、
を備えたことを特徴とするデータ作成装置。
前記訳語生成部は、予め定められた翻訳規則に基づいて前記文章を目的言語に翻訳し、前記訳語候補と前記尤度とを生成すること、
を特徴とする請求項１に記載のデータ作成装置。
原言語の語句と、前記原言語の語句に対する前記訳語候補とを対応づけた対訳辞書を記憶する辞書記憶部と、
前記原言語の語句と、前記原言語の語句と係り受け関係にある語句と、前記訳語候補とを対応づけた前記翻訳規則を記憶する規則記憶部と、をさらに備え、
前記訳語生成部は、
前記文章を形態素解析して語句に分割する形態素解析部と、
分割した語句に対する前記訳語候補を前記辞書記憶部から取得する訳語取得部と、
分割した語句間の係り受け関係を解析する係り受け解析部と、
分割した語句それぞれについて、分割した語句および分割した語句と係り受け関係にある語句を、それぞれ前記規則記憶部に記憶された前記翻訳規則における前記原言語の語句および前記原言語の語句と係り受け関係にある語句と照合し、一致した前記翻訳規則において前記原言語の語句に対応付けられた前記訳語候補を前記規則記憶部から取得する訳し分け部と、を備えたこと、
を特徴とする請求項２に記載のデータ作成装置。
前記訳語生成部は、前記規則記憶部から取得した前記訳語候補に対して、前記辞書記憶部から取得した前記訳語候補より大きい前記尤度を生成すること、
を特徴とする請求項３に記載のデータ作成装置。
前記学習データ作成部は、前記規則記憶部から取得した前記訳語候補を含む前記対応情報に、前記文章に含まれる語句を対応づけた前記学習データを作成すること、
を特徴とする請求項３に記載のデータ作成装置。
前記学習データ作成部は、前記尤度が前記閾値より大きい前記訳語候補を含む前記対応情報に、前記文章に含まれる語句のうち、前記対応情報に含まれる語句以外の語句を対応づけた前記学習データを作成すること、
を特徴とする請求項１に記載のデータ作成装置。
前記学習データ作成部は、前記文章に含まれる語句を含み、前記文章に含まれる語句のうち、前記尤度が前記閾値より大きい前記訳語候補を含む前記対応情報内の語句に、前記対応情報内の前記訳語候補を対応づけた前記学習データを作成すること、
を特徴とする請求項１に記載のデータ作成装置。
前記学習データに基づいて前記訳語候補の使い分けを学習する学習部をさらに備えたこと、
を特徴とする請求項１に記載のデータ作成装置。
原言語の一つの語句と目的言語の複数の訳語候補の使い分けを学習するための学習データを作成するデータ作成装置で実行されるデータ作成方法であって、
入力部によって、原言語の文章を入力する入力ステップと、
訳語生成部によって、前記文章の一つの語句を目的言語に翻訳し、前記語句に対する目的言語の複数の訳語候補と、前記訳語候補の確からしさを表す尤度とを生成する訳語生成ステップと、
対応情報作成部によって、前記語句と、前記語句に対する複数の前記訳語候補と、をそれぞれ対応づけた複数の対応情報を作成する対応情報作成ステップと、
判定部によって、前記対応情報に含まれる前記訳語候補の前記尤度が予め定められた閾値より大きいか否かを判定する判定ステップと、
学習データ作成部によって、前記尤度が前記閾値より大きい前記訳語候補の前記対応情報に、前記文章の他の語句を付加する前記学習データを作成する学習データ作成ステップと、
を備えたことを特徴とするデータ作成方法。
原言語の一つの語句と目的言語の複数の訳語候補の使い分けを学習するための学習データを作成する方法をコンピュータに実行させるデータ作成プログラムであって、
原言語の文章を入力するける入力手順と、
前記文章の一つの語句を目的言語に翻訳し、前記語句に対する目的言語の複数の訳語候補と、前記訳語候補の確からしさを表す尤度とを生成する訳語生成手順と、
前記語句と、前記語句に対する複数の前記訳語候補と、をそれぞれ対応づけた複数の対応情報を作成する対応情報作成手順と、
前記対応情報に含まれる前記訳語候補の前記尤度が予め定められた閾値より大きいか否かを判定する判定手順と、
前記尤度が前記閾値より大きい前記訳語候補を含む前記対応情報に、前記文章の他の語句を付加する前記学習データを作成する学習データ作成手順と、
を前記コンピュータに実行させるデータ作成プログラム。