JP2009059300A - 訳語学習のためのデータを作成する装置、方法、およびプログラム - Google Patents

訳語学習のためのデータを作成する装置、方法、およびプログラム Download PDF

Info

Publication number
JP2009059300A
JP2009059300A JP2007228051A JP2007228051A JP2009059300A JP 2009059300 A JP2009059300 A JP 2009059300A JP 2007228051 A JP2007228051 A JP 2007228051A JP 2007228051 A JP2007228051 A JP 2007228051A JP 2009059300 A JP2009059300 A JP 2009059300A
Authority
JP
Japan
Prior art keywords
translation
word
phrase
learning
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007228051A
Other languages
English (en)
Other versions
JP5342760B2 (ja
Inventor
Tatsuya Dewa
達也 出羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007228051A priority Critical patent/JP5342760B2/ja
Priority to US12/050,643 priority patent/US8135573B2/en
Priority to CNA2008102148614A priority patent/CN101382933A/zh
Publication of JP2009059300A publication Critical patent/JP2009059300A/ja
Application granted granted Critical
Publication of JP5342760B2 publication Critical patent/JP5342760B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】訳語学習のためのデータの作成負担を軽減する装置を提供すること。
【解決手段】原言語の入力文章を受付ける入力部101と、入力文章に含まれる語句に対する目的言語の訳語と、目的言語の訳語の尤度とを生成する訳語生成部110と、語句と訳語とを対応づけた対応情報を作成する対応情報作成部102と、対応情報に含まれる目的言語の訳語に対して生成された尤度が所定の閾値より大きいか否かを判定する判定部103と、尤度が閾値より大きい目的言語の訳語を含む対応情報に、入力文章に含まれる語句を対応づけた学習データを作成する学習データ作成部104と、を備えた。
【選択図】 図1

Description

この発明は、文脈に応じた訳語を学習するための学習データを作成する装置、方法、およびプログラムに関するものである。
入力された原言語のテキスト(原文)を、原言語と異なる目的言語のテキスト(訳文)に翻訳する機械翻訳装置では、原言語の語句と目的言語の訳語との組み合わせを多数記憶した対訳辞書を備え、原文の一部または全部をキーとしてこの対訳辞書を検索し、検索された訳語に基づいて出力すべき訳文を作成するということが一般的に行われている。
原言語の同じ語句であっても出現文脈によって適切な訳語が異なるということがしばしば起こるため、このような対訳辞書には、原言語の1つの語句に対して目的言語の訳語が複数登録されていることが多い。このような複数の訳語の中から、出現文脈に応じた適切な訳語を選択することが、機械翻訳装置による翻訳精度の向上のために大きな課題となっている。
このような課題に対する対策の1つとして、出現文脈ごとに適切な訳語を学習し、学習結果を参照して翻訳時の訳語を選択するという方法が採用されている。例えば、特許文献1では、原文と機械翻訳装置が出力した訳文とを参照しながら、不適切な訳語が出力された原文中の語句に対し、ユーザが適切な訳語を指定する訳語学習方式に関する技術が提案されている。
特開2002−73602号公報
しかしながら、特許文献1のような訳語学習方式では、ユーザがシステムに対して一語一語適切な訳語を指示する必要があるため、多大な労力が必要とされた。すなわち、従来の方法では、出現文脈ごとの訳語を学習するための訳語学習データは、通常、人手で作成されるため、学習データ作成のための処理負担が過大となるという問題があった。
本発明は、上記に鑑みてなされたものであって、訳語学習のためのデータの作成負担を軽減することができる装置、方法、およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、原言語の一つの語句と目的言語の複数の訳語候補の使い分けを学習するための学習データを作成するデータ作成装置であって、原言語の文章を入力する入力部と、前記文章の一つの語句を目的言語に翻訳し、前記語句に対する目的言語の複数の訳語候補と、前記訳語候補の確からしさを表す尤度とを生成する訳語生成部と、前記語句と、前記語句に対する複数の前記訳語候補と、をそれぞれ対応づけた複数の対応情報を作成する対応情報作成部と、前記対応情報に含まれる前記訳語候補の前記尤度が予め定められた閾値より大きいか否かを判定する判定部と、前記尤度が前記閾値より大きい前記訳語候補の前記対応情報に、前記文章の他の語句を付加する前記学習データを作成する学習データ作成部と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる方法およびプログラムである。
本発明によれば、訳語学習のためのデータの作成負担を軽減することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる訳語学習のためのデータを作成する装置、方法、およびプログラムの最良な実施の形態を詳細に説明する。以下では、訳語学習のための学習データを作成するとともに、作成した学習データによって訳語を学習して学習結果を出力する訳語学習装置として本発明を実現した例について説明する。なお、適用可能な装置はこのような訳語学習装置に限られるものではなく、訳語を学習するための訳語学習データを作成するものであればどのような装置であってもよい。
本実施の形態にかかる訳語学習装置は、入力された原言語の文章(以下、入力テキストという)を機械翻訳し、翻訳時に訳し分け規則が適用された訳語と入力テキストとを含む訳語学習データを作成するものである。これにより、入力テキストに含まれる語句が出現する文脈では、訳し分け規則を適用して得られた訳語を採用することを学習することができる。
図1は、本実施の形態にかかる訳語学習装置100の構成を示すブロック図である。図1に示すように、訳語学習装置100は、対訳辞書記憶部121と、規則記憶部122と、学習結果記憶部123と、入力部101と、訳語生成部110と、対応情報作成部102と、判定部103と、学習データ作成部104と、学習部105と、出力制御部106とを備えている。
対訳辞書記憶部121は、原言語の語句に対応する少なくとも1つの訳語を対応づけた対訳辞書を格納するものである。図2は、対訳辞書のデータ構造の一例を示す説明図である。図2に示すように、対訳辞書は、語句の表記と、原形となる語句の表記と、品詞と、訳語リストとを含んでいる。1つの語句に複数の訳語候補がある場合には、複数の訳語が訳語リスト欄には、記号「;」で区切られた複数の訳語が記される。
図1に戻り、規則記憶部122は、翻訳時に利用する訳し分け規則を記憶するものである。図3は、訳し分け規則の一例を示す説明図である。図3に示すように、訳し分け規則は、訳し分け規則内の語句を識別する語句IDと、語句の表記と、原形となる語句の表記と、品詞と、係り受け関係にある語句のIDを表す係り先IDと、訳語とを含んでいる。訳し分け規則は、後述する訳し分け部114が、複数の訳語候補の中から係り受け解析結果(構文解析結果)に応じた適切な訳語を選択するときに参照される。
なお、図3の訳し分け規則は、原形が「interest」であり、品詞が名詞である語句が、原形が「pay」であり、品詞が動詞である語句に係っているとき、「interest」の日本語の訳語を単語301(利息)とすることを意味している。また、「表記」、「原形」または「品詞」が空欄のときは、空欄以外の項目が解析結果と照合される。また、「訳語」が空欄のときは、訳語は選択されない。
図1に戻り、学習結果記憶部123は、学習部105による学習結果を格納するものである。図4は、学習結果のデータ構造の一例を示す説明図である。図4に示すように、本実施の形態では、学習対象となる語句の前後に出現する語句の頻度をベクトル化した形式で学習結果を表現する。以下では、このようなベクトル形式の学習結果を学習ベクトルという。なお、学習ベクトルのベクトル化の方法は上記に限られるものではなく、着目している語句からの距離等で値に重みをつける方法など、従来から用いられているあらゆる方法を適用できる。
なお、図4は、「interest」の日本語の訳語候補である単語401(興味)と、単語402(権利)と、単語403(利息)とに対する学習結果を例示している。訳語学習データで「interest」の周辺に出現した各語句が学習ベクトルの各次元に対応する。そして、各次元の値は対応する語句の出現頻度を表している。初期状態では、学習ベクトルの各次元の値はすべて0である。
なお、対訳辞書記憶部121、規則記憶部122、および学習結果記憶部123は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
図1に戻り、入力部101は、キーボード等の入力装置(図示せず)やハードディスク等の記憶媒体(図示せず)から原言語のテキスト(入力テキスト)を入力するものである。
訳語生成部110は、入力テキストに含まれる各語句に対して、目的言語の訳語と訳語の確からしさを表す尤度とを生成するものである。本実施の形態では、訳語生成部110は、従来から用いられているトランスファー方式の機械翻訳と同様の方法により、入力テキストを目的言語に翻訳する。訳語生成部110は、形態素解析部111と、訳語取得部112と、係り受け解析部113と、訳し分け部114とを備えている。
形態素解析部111は、入力テキストを形態素解析して語句単位に分割するものである。訳語取得部112は、分割した各語句に対応する目的言語の訳語を対訳辞書記憶部121から取得するものである。係り受け解析部113は、分割した語句間の係り受け関係を解析するものである。
訳し分け部114は、係り受け解析結果に訳し分け規則を適用することにより、係り受け関係に応じた適切な訳語を取得するものである。具体的には、訳し分け部114は、分割した語句に対する訳語として、複数の訳語が対訳辞書記憶部121から取得された場合に、解析された係り受け関係と、規則記憶部122の訳し分け規則とを参照して、係り先となる語句に応じた訳語を取得する。
例えば、係り受け解析部113が解析した係り受け解析結果の一部が、図3のような訳し分け規則の「語句ID」、「表記」、「原形」、「品詞」、および「係り先ID」で指定される構文パターンと一致した場合、訳し分け規則の「訳語」欄に指定された訳語が取得される。
訳語生成部110は、このような訳し分け規則を適用して得られた訳語には尤度=1を設定し、訳し分け規則を適用しないで得られた訳語には尤度=0を設定する。なお、訳語生成部110による翻訳処理、および尤度の設定方法は上記のような方法に限られるものではなく、入力テキストに含まれる各語句の訳語を生成するとともに、各訳語の確からしさを表す尤度を生成するものであれば従来から用いられているあらゆる機械翻訳技術を適用できる。
対応情報作成部102は、入力テキスト内の語句と、当該語句に対して訳語生成部110が生成した訳語とを組み合わせた対応情報を作成するものである。
判定部103は、作成された対応情報のそれぞれについて、訳語の尤度が予め定められた閾値より大きいか否かを判定することによって、対応情報を訳語学習データとして採用するか否かを判定するものである。本実施の形態では、尤度は0または1のいずれかの値を取るため、例えば閾値として0を用いることができる。そして、判定部103は、尤度が1の訳語を含む対応情報、すなわち、訳し分け規則を適用して得られた訳語を含む対応情報を、訳語学習データとして採用すると判定する。
学習データ作成部104は、訳語学習データとして採用された対応情報に、入力テキストに含まれる各語句を対応づけた訳語学習データを作成するものである。訳語学習データのデータ構造の詳細については後述する。
学習部105は、作成された訳語学習データを用いて訳語学習を行うものである。具体的には、学習部105は、学習結果記憶部123に記憶された学習ベクトルを用いて訳語を学習する。なお、学習部105による訳語の学習方法はこのような学習ベクトルを用いたものに限られず、SVM(Support Vector Machine)に代表される機械学習器を用いて訳語を学習する方法などの従来から用いられているあらゆる方法を適用できる。
出力制御部106は、学習データ作成部104が作成した訳語学習データ、または学習部105による学習結果を出力する処理などを制御するものである。例えば、出力制御部106は、学習結果を学習結果記憶部123に出力する。なお、出力制御部106が、学習結果をディスプレイ装置やプリンタ装置などの出力装置(図示せず)に出力するように構成してもよい。
次に、このように構成された本実施の形態にかかる訳語学習装置100による学習データ作成・学習処理について図5を用いて説明する。学習データ作成・学習処理とは、入力テキストから学習データを作成するとともに、作成した学習データで訳語を学習する処理をいう。図5は、本実施の形態における学習データ作成・学習処理の全体の流れを示すフローチャートである。
まず、入力部101が入力テキストの入力を受付ける(ステップS501)。次に、訳語生成部110が、入力テキストの各語句に対する訳語を生成する訳語生成処理を実行する(ステップS502)。訳語生成処理の詳細については後述する。
訳語生成処理の後、対応情報作成部102が、入力テキスト内の各語句に、対応する訳語を組合せた対応情報を作成する(ステップS503)。次に、判定部103が、作成された対応情報のうち、訳語学習データとして採用するか否かを判定していない対応情報を取得する(ステップS504)。
次に、判定部103は、取得した対応情報に含まれる訳語の尤度が閾値より大きいか否かを判断する(ステップS505)。上述のように、尤度は0または1のいずれかの値を取り、尤度=1は訳し分け規則が適用された訳語に対して設定される。従って、本ステップでは、判定部103は、訳し分け規則を適用して得られた訳語であるか否かを判断することに相当する。
尤度が閾値より大きくない場合、すなわち訳し分け規則が適用された訳語でない場合は(ステップS505:NO)、判定部103は、現在の対応情報を訳語学習データとして採用しないと判定する(ステップS506)。
尤度が閾値より大きい場合、すなわち訳し分け規則が適用された訳語である場合は(ステップS505:YES)、判定部103は、現在の対応情報を訳語学習データとして採用すると判定する(ステップS507)。この場合、学習データ作成部104は、採用した対応情報に入力テキストを対応づけた訳語学習データを作成する(ステップS508)。
次に、判定部103は、すべての対応情報を処理したか否かを判断し(ステップS509)、処理していない場合は(ステップS509:NO)、次の対応情報を取得して処理を繰り返す(ステップS504)。すべての対応情報を処理した場合は(ステップS509:YES)、学習部105が、作成された訳語学習データによる訳語学習処理を実行する(ステップS510)。訳語学習処理の詳細については後述する。
訳語学習処理の後、出力制御部106は、訳語学習処理の結果を学習結果記憶部123に出力し(ステップS511)、学習データ作成・学習処理を終了する。
次に、ステップS502の訳語生成処理の詳細について図6を用いて説明する。図6は、本実施の形態における訳語生成処理の全体の流れを示すフローチャートである。
まず、形態素解析部111が、入力テキストを形態素解析して語句に分割する(ステップS601)。次に、訳語取得部112が、分割した語句それぞれに対応する訳語を対訳辞書記憶部121の対訳辞書から取得する(ステップS602)。
図7は、形態素解析および訳語取得の処理結果の一例を示す説明図である。図7は、原言語および目的言語がそれぞれ英語および日本語であり、「pay deposit interest」という英語の入力テキストが与えられた場合の処理結果を表している。
同図に示すように、処理結果は、入力テキスト内で語句を識別する語句IDと、入力テキスト内での語句の表記と、語句の原形と、品詞と、係り先と、訳語リストと、規則適用の有無を示すフラグとを含んでいる。原形、品詞、および訳語リストは、対訳辞書から取得した情報を設定する。
「係り先」欄には、語句と係り受け関係にある語句の語句IDが設定される。係り先は、形態素解析の次に行われる構文解析で設定されるため、この時点では空欄となっている。「規則適用」欄には、訳し分け規則が適用された場合に1が、適用されない場合に0が設定される。すなわち、「規則適用」欄には、訳語それぞれに対する尤度に相当する値が設定される。なお、「規則適用」欄は、構文解析の次に行われる訳し分け規則の適用処理で設定されるため、この時点では、デフォルト値である「0」が設定される。
図6に戻り、次に、係り受け解析部113が、分割した語句を対象として係り受け解析(構文解析)を実行する(ステップS603)。これによって、語句の間の係り受け関係が明らかにされる。
図8は、係り受け解析の処理結果の一例を示す説明図である。図8に示すように、係り受け解析により、各語句の係り先の語句IDが「係り先」の列に設定される。なお、係り先が存在しない場合には、「係り先」の列には「−1」を設定する。
図9は、図8の係り受け関係を視覚的に表現した説明図である。図9は、楕円で示されたノード内の語句が、上方のノードの語句に係ることを表している。
次に、訳し分け部114が、訳し分け規則を適用して、複数の訳語が訳語リストに含まれる語句に対する訳語を決定する(ステップS604)。
図10は、図8のような係り受け解析結果に対して図3に示すような訳し分け規則を適用した場合の処理結果を表す説明図である。図3の訳し分け規則は、図8の係り受け解析結果の中で「interest」が「pay」に係る部分が適合する。これにより、「interest」の訳語が図3の単語301(利息)に決定され、図8では3つの訳語を含む「interest」の訳語リストの値が、訳語1001(利息)に変更される。また、「interest」の規則適用の列の値は「0」から「1」に変更される。
なお、対応情報作成部102は、図10のような処理結果の行ごとに表記と訳語リスト内の訳語とを対応づけた対応情報を作成する。
次に、訳語学習データのデータ構造の詳細について説明する。ここでは、原言語および目的言語がそれぞれ英語および日本語であり、「pay deposit interest」という英語の入力テキストが与えられた場合を例として、作成される訳語学習データのデータ構造を説明する。
なお、この入力テキストに対しては、訳語生成処理により図10に示すような処理結果が得られる。そして、この後、判定部103によって対応情報を訳語学習データとして採用するか否かが判定される。
図10の例では、表の各行が各対応情報に対応しているため、判定部103は、各行について判定を行う。上述のように、判定部103は、訳語学習データとして採用するか否かを、訳し分け規則が適用された訳語を含むか否かによって判定する。すなわち、判定部103は、「規則適用」の列の値が「1」である行に対応する対応情報を訳語学習データとして採用する。同図の例では、語句「interest」と日本語の訳語1001(利息)とを組み合わせた対応情報のみが訳語学習データとして採用される。
図11は、判定部103による判定結果の一例を示す説明図である。図11では、判定結果を表形式で表した例が示されている。同図に示すように、判定結果は、語句IDと、表記と、原形と、品詞と、訳語と、訳語学習データとして採用されたか否かを表す学習フラグとを含んでいる。語句ID、表記、原形、および品詞には、図10に示すような訳語生成処理の処理結果の値をそのまま設定する。
訳語には、図10の訳語リスト欄の先頭の訳語を設定する。なお、図10の例では、訳語リストに複数の訳語が残っている語句が存在しない。このため、結果として、図10の訳語リストの値がそのまま図11の訳語欄に設定されている。学習フラグには、図10の規則適用の値がそのまま設定される。
学習データ作成部104は、図11のような判定結果を参照して訳語学習データを作成する。図12は、作成される訳語学習データのデータ構造の一例を示す説明図である。図12に示すように、学習データ作成部104は、採用された対応情報の訳語を、入力テキストの中に「<learn>」タグの「tw」属性の値として埋め込んだ訳語学習データを作成する。
なお、訳語学習データのデータ構造は図12のような形式に限られるものではなく、語句と訳語との組合せに、当該語句以外の入力テキスト内の少なくとも1つの語句を対応づけたデータであればどのような形式であってもよい。例えば、図11のような表形式の判定結果全体を訳語学習データとして用いることもできる。このような訳語学習データを用いることにより、対応づけた語句によって表される文脈では、特定の訳語を選択することを学習することが可能となる。
図12の訳語学習データは、「pay deposit interest」というテキストに対しては、すなわち、「pay」および「deposit」が出現する文脈では、「interest」を日本語の単語1201(利息)に翻訳するということを示している。
従来は、このような訳語学習データを人手で作成していたのに対し、本実施の形態では、上述のような処理によりユーザが原言語によるテキストを入力するだけで訳語学習データを得ることが可能となる。これにより、訳語学習データ作成の手間が大幅に軽減される。
次に、ステップS510の訳語学習処理の詳細について図13を用いて説明する。図13は、本実施の形態における訳語学習処理の全体の流れを示すフローチャートである。なお、以下では図11に示すような表形式の訳語学習データを用いて学習する場合を例に説明する。
まず、学習部105は、作成された訳語学習データから、未処理の語句ID(以下、IDaという)を取得する(ステップS1301)。次に、学習部105は、取得したIDaに対応する学習フラグが「1」であるか否かを判断する(ステップS1302)。学習フラグが「1」の場合は(ステップS1302:YES)、学習部105は、IDaの語句に対応する訳語を変数twに設定する(ステップS1303)。
次に、学習部105は、作成された訳語学習データのうち、IDa以外の語句ID(以下、IDbという)を取得する(ステップS1304)。そして、学習部105は、変数twに設定された訳語についての学習ベクトルに対し、語句IDがIDbである語句に対応する次元の値に1を加算する(ステップS1305)。
次に、学習部105は、IDa以外の語句IDのうち、未処理の語句IDが存在するか否かを判断し(ステップS1306)、存在する場合は(ステップS1306:YES)、次の語句IDをIDbとして取得して処理を繰り返す(ステップS1304)。
IDa以外の語句IDのうち未処理の語句IDが存在しない場合は(ステップS1306:NO)、学習部105は、すべての語句IDに対して上記処理を実行したか否かを判断する(ステップS1307)。
すべての語句IDを処理していない場合は(ステップS1307:NO)、次の未処理の語句IDをIDaとして取得して処理を繰り返す(ステップS1301)。すべての語句IDを処理した場合は(ステップS1307:YES)、訳語学習処理を終了する。
次に、訳語学習処理の具体例について説明する。以下では、学習結果が図4のような初期状態であるときに、図11に示すような訳語学習データを用いて訳語を学習する場合を例に説明する。
まず、語句ID=0の語句「pay」および語句ID=1の語句「deposit」は、学習フラグが「0」であるため(ステップS1302:NO)、訳語の学習は行わない。語句ID=2の語句「interest」は、学習フラグが「1」であるため(ステップS1302:YES)、対応する訳語1101(利息)の学習ベクトルを更新する。
すなわち、図4の例では、学習部105は、最も右に位置する訳語である単語403に対応する学習ベクトルを更新する。まず、語句ID=0の語句「pay(動詞)」に対応する次元の値を1増やす。続いて、語句ID=1の語句「deposit(名詞)」に対応する次元の値も1増やす。図14は、このようにして更新された学習ベクトルの一例を示す説明図である。図14に示すように、単語403の学習ベクトルの該当する次元の値が1に更新されている。
なお、出力制御部106が、このような学習ベクトルを外部装置などで利用可能とするためのデータ形式に変換して出力するように構成してもよい。図15は、学習結果の別のデータ形式の一例を示す説明図である。図15では、学習ベクトルの各次元に対応する語句の原形と品詞とを明示した形式に変換された学習結果の例を示している。
なお、図15の学習結果は、「interest(名詞)」を、日本語の単語1501(興味)または単語1502(権利)に訳した学習データは存在しないが、「interest(名詞)」を日本語の単語1503(利息)に訳した学習データが存在すること、および、その学習データは、「interest」の前後に「pay(動詞)」および「deposit(名詞)」がそれぞれ1回出現したこと表すことを意味している。
ところで、図15のような学習結果は、次のように利用することにより、機械翻訳の品質向上に役立てることができる。以下では、英語の入力テキスト「The bank owes me 10 years of deposit interest.」を日本語に翻訳する場合を例に説明する。
上記入力テキストを、図2のような対訳辞書と図3のような訳し分け規則とを用いて翻訳すると、図16に示すような処理結果が得られる。図16は、処理結果の一例を示す説明図である。語句ID=8の「interest」に対応する訳語リストに着目すると、この入力テキストに対しては訳し分け規則が適用されないため、3つの訳語候補(興味、権利、利息)が残ったままとなる。
複数の訳語候補が残っているときには先頭の訳語を出力することにすると、この例では「interest」に対して不適切な訳語(興味)が出力されることになる。このような場合、図15に示すような学習結果を利用すると適切な訳語(利息)を選ぶことができる。
ここでは、図14のような学習ベクトルが得られていること、または、図15のような学習結果が得られた場合には図14のような学習ベクトルに変換しておくことを前提とする。
まず、入力テキスト「The bank owes me 10 years of deposit interest.」の「interest」について、学習ベクトルと同様の方法により、前後の語句の出現頻度をベクトル化する。なお、冠詞、代名詞、前置詞、数詞、および記号にはベクトルの次元を割り当てない。図17は、このようにして変換したベクトル表現の一例を示す説明図である。
次に、図14の3つの学習ベクトルのうち、図17のベクトルとのコサイン類似度が最も大きい学習ベクトルに対応する訳語を選択する。これにより、前後の語句が共通する訳語を選択することができるため、より適切な訳語を得ることができる。
例えば、図14の3つの学習ベクトルのうち、単語401(興味)および単語402(権利)の学習ベクトルは成分がすべて0であるから、コサイン類似度も0になる。一方、単語403(利息)の学習ベクトルは、「deposit(名詞)」に対応する次元の値が1であり、図17のベクトルも「deposit(名詞)」に対応する次元の値が1である。このため、コサイン類似度は0より大きい値になる。したがって、図17のベクトルとのコサイン類似度が最も大きい学習ベクトルは、単語403(利息)に対応する学習ベクトルとなる。すなわち、入力テキスト「The bank owes me 10 years of deposit interest.」の単語「interest」については、単語403(利息)を訳語として選択すればよい。
このように、本実施の形態にかかる訳語学習装置100では、入力テキストを機械翻訳した時に訳し分け規則が適用された訳語と入力テキストとを含む訳語学習データを作成することができる。これにより、従来手作業で行っていた訳語学習データの作成負担を軽減することができる。また、このようにして作成された訳語学習データによって訳語学習を実行できるため、訳語学習処理を効率化することができる。
次に、本実施の形態にかかる訳語学習装置100のハードウェア構成について図18を用いて説明する。図18は、本実施の形態にかかる訳語学習装置100のハードウェア構成を示す説明図である。
本実施の形態にかかる訳語学習装置100は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、HDD(Hard Disk Drive)、CD(Compact Disc)ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス61を備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施の形態にかかる訳語学習装置100で実行されるデータ作成プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施の形態にかかる訳語学習装置100で実行されるデータ作成プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる訳語学習装置100で実行されるデータ作成プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
また、本実施の形態のデータ作成プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施の形態にかかる訳語学習装置100で実行されるデータ作成プログラムは、上述した各部(入力部、訳語生成部、対応情報作成部、判定部と、学習データ作成部、学習部、出力制御部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51(プロセッサ)が上記記憶媒体からデータ作成プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる訳語学習のためのデータを作成する装置、方法、およびプログラムは、機械翻訳のための訳語学習データを作成する装置、方法、プログラムおよび機械翻訳のための訳語学習データにより訳語を学習する装置に適している。
本実施の形態にかかる訳語学習装置の構成を示すブロック図である。 対訳辞書のデータ構造の一例を示す説明図である。 訳し分け規則の一例を示す説明図である。 学習結果のデータ構造の一例を示す説明図である。 本実施の形態における学習データ作成・学習処理の全体の流れを示すフローチャートである。 本実施の形態における訳語生成処理の全体の流れを示すフローチャートである。 形態素解析および訳語取得の処理結果の一例を示す説明図である。 係り受け解析の処理結果の一例を示す説明図である。 係り受け関係を視覚的に表現した説明図である。 訳し分け規則を適用した場合の処理結果を表す説明図である。 判定結果の一例を示す説明図である。 作成される訳語学習データのデータ構造の一例を示す説明図である。 本実施の形態における訳語学習処理の全体の流れを示すフローチャートである。 学習ベクトルの一例を示す説明図である。 学習結果の別のデータ形式の一例を示す説明図である。 処理結果の一例を示す説明図である。 ベクトル表現の一例を示す説明図である。 本実施の形態にかかる訳語学習装置のハードウェア構成を示す説明図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 訳語学習装置
101 入力部
102 対応情報作成部
103 判定部
104 学習データ作成部
105 学習部
106 出力制御部
110 訳語生成部
111 形態素解析部
112 訳語取得部
113 係り受け解析部
114 訳し分け部
121 対訳辞書記憶部
122 規則記憶部
123 学習結果記憶部
301 単語
401〜403 単語
1001 訳語
1101 訳語
1201 単語
1501〜1503 単語

Claims (10)

  1. 原言語の一つの語句と目的言語の複数の訳語候補の使い分けを学習するための学習データを作成するデータ作成装置であって、
    原言語の文章を入力する入力部と、
    前記文章の一つの語句を目的言語に翻訳し、前記語句に対する目的言語の複数の訳語候補と、前記訳語候補の確からしさを表す尤度とを生成する訳語生成部と、
    前記語句と、前記語句に対する複数の前記訳語候補と、をそれぞれ対応づけた複数の対応情報を作成する対応情報作成部と、
    前記対応情報に含まれる前記訳語候補の前記尤度が予め定められた閾値より大きいか否かを判定する判定部と、
    前記尤度が前記閾値より大きい前記訳語候補の前記対応情報に、前記文章の他の語句を付加する前記学習データを作成する学習データ作成部と、
    を備えたことを特徴とするデータ作成装置。
  2. 前記訳語生成部は、予め定められた翻訳規則に基づいて前記文章を目的言語に翻訳し、前記訳語候補と前記尤度とを生成すること、
    を特徴とする請求項1に記載のデータ作成装置。
  3. 原言語の語句と、前記原言語の語句に対する前記訳語候補とを対応づけた対訳辞書を記憶する辞書記憶部と、
    前記原言語の語句と、前記原言語の語句と係り受け関係にある語句と、前記訳語候補とを対応づけた前記翻訳規則を記憶する規則記憶部と、をさらに備え、
    前記訳語生成部は、
    前記文章を形態素解析して語句に分割する形態素解析部と、
    分割した語句に対する前記訳語候補を前記辞書記憶部から取得する訳語取得部と、
    分割した語句間の係り受け関係を解析する係り受け解析部と、
    分割した語句それぞれについて、分割した語句および分割した語句と係り受け関係にある語句を、それぞれ前記規則記憶部に記憶された前記翻訳規則における前記原言語の語句および前記原言語の語句と係り受け関係にある語句と照合し、一致した前記翻訳規則において前記原言語の語句に対応付けられた前記訳語候補を前記規則記憶部から取得する訳し分け部と、を備えたこと、
    を特徴とする請求項2に記載のデータ作成装置。
  4. 前記訳語生成部は、前記規則記憶部から取得した前記訳語候補に対して、前記辞書記憶部から取得した前記訳語候補より大きい前記尤度を生成すること、
    を特徴とする請求項3に記載のデータ作成装置。
  5. 前記学習データ作成部は、前記規則記憶部から取得した前記訳語候補を含む前記対応情報に、前記文章に含まれる語句を対応づけた前記学習データを作成すること、
    を特徴とする請求項3に記載のデータ作成装置。
  6. 前記学習データ作成部は、前記尤度が前記閾値より大きい前記訳語候補を含む前記対応情報に、前記文章に含まれる語句のうち、前記対応情報に含まれる語句以外の語句を対応づけた前記学習データを作成すること、
    を特徴とする請求項1に記載のデータ作成装置。
  7. 前記学習データ作成部は、前記文章に含まれる語句を含み、前記文章に含まれる語句のうち、前記尤度が前記閾値より大きい前記訳語候補を含む前記対応情報内の語句に、前記対応情報内の前記訳語候補を対応づけた前記学習データを作成すること、
    を特徴とする請求項1に記載のデータ作成装置。
  8. 前記学習データに基づいて前記訳語候補の使い分けを学習する学習部をさらに備えたこと、
    を特徴とする請求項1に記載のデータ作成装置。
  9. 原言語の一つの語句と目的言語の複数の訳語候補の使い分けを学習するための学習データを作成するデータ作成装置で実行されるデータ作成方法であって、
    入力部によって、原言語の文章を入力する入力ステップと、
    訳語生成部によって、前記文章の一つの語句を目的言語に翻訳し、前記語句に対する目的言語の複数の訳語候補と、前記訳語候補の確からしさを表す尤度とを生成する訳語生成ステップと、
    対応情報作成部によって、前記語句と、前記語句に対する複数の前記訳語候補と、をそれぞれ対応づけた複数の対応情報を作成する対応情報作成ステップと、
    判定部によって、前記対応情報に含まれる前記訳語候補の前記尤度が予め定められた閾値より大きいか否かを判定する判定ステップと、
    学習データ作成部によって、前記尤度が前記閾値より大きい前記訳語候補の前記対応情報に、前記文章の他の語句を付加する前記学習データを作成する学習データ作成ステップと、
    を備えたことを特徴とするデータ作成方法。
  10. 原言語の一つの語句と目的言語の複数の訳語候補の使い分けを学習するための学習データを作成する方法をコンピュータに実行させるデータ作成プログラムであって、
    原言語の文章を入力するける入力手順と、
    前記文章の一つの語句を目的言語に翻訳し、前記語句に対する目的言語の複数の訳語候補と、前記訳語候補の確からしさを表す尤度とを生成する訳語生成手順と、
    前記語句と、前記語句に対する複数の前記訳語候補と、をそれぞれ対応づけた複数の対応情報を作成する対応情報作成手順と、
    前記対応情報に含まれる前記訳語候補の前記尤度が予め定められた閾値より大きいか否かを判定する判定手順と、
    前記尤度が前記閾値より大きい前記訳語候補を含む前記対応情報に、前記文章の他の語句を付加する前記学習データを作成する学習データ作成手順と、
    を前記コンピュータに実行させるデータ作成プログラム。
JP2007228051A 2007-09-03 2007-09-03 訳語学習のためのデータを作成する装置、方法、およびプログラム Active JP5342760B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007228051A JP5342760B2 (ja) 2007-09-03 2007-09-03 訳語学習のためのデータを作成する装置、方法、およびプログラム
US12/050,643 US8135573B2 (en) 2007-09-03 2008-03-18 Apparatus, method, and computer program product for creating data for learning word translation
CNA2008102148614A CN101382933A (zh) 2007-09-03 2008-09-03 创建用于学习单词翻译的数据的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007228051A JP5342760B2 (ja) 2007-09-03 2007-09-03 訳語学習のためのデータを作成する装置、方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2009059300A true JP2009059300A (ja) 2009-03-19
JP5342760B2 JP5342760B2 (ja) 2013-11-13

Family

ID=40408825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007228051A Active JP5342760B2 (ja) 2007-09-03 2007-09-03 訳語学習のためのデータを作成する装置、方法、およびプログラム

Country Status (3)

Country Link
US (1) US8135573B2 (ja)
JP (1) JP5342760B2 (ja)
CN (1) CN101382933A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552353B2 (en) * 2011-01-21 2017-01-24 Disney Enterprises, Inc. System and method for generating phrases
US10303762B2 (en) 2013-03-15 2019-05-28 Disney Enterprises, Inc. Comprehensive safety schema for ensuring appropriateness of language in online chat
CN111104796B (zh) * 2019-12-18 2023-05-05 北京百度网讯科技有限公司 用于翻译的方法和装置
JP6812583B1 (ja) * 2020-02-28 2021-01-13 株式会社Cygames ゲームスクリプトの作成を支援するためのシステム及び方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092253A (ja) * 2003-09-11 2005-04-07 Fuji Xerox Co Ltd 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4829580A (en) * 1986-03-26 1989-05-09 Telephone And Telegraph Company, At&T Bell Laboratories Text analysis system with letter sequence recognition and speech stress assignment arrangement
JP4043176B2 (ja) 2000-08-31 2008-02-06 株式会社東芝 自然言語処理装置
US7483828B2 (en) * 2001-03-16 2009-01-27 Meaningful Machines, L.L.C. Multilingual database creation system and method
US7016829B2 (en) * 2001-05-04 2006-03-21 Microsoft Corporation Method and apparatus for unsupervised training of natural language processing units
US7295962B2 (en) * 2001-05-11 2007-11-13 University Of Southern California Statistical memory-based translation system
US7734459B2 (en) * 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US7003444B2 (en) * 2001-07-12 2006-02-21 Microsoft Corporation Method and apparatus for improved grammar checking using a stochastic parser
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
US20050216253A1 (en) * 2004-03-25 2005-09-29 Microsoft Corporation System and method for reverse transliteration using statistical alignment
US7200550B2 (en) * 2004-11-04 2007-04-03 Microsoft Corporation Projecting dependencies to generate target language dependency structure
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
EP1894125A4 (en) * 2005-06-17 2015-12-02 Nat Res Council Canada MEANS AND METHOD FOR ADAPTED LANGUAGE TRANSLATION
US7680647B2 (en) * 2005-06-21 2010-03-16 Microsoft Corporation Association-based bilingual word alignment
US20070083357A1 (en) * 2005-10-03 2007-04-12 Moore Robert C Weighted linear model
US20080120092A1 (en) * 2006-11-20 2008-05-22 Microsoft Corporation Phrase pair extraction for statistical machine translation
GB2444084A (en) * 2006-11-23 2008-05-28 Sharp Kk Selecting examples in an example based machine translation system
US7983898B2 (en) * 2007-06-08 2011-07-19 Microsoft Corporation Generating a phrase translation model by iteratively estimating phrase translation probabilities

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092253A (ja) * 2003-09-11 2005-04-07 Fuji Xerox Co Ltd 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム

Also Published As

Publication number Publication date
CN101382933A (zh) 2009-03-11
US20090063127A1 (en) 2009-03-05
US8135573B2 (en) 2012-03-13
JP5342760B2 (ja) 2013-11-13

Similar Documents

Publication Publication Date Title
JP4058057B2 (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP2008305167A (ja) 原言語文を目的言語文に機械翻訳する装置、方法およびプログラム
US20190251174A1 (en) Machine translation method and apparatus
JP6828335B2 (ja) 検索プログラム、検索装置および検索方法
US11282521B2 (en) Dialog system and dialog method
KR101544690B1 (ko) 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
JP2009140466A (ja) 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム
JP5342760B2 (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP2011065255A (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP4476609B2 (ja) 中国語解析装置、中国語解析方法および中国語解析プログラム
WO2009144890A1 (ja) 翻訳前換言規則生成システム
JP6309852B2 (ja) 強調位置予測装置、強調位置予測方法及びプログラム
JP6451151B2 (ja) 質問応答装置、質問応答方法、プログラム
JP7483085B1 (ja) 情報処理システム、情報処理装置、情報処理方法、およびプログラム
JP4203102B2 (ja) 中国語解析装置、中国語解析方法および中国語解析プログラム
JP5521670B2 (ja) パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム
JP4646078B2 (ja) 相互に関係する固有表現の組抽出装置及びその方法
JP5553779B2 (ja) 形態素列変換装置、形態素変換学習装置とそれらの方法とプログラム
JP2006155528A (ja) 辞書登録装置、辞書登録方法および辞書登録プログラム
JP5746921B2 (ja) 機械翻訳装置、方法及びプログラム
JP2013196493A (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP2020052819A (ja) 情報処理装置、情報処理方法及びプログラム
JP2021056830A (ja) 概念構造抽出装置、プログラム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120920

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130305

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130604

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130812

R151 Written notification of patent or utility model registration

Ref document number: 5342760

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350