JP3939151B2 - 訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体 - Google Patents
訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体 Download PDFInfo
- Publication number
- JP3939151B2 JP3939151B2 JP2002000752A JP2002000752A JP3939151B2 JP 3939151 B2 JP3939151 B2 JP 3939151B2 JP 2002000752 A JP2002000752 A JP 2002000752A JP 2002000752 A JP2002000752 A JP 2002000752A JP 3939151 B2 JP3939151 B2 JP 3939151B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- attribute
- sentence
- translation
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、英日翻訳等の言語間の機械翻訳の際に適切な訳語を選択して品質の高い訳文を生成する訳語選択装置及び訳語選択プログラムに関し、特に文中の接続詞等の機能語を含めて訳語を適切に選択するようにした機械翻訳のための訳語選択装置および訳語選択プログラムに関する。
【0002】
【従来の技術】
第一言語(原言語)を入力するとコンピュータにより第二言語(目的言語)に翻訳が行われる機械翻訳装置が利用されている。
一般に、第一言語のある一つの単語を第二言語に翻訳する場合には、第二言語にはその単語に対応する訳語が複数存在するものである。
そのため、第一言語で書かれた原文の意味を正しく伝える訳文を作成するためには複数の訳語の中から適切な訳語を選択しなければならない。
つまり、機械翻訳装置等で実行される自然言語処理においては解決すべき困難な課題のひとつに「訳語選択」の問題があり、機械翻訳装置には適切な訳語を選択する能力が求められている。
【0003】
訳語選択は、名詞や動詞等の内容語(自立語)にとどまらず、接続詞等の機能語(付属語)についても問題となる。特に、接続詞は文を構成する節の間の関係を示す役割を担っているため、適切な訳語が選択されないと、原文の意味と全く異なる意味を伝える訳文に翻訳されてしまう。したがって接続詞の訳語選択を適切に行うことは非常に重要な課題である。
しかしながら、従来の機械翻訳装置においては接続詞をはじめとする機能語の訳語選択については十分な対応がなされておらず、接続詞の訳語選択の問題は十分には解決されていない。
【0004】
以下に、機械翻訳装置による英日翻訳において英文(E1)が不適切な解釈で日文(J1)に翻訳処理された例を示す。
(El) He has worked since he left school.
(Jl) 学校を卒業したので、彼は、働いた。
【0005】
接続詞「since」は、「時間経過(〜以来)」又は「理由(〜ので)」の2つの意味のいずれかを有している。
英文(E1)では「時間経過」の意味で用いられているのであるが、日文(J1)では英文(E1)「since」が「ので」と訳されていることから分かるように、この機械翻訳装置は「since」の意味を「理由」の意味に誤って解釈している。このため日文(J1)は英文(E1)の意味を正確に訳しておらず誤訳になってしまっている。
【0006】
このような訳語選択の問題を解決するための従来技術としては、文献1「単語多義性解消法の比較検討」(情報処理学会研究報告NL119−8,1997)や文献2「機械翻訳装置および機械翻訳方法」(特開平9−134362号)に開示された技術がある。
【0007】
【発明が解決しようとする課題】
しかしながら、従来技術のうちで文献1「単語多義性解消法の比較検討」に開示された方法は、あくまで名詞や動詞などの内容語(自立語)のみを対象としたものである。
名詞や動詞を対象とした方法では、訳語選択のための知識として格フレームが用いられることが多い。格フレームとは、動詞とそれに係る名詞の間の構文的、意味的な整合性を規定したものである。例えば、「食べる」という動詞の格フレームは、「主語になれる名詞は意味標識「animate」(生物)を持つものであり、目的語になれる名詞は意味標識「food」(食品)を持つものである」という制約を記述したものである。
「豚」という名詞を英語に翻訳する場合に、可能な訳語として「pig」と「pork」とがある。「pig」は「豚」を生物(animate)と解釈した場合に選択され、「pork」は「豚」を食物(food)と解釈した場合に選択される。上記の従来技術によれば「食べる」の目的格になれる名詞は意味標識foodを持つものであるという制約を利用して「豚を食べる」という文において「豚」の訳語を「pork」に決定することができる。
このように、格フレームに基づいて行われる訳語選択は、動詞と名詞の構文的制約(名詞が動詞の主語であるか、目的語であるか)と、意味的制約(animateやfoodなどの意味標識)とを利用することによって適切な訳語を決定するものである。
【0008】
しかしながら、このような訳語選択方式を接続詞の訳語選択に適用することは難しい。
それは、動詞と名詞の訳語選択方式は、両者が係り受け関係(上記の例で言えば、述語とその目的語の関係)にある場合に、両者の構文的、意味的制約を記述した格フレームを利用しているが、接続詞の場合は翻訳対象の接続詞と係り受け関係にある語との間での制約だけでは、適切な訳語選択を行うことは困難であり、接続詞と係り受け関係にある語との関係の他に様々な要因を考慮に入れる必要があるからである。
【0009】
一方、従来技術のうち文献2「機械翻訳装置及び機械翻訳方法」に開示される方法は、接続詞などの機能語を対象とした訳語選択の技術である。
しかしながら、この方法では、優先的に用いる接続詞の用法(訳語)を翻訳者が予め指定しておく必要がある。どのような接続詞の用法を優先的に選択するかは様々な要因によって決まるため、複雑に関連しあう要因をユーザが整理し、理解し、その結果に基づいて優先すべき用法(訳語)を指定することは容易ではない。
したがって、ユーザに負担をかけない方法が望まれる。
【0010】
そこで、本発明は内容語(自立語)、機能語(付属語)に関わらず適切な訳語を選択することができる訳語選択装置、訳語選択プログラムを提供することを目的とする。
【0011】
また、本発明は優先的に用いる接続詞の訳語をユーザが予め指定しておく必要がなく、ユーザに負担をかけずに接続詞の訳語を適切に行うことができる訳語選択装置、訳語選択プログラムを提供することを目的とする。
【0012】
【課題を解決するための手段】
上記課題を解決するためになされた本発明の訳語選択装置は、第一言語で記述された被翻訳文を入力する入力部と、第一言語で記述される文とともに当該文中の語に第二言語の訳語が付与された文である正解付コーパスの集合を記憶した正解付コーパスメモリと、第一言語の語彙情報を記憶した辞書テーブルと、第一言語の文を解析するための規則を記憶した解析規則テーブルと、第一言語の文から抽出すべき属性を記憶した属性テーブルと、辞書テーブルと解析規則テーブルとを参照して第一言語の文の解析を行う解析部と、解析部による第一言語の文の解析結果から属性テーブルに記憶されている属性に関する値を抽出する属性抽出部と、正解付コーパスメモリに記憶された複数の正解付コーパスを解析部で解析し、解析結果から属性テーブルに記憶されている属性に関する値を属性抽出部で抽出し、抽出された属性値と正解付コーパスに付与された第二言語とを対応付けた複数の事例データを事例データバッファに記憶する事例データ作成部と、事例データバッファに記憶された複数の事例データから、訳語選択規則となる決定木を作成する決定木作成部と、入力された被翻訳文を解析部で解析し、解析結果から属性テーブルに記憶されている属性に関する値を属性抽出部で抽出し、抽出された属性値に基づいて決定木作成部で作成した決定木を走査して入力された被翻訳文に含まれる語に対応する第二言語の訳語を決定する決定木走査部とを備えるようにしている。
【0013】
この発明によれば、正解付コーパスメモリには、正解付コーパスと呼ばれる複数の文が格納されている。正解付コーパスは、予め第一言語で記述される文に対し、その文を構成する語について第二言語の訳語を人手により付与した文である。正解付コーパスは後述するように訳語選択の際の訳語選択規則を生成するのに用いる。
辞書テーブルは、第一言語の語彙、すなわち第一言語の各語に対応する第二言語の語を記憶している。
解析規則テーブルは、第一言語の文を解析するための規則が記憶されている。解析規則は、第一言語の各語の文法的な情報を解析するために参照される規則であり、例えば動詞であれば時制、相、態、人称などを解析し、名詞であれば数などを解析するために参照される。
属性テーブルは、第一言語の文から抽出する属性を記憶している。属性とは、時制、相、態、人称、数などであり、文がもつ様々な性質である。例えば時制であれば、現在、過去、未来という属性値が含まれる。属性テーブルでは属性とその属性に含まれる属性値とが記憶されている。
そして、解析部は、辞書テーブルと解析規則テーブルを参照して第一言語の文の解析を行う。ここで行われる解析とは、第一言語の文を単語ごとに分離して、各語の文法的な情報を解析するものである。例えば動詞であれば時制、相、態、人称などが解析され、名詞であれば数などが解析される。
属性抽出部は、解析部による解析結果に対し、属性テーブルを参照して抽出する属性に関する属性値を抽出する。
解析部と属性抽出部とは、まず正解付コーパスメモリにある複数の文に対して解析および属性の抽出を実行する。これにより、属性抽出部により得られた属性値と正解付コーパスに付与された第二言語の訳語とを対応付けることができるので、事例データ作成部が事例データバッファにこの対応付けがなされた複数の事例データを記憶する。
事例データバッファに記憶された複数の事例データに基づいて、決定木作成部が訳語選択規則となる決定木を作成する。事例データバッファから決定木を作成するアルゴリズムは、後述するC4.5と呼ばれる方法に従う。作成された決定木は翻訳の対象となる被翻訳文の訳語選択を行う際に参照される。
次に、解析部は、辞書テーブルと解析規則テーブルを参照して入力部により入力された被翻訳文(第一言語で記述された文である)の解析を行う。ここでの解析は先に正解付コーパスに行った解析と同様である。
属性抽出部は、解析部による被翻訳文の解析結果に対し、属性テーブルを参照して抽出する属性に関する属性値を抽出する。
続いて決定木走査部が、属性抽出部により得られた属性値に基づいて作成された決定木を走査する。走査とは、決定木に含まれる属性値と被翻訳文の属性値とを照らし合わせて訳語を決定していく動作である。
この走査により被翻訳文に含まれる各語に対応する第二言語の訳語を決定する。
【0014】
正解付コーパスメモリは、第一言語で記述された文中の各接続詞に対して第二言語の訳語が付与された文である正解付コーパスの集合を記憶するようにしてもよい。
その際、属性テーブルは、属性として主節の「時制」「相」「態」を記憶するようにしてもよい。
このようにすれば、第一言語に含まれる機能語である接続詞に対して適切な訳語選択ができる。
【0015】
また、入力部から第一言語で記述された被翻訳文が入力された際に訳語選択を行うための訳語選択プログラムであって、正解付コーパスメモリが、第一言語で記述される文とともに当該文中の語に第二言語の訳語が付与された文である正解付コーパスの集合を記憶し、辞書テーブルが第一言語の語彙情報を記憶し、解析規則テーブルが第一言語の文を解析するための規則を記憶し、属性テーブルが第一言語の文から抽出すべき属性を記憶し、解析部が、辞書テーブルと解析規則テーブルとを参照して第一言語の文の解析を行い、属性抽出部が、解析部による第一言語の文の解析結果から属性テーブルに記憶されている属性に関する値を抽出し、正解付コーパスメモリに記憶された複数の正解付コーパスを解析部で解析し、解析結果から属性テーブルに記憶されている属性に関する値を属性抽出部で抽出し、かつ、事例データ作成部が抽出された属性値と正解付コーパスに付与された第二言語とを対応付けた複数の事例データを事例データバッファに記憶し、決定木作成部が、事例データバッファに記憶された複数の事例から、訳語選択規則となる決定木を作成し、
入力された被翻訳文を解析部で解析し、解析結果から属性テーブルに記憶されている属性に関する値を属性抽出部で抽出し、かつ、決定木走査部が、抽出された属性値に基づいて決定木作成部で作成した決定木を走査して入力された被翻訳文に含まれる各語に対応する第二言語の訳語を決定するように機能させるための訳語選択プログラムを備えるようにしてもよい。
【0016】
さらに、訳語選択プログラムにおいて、正解付コーパスメモリは、第一言語で記述された文中の各接続詞に対して第二言語の訳語が付与された文である正解付コーパスの集合を記憶するようにしてもよい。
【0017】
また、入力部から第一言語で記述された被翻訳文が入力された際に訳語選択を行うための訳語選択プログラムを記憶した媒体であって、正解付コーパスメモリが、第一言語で記述される文とともに当該文中の語に第二言語の訳語が付与された文である正解付コーパスの集合を記憶し、辞書テーブルが第一言語の語彙情報を記憶し、解析規則テーブルが第一言語の文を解析するための規則を記憶し、属性テーブルが第一言語の文から抽出すべき属性を記憶し、解析部が、辞書テーブルと解析規則テーブルとを参照して第一言語の文の解析を行い、属性抽出部が、解析部による第一言語の文の解析結果から属性テーブルに記憶されている属性に関する値を抽出し、正解付コーパスメモリに記憶された複数の正解付コーパスを解析部で解析し、解析結果から属性テーブルに記憶されている属性に関する値を属性抽出部で抽出し、かつ、事例データ作成部が抽出された属性値と正解付コーパスに付与された第二言語とを対応付けた複数の事例データを事例データバッファに記憶し、決定木作成部が、事例データバッファに記憶された複数の事例から、訳語選択規則となる決定木を作成し、入力された被翻訳文を解析部で解析し、解析結果から属性テーブルに記憶されている属性に関する値を属性抽出部で抽出し、かつ、決定木走査部が、抽出された属性値に基づいて決定木作成部で作成した決定木を走査して入力された被翻訳文に含まれる各語に対応する第二言語の訳語を決定するように機能させるための訳語選択プログラムを記憶した媒体としてもよい。
【0018】
【発明の実施の形態】
以下、本発明の実施例について図面を用いて説明する。図1は本発明の一実施例である訳語選択装置の構成を示すブロック図である。
この実施例の訳語選択装置では第一言語(ソース言語)が英語で、第二言語(ターゲット言語)が日本語として英日翻訳の際の訳語選択を扱うものとしている。
なお、第一言語、第二言語が他の言語であっても同様に扱うことができることは言うまでもない。
【0019】
図1に示すように、本装置の主要部は、制御部1、入力部2、出力部3、予め用意された処理に必要なデータが記憶されるテーブルメモリ4、制御プログラムが記憶されるプログラムメモリ5、作業中のデータを一時的に記憶するバッファメモリ6とバスライン7、記憶媒体8により構成される。
【0020】
制御部1は、コンピュータのCPU(中央演算処理装置)で実現されるものであり、プログラムメモリ5に記憶された各種の制御プログラムを実行することにより各部を制御する。
【0021】
入力部2は、キーボード、マウス、ペン、タブレット、スキャナ、文字認識装置等の入力装置や、通信回線と接続されている通信装置、記憶媒体読取装置などからなり、言語の入力、各種命令の指示、通信、プログラムインストールなどを行う。
【0022】
出力部3は、CRT(陰極線管)ディスプレイ、LCD(液晶ディスプレイ)、PD(プラズマディスプレイ)などからなる表示装置や、サーマルプリンタ、レーザプリンタなどからなる印字装置、または通信回線と接続されている通信装置で構成され、入力部2による入力結果、制御部1の制御により翻訳結果を表示装置に表示したり、印字装置を介して印字したり、通信装置を介して送信する。
【0023】
テーブルメモリ4およびプログラムメモリ5は、マスクROM、EPROM、EEPROM、フラッシュROM等による半導体メモリ、あるいは磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードも含む)/光カード等のカード系などを含めた記憶媒体からなる。
【0024】
このうちテーブルメモリ4は、辞書テーブル4a、解析規則テーブル4b、属性テーブル4c、正解付コーパスメモリ4dを備えている。
辞書テーブル4aは、第一言語の語彙、すなわち第一言語の各語に対応する第二言語の語を記憶している。
解析規則テーブル4bは、第一言語の文を解析するための規則が記憶されている。解析規則は、第一言語の各語の文法的な情報を解析するために参照される規則であり、例えば動詞であれば時制、相、態、人称などを解析し、名詞であれば数などを解析するために参照される。
属性テーブル4cは、第一言語の文から抽出する属性を定義するものであり、属性と属性に含まれる属性値を記憶している。属性とは、時制、相、態、人称、数などであり、文がもつ様々な性質である。例えば時制であれば、現在、過去、未来という属性値が含まれる。
正解付コーパスメモリ4dには、正解付コーパスと呼ばれる複数の文が格納されている。正解付コーパスは、予め第一言語で記述される文に対し、その文を構成する語について第二言語の訳語を人手により付与した文である。正解付コーパスは後述するように訳語選択の際の訳語選択規則を生成するのに用いる。
【0025】
また、プログラムメモリ5は、解析部5a、属性抽出部5b、事例データ作成部5c、決定木作成部5d、決定木走査部5eとして機能するプログラムが格納されている。
解析部5aは、正解付コーパスメモリ4dあるいは後述する原文バッファ6aに格納されている被翻訳文に対して辞書テーブル4aと解析規則テーブル4bを参照して文の解析を行う。
属性抽出部5bは、属性テーブル4cに定義されている属性の値を正解付コーパスあるいは入力された被翻訳文の解析結果から抽出する。
事例データ作成部5cは、抽出した属性値と正解付コーパスに付与されている第二言語の訳語とを対応付けた事例データを作成して後述する事例データバッファ6dに記憶する。
決定木作成部5dは、事例データバッファ6dに格納されている事例データを一般化することによって「決定木」の形式で訳語選択規則を作成する。
決定木走査部5eは、属性抽出部5bによって被翻訳文から抽出された属性の値に基づいて決定木を走査し、被翻訳文に含まれる語に対応する第二言語の訳語を決定する。
【0026】
また、バッファメモリ6はRAM、EEPROM、フラッシュROM等による半導体メモリ、あるいは磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやMO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードも含む)/光カード等のカード系などを含めた記憶媒体からなる。
バッファメモリ6には、入力部2によって入力された被翻訳文を記憶する原文バッファ6a、解析部5aによって得られた正解付コーパスや被翻訳文に対する解析結果を記憶する解析結果バッファ6b、属性抽出部5bによって正解付コーパスあるいは被翻訳文から抽出された属性値を記憶する属性バッファ6c、属性抽出部5bによって正解付コーパスメモリに格納されている各正解付コーパスから抽出された属性値と、各正解付コーパスに含まれる語に対応する第二言語の訳語との組を記憶する事例データバッファ6d、決定木作成部5dによって得られた決定木(訳語選択規則)を記憶する決定木バッファ6e、決定木走査部5eによって得られた第一言語の語に対応する第二言語の訳語を記憶する決定木走査結果バッファ6fとを備えている。
【0027】
バスライン7は、各部の間でプログラムデータやアドレスデータを送受する。
【0028】
記憶媒体8はマスクROM、EPROM、EEPROM、フラッシュROM等による半導体メモリ、あるいは磁気テープやカセットテープ等のテープ系、フロッピーディスクやハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD等の光ディスクのディスク系、ICカード(メモリカードも含む)/光カード等のカード系などを含めた本体と分離可能なメディアで構成した固定的にプログラムを担持する記憶媒体からなる。入力部2のひとつである記憶媒体読取装置を介して本発明に関する訳語選択のためのプログラムをインストールすることができるようにしてもよい。
【0029】
訳語選択動作の概要
本装置のプログラムメモリに記憶されているプログラム群により実行される動作は、以下の2つに大別される。
(1)第一言語の語に対応する第二言語の訳語を選択するための規則を正解付コーパスに基づいて作成する動作
(2)作成された訳語選択規則を被翻訳文に適用して被翻訳文に含まれる各語の訳語を推定する動作
【0030】
本発明では、「決定木」と呼ばれる表現形式で記述される訳語選択規則を生成し、この規則に基づいて被翻訳文の訳語を選択するものである。
以下、訳語選択規則の生成、および、被翻訳文への訳語選択規則の適用について説明する。
【0031】
訳語選択規則の生成
まず、訳語選択規則の自動生成について説明する。
正解付コーパスは、第一言語で記述された文に含まれる語に対してそれぞれ対応する第二言語の訳語を人手で付与した文の集合である。以下、接続詞を訳語選択の対象とした場合について説明する。
例えば文(E2)は正解付コーパスの一例であり、第一言語(英語)の接続詞「since」に第二言語(日本語)の訳語「以来」が区切り記号スラッシュとともに付加された例である。
(E2)He has worked since /以来 he left school.
【0032】
解析部5aが、辞書テーブル4aと解析規則テーブル4bに基づいて正解付コーパスメモリ4dに格納されている各文に対して解析を行い、その解析結果を解析結果バッファ6bに格納する。
ここでの解析は、正解付コーパスの文Sに対して各語の文法的な情報の解析である。例えば動詞であれば時制、相、態、人称などが解析され、名詞であれば数などが解析される。
接続詞が訳語選択の対象となる場合は、主節の時制、相、態、が重要であるのでこれらを解析する。
【0033】
解析部5aでの具体的な解析方法は、よく知られた一般的な技術であるので説明は省略するが、解析技術については例えば文献「自然言語処理」(長尾眞、岩波書店、1997)などに開示されている。
【0034】
属性抽出部5bは属性テーブル4cに定義されている属性の値を解析結果に基づいて抽出し、属性バッファ6cに属性値を格納する。
ここでいう属性とは、正解付コーパスの文が持つ様々な性質であり、例えば「時制」「相」「態」などの項目が含まれる。「時制」には「過去」「現在」「未来」の値があり、「相」には「未完了」「継続」「瞬時」「完了」等の値があり、「態」には「受動」「能動」の値がある。
【0035】
属性テーブル4cには、第一言語の文から抽出すべき属性が予め定められている。例えば接続詞が訳語選択の対象となる場合は主節の「時制」「相」「態」の三種類が抽出すべき属性であると定められているものとする。
このとき、文(E2)の解析結果に対して属性抽出部5bが属性テーブル4cに従って処理を行うと、属性値として「現在」「完了」「能動」が抽出される。
【0036】
事例データ作成部5cは、属性抽出部5bにより抽出された属性値と予め正解付コーパス4dに付与されている第二言語の訳語(クラスという)とを対応付ける。属性とクラスとが対応付けられたデータを事例データと呼ぶ。
文(E2)では、今着目している接続詞「since」に「時間経過」を意味する訳語「以来」がクラスとして付与されているので、文(E2)から抽出された属性の組「現在」「完了」「能動」に対して「以来」というクラスが対応付けられた事例データが得られる。
【0037】
このようにして正解付コーパスメモリ4dに格納された複数の正解付コーパスの各文に対して事例データが作成され、事例データバッファ6dに格納される。図2は、(E2)の例文と同様の複数の正解付コーパスを用いて作成された接続詞「since」に対する事例データ集を示す図である。
【0038】
次に、作成された事例データに基づいて訳語選択規則である「決定木」を作成する。
即ち、事例データバッファ6dに格納されている複数の事例データを一般化することによって、決定木の形式で訳語選択規則を機能的に作成し、決定木バッファ6eに格納する。
【0039】
決定木は、クラスを表す終端節点と、ひとつの属性を調べるテストに対応する非終端節点(判別節点)とからなる。そして、各非終端節点にどの属性を調べるテストを割り当てるかを決めることにより順次決定木を成長させていく。
以下に、決定木の作成手順について説明する。
【0040】
決定木作成部5cでは、文献「AIによるデータ解析」(J.R.Quinlan著,古川康一監訳,トッパン,1995)に示されるC4.5と呼ばれる方法に従って事例データ集から決定木を作成する。
【0041】
C4.5による決定木の作成は、事例集合Tをn個の部分集合に分割するテストXを利得基準に従って順次選択していくことによって行われる。
利得基準とは、次式で表されるinfo(T)とinfox(T)との差(利得)gain(X)=info(T)−infox(T)が最大になるようなテストを選ぶ基準である。
【0042】
あるテストXの利得は、テストXを用いて事例集合を分類した場合に、事例集合がどれだけきれいに分類されるかを表し、利得が大きいほど、事例集合がよりきれいに分類されることを意味する。
【0043】
【数式1】
【数式2】
ここでfreq(Cj,T)は事例集合Tの中でクラスCjに属する事例の数を意味し、|T|は事例集合Tに含まれる全事例数を意味する。
【0044】
C4.5に従って決定木を作成するフロー図を図3に示す。
(st101)
すべての事例データを根節点に割り当てる。根節点とは決定木の最初の節点である。そしてst102に進む。
(st102)
その節点に割り当てられている事例数が1であるかを確認し、1であれば処理を終了する。1でなければst103に進む。
(st103)
事例集合Tに対して利得gain(T)を最大にするテストXを選択する。次にst104に進む。
(t104)
選択されたXで事例集合を部分集合に分割し、各部分集合を新しい節点として決定木を成長させる。
そして、st102に戻る。
以下、節点に割り当てられる事例数が1になるまで同様の動作を繰り返す。
【0045】
図2の事例データ集が存在するときを例として決定木の作成の具体例を説明する。
まず、根節点に事例データを割り当てるが、このとき事例数は1ではないのでst103に進む。
gain(X)は図3のst103において次のように計算される。図2の事例集合には、クラス「以来」が9事例、クラス「ので」が5事例存在するので、
info(T)=−9/14×log2(9/14)−5/14×log2(5/14)
=0.94
である。属性「時制」の値に従って事例集合を三つに分割したとき、
info時制(T)=5/14×(-2/5×log2(2/5)-3/5×log2(3/5))+
4/14×(-4/4×log2(4/4)-0/4×log2(0/5))+
5/14×(-3/5×log2(3/5)-2/5×log2(2/5))
=0.694
となる。従って、属性「時制」に基づくテストによる分割で得られる利得はgain(時制)=info(T)−info時制(T)=0.94-0.694=0.246となる。
【0046】
「相」の属性値や「態」の属性値に従って事例集合を分割する場合の利得を同様に計算すると、「時制」の場合より大きな利得は得られない。従って属性「時制」についてのテストが根節点で行うテストとして選択される。
【0047】
st103においてテストが選択されると、次にst104でそのテスト結果に従って事例集合を分割する。
以下、st102の終了条件が満たされるまで同様に処理を進めていけば、最終的な決定木が作成される。
【0048】
図2の事例集合から作成された決定木を図4に示す。決定木の非終端節点にはテストに相当する属性が、終端節点にはクラス名が記述されており、枝には属性値が付与されている。この決定木は決定木バッファ6eに記憶される。
【0049】
訳語選択規則の適用
次に、上記の方法で事例データ集から自動的に作成された決定木(訳語選択規則)を、入力部から入力された被翻訳文に適用して訳語を選択する処理について説明する。この処理は、解析部5a、属性抽出部5b、決定木走査部5eによって実行される。
【0050】
決定木走査部5eは、属性抽出部5bによって被翻訳文から抽出された属性に基づいて、決定木を根節点から終端節点に向けて判別節点でのテストの結果に従いながら走査し、終端節点に付されてあるクラスを第二言語の訳語として決定し、その結果を決定木走査結果バッファ6fに格納する。以下に、手順を説明する。
【0051】
解析部5aと属性抽出部5bは、決定木を作成する際に正解付コーパスに対して行った処理と同様の処理を被翻訳文に対して行う。
これによって、被翻訳文から属性が抽出され、属性バッファ6cに格納される。例えば次の文(E3)が被翻訳文であるとする。
(E3)Intense rains did not affect crops since rainfall was slight i n most main soybean-producing areas.
文(E3)からは、主節の「時制」「相」「態」としてそれぞれ
時制=過去
相=結果
態=能動
という属性値が抽出される。
【0052】
決定木走査部5eは、属性抽出部5bによって抽出した属性値に基づいて決定木を根節点から終端節点に向けて判別節点でのテストの結果に従いながら、辿っていく。決定木を走査するフロー図を図5に示す。
【0053】
ここでは文(E3)から抽出された上記の属性値を図4の決定木を用いて走査する場合を例にフローを説明する。図4の決定木を辿る過程は次のようになる。
(st201)
根節点を着目節点とする。st202に進む。
(st202)
現在の着目節点が終端節点であるかを判断し、終端節点でなければst203に進む。本例では終端節点ではないのでst203に進む。
(st203)
入力文の属性のうちで着目節点に記述されている属性(テスト)の結果に従って対応する子節点を次の着目節点とする。
この例では着目節点での属性(テスト)は「時制」であり、入力文の属性「時制」の値は「過去」であるので、「過去」が付与されている枝を辿り「態」の節点を次の着目節点とする。
そしてst202に戻る。
【0054】
(2順目st202)
再び現時点での着目節点が終端節点であるかを判断し、終端節点でなければst203に進む。この例では終端節点になっていないのでst203に進む。
【0055】
(2順目st203)
着目節点での属性は「態」であり、入力文の属性「態」の値は「能動」であるので「能動」が付与されている枝を辿り、終端節点「ので」を次の着目節点とする。
そしてst202に戻る。
【0056】
(3順目st202)
再び現在の着目節点は終端節点であるかを判断する。
終端節点であるので処理を終了する。即ち、走査を終了し、到達した終端節点に記述されているクラス名「ので」を決定木走査結果バッファ6fに格納する。
以上の手順により、適切な訳語が選択できる。
【0057】
上記実施例は接続詞を対象としたものであるが、これに限られない。他の品詞の訳語選択を行う場合についても、それぞれの品詞に適した属性を選ぶことにより同様の手順で訳語選択を行うことができる。
【0058】
また、本実施例では簡単のため訳語選択の対象が1つである場合を例としたが、複数の語を対象としてもよい。
【0059】
【発明の効果】
本発明によれば、内容語、機能語にかかわらず適切な訳語選択を行うことができる。
特に、これまでほとんど対象とされなかった接続詞の訳語選択を合理的に行うことができ、品質の高い訳文を作成することができる。また、統計的機械学習法の一つである決定木学習法により訳語選択規則を自動的に獲得することができるので、接続詞の用法(訳語選択規則)をユーザがあらかじめ指定しておく必要がなくなる。
【図面の簡単な説明】
【図1】本発明の一実施例である訳語選択装置の構成を示すブロック図。
【図2】正解付コーパスから作成される事例データの例を示す図。
【図3】決定木作成のフロー図。
【図4】決定木の例を示す図。
【図5】決定木走査のフロー図。
【符号の説明】
1:制御部
2:入力部
3:出力部
4:テーブルメモリ
4a:辞書テーブル
4b:解析規則テーブル
4c:属性テーブル
4d:正解付コーパスメモリ
5:プログラムメモリ
5a:解析部
5b:属性抽出部
5c:事例データ作成部
5d:決定木作成部
5e:決定木走査部
6:バッファメモリ
6a:原文バッファ
6b:解析結果バッファ
6c:属性バッファ
6d:事例データバッファ
6e:決定木バッファ
6f:決定木走査結果バッファ
7:バスライン
8:記憶媒体
Claims (6)
- 第一言語で記述された被翻訳文を入力する入力部と、
第一言語で記述される文とともに当該文中の語に第二言語の訳語が付与された文である正解付コーパスの集合を記憶した正解付コーパスメモリと、
第一言語の語彙情報を記憶した辞書テーブルと、
第一言語の文を解析するための規則を記憶した解析規則テーブルと、
第一言語の文から抽出すべき属性を記憶した属性テーブルと、
辞書テーブルと解析規則テーブルとを参照して第一言語の文の解析を行う解析部と、
解析部による第一言語の文の解析結果から属性テーブルに記憶されている属性に関する値を抽出する属性抽出部と、
正解付コーパスメモリに記憶された複数の正解付コーパスを解析部で解析し、解析結果から属性テーブルに記憶されている属性に関する値を属性抽出部で抽出し、抽出された属性値と正解付コーパスに付与された第二言語とを対応付けた複数の事例データを事例データバッファに記憶する事例データ作成部と、
事例データバッファに記憶された複数の事例データから、訳語選択規則となる決定木を作成する決定木作成部と、
入力された被翻訳文を解析部で解析し、解析結果から属性テーブルに記憶されている属性に関する値を属性抽出部で抽出し、抽出された属性値に基づいて決定木作成部で作成した決定木を走査して入力された被翻訳文に含まれる語に対応する第二言語の訳語を決定する決定木走査部とを備えたことを特徴とする訳語選択装置。 - 正解付コーパスメモリは、第一言語で記述された文中の各接続詞に対して第二言語の訳語が付与された文である正解付コーパスの集合を記憶してなることを特徴とする請求項1に記載の訳語選択装置。
- 属性テーブルは、属性として主節の「時制」「相」「態」を記憶することを特徴とする請求項2に記載の訳語選択装置。
- 入力部から第一言語で記述された被翻訳文が入力された際に訳語選択を行うための訳語選択プログラムであって、
正解付コーパスメモリが、第一言語で記述される文とともに当該文中の語に第二言語の訳語が付与された文である正解付コーパスの集合を記憶し、
辞書テーブルが第一言語の語彙情報を記憶し、
解析規則テーブルが第一言語の文を解析するための規則を記憶し、
属性テーブルが第一言語の文から抽出すべき属性を記憶し、
解析部が、辞書テーブルと解析規則テーブルとを参照して第一言語の文の解析を行い、
属性抽出部が、解析部による第一言語の文の解析結果から属性テーブルに記憶されている属性に関する値を抽出し、
正解付コーパスメモリに記憶された複数の正解付コーパスを解析部で解析し、解析結果から属性テーブルに記憶されている属性に関する値を属性抽出部で抽出し、かつ、事例データ作成部が抽出された属性値と正解付コーパスに付与された第二言語とを対応付けた複数の事例データを事例データバッファに記憶し、
決定木作成部が、事例データバッファに記憶された複数の事例から、訳語選択規則となる決定木を作成し、
入力された被翻訳文を解析部で解析し、解析結果から属性テーブルに記憶されている属性に関する値を属性抽出部で抽出し、かつ、決定木走査部が、抽出された属性値に基づいて決定木作成部で作成した決定木を走査して入力された被翻訳文に含まれる各語に対応する第二言語の訳語を決定するように機能させるための訳語選択プログラム。 - 正解付コーパスメモリは、第一言語で記述された文中の各接続詞に対して第二言語の訳語が付与された文である正解付コーパスの集合を記憶することを特徴とする請求項4に記載の訳語選択プログラム。
- 前記請求項4または5に記載のプログラムを記憶したコンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002000752A JP3939151B2 (ja) | 2002-01-07 | 2002-01-07 | 訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002000752A JP3939151B2 (ja) | 2002-01-07 | 2002-01-07 | 訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003203073A JP2003203073A (ja) | 2003-07-18 |
JP3939151B2 true JP3939151B2 (ja) | 2007-07-04 |
Family
ID=27641048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002000752A Expired - Fee Related JP3939151B2 (ja) | 2002-01-07 | 2002-01-07 | 訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3939151B2 (ja) |
-
2002
- 2002-01-07 JP JP2002000752A patent/JP3939151B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003203073A (ja) | 2003-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5418717A (en) | Multiple score language processing system | |
US20030004702A1 (en) | Partial sentence translation memory program | |
CN107209759B (zh) | 注解辅助装置及记录介质 | |
US5652896A (en) | Language conversion system and text creating system using such | |
US8594992B2 (en) | Method and system for using alignment means in matching translation | |
US6993473B2 (en) | Productivity tool for language translators | |
JPH08101837A (ja) | 機械翻訳装置における翻訳規則学習方法 | |
US20060285746A1 (en) | Computer assisted document analysis | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JPH02302876A (ja) | 対話型言語解析装置 | |
KR101709693B1 (ko) | 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법 | |
JP3992348B2 (ja) | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 | |
US20040254783A1 (en) | Third language text generating algorithm by multi-lingual text inputting and device and program therefor | |
JP3939151B2 (ja) | 訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体 | |
JP2000040085A (ja) | 日本語形態素解析処理の後処理方法および装置 | |
JP2000250913A (ja) | 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体 | |
CN117313754B (zh) | 智能翻译方法、装置以及翻译机 | |
JP4054353B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP3385206B2 (ja) | 自然言語処理装置 | |
JP3933406B2 (ja) | 代名詞書換装置及び方法並びにこれに利用されるプログラム | |
JP2002132764A (ja) | 機械翻訳前処理装置 | |
Cojocaru et al. | On technology of free access to the characteristic cultural heritage in the form of old printed texts | |
JPH10134059A (ja) | Html文書処理装置及びhtml文書処理方法 | |
Krstovski et al. | End-to-end trainable thai ocr system using hidden markov models | |
JPH03164975A (ja) | 機械翻訳方法及び機械翻訳装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070123 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070327 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100406 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110406 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120406 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120406 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130406 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |