JP2003203073A - 訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体 - Google Patents

訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体

Info

Publication number
JP2003203073A
JP2003203073A JP2002000752A JP2002000752A JP2003203073A JP 2003203073 A JP2003203073 A JP 2003203073A JP 2002000752 A JP2002000752 A JP 2002000752A JP 2002000752 A JP2002000752 A JP 2002000752A JP 2003203073 A JP2003203073 A JP 2003203073A
Authority
JP
Japan
Prior art keywords
language
sentence
attribute
unit
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002000752A
Other languages
English (en)
Other versions
JP3939151B2 (ja
Inventor
Takehiko Yoshimi
毅彦 吉見
Takeshi Kutsumi
毅 九津見
Kozue Kimura
こずえ 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2002000752A priority Critical patent/JP3939151B2/ja
Publication of JP2003203073A publication Critical patent/JP2003203073A/ja
Application granted granted Critical
Publication of JP3939151B2 publication Critical patent/JP3939151B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 接続詞などの機能語も含めて適切な訳語選択
が可能な訳語選択装置を提供する。 【解決手段】 正解付コーパスメモリに記憶された複数
の正解付コーパスを解析部で解析し、解析結果から属性
テーブルに記憶されている属性に関する値を属性抽出部
で抽出し、抽出された属性値と正解付コーパスに付与さ
れた第二言語とを対応付けた複数の事例データを事例デ
ータバッファに記憶する事例データ作成部と、事例デー
タバッファに記憶された複数の事例データから、訳語選
択規則となる決定木を作成する決定木作成部と、入力さ
れた被翻訳文を解析部で解析し、解析結果から属性テー
ブルに記憶されている属性に関する値を属性抽出部で抽
出し、抽出された属性値に基づいて決定木作成部で作成
した決定木を走査して入力された被翻訳文に含まれる語
に対応する第二言語の訳語を決定する決定木走査部とを
備えてなる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、英日翻訳等の言語
間の機械翻訳の際に適切な訳語を選択して品質の高い訳
文を生成する訳語選択装置及び訳語選択プログラムに関
し、特に文中の接続詞等の機能語を含めて訳語を適切に
選択するようにした機械翻訳のための訳語選択装置およ
び訳語選択プログラムに関する。
【0002】
【従来の技術】第一言語(原言語)を入力するとコンピ
ュータにより第二言語(目的言語)に翻訳が行われる機
械翻訳装置が利用されている。一般に、第一言語のある
一つの単語を第二言語に翻訳する場合には、第二言語に
はその単語に対応する訳語が複数存在するものである。
そのため、第一言語で書かれた原文の意味を正しく伝え
る訳文を作成するためには複数の訳語の中から適切な訳
語を選択しなければならない。つまり、機械翻訳装置等
で実行される自然言語処理においては解決すべき困難な
課題のひとつに「訳語選択」の問題があり、機械翻訳装
置には適切な訳語を選択する能力が求められている。
【0003】訳語選択は、名詞や動詞等の内容語(自立
語)にとどまらず、接続詞等の機能語(付属語)につい
ても問題となる。特に、接続詞は文を構成する節の間の
関係を示す役割を担っているため、適切な訳語が選択さ
れないと、原文の意味と全く異なる意味を伝える訳文に
翻訳されてしまう。したがって接続詞の訳語選択を適切
に行うことは非常に重要な課題である。しかしながら、
従来の機械翻訳装置においては接続詞をはじめとする機
能語の訳語選択については十分な対応がなされておら
ず、接続詞の訳語選択の問題は十分には解決されていな
い。
【0004】以下に、機械翻訳装置による英日翻訳にお
いて英文(E1)が不適切な解釈で日文(J1)に翻訳
処理された例を示す。 (El) He has worked since he left school. (Jl) 学校を卒業したので、彼は、働いた。
【0005】接続詞「since」は、「時間経過(〜以
来)」又は「理由(〜ので)」の2つの意味のいずれか
を有している。英文(E1)では「時間経過」の意味で
用いられているのであるが、日文(J1)では英文(E
1)「since」が「ので」と訳されていることから分か
るように、この機械翻訳装置は「since」の意味を「理
由」の意味に誤って解釈している。このため日文(J
1)は英文(E1)の意味を正確に訳しておらず誤訳に
なってしまっている。
【0006】このような訳語選択の問題を解決するため
の従来技術としては、文献1「単語多義性解消法の比較
検討」(情報処理学会研究報告NL119−8,199
7)や文献2「機械翻訳装置および機械翻訳方法」(特
開平9−134362号)に開示された技術がある。
【0007】
【発明が解決しようとする課題】しかしながら、従来技
術のうちで文献1「単語多義性解消法の比較検討」に開
示された方法は、あくまで名詞や動詞などの内容語(自
立語)のみを対象としたものである。名詞や動詞を対象
とした方法では、訳語選択のための知識として格フレー
ムが用いられることが多い。格フレームとは、動詞とそ
れに係る名詞の間の構文的、意味的な整合性を規定した
ものである。例えば、「食べる」という動詞の格フレー
ムは、「主語になれる名詞は意味標識「animate」(生
物)を持つものであり、目的語になれる名詞は意味標識
「food」(食品)を持つものである」という制約を記述
したものである。「豚」という名詞を英語に翻訳する場
合に、可能な訳語として「pig」と「pork」とがある。
「pig」は「豚」を生物(animate)と解釈した場合に選
択され、「pork」は「豚」を食物(food)と解釈した場
合に選択される。上記の従来技術によれば「食べる」の
目的格になれる名詞は意味標識foodを持つものであると
いう制約を利用して「豚を食べる」という文において
「豚」の訳語を「pork」に決定することができる。この
ように、格フレームに基づいて行われる訳語選択は、動
詞と名詞の構文的制約(名詞が動詞の主語であるか、目
的語であるか)と、意味的制約(animateやfoodなどの
意味標識)とを利用することによって適切な訳語を決定
するものである。
【0008】しかしながら、このような訳語選択方式を
接続詞の訳語選択に適用することは難しい。それは、動
詞と名詞の訳語選択方式は、両者が係り受け関係(上記
の例で言えば、述語とその目的語の関係)にある場合
に、両者の構文的、意味的制約を記述した格フレームを
利用しているが、接続詞の場合は翻訳対象の接続詞と係
り受け関係にある語との間での制約だけでは、適切な訳
語選択を行うことは困難であり、接続詞と係り受け関係
にある語との関係の他に様々な要因を考慮に入れる必要
があるからである。
【0009】一方、従来技術のうち文献2「機械翻訳装
置及び機械翻訳方法」に開示される方法は、接続詞など
の機能語を対象とした訳語選択の技術である。しかしな
がら、この方法では、優先的に用いる接続詞の用法(訳
語)を翻訳者が予め指定しておく必要がある。どのよう
な接続詞の用法を優先的に選択するかは様々な要因によ
って決まるため、複雑に関連しあう要因をユーザが整理
し、理解し、その結果に基づいて優先すべき用法(訳
語)を指定することは容易ではない。したがって、ユー
ザに負担をかけない方法が望まれる。
【0010】そこで、本発明は内容語(自立語)、機能
語(付属語)に関わらず適切な訳語を選択することがで
きる訳語選択装置、訳語選択プログラムを提供すること
を目的とする。
【0011】また、本発明は優先的に用いる接続詞の訳
語をユーザが予め指定しておく必要がなく、ユーザに負
担をかけずに接続詞の訳語を適切に行うことができる訳
語選択装置、訳語選択プログラムを提供することを目的
とする。
【0012】
【課題を解決するための手段】上記課題を解決するため
になされた本発明の訳語選択装置は、第一言語で記述さ
れた被翻訳文を入力する入力部と、第一言語で記述され
る文とともに当該文中の語に第二言語の訳語が付与され
た文である正解付コーパスの集合を記憶した正解付コー
パスメモリと、第一言語の語彙情報を記憶した辞書テー
ブルと、第一言語の文を解析するための規則を記憶した
解析規則テーブルと、第一言語の文から抽出すべき属性
を記憶した属性テーブルと、辞書テーブルと解析規則テ
ーブルとを参照して第一言語の文の解析を行う解析部
と、解析部による第一言語の文の解析結果から属性テー
ブルに記憶されている属性に関する値を抽出する属性抽
出部と、正解付コーパスメモリに記憶された複数の正解
付コーパスを解析部で解析し、解析結果から属性テーブ
ルに記憶されている属性に関する値を属性抽出部で抽出
し、抽出された属性値と正解付コーパスに付与された第
二言語とを対応付けた複数の事例データを事例データバ
ッファに記憶する事例データ作成部と、事例データバッ
ファに記憶された複数の事例データから、訳語選択規則
となる決定木を作成する決定木作成部と、入力された被
翻訳文を解析部で解析し、解析結果から属性テーブルに
記憶されている属性に関する値を属性抽出部で抽出し、
抽出された属性値に基づいて決定木作成部で作成した決
定木を走査して入力された被翻訳文に含まれる語に対応
する第二言語の訳語を決定する決定木走査部とを備える
ようにしている。
【0013】この発明によれば、正解付コーパスメモリ
には、正解付コーパスと呼ばれる複数の文が格納されて
いる。正解付コーパスは、予め第一言語で記述される文
に対し、その文を構成する語について第二言語の訳語を
人手により付与した文である。正解付コーパスは後述す
るように訳語選択の際の訳語選択規則を生成するのに用
いる。辞書テーブルは、第一言語の語彙、すなわち第一
言語の各語に対応する第二言語の語を記憶している。解
析規則テーブルは、第一言語の文を解析するための規則
が記憶されている。解析規則は、第一言語の各語の文法
的な情報を解析するために参照される規則であり、例え
ば動詞であれば時制、相、態、人称などを解析し、名詞
であれば数などを解析するために参照される。属性テー
ブルは、第一言語の文から抽出する属性を記憶してい
る。属性とは、時制、相、態、人称、数などであり、文
がもつ様々な性質である。例えば時制であれば、現在、
過去、未来という属性値が含まれる。属性テーブルでは
属性とその属性に含まれる属性値とが記憶されている。
そして、解析部は、辞書テーブルと解析規則テーブルを
参照して第一言語の文の解析を行う。ここで行われる解
析とは、第一言語の文を単語ごとに分離して、各語の文
法的な情報を解析するものである。例えば動詞であれば
時制、相、態、人称などが解析され、名詞であれば数な
どが解析される。属性抽出部は、解析部による解析結果
に対し、属性テーブルを参照して抽出する属性に関する
属性値を抽出する。解析部と属性抽出部とは、まず正解
付コーパスメモリにある複数の文に対して解析および属
性の抽出を実行する。これにより、属性抽出部により得
られた属性値と正解付コーパスに付与された第二言語の
訳語とを対応付けることができるので、事例データ作成
部が事例データバッファにこの対応付けがなされた複数
の事例データを記憶する。事例データバッファに記憶さ
れた複数の事例データに基づいて、決定木作成部が訳語
選択規則となる決定木を作成する。事例データバッファ
から決定木を作成するアルゴリズムは、後述するC4.5と
呼ばれる方法に従う。作成された決定木は翻訳の対象と
なる被翻訳文の訳語選択を行う際に参照される。次に、
解析部は、辞書テーブルと解析規則テーブルを参照して
入力部により入力された被翻訳文(第一言語で記述され
た文である)の解析を行う。ここでの解析は先に正解付
コーパスに行った解析と同様である。属性抽出部は、解
析部による被翻訳文の解析結果に対し、属性テーブルを
参照して抽出する属性に関する属性値を抽出する。続い
て決定木走査部が、属性抽出部により得られた属性値に
基づいて作成された決定木を走査する。走査とは、決定
木に含まれる属性値と被翻訳文の属性値とを照らし合わ
せて訳語を決定していく動作である。この走査により被
翻訳文に含まれる各語に対応する第二言語の訳語を決定
する。
【0014】正解付コーパスメモリは、第一言語で記述
された文中の各接続詞に対して第二言語の訳語が付与さ
れた文である正解付コーパスの集合を記憶するようにし
てもよい。その際、属性テーブルは、属性として主節の
「時制」「相」「態」を記憶するようにしてもよい。こ
のようにすれば、第一言語に含まれる機能語である接続
詞に対して適切な訳語選択ができる。
【0015】また、入力部から第一言語で記述された被
翻訳文が入力された際に訳語選択を行うための訳語選択
プログラムであって、正解付コーパスメモリが、第一言
語で記述される文とともに当該文中の語に第二言語の訳
語が付与された文である正解付コーパスの集合を記憶
し、辞書テーブルが第一言語の語彙情報を記憶し、解析
規則テーブルが第一言語の文を解析するための規則を記
憶し、属性テーブルが第一言語の文から抽出すべき属性
を記憶し、解析部が、辞書テーブルと解析規則テーブル
とを参照して第一言語の文の解析を行い、属性抽出部
が、解析部による第一言語の文の解析結果から属性テー
ブルに記憶されている属性に関する値を抽出し、正解付
コーパスメモリに記憶された複数の正解付コーパスを解
析部で解析し、解析結果から属性テーブルに記憶されて
いる属性に関する値を属性抽出部で抽出し、かつ、事例
データ作成部が抽出された属性値と正解付コーパスに付
与された第二言語とを対応付けた複数の事例データを事
例データバッファに記憶し、決定木作成部が、事例デー
タバッファに記憶された複数の事例から、訳語選択規則
となる決定木を作成し、入力された被翻訳文を解析部で
解析し、解析結果から属性テーブルに記憶されている属
性に関する値を属性抽出部で抽出し、かつ、決定木走査
部が、抽出された属性値に基づいて決定木作成部で作成
した決定木を走査して入力された被翻訳文に含まれる各
語に対応する第二言語の訳語を決定するように機能させ
るための訳語選択プログラムを備えるようにしてもよ
い。
【0016】さらに、訳語選択プログラムにおいて、正
解付コーパスメモリは、第一言語で記述された文中の各
接続詞に対して第二言語の訳語が付与された文である正
解付コーパスの集合を記憶するようにしてもよい。
【0017】また、入力部から第一言語で記述された被
翻訳文が入力された際に訳語選択を行うための訳語選択
プログラムを記憶した媒体であって、正解付コーパスメ
モリが、第一言語で記述される文とともに当該文中の語
に第二言語の訳語が付与された文である正解付コーパス
の集合を記憶し、辞書テーブルが第一言語の語彙情報を
記憶し、解析規則テーブルが第一言語の文を解析するた
めの規則を記憶し、属性テーブルが第一言語の文から抽
出すべき属性を記憶し、解析部が、辞書テーブルと解析
規則テーブルとを参照して第一言語の文の解析を行い、
属性抽出部が、解析部による第一言語の文の解析結果か
ら属性テーブルに記憶されている属性に関する値を抽出
し、正解付コーパスメモリに記憶された複数の正解付コ
ーパスを解析部で解析し、解析結果から属性テーブルに
記憶されている属性に関する値を属性抽出部で抽出し、
かつ、事例データ作成部が抽出された属性値と正解付コ
ーパスに付与された第二言語とを対応付けた複数の事例
データを事例データバッファに記憶し、決定木作成部
が、事例データバッファに記憶された複数の事例から、
訳語選択規則となる決定木を作成し、入力された被翻訳
文を解析部で解析し、解析結果から属性テーブルに記憶
されている属性に関する値を属性抽出部で抽出し、か
つ、決定木走査部が、抽出された属性値に基づいて決定
木作成部で作成した決定木を走査して入力された被翻訳
文に含まれる各語に対応する第二言語の訳語を決定する
ように機能させるための訳語選択プログラムを記憶した
媒体としてもよい。
【0018】
【発明の実施の形態】以下、本発明の実施例について図
面を用いて説明する。図1は本発明の一実施例である訳
語選択装置の構成を示すブロック図である。この実施例
の訳語選択装置では第一言語(ソース言語)が英語で、
第二言語(ターゲット言語)が日本語として英日翻訳の
際の訳語選択を扱うものとしている。なお、第一言語、
第二言語が他の言語であっても同様に扱うことができる
ことは言うまでもない。
【0019】図1に示すように、本装置の主要部は、制
御部1、入力部2、出力部3、予め用意された処理に必
要なデータが記憶されるテーブルメモリ4、制御プログ
ラムが記憶されるプログラムメモリ5、作業中のデータ
を一時的に記憶するバッファメモリ6とバスライン7、
記憶媒体8により構成される。
【0020】制御部1は、コンピュータのCPU(中央
演算処理装置)で実現されるものであり、プログラムメ
モリ5に記憶された各種の制御プログラムを実行するこ
とにより各部を制御する。
【0021】入力部2は、キーボード、マウス、ペン、
タブレット、スキャナ、文字認識装置等の入力装置や、
通信回線と接続されている通信装置、記憶媒体読取装置
などからなり、言語の入力、各種命令の指示、通信、プ
ログラムインストールなどを行う。
【0022】出力部3は、CRT(陰極線管)ディスプ
レイ、LCD(液晶ディスプレイ)、PD(プラズマデ
ィスプレイ)などからなる表示装置や、サーマルプリン
タ、レーザプリンタなどからなる印字装置、または通信
回線と接続されている通信装置で構成され、入力部2に
よる入力結果、制御部1の制御により翻訳結果を表示装
置に表示したり、印字装置を介して印字したり、通信装
置を介して送信する。
【0023】テーブルメモリ4およびプログラムメモリ
5は、マスクROM、EPROM、EEPROM、フラ
ッシュROM等による半導体メモリ、あるいは磁気テー
プやカセットテープ等のテープ系、フロッピー(登録商
標)ディスクやハードディスク等の磁気ディスクやCD
−ROM/MO/MD/DVD等の光ディスクのディス
ク系、ICカード(メモリカードも含む)/光カード等
のカード系などを含めた記憶媒体からなる。
【0024】このうちテーブルメモリ4は、辞書テーブ
ル4a、解析規則テーブル4b、属性テーブル4c、正
解付コーパスメモリ4dを備えている。辞書テーブル4
aは、第一言語の語彙、すなわち第一言語の各語に対応
する第二言語の語を記憶している。解析規則テーブル4
bは、第一言語の文を解析するための規則が記憶されて
いる。解析規則は、第一言語の各語の文法的な情報を解
析するために参照される規則であり、例えば動詞であれ
ば時制、相、態、人称などを解析し、名詞であれば数な
どを解析するために参照される。属性テーブル4cは、
第一言語の文から抽出する属性を定義するものであり、
属性と属性に含まれる属性値を記憶している。属性と
は、時制、相、態、人称、数などであり、文がもつ様々
な性質である。例えば時制であれば、現在、過去、未来
という属性値が含まれる。正解付コーパスメモリ4dに
は、正解付コーパスと呼ばれる複数の文が格納されてい
る。正解付コーパスは、予め第一言語で記述される文に
対し、その文を構成する語について第二言語の訳語を人
手により付与した文である。正解付コーパスは後述する
ように訳語選択の際の訳語選択規則を生成するのに用い
る。
【0025】また、プログラムメモリ5は、解析部5
a、属性抽出部5b、事例データ作成部5c、決定木作
成部5d、決定木走査部5eとして機能するプログラム
が格納されている。解析部5aは、正解付コーパスメモ
リ4dあるいは後述する原文バッファ6aに格納されて
いる被翻訳文に対して辞書テーブル4aと解析規則テー
ブル4bを参照して文の解析を行う。属性抽出部5b
は、属性テーブル4cに定義されている属性の値を正解
付コーパスあるいは入力された被翻訳文の解析結果から
抽出する。事例データ作成部5cは、抽出した属性値と
正解付コーパスに付与されている第二言語の訳語とを対
応付けた事例データを作成して後述する事例データバッ
ファ6dに記憶する。決定木作成部5dは、事例データ
バッファ6dに格納されている事例データを一般化する
ことによって「決定木」の形式で訳語選択規則を作成す
る。決定木走査部5eは、属性抽出部5bによって被翻
訳文から抽出された属性の値に基づいて決定木を走査
し、被翻訳文に含まれる語に対応する第二言語の訳語を
決定する。
【0026】また、バッファメモリ6はRAM、EEP
ROM、フラッシュROM等による半導体メモリ、ある
いは磁気テープやカセットテープ等のテープ系、フロッ
ピーディスクやハードディスク等の磁気ディスクやMO
/MD/DVD等の光ディスクのディスク系、ICカー
ド(メモリカードも含む)/光カード等のカード系など
を含めた記憶媒体からなる。バッファメモリ6には、入
力部2によって入力された被翻訳文を記憶する原文バッ
ファ6a、解析部5aによって得られた正解付コーパス
や被翻訳文に対する解析結果を記憶する解析結果バッフ
ァ6b、属性抽出部5bによって正解付コーパスあるい
は被翻訳文から抽出された属性値を記憶する属性バッフ
ァ6c、属性抽出部5bによって正解付コーパスメモリ
に格納されている各正解付コーパスから抽出された属性
値と、各正解付コーパスに含まれる語に対応する第二言
語の訳語との組を記憶する事例データバッファ6d、決
定木作成部5dによって得られた決定木(訳語選択規
則)を記憶する決定木バッファ6e、決定木走査部5e
によって得られた第一言語の語に対応する第二言語の訳
語を記憶する決定木走査結果バッファ6fとを備えてい
る。
【0027】バスライン7は、各部の間でプログラムデ
ータやアドレスデータを送受する。
【0028】記憶媒体8はマスクROM、EPROM、
EEPROM、フラッシュROM等による半導体メモ
リ、あるいは磁気テープやカセットテープ等のテープ
系、フロッピーディスクやハードディスク等の磁気ディ
スクやCD−ROM/MO/MD/DVD等の光ディス
クのディスク系、ICカード(メモリカードも含む)/
光カード等のカード系などを含めた本体と分離可能なメ
ディアで構成した固定的にプログラムを担持する記憶媒
体からなる。入力部2のひとつである記憶媒体読取装置
を介して本発明に関する訳語選択のためのプログラムを
インストールすることができるようにしてもよい。
【0029】訳語選択動作の概要 本装置のプログラムメモリに記憶されているプログラム
群により実行される動作は、以下の2つに大別される。 (1)第一言語の語に対応する第二言語の訳語を選択す
るための規則を正解付コーパスに基づいて作成する動作 (2)作成された訳語選択規則を被翻訳文に適用して被
翻訳文に含まれる各語の訳語を推定する動作
【0030】本発明では、「決定木」と呼ばれる表現形
式で記述される訳語選択規則を生成し、この規則に基づ
いて被翻訳文の訳語を選択するものである。以下、訳語
選択規則の生成、および、被翻訳文への訳語選択規則の
適用について説明する。
【0031】訳語選択規則の生成 まず、訳語選択規則の自動生成について説明する。正解
付コーパスは、第一言語で記述された文に含まれる語に
対してそれぞれ対応する第二言語の訳語を人手で付与し
た文の集合である。以下、接続詞を訳語選択の対象とし
た場合について説明する。例えば文(E2)は正解付コ
ーパスの一例であり、第一言語(英語)の接続詞「sinc
e」に第二言語(日本語)の訳語「以来」が区切り記号
スラッシュとともに付加された例である。 (E2)He has worked since /以来 he left school.
【0032】解析部5aが、辞書テーブル4aと解析規
則テーブル4bに基づいて正解付コーパスメモリ4dに
格納されている各文に対して解析を行い、その解析結果
を解析結果バッファ6bに格納する。ここでの解析は、
正解付コーパスの文Sに対して各語の文法的な情報の解
析である。例えば動詞であれば時制、相、態、人称など
が解析され、名詞であれば数などが解析される。接続詞
が訳語選択の対象となる場合は、主節の時制、相、態、
が重要であるのでこれらを解析する。
【0033】解析部5aでの具体的な解析方法は、よく
知られた一般的な技術であるので説明は省略するが、解
析技術については例えば文献「自然言語処理」(長尾
眞、岩波書店、1997)などに開示されている。
【0034】属性抽出部5bは属性テーブル4cに定義
されている属性の値を解析結果に基づいて抽出し、属性
バッファ6cに属性値を格納する。ここでいう属性と
は、正解付コーパスの文が持つ様々な性質であり、例え
ば「時制」「相」「態」などの項目が含まれる。「時
制」には「過去」「現在」「未来」の値があり、「相」
には「未完了」「継続」「瞬時」「完了」等の値があ
り、「態」には「受動」「能動」の値がある。
【0035】属性テーブル4cには、第一言語の文から
抽出すべき属性が予め定められている。例えば接続詞が
訳語選択の対象となる場合は主節の「時制」「相」
「態」の三種類が抽出すべき属性であると定められてい
るものとする。このとき、文(E2)の解析結果に対し
て属性抽出部5bが属性テーブル4cに従って処理を行
うと、属性値として「現在」「完了」「能動」が抽出さ
れる。
【0036】事例データ作成部5cは、属性抽出部5b
により抽出された属性値と予め正解付コーパス4dに付
与されている第二言語の訳語(クラスという)とを対応
付ける。属性とクラスとが対応付けられたデータを事例
データと呼ぶ。文(E2)では、今着目している接続詞
「since」に「時間経過」を意味する訳語「以来」がク
ラスとして付与されているので、文(E2)から抽出さ
れた属性の組「現在」「完了」「能動」に対して「以
来」というクラスが対応付けられた事例データが得られ
る。
【0037】このようにして正解付コーパスメモリ4d
に格納された複数の正解付コーパスの各文に対して事例
データが作成され、事例データバッファ6dに格納され
る。図2は、(E2)の例文と同様の複数の正解付コー
パスを用いて作成された接続詞「since」に対する事例
データ集を示す図である。
【0038】次に、作成された事例データに基づいて訳
語選択規則である「決定木」を作成する。即ち、事例デ
ータバッファ6dに格納されている複数の事例データを
一般化することによって、決定木の形式で訳語選択規則
を機能的に作成し、決定木バッファ6eに格納する。
【0039】決定木は、クラスを表す終端節点と、ひと
つの属性を調べるテストに対応する非終端節点(判別節
点)とからなる。そして、各非終端節点にどの属性を調
べるテストを割り当てるかを決めることにより順次決定
木を成長させていく。以下に、決定木の作成手順につい
て説明する。
【0040】決定木作成部5cでは、文献「AIによる
データ解析」(J.R.Quinlan著,古川康一監訳,トッパン,1
995)に示されるC4.5と呼ばれる方法に従って事例デー
タ集から決定木を作成する。
【0041】C4.5による決定木の作成は、事例集合Tを
n個の部分集合に分割するテストXを利得基準に従って
順次選択していくことによって行われる。利得基準と
は、次式で表されるinfo(T)とinfox(T)との差
(利得)gain(X)=info(T)−infox(T)が最大に
なるようなテストを選ぶ基準である。
【0042】あるテストXの利得は、テストXを用いて
事例集合を分類した場合に、事例集合がどれだけきれい
に分類されるかを表し、利得が大きいほど、事例集合が
よりきれいに分類されることを意味する。
【0043】
【数式1】
【数式2】 ここでfreq(Cj,T)は事例集合Tの中でクラスCj
属する事例の数を意味し、|T|は事例集合Tに含まれ
る全事例数を意味する。
【0044】C4.5に従って決定木を作成するフロー図を
図3に示す。 (st101)すべての事例データを根節点に割り当て
る。根節点とは決定木の最初の節点である。そしてst
102に進む。 (st102)その節点に割り当てられている事例数が
1であるかを確認し、1であれば処理を終了する。1で
なければst103に進む。 (st103)事例集合Tに対して利得gain(T)を最
大にするテストXを選択する。次にst104に進む。 (t104)選択されたXで事例集合を部分集合に分割
し、各部分集合を新しい節点として決定木を成長させ
る。そして、st102に戻る。以下、節点に割り当て
られる事例数が1になるまで同様の動作を繰り返す。
【0045】図2の事例データ集が存在するときを例と
して決定木の作成の具体例を説明する。まず、根節点に
事例データを割り当てるが、このとき事例数は1ではな
いのでst103に進む。gain(X)は図3のst103
において次のように計算される。図2の事例集合には、
クラス「以来」が9事例、クラス「ので」が5事例存在
するので、 info(T)=−9/14×log2(9/14)−5/14×log2(5/14) =0.94 である。属性「時制」の値に従って事例集合を三つに分
割したとき、 info時制(T)=5/14×(-2/5×log2(2/5)-3/5×log2(3/5))+ 4/14×(-4/4×log2(4/4)-0/4×log2(0/5))+ 5/14×(-3/5×log2(3/5)-2/5×log2(2/5)) =0.694 となる。従って、属性「時制」に基づくテストによる分
割で得られる利得はgain(時制)=info(T)−info時制
(T)=0.94-0.694=0.246となる。
【0046】「相」の属性値や「態」の属性値に従って
事例集合を分割する場合の利得を同様に計算すると、
「時制」の場合より大きな利得は得られない。従って属
性「時制」についてのテストが根節点で行うテストとし
て選択される。
【0047】st103においてテストが選択される
と、次にst104でそのテスト結果に従って事例集合
を分割する。以下、st102の終了条件が満たされる
まで同様に処理を進めていけば、最終的な決定木が作成
される。
【0048】図2の事例集合から作成された決定木を図
4に示す。決定木の非終端節点にはテストに相当する属
性が、終端節点にはクラス名が記述されており、枝には
属性値が付与されている。この決定木は決定木バッファ
6eに記憶される。
【0049】訳語選択規則の適用 次に、上記の方法で事例データ集から自動的に作成され
た決定木(訳語選択規則)を、入力部から入力された被
翻訳文に適用して訳語を選択する処理について説明す
る。この処理は、解析部5a、属性抽出部5b、決定木
走査部5eによって実行される。
【0050】決定木走査部5eは、属性抽出部5bによ
って被翻訳文から抽出された属性に基づいて、決定木を
根節点から終端節点に向けて判別節点でのテストの結果
に従いながら走査し、終端節点に付されてあるクラスを
第二言語の訳語として決定し、その結果を決定木走査結
果バッファ6fに格納する。以下に、手順を説明する。
【0051】解析部5aと属性抽出部5bは、決定木を
作成する際に正解付コーパスに対して行った処理と同様
の処理を被翻訳文に対して行う。これによって、被翻訳
文から属性が抽出され、属性バッファ6cに格納され
る。例えば次の文(E3)が被翻訳文であるとする。 (E3)Intense rains did not affect crops since r
ainfall was slight in most main soybean-producing
areas. 文(E3)からは、主節の「時制」「相」「態」として
それぞれ 時制=過去 相=結果 態=能動 という属性値が抽出される。
【0052】決定木走査部5eは、属性抽出部5bによ
って抽出した属性値に基づいて決定木を根節点から終端
節点に向けて判別節点でのテストの結果に従いながら、
辿っていく。決定木を走査するフロー図を図5に示す。
【0053】ここでは文(E3)から抽出された上記の
属性値を図4の決定木を用いて走査する場合を例にフロ
ーを説明する。図4の決定木を辿る過程は次のようにな
る。 (st201)根節点を着目節点とする。st202に
進む。 (st202)現在の着目節点が終端節点であるかを判
断し、終端節点でなければst203に進む。本例では
終端節点ではないのでst203に進む。 (st203)入力文の属性のうちで着目節点に記述さ
れている属性(テスト)の結果に従って対応する子節点
を次の着目節点とする。この例では着目節点での属性
(テスト)は「時制」であり、入力文の属性「時制」の
値は「過去」であるので、「過去」が付与されている枝
を辿り「態」の節点を次の着目節点とする。そしてst
202に戻る。
【0054】(2順目st202)再び現時点での着目
節点が終端節点であるかを判断し、終端節点でなければ
st203に進む。この例では終端節点になっていない
のでst203に進む。
【0055】(2順目st203)着目節点での属性は
「態」であり、入力文の属性「態」の値は「能動」であ
るので「能動」が付与されている枝を辿り、終端節点
「ので」を次の着目節点とする。そしてst202に戻
る。
【0056】(3順目st202)再び現在の着目節点
は終端節点であるかを判断する。終端節点であるので処
理を終了する。即ち、走査を終了し、到達した終端節点
に記述されているクラス名「ので」を決定木走査結果バ
ッファ6fに格納する。以上の手順により、適切な訳語
が選択できる。
【0057】上記実施例は接続詞を対象としたものであ
るが、これに限られない。他の品詞の訳語選択を行う場
合についても、それぞれの品詞に適した属性を選ぶこと
により同様の手順で訳語選択を行うことができる。
【0058】また、本実施例では簡単のため訳語選択の
対象が1つである場合を例としたが、複数の語を対象と
してもよい。
【0059】
【発明の効果】本発明によれば、内容語、機能語にかか
わらず適切な訳語選択を行うことができる。特に、これ
までほとんど対象とされなかった接続詞の訳語選択を合
理的に行うことができ、品質の高い訳文を作成すること
ができる。また、統計的機械学習法の一つである決定木
学習法により訳語選択規則を自動的に獲得することがで
きるので、接続詞の用法(訳語選択規則)をユーザがあ
らかじめ指定しておく必要がなくなる。
【図面の簡単な説明】
【図1】本発明の一実施例である訳語選択装置の構成を
示すブロック図。
【図2】正解付コーパスから作成される事例データの例
を示す図。
【図3】決定木作成のフロー図。
【図4】決定木の例を示す図。
【図5】決定木走査のフロー図。
【符号の説明】
1:制御部 2:入力部 3:出力部 4:テーブルメモリ 4a:辞書テーブル 4b:解析規則テーブル 4c:属性テーブル 4d:正解付コーパスメモリ 5:プログラムメモリ 5a:解析部 5b:属性抽出部 5c:事例データ作成部 5d:決定木作成部 5e:決定木走査部 6:バッファメモリ 6a:原文バッファ 6b:解析結果バッファ 6c:属性バッファ 6d:事例データバッファ 6e:決定木バッファ 6f:決定木走査結果バッファ 7:バスライン 8:記憶媒体
───────────────────────────────────────────────────── フロントページの続き (72)発明者 木村 こずえ 大阪府大阪市阿倍野区長池町22番22号 シ ャープ株式会社内 Fターム(参考) 5B091 AA06 BA15 EA25

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 第一言語で記述された被翻訳文を入力す
    る入力部と、第一言語で記述される文とともに当該文中
    の語に第二言語の訳語が付与された文である正解付コー
    パスの集合を記憶した正解付コーパスメモリと、第一言
    語の語彙情報を記憶した辞書テーブルと、第一言語の文
    を解析するための規則を記憶した解析規則テーブルと、
    第一言語の文から抽出すべき属性を記憶した属性テーブ
    ルと、辞書テーブルと解析規則テーブルとを参照して第
    一言語の文の解析を行う解析部と、解析部による第一言
    語の文の解析結果から属性テーブルに記憶されている属
    性に関する値を抽出する属性抽出部と、正解付コーパス
    メモリに記憶された複数の正解付コーパスを解析部で解
    析し、解析結果から属性テーブルに記憶されている属性
    に関する値を属性抽出部で抽出し、抽出された属性値と
    正解付コーパスに付与された第二言語とを対応付けた複
    数の事例データを事例データバッファに記憶する事例デ
    ータ作成部と、事例データバッファに記憶された複数の
    事例データから、訳語選択規則となる決定木を作成する
    決定木作成部と、入力された被翻訳文を解析部で解析
    し、解析結果から属性テーブルに記憶されている属性に
    関する値を属性抽出部で抽出し、抽出された属性値に基
    づいて決定木作成部で作成した決定木を走査して入力さ
    れた被翻訳文に含まれる語に対応する第二言語の訳語を
    決定する決定木走査部とを備えたことを特徴とする訳語
    選択装置。
  2. 【請求項2】 正解付コーパスメモリは、第一言語で記
    述された文中の各接続詞に対して第二言語の訳語が付与
    された文である正解付コーパスの集合を記憶してなるこ
    とを特徴とする請求項1に記載の訳語選択装置。
  3. 【請求項3】 属性テーブルは、属性として主節の「時
    制」「相」「態」を記憶することを特徴とする請求項2
    に記載の訳語選択装置。
  4. 【請求項4】 入力部から第一言語で記述された被翻訳
    文が入力された際に訳語選択を行うための訳語選択プロ
    グラムであって、正解付コーパスメモリが、第一言語で
    記述される文とともに当該文中の語に第二言語の訳語が
    付与された文である正解付コーパスの集合を記憶し、辞
    書テーブルが第一言語の語彙情報を記憶し、解析規則テ
    ーブルが第一言語の文を解析するための規則を記憶し、
    属性テーブルが第一言語の文から抽出すべき属性を記憶
    し、解析部が、辞書テーブルと解析規則テーブルとを参
    照して第一言語の文の解析を行い、属性抽出部が、解析
    部による第一言語の文の解析結果から属性テーブルに記
    憶されている属性に関する値を抽出し、正解付コーパス
    メモリに記憶された複数の正解付コーパスを解析部で解
    析し、解析結果から属性テーブルに記憶されている属性
    に関する値を属性抽出部で抽出し、かつ、事例データ作
    成部が抽出された属性値と正解付コーパスに付与された
    第二言語とを対応付けた複数の事例データを事例データ
    バッファに記憶し、決定木作成部が、事例データバッフ
    ァに記憶された複数の事例から、訳語選択規則となる決
    定木を作成し、入力された被翻訳文を解析部で解析し、
    解析結果から属性テーブルに記憶されている属性に関す
    る値を属性抽出部で抽出し、かつ、決定木走査部が、抽
    出された属性値に基づいて決定木作成部で作成した決定
    木を走査して入力された被翻訳文に含まれる各語に対応
    する第二言語の訳語を決定するように機能させるための
    訳語選択プログラム。
  5. 【請求項5】 正解付コーパスメモリは、第一言語で記
    述された文中の各接続詞に対して第二言語の訳語が付与
    された文である正解付コーパスの集合を記憶することを
    特徴とする請求項4に記載の訳語選択プログラム。
  6. 【請求項6】 入力部から第一言語で記述された被翻訳
    文が入力された際に訳語選択を行うための訳語選択プロ
    グラムを記憶した媒体であって、正解付コーパスメモリ
    が、第一言語で記述される文とともに当該文中の語に第
    二言語の訳語が付与された文である正解付コーパスの集
    合を記憶し、辞書テーブルが第一言語の語彙情報を記憶
    し、解析規則テーブルが第一言語の文を解析するための
    規則を記憶し、属性テーブルが第一言語の文から抽出す
    べき属性を記憶し、解析部が、辞書テーブルと解析規則
    テーブルとを参照して第一言語の文の解析を行い、属性
    抽出部が、解析部による第一言語の文の解析結果から属
    性テーブルに記憶されている属性に関する値を抽出し、
    正解付コーパスメモリに記憶された複数の正解付コーパ
    スを解析部で解析し、解析結果から属性テーブルに記憶
    されている属性に関する値を属性抽出部で抽出し、か
    つ、事例データ作成部が抽出された属性値と正解付コー
    パスに付与された第二言語とを対応付けた複数の事例デ
    ータを事例データバッファに記憶し、決定木作成部が、
    事例データバッファに記憶された複数の事例から、訳語
    選択規則となる決定木を作成し、入力された被翻訳文を
    解析部で解析し、解析結果から属性テーブルに記憶され
    ている属性に関する値を属性抽出部で抽出し、かつ、決
    定木走査部が、抽出された属性値に基づいて決定木作成
    部で作成した決定木を走査して入力された被翻訳文に含
    まれる各語に対応する第二言語の訳語を決定するように
    機能させるための訳語選択プログラムを記憶した媒体。
  7. 【請求項7】 正解付コーパスメモリは、第一言語で記
    述された文中の各接続詞に対して第二言語の訳語が付与
    された文である正解付コーパスの集合を記憶することを
    特徴とする請求項6に記載の訳語選択プログラムを記憶
    した媒体。
JP2002000752A 2002-01-07 2002-01-07 訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体 Expired - Fee Related JP3939151B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002000752A JP3939151B2 (ja) 2002-01-07 2002-01-07 訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002000752A JP3939151B2 (ja) 2002-01-07 2002-01-07 訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体

Publications (2)

Publication Number Publication Date
JP2003203073A true JP2003203073A (ja) 2003-07-18
JP3939151B2 JP3939151B2 (ja) 2007-07-04

Family

ID=27641048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002000752A Expired - Fee Related JP3939151B2 (ja) 2002-01-07 2002-01-07 訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体

Country Status (1)

Country Link
JP (1) JP3939151B2 (ja)

Also Published As

Publication number Publication date
JP3939151B2 (ja) 2007-07-04

Similar Documents

Publication Publication Date Title
US5418717A (en) Multiple score language processing system
US6393389B1 (en) Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US8594992B2 (en) Method and system for using alignment means in matching translation
US8005662B2 (en) Translation method, translation output method and storage medium, program, and computer used therewith
US20030004702A1 (en) Partial sentence translation memory program
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
US20070061131A1 (en) Japanese virtual dictionary
JPH08101837A (ja) 機械翻訳装置における翻訳規則学習方法
US20040254783A1 (en) Third language text generating algorithm by multi-lingual text inputting and device and program therefor
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
JP2007157123A (ja) 改善された中国語−英語翻訳ツール
JP2000259635A (ja) 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
Hirakawa et al. EJ/JE Machine Translation System ASTRANSAC—Extensions toward Personalization
Lee et al. Detection of non-native sentences using machine-translated training data
JP3939151B2 (ja) 訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体
JP5185343B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP2000250913A (ja) 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体
JP4054353B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP3385206B2 (ja) 自然言語処理装置
JP3933406B2 (ja) 代名詞書換装置及び方法並びにこれに利用されるプログラム
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
JP2001337945A (ja) 自動編集装置及び方法並びにこれに利用される記憶媒体
JP3253311B2 (ja) 言語処理装置および言語処理方法
JPH05225232A (ja) テキスト自動前編集装置
JP2001265766A (ja) 機械翻訳方法、機械翻訳装置及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070123

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070327

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100406

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110406

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120406

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120406

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130406

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees