JP2003203073A

JP2003203073A - 訳語選択装置および訳語選択プログラムおよび訳語選択プログラムを記憶した媒体

Info

Publication number: JP2003203073A
Application number: JP2002000752A
Authority: JP
Inventors: Takehiko Yoshimi; 毅彦吉見; Takeshi Kutsumi; 毅九津見; Kozue Kimura; こずえ木村
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2002-01-07
Filing date: 2002-01-07
Publication date: 2003-07-18
Anticipated expiration: 2022-01-07
Also published as: JP3939151B2

Abstract

(57)【要約】（修正有）【課題】接続詞などの機能語も含めて適切な訳語選択
が可能な訳語選択装置を提供する。【解決手段】正解付コーパスメモリに記憶された複数
の正解付コーパスを解析部で解析し、解析結果から属性
テーブルに記憶されている属性に関する値を属性抽出部
で抽出し、抽出された属性値と正解付コーパスに付与さ
れた第二言語とを対応付けた複数の事例データを事例デ
ータバッファに記憶する事例データ作成部と、事例デー
タバッファに記憶された複数の事例データから、訳語選
択規則となる決定木を作成する決定木作成部と、入力さ
れた被翻訳文を解析部で解析し、解析結果から属性テー
ブルに記憶されている属性に関する値を属性抽出部で抽
出し、抽出された属性値に基づいて決定木作成部で作成
した決定木を走査して入力された被翻訳文に含まれる語
に対応する第二言語の訳語を決定する決定木走査部とを
備えてなる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、英日翻訳等の言語
間の機械翻訳の際に適切な訳語を選択して品質の高い訳
文を生成する訳語選択装置及び訳語選択プログラムに関
し、特に文中の接続詞等の機能語を含めて訳語を適切に
選択するようにした機械翻訳のための訳語選択装置およ
び訳語選択プログラムに関する。

【０００２】

【従来の技術】第一言語（原言語）を入力するとコンピ
ュータにより第二言語（目的言語）に翻訳が行われる機
械翻訳装置が利用されている。一般に、第一言語のある
一つの単語を第二言語に翻訳する場合には、第二言語に
はその単語に対応する訳語が複数存在するものである。
そのため、第一言語で書かれた原文の意味を正しく伝え
る訳文を作成するためには複数の訳語の中から適切な訳
語を選択しなければならない。つまり、機械翻訳装置等
で実行される自然言語処理においては解決すべき困難な
課題のひとつに「訳語選択」の問題があり、機械翻訳装
置には適切な訳語を選択する能力が求められている。

【０００３】訳語選択は、名詞や動詞等の内容語（自立
語）にとどまらず、接続詞等の機能語（付属語）につい
ても問題となる。特に、接続詞は文を構成する節の間の
関係を示す役割を担っているため、適切な訳語が選択さ
れないと、原文の意味と全く異なる意味を伝える訳文に
翻訳されてしまう。したがって接続詞の訳語選択を適切
に行うことは非常に重要な課題である。しかしながら、
従来の機械翻訳装置においては接続詞をはじめとする機
能語の訳語選択については十分な対応がなされておら
ず、接続詞の訳語選択の問題は十分には解決されていな
い。

【０００４】以下に、機械翻訳装置による英日翻訳にお
いて英文（Ｅ１）が不適切な解釈で日文（Ｊ１）に翻訳
処理された例を示す。（Ｅｌ） He has worked since he left school. （Ｊｌ）学校を卒業したので、彼は、働いた。

【０００５】接続詞「since」は、「時間経過（〜以
来）」又は「理由（〜ので）」の２つの意味のいずれか
を有している。英文（Ｅ１）では「時間経過」の意味で
用いられているのであるが、日文（Ｊ１）では英文（Ｅ
１）「since」が「ので」と訳されていることから分か
るように、この機械翻訳装置は「since」の意味を「理
由」の意味に誤って解釈している。このため日文（Ｊ
１）は英文（Ｅ１）の意味を正確に訳しておらず誤訳に
なってしまっている。

【０００６】このような訳語選択の問題を解決するため
の従来技術としては、文献１「単語多義性解消法の比較
検討」（情報処理学会研究報告ＮＬ１１９−８，１９９
７）や文献２「機械翻訳装置および機械翻訳方法」（特
開平９−１３４３６２号）に開示された技術がある。

【０００７】

【発明が解決しようとする課題】しかしながら、従来技
術のうちで文献１「単語多義性解消法の比較検討」に開
示された方法は、あくまで名詞や動詞などの内容語（自
立語）のみを対象としたものである。名詞や動詞を対象
とした方法では、訳語選択のための知識として格フレー
ムが用いられることが多い。格フレームとは、動詞とそ
れに係る名詞の間の構文的、意味的な整合性を規定した
ものである。例えば、「食べる」という動詞の格フレー
ムは、「主語になれる名詞は意味標識「animate」（生
物）を持つものであり、目的語になれる名詞は意味標識
「food」（食品）を持つものである」という制約を記述
したものである。「豚」という名詞を英語に翻訳する場
合に、可能な訳語として「pig」と「pork」とがある。
「pig」は「豚」を生物（animate）と解釈した場合に選
択され、「pork」は「豚」を食物（food）と解釈した場
合に選択される。上記の従来技術によれば「食べる」の
目的格になれる名詞は意味標識foodを持つものであると
いう制約を利用して「豚を食べる」という文において
「豚」の訳語を「pork」に決定することができる。この
ように、格フレームに基づいて行われる訳語選択は、動
詞と名詞の構文的制約（名詞が動詞の主語であるか、目
的語であるか）と、意味的制約（animateやfoodなどの
意味標識）とを利用することによって適切な訳語を決定
するものである。

【０００８】しかしながら、このような訳語選択方式を
接続詞の訳語選択に適用することは難しい。それは、動
詞と名詞の訳語選択方式は、両者が係り受け関係（上記
の例で言えば、述語とその目的語の関係）にある場合
に、両者の構文的、意味的制約を記述した格フレームを
利用しているが、接続詞の場合は翻訳対象の接続詞と係
り受け関係にある語との間での制約だけでは、適切な訳
語選択を行うことは困難であり、接続詞と係り受け関係
にある語との関係の他に様々な要因を考慮に入れる必要
があるからである。

【０００９】一方、従来技術のうち文献２「機械翻訳装
置及び機械翻訳方法」に開示される方法は、接続詞など
の機能語を対象とした訳語選択の技術である。しかしな
がら、この方法では、優先的に用いる接続詞の用法（訳
語）を翻訳者が予め指定しておく必要がある。どのよう
な接続詞の用法を優先的に選択するかは様々な要因によ
って決まるため、複雑に関連しあう要因をユーザが整理
し、理解し、その結果に基づいて優先すべき用法（訳
語）を指定することは容易ではない。したがって、ユー
ザに負担をかけない方法が望まれる。

【００１０】そこで、本発明は内容語（自立語）、機能
語（付属語）に関わらず適切な訳語を選択することがで
きる訳語選択装置、訳語選択プログラムを提供すること
を目的とする。

【００１１】また、本発明は優先的に用いる接続詞の訳
語をユーザが予め指定しておく必要がなく、ユーザに負
担をかけずに接続詞の訳語を適切に行うことができる訳
語選択装置、訳語選択プログラムを提供することを目的
とする。

【００１２】

【課題を解決するための手段】上記課題を解決するため
になされた本発明の訳語選択装置は、第一言語で記述さ
れた被翻訳文を入力する入力部と、第一言語で記述され
る文とともに当該文中の語に第二言語の訳語が付与され
た文である正解付コーパスの集合を記憶した正解付コー
パスメモリと、第一言語の語彙情報を記憶した辞書テー
ブルと、第一言語の文を解析するための規則を記憶した
解析規則テーブルと、第一言語の文から抽出すべき属性
を記憶した属性テーブルと、辞書テーブルと解析規則テ
ーブルとを参照して第一言語の文の解析を行う解析部
と、解析部による第一言語の文の解析結果から属性テー
ブルに記憶されている属性に関する値を抽出する属性抽
出部と、正解付コーパスメモリに記憶された複数の正解
付コーパスを解析部で解析し、解析結果から属性テーブ
ルに記憶されている属性に関する値を属性抽出部で抽出
し、抽出された属性値と正解付コーパスに付与された第
二言語とを対応付けた複数の事例データを事例データバ
ッファに記憶する事例データ作成部と、事例データバッ
ファに記憶された複数の事例データから、訳語選択規則
となる決定木を作成する決定木作成部と、入力された被
翻訳文を解析部で解析し、解析結果から属性テーブルに
記憶されている属性に関する値を属性抽出部で抽出し、
抽出された属性値に基づいて決定木作成部で作成した決
定木を走査して入力された被翻訳文に含まれる語に対応
する第二言語の訳語を決定する決定木走査部とを備える
ようにしている。

【００１３】この発明によれば、正解付コーパスメモリ
には、正解付コーパスと呼ばれる複数の文が格納されて
いる。正解付コーパスは、予め第一言語で記述される文
に対し、その文を構成する語について第二言語の訳語を
人手により付与した文である。正解付コーパスは後述す
るように訳語選択の際の訳語選択規則を生成するのに用
いる。辞書テーブルは、第一言語の語彙、すなわち第一
言語の各語に対応する第二言語の語を記憶している。解
析規則テーブルは、第一言語の文を解析するための規則
が記憶されている。解析規則は、第一言語の各語の文法
的な情報を解析するために参照される規則であり、例え
ば動詞であれば時制、相、態、人称などを解析し、名詞
であれば数などを解析するために参照される。属性テー
ブルは、第一言語の文から抽出する属性を記憶してい
る。属性とは、時制、相、態、人称、数などであり、文
がもつ様々な性質である。例えば時制であれば、現在、
過去、未来という属性値が含まれる。属性テーブルでは
属性とその属性に含まれる属性値とが記憶されている。
そして、解析部は、辞書テーブルと解析規則テーブルを
参照して第一言語の文の解析を行う。ここで行われる解
析とは、第一言語の文を単語ごとに分離して、各語の文
法的な情報を解析するものである。例えば動詞であれば
時制、相、態、人称などが解析され、名詞であれば数な
どが解析される。属性抽出部は、解析部による解析結果
に対し、属性テーブルを参照して抽出する属性に関する
属性値を抽出する。解析部と属性抽出部とは、まず正解
付コーパスメモリにある複数の文に対して解析および属
性の抽出を実行する。これにより、属性抽出部により得
られた属性値と正解付コーパスに付与された第二言語の
訳語とを対応付けることができるので、事例データ作成
部が事例データバッファにこの対応付けがなされた複数
の事例データを記憶する。事例データバッファに記憶さ
れた複数の事例データに基づいて、決定木作成部が訳語
選択規則となる決定木を作成する。事例データバッファ
から決定木を作成するアルゴリズムは、後述するC4.5と
呼ばれる方法に従う。作成された決定木は翻訳の対象と
なる被翻訳文の訳語選択を行う際に参照される。次に、
解析部は、辞書テーブルと解析規則テーブルを参照して
入力部により入力された被翻訳文（第一言語で記述され
た文である）の解析を行う。ここでの解析は先に正解付
コーパスに行った解析と同様である。属性抽出部は、解
析部による被翻訳文の解析結果に対し、属性テーブルを
参照して抽出する属性に関する属性値を抽出する。続い
て決定木走査部が、属性抽出部により得られた属性値に
基づいて作成された決定木を走査する。走査とは、決定
木に含まれる属性値と被翻訳文の属性値とを照らし合わ
せて訳語を決定していく動作である。この走査により被
翻訳文に含まれる各語に対応する第二言語の訳語を決定
する。

【００１４】正解付コーパスメモリは、第一言語で記述
された文中の各接続詞に対して第二言語の訳語が付与さ
れた文である正解付コーパスの集合を記憶するようにし
てもよい。その際、属性テーブルは、属性として主節の
「時制」「相」「態」を記憶するようにしてもよい。こ
のようにすれば、第一言語に含まれる機能語である接続
詞に対して適切な訳語選択ができる。

【００１５】また、入力部から第一言語で記述された被
翻訳文が入力された際に訳語選択を行うための訳語選択
プログラムであって、正解付コーパスメモリが、第一言
語で記述される文とともに当該文中の語に第二言語の訳
語が付与された文である正解付コーパスの集合を記憶
し、辞書テーブルが第一言語の語彙情報を記憶し、解析
規則テーブルが第一言語の文を解析するための規則を記
憶し、属性テーブルが第一言語の文から抽出すべき属性
を記憶し、解析部が、辞書テーブルと解析規則テーブル
とを参照して第一言語の文の解析を行い、属性抽出部
が、解析部による第一言語の文の解析結果から属性テー
ブルに記憶されている属性に関する値を抽出し、正解付
コーパスメモリに記憶された複数の正解付コーパスを解
析部で解析し、解析結果から属性テーブルに記憶されて
いる属性に関する値を属性抽出部で抽出し、かつ、事例
データ作成部が抽出された属性値と正解付コーパスに付
与された第二言語とを対応付けた複数の事例データを事
例データバッファに記憶し、決定木作成部が、事例デー
タバッファに記憶された複数の事例から、訳語選択規則
となる決定木を作成し、入力された被翻訳文を解析部で
解析し、解析結果から属性テーブルに記憶されている属
性に関する値を属性抽出部で抽出し、かつ、決定木走査
部が、抽出された属性値に基づいて決定木作成部で作成
した決定木を走査して入力された被翻訳文に含まれる各
語に対応する第二言語の訳語を決定するように機能させ
るための訳語選択プログラムを備えるようにしてもよ
い。

【００１６】さらに、訳語選択プログラムにおいて、正
解付コーパスメモリは、第一言語で記述された文中の各
接続詞に対して第二言語の訳語が付与された文である正
解付コーパスの集合を記憶するようにしてもよい。

【００１７】また、入力部から第一言語で記述された被
翻訳文が入力された際に訳語選択を行うための訳語選択
プログラムを記憶した媒体であって、正解付コーパスメ
モリが、第一言語で記述される文とともに当該文中の語
に第二言語の訳語が付与された文である正解付コーパス
の集合を記憶し、辞書テーブルが第一言語の語彙情報を
記憶し、解析規則テーブルが第一言語の文を解析するた
めの規則を記憶し、属性テーブルが第一言語の文から抽
出すべき属性を記憶し、解析部が、辞書テーブルと解析
規則テーブルとを参照して第一言語の文の解析を行い、
属性抽出部が、解析部による第一言語の文の解析結果か
ら属性テーブルに記憶されている属性に関する値を抽出
し、正解付コーパスメモリに記憶された複数の正解付コ
ーパスを解析部で解析し、解析結果から属性テーブルに
記憶されている属性に関する値を属性抽出部で抽出し、
かつ、事例データ作成部が抽出された属性値と正解付コ
ーパスに付与された第二言語とを対応付けた複数の事例
データを事例データバッファに記憶し、決定木作成部
が、事例データバッファに記憶された複数の事例から、
訳語選択規則となる決定木を作成し、入力された被翻訳
文を解析部で解析し、解析結果から属性テーブルに記憶
されている属性に関する値を属性抽出部で抽出し、か
つ、決定木走査部が、抽出された属性値に基づいて決定
木作成部で作成した決定木を走査して入力された被翻訳
文に含まれる各語に対応する第二言語の訳語を決定する
ように機能させるための訳語選択プログラムを記憶した
媒体としてもよい。

【００１８】

【発明の実施の形態】以下、本発明の実施例について図
面を用いて説明する。図１は本発明の一実施例である訳
語選択装置の構成を示すブロック図である。この実施例
の訳語選択装置では第一言語（ソース言語）が英語で、
第二言語（ターゲット言語）が日本語として英日翻訳の
際の訳語選択を扱うものとしている。なお、第一言語、
第二言語が他の言語であっても同様に扱うことができる
ことは言うまでもない。

【００１９】図１に示すように、本装置の主要部は、制
御部１、入力部２、出力部３、予め用意された処理に必
要なデータが記憶されるテーブルメモリ４、制御プログ
ラムが記憶されるプログラムメモリ５、作業中のデータ
を一時的に記憶するバッファメモリ６とバスライン７、
記憶媒体８により構成される。

【００２０】制御部１は、コンピュータのＣＰＵ（中央
演算処理装置）で実現されるものであり、プログラムメ
モリ５に記憶された各種の制御プログラムを実行するこ
とにより各部を制御する。

【００２１】入力部２は、キーボード、マウス、ペン、
タブレット、スキャナ、文字認識装置等の入力装置や、
通信回線と接続されている通信装置、記憶媒体読取装置
などからなり、言語の入力、各種命令の指示、通信、プ
ログラムインストールなどを行う。

【００２２】出力部３は、ＣＲＴ（陰極線管）ディスプ
レイ、ＬＣＤ（液晶ディスプレイ）、ＰＤ（プラズマデ
ィスプレイ）などからなる表示装置や、サーマルプリン
タ、レーザプリンタなどからなる印字装置、または通信
回線と接続されている通信装置で構成され、入力部２に
よる入力結果、制御部１の制御により翻訳結果を表示装
置に表示したり、印字装置を介して印字したり、通信装
置を介して送信する。

【００２３】テーブルメモリ４およびプログラムメモリ
５は、マスクＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラ
ッシュＲＯＭ等による半導体メモリ、あるいは磁気テー
プやカセットテープ等のテープ系、フロッピー（登録商
標）ディスクやハードディスク等の磁気ディスクやＣＤ
−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ等の光ディスクのディス
ク系、ＩＣカード（メモリカードも含む）／光カード等
のカード系などを含めた記憶媒体からなる。

【００２４】このうちテーブルメモリ４は、辞書テーブ
ル４ａ、解析規則テーブル４ｂ、属性テーブル４ｃ、正
解付コーパスメモリ４ｄを備えている。辞書テーブル４
ａは、第一言語の語彙、すなわち第一言語の各語に対応
する第二言語の語を記憶している。解析規則テーブル４
ｂは、第一言語の文を解析するための規則が記憶されて
いる。解析規則は、第一言語の各語の文法的な情報を解
析するために参照される規則であり、例えば動詞であれ
ば時制、相、態、人称などを解析し、名詞であれば数な
どを解析するために参照される。属性テーブル４ｃは、
第一言語の文から抽出する属性を定義するものであり、
属性と属性に含まれる属性値を記憶している。属性と
は、時制、相、態、人称、数などであり、文がもつ様々
な性質である。例えば時制であれば、現在、過去、未来
という属性値が含まれる。正解付コーパスメモリ４ｄに
は、正解付コーパスと呼ばれる複数の文が格納されてい
る。正解付コーパスは、予め第一言語で記述される文に
対し、その文を構成する語について第二言語の訳語を人
手により付与した文である。正解付コーパスは後述する
ように訳語選択の際の訳語選択規則を生成するのに用い
る。

【００２５】また、プログラムメモリ５は、解析部５
ａ、属性抽出部５ｂ、事例データ作成部５ｃ、決定木作
成部５ｄ、決定木走査部５ｅとして機能するプログラム
が格納されている。解析部５ａは、正解付コーパスメモ
リ４ｄあるいは後述する原文バッファ６ａに格納されて
いる被翻訳文に対して辞書テーブル４ａと解析規則テー
ブル４ｂを参照して文の解析を行う。属性抽出部５ｂ
は、属性テーブル４ｃに定義されている属性の値を正解
付コーパスあるいは入力された被翻訳文の解析結果から
抽出する。事例データ作成部５ｃは、抽出した属性値と
正解付コーパスに付与されている第二言語の訳語とを対
応付けた事例データを作成して後述する事例データバッ
ファ６ｄに記憶する。決定木作成部５ｄは、事例データ
バッファ６ｄに格納されている事例データを一般化する
ことによって「決定木」の形式で訳語選択規則を作成す
る。決定木走査部５ｅは、属性抽出部５ｂによって被翻
訳文から抽出された属性の値に基づいて決定木を走査
し、被翻訳文に含まれる語に対応する第二言語の訳語を
決定する。

【００２６】また、バッファメモリ６はＲＡＭ、ＥＥＰ
ＲＯＭ、フラッシュＲＯＭ等による半導体メモリ、ある
いは磁気テープやカセットテープ等のテープ系、フロッ
ピーディスクやハードディスク等の磁気ディスクやＭＯ
／ＭＤ／ＤＶＤ等の光ディスクのディスク系、ＩＣカー
ド（メモリカードも含む）／光カード等のカード系など
を含めた記憶媒体からなる。バッファメモリ６には、入
力部２によって入力された被翻訳文を記憶する原文バッ
ファ６ａ、解析部５ａによって得られた正解付コーパス
や被翻訳文に対する解析結果を記憶する解析結果バッフ
ァ６ｂ、属性抽出部５ｂによって正解付コーパスあるい
は被翻訳文から抽出された属性値を記憶する属性バッフ
ァ６ｃ、属性抽出部５ｂによって正解付コーパスメモリ
に格納されている各正解付コーパスから抽出された属性
値と、各正解付コーパスに含まれる語に対応する第二言
語の訳語との組を記憶する事例データバッファ６ｄ、決
定木作成部５ｄによって得られた決定木（訳語選択規
則）を記憶する決定木バッファ６ｅ、決定木走査部５e
によって得られた第一言語の語に対応する第二言語の訳
語を記憶する決定木走査結果バッファ６ｆとを備えてい
る。

【００２７】バスライン７は、各部の間でプログラムデ
ータやアドレスデータを送受する。

【００２８】記憶媒体８はマスクＲＯＭ、ＥＰＲＯＭ、
ＥＥＰＲＯＭ、フラッシュＲＯＭ等による半導体メモ
リ、あるいは磁気テープやカセットテープ等のテープ
系、フロッピーディスクやハードディスク等の磁気ディ
スクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ等の光ディス
クのディスク系、ＩＣカード（メモリカードも含む）／
光カード等のカード系などを含めた本体と分離可能なメ
ディアで構成した固定的にプログラムを担持する記憶媒
体からなる。入力部２のひとつである記憶媒体読取装置
を介して本発明に関する訳語選択のためのプログラムを
インストールすることができるようにしてもよい。

【００２９】訳語選択動作の概要本装置のプログラムメモリに記憶されているプログラム
群により実行される動作は、以下の２つに大別される。（１）第一言語の語に対応する第二言語の訳語を選択す
るための規則を正解付コーパスに基づいて作成する動作（２）作成された訳語選択規則を被翻訳文に適用して被
翻訳文に含まれる各語の訳語を推定する動作

【００３０】本発明では、「決定木」と呼ばれる表現形
式で記述される訳語選択規則を生成し、この規則に基づ
いて被翻訳文の訳語を選択するものである。以下、訳語
選択規則の生成、および、被翻訳文への訳語選択規則の
適用について説明する。

【００３１】訳語選択規則の生成まず、訳語選択規則の自動生成について説明する。正解
付コーパスは、第一言語で記述された文に含まれる語に
対してそれぞれ対応する第二言語の訳語を人手で付与し
た文の集合である。以下、接続詞を訳語選択の対象とし
た場合について説明する。例えば文（Ｅ２）は正解付コ
ーパスの一例であり、第一言語（英語）の接続詞「sinc
e」に第二言語（日本語）の訳語「以来」が区切り記号
スラッシュとともに付加された例である。（Ｅ２）He has worked since /以来 he left school.

【００３２】解析部５ａが、辞書テーブル４ａと解析規
則テーブル４ｂに基づいて正解付コーパスメモリ４ｄに
格納されている各文に対して解析を行い、その解析結果
を解析結果バッファ６ｂに格納する。ここでの解析は、
正解付コーパスの文Sに対して各語の文法的な情報の解
析である。例えば動詞であれば時制、相、態、人称など
が解析され、名詞であれば数などが解析される。接続詞
が訳語選択の対象となる場合は、主節の時制、相、態、
が重要であるのでこれらを解析する。

【００３３】解析部５aでの具体的な解析方法は、よく
知られた一般的な技術であるので説明は省略するが、解
析技術については例えば文献「自然言語処理」（長尾
眞、岩波書店、1997）などに開示されている。

【００３４】属性抽出部５ｂは属性テーブル４ｃに定義
されている属性の値を解析結果に基づいて抽出し、属性
バッファ６ｃに属性値を格納する。ここでいう属性と
は、正解付コーパスの文が持つ様々な性質であり、例え
ば「時制」「相」「態」などの項目が含まれる。「時
制」には「過去」「現在」「未来」の値があり、「相」
には「未完了」「継続」「瞬時」「完了」等の値があ
り、「態」には「受動」「能動」の値がある。

【００３５】属性テーブル４ｃには、第一言語の文から
抽出すべき属性が予め定められている。例えば接続詞が
訳語選択の対象となる場合は主節の「時制」「相」
「態」の三種類が抽出すべき属性であると定められてい
るものとする。このとき、文（Ｅ２）の解析結果に対し
て属性抽出部５ｂが属性テーブル４ｃに従って処理を行
うと、属性値として「現在」「完了」「能動」が抽出さ
れる。

【００３６】事例データ作成部５ｃは、属性抽出部５ｂ
により抽出された属性値と予め正解付コーパス４ｄに付
与されている第二言語の訳語（クラスという）とを対応
付ける。属性とクラスとが対応付けられたデータを事例
データと呼ぶ。文（Ｅ２）では、今着目している接続詞
「since」に「時間経過」を意味する訳語「以来」がク
ラスとして付与されているので、文（Ｅ２）から抽出さ
れた属性の組「現在」「完了」「能動」に対して「以
来」というクラスが対応付けられた事例データが得られ
る。

【００３７】このようにして正解付コーパスメモリ４ｄ
に格納された複数の正解付コーパスの各文に対して事例
データが作成され、事例データバッファ６ｄに格納され
る。図２は、（Ｅ２）の例文と同様の複数の正解付コー
パスを用いて作成された接続詞「since」に対する事例
データ集を示す図である。

【００３８】次に、作成された事例データに基づいて訳
語選択規則である「決定木」を作成する。即ち、事例デ
ータバッファ６ｄに格納されている複数の事例データを
一般化することによって、決定木の形式で訳語選択規則
を機能的に作成し、決定木バッファ６ｅに格納する。

【００３９】決定木は、クラスを表す終端節点と、ひと
つの属性を調べるテストに対応する非終端節点（判別節
点）とからなる。そして、各非終端節点にどの属性を調
べるテストを割り当てるかを決めることにより順次決定
木を成長させていく。以下に、決定木の作成手順につい
て説明する。

【００４０】決定木作成部５ｃでは、文献「ＡＩによる
データ解析」(J.R.Quinlan著,古川康一監訳,トッパン,1
995）に示されるC4.5と呼ばれる方法に従って事例デー
タ集から決定木を作成する。

【００４１】C4.5による決定木の作成は、事例集合Ｔを
ｎ個の部分集合に分割するテストＸを利得基準に従って
順次選択していくことによって行われる。利得基準と
は、次式で表されるinfo（Ｔ）とinfo_x（Ｔ）との差
（利得）gain(Ｘ)＝info（Ｔ）−info_x（Ｔ）が最大に
なるようなテストを選ぶ基準である。

【００４２】あるテストＸの利得は、テストＸを用いて
事例集合を分類した場合に、事例集合がどれだけきれい
に分類されるかを表し、利得が大きいほど、事例集合が
よりきれいに分類されることを意味する。

【００４３】

【数式１】

【数式２】ここでfreq（Ｃ_j，Ｔ）は事例集合Ｔの中でクラスＣ_jに
属する事例の数を意味し、｜Ｔ｜は事例集合Ｔに含まれ
る全事例数を意味する。

【００４４】C4.5に従って決定木を作成するフロー図を
図３に示す。（ｓｔ１０１）すべての事例データを根節点に割り当て
る。根節点とは決定木の最初の節点である。そしてｓｔ
１０２に進む。（ｓｔ１０２）その節点に割り当てられている事例数が
１であるかを確認し、１であれば処理を終了する。１で
なければｓｔ１０３に進む。（ｓｔ１０３）事例集合Ｔに対して利得gain（Ｔ）を最
大にするテストＸを選択する。次にｓｔ１０４に進む。（ｔ１０４）選択されたＸで事例集合を部分集合に分割
し、各部分集合を新しい節点として決定木を成長させ
る。そして、ｓｔ１０２に戻る。以下、節点に割り当て
られる事例数が１になるまで同様の動作を繰り返す。

【００４５】図２の事例データ集が存在するときを例と
して決定木の作成の具体例を説明する。まず、根節点に
事例データを割り当てるが、このとき事例数は１ではな
いのでｓｔ１０３に進む。gain(Ｘ)は図３のｓｔ１０３
において次のように計算される。図２の事例集合には、
クラス「以来」が９事例、クラス「ので」が５事例存在
するので、 info（Ｔ）＝−9/14×log₂（9/14）−5/14×log₂(5/14) ＝0.94 である。属性「時制」の値に従って事例集合を三つに分
割したとき、 info時制（Ｔ）＝5/14×（-2/5×log₂（2/5）-3/5×log₂(3/5))+ 4/14×（-4/4×log₂（4/4）-0/4×log₂(0/5))+ 5/14×（-3/5×log₂（3/5）-2/5×log₂(2/5)) ＝0.694 となる。従って、属性「時制」に基づくテストによる分
割で得られる利得はgain(時制)＝info（Ｔ）−info時制
（Ｔ）＝0.94-0.694＝0.246となる。

【００４６】「相」の属性値や「態」の属性値に従って
事例集合を分割する場合の利得を同様に計算すると、
「時制」の場合より大きな利得は得られない。従って属
性「時制」についてのテストが根節点で行うテストとし
て選択される。

【００４７】ｓｔ１０３においてテストが選択される
と、次にｓｔ１０４でそのテスト結果に従って事例集合
を分割する。以下、ｓｔ１０２の終了条件が満たされる
まで同様に処理を進めていけば、最終的な決定木が作成
される。

【００４８】図２の事例集合から作成された決定木を図
４に示す。決定木の非終端節点にはテストに相当する属
性が、終端節点にはクラス名が記述されており、枝には
属性値が付与されている。この決定木は決定木バッファ
６eに記憶される。

【００４９】訳語選択規則の適用次に、上記の方法で事例データ集から自動的に作成され
た決定木（訳語選択規則）を、入力部から入力された被
翻訳文に適用して訳語を選択する処理について説明す
る。この処理は、解析部５ａ、属性抽出部５ｂ、決定木
走査部５ｅによって実行される。

【００５０】決定木走査部５ｅは、属性抽出部５ｂによ
って被翻訳文から抽出された属性に基づいて、決定木を
根節点から終端節点に向けて判別節点でのテストの結果
に従いながら走査し、終端節点に付されてあるクラスを
第二言語の訳語として決定し、その結果を決定木走査結
果バッファ６ｆに格納する。以下に、手順を説明する。

【００５１】解析部５aと属性抽出部５ｂは、決定木を
作成する際に正解付コーパスに対して行った処理と同様
の処理を被翻訳文に対して行う。これによって、被翻訳
文から属性が抽出され、属性バッファ６ｃに格納され
る。例えば次の文（Ｅ３）が被翻訳文であるとする。（Ｅ３）Intense rains did not affect crops since r
ainfall was slight in most main soybean-producing
areas. 文（Ｅ３）からは、主節の「時制」「相」「態」として
それぞれ時制＝過去相＝結果態＝能動という属性値が抽出される。

【００５２】決定木走査部５ｅは、属性抽出部５ｂによ
って抽出した属性値に基づいて決定木を根節点から終端
節点に向けて判別節点でのテストの結果に従いながら、
辿っていく。決定木を走査するフロー図を図５に示す。

【００５３】ここでは文（Ｅ３）から抽出された上記の
属性値を図４の決定木を用いて走査する場合を例にフロ
ーを説明する。図４の決定木を辿る過程は次のようにな
る。（ｓｔ２０１）根節点を着目節点とする。ｓｔ２０２に
進む。（ｓｔ２０２）現在の着目節点が終端節点であるかを判
断し、終端節点でなければｓｔ２０３に進む。本例では
終端節点ではないのでｓｔ２０３に進む。（ｓｔ２０３）入力文の属性のうちで着目節点に記述さ
れている属性（テスト）の結果に従って対応する子節点
を次の着目節点とする。この例では着目節点での属性
（テスト）は「時制」であり、入力文の属性「時制」の
値は「過去」であるので、「過去」が付与されている枝
を辿り「態」の節点を次の着目節点とする。そしてｓｔ
２０２に戻る。

【００５４】（２順目ｓｔ２０２）再び現時点での着目
節点が終端節点であるかを判断し、終端節点でなければ
ｓｔ２０３に進む。この例では終端節点になっていない
のでｓｔ２０３に進む。

【００５５】（２順目ｓｔ２０３）着目節点での属性は
「態」であり、入力文の属性「態」の値は「能動」であ
るので「能動」が付与されている枝を辿り、終端節点
「ので」を次の着目節点とする。そしてｓｔ２０２に戻
る。

【００５６】（３順目ｓｔ２０２）再び現在の着目節点
は終端節点であるかを判断する。終端節点であるので処
理を終了する。即ち、走査を終了し、到達した終端節点
に記述されているクラス名「ので」を決定木走査結果バ
ッファ６ｆに格納する。以上の手順により、適切な訳語
が選択できる。

【００５７】上記実施例は接続詞を対象としたものであ
るが、これに限られない。他の品詞の訳語選択を行う場
合についても、それぞれの品詞に適した属性を選ぶこと
により同様の手順で訳語選択を行うことができる。

【００５８】また、本実施例では簡単のため訳語選択の
対象が１つである場合を例としたが、複数の語を対象と
してもよい。

【００５９】

【発明の効果】本発明によれば、内容語、機能語にかか
わらず適切な訳語選択を行うことができる。特に、これ
までほとんど対象とされなかった接続詞の訳語選択を合
理的に行うことができ、品質の高い訳文を作成すること
ができる。また、統計的機械学習法の一つである決定木
学習法により訳語選択規則を自動的に獲得することがで
きるので、接続詞の用法（訳語選択規則）をユーザがあ
らかじめ指定しておく必要がなくなる。

【図面の簡単な説明】

【図１】本発明の一実施例である訳語選択装置の構成を
示すブロック図。

【図２】正解付コーパスから作成される事例データの例
を示す図。

【図３】決定木作成のフロー図。

【図４】決定木の例を示す図。

【図５】決定木走査のフロー図。

【符号の説明】

１：制御部２：入力部３：出力部４：テーブルメモリ４ａ：辞書テーブル４ｂ：解析規則テーブル４ｃ：属性テーブル４ｄ：正解付コーパスメモリ５：プログラムメモリ５ａ：解析部５ｂ：属性抽出部５ｃ：事例データ作成部５ｄ：決定木作成部５ｅ：決定木走査部６：バッファメモリ６ａ：原文バッファ６ｂ：解析結果バッファ６ｃ：属性バッファ６ｄ：事例データバッファ６ｅ：決定木バッファ６ｆ：決定木走査結果バッファ７：バスライン８：記憶媒体

───────────────────────────────────────────────────── フロントページの続き (72)発明者木村こずえ大阪府大阪市阿倍野区長池町22番22号シャープ株式会社内Ｆターム(参考） 5B091 AA06 BA15 EA25

Claims

【特許請求の範囲】

【請求項１】第一言語で記述された被翻訳文を入力す
る入力部と、第一言語で記述される文とともに当該文中
の語に第二言語の訳語が付与された文である正解付コー
パスの集合を記憶した正解付コーパスメモリと、第一言
語の語彙情報を記憶した辞書テーブルと、第一言語の文
を解析するための規則を記憶した解析規則テーブルと、
第一言語の文から抽出すべき属性を記憶した属性テーブ
ルと、辞書テーブルと解析規則テーブルとを参照して第
一言語の文の解析を行う解析部と、解析部による第一言
語の文の解析結果から属性テーブルに記憶されている属
性に関する値を抽出する属性抽出部と、正解付コーパス
メモリに記憶された複数の正解付コーパスを解析部で解
析し、解析結果から属性テーブルに記憶されている属性
に関する値を属性抽出部で抽出し、抽出された属性値と
正解付コーパスに付与された第二言語とを対応付けた複
数の事例データを事例データバッファに記憶する事例デ
ータ作成部と、事例データバッファに記憶された複数の
事例データから、訳語選択規則となる決定木を作成する
決定木作成部と、入力された被翻訳文を解析部で解析
し、解析結果から属性テーブルに記憶されている属性に
関する値を属性抽出部で抽出し、抽出された属性値に基
づいて決定木作成部で作成した決定木を走査して入力さ
れた被翻訳文に含まれる語に対応する第二言語の訳語を
決定する決定木走査部とを備えたことを特徴とする訳語
選択装置。
【請求項２】正解付コーパスメモリは、第一言語で記
述された文中の各接続詞に対して第二言語の訳語が付与
された文である正解付コーパスの集合を記憶してなるこ
とを特徴とする請求項１に記載の訳語選択装置。
【請求項３】属性テーブルは、属性として主節の「時
制」「相」「態」を記憶することを特徴とする請求項２
に記載の訳語選択装置。
【請求項４】入力部から第一言語で記述された被翻訳
文が入力された際に訳語選択を行うための訳語選択プロ
グラムであって、正解付コーパスメモリが、第一言語で
記述される文とともに当該文中の語に第二言語の訳語が
付与された文である正解付コーパスの集合を記憶し、辞
書テーブルが第一言語の語彙情報を記憶し、解析規則テ
ーブルが第一言語の文を解析するための規則を記憶し、
属性テーブルが第一言語の文から抽出すべき属性を記憶
し、解析部が、辞書テーブルと解析規則テーブルとを参
照して第一言語の文の解析を行い、属性抽出部が、解析
部による第一言語の文の解析結果から属性テーブルに記
憶されている属性に関する値を抽出し、正解付コーパス
メモリに記憶された複数の正解付コーパスを解析部で解
析し、解析結果から属性テーブルに記憶されている属性
に関する値を属性抽出部で抽出し、かつ、事例データ作
成部が抽出された属性値と正解付コーパスに付与された
第二言語とを対応付けた複数の事例データを事例データ
バッファに記憶し、決定木作成部が、事例データバッフ
ァに記憶された複数の事例から、訳語選択規則となる決
定木を作成し、入力された被翻訳文を解析部で解析し、
解析結果から属性テーブルに記憶されている属性に関す
る値を属性抽出部で抽出し、かつ、決定木走査部が、抽
出された属性値に基づいて決定木作成部で作成した決定
木を走査して入力された被翻訳文に含まれる各語に対応
する第二言語の訳語を決定するように機能させるための
訳語選択プログラム。
【請求項５】正解付コーパスメモリは、第一言語で記
述された文中の各接続詞に対して第二言語の訳語が付与
された文である正解付コーパスの集合を記憶することを
特徴とする請求項４に記載の訳語選択プログラム。
【請求項６】入力部から第一言語で記述された被翻訳
文が入力された際に訳語選択を行うための訳語選択プロ
グラムを記憶した媒体であって、正解付コーパスメモリ
が、第一言語で記述される文とともに当該文中の語に第
二言語の訳語が付与された文である正解付コーパスの集
合を記憶し、辞書テーブルが第一言語の語彙情報を記憶
し、解析規則テーブルが第一言語の文を解析するための
規則を記憶し、属性テーブルが第一言語の文から抽出す
べき属性を記憶し、解析部が、辞書テーブルと解析規則
テーブルとを参照して第一言語の文の解析を行い、属性
抽出部が、解析部による第一言語の文の解析結果から属
性テーブルに記憶されている属性に関する値を抽出し、
正解付コーパスメモリに記憶された複数の正解付コーパ
スを解析部で解析し、解析結果から属性テーブルに記憶
されている属性に関する値を属性抽出部で抽出し、か
つ、事例データ作成部が抽出された属性値と正解付コー
パスに付与された第二言語とを対応付けた複数の事例デ
ータを事例データバッファに記憶し、決定木作成部が、
事例データバッファに記憶された複数の事例から、訳語
選択規則となる決定木を作成し、入力された被翻訳文を
解析部で解析し、解析結果から属性テーブルに記憶され
ている属性に関する値を属性抽出部で抽出し、かつ、決
定木走査部が、抽出された属性値に基づいて決定木作成
部で作成した決定木を走査して入力された被翻訳文に含
まれる各語に対応する第二言語の訳語を決定するように
機能させるための訳語選択プログラムを記憶した媒体。
【請求項７】正解付コーパスメモリは、第一言語で記
述された文中の各接続詞に対して第二言語の訳語が付与
された文である正解付コーパスの集合を記憶することを
特徴とする請求項６に記載の訳語選択プログラムを記憶
した媒体。