JP2009075748A

JP2009075748A - 機械翻訳装置及びプログラム

Info

Publication number: JP2009075748A
Application number: JP2007242642A
Authority: JP
Inventors: Miwako Shimazu; 美和子島津; Yumiko Yoshimura; 裕美子吉村
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2007-09-19
Filing date: 2007-09-19
Publication date: 2009-04-09
Anticipated expiration: 2027-09-19
Also published as: JP4298771B2

Abstract

【課題】参考文献の記述部分を構成する要素に対してそれぞれにふさわしい翻訳を行うとともに、訳文を構成する上でも第二言語の規定する書式に変換して出力することである。
【解決手段】参考文献検出部２７は翻訳対象の原文から参考文献の記述部分を検出し、参考文献解析部２８は参考文献検出部２７で検出された参考文献の記述部分の文字列とその文字列を区分けするセパレータとに分割する。カテゴリ決定部２９は、参考文献解析部２８で得られた文字列に対して参考文献の記述部分を構成する要素のカテゴリを決定し、文字列にカテゴリを付与する。そして、翻訳部２６は、翻訳対象の原文の参考文献の記述部分については、カテゴリ決定部２９で付与されたカテゴリに基づいて、参考文献の記述部分の文字列を翻訳する。
【選択図】図１

Description

本発明は、第一言語の文章を第二言語の文章に自動的に翻訳する機械翻訳装置及びプログラムに関する。

コンピュータを利用して第一言語（原言語）の文章を第二言語（目的言語）の文章に自動的に翻訳する機械翻訳装置においては、まず、入力原文を形態素解析及び構文解析によって、語句等の所定の翻訳単位に区分する。次に処理単位ごとに翻訳辞書を検索して適用する翻訳規則を決定し、対応する訳語句等を決定する。決定した訳語句を所定の訳文生成規則に従って結合して、入力原文に対する訳文を得るようになっている。

文書末尾に添えられる参考文献の記述部分などのようにある一定の書式に則って配列された語句・文は、文法上の文構造を有しておらず、一般の文とは異なった構造をしており、要素によって適切な翻訳方法が異なる。そのため、参考文献の記述部分を１行ずつ取り出して、すべての要素に対して、一律に機械翻訳を行う方法では目的言語での参考文献の記述の体裁をなさず、翻訳精度の悪化を招いていた。例えば、「橋本治(2005)『ちゃんと話すための敬語の本』筑摩書房」は”Osamu Hashimoto (2005) "book of honorific for talking perfectly" Chikuma Shobo”となる。

このような場合、参考文献の記述部分を検出して翻訳を行わず、原文のまま表示するといったものがある（例えば、特許文献１参照）。原文のまま表示するのは、第一言語が英語であるときに通用することであり、第一言語がアルファベット文字を使わない言語の場合は翻訳しなければならないことが多く、目的を果たさない。少なくとも、日英翻訳においてはそうである。The Chicago Manual of Style (14th edition, p. 541)にも以下のように説明されている。”The titles in languages other than English are treated the same as English. When it is desirable to provide readers with translation of a title, the translation follows the title and is enclosed in parenthesis (sometimes in square brackets.)”かといって、単純に翻訳すればいいというものでもない。例えば、参考文献の記述部分を構成する要素の一つである書名は読者が原典にあたることができるように原則として意訳のみにしないのが一般的といわれている。

一方、通常モードの機械翻訳では、文の翻訳を前提とした句読点の用いられ方をキーに構文解析を行うので、参考文献の記述部分にこれを適用すると、語の出力順序までも崩れることがある。そこで、参考文献の項目として要求される著者名、書名、出版社、出版年／発行年、ページ、出版地といった要素を人手で分類し、この分類項目に基づき、意味による訳か音訳（ローマ字変換）、またはそれらの併用を使い分けている。機械翻訳の訳として、日本語の読みをローマ字変換して、その翻訳として提示するものがある（例えば、特許文献２、特許文献３参照）。これらはいずれも固有名詞に限定している。
特許第３３９４８５６号公報特開平７−１２１５４２号公報特開２０００−１６３４２１号公報

しかし、書名の場合には、固有名詞はもちろん、句、文など制限がない。この場合、どのようにしてローマ字変換後の文字列を適切に分かち書きするかの観点が入っていない。また、固有名詞であれば、一律に語頭を大文字化すればよいが、書名をローマ字変換し、分かち書きした後、どこを大文字化し、どこを小文字のままとするかという点が考慮されていなかった。また、第一言語の参考文献の記述部分を正しく目的言語の書式に置き換えることができたとして、それにさらに原典の翻訳本が刊行されている場合、その書誌情報も提示できれば第一言語の知識をまったく有しない読者にとって有益である。

さらに、別の問題として第一言語の参考文献の書式と、第二言語の参考文献の書式は一対一対応していない。これを前提にしていない機械翻訳では、例えば、日本語を英語に翻訳する場合、句読点など、それぞれの要素の区切りを示す各種記号は対応する英語記号（例えば、二重括弧はダブルクオテーション、中点はカンマ）に置き換えているのみである。加えて、同じ日本語であっても参考文献の書き方は学問分野ごとに書式が規定されており、統一見解はない。英語についても同様である。

英語では、どの書式であれ書名や雑誌名は原則としてイタリック体にするのが一般的とされている。従来の機械翻訳では大文字小文字の使い分けはされていたが、イタリック体や太字などは原文がイタリック体や太字でない限り、訳文をイタリック体や太字の書式に変換するものはないと思われる。そのため、人手で書名、雑誌名をイタリック体に変換する必要があった。従って、参考文献の記述の件数が多い場合は労力を要し、かつ書名の範囲を誤るおそれもあった。

このように、従来は、参考文献の記述部分の翻訳については翻訳対象外とされるか、または著者名、書名、出版社名、出版年／発行年といった要素を考慮せず、一律に翻訳していたために、機械翻訳では高精度な翻訳結果が得られないという問題があった。これに加え、第二言語の文書に必要な調整がされていなかったために、第二言語の参考文献の要件を満たさず、最悪の場合は、翻訳結果を見ただけではどの部分が著者名に相当し、どの部分が書名に相当するかといった判別がといった判別が困難になるという問題があった。

本発明の目的は、参考文献の記述部分を構成する要素に対してそれぞれにふさわしい翻訳を行うとともに、訳文を構成する上でも第二言語の規定する書式に変換して出力することができる機械翻訳装置及びプログラムを提供することである。

本発明の機械翻訳装置は、機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した翻訳辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力部と、翻訳対象の第一言語の原文や翻訳後の第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行するＣＰＵとを備えた機械翻訳装置において、前記翻訳対象の原文から参考文献の記述部分を検出する参考文献検出部と、前記参考文献検出部で検出された参考文献の記述部分の文字列とその文字列を区分けするセパレータとに分割する参考文献解析部と、前記参考文献解析部で得られた文字列に対して参考文献の記述部分を構成する要素のカテゴリを決定し前記文字列にカテゴリを付与するカテゴリ決定部と、前記翻訳対象の原文の参考文献の記述部分については前記カテゴリ決定部で付与されたカテゴリに基づいて参考文献の記述部分の文字列を翻訳する翻訳部とを備えたことを特徴とする。

本発明によれば、参考文献の記述部分を構成する要素に対してそれぞれにふさわしい翻訳を行うとともに、訳文を構成する上でも第二言語の規定する書式に変換して出力することができる。

図１は、本発明の実施の形態に係わる機械翻訳装置の構成図である。機械翻訳装置１１は、第一言語を第二言語に翻訳して出力するものであり、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムがＣＰＵ１２において実行されることにより実現される。機械翻訳装置１１は、ＣＰＵ１２、ＲＯＭ（Read Only Memory）１３及びＲＡＭ（Random Access Memory）１４がバス１５を介して接続されている。バス１５には、入力装置１６、表示装置１７及び記憶装置１９が接続されている。

記憶装置１９には、機械翻訳プログラム２０が記憶されるとともに、翻訳辞書部２１、参考文献識別データベース２２、参考文献データ格納部２３、参考文献書式知識ベース２４、対話画面記憶部３０が記憶される。

機械翻訳プログラム２０は、制御部２５、翻訳部２６、参考文献検出部２７、参考文献解析部２８、カテゴリ決定部２９を有している。翻訳辞書部２１には、活用変化辞書２１ａ、解析文法辞書２１ｂ、単語・熟語辞書２１ｃ、変換文法辞書２１ｄ、生成文法辞書２１ｅ、形態素生成成文法辞書２１ｆ、読み辞書２１ｇ、ローマ字変換表２１ｈ、参考文献書式変換規則２１ｉ、分かち書き規則２１ｊなどが格納されている。

ＣＰＵ１２は、入力装置１６からの入力信号に基づいてＲＯＭ１３から機械翻訳装置１１を起動するためのブートプログラムを読み出して実行し、さらに記憶装置１９に記憶された図示省略のオペレーティングシステムを読み出す。ＣＰＵ１２は、入力装置１６の入力信号に基づいて、各装置の制御を行い、記憶装置１９などに記憶された機械翻訳プログラム２０及び翻訳辞書部２１のデータを読み出してＲＡＭ１４にロードするとともに、ＲＡＭ１４から読み出されたプログラムのコマンドに基づいて、後述の処理を実現する。

入力装置１６は、第一言語の翻訳対象原文の文字データやファイルデータ等のデータやコマンドを入力する入力手段であり、通常、キーボードやマウス・タッチパネルなどのポインティングデバイス、音声認識や文字認識機能、あるいは、ＣＤドライブなどの外部記憶媒体読取装置、ネットワーク入力装置などによって実現される。すなわち、入力装置１６は、制御部２５に対して翻訳対象となる文の入力、翻訳指示や辞書登録指示などの各種コマンドの入力を行うものである。また、翻訳対象文の入力には、ＯＣＲ、フレキシブルディスク、磁気テープ、磁気ディスク、インターネットからの読み込み、あるいはマイクで発話文を取りこんでディクテーション装置によって自然言語の文字列に変換したものの読み込みなどの入力も含まれる。マイクによる音声入力は各種コマンドの入力にも用いることができる。

表示装置１７は、入力装置１６から入力されたデータや翻訳結果の出力手段であり、画面や翻訳結果等をＣＲＴや液晶ディスプレイなどの表示装置に表示する場合、翻訳結果等をファイルに保存する場合などがある。すなわち、表示装置１７は、翻訳部２６の出力である翻訳結果を出力したり、入力文に対する翻訳用例を用例辞書部２２から検索して表示させる指示命令など、制御部２５への各種命令に対する制御部２５からの応答を表示出力したりする。表示装置１７としては各種ディスプレイなどの表示手段が通常であるが、翻訳結果の出力には、印刷機などの印字手段、あるいは直接フレキシブルディスク、磁気テープ、磁気ディスクへ出力する手段や他のメディアへ送信する送信手段でもよい。また、スピーカーへの音声出力でもよい。

機械翻訳プログラム２０の制御部２５は、機械翻訳装置１１の全体の制御を司るものであり、機械翻訳プログラム２０全体の制御や入力装置１６及び表示装置１７とのデータの転送を行うものである。

翻訳部２６は、制御部２５からの指示に従って、翻訳辞書部２１を用いて入力装置１６によって入力された翻訳対象原文に対する翻訳処理を行い、翻訳結果を制御部２５へ出力する。参考文献検出部２７は翻訳対象の原文から参考文献の記述部分を検出するものであり、参考文献解析部２８は、参考文献検出部２７で検出された参考文献の記述部分の文字列とその文字列を区分けするためのセパレータとに分割するものであり、カテゴリ決定部２９は参考文献解析部２８で得られた文字列に対して、参考文献の記述部分を構成する要素の著者名、書名、出版社名といったカテゴリを決定し、文字列にカテゴリを付与するものである。

翻訳部２６は、翻訳対象原文から参考文献検出部２７で検出された参考文献の記述部分について、カテゴリ決定部２９で付与されたカテゴリに基づいて参考文献の記述部分の要素の文字列も翻訳する。

翻訳辞書部２１には、第一言語から第二言語への翻訳を行うための辞書であり、翻訳部２６が翻訳処理を行う際に使用する各種辞書データが格納されている。翻訳辞書部２１の活用変化辞書２１ａは語尾等に変化のある単語・熟語をその原形に変換する辞書、解析文法辞書２１ｂは第一言語を解析するための文法を記憶した辞書、単語・熟語辞書２１ｃは第一言語の単語・熟語に対応する第二言語の訳語がその品詞情報と共に記憶された辞書、変換文法辞書２１ｄは第一言語の文法から第二言語の文法に変換するための変換情報が記憶された辞書、生成文法辞書２１ｅは文の構造を決定する辞書、さらに形態素生成文法辞書２１ｆは語尾等の語形を変化させて翻訳文を完成させる辞書、読み辞書２１ｇは第一言語の見出しの読み方が記憶された読み辞書、ローマ字変換表２１ｈは仮名文字ごとにそれに相当する読みを有するローマ字つづりが対応づけられた記憶されている変換表、参考文献書式変換規則２１ｉは各カテゴリに適切な翻訳方法を明示した規則、分かち書き規則２１ｊは分かち書きの規則である。

参考文献識別データベース２２には、参考文献検出部２７が参考文献の記述部分であることを識別するためのデータが格納されている。参考文献データ格納部２３には、参考文献解析部２８によって割り当てられた要素とそのカテゴリとが組にして記憶される。参考文献書式知識ベース２４には、参考文献記述部分の前後の記号類や位置関係を参照して、参考文献の記述部分を構成する要素（著者名、書名、出版社、出版年／発行年、ページ、出版地といった要素）が、どのカテゴリに属するかを決定するためデータが記憶されている。

以下の説明では、第一言語は日本語であり第二言語は英語である場合について説明する。まず、参考文献の形式をもった箇所は、典型的には括弧類や句読点、各種記号の使用状況によって検出することができる。例えば、社会科学や人文科学における日本語の参考文献の場合、通常、行末が句読点なしになっている、二重括弧または一重括弧が用いられているといったことが挙げられる。なお、これは簡単化のために参考文献またはそれ相当の見出しがある行の次の入力行からが参考文献の中身とみなしてもよい。

参考文献検出部２７は、こういった特徴のある箇所を検出した場合には、翻訳対象の文書のうち、検出箇所を参考文献解析部２８に送信する。参考文献解析部２８は、当該内部構造を解析して、カテゴリ決定部２９では当該内部構造内の要素にカテゴリを参考文献書式知識ベース２４を用いて割り当てる。参考文献データ格納部２３は、カテゴリ決定部２９によって割り当てられた要素とそのカテゴリを組にして記憶する。記憶された情報は然るべき時期、例えば当該「参考文献」の翻訳が終了したときなどに消去される。

対話画面記憶部３０にはユーザが入力装置１６及び表示装置１７を介して機械翻訳システムと対話するための対話画面が予め記憶されている。

図２は翻訳対象原文の参考文献記述部分の一例の説明図、図３は本発明の実施の形態に係わる機械翻訳装置の処理動作を示すフローチャートである。翻訳対象原文として、図２に示す参考文献記述部分を有した文書が入力装置１６に入力されたとすると、入力装置１６はその原文データを制御部２５に送信する。制御部２５では入力された原文が通常の文のみよりなる文書か、「参考文献」の箇所を含む文書かどうかを判定する（Ｓ１）。

「参考文献」の箇所を含むか否かは、主として、文字列を区分けするセパレータである括弧類、カンマの使用具合や品詞の出現度合いから判定する。つまり、参考文献検出部２７は、参考文献識別データベース２２に格納された参考文献の記述部分であることを識別するためのデータに基づいて参考文献か否かを判断する。すなわち、参考文献識別データベース２２には、参考文献に特徴的な品詞や括弧、句読点の用いられ方を記した知識が格納されており、参考文献検出部２７は、この知識に照らし合わせて参考文献か否かを判断する。

図２の一例の場合は、第３行目以降において行末が句点になっていない点、行中に括弧、読点の使用が多い点、行末までいかずに改行されている点において、通常の文とは異なった形式をしている。また、括弧の内側の要素でない限り、助詞が用いられていない点、また、動詞が全く用いられていない点でも通常と異なることが分かる。そこで、このような知識が格納されている参考文献識別データベース２２に照らし合わせ、参考文献検出部２７は、第３行目以降を参考文献の記述部分と判断する。

参考文献の記述部分を有していると判断されたときは、さらに、参考文献検出部２７は翻訳対象原文は通常の文の形式をもった部分を含むかどうかを判断する（Ｓ２）。すなわち、参考文献の書式に該当しない通常文の形式があるかどうかを文法や品詞等には着目せずに文書全体の文字の使用状況のみに着目して判定する（Ｓ２）。

図２の一例では、第３行目から第５行目は参考文献相当、第１行目は通常の文、第２行目は空行ということがわかる（Ｓ２：ＹＥＳ）。そこで、参考文献検出部２７は、通常の文にあたる部分と「参考文献」の部分（第３行目１文字目から始まる「国領」から第５行目の最後の文字列「(2006)」まで）に分割する（Ｓ３）。そして、制御部２５は翻訳処理を開始する際に、翻訳対象原文の文字列データが通常の文か否かを判定し（Ｓ４）、通常の文であるとき（Ｓ４：ＹＥＳ）、例えば、図２の一例の第１行目や第２行目は、そのまま翻訳部２６に送る。これにより、翻訳部２６は図２の一例の第１行目や第２行目について通常の翻訳を行う（Ｓ５）。

一方、通常の文でなく参考文献の記述部分であると判定したときは（Ｓ４：ＮＯ）、制御部２５はそのデータを参考文献解析部２８に送信する。参考文献解析部２８では、送られた「参考文献」箇所のデータを文字列と括弧・記号類に分類する（Ｓ６）。この場合、図２の一例の第３行目、第４行目、第５行目は、それぞれ以下の文字列や記号等よりなっていることを検出する。
＜第３行目＞
文字列１
・（中点）一つ
文字列２
・（中点）一つ
文字列３
『（二重括弧開き）
文字列４
』（二重括弧閉じ）
文字列５
（（丸括弧開き）
文字列６
）（丸括弧閉じ）
改行
＜第４行目＞
文字列１
『（二重括弧開き）
文字列２
』（二重括弧閉じ）
文字列３
（（丸括弧開き）
文字列４
）（丸括弧閉じ）
改行
＜第５行目＞
文字列１
「（一重括弧開き）
文字列２
」（一重括弧閉じ）
『（二重括弧開き）
文字列３
』（二重括弧閉じ）
文字列４
（（丸括弧開き）
文字列５
）（丸括弧閉じ）
改行
文字列部分を除くと、第３行目は・、・、『、』、（、）、改行であり、第４行目は『、』、（、）、改行であり、第５行目は「、」、『、』、（、）、改行である。そこで、参考文献解析部２８はこれら３行に何らかの共通性があるか否かを判定する（Ｓ７）。これには、一般に知られている文字列一致の手法を用いる。すると、多少構成は違うが、お互いに部分的に一致していることがわかる。具体的には、いずれも「二重括弧開き、二重括弧閉じ、丸括弧開き、丸括弧閉じ、改行」の並びがあることは共通している。

以上の検出を終えると文字列の集合、すなわち、ここでは「国領二郎」「野中郁次郎」「片岡雅憲」「ネットワーク社会の知識経営」「NTT出版」「2003」「人工知能学会編」「人工知能学事典」「共立出版」「2003」「野中郁次郎」「知識経営の戦略」「情報処理」「４７巻」「５号」「５４７−５５２頁」「2006」を参考文献解析部２８は抽出し、制御部２５はこれらの情報を参考文献データ格納部２３に送る（Ｓ８）。なお、「人工知能学事典」「情報処理」といった文字列は、参考文献の記載部分を構成する要素である。

参考文献データ格納部２３には、参考文献解析部２８で抽出されたデータが格納される。このとき、該当の行において要素が何番目の要素であるか、何行目に属するか、前後を囲む括弧は何かといった情報が分かるように格納する。

図４は参考文献データ格納部２３に格納された参考文献データの格納形式の一例の説明図である。参考文献データは、例えば、図４に示すように座標形式で格納される。「国領二郎」は（3,1,,・）、「人工知能学事典」は(4, 2, 『,』)のように座標形式で格納される。「国領二郎」の座標（3,1,,・）は、３行目の第１列に「国領二郎」が位置し、セパレータ「・」で区分されることを意味する。また、「人工知能学事典」の(4, 2, 『,』)は、４行目の第２列に「人工知能学事典」が位置し、セパレータ「『,』」で区分されることを意味する。

次に、カテゴリ決定部２９では、図２の第３行目から第５行目の部分の各要素を順番に取り出し、参考文献書式知識ベース２４を用いて、各要素がどのカテゴリに属するかを決定する（Ｓ９）。この参考文献書式知識ベース２４は前後の記号類や位置関係を参照して要素がどのカテゴリに属するかを決定するためのものである。具体的には、先頭の要素は著者とし、要素の前後が二重括弧であり、かつ同一行に一重括弧があれば雑誌名、なければ書名とし、また、前後が丸括弧で囲まれた４文字の数字は出版年／発行年である、最初の要素と中点で連結している複数の要素は共著者であるといった知識を含んでいる。

「参考文献」の書式には様々なものがあり（広く知られているものとしては、科学技術情報流通技術基準や社会学評論スタイルガイドなど）、例えば、情報処理の分野では、図２に挙げた一例とは異なり、論文名、書名、雑誌名は二重括弧や一重括弧を一切使わず、コロンを使うのが一般的である。そこで、この参考文献書式知識ベース２４は、どの書式にも当てはまる汎用的な知識（例えば最初の要素は著者名である）の適用順位が高く設定されており、上から順に適用していくよう、下に行くほど分野特有の知識があり、その適用順位は低くなっている。

各要素は参考文献解析部２８で付与された情報（「人工知能学事典」「情報処理」といった文字列が何行目に属するか、該当の行において要素が何番目の要素であるか、前後を囲む括弧は何かといった情報）とカテゴリ決定部２９で判定されたカテゴリとともに制御部２５により参考文献データ格納部２３から翻訳部２６に送られる。

また、カテゴリ決定手段２９は、参考文献の記述部の各要素に対して、図２の一例の場合、参考文献書式知識ベース２４を用いて、「国領二郎」「野中郁次郎」「片岡雅憲」「人工知能学会編」「野中郁次郎」は著者名、「ネットワーク社会の知識経営」「人工知能学事典」は書名、「知識経営の戦略」は論文名、「情報処理」は雑誌名、「2006」「2003」「2003」は出版年／発行年であるとカテゴリを判定する。

なお、カテゴリ決定部２９でカテゴリが判別できなかったもの、図２の一例では、「４７巻」「５号」「547-552頁」はカテゴリ判定不能として、制御部２５は「参考文献」の一部であったことを参考文献データ格納部２３に記憶させてそのまま翻訳部２６に送る。

翻訳部２６では、制御部２５から送られた原文に対して、翻訳辞書部２１に格納されている知識（活用変化辞書２１ａ、解析文法辞書２１ｂ、単語・熟語辞書２１ｃ、変換文法辞書２１ｄ、生成文法辞書２１ｅ、形態素生成文法辞書２１ｆ、読み辞書２１ｇ、ローマ字変換表２１ｈ、参考文献書式変換規則２１ｉ、分かち書き規則２１ｊ、及び参考文献データ格納部２３に格納された位置関係の情報を利用し、目的言語への翻訳処理を行う（Ｓ５）。そして、翻訳結果は所定の書式で出力装置１７に出力される（Ｓ１０）。

次に、翻訳部２６が図２の第３行目の第４番目の要素である「ネットワーク社会の知識経営」を翻訳する際の処理を説明する。その前提として参考文献書式変換規則２１ｉについて説明する。参考文献書式変換規則２１ｉは各カテゴリにふさわしい翻訳方法を明示したものである。

著者名の場合は、参考文献の記述部の［著者名］の要素を「姓、カンマ、名」とし、２名以上の場合は２人目以降を「名、姓」とし、［著者名］の要素の後ろにカンマを付与する。最後の一つ前の著者のあとはカンマの後ろにandを入れ最後の著者となる。編者も著者にならうが、単独の場合は、後に”(ed.)“ “(Ed.)”といった文字列を、複数の場合は後に”(eds.)””(Eds.)”といった文字列を付与する。

書名はローマ字変換してイタリック体にし、ローマ字変換のイタリック体の書名に続いて書名の英訳を丸括弧で囲んだものをローマ字変換のイタリック体に付加する。出版社については単語・熟語辞書２１ｃの中に固有名詞として見出しになっていればその訳語を採用し、なっていなければ、ローマ字変換結果を使用するといった規則が蓄積されている。なお、書名の英訳は必須でないため、省略可能であるが、ここでは、ローマ字変換のイタリック体の書名と書名の英訳とを併記した英訳併記方式を選択したものとして話を進める。

さて、今着目している「ネットワーク社会の知識経営」という要素はカテゴリ決定部２９で書名というカテゴリに属するとされた。従って、書名に要求される翻訳処理はローマ字変換してイタリック体にし、それに続いて英訳を丸括弧で囲んだものを付加することになる。

この場合のローマ字変換について、図５のフローチャートを用いて説明する。図５は翻訳部２６でのローマ字変換の処理内容の一例を示すフローチャートである。まず、対象の文字列「ネットワーク社会の知識経営」に対し、形態素解析を行い形態素に分割する（Ｓ１１）。この一例では「ネットワーク｜社会｜の｜知識｜経営」とに分割される。次に、この形態素に対して、分かち書き規則２１ｊを適用する（Ｓ１２）。

これには、例えば以下のような規則が含まれている。１．助動詞や補助用言は直前の動詞や形容詞と結合する。２．接頭語、接尾語は分離させない。３．複合語で長さが６拍以下のものは分離させない。４．複合語が長さ７拍以上のものはどの部分も６拍以下になるようにする。５．助詞の「へ、に、で、と」、「だ」の活用形の「で」のいずれかの後ろに助詞の「は、も、の」のいずれかが続くときはそれらを結合する。

これによれば、この一例は結合すべき箇所はない。しかし、仮に「考古学・人類学・言語学との対話」という書名であれば、「考古学｜人類学｜言語学｜と｜の｜対話」と形態素解析され、分かち書き規則２１ｊにより「と」と「の」とが結合し、「考古学｜人類学｜言語学｜との｜対話」と変化する。

次に、各々に対して読みの情報、読み辞書２１ｇ、ローマ字変換表２１ｈを用いてローマ字変換を行う（Ｓ１３）。この一例の場合は「nettowaku shakai no chishiki keiei」となる。なお、このローマ字変換において、カタカナ語が外来語と分かるときはローマ字変換でなく原語に直すようにしてもよい。この場合は「ネットワーク」がそれに相当し、これによれば全体は「network shakai no chishiki keiei」となる。

次に、スペースで区切られた連続する自立語の先頭文字を大文字にする（Ｓ１４）。例えば、「ネットワーク」「社会」「知識」「経営」はいずれも付属語を含まないため、語頭を大文字にする。一方、格助詞「の」は付属語であるので大文字の処理はしない。これにより、「Nettowaku Shakai no Chishiki Keiei」が得られる。そして、全体をイタリック体にし（Ｓ１５）、「Nettowaku Shakai no Chishiki Keiei」となり書名の必須の処理は終了する。

続いて、この書名に対して意味による訳の併記を希望するか否かを判定し（Ｓ１６）、意味による訳の併記を希望する場合には（Ｓ１６：ＹＥＳ）、書名の翻訳処理を行い、先の翻訳結果のうち内容語の語頭を大文字に直し前後を丸括弧で囲み、ローマ字変換結果の末尾に付与する（Ｓ１７）。

例えば、書名の翻訳として「knowledge management of network society」という翻訳結果が得られると、先の翻訳結果のうち書名を表す内容語、「knowledge」「management」、「 network society」の語頭を大文字に直し前後を丸括弧で囲む。すると、この一例ではof以外が内容語であるので、「Knowledge Management of Network Society」となる。この大文字化のあと全体を丸括弧で囲み、これをステップＳ１５で得られた文字列の末尾に付与する。よってこの一例ではNettowaku Shakai no Chishiki Keiei (Knowledge Management of Network Society)という文字列となり処理を終了する。

この一例においては、他に書名として「人工知能学事典」、雑誌名「情報処理」があるが、これらも同様に処理する。その場合、論文名である「知識経営の戦略」はイタリック体にしない点を除き同じ処理を行う。これは、ローマ字変換のイタリック体の書名と書名の英訳とを併記した英訳併記方式を採用したためである。

次に、著者名の翻訳の説明を行う。前述した参考文献書式変換規則２１ｉの中の著者名の処理を行う。すなわち、単著である５行目の著者名を人名として機械翻訳すると”Ikujiro Nonaka”を得る。これは「名、姓」の順序になっているため、「姓、名」のように逆転させ、カンマで区切って”Nonaka, Ikujiro”を得る。一方、「国領二郎・野中郁次郎・片岡雅憲」のように著者が複数よりなる３行目に関しては、個々に翻訳し、それぞれ、”Jiro Kokuryo””Ikujiro Nonaka”“Masanori Kataoka”を得る。これらはみな「名、姓」の順序になっている。複数著者の場合最初の著者のみ「姓、カンマ、名」とするのが一般的であるので、“Kokuryo, Jiro”となり、残りの著者をカンマとandでつなげて”Kokuryo, Jiro, Ikujiro Nonaka, and Masanori Kataoka”を得る。

次に、カテゴリ付与では著者と分類された「人工知能学会編」であるが、この末尾が「編」であることに着目して、編者と解釈し直し、編者というカテゴリを与え、漢字「編」を除いた部分を翻訳する。この場合、”Japanese Society for Artificial Intelligence”と翻訳され、編者であることを明記する印である、“(ed.)”といった文字列を付与し、“Japanese Society for Artificial Intelligence (ed.)”を得る。

一方、出版社とカテゴリ分類された「NTT出版」や「共立出版」は単語・熟語辞書２１ｃを主に利用して翻訳する。これらの社名の訳語がこれらの辞書に登録されていなければ、形態素解析を行った後、書名と同じ要領で分かち書きし、語頭を大文字とする。例えば、「NTT出版」が辞書に未登録であった場合、これは”NTT Shuppan”という文字列に変換される。また、出版年／発行年に対しては、図２の一例では「2003」、「2003」、「2006」であり、英語でもそのまま通用するため何も処理を行わない。ただし、「2003年」「2006年」とする方式もあり、この場合は「年」を省く必要が生じる。

次に、カテゴリが不定であった「４７巻」「５号」「547−552頁」に対する処理について述べる。「〜巻」「〜号」「〜頁」「〜ページ」などの助数詞は「参考文献」に頻出する語である。「巻」「号」のような助数詞は文脈によって様々なものの数を表し、単独では意味が曖昧である。例えば、「号」の助数詞は雑誌など定期的に発行されるものや、順序のあるものについて、順を追って数えるのに用いられる。雑誌以外には「Ｘ町１丁目２番地３号」のように住所の一部として、また「第１条第２項第３号」のように法律・条約や契約文書の箇所を示すものとしても用いる。

そこで、変換文法辞書２１ｄの項目に、「参考文献」の文脈であることを参照した規則を予め設定しておく。図６は変換文法辞書２１の変換規則の一例の説明図である。図６では、「号」の見出し語に関する変換規則を示している。変換規則は、見出し語「号」、品詞「助数詞」、規則適用条件、「変換規則」とからなり、規則適用条件の第３番目に「参考文献の要素である」場合が定められており、その「変換規則」として、「訳語をＮｏ．またはｎｏ．にし語順を入れ替える」が定められている。このような変換文法辞書２１ｄを持つことにより、参考文献の記述部を持つ文章の該当箇所の翻訳は「５号」が望ましい語でかつ正しい語順で”No. 5”と変換できる。

同様に「547-552頁」についても、図６に示した変換規則と同様に、変換文法辞書２１ｄの「頁」の見出し語に「参考文献」の文脈であることを参照した規則適用条件や変換規則を設定しておくことにより、「頁」の訳語として”page”ではなく「参考文献」で用いられる省略形の”p.”や”pp.”と変換され、数字が後続する。この場合は、ハイフンを含み、複数ページにわたるため、”pp.”が選択される。「巻」についても「参考文献」の要素であるという条件付けで同様に訳語を決定できる。

こうして「参考文献」箇所の翻訳が一通り終了すると、先に翻訳部２６に送られていた同一文書内の「参考文献」箇所以外の部分の訳文との結合を記憶させておいた後続部分の情報を利用して行う。

以上の説明では、図３のステップＳ９でのカテゴリの判定に、予め参考文献書式知識ベース２４に記憶した典型的な書式の知識を用いたが、書式をユーザで定義することも可能である。これは、いくつかの代表的な書式を示して、その中から書式を選択させたり、実際に所望の書式を記述して定義する。例えば、単行本については下記の書式などがある。
・著者名『書名』出版地、出版社、出版年
・著者名．書名．出版地，出版社，出版年
・著者名出版年『書名』出版地: 出版社。

また、論文については下記の書式などがある。
・著者名「論文名」、『雑誌名』巻号（発行年）、ページ
・著者名発行年「論文名」発行者名『雑誌名』巻号: ページ
・著者名：論文名，雑誌名，Vol.，No.，ページ，発行年。

これらの書式を具体的に示し、これらを画面に表示させて選択させ、選択肢に候補がなければユーザ定義とする。また、翻訳処理の間に新たにカテゴリが判明した要素やカテゴリの解釈変更を行った要素については、参考文献データ格納部２３を更新させるようにしてもよい。

また、以上の説明では、日本語が原言語で、英語が目的言語である場合について説明したが、日本語が原言語で、中国語が目的言語の場合もローマ字変換をピンイン変換と読みかえれば同様の手法を用いることができる。

また、以上の説明では、参考文献の記述部分の要素について、第一言語の書誌情報の提示順序を保持したまま第二言語に翻訳するものとしていたが、第二言語で要求する書式の提示順序に翻訳することも可能である。例えば、英語において参考文献の記述の代表的な書式として、APA (American Psychological Association) 書式、CBE (Council of Biology Editors) 書式、MLA (Modern Language Association) 書式がある。例えば、MLA方式とAPA方式について、提示順序をみると、MLAでは書籍の場合は1.著者名、2.書名、3.出版地、4.出版社、5.出版年の順、論文に関しては1.著者名、2.論文名、3.雑誌名、4.号数、5.発行年、6. ページの順序をとる。

一方、APA方式では書籍の場合、1.著者名、2.出版年、3.書名、4.出版地、5.出版社の順、論文に関しては1.著者名、2.発行年、3.論文名、4.雑誌名、5.号数、6. ページの順序をとる。このように出版年／発行年の扱いについて、先頭近辺に置くか、末尾近辺に置くかの大きな違いがあることが分かる。

図７は第二言語で要求する書式の提示順序に参考文献の記述部分を出力する処理内容のフローチャートである。翻訳部２６は、前提として図３のステップＳ１〜Ｓ９の翻訳処理を行っておく。このため、「参考文献」の各要素には原則としてカテゴリが付与されている状態である。そこで、要素、カテゴリ、訳語の三つを組にしておく（Ｓ２１）。この一例での要素、カテゴリ、訳語の組を表１に示す。

次に、制御部２５は、記憶装置１９に予め記憶された対話画面のうち、図８に示すような書式の選択画面を表示装置１７に表示出力しユーザに提示する（Ｓ２２）。図８においては、ユーザが書式名、その書式が用いられる代表的な学問分野、凡例を手がかりに書式を選択できるようになっている。また、ここでは前述した３つの書式と、「その他」という選択肢があり、書名の翻訳を希望する場合のチェック欄がある。これらの候補の中に所望の書式があるかどうかをユーザは判断し（Ｓ２３）、所望の書式がある場合は（Ｓ２３：ＹＥＳ）、その所望の書式を選択する（Ｓ２４）。ユーザにより所望の書式が選択されると、ステップＳ１の三つの組を用いて並べ替え変換を行う（Ｓ２５）。

いま、APA方式が選択され、その書名の翻訳の欄がチェックされたとすると、著者の箇所はKokuryo, J., Nonaka, I. & Kataoka, M.となる。

なお、前述したように、著者が複数の場合の書式は、参考文献変換規則２１ｉに記述されており、ユーザは、特にこのことを意識する必要がないようになっている。つまり、例えば、前述のAPA方式では著者が複数の場合でも、全て姓・名の順序をとり、かつ、最後の２名を＆（アンパーサンド）で結ぶといった規則が入っている。並べ替え、変換が終了すると、以下のような結果になる。

Kokuryo, J., Nonaka, I. & Kataoka, M. Nettowaku Shakai no Chishiki Keiei (Knowledge Management of Network Society). 出版地: NTT Shuppan, 2003.
ここでは、出版地の欄が日本語の文字そのままになっている。これは図２の原文にはない情報であるからである。このような場合、制御部２５はユーザに情報の提供を促すか、または出版地の所在地を一般の検索システム（www検索、文献DB検索などがある）により調べて翻訳する。これにより、例えば、「東京」の場合、”Tokyo”と翻訳される。この文字列を「出版地」の箇所に代入することにより処理を終える。

ステップＳ２３の判断で、ユーザの希望する書式が「その他」である場合には（Ｓ２３：ＮＯ）、ユーザは、著者名、書名、出版地、出版社、出版年などのキーワードと各種記号を使って書式を定義する（Ｓ２６）。この場合、APA、CBE、MLA方式と大枠については類似しており、細部が異なる場合は、類似している書式の凡例をコピーし、異なる部分を変更することにより希望の書式を容易に定義することができる。ユーザ定義が終わると、先のAPA方式を選択した場合と同様に、並び替えなどにより希望の書式に変換を行い（Ｓ２５）、処理を終える。

なお、ユーザにより定義された書式は再度定義する手間が省けるよう、参考文献書式知識データベース２４に蓄積するようにしてもよい。また、要素、カテゴリ、訳語の三つ組は参考文献データ格納部２３に記憶させるようにしてもよい。このようにすることで、様々な書式に切り替えて出力する場合、翻訳時間を短縮できる。

本発明の実施の形態によれば、「参考文献」の中のセパレータを検出し、著者名、書名、出版社名、出版年／発行年といった要素に対して、それぞれにふさわしい翻訳を行うととともに、訳文を構成する上でも第二言語の規定する書式に変換して出力するので、参考文献の記述部分の翻訳を高精度かつ安定して行える。

また、翻訳対象となる「参考文献」の中のセパレータを検出し、そのセパレータの用いられ方と文字列の辞書引きの結果より、著者名、書名、出版社名といった要素のうち、いずれの要素に属するかを判定し、その判定結果に基づいて各要素の訳出方法や出力形式を調整するので、参考文献の記述部分の翻訳を高精度かつ安定して行える。

本発明の実施の形態に係わる機械翻訳装置の構成図。本発明の実施の形態における翻訳対象原文の参考文献記述部分の一例の説明図。本発明の実施の形態に係わる機械翻訳装置の処理動作を示すフローチャート。本発明の実施の形態における参考文献データ格納部に格納された参考文献データの格納形式の一例の説明図。本発明の実施の形態における翻訳部でのローマ字変換の処理内容の一例を示すフローチャート。本発明の実施の形態における翻訳辞書部の変換文法辞書の変換規則の一例の説明図。本発明の実施の形態における第二言語で要求する書式の提示順序に参考文献の記述部分を出力する処理内容のフローチャート。本発明の実施の形態における参考文献の書式の指定を行う選択画面の一例を示す説明図。

符号の説明

１１…機械翻訳装置、１２…ＣＰＵ、１３…ＲＯＭ、１４…ＲＡＭ、１５…バス、１６…入力装置、１７…表示装置、１９…記憶装置、２０…機械翻訳プログラム、２１…翻訳辞書部、２２…参考文献識別データベース、２３…参考文献データ格納部、２４…参考文献書式知識ベース、２５…制御部、２６…翻訳部、２７…参考文献検出部、２８…参考文献解析部、２９…カテゴリ決定部、３０…対話画面記憶部

Claims

機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した翻訳辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力部と、翻訳対象の第一言語の原文や翻訳後の第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行するＣＰＵとを備えた機械翻訳装置において、前記翻訳対象の原文から参考文献の記述部分を検出する参考文献検出部と、前記参考文献検出部で検出された参考文献の記述部分の文字列とその文字列を区分けするセパレータとに分割する参考文献解析部と、前記参考文献解析部で得られた文字列に対して参考文献の記述部分を構成する要素のカテゴリを決定し前記文字列にカテゴリを付与するカテゴリ決定部と、前記翻訳対象の原文の参考文献の記述部分については前記カテゴリ決定部で付与されたカテゴリに基づいて参考文献の記述部分の文字列を翻訳する翻訳部とを備えたことを特徴とする機械翻訳装置。
前記翻訳部は、参考文献の記述部分の文字列をローマ字変換する場合、当該文字列を形態素解析して分かち書き及び大文字化の処理を行うことを特徴とする請求項１の機械翻訳装置。
前記参考文献の訳文書式の選択画面を前記表示装置に表示させるとともに前記入力装置から選択された訳文書式を前記翻訳部に通知する制御部を有し、前記翻訳部は、前記制御部から通知された訳文書式に従って参考文献の記述部分の文字列を翻訳し、前記制御部は前記表示装置に翻訳結果を表示することを特徴とする請求項１記載の機械翻訳装置。
前記制御部は、前記入力装置を介してユーザが定義した前記参考文献の訳文書式を前記選択画面に追加することを特徴とする請求項３記載の機械翻訳装置。
機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した翻訳辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力部と、翻訳対象の第一言語の原文や翻訳後の第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行するＣＰＵとを備えた機械翻訳装置において、コンピュータに、前記翻訳対象の原文から参考文献の記述部分を検出する機能と、検出された参考文献の記述部分の文字列とその文字列を区分けするセパレータとに分割する機能と、分割して得られた文字列に対して参考文献の記述部分を構成する要素のカテゴリを決定し前記文字列にカテゴリを付与する機能と、前記翻訳対象の原文の参考文献の記述部分については付与されたカテゴリに基づいて参考文献の記述部分の文字列を翻訳する機能とを実現させるための機械翻訳プログラム。