JP2009075748A - 機械翻訳装置及びプログラム - Google Patents

機械翻訳装置及びプログラム Download PDF

Info

Publication number
JP2009075748A
JP2009075748A JP2007242642A JP2007242642A JP2009075748A JP 2009075748 A JP2009075748 A JP 2009075748A JP 2007242642 A JP2007242642 A JP 2007242642A JP 2007242642 A JP2007242642 A JP 2007242642A JP 2009075748 A JP2009075748 A JP 2009075748A
Authority
JP
Japan
Prior art keywords
translation
character string
unit
translated
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007242642A
Other languages
English (en)
Other versions
JP4298771B2 (ja
Inventor
Miwako Shimazu
美和子 島津
Yumiko Yoshimura
裕美子 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2007242642A priority Critical patent/JP4298771B2/ja
Publication of JP2009075748A publication Critical patent/JP2009075748A/ja
Application granted granted Critical
Publication of JP4298771B2 publication Critical patent/JP4298771B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】参考文献の記述部分を構成する要素に対してそれぞれにふさわしい翻訳を行うとともに、訳文を構成する上でも第二言語の規定する書式に変換して出力することである。
【解決手段】参考文献検出部27は翻訳対象の原文から参考文献の記述部分を検出し、参考文献解析部28は参考文献検出部27で検出された参考文献の記述部分の文字列とその文字列を区分けするセパレータとに分割する。カテゴリ決定部29は、参考文献解析部28で得られた文字列に対して参考文献の記述部分を構成する要素のカテゴリを決定し、文字列にカテゴリを付与する。そして、翻訳部26は、翻訳対象の原文の参考文献の記述部分については、カテゴリ決定部29で付与されたカテゴリに基づいて、参考文献の記述部分の文字列を翻訳する。
【選択図】図1

Description

本発明は、第一言語の文章を第二言語の文章に自動的に翻訳する機械翻訳装置及びプログラムに関する。
コンピュータを利用して第一言語(原言語)の文章を第二言語(目的言語)の文章に自動的に翻訳する機械翻訳装置においては、まず、入力原文を形態素解析及び構文解析によって、語句等の所定の翻訳単位に区分する。次に処理単位ごとに翻訳辞書を検索して適用する翻訳規則を決定し、対応する訳語句等を決定する。決定した訳語句を所定の訳文生成規則に従って結合して、入力原文に対する訳文を得るようになっている。
文書末尾に添えられる参考文献の記述部分などのようにある一定の書式に則って配列された語句・文は、文法上の文構造を有しておらず、一般の文とは異なった構造をしており、要素によって適切な翻訳方法が異なる。そのため、参考文献の記述部分を1行ずつ取り出して、すべての要素に対して、一律に機械翻訳を行う方法では目的言語での参考文献の記述の体裁をなさず、翻訳精度の悪化を招いていた。例えば、「橋本治(2005)『ちゃんと話すための敬語の本』筑摩書房」は”Osamu Hashimoto (2005) "book of honorific for talking perfectly" Chikuma Shobo”となる。
このような場合、参考文献の記述部分を検出して翻訳を行わず、原文のまま表示するといったものがある(例えば、特許文献1参照)。原文のまま表示するのは、第一言語が英語であるときに通用することであり、第一言語がアルファベット文字を使わない言語の場合は翻訳しなければならないことが多く、目的を果たさない。少なくとも、日英翻訳においてはそうである。The Chicago Manual of Style (14th edition, p. 541)にも以下のように説明されている。”The titles in languages other than English are treated the same as English. When it is desirable to provide readers with translation of a title, the translation follows the title and is enclosed in parenthesis (sometimes in square brackets.)”かといって、単純に翻訳すればいいというものでもない。例えば、参考文献の記述部分を構成する要素の一つである書名は読者が原典にあたることができるように原則として意訳のみにしないのが一般的といわれている。
一方、通常モードの機械翻訳では、文の翻訳を前提とした句読点の用いられ方をキーに構文解析を行うので、参考文献の記述部分にこれを適用すると、語の出力順序までも崩れることがある。そこで、参考文献の項目として要求される著者名、書名、出版社、出版年/発行年、ページ、出版地といった要素を人手で分類し、この分類項目に基づき、意味による訳か音訳(ローマ字変換)、またはそれらの併用を使い分けている。機械翻訳の訳として、日本語の読みをローマ字変換して、その翻訳として提示するものがある(例えば、特許文献2、特許文献3参照)。これらはいずれも固有名詞に限定している。
特許第3394856号公報 特開平7−121542号公報 特開2000−163421号公報
しかし、書名の場合には、固有名詞はもちろん、句、文など制限がない。この場合、どのようにしてローマ字変換後の文字列を適切に分かち書きするかの観点が入っていない。また、固有名詞であれば、一律に語頭を大文字化すればよいが、書名をローマ字変換し、分かち書きした後、どこを大文字化し、どこを小文字のままとするかという点が考慮されていなかった。また、第一言語の参考文献の記述部分を正しく目的言語の書式に置き換えることができたとして、それにさらに原典の翻訳本が刊行されている場合、その書誌情報も提示できれば第一言語の知識をまったく有しない読者にとって有益である。
さらに、別の問題として第一言語の参考文献の書式と、第二言語の参考文献の書式は一対一対応していない。これを前提にしていない機械翻訳では、例えば、日本語を英語に翻訳する場合、句読点など、それぞれの要素の区切りを示す各種記号は対応する英語記号(例えば、二重括弧はダブルクオテーション、中点はカンマ)に置き換えているのみである。加えて、同じ日本語であっても参考文献の書き方は学問分野ごとに書式が規定されており、統一見解はない。英語についても同様である。
英語では、どの書式であれ書名や雑誌名は原則としてイタリック体にするのが一般的とされている。従来の機械翻訳では大文字小文字の使い分けはされていたが、イタリック体や太字などは原文がイタリック体や太字でない限り、訳文をイタリック体や太字の書式に変換するものはないと思われる。そのため、人手で書名、雑誌名をイタリック体に変換する必要があった。従って、参考文献の記述の件数が多い場合は労力を要し、かつ書名の範囲を誤るおそれもあった。
このように、従来は、参考文献の記述部分の翻訳については翻訳対象外とされるか、または著者名、書名、出版社名、出版年/発行年といった要素を考慮せず、一律に翻訳していたために、機械翻訳では高精度な翻訳結果が得られないという問題があった。これに加え、第二言語の文書に必要な調整がされていなかったために、第二言語の参考文献の要件を満たさず、最悪の場合は、翻訳結果を見ただけではどの部分が著者名に相当し、どの部分が書名に相当するかといった判別がといった判別が困難になるという問題があった。
本発明の目的は、参考文献の記述部分を構成する要素に対してそれぞれにふさわしい翻訳を行うとともに、訳文を構成する上でも第二言語の規定する書式に変換して出力することができる機械翻訳装置及びプログラムを提供することである。
本発明の機械翻訳装置は、機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した翻訳辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力部と、翻訳対象の第一言語の原文や翻訳後の第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行するCPUとを備えた機械翻訳装置において、前記翻訳対象の原文から参考文献の記述部分を検出する参考文献検出部と、前記参考文献検出部で検出された参考文献の記述部分の文字列とその文字列を区分けするセパレータとに分割する参考文献解析部と、前記参考文献解析部で得られた文字列に対して参考文献の記述部分を構成する要素のカテゴリを決定し前記文字列にカテゴリを付与するカテゴリ決定部と、前記翻訳対象の原文の参考文献の記述部分については前記カテゴリ決定部で付与されたカテゴリに基づいて参考文献の記述部分の文字列を翻訳する翻訳部とを備えたことを特徴とする。
本発明によれば、参考文献の記述部分を構成する要素に対してそれぞれにふさわしい翻訳を行うとともに、訳文を構成する上でも第二言語の規定する書式に変換して出力することができる。
図1は、本発明の実施の形態に係わる機械翻訳装置の構成図である。機械翻訳装置11は、第一言語を第二言語に翻訳して出力するものであり、例えば一般的なコンピュータに機械翻訳プログラムなどのソフトウェアプログラムがインストールされ、そのソフトウェアプログラムがCPU12において実行されることにより実現される。機械翻訳装置11は、CPU12、ROM(Read Only Memory)13及びRAM(Random Access Memory)14がバス15を介して接続されている。バス15には、入力装置16、表示装置17及び記憶装置19が接続されている。
記憶装置19には、機械翻訳プログラム20が記憶されるとともに、翻訳辞書部21、参考文献識別データベース22、参考文献データ格納部23、参考文献書式知識ベース24、対話画面記憶部30が記憶される。
機械翻訳プログラム20は、制御部25、翻訳部26、参考文献検出部27、参考文献解析部28、カテゴリ決定部29を有している。翻訳辞書部21には、活用変化辞書21a、解析文法辞書21b、単語・熟語辞書21c、変換文法辞書21d、生成文法辞書21e、形態素生成成文法辞書21f、読み辞書21g、ローマ字変換表21h、参考文献書式変換規則21i、分かち書き規則21jなどが格納されている。
CPU12は、入力装置16からの入力信号に基づいてROM13から機械翻訳装置11を起動するためのブートプログラムを読み出して実行し、さらに記憶装置19に記憶された図示省略のオペレーティングシステムを読み出す。CPU12は、入力装置16の入力信号に基づいて、各装置の制御を行い、記憶装置19などに記憶された機械翻訳プログラム20及び翻訳辞書部21のデータを読み出してRAM14にロードするとともに、RAM14から読み出されたプログラムのコマンドに基づいて、後述の処理を実現する。
入力装置16は、第一言語の翻訳対象原文の文字データやファイルデータ等のデータやコマンドを入力する入力手段であり、通常、キーボードやマウス・タッチパネルなどのポインティングデバイス、音声認識や文字認識機能、あるいは、CDドライブなどの外部記憶媒体読取装置、ネットワーク入力装置などによって実現される。すなわち、入力装置16は、制御部25に対して翻訳対象となる文の入力、翻訳指示や辞書登録指示などの各種コマンドの入力を行うものである。また、翻訳対象文の入力には、OCR、フレキシブルディスク、磁気テープ、磁気ディスク、インターネットからの読み込み、あるいはマイクで発話文を取りこんでディクテーション装置によって自然言語の文字列に変換したものの読み込みなどの入力も含まれる。マイクによる音声入力は各種コマンドの入力にも用いることができる。
表示装置17は、入力装置16から入力されたデータや翻訳結果の出力手段であり、画面や翻訳結果等をCRTや液晶ディスプレイなどの表示装置に表示する場合、翻訳結果等をファイルに保存する場合などがある。すなわち、表示装置17は、翻訳部26の出力である翻訳結果を出力したり、入力文に対する翻訳用例を用例辞書部22から検索して表示させる指示命令など、制御部25への各種命令に対する制御部25からの応答を表示出力したりする。表示装置17としては各種ディスプレイなどの表示手段が通常であるが、翻訳結果の出力には、印刷機などの印字手段、あるいは直接フレキシブルディスク、磁気テープ、磁気ディスクへ出力する手段や他のメディアへ送信する送信手段でもよい。また、スピーカーへの音声出力でもよい。
機械翻訳プログラム20の制御部25は、機械翻訳装置11の全体の制御を司るものであり、機械翻訳プログラム20全体の制御や入力装置16及び表示装置17とのデータの転送を行うものである。
翻訳部26は、制御部25からの指示に従って、翻訳辞書部21を用いて入力装置16によって入力された翻訳対象原文に対する翻訳処理を行い、翻訳結果を制御部25へ出力する。参考文献検出部27は翻訳対象の原文から参考文献の記述部分を検出するものであり、参考文献解析部28は、参考文献検出部27で検出された参考文献の記述部分の文字列とその文字列を区分けするためのセパレータとに分割するものであり、カテゴリ決定部29は参考文献解析部28で得られた文字列に対して、参考文献の記述部分を構成する要素の著者名、書名、出版社名といったカテゴリを決定し、文字列にカテゴリを付与するものである。
翻訳部26は、翻訳対象原文から参考文献検出部27で検出された参考文献の記述部分について、カテゴリ決定部29で付与されたカテゴリに基づいて参考文献の記述部分の要素の文字列も翻訳する。
翻訳辞書部21には、第一言語から第二言語への翻訳を行うための辞書であり、翻訳部26が翻訳処理を行う際に使用する各種辞書データが格納されている。翻訳辞書部21の活用変化辞書21aは語尾等に変化のある単語・熟語をその原形に変換する辞書、解析文法辞書21bは第一言語を解析するための文法を記憶した辞書、単語・熟語辞書21cは第一言語の単語・熟語に対応する第二言語の訳語がその品詞情報と共に記憶された辞書、変換文法辞書21dは第一言語の文法から第二言語の文法に変換するための変換情報が記憶された辞書、生成文法辞書21eは文の構造を決定する辞書、さらに形態素生成文法辞書21fは語尾等の語形を変化させて翻訳文を完成させる辞書、読み辞書21gは第一言語の見出しの読み方が記憶された読み辞書、ローマ字変換表21hは仮名文字ごとにそれに相当する読みを有するローマ字つづりが対応づけられた記憶されている変換表、参考文献書式変換規則21iは各カテゴリに適切な翻訳方法を明示した規則、分かち書き規則21jは分かち書きの規則である。
参考文献識別データベース22には、参考文献検出部27が参考文献の記述部分であることを識別するためのデータが格納されている。参考文献データ格納部23には、参考文献解析部28によって割り当てられた要素とそのカテゴリとが組にして記憶される。参考文献書式知識ベース24には、参考文献記述部分の前後の記号類や位置関係を参照して、参考文献の記述部分を構成する要素(著者名、書名、出版社、出版年/発行年、ページ、出版地といった要素)が、どのカテゴリに属するかを決定するためデータが記憶されている。
以下の説明では、第一言語は日本語であり第二言語は英語である場合について説明する。まず、参考文献の形式をもった箇所は、典型的には括弧類や句読点、各種記号の使用状況によって検出することができる。例えば、社会科学や人文科学における日本語の参考文献の場合、通常、行末が句読点なしになっている、二重括弧または一重括弧が用いられているといったことが挙げられる。なお、これは簡単化のために参考文献またはそれ相当の見出しがある行の次の入力行からが参考文献の中身とみなしてもよい。
参考文献検出部27は、こういった特徴のある箇所を検出した場合には、翻訳対象の文書のうち、検出箇所を参考文献解析部28に送信する。参考文献解析部28は、当該内部構造を解析して、カテゴリ決定部29では当該内部構造内の要素にカテゴリを参考文献書式知識ベース24を用いて割り当てる。参考文献データ格納部23は、カテゴリ決定部29によって割り当てられた要素とそのカテゴリを組にして記憶する。記憶された情報は然るべき時期、例えば当該「参考文献」の翻訳が終了したときなどに消去される。
対話画面記憶部30にはユーザが入力装置16及び表示装置17を介して機械翻訳システムと対話するための対話画面が予め記憶されている。
図2は翻訳対象原文の参考文献記述部分の一例の説明図、図3は本発明の実施の形態に係わる機械翻訳装置の処理動作を示すフローチャートである。翻訳対象原文として、図2に示す参考文献記述部分を有した文書が入力装置16に入力されたとすると、入力装置16はその原文データを制御部25に送信する。制御部25では入力された原文が通常の文のみよりなる文書か、「参考文献」の箇所を含む文書かどうかを判定する(S1)。
「参考文献」の箇所を含むか否かは、主として、文字列を区分けするセパレータである括弧類、カンマの使用具合や品詞の出現度合いから判定する。つまり、参考文献検出部27は、参考文献識別データベース22に格納された参考文献の記述部分であることを識別するためのデータに基づいて参考文献か否かを判断する。すなわち、参考文献識別データベース22には、参考文献に特徴的な品詞や括弧、句読点の用いられ方を記した知識が格納されており、参考文献検出部27は、この知識に照らし合わせて参考文献か否かを判断する。
図2の一例の場合は、第3行目以降において行末が句点になっていない点、行中に括弧、読点の使用が多い点、行末までいかずに改行されている点において、通常の文とは異なった形式をしている。また、括弧の内側の要素でない限り、助詞が用いられていない点、また、動詞が全く用いられていない点でも通常と異なることが分かる。そこで、このような知識が格納されている参考文献識別データベース22に照らし合わせ、参考文献検出部27は、第3行目以降を参考文献の記述部分と判断する。
参考文献の記述部分を有していると判断されたときは、さらに、参考文献検出部27は翻訳対象原文は通常の文の形式をもった部分を含むかどうかを判断する(S2)。すなわち、参考文献の書式に該当しない通常文の形式があるかどうかを文法や品詞等には着目せずに文書全体の文字の使用状況のみに着目して判定する(S2)。
図2の一例では、第3行目から第5行目は参考文献相当、第1行目は通常の文、第2行目は空行ということがわかる(S2:YES)。そこで、参考文献検出部27は、通常の文にあたる部分と「参考文献」の部分(第3行目1文字目から始まる「国領」から第5行目の最後の文字列「(2006)」まで)に分割する(S3)。そして、制御部25は翻訳処理を開始する際に、翻訳対象原文の文字列データが通常の文か否かを判定し(S4)、通常の文であるとき(S4:YES)、例えば、図2の一例の第1行目や第2行目は、そのまま翻訳部26に送る。これにより、翻訳部26は図2の一例の第1行目や第2行目について通常の翻訳を行う(S5)。
一方、通常の文でなく参考文献の記述部分であると判定したときは(S4:NO)、制御部25はそのデータを参考文献解析部28に送信する。参考文献解析部28では、送られた「参考文献」箇所のデータを文字列と括弧・記号類に分類する(S6)。この場合、図2の一例の第3行目、第4行目、第5行目は、それぞれ以下の文字列や記号等よりなっていることを検出する。
<第3行目>
文字列1
・(中点)一つ
文字列2
・(中点)一つ
文字列3
『(二重括弧開き)
文字列4
』(二重括弧閉じ)
文字列5
((丸括弧開き)
文字列6
)(丸括弧閉じ)
改行
<第4行目>
文字列1
『(二重括弧開き)
文字列2
』(二重括弧閉じ)
文字列3
((丸括弧開き)
文字列4
)(丸括弧閉じ)
改行
<第5行目>
文字列1
「(一重括弧開き)
文字列2
」(一重括弧閉じ)
『(二重括弧開き)
文字列3
』(二重括弧閉じ)
文字列4
((丸括弧開き)
文字列5
)(丸括弧閉じ)
改行
文字列部分を除くと、第3行目は・、・、『、』、(、)、改行であり、第4行目は『、』、(、)、改行であり、第5行目は「、」、『、』、(、)、改行である。そこで、参考文献解析部28はこれら3行に何らかの共通性があるか否かを判定する(S7)。これには、一般に知られている文字列一致の手法を用いる。すると、多少構成は違うが、お互いに部分的に一致していることがわかる。具体的には、いずれも「二重括弧開き、二重括弧閉じ、丸括弧開き、丸括弧閉じ、改行」の並びがあることは共通している。
以上の検出を終えると文字列の集合、すなわち、ここでは「国領二郎」「野中郁次郎」「片岡雅憲」「ネットワーク社会の知識経営」「NTT出版」「2003」「人工知能学会編」「人工知能学事典」「共立出版」「2003」「野中郁次郎」「知識経営の戦略」「情報処理」「47巻」「5号」「547−552頁」「2006」を参考文献解析部28は抽出し、制御部25はこれらの情報を参考文献データ格納部23に送る(S8)。なお、「人工知能学事典」「情報処理」といった文字列は、参考文献の記載部分を構成する要素である。
参考文献データ格納部23には、参考文献解析部28で抽出されたデータが格納される。このとき、該当の行において要素が何番目の要素であるか、何行目に属するか、前後を囲む括弧は何かといった情報が分かるように格納する。
図4は参考文献データ格納部23に格納された参考文献データの格納形式の一例の説明図である。参考文献データは、例えば、図4に示すように座標形式で格納される。「国領二郎」は(3,1,,・)、「人工知能学事典」は(4, 2, 『,』)のように座標形式で格納される。「国領二郎」の座標(3,1,,・)は、3行目の第1列に「国領二郎」が位置し、セパレータ「・」で区分されることを意味する。また、「人工知能学事典」の(4, 2, 『,』)は、4行目の第2列に「人工知能学事典」が位置し、セパレータ「『,』」で区分されることを意味する。
次に、カテゴリ決定部29では、図2の第3行目から第5行目の部分の各要素を順番に取り出し、参考文献書式知識ベース24を用いて、各要素がどのカテゴリに属するかを決定する(S9)。この参考文献書式知識ベース24は前後の記号類や位置関係を参照して要素がどのカテゴリに属するかを決定するためのものである。具体的には、先頭の要素は著者とし、要素の前後が二重括弧であり、かつ同一行に一重括弧があれば雑誌名、なければ書名とし、また、前後が丸括弧で囲まれた4文字の数字は出版年/発行年である、最初の要素と中点で連結している複数の要素は共著者であるといった知識を含んでいる。
「参考文献」の書式には様々なものがあり(広く知られているものとしては、科学技術情報流通技術基準や社会学評論スタイルガイドなど)、例えば、情報処理の分野では、図2に挙げた一例とは異なり、論文名、書名、雑誌名は二重括弧や一重括弧を一切使わず、コロンを使うのが一般的である。そこで、この参考文献書式知識ベース24は、どの書式にも当てはまる汎用的な知識(例えば最初の要素は著者名である)の適用順位が高く設定されており、上から順に適用していくよう、下に行くほど分野特有の知識があり、その適用順位は低くなっている。
各要素は参考文献解析部28で付与された情報(「人工知能学事典」「情報処理」といった文字列が何行目に属するか、該当の行において要素が何番目の要素であるか、前後を囲む括弧は何かといった情報)とカテゴリ決定部29で判定されたカテゴリとともに制御部25により参考文献データ格納部23から翻訳部26に送られる。
また、カテゴリ決定手段29は、参考文献の記述部の各要素に対して、図2の一例の場合、参考文献書式知識ベース24を用いて、「国領二郎」「野中郁次郎」「片岡雅憲」「人工知能学会編」「野中郁次郎」は著者名、「ネットワーク社会の知識経営」「人工知能学事典」は書名、「知識経営の戦略」は論文名、「情報処理」は雑誌名、「2006」「2003」「2003」は出版年/発行年であるとカテゴリを判定する。
なお、カテゴリ決定部29でカテゴリが判別できなかったもの、図2の一例では、「47巻」「5号」「547-552頁」はカテゴリ判定不能として、制御部25は「参考文献」の一部であったことを参考文献データ格納部23に記憶させてそのまま翻訳部26に送る。
翻訳部26では、制御部25から送られた原文に対して、翻訳辞書部21に格納されている知識(活用変化辞書21a、解析文法辞書21b、単語・熟語辞書21c、変換文法辞書21d、生成文法辞書21e、形態素生成文法辞書21f、読み辞書21g、ローマ字変換表21h、参考文献書式変換規則21i、分かち書き規則21j、及び参考文献データ格納部23に格納された位置関係の情報を利用し、目的言語への翻訳処理を行う(S5)。そして、翻訳結果は所定の書式で出力装置17に出力される(S10)。
次に、翻訳部26が図2の第3行目の第4番目の要素である「ネットワーク社会の知識経営」を翻訳する際の処理を説明する。その前提として参考文献書式変換規則21iについて説明する。参考文献書式変換規則21iは各カテゴリにふさわしい翻訳方法を明示したものである。
著者名の場合は、参考文献の記述部の[著者名]の要素を「姓、カンマ、名」とし、2名以上の場合は2人目以降を「名、姓」とし、[著者名]の要素の後ろにカンマを付与する。最後の一つ前の著者のあとはカンマの後ろにandを入れ最後の著者となる。編者も著者にならうが、単独の場合は、後に”(ed.)“ “(Ed.)”といった文字列を、複数の場合は後に”(eds.)””(Eds.)”といった文字列を付与する。
書名はローマ字変換してイタリック体にし、ローマ字変換のイタリック体の書名に続いて書名の英訳を丸括弧で囲んだものをローマ字変換のイタリック体に付加する。出版社については単語・熟語辞書21cの中に固有名詞として見出しになっていればその訳語を採用し、なっていなければ、ローマ字変換結果を使用するといった規則が蓄積されている。なお、書名の英訳は必須でないため、省略可能であるが、ここでは、ローマ字変換のイタリック体の書名と書名の英訳とを併記した英訳併記方式を選択したものとして話を進める。
さて、今着目している「ネットワーク社会の知識経営」という要素はカテゴリ決定部29で書名というカテゴリに属するとされた。従って、書名に要求される翻訳処理はローマ字変換してイタリック体にし、それに続いて英訳を丸括弧で囲んだものを付加することになる。
この場合のローマ字変換について、図5のフローチャートを用いて説明する。図5は翻訳部26でのローマ字変換の処理内容の一例を示すフローチャートである。まず、対象の文字列「ネットワーク社会の知識経営」に対し、形態素解析を行い形態素に分割する(S11)。この一例では「ネットワーク|社会|の|知識|経営」とに分割される。次に、この形態素に対して、分かち書き規則21jを適用する(S12)。
これには、例えば以下のような規則が含まれている。1.助動詞や補助用言は直前の動詞や形容詞と結合する。2.接頭語、接尾語は分離させない。3.複合語で長さが6拍以下のものは分離させない。4.複合語が長さ7拍以上のものはどの部分も6拍以下になるようにする。5.助詞の「へ、に、で、と」、「だ」の活用形の「で」のいずれかの後ろに助詞の「は、も、の」のいずれかが続くときはそれらを結合する。
これによれば、この一例は結合すべき箇所はない。しかし、仮に「考古学・人類学・言語学との対話」という書名であれば、「考古学|人類学|言語学|と|の|対話」と形態素解析され、分かち書き規則21jにより「と」と「の」とが結合し、「考古学|人類学|言語学|との|対話」と変化する。
次に、各々に対して読みの情報、読み辞書21g、ローマ字変換表21hを用いてローマ字変換を行う(S13)。この一例の場合は「nettowaku shakai no chishiki keiei」となる。なお、このローマ字変換において、カタカナ語が外来語と分かるときはローマ字変換でなく原語に直すようにしてもよい。この場合は「ネットワーク」がそれに相当し、これによれば全体は「network shakai no chishiki keiei」となる。
次に、スペースで区切られた連続する自立語の先頭文字を大文字にする(S14)。例えば、「ネットワーク」「社会」「知識」「経営」はいずれも付属語を含まないため、語頭を大文字にする。一方、格助詞「の」は付属語であるので大文字の処理はしない。これにより、「Nettowaku Shakai no Chishiki Keiei」が得られる。そして、全体をイタリック体にし(S15)、「Nettowaku Shakai no Chishiki Keiei」となり書名の必須の処理は終了する。
続いて、この書名に対して意味による訳の併記を希望するか否かを判定し(S16)、意味による訳の併記を希望する場合には(S16:YES)、書名の翻訳処理を行い、先の翻訳結果のうち内容語の語頭を大文字に直し前後を丸括弧で囲み、ローマ字変換結果の末尾に付与する(S17)。
例えば、書名の翻訳として「knowledge management of network society」という翻訳結果が得られると、先の翻訳結果のうち書名を表す内容語、「knowledge」 「management」、「 network society」の語頭を大文字に直し前後を丸括弧で囲む。すると、この一例ではof以外が内容語であるので、「Knowledge Management of Network Society」となる。この大文字化のあと全体を丸括弧で囲み、これをステップS15で得られた文字列の末尾に付与する。よってこの一例ではNettowaku Shakai no Chishiki Keiei (Knowledge Management of Network Society)という文字列となり処理を終了する。
この一例においては、他に書名として「人工知能学事典」、雑誌名「情報処理」があるが、これらも同様に処理する。その場合、論文名である「知識経営の戦略」はイタリック体にしない点を除き同じ処理を行う。これは、ローマ字変換のイタリック体の書名と書名の英訳とを併記した英訳併記方式を採用したためである。
次に、著者名の翻訳の説明を行う。前述した参考文献書式変換規則21iの中の著者名の処理を行う。すなわち、単著である5行目の著者名を人名として機械翻訳すると”Ikujiro Nonaka”を得る。これは「名、姓」の順序になっているため、「姓、名」のように逆転させ、カンマで区切って”Nonaka, Ikujiro”を得る。一方、「国領二郎・野中郁次郎・片岡雅憲」のように著者が複数よりなる3行目に関しては、個々に翻訳し、それぞれ、”Jiro Kokuryo””Ikujiro Nonaka”“Masanori Kataoka”を得る。これらはみな「名、姓」の順序になっている。複数著者の場合最初の著者のみ「姓、カンマ、名」とするのが一般的であるので、“Kokuryo, Jiro”となり、残りの著者をカンマとandでつなげて”Kokuryo, Jiro, Ikujiro Nonaka, and Masanori Kataoka”を得る。
次に、カテゴリ付与では著者と分類された「人工知能学会編」であるが、この末尾が「編」であることに着目して、編者と解釈し直し、編者というカテゴリを与え、漢字「編」を除いた部分を翻訳する。この場合、”Japanese Society for Artificial Intelligence”と翻訳され、編者であることを明記する印である、“(ed.)”といった文字列を付与し、“Japanese Society for Artificial Intelligence (ed.)”を得る。
一方、出版社とカテゴリ分類された「NTT出版」や「共立出版」は単語・熟語辞書21cを主に利用して翻訳する。これらの社名の訳語がこれらの辞書に登録されていなければ、形態素解析を行った後、書名と同じ要領で分かち書きし、語頭を大文字とする。例えば、「NTT出版」が辞書に未登録であった場合、これは”NTT Shuppan”という文字列に変換される。また、出版年/発行年に対しては、図2の一例では「2003」、「2003」、「2006」であり、英語でもそのまま通用するため何も処理を行わない。ただし、「2003年」「2006年」とする方式もあり、この場合は「年」を省く必要が生じる。
次に、カテゴリが不定であった「47巻」「5号」「547−552頁」に対する処理について述べる。「〜巻」「〜号」「〜頁」「〜ページ」などの助数詞は「参考文献」に頻出する語である。「巻」「号」のような助数詞は文脈によって様々なものの数を表し、単独では意味が曖昧である。例えば、「号」の助数詞は雑誌など定期的に発行されるものや、順序のあるものについて、順を追って数えるのに用いられる。雑誌以外には「X町1丁目2番地3号」のように住所の一部として、また「第1条第2項第3号」のように法律・条約や契約文書の箇所を示すものとしても用いる。
そこで、変換文法辞書21dの項目に、「参考文献」の文脈であることを参照した規則を予め設定しておく。図6は変換文法辞書21の変換規則の一例の説明図である。図6では、「号」の見出し語に関する変換規則を示している。変換規則は、見出し語「号」、品詞「助数詞」、規則適用条件、「変換規則」とからなり、規則適用条件の第3番目に「参考文献の要素である」場合が定められており、その「変換規則」として、「訳語をNo.またはno.にし語順を入れ替える」が定められている。このような変換文法辞書21dを持つことにより、参考文献の記述部を持つ文章の該当箇所の翻訳は「5号」が望ましい語でかつ正しい語順で”No. 5”と変換できる。
同様に「547-552頁」についても、図6に示した変換規則と同様に、変換文法辞書21dの「頁」の見出し語に「参考文献」の文脈であることを参照した規則適用条件や変換規則を設定しておくことにより、「頁」の訳語として”page”ではなく「参考文献」で用いられる省略形の”p.”や”pp.”と変換され、数字が後続する。この場合は、ハイフンを含み、複数ページにわたるため、”pp.”が選択される。「巻」についても「参考文献」の要素であるという条件付けで同様に訳語を決定できる。
こうして「参考文献」箇所の翻訳が一通り終了すると、先に翻訳部26に送られていた同一文書内の「参考文献」箇所以外の部分の訳文との結合を記憶させておいた後続部分の情報を利用して行う。
以上の説明では、図3のステップS9でのカテゴリの判定に、予め参考文献書式知識ベース24に記憶した典型的な書式の知識を用いたが、書式をユーザで定義することも可能である。これは、いくつかの代表的な書式を示して、その中から書式を選択させたり、実際に所望の書式を記述して定義する。例えば、単行本については下記の書式などがある。
・著者名『書名』出版地、出版社、出版年
・著者名.書名.出版地,出版社,出版年
・著者名 出版年 『書名』出版地: 出版社。
また、論文については下記の書式などがある。
・著者名「論文名」、『雑誌名』巻号(発行年)、ページ
・著者名 発行年 「論文名」 発行者名『雑誌名』巻号: ページ
・著者名:論文名,雑誌名,Vol.,No.,ページ,発行年。
これらの書式を具体的に示し、これらを画面に表示させて選択させ、選択肢に候補がなければユーザ定義とする。また、翻訳処理の間に新たにカテゴリが判明した要素やカテゴリの解釈変更を行った要素については、参考文献データ格納部23を更新させるようにしてもよい。
また、以上の説明では、日本語が原言語で、英語が目的言語である場合について説明したが、日本語が原言語で、中国語が目的言語の場合もローマ字変換をピンイン変換と読みかえれば同様の手法を用いることができる。
また、以上の説明では、参考文献の記述部分の要素について、第一言語の書誌情報の提示順序を保持したまま第二言語に翻訳するものとしていたが、第二言語で要求する書式の提示順序に翻訳することも可能である。例えば、英語において参考文献の記述の代表的な書式として、APA (American Psychological Association) 書式、CBE (Council of Biology Editors) 書式、MLA (Modern Language Association) 書式がある。例えば、MLA方式とAPA方式について、提示順序をみると、MLAでは書籍の場合は1.著者名、2.書名、3.出版地、4.出版社、5.出版年の順、論文に関しては1.著者名、2.論文名、3.雑誌名、4.号数、5.発行年、6. ページの順序をとる。
一方、APA方式では書籍の場合、1.著者名、2.出版年、3.書名、4.出版地、5.出版社の順、論文に関しては1.著者名、2.発行年、3.論文名、4.雑誌名、5.号数、6. ページの順序をとる。このように出版年/発行年の扱いについて、先頭近辺に置くか、末尾近辺に置くかの大きな違いがあることが分かる。
図7は第二言語で要求する書式の提示順序に参考文献の記述部分を出力する処理内容のフローチャートである。翻訳部26は、前提として図3のステップS1〜S9の翻訳処理を行っておく。このため、「参考文献」の各要素には原則としてカテゴリが付与されている状態である。そこで、要素、カテゴリ、訳語の三つを組にしておく(S21)。この一例での要素、カテゴリ、訳語の組を表1に示す。
Figure 2009075748
次に、制御部25は、記憶装置19に予め記憶された対話画面のうち、図8に示すような書式の選択画面を表示装置17に表示出力しユーザに提示する(S22)。図8においては、ユーザが書式名、その書式が用いられる代表的な学問分野、凡例を手がかりに書式を選択できるようになっている。また、ここでは前述した3つの書式と、「その他」という選択肢があり、書名の翻訳を希望する場合のチェック欄がある。これらの候補の中に所望の書式があるかどうかをユーザは判断し(S23)、所望の書式がある場合は(S23:YES)、その所望の書式を選択する(S24)。ユーザにより所望の書式が選択されると、ステップS1の三つの組を用いて並べ替え変換を行う(S25)。
いま、APA方式が選択され、その書名の翻訳の欄がチェックされたとすると、著者の箇所はKokuryo, J., Nonaka, I. & Kataoka, M.となる。
なお、前述したように、著者が複数の場合の書式は、参考文献変換規則21iに記述されており、ユーザは、特にこのことを意識する必要がないようになっている。つまり、例えば、前述のAPA方式では著者が複数の場合でも、全て姓・名の順序をとり、かつ、最後の2名を&(アンパーサンド)で結ぶといった規則が入っている。並べ替え、変換が終了すると、以下のような結果になる。
Kokuryo, J., Nonaka, I. & Kataoka, M. Nettowaku Shakai no Chishiki Keiei (Knowledge Management of Network Society). 出版地: NTT Shuppan, 2003.
ここでは、出版地の欄が日本語の文字そのままになっている。これは図2の原文にはない情報であるからである。このような場合、制御部25はユーザに情報の提供を促すか、または出版地の所在地を一般の検索システム(www検索、文献DB検索などがある)により調べて翻訳する。これにより、例えば、「東京」の場合、”Tokyo”と翻訳される。この文字列を「出版地」の箇所に代入することにより処理を終える。
ステップS23の判断で、ユーザの希望する書式が「その他」である場合には(S23:NO)、ユーザは、著者名、書名、出版地、出版社、出版年などのキーワードと各種記号を使って書式を定義する(S26)。この場合、APA、CBE、MLA方式と大枠については類似しており、細部が異なる場合は、類似している書式の凡例をコピーし、異なる部分を変更することにより希望の書式を容易に定義することができる。ユーザ定義が終わると、先のAPA方式を選択した場合と同様に、並び替えなどにより希望の書式に変換を行い(S25)、処理を終える。
なお、ユーザにより定義された書式は再度定義する手間が省けるよう、参考文献書式知識データベース24に蓄積するようにしてもよい。また、要素、カテゴリ、訳語の三つ組は参考文献データ格納部23に記憶させるようにしてもよい。このようにすることで、様々な書式に切り替えて出力する場合、翻訳時間を短縮できる。
本発明の実施の形態によれば、「参考文献」の中のセパレータを検出し、著者名、書名、出版社名、出版年/発行年といった要素に対して、それぞれにふさわしい翻訳を行うととともに、訳文を構成する上でも第二言語の規定する書式に変換して出力するので、参考文献の記述部分の翻訳を高精度かつ安定して行える。
また、翻訳対象となる「参考文献」の中のセパレータを検出し、そのセパレータの用いられ方と文字列の辞書引きの結果より、著者名、書名、出版社名といった要素のうち、いずれの要素に属するかを判定し、その判定結果に基づいて各要素の訳出方法や出力形式を調整するので、参考文献の記述部分の翻訳を高精度かつ安定して行える。
本発明の実施の形態に係わる機械翻訳装置の構成図。 本発明の実施の形態における翻訳対象原文の参考文献記述部分の一例の説明図。 本発明の実施の形態に係わる機械翻訳装置の処理動作を示すフローチャート。 本発明の実施の形態における参考文献データ格納部に格納された参考文献データの格納形式の一例の説明図。 本発明の実施の形態における翻訳部でのローマ字変換の処理内容の一例を示すフローチャート。 本発明の実施の形態における翻訳辞書部の変換文法辞書の変換規則の一例の説明図。 本発明の実施の形態における第二言語で要求する書式の提示順序に参考文献の記述部分を出力する処理内容のフローチャート。 本発明の実施の形態における参考文献の書式の指定を行う選択画面の一例を示す説明図。
符号の説明
11…機械翻訳装置、12…CPU、13…ROM、14…RAM、15…バス、16…入力装置、17…表示装置、19…記憶装置、20…機械翻訳プログラム、21…翻訳辞書部、22…参考文献識別データベース、23…参考文献データ格納部、24…参考文献書式知識ベース、25…制御部、26…翻訳部、27…参考文献検出部、28…参考文献解析部、29…カテゴリ決定部、30…対話画面記憶部

Claims (5)

  1. 機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した翻訳辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力部と、翻訳対象の第一言語の原文や翻訳後の第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行するCPUとを備えた機械翻訳装置において、前記翻訳対象の原文から参考文献の記述部分を検出する参考文献検出部と、前記参考文献検出部で検出された参考文献の記述部分の文字列とその文字列を区分けするセパレータとに分割する参考文献解析部と、前記参考文献解析部で得られた文字列に対して参考文献の記述部分を構成する要素のカテゴリを決定し前記文字列にカテゴリを付与するカテゴリ決定部と、前記翻訳対象の原文の参考文献の記述部分については前記カテゴリ決定部で付与されたカテゴリに基づいて参考文献の記述部分の文字列を翻訳する翻訳部とを備えたことを特徴とする機械翻訳装置。
  2. 前記翻訳部は、参考文献の記述部分の文字列をローマ字変換する場合、当該文字列を形態素解析して分かち書き及び大文字化の処理を行うことを特徴とする請求項1の機械翻訳装置。
  3. 前記参考文献の訳文書式の選択画面を前記表示装置に表示させるとともに前記入力装置から選択された訳文書式を前記翻訳部に通知する制御部を有し、前記翻訳部は、前記制御部から通知された訳文書式に従って参考文献の記述部分の文字列を翻訳し、前記制御部は前記表示装置に翻訳結果を表示することを特徴とする請求項1記載の機械翻訳装置。
  4. 前記制御部は、前記入力装置を介してユーザが定義した前記参考文献の訳文書式を前記選択画面に追加することを特徴とする請求項3記載の機械翻訳装置。
  5. 機械翻訳プログラム、翻訳に必要な知識・規則を蓄積した翻訳辞書部を記憶した記憶装置と、翻訳対象の第一言語の原文を入力するとともに操作に必要な情報を入力する入力部と、翻訳対象の第一言語の原文や翻訳後の第二言語の訳文を表示する表示装置と、前記機械翻訳プログラムを演算実行するCPUとを備えた機械翻訳装置において、コンピュータに、前記翻訳対象の原文から参考文献の記述部分を検出する機能と、検出された参考文献の記述部分の文字列とその文字列を区分けするセパレータとに分割する機能と、分割して得られた文字列に対して参考文献の記述部分を構成する要素のカテゴリを決定し前記文字列にカテゴリを付与する機能と、前記翻訳対象の原文の参考文献の記述部分については付与されたカテゴリに基づいて参考文献の記述部分の文字列を翻訳する機能とを実現させるための機械翻訳プログラム。
JP2007242642A 2007-09-19 2007-09-19 機械翻訳装置及びプログラム Active JP4298771B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007242642A JP4298771B2 (ja) 2007-09-19 2007-09-19 機械翻訳装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007242642A JP4298771B2 (ja) 2007-09-19 2007-09-19 機械翻訳装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2009075748A true JP2009075748A (ja) 2009-04-09
JP4298771B2 JP4298771B2 (ja) 2009-07-22

Family

ID=40610668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007242642A Active JP4298771B2 (ja) 2007-09-19 2007-09-19 機械翻訳装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4298771B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015184998A (ja) * 2014-03-25 2015-10-22 株式会社ゼンリンデータコム 翻訳装置、翻訳方法及び翻訳プログラム
JPWO2021053807A1 (ja) * 2019-09-20 2021-03-25

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015184998A (ja) * 2014-03-25 2015-10-22 株式会社ゼンリンデータコム 翻訳装置、翻訳方法及び翻訳プログラム
JPWO2021053807A1 (ja) * 2019-09-20 2021-03-25
WO2021053807A1 (ja) * 2019-09-20 2021-03-25 京セラドキュメントソリューションズ株式会社 画像読取装置及び画像形成装置
JP7281078B2 (ja) 2019-09-20 2023-05-25 京セラドキュメントソリューションズ株式会社 画像読取装置及び画像形成装置

Also Published As

Publication number Publication date
JP4298771B2 (ja) 2009-07-22

Similar Documents

Publication Publication Date Title
KR100259407B1 (ko) 중국어 텍스트 입력키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장방법
Riaz Rule-based named entity recognition in Urdu
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
WO2003065245A1 (fr) Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur
JPH05314166A (ja) 電子化辞書および辞書検索装置
US7136803B2 (en) Japanese virtual dictionary
JP3680865B2 (ja) 自動自然言語翻訳
Abolhassani et al. Information extraction and automatic markup for XML documents
JP4298771B2 (ja) 機械翻訳装置及びプログラム
Kaur et al. Hybrid approach for spell checker and grammar checker for Punjabi
Salam et al. Developing the bangladeshi national corpus-a balanced and representative bangla corpus
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
Karanikolas et al. Structuring a multimedia tri-dialectal dictionary
JP4843596B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP4643183B2 (ja) 翻訳装置および翻訳プログラム
JP2005250525A (ja) 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム
JP5632213B2 (ja) 機械翻訳装置及び機械翻訳プログラム
Zitouni et al. Cross-language information propagation for arabic mention detection
EP1916609A1 (en) Text analysis, transliteration and translation method and apparatus for hieroglyphic, hieratic, and demotic texts from Ancient Egyptian
Rodrigues et al. Arabic data science toolkit: An api for arabic language feature extraction
Prószéky How „Truly Electronic Dictionaries” of the 21st Century Should Look Like?
JPH0561902A (ja) 機械翻訳システム
JP2010122823A (ja) テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム
Trips et al. From original sources to linguistic analysis: Tools and datasets for the investigation of multilingualism in medieval english

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090324

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090415

R150 Certificate of patent or registration of utility model

Ref document number: 4298771

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120424

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130424

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140424

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350