JP4256891B2 - 機械翻訳の精度を向上させる技術 - Google Patents

機械翻訳の精度を向上させる技術 Download PDF

Info

Publication number
JP4256891B2
JP4256891B2 JP2006292761A JP2006292761A JP4256891B2 JP 4256891 B2 JP4256891 B2 JP 4256891B2 JP 2006292761 A JP2006292761 A JP 2006292761A JP 2006292761 A JP2006292761 A JP 2006292761A JP 4256891 B2 JP4256891 B2 JP 4256891B2
Authority
JP
Japan
Prior art keywords
message
language
translation
word
syntax tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006292761A
Other languages
English (en)
Other versions
JP2008108209A (ja
Inventor
正英 鷲澤
知博 宮平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2006292761A priority Critical patent/JP4256891B2/ja
Priority to US11/923,051 priority patent/US8126698B2/en
Publication of JP2008108209A publication Critical patent/JP2008108209A/ja
Application granted granted Critical
Publication of JP4256891B2 publication Critical patent/JP4256891B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

本発明は、機械翻訳の精度を向上させる技術に関する。特に、本発明は、既に翻訳されたメッセージを利用して、機械翻訳の精度を向上させる技術に関する。
近年、オープンソース・ソフトウェアの開発効率の高さが注目を集めており、実際に様々なソフトウェアが開発されている。オープンソース・ソフトウェアの開発においては、ソフトウェアの機能拡充や安定化が優先される場合が多い。このため、ソフトウェアの実行状態を示すメッセージ、例えばエラーメッセージやヘルプメッセージは英語のみで表示され、英語を母国語としない利用者にとって不便な場合がある。
文章の翻訳に、既に翻訳された他の文章を利用する技術の一例については、下記の特許文献1を参照されたい。
特開2003−141114号公報
メッセージを利用者に適した言語で表示するために、Linux(登録商標)などのオペレーティングシステムにおいては、同一内容を様々な言語で記述したメッセージを選択的に表示する機能が設けられている。この機能を有効に活用するためには、予め様々な言語でメッセージを記述しておくことが前提となる。しかしながら、ソフトウェアによっては、英語以外のメッセージが全く用意されていないか、または、用意されていたとしてもごく一部の言語のメッセージのみである場合が多い。このような場合には、予め用意されたメッセージを機械翻訳によって翻訳することも考えられる。しかしながら、エラーメッセージなどの短いメッセージを、意味を理解可能な程度に翻訳するためには、高い精度の翻訳が要求される。このため、これまではメッセージを機械翻訳することは試みられていなかった。
そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の一側面においては、メッセージを翻訳するシステムであって、互いに同一の内容を互いに異なる第1言語および第2言語のそれぞれで記述した第1メッセージおよび第2メッセージのそれぞれを記憶するメッセージ記憶部と、第1メッセージおよび第2メッセージを前記メッセージ記憶部から読み出して、第1メッセージおよび第2メッセージをそれぞれ構文解析することにより、第1メッセージに含まれる語および句の階層構造を表した第1構文木、および、第2メッセージに含まれる語および句の階層構造を表した第2構文木をCPUの動作により生成する構文解析部と、前記第1構文木に含まれるある部分木によって表される語句の表記が、前記第2構文木においてその部分木に対応する部分木によって表される語句の表記と一致するか否かをCPUの動作により判断し、一致することを条件に、その語句を翻訳不要の語句と判断する判断部と、第3言語で記述した第3メッセージをCPUの動作により翻訳して第4言語で記述した第4メッセージを生成する処理において、前記第3メッセージに含まれる前記翻訳不要の語句を前記第3メッセージ中の表記のまま、翻訳後の前記第4メッセージに含めて出力する翻訳部とを備えるシステムを提供する。また、当該システムによりメッセージを翻訳する方法、および、当該システムとして情報処理装置を機能させるプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
以下、発明を実施するための最良の形態(以下、実施形態と称す)を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、情報システム10の全体構成を示す。情報システム10は、メッセージ記憶部20と、メッセージ出力ユニット50とを備え、コマンドからのメッセージ(エラーメッセージなど)を指定された言語に翻訳して出力することを目的とする。メッセージ記憶部20は、互いに異なる複数の言語のそれぞれによって同一の内容を記述した複数のメッセージのそれぞれを記憶している。アプリケーション・プログラム15は、メッセージ出力ユニット50を呼び出して実行する。アプリケーション・プログラム15は、エラー発生時などにメッセージを出力する命令を含む。この命令は、例えば、Linux(登録商標)などのUNIX(登録商標)系統のオペレーティングシステムにおけるgettextライブラリ関数である。このライブラリ関数が呼び出されると、メッセージ出力ユニット50は、予め環境変数(LC_MESSAGES)などに設定されていた言語(ja:日本語を意味する)によって、指定されたメッセージ(I use the move command)の出力を試みる。
具体的には、メッセージ出力ユニット50は、その言語のメッセージをメッセージ記憶部20から検索して、検索されればその検索されたメッセージを出力する。検索されなければ、メッセージ出力ユニット50は、この英語のメッセージを機械翻訳によって翻訳して日本語のメッセージを生成し、出力する。出力されるメッセージは、「私はmoveコマンドを使います。」などの、日本語とアルファベット表記のコマンド名とが混在したものであることが望ましい。コマンド名などを敢えて日本語に訳してしまうと、文章の意味がわかりにくくなってしまう場合があるからである。このように、エラーメッセージなどの短いメッセージを理解可能な程度に翻訳するためには高精度の翻訳が求められる場合が多い。
本実施形態に係るメッセージ出力ユニット50は、既に他の言語(例えば日本語・英語以外、ドイツ語など)に翻訳されたメッセージをメッセージ記憶部20から読み出して利用することで、機械翻訳の精度を高めることを目的とする。
図2は、メッセージ記憶部20のデータ構造の一例を示す。メッセージ記憶部20は、互いに同一の内容を互いに異なる第1言語(たとえば英語)および第2言語(たとえばドイツ語)のそれぞれで記述した第1メッセージおよび第2メッセージのそれぞれを記憶する。これらのメッセージは、メッセージ記憶部20のファイルシステム内で、/usr/share/locale/というパス名のディレクトリに記憶される。英語で記述した第1メッセージは、/usr/share/locale/en/LC_MESSAGES/というパス名のディレクトリにおいてファイルに格納される。そのようなファイルの一例をメッセージファイル400とする。ファイル名は、たとえば、そのメッセージの表示を指示するアプリケーション・プログラムの名前(たとえばappl1)に、そのファイルにはメッセージが格納されている旨を示す拡張子(mo)を付して構成されてよい。
同様に、ドイツ語で記述した第2メッセージは、/usr/share/locale/de/LC_MESSAGES/というパス名のディレクトリにおいてファイルに格納される。そのようなファイルの一例をメッセージファイル300とする。ファイル名は、たとえば、そのメッセージの表示を指示するアプリケーション・プログラムの名前(たとえばappl1)に、そのファイルにはメッセージが格納されている旨を示す拡張子(mo)を付して構成されてよい。このように、メッセージ記憶部20は、コマンドの処理結果等を示すメッセージを、そのメッセージを記述した言語に対応付けて記憶している。
このように記憶されたメッセージの利用例は以下の通りである。まず、メッセージ出力ユニット50は、たとえば環境変数にドイツ語が設定されている場合において、アプリケーション・プログラム(appl1)からメッセージの出力を指示されると、ドイツ語に対応するパス名(/usr/share/locale/de/LC_MESSAGES/)で指定されるディレクトリの中から、アプリケーション・プログラム名(appl1)をファイル名とするファイルを検索する。ファイルが検索されると、その中から出力するべきメッセージを、アプリケーション・プログラム中で指定された識別情報に基づき選択して出力する。
本発明に係る第4言語の一例である日本語で記述された第4メッセージは、/usr/share/locale/ja/LC_MESSAGES/というパス名のディレクトリにおいてファイルに格納されるべきである。しかしながら、図2において、このディレクトリ中にはファイルが記憶されていない。ファイルが記憶されていない状態は、その言語で記述したメッセージが準備されていないことを示す。このような場合には、メッセージ出力ユニット50は、初期設定の言語である英語によるメッセージを検索して出力してもよい。しかしながら、英語を母国語としない利用者にとっては、そのような英語のメッセージが不便に感じられることもある。したがって、メッセージ出力ユニット50は、既に用意された英語やドイツ語のメッセージを機械翻訳により日本語に翻訳して出力することが望ましい。
なお、初期設定の言語である英語のメッセージに限っては、メッセージ記憶部20に予め記憶されるのではなく、アプリケーション・プログラム15において出力するべきメッセージとして指定されてもよい。たとえば、前述のgettextライブラリ関数の仕様によれば、出力するメッセージは番号や記号などで指定されるのではなく、環境変数に設定された言語のメッセージが検索できなかった場合に出力するべき英語のメッセージの文字列によって指定される。このような場合には、英語のメッセージに限ってはメッセージ記憶部20に予め記憶されていなくともよい。即ち、英語のメッセージを出力する場合には、アプリケーション・プログラム15が、メッセージ出力ユニット50を呼び出して実行している処理において、そのアプリケーション・プログラム15においてgettextライブラリ関数の引数として指定されたメッセージを取得して後述のRAM1020(以下、単にメモリと呼ぶ)に記憶し、それをそのまま画面に出力すればよい。
図3は、メッセージファイル300の内容の一例を示す。メッセージファイル300は、コマンドの処理結果の識別情報のそれぞれについて、当該処理結果を示すメッセージを対応付けて格納している。識別情報とは番号や記号であってもよいし、前述のように、環境変数に設定された言語のメッセージが検索できなかった場合に出力するべき英語のメッセージの文字列であってもよい。すなわち図3に示すのは、識別情報「I use the move command」やそれを示す番号・記号に対応するドイツ語のメッセージ「Ich benutze den move Befehl」である。
図4は、メッセージファイル400の内容の一例を示す。メッセージファイル400についても図3に示すメッセージファイル300と同様である。即ち、コマンドの処理結果の識別情報のそれぞれについて、その処理結果を示すメッセージが対応付けて格納される。既に述べたように、英語のメッセージは予めファイルとしてメッセージ記憶部20に記憶されていなくてもよい。
図5は、メッセージ出力ユニット50の機能構成を示す。メッセージ出力ユニット50は、後述するCD−ROM1095などからプログラムが読み出されて実行され、後述するCPU1000およびメモリなどに働きかけることによって、構文解析部500と、言語記憶部510と、判断部520と、翻訳部530と、属性記憶部540として機能する。構文解析部500は、第1メッセージおよび第2メッセージを、メッセージ記憶部20から読み込むか、または、実行されているアプリケーション・プログラム15から渡される。
そして、構文解析部500は、その第1および第2のメッセージに対し、必要に応じて形態素解析を行う。形態素解析とは、文字列を最終的に単語に分解してそのそれぞれの語の品詞をCPU1000の動作により特定したうえで、それぞれの語を品詞に対応付けてメモリに記憶する処理をいう。形態素解析の具体的な処理内容は、処理対象となるメッセージの言語によって異なる。英語などの言語では単語の区切りは解析するまでもなく明確なのに対し、日本語などの言語では単語の区切りは解析をしないと判別できないからである。このため、構文解析部500は、第1および第2のメッセージのそれぞれに対し、第1および第2言語に応じた必要な形態素解析を行えばよい。そして、構文解析部500は、第1および第2メッセージをそれぞれ構文解析することにより、第1メッセージに含まれる語および句の階層構造を表した第1構文木、および、第2メッセージに含まれる語および句の階層構造を表した第2構文木をCPU1000の動作により生成してメモリに記憶する。
判断部520は、第1構文木に含まれるある部分木によって表される語句の表記が、第2構文木においてその部分木に対応する部分木によって表される語句の表記と一致するか否かをCPU1000の動作により判断する。たとえば、第1構文木および第2構文木のいずれもが、名詞句、動詞、および、名詞句(目的語に相当)から成る文を示す場合において、その目的語に相当する名詞句の表記が第1および第2メッセージで一致するかどうかが判断される。表記が一致したことを条件に、判断部520は、表記が一致したその語句を、翻訳不要の語句と判断する。そのような語句は固有名詞や専門用語などである可能性が高く、翻訳しなくても(むしろ翻訳しないほうが)理解可能な場合が多いからである。ここで、構文木の部分木とは、複数の語句から構成されるもののみならず、単一の語のみからなるものも含む。また、一致とは、完全一致のみならず実質的な一致も含む。たとえば、2語から成る語句について、ハイフンの有無のみの相違や、下付線の有無のみの違いや、大文字小文字のみの相違は一致とみなす。一例として、「POP server」と「POP−server」などは一致とみなされる。
翻訳部530は、第3言語で記述した第3メッセージをメッセージ記憶部20から読み出して、第4言語(目的の言語、たとえば日本語)に翻訳する。ここで、第3言語とは、第1言語および第2言語の何れかと同一であってもよいし、第1言語および第2言語の何れとも異なる言語であってもよい。但し、第3言語は第4言語と同一であれば翻訳の必要はないので第4言語以外の言語であるものとする。さらには、第4言語は、第1言語、第2言語および第3言語の何れとも異なる言語である。何れかと同一であれば、翻訳する必要はないからである。以降では、第1言語および第3言語を英語とし、第2言語をドイツ語とし、第4言語を日本語として説明をする。
翻訳部530は、第3メッセージをCPU1000の動作により翻訳して第4メッセージを生成する処理において、第3メッセージに当該翻訳不要の語句が含まれるか否かを判断する。含まれると判断した場合に、翻訳部530は、その翻訳不要の語句を第3メッセージ中の表記のまま、翻訳後の第4メッセージに含めて出力する。即ち、第1メッセージおよび第2メッセージを利用して特定した固有名詞やコマンド名などは、第4メッセージ中ではその表記のまま出力される。このように、メッセージ出力ユニット50によれば、敢えて翻訳する必要のない語句を適切に検出して、機械翻訳の精度向上に役立てることができる。
翻訳精度の更なる向上のため、メッセージ出力ユニット50は、言語記憶部510および属性記憶部540に記憶された情報をさらに用いることが望ましい。属性記憶部540は、言語ごとに、当該言語における複数の語の表記のそれぞれを、当該表記の語が有するそれぞれの意味についての意味属性に対応付けて記憶している。ここで、意味属性とは、語の意味が、語の意味を当該意味の抽象概念によって分類したグループの何れに属するかを示す。たとえば、ある表記の語が動詞であって意味が「行為」を示すものであるか、または、その表記の語が名詞でもあって意味が「状態」を示すものであるかなどである。
また、言語記憶部510は、言語をグループに分類して記憶している。各グループには、互いに類似する言語のみが記憶される。たとえば、それぞれの言語は、インド・ヨーロッパ語族、アフロ・アジア語族など、語族と呼ばれる言語の分類に応じてグループに分類されていてもよい。また、各言語が用いられる地域や人種などによってグループに分類されていてもよい。もちろん、言語記憶部510はメモリなどによって実現されるものであるから、言語を記憶する、とは、言語を識別可能な何らかの情報を記憶することをいう。これらの情報を用いて、構文解析部500および翻訳部530は、翻訳精度を向上するべく更なる追加処理を行ってもよい。詳しくは後述する。
図6は、情報システム10がメッセージを出力する処理のフローチャートを示す。構文解析部500は、アプリケーション・プログラム15などからのライブラリ関数により、コマンドの処理結果を示すメッセージを第4言語により出力する要求を受信する(S600)。前述のように、どのようなメッセージを出力するべきかの要求はライブラリ関数の引数によって与えられ、第4言語がいかなる言語であるかは環境変数などによって与えられる。構文解析部500は、この第4言語およびこの処理結果の識別情報に対応する第4メッセージをメッセージ記憶部20から検索する(S610)。検索されたことを条件に(S620:YES)、翻訳部530は、検索されたその第4メッセージを出力して処理を終了する(S680)。
検索されなかったことを条件に(S620:NO)、構文解析部500は、第4言語とは異なる複数の言語のそれぞれに対応する複数のメッセージのそれぞれを第1および第2のメッセージとしてメッセージ記憶部20から検索して読み出す(S630)。検索されるのは、たとえば英語およびドイツ語のメッセージである。これに加えて、3以上の様々な言語のメッセージが検索可能な場合には、構文解析部500は、そのそれぞれについてメッセージ記憶部20から読み出してもよい。2以上の言語のメッセージがメッセージ記憶部20から読み出されない場合、または、英語のメッセージがアプリケーション・プログラム15中に与えられる場合において1以上の他言語のメッセージがメッセージ記憶部20から読み出されなかった場合には、本発明の翻訳精度向上技術を使用せず、従来の機械翻訳技術によって第3言語(英語)から第4言語(日本語)への機械翻訳を行ってメッセージを表示する。
次に、構文解析部500は、読み出したそのそれぞれのメッセージに対し、必要な形態素解析を行う(S640)。そして、構文解析部500は、そのそれぞれのメッセージを構文解析することにより、複数の構文木のそれぞれを生成する(S650)。図7および図8に構文木の具体例を示す。
図7は、第2のメッセージを解析した第2構文木の一例を示す。最下段は第2のメッセージそのものである。形態素解析により、下から2段目に示す品詞の情報が得られる。すなわち、Ichは代名詞(PRO:pronoun)であり、benutzeは動詞(V:verb)であり、denは限定詞(DET:determinant)であり、moveおよびCommandは名詞(N:noun)である。構文解析により、その他の部分の情報が得られる。即ち、moveおよびCommandにより名詞句(NP:Noun Phrase)が構成され、その名詞句とdenとによりこれらを包含する名詞句がさらに構成される。また、その名詞句およびbenutzeにより動詞句(VP:Verb Phrase)がさらに構成される。また、代名詞であるIchのみから構成される名詞句と、その動詞句とにより、文(S:sentence)が構成される。
図8は、第1のメッセージを解析した第1構文木の一例を示す。最下段は第1のメッセージそのものである。形態素解析により、下から2段目に示す品詞の情報が得られる。すなわち、Iは代名詞(PRO:pronoun)であり、useは動詞(V:verb)であり、theは限定詞(DET:determinant)であり、moveおよびCommandは名詞(N:noun)である。構文解析により、その他の部分の情報が得られる。即ち、moveおよびCommandにより名詞句(NP:Noun Phrase)が構成され、その名詞句とtheとによりこれらを包含する名詞句がさらに構成される。また、その名詞句およびuseにより動詞句(VP:Verb Phrase)がさらに構成される。また、代名詞であるIのみから構成される名詞句と、その動詞句とにより、文(S:sentence)が構成される。
図6に戻る。次に、判断部520は、第1構文木に含まれるある部分木によって表される語句の表記が、第2構文木においてその部分木に対応する部分木によって表される語句の表記と一致するか否かをCPU1000の動作により判断する(S660)。この判断は、構文木内のあらゆる部分木について行われるのではなく、1または2以上の連続して表記された未知語により構成される部分木のみを対象とすることが望ましい。未知語とは、翻訳用の辞書に登録されておらず翻訳不能である語のことをいう。このように、判断の対象を未知語に限定することにより、必要な処理の量を削減して処理を効率化することができる。また、第1言語と第2言語で同一綴りの単語が存在する場合に、一致を間違って判断することを防ぐことができる。そして、判断部520は、表記が一致することを条件に、その語句を翻訳不要の語句と判断する。図9から図11までを参照して、この処理について説明する。
図9は、第1言語と第2言語との間の語句の対応関係を示す。図7および図8に示す第1および第2構文木を比較して明らかなように、第1構文木および第2構文木の階層構造は、最下段の表記部分を除き完全に一致する。このため、判断部520は、それぞれの構文木を走査すれば、第1構文木中のある部分木に対応する部分木を第2構文木の中から検索することができる。たとえば、英語のIのみからなる部分木は、ドイツ語のIchのみからなる部分木に対応する。また、英語の名詞moveおよび名詞commandからなる部分木は、ドイツ語の名詞moveおよび名詞Befehlからなる部分木に対応する。
また、英語の名詞moveのみからなる部分木は、ドイツ語の名詞moveのみからなる部分木に対応する。さらにこれらの表記は一致している。また、英語の名詞commandのみからなる部分木は、ドイツ語の名詞Befehlのみからなる部分木に対応する。このように、構文木の構造が完全に一致する場合には、判断部520は、一方の構文木におけるそれぞれの部分木について、その部分木に対応する部分木を他方の構文木から検索するためには、当該他方の部分木を単に走査することで足りる。次に、構文木の構造が互いに異なる場合について説明する。この場合には、機械翻訳で用いられるトランスファー規則が用いられる。なお、英語とドイツ語との間では構文木の構造が一致する場合が多いので、英語と日本語との間で構文木を比較する場合を例に説明を続ける。
図10aは、トランスファー規則の一例を示す。図左に示す英語のメッセージの構文木は、名詞句および動詞句からなる文章を示している。この英語の文章を日本語に翻訳するためには、図左の構文木を図右の構文木に変換することを要する。図右は、対応する日本語の文章の構文木を示している。この構文木は、名詞句と、助詞の「は」と、動詞句とをこの順に示す。即ち、この規則は、英語を日本語に翻訳する場合において、名詞句と動詞句から成る文章、たとえば「I do」が与えられれば、それぞれの語句に訳語「わたし」「する」に加えて、この規則による変換をすること(すなわち、名詞句と動詞句の間に「は」)を挿入すること)を示している。この例では、翻訳の結果「わたしはする」というメッセージが生成される。
図10bは、トランスファー規則の他の例を示す。図10aと同様、図左には英語の構文木を、図右には変換後の日本語の構文木をそれぞれ示している。そしてその詳細は次の通りである。英語の構文木は、動詞と名詞句とをこの順で含む動詞句である。日本語の構文木は、名詞句、助詞「を」、および、動詞をこの順で含む名詞句である。即ちたとえば、「have lunch」という英語のメッセージは、「ランチを食べる」という日本語のメッセージに変換されることを示す。
なお、これらのトランスファー規則は例示であって、さらに詳細なトランスファー規則が設けられていてもよい。
図11aは、英語のメッセージの構文木の一例を示す。これは、図8と同一であるが図11bとの比較のため再掲する。
図11bは、日本語のメッセージの構文木の一例を示す。最下段は対応する日本語のメッセージそのものである。形態素解析により、下から2段目に示す品詞の情報が得られているものとする。すなわち、「私」は代名詞(PRO:pronoun)であり、「使う」は動詞(V:verb)であり、moveおよび命令は名詞(N:noun)である。構文解析により、その他の部分の情報が得られる。即ち、moveおよび命令により名詞句(NP:Noun Phrase)が構成され、その名詞句、助詞の「を」、および、「使う」により動詞句(VP:Verb Phrase)が構成される。また、代名詞である「私」のみから構成される名詞句と、その動詞句とにより、文(S:sentence)が構成される。
図11aに示す英語のメッセージの構文木に対し、図10aおよび図10bに示したようなトランスファー規則を適用する。すると、図11aに示す構文木は、単語が英語表記のまま日本語の構造を持つ構文木に変換される。この結果、対比される2つの構文木の構造は一致する。構文木の構造が一致した後の処理は図9において説明したとおりである。以上、図9から図11までを参照して説明したように、判断部520は、翻訳元の言語と翻訳先の言語との間で予め定められたトランスファー規則を用いることにより、それぞれの言語の構文木の中から、互いに対応する部分木を検索することができる。以上、第1および第2言語として英語および日本語を適用した例の説明は終了し、以降、第1および第2言語として英語およびドイツ語を用いた例に戻る。
図6に戻る。次に、翻訳部530は、第3メッセージ(第1メッセージまたは第2メッセージと同じでもよい)をメッセージ記憶部20から読み出して、CPU1000の動作により翻訳して第4メッセージを生成する(S670)。この処理において、第3メッセージ中に翻訳不要の語句が含まれている場合には、翻訳部530は、その語句を第3メッセージ中の表記のまま、翻訳後の第4メッセージに含めて生成する。さらに、この翻訳処理の過程で、翻訳部530は、翻訳の精度を高めるべく、次の処理を行うことが望ましい。
1.複合語の取り扱い
翻訳処理においてはメッセージの構文解析が行われるが、翻訳不要の語句が複合語である場合には、その語句が翻訳不要であるという情報を構文解析に用いると翻訳の精度をさらに向上させることができる。具体的には、翻訳部530は、まず、翻訳不要の語句を含む複合語を第3メッセージにおいて検出したかを判断する。複合語は、2以上の語からなる部分木として構文木中から検出されてもよいし、メッセージの表記において連続する2以上の語であって翻訳不要の語のみからなるものでもよい。
検出されたことを条件に、翻訳部530は、第3メッセージを第4メッセージに翻訳する処理の過程において、その複合語に含まれる語と語の間の構文上の関係は解析することなく、その複合語と他の語との間の構文上の関係を解析する。そして、翻訳部530は、翻訳後の第4メッセージに含めてその複合語を第3メッセージ中の表記のまま出力する。このような複合語の例を図12に示す。
図12は、翻訳不要の複合語の具体例を示す。1行目には英語の第1メッセージを示し、2行目にはドイツ語の第2メッセージを示す。「Everyplace Access」という複合語は、英語でもドイツ語でも表記が一致し、構文木中でも対応する部分木として表されることから、翻訳不要の語句と判断されている。このような場合には、翻訳部530は、「Everyplace」と、「Access」との間の構文上の関係は解析しない。すなわち、これらは本来副詞と名詞(あるいは動詞)の関係であって、構文上の関係は様々に判断され得る。しかしながら、翻訳部530は、これらの語をひとまとまりの句として取り扱い、この句と他の語句との間の構文上の関係を解析する。この結果、この句は名詞句であって他の動詞句と組み合わせて文を構成することが判明する。これにより、構文解析の誤りが少なくなり、翻訳の精度を向上させることができる。
2.多義性の解消
翻訳部530は、第3メッセージを翻訳して第4メッセージを生成する処理において、第3メッセージに含まれるある第3言語語句に複数の意味属性が対応付けて記憶されている場合に、その第3言語語句の第4言語における訳語が、その第3言語語句の表記に対応する意味属性によって異なるかどうかを判断する。図13aおよび図13bにその例を示す。
図13aは、英語の意味属性の具体例を示す。図13bは、ドイツ語の意味属性の具体例を示す。属性記憶部540は、第3言語語句である英単語「command」に、複数の意味属性を対応付けて記憶している。たとえば、「行為」を意味する意味属性と、「状態」を意味する意味属性とが対応付けられている。そして、そのそれぞれに対応する日本語における訳語は、「命令」および「見晴らし」である。これは、英日間の翻訳用の辞書を参照することによって英単語「command」の日本語の訳語を特定したうえで、属性記憶部540に併せて記憶された日本語の意味属性を参照することによってそのそれぞれに対応する意味属性を特定することにより判断できる。翻訳部530は、このような場合には意味属性によって訳語が異なると判断する。
この場合には、翻訳部530は、第3メッセージを翻訳するために生成した第3構文木において、この第3言語語句を示す部分木に対応する部分木を、第1構文木または第2構文木から検索する。図13aの例の場合は、第1構文木と第3構文木は同一であって意味がないので第2構文木が検索の対象となる。ドイツ語の例では、単語「Befehl」が検索される。そして、翻訳部530は、検索されたこの部分木に対応する語句の少なくとも1つの意味属性を属性記憶部540から読み出す。読み出した意味属性は「行為」である。そして、翻訳部530は、読み出した意味属性と第3言語語句の意味属性との積集合とを算出し、その積集合に含まれる意味属性に対応する訳語を、第4メッセージに含めて出力する。したがって、出力される訳語は「命令」となる。同様の例を図14に示す。
図14aは、英単語「case」の意味属性の具体例を示す。英単語「case」は、その日本語の訳語として「事例」および「箱」を有する。意味属性はそれぞれ抽象物および人工物である。ただし、ドイツ語では「事例」および「箱」では表記が異なる。このため、英語とドイツ語のメッセージを対比すれば、翻訳部530は、訳語を精度良く決定することができる。
図14bは、英単語「table」の意味属性の具体例を示す。英単語「table」は、その日本語の訳語として「表」および「テーブル」を有する。意味属性はそれぞれ言語および人工物である。ただし、ドイツ語では「表」および「テーブル」では表記が異なる。このため、英語とドイツ語のメッセージを対比すれば、翻訳部530は、訳語を精度良く決定することができる。
図14cは、英単語「plant」の意味属性の具体例を示す。英単語「plant」は、その日本語の訳語として「植物」および「工場」を有する。意味属性はそれぞれ植物および場所である。ただし、ドイツ語では「植物」および「工場」では表記が異なる。このため、英語とドイツ語のメッセージを対比すれば、翻訳部530は、訳語を精度良く決定することができる。
なお、英語とドイツ語では多義性を解消できない場合もある。そのような例を図14dに示す。
図14dは、英単語「right」の意味属性の具体例を示す。英単語「right」は、その日本語の訳語として「右」および「権利」を有する。意味属性はそれぞれ場所および法律である。ドイツ語でも「右」および「権利」で表記は「Recht」であって同一である。このため、英語とドイツ語では多義性を解消できない。このような場合には、たとえば中国語の訳語を用いれば多義性を解消できる。このように3以上の言語の存在を前提にする処理について、以下補足説明する。
まず、3以上の言語によるメッセージが記憶されている場合に、訳語を多数決によって定めて翻訳の精度をさらに向上させるというものである。すなわち、構文解析部500は、それら全ての言語によるメッセージのそれぞれについて、構文木を生成する。そして、翻訳部530は、訳語が意味属性によって異なると判断した場合に、第3構文木において第3言語語句を示す部分木に対応する部分木を、それらそれぞれの構文木から検索する。そして、翻訳部530は、検索されたそれぞれの部分木に対応する語句の全ての意味属性を属性記憶部540から読み出し、最も多くの語句に対応して読み出された意味属性に対応する訳語を、第4メッセージに含めて出力する。最も多くの語句に対応する意味属性に代えて、読み出した全ての語句のうち予め定められた基準の割合よりも高い割合の語句に対応する意味属性を用いて判断してもよい。
次に、多義性の解消に用いる言語を適切に選択するというものである。すなわち、翻訳に用いる言語について優先順序を予め定めておく。たとえば、英語、中国語、ドイツ語…のような順序付けがされている。翻訳部530は、この優先順序に従って、メッセージ記憶部20に記憶されているメッセージを記述した複数の言語のなかから、第1言語または第2言語を選択する。たとえば英語が先頭であればまず英語が選択される。英語のメッセージが準備されていない場合には中国語が選択される。そして、翻訳部530は、選択した当該言語のメッセージを構文解析した構文木から、翻訳元となる第3メッセージ中の当該第3言語語句を示す部分木に対応する部分木を検索し、検索された部分木に対応する語句の少なくとも1つの意味属性を属性記憶部540から読み出す。そして、翻訳部530は、読み出した意味属性と第3言語語句の意味属性との積集合を算出し、当該積集合に含まれる意味属性に対応する訳語を、第4メッセージに含めて出力する。
さらに、多義性の解消に用いる言語は、言語の属するグループに応じて選択するというものである。すなわち、図5において説明したように、言語記憶部510は、言語をグループに分類して記憶している。そして、翻訳部530は、メッセージ記憶部20に記憶しているメッセージを記述した第1言語または第2言語のうち、第3言語とは異なるグループに分類された言語を選択する。たとえば、翻訳元の第3言語が英語の場合、第1言語がドイツ語で第2言語が中国語であれば、英語と同一のグループに属しているドイツ語は選択されず、英語と異なるグループに属する中国語が選択される。そして、翻訳部530は、選択した当該言語のメッセージを構文解析した構文木から、当該第3言語語句を示す部分木に対応する部分木を検索し、検索された部分木に対応する語句の少なくとも1つの意味属性を属性記憶部540から読み出し、読み出した意味属性とその第3言語語句の意味属性との積集合を算出し、当該積集合に含まれる意味属性に対応する訳語を、第4メッセージに含めて出力する。これにより、多義語を示す部分木に対応する部分木の語句も同様の多義語であることを防止し、多義性解消の可能性を高めることができる。つまり、図14dで見たように、同じヨーロッパ系言語の英語とドイツ語の対応する訳語を対比しても、語源が同じためにrightという語の多義性の解消はできないが、言語としてグループが異なる中国語の対応する訳語と対比することで、多義性の解消ができる可能性が高まるのである。
3.翻訳エンジンの選択
複数の言語による複数のメッセージがメッセージ記憶部20に記憶されている場合においては、目的の第4言語(たとえば日本語)になるべく類似した言語を第3言語として選択したほうが、翻訳の精度は高い傾向がある。このため、翻訳エンジンすなわち、翻訳元および翻訳先の言語の組に応じた翻訳処理の種類を適切に選択することが望ましい。たとえば、各言語について、その言語と他の言語とが類似する程度に基づいて、言語間で優先順序が予め定められている。日本語について例示すると、韓国語、中国語…などの順である。翻訳部530は、目的の第4言語に対応して定められたこの優先順序に従って、メッセージ記憶部20に記憶されたメッセージの言語の中で最も優先順序の高い言語を第3言語として選択する。たとえば、韓国語のメッセージが記憶されていれば韓国語を、記憶されていなければ中国語を選択する。そして、翻訳部530は、選択したその言語で記述したメッセージを翻訳して第4メッセージを生成する。これにより、翻訳の精度を一層高めることができる。
図6に戻る。翻訳部530は、翻訳後の第4メッセージを利用者に対し出力する(S680)。上述の様々な機能により、エラーメッセージなどの短いメッセージであっても、理解可能な程度に適切に翻訳することができる。
図15は、情報システム10として機能する情報処理装置1500のハードウェア構成の一例を示す。情報処理装置1500は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、情報処理装置1500が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、情報処理装置1500の起動時にCPU1000が実行するブートプログラムや、情報処理装置1500のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
情報処理装置1500に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出され情報処理装置1500にインストールされて実行される。プログラムが情報処理装置1500等に働きかけて行わせる動作は、図1から図14において説明した情報システム10における動作と同一であるから、説明を省略する。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置1500に提供してもよい。
以上、本実施形態に示す情報システム10によれば、複数の言語によって同一内容を記述した複数のメッセージのそれぞれを利用して、機械翻訳の精度を向上させることができる。これは、Linux(登録商標)など、複数の言語のメッセージを選択的に出力する機能を設けたシステムにおいて、すべてのメッセージを人手で翻訳して予め準備しておく必要がないので効率的である。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。たとえば、このような翻訳の処理は、予め複数の言語による翻訳文が準備されていれば、エラーメッセージなどに限らずその他の一般的文章にも適用可能である。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、情報システム10の全体構成を示す。 図2は、メッセージ記憶部20のデータ構造の一例を示す。 図3は、メッセージファイル300の内容の一例を示す。 図4は、メッセージファイル400の内容の一例を示す。 図5は、メッセージ出力ユニット50の機能構成を示す。 図6は、情報システム10がメッセージを出力する処理のフローチャートを示す。 図7は、第2のメッセージを解析した第2構文木の一例を示す。 図8は、第1のメッセージを解析した第1構文木の一例を示す。 図9は、第1言語と第2言語との間の語句の対応関係を示す。 図10aは、トランスファー規則の一例を示す。 図10bは、トランスファー規則の他の例を示す。 図11aは、英語のメッセージの構文木の一例を示す。 図11bは、日本語のメッセージの構文木の一例を示す。 図12は、翻訳不要の複合語の具体例を示す。 図13aは、英語の意味属性の具体例を示す。 図13bは、ドイツ語の意味属性の具体例を示す。 図14aは、英単語「case」の意味属性の具体例を示す。 図14bは、英単語「table」の意味属性の具体例を示す。 図14cは、英単語「plant」の意味属性の具体例を示す。 図14dは、英単語「right」の意味属性の具体例を示す。 図15は、情報システム10として機能する情報処理装置1500のハードウェア構成の一例を示す。
符号の説明
10 情報システム
15 アプリケーション・プログラム
20 メッセージ記憶部
50 メッセージ出力ユニット
300 メッセージファイル
400 メッセージファイル
500 構文解析部
510 言語記憶部
520 判断部
530 翻訳部
540 属性記憶部
1500 情報処理装置

Claims (10)

  1. 利用者に対して表示するメッセージを翻訳するシステムであって、
    互いに同一の内容を互いに異なる第1言語および第2言語のそれぞれで記述した第1メッセージおよび第2メッセージのそれぞれを記憶するメッセージ記憶部と、
    第1メッセージおよび第2メッセージを前記メッセージ記憶部から読み出して、第1メッセージおよび第2メッセージをそれぞれ構文解析することにより、第1メッセージに含まれる語および句の階層構造を表した第1構文木、および、第2メッセージに含まれる語および句の階層構造を表した第2構文木をCPUの動作により生成する構文解析部と、
    前記第1構文木および前記第2構文木の階層構造が一致している場合に、前記第1構文木に含まれるある部分木によって表される語句の表記が、前記第2構文木においてその部分木に対応する部分木によって表される語句の表記と一致するか否かをCPUの動作により判断し、一致することを条件に、その語句を翻訳不要の語句と判断する判断部と、
    前記第1メッセージおよび前記第2メッセージと同一の内容を有する、第3言語で記述した第3メッセージをCPUの動作により翻訳して第4言語で記述した第4メッセージを生成する処理において、前記第3メッセージに含まれる前記翻訳不要の語句を前記第3メッセージ中の表記のまま、翻訳後の前記第4メッセージに含めて出力する翻訳部と
    を備えるシステム。
  2. 前記翻訳部は、前記翻訳不要の語句を含む複合語を第3メッセージから検索したことを条件に、第3メッセージを翻訳して第4メッセージを生成するために第3メッセージを構文解析する処理において、前記複合語に含まれる語と語の間の構文上の関係は解析することなく前記複合語と他の語との間の構文上の関係を解析し、前記複合語を除く第3メッセージを当該構文上の関係に基づき翻訳して、翻訳後の第4メッセージに含めて前記複合語を前記第3メッセージ中の表記のまま出力する
    請求項1に記載のシステム。
  3. 言語ごとに、当該言語における複数の語の表記のそれぞれを、当該表記の語が有するそれぞれの意味についての意味属性に対応付けて記憶する属性記憶部をさらに備え、
    意味属性とは、語の意味が、語の意味を当該意味の抽象概念によって分類したグループの何れに属するかを示し、
    前記翻訳部は、第3メッセージに含まれる第3言語語句の第4言語における訳語が、前記第3言語語句の表記に対応する意味属性によって異なることを条件に、前記第3メッセージを構文解析した第3構文木において当該第3言語語句を示す部分木に対応する部分木を、前記第1または第2構文木から検索し、検索された部分木に対応する語句の少なくとも1つの意味属性を前記属性記憶部から読み出し、読み出した意味属性と前記第3言語語句の意味属性との積集合を算出し、当該積集合に含まれる意味属性に対応する訳語を、第4メッセージに含めて出力する
    請求項1に記載のシステム。
  4. 前記メッセージ記憶部は、第1言語および第2言語を含む互いに異なる複数の言語のそれぞれによって同一の内容を記述した複数のメッセージのそれぞれを記憶しており、
    前記構文解析部は、前記複数のメッセージを前記メッセージ記憶部から読み出して、当該複数のメッセージのそれぞれを構文解析することにより複数の構文木を生成し、
    前記翻訳部は、第3メッセージに含まれる第3言語語句の第4言語における訳語が、前記第3言語語句の表記に対応する意味属性によって異なることを条件に、前記第3メッセージを構文解析した第3構文木において当該第3言語語句を示す部分木に対応する部分木を、生成された前記複数の構文木のそれぞれから検索し、検索されたそれぞれの部分木に対応する語句の全ての意味属性を前記属性記憶部から読み出し、最も多くの語句に対応して読み出された意味属性に対応する訳語を、第4メッセージに含めて出力する
    請求項3に記載のシステム。
  5. 前記翻訳部は、翻訳に用いる言語について予め定められた優先順序に従って、前記第1言語または前記第2言語を選択して、選択した当該言語のメッセージを構文解析した構文木から、当該第3言語語句を示す部分木に対応する部分木を検索し、検索された部分木に対応する語句の少なくとも1つの意味属性を前記属性記憶部から読み出し、読み出した意味属性と前記第3言語語句の意味属性との積集合を算出し、当該積集合に含まれる意味属性に対応する訳語を、第4メッセージに含めて出力する
    請求項3に記載のシステム。
  6. 言語をグループに分類して記憶している言語記憶部をさらに備え、
    前記翻訳部は、第1言語または第2言語のうち、前記第3言語とは異なるグループに分類された言語を選択して、選択した当該言語のメッセージを構文解析した構文木から、当該第3言語語句を示す部分木に対応する部分木を検索し、検索された部分木に対応する語句の少なくとも1つの意味属性を前記属性記憶部から読み出し、読み出した意味属性と前記第3言語語句の意味属性との積集合を算出し、当該積集合に含まれる意味属性に対応する訳語を、第4メッセージに含めて出力する
    請求項3に記載のシステム。
  7. 前記メッセージ記憶部は、互いに異なる複数の言語のそれぞれによって同一の内容を記述した複数のメッセージのそれぞれを記憶しており、
    前記翻訳部は、第4言語に対応して予め定められた優先順序に従って、前記メッセージ記憶部に記憶されたメッセージの言語の中で最も優先順序の高い言語を前記第3言語として選択して、当該第3言語で記述した第3メッセージを翻訳して第4言語で記述した第4メッセージを生成する
    請求項1に記載のシステム。
  8. 前記メッセージ記憶部は、コマンドの処理結果の識別情報のそれぞれについて、当該処理結果を示すメッセージ、および、当該メッセージを記述した言語を対応付けて記憶しており、
    前記構文解析部は、コマンドの処理結果を示すメッセージを第4言語により出力する要求に応じ、当該第4言語および当該処理結果の識別情報に対応する第4メッセージを前記メッセージ記憶部から検索し、第4メッセージが検索されなかったことを条件に、第4言語とは異なる複数の言語のそれぞれに対応する複数のメッセージのそれぞれを第1および第2のメッセージとして前記メッセージ記憶部から検索し、検索された第1および第2のメッセージのそれぞれを構文解析する
    請求項1に記載のシステム。
  9. 利用者に対して表示するメッセージを翻訳する方法であって、
    互いに同一の内容を互いに異なる第1言語および第2言語のそれぞれで記述した第1メッセージおよび第2メッセージのそれぞれをメッセージ記憶部に記憶し、
    第1メッセージおよび第2メッセージを前記メッセージ記憶部から読み出して、第1メッセージおよび第2メッセージをそれぞれ構文解析することにより、第1メッセージに含まれる語および句の階層構造を表した第1構文木、および、第2メッセージに含まれる語および句の階層構造を表した第2構文木をCPUの動作により生成し、
    前記第1構文木および前記第2構文木の階層構造が一致している場合に、前記第1構文木に含まれるある部分木によって表される語句の表記が、前記第2構文木においてその部分木に対応する部分木によって表される語句の表記と一致するか否かをCPUの動作により判断し、一致することを条件に、その語句を翻訳不要の語句と判断し、
    前記第1メッセージおよび前記第2メッセージと同一の内容を有する、第3言語で記述した第3メッセージをCPUの動作により翻訳して第4言語で記述した第4メッセージを生成する処理において、前記第3メッセージに含まれる前記翻訳不要の語句を前記第3メッセージ中の表記のまま、翻訳後の前記第4メッセージに含めて出力する、方法。
  10. 利用者に対して表示するメッセージを翻訳するシステムとして、情報処理装置を機能させるためのプログラムであって、
    前記情報処理装置を、
    互いに同一の内容を互いに異なる第1言語および第2言語のそれぞれで記述した第1メッセージおよび第2メッセージのそれぞれを記憶するメッセージ記憶部と、
    第1メッセージおよび第2メッセージを前記メッセージ記憶部から読み出して、第1メッセージおよび第2メッセージをそれぞれ構文解析することにより、第1メッセージに含まれる語および句の階層構造を表した第1構文木、および、第2メッセージに含まれる語および句の階層構造を表した第2構文木をCPUの動作により生成する構文解析部と、
    前記第1構文木および前記第2構文木の階層構造が一致している場合に、前記第1構文木に含まれるある部分木によって表される語句の表記が、前記第2構文木においてその部分木に対応する部分木によって表される語句の表記と一致するか否かをCPUの動作により判断し、一致することを条件に、その語句を翻訳不要の語句と判断する判断部と、
    前記第1メッセージおよび前記第2メッセージと同一の内容を有する、第3言語で記述した第3メッセージをCPUの動作により翻訳して第4言語で記述した第4メッセージを生成する処理において、前記第3メッセージに含まれる前記翻訳不要の語句を前記第3メッセージ中の表記のまま、翻訳後の前記第4メッセージに含めて出力する翻訳部と
    して機能させるためのプログラム。
JP2006292761A 2006-10-27 2006-10-27 機械翻訳の精度を向上させる技術 Expired - Fee Related JP4256891B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006292761A JP4256891B2 (ja) 2006-10-27 2006-10-27 機械翻訳の精度を向上させる技術
US11/923,051 US8126698B2 (en) 2006-10-27 2007-10-24 Technique for improving accuracy of machine translation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006292761A JP4256891B2 (ja) 2006-10-27 2006-10-27 機械翻訳の精度を向上させる技術

Publications (2)

Publication Number Publication Date
JP2008108209A JP2008108209A (ja) 2008-05-08
JP4256891B2 true JP4256891B2 (ja) 2009-04-22

Family

ID=39331372

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006292761A Expired - Fee Related JP4256891B2 (ja) 2006-10-27 2006-10-27 機械翻訳の精度を向上させる技術

Country Status (2)

Country Link
US (1) US8126698B2 (ja)
JP (1) JP4256891B2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
TWI376656B (en) * 2008-09-11 2012-11-11 Shing Lung Chen Foreign-language learning method utilizing an original language to review corresponding foreign languages and foreign-language learning database system thereof
US9189475B2 (en) * 2009-06-22 2015-11-17 Ca, Inc. Indexing mechanism (nth phrasal index) for advanced leveraging for translation
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
US8548796B2 (en) * 2010-01-20 2013-10-01 Xerox Corporation Statistical machine translation system and method for translation of text into languages which produce closed compound words
US20110238406A1 (en) * 2010-03-23 2011-09-29 Telenav, Inc. Messaging system with translation and method of operation thereof
CN101908042B (zh) * 2010-08-09 2016-04-13 中国科学院自动化研究所 一种双语联合语义角色的标注方法
US20120035905A1 (en) * 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text
US8635233B2 (en) * 2011-06-27 2014-01-21 Microsoft Corporation Techniques to automatically build a language dependency graph for localizable resources
US9208134B2 (en) * 2012-01-10 2015-12-08 King Abdulaziz City For Science And Technology Methods and systems for tokenizing multilingual textual documents
JP5915326B2 (ja) * 2012-03-29 2016-05-11 富士通株式会社 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム
JP2015060458A (ja) * 2013-09-19 2015-03-30 株式会社東芝 機械翻訳装置、方法、及びプログラム
US9614969B2 (en) * 2014-05-27 2017-04-04 Microsoft Technology Licensing, Llc In-call translation
WO2016058138A1 (en) * 2014-10-15 2016-04-21 Microsoft Technology Licensing, Llc Construction of lexicon for selected context
JP6390510B2 (ja) * 2015-05-12 2018-09-19 コニカミノルタ株式会社 画像形成装置及びプログラム
JP6319175B2 (ja) * 2015-05-12 2018-05-09 コニカミノルタ株式会社 画像形成装置及びプログラム
WO2017208443A1 (ja) * 2016-06-03 2017-12-07 京セラドキュメントソリューションズ株式会社 情報処理装置、画像処理装置、メニュー画面表示制御方法
JP6977264B2 (ja) * 2017-01-24 2021-12-08 富士フイルムビジネスイノベーション株式会社 文書処理装置、端末装置及び文書処理システム
US11907678B2 (en) 2020-11-10 2024-02-20 International Business Machines Corporation Context-aware machine language identification

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4931936A (en) * 1987-10-26 1990-06-05 Sharp Kabushiki Kaisha Language translation system with means to distinguish between phrases and sentence and number discrminating means
JPH077419B2 (ja) * 1989-06-30 1995-01-30 シャープ株式会社 機械翻訳装置における略称付き固有名詞処理方法
JPH04323770A (ja) * 1991-04-24 1992-11-12 Toshiba Corp 機械翻訳装置
JP3189186B2 (ja) * 1992-03-23 2001-07-16 インターナショナル・ビジネス・マシーンズ・コーポレ−ション パターンに基づく翻訳装置
JP2745370B2 (ja) * 1993-02-23 1998-04-28 日本アイ・ビー・エム株式会社 機械翻訳方法及び機械翻訳装置
JP2694863B2 (ja) 1993-03-26 1997-12-24 日本信号 株式会社 遅延タイマ
JPH06332936A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 機械翻訳装置
JPH08202720A (ja) * 1995-01-31 1996-08-09 Sharp Corp 機械翻訳装置
JPH0981566A (ja) * 1995-09-08 1997-03-28 Toshiba Corp 翻訳装置及び翻訳方法
JPH09259127A (ja) * 1996-03-21 1997-10-03 Sharp Corp 翻訳装置
JPH1011447A (ja) * 1996-06-21 1998-01-16 Ibm Japan Ltd パターンに基づく翻訳方法及び翻訳システム
JPH1145245A (ja) * 1997-07-27 1999-02-16 Just Syst Corp 外国語文読解支援システム、外国語文読解支援プログラムが記憶された記憶媒体、及び外国語文読解支援方法
JP3272288B2 (ja) * 1997-12-24 2002-04-08 日本アイ・ビー・エム株式会社 機械翻訳装置および機械翻訳方法
JPH11272670A (ja) * 1998-03-20 1999-10-08 Toshiba Corp 機械翻訳装置及び機械翻訳方法
US7912696B1 (en) * 1998-08-31 2011-03-22 Sony Corporation Natural language processing apparatus and natural language processing method
JP2001282786A (ja) * 2000-03-27 2001-10-12 Internatl Business Mach Corp <Ibm> 機械翻訳システム、機械翻訳方法及び機械翻訳方法を実行するためのプログラムを記憶した記憶媒体
EP1655674A2 (en) * 2001-08-10 2006-05-10 National Institute of Information and Communications Technology, Independent Administrative Institution THIRD LANGUAGE TEXT GENERATING ALGORITHM BY MULTI&minus;LINGUAL TEXT INPUTTING AND DEVICE AND PROGRAM THEREFOR
JP3906356B2 (ja) * 2001-12-27 2007-04-18 独立行政法人情報通信研究機構 構文解析方法及び装置
JP3995155B2 (ja) * 2002-11-28 2007-10-24 沖電気工業株式会社 複数言語文書の対応付けシステム,複数言語文書の対応付け方法,及びプログラム並びにプログラムを記録した記録媒体
JP3973549B2 (ja) * 2002-12-19 2007-09-12 沖電気工業株式会社 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JP4708682B2 (ja) * 2003-04-02 2011-06-22 日本電信電話株式会社 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体
JP2004355322A (ja) * 2003-05-29 2004-12-16 Nec Corp 機械翻訳装置、変換ルール辞書管理装置およびプログラム
US7587254B2 (en) * 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing
JP4018668B2 (ja) * 2004-05-28 2007-12-05 株式会社東芝 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP2006268375A (ja) * 2005-03-23 2006-10-05 Fuji Xerox Co Ltd 翻訳メモリシステム
US20070027670A1 (en) * 2005-07-13 2007-02-01 Siemens Medical Solutions Health Services Corporation User Interface Update System
JP2008065395A (ja) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd 翻訳装置、翻訳方法および翻訳プログラム

Also Published As

Publication number Publication date
JP2008108209A (ja) 2008-05-08
US8126698B2 (en) 2012-02-28
US20080103757A1 (en) 2008-05-01

Similar Documents

Publication Publication Date Title
JP4256891B2 (ja) 機械翻訳の精度を向上させる技術
US8041557B2 (en) Word translation device, translation method, and computer readable medium
US8005662B2 (en) Translation method, translation output method and storage medium, program, and computer used therewith
US8306807B2 (en) Structured data translation apparatus, system and method
US7487082B2 (en) Apparatus for developing a transfer dictionary used in transfer-based machine translation system
US7574348B2 (en) Processing collocation mistakes in documents
JP4940325B2 (ja) 文書校正支援装置、方法およびプログラム
JP2003141115A (ja) 単語間の翻訳関係を計算する方法
US8655641B2 (en) Machine translation apparatus and non-transitory computer readable medium
JP2004334791A (ja) 機械翻訳装置、データ処理方法及びプログラム
JPH0344764A (ja) 機械翻訳装置
US7983899B2 (en) Apparatus for and method of analyzing chinese
JP5185343B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP5238560B2 (ja) 翻訳装置、方法、及びプログラム
JP3244286B2 (ja) 翻訳処理装置
JP3267168B2 (ja) 自然言語変換システム
JP2002197086A (ja) 自然言語変換システム
JP2001337945A (ja) 自動編集装置及び方法並びにこれに利用される記憶媒体
JP2947554B2 (ja) 機械翻訳装置
JP3353873B2 (ja) 機械翻訳装置
JP3253311B2 (ja) 言語処理装置および言語処理方法
JPH11232275A (ja) 自然言語翻訳装置
JP2002032369A (ja) 辞書作成装置
JPH11259473A (ja) 機械翻訳装置及び機械翻訳方法
Muller TREATING'KRE-8-WE'SPELLINGS FOR NATURAL LANGUAGE PROCESSING

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080909

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20081024

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090127

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090130

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees