JP2005339347A - 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム - Google Patents

日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム Download PDF

Info

Publication number
JP2005339347A
JP2005339347A JP2004159499A JP2004159499A JP2005339347A JP 2005339347 A JP2005339347 A JP 2005339347A JP 2004159499 A JP2004159499 A JP 2004159499A JP 2004159499 A JP2004159499 A JP 2004159499A JP 2005339347 A JP2005339347 A JP 2005339347A
Authority
JP
Japan
Prior art keywords
japanese
word
chinese
words
unregistered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004159499A
Other languages
English (en)
Other versions
JP4018668B2 (ja
Inventor
Tatsuya Dewa
達也 出羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004159499A priority Critical patent/JP4018668B2/ja
Priority to US11/138,463 priority patent/US20050273316A1/en
Priority to CNB2005100713796A priority patent/CN100454294C/zh
Publication of JP2005339347A publication Critical patent/JP2005339347A/ja
Application granted granted Critical
Publication of JP4018668B2 publication Critical patent/JP4018668B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ユーザに対する機械翻訳の品質に対する印象を良好にすること。
【解決手段】入力された日本語文を中国語に翻訳して出力する日中機械翻訳装置であって、日本語文から形態素ごとに分割された日本語単語と該日本語単語の訳語である中国語単語とを対応づけて登録した日中対訳辞書ファイル111と、入力された日本語文から分割された日本語単語が日中対訳辞書ファイル111に登録されていない未登録語であるか否かを判断する未登録語判断部104と、日本語単語が未登録語であると判断された場合に、未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、分割された非ひらがな文字列のみに対して訳語を生成する未登録語訳生成部105とを備えた。
【選択図】 図1

Description

本発明は、自然言語で入力された日本語文を、中国語に翻訳して出力する日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラムに関する。
自然言語で記述された日本語文を入力して、入力された日本語文を中国語文に翻訳して出力する日中機械翻訳装置では、日本語文を構成する形態素としての日本語単語ごとに、当該日本語単語に対する訳語である中国語単語を登録した日中対訳辞書を使用することが一般的に行われている。
このような日中対訳辞書は、中国語の漢字が多数存在することや辞書のデータ量の制限等の理由により、登録可能な訳語数に制限が設けられている場合がある。このような訳語数に制限のある日中対訳辞書を使用して日本語文の日中機械翻訳を実行すると、入力された日本語文の中の日本語単語に対して一部の訳語が登録されていない未登録語が存在する場合があり、このような未登録語をいかに扱って出力するかが日中機械翻訳処理の重要な課題となっている。
このような未登録語の処理を行っている日中機械翻訳装置として、未登録語が漢字、特に人名や地名等の固有名詞である場合に、日本語の漢字の表記と中国語の漢字の表記とを対応づけた日中漢字対応情報を利用して訳語を自動的に生成するという技術が提案されている(例えば、特許文献1参照)。この特許文献1に開示された技術では、未登録語に含まれているひらがな文字に対しては、ひらがな文字のまま出力するという技術が採用されている。
特開平4−256171号公報
しかしながら、通常、中国語文中にはひらがな文字は出現しないことから、特許文献1の技術のように、ひらがな文字をそのまま出力すると、翻訳処理の破綻が見た目に明らかであり、ユーザに悪印象を与えるという問題がある。すなわち、ユーザにとっては、中国語文中にこのようなひらがな文字そのままの出力は、翻訳不可能あるいは誤訳を認識させることになり、その結果機械翻訳処理の品質が低いとの誤解を与えてしまう可能性がある。
本発明は、上記に鑑みてなされたものであって、日中対訳辞書に登録されていない未登録語中に含まれるひらがな文字を中国語訳中に出力しないことにより、ユーザに対する機械翻訳の品質に対する印象を良好にすることができる日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、入力された日本語文を中国語に翻訳して出力する日中機械翻訳装置であって、日本語文から形態素ごとに分割された日本語単語と該日本語単語の訳語である中国語単語とを対応づけて登録した日中対訳辞書を記憶する記憶手段と、入力された日本語文から分割された前記日本語単語が前記日中対訳辞書に登録されていない未登録語であるか否かを判断する未登録語判断手段と、前記未登録語判断手段によって前記日本語単語が前記未登録語であると判断された場合に、前記未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、分割された前記非ひらがな文字列のみに対して訳語を生成する未登録語訳生成手段と、を備えたことを特徴とする日中機械翻訳装置である。
また、本発明は、入力された日本語文を中国語に翻訳して出力する日中機械翻訳装置であって、日本語文から形態素ごとに分割された日本語単語と該日本語単語の訳語である中国語単語とを対応づけて登録した日中対訳辞書を記憶する記憶手段と、入力された日本語文から分割された前記日本語単語が前記日中対訳辞書に登録されていない未登録語であるか否かを判断する未登録語判断手段と、前記未登録語判断手段によって前記日本語単語が前記未登録語であると判断された場合に、前記未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、前記ひらがな文字列の文字数または音節数が予め定められた閾値以下である場合に、前記ひらがな文字列に対して訳語を生成しない未登録語訳生成手段と、を備えたことを特徴とする日中機械翻訳装置である。
また、本発明は、入力された日本語文を中国語に翻訳して出力する日中機械翻訳装置であって、日本語単語と該日本語単語の訳語である中国語単語とを対応づけて登録した日中対訳辞書を記憶する記憶手段と、入力された日本語文から分割された前記日本語単語が前記日中対訳辞書に登録されていない未登録語であるか否かを判断する未登録語判断手段と、前記未登録語判断手段によって前記日本語単語が前記未登録語であると判断された場合に、前記未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、分割された前記ひらがな文字列が他の日本語単語に接続可能な付属語の一または複数の連続である場合には前記ひらがな文字列に対して訳語を生成しない未登録語訳生成手段と、を備えたことを特徴とする日中機械翻訳装置である。
また、本発明は、上記装置に対応した方法およびプログラムである。
本発明によれば、日中対訳辞書に登録されていない未登録語中に含まれるひらがな文字を中国語訳中に出力しないので、ユーザに対する機械翻訳の品質に対する印象を良好にすることができる。
以下に添付図面を参照して、この発明にかかる日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラムの最良な実施の形態を詳細に説明する。
(実施の形態1)
実施の形態1にかかる日中機械翻訳装置は、入力された日本語文を形態素ごとの日本語単語に分割し、分割された各日本語単語に中国語の訳を付加して表示するという形態の日中機械翻訳装置であり、本実施の形態では、日本語単語が日中対訳辞書ファイル111に登録されていない場合に、訳語としてひらがな文字を出力しないものである。
図1は、本発明の実施の形態1にかかる日中機械翻訳装置の機能的構成を示すブロック図である。本実施の形態の日中機械翻訳装置100は、図1に示すように、入力処理部101と、形態素解析部102と、変換部103と、未登録語判断部104と、未登録語訳生成部105と、出力処理部106と、入力装置107と、出力装置108と、ハードディスクドライブ(HDD)110と、RAM(Random Access Memory)120を主に備えている。
入力処理部101は、キーボード等の入力装置101からの日本語文の入力を受け付けるものである。形態素解析部102は、入力処理部101によって入力を受け付けた日本語文に対し、日中対訳辞書ファイル111を参照しながら公知の形態素解析を行って、形態素ごとの日本語単語に分割し、この分割された日本語単語を形態素解析テーブル121に登録するものである。
ここで、形態素とは、意味を有する最小の言語の単位をいい、一つ以上の音素から構成される。なお、本実施の形態では、形態素解析によって入力された日本語文を単語に分割しているが、他の解析処理によって単語分割するように構成してもよい。
未登録語判断部104は、形態素解析テーブル121に登録された日本語単語が当該日本語単語に対応する中国語単語が日中対訳辞書ファイル111に登録されていない未登録単語であるか否かを判断するものである。
未登録語訳生成部105は、形態素解析テーブル121に登録された日本語単語が未登録語判断部104によって未登録語であると判断された場合に、未登録語に対する訳語を生成するものである。具体的には、未登録語訳生成部105は、未登録語である日本語単語をさらに文字種(漢字、ひらがな文字、カタカナ文字、英数字等)ごとの文字または文字列に分割し、ひらがな文字列に対しては訳語を生成せず、漢字に対しては、日中漢字対応データベース112を参照して、日本語漢字に対応する中国語漢字を訳語とする処理を行う。また、漢字およびひらがな文字以外の文字(カタカナ文字、英数字等)に対しては、そのままの表記を訳語とする処理を行う。
変換部103は、形態素解析102によって形態素解析テーブル121に登録された日本語単語が、当該日本語単語に対応する中国語単語が日中対訳辞書ファイル111に登録されている登録単語である場合に、この対応する中国語単語を訳語とする処理を行うものである。
出力処理部106は、変換部103および未登録語訳生成部105によって生成された訳語をディスプレイ装置やプリンタ装置などの出力装置108に出力する処理を行うものである。
HDD110には、日中対訳辞書ファイル111と日中漢字対応データベース112が格納されている。ここで、HDD110は、本発明における記憶手段に相当する。
日中対訳辞書ファイル111は、日本語単語ごとに、日本語単語の表記、品詞および日本語単語の訳語である中国語を対応づけて登録した辞書ファイルである。
図2は、日中対訳辞書ファイル111の一例を示す説明図である。図2に示すように、日中対訳辞書ファイル111には、形態素ごとに日本語単語の表記、品詞、訳語が対応づけられて登録されている。図2において、訳語が「−」である場合には、出力装置108への出力において訳語が表示されない。
日中漢字対応データベース112は、日本語の漢字に対応する簡体字や繁体字の中国語漢字を登録したデータベースであり、未登録語の訳語を生成する際に、未登録語訳生成部105によって参照される。
図3は、日中漢字対応データベース112の一例を示す説明図である。図3に示すように、日中漢字対応データベース112には、日本語漢字と、当該日本語漢字に対応する簡体字や繁体字の中国語漢字が登録されている。
RAM(Random Access Memory)120には、形態素解析部102によって形態素解析テーブル121が生成され、また、未登録語訳生成部105によって、訳語バッファ122、未登録語文字列配列123が生成される。なお、本実施の形態では、形態素解析テーブル121、訳語バッファ122、未登録語文字列配列123をRAM120上に生成しているが、HDD110上に生成するように構成してもよい。
形態素解析テーブル121は、形態素解析部102によって生成され、形態素ごとに分割された日本語単語の表記、品詞、訳語が登録されたデータファイルである。
訳語バッファ122と未登録語文字列配列123は、未登録語訳生成部105によって生成され、未登録語の訳語生成時に一時的に漢字やひらがな文字を格納するバッファである。
次に、以上のように構成された本実施の形態にかかる日中機械翻訳装置による日中機械翻訳の全体処理について説明する。
図4は、日中機械翻訳の全体処理の手順を示すフローチャートである。
まず、入力装置107から日本語文が入力されると、入力された日本語文を入力処理部101で入力し受け付ける(ステップS401)。そして、形態素解析部102によって日中対訳辞書ファイル111を参照して、入力された日本語文を形態素を単位とした日本語単語に分割する(ステップS402)。この際、日中対訳辞書ファイル111から日本語単語の表記に対応する品詞および訳語を取得する。なお、日本語文の日本語単語への分割の処理は、形態素解析以外の技術を使用するように構成することもできる。
次いで、形態素解析部102によって、形態素解析テーブル121をRAM120上に生成し、形態素ごとの日本語単語を、日本語単語の表記ごとに、取得した品詞および訳語とともに形態素解析テーブル121に登録する(ステップS403)。ここで、日本語単語が日中対訳辞書ファイル111に登録されていない未登録語の場合には、品詞を「未知語」で、訳語を空欄で形態素解析テーブルに登録する。
ここで、日本語文として「彼はいつも社長に諂う」という文章が入力された場合を例にあげ、形態素解析テーブル121の例を説明する。
図5は、上記日本語文が入力された場合に、ステップS403までの処理が終了した時点での形態素解析テーブル121の一例を示す説明図である。図5に示すように、形態素解析テーブル121には、日本語単語の番号と表記と日中対訳辞書ファイル111から取得した品詞および訳語が登録されるが、「諂う」のように日中対訳辞書ファイル111に登録されていない未登録語の日本語単語の場合には、品詞が「未知語」、訳語が空欄で登録されている。
次に、変換部103によって、形態素解析テーブル121から日本語単語を取得する(ステップS404)。ここで、日本語単語の取得は、形態素解析テーブル121の先頭から行われる。そして、未登録語判断部104によって、ステップS404で形態素解析テーブル121から取得した日本語単語の品詞が「未知語」であるか否かを判断する(ステップS405)。これによって、取得した日本語単語が日中対訳辞書ファイル111に未登録の未登録語であるか否かを判断する。そして、日本語単語の品詞が「未知語」でない場合には(ステップS405:No)、この日本語単語は未登録語でないと判断し、変換部103によって、形態素解析テーブル121の日本語単語に対応する訳語を取得する(ステップS407)。
一方、ステップS405において、日本語単語の品詞が「未知語」である場合には(ステップS405:Yes)、この日本語単語は未登録語であると判断し、未登録語訳生成部105による未登録語訳生成処理を実行する(ステップS406)。このステップS406の未登録語訳生成処理の詳細については後述する。
そして、ステップS404からS406、S407までの処理を、形態素解析テーブル121に登録されている全ての日本語単語に対して繰り返し行う(ステップS408)。これにより、すべての日本語単語の訳語が生成されるので、出力処理部106によって、日本語文に訳語を付して出力装置108に出力する(ステップS409)。
次に、上記のステップS406で実行される未登録語訳生成部105による未登録語訳生成処理について説明する。
図6は、未登録語訳生成部105による未登録語訳生成処理の手順を示すフローチャートである。
まず、未登録語訳生成部105は、日中対訳辞書ファイル111に未登録語の日本語単語を、漢字、ひらがな文字、カタカナ文字、英数字の文字種ごとの文字列に分割して、分割した文字列を日本語単語中の出現順にRAM120に確保された未登録語文字列配列123に異なる配列要素として格納する(ステップS601)。
図7は、未登録語文字列配列123の例を示す説明図である。上記の日本語文「彼はいつも社長に諂う」において、「諂う」が日中対訳辞書ファイル111の未登録語であるため、図7の例1に示すように、未登録語文字列配列123には、漢字の「諂」とひらがな文字の「う」が異なる配列要素として格納される。また、未登録語が「諂っている」の場合には、図7の例2に示すように、未登録語文字列配列123には、漢字「諂」とひらがな文字列「っている」が異なる配列要素として格納されることになる。
ステップS601にて未登録語文字列配列123に文字種毎の文字列に分割した未登録語を格納したら、次に、未登録語文字列配列123から配列要素に格納されている文字列を取得し(ステップS602)、取得した文字列が漢字か否かを調べる(ステップS603)。そして、取得した文字列が漢字である場合には(ステップS603:Yes)、日中漢字対応データベース112から取得した漢字に対応する中国語漢字を取得し(ステップS605)、取得した中国語漢字をRAM120に確保された訳語バッファ122に追加する(ステップS606)。
一方、ステップS603において、未登録語文字列配列123の配列要素から取得した文字列が漢字でない場合には(ステップS603:No)、当該文字列がひらがな文字であるか否かを調べる(ステップS604)。そして、取得した文字列がひらがな文字でない場合には(ステップS604:No)、取得したひらがな文字以外の文字列を訳語バッファ122に追加する(ステップS606)。
一方、ステップS604において、取得した文字列がひらがな文字である場合には(ステップS604:Yes)、取得したひらがな文字列は訳語バッファ122に追加しない。すなわち、未登録語の中のひらがな文字は訳語として扱われないことになる。
そして、ステップS602からS606までの処理を、未登録語文字列配列123のすべての配列要素に格納されている文字列に対して繰り返し実行し(ステップS607)、最後に、訳語バッファ122の内容を形態素解析テーブル121に設定する(ステップS608)。この形態素解析テーブル121の日本語文の訳語として出力処理部106に渡されることになるので、未登録語の中の漢字のみが未登録語の訳語となり、ひらがな文字については訳語として出力されないことになる。
図8は、日本語文「彼はいつも社長に諂う」が入力された場合における未登録語訳生成処理が終了した時点の訳語バッファ122の内容の一例を示す説明図である。図8に示すように、かかる日本語文において未登録語「諂う」のうち、漢字「諂」に対応する中国語漢字のみが訳語バッファ122に追加され、ひらがな文字「う」は訳語バッファ122に追加されていない。
また、図9は、日本語文「彼はいつも社長に諂う」が入力された場合における未登録語訳生成処理が終了した時点の形態素解析テーブル121の内容の一例を示す説明図である。図9に示すように、未登録語「諂う」の訳語には、図8で示した訳語バッファ122の内容、すなわち、日本語漢字「諂」に対応する中国語漢字のみが設定され、ひらがな文字「う」は設定されていない。このため、出力装置108に出力される中国語の訳語には、入力された日本語文に日中対訳辞書ファイル111への未登録語が存在している場合でも、ひらがな文字は出力されないことになる。
図10−1は、本実施の形態にかかる日中機械翻訳装置100において、日本語文「彼はいつも社長に諂う」が入力された場合の出力装置108への出力例を示す説明図である。また、図10−2は、従来の日中機械翻訳装置100において、日本語文「彼はいつも社長に諂う」が入力された場合の出力装置108への出力例を示す説明図である。
図10−2の従来の出力例では、未登録語「諂う」の訳語として、日本語漢字「諂」に対応する中国語漢字と、中国語として出現するはずのないひらがな文字「う」が出力されてしまうが、図10−1に示す本実施の形態の出力例では、このようなひらがな文字が出力されていないことがわかる。
このように実施の形態1にかかる日中機械翻訳装置100では、入力された日本語文を形態素ごとの日本語単語に分割し、分割された各日本語単語に中国語の訳を付加して表示する際に、日本語単語が日中対訳辞書ファイル111に登録されていない未登録語の場合に、訳語としてひらがな文字を出力しないため、ユーザに対する機械翻訳の品質に対する印象を良好にすることができる。
(実施の形態2)
実施の形態1にかかる日中機械翻訳装置100は、入力された日本語文を形態素ごとの日本語単語に分割し、分割された各日本語単語に日中対訳辞書ファイル111に登録されていない未登録語を含む場合に、一切のひらがな文字を出力しないものであったが、ひらがな文字でも固有名詞等を表現する場合がある。このため、この実施の形態2にかかる日中機械翻訳装置100では、未登録語の中のひらがな文字列の文字数または音節数が予め定められた整数値n以下の場合には、そのひらがな文字列は動詞の送りがな等と見做し、訳語としてひらがな文字を出力しないようにしている。
本実施の形態にかかる日中機械翻訳装置100の機能的構成については、実施の形態1と同様であるため、説明を省略する。本実施の形態では、未登録語訳生成部105が、未登録語の中のひらがな文字列の文字数または音節数が予め定められた整数値n以下の場合に、訳語バッファ122にひらがな文字列を追加せず、ひらがな文字列の文字数または音節数がnより大きい場合に、訳語バッファ122にひらがな文字列を追加する点が、ひらがな文字列を訳語バッファ122に追加しない実施の形態1の未登録語訳生成部105と異なっている。
本実施の形態にかかる日中機械翻訳装置100による日中機械翻訳の全体処理については実施の形態1と同様に行われる。
図11は、実施の形態2にかかる日中機械翻訳装置100の未登録語訳生成部105による未登録語訳生成処理の手順を示すフローチャートである。なお、本実施の形態では、nとして文字数を用いる例を示すが、nを音節数としてもよい。
未登録語を文字種ごとの文字列に分割して未登録語文字列配列123に格納してから、未登録語文字列配列123から取得した文字列がひらがな文字であるか否かを調べるまでの処理(ステップS1101〜S1104)は、実施の形態1における未登録語訳生成処理のステップS601からS604までの処理と同様に行われる。
次に、取得した文字列がひらがな文字でない場合には(ステップS1104:No)、取得したひらがな文字以外の文字列を訳語バッファ122に追加する(ステップS1107)。
一方、ステップS1104において、取得した文字列がひらがな文字である場合には(ステップS1104:Yes)、さらに取得したひらがな文字列の文字数がn以下か否かを調べる(ステップS1106)。ここで、nとしては、例えば未登録語の動詞の送りがなの最大文字数の統計を予めとっておき、かかる最大値をnとして使用することが考えられるが、nの値についてはこれに限られるものではない。具体的には、nの値は、2または3とすることが可能である。
また、ユーザが任意の値を設定することが出来るようにしてもよい。
そして、ステップS1106において、ひらがな文字列の文字数がn以下である場合には(ステップS1106:Yes)、ひらがな文字列を訳語バッファ122に追加せず、一方、ひらがな文字列の文字数がnより大きい場合には(ステップS1106:No)、ひらがな文字列を訳語バッファ122に追加する(ステップS1107)。これにより、文字数がn以上のひらがな文字列は、動詞の送りがな等であると判断され、訳語として出力されないが、文字数がnより大きいひらがな文字列は、固有名詞等であると判断されて訳語として出力されることになる。
訳語バッファ122に追加した後は、実施の形態1と同様に、ステップS1102からS1107までの処理を、未登録語文字列配列のすべての配列要素に格納されている文字列に対して繰り返し実行し(ステップS1108)、最後に、訳語バッファ122の内容を形態素解析テーブル121に設定する(ステップS1109)。この形態素解析テーブル121の日本語文の訳語として出力処理部106に渡されることになるので、未登録語の中の漢字と文字数がnより大きいひらがな文字列が未登録語の訳語となり、文字数n以下のひらがな文字列については訳語として出力されないことになる。
このように実施の形態2にかかる日中機械翻訳装置100では、未登録語の中のひらがな文字列の文字数または音節数が予め定められた整数値n以下の場合に、訳語としてひらがな文字列を出力しないため、固有名詞等がひらがな文字で表現されている場合に、ひらがな文字を一律に省略することなく、固有名詞等をそのまま出力することが可能となり、ユーザに対する機械翻訳の品質に対する印象をより良好にすることができる。
(実施の形態3)
実施の形態2にかかる日中機械翻訳装置100では、未登録語の中のひらがな文字列の文字数または音節数が予め定められた整数値n以下の場合に、訳語としてひらがな文字列を出力しないものであったが、ひらがな文字列の文字数または音節数が整数値nより大きい場合でも、複数の付属語が連続した場合など、固有名詞等に該当しない場合が考えられる。ここで、付属語とは、単独では文節になりえない語をいい、例えば、助動詞「打たれる」の中の「たれる」や、「人が」の中の助詞「が」等が付属語に該当する。
このため、この実施の形態3にかかる日中機械翻訳装置は、予め他の日本語単語に接続可能なひらがな文字またはひらがな文字列を付属語として登録した付属語辞書と付属語の接続先を示す付属語接続テーブルとを用い、ひらがな文字列に対しては、後続する日本語単語に接続可能な付属語であるか否かを判断して、未登録語のすべての付属語が互いに接続可能である場合に、そのひらがな文字列が固有名詞等ではないと判断(見做した判断)して、訳語を出力しないものである。
図12は、本発明の実施の形態3にかかる日中機械翻訳装置の機能的構成を示すブロック図である。本実施の形態の日中機械翻訳装置1200は、図12に示すように、入力処理部101と、形態素解析部102と、変換部103と、未登録語判断部104と、未登録語訳生成部1205と、出力処理部106と、入力装置107と、出力装置108と、HDD110と、RAM120を主に備えている。
入力処理部101、形態素解析部102、変換部103、未登録語判断部104、未登録語訳生成部1205、出力処理部106、入力装置107および出力装置108は、実施の形態1にかかる日中機械翻訳装置100と同様の機能を有するため、説明を省略する。
未登録語訳生成部105は、形態素解析テーブル121に登録された日本語単語が未登録語判断部104によって未登録語であると判断された場合に、未登録語に対する訳語を生成するものである。本実施の形態では、未登録語訳生成部1205は、未登録語である日本語単語をさらに文字種(漢字、ひらがな文字、カタカナ文字、英数字等)ごとの文字または文字列に分割し、ひらがな文字列から付属語である文字列を抽出し、抽出された付属語の文字列の中で、いずれかの付属語が後続する付属語と互いに接続不可能である場合にひらがな文字列そのままを訳語とする処理を行う。また、未登録語訳生成部1205は、実施の形態1と同様に、漢字に対しては、日中漢字対応データベース112を参照して、日本語漢字に対応する中国語漢字を訳語とする処理を行う。また、漢字およびひらがな文字以外の文字(カタカナ文字、英数字等)に対しては、そのままの表記を訳語とする処理を行う。
図13は、未登録語訳生成部1205の機能的構成を示すブロック図である。未登録語訳生成部1205は、図13に示すように、付属語抽出部1301と、付属語列解析可否判定部1302と、訳語生成部1303とを備えている。
付属語抽出部1301は、後述する付属語辞書ファイル1211を参照して、未登録語中のひらがな文字列から付属語の文字列を抽出するものである。付属語列解析可否判定部1302は、付属語接続テーブル1212を参照して、付属語抽出部1301によって抽出された付属語の文字列の各付属語が後続する付属語と接続可能か否か、すなわち抽出された付属語の文字列が付属語列として解析可能であるか否かを判断するものである。ここで、本実施の形態における付属語列とは、付属語の文字列の中の各付属語が互いに接続可能である場合の付属語のひらがな文字列をいう。
訳語生成部1303は、付属語列解析可否判定部1302によって、未登録語中の付属語の文字列の中の全ての付属語が後続する付属語に接続可能であり付属語列として解析可能であると判断された場合に、訳語を生成しない処理を行い、付属語の文字列の中のいずれかの付属語が後続する付属語に接続不可能であり付属語列として解析不可能である場合にひらがな文字列そのままを訳語とする処理を行う。
図12に戻り、HDD110には、日中漢字対応データベース111と日中対訳辞書ファイル112と付属語辞書ファイル1211と付属語接続テーブル1212とが格納されている。ここで、HDD110は、本発明における記憶手段に相当する。また、日中漢字対応データベース111および日中対訳辞書ファイル112の構造は、実施の形態1と同様であるため説明を省略する。
付属語辞書ファイル1211は、付属語であるひらがな文字あるいはひらがな文字列とその品詞を予め登録した辞書ファイルである。
図14は、付属語辞書ファイル1211のデータ構造の一例を示す説明図である。付属語辞書ファイル1211は、図14に示すように、付属語を識別するための付属語番号と、付属語の表記と、付属語の品詞が対応付けられて登録されている。品詞からわかるように、付属語は、助詞や助動詞若しくは動詞の活用語尾が主なものである。
付属語接続テーブル1212は、付属語が接続可能な付属語を示すデータである。
図15は、付属語接続テーブル1212のデータ構造の一例を示す説明図である。図15に示すように、付属語接続テーブル1212は、付属語番号と接続リストとが対応付けられている。接続リストは、付属語番号に対応する付属語が後続する文字として接続可能な付属語の付属語番号を列挙したものである。
図15において、例えば、付属語番号「2」の付属語(図14の例では「も」)の後ろには、番号「29」の付属語または番号「33」の付属語または番号「45」の付属語が接続可能であることを示している。
例えば、未登録語が「諂うのは」である場合、かかる文字列に含まれるひらがな文字列「うのは」は付属語列として解析可能である。すなわち、ひらがな文字列「うのは」は、図14の付属語辞書ファイル1211を参照すると、付属語「う」(付属語番号「6」)、付属語「の」(付属語番号「0」)、付属語「は」(付属語番号「1」)に分割することができる。次に、付属語接続テーブル1212を参照すると、付属語番号「6」の付属語「う」の後ろに付属語番号「0」の付属語「の」が接続可能であり、付属語番号「0」の付属語「の」の後ろに付属語番号「1」の付属語「は」が接続可能であることがわかる。これによって、ひらがな文字列「うのは」の中の各付属語「う」、「の」、「は」は、この順で接続可能であり、ひらがな文字列「うのは」付属語列として解析可能である。このため、ひらがな文字列「うのは」に対する訳語は生成されないことになる。
図12に戻り、RAM120には、形態素解析部102によって形態素解析テーブル121が生成され、また、未登録語訳生成部1205によって、訳語バッファ122、未登録語文字列配列123が生成される。また、RAM120には、付属語抽出部1301によって、付属語テーブル1221と付属語索引テーブル1222が生成される。なお、本実施の形態では、形態素解析テーブル121、訳語バッファ122、未登録語文字列配列123、付属語テーブル1221と付属語索引テーブル1222をRAM120上に生成しているが、HDD110上に生成するように構成してもよい。
ここで、形態素解析テーブル121、訳語バッファ122、未登録語文字列配列123については、実施の形態1と同様であるため説明を省略する。
付属語テーブル1221は、未登録語中のひらがな文字列に含まれる付属語を登録したデータであり、付属語索引テーブル1222は未登録語中のひらがな文字列に含まれる付属語の索引データである。なお、付属語テーブル1221および付属語索引テーブル1222の詳細については後述する。
次に、以上のように構成された本実施の形態にかかる日中機械翻訳装置1200による日中機械翻訳の処理について説明する。本実施の形態にかかる日中機械翻訳装置100による日中機械翻訳の全体処理については実施の形態1と同様に行われる。
図16は、実施の形態3にかかる日中機械翻訳装置1200の未登録語訳生成部1205による未登録語訳生成処理の手順を示すフローチャートである。
未登録語を文字種ごとに分割して未登録語文字列配列123に格納してから、未登録語文字列配列123から取得した文字列がひらがな文字であるか否かを調べるまでの処理(ステップS1601〜S1604)は、実施の形態1における未登録語訳生成処理のステップS601からS604までの処理と同様に行われる。
ステップS1604において、取得した文字列がひらがな文字でない場合には(ステップS1604:No)、取得したひらがな文字以外の文字列を訳語バッファ122に追加する(ステップS1609)。
一方、ステップS1604において、取得した文字列がひらがな文字である場合には(ステップS1604:Yes)、付属語抽出部1301によって付属語抽出処理を行う(ステップS1606)。そして、付属語列解析可否判定部1302によって、抽出された付属語の文字列の中の各付属語が互いに接続可能であるか否か、すなわち付属語列として解析可能であるか否かを判断する付属語列解析可否判定処理を行う(ステップS1607)。かかる判定処理は、具体的には判定関数FUNC(−1,0)を発行することにより行われ、付属語列として解析可能か否かが判定関数FUNC(−1,0)の復帰値に示されるようになっている。すなわち、判定関数FUNC(−1,0)の復帰値が1の場合には付属語列として解析可能であることを示し、復帰値が0である場合は付属語列として解析不可能であることを示す。付属語抽出処理および付属語列解析可否判定処理の詳細については後述する。
ステップS1607における付属語列解析可否判定処理によって、ひらがな文字列が付属語列として解析可能であるか否か(判定関数FUNC(−1,0)の復帰値が1か否か)を判断し(ステップS1608)、解析可能である場合には(ステップS1608:Yes)、未登録語のひらがな文字列は付属語列であるため、このひらがな文字に対する訳語は生成されない。
一方、ステップS1608において、ひらがな文字列が付属語列として解析不可能であると判断された場合には(ステップS1608:No)、そのひらがな文字列を訳語バッファ122に追加する(ステップS1609)。
訳語バッファ122に追加した後は、実施の形態1と同様に、ステップS1602からS1609までの処理を、未登録語文字列配列のすべての配列要素に格納されている文字列に対して繰り返し実行し(ステップS1610)、最後に、訳語バッファ122の内容を形態素解析テーブル121に設定する(ステップS1611)。この形態素解析テーブル121の内容は、入力された日本語文の訳語として出力処理部106に渡されることになるので、未登録語のひらがな文字列が付属語列として解析可能である場合には、かかるひらがな文字は、動詞の送りがなや助詞等であると判断されて、訳語として出力されない。しかし、未登録語のひらがな文字列が付属語列として解析不可能である場合には、固有名詞等であると判断されて訳語として出力されることになる。
次に、ステップS1606における付属語抽出部1301による付属語抽出処理について説明する。
図17は、付属語抽出部1301による付属語抽出処理の手順を示すフローチャートである。
まず、付属語抽出部1301は、ポインタP1に0をセットし、文字列長Lに未登録語のひらがな文字列の文字列長を代入する(ステップS1701)。ここで、P1は、取り出す部分文字列の始点を指すポインタであり、P1の値が0であることは、文字列の先頭から始まる部分文字列を取り出すことを示している。
次に、P2を、取り出す部分文字列の終点(部分文字列に後続する文字の始点)を指すポインタとし、ポインタP2に最初にP1+1をセットする(ステップS1702)。このとき、部分文字列に後続する文字が存在しない場合には、仮想的に存在しているものとしてポインタP2の値を変更する。
そして、ポインタP1を始点、ポインタP2を終点とする部分文字列が付属語として付属語辞書ファイル1211に登録されているか否かを検索する(ステップS1703)。そして、検索結果が存在するか否か、すなわち付属語として登録されているか否かを判断し(ステップS1704)、存在する場合には(ステップS1704:Yes)、検索結果としての付属語を付属語テーブル1221と付属語索引テーブル1222に登録する(ステップS1705)。
一方、ステップS1704において、検索結果が存在しない場合、すなわち付属語として登録されていない場合には(ステップS1704:No)、付属語テーブル1221と付属語索引テーブル1222への登録は行われない。
次に、ポインタP2を一文字後ろにずらし(ステップS1706)、取得する部分文字列の終点であるポインタP2がひらがな文字列の文字列長Lと同一の値に達するまで、すなわち、ひらがな文字列の終端に達するまで、ステップS1703からS1706までの処理を繰り返す(ステップS1707)。ステップS1707でポインタP2が文字列長Lに達したら、次いで、ポインタP1を一文字後ろにずらし、取得する部分文字列の始点であるポインタP1がひらがな文字列の文字列長L、すなわち、ひらがな文字列の終端に達するまで、ステップS1702からS1708までの処理を繰り返す(ステップS1709)。ステップS1709でポインタP1が文字列長Lに達したら処理を終了する。これによりひらがな文字列に含まれ得るすべての付属語が抽出され、付属語テーブル1221、付属語索引テーブル1222に登録されることになる。
図18は、付属語テーブル1221のデータ構造の一例を示す説明図である。図18の例では、図14に示す付属語辞書ファイル1211を前提に未登録語が「諂うのは」である場合における検索された付属語の例を示している。また、図19は、付属語索引テーブル1222のデータ構造の一例を示す説明図である。図19の例では、図18に示す付属語テーブル1221の索引を示している。
すなわち、上述した付属語抽出処理によって、未登録語中のひらがな文字列「うのは」の任意の部分文字列「う」、「うの」、「うのは」、「の」、「のは」、「は」の中で、付属語辞書ファイル1211に登録されている付属語は、「う」、「の」、「は」であるので、これらの付属語番号、始点、終点が付属語テーブル1221に登録され、それぞれ固有の番号である付属語テーブル番号が付与される。付属語索引テーブル1222は、始点をキーとして付属語テーブル1221に登録された付属語を並び替えたものである。図19の例では、各始点について「付属語テーブル番号リスト」に一つずつ付属語テーブル番号が登録されているが、他の例では、ある始点に複数の付属語テーブル番号が登録されたり、一つも登録がない始点が存在することも考えられる。
次に、ステップS1607における付属語列解析可否判定処理を行う判定関数FUNCの処理について説明する。
図20は、付属語列解析可否判定処理を行う判定関数FUNCの処理手順を示すフローチャートである。
判定関数FUNCは、2個の引数をとる。第1引数は、付属語テーブル番号であり、第2引数は始点である。判定関数FUNCは、第1引数で与えられた付属語テーブル番号の付属語の後ろに第2引数で与えられた始点で始まる文字列の付属語が接続可能かどうかを判定し、接続可能であれば復帰値として1を返し、接続不可能であれば復帰値として0を返すようになっている。
まず、付属語列解析可否判定部1302は、第1引数を変数Fにセットし、第2引数を変数Sにセットする(ステップS2001)。そして、Sを始点とする付属語テーブル番号のリストを付属語索引テーブル1222から取得する(ステップS2002)。そして、付属語テーブル番号リストの終わりか否かを判断し(ステップS2003)、終わりでない場合には(ステップS2003:No)、取得したリストから付属語テーブル番号を一つずつ取得し、Fiとする(ステップS2004)。
そして、付属語接続テーブル1212を参照して(ステップS2005)、付属語テーブル番号Fに対応する付属語番号の付属語に、付属語テーブル番号Fiに対応する付属語番号の付属語が接続可能かどうか判定する(ステップS2006)。ここで、付属語テーブル番号に対応する付属語番号は、付属語テーブル1221を参照して取得する。ただし、Fが−1(付属語テーブルに存在しない特殊なIDを示す)の場合はFiが無条件で接続可能とする。
付属語テーブル番号Fに対応する付属語番号の付属語に、付属語テーブル番号Fiに対応する付属語番号の付属語が接続可能な場合(ステップS2006:Yes)、付属語テーブル番号Fiの終点Eiがひらがな文字列の末尾に達したか否かを判断する(ステップS2007)。そして、末尾に達した場合には(ステップS2007:Yes)、復帰値に1を設定して(ステップS2010)、処理を終了する。
一方、ステップS2007において、付属語テーブル番号Fiの終点Eiがひらがな文字列の末尾に達していないと判断した場合は(ステップS2007:No)、Fiを第1引数、Eiを第2引数として判定関数FUNCを再帰的に呼び出す(S2008)。そして、判定関数FUNCの復帰値が1(解析可能)であるか否かを判断し(ステップS2009)、復帰値が1である場合には(ステップS2007:Yes)、復帰値に1を設定して(ステップS2010)、処理を終了する。
一方、ステップS2009において、再帰的呼び出しのFUNCの復帰値が1でない場合には(ステップS2009:No)、ステップS2002で付属語索引テーブル1222から取得した付属語テーブル番号リストから次の付属語テーブル番号を取出してステップS2003からS2008までの処理を繰り返し実行する。そして、付属語テーブル番号リストの終わりに達したら、すなわち付属語テーブル番号リストが空になったら(S2003:Yes)、復帰値に0を設定し(ステップS2011)、処理を終了する。
付属語テーブル1221および付属語索引テーブル1222が図18、図19に示す例の場合、すなわち、図20においてF=−1、S=0としたときの処理では、まず、始点が0である付属語テーブル番号は0だけである。次に、かかる付属語テーブル番号を取得して、Fi=0とする。ここで、F=−1であるからFにFiが無条件で接続可能である。Fiの終点Ei=1はひらがな文字列の末尾3に達していないので、FUNC(0,1)が再帰的に計算される。すなわち、F=0、S=1として図20に示すフローチャートの処理が再度行われる。始点が1である付属語テーブル番号は1だけであるため、これを取得し、Fi=1とする。図18に示すように、F=0の付属語番号は6、Fi=1の付属語番号は0であるので、付属語テーブル番号Fの付属語に付属語テーブル番号Fiの付属語が接続可能であることがわかる。
Fiの終点Ei=2もまだひらがな文字列の末尾3には達していないので、再度FUNC(1,2)が再帰的に計算される。すなわち、F=1、S=2として、図20に示すフローチャートの処理が再々度行われる。始点が2である付属語テーブル番号は2だけであるので、これを取り出し、Fi=2とする。図18の付属語テーブル1221に示すように、付属語テーブル番号F=1の付属語番号は0、付属語テーブル番号Fi=2の付属語番号は1であるので、図15に示す付属語接続テーブル1212を参照するとFにFiが接続可能であることがわかる。ここで、Fiの終点Ei=3がひらがな文字列の末尾に達した場合に、復帰値1を返す。ここでも復帰値1を返し、FUNC(−1,0)のS2009に戻る。さらにここでも復帰値1を返すので図16のステップS1607の出力は1となり、ひらがな文字列「うのは」は付属語列として解析可能であることがわかる。従って、上述したとおり。ひらがな文字列「うのは」に対する訳語は生成されないことになる。
このように実施の形態3にかかる日中機械翻訳装置1200では、予め他の付属語に接続可能なひらがな文字あるいはひらがな文字列を付属語として登録した付属語辞書ファイルと付属語の接続先を示す付属語接続テーブルとを用い、ひらがな文字列に対しては、後続する日本語単語に接続可能な付属語であるか否かを判断して、未登録語のすべての付属語が互いに接続可能である場合に、そのひらがな文字列が固有名詞等ではないと判断して訳語を出力しないので、未登録語のひらがな文字列が固有名詞等であるか否かを判断した上で、ひらがな文字列の訳語を出力するかしないかを自動的に判断することができ、機械翻訳を正確に行えるとともに、ユーザに対する機械翻訳の品質に対する印象をより良好にすることができる。
以上説明した実施の形態1〜3にかかる日中機械翻訳装置は、CPUなどの制御装置と、ROM(Read Only Memory)やRAMなどの記憶装置と、HDD、CDドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。
実施の形態1〜3にかかる日中機械翻訳装置で実行される日中機械翻訳プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、実施の形態1〜3にかかる日中機械翻訳装置で実行される日中機械翻訳プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の〜装置で実行される〜プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、実施の形態1〜3の日中機械翻訳プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
実施の形態1〜3にかかる日中機械翻訳装置で実行される日中機械翻訳プログラムは、上述した各部(入力処理部101と、形態素解析部102、変換部103、未登録語判断部104、未登録語訳生成部105,1205、出力処理部106)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体から日中機械翻訳プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、入力処理部101と、形態素解析部102、変換部103、未登録語判断部104、未登録語訳生成部105,1205、出力処理部106が主記憶装置上に生成されるようになっている。
なお、実施の形態1〜3では、入力された日本語文を形態素解析で分割して、分割された各単語の中国語訳語を付加する簡易な形態の日中機械翻訳装置を例にあげて説明したが、入力された日本語文を翻訳して中国語文を出力する形態の日中機械翻訳装置に本発明を適用することが可能である。
なお、本発明は上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせてもよい。また、実施の形態1〜3の複数を適宜組み合わせても良い。
以上のように、本発明にかかる日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラムは、日中対訳辞書に未登録単語を含む日本語文を中国語に翻訳して出力する日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラムに適している。
本発明の実施の形態1にかかる日中機械翻訳装置の機能的構成を示すブロック図である。 日中対訳辞書ファイル111の一例を示す説明図である。 日中漢字対応データベース112の一例を示す説明図である。 日中機械翻訳の全体処理の手順を示すフローチャートである。 ステップS403までの処理が終了した時点での形態素解析テーブル121の一例を示す説明図である。 未登録語訳生成部105による未登録語訳生成処理の手順を示すフローチャートである。 未登録語文字列配列123の例を示す説明図である。 未登録語訳生成処理が終了した時点の訳語バッファ122の内容の一例を示す説明図である。 未登録語訳生成処理が終了した時点の形態素解析テーブル121の内容の一例を示す説明図である。 実施の形態1にかかる日中機械翻訳装置100の出力例を示す説明図である。 従来の日中機械翻訳装置の出力例を示す説明図である。 実施の形態2にかかる日中機械翻訳装置100の未登録語訳生成部105による未登録語訳生成処理の手順を示すフローチャートである。 実施の形態3にかかる日中機械翻訳装置の機能的構成を示すブロック図である。 未登録語訳生成部1205の機能的構成を示すブロック図である。 付属語辞書ファイル1211のデータ構造の一例を示す説明図である。 付属語接続テーブル1212のデータ構造の一例を示す説明図である。 実施の形態3にかかる日中機械翻訳装置1200の未登録語訳生成部1205による未登録語訳生成処理の手順を示すフローチャートである。 付属語抽出部1301による付属語抽出処理の手順を示すフローチャートである。 付属語テーブル1221のデータ構造の一例を示す説明図である。 付属語索引テーブル1222のデータ構造の一例を示す説明図である。 付属語列解析可否判定処理を行う判定関数FUNCの処理手順を示すフローチャートである。
符号の説明
101 入力処理部
102 形態素解析部
103 変換部
104 未登録語判断部
105,1205 未登録語訳生成部
106 出力処理部
107 入力装置
108 出力装置
110 HDD
111 日中対訳辞書ファイル
112 日中漢字対応データベース
120 RAM
121 形態素解析テーブル
122 訳語バッファ
123 未登録語文字列配列
1211 付属語辞書ファイル
1212 付属語接続テーブル
1221 付属語テーブル
1222 付属語索引テーブル
1301 付属語抽出部
1302 付属語列解析可否判定部
1303 訳語生成部

Claims (14)

  1. 入力された日本語文を中国語に翻訳して出力する日中機械翻訳装置であって、
    日本語文から形態素ごとに分割された日本語単語と該日本語単語の訳語である中国語単語とを対応づけて登録した日中対訳辞書を記憶する記憶手段と、
    入力された日本語文から分割された前記日本語単語が前記日中対訳辞書に登録されていない未登録語であるか否かを判断する未登録語判断手段と、
    前記未登録語判断手段によって前記日本語単語が前記未登録語であると判断された場合に、前記未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、分割された前記非ひらがな文字列のみに対して訳語を生成する未登録語訳生成手段と、
    を備えたことを特徴とする日中機械翻訳装置。
  2. 入力された日本語文を中国語に翻訳して出力する日中機械翻訳装置であって、
    日本語文から形態素ごとに分割された日本語単語と該日本語単語の訳語である中国語単語とを対応づけて登録した日中対訳辞書を記憶する記憶手段と、
    入力された日本語文から分割された前記日本語単語が前記日中対訳辞書に登録されていない未登録語であるか否かを判断する未登録語判断手段と、
    前記未登録語判断手段によって前記日本語単語が前記未登録語であると判断された場合に、前記未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、前記ひらがな文字列の文字数または音節数が予め定められた閾値以下である場合に、前記ひらがな文字列に対して訳語を生成しない未登録語訳生成手段と、
    を備えたことを特徴とする日中機械翻訳装置。
  3. 前記未登録語訳生成手段は、さらに、前記ひらがな文字列の文字数または音節数が前記閾値より大きい場合に、前記ひらがな文字列をそのまま訳語とすることを特徴とする請求項2に記載の日中機械翻訳装置。
  4. 入力された日本語文を中国語に翻訳して出力する日中機械翻訳装置であって、
    日本語単語と該日本語単語の訳語である中国語単語とを対応づけて登録した日中対訳辞書を記憶する記憶手段と、
    入力された日本語文から分割された前記日本語単語が前記日中対訳辞書に登録されていない未登録語であるか否かを判断する未登録語判断手段と、
    前記未登録語判断手段によって前記日本語単語が前記未登録語であると判断された場合に、前記未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、分割された前記ひらがな文字列が他の日本語単語に接続可能な付属語の一または複数の連続である場合には前記ひらがな文字列に対して訳語を生成しない未登録語訳生成手段と、
    を備えたことを特徴とする日中機械翻訳装置。
  5. 前記記憶手段は、さらに、一または複数のひらがな文字の連続であるひらがな文字列の中で他の日本語単語に接続可能な付属語を登録した付属語辞書情報と、前記付属語と前記付属語が接続可能な他の前記付属語とを対応付けた付属語接続情報とを記憶し、
    前記未登録語訳生成手段は、前記未登録語判断手段によって前記日本語単語が前記未登録語であると判断された場合に、前記未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、分割された前記ひらがな文字列の中から前記付属語辞書情報に登録された一または複数の前記付属語を抽出する付属語抽出手段と、
    前記付属語抽出手段によって抽出された前記付属語のそれぞれに対して、後続する付属語に接続可能か否かを判断する付属語列解析可否判断手段と、
    前記付属語列解析可否判断手段によって前記付属語が前記後続する付属語に接続可能と判断された前記ひらがな文字列に対して訳語を生成しない訳語生成手段と、
    を備えたことを特徴とする請求項4に記載の日中機械翻訳装置。
  6. 前記訳語生成手段は、前記付属語列解析可否判断手段によって前記付属語が前記後続する付属語に接続不可能と判断された前記ひらがな文字列をそのまま訳語とすることを特徴とする請求項5に記載の日中機械翻訳装置。
  7. 前記記憶手段は、さらに前記日本語漢字と前記日本語漢字に対応する表記の中国語漢字とを対応づけて登録した日中対応漢字情報を記憶し、
    前記未登録語訳生成手段は、さらに、前記分割された前記非ひらがな文字列の中の日本語漢字に対して、前記日中対応漢字情報に登録された該日本語漢字に対応する中国語漢字を訳語として生成することを特徴とする請求項1〜6のいずれか一つに記載の日中機械翻訳装置。
  8. 前記未登録語訳生成手段は、さらに、前記分割された前記非ひらがな文字列の中の日本語漢字以外の文字をそのまま訳語とすることを特徴とする請求項7に記載の日中機械翻訳装置。
  9. 入力された日本語文を中国語に翻訳して出力する日中機械翻訳方法であって、
    入力された日本語文から形態素ごと分割された日本語単語が、日本語単語と該日本語単語の訳語である中国語単語とを対応づけて登録した日中対訳辞書に登録されていない未登録語であるか否かを判断する未登録語判断ステップと、
    前記未登録語判断ステップによって前記日本語単語が前記未登録語であると判断された場合に、前記未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、分割された前記非ひらがな文字列のみに対して訳語を生成する未登録語訳生成ステップと、
    を含むことを特徴とする日中機械翻訳方法。
  10. 入力された日本語文を中国語に翻訳して出力する日中機械翻訳方法であって、
    入力された日本語文から形態素ごと分割された日本語単語が、日本語単語と該日本語単語の訳語である中国語単語とを対応づけて登録した日中対訳辞書に登録されていない未登録語であるか否かを判断する未登録語判断ステップと、
    前記未登録語判断ステップによって前記日本語単語が前記未登録語であると判断された場合に、前記未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、前記ひらがな文字列の文字数または音節数が予め定められた閾値以下である場合に、前記ひらがな文字列に対して訳語を生成しない未登録語訳生成ステップと、
    を含むことを特徴とする日中機械翻訳方法。
  11. 入力された日本語文を中国語に翻訳して出力する日中機械翻訳方法であって、
    入力された日本語文から形態素ごと分割された日本語単語が、日本語単語と該日本語単語の訳語である中国語単語とを対応づけて登録した日中対訳辞書に登録されていない未登録語であるか否かを判断する未登録語判断ステップと、
    前記未登録語判断ステップによって前記日本語単語が前記未登録語であると判断された場合に、前記未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、分割された前記ひらがな文字列が他の日本語単語に接続可能な付属語の一または複数の連続である場合には前記ひらがな文字列に対して訳語を生成しない未登録語訳生成ステップと、
    を含むことを特徴とする日中機械翻訳方法。
  12. 入力された日本語文を中国語に翻訳して出力する日中機械翻訳プログラムであって、
    入力された日本語文から形態素ごと分割された日本語単語が、日本語単語と該日本語単語の訳語である中国語単語とを対応づけて登録した日中対訳辞書に登録されていない未登録語であるか否かを判断する未登録語判断手順と、
    前記未登録語判断手順によって前記日本語単語が前記未登録語であると判断された場合に、前記未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、分割された前記非ひらがな文字列のみに対して訳語を生成する未登録語訳生成手順と、
    をコンピュータに実行させる日中機械翻訳プログラム。
  13. 入力された日本語文を中国語に翻訳して出力する日中機械翻訳プログラムであって、
    入力された日本語文から形態素ごと分割された日本語単語が、日本語単語と該日本語単語の訳語である中国語単語とを対応づけて登録した日中対訳辞書に登録されていない未登録語であるか否かを判断する未登録語判断手順と、
    前記未登録語判断手順によって前記日本語単語が前記未登録語であると判断された場合に、前記未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、前記ひらがな文字列の文字数または音節数が予め定められた閾値以下である場合に、前記ひらがな文字列に対して訳語を生成しない未登録語訳生成手順と、
    をコンピュータに実行させる日中機械翻訳プログラム。
  14. 入力された日本語文を中国語に翻訳して出力する日中機械翻訳プログラムであって、
    入力された日本語文から形態素ごと分割された日本語単語が、日本語単語と該日本語単語の訳語である中国語単語とを対応づけて登録した日中対訳辞書に登録されていない未登録語であるか否かを判断する未登録語判断手順と、
    前記未登録語判断手順によって前記日本語単語が前記未登録語であると判断された場合に、前記未登録語を一または複数のひらがな文字の連続であるひらがな文字列と一または複数のひらがな文字以外の文字の連続である非ひらがな文字列に分割し、分割された前記ひらがな文字列が他の日本語単語に接続可能な付属語の一または複数の連続である場合には前記ひらがな文字列に対して訳語を生成しない未登録語訳生成手順と、
    をコンピュータに実行させる日中機械翻訳プログラム。
JP2004159499A 2004-05-28 2004-05-28 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム Expired - Fee Related JP4018668B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004159499A JP4018668B2 (ja) 2004-05-28 2004-05-28 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
US11/138,463 US20050273316A1 (en) 2004-05-28 2005-05-27 Apparatus and method for translating Japanese into Chinese and computer program product
CNB2005100713796A CN100454294C (zh) 2004-05-28 2005-05-27 用于将日文翻译成中文的设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004159499A JP4018668B2 (ja) 2004-05-28 2004-05-28 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム

Publications (2)

Publication Number Publication Date
JP2005339347A true JP2005339347A (ja) 2005-12-08
JP4018668B2 JP4018668B2 (ja) 2007-12-05

Family

ID=35450121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004159499A Expired - Fee Related JP4018668B2 (ja) 2004-05-28 2004-05-28 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム

Country Status (3)

Country Link
US (1) US20050273316A1 (ja)
JP (1) JP4018668B2 (ja)
CN (1) CN100454294C (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100886687B1 (ko) 2007-12-12 2009-03-04 한국전자통신연구원 중국어 미등록어 자동 추출 방법 및 장치
JP2015185116A (ja) * 2014-03-26 2015-10-22 株式会社ゼンリンデータコム 翻訳装置、翻訳方法及び翻訳プログラム
JP2015185115A (ja) * 2014-03-26 2015-10-22 株式会社ゼンリンデータコム 翻訳装置、翻訳方法及び翻訳プログラム
JP2015191430A (ja) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム 翻訳装置、翻訳方法及び翻訳プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060149528A1 (en) * 2005-01-05 2006-07-06 Inventec Corporation System and method of automatic Japanese kanji labeling
JP4256891B2 (ja) * 2006-10-27 2009-04-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳の精度を向上させる技術
US10574932B2 (en) * 2008-07-28 2020-02-25 Fox Digital Enterprises, Inc. System and method of generating subtitling for media
JP5528420B2 (ja) * 2011-12-05 2014-06-25 シャープ株式会社 翻訳装置、翻訳方法及びコンピュータプログラム
CN103714053B (zh) * 2013-11-13 2017-05-10 北京中献电子技术开发中心 一种面向机器翻译的日语动词识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JPH077419B2 (ja) * 1989-06-30 1995-01-30 シャープ株式会社 機械翻訳装置における略称付き固有名詞処理方法
JPH04256171A (ja) * 1991-02-08 1992-09-10 Fujitsu Ltd 未登録語処理装置
JPH06266758A (ja) * 1993-03-15 1994-09-22 Csk Corp 日中機械翻訳方式
TW364971B (en) * 1997-01-24 1999-07-21 Misawa Homes Co Keyboard input apparatus
JP2003323425A (ja) * 2002-05-02 2003-11-14 Just Syst Corp 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100886687B1 (ko) 2007-12-12 2009-03-04 한국전자통신연구원 중국어 미등록어 자동 추출 방법 및 장치
JP2015185116A (ja) * 2014-03-26 2015-10-22 株式会社ゼンリンデータコム 翻訳装置、翻訳方法及び翻訳プログラム
JP2015185115A (ja) * 2014-03-26 2015-10-22 株式会社ゼンリンデータコム 翻訳装置、翻訳方法及び翻訳プログラム
JP2015191430A (ja) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム 翻訳装置、翻訳方法及び翻訳プログラム

Also Published As

Publication number Publication date
CN100454294C (zh) 2009-01-21
US20050273316A1 (en) 2005-12-08
JP4018668B2 (ja) 2007-12-05
CN1702650A (zh) 2005-11-30

Similar Documents

Publication Publication Date Title
Ebden et al. The Kestrel TTS text normalization system
US5930746A (en) Parsing and translating natural language sentences automatically
JP4267101B2 (ja) 音声識別装置、発音矯正装置およびこれらの方法
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
JP2007206975A (ja) 言語情報変換装置及びその方法
JP5025759B2 (ja) 発音矯正装置、発音矯正方法および記録媒体
JP4018668B2 (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
CN110555091A (zh) 一种基于词向量的联想词生成方法及装置
JPS6318458A (ja) 感情情報抽出装置
El-Imam et al. Rules and algorithms for phonetic transcription of standard Malay
JP6998017B2 (ja) 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
JP3589972B2 (ja) 音声合成装置
JP3326646B2 (ja) 機械翻訳システム用辞書・ルール学習装置
JP2007193350A (ja) 発音矯正装置、発音矯正方法および記録媒体
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP6325789B2 (ja) 翻訳装置及び翻訳プログラム
KR20040051351A (ko) 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치
JP3048793B2 (ja) 文字変換装置
Gokhale et al. A Survey of Morphological Analysis for Marathi Language
JP2715875B2 (ja) 多言語要約生成装置
JP3313810B2 (ja) アスペクト処理装置
JP2004326584A (ja) 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070920

R151 Written notification of patent or utility model registration

Ref document number: 4018668

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110928

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130928

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees