JP6221339B2 - 翻訳装置及び翻訳方法 - Google Patents

翻訳装置及び翻訳方法 Download PDF

Info

Publication number
JP6221339B2
JP6221339B2 JP2013102268A JP2013102268A JP6221339B2 JP 6221339 B2 JP6221339 B2 JP 6221339B2 JP 2013102268 A JP2013102268 A JP 2013102268A JP 2013102268 A JP2013102268 A JP 2013102268A JP 6221339 B2 JP6221339 B2 JP 6221339B2
Authority
JP
Japan
Prior art keywords
language
translation
term
common part
notation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013102268A
Other languages
English (en)
Other versions
JP2014222456A (ja
Inventor
育昌 鄭
育昌 鄭
友樹 長瀬
友樹 長瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013102268A priority Critical patent/JP6221339B2/ja
Publication of JP2014222456A publication Critical patent/JP2014222456A/ja
Application granted granted Critical
Publication of JP6221339B2 publication Critical patent/JP6221339B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、例えば、第1の言語で表された文を第2の言語の文に翻訳する翻訳装置及び翻訳方法に関する。
各種のソフトウェアが国際的に流通するようになり、ソフトウェアで利用されるメッセージなど、様々な文章を多言語化する要望がある。例えば、ホテルまたは航空券の予約サイトなど、複数の言語圏での利用が想定されるWebアプリケーションでは、ユーザは、一般に、ユーザの母国語でそのアプリケーションを利用する。そのため、Webアプリケーションの表示メッセージは、複数の言語の中から選択された言語で表示できることが好ましい。したがって、その表示メッセージは、例えば、特定の言語で作成された後、他の様々な言語に翻訳される。そのような多言語への翻訳を手作業で行うと非常にコストが掛かってしまう。そこで、特定の言語で書かれた文を他の言語に自動的に翻訳するための技術が提案されている(例えば、特許文献1及び2を参照)。
例えば、特許文献1に開示された翻訳メモリ翻訳装置は、例文対訳辞書を参照し、入力文と完全に一致する第1言語の例文を検索し、一致する例文が検索されないとき、入力文と第1言語の例文との差分に基づき入力文に類似する第1言語の例文候補を選択する。その際、この翻訳メモリ翻訳装置は、入力文を形態素解析した上で、例文との差分を行う。そしてこの翻訳メモリ翻訳装置は、例文候補の対訳となる第2言語の例文の中から差分に対応する文字列を識別し、入力文と第2言語の例文の対応関係を求め、識別された文字列を差分に基づき変換することで入力文の第2言語の訳文を生成する。
また、特許文献2に開示された通訳装置は、翻訳知識データベースを用いて文字列を目的言語に翻訳する。この通訳装置は、通訳方向の切り替えの有無に応じて、文字列及び翻訳結果の少なくとも一方の信頼度を評価し、文字列及び翻訳結果の少なくとも一方と信頼度を対応付けて記憶する。そしてこの通訳装置は、所定の信頼度に対応付けられた翻訳結果による翻訳知識データベースを更新する。ここで翻訳知識データベースは、原言語及び目的言語の語彙辞書、文法規則、両言語間の構造変換規則、両言語間の語彙の対応関係を示す訳語辞書、意味的に等価な両言語による文や表現の対である訳語対などの集合である。
特開2009−289219号公報 特開2010−186339号公報
上記のように、特許文献1及び2の何れにおいても、入力された文を翻訳するために、言語の構造に基づいて入力された文を解析することが行われる。しかしながら、言語によっては、そのような解析を行うために必要な技術または情報、例えば、形態素解析の手法及びその形態素解析に利用される辞書が存在せず、上記の特許文献に記載の技術が適用できないことがある。
そこで本明細書は、一つの側面として、入力された文に対して言語の構造に基づく解析を行わずにその入力された文を対象言語に翻訳できる翻訳装置を提供することを目的とする。
一つの実施形態によれば、翻訳装置が提供される。この翻訳装置は、第1の言語で表記された文のテキストデータを取得する入力部と、複数の用例のそれぞれについて、第1の言語の表記と第2の言語の表記とが登録された翻訳用例コーパスを記憶する記憶部と、複数の用例の第1の言語の表記のうち、取得された文と少なくとも部分一致する用例を検索対象用例として抽出する順方向検索部と、取得された文に含まれる複数の文字列のそれぞれごとに、検索対象用例のうちの少なくとも二つの第1の言語の表記間で最も長く、かつその文字列を含む第1の共通部分を求め、第1の共通部分を含む、検索対象用例の第2の言語の表記間の最も長い第2の共通部分を第2の言語の用語訳として抽出する最長共通部抽出部と、用語訳ごとに、複数の用例のうち、第2の言語の表記にその用語訳を含む用例を逆引き用例として抽出する逆方向検索部と、用語訳ごとに、逆引き用例に対応する第1の言語の表記間で最も長い共通部分をその用語訳に対応する第1言語の用語とし、その用語と対応する用語訳の組を対訳とする対訳生成部と、対訳を参照することにより、取得された文に含まれる各用語を、その用語に対応する用語訳に置換することで取得された文の第2の言語による訳文を生成する置換部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された翻訳装置は、入力された文に対して言語の構造に基づく解析を行わずにその入力された文を対象言語に翻訳できる。
第1の実施形態による翻訳装置の概略構成図である。 翻訳用例コーパスの一例を示す図である。 第1の実施形態による翻訳装置が有する処理部の機能ブロック図である。 翻訳用例コーパスから抽出される用例の日本語表記及び対応する中国語表記の一覧を含むテーブルを示す図である。 日本語表記と中国語表記の最長共通部分の一例を示す図である。 最長共通部分抽出処理の動作フローチャートである。 図2に示された翻訳用例コーパスに登録されている用例のうち、図5に示された中国語の最長共通部分である用語訳「監視器」を含む用例の一覧と、用語訳「網路」を含む用例の一覧を含むテーブルを示す図である。 翻訳処理の動作フローチャートである。 翻訳用例コーパスの他の一例を示す図である。 用語訳「網路」を含む用例の一覧を示す図である。 第2の実施形態による対訳生成処理の動作フローチャートである。
以下、図を参照しつつ、第1の実施形態による翻訳装置について説明する。
この翻訳装置は、複数の用例のそれぞれに対する、二つ以上の言語による表記が登録された翻訳用例コーパスを用いることにより、入力された文の構造を、形態素解析などを用いて解析することなくその文を翻訳する。そのために、この翻訳装置は、翻訳用例コーパスに登録された、入力された文の言語(以下、便宜上、第1言語と呼ぶ)と同じ言語の表記の用例の中から、入力された文の少なくとも一部と一致する用例を抽出する。この翻訳装置は、抽出された用例のうちの少なくとも二つについての共通部分が最長となる用例についての翻訳対象言語(以下、便宜上第2言語と呼ぶ)の表記の中で、最も長い共通部分を用語訳として抽出する。そしてこの翻訳装置は、その用語訳を含む第2言語表記の用例を翻訳用例コーパスから選択し、その選択された用例の第1言語表記の中で最も長い共通部分を、その用語訳に対応する第1言語の用語とする。そしてこの翻訳装置は、用語と用語訳とを対訳として、入力された文を用語ごとにその用語訳で置き換えることにより、入力された文を第2言語に翻訳する。
なお、以下の実施形態では、第1言語は日本語、第2言語は中国語とする。
図1は、第1の実施形態による翻訳装置の概略構成図である。本実施形態では、翻訳装置1は、入力部2と、記憶部3と、処理部4と、出力部5とを有する。
入力部2は、第1言語で表記された入力文のテキストデータを取得する。そのために、入力部2は、例えば、キーボードを有する。また、入力部2は、入力文のテキストデータを通信ネットワークを介して翻訳装置1と接続された他の機器から取得してもよい。この場合、入力部2は、翻訳装置1を通信ネットワークに接続するためのインターフェース回路を有する。なお、入力文のテキストデータは、どのようなファイル形式で表されていていもよい。
入力部2は、入力文のテキストデータを処理部4へ渡す。
記憶部3は、例えば、半導体メモリ回路、磁気記憶装置または光記憶装置のうちの少なくとも一つを有する。そして記憶部3は、処理部4で用いられる各種コンピュータプログラム、及び翻訳処理に用いられる翻訳用例コーパスといった各種のデータを記憶する。
図2は、翻訳用例コーパスの一例を示す図である。翻訳用例コーパス200の左側の列の各欄には、用例の日本語表記が登録されており、一方、右側の列の各欄には、その左隣に隣接する用例の日本語の表記と同じ意味の中国語の表記が登録されている。例えば、翻訳用例コーパス200には、用例「マルチモニター」についての日本語表記「マルチモニター」と中国語表記「多重監視器」が登録されている。なお、翻訳用例コーパスは、例えば、多言語化対応済みのオペレーションシステム、WebアプリケーションまたはWebサイトから、各言語によって表示されたメッセージを収集して翻訳用例コーパスに登録することによって生成できる。
出力部5は、処理部4から受け取った翻訳文のテキストデータを表示装置(図示せず)へ出力する。そのために、出力部5は、例えば、表示装置を翻訳装置1と接続するためのビデオインターフェース回路を有する。
あるいは、出力部5は、翻訳文のテキストデータを、通信ネットワークを介して翻訳装置1と接続された他の装置へ出力してもよい。この場合、出力部5は、通信ネットワークに翻訳装置1を接続するためのインターフェース回路を有する。なお、入力部2も通信ネットワークを介して入力文のテキストデータを取得する場合、入力部2と出力部5は一体化されていてもよい。
処理部4は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。そして処理部4は、第1の言語で表記された入力文を第2の言語に翻訳する。
図3は、処理部4の機能ブロック図である。処理部4は、順方向検索部11と、最長共通部抽出部12と、逆方向検索部13と、対訳生成部14と、置換部15とを有する。
処理部4が有するこれらの各部は、例えば、処理部4が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部4が有するこれらの各部は、その各部の機能を実現する一つの集積回路として翻訳装置1に実装されてもよい。
順方向検索部11は、記憶部3に記憶された翻訳用例コーパスに登録された複数の用例の中から、その用例の第1言語表記の少なくとも一部が、翻訳対象である入力文の少なくとも一部と一致する用例を抽出する。
その際、第1言語が日本語または中国語のように、文字単位で表される言語である場合には、順方向検索部11は、入力文と所定の文字数以上一致する用例を抽出することが好ましい。所定の文字数は、例えば、2または3に設定される。このように、一致する文字数の下限を設定することで、順方向検索部11は、抽出される用例の数を抑制できる。
また、第1言語が英語またはドイツ語のように、単語単位で空白により区切られる言語である場合には、順方向検索部11は、入力文と空白で区切られた少なくとも一つの単語が一致する用例を抽出することが好ましい。このように、少なくとも単語単位で一致する用例のみを抽出することで、順方向検索部11は、抽出される用例の数を抑制できる。
さらに、第1言語が英語またはドイツ語のように、単語に活用形がある場合、順方向検索部11は、第1言語表記中に入力文中の単語と活用形のみが異なる単語が含まれる用例がある場合、その用例を抽出してもよい。これにより、例えば、入力文中に単数形の単語「monitor」が含まれていれば、第1言語表記に「monitors」といった複数形の単語を含む用例も抽出されることになる。このように、順方向検索部11は、活用形による語尾の相違といった、辞書を利用しなくても分かる程度の言語の知識を利用することで、用例の抽出をより適切に実行できる。
図4は、入力文が日本語で表記された「ネットワークモニター」である場合に、図2に示された翻訳用例コーパス200から抽出される用例の日本語表記及び対応する中国語表記の一覧を含むテーブルを示す図である。この例では、テーブル400には、入力された文のうちの「ネットワーク」の部分と部分一致する日本語表記を持つ用例と、「モニター」の部分と部分一致する日本語表記を持つ用例が含まれる。
順方向検索部11は、入力文の少なくとも一部と少なくとも部分一致する用例の第1言語による表記を対応する第2言語による表記とともに記憶部3に記憶する。なお、以下では、便宜上、順方向検索部11により抽出された用例を検索対象用例と呼ぶ。
最長共通部抽出部12は、入力文に含まれる複数の文字列のそれぞれごとに、検索対象用例のうちの少なくとも二つについてその文字列を含む第1言語表記の最も長い共通部分を求める。そして最長共通部抽出部12は、その最も長い共通部分を持つ用例についての第2言語表記中の最も長い共通部分をそれぞれ用語訳として抽出する。
再度図4を参照すると、文字列「モニター」に関して、用例の日本語表記で最長となる共通部分は「モニター」であり、中国語表記で最長となる共通部分は「監視器」である。一方、文字列「ネットワーク」に関して、用例の日本語表記で最長となる共通部分は「ネットワークモ」であり、中国語表記で最長となる共通部分は「網路」である。
したがって、図5のテーブル500に示されるように、入力文「ネットワークモニター」に対して、図2に示された翻訳用例コーパスの中から二つの最長共通部分の組が求められる。一つは、第1言語(日本語)の最長共通部分「モニター」と第2言語(中国語)の最長共通部分「監視器」の組であり、もう一つは、第1言語の最長共通部分「ネットワークモ」と第2言語の最長共通部分「網路」の組である。
図6は、最長共通部抽出部12により実行される、最長共通部抽出処理の動作フローチャートである。最長共通部抽出部12は、先ず、着目する用例を示す番号K、Lを、それぞれ、1、2に初期化するとともに、順方向検索部11により抽出された用例の総数をSmaxとする(ステップS101)。最長共通部抽出部12は、K番目の用例とL番目の用例の第1言語表記の最も長い共通する文字列(Longest common string, LCS)及び第2言語表記のLCSを抽出する(ステップS102)。最長共通部抽出部12は、第1言語のLCS及び第2言語のLCSの少なくとも一方が空文字列か否か判定する(ステップS103)。第1言語のLCSと第2言語のLCSがともに空文字列でない場合(ステップS103−No)、最長共通部抽出部12は、第1言語のLCS及び第2言語のLCSが、それぞれ、既に抽出されている最長共通部分の候補を含むか否か判定する(ステップS104)。第1言語のLCS及び第2言語のLCSが、既に抽出されている最長共通部分の候補を含む場合(ステップS104−Yes)、最長共通部抽出部12は、最長共通部分の候補を更新する。すなわち、最長共通部抽出部12は、K番目の用例とL番目の用例の第1言語表記のLCS及び第2言語表記のLCSを、それぞれ、最長共通部分の候補として記憶部3に記憶する(ステップS105)。
ステップS104にて、第1言語のLCS及び第2言語のLCSの何れかが、既に抽出されている最長共通部分の候補を含まない場合(ステップS104−No)、最長共通部抽出部12は、着目する用例の番号Lを1インクリメントする(ステップS106)。またステップS105の後も、最長共通部抽出部12は、着目する用例の番号Lを1インクリメントする(ステップS106)。あるいはまた、ステップS103にて、第1言語のLCSまたは第2言語のLCSが空文字列である場合も(ステップS103−Yes)、最長共通部抽出部12は、着目する用例の番号Lを1インクリメントする(ステップS106)。
その後、最長共通部抽出部12は、番号Lが、抽出された用例の総数Smaxよりも大きいか否か判定する(ステップS107)。番号Lが用例の総数Smax以下であれば(ステップS107−No)、最長共通部抽出部12は、ステップS102以降の処理を繰り返す。一方、番号Lが用例の総数Smaxより大きければ(ステップS107−Yes)、最長共通部抽出部12は、着目する用例の番号Kを1インクリメントするとともに、番号Lを(K+1)に設定する(ステップS108)。
その後、最長共通部抽出部12は、番号Kが、抽出された用例の総数Smax以上か否か判定する(ステップS109)。番号Kが用例の総数Smax未満であれば(ステップS109−No)、最長共通部抽出部12は、ステップS102以降の処理を繰り返す。一方、番号Kが用例の総数Smax以上であれば(ステップS109−Yes)、最長共通部抽出部12は、第1言語及び第2言語のそれぞれについて、現時点の最長共通部分の候補を、最長共通部分とする(ステップS110)。そして最長共通部抽出部12は、最長共通部抽出処理を終了する。
なお、最長共通部抽出部12は、入力文に含まれる文字列のうちで、第1言語の最長共通部分に含まれない文字列がある場合には、第1言語表記がその文字列を含む用例について上記の最長共通部抽出処理を実行する。そして最長共通部抽出部12は、最終的に、入力文に含まれる全ての文字列について、その文字列を含む第1言語表記の最長共通部分と対応する第2言語表記の最長共通部分を求める。
逆方向検索部13は、第2言語の最長共通部分のそれぞれを用語訳として、その用語訳を第2言語表記中に含む用例を翻訳用例コーパスから抽出する。
図7に示されたテーブル700は、図2に示された翻訳用例コーパス200に登録されている用例のうち、図5に示された第2言語の最長共通部分である用語訳「監視器」を含む用例の一覧と、用語訳「網路」を含む用例の一覧を示す。テーブル700において左側の列の各欄には、用語訳を含む用例の第2言語表記が記され、右側の列の各欄には、左隣に隣接する第2言語表記に対応する用例の第1言語が記される。またテーブル700において、上2行が用語訳「監視器」に対応し、下3行が用語訳「網路」に対応する。
逆方向検索部13は、用語訳を含む用例の第1言語表記及び対応する第2言語表記を、その用語訳とともに記憶部3に記憶する。
対訳生成部14は、用語訳ごとに、第2言語表記がその用語訳を含む用例の第1言語表記のうちの最長の共通部分を、その用語訳に対応する第1言語表記の用語とする。そして対訳生成部14は、第1言語表記の用語と、対応する第2言語表記の用語訳とを対訳とする。
例えば、再度図7を参照すると、用語訳「監視器」を第2言語表記中に含む二つの用例の第1言語表記の最長共通部分は「モニター」である。そこで、対訳生成部14は、用語「モニター」と用語訳「監視器」とを対訳とする。一方、用語訳「網路」を第2言語表記中に含む三つの用例の第1言語表記の最長共通部分は「ネットワーク」である。そこで、対訳生成部14は、用語「ネットワーク」と用語訳「網路」とを対訳とする。
対訳生成部14は、対訳となる用語と用語訳の組み合わせを記憶部3に記憶する。
置換部15は、記憶部3に記憶された対訳を参照することにより、入力文を用語単位に分割し、用語ごとに、その用語に対応する第2言語の用語訳に置換する。さらに置換部15は、用語訳の並びを様々に変化させて複数の用語訳の配列を作成する。そして置換部15は、用語訳の配列ごとに、例えば、第2言語についての言語モデルに基づいて、その配列の確からしさを表す評価値を算出する。置換部15は、言語モデルとして、例えば、Nグラムモデル、隠れマルコフモデルまたは最大エントロピーモデルを用いることができる。
置換部15は、用語訳の配列のうち、最も確からしい評価値を持つ用語訳の配列を、入力文に対する第2言語の訳文とする。そして置換部15は、得られた訳文のテキストデータを出力部5を介して出力する。
例えば、上記の例では、入力文「ネットワークモニター」のうちの用語「ネットワーク」が用語訳「網路」で置換され、用語「モニター」が用語訳「監視器」で置換される。そして、その用語訳の配列「網路監視器」と「監視器網路」それぞれの評価値を比較すると、「網路監視器」の評価値の方が確からしい値となる。したがって、置換部15は、入力文「ネットワークモニター」の訳文として、「網路監視器」を出力する。
図8は、翻訳装置1の処理部4により実行される、翻訳処理の動作フローチャートである。処理部4は、入力部2を介して翻訳対象の文が入力される度に、以下の動作フローチャートに従って翻訳処理を実行する。
処理部4の順方向検索部11は、翻訳用例コーパスに登録された、複数の用例の中から、入力文中に含まれる文字列と第1言語表記の少なくとも一部の文字列が一致する用例を抽出する(ステップS201)。処理部4の最長共通部抽出部12は、入力文に含まれる文字列ごとに、抽出された2以上の用例間での第1言語表記のその文字列を含む最長共通部分を求める。そして最長共通部抽出部12は、第1言語表記にその最長共通部分を持つ用例の第2言語表記間の最長共通部分を抽出する(ステップS202)。
最長共通部分が抽出されると、処理部4の逆方向検索部13は、第2言語表記の最長共通部分のそれぞれを用語訳として、用語訳ごとに、その用語訳を第2言語表記中に含む用例を翻訳用例コーパスから抽出する(ステップS203)。処理部4の対訳生成部14は、用語訳ごとに、第2言語表記がその用語訳を含む用例の第1言語表記のうちの最長共通部分を、その用語訳に対応する第1言語の用語とする(ステップS204)。そして対訳生成部14は、第1言語の用語と、対応する第2言語の用語訳との組を対訳とする(ステップS205)。
処理部4の置換部15は、対訳を参照することにより、入力された文を用語単位に分割し、用語ごとに、その用語に対応する第2言語の用語訳に置換する(ステップS206)。さらに置換部15は、その置換により得られた用語訳の集合に含まれる用語訳を一列に並べた用語訳の配列ごとに評価値を算出し、最も確からしい評価値を持つ用語訳の配列を、入力文の第2言語の訳文とする(ステップS207)。
そして処理部4は翻訳処理を終了する。
以上に説明してきたように、この翻訳装置は、翻訳対象の入力文の構造を解析せずに、翻訳用例コーパスのみを用いてその入力文を第1の言語から第2の言語に翻訳できる。そのため、この翻訳装置は、入力文が文の構造を解析するために必要な情報または技術がない言語で記載されていても、その入力文を他の言語に翻訳できる。
次に、第2の実施形態による翻訳装置について説明する。第2の実施形態による翻訳装置は、用例の三つ以上の言語による表記が登録された翻訳用例コーパスを使用する。そしてこの翻訳装置は、入力された文が表記された第1言語と翻訳対象の第2言語間のその入力文に含まれる用語の対訳を生成する際に、翻訳用例コーパスに登録された第3言語の表記も参照する。
第2の実施形態による翻訳装置は、第1の実施形態による翻訳装置と比較して、利用される翻訳用例コーパスと、処理部により実行される処理の一部が異なる。そこで以下では、翻訳用例コーパス及び処理部について説明する。
なお、以下では、第1言語を日本語、第2言語を中国語、第3言語を英語とする。しかし、第1言語〜第3言語は、それぞれ、どの言語であってもよい。
図9は、第2の実施形態による翻訳装置で使用される翻訳用例コーパスの他の一例を示す図である。翻訳用例コーパス900には、用例ごとに、日本語表記と、中国語表記と、英語表記とが登録されている。なお、翻訳用例コーパスには、用例ごとに、4種類以上の言語の表記が登録されていてもよい。
第2の実施形態による翻訳装置の処理部は、第1の実施形態による翻訳装置の処理部と比較して、対訳生成部14の処理が異なる。そこで以下では、対訳生成部14及びその関連部分について説明する。
対訳生成部14は、第2言語表記が用語訳を含む用例についての第1言語表記のうちの最長共通部分が、その用語訳に対応する第1言語の用語として適切でないことを示す不適切条件を満たすか否か判定する。例えば、その最長共通部分が、翻訳対象の入力文に含まれていない場合、対訳生成部14は、その最長共通部分は、不適切条件を満たすと判定する。また、最長共通部分が記号のみを含む場合、あるいは、最長共通部分が1文字しか含まない場合も、対訳生成部14は、その最長共通部分は不適切条件を満たすと判定してもよい。
例えば、翻訳対象の文として「ネットワークモニター」が入力され、対訳を生成するために、図9に示した翻訳用例コーパス900が用いられるとする。この場合、順方向検索により、第1の実施形態と同様に、第1言語表記の最長共通部分「ネットワークモ」に対応する第2言語表記の最長共通部分「網路」が得られる。そこで、逆方向検索部13は、翻訳用例コーパス900に含まれる用例のうち、第2言語表記に「網路」を含む用例を抽出する。
図10に示されたテーブル1000は、この例において抽出された、用語訳「網路」を含む用例の一覧を示す。この例では、「網路」を含む用例の第1言語表記の最長共通部分は記号「ー」となる。そのため、第1言語表記の最長共通部分「ー」は不適切条件を満たし、対訳生成部14は、その最長共通部分「ー」を、用語訳「網路」に対応する用語として不適切と判定する。
第1言語表記の最長共通部分が不適切条件を満たす場合、対訳生成部14は、第2言語表記中に用語訳を持つ翻訳用例コーパスに登録された用例のうちで少なくとも二つの用例の第3言語表記の最長共通部分を検索用のキーワードとして抽出する。対訳生成部14は、第3言語表記中にそのキーワードを含む用例を選択する。対訳生成部14は、選択した用例の第1言語表記の最長共通部分を求める。そして対訳生成部14は、その最長共通部分を、第2言語の用語訳に対応する第1言語の用語とする。
例えば、図10に示されたテーブル1000を参照すると、第2言語表記が用語訳「網路」を含む用例のうちで、2以上の用例間での第3言語の最長共通部分は「network」となる。第3言語表記にキーワード「network」が含まれる用例には、「オンラインゲーム」が含まれなくなるので、その用例に対する第1言語の最長共通部分は「ネットワーク」となる。したがって、対訳生成部14は、第2言語の用語訳「網路」に対する第1言語の用語を「ネットワーク」とする。
図11は、第2の実施形態による翻訳装置の対訳生成部14による対訳生成処理の動作フローチャートである。
対訳生成部14は、翻訳用例コーパスに登録された用例のうち、第2言語表記が用語訳を含む用例の第1言語表記のうちの最長共通部分を、その用語訳に対応する第1言語の用語の候補とする(ステップS301)。対訳生成部14は、その用語の候補が不適切条件を満たすか否か判定する(ステップS302)。
用語の候補が不適切条件を満たさない場合(ステップS302−No)、対訳生成部14は、その用語の候補を第2言語の用語訳に対応する第1言語の用語として対訳を生成する(ステップS303)。
一方、用語の候補が不適切条件を満たす場合(ステップS302−Yes)、対訳生成部14は、第2言語表記中に用語訳を持つ翻訳用例コーパスに登録された用例のうちで少なくとも二つの用例の第3言語表記の最長共通部分を抽出する(ステップS304)。そして対訳生成部14は、その最長共通部分をキーワードとする。対訳生成部14は、第3言語表記中にそのキーワードを含む用例を選択する(ステップS305)。対訳生成部14は、選択した用例の第1言語表記の最長共通部分を求める(ステップS306)。そして対訳生成部14は、その最長共通部分を、第2言語の用語訳に対応する第1言語の用語として対訳を生成する(ステップS307)。
ステップS303またはS307の後、対訳生成部14は、対訳生成処理を終了する。
なお、対訳生成部14は、第3言語を利用して求められた第1言語の最長共通部分についても、不適切条件を満たすか否か判定してもよい。この場合には、対訳生成部14は、第1言語及び第2言語と異なり、かつ、翻訳用例コーパスに登録された他の言語のキーワードを用いて得られた用例の第1言語表記の最長共通部分が不適切条件を満たさなくなるまで、上記の処理を繰り返してもよい。
この実施形態によれば、翻訳装置は、翻訳用例コーパスに登録された用例の3種類以上の言語表記のそれぞれについて共通な部分を探すことで第1言語と第2言語間の対訳を生成するので、その対訳の精度を向上できる。
なお、変形例によれば、第1の実施形態による翻訳装置も、第2の実施形態による翻訳装置が利用するような、三つ以上の言語表記が登録された翻訳用例コーパスを使用してもよい。
また他の変形例によれば、各実施形態による翻訳装置は、対訳が求められる度にその対訳に含まれる第1言語の用語を入力文から除いた残りの文字列についてステップS202〜S206の処理を行って、入力文に含まれる全ての用語について対訳を求めてもよい。
さらに、上記の各実施形態による音声合成装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、コンピュータによって読み取り可能な媒体、例えば、磁気記録媒体、光記録媒体または半導体メモリに記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
1 翻訳装置
2 入力部
3 記憶部
4 処理部
5 出力部
11 順方向検索部
12 最長共通部抽出部
13 逆方向検索部
14 対訳生成部
15 置換部

Claims (4)

  1. 第1の言語で表記された文のテキストデータを取得する入力部と、
    複数の用例のそれぞれについて、少なくとも前記第1の言語の表記と第2の言語の表記とが登録された翻訳用例コーパスを記憶する記憶部と、
    前記複数の用例の前記第1の言語の表記のうち、前記文に含まれる所定数の文字単位または単語単位の何れかの文字列を含む用例を検索対象用例として抽出する順方向検索部と、
    前記検索対象用例に含まれる前記文字列のそれぞれごとに、前記検索対象用例のうちの少なくとも二つの前記第1の言語の表記間で最も長く、かつ前記文字列を含む第1の共通部分を求め、当該第1の共通部分を含む、前記検索対象用例の前記第2の言語の表記間の最も長い第2の共通部分を前記第2の言語の用語訳として抽出する最長共通部抽出部と、
    前記用語訳ごとに、前記複数の用例のうち、前記第2の言語の表記に当該用語訳を含む用例を逆引き用例として抽出する逆方向検索部と、
    前記用語訳ごとに、前記逆引き用例に対応する前記第1の言語の表記間で最も長い共通部分を当該用語訳に対応する前記第1の言語の用語とし、当該用語と当該用語訳の組を対訳とする対訳生成部と、
    前記対訳を参照することにより、前記文に含まれる前記対訳が求められた第1の言語の用語のそれぞれを、当該用語に対応する前記用語訳に置換することで前記文の前記第2の言語による訳文を生成する置換部と、
    を有する翻訳装置。
  2. 前記翻訳用例コーパスには、前記複数の用例のそれぞれについての第3の言語の表記がさらに登録されており、
    前記対訳生成部は、前記用語訳ごとに、当該用語訳の前記逆引き用例の前記第1の言語の表記間の最も長い共通部分を当該用語訳に対応する前記第1言語の用語の候補とし、当該用語の候補が所定の不適切条件を満たす場合、前記逆引き用例のうちの少なくとも二つの前記第3の言語の表記間の最も長い共通部分をキーワードとし、前記複数の用例のうち、前記第3の言語の表記が前記キーワードを含む用例の前記第1の言語の表記間で最も長い共通部分を前記用語とする、請求項1に記載の翻訳装置。
  3. 前記置換部は、前記用語訳の配列ごとに当該配列の確からしさを表す評価値を前記第2の言語についての言語モデルに基づいて算出し、最も確からしい評価値に対応する前記用語訳の配列を前記訳文とする、請求項1または2に記載の翻訳装置。
  4. 第1の言語で表記された文のテキストデータを取得し、
    処理部が、記憶部に記憶された、複数の用例のそれぞれについて、少なくとも前記第1の言語の表記と第2の言語の表記とが登録された翻訳用例コーパスに登録された前記複数の用例の前記第1の言語の表記のうち、前記文に含まれる所定数の文字単位または単語単位の何れかの文字列を含む用例を検索対象用例として抽出し、
    前記処理部が、前記検索対象用例に含まれる前記文字列のそれぞれごとに、前記検索対象用例のうちの少なくとも二つの前記第1の言語の表記間で最も長く、かつ前記文字列を含む第1の共通部分を求め、当該第1の共通部分を含む、前記検索対象用例の前記第2の言語の表記間の最も長い第2の共通部分を前記第2の言語の用語訳として抽出し、
    前記処理部が、前記用語訳ごとに、前記複数の用例のうち、前記第2の言語の表記に当該用語訳を含む用例を逆引き用例として抽出し、
    前記処理部が、前記用語訳ごとに、前記逆引き用例に対応する前記第1の言語の表記間で最も長い共通部分を当該用語訳に対応する前記第1の言語の用語とし、当該用語と当該用語訳の組を対訳とし、
    前記処理部が、前記対訳を参照することにより、前記文に含まれる前記対訳が求められた第1の言語の用語のそれぞれを、当該用語に対応する前記用語訳に置換することで前記文の前記第2の言語による訳文を生成する、
    ことを含む翻訳方法。
JP2013102268A 2013-05-14 2013-05-14 翻訳装置及び翻訳方法 Expired - Fee Related JP6221339B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013102268A JP6221339B2 (ja) 2013-05-14 2013-05-14 翻訳装置及び翻訳方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013102268A JP6221339B2 (ja) 2013-05-14 2013-05-14 翻訳装置及び翻訳方法

Publications (2)

Publication Number Publication Date
JP2014222456A JP2014222456A (ja) 2014-11-27
JP6221339B2 true JP6221339B2 (ja) 2017-11-01

Family

ID=52121947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013102268A Expired - Fee Related JP6221339B2 (ja) 2013-05-14 2013-05-14 翻訳装置及び翻訳方法

Country Status (1)

Country Link
JP (1) JP6221339B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118410811A (zh) * 2024-03-28 2024-07-30 广州逸虎网络科技有限公司 文本翻译方法、装置、设备以及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4607671B2 (ja) * 2005-06-07 2011-01-05 富士通株式会社 翻訳支援プログラム、方法及び装置
JP5100445B2 (ja) * 2008-02-28 2012-12-19 株式会社東芝 機械翻訳する装置および方法
JP5257189B2 (ja) * 2009-03-25 2013-08-07 富士通株式会社 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法

Also Published As

Publication number Publication date
JP2014222456A (ja) 2014-11-27

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
KR101435265B1 (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
US8041557B2 (en) Word translation device, translation method, and computer readable medium
JP6655788B2 (ja) 対訳コーパス作成方法、該装置および該プログラムならびに機械翻訳システム
CN102455845B (zh) 一种文字输入方法和装置
KR101266361B1 (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
JP5915326B2 (ja) 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム
JP4266222B2 (ja) 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
JP2009205357A (ja) 中国語の品詞を判定する装置、方法およびプログラム
JP6160438B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
Jamro Sindhi language processing: A survey
JP6221339B2 (ja) 翻訳装置及び翻訳方法
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP4843596B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP2016189154A (ja) 翻訳方法、装置、及びプログラム
JP5398638B2 (ja) 記号入力支援装置、記号入力支援方法、及びプログラム
JP4881399B2 (ja) 対訳情報作成装置、機械翻訳装置及びプログラム
JP6203083B2 (ja) 未知語抽出装置及び未知語抽出方法
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
Cui et al. Efficient Text Analysis with Pre-Trained Neural Network Models
EP4394648A1 (en) Parallel corpus construction program, parallel corpus construction method, and information processing apparatus
JP2018055620A (ja) 情報処理装置及びプログラム
JP2005135039A5 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170613

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170918

R150 Certificate of patent or registration of utility model

Ref document number: 6221339

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees