JP2014075073A - 翻訳処理装置及びプログラム - Google Patents

翻訳処理装置及びプログラム Download PDF

Info

Publication number
JP2014075073A
JP2014075073A JP2012222914A JP2012222914A JP2014075073A JP 2014075073 A JP2014075073 A JP 2014075073A JP 2012222914 A JP2012222914 A JP 2012222914A JP 2012222914 A JP2012222914 A JP 2012222914A JP 2014075073 A JP2014075073 A JP 2014075073A
Authority
JP
Japan
Prior art keywords
language
sentence
pattern
representative
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012222914A
Other languages
English (en)
Inventor
Shaoming Liu
紹明 劉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2012222914A priority Critical patent/JP2014075073A/ja
Priority to CN201380052218.5A priority patent/CN104704487B/zh
Priority to PCT/JP2013/066640 priority patent/WO2014054316A1/ja
Publication of JP2014075073A publication Critical patent/JP2014075073A/ja
Priority to US14/678,544 priority patent/US9164989B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Abstract

【課題】全言語ペアごとの対訳辞書情報や言語間の翻訳を仲介する中間言語を要さずに、任意の言語間の翻訳を行う。
【解決手段】翻訳処理装置1は、複数の言語をそれぞれ複数の分類に振り分け、複数の分類ごとに、その分類に振り分けられた言語の中から代表言語を設定し、複数の分類ごとに、その分類に振り分けられた任意の言語で記述した文と、分類の代表言語で記述した文とを相互に変換し、複数の分類の任意の代表言語で記述した文と、他の代表言語で記述した文とを相互に変換する。
【選択図】図1

Description

本発明は、翻訳処理装置及びプログラムに関する。
複数の言語間で相互に翻訳するために、言語ペアごとに対訳辞書情報を構築しておくことが考えられるが、これには多大なコストがかかる。そこで、それぞれの言語と相互に変換可能な中間言語を設けることで(例えば下記の特許文献1を参照)、言語ペアごとの対訳辞書情報の構築を不要とすることも考えられる。
ただし、言語の特徴は多様であるため、多数の言語と相互に変換可能な中間言語を開発することは困難である。
特開2006−146732号公報
本発明の目的は、全言語ペアごとの対訳辞書情報や言語間の翻訳を仲介する中間言語を要さずに、任意の言語間の翻訳ができる翻訳処理装置及びプログラムを提供することにある。
請求項1に記載の発明は、複数の言語をそれぞれ複数の分類に振り分け、該複数の分類ごとに、該分類に振り分けられた言語の中から代表言語を設定する設定手段と、前記複数の分類ごとに、該分類に振り分けられた任意の言語で記述した文と、該分類の代表言語で記述した文とを相互に変換する分類内変換手段と、前記複数の分類の任意の代表言語で記述した文と、他の代表言語で記述した文とを相互に変換する分類間変換手段と、を含むことを特徴とする翻訳処理装置である。
請求項2に記載の発明は、入力文と、該入力文の言語である原言語と、該入力文を翻訳する先の言語である目標言語の情報を取得する取得手段をさらに含み、前記分類内変換手段は、前記原言語が代表言語でない場合に、前記入力文を前記原言語が属する分類の代表言語で記述した文に変換し、前記分類間変換手段は、前記原言語と前記目標言語が異なる分類に属する場合に、前記分類内変換手段により変換された文を、前記目標言語が属する分類の代表言語で記述した文に変換し、前記分類内変換手段はさらに、前記目標言語が代表言語でない場合に、前記分類間変換手段により変換した文を前記目標言語で記述した文に変換することを特徴とする請求項1に記載の翻訳処理装置である。
請求項3に記載の発明は、前記複数の分類ごとに、該分類に振り分けられた任意の言語で記述した文パターンと、該分類の代表言語で記述した文パターンとを相互に変換する変換情報を保持する分類内変換情報保持手段と、前記複数の分類の任意の代表言語で記述した文パターンと、他の代表言語で記述した文パターンとを相互に変換する変換情報を保持する分類間変換情報保持手段と、前記分類内変換情報保持手段に保持される変換情報に基づいて、前記入力文に対応する文パターンを、前記原言語が属する分類の代表言語で記述した文パターンに変換する第1変換手段と、前記分類間変換情報保持手段に保持される変換情報に基づいて、前記第1変換手段により変換した文パターンを、前記目標言語が属する分類の代表言語で記述した文パターンに変換する第2変換手段と、前記分類内変換情報保持手段に保持される変換情報に基づいて、前記第2変換手段により変換された文パターンを、前記目標言語で記述した文パターンに変換する第3変換手段と、前記目標言語が代表言語である場合には、前記第2変換手段により変換された文パターンを出力文パターンとし、前記目標言語が代表言語でない場合には、前記第3変換手段により変換された文パターンを出力文パターンとし、該出力文パターンの可変部分に対応する前記入力文の語句を前記目標言語の語句に変換して、前記入力文の翻訳文を生成する生成手段と、を含むことを特徴とする請求項2に記載の翻訳処理装置である。
請求項4に記載の発明は、複数の言語をそれぞれ複数の分類に振り分け、該複数の分類ごとに、該分類に振り分けられた言語の中から代表言語を設定する設定手段と、前記複数の分類ごとに、該分類に振り分けられた任意の言語で記述した文と、該分類の代表言語で記述した文とを相互に変換する分類内変換手段と、前記複数の分類の任意の代表言語で記述した文と、他の代表言語で記述した文とを相互に変換する分類間変換手段としてコンピュータを機能させるためのプログラムである。
請求項1及び4に記載の発明によれば、全言語ペアごとの対訳辞書情報や言語間の翻訳を仲介する中間言語を要さずに、任意の言語間の翻訳ができる。
請求項2に記載の発明によれば、入力文を目標言語に翻訳するに当たり、全言語ペアごとの対訳辞書情報や言語間の翻訳を仲介する中間言語を必要としない。
請求項3に記載の発明によれば、入力文を目標言語に翻訳するに当たり、全言語ペアごとに対訳パターンの情報や言語間の翻訳を仲介する中間言語を必要としない。
本実施形態に係る翻訳処理装置の機能ブロック図である。 翻訳処理のフローチャートである。 翻訳処理のフローチャートである。 翻訳処理のフローチャートである。 カテゴリ情報テーブルの一例を示す図である。 翻訳処理の具体例を説明する図である。
以下、本発明を実施するための実施の形態(以下、実施形態という)を、図面に従って説明する。
[機能ブロックの説明]
図1には、本実施形態に係る翻訳処理装置1の機能ブロック図を示した。図1に示されるように、翻訳処理装置1は、翻訳対象情報取得部11、入力文パターン特定部12、パターン変換部13、出力文パターン取得部14、単語対訳辞書情報保持部15、翻訳文生成部16、翻訳文出力部17を備える。
翻訳処理装置1に備えられる上記の各部の機能は、CPU等の制御手段、メモリ等の記憶手段、外部デバイスとデータを送受信する入出力手段等を備えたコンピュータが、コンピュータ読み取り可能な情報記憶媒体に格納されたプログラムを読み込み実行することで実現されるものとしてよい。なお、プログラムは光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等の情報記憶媒体によってコンピュータたる翻訳処理装置1に供給されることとしてもよいし、インターネット等のデータ通信網を介して供給されることとしてもよい。
翻訳対象情報取得部11は、翻訳処理の対象とする入力文、入力文の言語(原言語)、翻訳後の言語(目標言語)の情報(翻訳対象情報)を取得する。例えば、翻訳対象情報取得部11は、翻訳対象情報を、ユーザが翻訳処理装置1に接続された入力デバイスからの入力に基づいて取得してもよいし、他のデバイスからの受信データに基づいて取得してもよい。
入力文パターン特定部12は、翻訳対象情報取得部11により取得された入力文に対応する対訳パターンを特定する。対訳パターンとは、文を可変部分と、固定部分とに分けて構成した情報である。例えば、可変部分は、タイプ情報、変数情報、位置情報、語彙体系情報等のデータにより表される。タイプ情報は、可変部分(1)か固定部分(0)かを指定する真偽値が格納され、変数情報には、NP(1:名詞句)、AP(2:形容詞句)、DP(3:副詞句)、MP(4:数量詞句)、SP(5:地名句)、TP(6:時間句)、VP(7:動詞句)、PP(8:助詞句)等を指定するデータが格納される。位置情報には、可変部分の例文パターンにおける位置(先頭から何番目の要素であるかの情報)を示す情報が格納され、語彙体系情報には、日本語(J)や中国語(C)等の言語情報が格納される。また、固定部分は、タイプ情報、固定内容、位置情報、語彙体系情報等のデータにより表される。固定内容には、例文パターンの固定部分を構成する単語、句等のテキストデータが格納される。
以下、入力文パターン特定部12による処理の具体例について説明する。
本実施形態に係る翻訳処理装置1には、言語ごとに、対訳パターンのデータベース(パターンDB)が保持されており、入力文パターン特定部12は、原言語についてのパターンDBの中から、入力文に対応する対訳パターンの候補群を抽出する。例えば、対訳パターンのうち入力文との類似度及びカバー率がそれぞれの閾値以上である対訳パターンを候補群として抽出することとしてよい。ここで、入力文S、パターンAとすると、SとAの類似度Sim(S,A)とカバー率Cov(S,A)は以下の式で算出される。なお、入力文と類似するパターン群の抽出処理については特開2011−008553号公報に記載の技術を用いてよい。
Figure 2014075073
Figure 2014075073
入力文パターン特定部12は、上記抽出したパターンの候補群のそれぞれと、入力文との距離を算出し、算出された距離が最小のパターンを入力文パターンとして特定することとしてよい。パターンと文との距離は、それぞれの構成要素の比較結果に基づいて算出することとしてよい。ここで、入力文とパターンとの距離の算出処理については、特開2011−197713号公報に記載の技術を用いてよい。
また、入力文パターン特定部12は、上記の処理以外にも、パターンと入力文との距離に基づいて類似パターンの候補群を抽出(例えば閾値以下の距離のパターンを抽出)し、抽出されたパターンの候補群の各々と入力文との写像(対応関係)を算出し、算出された写像の中から最適な写像に対応するパターンを入力文パターンとして特定することとしてもよい。なお、パターンと入力文との写像に基づく入力文パターンの特定処理については、特開2011−008553号公報に記載の技術を用いてよい。
パターン変換部13は、入力文パターン特定部12により特定された入力文パターンを、目標言語におけるパターン(出力文パターン)に変換する。以下、パターン変換部13の構成と、パターン変換部13における処理の詳細について説明する。
パターン変換部13は、カテゴリ間パターン変換部131と、複数のカテゴリ内パターン変換部132(132−1〜N)とを備える。本実施形態では、複数の言語を複数(1〜N:Nは2以上の整数)のカテゴリ(分類)に分けて、異なるカテゴリ間のパターン変換についてはカテゴリ間パターン変換部131が実行し、同一のカテゴリ内でのパターン変換についてはカテゴリ内パターン変換部132が実行することとしている。
なお、各カテゴリ内には、複数の言語が含まれ、そのうちの1つが代表言語として設定されている。カテゴリごとの代表言語は、ユーザが設定してもよいし、カテゴリに含まれる言語のうち任意の1つをランダムに設定することとしてもよい。なお、以下では、説明の簡単のため、図1における、カテゴリ内変換部132−1〜N、代表言語パターンDB1321−1〜N、変換部1322−1〜N、言語パターンDB1323−11,12,・・・については、カテゴリ内変換部132、代表言語パターンDB1321、変換部1322、言語パターンDB1323として説明することとする。
カテゴリ内パターン変換部132はカテゴリごとに設けられており、それぞれ、代表言語パターンDB1321、言語パターンDB1323、変換部1322を備えている。なお、図1における、言語Lxy(xは1以上の整数、yは0以上の整数)とは、言語Lxyがカテゴリx内のy番目の言語であることを示している。ここで、y=0の場合、すなわちLx0は、カテゴリx内の代表言語であることを示している。
代表言語パターンDB1321には、代表言語のパターンの情報が格納されている。
言語パターンDB1323には、言語のパターンの情報が格納されている。
変換部1322は、代表言語パターンDB1321に格納されたパターンと、それぞれの言語パターンDB1323に格納されたパターンとの対応関係を示した対応関係情報に基づいて、同一カテゴリ内の1つの言語のパターンを、同一カテゴリの他の言語のパターンに変換する。ここで、代表言語以外の言語におけるパターン間の対応関係の情報は保持しない。すなわち、変換部1322は、代表言語と、それ以外の言語については、パターンを対応関係情報に基づいてダイレクトに変換し、代表言語以外の2つの言語については、一方の言語のパターンを代表言語のパターンに一旦変換した後に、変換した代表言語のパターンを目的の言語のパターンに変換することとしている。
カテゴリ間パターン変換部131は、第1のカテゴリの代表言語パターンDB1321に格納されたパターンと、第2のカテゴリの代表言語パターンDB1321に格納されたパターンとの対応関係を示した対応関係情報に基づいて、第1のカテゴリの代表言語のパターンを、第2のカテゴリの代表言語のパターンに変換する。なお、対応するパターンの検索処理については、例えば特開2012−48418号公報に記載の処理を適用することとしてよい。
パターン変換部13は、原言語と目標言語が同一カテゴリに属する場合には、そのカテゴリのカテゴリ内パターン変換部132により、入力文パターンを目標言語のパターンに変換する。そして、パターン変換部13は、原言語と目標言語が異なるカテゴリに属する場合には、入力文パターンを原言語の属するカテゴリの代表言語のパターン(第1代表言語パターン)に変換した後に、第1代表言語パターンを目標言語の属するカテゴリの代表言語パターン(第2代表言語パターン)に更に変換し、第2代表言語パターンを目標言語のパターンに変換する。なお、上記の処理において、原言語と目撃言語が代表言語である場合には、代表言語パターンへの変換は不要となる。
出力文パターン取得部14は、パターン変換部13により入力パターンを変換して得た目標言語のパターンを、入力文に対応する出力文パターンとして取得する。
単語対訳辞書情報保持部15は、言語間の単語(句を含んでもよい)の対応関係を示す辞書情報を保持する。単語対訳辞書情報保持部15は、全カテゴリの任意の言語間の辞書情報を保持することとしてもよいし、任意の代表言語間の辞書情報と、同一カテゴリ内の代表言語と代表言語以外の任意の言語間の辞書情報を保持することとしてもよい。なお、言語間の語句の対訳辞書情報については、例えば特許第4911028号公報に記載の技術を用いてよい。
翻訳文生成部16は、出力文パターン取得部14により取得した出力文パターンと、入力文と、原言語と目標言語間の辞書情報とに基づいて、翻訳文を生成する。具体的には、翻訳文生成部16は、出力文パターンにおける可変部分(例えば名詞句:NP)に対応する入力文の単語(句)を、原言語と目標言語間の辞書情報に基づいて翻訳し、翻訳された単語で出力文パターンの可変部分を置換して翻訳文を生成する。なお、語句の翻訳処理については、例えば特開2009−230561号公報に記載の技術を用いてよい。
翻訳文出力部17は、翻訳文生成部16により生成された翻訳文を出力する。例えば、翻訳文出力部17は、翻訳文を表示装置に表示させてもよいし、翻訳文を印刷出力することとしてもよい。
[フローの説明]
次に、図2〜4に示したフローチャートを参照しながら、翻訳処理装置1による翻訳処理の一連の流れについて説明する。
図2に示されるように、翻訳処理装置1は、原言語L及び入力文Sと、入力文Sを翻訳する先の目標言語Lの情報を取得する(S101)。
翻訳処理装置1は、原言語Lの言語パターンDB1323に格納されたパターンの中から、入力文Sに対応する入力文パターンPを決定する(S102)。
次に、翻訳処理装置1は、目標言語Lの目標言語カテゴリCと、原言語Lの原言語カテゴリCを特定する(S103)。言語ごとのカテゴリ情報は、図5に示されるカテゴリ情報テーブルに基づいて特定することとしてよい。図5に示されるように、カテゴリ情報テーブルには、言語の識別情報(言語ID)、言語の属するカテゴリ、代表言語フラグが関連付けられて格納されている。ここで代表言語フラグがT(真)となっている言語が、その言語が属するカテゴリの代表言語であることを示している。
翻訳処理装置1は、目標言語Lの目標言語カテゴリCと、原言語Lの原言語カテゴリCが一致している場合には(S104:Y)、S105に進む。
翻訳処理装置1は、目標言語L又は原言語Lが代表言語である場合には(S105:Y)、入力文パターンPに対応する、目標言語Lの出力文パターンPを、原言語カテゴリCの言語パターン間の対応関係情報に基づいて検索する(S106)。ここで、翻訳処理装置1は、入力文Sと入力文パターンPとの対応関係<S,P>、PとPの対応関係<P,P>から、入力文Sと出力文パターンPとの対応関係<S,P>を決定する(S107)。
翻訳処理装置1は、S105において、目標言語L又は原言語Lが代表言語でない場合には(S105:N)、入力文パターンPに対応する、代表言語(すなわち原言語カテゴリCの代表言語LCI)のパターンPCIを、原言語カテゴリCの言語パターン間の対応関係情報に基づいて検索する(S108)。
次に、翻訳処理装置1は、パターンPCIに対応する、目標言語Lの出力文パターンPを、原言語カテゴリCの言語パターン間の対応関係情報に基づいて検索する(S109)。ここで、翻訳処理装置1は、入力文Sと入力文パターンPとの対応関係<S,P>、PとPCIの対応関係<P,PCI>、PCIとPの対応関係<PCI,P>から、入力文Sと出力文パターンPTとの対応関係<S,P>を決定する(S110)。
翻訳処理装置1は、S107の後、又はS110の後に、入力文Sと出力文パターンPとの対応関係<S,P>と、原言語Lと目標言語Lの語句の対訳情報に基づいて、翻訳文Sを生成し(S111)、生成した翻訳文Sを出力して(S112)、処理を終了する。
また、S104において、目標言語Lの目標言語カテゴリCと、原言語Lの原言語カテゴリCが一致していない場合には(S104:N)、図3のS201に進む。
次に、図3のフローについて説明する。
図3に示されるように、翻訳処理装置1は、図2のS104でNの後、原言語Lが代表言語である場合には(S201:Y)、S202に進む。
翻訳処理装置1は、目標言語Lが代表言語である場合には(S202:Y)、入力文パターンPに対応する、目標言語Lの出力文パターンPを、代表言語のパターン間の対応関係情報に基づいて検索する(S203)。ここで、翻訳処理装置1は、入力文Sと入力文パターンPとの対応関係<S,P>、PとPの対応関係<P,P>から、入力文Sと出力文パターンPとの対応関係<S,P>を決定する(S204)。
また、翻訳処理装置1は、S202において、目標言語Lが代表言語でない場合には(S202:N)、入力文パターンPに対応する、目標言語カテゴリCの代表言語LCTのパターンPCTを、代表言語のパターン間の対応関係情報に基づいて検索する(S205)。
次に、翻訳処理装置1は、パターンPCTに対応する、目標言語Lの出力文パターンPを、目標言語カテゴリCの言語パターン間の対応関係情報に基づいて検索する(S206)。ここで、翻訳処理装置1は、入力文Sと入力文パターンPとの対応関係<S,P>、PとPCTの対応関係<P,PCT>、PCTとPの対応関係<PCT,P>から、入力文Sと出力文パターンPとの対応関係<S,P>を決定する(S207)。
翻訳処理装置1は、S204の後、又はS207の後に、入力文Sと出力文パターンPとの対応関係<S,P>と、原言語Lと目標言語Lの語句の対訳情報に基づいて、翻訳文Sを生成し(S208)、生成した翻訳文Sを出力して(S209)、処理を終了する。
また、S201において、原言語Lが代表言語でない場合には(S201:N)、図4のS301に進む。
次に、図4のフローについて説明する。
図4に示されるように、翻訳処理装置1は、図3のS201でNの後、目標言語Lが代表言語である場合には(S301:Y)、入力文パターンPに対応する、原言語カテゴリCの代表言語LCIのパターンPCIを、代表言語のパターン間の対応関係情報に基づいて検索する(S302)。
さらに、翻訳処理装置1は、パターンPCIに対応する、目標言語Lの出力文パターンPを、目標言語カテゴリCの言語パターン間の対応関係情報に基づいて検索する(S303)。そして、翻訳処理装置1は、入力文Sと入力文パターンPとの対応関係<S,P>、PとPCIの対応関係<P,PCI>、PCIとPの対応関係<PCI,P>から、入力文Sと出力文パターンPとの対応関係<S,P>を決定する(S304)。
また、翻訳処理装置1は、S301において、目標言語Lが代表言語でない場合には(S301:N)、入力文パターンPに対応する、原言語カテゴリCの代表言語LCIのパターンPCIを、原言語カテゴリCの言語パターン間の対応関係情報に基づいて検索する(S305)。
次に、翻訳処理装置1は、パターンPCIに対応する、目標言語カテゴリCの代表言語LCTのパターンPCTを、代表言語のパターン間の対応関係情報に基づいて検索する(S306)。さらに、翻訳処理装置1は、パターンPCTに対応する、目標言語Lの出力文パターンPを、目標言語カテゴリCの言語パターン間の対応関係情報に基づいて検索する(S307)。ここで、翻訳処理装置1は、入力文Sと入力文パターンPとの対応関係<S,P>、PとPCIの対応関係<P,PCI>、PCIとPCTの対応関係<PCI,PCT>、PCTとPの対応関係<PCT,P>から、入力文Sと出力文パターンPとの対応関係<S,P>を決定する(S308)。
翻訳処理装置1は、S304の後、又はS308の後に、入力文Sと出力文パターンPとの対応関係<S,P>と、原言語Lと目標言語Lの語句の対訳情報に基づいて、翻訳文Sを生成し(S309)、生成した翻訳文Sを出力して(S310)、処理を終了する。
[具体例の説明]
図6に示した図を参照しながら、上述したフローを具体例に適用した例について説明する。以下の例は、原言語=中国語、目標言語=日本語、原言語カテゴリ=C1、目標言語カテゴリ=C2、原言語カテゴリC1の代表言語=中国語、目標言語カテゴリC2の代表言語=韓国語とした場合に、中国語の入力文を日本語に翻訳する処理の一例を説明するものである。
翻訳処理装置1は、入力文Sについて、中国語のパターンDBから入力文パターンPを検索する。図6(A)には、入力文Sと、入力文Sについて検索された入力文パターンPの対応関係を示している。
次に、翻訳処理装置1は、入力文パターンPに対応する、目標言語カテゴリC2の代表言語である韓国語のパターンPを検索する。図6(B)には、入力文パターンPと、入力文パターンPについて検索されたパターンPとの対応関係を示している。
次に、翻訳処理装置1は、パターンPに対応する、目標言語の出力文パターンPを検索する。図6(C)には、パターンPと、出力文パターンPとの対応関係を示している。
さらに、図6(D)には、入力文パターンPと、出力文パターンPとの対応関係を示した。ここで、入力文SにおけるNP(名詞句)の日本語訳を中国語と日本語の対訳辞書から取得し、最終的に図6(E)に示される出力文Sを得る。
以上説明した翻訳処理装置1によれば、全ての言語ペアごとに対訳辞書情報を保持する必要や、中間言語のような人工言語を構築する必要もなく、マルチ言語間の翻訳が可能となる。
本発明は上記の実施形態に限定されるものではない。例えば、上記の実施形態では、文のパターン間の言語間の対応関係を利用して翻訳するパターンベース翻訳処理を適用した例を説明したが、文の解析処理(形態素解析、構文解析)の結果を利用して翻訳する解析ベース翻訳処理や、文の要素を統計的に処理した結果を利用して翻訳する統計ベース翻訳処理等の他の翻訳処理も本発明には適用可能である。
1 翻訳処理装置、11 翻訳対象情報取得部、12 入力文パターン特定部、13 パターン変換部、14 出力文パターン取得部、15 単語対訳辞書情報保持部、16 翻訳文生成部、17 翻訳文出力部、131 カテゴリ間パターン変換部、132 カテゴリ内パターン変換部、1321 代表言語パターンDB、1322 変換部、1323 言語パターンDB。

Claims (4)

  1. 複数の言語をそれぞれ複数の分類に振り分け、該複数の分類ごとに、該分類に振り分けられた言語の中から代表言語を設定する設定手段と、
    前記複数の分類ごとに、該分類に振り分けられた任意の言語で記述した文と、該分類の代表言語で記述した文とを相互に変換する分類内変換手段と、
    前記複数の分類の任意の代表言語で記述した文と、他の代表言語で記述した文とを相互に変換する分類間変換手段と、を含む
    ことを特徴とする翻訳処理装置。
  2. 入力文と、該入力文の言語である原言語と、該入力文を翻訳する先の言語である目標言語の情報を取得する取得手段をさらに含み、
    前記分類内変換手段は、前記原言語が代表言語でない場合に、前記入力文を前記原言語が属する分類の代表言語で記述した文に変換し、
    前記分類間変換手段は、前記原言語と前記目標言語が異なる分類に属する場合に、前記分類内変換手段により変換された文を、前記目標言語が属する分類の代表言語で記述した文に変換し、
    前記分類内変換手段はさらに、前記目標言語が代表言語でない場合に、前記分類間変換手段により変換した文を前記目標言語で記述した文に変換する
    ことを特徴とする請求項1に記載の翻訳処理装置。
  3. 前記複数の分類ごとに、該分類に振り分けられた任意の言語で記述した文パターンと、該分類の代表言語で記述した文パターンとを相互に変換する変換情報を保持する分類内変換情報保持手段と、
    前記複数の分類の任意の代表言語で記述した文パターンと、他の代表言語で記述した文パターンとを相互に変換する変換情報を保持する分類間変換情報保持手段と、
    前記分類内変換情報保持手段に保持される変換情報に基づいて、前記入力文に対応する文パターンを、前記原言語が属する分類の代表言語で記述した文パターンに変換する第1変換手段と、
    前記分類間変換情報保持手段に保持される変換情報に基づいて、前記第1変換手段により変換した文パターンを、前記目標言語が属する分類の代表言語で記述した文パターンに変換する第2変換手段と、
    前記分類内変換情報保持手段に保持される変換情報に基づいて、前記第2変換手段により変換された文パターンを、前記目標言語で記述した文パターンに変換する第3変換手段と、
    前記目標言語が代表言語である場合には、前記第2変換手段により変換された文パターンを出力文パターンとし、前記目標言語が代表言語でない場合には、前記第3変換手段により変換された文パターンを出力文パターンとし、該出力文パターンの可変部分に対応する前記入力文の語句を前記目標言語の語句に変換して、前記入力文の翻訳文を生成する生成手段と、を含む
    ことを特徴とする請求項2に記載の翻訳処理装置。
  4. 複数の言語をそれぞれ複数の分類に振り分け、該複数の分類ごとに、該分類に振り分けられた言語の中から代表言語を設定する設定手段と、
    前記複数の分類ごとに、該分類に振り分けられた任意の言語で記述した文と、該分類の代表言語で記述した文とを相互に変換する分類内変換手段と、
    前記複数の分類の任意の代表言語で記述した文と、他の代表言語で記述した文とを相互に変換する分類間変換手段
    としてコンピュータを機能させるためのプログラム。
JP2012222914A 2012-10-05 2012-10-05 翻訳処理装置及びプログラム Pending JP2014075073A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012222914A JP2014075073A (ja) 2012-10-05 2012-10-05 翻訳処理装置及びプログラム
CN201380052218.5A CN104704487B (zh) 2012-10-05 2013-06-18 翻译处理装置及程序
PCT/JP2013/066640 WO2014054316A1 (ja) 2012-10-05 2013-06-18 翻訳処理装置及びプログラム
US14/678,544 US9164989B2 (en) 2012-10-05 2015-04-03 Translation processing device, non-transitory computer readable medium, and translation processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012222914A JP2014075073A (ja) 2012-10-05 2012-10-05 翻訳処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2014075073A true JP2014075073A (ja) 2014-04-24

Family

ID=50434652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012222914A Pending JP2014075073A (ja) 2012-10-05 2012-10-05 翻訳処理装置及びプログラム

Country Status (4)

Country Link
US (1) US9164989B2 (ja)
JP (1) JP2014075073A (ja)
CN (1) CN104704487B (ja)
WO (1) WO2014054316A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557467A (zh) * 2015-09-28 2017-04-05 四川省科技交流中心 基于桥梁语的机器翻译系统及翻译方法
SG11201811724TA (en) * 2016-09-09 2019-04-29 Panasonic Ip Man Co Ltd Translation device and translation method
US10268674B2 (en) * 2017-04-10 2019-04-23 Dell Products L.P. Linguistic intelligence using language validator
US11341340B2 (en) * 2019-10-01 2022-05-24 Google Llc Neural machine translation adaptation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092822A (ja) * 1999-09-17 2001-04-06 Nec Corp 自動通訳装置
JP2011197713A (ja) * 2010-03-17 2011-10-06 Fuji Xerox Co Ltd パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6140673A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 外国語作文用翻訳方法、および翻訳機
ES2101613B1 (es) 1993-02-02 1998-03-01 Uribe Echebarria Diaz De Mendi Metodo de traduccion automatica interlingual asistida por ordenador.
JPH10222516A (ja) 1997-02-10 1998-08-21 Brother Ind Ltd 多言語対応通信システム
JP3959180B2 (ja) * 1998-08-24 2007-08-15 東芝ソリューション株式会社 通信翻訳装置
JP3717730B2 (ja) * 1999-11-02 2005-11-16 セイコーインスツル株式会社 電子辞書
US20020007382A1 (en) * 2000-07-06 2002-01-17 Shinichi Nojima Computer having character input function,method of carrying out process depending on input characters, and storage medium
US8874431B2 (en) * 2001-03-16 2014-10-28 Meaningful Machines Llc Knowledge system method and apparatus
JP3959453B2 (ja) * 2002-03-14 2007-08-15 沖電気工業株式会社 翻訳仲介システム及び翻訳仲介サーバ
US7359861B2 (en) * 2002-04-24 2008-04-15 Polyglot Systems, Inc. Inter-language translation device
JP2004139427A (ja) 2002-10-18 2004-05-13 Fuji Xerox Co Ltd コミュニケーション支援システム及びコミュニケーション支援システム、並びにコンピュータ・プログラム
JP2006146732A (ja) 2004-11-24 2006-06-08 Nec Corp 自動翻訳システム、自動翻訳サーバ装置及びそれらに用いる自動翻訳方法
JP4911028B2 (ja) 2005-02-24 2012-04-04 富士ゼロックス株式会社 単語翻訳装置、翻訳方法および翻訳プログラム
JP2006268375A (ja) * 2005-03-23 2006-10-05 Fuji Xerox Co Ltd 翻訳メモリシステム
JP4058057B2 (ja) * 2005-04-26 2008-03-05 株式会社東芝 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
KR100912502B1 (ko) * 2007-07-27 2009-08-17 한국전자통신연구원 Pdf 파일을 대상으로 하는 자동 번역 방법
US20090182770A1 (en) * 2008-01-11 2009-07-16 Pointcross, Inc. Personalization of contextually relevant computer content
JP5007977B2 (ja) * 2008-02-13 2012-08-22 独立行政法人情報通信研究機構 機械翻訳装置、機械翻訳方法、及びプログラム
JP5194920B2 (ja) 2008-03-24 2013-05-08 富士ゼロックス株式会社 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
US8244519B2 (en) * 2008-12-03 2012-08-14 Xerox Corporation Dynamic translation memory using statistical machine translation
JP5391867B2 (ja) 2009-06-26 2014-01-15 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム
TWI409646B (zh) * 2009-10-14 2013-09-21 Inst Information Industry 詞彙翻譯系統、詞彙翻譯方式以及電腦可讀寫儲存媒體
US20110307240A1 (en) * 2010-06-10 2011-12-15 Microsoft Corporation Data modeling of multilingual taxonomical hierarchies
JP2012048418A (ja) 2010-08-25 2012-03-08 Fuji Xerox Co Ltd 対訳情報検索装置及びプログラム
JP5747508B2 (ja) * 2011-01-05 2015-07-15 富士ゼロックス株式会社 対訳情報検索装置、翻訳装置及びプログラム
US9552213B2 (en) * 2011-05-16 2017-01-24 D2L Corporation Systems and methods for facilitating software interface localization between multiple languages
KR101870729B1 (ko) * 2011-09-01 2018-07-20 삼성전자주식회사 휴대용 단말기의 번역 트리구조를 이용한 번역장치 및 방법
US8983825B2 (en) * 2011-11-14 2015-03-17 Amadou Sarr Collaborative language translation system
JP6096489B2 (ja) * 2012-11-30 2017-03-15 株式会社東芝 外国語文章作成支援装置、方法、及びプログラム
US9031829B2 (en) * 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001092822A (ja) * 1999-09-17 2001-04-06 Nec Corp 自動通訳装置
JP2011197713A (ja) * 2010-03-17 2011-10-06 Fuji Xerox Co Ltd パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム

Also Published As

Publication number Publication date
US9164989B2 (en) 2015-10-20
US20150213007A1 (en) 2015-07-30
WO2014054316A1 (ja) 2014-04-10
CN104704487B (zh) 2017-06-13
CN104704487A (zh) 2015-06-10

Similar Documents

Publication Publication Date Title
CN107291783B (zh) 一种语义匹配方法及智能设备
CN105183720B (zh) 基于rnn模型的机器翻译方法和装置
CN107357772A (zh) 表单填写方法、装置和计算机设备
JP2016522524A (ja) 同義表現の探知及び関連コンテンツを検索する方法及び装置
JP2018073411A (ja) 自然言語の生成方法、自然言語の生成装置及び電子機器
Das et al. Part of speech tagging in odia using support vector machine
CN111459977B (zh) 自然语言查询的转换
US20170357642A1 (en) Cross Lingual Search using Multi-Language Ontology for Text Based Communication
JP2020053018A (ja) Vqaシステムの訓練データを生成する訓練データ生成方法、訓練データ生成装置、電子機器およびコンピュータ読み取り可能な媒体
CN107038163A (zh) 一种面向海量互联网信息的文本语义建模方法
JP2014075073A (ja) 翻訳処理装置及びプログラム
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
CN104021117A (zh) 语言处理方法与电子设备
Khanam et al. Named Entity Recognition using Machine learning techniques for Telugu language
Albogamy et al. Unsupervised stemmer for Arabic tweets
JP6586055B2 (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
Singh Bidirectional bengali script and meetei mayek transliteration of web based manipuri news corpus
KR20140019094A (ko) 한국어 구문 인식을 위한 어휘의미패턴 재구성 방법
US20150356076A1 (en) System and method of machine translation
Malik et al. Qualitative Analysis of Contemporary Urdu Machine Translation Systems.
KR101664278B1 (ko) 하이브리드 방법을 사용한srl 기반의 문장 분석 방법 및 장치
Yellin et al. Paths to relation extraction through semantic structure
Zhen et al. Research on entity semantic relation extraction in fusion domain
JP2004318344A (ja) 機械翻訳システム及び機械翻訳方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151224

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160614