JP2009122989A

JP2009122989A - 翻訳装置

Info

Publication number: JP2009122989A
Application number: JP2007296671A
Authority: JP
Inventors: Junichi Shibuya; 純一澁谷
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-11-15
Filing date: 2007-11-15
Publication date: 2009-06-04

Abstract

【課題】音声による発話の内容から音声認識されたテキストデータを正確に翻訳することができる翻訳装置を提供すること。
【解決手段】話者が発言したときの原言語の音声データをテキストデータに変換する音声認識部１１と、原言語を翻訳して所定の言語のテキストデータに変換する基本翻訳部１２と、基本翻訳部１２によって変換された所定の言語のテキストデータを音声合成して音声データに変換する音声合成部１３と、音声合成部１３によって変換された音声データを所定の装置に送信する音声データ送信部１４と、基本翻訳部１２によって変換された所定の言語を翻訳して原言語のテキストデータに変換する折返翻訳部１５と、折返翻訳部１５によって変換されたテキストデータを編集する編集部１７とを備え、基本翻訳部１２は、編集部１７によって編集されたテキストデータを翻訳して所定の言語のテキストデータに変換する構成する。
【選択図】図２

Description

本発明は、互いに異なる言語を使用する話者同士の言語を翻訳する翻訳装置に関する。

多言語間で会議を行う際、通訳者を介在して会議が行われるが、会議を行う毎に専任の通訳者を用意し、多言語間での通訳作業を実施するには相当の費用がかかるため、日常の業務で行う会議の活用には不向きであった。

そこで、通訳者を不用とするため、ネットワーク上にて機械翻訳システムを利用する際、高性能でリアルタイムに耐える自動翻訳サーバ（ＡＴＳ：Automatic Translation Server）が必要となる。機械翻訳システムでは、活用するシーンをある程度限定すれば、十分運用に耐える自動翻訳システムになる。

従来の自動翻訳システムは、コンピュータで構成されており、キーボードから直接原文のテキストが入力され、テキストを翻訳する際、毎回キーボードにてテキスト文が入力されてから翻訳ソフトウエアを起動し、その都度翻訳しているが、とても会議で使えるものではない。そこで、従来の自動翻訳システムは、会話の内容の音声が入力され、入力された音声を音声認識システムでテキストに変換した後、テキストを翻訳している。

例えば、従来の翻訳装置としては、音声により入力を行い、第１の言語の音声情報を第１の言語によるテキスト情報に変換し、変換によって得られた第１の言語によるテキスト情報にあらかじめ決められた区切り記号があるか否かを逐次検出し、区切り記号が検出された場合に、変換によって得られた第１の言語によるテキスト情報を第１の言語とは異なる第２の言語によるテキスト情報に翻訳することで、より円滑にユーザの意図する翻訳結果を得ることができるものが知られている（例えば、特許文献１参照）。
特開２００５−１４９０４２号公報

しかしながら、従来の翻訳装置では、発話者が正確な文法を用いて発話しない場合もあり、発話の内容に主語や述語が省略されていたりすると、第２の言語によるテキスト情報の翻訳が不正確なものになってしまうという問題があった。また、第２の言語を介して第１の言語から第３の言語に翻訳するブリッジ翻訳を行う際には、第２の言語によるテキスト情報の翻訳が不正確であると、当然に第３の言語の翻訳結果も不正確になってしまう。

そこで、本発明は、音声による発話の内容から音声認識されたテキストデータを正確に翻訳することができる翻訳装置を提供することを目的としたものである。

本発明の翻訳装置は、話者が発言したときの原言語の音声データをテキストデータに変換する音声認識部と、前記テキストデータで表される原言語を翻訳して所定の言語のテキストデータに変換する基本翻訳部と、前記基本翻訳部によって変換された所定の言語のテキストデータを音声合成して音声データに変換する音声合成部と、前記音声合成部によって変換された音声データを所定の装置に送信する音声データ送信部と、前記基本翻訳部によって変換された所定の言語のテキストデータで表される言語を翻訳して前記原言語のテキストデータに変換する折返翻訳部と、前記折返翻訳部によって変換されたテキストデータを編集する編集部とを備え、前記基本翻訳部は、前記編集部によって編集されたテキストデータを翻訳して前記所定の言語のテキストデータに変換する構成を有している。
この構成により、一旦翻訳された所定の言語のテキストデータで表される言語を折返翻訳して原言語のテキストデータに変換し、変換されたテキストデータが編集されたテキストデータを翻訳して所定の言語のテキストデータに変換するため、音声による発話の内容から音声認識されたテキストデータを正確に翻訳することができる。

また、本発明の翻訳装置は、前記基本翻訳部が変換した前記所定の言語のテキストデータまたは該テキストデータの基になるデータから前記所定の言語と異なる言語のテキストデータに変換するブリッジ翻訳部を備え、前記音声合成部は、前記ブリッジ翻訳部によって変換された前記異なる言語のテキストデータを音声合成して音声データに変換し、前記音声データ送信部は、前記音声合成部によって変換された音声データを所定の装置に送信する構成を有している。
この構成により、折返翻訳して原言語のテキストデータに変換し、変換されたテキストデータが編集されたテキストデータを翻訳して変換した所定の言語のテキストデータまたは該テキストデータの基になるデータから、所定の言語と異なる言語のテキストデータにブリッジ翻訳するため、精度の良いブリッジ翻訳が可能となる。

また、本発明の翻訳装置は、前記折返翻訳部によって変換されたテキストデータを表示させる表示制御部を備え、前記表示制御部は、前記折返翻訳部によって変換された原言語のテキストデータを前記所定の装置に送信して表示させる構成を有している。
この構成により、折返翻訳されたテキストデータである確認文の表示内容を他の装置に送信して表示させることで、確認文のテキストの修正状況や修正内容、さらに会議の進行状況を他の装置の使用者に確認させることができる。

また、本発明の翻訳装置は、前記折返翻訳部が、前記編集部が前記折返翻訳部によって変換されたテキストデータを編集した内容から、前記話者の言い回しを学習し、学習した結果を反映させて前記原言語のテキストデータに変換する構成を有している。
この構成により、学習した結果を反映させて原言語のテキストデータに変換するため、精度の高い折返翻訳を行うことができる。

以上のように本発明は、音声による発話の内容から音声認識されたテキストデータを正確に翻訳することができる翻訳装置を提供するものである。

以下、本発明の実施の形態について、図面を用いて説明する。

（本発明の第１の実施の形態）
図１は、本発明の第１の実施の形態に係る会議システムを表す図である。図１に示した会議システムでは、ネットワークを介して２つの会議端末１０が互いに接続されている。以降、会議端末１０の各々を区別する場合、会議端末１０Ａ、会議端末１０Ｂとして記載し、区別しない場合、会議端末１０として記載する。図１では、会議端末１０Ａは日本人が使用するものとし、会議端末１０Ｂはアメリカ人が使用するものとする。

会議端末１０は、パソコンなどである。電子会議を行う際に、ネットワークに接続された会議端末１０同士がデータを送受信することができる。例えば、会議端末１０は、電子会議中に、参加者（会議端末１０の使用者）の発言の言語から対象言語に翻訳し、翻訳した対象言語の内容を他の会議端末１０に送信したり、他の会議端末１０から受信した発言の音声データを再生することで、異なる言語の間で会議を行うようになっている。

例えば、図１では、会議端末１０Ａは、日本語の発言内容を英語に翻訳し、翻訳した英語の内容を表す音声データを会議端末１０Ｂに送信する。会議端末１０Ｂは、送信された英語の内容を表す音声データを受信し、受信した音声データを再生する。

本発明の実施の形態では、図１に示した会議システムで用いられるデータの送受信は、ＩＰ（Internet Protocol）に準拠して行われるため、会議端末１０には、ＩＰアドレスが登録されている。なお、本発明の翻訳装置は例示すれば会議端末１０であるため、本発明の第１の実施の形態では、会議端末１０について説明する。

図２は、本発明の第１の実施の形態に係る会議端末のブロック図である。会議端末１０は、一般的なコンピュータの構成を有しており、詳細には、図示していないＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、およびハードディスク、さらに、ネットワークに接続するためのネットワークインタフェース２１、電子会議の参加者の音声を出力するスピーカ２２、会議端末１０の使用者の音声を入力するマイクロホン２３、使用者からの情報を入力するキーボードやマウスなどの入力機器２４、情報を表示するディスプレイ２５を有している。

なお、発話時に周囲の雑音が混入してしまうことを防止するため、マイクロホン２３およびスピーカ２２を、マイクロホンとイヤホンとが一体型となっているイヤホンマイクに替えてもよい。また、マイクロホン２３は、プレストークスイッチを有し、プレストークスイッチを押してから発言内容を収音するようなものでもよい。

また、図２に示すように、会議端末１０は、音声認識部１１、基本翻訳部１２、音声合成部１３、音声データ送信部１４、折返翻訳部１５、表示制御部１６、編集部１７、および音声データ受信部１８を備えており、例えば、これらの機能部は、ＣＰＵが実行するプログラムのモジュールなどで実施されてもよい。

音声認識部１１は、話者が発言したときの原言語の音声データをテキストデータに変換するようになっている。例えば、音声認識部１１は、マイクロホン２３から収音されて得られた音声データ、または、ＲＡＭなどの記憶媒体に保存されていた音声データを認識することでテキストデータに変換するようになっている。

なお、音声認識部１１は、学習機能を有する音声認識エンジンを有しており、同じ使用者の音声データをできるだけ一度に音声認識することで、音声認識の精度（音声認識率）を向上させるようにしてもよい。

音声認識部１１で音声認識する音声データは、できる限りノイズが無く１文に区切れている音声データであることが好ましい。原言語の音声データが音声認識部１１でテキストデータに変換されると、基本翻訳部１２の翻訳が開始される。また、原言語の音声データが音声認識部１１でテキストデータに変換されると、所定のタイミングで基本翻訳部１２の翻訳が開始される。所定のタイミングは、例えば、音声データ内の無音部分を検出してから５００ｍｓ〜３０００ｍｓ程度が好ましい。

基本翻訳部１２は、テキストデータで表される原言語を翻訳して所定の言語のテキストデータに変換するようになっている。例えば、基本翻訳部１２は、日本語から英語に翻訳するものであって、形態素解析および構文解析などを用いて日本語のテキストデータを翻訳して英語のテキストデータに変換するようになっている。

なお、音声認識部１１で出力されるテキストの文字コードと、基本翻訳部１２で出力されるテキストの文字コードとが一致していないと、基本翻訳部１２で出力されるテキストが表示されると文字化けしてしまうので、テキストの文字コードを予め一致させるように設定されている。

音声合成部１３は、基本翻訳部１２によって変換された所定の言語のテキストデータを音声合成して音声データに変換するようになっている。例えば、音声合成部１３は、英語のテキストデータを音声合成するものであって、英語のテキストデータを口語で表現した音声データに変換するようになっている。

音声データ送信部１４は、音声合成部１３で変換された音声データを所定の装置に送信するようになっている。例えば、音声データ送信部１４は、音声データをネットワークインタフェース２１を介して所定の装置に送信するようになっている。

音声データ受信部１８は、他の装置から送信された音声データを受信し、音声データを再生し、再生された音声をスピーカに出力するようになっている。なお、ＩＰに準拠したネットワークを使用して電子会議を行う場合、音声データは、ＩＰパケットのペイロード部に設定されているものであり、ＲＴＰ（Real-time Transport Protocol）等に準拠した技術に従ってリアルタイムに送受信される。

折返翻訳部１５は、基本翻訳部１２によって変換された所定の言語のテキストデータで表される言語を翻訳して原言語のテキストデータに変換（折返翻訳）するようになっている。例えば、折返翻訳部１５は、英語から日本語に翻訳するものであって、形態素解析および構文解析などを用いて英語のテキストデータを翻訳して日本語のテキストデータに変換するようになっている。

表示制御部１６は、折返翻訳部１５によって変換されたテキストデータを表示させるようになっている。例えば、折返翻訳部１５によって変換された原言語が日本語であった場合、表示制御部１６は、折返翻訳部１５によって変換された日本語のテキストデータをディスプレイ２５に表示させるようになっている。

ここで、折返翻訳部１５によって変換された日本語のテキストデータを図３に示す。図３では、音声認識部１１によって音声認識された原文（テキスト）と、基本翻訳部１２によって翻訳された翻訳文のテキストと、折返翻訳部１５によって変換されたテキストとを対応させたものを表示制御部１６がディスプレイ２５に表示させている。

図３において、列１には音声認識された原文が表示され、列２には翻訳された翻訳文のテキストが表示され、列３には折返翻訳された翻訳文のテキストが表示されている。図３における各行について、表示制御部１６は、例えば、時系列を表すものであり、各テキストが出力された時点毎に１行ずつ進めてテキストを表示するようになっている。

例えば、音声認識部１１、基本翻訳部１２、折返翻訳部１５の順でテキストが出力され、これらのテキストがＲＡＭ等に一時的に記憶されているため、表示制御部１６は、ＲＡＭを介して、図３に示すように音声認識部１１によって出力されたテキストを行１に、基本翻訳部１２によって出力されたテキストを行２に、折返翻訳部１５によって出力されたテキストを行３に表示させる。また、対応関係を明確にするために、表示制御部１６は、音声認識部１１、基本翻訳部１２、折返翻訳部１５それぞれが出力したテキストを同じ行に表示させてもよい。

図３では、主語が省略された「Ａさんの東京訪問を歓迎します」というテキストが行１で表示されている。行１のテキストに対し、「Ｉ」を補って英語に翻訳されたものが行２で表示されている。英語に翻訳されたテキストに対し、折返翻訳されたものが行３で表示されている。

図３の列３行３の確認文のテキストがある列３行３には確定ボタンが表示されているが、使用者が確定ボタンをマウス等でクリックすることで、表示制御部１６は、基本翻訳部１２によって出力された列２行２のテキストを音声合成部１３に音声合成させ、音声合成された音声データが所定の装置に送信される。なお、図３の列３行３にある修正ボタンについては後述する。

編集部１７は、折返翻訳部１５によって変換されたテキストデータを編集するようになっている。ここで、テキストデータの編集について図３および図４を用いて説明する。図４は、図３に示した図３の列３の確認文のテキストを修正したものである。例えば、図４に示すように、図３に示した列３行３の確認文のテキストを入力機器２４で使用者に修正させて編集する。図４では、使用者が確認文のテキストを「私」から「私達」に修正している。使用者は確認文のテキストを修正した後、列３行３にある修正ボタンをクリックすることで、編集部１７は、使用者が修正した内容を反映させるよう折返翻訳部１５が出力したテキストを編集するようになっている。

なお、図３の列３行３のように、意味が通じるテキストである場合もあるが、上手く発話されていないと、部分的に折返翻訳されてしまい、意味が通じないテキストの場合もある。また、このように確認文（図４、列３行３）に修正を行うのに対し、原文である図４の列１行１のテキストを、列１行１の修正ボタンをクリックすることで修正することも可能である。その理由としては、「折返翻訳」による「確認文」の意味が通じず乱れてしまった場合、どうしても原文を直接修正した方が得策である場合もあるためである。

また、折返翻訳部１５は、会議端末１０の使用者が確認文のテキストを修正して編集部１７が編集した内容から、使用者の言い回しなどを学習し、学習した結果を反映させて原言語のテキストデータに折返翻訳するようにしてもよい。

なお、折返翻訳部１５において、修正の結果を学習効果に結び付けるには、修正箇所をマウスで選択した時点でユーザ辞書からの修正の候補を示しておき、その候補の中から選択させるか、「修正文書」内容をマニュアルで直接修正を加えるかを行ってもよく、運用管理者にて最適解を選ばせるようにしておくことも可能である。こまめに修正を繰り返すことにより、学習効果に蓄積され修正の都度に加えられた候補が掲載される。なお、その人の「言い回し」なども修正の対象になる。修正の候補は、選択される回数の多い候補が優先的に先頭に掲載される。学習を繰り返す事により、発話者の意図する翻訳にもなる。

ここで、基本翻訳部１２は、編集部１７によって編集されたテキストデータを翻訳して所定の言語のテキストデータに変換する。基本翻訳部１２によって変換されたテキストが、音声合成部１３で音声合成され、所定の装置に送信される。

上述のように、修正ボタンをクリックすることで、折返翻訳部１５が出力したテキストが編集され、編集されたテキストデータが翻訳および音声合成されて送信されてもよいが、図４の列２行３のように、表示制御部１６は、修正された日本語のテキストから再度翻訳された英語のテキストを表示させておき、確定ボタンをクリックすることで列２行３のテキストが、音声合成および送信されてもよい。

また、表示制御部１６は、折返翻訳部１５によって変換されたテキストデータを所定の装置に送信して表示させてもよい。例えば、表示制御部１６は、図３や図４に示した表示内容を他の装置に送信して表示させることで、確認文のテキストの修正状況や修正内容、さらに会議の進行状況を他の装置の使用者に確認させることができる。

以上のように構成された会議端末１０の動作の一例について図１から図５を用いて以下に説明する。図５は、原言語を所定の言語に翻訳するときの処理の流れの一例を示すフローチャートである。ここでは、図１に示した会議端末１０Ａの動作について説明し、原言語を日本語とし、日本語の発話を英語に翻訳する場合について説明している。

まず、会議端末１０Ａの使用者の発話による日本語の音声がマイクロホン２３から入力される（ステップＳ１）。例えば、発話時に周囲の雑音が混入してしまうことを防止するため、マイクロホン２３のプレストークスイッチが押下（ＯＮ）されてから押下が解除される（ＯＦＦ）までの発話による音声が入力される。

一般的な音声認識エンジンは、起動した直後の発話に処理が追いつけずに、発話の開始部分が抜けて（切れて）しまう事がある。これを防止し翻訳品質を向上する為には、会議が開始された時点で音声認識エンジンを起動しておき、常時アイドリング状態に保っておくことにより、プレストークスイッチがＯＮになった時点から、発話を的確に捉えることが可能となる。また、プレストークスイッチがＯＦＦに切り替わった時点で、発話の入力は中断される。このようにして、プレストークスイッチのＯＮ／ＯＦＦを操作すれば、一連の連続した会議内容の発話が正確に音声認識される。

音声認識部１１は、入力された音声データを音声認識することで日本語（原言語）のテキストデータに変換する（ステップＳ２）。次に、基本翻訳部１２は、音声認識部１１によって変換されたテキストデータの日本語（原言語）を翻訳して英語（所定の言語）テキストデータに変換する（ステップＳ３）。

次に、折返翻訳部１５は、基本翻訳部１２によって変換された英語のテキストデータで表される言語を翻訳して日本語のテキストデータに変換（折返翻訳）する（ステップＳ４）。図３に示したように、音声認識部１１によって音声認識された日本語のテキストと、基本翻訳部１２によって翻訳された英語のテキストと、折返翻訳部１５によって変換された確認用の日本語のテキストとを対応させたものが表示制御部１６によってディスプレイ２５に表示される（ステップＳ５）。なお、ステップＳ５と同時に表示制御部１６は、図３に示した表示内容のデータを会議端末１０Ｂに送信し、図３に示した表示内容を会議端末１０Ｂに表示させてもよい。

ここで、会議端末１０Ａの使用者は、図３に示した表示内容から確認文を修正するか否かを決め、確認文の修正を決めた場合、例えば図３の確認文を図４のように修正し、表示内容から確認文を修正しない場合、図３の確定ボタンをクリックする。確定ボタンがクリックされた場合（ステップＳ６）、表示制御部１６は、基本翻訳部１２によって出力された列２行２のテキストを音声合成部１３に音声合成させるため、処理はステップＳ９に進む。

会議端末１０Ａの使用者は、例えば図３の確認文を図４のように修正した後、修正ボタンをクリックし、修正ボタンがクリックされた場合（ステップＳ６）、編集部１７は、使用者が修正した内容を反映させるよう折返翻訳部１５が出力したテキストを編集する（ステップＳ７）。

編集部１７がテキストを編集したとき、基本翻訳部１２は、編集部１７によって編集されたテキストデータを翻訳して再度、英語のテキストデータに変換する（ステップＳ８）。このとき、表示制御部１６は、図４の列２行３のように、修正された日本語のテキストから再度翻訳された英語のテキストを表示させてもよい。

続いて、音声合成部１３は、基本翻訳部１２によって変換された英語のテキストデータを音声合成して音声データに変換する（ステップＳ９）。音声データ送信部１４は、音声合成部１３で変換された音声データを会議端末１０Ｂに送信する（ステップＳ１０）。

以上説明したように、本発明の第１の実施の形態に係る会議端末は、例えば主語や述語が省略された原言語のテキストが所定の言語に翻訳された場合などでも、翻訳されたときのテキストデータで表される言語を折返翻訳して原言語（例えば日本語）のテキストデータに変換し、変換されたテキストデータが編集されたテキストデータを翻訳して所定の言語（例えば英語）のテキストデータに変換するため、音声による発話の内容から音声認識されたテキストデータを正確に翻訳することができる。

（本発明の第２の実施の形態）
図６は、本発明の第２の実施の形態に係る会議システムを表す図である。図６に示した会議システムでは、ネットワークを介して３つの会議端末３０が互いに接続されている。以降、会議端末３０の各々を区別する場合、会議端末３０Ａ、会議端末３０Ｂ、会議端末３０Ｃとして記載し、区別しない場合、会議端末３０として記載する。図６では、会議端末３０Ａは日本人が使用するものとし、会議端末３０Ｂはアメリカ人が使用するものとし、会議端末３０Ｃはフランス人が使用するものとする。

会議端末３０は、パソコンなどである。電子会議を行う際に、ネットワークに接続された会議端末３０同士がデータを送受信することができる。例えば、会議端末３０は、電子会議中に、参加者（会議端末３０の使用者）の発言の言語から対象言語に翻訳し、翻訳した対象言語の内容を他の会議端末３０に送信したり、他の会議端末３０から受信した発言の音声データを再生することで、異なる言語の間で会議を行うようになっている。

例えば、図６では、会議端末３０Ａは、日本語の発言内容を英語に翻訳し、翻訳した英語の内容を表す音声データを会議端末３０Ｂに送信する。また、会議端末３０Ａは、日本語の発言内容を英語に翻訳し、さらに英語からフランス語に翻訳し、翻訳したフランス語の内容を表す音声データを会議端末３０Ｃに送信する。会議端末３０Ｂは、送信された英語の内容を表す音声データを受信し、受信した音声データを再生する。会議端末３０Ｃは、送信されたフランス語の内容を表す音声データを受信し、受信した音声データを再生する。

本発明の実施の形態では、図６に示した会議システムで用いられるデータの送受信は、ＩＰ（Internet Protocol）に準拠して行われるため、会議端末３０には、ＩＰアドレスが登録されている。なお、本発明の翻訳装置は例示すれば会議端末３０であるため、本発明の第２の実施の形態では、会議端末３０について説明する。

図７は、本発明の第２の実施の形態に係る会議端末のブロック図である。なお、本発明の第２の実施の形態に係る会議端末を構成する構成要素のうち、本発明の第１の実施の形態に係る会議端末を構成する構成要素と同一の構成要素には同一の符号を付し、それぞれの説明を省略する。

会議端末３０は、一般的なコンピュータの構成を有しており、詳細には、図示していないＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、およびハードディスク、さらに、ネットワークに接続するためのネットワークインタフェース２１、電子会議の参加者の音声を出力するスピーカ２２、会議端末１０の使用者の音声を入力するマイクロホン２３、使用者からの情報を入力するキーボードやマウスなどの入力機器２４、情報を表示するディスプレイ２５を有している。

また、図７に示すように、会議端末３０は、音声認識部１１、基本翻訳部１２、音声合成部３３、音声データ送信部１４、折返翻訳部１５、表示制御部３６、編集部１７、音声データ受信部１８、およびブリッジ翻訳部３９を備えており、例えば、これらの機能部は、ＣＰＵが実行するプログラムのモジュールなどで実施されてもよい。

ブリッジ翻訳部３９は、基本翻訳部１２が変換した所定の言語のテキストデータまたは該テキストデータの基になるデータから所定の言語と異なる言語のテキストデータに変換するようになっている。ここで、ブリッジ翻訳について説明する。英語、ドイツ語、フランス語などヨーロッパの言語の間で行われる機械翻訳については、それぞれの言語の文法などが相当似ているため、単語を入れ替えるだけでも良好な機械翻訳ができる場合がある。日本語からフランス語に翻訳するというような、文法などが似ていない言語間では、開発が進んでいる日本語と英語との間の機械翻訳を介在させて、日本語から一旦英語に翻訳され、英語からフランス語に翻訳されるなど、この場合では英語という中間言語を介在させるブリッジ翻訳という手法がよく採用される。

例えば、ブリッジ翻訳部３９は、英語からフランス語に翻訳する場合、本発明の第１の実施の形態で説明したように、基本翻訳部１２によって変換された英語のテキストからフランス語に翻訳してフランス語のテキストデータに出力するようになっている。また、ブリッジ翻訳部３９は、英語のテキストからフランス語のテキストに変換せず、英語のテキストになる前の基になるデータ（構文情報や形態素情報など）からフランス語のテキストデータに変換するようにしてもよい。

表示制御部３６は、図８に示すように、音声認識部１１によって音声認識された原文（テキスト）と、基本翻訳部１２によって翻訳された翻訳文のテキストと、折返翻訳部１５によって変換されたテキストと、ブリッジ翻訳部３９によって翻訳された翻訳文のテキストとを対応させたものをディスプレイ２５に表示させている。

図８において、列１には音声認識された原文（日本語）が表示され、列２には翻訳された翻訳文（英語）のテキストが表示され、列３にはブリッジ翻訳された翻訳文（フランス語）のテキストが表示され、列４には折返翻訳された翻訳文のテキストが表示されている。図８における各行について、表示制御部３６は、例えば、時系列を表すものであり、各テキストが出力された時点毎に１行ずつ進めてテキストを表示するようになっている。

例えば、音声認識部１１、基本翻訳部１２、折返翻訳部１５の順でテキストが出力され、これらのテキストがＲＡＭ等に一時的に記憶されているため、表示制御部３６は、ＲＡＭを介して、図８に示すように音声認識部１１によって出力されたテキストを行１に、基本翻訳部１２によって出力されたテキストを行２に、折返翻訳部１５によって出力されたテキストを行３に表示させる。また、対応関係を明確にするために、表示制御部３６は、音声認識部１１、基本翻訳部１２、折返翻訳部１５それぞれが出力したテキストを同じ行に表示させてもよい。確定ボタンおよび修正ボタンについては図３と同様である。

また、本発明の第１の実施の形態で説明したように、修正ボタンをクリックすることで、折返翻訳部１５が出力したテキストが編集され、図９の列２行３および列３行３のように、表示制御部３６は、修正された日本語のテキストから再度翻訳された英語のテキストおよびブリッジ翻訳部３９によって翻訳されたフランス語のテキストを表示させ、それぞれのテキストデータが音声合成されて送信されるようにしてもよい。

また、表示制御部３６は、折返翻訳部１５によって変換されたテキストデータを所定の装置に送信して表示させてもよい。例えば、表示制御部３６は、図８や図９に示した表示内容を他の装置に送信して表示させることで、確認文のテキストの修正状況や修正内容、さらに会議の進行状況を他の装置の使用者に確認させることができる。

音声合成部３３は、基本翻訳部１２によって変換された所定の言語のテキストデータ、および、ブリッジ翻訳部３９によって翻訳された所定の言語と異なる言語のテキストデータを音声合成して音声データに変換するようになっている。例えば、音声合成部３３は、英語およびフランス語のテキストデータを音声合成するものであって、英語およびフランス語のテキストデータを口語で表現した音声データに変換するようになっている。

なお、図７では、マイクロホン２３と音声データ送信部１４とが結線されているように示しているが、これについては後述する。

以上のように構成された会議端末３０の動作の一例について図６から図１０を用いて以下に説明する。ここでは、図６に示した会議端末３０Ａの動作について説明している。図１０は、原言語を日本語とし、日本語の発話を英語に翻訳し、さらにフランス語に翻訳するときの処理の流れの一例を示すフローチャートである。

図１０で示したステップＳ１〜ステップＳ４については、本発明の第１の実施の形態に係る会議端末の動作を構成するステップと同一であり、それぞれの説明を省略する。ステップＳ４の後、図８に示したように、音声認識部１１によって音声認識された日本語のテキストと、基本翻訳部１２によって翻訳された英語のテキストと、折返翻訳部１５によって変換された確認用の日本語のテキストとを対応させたものが表示制御部３６によってディスプレイ２５に表示される（ステップＳ２０）。なお、ステップＳ２０と同時に表示制御部３６は、図８に示した表示内容のデータを会議端末３０Ｂおよび会議端末３０Ｃに送信し、図８に示した表示内容を会議端末３０Ｂおよび会議端末３０Ｃに表示させてもよい。

ここで、会議端末３０Ａの使用者は、図８に示した表示内容から確認文を修正するか否かを決め、確認文の修正を決めた場合、例えば図８の確認文を図９のように修正し、表示内容から確認文を修正しない場合、図８の確定ボタンをクリックする。確定ボタンがクリックされた場合（ステップＳ６）、表示制御部３６は、基本翻訳部１２によって出力された図８の列２行２のテキストを音声合成部１３に音声合成させるため、処理はステップＳ２１に進む。

会議端末３０Ａの使用者は、例えば図８の確認文を図９のように修正した後、修正ボタンをクリックし、修正ボタンがクリックされた場合（ステップＳ６）、編集部１７は、使用者が修正した内容を反映させるよう折返翻訳部１５が出力したテキストを編集する（ステップＳ７）。

編集部１７がテキストを編集したとき、基本翻訳部１２は、編集部１７によって編集されたテキストデータを翻訳して再度、英語のテキストデータに変換する（ステップＳ８）。このとき、表示制御部３６は、図９の列２行３のように、修正された日本語のテキストから再度翻訳された英語のテキストを表示させてもよい。

ブリッジ翻訳部３９は、基本翻訳部１２によって変換された英語のテキストデータをブリッジ翻訳してフランス語のテキストデータに変換する（ステップＳ２１）。このとき、表示制御部３６は、図９の列３行３のように、ブリッジ翻訳部３９によってブリッジ翻訳されたフランス語のテキストを表示させてもよい。

続いて、音声合成部３３は、基本翻訳部１２によって変換された英語のテキストデータ、および、ブリッジ翻訳部３９によって翻訳されたフランス語のテキストデータを音声合成して音声データに変換する（ステップＳ２２）。

音声データ送信部１４は、音声合成部３３によって変換されたそれぞれの音声データを該当する会議端末３０に送信する（ステップＳ２３）。例えば、表１に示すような、音声データの送信に用いる宛先アドレスと各言語とを対応させた対応情報がＲＡＭやＲＯＭなどに記憶されており、音声データ送信部１４は、この対応情報に従って英語やフランス語の音声データを該当する会議端末３０に送信する。

なお、本発明の第２の実施の形態では、会議端末３０Ａ〜会議端末３０Ｃまでの形態について説明しているが、英語の音声データを受信する会議端末３０が追加された場合、表１の対応情報の英語の宛先アドレスには、会議端末３０Ｂのアドレスに加えて、英語の音声データを受信する会議端末３０のアドレスが追加される。また、フランス語の音声データを受信する会議端末３０が追加された場合、表１の対応情報のフランス語の宛先アドレスには、会議端末３０Ｃのアドレスに加えて、フランス語の音声データを受信する会議端末３０のアドレスが追加される。

以上説明したように、本発明の第２の実施の形態に係る会議端末は、例えば主語や述語が省略された原言語のテキストが所定の言語に翻訳された場合などでも、翻訳されたときのテキストデータで表される言語を折返翻訳して原言語（例えば日本語）のテキストデータに変換し、変換されたテキストデータが編集されたテキストデータを翻訳して変換した所定の言語（例えば英語）のテキストデータまたは該テキストデータの基になるデータから、所定の言語と異なる言語（例えばフランス語）のテキストデータにブリッジ翻訳するため、精度の良いブリッジ翻訳が可能となる。

また、本発明の実施の形態に係る会議端末は、図３や図４、または図８や図９に示した表示内容を記録することで、議事録を作成することができ、これらの表示内容を他の装置にも送信するため、他の装置でも議事録を作成することができる。

また、本発明の実施の形態に係る会議システムは、自動翻訳サーバ（ＡＴＳ）が無い構成としているが、会議端末１０や会議端末３０を自動翻訳サーバとして、自動翻訳サーバおよびクライアントを有する構成としてもよい。例えばこの場合、自動翻訳サーバとなる会議端末１０や会議端末３０は、クライアントとなる端末から使用者の発話となる音声データを受信し、受信した音声認識部１１で音声認識する。また、表示制御部が表示させる表示内容は、クライアントとなる端末に送信され表示される。

また、基本翻訳部１２は、図１１に示すように分岐回路で構成されるようにしてもよい。図１１に示した分岐回路をもつ基本翻訳部１２は、３つのスイッチ（以下、ＳＷという）を有し、ＳＷ１は、音声認識部１１からの入力を受付けるか、編集部１７からの入力を受付けるかを切替えるものであり、ＳＷ２は、折返翻訳部１５に出力するか、音声合成部３３またはブリッジ翻訳部３９に出力するかを切替えるものであり、ＳＷ３は、図１２に示すブリッジ翻訳テーブル４０に基づいて、音声合成部３３に出力するか、ブリッジ翻訳部３９に出力するかの何れかまたは両方に切替えるものである。以降に詳細を説明する。

図６では、会議端末３０Ａ、会議端末３０Ｂ、会議端末３０Ｃを図示していたが、以下の説明では、さらに、日本人が使用する会議端末３０Ｄ（図示していない）を加えたものとし、ネットワークを介して４つの会議端末３０が互いに接続されているものとすることを前提にする。ここでは、図１１に示した基本翻訳部１２は、会議端末３０Ａのものであるとする。

まず、音声認識部１１から日本語（原言語）のテキストデータが基本翻訳部１２に入力されている際には、ＳＷ１が音声認識部１１側に接続され、ＳＷ２が折返翻訳部１５側に接続される。このような接続で基本翻訳部１２は、上述したように基本翻訳の処理を行う。また、編集部１７によって編集されたテキストデータが基本翻訳部１２に入力されている際には、ＳＷ１が編集部１７側に接続され、ＳＷ２がＳＷ３側に接続される。このような接続でも基本翻訳部１２は、基本翻訳の処理を行う。

ＳＷ２がＳＷ３側に接続されているとき、基本翻訳部１２は、図１２に示すブリッジ翻訳テーブル４０に基づいてＳＷ３の切り替え処理を行う。

例えば、会議端末３０Ａを使用する日本人および会議端末３０Ｂを使用するアメリカ人が電子会議に参加する場合、基本翻訳部１２は、ブリッジ翻訳テーブル４０に従って、ＳＷ３の端子Ｅと端子Ｏとを接続することで、基本翻訳されたテキストデータを音声合成部３３に出力する。

また、会議端末３０Ａを使用する日本人および会議端末３０Ｃを使用するフランス人が電子会議に参加する場合、基本翻訳部１２は、ブリッジ翻訳テーブル４０に従って、ＳＷ３の端子Ｅと端子Ｆとを接続することで、基本翻訳されたテキストデータをブリッジ翻訳部３９に出力する。

また、会議端末３０Ａを使用する日本人、会議端末３０Ｂを使用するアメリカ人、および会議端末３０Ｃを使用するフランス人が電子会議に参加する場合、基本翻訳部１２は、ブリッジ翻訳テーブル４０に従って、端子Ｅと端子Ｏとを接続かつ端子Ｅと端子Ｆとを接続することで、基本翻訳されたテキストデータが、端子Ｏを介して音声合成部３３に出力されると共に、端子Ｆを介してブリッジ翻訳部３９に出力されてからブリッジ翻訳されたものが音声合成部３３に出力される。

上述のように、ＳＷ３の切り替えにより、音声合成部３３は、英語、フランス語のテキストデータを口語で表現した音声データに変換し、音声データ送信部１４は、変換された音声データを該当する会議端末３０に送信する。

ところで、音声合成部３３は、例えば、英語、フランス語のテキストデータを口語で表現した音声データに変換するとしたが、これらに加えて日本語のテキストデータを口語で表現した音声データに変換するものとする。また、図７では、マイクロホン２３と音声データ送信部１４とが結線されているように示しているが、表２の対応情報に示すような、音声データの送信に用いる宛先アドレスと各言語とを対応させた対応情報がＲＡＭやＲＯＭなどに記憶されており、音声データ送信部１４は、表２の対応情報に従って音声データを該当する会議端末３０に送信する。

このため、音声データ送信部１４は、マイクロホン２３から出力された音声データを会議端末３０Ｄに送信する。表２の対応情報において、マイクロホン２３から出力された音声データを送信する端末のアドレスは、原言語を用いる参加者のアドレスが設定されているのが好ましい。

また、表２の対応情報において、音声合成部３３から出力される英語のテキストデータを送信する端末のアドレスは、英語を用いる参加者の端末のアドレスが設定されているのが好ましく、フランス語のテキストデータを送信する端末のアドレスは、フランス語を用いる参加者の端末のアドレスが設定されているのが好ましく、日本語のテキストデータを送信する端末のアドレスは、日本語を用いる参加者の端末のアドレスが設定されているのが好ましい。なお、表２の対応情報のそれぞれの欄に１つのアドレスが設定されているが、複数のアドレスが設定されてもよい。

マイクロホン２３から出力された音声データは、音声データ送信部１４および音声認識部１１に出力され、音声データ送信部１４に出力されたものは、表２の対応情報に従って一旦会議端末３０Ｄに送信され、音声認識部１１に出力されたものは、基本翻訳部１２、折返翻訳部１５、および編集部１７などを経由する。ここで、会議端末３０Ａを使用する日本人および会議端末３０Ｄを使用する日本人が電子会議に参加する場合、基本翻訳部１２は、ブリッジ翻訳テーブル４０に従って、ＳＷ３の端子Ｊと端子Ｏとを接続することで、編集部１７から出力された日本語のテキストデータを音声合成部３３に出力する。この場合、音声合成部３３は、日本語のテキストデータを口語で表現した音声データに変換し、音声データ送信部１４は、変換された音声データを表２の対応情報に従って会議端末３０Ｄに送信する。

以上のように、会議端末３０Ｄの参加者（原言語と同じ言語を用いる参加者）は、最初に、マイクロホン２３から直に出力された音声データの音声を聞き、さらに、折返翻訳部１５および編集部１７などを経由した音声データの音声を聞くため、同じような内容の音声を２度聞くことになる。従って、最初の発言内容が不明確な音声でも、次に、明確になった内容の音声を聞けるため、発言内容を確実に理解できる。また、表示制御部３６は、折返翻訳部１５によって変換されたテキストデータを所定の装置に送信して表示させることができるため、この機能と合わせて使えば完全に発言内容を理解させることができる。

また、会議端末３０Ａを使用する日本人、会議端末３０Ｂを使用するアメリカ人、および会議端末３０Ｃを使用するフランス人、および、会議端末３０Ｄを使用する日本人が電子会議に参加する場合、基本翻訳部１２は、ブリッジ翻訳テーブル４０に従って、ＳＷ３の端子Ｅと端子Ｏとを接続、かつ端子Ｅと端子Ｆとを接続、かつ端子Ｊと端子Ｏとを接続することで、基本翻訳されたテキストデータが、端子Ｏを介して音声合成部３３に出力されると共に、端子Ｆを介してブリッジ翻訳部３９に出力されてからブリッジ翻訳されたものが音声合成部３３に出力され、さらに、編集部１７から出力された日本語のテキストデータが音声合成部３３に出力される。音声合成部３３は、英語、フランス語、日本語のテキストデータを口語で表現した音声データに変換し、音声データ送信部１４は、変換された音声データを該当する会議端末３０に送信する。

なお、現状の水準における音声合成エンジンは、複数の言語を同時に音声合成しても致命的な遅延は発生しない程度の性能を有しているため、音声データ送信部１４は、該当するそれぞれの会議端末３０に音声データを略同時に送信することができる。従って、それぞれの会議端末３０の参加者が音声データの内容を遅延なく聞くことができる。

以下、下記に付記を示す。
（付記１）
話者が発言したときの原言語の音声データをテキストデータに変換する音声認識部と、
前記テキストデータで表される原言語を翻訳して所定の言語のテキストデータに変換する基本翻訳部と、
前記基本翻訳部によって変換された所定の言語のテキストデータを音声合成して音声データに変換する音声合成部と、
前記音声合成部によって変換された音声データを所定の装置に送信する音声データ送信部と、
前記基本翻訳部によって変換された所定の言語のテキストデータで表される言語を翻訳して前記原言語のテキストデータに変換する折返翻訳部と、
前記折返翻訳部によって変換されたテキストデータを編集する編集部とを備え、
前記基本翻訳部は、前記編集部によって編集されたテキストデータを翻訳して前記所定の言語のテキストデータに変換することを特徴とする翻訳装置。
（付記２）
前記基本翻訳部が変換した前記所定の言語のテキストデータまたは該テキストデータの基になるデータから前記所定の言語と異なる言語のテキストデータに変換するブリッジ翻訳部を備え、
前記音声合成部は、前記ブリッジ翻訳部によって変換された前記異なる言語のテキストデータを音声合成して音声データに変換し、
前記音声データ送信部は、前記音声合成部によって変換された音声データを所定の装置に送信することを特徴とする付記１に記載の翻訳装置。
（付記３）
前記折返翻訳部によって変換されたテキストデータを表示させる表示制御部を備え、
前記表示制御部は、前記折返翻訳部によって変換された原言語のテキストデータを前記所定の装置に送信して表示させることを特徴とする付記１または付記２に記載の翻訳装置。
（付記４）
前記折返翻訳部は、前記編集部が前記折返翻訳部によって変換されたテキストデータを編集した内容から、前記話者の言い回しを学習し、学習した結果を反映させて前記原言語のテキストデータに変換することを特徴とする付記１から付記３までの何れかに記載の翻訳装置。

以上のように、本発明は、音声による発話の内容から音声認識されたテキストデータを正確に翻訳することができるという効果を有し、電子会議用のパソコンなどに有用である。具体的には下記の用途などに有用である。
１．国際姉妹都市間でのインタラクティブビジュアルコミュニケーション交流の場面
２．学校における国際交流の場面（特に小学生、中学生、高校生など）
３．一般企業を含む国際Web会議システム（多国籍間でのソフトウエア開発打ち合わせ）
４．インターネット放送からの情報収集
５．海外の株式市況からの最新情報の入手（個人株取引の参考に）
６．議事録原稿の自動作成（マルチ言語での議事録作成に威力を発揮します）
７．国際コンタクトセンター（在宅勤務を前提にしています）での２４時間、３６５日受付業務（多国籍対応）
８．同時通訳者の補助ツール

本発明の第１の実施の形態に係る会議システムを表す図本発明の第１の実施の形態に係る会議端末のブロック図原文、翻訳文、折返翻訳された確認文のテキストを対応させた表示のイメージ図図３に表示された確認文を修正したときのイメージ図原言語を所定の言語に翻訳するときの処理の流れの一例を示すフローチャート本発明の第２の実施の形態に係る会議システムを表す図本発明の第２の実施の形態に係る会議端末のブロック図原文、翻訳文、折返翻訳された確認文のテキストを対応させた表示のイメージ図図８に表示された確認文を修正したときのイメージ図原言語を所定の言語に翻訳してさらにブリッジ翻訳するときの処理の流れの一例を示すフローチャート３つのスイッチをもつ基本翻訳部の構成を示す図ブリッジ翻訳テーブルを示す図

符号の説明

１０、３０会議端末
１１音声認識部
１２基本翻訳部
１３、３３音声合成部
１４音声データ送信部
１５折返翻訳部
１６、３６表示制御部
１７編集部
１８音声データ受信部
２１ネットワークインタフェース
２２スピーカ
２３マイクロホン
２４入力機器
２５ディスプレイ
３９ブリッジ翻訳部
４０ブリッジ翻訳テーブル

Claims

話者が発言したときの原言語の音声データをテキストデータに変換する音声認識部と、
前記テキストデータで表される原言語を翻訳して所定の言語のテキストデータに変換する基本翻訳部と、
前記基本翻訳部によって変換された所定の言語のテキストデータを音声合成して音声データに変換する音声合成部と、
前記音声合成部によって変換された音声データを所定の装置に送信する音声データ送信部と、
前記基本翻訳部によって変換された所定の言語のテキストデータで表される言語を翻訳して前記原言語のテキストデータに変換する折返翻訳部と、
前記折返翻訳部によって変換されたテキストデータを編集する編集部とを備え、
前記基本翻訳部は、前記編集部によって編集されたテキストデータを翻訳して前記所定の言語のテキストデータに変換することを特徴とする翻訳装置。